CN114282058A - 模型训练与视频主题预测的方法、装置及设备 - Google Patents

模型训练与视频主题预测的方法、装置及设备 Download PDF

Info

Publication number
CN114282058A
CN114282058A CN202110915302.1A CN202110915302A CN114282058A CN 114282058 A CN114282058 A CN 114282058A CN 202110915302 A CN202110915302 A CN 202110915302A CN 114282058 A CN114282058 A CN 114282058A
Authority
CN
China
Prior art keywords
video
feature vector
title
cover picture
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110915302.1A
Other languages
English (en)
Inventor
何奕江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110915302.1A priority Critical patent/CN114282058A/zh
Publication of CN114282058A publication Critical patent/CN114282058A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例提供一种模型训练与视频主题预测的方法、装置及设备,该训练方法包括:将第一视频的标题和封面图输入预测模型中,使得预测模型学习第一视频的标题信息和封面图信息,以得到第一视频的封面图标题特征向量。接着,根据第一视频的封面图标题特征向量,确定第一视频的分类预测值,并根据第一视频的分类预测值和第一视频的分类真值,对预测模型进行训练,使得训练后的预测模型充分学习到了第一视频深层次的封面图和标题的融合特征信息。使用该预测模型进行后期的视频主题确定时,可以根据该预测模型输出的封面图标题特征向量,准确确定出视频的主题。

Description

模型训练与视频主题预测的方法、装置及设备
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种模型训练与视频主 题预测的方法、装置及设备。
背景技术
随着短视频业务的发展,用户可以在各短视频播放平台上观看自己喜欢 的短视频。目前各短视频播放平台包括各种主题的短视频,一个用户通常对 某几类主题的短视频感兴趣。因此,为了精准向用户推荐短视频,则需要准 确确定短视频的主题。
目前较常见的视频主题的确定方法是,基于用户行为的主题确定方法, 具体是通过用户的点击消费记录确定视频间的相关性,例如一定数量的用户 都看某两个视频,可推断出这两个视频可能有相同的受众,即这两个视频内 容相关,进一步推断出这两个视频属于同一个聚类,具体相同的主题。
但是,由于用户喜好广泛,基于用户行为确定视频主题,会导致将内容 不相关的视频确定为同一个主题,因此,基于用户行为确定的视频主题的准 确性低。
发明内容
本申请实施例提供一种模型训练与视频主题预测的方法、装置及设备, 以通过训练后的模型来准确预测视频的主题。
一方面,本申请实施例提供一种模型训练方法,包括:
从视频训练集中获取第一视频的标题和封面图;
将所述第一视频的标题和封面图输入预测模型中,得到所述第一视频的 封面图标题特征向量;
根据所述第一视频的封面图标题特征向量,确定所述第一视频的分类预 测值;
根据所述第一视频的分类预测值和所述第一视频的分类真值,对所述预 测模型进行训练,得到训练后的所述预测模型,所述预测模型用于预测视频 的主题。
在一些实施例中,上述方法还包括:
对所述多任务学习模型中的输入层进行归一化处理;
所述将特征归一化处理后的所述第一视频的封面图标题特征向量,输入 所述多任务学习模型中,包括:
将特征归一化处理后的所述第一视频的封面图标题特征向量,输入所述 输入层归一化后的所述多任务学习模型中。
在一些实施例中,上述对所述多任务学习模型中的输入层进行归一化处 理,包括:
将所述多任务学习模型的输入层参数的欧几里得范数设定为1。
在一些实施例中,上述根据所述无向图,确定标签序列,包括:使用 node2vec方式,在所述无向图上进行游走,得到所述标签序列。
另一方面,本申请实施例提供一种视频主题预测方法,包括:
获取待处理的目标视频的标题和封面图;
将所述目标视频的标题和封面图输入训练后的预测模型中,得到所述目 标视频的封面图标题特征向量;
根据预测的所述目标视频的封面图标题特征向量,确定所述目标视频所 属的目标分类;
将所述目标分类对应的主题,确定为所述目标视频的主题。
在一些实施例中,预测模型包括文本识别模块和图像识别模块;其中, 文本识别模块用于对所述目标视频的标题进行标题特征提取,输出所述目标 视频的第一标题特征向量,所述图像识别模块用于对所述目标视频的封面图 进行图像特征提取,输出所述目标视频的第一封面图特征向量,所述目标视 频的封面图标题特征向量是根据所述目标视频的第一标题特征向量和第一封 面图特征向量确定的。
在一些实施例中,上述目标视频的封面图标题特征向量是通过将所述目 标视频的第一标题特征向量和第一封面图特征向量映射至同一个语义空间中, 进而得到特征维度相同的第二标题特征向量和第二封面图特征向量,并将所 述第二标题特征向量和所述第二封面图特征向量进行相加后得到的。
在一些实施例中,上述预测模型还包括第一MLP和第二MLP;
其中,第一MLP用于对所述目标视频的第一标题特征向量进行空间和维 度转换并输出所述目标视频的第二标题特征向量;第二MLP用于对所述目标 视频的第一封面图特征向量进行空间和维度转换并输出所述目标视频的第二 封面图特征向量。
在一些实施例中,上述目标视频的封面图标题特征向量是通过将所述第 一MLP输出的第二标题特征向量和所述第二MLP输出的第二封面图特征向 量进行相加后得到的。
在一些实施例中,上述根据所述无向图,确定标签序列,包括:使用 node2vec方式,在所述无向图上进行游走,得到所述标签序列。
在一些实施例中,上述根据所述目标视频的融合特征向量,确定所述目 标视频所属的目标分类,包括:根据所述目标视频的融合特征向量,确定所 述目标视频的融合特征向量与参考集中K个聚类中心中每个聚类中心的特征 向量之间的距离;将最小距离对应的聚类中心所属的类别,确定为所述目标 视频所属的目标分类。
另一方面,本申请实施例提供一种模型训练装置,包括:
获取单元,用于从视频训练集中获取第一视频的标题和封面图;
训练单元,用于将所述第一视频的标题和封面图输入预测模型中,得到 所述第一视频的封面图标题特征向量;根据所述第一视频的封面图标题特征 向量,确定所述第一视频的分类预测值;根据所述第一视频的分类预测值和 所述第一视频的分类真值,对所述预测模型进行训练,得到训练后的所述预 测模型,所述预测模型用于预测视频的主题。
另一方面,本申请实施例提供一种视频主题预测装置,包括:
获取单元,用于获取待处理的目标视频的标题和封面图;
第一确定单元,用于将所述目标视频的标题和封面图输入训练后的预测 模型中,得到所述目标视频的封面图标题特征向量;
分类单元,用于根据预测的所述目标视频的封面图标题特征向量,确定 所述目标视频所属的目标分类;将所述目标分类对应的主题,确定为所述目 标视频的主题。
另一方面,本申请实施例提供一种计算设备,包括处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现上述第一方面和/或第二方 面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述存储介 质包括计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设 备实现如第一方面和/或第二方面所述的方法。
另一方面,本申请实施例提供一种计算机程序产品,所述程序产品包括 计算机程序,所述计算机程序存储在可读存储介质中,计算设备的至少一个 处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器 执行所述计算机程序使得计算设备实施第一方面和/或第二方面所述的方法。
基于本申请实施例提供的技术方案,通过将第一视频的标题和封面图输 入预测模型中,使得预测模型学习第一视频的标题信息和封面图信息,以得 到第一视频的封面图标题特征向量。根据第一视频的封面图标题特征向量, 确定第一视频的分类预测值,并根据第一视频的分类预测值和第一视频的分 类真值,对预测模型进行训练,使得训练后的预测模型充分学习到了第一视 频深层次的封面图和标题的融合特征信息。这样使用该预测模型进行后期的 视频主题确定时,可以根据该预测模型输出的封面图标题特征向量,准确确 定出视频的主题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申 请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例涉及的一种实施环境的结构示意图;
图2为本申请一实施例提供的模型训练方法流程示意图;
图3为本市申请实施例的对预测模型进行训练的示意图;
图4为本申请一实施例提供的模型训练方法流程示意图;
图5为本申请实施例涉及的预测模型的一种框架示意图;
图6A为本申请实施例涉及的BERT模型的一种框架图;
图6B为本申请实施例涉及的Inception-v3模型的一种框架图;
图7为本申请实施例涉及的预测模型的另一种框架示意图;
图8A为本申请实施例涉及的预测模型的训练示意图;
图8B为MMoE的一种网络结构示意图;
图9为本申请实施例涉及的预测模型的训练示意图;
图10为本申请一实施例提供的模型训练方法流程示意图;
图11为本申请实施例涉及的skpi-gram模型的框架图;
图12为本申请一实施例提供的视频主题预测方法的流程示意图;
图13为本申请实施例涉及的预测模型的另一种框架示意图;
图14为本申请一实施例提供的视频主题预测方法的流程示意图;
图15为本申请实施例提供的模型训练装置的一种结构示意图;
图16为本申请实施例提供的视频主题预测装置的一种结构示意图;
图17为本申请实施例涉及的计算设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 描述。
应理解,在本发明实施例中,“与A对应的B”表示B与A相关联。在一 种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着 仅仅根据A确定B,还可以根据A和/或其它信息确定B。
在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例 中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进 行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次 序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
本申请实施例借助人工智能技术,来准确预测视频的主题。
为了便于理解本申请的实施例,首先对本申请实施例涉及到的相关概念 进行如下简单介绍:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得 最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学 的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能 相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计 原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也 有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯 片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等 技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语 言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、 统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样 模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识 结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具 有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习 通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学 习等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人 工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进 行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、 数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使 用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常 包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
自然语言模型:通过统计学模型将人类大量的语言文字转换成机器语言, 进而用于认知、理解和生成。具体用途包括机器翻译和自动问答等。
端到端:端到端学习是一种解决问题的思路,与之对应的是多步骤解决 问题,也就是将一个问题拆分为多个步骤分步解决,而端到端是由输入端的 数据直接得到输出端的结果。
多目标学习:将多个目标融合在一个学习任务中。一般神经网络的优化 只有一个目标,如一个文本分类任务,将文本输入到模型,最终结果希望是 文本的类别标签,训练过程就是拟合这一个目标,只有一个损失函数。多目 标是指,这段文本既要获得类别信息,又要获得其他任务的结果(也许是不 同的分类体系下的标签),也就是存在多个损失函数。本申请使用的MMoe 模型本质上就是一个多目标学习模型,共享一部分参数,同时保留各个任务 独有的部分参数(专家参数),使用多个目标函数来训练模型。
编码(encode):将输入(文本或者图片)通过神经网络计算,得到的向量 (矩阵)的计算方式即为编码。
图1为本申请实施例涉及的一种实施环境的结构示意图,如图1所示, 该实施环境包括终端101和服务器102,终端101上可以安装有与服务器102 关联的应用客户端,通过该应用客户端,可以与服务器102进行交互。
其中,终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、 智能音箱、智能手表、智能电视等,但并不局限于此。示例性的,终端101可 以是用户侧设备,也可以是开发侧设备。终端101可以泛指多个终端中的一 个,本实施例仅以一个终端101来举例说明。
服务器102可以是一台或多台。服务器102是多台时,存在至少两台服 务器用于提供不同的服务,和/或,存在至少两台服务器用于提供相同的服务, 比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。服务 器102中可以设置有预测模型,该服务器102为该预测模型的训练和应用过 程提供支撑。其中,上述服务器102可以是独立的物理服务器,也可以是多 个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云 数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服 务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数 据和人工智能平台等基础云计算服务的云服务器。服务器102也可以成为区 块链的节点。
上述终端101与服务器102可以通过有线或无线通信方式进行直接或间 接地连接,本申请实施例对此不作限定。
可选的,服务器102承担主要模型训练工作,终端101承担次要模型训 练工作;或者,服务器102承担次要模型训练工作,终端101承担主要模型 训练工作;或者,服务器102或终端101分别可以单独承担模型训练工作。
用户设备上可以设有客户端,该客户端可以是视频客户端、浏览器客户 端、信息流客户端等
下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这 几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例 不再赘述。
首先结合图2对本申请实施例涉及的预测模型的训练过程进行介绍。
图2为本申请一实施例提供的模型训练方法流程示意图,该方法可以由 计算设备来执行,该计算设备可以为图1中的服务器102和/或终端101。如 图2所示,包括:
S201、从视频训练集中获取第一视频的标题和封面图。
上述视频训练集可以理解为图1中的数据库,或者数据库的一部分。可 选的,该数据库为云数据库。
上述视频训练集中包括多个已有视频,为了便于描述,将视频训练集中 的视频记为第一视频。
其中,第一视频的标题、封面图、标签、分类等信息已知。
视频的标题为视频制作方为视频输入的标题。可选的,可以在视频封面 图上进行显示,便于消费者通过标题获知该视频的主要播放内容。
视频封面图为用户切换至视频所在的界面,未点击播放该视频时,视频 界面显示的一帧图像。可选的,视频封面图可以为该视频的任意一帧视频内 容,例如该视频最具代表性的一帧内容,或者为该视频的第一帧视频内容。
视频标签可以理解视频的关键词,例如,对于电视剧视频,该视频的标 签可以是电视剧的名称、电视剧的演职人员等。
视频分类包括多个级别的分类,例如包括一级分类、二级分类等,例如 对于电视剧的某一段视频,该段视频的一级分类为电视剧,二级分类为电视 剧片花。
S202、将第一视频的标题和封面图输入预测模型中,得到第一视频的封 面图标题特征向量。
本申请实施例对预测模型的训练过程为一个迭代过程,即使用一个第一 视频对预测模型进行训练,使得预测模型的参数进行一次更新,接着,使用 另一个第一视频对参数更新过的预测模型进行训练,使得参数更新过的预测 模型的参数进行再次更新,以此类推,直到预测模型更新结束为止。
其中,预测模型更新结束的条件包括如下至少一个:第一个是,预测模 型的预测精度达到预设值;第二个是,预测模型的更新次数达到预设值。
本申请实施例在对预测模型训练时,在一次训练过程中,可以输入多个 第一视频对预测模型进行训练,还可以输入一个第一视频对预测模型进行训 练。其中,使用每个第一视频对预测模型进行训练的过程一致,下面以一个 第一视频对预测模型的训练过程进行介绍。
图3为本申请实施例的对预测模型进行训练的示意图,如图3所示,将 第一视频的标题和封面图输入预测模型中,得到第一视频的封面图标题特征 向量。
本申请实施例的预测模型为深度神经网络模型,该深度神经网络模型具 有文本处理功能和图像处理功能。本申请实施例对预测模型的具体网络结构 不做限制。
S203、根据第一视频的封面图标题特征向量,确定第一视频的分类预测 值。
根据上述步骤获得第一视频的封面图像的标题特征向量后,根据该第一 视频的封面图标题特征向量,确定第一视频的分类预测值。本申请实施例对 根据第一视频的封面图标题特征向量,确定第一视频的分类预测值的具体方 式不做限制。
在一种可能的实现方式中,使用具有分类作用的网络模型,来确定第一 视频的分类预测值,例如,将第一视频的封面图标题特征向量,输入分类模 型中,得到该分类模型输出的第一视频的分类预测值。
可选的,上述分类模型可以为预先训练好的神经网络模型。
可选的,上述分类模型未训练好,此时本申请实施例根据第一视频的分 类预测值和第一视频的分类真值,对预测模型和分类模型进行端到端训练。
S204、根据第一视频的分类预测值和第一视频的分类真值,对预测模型 进行训练,得到训练后的预测模型,预测模型用于预测视频的主题。
具体是,第一视频的分类真值已知,这样可以根据第一视频的分类预测 值和第一视频的分类真值,计算第一视频的损失,根据该第一视频的损失对 预测模型的参数进行反向调整。随着训练的进行,该预测模型得到充分学习 到视频的标题信息和封面图信息,进而可以准确预测出视频的封面图标题的 特征信息。
本申请实施例提供的模型训练方法,通过将第一视频的标题和封面图输 入预测模型中,使得预测模型学习第一视频的标题信息和封面图信息,以输 出第一视频的封面图标题特征向量。接着,根据预测模型输出的第一视频的 封面图标题特征向量,确定第一视频的分类预测值,并根据预测模型输出的 第一视频的分类预测值和第一视频的分类真值,对预测模型进行训练,使得 训练后的预测模型充分学习到了第一视频深层次的封面图和标题的融合特征 信息。这样使用该预测模型进行后期的视频主题确定时,可以根据该预测模 型输出的封面图标题特征向量,准确确定出视频的主题。
下面结合预测模型的网络结合,对本申请实施例的模型训练方法作进一 步介绍。
图4为本申请一实施例提供的模型训练方法流程示意图,该方法可以由 计算设备来执行,该计算设备可以为图1中的服务器102和/或终端101。如 图4所示,包括:
S301、从视频训练集中获取第一视频的标题和封面图。
S302、将第一视频的标题输入文本识别模块中进行标题特征提取,得到 第一视频的第一标题特征向量。
图5为本申请实施例涉及的预测模型的一种框架示意图,如图5所示, 预测模型包括文本识别模块和图像识别模块。其中,文本识别模块用于识别 视频的标题特征进行识别,图像识别模块用于对视频的封面图特征进行识别。
本申请实施例对文本识别模块的具体网络结构不做限制,例如为语言识 别模块。
在一种可能的实现方式中,文本识别模块为BERT(Bidirectional EncoderRepresentations from Transformers),该BERT包括多个双向Transformer。
图6A为本申请实施例涉及的BERT模型的一种框架图,图6A中的Trm 表示Transformer。如图6A所示,BERT模型主要由三部分构成:嵌入层、编 码层、池化层。下面对BERT模型的网络结构进行简单介绍。
嵌入层:将输入的序列转换成连续分布式表示(distributed representation),即将输入的序列转换为词嵌入(word embedding)或词向量(word vector), 例如将序列AA1转换为词嵌入E1,将序列AA2转换为词嵌入E2,将序列AAN转换为词嵌入EN
一般来说,输入BERT的可以是一个序列,例如一个句子或几个句子。
BERT先用专门的标记器(tokenizer)来标记(tokenize)序列。标记器先 对序列进行基于规则的标记化(tokenization),再进行字词分割(segmentation)。 子词分割可以实现压缩词汇表、表示未登录词、表示单词内部结构信息等。 数据集中的序列长度不一定相等,BERT采用固定输入序列(长则截断,短则 填充)的方式来解决这个问题。然后每个序列的第一个标记始终是特殊分类 标记([CLS]),与此标记对应的最终隐藏状态用作分类任务的聚合序列表示。
分割完后,每一个空格分割的子字符串(substring)都看成一个标记 (token)。标记器通过查表将这些标记映射成整数编码。
在一些实施例中,标记(token)也称为令牌。
整个序列由三种类型的编码向量表示,分别包括:标记编码(也称为标 记嵌入(token embedding))、段编码(也称为段嵌入(segmentation embedding)) 和位置编码(也称为位置嵌入(position embedding))。其中,标记编码是序 列中每个标记转成编码后得到的向量;段编码记录每个标记属于哪序列,0是 第一序列,1是第二序列,注意:[CLS]标记对应的位置编码是0。位置编码 记录每个标记的位置。
如图6A所示,将输入嵌入表示为E,将特殊[CLS]标记的最终隐藏向量 表示为C,第i个输入标记的最终隐藏向量为Ti。
对于给定的标记,其输入表示形式是通过将相应的标记嵌入(token embedding),段嵌入(segmentation embedding)和位置嵌入(position embedding) 求和来构造的。
编码层:是对嵌入层输出的嵌入向量进行非线性表示,提取出其中的特 征(feature)表示。
可选的,编码层是由多个结构相同参数不同的Transformer构成。
其中,Transformer由编码器(encoder)和解码器(decoder)两部分组成。 可选的,encoder由多个(例如6个)相同的两个子层组成,第一个子层是多 头注意力层(multi-headattention),第二个子层是一般性的前馈神经网络。 decoder由多个(例如6个)相同的三个子层组成,第一个子层是掩膜的多头 注意力层(masked multi-head attention),第二个子层是多头注意力层(multi- head attention),第三个子层是一般性的前馈神经网络。
多头自注意力是Transformer的一大特色,可以使模型以不同的方式对待 不同的输入(即分配不同的权重),而无视空间(即输入向量排成线形、面 形、树形、图形等拓扑结构)的形状、大小、距离。另外Transformer可以对 注意力中涉及的向量分别拆分计算,从而提高表示能力。
池化层:是将[CLS]标记对应的表示取出来,并做一定的变换,作为整个 序列的表示并输出,以及原封不动地输出编码层最后一层输出的每个标记的 特征表示。
BERT模型的训练包括预训练和微调,本申请实施例使用的BERT模型 为经过预训练后的BERT模型,例如使用中文预料预训练后的BERT模型。 本申请实施例涉及的BERT模型的训练指对预训练后的BERT模型进行微调, 即使用第一视频的标题对预训练后的BERT模型进行微调,得到微调后的 BERT模型。
具体是,将第一视频的标题输入预训练后的BERT模型中进行标题特征 提取,得到BERT模型输出的第一视频的第一标题特征向量。
需要说明的是,本申请实施例使用的用于提取视频标题的标题特征信息 的文本识别模块包括但不限于上述所述的BERT模型,还可以是其他的神经 网络,本申请实施例对此不做限制。
以文本识别模块为BERT模型为例,将第一视频的标题输入BERT模型 中进行标题特征提取,得到BERT模型输出的第一视频的第一标题特征向量。
S303、将第一视频的封面图输入图像识别模块中进行图像特征提取,得 到第一视频的第一封面图特征向量。
本申请实施例对图像识别模块的网络结构不做限制,例如卷积神经网络。
在一种可能的实现方式中,图像识别模块为InceptionNet-V3, InceptionNet-V3为一种卷积神经网络,Inception-v3架构的主要思想是分解卷 积(factorizedconvolutions)和激进的正则化(aggressive regularization)。
分解卷积的主要目的是为了减少参数量,分解卷积的方法有:大卷积分 解成小卷积;分解为非对称卷积。
在一些实施例中,如图6B所示,Inception-v3包括至少一个Inception ModuleA(例如5个模块A)、至少一个正则化模块、至少一个Inception ModuleB(例如4个模块B)、至少一个Inception ModuleC(例如2个模块 C)。
其中,Inception ModuleA用于将大卷积分解成小卷积,例如使用2个3 ×3卷积代替一个5×5卷积,可以减少28%的参数量,另外分解后多使用了 一个激活函数,即从之前的在一个5×5卷积层后跟随一个激活函数,变为现 在2个3×3卷积层分别跟随一个激活函数,变成2个激活函数,进而增加了 非线性表达的能力。
ModuleB用于将一个对称的卷积分解为非对称卷积,例如用1个1×3卷 积和1个3×1卷积替换3×3卷积,这样可以减少33%的参数量。
Module C为其他的非对称分解卷积。
在一些实施例中,正则化模块为辅助分类器(Auxiliary Classifier),即在Inception v3中,使用了辅助分类器用于正则化。
在一些实施例中,Inception-v3还包括大小缩减模块,该大小缩减模块用 于有效的特征网格大小缩减(Grid Size Reduction)。传统上,卷积网络使用 一些池化操作来减小特征图的网格大小。为避免表示瓶颈,在进行最大池化 或平均池化之前,增大网络滤波器激活的维数,大小缩减模块,可以有效减 少计算量和参数。
需要说明的是,本申请实施例使用的用于提取封面图的图像特征信息的 图像识别模块包括但不限于上述所述的Inception-v3,还可以是其他的神经网 络,本申请实施例对此不做限制。
以图像识别模块为Inception-v3为例,将第一视频的封面图输入Inception- v3中进行图像特征提取,得到Inception-v3输出的第一视频的第一封面图特 征向量。
S304、根据第一视频的第一标题特征向量和第一封面图特征向量,得到 第一视频的封面图标题特征向量。
由于文本识别模块和图像识别模块的网络结构不同,使得文本识别模块 输出的第一标题特征向量和图像识别模块输出的第一封面图特征向量的特征 维度大小不同,语义空间也可能不同。为了便于第一标题特征向量和第一封 面图特征向量融合,则将第一标题特征向量和第一封面图特征向量转换至同 一个语义空间中,且将第一标题特征向量和第一封面图特征向量的特征维度 转换相同。
基于此,则上述S304的实现方式包括但不限于如下几种:
方式一,上述S304包括S304-A1和S304-A2:
S304-A1、将第一视频的第一标题特征向量和第一封面图特征向量映射至 同一个语义空间中,得到特征维度相同的第二标题特征向量和第二封面图特 征向量。
S304-A2、将第二标题特征向量和第二封面图特征向量进行相加,得到第 一视频的封面图标题特征向量。
该方式一中,计算设备从文本识别模块获得第一视频的第一标题特征向 量,以及从图像识别模块获得第一视频的第一封面图特征向量后,将第一视 频的第一标题特征向量和第一封面图特征向量映射至同一个语义空间中,得 到特征维度相同的第二标题特征向量和第二封面图特征向量。接着,将特征 维度相同的第二标题特征向量和第二封面图特征向量进行相加,得到第一视 频的封面图标题特征向量。
方式二,如图7所示,预测模型还包括第一多层感知机(Multilayer perception,简称MLP)和第二MLP,此时上述S304包括S304-B1至S304- B3:
S304-B1、将第一标题特征向量输入第一MLP进行空间和维度转换,得 到第一视频的第二标题特征向量。
S304-B2、将第一封面图特征向量输入第二MLP进行空间和维度转换, 得到第一视频的第二封面图特征向量,其中第二封面图特征向量与第二标题 特征向量的语义空间一致,且特征维度相同。
S304-B3、将第二标题特征向量和第二封面图特征向量进行相加,得到第 一视频的封面图标题特征向量。
其中,第一MLP和第二MLP的参数矩阵不同。
举例说明,假设文本识别模块为Bert,则第一标题特征向量F(t)如公 式(1)所示:
Ft=Bert(title) (1)
其中,title表示第一视频的标题。
假设图像识别模块为inception-v3,则第二封面图特征向量F(i)如公式 (2)所示:
Fi=Inception-v3(cover_image) (2)
其中,cover_image表示第一视频的封面图。
根据如下公式(3)得到第一视频的封面图标题特征向量:
fuse_feature=Wt Ft+Wi Fi (3)
其中,fuse_feature表示第一视频的封面图标题特征向量,Wt为第一MLP 的参数矩阵,Wi为第二MLP的参数矩阵,Wt Ft表示第一视频的第二标题特 征向量,Wi Fi表示第一视频的第二封面图特征向量。
S305、将第一视频的封面图标题特征向量输入多任务学习模型中,得到 多任务学习模型输出的第一视频的分类预测值。
由上述可知,本申请实施例的第一视频的分类级别可以包括一级分类和 二级分类等。基于此,如图8A所示,本申请实施例使用多任务学习模型对第 一视频进行分类,即将上述S304获得的第一视频的封面图标题特征向量输入 多任务学习模型中,得到多任务学习模型预测的第一视频的分类预测值,其 中第一视频的分类预测值包括一级分类预测值和二级分类预测值。
本申请实施例对多任务学习模型的具体网络结构不做限制。
在一种可能的实现方式中,上述多任务学习模型为多任务学习网络 (Multi-gateMixture-of-Experts,简称MMoE)。MMoE网络刻画了任务相关 性,基于共享表示来学习特定任务的函数,避免了明显增加参数的缺点。
在一些实施例中,上述MMoE包括多个专家网络(expert network)、至 少一个门网络(gating network)和多个任务模块。示例性的,图8B为MMoE 的一种网络结构示意图,如图8B所示,该MMoE包括3个专家网络,分别 为专家网络0、专家网络1和专家网络2,两个门网络,分别为门网络A和门 网络B,两个任务模块,分别为任务模块A和任务模块B。其中,expert network 可认为是一个神经网络,每个任务对应一个gating network。每个任务的gating networks通过最终输出权重不同实现对experts的选择性利用。不同任务的gating networks可以学习到不同的组合experts的模式,因此模型考虑到了捕 捉到任务的相关性和区别。
对于不同的任务,特定的gate k的输出表示不同的expert被选择的概率。 将多个expert加权求和,得到fk(x),并输出给特定的任务模块,用于最终 的输出。
在一些实施例中,假设MMoE包括k个子任务,k个子任务分别对应一 个towernetwork,每个子任务输出一个目标yk。
在一种示例中,yk如公式(4)所示:
yk=hk(fk(x)) (4)
其中,
Figure BDA0003205395780000161
hk表示k个子任务对应 的tower network,fk(x)为各专家网络输出的加权,n表示专家网络的个数, fi(x)表示第i个专家网络的输出,x表示专家网络的输入,
Figure BDA0003205395780000162
表示第i个专 家网络关于第k个任务被选中概率。
Figure BDA0003205395780000163
为可训练矩阵,d为特征向量。
需要说明的是,本申请实施例使用的多任务学习模型包括但不限于上述 所述的MMoE,还可以是其他的神经网络,本申请实施例对此不做限制。
以多任务学习模型为MMoE为例,将第一视频的封面图标题特征向量输 入MMoE中法进行分类,得到MMoE输出的第一视频的分类预测值。若上 述MMoE包括一级分类模块和二级分类模块,则MMoE输出第一视频的分 类预测值包括一级分类预测值和二级分类预测值。
S306、根据多任务学习模型输出的分类预测值和第一视频的分类真值, 对预测模型进行训练,得到训练后的预测模型。
计算设备根据上述S305得到多任务学习模型输出的第一视频的分类预 测值,接着,根据多任务学习模型输出的分类预测值和第一视频的分类真值, 对预测模型和多任务学习模型进行端到端训练,得到训练后的预测模型和多 任务学习模型。
在一些实施例中,上述多任务学习模型是预先训练好的,将第一视频的 封面图标题特征向量输入预先训练好的多任务学习模型中,得到预先训练好 的多任务学习模型输出的第一视频的分类预测值。根据预先训练好的多任务 学习模型输出的分类预测值和第一视频的分类真值,对预测模型进行端到端 训练,得到训练后的预测模型。
在一些实施例中,上述多任务学习模型不是预先训练好的,则本申请实 施例将多任务学习模型和预测模型一起训练,具体是,根据多任务学习模型 输出的分类预测值和第一视频的分类真值,对预测模型和多任务学习模型进 行端到端训练,得到训练后的预测模型和多任务学习模型。
在一些实施例中,例如下面实施例所述,在实际预测过程中,将视频的 封面图标题特征向量与视频的标签特征向量进行拼接(concat)后聚类。封面 图标题特征embedding更适合于欧式距离,标签embedding更适合于余弦距 离,这主要与各自训练的方式有关。为了方便视频的封面图标题特征向量与 其他特征向量进行拼接后聚类,本申请实施例在将第一视频的封面图标题特 征向量输入多任务学习模型中之前,先对第一视频的封面图标题特征向量进 行特征归一化处理;将特征归一化处理后的第一视频的封面图标题特征向量, 输入多任务学习模型中,得到多任务学习模型输出的第一视频的分类预测值。
可选的,对第一视频的封面图标题特征向量进行特征归一化处理,包括: 将第一视频的封面图标题特征向量的L2范数设定为1,其中L2范数也称为欧 几里得范数。
在一些实施例中,为了使得归一化后的封面图标题特征向量与多任务学 习模型输入层的参数匹配,则本申请实施例还包括:
步骤A1、对多任务学习模型中的输入层进行归一化处理;
步骤A2、将特征归一化处理后的第一视频的封面图标题特征向量,输入 输入层归一化后的多任务学习模型中。
对多任务学习模型中的输入层进行归一化处理,包括:将多任务学习模 型的输入层参数的L2范数设定为1。
本申请实施例提供的模型训练方法,将第一视频的标题输入文本识别模 块中进行标题特征提取,得到第一视频的第一标题特征向量;将第一视频的 封面图输入图像识别模块中进行图像特征提取,得到第一视频的第一封面图 特征向量;根据第一视频的第一标题特征向量和第一封面图特征向量,得到 第一视频的封面图标题特征向量;将第一视频的封面图标题特征向量输入多 任务学习模型中,得到多任务学习模型输出的第一视频的分类预测值;根据 多任务学习模型输出的分类预测值和第一视频的分类真值,对预测模型进行 训练,得到训练后的预测模型。即本申请实施例提供一种预测模型的网络结 构,并采用多任务学习模型来辅助预测模型训练,以提高预测模型的训练准 确性。
在一些实施例中,如图9所示,预测模型还包括标签特征预测模块,本 申请实施例还包括对标签特征预测模块的训练过程。
需要说明的是,对预测模型中文本识别模块和图像识别模块的训练过程 与对预测模型中标签特征预测模块的训练过程为两个互不干涉的训练过程。 也就是说,可以先使用第一视频的标题、封面图和分类对预测模型中文本识 别模块和图像识别模块进行训练,在文本识别模块和图像识别模块训练结束 后,使用训练集中视频的标签对预测模型中标签特征预测模块进行训练。或 者,先使用训练集中视频的标签对预测模型中标签特征预测模块训练结束后, 使用第一视频的标题、封面图和分类对预测模型中文本识别模块和图像识别 模块进行训练。或者,使用第一视频的标题、封面图和分类对预测模型中文 本识别模块和图像识别模块进行训练的同时,使用训练集中视频的标签对预 测模型中标签特征预测模块进行训练。
下面结合图10对预测模型中标签特征预测模块的训练过程进行介绍。
图10为本申请一实施例提供的模型训练方法流程示意图,本实施例的执 行主体为上述计算设备,该计算设备可以为图1中的服务器102和/或终端 101。如图10所示,标签特征预测模块的训练过程包括:
S401、从视频训练集中获取视频的多个标签。
视频训练集中的每个视频包括至少一个标签,例如视频A包括标签1、 标签2和标签3等。
可选的,视频A为电视剧时,则视频A的标签可以是视频A的导演、演 员、编剧、制片人、出品人、主演等等,例如视频A的标签1和标签2可以 是电视剧的两个主演,标签3可以为电视剧的名称等。
S402、将标签作为无向图中的一个节点,将任意两个标签同时出现在一 个视频中的出现次数作为无向图的边,构建无向图,无向图包括至少两个标 签。
本步骤根据视频训练集中各视频的标签以及标签之间的关系构建无向图, 具体是,以每个不同的标签作为一个节点,将两个标签共同出现在同一个视 频中的出现次数作为无向图的边,例如标签1和标签2分别在视频A和视频 C中出现,则标签1和标签2的共现次数为2。这样可以根据两两标签的共现 次数,确定出两两标签之间的关系,进而构建出无向图。需要说明的是,上述 的共现次数指的两个标签共同出现在一个视频中的出现次数。
在一些实施例中,为了提高无向图中标签的相关性,则使用共现次数超 过预设值的标签来构建无向图。
S403、根据无向图,确定标签序列。
在一些实施例中,采用深度优先游走(Depth-first Sampling,DFS)或者 采用广度优先游走(Breadth-first Sampling,BFS)在无向图上进行游走,得到 标签序列。
在一种可能的实现方式中,使用node2vec方式,在无向图上进行游走, 得到标签序列。node2vec是一种综合考虑DFS邻域和BFS邻域的graph embedding方法。简单来说,可以看作是DeepWalk的一种扩展,可以看作是 结合了DFS和BFS随机游走的DeepWalk。其中,DeepWalk中根据无向图中 边的权重进行随机游走,而node2vec加了一个权重调整参数,最终生成的随 机序列是一种DFS和BFS的结合。
S404、将标签序列输入标签特征预测模块中,得到标签特征预测模块输 出的每个标签的预测嵌入向量。
本申请实施例对标签特征预测模块的具体网络结构不做限制,即标签特 征预测模块只要是可以提取标签的嵌入向量的网络模型即可。
在一种可能的实现方式中,上述标签特征预测模块为跳字模型Skip-Gram 模型,Skip-Gram是根据当前的词来预测上下文的词。
图11为本申请实施例涉及的skpi-gram模型的框架图,如图11所示, skpi-gram模型包括输入层、预测层和输出层,
输入层用于将输入的词转换为词向量输入预测层,例如,将词w进行one- hot编码,得到词向量。
预测层也称为隐藏层,用于将输入层输入的one-hot编码后的词向量,通 过一个神经网络的隐藏层,映射到一个低纬度的空间,得到词嵌入。
输出层是一个softmax回归分类器,它的每个结点将会输出一个0-1之间 的值(概率),这些所有输出层神经元结点的概率之和为1。
需要说明的是,本申请实施例使用的标签特征预测模块包括但不限于上 述所述的skpi-gram模型,还可以是其他的神经网络,本申请实施例对此不做 限制。
以标签特征预测模块为skpi-gram模型为例,将标签序列输入skpi-gram 模型中法进行分类,得到skpi-gram模型输出的每个标签的预测嵌入向量。
S405、根据标签的预测嵌入向量与标签的嵌入向量的真值之间的损失, 对标签特征预测模块进行训练,得到训练后的标签特征预测模块。
其中对根据标签的预测嵌入向量与标签的嵌入向量的真值之间的损失, 对标签特征预测模块进行训练包括根据损失对标签特征预测模块中的参数进 行反向调整,得到训练后的标签特征预测模块。
举例说明,表1为使用训练后的标签特征预测模块预测各种子标签的嵌 入向量时,返回的case展示。
表1
Figure BDA0003205395780000201
由上述表1可知,在使用训练后的标签特征预测模块预测各种子标签的 嵌入向量时,返回的case相关,例如具有相同的类别,但不是强相关,例如 不是属于同一部电视剧,这样使用上述标签的嵌入向量进行后期聚类时,可 以提高聚类的准确性。
本申请实施例提供的模型训练方法,为了提高了预测模型的预测准确性, 本实施例的预测模型还包括标签特征预测模块,并使用视频训练集中获取视 频的多个标签对标签特征预测模块进行训练,得到训练后的标签特征预测模 块。
上文对模型的训练过程进行介绍,下面对模型的使用过程进行介绍。
图12为本申请一实施例提供的视频主题预测方法的流程示意图,本实施 例的执行主体为上述计算设备,该计算设备可以为图1中的服务器102和/或 终端101。
如图12所示,本实施例的方法包括:
S501、获取待处理的目标视频的标题和封面图。
S502、将目标视频的标题和封面图输入训练后的预测模型中,得到目标 视频的封面图标题特征向量,该训练后的预测模型是通过上述实施例所述的 训练方法训练得到的。
在一些实施例中,如图5所示,预测模型包括文本识别模块和图像识别 模块。
其中,文本识别模块用于对目标视频的标题进行标题特征提取,输出目 标视频的第一标题特征向量,图像识别模块用于对目标视频的封面图进行图 像特征提取,输出目标视频的第一封面图特征向量。
可选的,如图6A所示,上述文本识别模块为BERT模型。
可选的,如图6B所示,上述图像识别模块为Inception-v3模型。
上述目标视频的封面图标题特征向量是根据目标视频的第一标题特征向 量和第一封面图特征向量确定的。
在一些实施例中,目标视频的封面图标题特征向量是通过将目标视频的 第一标题特征向量和第一封面图特征向量映射至同一个语义空间中,进而得 到特征维度相同的第二标题特征向量和第二封面图特征向量,并将第二标题 特征向量和第二封面图特征向量进行相加后得到的。
在一些实施例中,如图7所示,预测模型还包括第一MLP和第二MLP。
其中,第一MLP用于对目标视频的第一标题特征向量进行空间和维度转 换并输出目标视频的第二标题特征向量。
第二MLP用于对目标视频的第一封面图特征向量进行空间和维度转换 并输出目标视频的第二封面图特征向量。
此时,上述目标视频的封面图标题特征向量是通过将第一MLP输出的第 二标题特征向量和第二MLP输出的第二封面图特征向量进行相加后得到的。
S503、根据预测的目标视频的封面图标题特征向量,确定目标视频所属 的目标分类。
例如,根据参考集中各视频的封面图标题特征向量,对参考集中的各视 频进行聚类,得到多个聚类中心,以及每个聚类中心对应的封面图标题特征 向量。
根据预测的目标视频的封面图标题特征向量和每个聚类中心对应的封面 图标题特征向量,确定目标视频与聚类中心之间的距离,将最小距离的聚类 中心确定为目标视频的聚类,并将该聚类所属的分类,确定为目标视频所属 的目标分类。
需要说明的是,上述参考集中各聚类中心为实现确定好的。
S504、将目标分类对应的主题,确定为目标视频的主题。
每个聚类对应一个主题,这样可以将目标视频所属的目标分类对应的主 题确定为目标视频的主题。
本申请实施例,通过使用预先训练后的预测模型来预测目标视频的封面 图标题特征向量,由于训练后的预测模型充分学习到了视频深层次的封面图 和标题的融合特征信息,这样使用预先训练后的预测模型输出的目标视频的 封面图标题特征向量,确定目标视频的主题时,可以提高目标视频的主题确 定的准确性。
在一些实施例中,如图所示,如图13所示,预测模型还包括标签特征预 测模块,该标签特征预测模块用于预测目标视频的标签特征信息,此时本申 请实施例的视频主题的预测过程如图14所示。
图14为本申请一实施例提供的视频主题预测方法的流程示意图,本实施 例的执行主体为上述计算设备,该计算设备可以为图1中的服务器102和/或 终端101。如图14所示,本实施例的方法包括:
S601、获取待处理的目标视频的标题和封面图。
S602、将目标视频的标题和封面图输入训练后的预测模型中,得到目标 视频的封面图标题特征向量。
S603、获取目标视频的至少一个第一标签和参考集中各视频的第二标签。
需要说明的是,上述S603与上述S601没有先后顺序关系,即S603可以 在S601之前执行,或者在S601之后执行,或者与S601同时执行。
S604、将第一标签和第二标签作为无向图中的一个节点,将任意两个标 签同时出现在一个视频中的出现次数作为无向图的边,构建无向图。
其中构建无向图的过程与S402一致,参照上述S402的描述,在此不再 赘述。
S605、根据无向图,确定标签序列。
在一种可能的实现方式中,使用node2vec方式,在无向图上进行游走, 得到标签序列。具体参照上述S403的描述,在此不再赘述。
S606、将标签序列输入训练后的标签特征预测模块中,确定目标视频中 每个第一标签的嵌入向量。
可选的,标签特征预测模块为skpi-gram模型。
S607、根据目标视频中每个第一标签的嵌入向量和目标视频的封面图标 题特征向量,确定目标视频的融合特征向量。
上述S607的实现方式包括但不限于如下几种:
方式一,将目标视频中每个第一标签的嵌入向量和目标视频的封面图标 题特征向量进行融合,得到目标视频的融合特征向量。
方式二,上述S607包括S607-A1和S607-A2:
S607-A1、根据目标视频中每个第一标签的嵌入向量,确定目标视频的第 一标签的嵌入向量的平均值。
S607-A2、将目标视频的第一标签的嵌入向量的平均值,与目标视频的封 面图标题特征向量进行融合,得到目标视频的融合特征向量。
例如,目标视频包括3个第一标签,将这3个第一标签的嵌入向量求平 均值,得到目标视频的第一标签的嵌入向量的平均值。将目标视频的第一标 签的嵌入向量的平均值与目标视频的封面图标题特征向量进行融合(例如进 行concat),得到目标视频的融合特征向量。
S608、根据目标视频的融合特征向量,确定目标视频所属的目标分类。
其中,上述S608的实现方式包括但不限于如下几种:
方式一,将目标视频的融合特征向量输入分类器中,得到目标视频所属 的目标分类。
方式二,上述S608包括S608-A1和S608-A2:
S608-A1、根据目标视频的融合特征向量,确定目标视频的融合特征向量 与参考集中K个聚类中心中每个聚类中心的特征向量之间的距离。
S608-A2、将最小距离对应的聚类中心所属的类别,确定为目标视频所属 的目标分类。
可选的,聚类中心的特征向量可以是聚类中心的融合特征向量,例如根 据上述方式,确定出参考集中每个视频的融合特征向量,根据视频的融合特 征向量对各视频进行聚类,得到K个聚类,以及每个聚类中心的融合特征向 量。
可选的,本步骤使用Kmeans聚类方式进行聚类,K-Means算法的思想是 对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让 簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。即本步骤使用 Kmeans聚类方式,确定目标视频的融合特征向量与参考集中K个聚类中心 中每个聚类中心的特征向量之间的距离。
S609、将目标分类对应的主题,确定为目标视频的主题。
由于topic(主题)本身是基于信息流正排数据分布生成的,所以随着时 间的推移会出现新的topic以及老的topic不再出现。本申请实施例,由于topic 计算是独立基于簇中心的cosin相似度,所以新增和删除并不会干扰到已有的 结果,仅需要在字段中增加topic id即可。
进一步的,通过实验对本申请实施例提供的主题预测方法的技术效果进 行介绍。分别从内容topic优质占比和线上效果来看视频topic的优势,如表 2所示:
表2
优质Topic占比 6000个短视频 2000个短视频
优化前 57% 65%
优化后 75% 86%
如表2所示,对于6000个短视频使用本申请实施例的方法,优质topic 占比提升了18%,对于2000个短视频使用本申请实施例的方法,优质topic 占比提升了21%。
本申请实施例提供的视频主题预测方法,通过将目标视频的标题和封面 图输入训练后的预测模型中,得到目标视频的封面图标题特征向量,将目标 视频的标签输入训练后的标签特征预测模块中,得到目标视频的标签的嵌入 向量。接着,根据目标视频的标签的嵌入向量和目标视频的封面图标题特征 向量,确定目标视频的融合特征向量,并根据目标视频的融合特征向量,确 定目标视频所属的目标分类,将目标分类对应的主题,确定为目标视频的主 题。即本申请实施例在确定目标视频的主题时,考虑了目标视频的标题、封面图和标签,这样确定出的主题更能体现出目标视频的主要内容和主题,进 而提高了确定视频主题的准确性。
以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限 于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请 的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例 如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下, 可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种 可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间 也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并 不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定, 而不应对本申请实施例的实施过程构成任何限定。
上文结合图2至图14,详细描述了本申请的方法实施例,下文结合图15 至图17,详细描述本申请的装置实施例。
图15为本申请实施例提供的模型训练装置的一种结构示意图。
如图15所示,训练装置10包括:
获取单元11,用于从视频训练集中获取第一视频的标题和封面图;
训练单元12,用于将所述第一视频的标题和封面图输入预测模型中,得 到所述第一视频的封面图标题特征向量;根据所述第一视频的封面图标题特 征向量,确定所述第一视频的分类预测值;根据所述第一视频的分类预测值 和所述第一视频的分类真值,对所述预测模型进行训练,得到训练后的所述 预测模型,所述预测模型用于预测视频的主题。
在一些实施例中,训练单元12,具体用于将所述第一视频的封面图标题 特征向量输入多任务学习模型中,得到所述多任务学习模型输出的所述第一 视频的分类预测值。
在一些实施例中,所述预测模型包括文本识别模块和图像识别模块,训 练单元12,具体用于将所述第一视频的标题输入所述文本识别模块中进行标 题特征提取,得到所述第一视频的第一标题特征向量;将所述第一视频的封 面图输入所述图像识别模块中进行图像特征提取,得到所述第一视频的第一 封面图特征向量;根据所述第一视频的第一标题特征向量和第一封面图特征 向量,得到所述第一视频的封面图标题特征向量。
在一些实施例中,训练单元12,具体用于将所述第一视频的第一标题特 征向量和第一封面图特征向量映射至同一个语义空间中,得到特征维度相同 的第二标题特征向量和第二封面图特征向量;将所述第二标题特征向量和所 述第二封面图特征向量进行相加,得到所述第一视频的封面图标题特征向量。
在一些实施例中,所述预测模型还包括第一MLP和第二MLP,训练单 元12,具体用于将所述第一标题特征向量输入第一MLP进行空间和维度转 换,得到所述第一视频的第二标题特征向量;将所述第一封面图特征向量输 入第二MLP进行空间和维度转换,得到所述第一视频的第二封面图特征向 量,其中所述第二封面图特征向量与所述第二标题特征向量的语义空间一致, 且特征维度相同;将所述第二标题特征向量和所述第二封面图特征向量进行 相加,得到所述第一视频的封面图标题特征向量。
在一些实施例中,训练单元12,具体用于对所述第一视频的封面图标题 特征向量进行特征归一化处理;将特征归一化处理后的所述第一视频的封面 图标题特征向量,输入所述多任务学习模型中,得到所述多任务学习模型输 出的所述第一视频的分类预测值。
在一些实施例中,训练单元12,具体用于将所述第一视频的封面图标题 特征向量的L2范数设定为1。
在一些实施例中,训练单元12,还用于对所述多任务学习模型中的输入 层进行归一化处理;将特征归一化处理后的所述第一视频的封面图标题特征 向量,输入所述输入层归一化后的所述多任务学习模型中。
在一些实施例中,训练单元12,具体用于将所述多任务学习模型的输入 层参数的L2范数设定为1。
在一些实施例中,所述预测模型还包括标签特征预测模块,训练单元12, 还用于从所述视频训练集中获取视频的多个标签;将标签作为无向图中的一 个节点,将任意两个标签同时出现在一个视频中的出现次数作为所述无向图 的边,构建所述无向图,所述无向图包括至少两个标签;根据所述无向图,确 定标签序列;将所述标签序列输入所述标签特征预测模块中,得到所述标签 特征预测模块输出的每个标签的预测嵌入向量;根据所述标签的预测嵌入向 量与所述标签的嵌入向量的真值之间的损失,对所述标签特征预测模块进行 训练,得到训练后的所述标签特征预测模块。
在一些实施例中,训练单元12,具体用于使用node2vec方式,在所述无 向图上进行游走,得到所述标签序列。
在一些实施例中,训练单元12,还用于根据所述多任务学习模型输出的 分类预测值和所述第一视频的分类真值,对所述预测模型和所述多任务学习 模型进行端到端训练,得到训练后的所述预测模型和所述多任务学习模型。
本申请实施例提供的装置,通过将第一视频的标题输入文本识别模块中 进行标题特征提取,得到第一视频的第一标题特征向量;将第一视频的封面 图输入图像识别模块中进行图像特征提取,得到第一视频的第一封面图特征 向量;根据第一视频的第一标题特征向量和第一封面图特征向量,得到第一 视频的封面图标题特征向量;将第一视频的封面图标题特征向量输入多任务 学习模型中,得到多任务学习模型输出的第一视频的分类预测值;根据多任 务学习模型输出的分类预测值和第一视频的分类真值,对预测模型进行训练, 得到训练后的预测模型。即本申请实施例提供一种预测模型的网络结构,并 采用多任务学习模型来辅助预测模型训练,以提高预测模型的训练准确性。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照 方法实施例。为避免重复,此处不再赘述。具体地,图15所示的装置可以对 应于执行本申请实施例的方法中的相应主体,并且训练装置10中的各个模块 的前述和其它操作和/或功能分别为了实现图2至图10中的各个方法中的相 应流程,为了简洁,在此不再赘述。
图16为本申请实施例提供的视频主题预测装置的一种结构示意图。
如图16所示,预测装置20包括:
获取单元21,用于获取待处理的目标视频的标题和封面图;
第一确定单元22,用于将所述目标视频的标题和封面图输入训练后的预 测模型中,得到所述目标视频的封面图标题特征向量;
分类单元23,用于根据预测的所述目标视频的封面图标题特征向量,确 定所述目标视频所属的目标分类;将所述目标分类对应的主题,确定为所述 目标视频的主题。
在一些实施例中,所述预测模型包括文本识别模块和图像识别模块;
所述文本识别模块用于对所述目标视频的标题进行标题特征提取,输出 所述目标视频的第一标题特征向量,所述图像识别模块用于对所述目标视频 的封面图进行图像特征提取,输出所述目标视频的第一封面图特征向量,所 述目标视频的封面图标题特征向量是根据所述目标视频的第一标题特征向量 和第一封面图特征向量确定的。
在一些实施例中,所述目标视频的封面图标题特征向量是通过将所述目 标视频的第一标题特征向量和第一封面图特征向量映射至同一个语义空间中, 进而得到特征维度相同的第二标题特征向量和第二封面图特征向量,并将所 述第二标题特征向量和所述第二封面图特征向量进行相加后得到的。
在一些实施例中,所述预测模型还包括第一MLP和第二MLP;
所述第一MLP用于对所述目标视频的第一标题特征向量进行空间和维 度转换并输出所述目标视频的第二标题特征向量;
所述第二MLP用于对所述目标视频的第一封面图特征向量进行空间和 维度转换并输出所述目标视频的第二封面图特征向量。
所述目标视频的封面图标题特征向量是通过将所述第一MLP输出的第 二标题特征向量和所述第二MLP输出的第二封面图特征向量进行相加后得 到的。
在一些实施例中,所述预测模型还包括标签特征预测模块,所述装置还 包括第二确定单元24:
上述获取单元21,还用于获取所述目标视频的至少一个第一标签和参考 集中各视频的第二标签;
第二确定单元24,用于将所述第一标签和所述第二标签作为无向图中的 一个节点,将任意两个标签同时出现在一个视频中的出现次数作为所述无向 图的边,构建所述无向图;根据所述无向图,确定标签序列;将所述标签序列 输入训练后的所述标签特征预测模块中,确定所述目标视频中每个第一标签 的嵌入向量;
分类单元23,具体用于根据所述目标视频中每个第一标签的嵌入向量和 所述目标视频的封面图标题特征向量,确定所述目标视频的融合特征向量; 根据所述目标视频的融合特征向量,确定所述目标视频所属的目标分类。
在一些实施例中,分类单元23,具体用于根据所述目标视频中每个第一 标签的嵌入向量,确定所述目标视频的第一标签的嵌入向量的平均值;将所 述目标视频的第一标签的嵌入向量的平均值,与所述目标视频的封面图标题 特征向量进行融合,得到所述目标视频的融合特征向量。
分类单元23,具体用于根据所述目标视频的融合特征向量,确定所述目 标视频的融合特征向量与参考集中K个聚类中心中每个聚类中心的特征向量 之间的距离;将最小距离对应的聚类中心所属的类别,确定为所述目标视频 所属的目标分类。
第二确定单元24,具体用于使用node2vec方式,在所述无向图上进行游 走,得到所述标签序列。
本申请实施例提供的装置,通过将目标视频的标题和封面图输入训练后 的预测模型中,得到目标视频的封面图标题特征向量,将目标视频的标签输 入训练后的标签特征预测模块中,得到目标视频的标签的嵌入向量。接着, 根据目标视频的标签的嵌入向量和目标视频的封面图标题特征向量,确定目 标视频的融合特征向量,并根据目标视频的融合特征向量,确定目标视频所 属的目标分类,将目标分类对应的主题,确定为目标视频的主题。即本申请 实施例在确定目标视频的主题时,考虑了目标视频的标题、封面图和标签,这样确定出的主题更能体现出目标视频的主要内容和主题,进而提高了确定 视频主题的准确性。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照 方法实施例。为避免重复,此处不再赘述。具体地,图16所示的装置可以对 应于执行本申请实施例的方法中的相应主体,并且预测装置20中的各个模块 的前述和其它操作和/或功能分别为了实现图12至图14中的各个方法中的相 应流程,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解, 该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可 以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的 各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成, 结合本申请实施例公开的方法的步骤可以直接体现为硬件处理器执行完成, 或者用处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位 于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储 器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器 读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图17为本申请实施例涉及的计算设备的框图,该计算设备可以是训练设 备,用于执行上述实施例所述的训练方法,也可以是预测设备,用于执行上 述实施例所述的预测方法,具体参见上述方法实施例中的说明。
图17所示的计算设备200包括存储器201、处理器202、通信接口203。 存储器201、处理器202、通信接口203之间彼此通信连接。例如,存储器 201、处理器202、通信接口203之间可以采用网络连接的方式,实现通信连 接。或者,上述计算设备200还可以包括总线204。存储器201、处理器202、 通信接口203通过总线204实现彼此之间的通信连接。图17是以存储器201、 处理器202、通信接口203通过总线204实现彼此之间的通信连接的计算设 备200。
存储器201可以是只读存储器(Read Only Memory,ROM),静态存储 设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。 存储器201可以存储程序,当存储器201中存储的程序被处理器202执行时, 处理器202和通信接口203用于执行上述方法。
处理器202可以采用通用的中央处理器(Central Processing Unit,CPU), 微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC), 图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。
处理器202还可以是一种集成电路芯片,具有信号的处理能力。在实现 过程中,本申请的方法可以通过处理器202中的硬件的集成逻辑电路或者软 件形式的指令完成。上述的处理器202还可以是通用处理器、数字信号处理 器(digital signal processing,DSP)、专用集成电路(ASIC)、现成可编程门 阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立 门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该 处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、 只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领 域成熟的存储介质中。该存储介质位于存储器201,处理器202读取存储器 201中的信息,结合其硬件完成本申请实施例的方法。
通信接口203使用例如但不限于收发器一类的收发模块,来实现计算设 备200与其他设备或通信网络之间的通信。例如,可以通过通信接口203获 取数据集。
当上述计算设备200包括总线204时,总线204可包括在计算设备200 各个部件(例如,存储器201、处理器202、通信接口203)之间传送信息的 通路。
本申请还提供了一种计算机存储介质,其上存储有计算机程序,该计算 机程序被计算设备执行时使得该计算设备能够执行上述方法实施例的方法。 或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计 算设备执行时使得计算设备执行上述方法实施例的方法。
本申请还提供了一种计算机程序产品,该计算机程序产品包括计算机程 序,该计算机程序存储在可读存储介质中。计算设备的至少一个处理器可以 从上述可读存储介质读取该计算机程序,计算设备的至少一个处理器执行该 计算机程序,使得该计算设备执行上述方法实施例的方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形 式实现。该计算机程序产品包括一个或多个计算机指令。在计算设备上加载 和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或 功能。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机 可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以 从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光 纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计 算机可读存储介质可以是计算设备能够存取的任何可用介质或者是包含一个 或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以 是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD)) 等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各 示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结 合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特 定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方 法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和 方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示 意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有 另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统, 或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合 或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信 连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模 块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全 部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能 模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以 两个或两个以上模块集成在一个模块中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描 述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应 过程,在此不再赘述。另外,各个方法实施例之间、各个装置实施例之间也可 以互相参考,在不同实施例中的相同或对应内容可以互相引用,不做赘述。

Claims (15)

1.一种模型训练方法,其特征在于,包括:
从视频训练集中获取第一视频的标题和封面图;
将所述第一视频的标题和封面图输入预测模型中,得到所述第一视频的封面图标题特征向量;
根据所述第一视频的封面图标题特征向量,确定所述第一视频的分类预测值;
根据所述第一视频的分类预测值和所述第一视频的分类真值,对所述预测模型进行训练,得到训练后的所述预测模型,所述预测模型用于预测视频的主题。
2.根据权利要求1所述的方法,其特征在于,根据所述第一视频的封面图标题特征向量,确定所述第一视频的分类预测值,包括:
将所述第一视频的封面图标题特征向量输入多任务学习模型中,得到所述多任务学习模型输出的所述第一视频的分类预测值。
3.根据权利要求1所述的方法,其特征在于,所述预测模型包括文本识别模块和图像识别模块,所述将所述第一视频的标题和封面图输入预测模型中,得到所述第一视频的封面图标题特征向量,包括:
将所述第一视频的标题输入所述文本识别模块中进行标题特征提取,得到所述第一视频的第一标题特征向量;
将所述第一视频的封面图输入所述图像识别模块中进行图像特征提取,得到所述第一视频的第一封面图特征向量;
根据所述第一视频的第一标题特征向量和第一封面图特征向量,得到所述第一视频的封面图标题特征向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一视频的第一标题特征向量和第一封面图特征向量,得到所述第一视频的封面图标题特征向量,包括:
将所述第一视频的第一标题特征向量和第一封面图特征向量映射至同一个语义空间中,得到特征维度相同的第二标题特征向量和第二封面图特征向量;
将所述第二标题特征向量和所述第二封面图特征向量进行相加,得到所述第一视频的封面图标题特征向量。
5.根据权利要求3所述的方法,其特征在于,所述预测模型还包括第一多层感知机MLP和第二MLP,所述根据所述第一视频的第一标题特征向量和第一封面图特征向量,得到所述第一视频的封面图标题特征向量,包括:
将所述第一标题特征向量输入第一MLP进行空间和维度转换,得到所述第一视频的第二标题特征向量;
将所述第一封面图特征向量输入第二MLP进行空间和维度转换,得到所述第一视频的第二封面图特征向量,其中所述第二封面图特征向量与所述第二标题特征向量的语义空间一致,且特征维度相同;
将所述第二标题特征向量和所述第二封面图特征向量进行相加,得到所述第一视频的封面图标题特征向量。
6.根据权利要求2所述的方法,其特征在于,所述将所述第一视频的封面图标题特征向量输入多任务学习模型中,得到所述多任务学习模型输出的所述第一视频的分类预测值,包括:
对所述第一视频的封面图标题特征向量进行特征归一化处理;
将特征归一化处理后的所述第一视频的封面图标题特征向量,输入所述多任务学习模型中,得到所述多任务学习模型输出的所述第一视频的分类预测值。
7.根据权利要求6所述的方法,其特征在于,所述对所述第一视频的封面图标题特征向量进行特征归一化处理,包括:
将所述第一视频的封面图标题特征向量的欧几里得范数设定为1。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述预测模型还包括标签特征预测模块,所述方法还包括:
从所述视频训练集中获取视频的多个标签;
将标签作为无向图的一个节点,将任意两个标签同时出现在一个视频中的出现次数作为所述无向图的边,构建所述无向图,所述无向图包括至少两个标签;
根据所述无向图,确定标签序列;
将所述标签序列输入所述标签特征预测模块中,得到所述标签特征预测模块输出的每个标签的预测嵌入向量;
根据所述标签的预测嵌入向量与所述标签的嵌入向量的真值之间的损失,对所述标签特征预测模块进行训练,得到训练后的所述标签特征预测模块。
9.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述多任务学习模型输出的分类预测值和所述第一视频的分类真值,对所述预测模型和所述多任务学习模型进行端到端训练,得到训练后的所述预测模型和所述多任务学习模型。
10.一种视频主题预测方法,其特征在于,包括:
获取待处理的目标视频的标题和封面图;
将所述目标视频的标题和封面图输入训练后的预测模型中,得到所述目标视频的封面图标题特征向量,其中所述训练后的预测模型是通过权利要求1-9任一项所述的训练方法训练得到的;
根据所述目标视频的封面图标题特征向量,确定所述目标视频所属的目标分类;
将所述目标分类对应的主题,确定为所述目标视频的主题。
11.根据权利要求10所述的方法,其特征在于,所述预测模型还包括标签特征预测模块,所述方法还包括:
获取所述目标视频的至少一个第一标签和参考集中各视频的第二标签;
将所述第一标签和所述第二标签作为无向图中的一个节点,将任意两个标签同时出现在一个视频中的出现次数作为所述无向图的边,构建所述无向图;
根据所述无向图,确定标签序列;
将所述标签序列输入训练后的所述标签特征预测模块中,确定所述目标视频中每个第一标签的嵌入向量;
所述根据预测的所述目标视频的封面图标题特征向量,得到所述目标视频所属的目标分类,包括:
根据所述目标视频中每个第一标签的嵌入向量和所述目标视频的封面图标题特征向量,确定所述目标视频的融合特征向量;
根据所述目标视频的融合特征向量,确定所述目标视频所属的目标分类。
12.根据权利要求11所述的方法,其特征在于,所述根据所述目标视频中每个第一标签的嵌入向量和所述目标视频的封面图标题特征向量,确定所述目标视频的融合特征向量,包括:
根据所述目标视频中每个第一标签的嵌入向量,确定所述目标视频的第一标签的嵌入向量的平均值;
将所述目标视频的第一标签的嵌入向量的平均值,与所述目标视频的封面图标题特征向量进行融合,得到所述目标视频的融合特征向量。
13.一种模型训练装置,其特征在于,包括:
获取单元,用于从视频训练集中获取第一视频的标题和封面图;
训练单元,用于将所述第一视频的标题和封面图输入预测模型中,得到所述第一视频的封面图标题特征向量;根据所述第一视频的封面图标题特征向量,确定所述第一视频的分类预测值;根据所述第一视频的分类预测值和所述第一视频的分类真值,对所述预测模型进行训练,得到训练后的所述预测模型,所述预测模型用于预测视频的主题。
14.一种视频主题预测装置,其特征在于,包括:
获取单元,用于获取待处理的目标视频的标题和封面图;
第一确定单元,用于将所述目标视频的标题和封面图输入训练后的预测模型中,得到所述目标视频的封面图标题特征向量;
分类单元,用于根据预测的所述目标视频的封面图标题特征向量,确定所述目标视频所属的目标分类;将所述目标分类对应的主题,确定为所述目标视频的主题。
15.一种计算设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求1至9或10至12任一项所述的方法。
CN202110915302.1A 2021-08-10 2021-08-10 模型训练与视频主题预测的方法、装置及设备 Pending CN114282058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110915302.1A CN114282058A (zh) 2021-08-10 2021-08-10 模型训练与视频主题预测的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110915302.1A CN114282058A (zh) 2021-08-10 2021-08-10 模型训练与视频主题预测的方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114282058A true CN114282058A (zh) 2022-04-05

Family

ID=80868430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110915302.1A Pending CN114282058A (zh) 2021-08-10 2021-08-10 模型训练与视频主题预测的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114282058A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882334A (zh) * 2022-04-29 2022-08-09 北京百度网讯科技有限公司 用于生成预训练模型的方法、模型训练方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882334A (zh) * 2022-04-29 2022-08-09 北京百度网讯科技有限公司 用于生成预训练模型的方法、模型训练方法及装置
CN114882334B (zh) * 2022-04-29 2023-04-28 北京百度网讯科技有限公司 用于生成预训练模型的方法、模型训练方法及装置

Similar Documents

Publication Publication Date Title
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN111950269A (zh) 文本语句处理方法、装置、计算机设备和存储介质
CN113762322A (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
CN111651573B (zh) 一种智能客服对话回复生成方法、装置和电子设备
CN111881292B (zh) 一种文本分类方法及装置
CN116861995A (zh) 多模态预训练模型的训练及多模态数据处理方法和装置
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
Zhou et al. Binary Linear Compression for Multi-label Classification.
CN116432019A (zh) 一种数据处理方法及相关设备
CN110929532A (zh) 数据处理方法、装置、设备及存储介质
CN114282058A (zh) 模型训练与视频主题预测的方法、装置及设备
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN116663523A (zh) 多角度增强网络的语义文本相似度计算方法
CN116957006A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
CN113157892A (zh) 用户意图处理方法、装置、计算机设备及存储介质
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination