CN114064973B

CN114064973B - 视频新闻分类模型建立方法、分类方法、装置及设备

Info

Publication number: CN114064973B
Application number: CN202210024807.3A
Authority: CN
Inventors: 仉佃星; 张智跃; 赵刚
Original assignee: People's Network Technology Beijing Co ltd
Current assignee: People's Network Technology Beijing Co ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-05-03
Anticipated expiration: 2042-01-11
Also published as: CN114064973A

Abstract

本文提供了视频新闻分类模型建立方法、分类方法、装置及设备，所述分类模型建立方法包括获取待训练视频新闻数据集合；将文本模态数据或图像模态数据输入到预训练标注模型中，得到标注结果；将待训练视频新闻数据输入到初始分类模型中，得到分类结果；根据标注结果和分类结果，分别计算得到第一损失函数的计算值及第二损失函数的计算值；根据第一损失函数的计算值和第二损失函数的计算值，计算获得目标损失函数的计算值；根据目标损失函数的计算值，训练得到视频新闻分类模型，并通过训练得到的分类模型进行视频新闻的分类，本文能提高视频新闻分类的效率和准确性。

Description

视频新闻分类模型建立方法、分类方法、装置及设备

技术领域

本文属于计算机技术领域，具体涉及视频新闻分类模型建立方法、分类方法、装置及设备。

背景技术

多模态数据是指对同一个对象，采用描述的方式（视角或领域不同），把描述这些数据的每一个领域或者视角叫做一个模态。其中新闻数据也是一种多模态数据，新闻数据包括文本、图像、视频等不同模态信息；每个视频可以分解为视觉、音频、图片、文字等多模态信息。

新闻分类属于分类任务的一个特定应用场景，因其分类体系与业务形态紧密关联，业界没有统一的分类标准，特别是针对视频新闻的分类，视频分类更多聚焦于视频动作的识别和分类。一般采用机器学习算法进行分类，具体为通过理解视频新闻中包含的内容，建模多模态特征表达和特征融合两个子网络，然后基于深度学习分类模型，确定视频新闻对应的主题。

在模型训练时需要对视频新闻进行大量的主题标注，才能提高模型训练的准确性，现有技术中，视频新闻主题的标注一般是通过手动标注，手动标注效率低准确性差、效率低，因此导致训练的样本量和可靠性降低，导致训练出的模型准确性较差。因此如何提高视频新闻分类的准确性和效率成为目前亟需解决的技术问题。

发明内容

针对现有技术的上述问题，本文的目的在于，提供一种视频新闻分类模型建立方法、分类方法、装置及设备，能够提高视频新闻分类的准确性和效率。

为了解决上述技术问题，本文的具体技术方案如下：

一方面，本文提供一种视频新闻分类模型建立方法，所述方法包括：

获取待训练视频新闻数据集合，所述待训练视频新闻数据包括文本模态数据、图像模态数据和视频模态数据；

将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果，所述标注结果作为初始分类模型的目标分类结果；

将所述待训练视频新闻数据输入到初始分类模型中，生成所述待训练视频新闻数据的分类结果，所述分类结果作为所述预训练标注模型的目标标注结果；

根据所述标注结果和所述分类结果，分别计算得到用于训练所述预训练标注模型的第一损失函数的计算值，以及用于训练所述初始分类模型的第二损失函数的计算值；

根据所述第一损失函数的计算值和所述第二损失函数的计算值，计算获得目标损失函数的计算值；

根据所述目标损失函数的计算值，调整所述预训练标注模型的网络参数、所述初始分类模型的网络参数以及所述目标损失函数，并回到所述标注结果的生成步骤，直到所述预训练标注模型和所述初始分类模型收敛，得到所述初始分类模型的收敛网络参数；

根据所述初始分类模型的收敛网络参数，确定视频新闻分类模型。

进一步地，所述文本模态数据包括所述待训练视频新闻中的标题文本，或所述待训练视频新闻中的音频文本；

所述图像模态数据包括所述待训练视频新闻中的新闻图片，或所述待训练视频新闻中指定位置的视频帧图像。

进一步地，所述获取待训练视频新闻数据集合之后包括：

利用BERT模型获取所述文本模态数据的文本特征向量；

利用Xception模型获取所述图像模态数据的图像特征向量；

利用3D卷积神经网络获取所述视频模态数据的视觉特征向量。

进一步地，所述将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果，包括：

将所述文本特征向量输入到预训练文本分类模型中，生成所述待训练视频数据的标注结果；或，

将所述图像特征向量输入到预训练图像分类模型中，生成所述待训练视频数据的标注结果。

进一步地，所述将所述待训练视频新闻数据输入到初始分类模型中，生成所述待训练视频新闻数据的分类结果，包括：

将所述文本特征向量、图像特征向量和所述视觉特征向量融合处理，得到视频新闻特征向量；

将所述视频新闻特征向量输入到所述初始分类模型中，生成所述待训练视频新闻数据的分类结果。

进一步地，所述将所述文本特征向量、图像特征向量和所述视觉特征向量融合处理，得到视频新闻特征向量，包括：

将所述文本特征向量、图像特征向量和所述视觉特征向量进行拼接处理，得到视频多模态特征向量；

将所述视频多模态特征向量输入到NeXtVLAD模型中，得到初始视频新闻特征向量；

将所述初始新闻特征向量输入到门控循环神经网络中进行特征增强处理，得到所述视频新闻特征向量。

进一步地，所述目标损失函数通过如下公式表示：

，

其中，L为目标损失函数的计算值，w _i为第i个损失函数的权重系数，L _i为第i个损失函数的计算值，n为损失函数的总数，

。

进一步地，所述将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果之前还包括：

初始化所述目标损失函数中的权重系数和初始化所述初始分类模型的参数。

进一步地，所述根据所述目标损失函数的计算值，调整所述预训练标注模型的网络参数、所述初始分类模型的网络参数以及所述目标损失函数，并回到所述标注结果的生成步骤，直到所述预训练标注模型和所述初始分类模型收敛，得到所述初始分类模型的收敛网络参数，包括：

判断所述目标损失函数的计算值是否超过计算值阈值；

若是，则采用梯度下降法调整所述目标损失函数中的权重系数和初始分类模型的参数，并回到标注结果的生成步骤；

若否，则确定初始分类模型的收敛网络参数。

另一方面，本文还提供一种视频新闻分类方法，所述方法包括：

获取待分类视频新闻；

提取获得所述待分类视频新闻的视频新闻特征向量；

将所述视频新闻特征向量输入通过上述所述方法建立的视频新闻分类模型中，得到所述待分类视频新闻的类型。

进一步地，所述提取获得所述待分类视频新闻的视频新闻特征向量，包括：

根据所述待分类视频新闻，获取所述待分类视频新闻中的文本模态数据、图像模态数据和视觉模态数据；

利用BERT模型获取所述文本模态数据的文本特征向量；

利用Xception模型获取所述图像模态数据的图像特征向量；

利用3D卷积神经网络获取所述视频模态数据的视觉特征向量；

将所述文本特征向量、图像特征向量和所述视觉特征向量融合处理，得到视频新闻特征向量。

另一方面，本文还提供一种视频新闻分类模型建立装置，所述装置包括：

训练集获取模块，用于获取待训练视频新闻数据集合，所述待训练视频新闻数据包括文本模态数据、图像模态数据和视频模态数据；

标注训练模块，用于将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果，所述标注结果作为初始分类模型的目标分类结果；

分类训练模块，用于将所述待训练视频新闻数据输入到初始分类模型中，生成所述待训练视频新闻数据的分类结果，所述分类结果作为所述预训练标注模型的目标标注结果；

第一计算模块，用于根据所述标注结果和所述分类结果，计算得到用于训练所述预训练标注模型的第一损失函数的计算值，以及用于训练所述初始分类模型的第二损失函数的计算值；

第二计算模块，用于根据所述第一损失函数的计算值和所述第二损失函数的计算值，计算获得目标损失函数的计算值；

训练模块，用于根据所述目标损失函数的计算值，调整所述预训练标注模型的网络参数、所述初始分类模型的网络参数以及所述目标损失函数，并回到所述标注结果的生成步骤，直到所述预训练标注模型和所述初始分类模型收敛，得到所述初始分类模型的收敛网络参数；

分类模型确定模块，用于根据所述初始分类模型的收敛网络参数，确定视频新闻分类模型。

另一方面，本文还提供一种视频新闻分类装置，所述装置包括：

待分类视频新闻获取模块，用于获取待分类视频新闻；

特征向量获取模块，用于提取获得所述待分类视频新闻的视频新闻特征向量；

类型确定模型，用于将所述视频新闻特征向量输入通过上述所述方法建立的视频新闻分类模型中，得到所述待分类视频新闻的类型。

另一方面，本文还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述的方法。

最后，本文还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的方法。

采用上述技术方案，本文所述的视频新闻分类模型建立方法、分类方法、装置及设备，通过设置预训练标注模型可以实现对视频新闻的自动标注，提升了标注数据量级，降低了人力投入，同时通过标注的视频新闻训练初始分类模型，并通过初始分类模型的输出结果反向训练预训练标注模型，并利用目标损失函数实现预训练标注模型和初始分类模型的相互训练，保证了标注的准确性和可靠性，进而提升了视频新闻分类的准确性，从而提升了视频新闻传播质量。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例提供的方法的实施环境示意图；

图2示出了本文实施例提供的视频新闻分类模型建立方法的步骤示意图；

图3示出了本文实施例中将初始分类模型的数据处理过程示意图；

图4示出了本文实施例中视频新闻特征向量生成步骤示意图；

图5示出了本文实施例提供的视频新闻分类模型建立装置结构示意图；

图6示出了本文实施例提供的视频新闻分类方法的步骤示意图；

图7示出了本文实施例提供的视频新闻分类装置的结构示意图；

图8示出了本文实施例提供的计算机设备的结构示意图。

附图符号说明：

10、数据库；

20、服务器；

30、终端；

110、训练集获取模块；

120、标注训练模块；

130、分类训练模块；

140、第一计算模块；

150、第二计算模块；

160、训练模块；

170、分类模型确定模块；

210、待分类视频新闻获取模块；

220、特征向量获取模块；

230、类型确定模型；

802、计算机设备；

804、处理器；

806、存储器；

808、驱动机构；

810、输入/输出模块；

812、输入设备；

814、输出设备；

816、呈现设备；

818、图形用户接口；

820、网络接口；

822、通信链路；

824、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中，针对视频新闻的分类识别，通过机器学习算法可以取得更好的效果，但是在模型训练时需要对视频新闻进行大量的主题标注，才能提高模型训练的准确性，现有技术中，视频新闻主题的标注一般是通过手动标注，手动标注效率低准确性差、效率低，因此导致训练的样本量和可靠性降低，导致训练出的模型准确性较差，同时训练的效率也比较低。

为了解决上述问题，本说明书实施例提供一种视频新闻分类模型建立方法，如图1所示，为所述方法的应用环境示例图，可以包括数据库10、服务器20和终端30，所述数据库10、所述服务器20和所述终端30两两之间相互通信连接，进行数据的传输，其中所述数据库10用于存储视频新闻数据，比如待训练视频新闻数据、待分类的视频新闻数据或其他数据，其中待训练视频新闻数据中包括各种类型的视频新闻（比如体育新闻、财经新闻等），也可以是进一步细分的类型，所述服务器20用于从所述数据库10中提取待训练视频新闻数据，并通过训练预训练标注模型和初始分类模型快速得到分类准确性高的视频新闻分类模型。服务器20将训练完成的视频新闻分类模型发送至终端30，所述终端30通过向所述数据库10中提取待分类视频新闻，并通过所述视频新闻分类模型对所述待分类视频新闻进行分类，本文能快速获得分类准确性高的视频新闻分类模型，提高视频新闻分类的效率和准确性。

在一个可选的实施例中，所述服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个可选的实施例中，所述终端30可以结合服务器20训练出的视频新闻分类模型进行视频新闻分类处理。具体的，终端30可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓(Android)系统、IOS系统、Linux、Windows等。

此外，需要说明的是，图1所示的仅仅是本公开提供的一种应用环境，在实际应用中，还可以包括其他应用环境，例如视频新闻分类模型的训练，也可以在终端30上实现，在本说明书实施例中不做限制。

具体地，本文实施例提供了视频新闻分类模型建立方法，能够提高视频新闻分类的效率和准确性。图2是本文实施例提供的一种视频新闻分类模型建立方法的步骤示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图2所示，所述方法可以包括：

S101：获取待训练视频新闻数据集合，所述待训练视频新闻数据包括文本模态数据、图像模态数据和视频模态数据；

S102：将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果，所述标注结果作为初始分类模型的目标分类结果；

S103：将所述待训练视频新闻数据输入到初始分类模型中，生成所述待训练视频新闻数据的分类结果，所述分类结果作为所述预训练标注模型的目标标注结果；

S104：根据所述标注结果和所述分类结果，分别计算得到用于训练所述预训练标注模型的第一损失函数的计算值，以及用于训练所述初始分类模型的第二损失函数的计算值；

S105：根据所述第一损失函数的计算值和所述第二损失函数的计算值，计算获得目标损失函数的计算值；

S106：根据所述目标损失函数的计算值，调整所述预训练标注模型的网络参数、所述初始分类模型的网络参数以及所述目标损失函数，并回到所述标注结果的生成步骤，直到所述预训练标注模型和所述初始分类模型收敛，得到所述初始分类模型的收敛网络参数；

S107：根据所述初始分类模型的收敛网络参数，确定视频新闻分类模型。

可以理解为，由于文本数据和图像数据较视频数据易于标注，且在视频新闻中视频数据中包含了部分文本或图像的信息，可以使用文本或图像标注数据来监督包含有视频的多模态数据（即视频新闻），本说明书实施例提供的方法中设有对视频新闻标注的预训练标注模型，以及对视频新闻分类的初始分类模型，并通过待训练视频新闻数据对上述预训练标注模型和初始分类模型进行联合训练，以目标损失函数作为收敛判断条件，最终得到训练完成的视频新闻分类模型，本文提供的视频新闻分类模型建立方法中，通过对视频新闻实现了自动标注，大大降低了人工标注的成本，并将标注任务和分类任务进行融合，提升了视频新闻分类模型建立的效率和准确性，进而提高了视频新闻分类的准确性。

其中，所述待训练视频新闻数据集合可以包括多个类型的视频新闻，这样可以提高预训练标注模型微调（fine-tuning）的效率，在所述待训练视频新闻数据集合收集的过程中，可以通过互联网爬虫技术从互联网上收集，为了提高视频新闻类型的完整性和时效性，可以从多个不同的新闻门户网站中的不同的主题专栏中爬取相应的视频新闻，通过还可以选取最近的时间段作为爬取的时间段，从而保证了视频新闻的时效性。

所述预训练模型是通过已有的训练集（比如已标注文本集或已标注图像集）对初始的标注模型进行训练得到具有一定网络参数的标注模型，当需要对待训练视频新闻标注时，通过采用相同网络结构的标注模型继续训练所述标注模型，可以更快更有效率的进行网络参数的调整，以使调整后的网络参数更适合当前的标注任务，以文本标注模型为例，可以选择FastText算法模型进行文本分类。

视频新闻是指具有文本信息、图像信息和视频信息的多个模态数据的新闻类型，模态之间具有关联性：每个模态能为其余模态提供一定的信息，即模态之间存在一定的关联性，所述文本信息可以为视频新闻的标题、正文或备注信息等，当然也可以为所述视频信息中的音频本文信息；所述图像信息即为图片，可以为视频新闻正文中的图片（比如封面图或插图等），也能从一定程度上表示视频新闻的主体，是对文本内容的映射和补充，当然也可以为所述视频信息中的指定位置的视频帧图像，所述指定位置可以根据实际情况设置，在本说明书实施例中不做限定。

在本说明书实施例中，所述获取待训练视频新闻数据集合之后包括：

利用BERT模型获取所述文本模态数据的文本特征向量；

利用Xception模型获取所述图像模态数据的图像特征向量；

可以理解为，本文通过对视频新闻中不同模态的数据进行特征提取，从而可以获得视频新闻的全量特征信息，其中预训练标注模型是针对文本模态数据或图像模态数据的模型，因此通过将视频新闻不同模态的特征提取出来可以通过相应的模型对文本模态数据或图像模态数据进行标注，而所述视频新闻中包括中文本模态数据或图像模态数据的信息，因此可以用对文本模态数据或图像模态数据的标注结果作为相应的视频新闻的标注结果，从而实现了视频新闻的自动标注。

针对文本模态数据，本文通过深度学习模型BERT（Bidirectional EncoderRepresentations from Transformers）的预训练模型来提取文本模态数据的文本特征向量，作为可选地，可以采用BERT-wwm中文版的预训练模型来提取视频新闻中的标题、正文和摘要的文本特征向量，在特征提取的过程中可以包括如下步骤：

1.1、确定待输入文本，并对所述待输入文本进行分词处理，得到词序列；

1.2、将所述词序列进行映射处理，得到所述词序列中不同词对应的token ID；

1.3、根据所述不同词对应的token ID，将所述待输入文本转化为token序列；

1.4、将所述token序列输入到预训练的BERT-wwm模型中，计算得到向量序列[CLS, T ₁ ,T ₂ …T _N ,SEP]；

1.5、将所述CLS对应的向量通过连接层（Dense）处理，并输出所述待输入文本的文本特征向量。

利用公开训练好的BERT-wwm模型，可以引入更多的迁移知识，提供更精准的文本特征，减少了再次需要训练BERT-wwm模型的时间，提高了效率，然后通过上述步骤结合公开训练好的BERT-wwm模型可以提取视频新闻中的文本模态数据的文本特征向量。

需要说明的是，文本特征向量的提取方式还可以基于词袋模型(Bag of Words)提取以及基于主题模型提取等，具体采用的提取方式，在本说明书实施例中不做限定。

针对图像模态数据，本文通过Xception模型进行特征提取，Xception模型是在Inception模型基础上的扩展，使用了深度可分离卷积运算。Xception模型将图像通道之间的相关性与空间相关性分开处理，并采用 Separable Convolution（可分离卷积）来替换原来 Inception-v3中的卷积操作。Xception模型中参数数量与Inception-v3相同，由于更高效地利用模型参数，该模型的网络性能获得提升并在大型图像分类数据集中有更好的效果。通过Xception模型提取图像特征向量的步骤如下：

2.1、确定待输入图像，并对所述待输入图像进行预处理，得到统一输入尺寸（比如224×224）；

2.2、将与处理后的图像进行1×1卷积操作，提取图像特征；

2.3、将提取后的图像特征的每个通道进行3×3卷积操作，得到每个通道的特征向量；

2.4、将每个通道的图像特征向量拼接（Concat）处理，得到所述待输入图像的图像特征向量。

需要说明的是，上述步骤只是提取图像模态数据的图像特征向量的一种方式，在一些其他实施例中还可以有其他实现方式，比如可以采用基于卷积神经网络的VGG（VisualGeometry Group）网络结构、Inception系列，具体的提取方式在本说明书实施例中不做限定。

针对视频模态数据，本文采用3D卷积神经网络提取特征向量，3D卷积神经网络可以从水平、垂直和时序三个方向同时提取视频时空特征。示例性地，基于3D卷积操作的C3DNetwork结构：共有8次卷积操作，5次池化操作。其中卷积核的大小均为3×3×3，步长为1×1×1。池化核的大小为2×2×2，步长为2×2×2，但第一层池化除外，其大小和步长均为1×2×2，这是为了不过早缩减时序上的长度，最终网络在经过两次全连接层和Softmax层后就得到了最终的输出结果，网络的输入尺寸为3×16×112×112，即一次输入16帧图像。作为可选地，所述视觉特征向量的提取步骤如下：

3.1、确定待输入视频模态数据，并对所述待输入视频模态数据进行切分处理，得到16个关键帧图像；

3.2、按照所述关键帧图像的序列，将所述关键帧图像输入C3D Network结构的输入层中；

3.3、通过所述C3D Network结构的池化层和卷积层，提取所述关键帧图像的图像特征信息；

3.4、通过所述C3D Network结构的全连接层，对所述图像特征信息进行2次全连接计算，得到所述待输入视频模态数据的视觉特征向量；

3.5、通过所述C3D Network结构的输出层输出所述输入视频模态数据的视觉特征向量。

所述关键帧可以理解为所述视频模态数据中的有效帧或任意一帧，在切分处理时，可以将所述视频模态数据切分成16个片段，对每个片段提取出一个关键帧，从而获得具有时序的16个关键帧图像，比如可以分析每个片段中视频帧的有效性，将有效性较高的视频帧作为关键帧，其中有效性可以理解为视频帧中有效像素点（即有实际意义的像素点）的比例，比例越高则表示视频帧的有效性越高，能表达出来的含义越丰富。

在本说明书实施例中，所述将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果，包括：

可以理解为，由于文本数据和图像数据较视频数据易于标注（即文本分类或图像分类），即文本标注模型或者图像标注模型易于训练，通过已有的训练集即可训练得到，或者通过已知的预训练模型即可实现对文本数据或图像数据的标注。在视频新闻中存在文本、图像和视频三种信息相关的模态时，通过对其中文本或图像的标注就能实现对整个视频新闻的自动标注。

在本说明书实施例中，如图3所示，所述将所述待训练视频新闻数据输入到初始分类模型中，生成所述待训练视频新闻数据的分类结果，包括：

S201：将所述文本特征向量、图像特征向量和所述视觉特征向量融合处理，得到视频新闻特征向量；

S202：将所述视频新闻特征向量输入到所述初始分类模型中，生成所述待训练视频新闻数据的分类结果。

本文通过对视频新闻中表示新闻特征的全部特征向量融合处理，可以提高对新闻表示的准确性和可靠性，并通过融合后的视频新闻特征向量来训练初始分类模型，从而可以提高训练后的分类模型的可靠性和准确性。

进一步实施例中，如图4所示，所述将所述文本特征向量、图像特征向量和所述视觉特征向量融合处理，得到视频新闻特征向量，包括：

S301：将所述文本特征向量、图像特征向量和所述视觉特征向量进行拼接处理，得到视频多模态特征向量；

S302：将所述视频多模态特征向量输入到NeXtVLAD模型中，得到初始视频新闻特征向量；

S303：将所述初始新闻特征向量输入到门控循环神经网络中进行特征增强处理，得到所述视频新闻特征向量。

本文通过对反映视频新闻三个不同模态的特征向量进行拼接处理，可以得到全量的特征向量，对不同模态数据进行同等处理或对所有模态特征进行简单的连接整合不能保证任务的有效性；通过不同特征集的互补融合，联合学习各模态数据的潜在共享信息，可以提升数据任务的有效性。因此本文在对不同模态的特征向量拼接之后，会利用一个基于聚类分析和残差学习的NeXtVLAD网络进行特征融合，融合得到一个视频片段的特征（feature），然后对得到的特征向量通过门控循环神经网络（Gate）中进行特征增强处理，发掘各个维度（即模态）之间关联的信息，然后有选择性地增强一些维度，抑制一些无关的维度，这样就能得到视频新闻特征向量，可以全面可靠的表示视频新闻的特征。

在本说明书实施例中，预设训练标注模型和所述初始分类模型是联合训练的，即通过目标损失函数进行训练，所述目标损失函数通过如下公式（1）表示：

，（1）

。其中在本说明书实施例中，n为2，即包括第一损失函数和第二损失函数，所述权重系数也是在联合训练过程中确定的值。

所述第一损失函数和所述第二损失函数可以根据实际情况设置，可以为逻辑回归损失函数、最小二乘法损失函数、交叉熵损失函数等损失函数类型，在本说明书实施例中不做限定。

在本说明书实施例中，所述将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果之前还包括：

所述根据所述目标损失函数的计算值，调整所述预训练标注模型的网络参数、所述初始分类模型的网络参数以及所述目标损失函数，并回到所述标注结果的生成步骤，直到所述预训练标注模型和所述初始分类模型收敛，得到所述初始分类模型的收敛网络参数，包括：

判断所述目标损失函数的计算值是否超过计算值阈值；

若否，则确定初始分类模型的收敛网络参数。

在本说明书实施例中，通过目标损失函数实现了对所述预训练标注模型和所述初始分类模型的联合训练，在所述预训练标注模型微调过程中，逐渐的与视频新闻相匹配，从而提高了预训练标注模型微调的可靠性，进而提高了初始分类模型训练的可靠性，提高了视频新闻分类的准确性，从而提升新闻传播的质量。

在本说明书实施例中，以文本标注模型为例，还提供了对预训练标注模型微调的过程，可以包括：

1）确定预训练标注模型，所述预训练标注模型为FastText算法模型；

2）视频新闻数据集构建，所述视频新闻数据包括文本模态数据、图像模态数据和视频模态数据；

3）提取特征向量，通过BERT模型提取所述文本模态数据中的文本特诊向量；

4）标注模型训练，将文本特征向量输入到预训练标注模型中，得到预测标注结果，将初始分类模型的分类结果作为目标标注结果，并通过目标损失函数迭代至收敛，完成模型训练。

在本说明书的另一个实施例中，还提供了一种视频新闻分类模型建立方法，所述方法包括：

构建多任务学习模型，所述多任务学习模型包括输入层、表示层和多任务层，所述输入层用于提取所述待训练视频新闻的文本特征向量、图像特征向量和视觉特征向量，所述表示层设有第一门控循环单元、第二门控循环单元和多个专家模块，所述第一门控循环单元用于输出所述第一损失函数的权重值，所述第二门控循环单元用于输出所述第二损失函数的权重值，所述专家模块用于处理待训练视频新闻的多模态特征向量，所述多任务层用于训练所述预训练标注模型和所述初始分类模型，从而得到训练完成的标注模型和分类模型；

将所述待训练视频新闻输入到所述多任务学习模型中，训练得到视频新闻分类模型。

可以理解为，本文通过多任务学习模型将标注任务和分类任务联合训练，可以将不同任务之间的联系和差异加入到训练过程，提高每个任务的可靠性。其中多任务学习模型通过共享底层特征，使得任务之间互相影响，通过学习不同任务的联系和差异，提高每个任务的学习效率和质量；通过利用包含在相关任务训练信号中特定领域的信息，可以提高模型的泛化能力。

进一步实施例中，多任务学习的流程可以包括：共享特征构建及任务特征选择、多任务训练、多目标融合及优化：

本文选择多任务学习模型（Modeling Task Relationships in Multi-taskLearning with Multi-gate Mixture-of-Experts，MMoE）进行共享特征构建：将各任务共享的底层表示层分为多个专家模块（expert），专家模块可以实现对底层数据的处理，每个任务可以对应多个不同的专家模块，使得不同的任务可以多样化的使用共享层特征。

MMoE的目的在于捕获任务差异，与共享底部多任务模型相比，不需要明显增加更多的模型参数。通过对多个任务的关系进行建模，或者理解成学习所有任务的不同方面；再对每个任务学习一个门限循环控制单元 (Gate网络)，这个Gate可以理解成这个任务在各个方面的特点，输入就是输入层接收的特诊向量，输出是每个任务对应专家模块的权重。

每个 Gate 网络都可以根据不同任务来选择不同的专家模块，所以即使两个任务并不是十分相关，那么经过 Gate 后也可以得到不同的权重系数，此时，MMoE可以充分利用专家模块的信息，近似于单个任务；而如果两个任务相关性高，那么 Gate 的权重分布相差会不大，会类似于一般的多任务学习。

本文的多任务训练为：标注任务和分类任务，即预训练标注模型和初始分类模型的训练任务。

多目标融合及优化，将待训练视频新闻数据输入到多任务学习模型的输入层，通过多目标任务的损失函数计算，平衡不同任务间梯度的大小，找到最优权重值来平衡每个目标任务的贡献。

本说明书实施例提供过将预训练标注模型和初始分类模型加入到多任务学习模型中，可以通过多任务训练机制提升了分类算法的性能，在实现了视频新闻自动标注的基础上，提高了视频新闻分类的准确性，降低了人工标注成本。

基于同一发明构思，本说明书实施例还提供一种视频新闻分类模型建立装置，如图5所示，所述装置包括：

训练集获取模块110，用于获取待训练视频新闻数据集合，所述待训练视频新闻数据包括文本模态数据、图像模态数据和视频模态数据；

标注训练模块120，用于将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果，所述标注结果作为初始分类模型的目标分类结果；

分类训练模块130，用于将所述待训练视频新闻数据输入到初始分类模型中，生成所述待训练视频新闻数据的分类结果，所述分类结果作为所述预训练标注模型的目标标注结果；

第一计算模块140，用于根据所述标注结果和所述分类结果，计算得到用于训练所述预训练标注模型的第一损失函数的计算值，以及用于训练所述初始分类模型的第二损失函数的计算值；

第二计算模块150，用于根据所述第一损失函数的计算值和所述第二损失函数的计算值，计算获得目标损失函数的计算值；

训练模块160，用于根据所述目标损失函数的计算值，调整所述预训练标注模型的网络参数、所述初始分类模型的网络参数以及所述目标损失函数，并回到所述标注结果的生成步骤，直到所述预训练标注模型和所述初始分类模型收敛，得到所述初始分类模型的收敛网络参数；

分类模型确定模块170，用于根据所述初始分类模型的收敛网络参数，确定视频新闻分类模型。

通过上述装置所取得的有益效果和上述方法所取得的有益效果一致，本说明书不做赘述。

本说明书实施例还提供一种视频新闻分类方法，如图6所示，所述方法包括：

S401：获取待分类视频新闻；

S402：提取获得所述待分类视频新闻的视频新闻特征向量；

S403：将所述视频新闻特征向量输入通过上述所述方法建立的视频新闻分类模型中，得到所述待分类视频新闻的类型。

进一步实施例中，所述提取获得所述待分类视频新闻的视频新闻特征向量，包括：

利用BERT模型获取所述文本模态数据的文本特征向量；

利用Xception模型获取所述图像模态数据的图像特征向量；

本说明书实施例提供的视频新闻分类方法，通过上述提供方法建立的视频新闻分类模型进行视频新闻分类，可以提高视频新闻分类的准确定，从而提高了新闻传播质量。

基于同一发明构思，本说明书实施例还提供一种视频新闻分类装置，如图7所示，所述装置包括：

待分类视频新闻获取模块210，用于获取待分类视频新闻；

特征向量获取模块220，用于提取获得所述待分类视频新闻的视频新闻特征向量；

类型确定模型230，用于将所述视频新闻特征向量输入通过上述方法建立的视频新闻分类模型中，得到所述待分类视频新闻的类型。

如图8所示，为本文实施例提供的一种计算机设备，本文中的视频新闻分类模型建立或视频新闻分类装置可以为本实施例中的计算机设备，执行上述本文的视频新闻分类模型建立方法或视频新闻分类方法，所述计算机设备802可以包括一个或多个处理器804，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备802还可以包括任何存储器806，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器806可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备802的固定或可移除部件。在一种情况下，当处理器804执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备802可以执行相关联指令的任一操作。计算机设备802还包括用于与任何存储器交互的一个或多个驱动机构808，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备802还可以包括输入/输出模块810（I/O），其用于接收各种输入(经由输入设备812)和用于提供各种输出(经由输出设备814))。一个具体输出机构可以包括呈现设备816和相关联的图形用户接口(GUI)818。在其他实施例中，还可以不包括输入/输出模块810（I/O）、输入设备812以及输出设备814，仅作为网络中的一台计算机设备。计算机设备802还可以包括一个或多个网络接口820，其用于经由一个或多个通信链路822与其他设备交换数据。一个或多个通信总线824将上文所描述的部件耦合在一起。

通信链路822可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路822可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于图2-图4及图6中的方法，本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如图2-图4及图6所示的方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种视频新闻分类模型建立方法，其特征在于，所述方法包括：

获取待训练视频新闻数据集合，所述待训练视频新闻数据包括文本模态数据、图像模态数据和视频模态数据，所述文本模态数据包括所述待训练视频新闻中的标题文本，或所述待训练视频新闻中的音频文本，所述图像模态数据包括所述待训练视频新闻中的新闻图片，或所述待训练视频新闻中指定位置的视频帧图像；

2.根据权利要求1所述的方法，其特征在于，所述获取待训练视频新闻数据集合之后包括：

利用BERT模型获取所述文本模态数据的文本特征向量；

利用Xception模型获取所述图像模态数据的图像特征向量；

3.根据权利要求2所述的方法，其特征在于，所述将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果，包括：

将所述文本特征向量输入到预训练文本分类模型中，生成所述待训练视频新闻数据的标注结果；或，

将所述图像特征向量输入到预训练图像分类模型中，生成所述待训练视频新闻数据的标注结果。

4.根据权利要求2所述的方法，其特征在于，所述将所述待训练视频新闻数据输入到初始分类模型中，生成所述待训练视频新闻数据的分类结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述文本特征向量、图像特征向量和所述视觉特征向量融合处理，得到视频新闻特征向量，包括：

将所述初始视频新闻特征向量输入到门控循环神经网络中进行特征增强处理，得到所述视频新闻特征向量。

6.根据权利要求1所述的方法，其特征在于，所述目标损失函数通过如下公式表示：

，

。

7.根据权利要求1所述的方法，其特征在于，所述将所述文本模态数据或图像模态数据输入到预训练标注模型中，生成所述待训练视频新闻数据的标注结果之前还包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标损失函数的计算值，调整所述预训练标注模型的网络参数、所述初始分类模型的网络参数以及所述目标损失函数，并回到所述标注结果的生成步骤，直到所述预训练标注模型和所述初始分类模型收敛，得到所述初始分类模型的收敛网络参数，包括：

判断所述目标损失函数的计算值是否超过计算值阈值；

若是，则采用梯度下降法调整所述目标损失函数中的权重系数和初始分类模型的网络参数，并回到标注结果的生成步骤；

若否，则确定初始分类模型的收敛网络参数。

9.一种视频新闻分类方法，其特征在于，所述方法包括：

获取待分类视频新闻；

提取获得所述待分类视频新闻的视频新闻特征向量；

将所述视频新闻特征向量输入通过权利要求1至8任一项所述方法建立的视频新闻分类模型中，得到所述待分类视频新闻的类型。

10.根据权利要求9所述的方法，其特征在于，所述提取获得所述待分类视频新闻的视频新闻特征向量，包括：

利用BERT模型获取所述文本模态数据的文本特征向量；

利用Xception模型获取所述图像模态数据的图像特征向量；

11.一种视频新闻分类模型建立装置，其特征在于，所述装置包括：

12.一种视频新闻分类装置，其特征在于，所述装置包括：

待分类视频新闻获取模块，用于获取待分类视频新闻；

类型确定模型，用于将所述视频新闻特征向量输入通过权利要求1至8任一项所述方法建立的视频新闻分类模型中，得到所述待分类视频新闻的类型。

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的方法。