CN117112836A

CN117112836A - 一种面向视频内容的大数据智能分类方法

Info

Publication number: CN117112836A
Application number: CN202311134436.5A
Authority: CN
Inventors: 彭榕树生
Original assignee: Guangxi Hualikang Technology Co ltd
Current assignee: Guangxi Hualikang Technology Co ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-11-24

Abstract

本发明涉及视频处理技术领域，尤其涉及一种面向视频内容的大数据智能分类方法，其先获取目标视频及目标视频的描述标签，包括用于描述在目标视频中出现的物体的物体标签，然后根据目标视频的内容，判断物体标签的准确性，之后若物体标签准确，则根据描述标签通过第一预设分类模型对目标视频进行分类，若物体标签不准确，则通过第二预设分类模型对目标视频进行分类。相比于现有技术，本发明通过描述标签中物体标签和视频内容的比对，实现对描述标签准确性的判定，并且采用不同的分类模型进行分类，即提高分类效率和准确性，又避免了不准确的描述标签造成的不良影响。

Description

一种面向视频内容的大数据智能分类方法

技术领域

本发明涉及视频处理技术领域，尤其涉及一种面向视频内容的大数据智能分类方法。

背景技术

随着互联网的进步，观看视频已经成为人们主要的娱乐方式。然而，由于如今互联网中的视频数据海量且人工审核效率较低，为了能够提供更好内容服务以及维护健康网络，智能视频分类技术应运而生，通过利用大数据对海量视频进行智能分类的研究成为当前的主要方向。

现有方法中，为了提高视频分类的准确性，一种常用的方式是依靠视频上传者在上传时自行定义的描述标签进行辅助分类。然而，并不是所有上传者提供的描述标签都准确可靠。例如，有些上传者可能会故意为不良视频打上错误的描述标签，或者随意选择与视频内容无关的标签。若过于依赖上传者的描述标签进行分类，会严重影响后续分类的准确性。

因此，人们需要一种新的分类方法，以避免不准确的描述标签对分类结果造成负面影响。

发明内容

有鉴于此，有必要提供一种面向视频内容的大数据智能分类方法，用以解决现有技术中不准确的描述标签会对分类结果造成负面影响的问题。

本发明提供了一种面向视频内容的大数据智能分类方法，包括：

获取目标视频及所述目标视频的描述标签，描述标签包括用于描述在所述目标视频中出现的物体的物体标签；

根据所述目标视频的内容，判断物体标签的准确性；

若物体标签准确，则根据描述标签，通过第一预设分类模型对所述目标视频进行分类，得到分类结果；

若物体标签不准确，则通过第二预设分类模型对所述目标视频进行分类，得到分类结果。

进一步的，所述根据所述目标视频的内容，判断物体标签的准确性，包括：

从所述目标视频中提取多个第一视频帧；

识别多个第一视频帧的内容，并统计物体标签对应的物体在多个第一视频帧中出现的频率；

根据物体标签对应的物体在多个第一视频帧中出现的频率与预设频率阈值的大小关系，得到物体标签的准确性。

进一步的，描述标签还包括用于描述所述目标视频的视频种类的种类标签，每一种种类标签分别对应有一个预设图像提取模型；所述从所述目标视频中提取多个第一视频帧，包括：

基于与种类标签对应的预设图像提取模型处理所述目标视频，得到多个所述第一视频帧。

进一步的，所述根据描述标签，通过第一预设分类模型对所述目标视频进行分类，得到分类结果，包括：

将出现物体标签对应的物体的第一视频帧作为关键帧；

从所述目标视频中选择关键帧的多个相邻视频帧，将关键帧与对应的多个相邻视频帧作为第二视频帧；

根据多个第二视频帧，结合描述标签，基于所述第一预设分类模型得到所述分类结果。

进一步的，从所述目标视频中选择关键帧的多个相邻视频帧，包括：

获取关键帧的相关区域的数量，关键帧的相关区域为关键帧中物体标签对应的物体出现的区域；

根据关键帧的相关区域的数量，得到关键帧对应的相邻视频帧选择个数；

基于关键帧对应的相邻视频帧选择个数，从所述目标视频中选择关键帧的多个相邻视频帧。

进一步的，所述根据关键帧的相关区域的数量，得到关键帧对应的相邻视频帧选择个数，包括：

通过下式得到相邻视频帧选择个数：其中，/>为相邻视频帧选择个数，/>为向下取整函数，/>和/>分别为不同的调整参数，/>为关键帧的相关区域的数量，为为所述目标视频的总帧数。

进一步的，所述根据多个第二视频帧，结合描述标签，基于所述第一预设分类模型得到所述分类结果，包括：

获取每个第二视频帧的相关区域，其中，第二视频帧中相邻视频帧的相关区域为其对应的关键帧的相关区域；

根据每个第二视频帧中相关区域内的内容和物体标签对应的物体的相似程度，得到每个视频帧中，每个相关区域的注意力权重；

基于注意力权重，根据多个第二视频帧得到所述目标视频的特征融合向量；

将所述特征融合向量输入至所述第一预设分类模型，得到所述分类结果。

进一步的，所述基于注意力权重，根据多个第二视频帧得到所述目标视频的特征融合向量，包括：

根据每个第二视频帧，得到每个第二视频帧的特征向量；

基于每个第二视频帧中相关区域的注意力权重，加权优化每个第二视频帧的特征向量，得到每个第二视频帧的加权特征向量；

融合每个第二视频帧的加权特征向量，得到所述目标视频的特征融合向量。

本发明的有益效果是：

本发明提供一种面向视频内容的大数据智能分类方法，其先获取目标视频及所述目标视频的描述标签，描述标签包括用于描述在所述目标视频中出现的物体的物体标签，然后根据所述目标视频的内容，判断物体标签的准确性，之后若物体标签准确，则根据描述标签，通过第一预设分类模型对所述目标视频进行分类，得到分类结果，若物体标签不准确，则通过第二预设分类模型对所述目标视频进行分类，得到分类结果。相比于现有技术，本发明通过描述标签中物体标签和视频内容的比对，实现对描述标签准确性的判定，分局判定结果的不同，采用不同的分类模型来提高视频分类的效率。若描述标签准确，则结合描述标签通过第一预设分类模型对视频进行分类，提高分类效率和准确性，若描述标签不准确，则仅通过视频本身进行分类，避免了不准确的描述标签造成的不良影响。

附图说明

图1为本发明提供的面向视频内容的大数据智能分类方法一实施例的方法流程图；

图2为图1中步骤S102一实施例的方法流程图；

图3为图1中步骤S103一实施例的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1所示，本发明的一个具体实施例，公开了一种面向视频内容的大数据智能分类方法，包括：

S101、获取目标视频及所述目标视频的描述标签，描述标签包括用于描述在所述目标视频中出现的物体的物体标签；

S102、根据所述目标视频的内容，判断物体标签的准确性；

S103、若物体标签准确，则根据描述标签，通过第一预设分类模型对所述目标视频进行分类，得到分类结果；

S104、若物体标签不准确，则通过第二预设分类模型对所述目标视频进行分类，得到分类结果。

相比于现有技术，本发明通过描述标签中物体标签和视频内容的比对，实现对描述标签准确性的判定，分局判定结果的不同，采用不同的分类模型来提高视频分类的效率。若描述标签准确，则结合描述标签通过第一预设分类模型对视频进行分类，提高分类效率和准确性，若描述标签不准确，则仅通过视频本身进行分类，避免了不准确的描述标签造成的不良影响。

在一个优选的实施例中，上述步骤S101中，描述标签为用户在将目标视频上传时，由用户输入的有关该视频的标签。

进一步的，结合图2所示，在一个优选的实施例中，上述步骤S102、根据所述目标视频的内容，判断物体标签的准确性，具体包括：

S201、从所述目标视频中提取多个第一视频帧；

S202、识别多个第一视频帧的内容，并统计物体标签对应的物体在多个第一视频帧中出现的频率；

S203、根据物体标签对应的物体在多个第一视频帧中出现的频率与预设频率阈值的大小关系，得到物体标签的准确性。

对于目标视频，识别每一帧的内容并比对物体标签显然是不实际的，因此本实施例中抽取若干第一视频帧，以第一视频帧代表整个目标视频进行描述标签准确性的判断。

步骤S201中选取第一视频帧可以采用任意的现有方法，利于按照特定的比例等间距地抽取多个第一视频帧，也可以基于一定的规则，针对不同的情况采用不同的方法进行抽取。

具体地，在一个优选的实施例中，描述标签还包括用于描述所述目标视频的视频种类的种类标签，每一种种类标签分别对应有一个预设图像提取模型；上述步骤S201、所述从所述目标视频中提取多个第一视频帧，包括：

上述过程中的种类标签，为描述视频种类的方法，该种类标签可以由系统提供几个默认选项，由视频上传者在上传视频时选取。需要说明的是，该种类标签表明的种类为初步分类的视频种类，如剧情片、广告、生活视频等，该种类为视频内容本身的客观种类，与分类该系统的具体需求无关。而种类标签表明的种类与最后通过第一预设分类模型或第二预设分类模型得到的分类结果中的种类不同，最后分类结果中的种类可以根据具体需要灵活设定为任何与视频本身内容无关的类别，该种类通常较为主观，服务于系统的具体需求，例如目标视频适合的年龄段，目标视频为某一类用户感兴趣的种类，目标视频中是否包含某个用户屏蔽的人物、关键字等，通过分类结果的种类，系统能为用户提供更好的推送体验。

上述过程中的预设图像提取模型，即为在不同情况下提取视频帧的不同方法，为人工在大数据分类系统中设计好的程序、模块等，其具体方法可以包括颜色直方图法、运动检测法、视频质量评估法、光流分析法、面部识别算法等。通过不同的种类标签，可以选择不同的预设图像提取模型，使得提取出的第一视频帧能更加符合实际情况，提高物体标签判断的准确性。

例如，对于不同类型的视频，可以使用不同的预设图像提取模型来识别和提取第一视频帧，以下是一些应用场景举例：

剧情片和电视剧：可以使用颜色直方图和运动检测算法来识别关键场景、重要角色或剧情转折的帧。

广告和宣传片：可以使用图像质量评估算法来提取最清晰、最有吸引力的帧，以展示产品或服务的特点。

新闻报道和纪录片：可以使用光流分析和物体跟踪算法来捕捉重要事件、人物或物体出现的帧。

视频日志和Vlog：可以使用面部识别算法来提取最令人感兴趣的情绪表情或精彩瞬间的帧。

进一步的，上述步骤S202中，如何识别第一视频帧的内容，如何统计物体标签对应的物体在多个第一视频帧中出现的频率，均为本领域技术人员能够理解的现有技术，因此本文不做过多说明。

上述步骤S203中，预设频率阈值可以由人为设定，也可以根据机器学习等模型计算得出，当物体标签对应的物体在多个第一视频帧中出现的频率大于预设频率阈值时，表明该物体标签准确，那么一定程度上便可以视为描述标签准确，反之同理。

若判断得到描述标签准确，则可以进行步骤S103、若物体标签准确，则根据描述标签，通过第一预设分类模型对所述目标视频进行分类，得到分类结果。

其中，第一预设分类模型可以为结合描述标签，对目标视频进行分类的任意现有的分类模型，在描述标签准确的情况下，结合描述标签进行分类能够使分类效率更快，更加准确。

以下是几种能够结合描述标签进行分类的方法（即几种第一预设分类模型的举例）：

文本-视频匹配：将视频的描述标签进行匹配或相似性计算。可以使用自然语言处理技术将语义描述转化为向量表示，然后通过计算向量之间的相似度或进行匹配，将视频与相应的标签相关联。

强化学习：使用增强学习方法从描述标签中获取视频分类的策略。建立一个强化学习代理，在每个时间步骤中根据描述标签对视频进行分类，通过与环境的交互不断优化分类策略，使得代理能够更准确地分类视频。

基于注意力机制的分类：该方法使用注意力机制来自动关注视频中与描述标签相关的区域或帧。可以基于物体检测结果、关键帧提取或区域建议来计算注意力权重，然后将关注的区域或帧的特征用于分类任务。

结合语义分割的分类：该方法使用语义分割模型来提取视频中不同物体的分割结果，然后根据描述标签的信息进行分类。可以将物体标签映射到语义分割结果的类别中，统计不同物体在视频中的出现情况，为视频分类提供辅助信息。

结合图3所示，在一个优选的实施例中，上述步骤S103、若物体标签准确，则根据描述标签，通过第一预设分类模型对所述目标视频进行分类，得到分类结果，具体包括：

S301、将出现物体标签对应的物体的第一视频帧作为关键帧；

S302、从所述目标视频中选择关键帧的多个相邻视频帧，将关键帧与对应的多个相邻视频帧作为第二视频帧；

S303、根据多个第二视频帧，结合描述标签，基于所述第一预设分类模型得到所述分类结果。

关键帧作为明确包含物体标签对应的物体的帧，将其作为先验条件能够提高视频分类速度，本实施例中基于关键帧重新选择多个相邻视频帧，即为关键帧的相邻范围内的帧，这些帧同样能够包含足够的物体信息，通过这些视频帧与关键帧作为第二视频帧输入至第一预设分类模型中，能够极大地提高分类准确性和速度。

具体地，在一个优选的实施例中，上述步骤S302中，从所述目标视频中选择关键帧的多个相邻视频帧，具体包括：

上述过程根据关键帧内相关区域的数量，对选择的相邻视频帧的个数进行控制，以控制最后得到的第二视频帧在包含足够的信息的同时，其数量也不会过多，造成无意义的计算。

进一步的，在一个优选的实施例中，通过下式得到相邻视频帧选择个数：其中，/>为相邻视频帧选择个数，/>为向下取整函数，/>和/>分别为不同的调整参数，/>为关键帧的相关区域的数量，/>为为所述目标视频的总帧数。

该公式保证选择的相邻视频帧的数量不会超过视频的总帧数，并且选择的帧数量与相关区域的数量/>呈正相关。通过调整系数/>的值，可以控制选择帧的相对数量。如果/>越大，选择的帧数量与相关区域数量/>相关性越强；反之如果/>越小，选择的帧数量相对较少。调整参数/>则调节了视频总帧数对选择数量的影响程度。整体而言，选择的帧数量会根据相关区域数量/>的大小进行调整，但不会超过目标视频的总帧数。

进一步的，在一个优选的实施例中，该实施例采用改进的基于注意力机制的分类方法实现上述步骤S103，具体地，在本实施例中，步骤S303、根据多个第二视频帧，结合描述标签，基于所述第一预设分类模型得到所述分类结果，具体包括：

具体地，在一个优选的实施例中，上述步骤基于注意力权重，根据多个第二视频帧得到所述目标视频的特征融合向量，具体包括：

根据每个第二视频帧，得到每个第二视频帧的特征向量；

本发明还提供一更加详细的实施例，用以清楚地说明上述过程S303：

基于注意力机制的分类方法主要利用注意力机制来自动关注视频中与物体标签相关的区域或帧，以提高视频分类的准确性。该方法的主要步骤为：

特征提取：首先，对目标视频进行特征提取，常用的方法是使用卷积神经网络（CNN）对视频帧进行处理，获取每一帧的视觉特征。这可以通过在预训练的CNN网络（如ResNet、Inception等）上提取帧级别特征实现。本实施例中针对每个第二视频帧提取一个特征向量，将这些向量作为目标视频的视频特征。

注意力计算：利用相关区域计算注意力权重。这可以通过不同的方法实现，例如使用基于空间的注意力模型，计算每个区域的注意力权重，或者使用基于注意力的循环神经网络（Attention-based Recurrent Neural Network，AttRNN）对时间序列的帧进行建模，得出每个帧的注意力权重。

例如，基于空间的注意力权重过程包括：

相似度计算：对于每个第二视频帧，可以使用特征相似度计算方法（如余弦相似度、欧氏距离等）来度量每个相关区域与物体标签对应的物体之间的相似程度或相关性得分。

归一化处理：将相似度转化为注意力权重时，通常需要进行归一化处理，使得权重值处于[0, 1]的范围。一种常用的方法是应用softmax函数来得到注意力权重，保证权重值的总和为1。

再例如，基于注意力的循环神经网络（AttRNN）：

注意力网络：在AttRNN中，一种常见的方法是使用一个注意力网络来计算帧级别的注意力权重。该网络可以采用全连接层、卷积层等结构，将每个帧的特征作为输入，并输出对应的注意力权重。

激活函数：得到注意力权重后，通常会使用激活函数，如softmax函数，将注意力权重转化为概率值，确保注意力权重之和等于1。

得到注意力权重后，便可以进行特征融合：将特征向量与区域的注意力权重进行融合。一种常见的方法是对每个视频帧的特征向量乘以对应区域的注意力权重，然后将它们汇总到一个特征向量中。可以将不同帧的特征进行平均、最大池化等操作。

最后，将融合后的特征输入到一个分类模型（即第一预设分类模型）中进行分类。这个分类模型可以是传统的机器学习算法，如支持向量机（SVM）、随机森林等，也可以是基于深度学习的模型，如全连接神经网络或递归神经网络（RNN）。

可以理解的是，上述过程中的相关细节为本领域技术人员能够理解的现有技术，本文不做过多说明。

进一步的，若判断得到描述标签不准确，则可以进行步骤S104、若物体标签不准确，则通过第二预设分类模型对所述目标视频进行分类，得到分类结果。

与第一预设分类模型不同，第二预设分类模型对目标视频进行分类时不需要将物体标签作为模型的输入，其仅根据目标视频本身进行分类，虽然效率可能不及第一预设分类模型，但是其不受错误的物体标签的影响。

第二预设分类模型可以为任意现有的分类模型，例如基于内容特征的分类模型，如根据颜色直方图、纹理特征、形状特征等进行分类。再例如基于机器学习的分类模型，常见的算法有支持向量机(SVM)、决策树、随机森林等，或者基于基于深度学习的分类，常见的有卷积神经网络(CNN)、循环神经网络(RNN)等。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面向视频内容的大数据智能分类方法，其特征在于，包括：

根据所述目标视频的内容，判断物体标签的准确性；

2.根据权利要求1所述的面向视频内容的大数据智能分类方法，其特征在于，所述根据所述目标视频的内容，判断物体标签的准确性，包括：

从所述目标视频中提取多个第一视频帧；

3.根据权利要求2所述的面向视频内容的大数据智能分类方法，其特征在于，描述标签还包括用于描述所述目标视频的视频种类的种类标签，每一种种类标签分别对应有一个预设图像提取模型；所述从所述目标视频中提取多个第一视频帧，包括：

4.根据权利要求2所述的面向视频内容的大数据智能分类方法，其特征在于，所述根据描述标签，通过第一预设分类模型对所述目标视频进行分类，得到分类结果，包括：

将出现物体标签对应的物体的第一视频帧作为关键帧；

5.根据权利要求4所述的面向视频内容的大数据智能分类方法，其特征在于，从所述目标视频中选择关键帧的多个相邻视频帧，包括：

6.根据权利要求5所述的面向视频内容的大数据智能分类方法，其特征在于，所述根据关键帧的相关区域的数量，得到关键帧对应的相邻视频帧选择个数，包括：

通过下式得到相邻视频帧选择个数：其中，/>为相邻视频帧选择个数，/>为向下取整函数，/>和/>分别为不同的调整参数，/>为关键帧的相关区域的数量，/>为为所述目标视频的总帧数。

7.根据权利要求5所述的面向视频内容的大数据智能分类方法，其特征在于，所述根据多个第二视频帧，结合描述标签，基于所述第一预设分类模型得到所述分类结果，包括：

8.根据权利要求7所述的面向视频内容的大数据智能分类方法，其特征在于，所述基于注意力权重，根据多个第二视频帧得到所述目标视频的特征融合向量，包括：

根据每个第二视频帧，得到每个第二视频帧的特征向量；