CN111556377A

CN111556377A - 一种基于机器学习的短视频打标签方法

Info

Publication number: CN111556377A
Application number: CN202010333785.XA
Authority: CN
Inventors: 吴科春
Original assignee: Zhuhai Hengqin Dianxiang Technology Co ltd
Current assignee: Zhuhai Hengqin Dianxiang Technology Co ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-18

Abstract

本发明公开了一种基于机器学习的短视频打标签方法，获取待分类短视频，通过卷积网络分类模型提取该待分类短视频的关键帧；利用文本生成模型处理提取的关键帧，生成若干与待分类短视频标签关联性强的文本，生成的一个或多个图片描述文本和图片标签文本进行组合，通过文本分类模型进行文本分类，根据文本分类的结果对目标待分类短视频打上相应的视频标签。本发明普适性更强的，尤其对时间信息对视频标签作用不大的视频效果更优的，适合非大数据场景下的，短视频打标签框架。可以快速且有效的实现对短视频打上对应的标签，优点是无需大量的训练样本数据，实现及训练简单，从而节省一定的人力物力，来为短视频平台的其他功能服务。

Description

一种基于机器学习的短视频打标签方法

技术领域

本发明涉及计算机数据处理技术领域，特别是一种基于机器学习的短视频打标签方法。

背景技术

目前各大短视频平台的快速发展，如何为短视频自动化的打上标签，来更好地为短视频平台服务是一个很重要且具有挑战性的问题。现有的短视频分类或者打标签技术主要是直接通过基于卷积网络分类模型(CNN)及递归神经网络(RNN)的算法对视频进行学习训练，这种方法需要的视频样本数据规模大，费时费力，并且由于视频标签的多样性及主观性，很容易造成模型训练困难，很难达到实际业务的需求。

发明内容

本发明针对上述问题，提供一种具有广泛适用性的基于机器学习的短视频打标签方法。

本发明的技术方案为：

一种基于机器学习的短视频打标签方法，包括以下步骤：

步骤1)：获取待分类短视频，通过卷积网络分类模型提取该待分类短视频的关键帧；

步骤2)：利用文本生成模型处理步骤1)中提取的关键帧，生成若干与待分类短视频标签关联性强的文本；

步骤3)：将步骤2)中生成的一个或多个文本进行组合，通过文本分类模型进行文本分类，根据文本分类的结果对目标待分类短视频打上相应的视频标签。

作为本发明进一步地说明，所述步骤1)中包含训练所述卷积网络分类模型的步骤，根据训练的不同，所述卷积网络分类模型提取待分类短视频的关键帧不同。

更进一步地，步骤2)中所述文本生成模型为预训练模型或微调模型。

更进一步地，步骤2)中所述文本生成模型为开源模型、软件工具或api接口。

更进一步地，步骤2)中所述文本包括图片描述文本和图片标签文本中的一种或两种。

更进一步地，步骤3)所述文本分类模型为朴素贝叶斯分类模型或随机森林分类模型。

更进一步地，所述步骤3)中包含训练所述文本分类模型的步骤。

更进一步地，训练所述卷积网络分类模型时还包括数据增强步骤，对用于训练的图片进行随机平移或翻转操作形成新的图片并用于训练；训练所述文本分类模型时还包括文本数据增强步骤，对用于训练的文本进行同义词替换和插入形成新的文本并用于训练，不但可以增加训练的数据，提高模型的泛华能力，还可以增加噪声数据，提升模型的鲁棒性。

更进一步地，所述基于机器学习的短视频打标签方法用于美食类短视频打标签。

更进一步地，所述卷积网络分类模型提取的关键帧为该待分类短视频中包含食物的图片，所述文本生成模型包括百度美食识别api，由所述百度美食识别api识别所述图片中的食物名称，形成相应的图片标签文本。

本发明的有益效果：

本发明基于机器学习的短视频打标签方法普适性更强的，尤其对时间信息对视频标签作用不大的视频效果更优的，适合非大数据场景下的，短视频打标签框架。可以快速且有效的实现对短视频打上对应的标签，优点是无需大量的训练样本数据，实现及训练简单，从而节省一定的人力物力，来为短视频平台的其他功能服务。

附图说明

图1为本发明方法框图；

图2为本发明方法在美食类短视频打标签应用实例流程图。

图3为本发明方法应用实例训练卷积网络分类模型数据增强示例图；

图4为本发明方法应用实例Resnet卷积网络结构图。

具体实施方式

实施例：

下面结合附图对本发明实施例详细的说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“第一”、“第二”等指示的方位或位置或顺序关系为基于附图所示的方位或位置或顺序关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参见附图1所示，本发明基于机器学习的短视频打标签方法，包括以下步骤：

步骤1)：获取待分类短视频，通过卷积网络分类模型提取该待分类短视频的关键帧。本步骤中，所述卷积网络分类模型用于提取能用于待分类短视频分类的关键帧(有用帧)，可以理解的是，根据不同业务不同数据的要求，所述关键帧中包含的有用信息是不相同的，例如在美食类的打标识别中，所述关键帧应当包含食物信息，而在其它类别的打标识别中所述关键帧则相应应该包含可以用于区分不同标签的关键信息，即所述卷积网络分类模型在不同业务不同数据的应用中提取的关键帧是相对的，所以本步骤中包括一个训练卷积网络分类模型的步骤，以使其提取的关键帧能应用到后续的步骤中。

步骤2)：利用文本生成模型处理步骤1)中提取的关键帧，生成若干与待分类短视频标签关联性强的文本。所述文本生成模型可以是预训练模型或者微调模型且不局限于某一种模型，由不同业务不同数据决定，可以是特定开源模型，或者是某种工具，某种可用的api接口等。所述文本包括图片描述文本和图片标签文本。所述图片描述文本用于场景类视频打标，场景类视频其所表达的内容信息与其视频标签关联性强，因此需要用图像描述生成模型(Image Caption)或者工具，来为每张图片生成一段描述文本。所谓图像描述生成，即是模型根据图片内容来生成描述图片内容的文本，如一个人在吃火锅的关键帧将被文本生成模型(图像描述生成模型)生成类似“一个人在吃火锅”的图片描述文本。所述图片标签文本用于目标类视频打标，目标类视频其所出现的目标与其视频标签关联性强，因此需要为图像生成图片标签文本，也就是图像中包含了什么物品，例如前述例子在该类视频打标中，所述文本生成模型将生成类似于“火锅”的图片标签文本。

步骤3)：将步骤2)中生成的一个或多个图片描述文本和图片标签文本进行组合，通过文本分类模型进行文本分类，根据文本分类的结果对目标待分类短视频打上相应的视频标签。文本分类是利用机器学习算法对组合文本进行常规文本学习与分类的方法，经过步骤2)文本生成模型已经将提取的关键帧转化为了文本的组合，描述了其与视频标签相关的内容信息，因此可以利用诸如朴素贝叶斯分类器或者随机森林这样的算法，对组合的文本进行常规的文本学习与分类，来达到打视频标签的目的。

本发明的基于机器学习的短视频打标签方法可以应用于不同的短视频打标签中，具有普适性，在不同的应用中仅存在细微的差异调整，下面以美食类短视频打标签为例进行说明，在该类短视频打标签应用中，包括以下步骤：

S001、标注一批数据，训练一个识别图片中是否包含食物的卷积网络分类模型分类模型，来提取出视频中出现的食物图片；由于是在美食类短视频打标签中的应用，用于反应短视频主要信息的关键内容是食物，因此，首先需要训练所述卷积网络分类模型，使其在后续运作中能快速自动识别提取到短视频中包含食物的关键帧。在该步骤中，所述卷积网络分类模型为二分类模型，标注图片中是否包含食物的数据，即给定视频中的一张照片，若图片中包含食物则打上标签1，否则为0。利用标定的数据，训练食物识别的卷积网络分类模型。本实施例利用的是resnet卷积网络模型训练识别食物的二分类模型，Resnet卷积网络是目前图像识别领域性能优异的神经网络。在实际应用中，进行食物识别时，进行了数据增强，如进行图片的随机平移翻转等操作。附图3所示为火锅图片的数据增强示例，左图就是一张火锅的原图片，右图是经过一定角度的旋转平移操作得到的新图片样本，经过数据增强操作后，不但可以增加训练的数据，提高模型的泛华能力，还可以增加噪声数据，提升模型的鲁棒性。将图片缩放到统一尺寸，利用resnet卷积网络进行模型训练。如附图4所示的卷积网络结构，输入图像的大小统一为112x224,一共有17个卷积层，主要有四个卷积块组成，其卷积核个数分别为64、128、256、512，卷积核大小均为3x3,最后通过平均池化层，得到2个神经元的全连接层，即分类层。

S002、利用上述步骤训练好的卷积网络分类模型分类模型提取待分类短视频中的关键帧，在本实施例中的关键帧为包含食物的图片。

S003、利用文本生成模型处理前述步骤中的图片，得到其包含的食物名称。本实施例中所述文本生成模型包含现成的api，具体是百度美食识别api，卷积网络分类模型分类模型提取的关键帧图片发送至百度美食识别api识别可以得到图片所包含的系列食物名称，从而形成图片标签文本。当提取的关键帧图片为多张时即可得到若干个图片标签文本，形成文本组合。

S004、标注标签数据，给待分类短视频打上相应的标签。

S005、利用前述步骤中标注的数据，训练朴素贝叶斯分类模型。朴素贝叶斯算法对于小规模的文本数据也具有较优的分类效果，它是基于贝叶斯定理和条件独立性，利用贝叶斯公式

来最大化后验概率的一种方法。在对视频的系列食物名称进行分类时，考虑到数据特性，可以进行文本数据增强，即同义词替换和插入。如对于某个视频得到的系列食物名称：“猪肚鸡，石锅饭，冰淇淋，冰淇淋，猪肚鸡，猪肚鸡，土豆泥”，可将“冰淇淋”换成“雪糕”等，将词组就变成：“猪肚鸡，石锅拌饭，冰淇淋，雪糕，猪肚鸡,猪肚煲鸡，土豆泥”。同样的，这种方法也可以增加更多的训练数据来增强模型的泛化能力。接着将系列食物名称转换成one-hot词向量。如对于“鸡”这个字在词组中出现了5次，“土“出现了1次，那么其在字典中的就记为[…,5,…,1,…]。再利用朴素贝叶斯算法进行训练。

S006、利用步骤S002生成的卷积网络分类模型分类模型、步骤S003的文本生成模型和步骤S005训练的朴素贝叶斯分类模型执行美食类短视频自动打标签，其中卷积网络分类模型分类模型自动提取待分类短视频的关键帧，送至所述百度美食识别api，生成若干个图片标签文本形成文本组合，所述朴素贝叶斯分类模型对所述文本组合自动进行预测，给待分类短视频打上视频标签。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化，总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种基于机器学习的短视频打标签方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于机器学习的短视频打标签方法，其特征在于：所述步骤1)中包含训练所述卷积网络分类模型的步骤，根据训练的不同，所述卷积网络分类模型提取待分类短视频的关键帧不同。

3.根据权利要求1所述的基于机器学习的短视频打标签方法，其特征在于：步骤2)中所述文本生成模型为预训练模型或微调模型。

4.根据权利要求1所述的基于机器学习的短视频打标签方法，其特征在于：步骤2)中所述文本生成模型为开源模型、软件工具或api接口。

5.根据权利要求3或4所述的基于机器学习的短视频打标签方法，其特征在于：步骤2)中所述文本包括图片描述文本和图片标签文本中的一种或两种。

6.根据权利要求5所述的基于机器学习的短视频打标签方法，其特征在于：步骤3)所述文本分类模型为朴素贝叶斯分类模型或随机森林分类模型。

7.根据权利要求5所述的基于机器学习的短视频打标签方法，其特征在于：所述步骤3)中包含训练所述文本分类模型的步骤。

8.根据权利要求7所述的基于机器学习的短视频打标签方法，其特征在于：训练所述卷积网络分类模型时还包括数据增强步骤，对用于训练的图片进行随机平移或翻转操作形成新的图片并用于训练；训练所述文本分类模型时还包括文本数据增强步骤，对用于训练的文本进行同义词替换和插入形成新的文本并用于训练。

9.根据权利要求8所述的基于机器学习的短视频打标签方法，其特征在于：所述基于机器学习的短视频打标签方法用于美食类短视频打标签。

10.根据权利要求9所述的基于机器学习的短视频打标签方法，其特征在于：所述卷积网络分类模型提取的关键帧为该待分类短视频中包含食物的图片，所述文本生成模型包括百度美食识别api，由所述百度美食识别api识别所述图片中的食物名称，形成相应的图片标签文本。