CN111556377A - 一种基于机器学习的短视频打标签方法 - Google Patents
一种基于机器学习的短视频打标签方法 Download PDFInfo
- Publication number
- CN111556377A CN111556377A CN202010333785.XA CN202010333785A CN111556377A CN 111556377 A CN111556377 A CN 111556377A CN 202010333785 A CN202010333785 A CN 202010333785A CN 111556377 A CN111556377 A CN 111556377A
- Authority
- CN
- China
- Prior art keywords
- short video
- text
- model
- classification model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
- H04N21/8405—Generation or processing of descriptive data, e.g. content descriptors represented by keywords
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于机器学习的短视频打标签方法,获取待分类短视频,通过卷积网络分类模型提取该待分类短视频的关键帧;利用文本生成模型处理提取的关键帧,生成若干与待分类短视频标签关联性强的文本,生成的一个或多个图片描述文本和图片标签文本进行组合,通过文本分类模型进行文本分类,根据文本分类的结果对目标待分类短视频打上相应的视频标签。本发明普适性更强的,尤其对时间信息对视频标签作用不大的视频效果更优的,适合非大数据场景下的,短视频打标签框架。可以快速且有效的实现对短视频打上对应的标签,优点是无需大量的训练样本数据,实现及训练简单,从而节省一定的人力物力,来为短视频平台的其他功能服务。
Description
技术领域
本发明涉及计算机数据处理技术领域,特别是一种基于机器学习的短视频打标签方法。
背景技术
目前各大短视频平台的快速发展,如何为短视频自动化的打上标签,来更好地为短视频平台服务是一个很重要且具有挑战性的问题。现有的短视频分类或者打标签技术主要是直接通过基于卷积网络分类模型(CNN)及递归神经网络(RNN)的算法对视频进行学习训练,这种方法需要的视频样本数据规模大,费时费力,并且由于视频标签的多样性及主观性,很容易造成模型训练困难,很难达到实际业务的需求。
发明内容
本发明针对上述问题,提供一种具有广泛适用性的基于机器学习的短视频打标签方法。
本发明的技术方案为:
一种基于机器学习的短视频打标签方法,包括以下步骤:
步骤1):获取待分类短视频,通过卷积网络分类模型提取该待分类短视频的关键帧;
步骤2):利用文本生成模型处理步骤1)中提取的关键帧,生成若干与待分类短视频标签关联性强的文本;
步骤3):将步骤2)中生成的一个或多个文本进行组合,通过文本分类模型进行文本分类,根据文本分类的结果对目标待分类短视频打上相应的视频标签。
作为本发明进一步地说明,所述步骤1)中包含训练所述卷积网络分类模型的步骤,根据训练的不同,所述卷积网络分类模型提取待分类短视频的关键帧不同。
更进一步地,步骤2)中所述文本生成模型为预训练模型或微调模型。
更进一步地,步骤2)中所述文本生成模型为开源模型、软件工具或api接口。
更进一步地,步骤2)中所述文本包括图片描述文本和图片标签文本中的一种或两种。
更进一步地,步骤3)所述文本分类模型为朴素贝叶斯分类模型或随机森林分类模型。
更进一步地,所述步骤3)中包含训练所述文本分类模型的步骤。
更进一步地,训练所述卷积网络分类模型时还包括数据增强步骤,对用于训练的图片进行随机平移或翻转操作形成新的图片并用于训练;训练所述文本分类模型时还包括文本数据增强步骤,对用于训练的文本进行同义词替换和插入形成新的文本并用于训练,不但可以增加训练的数据,提高模型的泛华能力,还可以增加噪声数据,提升模型的鲁棒性。
更进一步地,所述基于机器学习的短视频打标签方法用于美食类短视频打标签。
更进一步地,所述卷积网络分类模型提取的关键帧为该待分类短视频中包含食物的图片,所述文本生成模型包括百度美食识别api,由所述百度美食识别api识别所述图片中的食物名称,形成相应的图片标签文本。
本发明的有益效果:
本发明基于机器学习的短视频打标签方法普适性更强的,尤其对时间信息对视频标签作用不大的视频效果更优的,适合非大数据场景下的,短视频打标签框架。可以快速且有效的实现对短视频打上对应的标签,优点是无需大量的训练样本数据,实现及训练简单,从而节省一定的人力物力,来为短视频平台的其他功能服务。
附图说明
图1为本发明方法框图;
图2为本发明方法在美食类短视频打标签应用实例流程图。
图3为本发明方法应用实例训练卷积网络分类模型数据增强示例图;
图4为本发明方法应用实例Resnet卷积网络结构图。
具体实施方式
实施例:
下面结合附图对本发明实施例详细的说明,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“第一”、“第二”等指示的方位或位置或顺序关系为基于附图所示的方位或位置或顺序关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
参见附图1所示,本发明基于机器学习的短视频打标签方法,包括以下步骤:
步骤1):获取待分类短视频,通过卷积网络分类模型提取该待分类短视频的关键帧。本步骤中,所述卷积网络分类模型用于提取能用于待分类短视频分类的关键帧(有用帧),可以理解的是,根据不同业务不同数据的要求,所述关键帧中包含的有用信息是不相同的,例如在美食类的打标识别中,所述关键帧应当包含食物信息,而在其它类别的打标识别中所述关键帧则相应应该包含可以用于区分不同标签的关键信息,即所述卷积网络分类模型在不同业务不同数据的应用中提取的关键帧是相对的,所以本步骤中包括一个训练卷积网络分类模型的步骤,以使其提取的关键帧能应用到后续的步骤中。
步骤2):利用文本生成模型处理步骤1)中提取的关键帧,生成若干与待分类短视频标签关联性强的文本。所述文本生成模型可以是预训练模型或者微调模型且不局限于某一种模型,由不同业务不同数据决定,可以是特定开源模型,或者是某种工具,某种可用的api接口等。所述文本包括图片描述文本和图片标签文本。所述图片描述文本用于场景类视频打标,场景类视频其所表达的内容信息与其视频标签关联性强,因此需要用图像描述生成模型(Image Caption)或者工具,来为每张图片生成一段描述文本。所谓图像描述生成,即是模型根据图片内容来生成描述图片内容的文本,如一个人在吃火锅的关键帧将被文本生成模型(图像描述生成模型)生成类似“一个人在吃火锅”的图片描述文本。所述图片标签文本用于目标类视频打标,目标类视频其所出现的目标与其视频标签关联性强,因此需要为图像生成图片标签文本,也就是图像中包含了什么物品,例如前述例子在该类视频打标中,所述文本生成模型将生成类似于“火锅”的图片标签文本。
步骤3):将步骤2)中生成的一个或多个图片描述文本和图片标签文本进行组合,通过文本分类模型进行文本分类,根据文本分类的结果对目标待分类短视频打上相应的视频标签。文本分类是利用机器学习算法对组合文本进行常规文本学习与分类的方法,经过步骤2)文本生成模型已经将提取的关键帧转化为了文本的组合,描述了其与视频标签相关的内容信息,因此可以利用诸如朴素贝叶斯分类器或者随机森林这样的算法,对组合的文本进行常规的文本学习与分类,来达到打视频标签的目的。
本发明的基于机器学习的短视频打标签方法可以应用于不同的短视频打标签中,具有普适性,在不同的应用中仅存在细微的差异调整,下面以美食类短视频打标签为例进行说明,在该类短视频打标签应用中,包括以下步骤:
S001、标注一批数据,训练一个识别图片中是否包含食物的卷积网络分类模型分类模型,来提取出视频中出现的食物图片;由于是在美食类短视频打标签中的应用,用于反应短视频主要信息的关键内容是食物,因此,首先需要训练所述卷积网络分类模型,使其在后续运作中能快速自动识别提取到短视频中包含食物的关键帧。在该步骤中,所述卷积网络分类模型为二分类模型,标注图片中是否包含食物的数据,即给定视频中的一张照片,若图片中包含食物则打上标签1,否则为0。利用标定的数据,训练食物识别的卷积网络分类模型。本实施例利用的是resnet卷积网络模型训练识别食物的二分类模型,Resnet卷积网络是目前图像识别领域性能优异的神经网络。在实际应用中,进行食物识别时,进行了数据增强,如进行图片的随机平移翻转等操作。附图3所示为火锅图片的数据增强示例,左图就是一张火锅的原图片,右图是经过一定角度的旋转平移操作得到的新图片样本,经过数据增强操作后,不但可以增加训练的数据,提高模型的泛华能力,还可以增加噪声数据,提升模型的鲁棒性。将图片缩放到统一尺寸,利用resnet卷积网络进行模型训练。如附图4所示的卷积网络结构,输入图像的大小统一为112x224,一共有17个卷积层,主要有四个卷积块组成,其卷积核个数分别为64、128、256、512,卷积核大小均为3x3,最后通过平均池化层,得到2个神经元的全连接层,即分类层。
S002、利用上述步骤训练好的卷积网络分类模型分类模型提取待分类短视频中的关键帧,在本实施例中的关键帧为包含食物的图片。
S003、利用文本生成模型处理前述步骤中的图片,得到其包含的食物名称。本实施例中所述文本生成模型包含现成的api,具体是百度美食识别api,卷积网络分类模型分类模型提取的关键帧图片发送至百度美食识别api识别可以得到图片所包含的系列食物名称,从而形成图片标签文本。当提取的关键帧图片为多张时即可得到若干个图片标签文本,形成文本组合。
S004、标注标签数据,给待分类短视频打上相应的标签。
S005、利用前述步骤中标注的数据,训练朴素贝叶斯分类模型。朴素贝叶斯算法对于小规模的文本数据也具有较优的分类效果,它是基于贝叶斯定理和条件独立性,利用贝叶斯公式来最大化后验概率的一种方法。在对视频的系列食物名称进行分类时,考虑到数据特性,可以进行文本数据增强,即同义词替换和插入。如对于某个视频得到的系列食物名称:“猪肚鸡,石锅饭,冰淇淋,冰淇淋,猪肚鸡,猪肚鸡,土豆泥”,可将“冰淇淋”换成“雪糕”等,将词组就变成:“猪肚鸡,石锅拌饭,冰淇淋,雪糕,猪肚鸡,猪肚煲鸡,土豆泥”。同样的,这种方法也可以增加更多的训练数据来增强模型的泛化能力。接着将系列食物名称转换成one-hot词向量。如对于“鸡”这个字在词组中出现了5次,“土“出现了1次,那么其在字典中的就记为[…,5,…,1,…]。再利用朴素贝叶斯算法进行训练。
S006、利用步骤S002生成的卷积网络分类模型分类模型、步骤S003的文本生成模型和步骤S005训练的朴素贝叶斯分类模型执行美食类短视频自动打标签,其中卷积网络分类模型分类模型自动提取待分类短视频的关键帧,送至所述百度美食识别api,生成若干个图片标签文本形成文本组合,所述朴素贝叶斯分类模型对所述文本组合自动进行预测,给待分类短视频打上视频标签。
以上仅就本发明较佳的实施例作了说明,但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例,其具体结构允许有变化,总之,凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。
Claims (10)
1.一种基于机器学习的短视频打标签方法,其特征在于:包括以下步骤:
步骤1):获取待分类短视频,通过卷积网络分类模型提取该待分类短视频的关键帧;
步骤2):利用文本生成模型处理步骤1)中提取的关键帧,生成若干与待分类短视频标签关联性强的文本;
步骤3):将步骤2)中生成的一个或多个文本进行组合,通过文本分类模型进行文本分类,根据文本分类的结果对目标待分类短视频打上相应的视频标签。
2.根据权利要求1所述的基于机器学习的短视频打标签方法,其特征在于:所述步骤1)中包含训练所述卷积网络分类模型的步骤,根据训练的不同,所述卷积网络分类模型提取待分类短视频的关键帧不同。
3.根据权利要求1所述的基于机器学习的短视频打标签方法,其特征在于:步骤2)中所述文本生成模型为预训练模型或微调模型。
4.根据权利要求1所述的基于机器学习的短视频打标签方法,其特征在于:步骤2)中所述文本生成模型为开源模型、软件工具或api接口。
5.根据权利要求3或4所述的基于机器学习的短视频打标签方法,其特征在于:步骤2)中所述文本包括图片描述文本和图片标签文本中的一种或两种。
6.根据权利要求5所述的基于机器学习的短视频打标签方法,其特征在于:步骤3)所述文本分类模型为朴素贝叶斯分类模型或随机森林分类模型。
7.根据权利要求5所述的基于机器学习的短视频打标签方法,其特征在于:所述步骤3)中包含训练所述文本分类模型的步骤。
8.根据权利要求7所述的基于机器学习的短视频打标签方法,其特征在于:训练所述卷积网络分类模型时还包括数据增强步骤,对用于训练的图片进行随机平移或翻转操作形成新的图片并用于训练;训练所述文本分类模型时还包括文本数据增强步骤,对用于训练的文本进行同义词替换和插入形成新的文本并用于训练。
9.根据权利要求8所述的基于机器学习的短视频打标签方法,其特征在于:所述基于机器学习的短视频打标签方法用于美食类短视频打标签。
10.根据权利要求9所述的基于机器学习的短视频打标签方法,其特征在于:所述卷积网络分类模型提取的关键帧为该待分类短视频中包含食物的图片,所述文本生成模型包括百度美食识别api,由所述百度美食识别api识别所述图片中的食物名称,形成相应的图片标签文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010333785.XA CN111556377A (zh) | 2020-04-24 | 2020-04-24 | 一种基于机器学习的短视频打标签方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010333785.XA CN111556377A (zh) | 2020-04-24 | 2020-04-24 | 一种基于机器学习的短视频打标签方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111556377A true CN111556377A (zh) | 2020-08-18 |
Family
ID=72003925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010333785.XA Pending CN111556377A (zh) | 2020-04-24 | 2020-04-24 | 一种基于机器学习的短视频打标签方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111556377A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109862391A (zh) * | 2019-03-18 | 2019-06-07 | 网易(杭州)网络有限公司 | 视频分类方法、介质、装置和计算设备 |
CN110119757A (zh) * | 2019-03-28 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质 |
CN110688526A (zh) * | 2019-11-07 | 2020-01-14 | 山东舜网传媒股份有限公司 | 基于关键帧识别和音频文本化的短视频推荐方法及系统 |
CN110837579A (zh) * | 2019-11-05 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、计算机以及可读存储介质 |
CN110866510A (zh) * | 2019-11-21 | 2020-03-06 | 山东浪潮人工智能研究院有限公司 | 一种基于关键帧检测的视频描述系统和方法 |
CN110879974A (zh) * | 2019-11-01 | 2020-03-13 | 北京微播易科技股份有限公司 | 一种视频分类方法和装置 |
-
2020
- 2020-04-24 CN CN202010333785.XA patent/CN111556377A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109862391A (zh) * | 2019-03-18 | 2019-06-07 | 网易(杭州)网络有限公司 | 视频分类方法、介质、装置和计算设备 |
CN110119757A (zh) * | 2019-03-28 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质 |
CN110879974A (zh) * | 2019-11-01 | 2020-03-13 | 北京微播易科技股份有限公司 | 一种视频分类方法和装置 |
CN110837579A (zh) * | 2019-11-05 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、计算机以及可读存储介质 |
CN110688526A (zh) * | 2019-11-07 | 2020-01-14 | 山东舜网传媒股份有限公司 | 基于关键帧识别和音频文本化的短视频推荐方法及系统 |
CN110866510A (zh) * | 2019-11-21 | 2020-03-06 | 山东浪潮人工智能研究院有限公司 | 一种基于关键帧检测的视频描述系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tian et al. | Query-dependent aesthetic model with deep learning for photo quality assessment | |
CN110119786B (zh) | 文本话题分类方法及装置 | |
Jin et al. | ILGNet: inception modules with connected local and global features for efficient image aesthetic quality classification using domain adaptation | |
US9430719B2 (en) | System and method for providing objectified image renderings using recognition information from images | |
US8649572B2 (en) | System and method for enabling the use of captured images through recognition | |
US7809192B2 (en) | System and method for recognizing objects from images and identifying relevancy amongst images and information | |
Peng et al. | Domain2vec: Domain embedding for unsupervised domain adaptation | |
CN113434716B (zh) | 一种跨模态信息检索方法和装置 | |
Shetty et al. | Segmentation and labeling of documents using conditional random fields | |
WO2019105036A1 (zh) | 一种基于局部特征的多视角分类器及设计方法 | |
WO2006122164A2 (en) | System and method for enabling the use of captured images through recognition | |
Gu et al. | From pixel to patch: Synthesize context-aware features for zero-shot semantic segmentation | |
CN111639186A (zh) | 动态嵌入投影门控的多类别多标签文本分类模型及装置 | |
CN115359394A (zh) | 一种基于多模态融合的识别方法及其应用 | |
CN114328934B (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
Martinez-Martin et al. | Deep learning techniques for Spanish sign language interpretation | |
Dai et al. | Ctrn: Class-temporal relational network for action detection | |
CN114817633A (zh) | 视频分类方法、装置、设备及存储介质 | |
Juyal et al. | Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset | |
CN116701637B (zh) | 一种基于clip的零样本文本分类方法、系统及介质 | |
WO2023246912A1 (zh) | 图像文字结构化输出方法、装置、电子设备和存储介质 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
CN111556377A (zh) | 一种基于机器学习的短视频打标签方法 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
Noaman et al. | Image colorization: A survey of methodolgies and techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200818 |
|
RJ01 | Rejection of invention patent application after publication |