CN110377790A - 一种基于多模态私有特征的视频自动标注方法 - Google Patents
一种基于多模态私有特征的视频自动标注方法 Download PDFInfo
- Publication number
- CN110377790A CN110377790A CN201910530231.6A CN201910530231A CN110377790A CN 110377790 A CN110377790 A CN 110377790A CN 201910530231 A CN201910530231 A CN 201910530231A CN 110377790 A CN110377790 A CN 110377790A
- Authority
- CN
- China
- Prior art keywords
- video
- feature
- privately owned
- network
- automatic marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模态私有特征的视频自动标注方法,对视频文件进行预处理和人工标注,并对人工标注结果进行过滤;利用生成对抗网络提取不同模态特征间的共性特征;将原始特征中的共性特征剥离,得到不同模态的私有特征;整合提取的共性特征与模态私有特征组成该视频的新特征,使用多标记算法进行学习,得到视频自动标注分类器;将待标注的视频样本送入分类器,得到分类结果,实现自动标注;对标注结果进行抽检。采用本发明可以训练出用于视频自动标注的分类模型,利用未知标注视频不同模态的私有特征,重新对视频视频特征进行整合,自动完成标注任务,可显著降低人工标注时间与成本。
Description
技术领域
本发明涉及一种视频自动标注方法,具体涉及一种适用于具有多模态特征与多标注描述的视频分类的视频自动标注方法。
背景技术
近年来,各类短视频应用层出不迭,用户常在零散时间用该类应用进行消遣,短视频应用的出现,使得用户接受新鲜事物的方式不再局限于静态的文字或图片,且可以巧妙利用时间间歇,因此,该类应用与短视频数量均呈现了爆炸式的增长。但随之而来的问题是,如何保证用户可以精准地进行搜索,如何保证当用户没有明确的观看内容需求时合理地进行推荐。利用机器学习技术进行自动化搜索与推荐是一个行之有效的手段,而该策略的基础是视频均有明确的标注信息。基于此,高效准确的视频自动标注方法成为一个重要的研究课题,在该方法中,利用已有标注的视频进行学习,得到分类模型,将未知标注的视频提交至该模型,即可对视频进行自动标注。
同时,一个视频通常具有不同模态的特征,例如视频题目的文字描述、表达视频主要内容的标题图、描述视频详细内容的视频帧、刻画视频表达的音频等。如何合理的利用各个模态的不同贡献、提取其最有价值的私有特征,可提高标注性能。
发明内容
发明目的:本发明的目的在于弥补现有视频标注技术中存在的不足,提出一种基于多模态私有特征的视频自动标注方法,利用视频不同模态所提供的不同信息,重新对视频特征进行整合,提高标注性能。
技术方案:本发明所述的一种基于多模态私有特征的视频自动标注方法,包括以下步骤:
(1)对视频文件进行预处理,从不同角度提取视频特征;
(2)对视频进行人工标注,并对人工标注结果进行过滤;
(3)利用生成对抗网络提取不同模态特征间的共性特征;
(4)将原始特征中的共性特征剥离,得到不同模态的私有特征;
(5)整合提取的共性特征与模态私有特征组成该视频的新特征,使用任一多标记算法进行学习,得到视频自动标注分类器;
(6)将待标注的视频样本送入分类器,得到分类结果,实现自动标注;
(7)对标注结果进行抽检,若合格,则结束;否则,返回步骤(1),从训练集中选择更多的视频样本进行模型调整更新。
步骤(1)所述的视频特征主要包括视频标题、视频题图、视频帧、音频。
步骤(3)所述的共性特征的提取实现过程如下:
对于视频样本集合依次优化判别网络D与生成网络G;判别网络D的目标是识别出输入的特征来自于哪一个模态,设 为真实特征来源的标记向量,当样本来自于第j个模态时,其他为0,设为判别器输出结果,将原始特征与生成特征和其对应的模态来源标记输入判别网络进行训练,判别网络使输出结果与真实标记λi的分布更为相似,即KL散度越小,即优化以下目标函数:
训练step次判别网络后,固定其参数,进行生成网络G的训练;对于迷惑判别网络,希望其输出结果更接近平均分布即即优化两者KL散度最小:
与此同时,要保证该生成特征具有语义信息,即可以表达出对应样本的标记分布情况,优化分类网络M的输出结果与对应样本的真实标记更为接近:
步骤(4)所述的通过提取出的模态私有特征与共享特征正交来将原始特征中的私有部分提取出来,即优化下式,以更新正交网络E:
步骤(5)所述的多标记算法为哈希快速多标记学习算法。
有益效果:与现有技术相比,本发明的有益效果:为了提取不同模态的私有特征,本发现利用生成对抗网络提取共性特征,并对私有特征进行剥离,可以训练出用于视频自动标注的分类模型,利用未知标注视频不同模态的私有特征,重新对视频视频特征进行整合,自动完成标注任务,可显著降低人工标注时间与成本。
附图说明
图1为本发明的流程图;
图2为本发明共性特征提取模块的流程图;
图3为本发明对模态私有特征提取模块的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明,如图1所示,视频模块与视频标记模块中存放的是原始的视频资料与所有标记集合。针对原始视频,首先需要完成特征提取的工作。一个视频可从不同的角度进行描述,例如视频题目的文字描述、表达视频主要内容的标题图、描述视频详细内容的视频帧、刻画视频表达的音频等,利用以上不同模态的描述,可提取到多模态的视频特征。针对视频标记,首先需挑选部分视频样本进行人工标注,为防止标注者表示能力不同而使用相似但不完全相同的标记来进行标注,所有标记均应来自于标记集合。之后,为保证不同标记所包含的视频数相对均衡,需将出现次数较少的标记进行过滤。同时,一个视频的标记信息并不唯一,例如对于一部电影,其标记组成可以包括电影类型、国家、导演、主演等,因此,这是一个多标记问题。在得到视频多模态原始特征与标记后,首先提取各模态的共性特征与私有特征,之后基于整合特征训练多标记分类器,并对视频库中其他待标注视频进行自动标注,如果抽检准确率达标则结束,否则通过用户反馈与增加训练样本量来改善提升模型性能,获得新的视频自动标注模型,重新送检。
利用生成对抗网络提取不同模态特征间的共性特征,如图2所示。假设用户提交的视频样本对应的集合为其中表示不同模态的特征向量表示,是q维标记向量,q表示总共拥有的标记数量,当第i个样本被打上第m(1≤m≤q)个标记时,反之
针对每一个模态依次提取与该模态对应的共性特征,对生成网络与判别网络中的参数进行迭代更新,判别网络参数更新step次后,对生成网络进行一次更新,整体步骤迭代iter次。
判别网络D的目标是识别出输入的特征来自于哪一个模态,设 为真实特征来源的标记向量,当样本来自于第j个模态时,其他为0,设为判别器输出结果,将原始特征与生成特征和其对应的模态来源标记输入判别网络进行训练,判别网络使输出结果与真实标记λi的分布更为相似,即KL散度越小,即优化以下目标函数:
训练step次判别网络后,固定其参数,进行生成网络G的训练。生成网络的目的是生成使判别网络无法判别来自于哪一个模态且具有语义的特征。对于迷惑判别网络,希望其输出结果更接近平均分布即即优化两者KL散度最小:
与此同时,要保证该生成特征具有语义信息,即可以表达出对应样本的标记分布情况,优化分类网络M的输出结果与对应样本的真实标记更为接近:
图3给出了将原始特征中的共性特征剥离得到不同模态的私有特征的具体步骤。依次对各个模态的私有特征进行提取,正交网络的训练需要进行epoch次迭代,在每一次迭代中,通过使提取出的模态私有特征与共享特征正交来将原始特征中的私有部分提取出来,即优化下式,以更新正交网络E:
由于每个样本的共性特征也来源于不同视图,在本发明中对其进行加和操作得到每个样本的共性特征与私有特征后,对其进行拼接得到整合特征将整合后的样本特征与对应的标记输入至任意一种多标记算法即可得到视频自动标注分类器。将待标注的视频样本送入分类器,得到分类结果,实现自动标注。
对于待标注样本,首先提取其模态共性特征与私有特征并进行整合,之后输入至多标记分类器中即可完成自动标注,可减少人力标注成本。
Claims (5)
1.一种基于多模态私有特征的视频自动标注方法,其特征在于,包括以下步骤:
(1)对视频文件进行预处理,从不同角度提取视频特征;
(2)对视频进行人工标注,并对人工标注结果进行过滤;
(3)利用生成对抗网络提取不同模态特征间的共性特征;
(4)将原始特征中的共性特征剥离,得到不同模态的私有特征;
(5)整合提取的共性特征与模态私有特征组成该视频的新特征,使用任一多标记算法进行学习,得到视频自动标注分类器;
(6)将待标注的视频样本送入分类器,得到分类结果,实现自动标注;
(7)对标注结果进行抽检,若合格,则结束;否则,返回步骤(1),从训练集中选择更多的视频样本进行模型调整更新。
2.根据权利要求1所述的一种基于多模态私有特征的视频自动标注方法,其特征在于,步骤(1)所述的视频特征主要包括视频标题、视频题图、视频帧、音频。
3.根据权利要求1所述的一种基于多模态私有特征的视频自动标注方法,其特征在于,步骤(3)所述的共性特征的提取实现过程如下:
对于视频样本集合依次优化判别网络D与生成网络G;判别网络D的目标是识别出输入的特征来自于哪一个模态,设 为真实特征来源的标记向量,当样本来自于第j个模态时,其他为0,设为判别器输出结果,将原始特征与生成特征和其对应的模态来源标记输入判别网络进行训练,判别网络使输出结果与真实标记λi的分布更为相似,即KL散度越小,即优化以下目标函数:
训练step次判别网络后,固定其参数,进行生成网络G的训练;对于迷惑判别网络,希望其输出结果更接近平均分布即即优化两者KL散度最小:
与此同时,要保证该生成特征具有语义信息,即可以表达出对应样本的标记分布情况,优化分类网络M的输出结果与对应样本的真实标记更为接近:
4.根据权利要求1中所述的一种基于多模态私有特征的视频自动标注方法,其特征在于,步骤(4)所述的通过提取出的模态私有特征与共享特征正交来将原始特征中的私有部分提取出来,即优化下式,以更新正交网络E:
5.根据权利要求1中所述的一种基于多模态私有特征的视频自动标注方法,其特征在于,步骤(5)所述的多标记算法为哈希快速多标记学习算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910530231.6A CN110377790B (zh) | 2019-06-19 | 2019-06-19 | 一种基于多模态私有特征的视频自动标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910530231.6A CN110377790B (zh) | 2019-06-19 | 2019-06-19 | 一种基于多模态私有特征的视频自动标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377790A true CN110377790A (zh) | 2019-10-25 |
CN110377790B CN110377790B (zh) | 2021-08-06 |
Family
ID=68248921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910530231.6A Active CN110377790B (zh) | 2019-06-19 | 2019-06-19 | 一种基于多模态私有特征的视频自动标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377790B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111736712A (zh) * | 2020-06-24 | 2020-10-02 | 北京百度网讯科技有限公司 | 输入信息的预测方法、系统、服务器及电子设备 |
CN112507950A (zh) * | 2020-12-18 | 2021-03-16 | 中国科学院空天信息创新研究院 | 一种生成对抗式多任务多要素样本自动标注方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125223A1 (en) * | 2003-12-05 | 2005-06-09 | Ajay Divakaran | Audio-visual highlights detection using coupled hidden markov models |
CN108846375A (zh) * | 2018-06-29 | 2018-11-20 | 山东大学 | 一种基于神经网络的多模态协同学习方法及装置 |
-
2019
- 2019-06-19 CN CN201910530231.6A patent/CN110377790B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125223A1 (en) * | 2003-12-05 | 2005-06-09 | Ajay Divakaran | Audio-visual highlights detection using coupled hidden markov models |
CN108846375A (zh) * | 2018-06-29 | 2018-11-20 | 山东大学 | 一种基于神经网络的多模态协同学习方法及装置 |
Non-Patent Citations (1)
Title |
---|
温有福: "一种多模态融合的网络视频相关性度量方法", 《智能系统学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111736712A (zh) * | 2020-06-24 | 2020-10-02 | 北京百度网讯科技有限公司 | 输入信息的预测方法、系统、服务器及电子设备 |
CN111736712B (zh) * | 2020-06-24 | 2023-08-18 | 北京百度网讯科技有限公司 | 输入信息的预测方法、系统、服务器及电子设备 |
CN112507950A (zh) * | 2020-12-18 | 2021-03-16 | 中国科学院空天信息创新研究院 | 一种生成对抗式多任务多要素样本自动标注方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110377790B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN110598203B (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN109189901B (zh) | 一种智能客服系统中自动发现新分类以及对应语料的方法 | |
CN109582949A (zh) | 事件元素抽取方法、装置、计算设备及存储介质 | |
CN108897778B (zh) | 一种基于多源大数据分析的图像标注方法 | |
CN108536870A (zh) | 一种融合情感特征和语义特征的文本情感分类方法 | |
CN108985293A (zh) | 一种基于深度学习的图像自动化标注方法及系统 | |
CN107169079B (zh) | 一种基于Deepdive的领域文本知识抽取方法 | |
CN108829661B (zh) | 一种基于模糊匹配的新闻主体名称提取方法 | |
CN110334187A (zh) | 基于迁移学习的缅语情感分析方法及装置 | |
CN109213853A (zh) | 一种基于cca算法的中文社区问答跨模态检索方法 | |
CN115294427A (zh) | 一种基于迁移学习的风格化图像描述生成方法 | |
CN109492230A (zh) | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN106777336A (zh) | 一种基于深度学习的公司名成分抽取系统和方法 | |
CN110489649A (zh) | 标签关联内容的方法及装置 | |
CN110377790A (zh) | 一种基于多模态私有特征的视频自动标注方法 | |
CN109388749A (zh) | 基于多层级地理的精准高效网络舆情检测及预警方法 | |
CN108536673A (zh) | 新闻事件抽取方法及装置 | |
CN101213539B (zh) | 使用无标签样本的交叉描述符学习系统及方法 | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
Sun et al. | Application of data mining in english online learning platform | |
CN106776866A (zh) | 一种对高校网站上的会议稿进行知识抽取的方法 | |
CN107239787A (zh) | 一种利用多来源数据具有隐私保护功能的图象分类方法 | |
CN115563311B (zh) | 一种文档标注和知识库管理方法及知识库管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |