CN111723239B - 一种基于多模态的视频标注方法 - Google Patents

一种基于多模态的视频标注方法 Download PDF

Info

Publication number
CN111723239B
CN111723239B CN202010393229.1A CN202010393229A CN111723239B CN 111723239 B CN111723239 B CN 111723239B CN 202010393229 A CN202010393229 A CN 202010393229A CN 111723239 B CN111723239 B CN 111723239B
Authority
CN
China
Prior art keywords
video
audio
frame
features
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010393229.1A
Other languages
English (en)
Other versions
CN111723239A (zh
Inventor
李瑞轩
刘旺
辜希武
李玉华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010393229.1A priority Critical patent/CN111723239B/zh
Publication of CN111723239A publication Critical patent/CN111723239A/zh
Application granted granted Critical
Publication of CN111723239B publication Critical patent/CN111723239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态的视频标注方法,属于计算机视觉和视频标注技术领域。方法包括:通过聚类的方法提取视频的关键帧;提取关键帧的特征,并将连续的关键帧特征通过学习池聚合生成视频的视觉特征;提取视频中的音频,将音频分为多个独立的帧;提取音频帧特征,然后将连续的音频帧特征通过学习池聚合生成视频的音频特征;将视觉特征和音频特征融合输入到预测模块;进行视频标注。本发明同现有技术相比,同时考虑了视频的视觉特征和音频特征,并在帧特征聚合时加入了注意力机制,使提取的视频特征更加具有代表性,大大提高了视频标注的准确度。

Description

一种基于多模态的视频标注方法
技术领域
本发明属于计算机视觉和视频标注技术领域,更具体地,涉及一种基于多模态的视频标注方法。
背景技术
随着互联网的不断发展,以视频应用为主题的互联网门户在我国迅速发展开来,并且视频已经成为人们相互沟通、分享自己生活的方式。每天都有大量的视频上传到国内视频分享网站,如优酷、抖音等。与语音、文本等媒体文件相比,视频的数据结构更加复杂,并且提供了更多有用的信息,其内容更加生动、形象和直观。虽然视频数据包含了丰富的信息,这是其它数据形式无法比拟的,但是其复杂的数据格式以及其日益庞大的数据量,无疑为用户的交互操作设置了巨大的障碍,影响其发挥更大的作用。如今,人们已经习惯了在互联网上搜索需要的信息,现在搜索引擎已经可以很好的解决文本搜索问题,但是对于视频检索仍是一个研究的热点,这主要的原因是视频数据具有结构性差、信息量大等特点,很难为其建立合适的索引。要对视频进行高效的操作,就要根据视频内容为其添加合适的索引。而视频标注就是根据视频内容为视频添加其合适的标签,正是建立视频索引,高效处理视频数据的必要基础。
目前主要的标注方法有人工标注、基于规则的标注和基于机器学习的标注。人工标注有许多的缺陷,例如主观性大,对于同一个视频不同人标注出来的结果可能不一致;速度慢,标注视频前要先浏览一遍视频,耗费大量时间,并且人的精力有限,不能一直保持高效的状态,所以人工标注的速度很难跟上视频增长的速度;并且人工成本较高。基于规则的视频标注是利用某领域的专业知识建立相应的标准来对视频进行标注,此种方法的缺陷是只适用于特定领域而不具有通用性,并且先验规则的获取需要大量人工的参与。
由于上述两种方法都存在比较大的缺陷,所以目前比较流行的视频标注方法是基于机器学习的视频标注方法,这种方法主要是利用已经标注好的视频训练神经网络,然后利用训练好的神经网络对视频完成自动标注,结果精确、速度快是此方法应用广泛的主要原因。目前大多机器学习方法只根据视频的视觉特征进行标注,但是视频文件的比较复杂,其中不仅包含了图像信息,还包含了音频信息,仅仅通过视频的视觉特征对视频标注是不够准确的,并且当前的帧级特征聚合方法中没有考虑到帧对于视频重要性这一因素,大大降低了聚合特征的质量。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多模态的视频标注方法,其目的在于提高视频标注的准确度。
为实现上述目的,本发明提供了一种基于多模态的视频标注方法,包括:
S1.通过聚类的方法提取视频的关键帧;
S2.利用深度卷积神经网络对关键帧进行特征提取;
S3.结合注意力机制,对提取到的关键帧特征进行时序建模,生成视觉特征;
S4.提取视频中的音频,并利用深度卷积神经网络对音频进行特征提取;
S5.结合注意力机制,对提取到的音频特征进行时序建模,生成音频特征;
S6.将视觉特征和音频特征融合,得到视频特征;
S7.采用混合专家模型根据融合后的视频特征对视频进行标注。
进一步地,步骤S1具体包括:
S1.1.将视频第一帧作为第一类,计算第一帧颜色直方图,得到第一类的质心;
S1.2.计算下一帧的颜色直方图与当前所有类质心的距离;
S1.3.比较所有距离与设定阈值大小;若所有距离均小于阈值,则新建一类加入该帧;否则,选择一个距离最大的类加入该帧,并更新该类的质心;
S1.4.重复执行步骤S1.2-S1.3,直至所有帧计算完毕;
S1.5.依次从每个类中抽取一帧,构成视频的关键帧。
进一步地,步骤S3具体为,采用以下公式对提取到的关键帧特征进行时序建模,生成视觉特征;
Figure BDA0002486395860000031
其中,V(j,k)表示关键帧聚合后第k个类别的第j个特征点;N表示视频关键帧的数量;xi(j)和ck(j)分别表示第i个关键帧和第k个聚类中心的第j个特征值;t(i,v1)表示第i个关键帧对于所有关键帧v1的注意力权重;ak(xi)表示第i个关键帧特征属于第k个聚类的权重;
Figure BDA0002486395860000032
ui=tanh(Wxi+b)
其中ui为xi的隐层表示,u为可训练的上下文向量,W和b为需要训练的参数。
进一步地,步骤S4具体包括:
S4.1.利用ffmpeg工具提取视频中的音频;
S4.2.对音频进行预加重,使音频信号的频谱更加平坦;
S4.3.通过加窗操作对预加重后的音频信号进行分帧;
S4.4.对分帧得到的每帧音频信号进行快速傅里叶变换,将其从时域转换到频域,得到每帧音频信号的功率谱;
S4.5.将上述功率谱经过梅尔滤波器转换为梅尔频率下的功率谱;
S4.6.将上述梅尔滤波器的输出经过对数运算后,输入至深度卷积神经网络,提取得到多段连续的音频特征。
进一步地,采用如下预加重滤波器对音频进行预加重:
y(n)=x(n)-αx(n-1)
其中x(n)是原始的音频信号,y(n)是预加重之后的语音信号,α是预加重系数,n表示音频信号的第n个时刻。
进一步地,步骤S6具体包括:
S6.1.将视觉特征和音频特征拼接;
S6.2.通过一个全连接神经网络融合拼接后的特征;
S6.3.采用门机制来捕获特征之间的依赖关系。
进一步地,混合专家模型包括多个训练好的专家模块。
进一步地,步骤S7具体包括:
S7.1.每个专家模块根据融合后的视频特征预测视频的标注;
S7.2.对每个专家的预测结果进行加权计算,得到视频最终的标注结果。
进一步地,步骤S7.1具体为,每个专家模块根据以下公式得到视频标注的预测值p(yo|v′,e);
Figure BDA0002486395860000041
其中,yo为视频对应的第o个标注,
Figure BDA0002486395860000042
表示专家模块需要训练的网络参数,v′表示门机制处理后的视频特征,e表示专家模块,T表示矩阵转置。
进一步地,步骤S7.2具体为,根据以下公式对每个专家模块的预测结果进行加权计算,得到视频最终的标注结果p(yo|v′);
Figure BDA0002486395860000043
其中,p(e|v′)为每个专家模块对应的权重值,m为专家模块的个数。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
(1)本发明同时考虑到了视频的视觉特征和音频特征两种模态,让提取的视频特征更加具有代表性,大大提高了视频标注的准确度,能够很好的应用于视频标注。
(2)在音频特征提取时,将传统音频特征提取方法和深度神经网络相结合,可以得到更加准确的音频特征;并且在视觉特征与音频特征聚合时加入了注意力机制,考虑到了帧对于视频的重要性,使得聚合结果更加准确,进一步提高了视频标注的准确度。
附图说明
图1为本发明提供的基于多模态的视频标注方法流程图;
图2为本发明提供的基于聚类的关键帧提取示意图;
图3为本发明提供的视觉特征提取神经网络-1;
图4为本发明提供的视觉特征提取神经网络-2;
图5为本发明提供的视觉特征提取神经网络-3。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明实施例提供了一种基于多模态的视频标注方法,包括:
S1.通过聚类的方法提取视频的关键帧;
关键帧提取过程如图2所示,具体包括:
S1.1.将视频第一帧作为第一类,计算第一帧颜色直方图,得到第一类的质心;
S1.2.计算下一帧的颜色直方图与当前所有类质心的距离;距离d由公式(1)计算得到;
Figure BDA0002486395860000061
其中,I为图片像素所分的多个区域,Hq(I)表示第q帧颜色直方图的第I个区域,图片q的颜色直方图平均值
Figure BDA0002486395860000062
由公式(2)计算得到。
Figure BDA0002486395860000063
S1.3.比较所有距离与设定阈值大小;若所有距离均小于阈值,则新建一类加入该帧;否则,选择一个距离最大(即相关度最大)的类加入该帧,并更新该类的质心;其中设定阈值根据聚类方法在不同类别视频上的实验结果取值,本发明实施例取值0.85;
S1.4.重复执行步骤S1.2-S1.3,直至所有帧计算完毕;
S1.5.依次从每个类中抽取一帧,构成视频的关键帧。
S2.利用深度卷积神经网络对关键帧进行特征提取;
用于视觉特征提取的深度卷积神经网络架构如表1所示,输入299*299*3的图像,最后得到2048维的图像特征,图像依次经过三个卷积层,一个池化层,三个卷积层,三个混合层和一个池化层,卷积层是使用卷积核对输入进行滑行计算,最后对应每个卷积核获得一个特征图(FeatureMap);池化操作是对卷积操作输出的FeatureMap来特征选择,可以通过局部特征取均值或者取最大,最小值来进行池化操作。其中混合层包含多个卷积层和池化层的组合,最后将多个组合的结果拼接起来得到混合层的输出,卷积神经网络的每个神经元不再和上一层所有的神经元相连接,而是只和一小部分神经元相连,并且一组连接共享同一个权重,池化层根据图像的局部相关性原理,对图像完成子采样,去除冗余信息,减少下一层的输入。卷积神经网络这些操作可以去掉大量不重要的参数,使得网络容易训练,从而达到更好的学习效果。
表1
类型 卷积核/步长 输入图像大小
卷积层 3*3/2 299*299*3
卷积层 3*3/1 149*149*32
卷积层 3*3/1 147*147*32
池化层 3*3/2 147*147*64
卷积层 3*3/1 73*73*64
卷积层 3*3/2 71*71*80
卷积层 3*3/1 35*35*192
3*混合层-1 如图3所示 35*35*288
5*混合层-2 如图4所示 17*17*768
2*混合层-3 如图5所示 8*8*1280
池化层 8*8 8*8*2048
S3.结合注意力机制,对提取到的关键帧特征进行时序建模,生成视觉特征;
因为视频前后具有关联性,所以将关键帧特征输入学习池进行时序建模,本发明采用以下公式(3)对提取到的关键帧特征进行时序建模,生成视觉特征;
Figure BDA0002486395860000071
其中,V(j,k)表示关键帧聚合后第k个类别的第j个特征点;N表示视频关键帧的数量;xi(j)和ck(j)分别表示第i个关键帧和第k个聚类中心的第j个特征值;t(i,v1)表示第i个关键帧对于所有关键帧v1的注意力权重;ak(xi)表示第i个关键帧特征属于第k个聚类的权重;
Figure BDA0002486395860000072
ui=tanh(Wxi+b)
其中ui为xi的隐层表示,u为可训练的上下文向量,W和b为需要训练的参数。
Figure BDA0002486395860000081
其中
Figure BDA0002486395860000082
bk是计算关键帧xi属于第k个类别权重时需要学习的参数,K为最后生成的类别个数。
S4.提取视频中的音频,并利用深度卷积神经网络对音频进行特征提取;
步骤S4具体包括:
S4.1.利用ffmpeg工具提取视频中的音频;
S4.2.对音频进行预加重,使音频信号的频谱更加平坦;
因为口鼻辐射和声门激励可以影响到语音信号平均功率谱,在大约800赫兹以上的高频端其按照-6dB/oct(倍频程)衰减,所以要对音频进行预加重,主要目的是提高音频信号的高频部分,使信号的频谱变得更加平坦,有利于进行下一步的频谱分析。预加重不仅可以在A/D转换之前进行,这样的话可以在压缩信号动态范围的同时,还可以提高信噪比。预加重还可以在A/D转换之后实施,用具有6dB/oct的预加重数字滤波器来提高信号的高频部分,通常预加重滤波器如公式(6)所示:
y(n)=x(n)-αx(n-1)(6)
其中x(n)是原始的音频信号,y(n)是预加重之后的语音信号,α是预加重系数,通常取值为0.98,n表示音频信号的第n个时刻。
S4.3.通过加窗操作对预加重后的音频信号进行分帧;
傅里叶变换处理的信号需要是平稳的信号,但是音频信号从整体上看是不平稳的,具有时变性,而一般认为音频在短时间内10ms~30ms是平稳的,因此,为了能使用傅里叶变换处理音频信号,需要对音频信号分帧,就是将不定长的语音切分成固定长度的小段。分帧需要对音频进行加窗操作,然后将窗在语音信号上滑动计算,在窗滑动的时候,为了避免音频信号的丢失,相邻帧之间应该有帧迭(相邻帧之间重叠的部分),加窗的目的是使帧两端信号衰减到零,这样可以使得傅里叶变化之后的旁瓣强度减小,以得到高质量的频谱,常见的窗函数有汉宁窗、矩形窗和汉明窗,音频信号分帧通常采用汉明窗,其窗函数公式(7)所示:
Figure BDA0002486395860000091
S4.4.对分帧得到的每帧音频信号进行快速傅里叶变换,将其从时域转换到频域,得到每帧音频信号的功率谱;
因为信号在时域上的变化很难看出它的特性,所以需要将它转换到频域上通过观察其能量分布来观察它的特性,音频信号在通过汉明窗处理之后,每帧信号还需要进行如公式(8)所示的快速傅里叶变换才能得到频谱上的能量分布,即功率谱;
Figure BDA0002486395860000092
式中N为傅里叶变换的点数,x(n)为输入的音频信号。
S4.5.将上述功率谱经过梅尔滤波器转换为梅尔频率下的功率谱;
人耳之所以能够在嘈杂的环境中还可以正常分辨各种声音,这是因为耳蜗具有滤波的作用,它就相当于一个滤波器。但由于它的滤波是在对数频率的尺度上进行的,所以人耳对低频信号更加敏感。为了模拟人耳耳蜗的作用,我们需要将之前计算的功率谱经过梅尔滤波器转换为Mel频率下的功率谱,其中梅尔滤波器就相当于人耳的耳蜗,计算Mel频率如公式(9)所示:
M(f)=1125ln(1+f/700)(9)
f表示频率值。
S4.6.将上述梅尔滤波器的输出经过对数运算后,输入至深度卷积神经网络,提取得到多段连续的音频特征。
用于音频特征提取的深度卷积神经网络架构如表2所示,输入96*64*1的对数梅尔频谱手工特征,最后得到128维的音频特征,手工特征依次经过多个卷积层、池化层和三个全连接神经网络,得到最终的音频特征,本发明采用了手工特征和深度神经网络相结合的方法,使得所提取的音频特征更加准确。
表2
Figure BDA0002486395860000101
S5.结合注意力机制,对提取到的音频特征进行时序建模,生成音频特征;
采用公式(10)对提取到的音频特征进行时序建模:
Figure BDA0002486395860000102
其中,V′(j,k)表示音频帧聚合后第k个类别的第j个特征点;N′表示音频帧的数量;x′i(j)和c′k(j)分别表示第i个音频帧和第k个聚类中心的第j个特征值;t′(i,v2)表示第i个音频帧对于所有音频帧v2的注意力权重;a′k(x′i)表示第i个音频帧特征属于第k个聚类的权重;
u′i=tanh(W′x′i+b′)
Figure BDA0002486395860000111
其中u′i为x′i的隐层表示,u′为可训练的上下文向量,W′和b′为需要训练的参数。
Figure BDA0002486395860000112
其中
Figure BDA0002486395860000113
b′k是计算音频帧x′i属于第k个类别权重时需要学习的参数,K为最后生成的类别个数。
S6.将视觉特征和音频特征融合,得到视频特征;
步骤S6具体包括:S6.1.将视觉特征和音频特征拼接;S6.2.通过一个全连接神经网络融合,得到视频特征;S6.3.采用门机制来捕获特征之间的依赖关系。
门机制可以帮助创建视觉特征之间的依赖关系,以滑雪的视频为例,它展示了滑雪的人、雪和树木,尽管树木特征的网络激活可能很高,但在滑雪背景下,树木不是最重要的,更重要的是雪和滑雪,这时门机制就会降低树木的视觉激活,其中门机制的公式如(12)所示。
Y=σ(WX+b)°X(12)
其中,X∈Rn是输入的特征向量,σ(.)为sigmoid函数,°代表逐个元素相乘,W∈Rn×n和b∈Rn是可训练的参数,向量σ(WX+b)∈[0,1]代表应用于输入特征X个体维度的学习门。
S7.采用混合专家模型根据融合后的视频特征对视频进行标注。
混合专家模型包括多个训练好的专家模块,每个专家模块根据公式(13)得到视频标注的预测值p(yo|v′,e);
Figure BDA0002486395860000114
其中,yo为视频对应的第o个标注,
Figure BDA0002486395860000115
表示专家模块需要训练的网络参数,v′表示门机制处理后的视频特征,e表示专家模块,T表示矩阵转置。
根据公式(14)对每个专家模块的预测结果进行加权计算,得到视频最终的标注结果p(yo|v′);
Figure BDA0002486395860000121
其中,p(e|v′)为每个专家模块对应的权重值,m为专家模块的个数。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多模态的视频标注方法,其特征在于,包括:
S1.通过聚类的方法提取视频的关键帧;
S2.利用深度卷积神经网络对关键帧进行特征提取;
S3.结合注意力机制,对提取到的关键帧特征进行时序建模,生成视觉特征;
S4.提取视频中的音频,并利用深度卷积神经网络对音频进行特征提取;
S5.结合注意力机制,对提取到的音频特征进行时序建模,生成音频特征;
S6.将视觉特征和音频特征融合,得到视频特征;
S7.采用混合专家模型根据融合后的视频特征对视频进行标注;
步骤S3具体为,采用以下公式对提取到的关键帧特征进行时序建模,生成视觉特征;
Figure FDA0004205647780000011
其中,V(j,k)表示关键帧聚合后第k个类别的第j个特征点;N表示视频关键帧的数量;xi(j)和ck(j)分别表示第i个关键帧和第k个聚类中心的第j个特征值;t(i,v1)表示第i个关键帧对于所有关键帧v1的注意力权重;ak(xi)表示第i个关键帧特征属于第k个聚类的权重;
Figure FDA0004205647780000012
ui=tanh(Wxi+b)
其中,ui为xi的隐层表示,u为可训练的上下文向量,W和b分别为需要训练的第一参数和第二参数;
Figure FDA0004205647780000021
其中,
Figure FDA0004205647780000022
bk分别是计算关键帧xi属于第k个类别权重时需要学习的第三参数、第四参数,K为最后生成的类别个数;
步骤S5具体为,采用以下公式对提取到的音频特征进行时序建模;
Figure FDA0004205647780000023
其中,V′(j,k)表示音频帧聚合后第k个类别的第j个特征点;N′表示音频帧的数量;x′i(j)和c′k(j)分别表示第i个音频帧和第k个聚类中心的第j个特征值;t′(i,v2)表示第i个音频帧对于所有音频帧v2的注意力权重;a′k(x′i)表示第i个音频帧特征属于第k个聚类的权重;
u′i=tanh(W′x′i+b′)
Figure FDA0004205647780000024
其中,u′i为x′i的隐层表示,u′为可训练的上下文向量,W′和b′分别为需要训练的第五参数和第六参数;
Figure FDA0004205647780000025
其中,
Figure FDA0004205647780000026
b′k分别是计算音频帧x′i属于第k个类别权重时需要学习的第七参数、第八参数。
2.根据权利要求1所述的一种基于多模态的视频标注方法,其特征在于,步骤S1具体包括:
S1.1.将视频第一帧作为第一类,计算第一帧颜色直方图,得到第一类的质心;
S1.2.计算下一帧的颜色直方图与当前所有类质心的距离;
S1.3.比较所有距离与设定阈值大小;若所有距离均小于阈值,则新建一类加入该帧;否则,选择一个距离最大的类加入该帧,并更新该类的质心;
S1.4.重复执行步骤S1.2-S1.3,直至所有帧计算完毕;
S1.5.依次从每个类中抽取一帧,构成视频的关键帧。
3.根据权利要求1所述的一种基于多模态的视频标注方法,其特征在于,步骤S4具体包括:
S4.1.利用ffmpeg工具提取视频中的音频;
S4.2.对音频进行预加重,使音频信号的频谱更加平坦;
S4.3.通过加窗操作对预加重后的音频信号进行分帧;
S4.4.对分帧得到的每帧音频信号进行快速傅里叶变换,将其从时域转换到频域,得到每帧音频信号的功率谱;
S4.5.将上述功率谱经过梅尔滤波器转换为梅尔频率下的功率谱;
S4.6.将上述梅尔滤波器的输出经过对数运算后,输入至深度卷积神经网络,提取得到多段连续的音频特征。
4.根据权利要求3所述的一种基于多模态的视频标注方法,其特征在于,采用如下预加重滤波器对音频进行预加重:
y(n)=x(n)-αx(n-1)
其中x(n)是原始的音频信号,y(n)是预加重之后的语音信号,α是预加重系数,n表示音频信号的第n个时刻。
5.根据权利要求3所述的一种基于多模态的视频标注方法,其特征在于,步骤S6具体包括:
S6.1.将视觉特征和音频特征拼接;
S6.2.通过一个全连接神经网络融合拼接后的特征,得到视频特征;
S6.3.采用门机制来捕获特征之间的依赖关系。
6.根据权利要求3所述的一种基于多模态的视频标注方法,其特征在于,混合专家模型包括多个训练好的专家模块。
7.根据权利要求6所述的一种基于多模态的视频标注方法,其特征在于,步骤S7具体包括:
S7.1.每个专家模块根据融合后的视频特征预测视频的标注;
S7.2.对每个专家的预测结果进行加权计算,得到视频最终的标注结果。
8.根据权利要求7所述的一种基于多模态的视频标注方法,其特征在于,步骤S7.1具体为,每个专家模块根据以下公式得到视频标注的预测值p(yo|v,e);
Figure FDA0004205647780000041
其中,yo为视频对应的第o个标注,
Figure FDA0004205647780000042
表示专家模块需要训练的网络参数,v表示门机制处理后的视频特征,e表示专家模块,T表示矩阵转置。
9.根据权利要求7或8所述的一种基于多模态的视频标注方法,其特征在于,步骤S7.2具体为,根据以下公式对每个专家模块的预测结果进行加权计算,得到视频最终的标注结果p(yo|v);
Figure FDA0004205647780000043
其中,p(e|v)为每个专家模块对应的权重值,m为专家模块的个数。
CN202010393229.1A 2020-05-11 2020-05-11 一种基于多模态的视频标注方法 Active CN111723239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010393229.1A CN111723239B (zh) 2020-05-11 2020-05-11 一种基于多模态的视频标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010393229.1A CN111723239B (zh) 2020-05-11 2020-05-11 一种基于多模态的视频标注方法

Publications (2)

Publication Number Publication Date
CN111723239A CN111723239A (zh) 2020-09-29
CN111723239B true CN111723239B (zh) 2023-06-16

Family

ID=72564311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010393229.1A Active CN111723239B (zh) 2020-05-11 2020-05-11 一种基于多模态的视频标注方法

Country Status (1)

Country Link
CN (1) CN111723239B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331337B (zh) 2021-01-04 2021-04-16 中国科学院自动化研究所 自动抑郁检测方法、装置、设备
CN112560811B (zh) 2021-02-19 2021-07-02 中国科学院自动化研究所 端到端的音视频抑郁症自动检测研究方法
CN113099374B (zh) * 2021-03-30 2022-08-05 四川省人工智能研究院(宜宾) 一种基于多重注意力视听融合的音频立体化方法
WO2023036159A1 (en) * 2021-09-07 2023-03-16 Huawei Technologies Co., Ltd. Methods and devices for audio visual event localization based on dual perspective networks

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436483A (zh) * 2011-10-31 2012-05-02 北京交通大学 一种基于显式共享子空间的视频广告检测方法
CN107220585A (zh) * 2017-03-31 2017-09-29 南京邮电大学 一种基于多特征融合镜头聚类的视频关键帧提取方法
CN108053836A (zh) * 2018-01-18 2018-05-18 成都嗨翻屋文化传播有限公司 一种基于深度学习的音频自动化标注方法
CN109257622A (zh) * 2018-11-01 2019-01-22 广州市百果园信息技术有限公司 一种音视频处理方法、装置、设备及介质
CN109344781A (zh) * 2018-10-11 2019-02-15 上海极链网络科技有限公司 一种基于声音视觉联合特征的视频内表情识别方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109472232A (zh) * 2018-10-31 2019-03-15 山东师范大学 基于多模态融合机制的视频语义表征方法、系统及介质
WO2019127274A1 (zh) * 2017-12-28 2019-07-04 深圳市锐明技术股份有限公司 一种针对犯罪活动的告警方法、装置、存储介质及服务器
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110503076A (zh) * 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 基于人工智能的视频分类方法、装置、设备和介质
CN111026915A (zh) * 2019-11-25 2020-04-17 Oppo广东移动通信有限公司 视频分类方法、视频分类装置、存储介质与电子设备
CN111031330A (zh) * 2019-10-29 2020-04-17 中国科学院大学 一种基于多模态融合的网络直播内容分析方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436483A (zh) * 2011-10-31 2012-05-02 北京交通大学 一种基于显式共享子空间的视频广告检测方法
CN107220585A (zh) * 2017-03-31 2017-09-29 南京邮电大学 一种基于多特征融合镜头聚类的视频关键帧提取方法
WO2019127274A1 (zh) * 2017-12-28 2019-07-04 深圳市锐明技术股份有限公司 一种针对犯罪活动的告警方法、装置、存储介质及服务器
CN108053836A (zh) * 2018-01-18 2018-05-18 成都嗨翻屋文化传播有限公司 一种基于深度学习的音频自动化标注方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109344781A (zh) * 2018-10-11 2019-02-15 上海极链网络科技有限公司 一种基于声音视觉联合特征的视频内表情识别方法
CN109472232A (zh) * 2018-10-31 2019-03-15 山东师范大学 基于多模态融合机制的视频语义表征方法、系统及介质
CN109257622A (zh) * 2018-11-01 2019-01-22 广州市百果园信息技术有限公司 一种音视频处理方法、装置、设备及介质
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110503076A (zh) * 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 基于人工智能的视频分类方法、装置、设备和介质
CN111031330A (zh) * 2019-10-29 2020-04-17 中国科学院大学 一种基于多模态融合的网络直播内容分析方法
CN111026915A (zh) * 2019-11-25 2020-04-17 Oppo广东移动通信有限公司 视频分类方法、视频分类装置、存储介质与电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Qi Yang ; Ruixuan Li.AMNN:Atention-Based Multimodal Neural Network Model for Hashtag Recommendation.《IEEE》.2020,第768-779页. *
多头注意力与语义视频标注;石开、胡燕;《计算机工程与应用》;第1-10页 *

Also Published As

Publication number Publication date
CN111723239A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111723239B (zh) 一种基于多模态的视频标注方法
CN111930992B (zh) 神经网络训练方法、装置及电子设备
CN111325155B (zh) 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法
CN108597539B (zh) 基于参数迁移和语谱图的语音情感识别方法
CN108717856A (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN112465008B (zh) 一种基于自监督课程学习的语音和视觉关联性增强方法
CN112199548A (zh) 一种基于卷积循环神经网络的音乐音频分类方法
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN110085218A (zh) 一种基于特征金字塔网络的音频场景识别方法
CN111723874B (zh) 一种基于宽度和深度神经网络的声场景分类方法
CN110598018B (zh) 一种基于协同注意力的草图图像检索方法
CN109977893B (zh) 基于层次显著性通道学习的深度多任务行人再识别方法
CN110852295B (zh) 一种基于多任务监督学习的视频行为识别方法
CN111161715A (zh) 一种基于序列分类的特定声音事件检索与定位的方法
CN111738303A (zh) 一种基于层次学习的长尾分布图像识别方法
WO2023151529A1 (zh) 人脸图像的处理方法及相关设备
CN108805036A (zh) 一种新的非监督的视频语义提取方法
WO2023197749A9 (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN112749663A (zh) 基于物联网和ccnn模型的农业果实成熟度检测系统
CN117237559A (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN109190471B (zh) 基于自然语言描述的视频监控行人搜索的注意力模型方法
Jiang et al. Speech emotion recognition method based on improved long short-term memory networks
Zhang et al. Remote sensing image retrieval based on DenseNet model and CBAM
CN115965819A (zh) 一种基于Transformer结构的轻量化害虫识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant