CN111241338B - 一种基于注意力机制的深度特征融合视频拷贝检测方法 - Google Patents
一种基于注意力机制的深度特征融合视频拷贝检测方法 Download PDFInfo
- Publication number
- CN111241338B CN111241338B CN202010016290.4A CN202010016290A CN111241338B CN 111241338 B CN111241338 B CN 111241338B CN 202010016290 A CN202010016290 A CN 202010016290A CN 111241338 B CN111241338 B CN 111241338B
- Authority
- CN
- China
- Prior art keywords
- neural network
- attention mechanism
- fusion
- network model
- video data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7328—Query by example, e.g. a complete video frame or video sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的深度特征融合视频拷贝检测方法,包括:(1)对于视频数据抽取帧图像,然后利用不同的尺度构造图像金字塔;(2)以深度卷积神经网络模型为基础网络,并在该深度卷积神经网络模型的中间卷积层中加入注意力机制;(3)将帧图像和图像金字塔输入加入注意力机制的深度卷积神经网络模型,并通过拼接融合得到融合特征;(4)利用度量学习的方式训练深度卷积神经网络模型;(5)利用训练好的深度卷积神经网络模型,并通过相似度计算得到源视频数据。本发明利用注意力机制,以及全局特征和局部特征的融合,不仅可以解决传统图像处理方法效率低、精度低的问题,而且也能解决全局特征不能适应各种复杂变换的问题。
Description
技术领域
本发明涉及多媒体信息处理技术领域,尤其是一种基于注意力机制的深度特征融合视频拷贝检测方法。
背景技术
在如今的移动互联网时代,由于多媒体视频数据的复杂性、各种视频编辑软件的出现、来源广泛等特点加大了阻止篡改视频数据肆意传播的难度。相关网络监管部门想有效的对网上多媒体视频数据进行监管,不能仅仅依靠人为监督和用户举报。
当前的解决方式是通过传统的图像处理或者全局特征提取的方法,传统算法处理效率低,而且准确度不高,而全局特征提取的方法对一般的编辑视频处理效果好,但是对于各种复杂变换的编辑视频处理效果难以达到预期。无论是传统的图像处理还是全局特征提取的方法都对于目前互联网上多媒体视频存在一定的缺陷。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于注意力机制的深度特征融合视频拷贝检测方法。
本发明采用的技术方案如下:
一种基于注意力机制的深度特征融合视频拷贝检测方法,包括如下步骤:
(1)数据输入:对于视频数据抽取帧图像,然后利用不同的尺度构造图像金字塔;
(2)模型构造:以深度卷积神经网络模型为基础网络,并在该深度卷积神经网络模型的中间卷积层中加入注意力机制;
(3)特征融合:将帧图像和图像金字塔输入加入注意力机制的深度卷积神经网络模型,并通过拼接融合得到融合特征;
(4)模型训练:利用度量学习的方式训练深度卷积神经网络模型;
(5)图像检索:利用训练好的深度卷积神经网络模型,并通过相似度计算得到源视频数据;
进一步,步骤(3)的方法为:
(3.1)图像金字塔通过加入注意力机制的深度卷积神经网络模型后得到深度的局部特征;
(3.2)帧图像通过加入注意力机制的深度卷积神经网络模型,抽取出中间卷积层的特征并利用池化层得到全局特征;
(3.3)将局部特征与全局特征进行拼接融合得到融合特征。
进一步,步骤(5)的方法为:
(5.1)库视频帧图像融合特征入库;
(5.2)对于需要检索的视频数据经步骤(1)处理后输入训练好的深度卷积神经网络模型,获得该需要检索的视频数据的帧图像融合特征;
(5.3)将该需要检索的视频数据的帧图像融合特征与库视频帧图像融合特征进行相似度计算;
(5.4)通过对相似度计算结果排序得到源视频数据。
进一步,所述相似度采用向量内积的方式计算。
进一步,所述帧图像为关键帧图像。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明通过基于注意力机制的深度卷积神经网络模型能够提取出有效特征,再利用全局特征和局部特征的融合使得视频帧图像得到有效的描述,不仅可以解决传统图像处理方法效率低、精度低的问题,而且也能解决全局特征不能适应各种复杂变换的问题。由此,本发明能够快速、准确的检测出各种复杂变换的编辑视频,为网络监管部门对于监管互联网上大量被篡改且肆意传播的多媒体视频数据提供了一个可行的技术方案。
2、本发明在深度卷积神经网络中加入注意力机制使得卷积特征更加适用于图像检索,同时采用度量学习的方式进行模型训练也较传统的损失函数更能找到关键数据之间的差别,使得在视频拷贝检测的过程中能最大限度的检测出源视频数据。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的基于注意力机制的深度特征融合视频拷贝检测方法的原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
对本发明涉及的技术进行说明:
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一,长期以来是图像识别领域的核心算法之一,并在大量学习数据时有稳定的表现。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,一种基于注意力机制的深度特征融合视频拷贝检测方法,包括如下步骤:
(1)数据输入:对于视频数据抽取帧图像,然后利用不同的尺度构造图像金字塔;
视频数据是图像在时间上的集合,因此对于视频的处理可以通过抽取帧图像进行处理,但是由于按照时间尺度进行抽取帧数会造成很多冗余信息,作为优选方式,对于视频数据抽取关键帧图像。由此利用视频帧图像的相关性进行关键帧抽取,将相似的特征只保留一个特征,减少冗余性,提高视频数据的视觉表达。
(2)模型构造:以深度卷积神经网络模型为基础网络,并在该深度卷积神经网络模型的中间卷积层中加入注意力机制;
深度卷积神经网络模型中卷积层的特征包含很多对于图像检索无用的信息,因此为了使得检索效果得到提升,应该使得对于检索有用的特征权重增加,而对于检索无用的特征权重减少,以此提升检索精度。由此本实施例在深度卷积神经网络模型的中间卷积层中加入注意力机制,使得:
A、模型训练过程中加入注意力机制的中间卷积层会根据前一层卷积层的特征得到注意力得分矩阵;
B、在得到了注意力得分矩阵之后,与之前的卷积层进行加权求和,即可得到有效特征。
(3)特征融合:将帧图像和图像金字塔输入加入注意力机制的深度卷积神经网络模型,并通过拼接融合得到融合特征;
具体地:
(3.1)图像金字塔通过加入注意力机制的深度卷积神经网络模型后得到深度的局部特征;
(3.2)帧图像通过加入注意力机制的深度卷积神经网络模型,抽取出中间卷积层的特征并利用池化层(Rmac、Gem、SPoc、Vlad)得到全局特征;
(3.3)将局部特征与全局特征进行拼接融合得到融合特征,以提升图像表达能力。
需要说明的是,在上述数据输入阶段,对于视频数据抽取的帧图像是关键帧图像时,对应的用于获取全局特征的帧图像也为关键帧图像。
(4)模型训练:利用度量学习的方式训练深度卷积神经网络模型;
采用度量学习的方式,使得模型训练过程中能最大程度的分辨相似图像和非相似图像的区别,在视频拷贝检测的过程中能更加有效的检测出源视频数据,减少误报率。
(5)图像检索:利用训练好的深度卷积神经网络模型,并通过相似度计算得到源视频数据;
具体地:
(5.1)库视频帧图像融合特征入库;即预先配置库视频帧图像融合特征;其中,库视频帧图像融合特征是采用步骤(1)~(3)获得。
(5.2)对于需要检索的视频数据经步骤(1)处理后输入训练好的深度卷积神经网络模型,获得该需要检索的视频数据的帧图像融合特征;
(5.3)将该需要检索的视频数据的帧图像融合特征与库视频帧图像融合特征进行相似度计算;
(5.4)通过对相似度计算结果排序得到源视频数据;
其中,所述相似度采用向量内积的方式计算,可以很大程度的提升检索速度。
需要说明的是,在上述数据输入阶段,对于视频数据抽取的帧图像是关键帧图像时,对应的所述库视频帧图像融合特征为库视频关键帧图像融合特征,该需要检索的视频数据的帧图像融合特征为该需要检索的视频数据的关键帧图像融合特征。
通过上述内容可知,本发明具有的有益效果如下:
1、本发明通过基于注意力机制的深度卷积神经网络模型能够提取出有效特征,再利用全局特征和局部特征的融合使得视频帧图像得到有效的描述,不仅可以解决传统图像处理方法效率低、精度低的问题,而且也能解决全局特征不能适应各种复杂变换的问题。由此,本发明能够快速、准确的检测出各种复杂变换的编辑视频,为网络监管部门对于监管互联网上大量被篡改且肆意传播的多媒体视频数据提供了一个可行的技术方案。
2、本发明在深度卷积神经网络中加入注意力机制使得卷积特征更加适用于图像检索,同时采用度量学习的方式进行模型训练也较传统的损失函数更能找到关键数据之间的差别,使得在视频拷贝检测的过程中能最大限度的检测出源视频数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于注意力机制的深度特征融合视频拷贝检测方法,其特征在于,包括如下步骤:
(1)数据输入:对于视频数据抽取帧图像,然后利用不同的尺度构造图像金字塔;
(2)模型构造:以深度卷积神经网络模型为基础网络,并在该深度卷积神经网络模型的中间卷积层中加入注意力机制;
(3)特征融合:将帧图像和图像金字塔输入加入注意力机制的深度卷积神经网络模型,并通过拼接融合得到融合特征;
(4)模型训练:利用度量学习的方式训练深度卷积神经网络模型;
(5)图像检索:利用训练好的深度卷积神经网络模型,并通过相似度计算得到源视频数据;
步骤(3)的方法为:
(3.1)图像金字塔通过加入注意力机制的深度卷积神经网络模型后得到深度的局部特征;
(3.2)帧图像通过加入注意力机制的深度卷积神经网络模型,抽取出中间卷积层的特征并利用池化层得到全局特征;
(3.3)将局部特征与全局特征进行拼接融合得到融合特征。
2.根据权利要求1所述的基于注意力机制的深度特征融合视频拷贝检测方法,其特征在于,步骤(5)的方法为:
(5.1)库视频帧图像融合特征入库;
(5.2)对于需要检索的视频数据经步骤(1)处理后输入训练好的深度卷积神经网络模型,获得该需要检索的视频数据的帧图像融合特征;
(5.3)将该需要检索的视频数据的帧图像融合特征与库视频帧图像融合特征进行相似度计算;
(5.4)通过对相似度计算结果排序得到源视频数据。
3.根据权利要求2所述的基于注意力机制的深度特征融合视频拷贝检测方法,其特征在于,所述相似度采用向量内积的方式计算。
4.根据权利要求1-3任一项所述的基于注意力机制的深度特征融合视频拷贝检测方法,其特征在于,所述帧图像为关键帧图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010016290.4A CN111241338B (zh) | 2020-01-08 | 2020-01-08 | 一种基于注意力机制的深度特征融合视频拷贝检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010016290.4A CN111241338B (zh) | 2020-01-08 | 2020-01-08 | 一种基于注意力机制的深度特征融合视频拷贝检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241338A CN111241338A (zh) | 2020-06-05 |
CN111241338B true CN111241338B (zh) | 2023-09-15 |
Family
ID=70866111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010016290.4A Active CN111241338B (zh) | 2020-01-08 | 2020-01-08 | 一种基于注意力机制的深度特征融合视频拷贝检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241338B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831852B (zh) * | 2020-07-07 | 2023-11-24 | 北京灵汐科技有限公司 | 一种视频检索方法、装置、设备及存储介质 |
CN111709945B (zh) * | 2020-07-17 | 2023-06-30 | 深圳市网联安瑞网络科技有限公司 | 一种基于深度局部特征的视频拷贝检测方法 |
CN113407780B (zh) * | 2021-05-20 | 2022-07-05 | 桂林电子科技大学 | 一种目标检索方法、装置及存储介质 |
CN114298159B (zh) * | 2021-12-06 | 2024-04-09 | 湖南工业大学 | 一种基于无标签样本下文本融合的图像相似性检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462199A (zh) * | 2014-10-31 | 2015-03-25 | 中国科学院自动化研究所 | 一种网络环境下的近似重复图像搜索方法 |
CN106952220A (zh) * | 2017-03-14 | 2017-07-14 | 长沙全度影像科技有限公司 | 一种基于深度学习的全景图像融合方法 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN109190752A (zh) * | 2018-07-27 | 2019-01-11 | 国家新闻出版广电总局广播科学研究院 | 基于深度学习的全局特征和局部特征的图像语义分割方法 |
CN109918539A (zh) * | 2019-02-28 | 2019-06-21 | 华南理工大学 | 一种基于用户点击行为的音、视频互相检索方法 |
US10373317B1 (en) * | 2019-01-22 | 2019-08-06 | StradVision, Inc. | Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11409791B2 (en) * | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US10402448B2 (en) * | 2017-06-28 | 2019-09-03 | Google Llc | Image retrieval with deep local feature descriptors and attention-based keypoint descriptors |
-
2020
- 2020-01-08 CN CN202010016290.4A patent/CN111241338B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462199A (zh) * | 2014-10-31 | 2015-03-25 | 中国科学院自动化研究所 | 一种网络环境下的近似重复图像搜索方法 |
CN106952220A (zh) * | 2017-03-14 | 2017-07-14 | 长沙全度影像科技有限公司 | 一种基于深度学习的全景图像融合方法 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN109190752A (zh) * | 2018-07-27 | 2019-01-11 | 国家新闻出版广电总局广播科学研究院 | 基于深度学习的全局特征和局部特征的图像语义分割方法 |
US10373317B1 (en) * | 2019-01-22 | 2019-08-06 | StradVision, Inc. | Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same |
CN109918539A (zh) * | 2019-02-28 | 2019-06-21 | 华南理工大学 | 一种基于用户点击行为的音、视频互相检索方法 |
Non-Patent Citations (2)
Title |
---|
Li Tong ; Ying Sha ; May D Wang.Improving Classification of Breast Cancer by Utilizing the Image Pyramids of Whole-Slide Imaging and Multi-scale Convolutional Neural Networks.IEEE.2019,1-4. * |
白静 ; 李霏 ; 姬东鸿 ; .基于注意力的BiLSTM-CNN中文微博立场检测模型.计算机应用与软件.2018,(第03期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111241338A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241338B (zh) | 一种基于注意力机制的深度特征融合视频拷贝检测方法 | |
US20210390700A1 (en) | Referring image segmentation | |
Yang et al. | Action recognition with spatio–temporal visual attention on skeleton image sequences | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
Zhang et al. | Context-aware surveillance video summarization | |
CN108228915B (zh) | 一种基于深度学习的视频检索方法 | |
CN110933518B (zh) | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 | |
JP2018524678A (ja) | 画像からの事業発見 | |
CN107818307B (zh) | 一种基于lstm网络的多标签视频事件检测方法 | |
Halit et al. | Multiscale motion saliency for keyframe extraction from motion capture sequences | |
WO2022134701A1 (zh) | 视频处理方法及装置 | |
CN112613552A (zh) | 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法 | |
CN116168329A (zh) | 基于关键帧筛选像素块的视频动作检测方法、设备及介质 | |
CN115471771A (zh) | 一种基于语义级时序关联建模的视频时序动作定位方法 | |
CN110347853B (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
CN112163493A (zh) | 一种视频虚假人脸检测方法及电子装置 | |
Wang et al. | KTN: Knowledge transfer network for learning multiperson 2D-3D correspondences | |
CN114548274A (zh) | 一种基于多模态交互的谣言检测方法及系统 | |
Qi et al. | Dgrnet: A dual-level graph relation network for video object detection | |
Sarker et al. | Transformer-based person re-identification: a comprehensive review | |
CN111709945B (zh) | 一种基于深度局部特征的视频拷贝检测方法 | |
CN116740607A (zh) | 视频处理方法及装置、电子设备和存储介质 | |
CN116452798A (zh) | 基于掩码可分离注意力机制的伪装目标分割方法及系统 | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 | |
Liu et al. | Clothing brand logo prediction: From residual block to dense block |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220524 Address after: 518000 22nd floor, building C, Shenzhen International Innovation Center (Futian science and Technology Plaza), No. 1006, Shennan Avenue, Xintian community, Huafu street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen wanglian Anrui Network Technology Co.,Ltd. Address before: Floor 4-8, unit 5, building 1, 333 Yunhua Road, high tech Zone, Chengdu, Sichuan 610041 Applicant before: CHENGDU 30KAITIAN COMMUNICATION INDUSTRY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |