CN113111836B - 基于跨模态哈希学习的视频解析方法 - Google Patents
基于跨模态哈希学习的视频解析方法 Download PDFInfo
- Publication number
- CN113111836B CN113111836B CN202110447506.7A CN202110447506A CN113111836B CN 113111836 B CN113111836 B CN 113111836B CN 202110447506 A CN202110447506 A CN 202110447506A CN 113111836 B CN113111836 B CN 113111836B
- Authority
- CN
- China
- Prior art keywords
- video
- cross
- modal
- hash
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于跨模态哈希学习的视频解析方法,实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段‑查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发明的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位。
Description
技术领域
本发明涉及视频语义分析技术领域,具体涉及一种基于跨模态哈希学习的视频解析方法。
背景技术
随着互联网、云计算、大数据技术的迅猛发展与相互融合,视频数据也随之增长,并广泛遍布于多样的应用场景中以满足人们的不同需求。由此,视频检索技术也日益受到广泛关注。当前视频检索研究主要分为:(1)单模态检索,即利用给定的视频特征,从视频数据库中检索出与之“特征相似”的视频数据;(2)跨模态检索,即利用给定的自然语言描述从视频数据库中检索出与之“语义相似”的视频数据。显然,这种基于自然语言的视觉信息检索,不仅是对传统视频检索研究的深化,而且具有良好的人机交互性。但是,目前的跨模态检索研究,仅能根据给定的简单文本描述(“坐下”、“点头”、“握手”等)从视频集合中检索出包含上述动作行为的完整视频,即仅能判断所给定视频中是否包含与文本查询具有相似“语义”视频片段,而无法对目标视频片段进行准确定位。但是对于给出查询语句的相关用户而言,从给定视频上检索出其所感兴趣的视频片段,肯定比单纯检索出包含相关片段的完整视频,更加符合用户的期望。例如,对于一段长度为30秒的监控视频(包含复杂的视觉场景和动作行为),相关安保人员可能迫切需要对对监控视频中一个具体片段:“黑衣男子第二次拿出手机,开始通话”(开始于5.6秒,结束于17.1秒)进行视频定位,以便于对可疑人员进行追踪。由此可见,跨模态视频定位研究更有意义,同时也具有更大的挑战性。
跨模态视频定位研究,不仅需要对视频内部所涉及复杂的场景、对象、交互进行准确理解,而且需要对给定的文本查询语句的自然语义逻辑,以及关键线索词“黑衣”、“男子”、“第二次”、“手机”进行准确理解。更重要的是,需要对以上两种模态特征,进行有效的跨模态特征融合,即:从给定视频所描绘的复杂场景中准确定位出与查询语义相匹配的视频片段,同时对该场景中的其他动作行为进行“忽略”,智能且精准地实现目标视频片段定位。
发明内容
本发明为了克服以上技术的不足,提供了一种从给定视频中对不同文本查询语句,所期望的视频片段进行准确定位的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于跨模态哈希学习的视频解析方法,包括:
a)对第k条视频数据Vk进行单元分割,k∈{1,...,K},K为视频数据总数,对分割后的视频数据Vk输入C3D网络模型处理,将处理结果进行池化操作得到基于视频单元的特征表征Vk (0), 为第r个视频单元的特征表征,R为视频单元的总个数;
b)通过公式基于双向时序卷积网络对Vk (0)进行上下文信息感知的特征增强,得到第i次双向卷积处理后的视频表征Vk (i),式中ε为卷积核大小,ρ为稀疏率,Θ为双向时序卷积操作,为经过第i次双向卷积处理的第r个视频单元的特征表征;
c)完成三次双向时序卷积,得到视频表征Vk (3),将视频表征Vk (3)依次输入多尺度卷积网络和多层感知机网络模型处理,得到视频片段表征集合Ck,Ck={ck,1,ck,2,...,ck,i,…,...,ck,n},ck,i为第i个视频片段表征,i∈{1,...,n},n为视频片段总个数;
e)基于交并比率IoU构建跨模态相似矩阵Mk,将视频片段表征集合Ck和查询语句表征集合分别输入全连接神经网络后基于跨模态相似矩阵进行跨模态特征语义对齐,完成跨模态哈希网络模型的建立,通过损失函数Γ训练跨模态哈希网络模型;
f)将测试集输入训练后的跨模态哈希网络模型,将测试集中第r条视频数据Vr和对第r条视频数据Vr的全体查询语句构成的集合Qr向汉明空间进行特征映射,得到视频数据Vr的哈希特征集合以及集合Qr的哈希特征集合 bci为第i个视频数据的哈希特征,i∈{1,...,n},bqj为第j个查询语句的哈希特征,j∈{1,...,m},m为集合Qr中查询语句的总个数;
进一步的,步骤a)中以16帧为最小单元对第k条视频数据Vk进行单元分割。
进一步的,每次双向时序卷积操作时增加填充信息,通过公式pi=(ε-1)pi-1计算第i层的填充个数pi。
进一步的,步骤e)中通过公式计算得到转换成二值特征集合通过公式计算得到转换成二值特征集合式中sgn(·)为符号函数,通过公式计算损失函数Γ2,利用公式Γ=Γ1+λΓ2计算得到损失函数Γ,λ为超参,,通过损失函数Γ训练跨模态哈希网络模型,利用adamoptimizer函数求解出跨模态哈希网络模型的全部参数。
本发明的有益效果是:实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段-查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位。
附图说明
图1为本发明的模型结构图;
图2为本发明的视频片段表征集生成流程图;
图3为本发明的对比模型介绍图;
图4为本发明的定位精度与效率对比图;
图5为本发明的定位可扩展性对比图。
具体实施方式
下面结合附图1至附图5对本发明做进一步说明。
如附图1所示,一种基于跨模态哈希学习的视频解析方法,包括:
a)如附图2所示,对第k条视频数据Vk进行单元分割,k∈{1,...,K},K为视频数据总数,并利用C3D网络模型与池化操作,获得视频单元的特征表征。随后,基于本发明提出双向时序卷积网络,对按照“时序”排列的视频单元进行基于“上下文”信息感知的特征增强,随后利用基于多尺度卷积网络和多层感知机网络模型,生成视频片段表征集合Ck。具体的对分割后的视频数据Vk输入C3D网络模型处理,将处理结果进行池化操作得到基于视频单元的特征表征Vk (0), 为第r个视频单元的特征表征,R为视频单元的总个数。
b)通过公式基于双向时序卷积网络对Vk (0)进行上下文信息感知的特征增强,得到第i次双向卷积处理后的视频表征Vk (i),式中ε为卷积核大小,ρ为稀疏率,Θ为双向时序卷积操作,为经过第i次双向卷积处理的第r个视频单元的特征表征。
c)当完成三次双向时序卷积之后,得到视频表征Vk (3),将视频表征Vk (3)依次输入多尺度卷积网络和多层感知机网络模型处理,得到视频片段表征集合Ck,Ck={ck,1,ck,2,...,ck,i,...,...,ck,n},ck,i为第i个视频片段表征,i∈{1,...,n},n为视频片段总个数。
e)基于交并比率IoU构建跨模态相似矩阵Mk,将视频片段表征集合Ck和查询语句表征集合分别输入全连接神经网络后基于跨模态相似矩阵进行跨模态特征语义对齐,完成跨模态哈希网络模型的建立,通过损失函数Γ训练跨模态哈希网络模型。
f)将测试集输入训练后的跨模态哈希网络模型,将测试集中第r条视频数据Vr和对第r条视频数据Vr的全体查询语句构成的集合Qr向汉明空间进行特征映射,得到视频数据Vr的哈希特征集合以及集合Qr的哈希特征集合 bci为第i个视频数据的哈希特征,i∈{1,...,n},bqj为第j个查询语句的哈希特征,j∈{1,...,m},m为集合Qr中查询语句的总个数。
g)通过公式计算得到汉明距离T为转置,L为哈希码长度,⊙点乘计算,通过汉明距离度量哈希特征集合和得到语义相似性结果。利用汉明距离计算公式,可以迅速检索出具有语义相似性的“视频片段-查询语句”对,从而实现基于自然语言的视频片段精准定位和高效定位。如附图3所示,通过与国际领先的同类模型进行定位性能对比,如附图4中的结果显示,本模型的定位精度和效率具有显著优越性。
本跨模态哈希网络模型中的视频编码模块和查询语句编码模块是相互独立的,多模态信息(视频、文本)可以分别进行适应性的语义理解与表征学习。因此,当需要对给定视频,进行大量多样性片段定位查询时,跨模态哈希网络模型能够保证跨模态视频片段定位的可扩展性。为此,我们选取国际开源基准数据集ActivityNet Captions(网址https://cs.stanford.edu/people/ranjaykrishna/densevid/),并将其测试集所包含的查询语句数量进行整数倍扩展,随后将再次评估跨模态哈希网络模型与附图4中性能最好的对比模型CMIN的定位效率。如附图5中(10X,表示查询语句数量扩展到原来的10倍)结果显示,随着查询语句数量的增多,跨模态哈希网络模型定位时间的增长远低于对比模型CMIN,显然跨模态哈希网络模型的可扩展性同样具有显著优越性。
通过构建跨模态哈希网络模型。
实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段-查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位,即本模型能够保证视频定位的可扩展性。在开源基准数据上进行的大量性能对比实验,可以证明本发明所提供的模型不仅可以基于不同的文本查询语句,实现精准且高效的视频片段定位,而且能证明本模型的具有良好可扩展。
实施例1:
步骤a)中以16帧为最小单元对第k条视频数据Vk进行单元分割。
实施例2:
为保证每次双向卷积处理,都能得到长度为R的视频单元集合。我们需要为每次的双向时序卷积操作,增加填充(padding)信息。第i层的padding个数为每次双向时序卷积操作时增加填充信息,因此通过公式pi=(ε-1)pi-1计算第i层的填充个数pi。
实施例3:
实施例4:
步骤e)中通过公式计算得到转换成二值特征集合通过公式计算得到转换成二值特征集合式中sgn(·)为符号函数,通过公式计算损失函数Γ2,利用公式Γ=Γ1+λΓ2计算得到损失函数Γ,λ为超参,,通过损失函数Γ训练跨模态哈希网络模型,利用adam optimizer函数求解出跨模态哈希网络模型的全部参数。最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于跨模态哈希学习的视频解析方法,其特征在于,包括:
a)对第k条视频数据Vk进行单元分割,k∈{1,...,K},K为视频数据总数,对分割后的视频数据Vk输入C3D网络模型处理,将处理结果进行池化操作得到基于视频单元的特征表征Vk (0), 为第r个视频单元的特征表征,R为视频单元的总个数;
b)通过公式基于双向时序卷积网络对Vk (0)进行上下文信息感知的特征增强,得到第i次双向卷积处理后的视频表征Vk (i),式中ε为卷积核大小,ρ为稀疏率,Θ为双向时序卷积操作,为经过第i次双向卷积处理的第r个视频单元的特征表征;
c)完成三次双向时序卷积,得到视频表征Vk (3),将视频表征Vk (3)依次输入多尺度卷积网络和多层感知机网络模型处理,得到视频片段表征集合Ck,Ck={ck,1,ck,2,...,ck,i,...,...,ck,n},ck,i为第i个视频片段表征,i∈{1,...,n},n为视频片段总个数;
e)基于交并比率IoU构建跨模态相似矩阵Mk,将视频片段表征集合Ck和查询语句表征集合分别输入全连接神经网络后基于跨模态相似矩阵进行跨模态特征语义对齐,完成跨模态哈希网络模型的建立,通过损失函数Γ训练跨模态哈希网络模型;
f)将测试集输入训练后的跨模态哈希网络模型,将测试集中第r条视频数据Vr和对第r条视频数据Vr的全体查询语句构成的集合Qr向汉明空间进行特征映射,得到视频数据Vr的哈希特征集合以及集合Qr的哈希特征集合 bci为第i个视频数据的哈希特征,i∈{1,…,n},bqj为第j个查询语句的哈希特征,j∈{1,…,m},m为集合Qr中查询语句的总个数;
2.根据权利要求1所述的基于跨模态哈希学习的视频解析方法,其特征在于:步骤a)中以16帧为最小单元对第k条视频数据Vk进行单元分割。
3.根据权利要求1所述的基于跨模态哈希学习的视频解析方法,其特征在于:每次双向时序卷积操作时增加填充信息,通过公式pi=(ε-1)pi-1计算第i层的填充个数pi。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110447506.7A CN113111836B (zh) | 2021-04-25 | 2021-04-25 | 基于跨模态哈希学习的视频解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110447506.7A CN113111836B (zh) | 2021-04-25 | 2021-04-25 | 基于跨模态哈希学习的视频解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111836A CN113111836A (zh) | 2021-07-13 |
CN113111836B true CN113111836B (zh) | 2022-08-19 |
Family
ID=76719968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110447506.7A Active CN113111836B (zh) | 2021-04-25 | 2021-04-25 | 基于跨模态哈希学习的视频解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111836B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114780789A (zh) * | 2022-06-22 | 2022-07-22 | 山东建筑大学 | 基于自然语言查询的装配式构件施工监控视频定位方法 |
CN116186329B (zh) * | 2023-02-10 | 2023-09-12 | 阿里巴巴(中国)有限公司 | 视频处理、搜索、索引构建方法、装置、设备及存储介质 |
CN116385946B (zh) * | 2023-06-06 | 2023-08-29 | 山东大学 | 面向视频的目标片段定位方法、系统、存储介质及设备 |
CN117555916B (zh) * | 2023-11-06 | 2024-05-31 | 广东电网有限责任公司佛山供电局 | 一种基于自然语言处理的语音交互方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN110019849B (zh) * | 2018-05-23 | 2020-11-24 | 山东大学 | 一种基于注意力机制的视频关注时刻检索方法及装置 |
CN108932304B (zh) * | 2018-06-12 | 2019-06-18 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN110069666B (zh) * | 2019-04-03 | 2021-04-06 | 清华大学 | 基于近邻结构保持的哈希学习方法和装置 |
CN111897913B (zh) * | 2020-07-16 | 2022-06-03 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN111930999B (zh) * | 2020-07-21 | 2022-09-30 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
-
2021
- 2021-04-25 CN CN202110447506.7A patent/CN113111836B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113111836A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560503B (zh) | 融合深度特征和时序模型的语义情感分析方法 | |
CN113111836B (zh) | 基于跨模态哈希学习的视频解析方法 | |
Mao et al. | Deep cross-modal retrieval for remote sensing image and audio | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
Guo et al. | Jointly learning of visual and auditory: A new approach for RS image and audio cross-modal retrieval | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
Li et al. | Residual attention-based LSTM for video captioning | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN113177141B (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN113157885B (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
Ma et al. | Co-attention memory network for multimodal microblog's hashtag recommendation | |
Chen et al. | Deep quadruple-based hashing for remote sensing image-sound retrieval | |
CN110851584B (zh) | 一种法律条文精准推荐系统和方法 | |
CN115062134B (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN112883229B (zh) | 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN112528136A (zh) | 一种观点标签的生成方法、装置、电子设备和存储介质 | |
Zhao et al. | TelecomNet: Tag-based weakly-supervised modally cooperative hashing network for image retrieval | |
Cao et al. | Deep multi-view learning to rank | |
CN115438674A (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN113806554A (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN115512195A (zh) | 一种基于多交互信息融合的图像描述方法 | |
Xu et al. | Idhashgan: deep hashing with generative adversarial nets for incomplete data retrieval | |
Zhu et al. | Triplet-object loss for large scale deep image retrieval | |
CN117933249A (zh) | 一种装备故障知识的智能交互方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |