CN113806482B - 视频文本跨模态检索方法、装置、存储介质和设备 - Google Patents
视频文本跨模态检索方法、装置、存储介质和设备 Download PDFInfo
- Publication number
- CN113806482B CN113806482B CN202111095182.1A CN202111095182A CN113806482B CN 113806482 B CN113806482 B CN 113806482B CN 202111095182 A CN202111095182 A CN 202111095182A CN 113806482 B CN113806482 B CN 113806482B
- Authority
- CN
- China
- Prior art keywords
- cross
- video
- frame
- text
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000009432 framing Methods 0.000 claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 24
- 238000012795 verification Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 14
- 238000012360 testing method Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 3
- 241000288105 Grus Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Library & Information Science (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供视频文本跨模态检索的方法、存储介质和电子装置,所述方法包括:获取训练样本集,其包括成对标注的视频和文本,对视频进行分帧处理并提取帧特征,对文本进行分词处理并提取词特征,所述词特征包括至少两类词性特征,利用帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型,将待测视频和文本输入训练好的跨模态检索模型中进行视频和文本的跨模态检索。本发明细化了视频文本跨模态特征匹配粒度,增强了视频文本跨模态特征匹配过程的可解释性,提高了视频文本跨模态检索的准确率。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种视频文本跨模态检索方法、装置、存储介质和设备。
背景技术
随着移动设备的智能化、便携化以及在线视频平台的蓬勃发展,大量的互联网用户选择通过视频媒介进行信息的共享和传播。在这一趋势下,当前广泛使用的基于文本标题的视频检索方式存在人工标注成本高昂且效率低下,同时文本标题无法对视频中的语义内容全面涵盖等问题,难以有效满足日益增长的海量视频数据管理和分析需求。
视频文本跨模态检索旨在通过语义内容的表征相似性完成实现。具体而言,该检索范式允许查询输入和候选对象为视频和文本其中一种模态数据,将视频和文本进行向量化表示后,计算跨模态向量相似度并排序实现对另一模态数据的检索。由于视频文本跨模态检索是在视频内容理解的基础上实现的语义内容检索,极大的解放了繁重的人工标注劳动,有效的提高了海量视频的智能处理能力。同时该检索方式拓宽了查询输入的模态限制,解决了基于文本标题的视频检索方式中只能使用文本作为查询输入的局限性,满足了用户个性化的检索需求。
现有的关于视频文本跨模态检索的方法主要分为两类。第一类方法将视频和文本均表示为单一特征向量,通过直接计算单一特征向量间的余弦相似度完成检索。然而此类方法将视频和文本表示为紧致的固定维度向量,难以进行关于语义的细粒度特征匹配,降低了检索准确率。第二类方法将视频和文本表示为序列化的帧特征和词特征,通过注意力机制对序列化的帧特征间的余弦相似度加权得到最终结果。但是此类方法忽略了视频和文本关于语义内容在空间和时间维度上的表征方式差异,无法构建与之适应的特征匹配策略,成为了提高检索准确率的瓶颈。
发明内容
本发明提供的视频文本跨模态检索方法、装置、存储介质和设备,通过挖掘视频和文本关于语义内容表征方式的差异性,提高的了视频文本跨模态检索过程中的细粒度、强可解释性和高准确率。
第一方面,本发明实施例提供一种视频文本跨模态检索方法,所述方法包括:
获取训练样本集,所述训练样本集包括成对标注的视频和文本;
对所述视频进行分帧处理,并提取帧特征;
对所述文本进行分词处理并提取词特征,所述词特征包括至少两类词性特征;
利用所述帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型;
将待测视频和文本输入所述训练好的跨模态检索模型中进行视频和文本的跨模态检索。
进一步地,对所述视频进行分帧处理并提取帧特征包括:
利用分帧工具依次对每一段视频进行分帧处理,获得帧序列,将所述帧序列均匀划分为时长相等的预设段,提取每段的第一帧,获得预设帧;
运用卷积神经网络ResNet提取所述预设帧的帧特征。
进一步地,对所述文本进行分词处理并提取词特征,所述词特征包括至少两种词性特征包括:
利用分词工具依次对每一条文本进行分词;
利用Simple-bert语义角色标注工具对每个词的词性进行分类;
利用全局词频统计词表征工具和门控循环单元词特征提取工具提取词特征,所述词特征包括至少两类种词性特征。
进一步地,所述词性特征包括第一词性特征和第二词性特征,所述利用所述帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型包括:
将所述帧特征与所述第一词性特征进行空间维度特征匹配,获得空间维度特征匹配结果;
计算所有帧特征之间的帧间特征关联度,及第一词性特征和第二词性特征之间的词性间特征关联度,将所述帧间特征关联度与所述词性间特征关联度进行时间维度特征匹配,获得时间维度特征匹配结果;
对所述空间维度特征匹配结果和所述时间维度特征匹配结果进行融合,获得联合空间时间维度特征匹配结果;
将所述联合空间时间维度特征匹配结果作为正则项与对比排序损失函数进行数学运算获得损失函数;
利用反向梯度传播法对所述预训练的视频文本跨模态模型的参数进行训练,直至所述损失函数实现收敛。
进一步地,获取训练样本集之后,对所述视频进行分帧处理,并提取帧特征之前,所述方法还包括:
获取验证样本集;
将所述训练数据集中的视频和文本分别写入到以视频和文本序列号名称作为查询键的字典文件中。
进一步地,对各所述字典文件中序列号名称对应的视频进行分帧处理,各所述字典文件中序列号名称对应的文本进行分词处理。
进一步地,所述损失函数实现收敛后,所述方法还包括:
将所述验证样本集中的每一段视频输入所述训练好的跨模态检索模型中;
计算所述训练好的跨模态检索模型搜索到的前预设数目个搜索结果中出现正确样本占验证样本集中总样本数的比例,得到第一检索准确率结果;
将所述第一检索准确率结果与仅利用对比排序损失函数作为损失函数进行训练的跨模态检索模型时获取的第二检索准确率结果进行性能增益的判定;
当所述第一检索准确率结果与所述第二检索准确率结果相比存在性能增益时,确定跨模态检索模型训练正确。
第二方面,本发明提供了一种视频文本跨模态检索装置,所述装置包括:
获取模块,用于获取训练样本集,所述训练样本集包括成对标注的视频和文本;
帧特征提取模块,用于对所述视频进行分帧处理,并提取帧特征;
词特征提取模块,用于对所述文本进行分词处理并提取词特征,所述词特征包括至少两类词性特征;
训练模块,用于利用所述帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型;
检索模块,用于将待测视频和文本输入所述训练好的跨模态检索模型中进行视频和文本的跨模态检索。
第三方面,本发明提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行第一方面所述的方法。
第四方面,本发明提供了一种设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第一方面所述的方法。
本发明提供的技术方案,通过提取视频分帧处理后的帧特征以及文本分词后的词特征,利用帧特征和词特征对构建的视频文本跨模态检索模型进行训练,获得训练好的跨模态检索模型。由此,在对预训练的视频文本跨模态模型训练的过程中充分考虑了视频和文本两种异构模态数据关于语义内容表征方式的差异性,并将该特性体现在视频文本跨模态特征匹配当中,细化了视频文本跨模态特征匹配粒度,增强了视频文本跨模态特征匹配过程的可解释性,提高了视频文本跨模态检索的准确率。
附图说明
图1是本发明实施例提供的一种视频文本跨模态检索的方法的流程图;
图2是本发明实施例提供的视频文本跨模态检索方法中步骤12的实现流程图;
图3是本发明实施例提供的视频文本跨模态检索方法中步骤13的实现流程图;
图4是本发明实施例提供的视频文本跨模态检索方法中步骤14的实现流程图;
图5是本发明另一实施例提供的视频文本跨模态检索方法的流程图;
图6是本发明另一实施例中步骤28的实现方法流程图;
图7是本发明实施例提供的视频文本跨模态检索装置的结构示意图;
图8是本发明实施例提供的另一种视频文本跨模态检索装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为满足视频文本跨模态检索高准确率的要求,本发明实施例可以利用视频分帧处理后提取的帧特征,文本分词后的至少两类词性特征对构建的预训练的视频文本跨模态模型进行训练,在对预训练的视频文本跨模态模型训练的过程中充分考虑了视频和文本两种异构模态数据关于语义内容表征方式的差异性,并将该特性体现在视频文本跨模态特征匹配当中,细化了视频文本跨模态特征匹配粒度,增强了视频文本跨模态特征匹配过程的可解释性,提高了视频文本跨模态检索的准确率。
参见图1,图1是本发明实施例提供的一种视频文本跨模态检索的方法的流程图,该方法包括如下步骤。
步骤11、获取训练样本集,所述训练样本集包括成对标注的视频和文本。
在本实施例中,可以使用大量和视频文本跨模态检索相关的训练样本集来训练视频文本跨模态检索模型,通过视频文本跨模态检索模型在训练样本集上的误差不断迭代训练模型,得到对训练样本集拟合合理的视频文本跨模态检索模型,再将训练好的视频文本跨模态检索模型应用到实际的视频文本跨模态检索过程中。在实际应用过程中,视频文本跨模态检索模型在待测视频和文本上预测结果误差越小,说明视频文本跨模态检索模型的训练越精确。
在本实施例中,可以获取训练样本集,训练样本集包括成对标注的视频和文本。在另一些实施例中,为了防止过拟合,可以将数据集划分为训练样本集、验证样本集和测试样本集,其中,训练样本集用于训练视频文本跨模态检索模型,验证样本集用于评估视频文本跨模态检索模型预测的好坏以及调整参数,测试样本集用于测试已经训练好的视频文本跨模态检索模型的推广能力。
以MSR-VTT数据集为例,假设MSR-VTT数据集共包含10000个视频,每个视频标注20条文本,训练数据集合T包含6573个视频,验证数据集合V 包含497个视频,测试数据集合U包含2990个视频。
步骤12、对所述视频进行分帧处理,并提取帧特征。
在本步骤中,可以利用分帧工具对每一个视频进行分帧处理,获得按时间顺序排序的帧序列,将帧序列划分为时常相等的多段,提取每段的第一帧,获得预设帧。之后提取选取的预设帧的帧特征。
步骤S13、对所述文本进行分词处理并提取词特征,所述词特征包括至少两类词性特征。
在本步骤中,可以构建视频文本跨模态检索模型,将获取的帧特征和至少两类词性特征输入构建的预训练的视频文本跨模态检索模型中,利用损失函数对预训练的视频文本跨模态检索模型的参数进行调整优化。
具体地,可以计算帧特征与名词特征之间的时间维度特征匹配结果,获得空间维度特征匹配结果,再计算帧间关联特征及动名词间关联特征,计算帧间关联特征和动名词间关联特征的时间维度匹配特征,获得时间维度特征匹配结果,最后对空间维度特征匹配结果和时间维度特征匹配结果进行融合,获得联合空间时间维度特征匹配结果,将所述联合空间时间维度特征匹配结果作为正则项与对比排序损失函数进行数学运算获得损失函数,利用反向梯度传播法对所述预训练的视频文本跨模态模型的参数进行训练,直至所述损失函数的收敛程度最小。
步骤14、将待测视频和文本输入所述训练好的跨模态检索模型中进行视频和文本的跨模态检索。
在本步骤中,将待测视频和文本输入所述训练好的跨模态检索模型中进行视频和文本的跨模态检索结果。
优选的,如图2所示,图2是本发明实施例提供的视频文本跨模态检索方法中步骤12的实现流程图,步骤12可通过以下步骤实现:
步骤S121,利用分帧工具依次对每一段视频进行分帧处理,获得帧序列,将所述帧序列均匀划分为时长相等的预设段,提取每段的第一帧,获得预设帧。
例如,可以利用OpenCV分帧工具依次对单个视频进行分帧,将分帧结果均匀划分为时长相等的n=30段,提取每段的第一帧,共得到30帧。
步骤S122、运用卷积神经网络ResNet提取所述预设帧的帧特征。
在本步骤中,可以利用残差网络(Residual Network,ResNet)帧特征提取工具获取帧特征
优选的,如图3所示,图3是本发明实施例提供的视频文本跨模态检索方法中步骤13的实现流程图,步骤13对每个文本进行分词处理并提取词特征,可以通过以下步骤来实现:
S131、利用分词工具依次对每一条文本进行分词。
例如,可以利用NLTK分词工具依次对字典文件中的单条文本进行分词,共得到m词,m的取值视实际单条文本中包含的词数而定。
S132、利用Simple-bert语义角色标注工具对每个词的词性进行分类。
可以利用Simple-bert语义角色标注工具对词性进行分类,判断其属于名词或者动词,并获得动词与名词间对应依存关联邻接矩阵R。
S133、利用全局词频统计词表征工具和门控循环单元词特征提取工具提取词特征,所述词特征包括至少两类种词性特征。
在本步骤中,先后利用全局词频统计(Global Vectors for WordRepresentation,GloVe)词表征工具和门控循环单元(Gated Recurrent Units, GRUs)词特征提取工具获取词特征以词性特征为名词特征和动词特征为例进行说明,其中/>表示名词特征,/>表示动词特征,r表示名词个数,o表示动词个数,特征维度均为2048维。本步骤中的i,j,k表示帧特征或词特征在视频或句子中所处的位置序号。
优选的,如图4所示,图4是本发明实施例提供的视频文本跨模态检索方法中步骤14的实现流程图。步骤S14对所述利用所述帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型可通过以下步骤实现:
S141、将所述帧特征与所述第一词性特征进行空间维度特征匹配,获得空间维度特征匹配结果。
以两类词性特征,且第一词性特征为名词特征,第二词性特征为动词特征为例进行说明。
在本步骤中,按照如下公式对帧特征与名词特征进行空间维度特征匹配:
其中Tsp表示空间维度特征匹配策略,p,q表示关于帧特征与名词特征的均匀概率分布,表示帧特征与名词特征间的余弦距离:
通过计算帧特征与所述第一词性特征进行空间维度特征匹配,获得空间维度特征匹配结果,该匹配过程以搜索最佳空间维度特征匹配策略,获取所有帧特征与名词特征的联合最小匹配距离Dsp(p,q),并将该距离以正则项的形式利用反向梯度传播原理优化跨模态检索模型。
S142、计算所有帧特征之间的帧间特征关联度,及第一词性特征和第二词性特征之间的词性间特征关联度,将所述帧间特征关联度与所述词性间特征关联度进行时间维度特征匹配,获得时间维度特征匹配结果。
在本步骤中,按照如下公式计算帧间特征关联cv(vi,vk)和动名词间特征关联ct(sj,sl,Rjl)分别定义为:
cv(vi,vk)=min(log2(|i-k|+1)c(vi,vk),2)
按照如下公式计算将所述帧间关联特征与所述词性间关联特征进行时间维度特征匹配:
其中,Tte表示时间维度特征匹配策略,p′,q′表示关于帧特征与词特征的均匀概率分布,Tte∈Π(p′,q′)表示Tte服从关于p′,q′的联合概率分布, L(vi,vk,sj,sl,Rjl)定义为基于L2范数表示帧间特征关联cv(vi,vk)和动名词间特征关联ct(sj,sl,Rjl)之间的度量距离:
L(vi,vk,sj,sl,Rjl)=||cv(vi,vk)-ct(sj,sl,Rjl)||
该匹配过程以搜索最佳时间维度特征匹配策略,获取所有帧间特征关联与动名词间特征关联的联合最小匹配距离Dte(p′,q′),并将该距离以正则项的形式利用反向梯度传播原理优化跨模态检索模型。
S143、对所述空间维度特征匹配结果和所述时间维度特征匹配结果进行融合,获得联合空间时间维度特征匹配结果。
在本步骤中,按照如下公式融合空间维度特征匹配结果和时间维度特征匹配结果,构建联合空间时间维度特征匹配结果:
其中,Tst表示联合空间时间维度特征匹配策略,λ为预设定参数。
该匹配过程以搜索最佳联合空间时间维度特征匹配策略,获取最小匹配距离Dst(p′,q′),并将该距离以正则项的形式利用反向梯度传播原理优化跨模态检索模型。
S144、将所述联合空间时间维度特征匹配结果作为正则项与对比排序损失函数进行数学运算获得损失函数。
在本步骤中,将所述联合空间时间维度特征匹配结果作为正则项与对比排序损失函数进行加和运算获得损失函数。损失函数的表达公式如下式:
L=Lrank(V,S)+βDst(p′,q′)
其中,β为优化正则项的约束参数,Lrank(V,S)通常使用三元组损失函数进行对比排序:
其中,S(V,S)表示帧特征与词特征之间的相似度,和/>是每次训练中相似度差异最小的负样本对,α是相似度约束边界。
S145、利用反向梯度传播法对所述预训练的跨模态模型的参数进行训练,直至所述损失函数的实现收敛。
在本步骤中,当获得损失函数以后,将帧特征及动词特征和名词特征输入预训练的跨模态检索模型中,利用反向传播法对预训练的跨模态检索模型进行训练,使得损失函数的收敛程度最小。通过损失函数能够预测实际值与测量值之间的差异。损失函数值越小,说明预测输出和实际结果之间的差值越小,也说明构建的模型越好。训练跨模态检索模型的过程,就是不断通过训练数据进行预测,不断调整预测输出与实际输出的差异,使损失值最小的过程。
如图5所示,图5是本发明另一实施例提供的视频文本跨模态检索方法的流程图,所述方法可包括以下步骤:
步骤21、获取训练样本集、验证样本集和测试样本集,所述训练样本集包括成对标注的视频和文本。
在本步骤中,MSR-VTT数据集共包含10000个视频,每个视频标注20 条文本,训练数据集合T包含6573个视频,验证数据集合V包含497个视频,测试数据集合U包含2990个视频。
步骤22、将所述训练数据集中的视频和文本分别写入到以视频和文本序列号名称作为查询键的字典文件中。
以文件命名规则R关于视频字典为video_id1(id1=1,2…6573),关于文本字典为text_id2(id2=1,2,…,131460)。
步骤23、对各所述字典文件中序列号名称对应的视频进行分帧处理,并提取帧特征,对各所述字典文件中序列号名称对应的文本进行分词处理并提取词特征,所述词特征包括名词特征和动词特征。
利用OpenCV分帧工具依次对字典文件中的单个视频进行分帧,将分帧结果均匀划分为时长相等的n=30段,提取每段的第一帧,共得到30帧。利用NLTK分词工具依次对字典文件中的单条文本进行分词,共得到m词,m 的取值视实际单条文本中包含的词数而定。
利用Simple-bert语义角色标注工具对词性进行分类,判断其属于名词或者动词,并获得动词与名词间对应依存关联邻接矩阵R;
利用残差网络(Residual Network,ResNet)帧特征提取工具获取帧特征先后利用全局词频统计(Global Vectors for Word Representation, GloVe)词表征工具和门控循环单元(Gated Recurrent Units,GRUs)词特征提取工具获取词特征其中/>表示名词特征,/>表示动词特征,r表示名词个数,o表示动词个数,特征维度均为2048 维。
步骤24、将所述帧特征与所述第一词性特征进行空间维度特征匹配,获得空间维度特征匹配结果。
步骤25、计算所有帧特征之间的帧间特征关联度,及第一词性特征和第二词性特征之间的词性间特征关联度,将所述帧间特征关联度与所述词性间特征关联度进行时间维度特征匹配,获得时间维度特征匹配结果。
步骤26、对所述空间维度特征匹配结果和所述时间维度特征匹配结果进行融合,获得联合空间时间维度特征匹配结果。
步骤27、将所述联合空间时间维度特征匹配结果作为正则项与对比排序损失函数进行数学运算获得损失函数。
在本实施例中,步骤24至步骤27可参照上述实施例中的步骤141至步骤144进行理解,此处不再赘述。
步骤28、利用反向梯度传播法对所述预训练的视频文本跨模态模型的参数进行训练,直至所述损失函数实现收敛,并利用验证样本集集进行准确率判定,当准确率达到预设标准时获得训练好的跨模态检索模型。
在本步骤中,当利用反向梯度传播法对所述预训练的视频文本跨模态模型的参数进行训练,直至所述损失函数实现收敛之后,利用验证样本集进行准确率判定。
具体地,如图6所示,图6是本发明另一实施例中步骤28的实现方法流程图,利用验证样本集进行准确率判断可通过以下步骤实现:
步骤281、将所述验证样本集中的每一段视频输入所述训练好的跨模态检索模型中。
步骤282、计算所述训练好的跨模态检索模型搜索到的前预设数目个搜索结果中出现正确样本占验证样本集中总样本数的比例,得到第一检索准确率结果。
步骤283、将所述第一检索准确率结果与仅利用对比排序损失函数作为损失函数进行训练的跨模态检索模型时获取的第二检索准确率结果进行性能增益的判定。
步骤284、当所述第一检索准确率结果与所述第二检索准确率结果相比存在性能增益时,确定跨模态检索模型训练正确。
步骤29、依次逐条将测试样本集中的视频和文本输入训练好的跨模态检索模型中,得到检索准确率结果。
在本步骤中,依次逐条读取测试样本集中的视频和文本,加载至训练好的跨模态检索模型中,进行检索准确率测试,得到检索准确率结果。
由此,本发明提供的技术方案,充分考虑了视频和文本两种异构模态数据关于语义内容表征方式的差异性,并将该特性体现在视频文本跨模态特征匹配当中,细化了视频文本跨模态特征匹配粒度,增强了视频文本跨模态特征匹配过程的可解释性,提高了视频文本跨模态检索的准确率。
同时,本发明实施例提出了一种新的端到端可训练的神经网络正则化跨模态检索模型,该跨模态检索模型同时联合了空间和时间两个维度进行特征匹配。首先利用帧特征与名词特征进行空间维度特征匹配,之后利用帧间特征关联与动名词间特征关联进行时间维度特征匹配,最后将空间时间维度特征匹配有效融合实现可用于视频文本跨模态检索的联合空间时间维度特征匹配,并构建成正则项与现有对比排序损失函数进行联合训练。本发明可有效利用视频文本中的显著关键信息,提高视频文本跨模态检索的准确率。
相应的,本发明实施例还提供一种视频文本跨模态检索装置,参见图7,图7是本发明实施例提供的视频文本跨模态检索装置的结构示意图,所述装置包括:
获取模块31,用于获取训练样本集,所述训练样本集包括成对标注的视频和文本;
帧特征提取模块32,用于对所述视频进行分帧处理,并提取帧特征;
词特征提取模块33,用于对所述文本进行分词处理并提取词特征,所述词特征包括至少两类词性特征;
训练模块34,用于利用所述帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型;
检索模块35,用于将待测视频和文本输入所述训练好的跨模态检索模型中进行视频和文本的跨模态检索。
进一步的,所述帧特征提取模块32可包括以下单元:
分帧单元321,用于利用分帧工具依次对每一段视频进行分帧处理,获得帧序列,将所述帧序列均匀划分为时长相等的预设段,提取每段的第一帧,获得预设帧。
帧特征提取单元,用于运用卷积神经网络ResNet提取所述预设帧的帧特征。
进一步的,词特征提取模块33可包括以下单元:
分词单元331,用于利用分词工具依次对每一条文本进行分词;
分类单元332,用于利用Simple-bert语义角色标注工具对每个词的词性进行分类;
词特征提取单元333,用于利用全局词频统计词表征工具和门控循环单元词特征提取工具提取词特征,所述词特征包括至少两类种词性特征。
进一步的,所述词性特征包括第一词性特征和第二词性特征,训练模块 34可包括以下单元:
空间维度特征匹配单元341,用于将所述帧特征与所述第一词性特征进行空间维度特征匹配,获得空间维度特征匹配结果;
时间维度特征匹配单元342,用于计算所有帧特征之间的帧间特征关联度,及第一词性特征和第二词性特征之间的词性间特征关联度,将所述帧间特征关联度与所述词性间特征关联度进行时间维度特征匹配,获得时间维度特征匹配结果;
联合空间时间维度特征匹配单元343,用于对所述空间维度特征匹配结果和所述时间维度特征匹配结果进行融合,获得联合空间时间维度特征匹配结果;
损失函数单元344,用于将所述联合空间时间维度特征匹配结果作为正则项与对比排序损失函数进行数学运算获得损失函数;
训练单元345,用于利用反向梯度传播法对所述预训练的视频文本跨模态模型的参数进行训练,直至所述损失函数实现收敛。
相应的,本发明实施例还提供另一种视频文本跨模态检索装置,参见图8,图8是本发明实施例提供的另一种视频文本跨模态检索装置的结构示意图,所述装置包括:
获取模块41,用于获取训练样本集、验证样本集和测试样本集,所述训练样本集包括成对标注的视频和文本。
字典模块42,用于将所述训练数据集中的视频和文本分别写入到以视频和文本序列号名称作为查询键的字典文件中。
特征提取模块43,用于对各所述字典文件中序列号名称对应的视频进行分帧处理,并提取帧特征,对各所述字典文件中序列号名称对应的文本进行分词处理并提取词特征,所述词特征包括名词特征和动词特征。
空间维度特征匹配模块44,用于将所述帧特征与所述第一词性特征进行空间维度特征匹配,获得空间维度特征匹配结果。
时间维度特征匹配模块45,用于计算所有帧特征之间的帧间特征关联度,及第一词性特征和第二词性特征之间的词性间特征关联度,将所述帧间特征关联度与所述词性间特征关联度进行时间维度特征匹配,获得时间维度特征匹配结果。
联合空间时间维度特征匹配模块46,用于对所述空间维度特征匹配结果和所述时间维度特征匹配结果进行融合,获得联合空间时间维度特征匹配结果。
损失函数计算模块47,用于将所述联合空间时间维度特征匹配结果作为正则项与对比排序损失函数进行数学运算获得损失函数。
训练验证模块48,用于利用反向梯度传播法对所述预训练的视频文本跨模态模型的参数进行训练,直至所述损失函数实现收敛,并利用验证样本集集进行准确率判定,当准确率达到预设标准时获得训练好的跨模态检索模型。
测试模块49,用于依次逐条将测试样本集中的视频和文本输入训练好的跨模态检索模型中,得到检索准确率结果。
进一步的,训练验证模块48可包括:
输入单元481,用于将所述验证样本集中的每一段视频输入所述训练好的跨模态检索模型中。
第一检索模块482,用于计算所述训练好的跨模态检索模型搜索到的前预设数目个搜索结果中出现正确样本占验证样本集中总样本数的比例,得到第一检索准确率结果。
增益判断单元483,用于将所述第一检索准确率结果与仅利用对比排序损失函数作为损失函数进行训练的跨模态检索模型时获取的第二检索准确率结果进行性能增益的判定。
比较单元484,用于当所述第一检索准确率结果与所述第二检索准确率结果相比存在性能增益时,确定跨模态检索模型训练正确。
由此,本发明提供的技术方案,充分考虑了视频和文本两种异构模态数据关于语义内容表征方式的差异性,并将该特性体现在视频文本跨模态特征匹配当中,细化了视频文本跨模态特征匹配粒度,增强了视频文本跨模态特征匹配过程的可解释性,提高了视频文本跨模态检索的准确率。
同时,本发明实施例提出了一种新的端到端可训练的神经网络正则化跨模态检索模型,该跨模态检索模型同时联合了空间和时间两个维度进行特征匹配。首先利用帧特征与名词特征进行空间维度特征匹配,之后利用帧间特征关联与动名词间特征关联进行时间维度特征匹配,最后将空间时间维度特征匹配有效融合实现可用于视频文本跨模态检索的联合空间时间维度特征匹配,并构建成正则项与现有对比排序损失函数进行联合训练。本发明可有效利用视频文本中的显著关键信息,提高视频文本跨模态检索的准确率。
需要说明的是,本发明实施例中的视频文本跨模态检索装置与上述方法属于相同的发明构思,未在本装置中详述的技术细节可参见前面对方法的相关描述,在此不再赘述。
此外,本发明实施例还提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行前面所述的方法。
本发明实施例还提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行前面所述的方法。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的每个模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (9)
1.一种视频文本跨模态检索方法,其特征在于,所述方法包括:
获取训练样本集,所述训练样本集包括成对标注的视频和文本;
对所述视频进行分帧处理,并提取帧特征;
对所述文本进行分词处理并提取词特征,所述词特征包括至少两类词性特征;
利用所述帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型;
将待测视频和文本输入所述训练好的跨模态检索模型中进行视频和文本的跨模态检索;其中,
所述词性特征包括第一词性特征和第二词性特征,所述利用所述帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型包括:
将所述帧特征与所述第一词性特征进行空间维度特征匹配,获得空间维度特征匹配结果;
计算所有帧特征之间的帧间特征关联度,及第一词性特征和第二词性特征之间的词性间特征关联度,将所述帧间特征关联度与所述词性间特征关联度进行时间维度特征匹配,获得时间维度特征匹配结果;
对所述空间维度特征匹配结果和所述时间维度特征匹配结果进行融合,获得联合空间时间维度特征匹配结果;
将所述联合空间时间维度特征匹配结果作为正则项与对比排序损失函数进行数学运算获得损失函数;
利用反向梯度传播法对所述预训练的视频文本跨模态模型的参数进行训练,直至所述损失函数实现收敛。
2.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,对所述视频进行分帧处理并提取帧特征包括:
利用分帧工具依次对每一段视频进行分帧处理,获得帧序列,将所述帧序列均匀划分为时长相等的预设段,提取每段的第一帧,获得预设帧;
运用卷积神经网络ResNet提取所述预设帧的帧特征。
3.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,对所述文本进行分词处理并提取词特征,所述词特征包括至少两种词性特征包括:
利用分词工具依次对每一条文本进行分词;
利用Simple-bert语义角色标注工具对每个词的词性进行分类;
利用全局词频统计词表征工具和门控循环单元词特征提取工具提取词特征,所述词特征包括至少两类种词性特征。
4.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,获取训练样本集之后,对所述视频进行分帧处理,并提取帧特征之前,所述方法还包括:
获取验证样本集;
将所述训练数据集中的视频和文本分别写入到以视频和文本序列号名称作为查询键的字典文件中。
5.根据权利要求4所述的视频文本跨模态检索方法,其特征在于,对各所述字典文件中序列号名称对应的视频进行分帧处理,各所述字典文件中序列号名称对应的文本进行分词处理。
6.根据权利要求4所述的视频文本跨模态检索方法,其特征在于,所述损失函数实现收敛后,所述方法还包括:
将所述验证样本集中的每一段视频输入所述训练好的跨模态检索模型中;
计算所述训练好的跨模态检索模型搜索到的前预设数目个搜索结果中出现正确样本占验证样本集中总样本数的比例,得到第一检索准确率结果;
将所述第一检索准确率结果与仅利用对比排序损失函数作为损失函数进行训练的跨模态检索模型时获取的第二检索准确率结果进行性能增益的判定;
当所述第一检索准确率结果与所述第二检索准确率结果相比存在性能增益时,确定跨模态检索模型训练正确。
7.一种视频文本跨模态检索装置,其特征在于,所述装置包括:
获取模块,用于获取训练样本集,所述训练样本集包括成对标注的视频和文本;
帧特征提取模块,用于对所述视频进行分帧处理,并提取帧特征;
词特征提取模块,用于对所述文本进行分词处理并提取词特征,所述词特征包括至少两类词性特征;
训练模块,用于利用所述帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型;
检索模块,用于将待测视频和文本输入所述训练好的跨模态检索模型中进行视频和文本的跨模态检索;其中,
所述词性特征包括第一词性特征和第二词性特征,所述训练模块包括:
空间维度特征匹配单元,用于将所述帧特征与所述第一词性特征进行空间维度特征匹配,获得空间维度特征匹配结果;
时间维度特征匹配单元,用于计算所有帧特征之间的帧间特征关联度,及第一词性特征和第二词性特征之间的词性间特征关联度,将所述帧间特征关联度与所述词性间特征关联度进行时间维度特征匹配,获得时间维度特征匹配结果;
联合空间时间维度特征匹配单元,用于对所述空间维度特征匹配结果和所述时间维度特征匹配结果进行融合,获得联合空间时间维度特征匹配结果;
损失函数单元,用于将所述联合空间时间维度特征匹配结果作为正则项与对比排序损失函数进行数学运算获得损失函数;
训练单元,用于利用反向梯度传播法对所述预训练的视频文本跨模态模型的参数进行训练,直至所述损失函数实现收敛。
8.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6中任一项所述的方法。
9.一种设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111095182.1A CN113806482B (zh) | 2021-09-17 | 2021-09-17 | 视频文本跨模态检索方法、装置、存储介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111095182.1A CN113806482B (zh) | 2021-09-17 | 2021-09-17 | 视频文本跨模态检索方法、装置、存储介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806482A CN113806482A (zh) | 2021-12-17 |
CN113806482B true CN113806482B (zh) | 2023-12-12 |
Family
ID=78895853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111095182.1A Active CN113806482B (zh) | 2021-09-17 | 2021-09-17 | 视频文本跨模态检索方法、装置、存储介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806482B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033720A (zh) * | 2022-09-01 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN115438225B (zh) * | 2022-11-08 | 2023-03-24 | 苏州浪潮智能科技有限公司 | 视频文本互检方法及其模型训练方法、装置、设备、介质 |
CN115994243A (zh) * | 2023-01-13 | 2023-04-21 | 北京百度网讯科技有限公司 | 跨模态检索模型处理方法、装置、设备、产品及介质 |
CN116166843B (zh) * | 2023-03-02 | 2023-11-07 | 北京中科闻歌科技股份有限公司 | 基于细粒度感知的文本视频跨模态检索方法和装置 |
CN116108156B (zh) * | 2023-04-07 | 2023-06-09 | 四川大学 | 一种基于循环关联鲁棒学习的主题法条检索方法 |
CN117765450A (zh) * | 2024-02-20 | 2024-03-26 | 浪潮电子信息产业股份有限公司 | 一种视频语言理解方法、装置、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241468A (zh) * | 2020-07-23 | 2021-01-19 | 哈尔滨工业大学(深圳) | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 |
CN112417206A (zh) * | 2020-11-24 | 2021-02-26 | 杭州一知智能科技有限公司 | 基于两分支提议网络的弱监督视频时段检索方法及系统 |
CN113239159A (zh) * | 2021-04-26 | 2021-08-10 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
-
2021
- 2021-09-17 CN CN202111095182.1A patent/CN113806482B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241468A (zh) * | 2020-07-23 | 2021-01-19 | 哈尔滨工业大学(深圳) | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 |
CN112417206A (zh) * | 2020-11-24 | 2021-02-26 | 杭州一知智能科技有限公司 | 基于两分支提议网络的弱监督视频时段检索方法及系统 |
CN113239159A (zh) * | 2021-04-26 | 2021-08-10 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113806482A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113806482B (zh) | 视频文本跨模态检索方法、装置、存储介质和设备 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN111488137B (zh) | 一种基于共同注意力表征学习的代码搜索方法 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN114661872B (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN111090771A (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN113761208A (zh) | 一种基于知识图谱的科技创新资讯分类方法和存储设备 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
Botev et al. | Word importance-based similarity of documents metric (WISDM) Fast and scalable document similarity metric for analysis of scientific documents | |
CN117132923A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN116662566A (zh) | 一种基于对比学习机制的异质信息网络链路预测方法 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114595370A (zh) | 模型训练、排序方法、装置、电子设备及存储介质 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
Karlbom | Abstractive summarization of podcast transcriptions | |
CN111858961B (zh) | 用于知识图谱中节点和链接的多语言知识匹配方法及装置 | |
CN114723073B (zh) | 语言模型预训练、产品搜索方法、装置以及计算机设备 | |
CN111737422B (zh) | 实体链接方法、装置、电子设备和存储介质 | |
CN116992111B (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
Che et al. | A feature and deep learning model recommendation system for mobile application | |
CN113392651B (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
CN118035380A (zh) | 一种信息搜索方法、装置、计算设备及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 1308, 13th floor, East Tower, 33 Fuxing Road, Haidian District, Beijing 100036 Applicant after: China Telecom Digital Intelligence Technology Co.,Ltd. Address before: Room 1308, 13th floor, East Tower, 33 Fuxing Road, Haidian District, Beijing 100036 Applicant before: CHINA TELECOM GROUP SYSTEM INTEGRATION Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |