CN113987274A - 视频语义表示方法、装置、电子设备和存储介质 - Google Patents
视频语义表示方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113987274A CN113987274A CN202111637372.1A CN202111637372A CN113987274A CN 113987274 A CN113987274 A CN 113987274A CN 202111637372 A CN202111637372 A CN 202111637372A CN 113987274 A CN113987274 A CN 113987274A
- Authority
- CN
- China
- Prior art keywords
- video
- semantic
- text
- vector
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 242
- 230000004927 fusion Effects 0.000 claims abstract description 140
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000003993 interaction Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种视频语义表示方法、装置、电子设备和存储介质,其中方法包括:获取待表示视频的视频文本信息和多个视频帧;分别利用视频语义表示模型的文本编码器和图片编码器对视频文本信息和多个视频帧进行语义提取,得到视频文本信息的语义向量和多个视频帧的帧语义向量;利用视频语义表示模型的多模态融合器,对文本语义向量和多个视频帧的帧语义向量进行多模态融合,得到待表示视频的视频语义表示;其中,视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,视频语义表示模型的图片编码器和文本编码器是基于样本图片以及样本图片的描述文本预先进行联合训练得到的。本发明提高了视频语义表示的精确性。
Description
技术领域
本发明涉及视频处理技术领域,尤其涉及一种视频语义表示方法、装置、电子设备和存储介质。
背景技术
随着网络技术的发展,视频作为一种信息载体,丰富了人们的娱乐、学习等日常生活。相关技术中,需要生成视频的表示来区分不同的视频,比如视频检索应用场景下,可基于视频表示从视频库中检索视频,或是在视频推荐应用场景下,根据用户历史观看的视频的视频表示从视频库中检索相关的视频。
目前,通常的视频语义表示方法通常是基于样本视频和样本视频的标签进行有监督训练得到视频表示模型后,利用视频表示模型提取得到的。然而,目前业务场景中大量用户上传的视频没有经过人工标注相关标签数据,无法直接用来进行有监督训练以生成有意义的视频语义表示。此外,虽然视频由视频帧序列组合而成,且现有的部分无监督方式的图像语义表示模型或是图文多模态融合模型可以提取图像语义或将图像的语义和文本语义相融合,但由于视频的数据分布与图像之间存在差别,且视频的视频帧之间存在大量相关联的语义信息,而单纯的图像语义表示模型或图文多模态融合模型多用于提取单个图像的语义,难以处理多个相关联的视频帧,因此直接利用上述模型提取视频语义的效果欠佳。
发明内容
本发明提供一种视频语义表示方法、装置、电子设备和存储介质,用以解决现有技术中视频语义提取模型难以在人工标注标签数量较少的场景下使用、视频语义提取效果欠佳的缺陷。
本发明提供一种视频语义表示方法,包括:
获取待表示视频的视频文本信息和多个视频帧;
分别利用视频语义表示模型的文本编码器和图片编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;
利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;
其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。
根据本发明提供的一种视频语义表示方法,所述利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示,具体包括:
对所述多个视频帧的帧语义向量进行语义融合,得到帧融合向量;
对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示。
根据本发明提供的一种视频语义表示方法,所述对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示,具体包括:
基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量;
将所述文本关键语义向量和所述帧关键语义向量进行语义融合,得到所述待表示视频的视频语义表示。
根据本发明提供的一种视频语义表示方法,所述基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量,具体包括:
基于所述多模态融合器的自注意力交互层,对所述文本语义向量进行自注意力变换,得到所述文本语义向量的文本关键语义向量;
基于所述多模态融合器的交叉注意力交互层,对所述文本关键语义向量和所述帧融合向量进行交叉注意力变换,得到所述帧融合向量的帧关键语义向量。
根据本发明提供的一种视频语义表示方法,所述视频语义表示模型的损失函数包括词预测损失和图文匹配损失;
其中,所述词预测损失用于表征所述视频语义表示模型对所述样本文本信息中被替换为标签的词的预测结果与所述样本文本信息中被替换为标签的词之间的差异;
所述图文匹配损失用于表征所述视频语义表示模型预测所述样本文本信息的语义和所述多个样本视频帧的语义是否匹配的准确度。
根据本发明提供的一种视频语义表示方法,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本进行对比学习得到的,所述对比学习的学习目标为任一样本图片的图片编码结果与所述任一样本图片的描述文本的文本编码结果之间的相似度高于所述任一样本图片的图片编码结果与任一其他样本图片的描述文本的文本编码结果之间的相似度。
根据本发明提供的一种视频语义表示方法,所述多个视频帧是对所述待表示视频进行关键帧抽取后得到的。
本发明还提供一种视频语义表示装置,包括:
信息获取单元,用于获取待表示视频的视频文本信息和多个视频帧;
向量提取单元,用于分别利用视频语义表示模型的图片编码器和文本编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;
多模态融合单元,用于利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;
其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述视频语义表示方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述视频语义表示方法的步骤。
本发明提供的视频语义表示方法、装置、电子设备和存储介质,基于样本图片以及样本图片的描述文本,对视频语义表示模型的图片编码器和文本编码器预先进行联合训练,再基于样本视频的样本文本信息和多个样本视频帧进行自监督学习,得到视频语义表示模型,从而利用文本编码器和图片编码器对待表示视频的视频文本信息和多个视频帧进行语义提取,得到视频文本信息的文本语义向量和多个视频帧的帧语义向量,再利用视频语义表示模型的多模态融合器,对文本语义向量和多个视频帧的帧语义向量进行多模态融合,得到待表示视频的视频语义表示,从而提高视频语义表示的精确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的视频语义表示方法的流程示意图;
图2是本发明提供的视频语义表示装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的视频语义表示方法的流程示意图,如图1所示,该方法包括:
步骤110,获取待表示视频的视频文本信息和多个视频帧。
此处,待表示视频为需要提取视频语义信息的视频。为了提取该视频的语义信息,考虑到视频的标题、视频描述信息、视频的meta信息(例如视频up主,以及视频上传所带的标签等信息)等视频文本信息中包含有该视频的核心内容,且视频由多个具备时序关系的视频帧组合而成,视频的整体语义由上述视频帧的语义组合而成,因此,可以获取该待表示视频的视频文本信息和其中的多个视频帧,以获取该待表示视频更多、更丰富的语义信息。
步骤120,分别利用视频语义表示模型的文本编码器和图片编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;
步骤130,利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;
其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。
具体地,可以预先训练一个视频语义表示模型用于获取待表示视频的视频语义表示。其中,视频语义表示模型中包含图片编码器、文本编码器和多模态融合器。图片编码器和文本编码器可以采用现有的编码器结构,例如图片编码器可以采用适用于图片的Transformer结构,文本编码器可以采用BERT模型结构,本发明实施例对此不作具体限定。图片编码器用于对图片进行语义提取,文本编码器用于对文本进行语义提取,多模态融合器用于将图片的语义提取结果与文本的语义提取结果进行多模态融合。为了训练视频语义表示模型,可以预先对图片编码器和文本编码器进行联合训练,再基于预训练好的图片编码器和文本编码器,利用样本视频的样本文本信息和多个样本视频帧对整个视频语义表示模型进行自监督学习,得到最佳的多模态融合器。
此处,由于图片编码器和文本编码器的编码结果需要进行多模态融合,而文本和图片属于不同维度的数据,其对应的语义提取结果处于不同的向量空间,将导致难以融合。因此,可以基于样本图片以及该样本图片的描述文本对图片编码器和文本编码器进行联合训练,利用成对的图文使得图片编码器和文本编码器输出的语义提取结果处于同一向量空间,以便于后续的多模态融合。
进一步地,由于利用成对的图文对图片编码器和文本编码器进行联合训练,可以使得对于相匹配的图片和文本,图片编码器和文本编码器输出的语义提取结果尽量在向量空间中靠近,而对于不匹配的图片和文本,图片编码器和文本编码器输出的语义提取结果在向量空间中尽量远离。具体应用到视频语义表示场景下时,将待表示视频的视频文本信息和多个视频帧分别输入至文本编码器和图片编码器中进行语义提取,得到文本编码器输出的上述视频文本信息的文本语义向量和图片编码器输出的上述多个视频帧的帧语义向量。其中,文本语义向量中包含视频文本信息中每个分词的语义信息,帧语义向量中包含对应视频帧中每一部分子图的语义信息。此时,若某一视频帧与视频文本信息的语义相关(即匹配),则该视频帧的帧语义向量将与文本语义向量相近,若某一视频帧与视频文本信息的语义不相关(即不匹配),则该视频帧的帧语义向量将与文本语义向量差异较大。
随后,利用视频语义表示模型的多模态融合器,对文本语义向量和多个视频帧的帧语义向量进行多模态融合,得到待表示视频的视频语义表示。在进行多模态融合时,可以利用视频帧的帧语义向量与文本语义向量之间差异性进行有差别地融合,即在进行多模态融合时,与文本语义向量更相似的帧语义向量中的语义信息将占据更高的比重,而与文本语义向量不相似的帧语义向量中的语义信息将被弱化,从而提高了视频语义表示的精确性。除此之外,考虑到视频与单独的图片之间的差异性,视频中的视频帧之间存在一定语义关联,且上述语义关联一定程度影响着该视频的整体语义,因此,在进行多模态融合时,多个视频帧的帧语义向量也需要进行语义融合,以提取多个视频帧之间的语义关联性,从而进一步提高视频语义表示的精确性。
得到待表示视频的视频语义表示后,可以用于进行视频搜索或视频推荐。以视频搜索为例,利用上述方式获取视频库中所有视频的视频语义表示,当用户输入检索词后,可以获取该检索词的文本表示向量(可利用视频语义表示模型中的文本编码器对检索词进行语义提取,得到对应的文本表示向量),并计算该检索词的文本表示向量与视频库中各视频的视频语义表示之间的相似度,从而筛选出相似度较高的视频作为搜索结果展示给用户。
本发明实施例提供的方法,基于样本图片以及样本图片的描述文本,对视频语义表示模型的图片编码器和文本编码器预先进行联合训练,再基于样本视频的样本文本信息和多个样本视频帧进行自监督学习,得到视频语义表示模型,从而利用文本编码器和图片编码器对待表示视频的视频文本信息和多个视频帧进行语义提取,得到视频文本信息的文本语义向量和多个视频帧的帧语义向量,再利用视频语义表示模型的多模态融合器,对文本语义向量和多个视频帧的帧语义向量进行多模态融合,得到待表示视频的视频语义表示,从而提高视频语义表示的精确性。
基于上述实施例,步骤130具体包括:
对所述多个视频帧的帧语义向量进行语义融合,得到帧融合向量;
对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示。
具体地,为了提取能够将待表示视频与其他视频区分开的语义信息,需要考虑帧与帧之间的联系与变化,因此,首先对多个视频帧的帧语义向量进行语义融合,将多个视频帧的语义信息以及多个视频帧之间的语义关联信息融合到一起,形成帧融合向量。此处,可以使用mean pooling方式对多个帧的帧语义向量进行语义融合,以提高帧之间语义融合的效率;还可以使用TRN网络结构(Temporal Relational Reasoning)、TSM网络结构(Temporal Shift Module)或LSTM网络结构(Long Short-Term Memory)进行上述视频帧之间的语义融合,本发明实施例对此不作具体限定。
随后,对上述文本语义向量和帧融合向量进行多模态融合,将文本语义向量中携带的视频文本的语义信息,与多个视频帧的语义信息和多个视频帧之间的语义关联信息融合到一起,得到待表示视频的视频语义表示。此处,在将文本语义向量和帧融合向量进行多模态融合时,可以充分利用文本语义向量与帧融合向量之间的相关性,从帧融合向量中选取与视频核心内容相关的语义信息和语义关联信息,以进一步提高视频语义表示的精确性。
本发明实施例提供的方法,通过对多个视频帧的帧语义向量进行语义融合,得到帧融合向量,再对文本语义向量和帧融合向量进行多模态融合,得到视频语义表示,进一步提高了视频语义表示的精确性。
基于上述任一实施例,所述对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示,具体包括:
基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量;
将所述文本关键语义向量和所述帧关键语义向量进行语义融合,得到所述待表示视频的视频语义表示。
具体地,待表示视频的视频文本信息中存在多个词,上述多个词中有相对更重要、对于整个视频文本信息的语义信息影响更大的关键词,也存在相对不重要、对于整个视频文本信息的语义信息影响较小的干扰词。因此,可以获取视频文本信息的文本语义向量的自相关性。其中,由于视频文本信息中的关键词与其他词之间的关联性高于干扰词与其他词之间的关联性,因此通过文本语义向量的自相关性,可以定位视频文本信息中的关键词,从而强化关键词的语义信息、弱化干扰词的语义信息,得到更精确的文本关键语义向量。
此外,由于视频文本信息通常与待表示视频的核心内容相关,因此可以充分利用文本关键语义向量与帧融合向量之间的互相关性,从帧融合向量中选取与视频核心内容相关的语义信息和语义关联信息。因此,可以获取文本语义向量和帧融合向量之间的互相关性,定位与视频核心内容更相关的视频帧的语义信息和语义关联信息,并据此提取帧融合向量的帧关键语义向量。
随后,将上述文本关键语义向量和上述帧关键语义向量进行语义融合,得到待表示视频的视频语义表示,从而提高了视频语义表示信息的准确性,优化了视频语义表示信息的语义表达能力。此处,可以采用Feed forward模块进行上述融合操作。
基于上述任一实施例,所述基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量,具体包括:
基于所述多模态融合器的自注意力交互层,对所述文本语义向量进行自注意力变换,得到所述文本语义向量的文本关键语义向量;
基于所述多模态融合器的交叉注意力交互层,对所述文本关键语义向量和所述帧融合向量进行交叉注意力变换,得到所述帧融合向量的帧关键语义向量。
具体地,多模态融合器中包含自注意力交互层和交叉注意力交互层,以用于获取文本语义向量的自相关性,以及文本语义向量和帧融合向量之间的互相关性。具体而言,可以利用自注意力交互层对文本语义向量进行自注意力变换,得到视频文本信息中每个分词对应的自注意力权重,并基于每个分词对应的自注意力权重对文本语义向量进行调整,得到文本关键语义向量。其中,任一分词对应的自注意力权重越大,表示该分词在视频文本信息中越重要。还可以利用交叉注意力交互层,对文本关键语义向量和帧融合向量进行交叉注意力变换,得到帧融合向量中每一部分子图对应的语义信息的注意力权重,并基于每一部分子图对应的语义信息的注意力权重对帧融合向量进行调整,得到帧关键语义向量。其中,部分子图对应的语义信息的注意力权重越大,表示该部分子图对应的语义信息与视频文本信息的相关性越高。
基于上述任一实施例,所述视频语义表示模型的损失函数包括词预测损失和图文匹配损失;
其中,所述词预测损失用于表征所述视频语义表示模型对所述样本文本信息中被替换为标签的词的预测结果与所述样本文本信息中被替换为标签的词之间的差异;
所述图文匹配损失用于表征所述视频语义表示模型预测所述样本文本信息的语义和所述多个样本视频帧的语义是否匹配的准确度。
具体地,视频语义表示模型在训练时的损失函数包括词预测损失和图文匹配损失,其训练目标为最小化词预测损失和图文匹配损失的总和。其中,图文匹配损失用于表征视频语义表示模型预测样本文本信息的语义和多个样本视频帧的语义是否匹配的准确度,该损失可以用于提高视频语义表示模型在判断样本文本信息是否与样本视频帧语义匹配的准确性,有助于从多个样本视频帧中选取与样本文本信息更相关的语义信息,从而提高对样本视频进行语义表示的准确性。词预测损失用于表征视频语义表示模型对样本文本信息中被替换为标签的词的预测结果与样本文本信息中被替换为标签的词之间的差异,该损失可以用于提高视频语义表示模型对文本信息的语义提取能力,有助于提高视频语义表示模型的视频语义表示效果。
基于上述任一实施例,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本进行对比学习得到的,所述对比学习的学习目标为任一样本图片的图片编码结果与所述任一样本图片的描述文本的文本编码结果之间的相似度高于所述任一样本图片的图片编码结果与任一其他样本图片的描述文本的文本编码结果之间的相似度。
具体地,可以使用海量的样本图片及其描述文本对图片编码器和文本编码器进行对比学习。其中,对比学习的学习目标为任一样本图片的图片编码结果与该样本图片的描述文本的文本编码结果之间的相似度高于该样本图片的图片编码结果与任一其他样本图片的描述文本的文本编码结果之间的相似度。假设多个样本图片N1、N2、N3...Nn分别经过图片编码器后生成的图片语义提取结果为I1、I2、I3…In,其对应的描述文本D1、D2、D3...Dn分别经过文本编码器后生成的文本语义提取结果为T1、T2、T3…Tn。随后,可以计算任一图片语义提取结果与任一文本语义提取结果之间的内积作为二者之间的相似度,那么,对比学习的学习目标为Ii*Ti>Ii*Tj(j≠i)。
基于上述任一实施例,所述多个视频帧是对所述待表示视频进行关键帧抽取后得到的。
具体地,为了提取待表示视频中更准确的语义信息,以将该待表示视频与其他视频区分开,可以抽取待表示视频的封面图进行后续的视频语义表示步骤。为了进一步提高视频语义表示的准确性,可以从待表示视频中抽取其中的关键帧,作为后续视频语义表示依据的多个视频帧。其中,关键帧为待表示视频中表达核心关键内容的视频帧,其中包含有待表示视频所要表达的核心内容的语义信息。
下面对本发明提供的视频语义表示装置进行描述,下文描述的视频语义表示装置与上文描述的视频语义表示方法可相互对应参照。
基于上述任一实施例,图2为本发明实施例提供的视频语义表示装置的结构示意图,如图2所示,该装置包括:信息获取单元210、向量提取单元220和多模态融合单元230。
其中,信息获取单元210用于获取待表示视频的视频文本信息和多个视频帧;
向量提取单元220用于分别利用视频语义表示模型的图片编码器和文本编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;
多模态融合单元230用于利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;
其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。
本发明实施例提供的装置,基于样本图片以及样本图片的描述文本,对视频语义表示模型的图片编码器和文本编码器预先进行联合训练,再基于样本视频的样本文本信息和多个样本视频帧进行自监督学习,得到视频语义表示模型,从而利用文本编码器和图片编码器对待表示视频的视频文本信息和多个视频帧进行语义提取,得到视频文本信息的文本语义向量和多个视频帧的帧语义向量,再利用视频语义表示模型的多模态融合器,对文本语义向量和多个视频帧的帧语义向量进行多模态融合,得到待表示视频的视频语义表示,从而提高视频语义表示的精确性。
基于上述任一实施例,多模态融合单元230具体用于:
对所述多个视频帧的帧语义向量进行语义融合,得到帧融合向量;
对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示。
本发明实施例提供的装置,通过对多个视频帧的帧语义向量进行语义融合,得到帧融合向量,再对文本语义向量和帧融合向量进行多模态融合,得到视频语义表示,进一步提高了视频语义表示的精确性。
基于上述任一实施例,所述对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示,具体包括:
基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量;
将所述文本关键语义向量和所述帧关键语义向量进行语义融合,得到所述待表示视频的视频语义表示。
基于上述任一实施例,所述基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量,具体包括:
基于所述多模态融合器的自注意力交互层,对所述文本语义向量进行自注意力变换,得到所述文本语义向量的文本关键语义向量;
基于所述多模态融合器的交叉注意力交互层,对所述文本关键语义向量和所述帧融合向量进行交叉注意力变换,得到所述帧融合向量的帧关键语义向量。
基于上述任一实施例,所述视频语义表示模型的损失函数包括词预测损失和图文匹配损失;
其中,所述词预测损失用于表征所述视频语义表示模型对所述样本文本信息中被替换为标签的词的预测结果与所述样本文本信息中被替换为标签的词之间的差异;
所述图文匹配损失用于表征所述视频语义表示模型预测所述样本文本信息的语义和所述多个样本视频帧的语义是否匹配的准确度。
基于上述任一实施例,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本进行对比学习得到的,所述对比学习的学习目标为任一样本图片的图片编码结果与所述任一样本图片的描述文本的文本编码结果之间的相似度高于所述任一样本图片的图片编码结果与任一其他样本图片的描述文本的文本编码结果之间的相似度。
基于上述任一实施例,所述多个视频帧是对所述待表示视频进行关键帧抽取后得到的。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行视频语义表示方法,该方法包括:获取待表示视频的视频文本信息和多个视频帧;分别利用视频语义表示模型的文本编码器和图片编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的视频语义表示方法,该方法包括:获取待表示视频的视频文本信息和多个视频帧;分别利用视频语义表示模型的文本编码器和图片编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的视频语义表示方法,该方法包括:获取待表示视频的视频文本信息和多个视频帧;分别利用视频语义表示模型的文本编码器和图片编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种视频语义表示方法,其特征在于,包括:
获取待表示视频的视频文本信息和多个视频帧;
分别利用视频语义表示模型的文本编码器和图片编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;
利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;
其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。
2.根据权利要求1所述的视频语义表示方法,其特征在于,所述利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示,具体包括:
对所述多个视频帧的帧语义向量进行语义融合,得到帧融合向量;
对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示。
3.根据权利要求2所述的视频语义表示方法,其特征在于,所述对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示,具体包括:
基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量;
将所述文本关键语义向量和所述帧关键语义向量进行语义融合,得到所述待表示视频的视频语义表示。
4.根据权利要求3所述的视频语义表示方法,其特征在于,所述基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量,具体包括:
基于所述多模态融合器的自注意力交互层,对所述文本语义向量进行自注意力变换,得到所述文本语义向量的文本关键语义向量;
基于所述多模态融合器的交叉注意力交互层,对所述文本关键语义向量和所述帧融合向量进行交叉注意力变换,得到所述帧融合向量的帧关键语义向量。
5.根据权利要求1所述的视频语义表示方法,其特征在于,所述视频语义表示模型的损失函数包括词预测损失和图文匹配损失;
其中,所述词预测损失用于表征所述视频语义表示模型对所述样本文本信息中被替换为标签的词的预测结果与所述样本文本信息中被替换为标签的词之间的差异;
所述图文匹配损失用于表征所述视频语义表示模型预测所述样本文本信息的语义和所述多个样本视频帧的语义是否匹配的准确度。
6.根据权利要求1所述的视频语义表示方法,其特征在于,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本进行对比学习得到的,所述对比学习的学习目标为任一样本图片的图片编码结果与所述任一样本图片的描述文本的文本编码结果之间的相似度高于所述任一样本图片的图片编码结果与任一其他样本图片的描述文本的文本编码结果之间的相似度。
7.根据权利要求1至6任一项所述的视频语义表示方法,其特征在于,所述多个视频帧是对所述待表示视频进行关键帧抽取后得到的。
8.一种视频语义表示装置,其特征在于,包括:
信息获取单元,用于获取待表示视频的视频文本信息和多个视频帧;
向量提取单元,用于分别利用视频语义表示模型的图片编码器和文本编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;
多模态融合单元,用于利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;
其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述视频语义表示方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视频语义表示方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111637372.1A CN113987274A (zh) | 2021-12-30 | 2021-12-30 | 视频语义表示方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111637372.1A CN113987274A (zh) | 2021-12-30 | 2021-12-30 | 视频语义表示方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113987274A true CN113987274A (zh) | 2022-01-28 |
Family
ID=79734933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111637372.1A Pending CN113987274A (zh) | 2021-12-30 | 2021-12-30 | 视频语义表示方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987274A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510585A (zh) * | 2022-02-15 | 2022-05-17 | 北京有竹居网络技术有限公司 | 一种信息表征模型构建方法、信息表征方法 |
CN114970955A (zh) * | 2022-04-15 | 2022-08-30 | 黑龙江省网络空间研究中心 | 基于多模态预训练模型的短视频热度预测方法及装置 |
CN117635784A (zh) * | 2023-12-19 | 2024-03-01 | 世优(北京)科技有限公司 | 三维数字人脸部动画自动生成系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581510A (zh) * | 2020-05-07 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 分享内容处理方法、装置、计算机设备和存储介质 |
CN111767461A (zh) * | 2020-06-24 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
WO2021169209A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种基于语音及图像特征的异常行为识别方法、装置及设备 |
CN113762052A (zh) * | 2021-05-13 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 视频封面提取方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-12-30 CN CN202111637372.1A patent/CN113987274A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021169209A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种基于语音及图像特征的异常行为识别方法、装置及设备 |
CN111581510A (zh) * | 2020-05-07 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 分享内容处理方法、装置、计算机设备和存储介质 |
CN111767461A (zh) * | 2020-06-24 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN113762052A (zh) * | 2021-05-13 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 视频封面提取方法、装置、设备及计算机可读存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510585A (zh) * | 2022-02-15 | 2022-05-17 | 北京有竹居网络技术有限公司 | 一种信息表征模型构建方法、信息表征方法 |
CN114510585B (zh) * | 2022-02-15 | 2023-11-21 | 北京有竹居网络技术有限公司 | 一种信息表征模型构建方法、信息表征方法 |
CN114970955A (zh) * | 2022-04-15 | 2022-08-30 | 黑龙江省网络空间研究中心 | 基于多模态预训练模型的短视频热度预测方法及装置 |
CN114970955B (zh) * | 2022-04-15 | 2023-12-15 | 黑龙江省网络空间研究中心 | 基于多模态预训练模型的短视频热度预测方法及装置 |
CN117635784A (zh) * | 2023-12-19 | 2024-03-01 | 世优(北京)科技有限公司 | 三维数字人脸部动画自动生成系统 |
CN117635784B (zh) * | 2023-12-19 | 2024-04-19 | 世优(北京)科技有限公司 | 三维数字人脸部动画自动生成系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112164391B (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN111767461B (zh) | 数据处理方法及装置 | |
CN104735468B (zh) | 一种基于语义分析将图像合成新视频的方法及系统 | |
CN113987274A (zh) | 视频语义表示方法、装置、电子设备和存储介质 | |
CN110083729B (zh) | 一种图像搜索的方法及系统 | |
CN112738556B (zh) | 视频处理方法及装置 | |
CN111428025B (zh) | 文本摘要方法、装置、电子设备和存储介质 | |
CN112364204A (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN116956920A (zh) | 一种多任务协同表征的多模态命名实体识别方法 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN117093600A (zh) | 搜索提示词的生成方法、装置、电子设备及存储介质 | |
CN115269781A (zh) | 模态关联度预测方法、装置、设备、存储介质及程序产品 | |
CN114398505A (zh) | 目标词语的确定方法、模型的训练方法、装置及电子设备 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
CN117253239A (zh) | 融合版面信息的端到端文档图像翻译方法及装置 | |
CN111831829A (zh) | 一种面向开放域的实体关系抽取方法、装置及终端设备 | |
CN116340479A (zh) | 知识库的构建方法、数据检索方法、装置和云设备 | |
Koorathota et al. | Editing like humans: a contextual, multimodal framework for automated video editing | |
CN116434000A (zh) | 模型训练及物品分类方法、装置、存储介质及电子设备 | |
CN116977887A (zh) | 视频时效分类模型训练方法和视频时效分类方法 | |
CN113869518A (zh) | 视觉常识推理方法、装置、电子设备及存储介质 | |
CN116150428B (zh) | 视频标签获取方法、装置、电子设备及存储介质 | |
CN116702094B (zh) | 一种群体应用偏好特征表示方法 | |
Wang et al. | RSRNeT: a novel multi-modal network framework for named entity recognition and relation extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220128 |
|
RJ01 | Rejection of invention patent application after publication |