CN115293348A - 一种多模态特征提取网络的预训练方法及装置 - Google Patents

一种多模态特征提取网络的预训练方法及装置 Download PDF

Info

Publication number
CN115293348A
CN115293348A CN202210974121.0A CN202210974121A CN115293348A CN 115293348 A CN115293348 A CN 115293348A CN 202210974121 A CN202210974121 A CN 202210974121A CN 115293348 A CN115293348 A CN 115293348A
Authority
CN
China
Prior art keywords
video
feature
text
sub
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210974121.0A
Other languages
English (en)
Inventor
曹蒙
杨田雨
翁俊武
张粲
王珏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210974121.0A priority Critical patent/CN115293348A/zh
Publication of CN115293348A publication Critical patent/CN115293348A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Abstract

本申请涉及数据处理技术领域,可应用于车载场景,尤其涉及一种多模态特征提取网络的预训练方法及装置,该方法为:在基于一批训练样本进行的一轮训练过程中,基于所述多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征,并基于所述目标模态对应的局部映射子特征之间的时序关系,生成重构特征一个重构特征,以及基于目标模态的重构特征的目标模态特征与各个其他候选模态特征的相似性关系计算的损失值,调整网络参数。这样,不仅能够训练多模态特征提取网络提取更具时间敏感性的特征,还能够训练提取出不同模态的深层次特征,并能够提高训练后的多模态特征提取网络在下游任务中的适配性。

Description

一种多模态特征提取网络的预训练方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种多模态特征提取网络的预训练方法及装置。
背景技术
目前,在基于多模态特征执行具体的视频处理任务之前,通常需要先对基础的多模态特征提取网络进行预训练,再基于预训练后的多模态特征提取网络和具体的视频处理任务构建任务处理模型,以及采用微调训练后的任务处理模型,执行相应的视频处理任务。
相关技术下,在对多模态特征提取网络进行预训练时,通常采用遮挡部分特征,并基于剩余特征进行重构学习的方式,实现自监督训练。
然而,当前的预训练方式中,在预训练多模态特征提取网络时,仅能整体上粗粒度地建立不同模态数据之间的基本约束,而无法细粒度地约束不同模态数据之间深层次的对应关系,使得预训练得到的多模态特征提取网络无法实现对于视频相关的多模态特征的有效提取。
发明内容
本申请实施例提供一种多模态特征提取网络的预训练方法及装置,用以约束多模态特征提取网络提取多模态特征之间深层次的对应关系,提取有效的多模态特征。
本申请实施例提供的具体技术方案如下:
第一方面,提出一种多模态特征提取网络的预训练方法,包括:
获取训练样本集合,其中,每个训练样本包含不同模态的至少两种样本素材,一种模态对应多媒体数据的一种媒体形式;
采用所述训练样本集合,对预设的多模态特征提取网络进行多轮迭代预训练,其中,在基于一批训练样本进行一轮迭代过程中,执行以下操作:
基于所述多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征,其中,每个候选模态特征包括:一种模态的样本素材的整体映射子特征,以及拆分所述一种模态的样本素材后得到的至少一个局部映射子特征;
从所述多种候选模态中选定目标模态,并基于所述目标模态对应的局部映射子特征之间的时序关系,分别生成每个局部映射子特征对应的重构特征;
基于所述目标模态对应的目标模态特征和至少一个重构特征,与各个其他候选模态特征之间的相似性关系,计算损失值,并基于所述损失值调整所述多模态特征提取网络的网络参数。
可选的,还包括:
将获取的待检索文本信息输入已训练的目标视频检索模型,获得所述目标视频检索模型输出的检索结果;
将所述检索结果指示的视频信息,确定为所述待检索文本信息对应的视频信息。
可选的,还包括:
基于预训练后的多模态特征提取模型,构建视频问答模型,并获取针对所述视频检索模型构建的问答样本集合,其中,一条问答样本中包括一个视频帧序列、提问文本信息,以及答复文本标签;
采用所述问答样本集合对所述视频问答模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:
将视频帧序列和提问文本信息输入所述视频问答模型,得到输出的预测答复文本,并基于所述预测答复文本和答复文本标签之间的信息差异,调整模型参数。
可选的,还包括:
将获取的待提问视频帧序列和提问文本信息输入已训练的目标视频问答模型,获得所述目标视频问答模型输出的答复文本信息;
基于所述答复文本信息,确定所述待提问视频帧序列的内容中表征的,与所述提问文本信息对应的答复结果。
第二方面,提出一种多模态特征提取网络的预训练装置,包括:
获取单元,用于获取训练样本集合,其中,每个训练样本包含不同模态的至少两种样本素材,一种模态对应多媒体数据的一种媒体形式;
训练单元,用于采用所述训练样本集合,对预设的多模态特征提取网络进行多轮迭代预训练,其中,在基于一批训练样本进行一轮迭代过程中,执行以下操作:
基于所述多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征,其中,每个候选模态特征包括:一种模态的样本素材的整体映射子特征,以及拆分所述一种模态的样本素材后得到的至少一个局部映射子特征;
从所述多种候选模态中选定目标模态,并基于所述目标模态对应的局部映射子特征之间的时序关系,分别生成每个局部映射子特征对应的重构特征;
基于所述目标模态对应的目标模态特征和至少一个重构特征,与各个其他候选模态特征之间的相似性关系,计算损失值,并基于所述损失值调整所述多模态特征提取网络的网络参数。
可选的,所述至少两种样本素材包括视频帧序列及关联的文本信息,所述多模态特征提取网络中包括视频模态特征提取子网络和文本模态特征提取子网络;
所述基于所述多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征时,所述训练单元用于:
基于所述视频模态特征提取子网络,分别对每个视频帧序列进行特征提取,得到相应的视频模态特征;
基于所述文本模态特征提取子网络,分别对每个视频帧序列关联的文本信息进行特征提取,得到相应的文本模态特征。
可选的,所述基于所述视频模态特征提取子网络,分别对每个视频帧序列进行特征提取,得到相应的视频模态特征时,所述训练单元用于:
基于所述视频模态特征提取子网络,对每个视频帧序列进行特征提取,获得所述视频帧序列对应的视频整体映射子特征;
获取对应拆分后的所述视频帧序列得到的至少一个视频局部映射子特征,其中,每个视频局部映射子特征对应由所述视频帧序列拆分得到的一个视频帧序列子段;
将所述视频整体映射子特征和所述至少一个视频局部映射子特征确定为相应的视频模态特征。
可选的,所述基于所述文本模态特征提取子网络,分别对每个视频帧序列关联的文本信息进行特征提取,得到相应的文本模态特征时,所述训练单元用于:
基于所述文本模态特征提取子网络,针对每个视频帧序列关联的文本信息进行特征提取,获得对应的文本整体映射子特征;
获取对应拆分后的文本信息得到的至少一个文本局部映射子特征,其中,每个文本局部映射子特征对应由所述文本信息拆分得到的一个文本子信息;
将所述文本整体映射子特征和所述至少一个文本局部映射子特征确定为相应的文本模态特征。
可选的,所述目标模态为视频模态;所述基于所述目标模态对应的局部映射子特征之间的时序关系,分别生成每个局部映射子特征对应的重构特征时,所述训练单元用于:
针对每个视频局部映射子特征,根据与所述视频局部映射子特征之间满足时序位置约束条件的一个其他视频局部映射子特征,生成所述视频局部映射子特征的重构特征。
可选的,所述目标模态为视频模态,所述基于所述目标模态对应的目标模态特征和至少一个重构特征,与各个其他候选模态特征之间的相似性关系,计算损失值时,所述训练单元用于:
基于每个视频模态特征中的视频整体映射子特征,与各个文本模态特征中的文本整体映射子特征之间的相似性关系,计算第一比对子损失;
基于每个视频模态特征中的视频局部映射子特征,与各个文本模态特征中文本局部映射子特征之间的相似性关系,计算第二比对子损失;
基于每个重构特征,与所述文本模态特征中文本局部映射子特征之间的相似性关系,计算第三比对子损失,并基于所述第一比对子损失、第二比对子损失,以及所述第三比对子损失,计算损失值。
可选的,所述基于每个视频模态特征中的视频局部映射子特征,与各个文本模态特征中文本局部映射子特征之间的相似性关系,计算第二比对子损失时,所述训练单元用于:
针对每个视频局部映射子特征,在与所述视频局部映射子特征归属于相同训练样本的至少一个文本局部映射子特征中,确定相似性关系满足第一约束条件的K个参考文本局部映射子特征,其中,K为正整数;
基于每个视频局部映射子特征与对应的K个参考文本局部映设子特征之间的相似性关系,以及每个视频局部映射子特征与各个文本模态特征中包括的文本局部映射子特征之间的相似性关系,计算第二比对子损失。
可选的,所述基于每个重构特征,与所述文本模态特征中文本局部映射子特征之间的相似性关系,计算第三比对子损失时,所述训练单元用于:
针对每个重构特征,确定与所述重构特征对应相同时序位置的视频局部映射子特征,并在与所述视频局部映射子特征归属相同训练样本的文本局部映射子特征中,确定相似性关系满足第二约束条件的M个目标文本局部映射子特征,其中,M是正整数;
基于每个重构特征与对应的M个目标文本局部映设子特征之间的相似性关系,以及每个重构特征与各个文本模态特征中包括的文本局部映射子特征之间的相似性关系,计算第三比对子损失。
可选的,所述装置还包括第一微调单元,所述第一微调单元用于:
基于预训练后的多模态特征提取网络,构建视频定位模型,并获取针对所述视频定位模型构建的定位样本集合;定位样本中包括视频帧序列、定位文本,及基于所述定位文本在所述视频帧序列中定位的时间段标签;
采用所述定位训练样本集合对所述视频定位模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:
将视频帧序列和定位文本信息输入所述视频定位模型,得到预测时间段,并基于所述预测时间段和时间段标签之间的信息差异,调整模型参数。
可选的,所述第一微调单元还用于:
将获取的待定位视频帧序列和目标定位文本,输入已训练的目标视频定位模型,获得所述目标时序定位模型输出的定位时间段;
基于所述定位时间段,确定所述目标定位文本描述的内容,在所述待定位视频帧序列中出现时的时间信息。
可选的,所述装置还包括第二微调单元,所述第二微调单元用于:
基于预训练后的多模态特征提取模型,构建视频检索模型,并获取针对所述视频检索模型构建的检索样本集合,其中,检索样本中包括文本信息和检索结果标签;
采用所述检索样本集合对所述视频检索模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:
将文本信息输入所述视频检索模型,得到预测检索结果,并基于所述预测检索结果和检索结果标签之间的文本信息差异,调整模型参数。
可选的,所述第二微调单元还用于:
将获取的待检索文本信息输入已训练的目标视频检索模型,获得所述目标视频检索模型输出的检索结果;
将所述检索结果指示的视频信息,确定为所述待检索文本信息对应的视频信息。
可选的,所述装置还包括第三微调单元,所述第三微调单元用于:
基于预训练后的多模态特征提取模型,构建视频问答模型,并获取针对所述视频检索模型构建的问答样本集合,其中,一条问答样本中包括一个视频帧序列、提问文本信息,以及答复文本标签;
采用所述问答样本集合对所述视频问答模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:
将视频帧序列和提问文本信息输入所述视频问答模型,得到输出的预测答复文本,并基于所述预测答复文本和答复文本标签之间的信息差异,调整模型参数。
可选的,所述第三微调单元还用于:
将获取的待提问视频帧序列和提问文本信息输入已训练的目标视频问答模型,获得所述目标视频问答模型输出的答复文本信息;
基于所述答复文本信息,确定所述待提问视频帧序列的内容中表征的,与所述提问文本信息对应的答复结果。
第三方面,提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面中任一项所述的多模态特征提取网络的预训练方法。
第四方面,提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的多模态特征提取网络的预训练方法。
第五方面,提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的多模态特征提取网络的预训练方法。
本申请有益效果如下:
本申请实施例提出了多模态特征提取网络的预训练方法及装置。先获取包括多种不同模态的样本素材的训练样本集合,然后,采用训练样本集合对多模态特征提取网络进行多轮迭代训练。在基于一批训练样本对多模态特征提取网络进行一轮训练的过程中,基于多模态特征提取网络提供的多种候选模态,分别对每个训练样本中包括的样本素材进行特征提取,得到每种样本素材对应的整体映射子特征和至少一个局部映射子特征;进而在从多种候选模态中选定目标模态后,并基于所述目标模态对应的局部映射子特征之间的时序关系,分别生成每个局部映射子特征对应的重构特征;之后,基于目标模态对应的整体映射子映射、至少一个局部映射子特征,以及至少一个重构特征,与各个其他候选模态对应的整体映射子特征和至少一个局部映射子特征之间的相似性关系,计算损失值,并基于损失值调整网络参数。
这样,在对多模态特征提取网络进行预训练,调整网络参数的过程中,不仅考量了粗粒度的整体映射子特征之间的相似性关系,还考量细粒度的局部映射子特征之间的相似性关系,而且根据目标模态对应的局部映射子特征之间的时序关系,重新生成了局部映射子特征对应的重构特征,相当于在预训练阶段引入了时间敏感特征;因而不仅能够训练多模态特征提取网络提取更具时间敏感性的特征,还能够训练提取出不同模态的深层次特征,故能够实现对多模态特征的有效提取,有助于提高不同模态特征的提取效果,提高预训练阶段的训练效率,并能够提高训练后的多模态特征提取网络在下游任务中的适配性,另外,能够协助降低下游微调任务的训练复杂度,保障下游任务的有效进行。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本申请实施例中应用场景示意图;
图2A为本申请实施例中多模态特征提取网络的预训练流程示意图;
图2B为本申请实施例中对多模态特征提取网络执行一轮预训练的流程示意图;
图2C为本申请实施例中基于多模态特征提取网络获取候选模态特征的流程示意图;
图2D为本申请实施例中计算损失值的流程示意图;
图3为本申请实施例中多模态特征提取网络的预训练过程示意图;
图4为本申请实施例中视频定位模型的结构示意图;
图5为本申请实施例中视频问答模型的结构示意图;
图6为本申请实施例中一种多模态特征提取网络的预训练装置的逻辑结构示意图;
图7为本申请实施例的一种电子设备的一个硬件组成结构示意图;
图8为本申请实施例中的一个计算装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够在除了这里图示或描述的那些以外的顺序实施。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
模态(Modality):每一种信息的来源或者形式,都可以称为一种模态,或者说,一种模态对应多媒体数据的一种媒体形式。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介有语音、视频、文本等。本申请实施例中,基于多模态特征提取网络能够提取多种候选模态的候选模态特征,提取的多种候选模态特征包括但不限于视频模态特征和文本模态特征,其中,视频模态特征是基于视频帧序列提取得到的,文本模态特征是基于文本信息提取得到的。
视频定位模型:在应用过程中,能够基于未修剪的视频帧序列和定位文本,得到定位时间段,其中,定位时间段是指视频帧序列中与定位文本匹配的视频内容所对应的起止时间,另外,视频定位模型针对未修剪的视频进行处理的原因在于:保障视频帧序列中各个视频帧之间的内容连贯性,使得能够在视频帧序列中确定与定位文本内容匹配的视频帧段所对应的起止时间。
视频检索模型:在应用过程中,能够基于获得的文本信息,分析确定与文本信息相关的视频信息,例如,接收相关对象发送的一段文本描述信息后,能够分析确定与文本描述信息最相关的视频,并将确定的视频反馈给相关对象。
视频问答模型:在应用过程中,能够基于获得的视频帧序列和提问文本信息,处理输出与该提问文本信息对应的答复文本,例如,相关对象在浏览视频后,可以根据展示的视频,上传一个提问文本信息,借助于视频问答模型能够根据视频内容自动回答相关对象上传的自然语言问题,得到对应的答复结果。
下面对本申请实施例的设计思想进行简要介绍:
目前,在基于多模态特征执行具体的视频处理任务之前,通常采用预训练-微调训练(pretrain-fine tune)的范式,先通过对多模态特征提取网络进行预训练,训练多模态特征提取网络对于多种模态特征的提取能力;然后,针对具体的视频处理任务,基于预训练后的多模态特征提取网络构建相应的任务处理模型;进而采用微调训练后的任务处理模型,执行具体的视频处理任务。
相关技术下,对多模态特征提取模型进行预训练时,可以借助于“遮挡特征并还原”的任务进行预训练,即,通过遮挡部分输入特征,重构被遮挡的部分,使得多模态特征提取网络内部能够感知不同模态特征之间的交互。
然而,相关技术下的预训练方式,仅能够从仅能整体上粗粒度地建立不同模态数据之间的基本约束。例如,对于能够提取视频模态特征和文本模态特征的多模态特征提取网络而言,在基于视频帧序列和文本信息进行预训练时,仅能够从视频帧序列对应的整体映射特征,以及文本信息对应的整体映射特征入手,基于两种整体特征建立约束关系。
这样,无法细粒度地约束不同模态数据之间深层次的对应关系,使得预训练得到的多模态特征提取网络无法实现对于视频相关的多模态特征的有效提取,因而预训练后的多模态特征提取网络无法在后续的微调训练时,快速得到预期的任务处理模型,进而无法保障下游处理任务的有效进行,其中,任务处理模型是基于预训练后的多模态特征提取网络构建的。
有鉴于此,本申请实施例提出了多模态特征提取网络的预训练方法及装置。先获取包括多种不同模态的样本素材的训练样本集合,然后,采用训练样本集合对多模态特征提取网络进行多轮迭代训练。在基于一批训练样本对多模态特征提取网络进行一轮训练的过程中,基于多模态特征提取网络提供的多种候选模态,分别对每个训练样本中包括的样本素材进行特征提取,得到每种样本素材对应的整体映射子特征和至少一个局部映射子特征;进而在从多种候选模态中选定目标模态后,基于目标模态对应的至少一个局部映射子特征,获取相应的至少一个重构特征;之后,基于目标模态对应的整体映射子映射、至少一个局部映射子特征,以及至少一个重构特征,与各个其他候选模态对应的整体映射子特征和至少一个局部映射子特征之间的相似性关系,计算损失值,并基于损失值调整网络参数。
这样,在对多模态特征提取网络进行预训练,调整网络参数的过程中,不仅考量了粗粒度的整体映射子特征之间的相似性关系,还考量细粒度的局部映射子特征之间的相似性关系,而且根据目标模态对应的局部映射子特征之间的时序关系,重新生成了局部映射子特征对应的重构特征,相当于在预训练阶段引入了时间敏感特征;因而不仅能够训练多模态特征提取网络提取更具时间敏感性的特征,还能够训练提取出不同模态的深层次特征,故能够实现对多模态特征的有效提取,有助于提高不同模态特征的提取效果,提高预训练阶段的训练效率,并能够提高训练后的多模态特征提取网络在下游任务中的适配性,另外,能够协助降低下游微调任务的训练复杂度,保障下游任务的有效进行。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例及实施例中的特征可以相互组合。
参阅图1所示,为本申请实施例中应用场景示意图。该应用场景示意图中包括终端设备110和服务设备120。
在一种可选的实施方式中,终端设备110与服务设备120之间可以采用有线网络或无线网络,通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端设备110(包括终端设备1101、1102…110n),是相关对象所能够直接操作的设备,根据实际的处理需要,终端设备110中可能安装有能够在不同场景下实现不同功能的至少一个目标应用,本申请实施例中涉及到的目标应用可以是需要安装在客户端上才能够使用的客户端应用,如客户端应用程序,也可以是依附在某些应用中的小程序,网页等应用,不需要下载安装即可以搜索使用。终端设备110具体可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端,飞行器等,并不局限于此。
服务设备120,可以是目标应用对应的后台服务器,能够接收相关对象基于客户端上的目标应用上传的数据,并能够借助于微调训练得到的处理模型,实现对于各种视频任务的处理。服务设备120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例中涉及到的终端设备110和服务设备120之间的交互,具体可以应用在视频定位的场景中,此时,终端设备110中安装有能够实现多模态信息上传功能的应用程序或者小程序,使得相关对象在终端设备110能够将自行拍摄或者获取的视频帧序列,以及编辑的文本信息(或者由语音转换得到的文本信息)上传至服务设备120,在服务设备120基于获取的视频帧序列和文本信息完成定位后,获取服务设备120基于该文本信息在视频帧序列中确定的定位时间段。
终端设备110和服务器之间的交互还可以应用在视频检索相关的任务中,终端设备110中安装有能够实现视频检索的应用,使得相关对象在终端设备110能够上传文本信息至服务设备120,并在服务设备120基于文本信息检索确定相关的视频后,获取服务设备120反馈的视频信息。
终端设备110和服务器之间的交互还可以应用在视频问答相关的任务中,终端设备110中安装有实现视频问答的应用,使得相关对象在终端设备110能够指定需要提问的视频,并上传提问文本至服务设备120,在服务设备120基于该需要提问的视频和提问文本获得答复结果后,获取服务设备120处理后的答复结果,其中,指定需要提问的视频的方式可以是,上传提问所针对的视频帧序列,或者,上传能够具体确定视频帧序列的视频信息,如,上传电视剧的名称、集数和对应的时间信息,又如,上传新闻视频的标题、来源,以及发布时间。
特殊的,在一些可能的实施例中,相关视频任务的处理也可以只涉及到服务设备120或者只涉及到终端设备110,服务设备120可以基于本地数据,采用经过预训练和微调训练后得到的相关任务处理模型,针对性地进行任务处理;在终端设备110具有很强的处理能力的情况下,可以安装有实现视频任务处理的相关任务处理模型,并借助于任务处理模型实现针对性的任务处理。
本申请实施例中,在进行具体的任务处理之前,需要对能够进行特征提取的多模态特征提取网络进行预训练;进而根据任务处理需要,基于预训练后的多模态特征提取网络构建任务处理模型,进而对任务处理模型进行微调训练,得到训练后的任务处理模型;之后借助于任务处理模型实现具体的任务处理。
需要说明的是,本申请实施例中,实现对多模态特征提取网络进行预训练的处理设备可以是服务设备120,或者,某个终端设备110。本申请以下的描述中,将从处理设备的角度,示意性的说明多模态特征提取模型的预训练过程,其中,根据本申请不同的应用场景,处理设备可能具体对应图1中示意的终端设备110或者服务设备120,本申请不做具体限制。
参阅图2A所示,为本申请实施例中多模态特征提取网络的预训练流程示意图,下面结合附图2A,对本申请实施例中多模态特征提取网络的预训练过程进行说明:
步骤201:处理设备获取训练样本集合,其中,每个训练样本包含不同模态的至少两种样本素材,一种模态对应多媒体数据的一种媒体形式。
本申请实施例中,处理设备在对多模态特征提取网络进行预训练之前,先确定多模态特征提取网络能够提取的至少两种候选模态特征,进而针对性地构建能够实现对至少两种候选模态数据进行特征提取的多模态特征提取网络,然后根据对于不同模态特征的提取需要,获取相应模态的样本素材,再根据获取的至少两种样本素材,构建训练样本集合,其中,一种模态对应多媒体数据的一种媒体形式。
需要说明的是,多媒体数据中包括的媒体形式通常为视频模态、音频模态,以及文本模态,考虑到对于音频模态和文本模态而言,可以将音频模态转换为文本模态处理,因此针对多媒体数据构建的多模态特征提取网络中至少具有视频特征提取功能和文本特征提取功能,换言之,多模态特征提取网络中至少包括有视频模态特征提取子网络和文本模态特征提取子网络。本申请实施例中,视频模态的样本素材具体对应视觉上的各个图像数据,以视频帧序列的形式呈现;文本模态的样本素材具体对应以文字形式存在的数据,如,文本信息。
本申请实施例中,一个训练样本中包括的视频帧序列和文本信息之间存在关联关系,文本信息可能是以下信息中的任意一项或组合:
1、用于描述视频帧序列中包括的内容的文本语句。
例如,一个训练样本中包括一段打高尔夫球的视频帧序列,以及包括对打高尔夫求时的动作进行讲解的文本。
2、视频帧序列对应的字幕语句。
例如,一个训练样本中包括一段电影的视频帧序列,以及在该视频帧序列中的字幕语句。
3、与视频帧序列归属的多媒体数据相关的文本语句。
例如,一个训练样本中包括一段电影的视频帧序列,以及与该电影相关的文本,其中,相关的文本包括但不限于描述电影名字、主演名、导演名等信息。
又例如,一个训练样本中包括一个电影的宣传片,与该宣传片对应的文本为:由A导演指导拍摄,B演员和C演员联合参演的电影《XX》将于2月26日上映。
本申请实施例中,在构建多模态特征提取网络时,可以预先选择不同结构的视频骨干网络,作为视频模态特征提取子网络,以及选择提取文本模态特征的文本骨干网络,作为文本模态特征提取子网络;进而,分别将每种视频模态特征提取子网络与文本模态特征提取子网络相组合,构建相应的多模态特征提取网络,其中,视频骨干网络的网络结构可以是基于卷积神经网络(ConvolutionalNeuralNetworks,CNN)的卷积3D神经网络(Convolutional 3D Neural Networks,C3D)、双流膨胀3D卷积(I3D)卷积神经网络、视觉几何群网络(Visual Geometry Group Network,VGG)、时域和空间域分离卷积(separable 3DCNN,S3D)网络,或者,基于视觉转换(Vision Transformer-Base,ViT-Base)网络。对于文本模态特征提取子网路,可以采用基于transformer的双向编码器(Bidirectional EncoderRepresentations from Transformers,BERT)网络或者BERT的各种变体网络构建,如,可以采用轻量级的蒸馏模型(DistilBERT)构建。
进而分别对构建的每种多模态特征提取网络进行预训练,以综合比对各多模态特征提取网络的处理性能,并选择性能最好的多模态特征提取网络参与下游处理。
例如,可以分别构建C3D+DistilBERT结构的多模态特征提取网络、I3D+DistilBERT结构的多模态特征提取网络、VGG+DistilBERT结构的多模态特征提取网络、S3D+DistilBERT结构的多模态特征提取网络,以及基于Transformer的ViT-Base+DistilBERT结构的多模态特征提取网络。
另外,需要说明的是,本申请实施例中采用基于Transformer的ViT-Base作为文本模态特征提取子网络,而非采用相关技术下常用的GloVe网络,使得能够规避GloVe网络无法与其他网络进行联合优化的缺陷,本申请实施例中借助于联合优化不同模态特征提取子网络的方式,能够实现对网络综合处理性能的提升。
步骤202:处理设备采用训练样本集合,对预设的多模态特征提取网络进行多轮迭代预训练。
本申请实施例中,处理设备构建多模态特征提取网络,以及获取训练样本集合后,采用训练样本集合对构建的多模态特征提取网络进行多轮迭代预训练,直至满足预设的收敛条件为止,得到完成预训练后的多模态特征提取网络,其中,预设的收敛条件可以是迭代训练轮数达到设定阈值,采用一批训练样本执行的自监督训练,称为一轮训练,一轮训练的结束条件可以使用相关技术下自监督训练过程中的实现方式,本申请不做具体限定。
下面结合附图,以多模态特征提取网络中包括视频模态特征提取子网络和文本模态特征提取子网络,以及一个训练样本中包括的至少两种样本素材为视频帧序列及关联的文本信息为例,对一轮迭代训练过程中执行的操作进行详细说明:
参阅图2B所示,其为本申请实施例中对多模态特征提取网络执行一轮预训练的流程示意图,下面结合附图2B,对一轮迭代预训练过程中执行的操作进行具体说明:
步骤2021:处理设备基于多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征。
本申请实施例中,在多模态特征提取网络中包括视频模态特征提取子网络和文本模态特征提取子网络的情况下,多模态特征提取网络提供的多种候选模态包括视频模态和文本模态,处理设备借助于多模态特征提取网络中的不同模态特征提取子网络,针对一批训练样本内每个训练样本中的不同样本素材,分别进行特征提取操作,获得相应候选模态的候选模态特征,其中,每个候选模态特征包括:一种模态的样本素材的整体映射子特征,以及拆分一种模态的样本素材后得到的至少一个局部映射子特征。
需要说明的是,本申请实施例中,对于视频模态特征提取子网络和文本模态特征提取子网络而言,子网络的内部具有将输入内容进行拆分的能力,并能够对应输入内容整体,以及拆分后的输入内容的各部分,分别映射得到对应的特征。
参阅附图2C所示,其为本申请实施例中基于多模态特征提取网络获取候选模态特征的流程示意图,下面结合附图2C,对获取候选模态特征的过程进行说明:
步骤2021-a:处理设备基于视频模态特征提取子网络,分别对每个视频帧序列进行特征提取,得到相应的视频模态特征。
本申请实施例中,在一轮预训练过程中,将一批训练样本输入多模态特征提取网络后,对于视频模态特征的提取而言,处理设备基于多模态特征提取网络中的视频模态特征提取子网络,分别对每个训练样本中的视频帧序列进行特征提取,得到相应的视频模态特征。
具体的,处理设备基于视频模态特征提取子网络,对每个视频帧序列进行特征提取,获得视频帧序列对应的视频整体映射子特征;再获取对应拆分后的该视频帧序列得到的至少一个视频局部映射子特征,其中,每个视频局部映射子特征对应由该视频帧序列拆分得到的一个视频帧序列子段;之后,将视频整体映射子特征和至少一个视频局部映射子特征确定为相应的视频模态特征。
需要说明的是,在视频模态特征提取子网络的内部,能够对视频帧序列进行拆分,得到至少一个视频帧序列子段,其中,由于本申请实施例中,视频模态特征提取子网络是基于相关技术下已有的网络结构构建的,因此,视频模态特征提取子网络内部对于视频帧序列的拆分,与相关技术下算法内部的处理方式相同,本申请在此将不做过多说明。
本申请实施例中,对应每个训练样本中的视频帧序列,能够得到一个与视频帧序列对应的视频整体映射子特征,以及与拆分视频帧序列得到的至少一个视频帧序列子段各自对应的视频局部映射子特征。
这样,借助于视频模态特征提取子网络能够对应视频帧序列,从整体上提取整体映射子特征,并能够对应细粒度的视频帧序列子段,提取得到局部映射子特征,使得能够更针对视频帧序列进行更全面的特征考量,得到更全面更细节的视频模态特征。
步骤2021-b:处理设备基于文本模态特征提取子网络,分别对每个视频帧序列关联的文本信息进行特征提取,得到相应的文本模态特征。
本申请实施例中,在一轮预训练过程中,将一批训练样本输入多模态特征提取网络后,对于文本模态特征的提取而言,处理设备基于多模态特征提取网络中的文本模态特征提取子网络,分别对每个训练样本中视频帧序列关联的文本信息进行特征提取,得到相应的文本模态特征。
具体的,处理设备基于文本模态特征提取子网络,针对每个视频帧序列关联的文本信息进行特征提取,获得对应的文本整体映射子特征;之后,获取对应拆分后的该文本信息得到的至少一个文本局部映射子特征,其中,每个文本局部映射子特征对应由文本信息拆分得到的一个文本子信息;再将文本整体映射子特征和至少一个文本局部映射子特征确定为相应的文本模态特征。
需要说明的是,在文本模态特征提取子网络的内部,能够对文本信息进行拆分,得到至少一个文本子信息,其中,由于本申请实施例中,文本模态特征提取子网络是基于相关技术下已有的网络结构构建的,因此,文本模态特征提取子网络内部对于文本信息的拆分,与相关技术下算法内部的处理方式相同,本申请在此将不做过多说明。
本申请实施例中,对应每个训练样本中的文本信息,能够得到一个与文本信息对应的文本整体映射子特征,以及与拆分文本信息得到的至少一个文本子信息各自对应的文本局部映射子特征。
这样,借助于文本模态特征提取子网络能够对应文本信息,从整体上提取整体映射子特征,并能够对应细粒度的文本子信息,提取得到局部映射子特征,使得能够更针对文本信息进行更全面的特征考量,得到更全面更细节的文本模态特征。
步骤2022:处理设备从多种候选模态中选定目标模态,并基于目标模态对应的局部映射子特征之间的时序关系,分别生成每个局部映射子特征对应的重构特征。
本申请实施例中,在考量的多模态为视频模态和文本模态的情况下,将视频模态选定目标模态,进而根据视频帧序列具有的时序性,针对每个视频局部映射子特征,根据与该视频局部映射子特征之间满足时序位置约束条件的其他视频局部映射子特征,对该视频局部映射子特征进行重构,得到该视频局部映射子特征对应的重构特征,其中,视频局部映射子特征的时序位置,是指与该视频局部映射子特征对应的视频帧序列子段的时序位置。
具体的,处理设备针对每个视频局部映射子特征,根据与该视频局部映射子特征之间满足时序位置约束条件的一个其他视频局部映射子特征,生成视频局部映射子特征的重构特征,其中,是否满足时序位置约束条件是根据每个视频局部映射子特征对应的时序位置,和针对该视频局部映射子特征配置偏移的时间距离确定的;偏移的时间距离是位于一定时间范围内的一个随机数,其具体的取值可以为正值或者负值;若基于一个视频局部映射子特征对应的时序位置和对应该视频局部映射子特征配置偏移的时间距离,确定一个偏移后的时序位置后,确定偏移后的时序位置与另一个视频局部映射子特征相对应,则确定两个视频局部映射子特征之间满足时序位置约束条件。
例如,假设视频局部映射子特征A与视频帧序列子段a相对应,且视频帧序列子段对应的时序位置范围为:T1-T2,Context Warping Head网络中针对视频局部映设子特征生成偏移的时间距离为δ,则假设以初始时序位置T1作为参考,则偏移后的初始时序位置为T1+δ,且确定此时T1+δ属于视频帧序列子段b所对应的时序位置范围内,则可以确定视频帧序列子段b对应的视频局部映射子特征B,与视频局部映射子特征A之间满足时序位置约束条件,可以基于视频局部映射子特征B预测生成视频局部映射子特征A的重构特征。
又例如,假设视频局部映射子特征A和视频局部映射子特征B满足时序位置约束条件,那么,视频局部映射子特征A对应的时序位置可能在视频局部映射子特征B对应的时序位置之前,或者,视频局部映射子特征B对应的时序位置可能在视频局部映射子特征A对应的时序位置之前。
本申请实施例中,在生成重构特征时,可以采用以下公式进行计算:
Zn,T=g(vn,T+δ;δ)=RELU(W[(vn,T+δ),sgn(δ),|δ|])
其中,Zn,T是指重构特征,n用于标识一批训练样本中的一个训练样本,训练样本的总数为N,T表示一个视频帧序列子段对应的时间信息,T+δ表示经过时序偏移后的时间信息,vn,T+δ表征与时间信息T+δ归属的视频帧序列子段所对应的视频局部映射子特征,δ为偏移的时间距离;g()表征上下文映射头(Context Warping Head)模块所对应的处理函数,且g()的输入为:重构时间T归属的视频帧序列子段所对应视频局部映射子特征时,依据的时间T+δ归属的视频帧序列子段所对应的视频局部映射子特征,以及偏移的时间距离δ。
需要说明的是,对于T和T+δ的取值而言,可以根据实际的处理需要,将每段视频帧序列子段的中确定一个时间T和时间距离δ的取值,进而通过偏移的时间距离,确定偏移后的时间T+δ所在的视频帧序列子段,或者,对于T和T+δ的取值而言,可以先在每个视频帧序列子段中确定一个T+δ的取值和δ的取值,进而分别确定时间T所在的视频帧序列子段,其中,不同视频帧序列子段对应的δ取值可能不同。
这样,能够针对每个视频帧序列子段,借助于时序位置在该视频帧序列子段之前或者之后的其他视频帧序列子段的视频局部映射子特征,能够重构得到各个视频序列子段对应的重构特征;并能够借助于配置偏移的时间距离,以及参与重构特征的其他视频帧序列子段对应的视频局部映射子特征,完成重构处理,使得能够在提取的特征中表征出视频模态特征之间的时序位置关系,提高了视频模态特征之间的时间可推导性,更深入的挖掘了视频模态特征的内在关系。
步骤2023:处理设备基于目标模态对应的目标模态特征和至少一个重构特征,与各个其他候选模态特征之间的相似性关系,计算损失值,并基于损失值调整多模态特征提取网络的网络参数。
具体的,处理设备确定目标模态为视频模态,且确定至少一个候选模态为视频模态和文本模态时,处理设备基于视频模态特征和生成的至少一个重构特征,与各个其他候选模态特征之间的相似性关系,计算损失值,其中,本申请实施例中计算得到的损失值有三种,分别为建立视频帧序列-文本级别的基本约束的第一比对子损失、建立了视频帧序列子段-文本子段之间约束的第二比对子损失,以及建立了重构特征-文本子段的文本局部映射子特征之间约束的第三比对子损失。
参阅图2D所示,其为本申请实施例中计算损失值的流程示意图,下面结合附图2D,对本申请实施例中损失值的计算过程进行说明:
步骤2023-a:处理设备基于每个视频模态特征中的视频整体映射子特征,与各个文本模态特征中的文本整体映射子特征之间的相似性关系,计算第一比对子损失。
具体的,处理设备在计算第一比对子损失时,基于视频模态特征提取子网络提取的视频整体映射特征,以及文本模态特征提取子网络提取的文本整体映射特征,建立对于视频帧序列-文本信息级别的基本约束,并引入了一个基本的潜在空间,使得视频模态特征提取子网络和文本模态特征提取子网络提取的特征被映射在同一空间内,进而在该空间内实现视频整体映射子特征与文本整体映射子特征之间的跨模态匹配。
需要说明的是,对于视频模态特征提取子网络和文本模态特征提取子网络而言,在将特征映射到的潜在空间中时,对细粒度的视频帧序列子段和文本子段之间的对应关系进行了先验编码,使得在潜在空间中存在视频帧序列子段和文本子段各自对应的局部映射子特征,其中,视频帧序列子段可以表征视频段(clip),文本子段具体可以表征为单词(word)。
本申请实施例中,在计算第一比对子损失时,可以采用如下公式进行计算:
Figure BDA0003797526580000231
其中,Lh表示计算得到的第一比对子损失,N为一批训练样本的总数,n用于标识一个训练样本;vn表示与训练样本n中的视频帧序列对应的视频整体映射子特征;qn表示与训练样本n中的文本信息对应的文本整体映射子特征;qi表示与训练样本i中的文本信息对应的文本映射子特征,N为一批训练样本总数;τ为温度参数,如,温度参数的取值可以是0.07。
需要说明的是,基于上述公式可以确定的是,第一比对子损失的取值越小,则表征同一样本中文本信息和视频帧序列对应的映射特征之间的相似性越高。
这样,通过建立视频-句子级别的基本约束,在视频整体映射子特征和文本整体映射子特征的层面上进行相似性的计算,使得借助于计算得到的第一比对子损失,能够使得对应相同训练样本中视频帧序列和文本信息分别映射得到的特征,在潜在空间中的相似性升高,并能够降低不同训练样本中视频帧序列和文本信息在潜在空间中的特征相似性,实现不同模态数据之间的跨模态匹配。
步骤2023-b:处理设备基于每个视频模态特征中的视频局部映射子特征,与各个文本模态特征中文本局部映射子特征之间的相似性关系,计算第二比对子损失。
需要说明的是,在建立整体的视频帧序列与文本信息的整体映射子特征对齐的基础上,还可以基于细粒度的特征进行比对学习,即,进行视频帧序列子段与文本子段之间的匹配。在预训练过程中进行的这类对齐学习,旨在降低基于具体的处理任务进行下游微调时的训练难度,适应性地将多模态特征提取网络调整为具有更符合下游任务要求的特征提取能力。
本申请实施例中,处理设备针对每个视频局部映射子特征,在与视频局部映射子特征归属于相同训练样本的至少一个文本局部映射子特征中,确定相似性关系满足第一约束条件的K个参考文本局部映射子特征,其中,K为正整数;之后基于每个视频局部映射子特征与对应的K个参考文本局部映设子特征之间的相似性关系,以及每个视频局部映射子特征与各个文本模态特征中包括的文本局部映射子特征之间的相似性关系,计算第二比对子损失。
具体的,本申请实施例中,在进行细粒度比对学习,计算第二比对子损失之前,需要先从归属于一个训练样本的视频帧序列与文本信息对中,估计出视频帧序列子段与文本子信息之间的对应关系,其中,该对应关系是基于视频模态特征提取子网络和文本模态特征提取子网络在进行特征提取时,对应输入内容整体和拆分后的输入内容分别得到的映射子特征确定的。进而借助于先前特征提取时建立的先验关系,在预建的潜在空间中计算每个视频帧序列子段与其对应的文本子信息之间的余弦相似度,并针对每个视频帧序列的视频局部映射子特征,选择与其最相似的K个文本子信息的文本局部映射子特征,作为与其存在对应关系的参考文本局部映射子特征,即,满足第一约束条件的K个参考文本局部映射子特征,具体可以是与视频局部映射子特征之间相似性最高的K个文本局部映射子特征。
本申请实施例中,在针对每个视频帧序列子段对应的视频局部映射子特征,确定存在对应关系的K个文本局部映射子特征时,可以采用如下公式进行计算:
Figure BDA0003797526580000251
Figure BDA0003797526580000252
其中,
Figure BDA0003797526580000253
表征针对一批训练样本中的训练样本n中视频帧序列子段t对应的K个文本局部映射子特征;vn,t表征训练样本n中视频帧序列子段t对应的视频局部映射子特征,qn,s表征训练样本n中文本子信息s对应的文本局部映射子特征,Sn表征一个文本信息拆分得到的文本子信息总数。
进一步的,可以将每个视频局部映射子特征与其对应的K个文本局部映射子特征作为正样本,即,选定视频帧序列子段和对应的K个文本子信息,作为正样本,其中,负样本是根据当前同批的训练样本中,归属于不同训练样本的视频帧序列子段和文本子信息组成;然后,进行视频帧序列子段和文本子信息之间细粒度的表示学习,得到第二比对子损失。
具体的,本申请在计算第二比对子损失时,可以采用以下公式:
Figure BDA0003797526580000254
其中,Lf表示计算得到的第二比对子损失,K为针对每个视频帧序列子段筛选出的文本子信息总数;vn,t为与训练样本n中视频帧序列中的第t个视频帧序列子段,对应的视频局部映射子特征;
Figure BDA0003797526580000255
表征与vn,t符合相似性关系满足第一约束条件的一个参考文本局部映射子特征;qi,s表征与一批训练样本中任意一个训练样本中的文本信息拆分得到的第s个文本子信息,对应的文本局部映射子特征;N为一批训练样本中包括的训练样本总数;T表示视频帧序列中的视频帧序列子段总数,Sn表示文本信息中的文本子信息总数(如,句子中的单词数)。
需要说明的是,上述计算第二比对子损失的公式仅是在假设每个视频帧序列均被拆分为T段,每个文本信息均被拆分为Sn个文本子信息时进行的示意性表征,根据实际的处理需要,当针对不同视频帧序列设置不同的T值,以及针对不同文本信息设置不同Sn值时,可以对上述公式进行适应性调整,本申请在此不做具体限定。
能够理解的是,基于上述第二比对子损失的计算公式,降低第二比对子损失,则表示增大自监督构建的正样本中视频局部映射子特征和文本局部映射子特征之间的相似性,减小负样本中视频局部映射子特征和文本局部映射子特征之间的相似性。
这样,通过比较视频局部映射子特征与文本局部映射子特征之间的相似性关系,能够实现细粒度的考量不同模态数据之间的深层次关系,因而能够提取出有效表征出不同模态数据之间关系的特征。
步骤2023-c:处理设备基于每个重构特征,与文本模态特征中文本局部映射子特征之间的相似性关系,计算第三比对子损失,并基于第一比对子损失、第二比对子损失,以及第三比对子损失,计算损失值。
本申请实施例中,为了兼顾更多情况的下游处理任务,尤其是对于视频的定位任务,则需要更多考量可定位和时间可推导的视频表征,基于此,本申请利用ContextWarping Head实现对每个视频局部映射子特征的重建,得到对应的重建特征,其中,重建特征的生成过程已经在上述的流程中进行了详细说明,在此将不再赘述。
在计算第三比对子损失时,处理设备针对每个重构特征,确定与该重构特征对应相同时序位置的视频局部映射子特征,并在与该视频局部映射子特征归属相同训练样本的文本局部映射子特征中,确定相似性关系满足第二约束条件的M个目标文本局部映射子特征,其中,M是正整数;然后,基于每个重构特征与对应的M个目标文本局部映设子特征之间的相似性关系,以及每个重构特征与各个文本模态特征中包括的文本局部映射子特征之间的相似性关系,计算第三比对子损失。
具体的,满足第二约束条件的M个目标文本局部映射子特征具体可以是:与视频局部映射子特征之间的相似度最大的M个目标文本局部映射子特征,同理,可以将每个视频局部映射子特征与其对应的M个目标文本局部映射子特征作为正样本,即,选定视频帧序列子段和对应的M个文本子信息,作为正样本,其中,负样本是根据当前同批的训练样本中,归属于不同训练样本的视频帧序列子段和文本子信息组成;然后,进行视频帧序列子段和文本子信息之间细粒度的表示学习,得到第二比对子损失。
其中,目标文本局部映射子特征和步骤2023-b中确定的K个参考文本局部映射子特征,根据实际的处理需要可能对应相同的内容,或者,对应不同的内容,不申请不做具体限制。
本申请实施例中,处理设备计算第三比对子损失时,可以采用如下公式进行计算:
Figure BDA0003797526580000271
Zn,T=g(vn,T+δ;δ)=RELU(W[(vn,T+δ),sgn(δ),|δ|])
其中,Lc表示计算得到的第三比对子损失,M为针对每个视频帧序列子段筛选出的文本子信息总数;
Figure BDA0003797526580000272
表征与vn,t符合相似性关系满足第二约束条件的一个目标文本局部映射子特征;qi,s表征与一批训练样本中任意一个训练样本中的文本信息拆分得到的第s个文本子信息,对应的文本局部映射子特征;N为一批训练样本中包括的训练样本总数;T表示视频帧序列中的视频帧帧序列子段总数,Sn表示文本信息中的文本子信息总数(如,句子中的单词数),Zn,t为针对训练样本n中视频帧序列中的第t个视频帧序列子段,重构预测的重构特征;Zn,T是Zn,t的另一种表示形式,T表征第t个视频帧序列子段对应的时间信息。
能够理解的是,基于上述第三比对子损失的计算公式,降低第三比对子损失,则表示增大自监督构建的正样本中视频局部映射子特征和目标文本局部映射子特征之间的相似性,减小负样本中视频局部映射子特征和文本局部映射子特征之间的相似性。
这样,基于第三比对子损失进行调整时,能够拉近视频局部映设子特征与对应的正样本中目标文本局部映射子特征,强化提取的视频局部映射子特征具有时间推理能力,使得提取的视频模态特征对时间敏感。
进一步的,在计算得到第一比对子损失、第二比对子损失,以及第三比对子损失后,处理设备可以采用预设的权重,将三种子损失进行相加,得到损失值;之后,基于损失值进行反向传播,调整多模态特征提取网络的网络参数,其中,不同子损失对应的权重值根据实际的处理需要设置,本申请不做具体限制,如,可以均取1。
参阅图3所示,其为本申请实施例中多模态特征提取网络的预训练过程示意图,下面结合附图3,对申请提出的预训练方式进行综合说明:
根据图3所示意的,多模态特征提取网络中包括301:文本模态特征提取子网络和302:视频模态特征提取子网络,图3中示意的其他结构是为了实现预训练过程而构建的。
在预训练过程中,将文本模态的样本素材:文本信息输入文本多模态特征提取子网络,以及将视频模态的样本素材:视频帧序列输入视频多模态特征提取子网络,得到映射到指定维度的特征空间(潜在空间)下的文本模态特征和视频模态特征,其中,对应一个文本信息得到的一个文本模态特征中包括文本整体映射子特征和至少一个文本局部映射子特征,对应一个视频帧序列得到的一个视频模态特征中包括视频整体映射特征和至少一个视频局部映射子特征。
进而,计算归属于相同训练样本的视频局部映射子特征与文本局部映射子特征之间的余弦相似度,并基于相似性结果进行排序,得到针对每个视频局部映射子特征筛选的相似度最大的指定数目个文本局部映射子特征;与此同时,采用上下文迁移模块(ContextWarping Head),针对每个视频局部映射子特征,基于时序位置与该视频局部映射子特征之间满足时序位置约束条件的一个其他视频局部映射子特征,重构预测得到该视频局部映射子特征对应的重构特征。
之后,处理设备基于各个训练样本中文本整体映射子特征和视频整体映射子特征之间的相似性关系,计算第一比对子损失,并基于各个训练样本中视频局部映射子特征与文本局部映射子特征之间的相似性关系,计算第二比对子损失,以及基于训练样本对应的重构特征与文本局部映射子特征之间的相似性关系,计算第三比对子损失;在基于第一比对子损失、第二比对子损失,以及第三比对子损失,计算损失值后,基于得到的损失值调整文本模态特征提取子网络和视频模态特征提取子网络的网络参数。
综合而言,本申请公开的方案中,视频模态和文本模态的样本素材分别被送入视频模态特征提取子网络和文本模态特征提取子网络来得到它们各自的特征表示,第一比对子损失构建了全局跨模态对应关系,以同一训练样本中视频整体映射子特征和文本整体映射子特征作为正样本,借助于不同训练样本中的整体映射子特征之间的关系,构建约束关系;第二对比子损失则更侧重构建视频帧序列子段(clip)与文本子信息(word)之间的相关对应关系,其通过构建相似度矩阵的方法,找出对应的正样本clip和word,然后通过使用对比学习损失函数来强化特征的对应关系;第三比对子损失旨在强化视频帧序列所具有的时序位置关系,基于文本局部映射子特征与时间位置有一定偏移量的视频局部映射子特征作为输入,通过一个上下文迁移模块,偏移的视频局部映射子特征被还原为偏移前的视频局部映射子特征,即,重构特征;进而基于重构特征与文本局部映射子特征构建样本对,并基于构建的样本对计算重构特征与文本局部映射子特征之间的相似性情况。
下面结合本申请中几种可能的应用场景,对执行具体的微调任务和执行具体的业务处理过程进行说明:
场景一、视频定位
参阅图4所示,其为本申请实施例中视频定位模型的结构示意图,根据图4所示意的内容可知,在完成多模态特征提取网络的预训练后,结合时间邻接网络(TemporalAdjacent Network),生成视频定位模型;进而基于提取的视频模态特征和文本模态特征,得到在不同时间分类内的得分(score);基于获得的分类得分,使得在输入视频帧序列和句子后,能够在该视频帧序列中确定与该句子描述的内容匹配的视频帧所对应的时间段,换言之,实现对于视频的内容定位。
需要说明的是,图4中示意的二维时间特征图提取(2D Temporal Feature MapExtraction)部分对应预训练后的视频模态特征提取子网络,以及文本编码网络(LanguageEncoding)对应预训练后的文本模态特征提取子网络;对于时间邻接网络(TemporalAdjacent Network)部分而言是新增的网络内容。
处理设备在进行微调训练时,基于预训练后的多模态特征提取网络,构建视频定位模型,并获取针对视频定位模型构建的定位样本集合;定位样本中包括视频帧序列、定位文本,及基于定位文本在视频帧序列中定位的时间段标签;再采用定位训练样本集合对视频定位模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:将视频帧序列和定位文本信息输入视频定位模型,得到预测时间段,并基于预测时间段和时间段标签之间的信息差异,调整模型参数。
具体的,在对视频定位模型进行训练的过程中,先获取定位样本集合,其中,定位样本中包括视频帧序列、定位文本,及基于定位文本在视频帧序列中定位的时间段标签;之后,采用定位样本集合对视频定位模型进行多轮迭代训练,直至满足预设的收敛条件为止,得到训练后的视频定位模型,其中,预设的收敛条件可以是损失值达到第一设定阈值的次数达到第一门限值,或者,训练轮数达到设定值等,第一设定阈值和第一门限值根据实际的处理需要设置,本申请不做具体说明,损失值是基于交叉熵损失函数计算得到的。
这样,能够实现对视频定位模型的有效微调,使得借助于预训练过程中借助于重构特征引入的时间敏感特征,使得多模态特征提取模型提取的视频模态特征更具有时间敏感性,故能够适配于视频定位任务,为视频定位任务提供了能够有效参考的视频模态特征和文本模态特征,提高视频定位模型的训练效率。
进一步的,在基于训练后的目标视频定位模型执行视频定位任务时,处理设备将获取的待定位视频帧序列和目标定位文本,输入已训练的目标视频定位模型,获得目标时序定位模型输出的定位时间段;再基于定位时间段,确定目标定位文本描述的内容,在待定位视频帧序列中出现时的时间信息。
具体的,处理设备获取相关对象的查询文本和被查询的视频帧序列后,借助于目标视频定位模型,对查询文本和视频帧序列进行处理,确定该查询文本所对应的内容在视频帧序列中对应的起止时间,以得到定位时间段。
这样,能够根据相关对象的处理需要,基于查询文本对视频帧序列进行内容定位,确定查询文本描述的内容在视频帧序列中出现的时间。
场景二、视频检索
本申请实施例中,视频检索任务能够在接收相关对象上传的描述文本后,分析确定出与该描述文本最相关的视频,并反馈给相关对象。基于此,本申请在构建视频检索模型时,可以将预训练后的多模态特征提取网络作为视频检索模态中的网络结构,直接进行针对性的微调训练。
在进行微调训练时,处理设备基于预训练后的多模态特征提取模型,构建视频检索模型,并获取针对视频检索模型构建的检索样本集合,其中,检索样本中包括文本信息和检索结果标签;再采用检索样本集合对视频检索模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:将文本信息输入视频检索模型,得到预测检索结果,并基于预测检索结果和检索结果标签之间的文本信息差异,调整模型参数。
需要说明的是,在对视频检索模型进行多轮迭代训练时,当确定满足预设的收敛条件后,得到目标视频检索模型,其中,预设的收敛条件可以与场景一中提出的收敛条件相同,本申请在此不再赘述,在对视频检索模型进行训练时,采用排序损失函数,计算损失值,且在确定与文本最相关的视频时,计算文本模态特征与针对各个视频建立的视频模态特征之间的相似性。
这样,能够实现对于视频检索模型的有效微调,借助于预训练后的具有高提取能力的多模态特征提取网络,能够提高微调阶段的训练效率。
进一步的,在基于训练后的目标视频检索模型执行视频定位任务时,处理设备将获取的待检索文本信息输入已训练的目标视频检索模型,获得目标视频检索模型输出的检索结果;再将检索结果指示的视频信息,确定为待检索文本信息对应的视频信息。
具体的,处理设备可以采用已训练的目标视频检索模型,基于待检索文本信息进行处理,分析确定与该待检索文本信息最匹配的视频。
这样,能够基于相关对象输入的待检索文本信息分析得到最相关的视频,实现基于检索文本的视频查询。
场景三、视频问答
参阅图5所示,其为本申请实施例中视频问答模型的结构示意图,根据图5示意的内容可知,在基于transformer encoder构建多模态特征提取网络,并完成多模态特征提取网络的预训练之后,结合transformer decoder网络构建视频问答模型。
处理设备在进行微调训练时,基于预训练后的多模态特征提取模型,构建视频问答模型,并获取针对视频检索模型构建的问答样本集合,其中,一条问答样本中包括一个视频帧序列、提问文本信息,以及答复文本标签;采用问答样本集合对视频问答模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:将视频帧序列和提问文本信息输入视频问答模型,得到输出的预测答复文本,并基于预测答复文本和答复文本标签之间的信息差异,调整模型参数。
需要说明的是,在对视频问答模型进行训练时,采用交叉熵损失函数计算损失值,并在确定训练满足预设的收敛条件后,停止训练并得到训练后的目标视频问答模型,其中,预设的收敛条件与上述场景一中涉及到的收敛条件相同,在此不再赘述。
这样,能够对基于预训练后的多模态特征提取网络生成的视频问答模型进行有效训练,降低视频问答模型的训练难度,能够提高视频问答模型的训练效果。
进一步的,在基于目标问答模型进行任务处理时,处理设备将获取的待提问视频帧序列和提问文本信息输入已训练的目标视频问答模型,获得目标视频问答模型输出的答复文本信息;基于答复文本信息,确定待提问视频帧序列的内容中表征的,与提问文本信息对应的答复结果。
具体的,处理设备确定相关对象基于视频帧序列发送的提问文本信息时,借助于目标视频问答模型,对视频帧序列和提问文本信息进行分析处理,获得基于视频帧序列分析确定的,该提问文本信息对应的答复结果。
这样,能够根据视频问答处理需要,基于提问文本信息和提问所针对的视频帧序列,对提问文本信息进行针对性回复。
基于同一发明构思,参阅图6所示,其为本申请实施例中一种多模态特征提取网络的预训练装置的逻辑结构示意图,多模态特征提取网络的预训练装置600中包括获取单元601、训练单元602、第一微调单元603、第二微调单元604,以及第三微调单元605,其中,
获取单元601,用于获取训练样本集合,其中,每个训练样本包含不同模态的至少两种样本素材,一种模态对应多媒体数据的一种媒体形式;
训练单元602,用于采用训练样本集合,对预设的多模态特征提取网络进行多轮迭代预训练,其中,在基于一批训练样本进行一轮迭代过程中,执行以下操作:
基于多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征,其中,每个候选模态特征包括:一种模态的样本素材的整体映射子特征,以及拆分一种模态的样本素材后得到的至少一个局部映射子特征;
从多种候选模态中选定目标模态,并基于目标模态对应的局部映射子特征之间的时序关系,分别生成每个局部映射子特征对应的重构特征;
基于目标模态对应的目标模态特征和至少一个重构特征,与各个其他候选模态特征之间的相似性关系,计算损失值,并基于损失值调整多模态特征提取网络的网络参数。
可选的,至少两种样本素材包括视频帧序列及关联的文本信息,多模态特征提取网络中包括视频模态特征提取子网络和文本模态特征提取子网络;
基于多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征时,训练单元602用于:
基于视频模态特征提取子网络,分别对每个视频帧序列进行特征提取,得到相应的视频模态特征;
基于文本模态特征提取子网络,分别对每个视频帧序列关联的文本信息进行特征提取,得到相应的文本模态特征。
可选的,基于视频模态特征提取子网络,分别对每个视频帧序列进行特征提取,得到相应的视频模态特征时,训练单元602用于:
基于视频模态特征提取子网络,对每个视频帧序列进行特征提取,获得视频帧序列对应的视频整体映射子特征;
获取对应拆分后的视频帧序列得到的至少一个视频局部映射子特征,其中,每个视频局部映射子特征对应由视频帧序列拆分得到的一个视频帧序列子段;
将视频整体映射子特征和至少一个视频局部映射子特征确定为相应的视频模态特征。
可选的,基于文本模态特征提取子网络,分别对每个视频帧序列关联的文本信息进行特征提取,得到相应的文本模态特征时,训练单元602用于:
基于文本模态特征提取子网络,针对每个视频帧序列关联的文本信息进行特征提取,获得对应的文本整体映射子特征;
获取对应拆分后的文本信息得到的至少一个文本局部映射子特征,其中,每个文本局部映射子特征对应由文本信息拆分得到的一个文本子信息;
将文本整体映射子特征和至少一个文本局部映射子特征确定为相应的文本模态特征。
可选的,目标模态为视频模态;基于目标模态对应的局部映射子特征之间的时序关系,分别生成每个局部映射子特征对应的重构特征时,训练单元602用于:
针对每个视频局部映射子特征,根据与视频局部映射子特征之间满足时序位置约束条件的一个其他视频局部映射子特征,生成视频局部映射子特征的重构特征。
可选的,目标模态为视频模态,基于目标模态对应的目标模态特征和至少一个重构特征,与各个其他候选模态特征之间的相似性关系,计算损失值时,训练单元602用于:
基于每个视频模态特征中的视频整体映射子特征,与各个文本模态特征中的文本整体映射子特征之间的相似性关系,计算第一比对子损失;
基于每个视频模态特征中的视频局部映射子特征,与各个文本模态特征中文本局部映射子特征之间的相似性关系,计算第二比对子损失;
基于每个重构特征,与文本模态特征中文本局部映射子特征之间的相似性关系,计算第三比对子损失,并基于第一比对子损失、第二比对子损失,以及第三比对子损失,计算损失值。
可选的,基于每个视频模态特征中的视频局部映射子特征,与各个文本模态特征中文本局部映射子特征之间的相似性关系,计算第二比对子损失时,训练单元602用于:
针对每个视频局部映射子特征,在与视频局部映射子特征归属于相同训练样本的至少一个文本局部映射子特征中,确定相似性关系满足第一约束条件的K个参考文本局部映射子特征,其中,K为正整数;
基于每个视频局部映射子特征与对应的K个参考文本局部映设子特征之间的相似性关系,以及每个视频局部映射子特征与各个文本模态特征中包括的文本局部映射子特征之间的相似性关系,计算第二比对子损失。
可选的,基于每个重构特征,与文本模态特征中文本局部映射子特征之间的相似性关系,计算第三比对子损失时,训练单元602用于:
针对每个重构特征,确定与重构特征对应相同时序位置的视频局部映射子特征,并在与视频局部映射子特征归属相同训练样本的文本局部映射子特征中,确定相似性关系满足第二约束条件的M个目标文本局部映射子特征,其中,M是正整数;
基于每个重构特征与对应的M个目标文本局部映设子特征之间的相似性关系,以及每个重构特征与各个文本模态特征中包括的文本局部映射子特征之间的相似性关系,计算第三比对子损失。
可选的,装置还包括第一微调单元603,第一微调单元603用于:
基于预训练后的多模态特征提取网络,构建视频定位模型,并获取针对视频定位模型构建的定位样本集合;定位样本中包括视频帧序列、定位文本,及基于定位文本在视频帧序列中定位的时间段标签;
采用定位训练样本集合对视频定位模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:
将视频帧序列和定位文本信息输入视频定位模型,得到预测时间段,并基于预测时间段和时间段标签之间的信息差异,调整模型参数。
可选的,第一微调单元603还用于:
将获取的待定位视频帧序列和目标定位文本,输入已训练的目标视频定位模型,获得目标时序定位模型输出的定位时间段;
基于定位时间段,确定目标定位文本描述的内容,在待定位视频帧序列中出现时的时间信息。
可选的,装置还包括第二微调单元604,第二微调单元604用于:
基于预训练后的多模态特征提取模型,构建视频检索模型,并获取针对视频检索模型构建的检索样本集合,其中,检索样本中包括文本信息和检索结果标签;
采用检索样本集合对视频检索模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:
将文本信息输入视频检索模型,得到预测检索结果,并基于预测检索结果和检索结果标签之间的文本信息差异,调整模型参数。
可选的,第二微调单元604还用于:
将获取的待检索文本信息输入已训练的目标视频检索模型,获得目标视频检索模型输出的检索结果;
将检索结果指示的视频信息,确定为待检索文本信息对应的视频信息。
可选的,装置还包括第三微调单元605,第三微调单元605用于:
基于预训练后的多模态特征提取模型,构建视频问答模型,并获取针对视频检索模型构建的问答样本集合,其中,一条问答样本中包括一个视频帧序列、提问文本信息,以及答复文本标签;
采用问答样本集合对视频问答模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:
将视频帧序列和提问文本信息输入视频问答模型,得到输出的预测答复文本,并基于预测答复文本和答复文本标签之间的信息差异,调整模型参数。
可选的,第三微调单元605还用于:
将获取的待提问视频帧序列和提问文本信息输入已训练的目标视频问答模型,获得目标视频问答模型输出的答复文本信息;
基于答复文本信息,确定待提问视频帧序列的内容中表征的,与提问文本信息对应的答复结果。
在介绍了本申请示例性实施方式的多模态特征提取网络的预训练方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备,参阅图7所示,其为应用本申请实施例的一种电子设备的一个硬件组成结构示意图,电子设备700可以至少包括处理器701、以及存储器702。其中,存储器702存储有程序代码,当程序代码被处理器701执行时,使得处理器701执行上述任意一种多模态特征提取网络的预训练的步骤。
在一些可能的实施方式中,根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的多模态特征提取网络的预训练步骤。例如,处理器可以执行如图2A-2D中所示的步骤。
下面参照图8来描述根据本申请的这种实施方式的计算装置800。如图8所示,其为应用本申请实施例中的另一种电子设备的硬件组成结构示意图,计算装置800以通用计算装置的形式表现。计算装置800的组件可以包括但不限于:上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件(包括存储单元802和处理单元801)的总线803。
总线803表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元802可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)8021和/或高速缓存存储器8022,还可以进一步包括只读存储器(ROM)8023。
存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025,这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置800也可以与一个或多个外部设备804(例如键盘、指向设备等)通信,还可与一个或者多个使得对象能与计算装置800交互的设备通信,和/或与使得该计算装置800能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且,计算装置800还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器806通过总线803与用于计算装置800的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
与上述方法实施例基于同一发明构思,本申请提供的多模态特征提取网络的预训练的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的多模态特征提取网络的预训练中的步骤,例如,电子设备可以执行如图2A-2D中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种多模态特征提取网络的预训练方法,其特征在于,包括:
获取训练样本集合,其中,每个训练样本包含不同模态的至少两种样本素材,一种模态对应多媒体数据的一种媒体形式;
采用所述训练样本集合,对预设的多模态特征提取网络进行多轮迭代预训练,其中,在基于一批训练样本进行一轮迭代过程中,执行以下操作:
基于所述多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征,其中,每个候选模态特征包括:一种模态的样本素材的整体映射子特征,以及拆分所述一种模态的样本素材后得到的至少一个局部映射子特征;
从所述多种候选模态中选定目标模态,并基于所述目标模态对应的局部映射子特征之间的时序关系,分别生成每个局部映射子特征对应的重构特征;
基于所述目标模态对应的目标模态特征和至少一个重构特征,与各个其他候选模态特征之间的相似性关系,计算损失值,并基于所述损失值调整所述多模态特征提取网络的网络参数。
2.如权利要求1所述的方法,其特征在于,所述至少两种样本素材包括视频帧序列及关联的文本信息,所述多模态特征提取网络中包括视频模态特征提取子网络和文本模态特征提取子网络;
所述基于所述多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征,包括:
基于所述视频模态特征提取子网络,分别对每个视频帧序列进行特征提取,得到相应的视频模态特征;
基于所述文本模态特征提取子网络,分别对每个视频帧序列关联的文本信息进行特征提取,得到相应的文本模态特征。
3.如权利要求2所述的方法,其特征在于,所述基于所述视频模态特征提取子网络,分别对每个视频帧序列进行特征提取,得到相应的视频模态特征,包括:
基于所述视频模态特征提取子网络,对每个视频帧序列进行特征提取,获得所述视频帧序列对应的视频整体映射子特征;
获取对应拆分后的所述视频帧序列得到的至少一个视频局部映射子特征,其中,每个视频局部映射子特征对应由所述视频帧序列拆分得到的一个视频帧序列子段;
将所述视频整体映射子特征和所述至少一个视频局部映射子特征确定为相应的视频模态特征。
4.如权利要求2所述的方法,其特征在于,所述基于所述文本模态特征提取子网络,分别对每个视频帧序列关联的文本信息进行特征提取,得到相应的文本模态特征,包括:
基于所述文本模态特征提取子网络,针对每个视频帧序列关联的文本信息进行特征提取,获得对应的文本整体映射子特征;
获取对应拆分后的文本信息得到的至少一个文本局部映射子特征,其中,每个文本局部映射子特征对应由所述文本信息拆分得到的一个文本子信息;
将所述文本整体映射子特征和所述至少一个文本局部映射子特征确定为相应的文本模态特征。
5.如权利要求3所述的方法,其特征在于,所述目标模态为视频模态;所述基于所述目标模态对应的局部映射子特征之间的时序关系,分别生成每个局部映射子特征对应的重构特征,包括:
针对每个视频局部映射子特征,根据与所述视频局部映射子特征之间满足时序位置约束条件的一个其他视频局部映射子特征,生成所述视频局部映射子特征的重构特征。
6.如权利要求2所述的方法,其特征在于,所述目标模态为视频模态,所述基于所述目标模态对应的目标模态特征和至少一个重构特征,与各个其他候选模态特征之间的相似性关系,计算损失值,包括:
基于每个视频模态特征中的视频整体映射子特征,与各个文本模态特征中的文本整体映射子特征之间的相似性关系,计算第一比对子损失;
基于每个视频模态特征中的视频局部映射子特征,与各个文本模态特征中文本局部映射子特征之间的相似性关系,计算第二比对子损失;
基于每个重构特征,与所述文本模态特征中文本局部映射子特征之间的相似性关系,计算第三比对子损失,并基于所述第一比对子损失、第二比对子损失,以及所述第三比对子损失,计算损失值。
7.如权利要求6所述的方法,其特征在于,所述基于每个视频模态特征中的视频局部映射子特征,与各个文本模态特征中文本局部映射子特征之间的相似性关系,计算第二比对子损失,包括:
针对每个视频局部映射子特征,在与所述视频局部映射子特征归属于相同训练样本的至少一个文本局部映射子特征中,确定相似性关系满足第一约束条件的K个参考文本局部映射子特征,其中,K为正整数;
基于每个视频局部映射子特征与对应的K个参考文本局部映设子特征之间的相似性关系,以及每个视频局部映射子特征与各个文本模态特征中包括的文本局部映射子特征之间的相似性关系,计算第二比对子损失。
8.如权利要求6所述的方法,其特征在于,所述基于每个重构特征,与所述文本模态特征中文本局部映射子特征之间的相似性关系,计算第三比对子损失,包括:
针对每个重构特征,确定与所述重构特征对应相同时序位置的视频局部映射子特征,并在与所述视频局部映射子特征归属相同训练样本的文本局部映射子特征中,确定相似性关系满足第二约束条件的M个目标文本局部映射子特征,其中,M是正整数;
基于每个重构特征与对应的M个目标文本局部映设子特征之间的相似性关系,以及每个重构特征与各个文本模态特征中包括的文本局部映射子特征之间的相似性关系,计算第三比对子损失。
9.如权利要求1-8任一项所述的方法,其特征在于,还包括:
基于预训练后的多模态特征提取网络,构建视频定位模型,并获取针对所述视频定位模型构建的定位样本集合;定位样本中包括视频帧序列、定位文本,及基于所述定位文本在所述视频帧序列中定位的时间段标签;
采用所述定位训练样本集合对所述视频定位模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:
将视频帧序列和定位文本信息输入所述视频定位模型,得到预测时间段,并基于所述预测时间段和时间段标签之间的信息差异,调整模型参数。
10.如权利要求9所述的方法,其特征在于,还包括:
将获取的待定位视频帧序列和目标定位文本,输入已训练的目标视频定位模型,获得所述目标时序定位模型输出的定位时间段;
基于所述定位时间段,确定所述目标定位文本描述的内容,在所述待定位视频帧序列中出现时的时间信息。
11.如权利要求1-8任一项所述的方法,其特征在于,还包括:
基于预训练后的多模态特征提取模型,构建视频检索模型,并获取针对所述视频检索模型构建的检索样本集合,其中,检索样本中包括文本信息和检索结果标签;
采用所述检索样本集合对所述视频检索模型进行多轮迭代训练,其中,在一轮迭代训练过程中,执行以下操作:
将文本信息输入所述视频检索模型,得到预测检索结果,并基于所述预测检索结果和检索结果标签之间的文本信息差异,调整模型参数。
12.一种多模态特征提取网络的预训练装置,其特征在于,包括:
获取单元,用于获取训练样本集合,其中,每个训练样本包含不同模态的至少两种样本素材,一种模态对应多媒体数据的一种媒体形式;
训练单元,用于采用所述训练样本集合,对预设的多模态特征提取网络进行多轮迭代预训练,其中,在基于一批训练样本进行一轮迭代过程中,执行以下操作:
基于所述多模态特征提取网络提供的多种候选模态,分别对每个训练样本进行特征提取,获得相应候选模态的候选模态特征,其中,每个候选模态特征包括:一种模态的样本素材的整体映射子特征,以及拆分所述一种模态的样本素材后得到的至少一个局部映射子特征;
从所述多种候选模态中选定目标模态,并基于所述目标模态对应的局部映射子特征之间的时序关系,分别生成每个局部映射子特征对应的重构特征;
基于所述目标模态对应的目标模态特征和至少一个重构特征,与各个其他候选模态特征之间的相似性关系,计算损失值,并基于所述损失值调整所述多模态特征提取网络的网络参数。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-11任一项所述的多模态特征提取网络的预训练方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-11任一项所述的多模态特征提取网络的预训练方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-11任一项所述的多模态特征提取网络的预训练方法。
CN202210974121.0A 2022-08-15 2022-08-15 一种多模态特征提取网络的预训练方法及装置 Pending CN115293348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210974121.0A CN115293348A (zh) 2022-08-15 2022-08-15 一种多模态特征提取网络的预训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210974121.0A CN115293348A (zh) 2022-08-15 2022-08-15 一种多模态特征提取网络的预训练方法及装置

Publications (1)

Publication Number Publication Date
CN115293348A true CN115293348A (zh) 2022-11-04

Family

ID=83830411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210974121.0A Pending CN115293348A (zh) 2022-08-15 2022-08-15 一种多模态特征提取网络的预训练方法及装置

Country Status (1)

Country Link
CN (1) CN115293348A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438225A (zh) * 2022-11-08 2022-12-06 苏州浪潮智能科技有限公司 视频文本互检方法及其模型训练方法、装置、设备、介质
CN115952255A (zh) * 2022-11-21 2023-04-11 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质
CN116796290A (zh) * 2023-08-23 2023-09-22 江西尚通科技发展有限公司 一种对话意图识别方法、系统、计算机及存储介质
CN116884391A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438225A (zh) * 2022-11-08 2022-12-06 苏州浪潮智能科技有限公司 视频文本互检方法及其模型训练方法、装置、设备、介质
CN115952255A (zh) * 2022-11-21 2023-04-11 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质
CN115952255B (zh) * 2022-11-21 2023-12-05 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质
CN116796290A (zh) * 2023-08-23 2023-09-22 江西尚通科技发展有限公司 一种对话意图识别方法、系统、计算机及存储介质
CN116796290B (zh) * 2023-08-23 2024-03-29 江西尚通科技发展有限公司 一种对话意图识别方法、系统、计算机及存储介质
CN116884391A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置
CN116884391B (zh) * 2023-09-06 2023-12-01 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置

Similar Documents

Publication Publication Date Title
CN112164391B (zh) 语句处理方法、装置、电子设备及存储介质
US11373390B2 (en) Generating scene graphs from digital images using external knowledge and image reconstruction
US11657230B2 (en) Referring image segmentation
CN115293348A (zh) 一种多模态特征提取网络的预训练方法及装置
US11860928B2 (en) Dialog-based image retrieval with contextual information
US20170068903A1 (en) Semantic entity relation detection classifier training
Chen et al. Velda: Relating an image tweet’s text and images
CN110569359B (zh) 识别模型的训练及应用方法、装置、计算设备及存储介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
EP3885966B1 (en) Method and device for generating natural language description information
Deldari et al. Beyond just vision: A review on self-supervised representation learning on multimodal and temporal data
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN112100440A (zh) 视频推送方法、设备及介质
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
Lu et al. Semantics-empowered communications: A tutorial-cum-survey
CN110659392B (zh) 检索方法及装置、存储介质
CN116955730A (zh) 一种特征提取模型的训练方法、内容推荐的方法及装置
Luo et al. Self-supervised learning for semi-supervised temporal language grounding
CN113128431B (zh) 视频片段检索方法、装置、介质与电子设备
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN116665083A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN115687701A (zh) 文本处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination