CN115033739A - 搜索方法、模型训练方法、装置、电子设备和介质 - Google Patents

搜索方法、模型训练方法、装置、电子设备和介质 Download PDF

Info

Publication number
CN115033739A
CN115033739A CN202210618907.9A CN202210618907A CN115033739A CN 115033739 A CN115033739 A CN 115033739A CN 202210618907 A CN202210618907 A CN 202210618907A CN 115033739 A CN115033739 A CN 115033739A
Authority
CN
China
Prior art keywords
video
features
local
sample
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210618907.9A
Other languages
English (en)
Inventor
杨敏
朱若琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210618907.9A priority Critical patent/CN115033739A/zh
Publication of CN115033739A publication Critical patent/CN115033739A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种搜索方法、模型训练方法、装置、电子设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于视频处理等场景。具体实现方案为:获取对多个候选视频分别进行特征提取得到的局部特征和语义特征,局部特征用于表征对应候选视频的风格、外观中的至少一项,语义特征用于表征对应候选视频中内容主体所属的类别;对局部特征和语义特征进行特征融合,得到融合特征。由此,在根据文本搜索视频的场景下,同时基于各候选视频的语义特征(即深层特征)和局部特征(即浅层特征),从各候选视频中确定与搜索文本匹配的目标视频,可提升确定结果的可靠性,从而使得视频搜索结果能够满足用户的实际搜索需求。

Description

搜索方法、模型训练方法、装置、电子设备和介质
技术领域
本公开涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于视频处理等场景,尤其涉及一种搜索方法、模型训练方法、装置、电子设备和介质。
背景技术
随着互联网技术以及短视频应用的快速发展,网络视频作为重要的资源载体,数量急剧增长,例如互联网中每天可能产生海量的视频。如何根据用户输入的文本信息,搜索与文本信息匹配的网络视频,以满足用户的搜索需求是非常重要的。
发明内容
本公开提供了一种搜索方法、装置、电子设备和介质。
根据本公开的一方面,提供了一种搜索方法,包括:
获取搜索文本以及多个候选视频;
获取对所述多个候选视频分别进行特征提取得到的局部特征和语义特征,其中,所述局部特征用于表征对应候选视频的风格、外观中的至少一项,所述语义特征用于表征对应候选视频中内容主体所属的类别;
对所述局部特征和所述语义特征进行特征融合,以得到融合特征;
根据所述搜索文本的特征与各所述候选视频的融合特征之间的相关性,从所述多个候选视频中确定与所述搜索文本匹配的目标视频。
根据本公开的另一方面,提供了一种模型训练方法,包括:
获取训练样本,所述训练样本中包括样本文本和对应的多个样本视频,其中,所述样本文本标注有所述多个样本视频与所述样本文本之间的相关性标注信息;
采用搜索模型对所述多个样本视频分别进行特征提取,得到局部特征和语义特征,以及对所述局部特征和所述语义特征进行融合,得到融合特征;其中,所述局部特征用于表征对应样本视频的风格、外观中的至少一项,所述语义特征用于表征对应样本视频中内容主体所属的类别;
根据所述样本文本的特征与各所述样本视频的融合特征,确定所述样本文本与各所述样本视频之间的相关性预测信息;
根据所述相关性标注信息和所述相关性预测信息之间的差异,对所述搜索模型进行模型参数调整。
根据本公开的又一方面,提供了一种搜索装置,包括:
第一获取模块,用于获取搜索文本以及多个候选视频;
第二获取模块,用于获取对所述多个候选视频分别进行特征提取得到的局部特征和语义特征,其中,所述局部特征用于表征对应候选视频的风格、外观中的至少一项,所述语义特征用于表征对应候选视频中内容主体所属的类别;
融合模块,用于对所述局部特征和所述语义特征进行特征融合,以得到融合特征;
确定模块,用于根据所述搜索文本的特征与各所述候选视频的融合特征之间的相关性,从所述多个候选视频中确定与所述搜索文本匹配的目标视频。
根据本公开的再一方面,提供了一种模型训练装置,包括:
获取模块,用于获取训练样本,所述训练样本中包括样本文本和对应的多个样本视频,其中,所述样本文本标注有所述多个样本视频与所述样本文本之间的相关性标注信息;
处理模块,用于采用搜索模型对所述多个样本视频分别进行特征提取,得到局部特征和语义特征,以及对所述局部特征和所述语义特征进行融合,得到融合特征;其中,所述局部特征用于表征对应样本视频的风格、外观中的至少一项,所述语义特征用于表征对应样本视频中内容主体所属的类别;
确定模块,用于根据所述样本文本的特征与各所述样本视频的融合特征,确定所述样本文本与各所述样本视频之间的相关性预测信息;
调整模块,用于根据所述相关性标注信息和所述相关性预测信息之间的差异,对所述搜索模型进行模型参数调整。
根据本公开的又一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述一方面提出的搜索方法,或者,执行本公开上述另一方面提出的模型训练方法。
根据本公开的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开上述一方面提出的搜索方法,或者,执行本公开上述另一方面提出的模型训练方法。
根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述一方面提出的搜索方法,或者,实现本公开上述另一方面提出的模型训练方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例一所提供的搜索方法的流程示意图;
图2为本公开实施例二所提供的搜索方法的流程示意图;
图3为本公开实施例三所提供的搜索方法的流程示意图;
图4为本公开实施例所提供的局部分支网络的结构示意图;
图5为本公开实施例四所提供的搜索方法的流程示意图;
图6为本公开实施例五所提供的模型训练方法的流程示意图;
图7为本公开实施例六所提供的模型训练方法的流程示意图;
图8为本公开实施例七所提供的模型训练方法的流程示意图;
图9为本公开实施例八所提供的模型训练方法的流程示意图;
图10为本公开实施例九所提供的模型训练方法的流程示意图;
图11为本公开实施例十所提供的模型训练方法的流程示意图;
图12为本公开实施例中的搜索模型的训练流程示意图;
图13为本公开实施例十一所提供的搜索装置的结构示意图;
图14为本公开实施例十二所提供的模型训练装置的结构示意图;
图15示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
随着互联网资源的不断丰富,单纯的文本检索或者图像检索已经无法满足用户的检索需求。跨模态检索可以在各模态之间进行互相检索,已成为检索领域重要的研究方向与应用点,其中,各模态可以包括文本、图像、视频、音频等模态。近年来,随着短视频应用的迅猛发展,视频成为最重要的资源载体,包含多种模态信息,视频检索与文本-视频跨模态检索成为研究热点。
目前,可以基于检索模型或搜索模型来实现文本-视频跨模态检索。为了提升视频检索结果的准确性,可以通过大规模数据对模型进行预训练,之后在下游任务中对模型进行微调。其中,为了使得模型更好地理解视频内容,可以综合多模态信息对模型进行训练。
即融合多模态信息,能够扩充模型所能表达的特征空间,且不同模态信息之间具有一定的信息互补性,融合多模态信息对模型进行训练,可以使得模型得到泛化能力更好、区分力更强的特征。
相关技术中,主流的文本-视频跨模态检索方法是将文本模态和视频模态进行建模,采用文本视频匹配对进行监督,训练模型,一般分为双流模型和单流模型,其中,单流模型在输入阶段将文本和视频的特征联合输入建模,双流模型是分别采用两个编码器进行建模,通过两个编码器提取文本特征和视频特征后,对齐两个模态的特征。编码器主要采用Transformer结构,原因为:基于Transformer结构的ViT(Vision Transformer,视觉Transformer)、Swin(Shifted Windows,移动窗口)-Transformer(是一种包含了CNN(Convolutional Neural Network,卷积神经网络)滑窗理念的一种Transformer)等已被证明具有对大规模数据的拟合能力。
然而,现有的双流模型和单流模型存在以下问题:
第一,模型训练与下游任务存在一定的语义鸿沟,即在模型训练时,通常采用对比损失(contrastive loss)来进行模型优化,而在实际的文本视频检索任务中,并非判断两个样本是否为正样本对或者负样本对,而是根据输入提取的特征,召回特征库中全部相近的样本及相关性得分,在同时要求召回率和准确率的情况下,需要一个更加直接的标准来约束模型的优化,提高应用时的检索指标。
针对上述问题,本公开可以通过更新损失函数与样本构建方式,来提升检索效果。
第二,由于模型的训练目标是对齐模型最终输出的文本特征和视频特征,在模型训练过程中,视频特征会越来越高阶high-level,更接近文本的语义表达,模型也更倾向于去寻找视频中的主体来提取特征,从而丢失了视频的概念和风格。这种方式下,较易引起许多不同视频片段的误召回。
针对上述问题,本公开可以采用一个局部分支网络来获取视频中较为底层(或浅层)的信息,并将浅层特征与模型输出的视频特征进行融合。
下面参考附图描述本公开实施例的搜索方法、模型训练方法、装置、电子设备和介质。
图1为本公开实施例一所提供的搜索方法的流程示意图。
如图1所示,该搜索方法可以包括以下步骤:
步骤101,获取搜索文本以及多个候选视频。
本公开实施例的执行主体可以为服务端。
在本公开实施例中,搜索文本可以为客户端发送至服务端的,其中,客户端是指运行在电子设备上,为用户提供服务的软件程序,例如为具有搜索功能的应用,比如浏览器、视频类应用、短视频类应用等。
其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑、移动终端等,移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
在本公开实施例中,候选视频可以为存储在服务端的视频。
在本公开实施例中,用户可以在客户端侧输入搜索文本,该搜索文本的输入方式包括但不限于触摸输入(如滑动、点击等)、键盘输入、语音输入等。客户端在接收到用户输入的搜索文本后,可以向服务端发送该搜索文本。
步骤102,获取对多个候选视频分别进行特征提取得到的局部特征和语义特征,其中,局部特征用于表征对应候选视频的风格、外观中的至少一项,语义特征用于表征对应候选视频中内容主体所属的类别。
在本公开实施例中,可以获取对各候选视频进行特征提取得到的局部特征和语义特征,其中,局部特征用于表征对应候选视频的风格(比如故事型、搞笑型、教育型、情感型等)和/或外观,语义特征用于表征对应候选视频中内容主体所属的类别,其中,内容主体可以为人、动物、物体等主体,内容主体所属的类别可以为具体的人名、动物所属的具体种类、物体所属的具体种类等。
作为一种示例,服务端可以基于多种编码方式,对各候选视频进行特征提取,得到各候选视频对应的局部特征和语义特征。或者,为了提升搜索的实时性,服务端可以预先对各候选视频进行特征提取,得到各候选视频的局部特征和语义特征,并将提取得到的局部特征和语义特征与各候选视频进行对应存储,从而本公开中,可以通过查询的方式,直接获取各候选视频对应的局部特征和语义特征。
步骤103,对局部特征和语义特征进行特征融合,以得到融合特征。
在本公开实施例中,针对每个候选视频,可以基于特征融合技术,将该候选视频的局部特征和语义特征进行特征融合,以得到该候选视频对应的融合特征。
在本公开实施例的一种可能的实现方式中,还可以基于特征对齐算法,将各候选视频的融合特征与搜索文本的特征进行对齐,从而可以基于对齐后的特征进行相关性计算。
步骤104,根据搜索文本的特征与各候选视频的融合特征之间的相关性,从多个候选视频中确定与搜索文本匹配的目标视频。
其中,相关性用于指示两个特征之间的关联程度。
其中,目标视频的个数可以为至少一个。
在本公开实施例中,可以对搜索文本进行特征提取,得到该搜索文本的特征(或称为文本特征),并计算该搜索文本的特征与各候选视频的融合特征之间的相关性,从而可以根据搜索文本的特征与各候选视频的融合特征之间的相关性,从多个候选视频中确定与搜索文本匹配的目标视频。
作为一种示例,可以基于相似度度量算法(比如皮尔森相关系数、余弦相似度等)或距离度量算法(比如欧几里得距离、曼哈顿距离、切比雪夫距离和明可夫斯基距离等),计算搜索文本的特征与各候选视频的融合特征之间的相似度,从而可以根据搜索文本的特征与各候选视频的融合特征之间的相似度,确定搜索文本的特征与各候选视频的融合特征之间的相关性,其中,相似度与相关性之间呈正相关关系,即相似度越高,搜索文本的特征与融合特征之间的相关程度越高。
作为一种可能的实现方式,相关性可以包括正相关和负相关,可以根据相关性,将与搜索文本正相关的候选视频作为目标视频。
作为另一种可能的实现方式,相关性可以包括相关性得分,其中,相关性得分越高,表明两个特征之间的关联程度越高,反之,相关性得分越低,表明两个特征之间的关联程度越低。可以根据搜索文本的特征与各候选视频的融合特征之间的相关性,将各候选视频按照相关性得分的取值降序排列,从而可以选取排序在前的设定个数的候选视频,并作为目标视频。或者,可以选取相关性得分高于设定阈值的候选视频,并作为目标视频。
可选地,服务端还可以向客户端发送目标视频的视频信息,从而用户可以基于客户端观看该目标视频。
作为一种示例,以视频信息为目标视频对应的原视频进行示例,服务端可以向客户端直接发送目标视频对应的原视频,从而用户可以基于客户端直接观看目标视频。
作为另一种示例,以视频信息为目标视频在服务端的存储地址进行示例,服务端可以向客户端发送目标视频的存储地址。相应的,客户端在接收到该存储地址后,可以通过该存储地址,访问服务器以获取目标视频,从而用户可以基于客户端观看目标视频。
本公开实施例的搜索方法,通过获取对多个候选视频分别进行特征提取得到的局部特征和语义特征,其中,局部特征用于表征对应候选视频的风格、外观中的至少一项,语义特征用于表征对应候选视频中内容主体所属的类别;对局部特征和语义特征进行特征融合,以得到融合特征。由此,在根据文本搜索视频的场景下,同时基于各候选视频的语义特征(即深层特征)和用于表征视频的风格和/或外观的局部特征(即浅层特征),从各候选视频中确定与搜索文本匹配的目标视频,可以提升确定结果的可靠性,从而使得视频搜索结果能够满足用户的实际搜索需求,改善用户的搜索体验。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均在征得用户同意的前提下进行,并且均符合相关法律法规的规定,且不违背公序良俗。
为了清楚说明本公开任一实施例中是如何获取视频的局部特征和语义特征的,本公开还提出一种搜索方法。
图2为本公开实施例二所提供的搜索方法的流程示意图。
如图2所示,该搜索方法可以包括以下步骤:
步骤201,获取搜索文本以及多个候选视频。
步骤201的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
步骤202,将多个候选视频中任意的一个作为输入视频,并输入视频特征提取网络,以得到输入视频的语义特征。
其中,语义特征用于表征输入视频中内容主体所属的类别。
在本公开实施例中,可以将多个候选视频中的任意的一个候选视频作为输入视频,并将该输入视频输入至视频特征提取网络,以由该视频特征提取网络对输入视频进行特征提取,得到该输入视频的语义特征。
步骤203,将输入视频中的至少一个视频帧输入图像特征提取网络,以得到输入视频中至少一个视频帧的语义特征。
在本公开实施例中,可以将输入视频中的至少一个视频帧输入至图像特征提取网络,以由图像特征提取网络对上述至少一个视频帧进行特征提取,以得到上述至少一个视频帧的语义特征。
作为一种示例,可以对输入视频进行抽帧,得到至少一个视频帧,比如可以抽取输入视频中的关键帧,将各关键帧作为至少一个视频帧。或者,可以以设定间隔,从输入视频中抽取至少一个视频帧。
步骤204,将至少一个视频帧中的各视频帧分别输入第一局部分支网络,以得到各视频帧的局部特征。
其中,局部特征用于表征输入视频的风格、外观中的至少一项。
在本公开实施例中,可以将输入视频中的至少一个视频帧中的各视频帧分别输入第一局部分支网络,以由该第一局部分支网络对各视频帧进行特征提取,得到各视频帧的局部特征。
步骤205,将输入视频输入第二局部分支网络,以得到输入视频的局部特征。
在本公开实施例中,可以将输入视频输入至第二局部分支网络,以由第二局部分支网络对输入视频进行特征提取,得到该输入视频的局部特征。
步骤206,对局部特征和语义特征进行特征融合,以得到融合特征。
在本公开实施例中,可以将输入视频的语义特征和局部特征,以及视频帧的语义特征和局部特征进行融合,以得到融合特征。
步骤207,根据搜索文本的特征与各候选视频的融合特征之间的相关性,从多个候选视频中确定与搜索文本匹配的目标视频。
步骤206至207的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
本公开实施例的搜索方法,基于深度学习的特征提取网络,来提取视频的语义特征和局部特征,可以提升特征提取的准确性和可靠性。此外,通过局部分支网络来提取视频的局部特征和视频帧的局部特征,可以实现有效提取视频的浅层特征(即局部特征,视频的底层信息),从而可以基于视频的浅层特征(即局部特征)和深层特征(即语义特征,视频的高层信息),来进行视频搜索,可以提升搜索结果的准确性和可靠性,以避免误召回与搜索文本不相关的视频,而降低用户搜索体验的情况发生。
为了清楚说明本公开任一实施例中是如何提取视频帧的局部特征的,本公开还提出一种搜索方法。
图3为本公开实施例三所提供的搜索方法的流程示意图。
如图3所示,该搜索方法可以包括以下步骤:
步骤301,获取搜索文本以及多个候选视频。
步骤302,将多个候选视频中任意的一个作为输入视频,并输入视频特征提取网络,以得到输入视频的语义特征。
其中,语义特征用于表征输入视频中内容主体所属的类别。
步骤303,将输入视频中的至少一个视频帧输入图像特征提取网络,以得到输入视频中至少一个视频帧的语义特征。
步骤301至303的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
步骤304,对任一视频帧,根据各像素点在多个色彩通道上的像素值,生成第一数组。
其中,第一数组中的元素为像素值,各元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度。
在本公开实施例中,色彩通道比如可以包括红色R通道、绿色G通道和蓝色B通道。
在本公开实施例中,针对上述至少一个视频帧中的任一视频帧,可以根据该任一视频帧中各像素点在多个色彩通道上的像素值,生成第一数组,其中,第一数组中的元素为像素值,各元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度。
以色彩通道包括R、G、B这三个通道进行示例,第一数组中的各元素包括三个维度,分别为W、H和3,其中,W是指列位置,H是指行位置,3是指色彩通道。
步骤305,采用滑动窗口将第一数组,划分为多个第一子数组,其中,相邻第一子数组之间存在交叠元素。
在本公开实施例中,滑动窗口的尺寸可以为预先设定的。
在本公开实施例中,可以采用滑动窗口将第一数组划分为多个第一子数组,其中,相邻的第一子数组之间存在交叠元素。
步骤306,采用第一局部分支网络的特征提取层分别对各第一子数组进行特征提取。
在本公开实施例中,可以采用第一局部分支网络的特征提取层对每个第一子数组进行特征提取,以得到各第一子数组的特征。
作为一种可能的实现方式,特征提取层可以包括至少一层编码层,其中,每一层编码层可以包括MSA(Muti-Head Self-Attention,多头自注意力模块)和FFN(Feed-ForwardNetwork,前馈网络),可以通过MSA和FFN融合视频帧中的语义信息,从而提升特征提取的准确性和可靠性。
步骤307,采用第一局部分支网络的窗口合并层,将各第一子数组的特征进行融合。
在本公开实施例中,可以采用第一局部分支网络的窗口合并层将各第一子数组的特征进行融合,以得到融合后的特征。
作为一种示例,由于相邻的第一子数组之间存在交叠元素(即重叠区域),因此,相邻的第一子数组的特征中包括相同元素的特征,可以根据各第一子数组之间的交叠元素的特征,对各第一子数组的特征进行拼接,以得到融合后的特征。
作为另一种示例,对各第一子数组的特征进行相似度计算,根据计算的相似度对各第一子数组进行融合,得到融合后的特征。
步骤308,将融合后的特征输入第一局部分支网络的输出层,以得到视频帧的局部特征。
其中,局部特征用于表征输入视频的风格、外观中的至少一项。
在本公开实施例中,可以将融合后的特征输入第一局部分支网络的输出层,以得到视频帧的局部特征。
在本公开实施例的一种可能的实现方式中,输出层可以采用分段线性函数作为激活函数,比如,输出层采用的激活函数可以为RELU函数。由于分段线性函数无需进行指数计算,可以降低计算的复杂度,从而提升视频的搜索效率。
作为一种示例,以局部分支网络的结构如图4所示进行示例,可以根据视频帧中各像素点在多个色彩通道上的像素值,生成第一数组,并采用重叠窗口分割第一数组,即采用滑动窗口将第一数组划分为多个第一子数组,其中,相邻的第一子数组之间具有重叠元素,如图4所示,子数组1包括1、2、4、5这四个区域的元素,子数组2包括2、3、5、6这四个区域的元素,子数组1和子数组2具有2和5这两个区域的重叠元素。再比如,子数组3具有4、5、7、8这四个区域的元素,子数组1和子数组3具有4和5这两个区域的重叠元素。
之后,可以通过特征提取层分别对多个第一子数组进行特征提取,得到各第一子数组对应的特征,再采用窗口合并层将各第一子数组的特征进行融合,以得到融合后的特征。最后,将融合后的特征输入至输出层,以得到视频帧的局部特征。
其中,图4仅以特征提取层中包括4层编码层进行示例,Win(window)-MSA是指对一个窗口后的子数组进行特征提取。
步骤309,将输入视频输入第二局部分支网络,以得到输入视频的局部特征。
步骤310,对局部特征和语义特征进行特征融合,以得到融合特征。
在本公开实施例中,可以将输入视频的语义特征和局部特征,以及输入视频中视频帧的语义特征和局部特征进行融合,以得到融合特征。
步骤311,根据搜索文本的特征与各候选视频的融合特征之间的相关性,从多个候选视频中确定与搜索文本匹配的目标视频。
步骤309至311的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
本公开实施例的搜索方法,通过对任一视频帧,根据各像素点在多个色彩通道上的像素值,生成第一数组;采用滑动窗口将第一数组,划分为多个第一子数组,其中,相邻第一子数组之间存在交叠元素;采用第一局部分支网络的特征提取层分别对各第一子数组进行特征提取;采用所述第一局部分支网络的窗口合并层,将各所述第一子数组的特征进行融合;将融合后的特征输入第一局部分支网络的输出层,以得到视频帧的局部特征。由此,采用滑动窗口对第一数组进行划分,得到各子数组,并对各子数组进行特征提取,可以实现提取视频帧中的细节特征,从而提升局部特征提取的准确性。并且,滑动窗口为重叠或交叠窗口,可以避免在特征提取过程中图像信息丢失的问题,从而提升局部特征提取的鲁棒性。
为了清楚说明本公开任一实施例中是如何提取视频的局部特征的,本公开还提出一种搜索方法。
图5为本公开实施例四所提供的搜索方法的流程示意图。
如图5所示,该搜索方法可以包括以下步骤:
步骤501,获取搜索文本以及多个候选视频。
步骤502,将多个候选视频中任意的一个作为输入视频,并输入视频特征提取网络,以得到输入视频的语义特征。
其中,语义特征用于表征输入视频中内容主体所属的类别。
步骤503,将输入视频中的至少一个视频帧输入图像特征提取网络,以得到输入视频中至少一个视频帧的语义特征。
步骤504,将至少一个视频帧中的各视频帧分别输入第一局部分支网络,以得到各视频帧的局部特征。
其中,局部特征用于表征输入视频的风格、外观中的至少一项。
步骤501至504的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
步骤505,根据输入视频中各视频帧,生成第二数组。
其中,第二数组中的元素为像素值,各元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度。
在本公开实施例中,可以根据输入视频中的各帧视频帧,生成第二数组,其中,第二数组中的元素为像素值,各元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度。
以色彩通道包括R、G、B这三个通道进行示例,第二数组中的元素包括三个维度,分别为W、H和3T,其中,W是指列位置,H是指行位置,3是指色彩通道,T是指视频帧的帧数。比如某个元素属于输入视频中的第5帧视频帧,且该元素位于第5帧视频帧中的第i行第j列,则该元素的三个维度分别为i、j和3*5。
步骤506,采用滑动窗口将第二数组,划分为多个第二子数组,其中,相邻第二子数组之间存在交叠元素。
在本公开实施例中,滑动窗口的尺寸可以为预先设定的。
在本公开实施例中,可以采用滑动窗口将第二数组划分为多个第二子数组,其中,相邻的第二子数组之间存在交叠元素。
步骤507,采用第二局部分支网络的特征提取层分别对各第二子数组进行特征提取。
在本公开实施例中,可以采用第二局部分支网络的特征提取层对每个第二子数组进行特征提取,以得到各第二子数组的特征。
作为一种可能的实现方式,特征提取层可以包括至少一层编码层,其中,每一层编码层可以包括MSA和FFN,可以通过MSA和FFN融合视频中的语义信息,从而提升特征提取的准确性和可靠性。
步骤508,采用第二局部分支网络的窗口合并层,将各第二子数组的特征进行融合。
在本公开实施例中,可以采用第二局部分支网络的窗口合并层将各第二子数组的特征进行融合,以得到融合后的特征。
作为一种示例,由于相邻的第二子数组之间存在交叠元素(即重叠区域),因此,相邻的第一子数组的特征中包括相同元素的特征,可以根据各第二子数组之间的交叠元素的特征,对各第二子数组的特征进行拼接,以得到融合后的特征。
作为另一种示例,对各第二子数组的特征进行相似度计算,根据计算的相似度对各第一子数组进行融合,得到融合后的特征。
步骤509,将融合后的特征输入第二局部分支网络的输出层,以得到输入视频的局部特征。
在本公开实施例中,可以将融合后的特征输入第二局部分支网络的输出层,以得到输入视频的局部特征。
在本公开实施例的一种可能的实现方式中,输出层可以采用分段线性函数作为激活函数,比如,输出层采用的激活函数可以为RELU函数。由于分段线性函数无需进行指数计算,可以降低计算的复杂度,从而提升视频的搜索效率。
步骤510,对局部特征和语义特征进行特征融合,以得到融合特征。
步骤511,根据搜索文本的特征与各候选视频的融合特征之间的相关性,从多个候选视频中确定与搜索文本匹配的目标视频。
步骤510至511的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
本公开实施例的搜索方法,采用滑动窗口对第二数组进行划分,得到各子数组,并对各子数组进行特征提取,可以实现提取视频中的细节特征,从而提升局部特征提取的准确性。并且,滑动窗口为重叠或交叠窗口,可以避免在特征提取过程中视频信息丢失的问题,从而提升局部特征提取的鲁棒性。
上述为模型应用方法(即搜索方法)所对应的各实施例,本公开还提出一种模型训练方法。
图6为本公开实施例五所提供的模型训练方法的流程示意图。
如图6示,该模型训练方法可以包括以下步骤:
步骤601,获取训练样本,训练样本中包括样本文本和对应的多个样本视频,其中,样本文本标注有多个样本视频与样本文本之间的相关性标注信息。
在本公开实施例中,训练样本的个数可以为至少一个,其中,每个训练样本中可以包括样本文本,以及该样本文本对应的多个样本视频,且,样本文本标注有多个样本视频与该样本文本之间的相关性标注信息。比如,相关性标注信息可以用于指示样本视频与该样本文本之间的相关性得分或相关度,再比如,相关性标注信息可以用于指示样本视频与样本文本是否相关。
作为一种时刻,当相关性标注信息指示样本视频与样本文本相关,或者,指示样本视频与样本文本之间的相关性得分较高时,该样本文本与样本视频可以称为正样本对,当相关性标注信息指示样本视频与样本文本非相关,或者,指示样本视频与样本文本之间的相关性得分较低时,该样本文本与样本视频可以称为负样本对。
在本公开实施例中,对训练样本的获取方式不做限制,比如,训练样本可以从现有的训练集获取,或者,训练样本也可以在线采集,比如可以通过网络爬虫技术在线采集训练样本,或者,训练样本也可以为线下采集,或者,训练样本也可以人工生成,等等,本公开对此并不做限制。
步骤602,采用搜索模型对多个样本视频分别进行特征提取,得到局部特征和语义特征,以及对局部特征和语义特征进行融合,得到融合特征。
其中,局部特征用于表征对应样本视频的风格、外观中的至少一项,语义特征用于表征对应样本视频中内容主体所属的类别。
在本公开实施例中,局部特征和语义特征的解释说明可以参见本公开任一实施例中的相关描述,在此不作赘述。
在本公开实施例中,可以采用搜索模型对多个样本视频分别进行特征提取,得到各样本视频对应的局部特征和语义特征,并将每个样本视频的局部特征和语义特征进行融合,得到对应样本视频的融合特征。
步骤603,根据样本文本的特征与各样本视频的融合特征,确定样本文本与各样本视频之间的相关性预测信息。
其中,相关性预测信息可以用于指示样本文本与样本视频之间的相关性得分或相关度,或者,可以用于指示样本文本与样本视频是否相关。
在本公开实施例中,可以对样本文本进行特征提取,以得到样本文本的特征(即文本特征),并根据样本文本的特征与各样本视频的融合特征,确定样本文本与各样本视频之间的相关性预测信息。
作为一种示例,针对多个样本视频中的任一样本视频,可以计算该任一样本视频的融合特征和样本文本的特征之间的相似度,根据相似度确定该样本视频与样本文本之间的相关性预测信息。比如,相似度越高,该相关性预测信息指示的相关性得分或相关度越高,反之,相似度越低,该相关性预测信息指示的相关性得分或相关度越低。
步骤604,根据相关性标注信息和相关性预测信息之间的差异,对搜索模型进行模型参数调整。
在本公开实施例中,可以根据相关性标注信息和相关性预测信息之间的差异,对搜索模型中的模型参数进行调整。
作为一种示例,可以根据相关性标注信息和相关性预测信息之间的差异,生成损失函数,其中,损失函数与差异为正向关系(即呈正相关关系),即差异越小,损失函数的取值越小,反之,差异越大,损失函数的取值越大,从而本公开中,可以根据损失函数,对搜索模型中的模型参数进行调整,以使损失函数的取值最小化。
需要说明的是,上述仅以搜索模型训练的终止条件为损失函数的取值最小化进行示例,实际应用时,也可以设置其他的终止条件,比如,终止条件可以为训练次数达到设定次数,或者,终止条件可以训练时长达到设定时长,等等,本公开对此并不做限制。
本公开实施例的模型训练方法,通过采用搜索模型对训练样本中的多个样本视频分别进行特征提取,得到局部特征和语义特征,以及对局部特征和语义特征进行融合,得到融合特征;根据训练样本中样本文本的特征与各样本视频的融合特征,确定样本文本与各样本视频之间的相关性预测信息;根据样本文本标注的相关性标注信息和相关性预测信息之间的差异,对搜索模型进行模型参数调整。由此,采用深度学习技术,提取视频特征,可以提升特征提取的准确性和可靠性。此外,同时基于视频的语义特征(即深层特征)和用于表征视频的风格和/或外观的局部特征(浅层特征),来确定视频与文本之间的相关性预测信息,可以提升相关性预测信息确定的可靠性,从而根据可靠性的相关性预测信息对搜索模型进行训练,可以提升模型的训练效率。
为了清楚说明上述实施例中搜索模型是如何提取样本视频的局部特征和语义特征的,本公开还提出一种模型训练方法。
图7为本公开实施例六所提供的模型训练方法的流程示意图。
步骤701,获取训练样本,训练样本中包括样本文本和对应的多个样本视频。
其中,样本文本标注有多个样本视频与样本文本之间的相关性标注信息。
步骤701的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
步骤702,将多个样本视频中任意的一个作为输入视频,输入搜索模型的视频特征提取网络,以得到输入视频的语义特征。
其中,语义特征用于表征输入视频中内容主体所属的类别。
在本公开实施例中,可以将多个样本视频中的任意的一个样本视频作为输入视频,并将该输入视频输入至搜索网络的视频特征提取网络,以得到输入视频的语义特征。
步骤703,将输入视频中的至少一个视频帧输入搜索模型的图像特征提取网络,以得到输入视频中至少一个视频帧的语义特征。
在本公开实施例中,可以将输入视频中的至少一个视频帧输入至搜索模型的图像特征提取网络,以由图像特征提取网络对上述至少一个视频帧进行特征提取,以得到上述至少一个视频帧的语义特征。
作为一种示例,可以对输入视频进行抽帧,得到至少一个视频帧,比如可以抽取输入视频中的关键帧,将各关键帧作为至少一个视频帧。或者,可以以设定间隔,从输入视频中抽取至少一个视频帧。
步骤704,将至少一个视频帧中的各视频帧分别输入搜索模型的第一局部分支网络,以得到各视频帧的局部特征。
其中,局部特征用于表征输入视频的风格、外观中的至少一项。
在本公开实施例中,可以将输入视频中的至少一个视频帧中的各视频帧分别输入至搜索模型的第一局部分支网络,以由该第一局部分支网络对各视频帧进行特征提取,得到各视频帧的局部特征。
步骤705,将输入视频输入搜索模型的第二局部分支网络,以得到输入视频的局部特征。
在本公开实施例中,可以将输入视频输入至搜索模型的第二局部分支网络,以由第二局部分支网络对输入视频进行特征提取,得到该输入视频的局部特征。
步骤706,采用搜索模型对输入视频的语义特征和局部特征,及各视频帧的语义特征和局部特征进行融合,以得到输入视频的融合特征。
步骤707,根据样本文本的特征与各样本视频的融合特征,确定样本文本与各样本视频之间的相关性预测信息。
步骤708,根据相关性标注信息和相关性预测信息之间的差异,对搜索模型进行模型参数调整。
步骤706至708的解释说明可以参见本公开任一实施例中的相关描述,在此不作赘述。
本公开实施例的模型训练方法,基于深度学习的特征提取网络,来提取视频的语义特征和局部特征,可以提升特征提取的准确性和可靠性。此外,通过局部分支网络来提取视频的局部特征和视频帧的局部特征,可以实现有效提取视频的浅层特征(即局部特征,视频的底层信息),从而可以基于视频的浅层特征(即局部特征)和深层特征(即语义特征,视频的高层信息),来确定视频与文本之间的相关性,可以确定结果的准确性和可靠性。
为了清楚说明本公开任一实施例中是如何提取视频帧的局部特征的,本公开还提出一种模型训练方法。
图8为本公开实施例七所提供的模型训练方法的流程示意图。
如图8所示,该模型训练方法可以包括以下步骤:
步骤801,获取训练样本,训练样本中包括样本文本和对应的多个样本视频。
其中,样本文本标注有多个样本视频与样本文本之间的相关性标注信息。
步骤802,将多个样本视频中任意的一个作为输入视频,输入搜索模型的视频特征提取网络,以得到输入视频的语义特征。
其中,语义特征用于表征输入视频中内容主体所属的类别。
步骤803,将输入视频中的至少一个视频帧输入搜索模型的图像特征提取网络,以得到输入视频中至少一个视频帧的语义特征。
步骤801至803的解释说明可以参见本公开任一实施例的相关描述,在此不做赘述。
步骤804,对至少一个视频帧中的任一视频帧,根据各像素点在多个色彩通道上的像素值,生成第一数组。
其中,第一数组中的元素为像素值,各元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度。
在本公开实施例中,色彩通道比如可以包括红色R通道、绿色G通道和蓝色B通道。
在本公开实施例中,针对上述至少一个视频帧中的任一视频帧,可以根据该任一视频帧中各像素点在多个色彩通道上的像素值,生成第一数组,其中,第一数组中的元素为像素值,各元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度。
以色彩通道包括R、G、B这三个通道进行示例,第一数组中的各元素包括三个维度,分别为W、H和3,其中,W是指列位置,H是指行位置,3是指色彩通道。
步骤805,采用滑动窗口将第一数组,划分为多个第一子数组,其中,相邻第一子数组之间存在交叠元素。
在本公开实施例中,滑动窗口的尺寸可以为预先设定的。
在本公开实施例中,可以采用滑动窗口将第一数组划分为多个第一子数组,其中,相邻的第一子数组之间存在交叠元素。
步骤806,采用第一局部分支网络的特征提取层分别对各第一子数组进行特征提取。
在本公开实施例中,可以采用搜索模型中第一局部分支网络的特征提取层对每个第一子数组进行特征提取,以得到各第一子数组的特征。
作为一种可能的实现方式,特征提取层可以包括至少一层编码层,其中,每一层编码层可以包括MSA和FFN,可以通过MSA和FFN融合视频帧中的语义信息,从而提升特征提取的准确性和可靠性。
步骤807,采用第一局部分支网络的窗口合并层,将各第一子数组的特征进行融合。
在本公开实施例中,可以采用第一局部分支网络的窗口合并层将各第一子数组的特征进行融合,以得到融合后的特征。
作为一种示例,由于相邻的第一子数组之间存在交叠元素(即重叠区域),因此,相邻的第一子数组的特征中包括相同元素的特征,可以根据各第一子数组之间的交叠元素的特征,对各第一子数组的特征进行拼接,以得到融合后的特征。
作为另一种示例,对各第一子数组的特征进行相似度计算,根据计算的相似度对各第一子数组进行融合,得到融合后的特征。
步骤808,将融合后的特征输入第一局部分支网络的输出层,以得到视频帧的局部特征。
其中,局部特征用于表征输入视频的风格、外观中的至少一项。
在本公开实施例中,可以将融合后的特征输入第一局部分支网络的输出层,以得到视频帧的局部特征。
在本公开实施例的一种可能的实现方式中,输出层可以采用分段线性函数作为激活函数,比如,输出层采用的激活函数可以为RELU函数。由于分段线性函数无需进行指数计算,可以降低计算的复杂度,从而提升视频的搜索效率。
步骤809,将输入视频输入搜索模型的第二局部分支网络,以得到输入视频的局部特征。
步骤810,采用搜索模型对输入视频的语义特征和局部特征,及各视频帧的语义特征和局部特征进行融合,以得到输入视频的融合特征。
步骤811,根据样本文本的特征与各样本视频的融合特征,确定样本文本与各样本视频之间的相关性预测信息。
步骤812,根据相关性标注信息和相关性预测信息之间的差异,对搜索模型进行模型参数调整。
步骤809至812的解释说明可以参见本公开任一实施例的相关描述,在此不做赘述。
本公开实施例的模型训练方法,采用滑动窗口对第一数组进行划分,得到各子数组,并对各子数组进行特征提取,可以实现提取视频帧中的细节特征,从而提升局部特征提取的准确性。并且,滑动窗口为重叠或交叠窗口,可以避免在特征提取过程中图像信息丢失的问题,从而提升局部特征提取的鲁棒性。
为了清楚说明本公开任一实施例中是如何提取视频的局部特征的,本公开还提出一种模型训练方法。
图9为本公开实施例八所提供的模型训练方法的流程示意图。
如图9所示,该模型训练方法可以包括以下步骤:
步骤901,获取训练样本,训练样本中包括样本文本和对应的多个样本视频。
其中,样本文本标注有多个样本视频与样本文本之间的相关性标注信息。
步骤902,将多个样本视频中任意的一个作为输入视频,输入搜索模型的视频特征提取网络,以得到输入视频的语义特征。
其中,语义特征用于表征输入视频中内容主体所属的类别。
步骤903,将输入视频中的至少一个视频帧输入搜索模型的图像特征提取网络,以得到输入视频中至少一个视频帧的语义特征。
步骤904,将至少一个视频帧中的各视频帧分别输入搜索模型的第一局部分支网络,以得到各视频帧的局部特征。
步骤901至904的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
步骤905,根据输入视频中各视频帧,生成第二数组。
其中,第二数组中的元素为像素值,各元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度。
在本公开实施例中,可以根据输入视频中的各帧视频帧,生成第二数组,其中,第二数组中的元素为像素值,各元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度。
以色彩通道包括R、G、B这三个通道进行示例,第二数组中的元素包括三个维度,分别为W、H和3T,其中,W是指列位置,H是指行位置,3是指色彩通道,T是指视频帧的帧数。比如某个元素属于输入视频中的第5帧视频帧,且该元素位于第5帧视频帧中的第i行第j列,则该元素的三个维度分别为i、j和3*5。
步骤906,采用滑动窗口将第二数组,划分为多个第二子数组,其中,相邻第二子数组之间存在交叠元素。
在本公开实施例中,滑动窗口的尺寸可以为预先设定的。
在本公开实施例中,可以采用滑动窗口将第二数组划分为多个第二子数组,其中,相邻的第二子数组之间存在交叠元素。
步骤907,采用第二局部分支网络的特征提取层分别对各第二子数组进行特征提取。
在本公开实施例中,可以采用搜索模型中第二局部分支网络的特征提取层对每个第二子数组进行特征提取,以得到各第二子数组的特征。
作为一种可能的实现方式,特征提取层可以包括至少一层编码层,其中,每一层编码层可以包括MSA和FFN,可以通过MSA和FFN融合视频中的语义信息,从而提升特征提取的准确性和可靠性。
步骤908,采用第二局部分支网络的窗口合并层,将各第二子数组的特征进行融合。
在本公开实施例中,可以采用第二局部分支网络的窗口合并层将各第二子数组的特征进行融合,以得到融合后的特征。
作为一种示例,由于相邻的第二子数组之间存在交叠元素(即重叠区域),因此,相邻的第一子数组的特征中包括相同元素的特征,可以根据各第二子数组之间的交叠元素的特征,对各第二子数组的特征进行拼接,以得到融合后的特征。
作为另一种示例,对各第二子数组的特征进行相似度计算,根据计算的相似度对各第一子数组进行融合,得到融合后的特征。
步骤909,将融合后的特征输入第二局部分支网络的输出层,以得到输入视频的局部特征。
其中,局部特征用于表征输入视频的风格、外观中的至少一项。
在本公开实施例中,可以将融合后的特征输入第二局部分支网络的输出层,以得到输入视频的局部特征。
在本公开实施例的一种可能的实现方式中,输出层可以采用分段线性函数作为激活函数,比如,输出层采用的激活函数可以为RELU函数。由于分段线性函数无需进行指数计算,可以降低计算的复杂度,从而提升视频的搜索效率。
步骤910,采用搜索模型对输入视频的语义特征和局部特征,及各视频帧的语义特征和局部特征进行融合,以得到输入视频的融合特征。
在本公开实施例中,可以采用搜索模型的融合网络对输入视频的语义特征和局部特征,及各视频帧的语义特征和局部特征进行融合,以得到输入视频的融合特征。
步骤911,根据样本文本的特征与各样本视频的融合特征,确定样本文本与各样本视频之间的相关性预测信息。
步骤912,根据相关性标注信息和相关性预测信息之间的差异,对搜索模型进行模型参数调整。
步骤909至912的解释说明可以参见本公开任一实施例的相关描述,在此不做赘述。
本公开实施例的模型训练方法,采用滑动窗口对第二数组进行划分,得到各子数组,并对各子数组进行特征提取,可以实现提取视频中的细节特征,从而提升局部特征提取的准确性。并且,滑动窗口为重叠或交叠窗口,可以避免在特征提取过程中视频信息丢失的问题,从而提升局部特征提取的鲁棒性。
为了清楚说明本公开任一实施例中是如何对搜索模型进行训练的,本公开还提出一种模型训练方法。
图10为本公开实施例九所提供的模型训练方法的流程示意图。
如图10所示,该模型训练方法可以包括以下步骤:
步骤1001,获取训练样本,训练样本中包括样本文本和对应的多个样本视频。
其中,样本文本标注有多个样本视频与样本文本之间的相关性标注信息。
步骤1002,采用搜索模型对多个样本视频分别进行特征提取,得到局部特征和语义特征,以及对局部特征和语义特征进行融合,得到融合特征。
其中,局部特征用于表征对应样本视频的风格、外观中的至少一项,语义特征用于表征对应样本视频中内容主体所属的类别。
步骤1003,根据样本文本的特征与各样本视频的融合特征,确定样本文本与各样本视频之间的相关性预测信息。
步骤1001至1003的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
步骤1004,根据相关性预测信息,确定多个样本视频与样本文本之间相关性的预测排序。
在本公开实施例中,可以根据相关性预测信息,确定多个样本视频与样本文本之间相关性的预测排序。比如,当相关性预测信息用于指示样本视频与样本文本之间的相关性得分时,可以将各样本视频按照对应的相关性得分进行降序排列,以得到预测排序。
步骤1005,根据相关性标注信息,确定多个样本视频与样本文本之间相关性的标注排序。
在本公开实施例中,可以根据相关性标注信息,确定多个样本视频与样本文本之间相关性的标注排序。比如,当相关性标注信息用于指示样本视频与样本文本之间的相关性得分时,可以将各样本视频按照对应的相关性得分进行降序排列,以得到标注排序。
步骤1006,根据标注排序和预测排序之间的差异生成第一损失函数。
在本公开实施例中,可以根据标注排序和预测排序之间的差异,生成第一损失函数。比如,第一损失函数可以为Smooth-AP(Smooth-Average Precision,平滑平均精度)损失函数。
步骤1007,根据第一损失函数对搜索模型进行模型参数调整。
在本公开实施例中,可以根据第一损失函数,对搜索模型中的模型参数进行调整,以使第一损失函数的取值最小化。
需要说明的是,上述仅以搜索模型训练的终止条件为第一损失函数的取值最小化进行示例,实际应用时,也可以设置其他的终止条件,比如,终止条件可以为训练次数达到设定次数,或者,终止条件可以训练时长达到设定时长,等等,本公开对此并不做限制。
本公开实施例的模型训练方法,通过根据多个样本视频的标注排序和预测排序之间的差异,对搜索模型进行训练。可以理解的是,当样本文本与样本视频之间的相关程度越高时,该样本视频的排序越靠前,反之,当样本文本与样本视频之间的相关程度越低时,该样本视频的排序越靠后,根据排序之间的差异对搜索模型进行训练,可以使得模型学习到文本与视频之间的相关程度,从而提升搜索模型的训练效果,即提升搜索模型的预测精度。
为了清楚说明本公开任一实施例中是如何对搜索模型进行训练的,本公开还提出一种模型训练方法。
图11为本公开实施例十所提供的模型训练方法的流程示意图。
如图11所示,该模型训练方法可以包括以下步骤:
步骤1101,获取训练样本,训练样本中包括样本文本和对应的多个样本视频。
其中,样本文本标注有多个样本视频与样本文本之间的相关性标注信息。
步骤1102,采用搜索模型对多个样本视频分别进行特征提取,得到局部特征和语义特征,以及对局部特征和语义特征进行融合,得到融合特征。
其中,局部特征用于表征对应样本视频的风格、外观中的至少一项,语义特征用于表征对应样本视频中内容主体所属的类别。
步骤1103,根据样本文本的特征与各样本视频的融合特征,确定样本文本与各样本视频之间的相关性预测信息。
步骤1101至1103的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
步骤1104,根据相关性标注信息,从多个样本视频中确定标注相关视频和标注非相关视频。
在本公开实施例中,可以根据相关性标注信息,从多个样本视频中确定标注相关视频和标注非相关视频。
作为一种示例,当相关性标注信息用于指示样本视频与该样本文本之间的相关性得分时,可以将相关性得分高于设定得分的样本视频作为标注相关视频,将相关性得分未高于设定得分的样本视频作为标注非相关视频。
作为另一种示例,当相关性标注信息用于指示样本视频与样本文本是否相关时,可以将与样本文本相关的样本视频作为标注相关视频,将与样本文本不相关的样本视频作为标注非相关视频。
步骤1105,根据相关性预测信息,确定样本文本与标注相关视频之间的相关度,以及与标注非相关视频之间的相关度。
在本公开实施例中,可以根据相关性预测信息,确定样本文本与标注相关视频之间的相关度,并根据相关性预测信息,确定样本文本与标注非相关视频之间的相关度。
作为一种示例,当相关性预测信息用于指示样本视频与样本文本之间的相关性得分时,样本文本与标注相关视频之间的相关度,和样本文本与标注相关视频之间的相关性得分成正向关系(即呈正相关关系),以及,样本文本与标注非相关视频之间的相关度,和样本文本与该标注非相关视频之间的相关性得分成正向关系。
步骤1106,根据样本文本与标注相关视频之间的相关度,以及与标注非相关视频之间的相关度,确定第二损失函数。
在本公开实施例中,可以根据样本文本与标注相关视频之间的相关度,以及样本文本与标注非相关视频之间的相关度,确定第二损失函数。比如,第二损失函数可以为三元组triplet损失函数。
作为一种示例,第二损失函数L2可以如下所示:
L2=max(0,m+d1-d2);
其中,m为设定的阈值,d1为样本文本与标注相关视频之间的相关度,d2为样本文本与标注非相关视频之间的相关度。训练目标为:拉近样本文本与标注相关视频(即正例)之间的距离,推远样本文本与标注非相关视频(即负例)之间的距离。
步骤1107,根据第二损失函数对搜索模型进行模型参数调整。
在本公开实施例中,可以根据第二损失函数,对搜索模型中的模型参数进行调整,以使第二损失函数的取值最小化。
需要说明的是,上述仅以搜索模型训练的终止条件为第二损失函数的取值最小化进行示例,实际应用时,也可以设置其他的终止条件,比如,终止条件可以为训练次数达到设定次数,或者,终止条件可以训练时长达到设定时长,等等,本公开对此并不做限制。
还需要说明的是,还可以结合第一损失函数和第二损失函数,对搜索模型进行模型参数调整,以提升搜索模型的训练效果,从而提升搜索模型预测结果的准确性和可靠性。
本公开实施例的模型训练方法,通过根据样本文本与标注相关视频之间的相关度,以及与标注非相关视频之间的相关度,确定第二损失函数,根据第二损失函数对搜索模型进行训练,可以实现拉近样本文本与标注相关视频(即正例)之间的距离,推远样本文本与标注非相关视频(即负例)之间的距离,从而使得模型学习到文本与正例之间的相关关系,以及文本与负例之间的非相关关系,进而提升搜索模型预测结果的准确性。
作为一种示例,可以采用双塔模型分别对文本和视频进行编码,其中,可以采用文本编码器(比如BERT(Bidirectional Encoder Representations from Transformers,基于机器翻译的双向编码表示)文本模型)对文本进行编码,得到文本特征;在对视频进行编码时,可以首先对视频进行抽帧,并采用视频帧编码器或图像编码器(比如Swin-Transformer)对抽取的视频帧进行图像编码,得到视频帧的语义特征,同时,还可以采用视频编码器(比如视频video Swin-Transformer)对视频进行编码,得到视频的语义特征,并且,可以对视频帧编码器和视频编码器增加一个局部分支网络,来提取浅层特征(即局部特征),并将浅层特征和深层特征(视频帧的语义特征和视频的语义特征)进行融合,得到视频的融合特征,并将融合特征与文本特征进行对齐,以进行文本和视频的相关性计算。
其中,局部分支网络的设计为存在交叠的窗口注意力计算和空间注意力计算,局部分支网络的结构可以如图4所示。
作为一种示例,如图12所示,可以通过以下步骤对搜索模型进行训练:
1、采用搜索模型中的本文编码器对文本进行特征提取,得到文本特征;
2、采用搜索模型中的图像编码器(即图像特征提取网络)对视频帧中的视频帧进行特征提取,得到视频帧的语义特征;
3、采用搜索模型中的第一局部分支网络对视频帧进行特征提取,得到视频帧的局部特征;
4、采用搜索模型中的视频编码器(即视频特征提取网络)对视频进行特征提取,得到视频的语义特征;
5、采用搜索模型中的第二局部分支网络对视频进行特征提取,得到视频的局部特征;
6、采用搜索模型中的融合Fusion网络(比如Fusion Transformer),将步骤2-5中的特征进行融合,以得到视频的融合特征;
7、根据步骤1和步骤6中特征之间的相关性,采用Smooth-AP损失Loss与tripletLoss,对搜索模型中的模型参数进行调整。
本公开中,可以采用Smooth-AP Loss和triplet Loss对搜索模型进行交替训练,比如,可以先采用Smooth-AP Loss对搜索模型进行训练,训练一定时长后,再采用tripletLoss对搜索模型进行训练。其中,triplet Loss是三元组损失,三元分别为样本文本、样本正例(即标注相关视频)与样本负例(即标注非相关视频),优化目标是拉近样本文本与样本正例之间的距离,推远样本文本与样本负例之间的距离,是一种度量损失;Smooth-AP Loss是直接优化检索指标AP的损失,是一种排序损失。采用两种损失函数相结合的方式,来监督模型优化,使得训练的模型能够更好地在下游的检索任务中应用。
可选地,还可以对训练集进行提纯,以进一步提升模型的训练效果。比如,可以将与同一样本文本相关的所有视频,采用一个初步的视觉特征进行相关度搜索,得到至少一个聚簇,即根据初步的视觉特征,将与同一样本文本相关的所有视频进行聚类,得到至少一个聚簇。之后,可以按照各个聚簇的规模,对各个聚簇进行分类,相关度较高的视频一般会落在最大的聚簇中,可以将最大的聚簇作为样本正例。剩下的小规模的聚簇,可以通过采样的方式进行筛选,将样本正例归于规模最大的聚簇中,同时挑选出一些样本负例,这些样本负例是较好的困难样本。
综上,采用深度搜索方式进行视觉特征聚类,以提存训练集,同时挖掘高质量的困难样本,从而可以根据提存的训练集和困难样本对搜索模型进行训练,以提升模型的训练效果,即提升模型的预测精度。采用triplet Loss和Smooth-AP Loss联合训练,可以提升模型在跨模态检索时的检索效果。在模型结构方面,对视频帧编码器和视频编码器均设计一个局部分支网络来提取视频的风格、外观等局部特征,并将局部特征与视频的语义特征进行融合,可以进一步提升视频搜索效果或视频检索效果,即提升视频检索结果的准确性。
与上述图1至图5实施例提供的搜索方法相对应,本公开还提供一种搜索装置,由于本公开实施例提供的搜索装置与上述图1至图5实施例提供的搜索方法相对应,因此在搜索方法的实施方式也适用于本公开实施例提供的搜索装置,在本公开实施例中不再详细描述。
图13为本公开实施例十一所提供的搜索装置的结构示意图。
如图13所示,该搜索装置1300可以包括:第一获取模块1301、第二获取模块1302、融合模块1303以及确定模块1304。
其中,第一获取模块1301,用于获取搜索文本以及多个候选视频。
第二获取模块1302,用于获取对多个候选视频分别进行特征提取得到的局部特征和语义特征,其中,局部特征用于表征对应候选视频的风格、外观中的至少一项,语义特征用于表征对应候选视频中内容主体所属的类别。
融合模块1303,用于对局部特征和语义特征进行特征融合,以得到融合特征。
确定模块1304,用于根据搜索文本的特征与各候选视频的融合特征之间的相关性,从多个候选视频中确定与搜索文本匹配的目标视频。
在本公开实施例的一种可能的实现方式中,第二获取模块1302,可以包括:
第一输入单元,用于将多个候选视频中任意的一个作为输入视频,并输入视频特征提取网络,以得到输入视频的语义特征。
第二输入单元,用于将输入视频中的至少一个视频帧输入图像特征提取网络,以得到输入视频中至少一个视频帧的语义特征。
第三输入单元,用于将至少一个视频帧中的各视频帧分别输入第一局部分支网络,以得到各视频帧的局部特征。
第四输入单元,用于将输入视频输入第二局部分支网络,以得到输入视频的局部特征。
在本公开实施例的一种可能的实现方式中,第三输入单元,具体用于:对任一视频帧,根据各像素点在多个色彩通道上的像素值,生成第一数组;其中,第一数组中的元素为像素值,各元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;采用滑动窗口将第一数组,划分为多个第一子数组,其中,相邻第一子数组之间存在交叠元素;采用第一局部分支网络的特征提取层分别对各第一子数组进行特征提取;采用第一局部分支网络的窗口合并层,将各第一子数组的特征进行融合;将融合后的特征输入第一局部分支网络的输出层,以得到视频帧的局部特征。
在本公开实施例的一种可能的实现方式中,第四输入单元,具体用于:根据输入视频中各视频帧,生成第二数组;其中,第二数组中的元素为像素值,各元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;采用滑动窗口将第二数组,划分为多个第二子数组,其中,相邻第二子数组之间存在交叠元素;采用第二局部分支网络的特征提取层分别对各第二子数组进行特征提取;采用第二局部分支网络的窗口合并层,将各第二子数组的特征进行融合;将融合后的特征输入第二局部分支网络的输出层,以得到输入视频的局部特征。
在本公开实施例的一种可能的实现方式中,特征提取层包括至少一层编码层,编码层包括多头自注意力模块MSA和前馈网络FFN。
在本公开实施例的一种可能的实现方式中,输出层采用分段线性函数作为激活函数。
本公开实施例的搜索装置,通过获取对多个候选视频分别进行特征提取得到的局部特征和语义特征,其中,局部特征用于表征对应候选视频的风格、外观中的至少一项,语义特征用于表征对应候选视频中内容主体所属的类别;对局部特征和语义特征进行特征融合,以得到融合特征。由此,在根据文本搜索视频的场景下,同时基于各候选视频的语义特征(即深层特征)和用于表征视频的风格和/或外观的局部特征(即浅层特征),从各候选视频中确定与搜索文本匹配的目标视频,可以提升确定结果的可靠性,从而使得视频搜索结果能够满足用户的实际搜索需求,改善用户的搜索体验。
与上述图6至图11实施例提供的模型训练方法相对应,本公开还提供一种模型训练装置,由于本公开实施例提供的模型训练装置与上述图6至图11实施例提供的模型训练提供的模型训练装置,在本公开实施例中不再详细描述。
图14为本公开实施例十二所提供的模型训练装置的结构示意图。
如图14所示,该模型训练装置1400可以包括:获取模块1401、处理模块1402、确定模块1403以及调整模块1404。
其中,获取模块1401,用于获取训练样本,训练样本中包括样本文本和对应的多个样本视频,其中,样本文本标注有多个样本视频与样本文本之间的相关性标注信息。
处理模块1402,用于采用搜索模型对多个样本视频分别进行特征提取,得到局部特征和语义特征,以及对局部特征和语义特征进行融合,得到融合特征;其中,局部特征用于表征对应样本视频的风格、外观中的至少一项,语义特征用于表征对应样本视频中内容主体所属的类别。
确定模块1403,用于根据样本文本的特征与各样本视频的融合特征,确定样本文本与各样本视频之间的相关性预测信息。
调整模块1404,用于根据相关性标注信息和相关性预测信息之间的差异,对搜索模型进行模型参数调整。
在本公开实施例的一种可能的实现方式中,处理模块1402,可以包括:
第一输入单元,用于将多个样本视频中任意的一个作为输入视频,输入搜索模型的视频特征提取网络,以得到输入视频的语义特征。
第二输入单元,用于将输入视频中的至少一个视频帧输入搜索模型的图像特征提取网络,以得到输入视频中至少一个视频帧的语义特征。
第三输入单元,用于将至少一个视频帧中的各视频帧分别输入搜索模型的第一局部分支网络,以得到各视频帧的局部特征。
第四输入单元,用于将输入视频输入搜索模型的第二局部分支网络,以得到输入视频的局部特征。
在本公开实施例的一种可能的实现方式中,第三输入单元,具体用于:对任一视频帧,根据各像素点在多个色彩通道上的像素值,生成第一数组;其中,第一数组中的元素为像素值,各元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;采用滑动窗口将第一数组,划分为多个第一子数组,其中,相邻第一子数组之间存在交叠元素;采用第一局部分支网络的特征提取层分别对各第一子数组进行特征提取;采用第一局部分支网络的窗口合并层,将各第一子数组的特征进行融合;将融合后的特征输入第一局部分支网络的输出层,以得到视频帧的局部特征。
在本公开实施例的一种可能的实现方式中,第四输入单元,具体用于:根据输入视频中各视频帧,生成第二数组;其中,第二数组中的元素为像素值,各元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;采用滑动窗口将第二数组,划分为多个第二子数组,其中,相邻第二子数组之间存在交叠元素;采用第二局部分支网络的特征提取层分别对各第二子数组进行特征提取;采用第二局部分支网络的窗口合并层,将各第二子数组的特征进行融合;将融合后的特征输入第二局部分支网络的输出层,以得到输入视频的局部特征。
在本公开实施例的一种可能的实现方式中,调整模块1404,具体用于:根据相关性预测信息,确定多个样本视频与样本文本之间相关性的预测排序;根据相关性标注信息,确定多个样本视频与样本文本之间相关性的标注排序;根据标注排序和预测排序之间的差异生成第一损失函数;根据第一损失函数对搜索模型进行模型参数调整。
在本公开实施例的一种可能的实现方式中,调整模块,具体用于:根据相关性标注信息,从多个样本视频中确定标注相关视频和标注非相关视频;根据相关性预测信息,确定样本文本与标注相关视频之间的相关度,以及与标注非相关视频之间的相关度;根据样本文本与标注相关视频之间的相关度,以及与标注非相关视频之间的相关度,确定第二损失函数;根据第二损失函数对搜索模型进行模型参数调整。
本公开实施例的搜索装置,通过采用搜索模型对训练样本中的多个样本视频分别进行特征提取,得到局部特征和语义特征,以及对局部特征和语义特征进行融合,得到融合特征;根据训练样本中样本文本的特征与各样本视频的融合特征,确定样本文本与各样本视频之间的相关性预测信息;根据样本文本标注的相关性标注信息和相关性预测信息之间的差异,对搜索模型进行模型参数调整。由此,采用深度学习技术,提取视频特征,可以提升特征提取的准确性和可靠性。此外,同时基于视频的语义特征(即深层特征)和用于表征视频的风格和/或外观的局部特征(浅层特征),来确定视频与文本之间的相关性预测信息,可以提升相关性预测信息确定的可靠性,从而根据可靠性的相关性预测信息对搜索模型进行训练,可以提升模型的训练效率。
为了实现上述实施例,本公开还提供一种电子设备,该电子设备可以包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开上述任一实施例提出的搜索方法或模型训练方法。
为了实现上述实施例,本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开上述任一实施例提出的搜索方法或模型训练方法。
为了实现上述实施例,本公开还提供一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现本公开上述任一实施例提出的搜索方法或模型训练方法。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图15示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图15所示,电子设备1500包括计算单元1501,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)1502中的计算机程序或者从存储单元1508加载到RAM(Random AccessMemory,随机访问/存取存储器)1503中的计算机程序,来执行各种适当的动作和处理。在RAM 1503中,还可存储电子设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。I/O(Input/Output,输入/输出)接口1505也连接至总线1504。
电子设备1500中的多个部件连接至I/O接口1505,包括:输入单元1506,例如键盘、鼠标等;输出单元1507,例如各种类型的显示器、扬声器等;存储单元1508,例如磁盘、光盘等;以及通信单元1509,例如网卡、调制解调器、无线通信收发机等。通信单元1509允许电子设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理,例如上述搜索方法或模型训练方法。例如,在一些实施例中,上述搜索方法或模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1508。在一些实施例中,计算机程序的部分或者全部可以经由ROM1502和/或通信单元1509而被载入和/或安装到电子设备1500上。当计算机程序加载到RAM1503并由计算单元1501执行时,可以执行上文描述的搜索方法或模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述搜索方法或模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(VirtualPrivate Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
根据本公开实施例的技术方案,通过获取对多个候选视频分别进行特征提取得到的局部特征和语义特征,其中,局部特征用于表征对应候选视频的风格、外观中的至少一项,语义特征用于表征对应候选视频中内容主体所属的类别;对局部特征和语义特征进行特征融合,以得到融合特征。由此,在根据文本搜索视频的场景下,同时基于各候选视频的语义特征(即深层特征)和用于表征视频的风格和/或外观的局部特征(即浅层特征),从各候选视频中确定与搜索文本匹配的目标视频,可以提升确定结果的可靠性,从而使得视频搜索结果能够满足用户的实际搜索需求,改善用户的搜索体验。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提出的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (27)

1.一种搜索方法,包括:
获取搜索文本以及多个候选视频;
获取对所述多个候选视频分别进行特征提取得到的局部特征和语义特征,其中,所述局部特征用于表征对应候选视频的风格、外观中的至少一项,所述语义特征用于表征对应候选视频中内容主体所属的类别;
对所述局部特征和所述语义特征进行特征融合,以得到融合特征;
根据所述搜索文本的特征与各所述候选视频的融合特征之间的相关性,从所述多个候选视频中确定与所述搜索文本匹配的目标视频。
2.根据权利要求1所述的方法,其中,所述获取对所述多个候选视频分别进行特征提取得到的局部特征和语义特征,包括:
将所述多个候选视频中任意的一个作为输入视频,并输入视频特征提取网络,以得到所述输入视频的语义特征;
将所述输入视频中的至少一个视频帧输入图像特征提取网络,以得到所述输入视频中至少一个视频帧的语义特征;
将所述至少一个视频帧中的各视频帧分别输入第一局部分支网络,以得到各所述视频帧的局部特征;
将所述输入视频输入第二局部分支网络,以得到所述输入视频的局部特征。
3.根据权利要求2所述的方法,其中,所述将所述至少一个视频帧中的各视频帧分别输入第一局部分支网络,以得到各所述视频帧的局部特征,包括:
对任一所述视频帧,根据各像素点在多个色彩通道上的像素值,生成第一数组;其中,所述第一数组中的元素为像素值,各所述元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第一数组,划分为多个第一子数组,其中,相邻第一子数组之间存在交叠元素;
采用所述第一局部分支网络的特征提取层分别对各所述第一子数组进行特征提取;
采用所述第一局部分支网络的窗口合并层,将各所述第一子数组的特征进行融合;
将所述融合后的特征输入所述第一局部分支网络的输出层,以得到所述视频帧的局部特征。
4.根据权利要求2所述的方法,其中,所述将所述输入视频输入第二局部分支网络,以得到所述输入视频的局部特征,包括:
根据所述输入视频中各视频帧,生成第二数组;其中,所述第二数组中的元素为像素值,各所述元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第二数组,划分为多个第二子数组,其中,相邻第二子数组之间存在交叠元素;
采用所述第二局部分支网络的特征提取层分别对各所述第二子数组进行特征提取;
采用所述第二局部分支网络的窗口合并层,将各所述第二子数组的特征进行融合;
将所述融合后的特征输入所述第二局部分支网络的输出层,以得到所述输入视频的局部特征。
5.根据权利要求3或4所述的方法,其中,所述特征提取层包括至少一层编码层,所述编码层包括多头自注意力模块MSA和前馈网络FFN。
6.根据权利要求3或4所述的方法,其中,所述输出层采用分段线性函数作为激活函数。
7.一种模型训练方法,包括:
获取训练样本,所述训练样本中包括样本文本和对应的多个样本视频,其中,所述样本文本标注有所述多个样本视频与所述样本文本之间的相关性标注信息;
采用搜索模型对所述多个样本视频分别进行特征提取,得到局部特征和语义特征,以及对所述局部特征和所述语义特征进行融合,得到融合特征;其中,所述局部特征用于表征对应样本视频的风格、外观中的至少一项,所述语义特征用于表征对应样本视频中内容主体所属的类别;
根据所述样本文本的特征与各所述样本视频的融合特征,确定所述样本文本与各所述样本视频之间的相关性预测信息;
根据所述相关性标注信息和所述相关性预测信息之间的差异,对所述搜索模型进行模型参数调整。
8.根据权利要求7所述的方法,其中,所述采用搜索模型对所述多个样本视频分别进行特征提取,得到局部特征和语义特征,包括:
将所述多个样本视频中任意的一个作为输入视频,输入所述搜索模型的视频特征提取网络,以得到所述输入视频的语义特征;
将所述输入视频中的至少一个视频帧输入所述搜索模型的图像特征提取网络,以得到所述输入视频中至少一个视频帧的语义特征;
将所述至少一个视频帧中的各视频帧分别输入所述搜索模型的第一局部分支网络,以得到各所述视频帧的局部特征;
将所述输入视频输入所述搜索模型的第二局部分支网络,以得到所述输入视频的局部特征。
9.根据权利要求8所述的方法,其中,所述将所述至少一个视频帧中的各视频帧分别输入第一局部分支网络,以得到各所述视频帧的局部特征,包括:
对任一所述视频帧,根据各像素点在多个色彩通道上的像素值,生成第一数组;其中,所述第一数组中的元素为像素值,各所述元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第一数组,划分为多个第一子数组,其中,相邻第一子数组之间存在交叠元素;
采用所述第一局部分支网络的特征提取层分别对各所述第一子数组进行特征提取;
采用所述第一局部分支网络的窗口合并层,将各所述第一子数组的特征进行融合;
将所述融合后的特征输入所述第一局部分支网络的输出层,以得到所述视频帧的局部特征。
10.根据权利要求8所述的方法,其中,所述将所述输入视频输入第二局部分支网络,以得到所述输入视频的局部特征,包括:
根据所述输入视频中各视频帧,生成第二数组;其中,所述第二数组中的元素为像素值,各所述元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第二数组,划分为多个第二子数组,其中,相邻第二子数组之间存在交叠元素;
采用所述第二局部分支网络的特征提取层分别对各所述第二子数组进行特征提取;
采用所述第二局部分支网络的窗口合并层,将各所述第二子数组的特征进行融合;
将所述融合后的特征输入所述第二局部分支网络的输出层,以得到所述输入视频的局部特征。
11.根据权利要求7-10中任一项所述的方法,其中,所述根据所述相关性标注信息和所述相关性预测信息之间的差异,对所述搜索模型进行模型参数调整,包括:
根据所述相关性预测信息,确定所述多个样本视频与所述样本文本之间相关性的预测排序;
根据所述相关性标注信息,确定所述多个样本视频与所述样本文本之间相关性的标注排序;
根据所述标注排序和所述预测排序之间的差异生成第一损失函数;
根据所述第一损失函数对所述搜索模型进行模型参数调整。
12.根据权利要求7-10中任一项所述的方法,其中,所述根据所述相关性标注信息和所述相关性预测信息之间的差异,对所述搜索模型进行模型参数调整,包括:
根据所述相关性标注信息,从所述多个样本视频中确定标注相关视频和标注非相关视频;
根据所述相关性预测信息,确定所述样本文本与所述标注相关视频之间的相关度,以及与所述标注非相关视频之间的相关度;
根据所述样本文本与所述标注相关视频之间的相关度,以及与所述标注非相关视频之间的相关度,确定第二损失函数;
根据所述第二损失函数对所述搜索模型进行模型参数调整。
13.一种搜索装置,包括:
第一获取模块,用于获取搜索文本以及多个候选视频;
第二获取模块,用于获取对所述多个候选视频分别进行特征提取得到的局部特征和语义特征,其中,所述局部特征用于表征对应候选视频的风格、外观中的至少一项,所述语义特征用于表征对应候选视频中内容主体所属的类别;
融合模块,用于对所述局部特征和所述语义特征进行特征融合,以得到融合特征;
确定模块,用于根据所述搜索文本的特征与各所述候选视频的融合特征之间的相关性,从所述多个候选视频中确定与所述搜索文本匹配的目标视频。
14.根据权利要求13所述的装置,其中,所述第二获取模块,包括:
第一输入单元,用于将所述多个候选视频中任意的一个作为输入视频,并输入视频特征提取网络,以得到所述输入视频的语义特征;
第二输入单元,用于将所述输入视频中的至少一个视频帧输入图像特征提取网络,以得到所述输入视频中至少一个视频帧的语义特征;
第三输入单元,用于将所述至少一个视频帧中的各视频帧分别输入第一局部分支网络,以得到各所述视频帧的局部特征;
第四输入单元,用于将所述输入视频输入第二局部分支网络,以得到所述输入视频的局部特征。
15.根据权利要求14所述的装置,其中,所述第三输入单元,具体用于:
对任一所述视频帧,根据各像素点在多个色彩通道上的像素值,生成第一数组;其中,所述第一数组中的元素为像素值,各所述元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第一数组,划分为多个第一子数组,其中,相邻第一子数组之间存在交叠元素;
采用所述第一局部分支网络的特征提取层分别对各所述第一子数组进行特征提取;
采用所述第一局部分支网络的窗口合并层,将各所述第一子数组的特征进行融合;
将所述融合后的特征输入所述第一局部分支网络的输出层,以得到所述视频帧的局部特征。
16.根据权利要求14所述的装置,其中,所述第四输入单元,具体用于:
根据所述输入视频中各视频帧,生成第二数组;其中,所述第二数组中的元素为像素值,各所述元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第二数组,划分为多个第二子数组,其中,相邻第二子数组之间存在交叠元素;
采用所述第二局部分支网络的特征提取层分别对各所述第二子数组进行特征提取;
采用所述第二局部分支网络的窗口合并层,将各所述第二子数组的特征进行融合;
将所述融合后的特征输入所述第二局部分支网络的输出层,以得到所述输入视频的局部特征。
17.根据权利要求15或16所述的装置,其中,所述特征提取层包括至少一层编码层,所述编码层包括多头自注意力模块MSA和前馈网络FFN。
18.根据权利要求15或16所述的装置,其中,所述输出层采用分段线性函数作为激活函数。
19.一种模型训练装置,包括:
获取模块,用于获取训练样本,所述训练样本中包括样本文本和对应的多个样本视频,其中,所述样本文本标注有所述多个样本视频与所述样本文本之间的相关性标注信息;
处理模块,用于采用搜索模型对所述多个样本视频分别进行特征提取,得到局部特征和语义特征,以及对所述局部特征和所述语义特征进行融合,得到融合特征;其中,所述局部特征用于表征对应样本视频的风格、外观中的至少一项,所述语义特征用于表征对应样本视频中内容主体所属的类别;
确定模块,用于根据所述样本文本的特征与各所述样本视频的融合特征,确定所述样本文本与各所述样本视频之间的相关性预测信息;
调整模块,用于根据所述相关性标注信息和所述相关性预测信息之间的差异,对所述搜索模型进行模型参数调整。
20.根据权利要求19所述的装置,其中,所述处理模块,包括:
第一输入单元,用于将所述多个样本视频中任意的一个作为输入视频,输入所述搜索模型的视频特征提取网络,以得到所述输入视频的语义特征;
第二输入单元,用于将所述输入视频中的至少一个视频帧输入所述搜索模型的图像特征提取网络,以得到所述输入视频中至少一个视频帧的语义特征;
第三输入单元,用于将所述至少一个视频帧中的各视频帧分别输入所述搜索模型的第一局部分支网络,以得到各所述视频帧的局部特征;
第四输入单元,用于将所述输入视频输入所述搜索模型的第二局部分支网络,以得到所述输入视频的局部特征。
21.根据权利要求20所述的装置,其中,所述第三输入单元,具体用于:
对任一所述视频帧,根据各像素点在多个色彩通道上的像素值,生成第一数组;其中,所述第一数组中的元素为像素值,各所述元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第一数组,划分为多个第一子数组,其中,相邻第一子数组之间存在交叠元素;
采用所述第一局部分支网络的特征提取层分别对各所述第一子数组进行特征提取;
采用所述第一局部分支网络的窗口合并层,将各所述第一子数组的特征进行融合;
将所述融合后的特征输入所述第一局部分支网络的输出层,以得到所述视频帧的局部特征。
22.根据权利要求20所述的装置,其中,所述第四输入单元,具体用于:
根据所述输入视频中各视频帧,生成第二数组;其中,所述第二数组中的元素为像素值,各所述元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第二数组,划分为多个第二子数组,其中,相邻第二子数组之间存在交叠元素;
采用所述第二局部分支网络的特征提取层分别对各所述第二子数组进行特征提取;
采用所述第二局部分支网络的窗口合并层,将各所述第二子数组的特征进行融合;
将所述融合后的特征输入所述第二局部分支网络的输出层,以得到所述输入视频的局部特征。
23.根据权利要求19-22中任一项所述的装置,其中,所述调整模块,具体用于:
根据所述相关性预测信息,确定所述多个样本视频与所述样本文本之间相关性的预测排序;
根据所述相关性标注信息,确定所述多个样本视频与所述样本文本之间相关性的标注排序;
根据所述标注排序和所述预测排序之间的差异生成第一损失函数;
根据所述第一损失函数对所述搜索模型进行模型参数调整。
24.根据权利要求19-22中任一项所述的装置,其中,所述调整模块,具体用于:
根据所述相关性标注信息,从所述多个样本视频中确定标注相关视频和标注非相关视频;
根据所述相关性预测信息,确定所述样本文本与所述标注相关视频之间的相关度,以及与所述标注非相关视频之间的相关度;
根据所述样本文本与所述标注相关视频之间的相关度,以及与所述标注非相关视频之间的相关度,确定第二损失函数;
根据所述第二损失函数对所述搜索模型进行模型参数调整。
25.一种电子设备,其中,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法,或者,执行权利要求7-12中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法,或者,执行根据权利要求7-12中任一项所述的方法。
27.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述方法的步骤,或者,实现根据权利要求7-12中任一项所述方法的步骤。
CN202210618907.9A 2022-06-01 2022-06-01 搜索方法、模型训练方法、装置、电子设备和介质 Pending CN115033739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210618907.9A CN115033739A (zh) 2022-06-01 2022-06-01 搜索方法、模型训练方法、装置、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210618907.9A CN115033739A (zh) 2022-06-01 2022-06-01 搜索方法、模型训练方法、装置、电子设备和介质

Publications (1)

Publication Number Publication Date
CN115033739A true CN115033739A (zh) 2022-09-09

Family

ID=83123780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210618907.9A Pending CN115033739A (zh) 2022-06-01 2022-06-01 搜索方法、模型训练方法、装置、电子设备和介质

Country Status (1)

Country Link
CN (1) CN115033739A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937742A (zh) * 2022-11-28 2023-04-07 北京百度网讯科技有限公司 视频场景分割、视觉任务处理方法、装置、设备以及介质
CN116578729A (zh) * 2023-07-13 2023-08-11 腾讯科技(深圳)有限公司 内容搜索方法、装置、电子设备、存储介质和程序产品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937742A (zh) * 2022-11-28 2023-04-07 北京百度网讯科技有限公司 视频场景分割、视觉任务处理方法、装置、设备以及介质
CN115937742B (zh) * 2022-11-28 2024-04-12 北京百度网讯科技有限公司 视频场景分割、视觉任务处理方法、装置、设备以及介质
CN116578729A (zh) * 2023-07-13 2023-08-11 腾讯科技(深圳)有限公司 内容搜索方法、装置、电子设备、存储介质和程序产品
CN116578729B (zh) * 2023-07-13 2023-11-28 腾讯科技(深圳)有限公司 内容搜索方法、装置、电子设备、存储介质和程序产品

Similar Documents

Publication Publication Date Title
US11836996B2 (en) Method and apparatus for recognizing text
CN111400591B (zh) 资讯信息推荐方法、装置、电子设备及存储介质
CN115033739A (zh) 搜索方法、模型训练方法、装置、电子设备和介质
CN111241285B (zh) 问题回答类型的识别方法、装置、设备及存储介质
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
CN114549874A (zh) 多目标图文匹配模型的训练方法、图文检索方法及装置
CN115688920B (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
KR20210091076A (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
CN113254684B (zh) 一种内容时效的确定方法、相关装置、设备以及存储介质
US11789985B2 (en) Method for determining competitive relation of points of interest, device
CN114254158A (zh) 视频生成方法及其装置、神经网络的训练方法及其装置
CN113806588A (zh) 搜索视频的方法和装置
CN112380104A (zh) 用户属性识别方法、装置、电子设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN113919361B (zh) 一种文本分类方法和装置
CN113919360A (zh) 语义理解方法、语音交互方法、装置、设备及存储介质
CN114898266A (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN111832358A (zh) 一种点云语义解析方法和装置
CN114627556B (zh) 动作检测方法、动作检测装置、电子设备以及存储介质
CN115482436A (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
CN115618079A (zh) 会话推荐方法、装置、电子设备及存储介质
CN114842541A (zh) 模型的训练及人脸识别方法、装置、设备以及存储介质
CN113919446A (zh) 多媒体资源的模型训练及相似度确定方法和装置
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination