CN116229313A - 标签构建模型的生成方法、装置、电子设备和存储介质 - Google Patents
标签构建模型的生成方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116229313A CN116229313A CN202310092655.5A CN202310092655A CN116229313A CN 116229313 A CN116229313 A CN 116229313A CN 202310092655 A CN202310092655 A CN 202310092655A CN 116229313 A CN116229313 A CN 116229313A
- Authority
- CN
- China
- Prior art keywords
- label
- resource
- sample
- feature
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开关于标签构建模型的生成方法、装置、电子设备和存储介质,该方法包括:获取多个样本多媒体资源和每个样本多媒体资源对应的预设资源标签,通过第一待训练模型生成每个样本多媒体资源对应的目标资源标签,并基于预设资源标签,通过第二待训练模型对目标资源标签进行标签检测,得到标签检测结果。通过标签检测结果确定正样本标签信息和负样本标签信息,并基于目标资源标签、预设资源标签、样本多媒体资源、正样本标签信息和负样本标签信息,对第一待训练模型和第二待训练模型进行模型训练,得到第一待训练模型对应的标签构建模型。该方法可以提高多媒体资源的标签多样性并提高标签构建的准确性。
Description
技术领域
本公开涉及机器学习技术领域,尤其涉及标签构建模型的生成方法、装置、电子设备和存储介质。
背景技术
在短视频平台或者中长视频平台上,视频数据量级都十分庞大,通过对视频进行打标签,可以利用标签从多个维度对视频进行刻画,从而便于对视频进行管理、推荐以及展示等,相关技术中,在确定视频的标签时,通常需要基于人工筛选高质量标签,并基于高质量标签对视频进行分类,但存在视频只能选择人工筛选的标签作为自己的标签的问题,导致多媒体资源标签的多样性低。
发明内容
本公开提供标签构建模型的生成方法、装置、电子设备和存储介质,以至少解决相关技术中多媒体资源标签的多样性低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种标签构建模型的生成方法,所述方法包括;
获取多个样本多媒体资源和每个所述样本多媒体资源对应的预设资源标签;
对每个所述样本多媒体资源进行多模态特征提取,得到每个所述样本多媒体资源对应的样本多模态特征;
将所述样本多模态特征输入到第一待训练模型中进行资源标签构建,得到每个所述样本多媒体资源对应的目标资源标签;
将所述目标资源标签、所述预设资源标签和所述样本多模态特征输入到第二待训练模型中进行标签检测处理,得到标签检测结果,所述标签检测结果指示每个所述样本多媒体资源对应的所述目标资源标签与每个所述样本多媒体资源间的匹配情况;
基于所述标签检测结果,将第一多媒体资源对应的所述目标资源标签和所述第一多媒体资源对应的所述预设资源标签作为正样本标签信息,以及将第二多媒体资源对应的所述目标资源标签和所述第二多媒体资源对应的所述预设资源标签作为负样本标签信息;所述第一多媒体资源为与所述目标资源标签匹配的样本多媒体资源,所述第二多媒体资源为与所述目标资源标签不匹配的样本多媒体资源;
基于所述目标资源标签、所述预设资源标签、所述样本多媒体资源、所述正样本标签信息和所述负样本标签信息,对所述第一待训练模型和所述第二待训练模型进行模型训练,得到所述标签构建模型,所述标签构建模型包括所述第一待训练模型对应的标签提取网络和所述第二待训练模型对应的对比学习网络。
作为一个可选的实施例,所述第二待训练模型包括标签特征提取层、相似度确定层和标签检测层,所述将所述目标资源标签、所述预设资源标签和所述样本多模态特征输入到第二待训练模型中进行标签检测处理,得到标签检测结果包括:
将所述目标资源标签和所述预设资源标签输入到所述标签特征提取层中分别进行标签特征提取,得到所述目标资源标签对应的第一标签特征和所述预设资源标签对应的第二标签特征;
将所述第一标签特征、所述第二标签特征和所述样本多模态特征输入到所述相似度确定层中进行相似度确定,得到所述目标资源标签和所述样本多媒体资源间的第一特征相似度,以及所述预设资源标签和所述样本多媒体资源间的第二特征相似度;
将所述第一特征相似度和所述第二特征相似度输入到所述标签检测层中进行标签相似度检测处理,得到所述标签检测结果。
作为一个可选的实施例,所述样本多模态特征包括多个按序排列的多模态子特征,所述第一待训练模型包括特征解码层和文本生成层,所述将所述样本多模态特征输入到第一待训练模型中进行资源标签构建,得到每个所述样本多媒体资源对应的目标资源标签包括:
在当前多模态子特征为所述多个按序排列的多模态子特征中的第一个多模态子特征的情况下,将所述第一个多模态子特征输入到所述特征解码层中进行特征解码处理,得到第一个多模态子特征对应的特征解码结果;
在所述当前多模态子特征为所述多个按序排列的多模态子特征中的非第一个多模态子特征的情况下,获取所述当前多模态子特征对应的上一特征解码结果,将所述当前多模态子特征和所述上一特征解码结果输入到所述特征解码层中进行特征解码处理,得到所述当前多模态子特征对应的特征解码结果,其中,所述上一特征解码结果为所述当前多模态子特征的上一多模态子特征对应的特征解码结果;
将所述多个按序排列的多模态子特征中的最后一个多模态子特征对应的特征解码结果输入到所述文本生成层中进行文本生成,得到所述目标资源标签。
作为一个可选的实施例,所述基于所述目标资源标签、所述预设资源标签、所述样本多媒体资源、所述正样本标签信息和所述负样本标签信息,对所述第一待训练模型和所述第二待训练模型进行模型训练,得到所述标签构建模型包括:
基于所述目标资源标签和所述预设资源标签间的差异信息,确定标签生成损失信息;
基于所述样本多媒体资源和所述正样本标签信息间的差异信息,以及所述负样本标签信息中的目标资源标签和所述负样本标签信息中的预设资源标签间的差异信息,确定标签检测损失信息;
基于所述标签生成损失信息和所述标签检测损失信息,对所述第一待训练模型和所述第二待训练模型进行模型训练,得到所述标签构建模型。
作为一个可选的实施例,所述对每个所述样本多媒体资源进行多模态特征提取,得到每个所述样本多媒体资源对应的样本多模态特征包括:
对每个所述样本多媒体资源对应的资源图像信息进行图像特征提取,得到样本图像特征;
对每个所述样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征;
对所述样本图像特征和所述样本文本特征进行特征融合,得到所述样本多媒体资源对应的样本多模态特征。
作为一个可选的实施例,所述资源文本信息包括至少两种类型的文本信息,所述样本文本特征包括多个按序排列的文本子特征,所述对每个所述样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征包括:
对所述样本多媒体资源对应的至少两种类型的文本信息进行文本拼接,得到文本拼接信息;
将所述文本拼接信息中的前预设数目个字符信息输入到文本特征提取模型中进行文本特征提取,得到所述预设数目个字符信息分别对应的文本子特征。
作为一个可选的实施例,所述资源图像信息包括预设数目个按序排列的图像信息,所述样本图像特征包括多个按序排列的图像子特征,所述对每个所述样本多媒体资源对应的资源图像信息进行图像特征提取,得到样本图像特征包括:
将所述预设数目个按序排列的图像信息输入到图像特征提取模型中进行图像特征提取,得到所述预设数目个按序排列的图像信息分别对应的图像子特征。
作为一个可选的实施例,在所述获取样本多媒体资源和所述样本多媒体资源对应的预设资源标签之前,所述方法还包括:
对所述样本多媒体资源进行资源分类处理,得到每个所述样本多媒体资源对应的分类标签;
所述对每个所述样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征包括:
对每个所述样本多媒体资源对应的资源文本信息和所述分类标签进行文本特征提取,得到样本文本特征。
根据本公开实施例的第二方面,提供一种标签构建方法,所述方法包括:
对待处理多媒体资源进行多模态特征提取,得到待处理多模态特征;
将所述待处理多模态特征输入到标签构建模型中的标签提取网络进行资源标签构建,得到所述待处理多媒体资源对应的资源标签,所述标签构建模型为基于权利要求1到8任一项所述的标签构建模型的生成方法生成的;
将所述待处理多媒体资源对应的资源标签和所述待处理多媒体资源输入到所述标签构建模型中的标签检测网络中进行标签检测处理,得到所述资源标签的标签检测结果。
根据本公开实施例的第三方面,提供一种标签构建模型的生成装置,所述装置包括;
样本资源获取模块,被配置为执行获取多个样本多媒体资源和每个所述样本多媒体资源对应的预设资源标签;
样本多模态特征提取模块,被配置为执行对每个所述样本多媒体资源进行多模态特征提取,得到每个所述样本多媒体资源对应的样本多模态特征;
目标资源标签构建模块,被配置为执行将所述样本多模态特征输入到第一待训练模型中进行资源标签构建,得到每个所述样本多媒体资源对应的目标资源标签;
标签检测模块,被配置为执行将所述目标资源标签、所述预设资源标签和所述样本多模态特征输入到第二待训练模型中进行标签检测处理,得到标签检测结果,所述标签检测结果指示每个所述样本多媒体资源对应的所述目标资源标签与每个所述样本多媒体资源间的匹配情况;
样本确定模块,被配置为执行基于所述标签检测结果,将第一多媒体资源对应的所述目标资源标签和所述第一多媒体资源对应的所述预设资源标签作为正样本标签信息,以及将第二多媒体资源对应的所述目标资源标签和所述第二多媒体资源对应的所述预设资源标签作为负样本标签信息;所述第一多媒体资源为与所述目标资源标签匹配的样本多媒体资源,所述第二多媒体资源为与所述目标资源标签不匹配的样本多媒体资源;
模型训练模块,被配置为执行基于所述目标资源标签、所述预设资源标签、所述样本多媒体资源、所述正样本标签信息和所述负样本标签信息,对所述第一待训练模型和所述第二待训练模型进行模型训练,得到所述标签构建模型,所述标签构建模型包括所述第一待训练模型对应的标签提取网络和所述第二待训练模型对应的对比学习网络。
作为一个可选的实施例,所述标签检测模块包括:
标签特征提取单元,被配置为执行将所述目标资源标签和所述预设资源标签输入到所述标签特征提取层中分别进行标签特征提取,得到所述目标资源标签对应的第一标签特征和所述预设资源标签对应的第二标签特征;
相似度确定单元,被配置为执行将所述第一标签特征、所述第二标签特征和所述样本多模态特征输入到所述相似度确定层中进行相似度确定,得到所述目标资源标签和所述样本多媒体资源间的第一特征相似度,以及所述预设资源标签和所述样本多媒体资源间的第二特征相似度;
标签检测处理单元,被配置为执行将所述第一特征相似度和所述第二特征相似度输入到所述标签检测层中进行标签检测处理,得到所述标签检测结果。
作为一个可选的实施例,所述样本多模态特征包括多个按序排列的多模态子特征,所述第一待训练模型包括特征解码层和文本生成层,所述目标资源标签构建模块包括:
第一解码处理单元,被配置为执行在当前多模态子特征为所述多个按序排列的多模态子特征中的第一个多模态子特征的情况下,将所述第一个多模态子特征输入到所述特征解码层中进行特征解码处理,得到第一个多模态子特征对应的特征解码结果;
第二解码处理单元,,被配置为执行在所述当前多模态子特征为所述多个按序排列的多模态子特征中的非第一个多模态子特征的情况下,获取所述当前多模态子特征对应的上一特征解码结果,将所述当前多模态子特征和所述上一特征解码结果输入到所述特征解码层中进行特征解码处理,得到所述当前多模态子特征对应的特征解码结果,其中,所述上一特征解码结果为所述当前多模态子特征的上一多模态子特征对应的特征解码结果;
目标资源标签确定单元,被配置为执行将所述多个按序排列的多模态子特征中的最后一个多模态子特征对应的特征解码结果输入到所述文本生成层进行文本生成,得到所述目标资源标签。
作为一个可选的实施例,所述模型训练模块包括:
生成损失确定单元,被配置为执行基于所述目标资源标签和所述预设资源标签间的差异信息,确定标签生成损失信息;
检测损失确定单元,被配置为执行基于所述样本多媒体资源和所述正样本标签信息间的差异信息,以及所述负样本标签信息中的目标资源标签和所述负样本标签信息中的预设资源标签间的差异信息,确定标签检测损失信息;
模型训练单元,被配置为执行基于所述标签生成损失信息和所述标签检测损失信息,对所述第一待训练模型和所述第二待训练模型进行模型训练,得到所述标签构建模型。
作为一个可选的实施例,所述样本多模态特征提取模块包括:
图像特征提取单元,被配置为执行对每个所述样本多媒体资源对应的资源图像信息进行图像特征提取,得到样本图像特征;
第一文本特征提取单元,被配置为执行对每个所述样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征;
特征融合单元,被配置为执行对所述样本图像特征和所述样本文本特征进行特征融合,得到所述样本多媒体资源对应的样本多模态特征。
作为一个可选的实施例,所述资源文本信息包括至少两种类型的文本信息,所述样本文本特征包括多个按序排列的文本子特征,所述第一文本特征提取单元包括:
文本拼接单元,被配置为执行对所述样本多媒体资源对应的至少两种类型的文本信息进行文本拼接,得到文本拼接信息;
文本子特征提取单元,被配置为执行将所述文本拼接信息中的前预设数目个字符信息输入到文本特征提取模型中进行文本特征提取,得到所述预设数目个字符信息分别对应的文本子特征。
作为一个可选的实施例,所述资源图像信息包括预设数目个按序排列的图像信息,所述样本图像特征包括多个按序排列的图像子特征,所述图像特征提取单元包括:
图像子特征提取单元,被配置为执行将所述预设数目个按序排列的图像信息输入到图像特征提取模型中进行图像特征提取,得到所述预设数目个按序排列的图像信息分别对应的图像子特征。
作为一个可选的实施例,所述装置还包括:
资源分类模块,被配置为执行对所述样本多媒体资源进行资源分类处理,得到每个所述样本多媒体资源对应的分类标签;
所述第一文本特征提取单元包括:
第二文本特征提取单元,被配置为执行对每个所述样本多媒体资源对应的资源文本信息和所述分类标签进行文本特征提取,得到所述样本文本特征。
根据本公开实施例的第四方面,提供一种标签构建装置,所述装置包括;
多模态特征提取模块,被配置为执行对待处理多媒体资源进行多模态特征提取,得到待处理多模态特征;
资源标签构建模块,被配置为执行将所述待处理多模态特征输入到标签构建模型中的标签提取网络进行资源标签构建,得到所述待处理多媒体资源对应的资源标签,所述标签构建模型为基于上述所述的标签构建模型的生成方法生成的;
资源标签检测模块,被配置为执行将所述待处理多媒体资源对应的资源标签和所述待处理多媒体资源输入到所述标签构建模型中的标签检测网络中进行标签检测处理,得到所述资源标签的标签检测结果。
根据本公开实施例的第五方面,提供一种电子设备,所述电子设备包括:处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述的标签构建模型的生成方法和标签构建方法。
根据本公开实施例的第五方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上述的标签构建模型的生成方法和标签构建方法。
根据本公开实施例的第六方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的标签构建模型的生成方法和标签构建方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
获取多个样本多媒体资源和每个样本多媒体资源对应的预设资源标签,通过第一待训练模型生成每个样本多媒体资源对应的目标资源标签,并基于预设资源标签,通过第二待训练模型对目标资源标签进行标签检测,得到标签检测结果。通过标签检测结果确定正样本标签信息和负样本标签信息,并基于目标资源标签、预设资源标签、样本多媒体资源、正样本标签信息和负样本标签信息,对第一待训练模型和第二待训练模型进行模型训练,得到第一待训练模型对应的标签构建模型。该方法可以通过第一待训练模型生成目标资源标签,提高多媒体资源的标签多样性,并通标签检测结果在模型训练时约束目标资源标签,从而提高标签构建的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种标签构建模型的生成方法的应用场景示意图。
图2是根据一示例性实施例示出的一种标签构建模型的生成方法的流程图。
图3是根据一示例性实施例示出的一种标签构建模型的生成方法的多模态特征提取的流程图。
图4是根据一示例性实施例示出的一种标签构建模型的生成方法的文本特征提取的流程图。
图5是根据一示例性实施例示出的一种标签构建模型的生成方法的分类标签确定的流程图。
图6是根据一示例性实施例示出的一种标签构建模型的生成方法的目标资源标签构建的流程图。
图7是根据一示例性实施例示出的一种标签构建模型的生成方法的标签检测的流程图。
图8是根据一示例性实施例示出的一种标签构建模型的生成方法的模型训练的流程图。
图9是根据一示例性实施例示出的一种标签构建方法的流程图。
图10是根据一示例性实施例示出的一种标签构建模型的生成方法的多模态特征提取模型、第一待训练模型和第二待训练模型的结构示意图。
图11是根据一示例性实施例示出的一种标签构建模型的生成装置的框图。
图12是根据一示例性实施例示出的一种标签生成装置的框图。
图13是根据一示例性实施例示出的一种电子设备的框图。(服务器的一般结构)。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种标签构建模型的生成方法的应用场景示意图,该应用场景包括客户端110和服务器120,服务器120从客户端110中获取多个样本多媒体资源和每个样本多媒体资源对应的预设资源标签,服务器120通过第一待训练模型生成每个样本多媒体资源对应的目标资源标签,并基于预设资源标签,通过第二待训练模型对目标资源标签进行标签检测,得到标签检测结果。服务器120通过标签检测结果确定正样本标签信息和负样本标签信息,并基于目标资源标签、预设资源标签、样本多媒体资源、正样本标签信息和负样本标签信息,对第一待训练模型和第二待训练模型进行模型训练,得到第一待训练模型对应的标签构建模型。
在本公开实施例中,客户端110包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。
在本公开实施例中,服务器120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器120可以包括有网络通信单元、处理器和存储器等等。
图2是根据一示例性实施例示出的一种标签构建模型的生成方法的流程图,如图2所示,该方法用于服务器中,包括以下步骤。
S210.获取多个样本多媒体资源和每个样本多媒体资源对应的预设资源标签;
作为一个可选的实施例,样本多媒体资源可以为具有图像序列的资源,该图像序列可以为视频或者演示文稿等。预设资源标签可以为用户发布样本多媒体资源时该样本多媒体资源携带的标签或者样本多媒体资源对应的分类标签。
S220.对每个样本多媒体资源进行多模态特征提取,得到每个样本多媒体资源对应的样本多模态特征;
作为一个可选的实施例,将每个样本多媒体资源输入到多模态特征提取模型中进行多模态特征提取,可以得到每个样本多媒体资源对应的样本多模态特征。多模态特征提取模型可以包括文本特征提取模型、图像特征提取模型等。基于文本特征提取模型可以对样本多媒体资源的资源文本信息进行文本特征提取,基于图像特征提取模型可以对样本多媒体资源的资源图像信息进行图像特征提取。
作为一个可选的实施例,请参见图3,对每个样本多媒体资源进行多模态特征提取,得到每个样本多媒体资源对应的样本多模态特征包括:
S310.对每个样本多媒体资源对应的资源图像信息进行图像特征提取,得到样本图像特征;
S320.对每个样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征;
S330.对样本图像特征和样本文本特征进行特征融合,得到样本多媒体资源对应的样本多模态特征。
作为一个可选的实施例,样本多模态特征可以包括图像、文本等多维度的特征。可以基于多模态特征提取模型对样本多媒体资源进行多模态特征提取。
多模态特征提取模型可以包括图像特征提取层、文本特征提取层和特征编码融合层。图像特征提取层可以为图像特征提取模型,文本特征提取层可以为文本特征提取模型。将每个样本多媒体资源对应的资源图像信息输入到图像特征提取层中进行图像特征提取,可以得到样本图像特征。将每个样本多媒体资源对应的资源文本信息输入到文本特征提取层中进行文本特征提取,可以得到样本文本特征。
特征编码融合层可以包括特征编码层和特征融合层,将样本图像特征和样本文本特征分别输入到特征编码层中进行特征编码,可以得到样本图像特征对应的样本图像编码特征和样本文本特征对应的样本文本编码特征。特征编码层可以为可以对图像特征和文本特征进行特征提取的网络,例如基于转换器的双向编码表征模型等。将样本图像编码特征和样本文本编码特征输入到特征融合层中进行特征融合,可以得到样本多模态特征。
获取样本多媒体资源对应的图像、文本等多模态的特征,从而可以基于多模态的特征,确定后续步骤中的目标资源标签,利用图像特征和文本特征的互补性,可以提高目标资源标签的准确性。
作为一个可选的实施例,请参见图4,资源文本信息包括至少两种类型的文本信息,样本文本特征包括多个按序排列的文本子特征,对样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征包括:
S410.对样本多媒体资源对应的至少两种类型的文本信息进行文本拼接,得到文本拼接信息;
S420.将文本拼接信息中的前预设数目个字符信息输入到文本特征提取模型中进行文本特征提取,得到预设数目个字符信息分别对应的文本子特征。
作为一个可选的实施例,资源文本信息可以包括资源描述文本信息、字幕信息、图像文字识别结果和语音文字识别结果等多种不同类型的文本信息中的至少两种类型的文本信息。对至少两种类型的文本信息进行拼接,可以将文本拼接信息中的前预设数目个字符信息输入到文本特征提取模型中进行文本特征提取,得到预设数目个字符信息分别对应的文本子特征。
文本特征提取模型可以为对自然语言进行处理的模型,例如文本到文本任务模型(Text-To-Text Transfer Transformer,T5),基于转换器的双向编码表征模型(Bidirectional Encoder Representations from Transformers,BERT)等。文本特征提取模型可以输出任一种预设维度的文本子特征,例如512维度。文本子特征的维度与图像子特征的维度相同。
该字符信息的数目与图像信息的数目相同。在特征融合层中,每个文本子特征对应每个图像子特征进行特征融合,从而得到多个按序排列的多模态子特征。
从多个类型的文本信息中获取预设数目个字符信息,从而得到样本文本特征,使得样本文本特征可以参考不同类型的文本来源,从而提高样本文本特征的准确性,在后续步骤中生成目标资源标签时,多来源的文本信息可以丰富目标资源标签,从而提高了资源标签生成的多样性。
作为一个可选的实施例,资源图像信息包括预设数目个按序排列的图像信息,样本图像特征包括多个按序排列的图像子特征,对样本多媒体资源对应的资源图像信息进行图像特征提取,得到样本图像特征包括:
将预设数目个按序排列的图像信息输入到图像特征提取模型中进行图像特征提取,得到预设数目个按序排列的图像信息分别对应的图像子特征。
作为一个可选的实施例,资源图像信息可以包括资源封面信息和样本多媒体资源中的采样的图像抽样信息中的预设数目个按序排列的图像信息。该图像信息的数目与字符信息的数目相同。该预设数目个图像信息对应的序列可以为样本多媒体资源中的资源展示序列,例如视频资源中的视频帧播放顺序或者演示文稿中的幻灯片顺序等。
图像特征提取模型可以为基于自注意力机制进行特征提取的模型,例如基于移动窗口的层次化视觉自注意力模型(Hierarchical Vision Transformer Using ShiftedWindows,Swin Transformer)、视觉自注意力模型(Visual Transformer,ViT)等,图像特征提取层也可以为基于深度卷积网络进行特征提取的模型,例如VGG网络、残差网络(Resnet)等。图像特征提取模型可以输出任一种预设维度的图像子特征,例如512维度。图像子特征的维度与文本子特征的维度相同。
可以对预设数目个按序排列的图像信息进行图像特征提取,得到样本图像特征,使得样本图像特征可以携带有图像内容的序列特征,提高了样本图像特征的准确性。在后续步骤中生成目标资源标签时,可以基于该图像内容的序列特征对标签生成进行约束,从而提高资源标签生成的准确性。
作为一个可选的实施例,请参见图5,获取样本多媒体资源和样本多媒体资源对应的预设资源标签之前,方法还包括:
S510.对样本多媒体资源进行资源分类处理,得到每个样本多媒体资源对应的分类标签;
对每个样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征包括:
S520.对每个样本多媒体资源对应的资源文本信息和分类标签进行文本特征提取,得到样本文本特征。
作为一个可选的实施例,将样本多媒体资源输入到资源分类模型中进行资源分类处理,得到每个样本多媒体资源对应的分类标签。资源分类模型中具有预设的多个分类标签,通过资源分类模型,将每个样本多媒体资源与多个分类标签中的一个或多个分类标签关联,从而确定每个样本多媒体资源对应的分类标签。可以对该分类标签和资源文本信息进行文本特征提取,将分类标签与资源文本信息包括的至少一种类型的文本信息进行文本拼接,得到文本拼接信息,并对文本拼接信息中的前预设数目个字符信息进行文本特征提取,得到文本子特征。
该分类标签也可以作为样本多媒体资源对应的预设资源标签。将该分类标签、目标资源标签和样本多媒体资源输入到第二待训练模型中进行标签检测处理,得到标签检测结果。
预先对样本多媒体资源进行资源分类,得到与样本多媒体资源匹配的分类标签,因此在基于该分类标签进行文本特征提取时,可以提高样本文本特征的准确性。
S230.将样本多模态特征输入到第一待训练模型中进行资源标签构建,得到每个样本多媒体资源对应的目标资源标签;
作为一个可选的实施例,将样本多模态特征输入到第一待训练模型中,通过对样本多模态特征进行特征解码的方式,进行资源标签构建,可以得到每个样本多媒体资源对应的目标资源标签。第一待训练模型可以逐字输出目标资源标签。
作为一个可选的实施例,请参见图6,样本多模态特征包括多个按序排列的多模态子特征,第一待训练模型包括特征解码层和文本生成层,将样本多模态特征输入到第一待训练模型中进行资源标签构建,得到每个样本多媒体资源对应的目标资源标签包括:
S610.在当前多模态子特征为多个按序排列的多模态子特征中的第一个多模态子特征的情况下,将第一个多模态子特征输入到特征解码层中进行特征解码处理,得到第一个多模态子特征对应的特征解码结果;
S620.在当前多模态子特征为多个按序排列的多模态子特征中的非第一个多模态子特征的情况下,获取当前多模态子特征对应的上一特征解码结果,将当前多模态子特征和上一特征解码结果输入到特征解码层中进行特征解码处理,得到当前多模态子特征对应的特征解码结果,其中,上一特征解码结果为当前多模态子特征的上一多模态子特征对应的特征解码结果;
S630.将多个按序排列的多模态子特征中的最后一个多模态子特征对应的特征解码结果输入到文本生成层中进行文本生成,得到目标资源标签。
作为一个可选的实施例,特征解码层可以为用于进行特征解码的模型。将第一个多模态子特征输入到第一训练模型中进行特征解码处理,可以得到第一个特征解码结果。将第一个特征解码结果和第二个多模态子特征输入到第一训练模型中进行特征解码处理,可以得到第二个特征解码结果,使得第二个特征解码结果中可以融入第一个多模态子特征对应的特征解码结果和第二个多模态子特征对应的特征解码结果。以此类推,将当前多模态子特征的上一多模态子特征对应的特征解码结果作为当前多模态子特征对应的上一特征解码结果,将上一特征解码结果作为当前进行的特征解码的输入信息之一,和当前多模态子特征输入到特征解码层中进行特征解码处理,得到当前多模态子特征对应的特征解码结果,重复上述特征解码过程,直到将倒数第二个特征解码结果和最后一个多模态子特征输入到第一训练模型中进行特征解码处理,可以得到最后一个多模态子特征对应的特征解码结果,该最后一个多模态子特征对应的特征解码结果即融入了多模态子特征的序列对应的特征解码结果。
将最后一个多模态子特征对应的特征解码结果输入到文本生成层中进行文本生成,得到目标资源标签。在文本生成层中可以基于最后一个多模态子特征对应的特征解码结果中融合的多模态子特征的序列对应的特征解码结果,进行逐字的文本生成,一个字一个字地产出标签,得到至少一个生成字符信息,将生成字符信息排列得到目标资源标签。
通过迭代进行特征解码处理的方式,使得最后一个多模态子特征对应的特征解码结果融合了多模态子特征的序列对应的特征解码结果,在文本生成层中可以基于多模态子特征的序列对应的特征解码结果进行文本生成,再组合得到目标资源标签,从而可以提高目标资源标签的多样性。
S240.将目标资源标签、预设资源标签和样本多模态特征输入到第二待训练模型中进行标签检测处理,得到标签检测结果,标签检测结果指示每个样本多媒体资源对应的目标资源标签与每个样本多媒体资源间的匹配情况;
作为一个可选的实施例,将目标资源标签、预设资源标签和样本多模态特征输入到第二待训练模型中进行标签检测处理,可以得到标签检测结果。第二待训练模型在进行模型训练的过程中,可以通过对比学习的方式,基于预设资源标签与样本多媒体模型间的相似度,对目标资源标签和样本多媒体模型间的相似度进行约束,使得第一待训练模型对应的标签构建模型可以输出与输入的多媒体资源匹配的资源标签。
作为一个可选的实施例,请参见图7,第二待训练模型包括标签特征提取层、相似度确定层和标签检测层,将目标资源标签、预设资源标签和样本多模态特征输入到第二待训练模型中进行标签检测处理,得到标签检测结果包括:
S710.将目标资源标签和预设资源标签输入到标签特征提取层中分别进行标签特征提取,得到目标资源标签对应的第一标签特征和预设资源标签对应的第二标签特征;
S720.将第一标签特征、第二标签特征和样本多模态特征输入到相似度确定层中进行相似度确定,得到目标资源标签和样本多媒体资源间的第一特征相似度,以及预设资源标签和样本多媒体资源间的第二特征相似度;
S730.将第一特征相似度和第二特征相似度输入到标签检测层中进行标签检测处理,得到标签检测结果。
作为一个可选的实施例,标签特征提取层可以包括多层的变换网络(transformer)和多层感知机(Multi-Layer Perceptron,mlp),通过多层的变换网络对目标资源标签和预设资源标签分别进行特征提取,得到多个目标资源标签特征和多个预设资源标签特征,通过多层感知机,对多个目标资源标签特征进行特征融合,可以得到第一标签特征,并通过多层感知机,对多个预设资源标签特征进行特征融合,可以得到第二标签特征。
目标资源标签和样本多媒体资源间的第一特征相似度可以为第一标签特征和样本多模态特征间的距离,例如余弦距离、欧式距离等,第一标签特征和样本多模态特征间的距离越小,说明第一特征相似度越大,目标资源标签与样本多媒体资源的内容越相关,第一标签特征和样本多模态特征间的距离越大,说明第一特征相似度越小,目标资源标签与样本多媒体资源的内容越无关。
预设资源标签和样本多媒体资源间的第二特征相似度可以为第二标签特征和样本多模态特征间的距离,例如余弦距离、欧式距离等,第二标签特征和样本多模态特征间的距离越小,说明第二特征相似度越大,预设资源标签与样本多媒体资源的内容越相关,第二标签特征和样本多模态特征间的距离越大,说明第二特征相似度越小,预设资源标签与样本多媒体资源的内容越无关。
在标签检测层中,对第一特征相似度和第二特征相似度进行匹配,得到相似度匹配程度,在相似度匹配程度大于等于预设匹配阈值的情况下,生成指示目标资源标签与样本多媒体资源匹配的标签检测结果,在相似度匹配程度小于预设匹配阈值的情况下,生成指示目标资源标签与样本多媒体资源不匹配的标签检测结果。
通过预设资源标签和样本多媒体资源间的第一特征相似度,对目标资源标签和样本多媒体资源间的第二特征相似度进行约束,使得第二特征相似度接近第一特征相似度,从而保证目标资源标签与样本多媒体资源匹配,提高了目标资源标签的准确性。
S250.基于标签检测结果,将第一多媒体资源对应的目标资源标签和第一多媒体资源对应的预设资源标签作为正样本标签信息,以及将第二多媒体资源对应的目标资源标签和第二多媒体资源对应的预设资源标签作为负样本标签信息;第一多媒体资源为与目标资源标签匹配的样本多媒体资源,第二多媒体资源为与目标资源标签不匹配的样本多媒体资源;
作为一个可选的实施例,在标签检测结果指示目标资源标签与样本多媒体资源匹配的情况下,生成正样本标签信息。正样本标签信息中的目标资源标签和预设资源标签对应同一样本多媒体资源。
在标签检测结果指示目标资源标签与样本多媒体资源不匹配的情况下,生成负样本标签信息。负样本标签信息中的目标资源标签和预设资源标签对应不同的样本多媒体资源。
S260.基于目标资源标签、预设资源标签、样本多媒体资源、正样本标签信息和负样本标签信息,对第一待训练模型和第二待训练模型进行模型训练,得到标签构建模型,标签构建模型包括第一待训练模型对应的标签提取网络和第二待训练模型对应的对比学习网络。
作为一个可选的实施例,基于目标资源标签、预设资源标签、样本多媒体资源、正样本标签信息和负样本标签信息,对第一待训练模型进行模型训练,并对第二待训练模型进行对比学习,从而得到标签构建模型,标签构建模型可以包括第一待训练模型对应的标签提取网络和第二待训练模型对应的对比学习网络,标签提取网络可以对待处理多媒体资源对应的待处理多模态特征进行标签提取,得到待处理多媒体资源对应的资源标签,对比学习网络则可以对资源标签与待处理多媒体资源间的相似度进行确定,通过相似度检测资源标签与待处理多媒体资源是否匹配,得到资源标签的标签检测结果。
作为一个可选的实施例,请参见图8,基于目标资源标签、预设资源标签、标签检测结果、正样本标签信息和负样本标签信息,对第一待训练模型和第二待训练模型进行模型训练,得到标签构建模型包括:
S810.基于目标资源标签和预设资源标签间的差异信息,确定标签生成损失信息;
S820.基于样本多媒体资源和正样本标签信息间的差异信息,以及负样本标签信息间的差异信息,确定标签检测损失信息;
S830.基于标签生成损失信息和标签检测损失信息,对第一待训练模型和第二待训练模型进行模型训练,得到标签构建模型。
作为一个可选的实施例,将目标资源标签和预设资源标签代入到预设的第一损失函数中,计算目标资源标签和预设资源标签间的差异信息,并基于该差异信息确定第一损失函数的输出结果,将该第一损失函数的输出结果作为标签生成损失信息。预设的第一损失函数可以为交叉熵损失函数(CELoss)。标签生成损失信息的公式如下所示:
loss_gen=CELoss(x1,x2) (公式1)
其中,loss_gen为标签生成损失信息,x1为预设资源标签,x2为目标资源标签。
样本多媒体资源和正样本标签信息间的差异信息可以通过相似度表示,负样本标签信息间的差异信息也可以通过相似度表示,计算样本多媒体资源和正样本标签信息间的正样本相似度,以及计算负样本标签信息对应的预设资源标签和负样本标签信息对应的目标资源标签间负样本相似度,确定正样本相似度和1之间的第一均方误差,确定负样本相似度与0之间的第二均方误差,将第一均方误差和第二均方误差的和值确定为标签检测损失信息。标签检测损失信息的公式如下所示:
loss_contrast=MSE(cosine(positive,video),1)+MSE(cosine(negative,0))(公式2)
其中,loss_contrast为标签检测损失信息,positive为正样本标签信息,video为样本多媒体资源,negative为负样本标签信息,MSE为均方误差,cosine为相似度计算函数,可以计算余弦距离。
基于预设的损失权重信息,对标签生成损失信息和标签检测损失信息进行加权求和,得到目标损失信息,基于目标损失信息,对第一待训练模型和第二待训练模型进行模型训练,可以得到第一待训练模型对应的标签构建模型。目标损失信息的公式如下所示:
loss_all=w1*loss_gen+w2*loss_contrast (公式3)
其中,loss_all为目标损失信息,w1为标签生成损失信息对应的权重,w2为标签检测损失信息对应的权重,loss_contrast为标签检测损失信息,loss_gen为标签生成损失信息。
通过正负样本标签信息确定的标签检测损失信息,可以对第二待训练模型进行对比学习,从而拉近第一待训练模型输出的目标资源标签与样本多媒体资源的匹配度,而通过目标资源标签和预设资源标签确定标签生成损失信息,可以拉近目标资源标签和预设资源标签间的匹配度,因此,基于标签检测损失信息和标签生成损失信息进行模型训练,可以提高标签构建模型的精度和模型泛化性。
图9根据一示例性实施例示出的一种标签构建方法的流程图,如图9所示,该方法用于服务器中,所述方法包括:
S910.对待处理多媒体资源进行多模态特征提取,得到待处理多模态特征;
S920.将待处理多模态特征输入到标签构建模型中的标签提取网络进行资源标签构建,得到待处理多媒体资源对应的资源标签,标签构建模型为基于上述的标签构建模型的生成方法生成的;
S930.将待处理多媒体资源对应的资源标签和待处理多媒体资源输入到标签构建模型中的标签检测网络中进行标签检测处理,得到资源标签的标签检测结果。
作为一个可选的实施例,对待处理多媒体资源的资源图像信息进行图像特征提取,得到待处理图像特征,对待处理多媒体资源的资源文本信息进行文本特征提取,得到待处理文本特征,对待处理图像特征和待处理文本特征进行特征融合,可以得到待处理多模态特征。
将待处理多模态特征输入到标签构建模型中进行资源标签构建,可以得到待处理多媒体资源对应的资源标签。由于在训练过程中通过对比学习的方式,拉近了模型输出的资源标签与样本多媒体资源间的距离,因此该标签构建模型输出的资源标签与待处理多媒体资源匹配。
可以保留对比学习网络,通过对比学习网络,确定资源标签与待处理多媒体资源间的相似度,基于该相似度确定资源标签与待处理多媒体资源是否匹配。若该相似度大于预设的资源标签相似度阈值,则说明该资源标签与待处理多媒体资源匹配,可以输出该资源标签作为模型的结果,若该相似度小于预设的资源标签相似度阈值,则说明该资源标签与待处理多媒体资源不匹配,可以不输出该资源标签作为模型的结果。
通过上述标签构建模型的生成方法生成的标签构建模型,对待处理多媒体资源进行资源标签构建,可以提高标签构建的准确性以及多样性。
作为一个可选的实施例,请参见图10,如图10所示为多模态特征提取模型、第一待训练模型和第二待训练模型的结构示意图。该标签构建模型的生成方法可以应用于对视频打标签的应用场景中。获取多个样本多媒体资源和每个样本多媒体资源对应的预设资源标签,该预设资源标签可以为用户发布样本多媒体资源时该样本多媒体资源携带的标签或者样本多媒体资源对应的分类标签。样本多媒体资源可以为样本视频。
多模态特征提取模型包括图像特征提取层、文本特征提取层和特征编码融合层,每个样本多媒体资源的资源图像信息可以为预设数目个按序排列的图像信息,例如对视频采样后得到的视频帧信息,将预设数目个按序排列的图像信息输入到图像特征提取层中进行图像特征提取,可以得到预设数目个按序排列的图像信息各自对应的图像子特征,这些图像子特征即为样本图像特征。每个样本多媒体资源的资源文本信息可以为至少两种类型的文本信息,例如视频简介、视频标题、视频字幕和视频内识别到的文本信息等,对至少两种类型的文本信息进行拼接后获取前预设数目个字符信息,并将预设数目个字符信息输入到文本特征提取层中进行文本特征提取,可以得到预设数目个字符信息各自对应的文本子特征,这些文本子特征即为样本文本特征。在文本信息拼接时,可以从至少两种类型的文本信息中确定权重最大的文本信息,将该文本信息作为第一个文本信息,使得该文本信息可以被选取到,例如将视频简介作为第一个文本信息,再拼接视频标题、视频字幕和视频内识别到的文本信息。
将样本图像特征和样本文本特征输入到特征编码融合层中,对样本图像特征进行特征编码,并对样本文本特征进行特征编码,将特征编码的结果进行融合可以得到样本多模态特征。第一待训练模型包括特征解码层和文本生成层,可以将样本多模态特征输入到特征解码层中进行特征解码处理,得到特征解码结果,并将特征解码结果输入到文本生成层中进行文本生成,得到每个样本多媒体资源对应的目标资源标签。
第二待训练模型包括标签特征提取层、相似度确定层和标签检测层,将目标资源标签和预设资源标签输入到标签特征提取层中进行标签特征提取,得到目标资源标签对应的第一标签特征和预设资源标签对应的第二标签特征,将第一标签特征、第二标签特征和样本多模态特征输入到相似度确定层中进行相似度确定,得到目标资源标签和样本多媒体资源间的第一特征相似度,以及预设资源标签和样本多媒体资源间的第二特征相似度,将第一特征相似度和第二特征相似度输入到标签检测层中进行相似度检测,得到标签检测结果。标签检测结果可以指示目标资源标签与样本视频间的匹配情况。在目标资源标签与样本视频匹配的情况下,将目标资源标签与对应的预设资源标签作为正样本标签信息。在目标资源标签与样本视频不匹配的情况下,将目标资源标签与对应的预设资源标签作为负样本标签信息。
基于目标资源标签、预设资源标签、样本多媒体资源、正样本标签信息和负样本标签信息,对第一待训练模型和第二待训练模型进行模型训练,得到第一待训练模型对应的标签构建模型。
本公开实施例提出了一种标签构建模型的生成方法,该方法包括:获取多个样本多媒体资源和每个样本多媒体资源对应的预设资源标签,通过第一待训练模型生成每个样本多媒体资源对应的目标资源标签,并基于预设资源标签,通过第二待训练模型对目标资源标签进行标签检测,得到标签检测结果。通过标签检测结果确定正样本标签信息和负样本标签信息,并基于目标资源标签、预设资源标签、样本多媒体资源、正样本标签信息和负样本标签信息,对第一待训练模型和第二待训练模型进行模型训练,得到第一待训练模型对应的标签构建模型。该方法可以通过第一待训练模型生成目标资源标签,提高多媒体资源的标签多样性,并通标签检测结果在模型训练时约束目标资源标签,从而提高标签构建的准确性。
图11是根据一示例性实施例示出的一种标签构建模型的生成装置框图。参照图11,该装置包括:
样本资源获取模块1110,被配置为执行获取多个样本多媒体资源和每个样本多媒体资源对应的预设资源标签;
样本多模态特征提取模块1120,被配置为执行对每个样本多媒体资源进行多模态特征提取,得到每个样本多媒体资源对应的样本多模态特征;
目标资源标签构建模块1130,被配置为执行将样本多模态特征输入到第一待训练模型中进行资源标签构建,得到每个样本多媒体资源对应的目标资源标签;
标签检测模块1140,被配置为执行将目标资源标签、预设资源标签和样本多模态特征输入到第二待训练模型中进行标签检测处理,得到标签检测结果,标签检测结果指示每个样本多媒体资源对应的目标资源标签与每个样本多媒体资源间的匹配情况;
样本确定模块1150,被配置为执行基于标签检测结果,将第一多媒体资源对应的目标资源标签和第一多媒体资源对应的预设资源标签作为正样本标签信息,以及将第二多媒体资源对应的目标资源标签和第二多媒体资源对应的预设资源标签作为负样本标签信息;第一多媒体资源为与目标资源标签匹配的样本多媒体资源,第二多媒体资源为与目标资源标签不匹配的样本多媒体资源;
模型训练模块1160,被配置为执行基于目标资源标签、预设资源标签、样本多媒体资源、正样本标签信息和负样本标签信息,对第一待训练模型和第二待训练模型进行模型训练,得到标签构建模型,标签构建模型包括第一待训练模型对应的标签提取网络和第二待训练模型对应的对比学习网络。
作为一个可选的实施例,标签检测模块包括:
标签特征提取单元,被配置为执行将目标资源标签和预设资源标签输入到标签特征提取层中分别进行标签特征提取,得到目标资源标签对应的第一标签特征和预设资源标签对应的第二标签特征;
相似度确定单元,被配置为执行将第一标签特征、第二标签特征和样本多模态特征输入到相似度确定层中进行相似度确定,得到目标资源标签和样本多媒体资源间的第一特征相似度,以及预设资源标签和样本多媒体资源间的第二特征相似度;
标签检测处理单元,被配置为执行将第一特征相似度和第二特征相似度输入到标签检测层中进行标签检测处理,得到标签检测结果。
作为一个可选的实施例,样本多模态特征包括多个按序排列的多模态子特征,第一待训练模型包括特征解码层和文本生成层,目标资源标签构建模块包括:
第一解码处理单元,被配置为执行在当前多模态子特征为多个按序排列的多模态子特征中的第一个多模态子特征的情况下,将第一个多模态子特征输入到特征解码层中进行特征解码处理,得到第一个多模态子特征对应的特征解码结果;
第二解码处理单元,被配置为执行在当前多模态子特征为多个按序排列的多模态子特征中的非第一个多模态子特征的情况下,获取当前多模态子特征对应的上一特征解码结果,将当前多模态子特征和上一特征解码结果输入到特征解码层中进行特征解码处理,得到当前多模态子特征对应的特征解码结果,其中,上一特征解码结果为当前多模态子特征的上一多模态子特征对应的特征解码结果;
目标资源标签确定单元,被配置为执行将多个按序排列的多模态子特征中的最后一个多模态子特征对应的特征解码结果输入到文本生成层进行文本生成,得到目标资源标签。
作为一个可选的实施例,模型训练模块包括:
生成损失确定单元,被配置为执行基于目标资源标签和预设资源标签间的差异信息,确定标签生成损失信息;
检测损失确定单元,被配置为执行基于样本多媒体资源和正样本标签信息间的差异信息,以及负样本标签信息间的差异信息,确定标签检测损失信息;
模型训练单元,被配置为执行基于标签生成损失信息和标签检测损失信息,对第一待训练模型和第二待训练模型进行模型训练,得到第一待训练模型对应的标签构建模型。
作为一个可选的实施例,样本多模态特征提取模块包括:
图像特征提取单元,被配置为执行对每个样本多媒体资源对应的资源图像信息进行图像特征提取,得到样本图像特征;
第一文本特征提取单元,被配置为执行对每个样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征;
特征融合单元,被配置为执行对样本图像特征和样本文本特征进行特征融合,得到样本多媒体资源对应的样本多模态特征。
作为一个可选的实施例,资源文本信息包括至少两种类型的文本信息,样本文本特征包括多个按序排列的文本子特征,第一文本特征提取单元包括:
文本拼接单元,被配置为执行对样本多媒体资源对应的至少两种类型的文本信息进行文本拼接,得到文本拼接信息;
文本子特征提取单元,被配置为执行将文本拼接信息中的前预设数目个字符信息输入到文本特征提取模型中进行文本特征提取,得到预设数目个字符信息分别对应的文本子特征。
作为一个可选的实施例,资源图像信息包括预设数目个按序排列的图像信息,样本图像特征包括多个按序排列的图像子特征,图像特征提取单元包括:
图像子特征提取单元,被配置为执行将预设数目个按序排列的图像信息输入到图像特征提取模型中进行图像特征提取,得到预设数目个按序排列的图像信息分别对应的图像子特征。
作为一个可选的实施例,装置还包括:
资源分类模块,被配置为执行对样本多媒体资源进行资源分类处理,得到每个样本多媒体资源对应的分类标签;
第一文本特征提取单元包括:
第二文本特征提取单元,被配置为执行对每个样本多媒体资源对应的资源文本信息和分类标签进行文本特征提取,得到样本文本特征。
图12是根据一示例性实施例示出的一种标签构建装置,该装置包括;
多模态特征提取模块1210,被配置为执行对待处理多媒体资源进行多模态特征提取,得到待处理多模态特征;
资源标签构建模块1220,被配置为执行将待处理多模态特征输入到标签构建模型中的标签提取网络进行资源标签构建,得到待处理多媒体资源对应的资源标签,标签构建模型为基于上述的标签构建模型的生成方法生成的;
资源标签检测模块1230,被配置为执行将待处理多媒体资源对应的资源标签和待处理多媒体资源输入到标签构建模型中的标签检测网络中进行标签检测处理,得到所述资源标签的标签检测结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图13是根据一示例性实施例示出的一种用于...的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图13所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标签构建模型的生成方法或标签构建方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中标签构建模型的生成方法或标签构建方法。
在示例性实施例中,还提供了一种存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中标签构建模型的生成方法或标签构建方法。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的标签构建模型的生成方法或标签构建方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (13)
1.一种标签构建模型的生成方法,其特征在于,所述方法包括:
获取多个样本多媒体资源和每个所述样本多媒体资源对应的预设资源标签;
对每个所述样本多媒体资源进行多模态特征提取,得到每个所述样本多媒体资源对应的样本多模态特征;
将所述样本多模态特征输入到第一待训练模型中进行资源标签构建,得到每个所述样本多媒体资源对应的目标资源标签;
将所述目标资源标签、所述预设资源标签和所述样本多模态特征输入到第二待训练模型中进行标签检测处理,得到标签检测结果,所述标签检测结果指示每个所述样本多媒体资源对应的所述目标资源标签与每个所述样本多媒体资源间的匹配情况;
基于所述标签检测结果,将第一多媒体资源对应的所述目标资源标签和所述第一多媒体资源对应的所述预设资源标签作为正样本标签信息,以及将第二多媒体资源对应的所述目标资源标签和所述第二多媒体资源对应的所述预设资源标签作为负样本标签信息;所述第一多媒体资源为与所述目标资源标签匹配的样本多媒体资源,所述第二多媒体资源为与所述目标资源标签不匹配的样本多媒体资源;
基于所述目标资源标签、所述预设资源标签、所述样本多媒体资源、所述正样本标签信息和所述负样本标签信息,对所述第一待训练模型和所述第二待训练模型进行模型训练,得到所述标签构建模型,所述标签构建模型包括所述第一待训练模型对应的标签提取网络和所述第二待训练模型对应的对比学习网络。
2.根据权利要求1所述的标签构建模型的生成方法,其特征在于,所述第二待训练模型包括标签特征提取层、相似度确定层和标签检测层,所述将所述目标资源标签、所述预设资源标签和所述样本多模态特征输入到第二待训练模型中进行标签检测处理,得到标签检测结果包括:
将所述目标资源标签和所述预设资源标签输入到所述标签特征提取层中分别进行标签特征提取,得到所述目标资源标签对应的第一标签特征和所述预设资源标签对应的第二标签特征;
将所述第一标签特征、所述第二标签特征和所述样本多模态特征输入到所述相似度确定层中进行相似度确定,得到所述目标资源标签和所述样本多媒体资源间的第一特征相似度,以及所述预设资源标签和所述样本多媒体资源间的第二特征相似度;
将所述第一特征相似度和所述第二特征相似度输入到所述标签检测层中进行标签相似度检测,得到所述标签检测结果。
3.根据权利要求1所述的标签构建模型的生成方法,其特征在于,所述样本多模态特征包括多个按序排列的多模态子特征,所述第一待训练模型包括特征解码层和文本生成层,所述将所述样本多模态特征输入到第一待训练模型中进行资源标签构建,得到每个所述样本多媒体资源对应的目标资源标签包括:
在当前多模态子特征为所述多个按序排列的多模态子特征中的第一个多模态子特征的情况下,将所述第一个多模态子特征输入到所述特征解码层中进行特征解码处理,得到第一个多模态子特征对应的特征解码结果;
在所述当前多模态子特征为所述多个按序排列的多模态子特征中的非第一个多模态子特征的情况下,获取所述当前多模态子特征对应的上一特征解码结果,将所述当前多模态子特征和所述上一特征解码结果输入到所述特征解码层中进行特征解码处理,得到所述当前多模态子特征对应的特征解码结果,其中,所述上一特征解码结果为所述当前多模态子特征的上一多模态子特征对应的特征解码结果;
将所述多个按序排列的多模态子特征中的最后一个多模态子特征对应的特征解码结果输入到所述文本生成层中进行文本生成,得到所述目标资源标签。
4.根据权利要求1所述的标签构建模型的生成方法,其特征在于,所述基于所述目标资源标签、所述预设资源标签、所述样本多媒体资源、所述正样本标签信息和所述负样本标签信息,对所述第一待训练模型和所述第二待训练模型进行模型训练,得到所述标签构建模型包括:
基于所述目标资源标签和所述预设资源标签间的差异信息,确定标签生成损失信息;
基于所述样本多媒体资源和所述正样本标签信息间的差异信息,以及所述负样本标签信息中的目标资源标签和所述负样本标签信息中的预设资源标签间的差异信息,确定标签检测损失信息;
基于所述标签生成损失信息和所述标签检测损失信息,对所述第一待训练模型和所述第二待训练模型进行模型训练,得到所述标签构建模型。
5.根据权利要求1所述的标签构建模型的生成方法,其特征在于,所述对每个所述样本多媒体资源进行多模态特征提取,得到每个所述样本多媒体资源对应的样本多模态特征包括:
对每个所述样本多媒体资源对应的资源图像信息进行图像特征提取,得到样本图像特征;
对每个所述样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征;
对所述样本图像特征和所述样本文本特征进行特征融合,得到所述样本多媒体资源对应的样本多模态特征。
6.根据权利要求5所述的标签构建模型的生成方法,其特征在于,所述资源文本信息包括至少两种类型的文本信息,所述样本文本特征包括多个按序排列的文本子特征;所述对每个所述样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征包括:
对所述样本多媒体资源对应的至少两种类型的文本信息进行文本拼接,得到文本拼接信息;
将所述文本拼接信息中的前预设数目个字符信息输入到文本特征提取模型中进行文本特征提取,得到所述预设数目个字符信息分别对应的文本子特征。
7.根据权利要求5所述的标签构建模型的生成方法,其特征在于,所述资源图像信息包括预设数目个按序排列的图像信息,所述样本图像特征包括多个按序排列的图像子特征;所述对每个所述样本多媒体资源对应的资源图像信息进行图像特征提取,得到样本图像特征包括:
将所述预设数目个按序排列的图像信息输入到图像特征提取模型中进行图像特征提取,得到所述预设数目个按序排列的图像信息分别对应的图像子特征。
8.根据权利要求5所述的标签构建模型的生成方法,其特征在于,在所述获取样本多媒体资源和所述样本多媒体资源对应的预设资源标签之前,所述方法还包括:
对所述样本多媒体资源进行资源分类处理,得到每个所述样本多媒体资源对应的分类标签;
所述对每个所述样本多媒体资源对应的资源文本信息进行文本特征提取,得到样本文本特征包括:
对每个所述样本多媒体资源对应的资源文本信息和所述分类标签进行文本特征提取,得到所述样本文本特征。
9.一种标签构建方法,其特征在于,所述方法包括:
对待处理多媒体资源进行多模态特征提取,得到待处理多模态特征;
将所述待处理多模态特征输入到标签构建模型中的标签提取网络进行资源标签构建,得到所述待处理多媒体资源对应的资源标签,所述标签构建模型为基于权利要求1到8任一项所述的标签构建模型的生成方法生成的;
将所述待处理多媒体资源对应的资源标签和所述待处理多媒体资源输入到所述标签构建模型中的标签检测网络中进行标签检测处理,得到所述资源标签的标签检测结果。
10.一种标签构建模型的生成装置,其特征在于,所述装置包括:
样本资源获取模块,被配置为执行获取多个样本多媒体资源和每个所述样本多媒体资源对应的预设资源标签;
样本多模态特征提取模块,被配置为执行对每个所述样本多媒体资源进行多模态特征提取,得到每个所述样本多媒体资源对应的样本多模态特征;
目标资源标签构建模块,被配置为执行将所述样本多模态特征输入到第一待训练模型中进行资源标签构建,得到每个所述样本多媒体资源对应的目标资源标签;
标签检测模块,被配置为执行将所述目标资源标签、所述预设资源标签和所述样本多模态特征输入到第二待训练模型中进行标签检测处理,得到标签检测结果,所述标签检测结果指示每个所述样本多媒体资源对应的所述目标资源标签与每个所述样本多媒体资源间的匹配情况;
样本确定模块,被配置为执行基于所述标签检测结果,将第一多媒体资源对应的所述目标资源标签和所述第一多媒体资源对应的所述预设资源标签作为正样本标签信息,以及将第二多媒体资源对应的所述目标资源标签和所述第二多媒体资源对应的所述预设资源标签作为负样本标签信息;所述第一多媒体资源为与所述目标资源标签匹配的样本多媒体资源,所述第二多媒体资源为与所述目标资源标签不匹配的样本多媒体资源;
模型训练模块,被配置为执行基于所述目标资源标签、所述预设资源标签、所述样本多媒体资源、所述正样本标签信息和所述负样本标签信息,对所述第一待训练模型和所述第二待训练模型进行模型训练,得到所述标签构建模型,所述标签构建模型包括所述第一待训练模型对应的标签提取网络和所述第二待训练模型对应的对比学习网络。
11.一种标签构建装置,其特征在于,所述装置包括:
多模态特征提取模块,被配置为执行对待处理多媒体资源进行多模态特征提取,得到待处理多模态特征;
资源标签构建模块,被配置为执行将所述待处理多模态特征输入到,基于权利要求10所述的标签构建模型的生成装置生成的标签构建模型中进行资源标签构建,得到所述待处理多媒体资源对应的资源标签。
12.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的标签构建模型的生成方法和/或权利要求9所述的标签构建方法。
13.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至8中任一项所述的标签构建模型的生成方法和/或权利要求9所述的标签构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310092655.5A CN116229313A (zh) | 2023-01-29 | 2023-01-29 | 标签构建模型的生成方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310092655.5A CN116229313A (zh) | 2023-01-29 | 2023-01-29 | 标签构建模型的生成方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116229313A true CN116229313A (zh) | 2023-06-06 |
Family
ID=86579999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310092655.5A Pending CN116229313A (zh) | 2023-01-29 | 2023-01-29 | 标签构建模型的生成方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229313A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574160A (zh) * | 2024-01-16 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 媒体信息的标签识别方法、装置和存储介质及电子设备 |
-
2023
- 2023-01-29 CN CN202310092655.5A patent/CN116229313A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574160A (zh) * | 2024-01-16 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 媒体信息的标签识别方法、装置和存储介质及电子设备 |
CN117574160B (zh) * | 2024-01-16 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 媒体信息的标签识别方法、装置和存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN111767461B (zh) | 数据处理方法及装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
JP7394809B2 (ja) | ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム | |
EP3885966B1 (en) | Method and device for generating natural language description information | |
CN113010638B (zh) | 实体识别模型生成方法及装置、实体提取方法及装置 | |
CN113297891A (zh) | 视频信息处理方法、装置及电子设备 | |
CN112995749A (zh) | 视频字幕的处理方法、装置、设备和存储介质 | |
WO2023134088A1 (zh) | 视频摘要生成方法、装置、电子设备及存储介质 | |
CN114357206A (zh) | 基于语义分析的教育类视频彩色字幕生成方法及系统 | |
CN116229313A (zh) | 标签构建模型的生成方法、装置、电子设备和存储介质 | |
CN114996511A (zh) | 一种针对跨模态视频检索模型的训练方法及装置 | |
CN115294501A (zh) | 视频识别方法、视频识别模型训练方法、介质及电子设备 | |
CN117253239A (zh) | 融合版面信息的端到端文档图像翻译方法及装置 | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
CN116186244A (zh) | 生成文本摘要的方法、训练摘要生成模型的方法及装置 | |
CN115396690A (zh) | 音频与文本组合方法、装置、电子设备及存储介质 | |
CN115098729A (zh) | 视频处理方法、样本生成方法、模型训练方法及装置 | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 | |
CN114064972A (zh) | 视频类型确定方法及相关装置 | |
US10910014B2 (en) | Method and apparatus for generating video | |
CN113688938A (zh) | 确定对象情感的方法、训练情感分类模型的方法及装置 | |
CN111767727B (zh) | 数据处理方法及装置 | |
CN117435739B (zh) | 图像文本分类的方法及装置 | |
CN111324769B (zh) | 视频信息处理模型的训练方法、视频信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |