CN115100582B - 基于多模态数据的模型训练方法及装置 - Google Patents

基于多模态数据的模型训练方法及装置 Download PDF

Info

Publication number
CN115100582B
CN115100582B CN202211024813.5A CN202211024813A CN115100582B CN 115100582 B CN115100582 B CN 115100582B CN 202211024813 A CN202211024813 A CN 202211024813A CN 115100582 B CN115100582 B CN 115100582B
Authority
CN
China
Prior art keywords
target
reconstruction
model
training data
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211024813.5A
Other languages
English (en)
Other versions
CN115100582A (zh
Inventor
黄于晏
陈畅新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmi Technology Co ltd
Original Assignee
Youmi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youmi Technology Co ltd filed Critical Youmi Technology Co ltd
Priority to CN202211024813.5A priority Critical patent/CN115100582B/zh
Publication of CN115100582A publication Critical patent/CN115100582A/zh
Application granted granted Critical
Publication of CN115100582B publication Critical patent/CN115100582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Abstract

本发明公开了一种基于多模态数据的模型训练方法及装置,该方法包括:根据确定出的至少两种模态类型的训练数据集合,训练预先确定出的待训练重构模型,得到待定重构模型;确定待定重构模型的重构损失参数,并根据重构损失参数,判断待定重构模型是否收敛,若是,则将待定重构模型确定为目标重构模型。可见,实施本发明能够同时对多个模态类型对应的待训练分支模型进行联合训练,从而训练出目标重构模型,以通过其生成各模态类型对应的结果。相较于单独训练多个模型来说,不仅可以缩短多个模型训练的时长,从而快速地训练出多个模态类型的模型,还可以降低各模型之间的语义特征分析差异性,从而能够提高生成的各模态类型对应的结果之间的匹配度。

Description

基于多模态数据的模型训练方法及装置
技术领域
本发明涉及模型训练技术领域,尤其涉及一种基于多模态数据的模型训练方法及装置。
背景技术
随着视频制作行业的快速发展,视频制作在国内的广告市场中占据着越来越重要地位,成为了各个企业最常用以及最有效的广告手段。
当前,在制作视频的过程中,常通过训练好的各个模型来生成相应的视频以及视频文本。然而,由于在对各个模型进行训练的过程中,各个模型之间所采用的训练数据的模态类型(如视频帧、文本)以及训练方式都有所不同,使得各个模型之间对训练数据的语义特征分析差异性较大,因此,通过训练后的各个模型所生成的视频以及视频文本之间的匹配度较低。可见,提出一种新的基于多模态数据的模型训练方法以提高所生成的视频以及视频文本之间的匹配度尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种基于多模态数据的模型训练的方法及装置,不仅能够快速地训练出多个模态类型的模型,还能够提高生成的各模态类型对应的结果之间的匹配度。
为了解决上述技术问题,本发明第一方面公开了一种基于多模态数据的模型训练方法,所述方法包括:
确定至少两种模态类型的目标训练数据集合;每种所述模态类型的目标训练数据集合均包括若干个目标训练数据子集,所有所述模态类型的目标训练数据集合至少包括视频帧模态类型的目标训练数据集合以及文本模态类型的目标训练数据集合;
根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型,其中,所述待训练重构模型包括与每种所述模态类型分别对应的待训练分支模型;
确定所述待定重构模型的目标重构损失参数,并根据所述待定重构模型的目标重构损失参数,判断所述待定重构模型是否收敛;
当判断结果为是时,将所述待定重构模型确定为目标重构模型;所述目标重构模型用于对待补充的初始素材进行素材补充,以生成与所述初始素材相匹配的目标结果。
作为一种可选的实施方式,在本发明第一方面中,所述根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型,包括:
将所有所述模态类型的目标训练数据集合输入至预先确定出的待训练重构模型中,以使所述待训练重构模型所包括的与每种所述模态类型分别对应的待训练分支模型的嵌入层执行如下操作:对于该模态类型的目标训练数据集合中的每个所述目标训练数据子集,确定该目标训练数据子集对应的第一特征向量以及确定该目标训练数据子集对应的目标模态类型数据的缺失占比;根据所述目标模态类型数据的缺失占比,确定该目标训练数据子集的掩码参数;根据所述掩码参数,对该目标训练数据子集对应的第一特征向量中与所述掩码参数相匹配的向量内容进行掩码,得到该目标训练数据子集对应的第二特征向量;所述掩码参数包括所需掩码的数据占比和/或所需掩码的数据位置;
对于输入的每种所述模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的特征融合层,对其所包括的每个所述目标训练数据子集对应的第二特征向量与预先对应生成的第三特征向量执行融合操作,得到所有所述目标训练数据子集对应的融合后特征向量;所述第三特征向量是通过该模态类型对应的其余待训练分支模型的嵌入层对其余模态类型的目标训练数据集合进行向量转换得到的,或者对该目标训练数据子集所缺失的所述目标模态类型数据进行向量初始化得到的;
对于输入的每种所述模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的预测重构层,对其所包括的每个所述目标训练数据子集对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作,得到所有所述目标训练数据子集对应的预测重构向量内容。
作为一种可选的实施方式,在本发明第一方面中,所述确定所述待定重构模型的目标重构损失参数,包括:
对于每种所述模态类型的目标训练数据集合,计算其所包括的每个所述目标训练数据子集对应的预测重构向量内容与对应的所述第一特征向量之间的距离回归损失参数,得到所有所述目标训练数据子集对应的距离回归损失参数,并根据所有所述目标训练数据子集对应的距离回归损失参数,确定该模态类型对应的训练后分支模型的重构损失参数;
通过每种所述模态类型分别对应的待训练分支模型的预测重构层,提取每个所述模态类型的目标训练数据集合对应的语义特征信息,并根据所有所述模态类型的目标训练数据集合对应的语义特征信息,计算所有所述模态类型的目标训练数据集合之间的语义特征损失参数,作为所述待定重构模型的目标语义特征损失参数;
根据所有所述模态类型分别对应的训练后分支模型的重构损失参数以及所述目标语义特征损失参数,计算所述待定重构模型的目标重构损失参数。
作为一种可选的实施方式,在本发明第一方面中,所述根据所有所述模态类型分别对应的训练后分支模型的重构损失参数以及所述目标语义特征损失参数,计算所述待定重构模型的目标重构损失参数,包括:
确定所有所述模态类型分别对应的训练后分支模型的重构损失参数的第一计算比例以及所述目标语义特征损失参数的第二计算比例;
根据所有所述模态类型分别对应的训练后分支模型的重构损失参数及对应的所述重构损失参数的第一计算比例、所述目标语义特征损失参数以及所述第二计算比例,计算所述待定重构模型的目标重构损失参数;
其中,所述目标重构损失参数为:
Loss_total = ( Loss_1*ratio_1 +…+ Loss_n*ratio_n) + Loss_ce *ratio_ce;
Loss_total为所述目标重构损失参数,Loss_n为对应的模态类型对应的训练后分支模型的重构损失参数,ratio_n为对应的所述重构损失参数的第一计算比例,Loss_ce为所述目标语义特征损失参数,ratio_ce为所述第二计算比例。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述待定重构模型的目标重构损失参数,判断所述待定重构模型是否收敛,包括:
判断所述目标重构损失参数是否大于等于预设重构损失阈值,若是,则确定所述待定重构模型不收敛;
以及,所述方法还包括:
当判断出所述待定重构模型不收敛时,将所述待定重构模型确定为新的待训练重构模型,并触发执行所述的根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型;以及,确定所述待定重构模型的目标重构损失参数,并根据所述待定重构模型的目标重构损失参数,判断所述待定重构模型是否收敛的操作。
作为一种可选的实施方式,在本发明第一方面中,在所述将所述待定重构模型确定为目标重构模型之后,所述方法还包括:
当待补充的所述初始素材为初始文本素材时,将所述初始文本素材输入至所述目标重构模型中,并通过与所述初始文本素材相匹配的所述目标重构模型的嵌入层,对所述初始文本素材进行向量转换,得到所述初始文本素材的文本特征向量;
通过与所述初始文本素材相匹配的所述目标重构模型的特征融合层,对所述初始文本素材的文本特征向量以及预先对应生成的第一辅助特征向量进行融合,得到所述初始文本素材的融合后特征向量;
通过与所述初始文本素材相匹配的所述目标重构模型的预测重构层,对所述初始文本素材的融合后特征向量中待预测重构的向量内容进行预测重构,得到所述初始文本素材的预测重构向量内容;
通过与所述初始文本素材相匹配的所述目标重构模型的全连接层,对所述初始文本素材的预测重构向量内容进行映射,得到所述初始文本素材的映射后向量内容;
根据所述初始文本素材的映射后向量内容,确定所需补充的文本内容,并根据所述文本内容对所述初始文本素材进行文本内容补充,以生成与所述初始文本素材相匹配的目标文本。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
当待补充的所述初始素材为初始视频素材时,将所述初始视频素材输入至所述目标重构模型中,并通过与所述初始视频素材相匹配的所述目标重构模型的嵌入层,对所述初始视频素材进行向量转换,得到所述初始视频素材的视频特征向量;
通过与所述初始视频素材相匹配的所述目标重构模型的特征融合层,对所述初始视频素材的视频特征向量以及预先对应生成的第二辅助特征向量进行融合,得到所述初始视频素材的融合后特征向量;
通过与所述初始视频素材相匹配的所述目标重构模型的全连接层,对所述初始视频素材的融合后特征向量进行第一向量转换,得到所述初始视频素材的转换后特征向量;
通过与所述初始视频素材相匹配的所述目标重构模型的预测重构层,对所述初始视频素材的转换后特征向量中待预测重构的向量内容进行预测重构,得到所述初始视频素材的预测重构向量内容;
通过预先确定出的库处理方式,对所述初始视频素材的预测重构向量内容进行第二向量转换,得到所述初始视频素材的转换后向量内容;
根据所述初始视频素材的转换后向量内容,确定所需补充的视频内容,并根据所述视频内容对所述初始视频素材进行视频内容补充,以生成与所述初始视频素材相匹配的目标视频。
本发明第二方面公开了一种基于多模态数据的模型训练装置,所述装置包括:
第一确定模块,用于确定至少两种模态类型的目标训练数据集合;每种所述模态类型的目标训练数据集合均包括若干个目标训练数据子集,所有所述模态类型的目标训练数据集合至少包括视频帧模态类型的目标训练数据集合以及文本模态类型的目标训练数据集合;
训练模块,用于根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型,其中,所述待训练重构模型包括与每种所述模态类型分别对应的待训练分支模型;
第二确定模块,用于确定所述待定重构模型的目标重构损失参数;
判断模块,用于根据所述待定重构模型的目标重构损失参数,判断所述待定重构模型是否收敛;
所述第一确定模块,还用于当所述判断模块判断结果为是时,将所述待定重构模型确定为目标重构模型;所述目标重构模型用于对待补充的初始素材进行素材补充,以生成与所述初始素材相匹配的目标结果。
作为一种可选的实施方式,在本发明第二方面中,所述训练模块根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型的方式具体为:
将所有所述模态类型的目标训练数据集合输入至预先确定出的待训练重构模型中,以使所述待训练重构模型所包括的与每种所述模态类型分别对应的待训练分支模型的嵌入层执行如下操作:对于该模态类型的目标训练数据集合中的每个所述目标训练数据子集,确定该目标训练数据子集对应的第一特征向量以及确定该目标训练数据子集对应的目标模态类型数据的缺失占比;根据所述目标模态类型数据的缺失占比,确定该目标训练数据子集的掩码参数;根据所述掩码参数,对该目标训练数据子集对应的第一特征向量中与所述掩码参数相匹配的向量内容进行掩码,得到该目标训练数据子集对应的第二特征向量;所述掩码参数包括所需掩码的数据占比和/或所需掩码的数据位置;
对于输入的每种所述模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的特征融合层,对其所包括的每个所述目标训练数据子集对应的第二特征向量与预先对应生成的第三特征向量执行融合操作,得到所有所述目标训练数据子集对应的融合后特征向量;所述第三特征向量是通过该模态类型对应的其余待训练分支模型的嵌入层对其余模态类型的目标训练数据集合进行向量转换得到的,或者对该目标训练数据子集所缺失的所述目标模态类型数据进行向量初始化得到的;
对于输入的每种所述模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的预测重构层,对其所包括的每个所述目标训练数据子集对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作,得到所有所述目标训练数据子集对应的预测重构向量内容。
作为一种可选的实施方式,在本发明第二方面中,所述第二确定模块确定所述待定重构模型的目标重构损失参数的方式具体为:
对于每种所述模态类型的目标训练数据集合,计算其所包括的每个所述目标训练数据子集对应的预测重构向量内容与对应的所述第一特征向量之间的距离回归损失参数,得到所有所述目标训练数据子集对应的距离回归损失参数,并根据所有所述目标训练数据子集对应的距离回归损失参数,确定该模态类型对应的训练后分支模型的重构损失参数;
通过每种所述模态类型分别对应的待训练分支模型的预测重构层,提取每个所述模态类型的目标训练数据集合对应的语义特征信息,并根据所有所述模态类型的目标训练数据集合对应的语义特征信息,计算所有所述模态类型的目标训练数据集合之间的语义特征损失参数,作为所述待定重构模型的目标语义特征损失参数;
根据所有所述模态类型分别对应的训练后分支模型的重构损失参数以及所述目标语义特征损失参数,计算所述待定重构模型的目标重构损失参数。
作为一种可选的实施方式,在本发明第二方面中,所述第二确定模块根据所有所述模态类型分别对应的训练后分支模型的重构损失参数以及所述目标语义特征损失参数,计算所述待定重构模型的目标重构损失参数的方式具体为:
确定所有所述模态类型分别对应的训练后分支模型的重构损失参数的第一计算比例以及所述目标语义特征损失参数的第二计算比例;
根据所有所述模态类型分别对应的训练后分支模型的重构损失参数及对应的所述重构损失参数的第一计算比例、所述目标语义特征损失参数以及所述第二计算比例,计算所述待定重构模型的目标重构损失参数;
其中,所述目标重构损失参数为:
Loss_total = ( Loss_1*ratio_1 +…+ Loss_n*ratio_n) + Loss_ce *ratio_ce;
Loss_total为所述目标重构损失参数,Loss_n为对应的模态类型对应的训练后分支模型的重构损失参数,ratio_n为对应的所述重构损失参数的第一计算比例,Loss_ce为所述目标语义特征损失参数,ratio_ce为所述第二计算比例。
作为一种可选的实施方式,在本发明第二方面中,所述判断模块根据所述待定重构模型的目标重构损失参数,判断所述待定重构模型是否收敛的方式具体为:
判断所述目标重构损失参数是否大于等于预设重构损失阈值,若是,则确定所述待定重构模型不收敛;
以及,所述第一确定模块,还用于:
当所述判断模块判断出所述待定重构模型不收敛时,将所述待定重构模型确定为新的待训练重构模型,并触发所述训练模块执行所述的根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型的操作;以及,触发所述第二确定模块执行所述的确定所述待定重构模型的目标重构损失参数的操作,并触发所述判断模块执行所述的根据所述待定重构模型的目标重构损失参数,判断所述待定重构模型是否收敛的操作。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
素材输入模块,用于在所述第一确定模块将所述待定重构模型确定为目标重构模型之后以及当待补充的所述初始素材为初始文本素材时,将所述初始文本素材输入至所述目标重构模型中;
向量转换模块,用于通过与所述初始文本素材相匹配的所述目标重构模型的嵌入层,对所述初始文本素材进行向量转换,得到所述初始文本素材的文本特征向量;
向量融合模块,用于通过与所述初始文本素材相匹配的所述目标重构模型的特征融合层,对所述初始文本素材的文本特征向量以及预先对应生成的第一辅助特征向量进行融合,得到所述初始文本素材的融合后特征向量;
预测重构模块,用于通过与所述初始文本素材相匹配的所述目标重构模型的预测重构层,对所述初始文本素材的融合后特征向量中待预测重构的向量内容进行预测重构,得到所述初始文本素材的预测重构向量内容;
映射模块,用于通过与所述初始文本素材相匹配的所述目标重构模型的全连接层,对所述初始文本素材的预测重构向量内容进行映射,得到所述初始文本素材的映射后向量内容;
所述第一确定模块,还用于根据所述初始文本素材的映射后向量内容,确定所需补充的文本内容;
内容补充模块,用于根据所述文本内容对所述初始文本素材进行文本内容补充,以生成与所述初始文本素材相匹配的目标文本。
作为一种可选的实施方式,在本发明第二方面中,所述素材输入模块,还用于:
当待补充的所述初始素材为初始视频素材时,将所述初始视频素材输入至所述目标重构模型中;
所述向量转换模块,还用于通过与所述初始视频素材相匹配的所述目标重构模型的嵌入层,对所述初始视频素材进行向量转换,得到所述初始视频素材的视频特征向量;
所述向量融合模块,还用于通过与所述初始视频素材相匹配的所述目标重构模型的特征融合层,对所述初始视频素材的视频特征向量以及预先对应生成的第二辅助特征向量进行融合,得到所述初始视频素材的融合后特征向量;
所述向量转换模块,还用于通过与所述初始视频素材相匹配的所述目标重构模型的全连接层,对所述初始视频素材的融合后特征向量进行第一向量转换,得到所述初始视频素材的转换后特征向量;
所述预测重构模块,还用于通过与所述初始视频素材相匹配的所述目标重构模型的预测重构层,对所述初始视频素材的转换后特征向量中待预测重构的向量内容进行预测重构,得到所述初始视频素材的预测重构向量内容;
所述向量转换模块,还用于通过预先确定出的库处理方式,对所述初始视频素材的预测重构向量内容进行第二向量转换,得到所述初始视频素材的转换后向量内容;
所述第一确定模块,还用于根据所述初始视频素材的转换后向量内容,确定所需补充的视频内容;
所述内容补充模块,还用于根据所述视频内容对所述初始视频素材进行视频内容补充,以生成与所述初始视频素材相匹配的目标视频。
本发明第三方面公开了另一种基于多模态数据的模型训练装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于多模态数据的模型训练方法。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于多模态数据的模型训练方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,确定至少两种模态类型的目标训练数据集合;根据所有模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型;确定待定重构模型的目标重构损失参数,并根据待定重构模型的目标重构损失参数,判断待定重构模型是否收敛;当判断结果为是时,将待定重构模型确定为目标重构模型。可见,实施本发明能够同时对多个模态类型对应的待训练分支模型进行联合训练,从而训练出目标重构模型,以通过其生成各模态类型对应的结果。相较于单独训练多个模型来说,不仅可以缩短多个模型训练的时长,从而快速地训练出多个模态类型的模型,还可以降低各模型之间的语义特征分析差异性,进而能够提高生成的各模态类型对应的结果之间的匹配度,从而能够满足用户对多模态类型素材的处理需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于多模态数据的模型训练的训练流程示意图;
图2是本发明实施例公开的一种基于多模态数据的模型训练方法的流程示意图;
图3是本发明实施例公开的另一种基于多模态数据的模型训练方法的流程示意图;
图4是本发明实施例公开的一种基于多模态数据的模型训练装置的结构示意图;
图5是本发明实施例公开的另一种基于多模态数据的模型训练装置的结构示意图;
图6是本发明实施例公开的又一种基于多模态数据的模型训练装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于多模态数据的模型训练方法及装置,不仅能够快速地训练出多个模态类型的模型,还能够提高生成的各模态类型对应的结果之间的匹配度。以下分别进行详细说明。
实施例一
请参阅图2,图2是本发明实施例公开的一种基于多模态数据的模型训练方法的流程示意图。其中,图2所描述的基于多模态数据的模型训练方法所训练出来的目标重构模型可以对初始视频素材进行视频内容补充,也可以对初始文本素材进行文本内容补充,本发明实施例不做限定。可选的,该方法可以由重构模型训练系统实现,该重构模型训练系统可以集成在重构模型训练设备中,还可以是用于对基于多模态数据的模型训练流程进行处理的本地服务器或云端服务器等,本发明实施例不做限定。如图2所示,该基于多模态数据的模型训练方法可以包括以下操作:
101、确定至少两种模态类型的目标训练数据集合。
在本发明实施例中,具体的,每种模态类型的目标训练数据集合均包括若干个目标训练数据子集,且所有模态类型的目标训练数据集合至少包括视频帧模态类型的目标训练数据集合以及文本模态类型的目标训练数据集合。可选的的,视频帧模态类型的目标训练数据集合可以是连续的或画面切换程度小于阈值的视频所包括的所有视频帧,还可以是对该视频所包括的所有视频帧进行抽帧处理后所得到的视频帧。进一步可选的,所有模态类型的目标训练数据集合还可以包括图片模态类型的目标训练数据集合、音频模态类型的目标训练数据集合等等。
102、根据所有模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型。
在本发明实施例中,其中,待训练重构模型包括与每种模态类型分别对应的待训练分支模型,即待训练重构模型可看作一个整体模型,其包括了多个的待训练分支模型,而对待训练重构模型进行训练,也即同时对所有模态类型分别对应的待训练分支模型进行训练。具体的,如图1所示,图1为本发明实施例公开的一种基于多模态数据的模型训练的训练流程示意图,如图1所示,每种模态类型分别对应一个待训练分支模型,也即该待训练重构模型至少包括视频帧模态类型对应的待训练分支模型以及文本模态类型的对应的待训练分支模型。可选的,该待训练重构模型还可以包括图片模态类型对应的待训练分支模型、音频模态类型对应的待训练分支模型等等。
103、确定待定重构模型的目标重构损失参数,并根据待定重构模型的目标重构损失参数,判断待定重构模型是否收敛。
在本发明实施例中,目标重构损失参数可以作为判定该待定重构模型是否能够提前终止训练的标准。具体的,根据待定重构模型的目标重构损失参数,判断待定重构模型是否收敛,包括:判断待定重构模型的目标重构损失参数是否大于等于预设重构损失阈值,若是,则确定待定重构模型不收敛;若否,则确定待定重构模型收敛。一般来说,模型的训练会预先设置好训练次数阈值,而若在某次训练的过程中,当出现目标重构损失参数小于预设重构损失阈值的时候,则可提前终止模型训练,而无需直至达到预先设置好训练次数阈值为止;而若直至达到预先设置好训练次数阈值为止,目标重构损失参数依旧是大于等于预设重构损失阈值时,则可重新设置训练次数,并将待定重构模型确定为新的待训练重构模型,以进行新一轮的模型训练。
104、当判断结果为是时,将待定重构模型确定为目标重构模型。
在本发明实施例中,其中,目标重构模型用于对待补充的初始素材进行素材补充,以生成与初始素材相匹配的目标结果。可选的,该初始素材可以为初始视频素材或者初始文本素材,还可以为与其余训练后分支模型相匹配的其他初始素材,如初始图像素材、初始音频素材等。
可见,实施本发明实施例能够同时对多个模态类型对应的待训练分支模型进行联合训练,从而训练出目标重构模型,以通过其生成各模态类型对应的结果。相较于单独训练多个模型来说,不仅可以缩短多个模型训练的时长,从而快速地训练出多个模态类型的模型,还可以降低各模型之间的语义特征分析差异性,进而能够提高生成的各模态类型对应的结果之间的匹配度,从而能够满足用户对多模态类型素材的处理需求。
在一个可选的实施例中,上述步骤102中的根据所有模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型,包括:
将所有模态类型的目标训练数据集合输入至预先确定出的待训练重构模型中,以使待训练重构模型所包括的与每种模态类型分别对应的待训练分支模型的嵌入层执行如下操作:对于该模态类型的目标训练数据集合中的每个目标训练数据子集,确定该目标训练数据子集对应的第一特征向量以及确定该目标训练数据子集对应的目标模态类型数据的缺失占比;根据目标模态类型数据的缺失占比,确定该目标训练数据子集的掩码参数;根据掩码参数,对该目标训练数据子集对应的第一特征向量中与掩码参数相匹配的向量内容进行掩码,得到该目标训练数据子集对应的第二特征向量;
对于输入的每种模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的特征融合层,对其所包括的每个目标训练数据子集对应的第二特征向量与预先对应生成的第三特征向量执行融合操作,得到所有目标训练数据子集对应的融合后特征向量;
对于输入的每种模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的预测重构层,对其所包括的每个目标训练数据子集对应的融合后特征向量中被掩码的向量内容执行预测重构操作,得到所有目标训练数据子集对应的预测重构向量内容。
在该可选的实施例中,其中,目标训练数据子集对应的第一特征向量可以通过对应模态类型的目标参数来确定,如对于视频帧模态类型的目标训练数据集合中的目标训练数据子集,其对应的第一特征向量可以通过视频帧集合的视频帧数、视频帧集合的图像尺寸以及视频帧集合的色彩模式中的至少一种来确定。可选的,掩码参数包括所需掩码的数据占比和/或所需掩码的数据位置。举例来说,若该目标训练数据子集对应的目标模态类型数据的缺失占比较大,则可以确定较小的该目标训练数据子集所需掩码的数据占比,否则,相反。
进一步可选的,如图1所示,第三特征向量是通过该模态类型对应的其余待训练分支模型的嵌入层对其余模态类型的目标训练数据集合进行向量转换得到的,或者对该目标训练数据子集所缺失的目标模态类型数据进行向量初始化得到的。举例来说,如对于包括与A模态类型以及B模态类型对应的待训练分支模型的待训练重构模型来说,针对A模态类型的目标训练数据集合,若其没有缺失对应的B模态类型的目标训练数据集合,则与其所包括的每个目标训练数据子集对应的第二特征向量所对应的第三特征向量,可以是通过B模态类型对应的待训练分支模型的嵌入层对B模态类型的目标训练数据集合进行向量转换得到的,而若其缺失对应的B模态类型的目标训练数据集合,则与其所包括的每个目标训练数据子集对应的第二特征向量所对应的第三特征向量,可以是通过B模态类型对应的待训练分支模型的嵌入层对所缺失的B模态类型的目标训练数据集合进行向量初始化得到的,也即特征向量的融合操作,是需要将不同模态类型对应的目标训练数据子集所对应的各特征向量一并融合,而不能出现特征向量缺失的情况。
进一步的,在该可选的实施例中,如图1所示,对于输入的每种模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的预测重构层,对其所包括的每个目标训练数据子集对应的融合后特征向量中被掩码的向量内容执行预测重构操作,得到所有目标训练数据子集对应的预测重构向量内容,可以包括:
对于输入的每种模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的预测重构层中的编码层,获取其所包括的每个目标训练数据子集对应的语义特征信息,并通过该模态类型对应的待训练分支模型的预测重构层中的解码层及每个目标训练数据子集对应的语义特征信息,对每个目标训练数据子集对应的融合后特征向量中被掩码的向量内容执行预测重构操作,得到所有目标训练数据子集对应的预测重构向量内容。
可见,该可选的实施例能够通过各模态类型对应的待训练分支模型的嵌入层、特征融合层及预测重构层对对应模态类型的目标训练数据集合进行特征向量转换、特征向量融合以及特征向量重构预测,以使每个模态类型对应的待训练分支模型能够学习到其与其他模态类型的特征信息之间的关系(如视频的画面变化信息与文本的语序信息之间的关系),这样,有利于提高各模态类型对应的待训练分支模型的训练可靠性、准确性及有效性,进而有利于提高待训练重构模型的训练可靠性、准确性及有效性,从而有利于提高各模态类型对应的目标结果之间的匹配度。
实施例二
请参阅图3,图3是本发明实施例公开的一种基于多模态数据的模型训练方法的流程示意图。其中,图3所描述的基于多模态数据的模型训练方法所训练出来的目标重构模型可以对初始视频素材进行视频内容补充,也可以对初始文本素材进行文本内容补充,本发明实施例不做限定。可选的,该方法可以由重构模型训练系统实现,该重构模型训练系统可以集成在重构模型训练设备中,还可以是用于对基于多模态数据的模型训练流程进行处理的本地服务器或云端服务器等,本发明实施例不做限定。如图3所示,该基于多模态数据的模型训练方法可以包括以下操作:
201、确定至少两种模态类型的目标训练数据集合。
202、根据所有模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型。
203、对于每种模态类型的目标训练数据集合,计算其所包括的每个目标训练数据子集对应的预测重构向量内容与对应的第一特征向量之间的距离回归损失参数,得到所有目标训练数据子集对应的距离回归损失参数,并根据所有目标训练数据子集对应的距离回归损失参数,确定该模态类型对应的训练后分支模型的重构损失参数。
在本发明实施例中,进一步的,根据所有目标训练数据子集对应的距离回归损失参数,确定该模态类型对应的训练后分支模型的重构损失参数,包括:确定每个目标训练数据子集对应的距离回归损失参数的计算比例,并根据所有目标训练数据子集对应的距离回归损失参数及对应的距离回归损失参数的计算比例,确定该模态类型对应的训练后分支模型的重构损失参数。其中,该重构损失参数为:Loss = smooth_L 1_1+……+smooth_L 1_n,其中,smooth_L 1_n为对应的目标训练数据子集对应的距离回归损失参数。
204、通过每种模态类型分别对应的待训练分支模型的预测重构层,提取每个模态类型的目标训练数据集合对应的语义特征信息,并根据所有模态类型的目标训练数据集合对应的语义特征信息,计算所有模态类型的目标训练数据集合之间的语义特征损失参数,作为待定重构模型的目标语义特征损失参数。
在本发明实施例中,具体的,计算所有模态类型的目标训练数据集合之间的语义特征损失参数,即计算两两模态类型的目标训练数据集合对应的语义特征信息之间的交叉熵之和,如当前具有ABC三种模态类型,则分别计算A与B、B与C、A与C模态类型的目标训练数据集合对应的语义特征信息之间的交叉熵,并将三者的交叉熵之和确定为待定重构模型的目标语义特征损失参数Loss_ce。通过该交叉熵之和可判定各模态类型对应的待训练分支模型之间的语义特征分析是否足够相似,即可视作为各模态类型的特征融合的一种方式,这样,在对待训练重构模型进行训练的过程中,能够有效消除各模态类型对应的待训练分支模型之间的部分噪声,从而能够提升各模态类型对应的待训练分支模型的学习效果。
205、根据所有模态类型分别对应的训练后分支模型的重构损失参数以及目标语义特征损失参数,计算待定重构模型的目标重构损失参数。
在本发明实施例中,具体的,该待定重构模型的目标重构损失参数为:Loss_total=(Loss 1+……+Loss n)+Loss_ce,其中,Loss n为对应的模态类型对应的训练后分支模型的重构损失参数,Loss_ce为目标语义特征损失参数。如对于包括与视频帧模态类型以及文本模态类型对应的待训练分支模型的待训练重构模型来说,该待定重构模型的目标重构损失参数为:Loss_total = Loss_video + Loss_text + Loss_ce。
206、根据待定重构模型的目标重构损失参数,判断待定重构模型是否收敛。
207、当判断结果为是时,将待定重构模型确定为目标重构模型。
在本发明实施例中,针对步骤201、步骤202、步骤206及步骤207的其它描述,请参照实施例一中针对步骤101-步骤104的详细描述,本发明实施例不再赘述。
可见,实施本发明实施例能够通过计算待定重构模型的目标语义特征损失参数,从而确定待定重构模型的目标重构损失参数,这样,能够保证各模态类型对应的待训练分支模型之间的语义特征分析足够相似,进而能够降低各模态类型对应的待训练分支模型之间的语义特征分析差异性,从而能够有效提高通过目标重构模型所生成的各模态类型对应的目标结果之间的匹配度。
在一个可选的实施例中,上述步骤205中的根据所有模态类型分别对应的训练后分支模型的重构损失参数以及目标语义特征损失参数,计算待定重构模型的目标重构损失参数,包括:
确定所有模态类型分别对应的训练后分支模型的重构损失参数的第一计算比例以及目标语义特征损失参数的第二计算比例;
根据所有模态类型分别对应的训练后分支模型的重构损失参数及对应的重构损失参数的第一计算比例、目标语义特征损失参数以及第二计算比例,计算待定重构模型的目标重构损失参数。
在该可选的实施例中,其中,目标重构损失参数为:
Loss_total = ( Loss_1*ratio_1 +…+ Loss_n*ratio_n) + Loss_ce *ratio_ce。
其中,Loss_total为目标重构损失参数,Loss_n为对应的模态类型对应的训练后分支模型的重构损失参数,ratio_n为对应的重构损失参数的第一计算比例(其比例的具体值可在[0,1]比例范围中任意取值),Loss_ce为目标语义特征损失参数,ratio_ce为第二计算比例(其比例的具体值同样可在[0,1]比例范围中任意取值)。具体的,若Loss_ce越小,则各模态类型对应的待训练分支模型之间的语义特征分析越相似。
可见,该可选的实施例能够有依据以及有针对性地对待定重构模型的目标重构损失参数进行计算,这样,有利于提高所得到的目标重构损失参数的可靠性及准确性,进而有利于提高后续所训练出的目标重构模型的可靠性及准确性,从而可以通过目标重构模型准确地生成与初始素材相匹配的目标结果。
在另一个可选的实施例中,上述步骤206中的根据待定重构模型的目标重构损失参数,判断待定重构模型是否收敛,包括:
判断目标重构损失参数是否大于等于预设重构损失阈值,若是,则确定待定重构模型不收敛。
进一步的,在该可选的实施例中,该方法还可以包括:
当判断出待定重构模型不收敛时,将待定重构模型确定为新的待训练重构模型,并触发执行的根据所有模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型;以及,确定待定重构模型的目标重构损失参数,并根据待定重构模型的目标重构损失参数,判断待定重构模型是否收敛的操作。
在该可选的实施例中,具体的,将待定重构模型确定为新的待训练重构模型可以理解为更改待定重构模型的模型参数,并将更改后的待定重构模型更新为待训练重构模型,以进行下一轮的模型训练,其中,对待定重构模型的模型参数更改操作可以依据所计算出的各模态类型分别对应的训练后分支模型的重构损失参数及目标语义特征损失参数来进行。
可见,该可选的实施例能够智能化地对待定重构模型进行重复训练,直至待定重构模型收敛,这样,有利于提高整个模型训练过程的训练可靠性、训练准确性以及训练有效性,从而有利于训练出可靠的目标重构模型,以使得通过目标重构模型所生成的各模态类型对应的目标结果之间能够相匹配,满足用户对各模态类型的素材处理需求。
在又一个可选的实施例中,在上述步骤207将待定重构模型确定为目标重构模型之后,该方法还可以包括:
当待补充的初始素材为初始文本素材时,将初始文本素材输入至目标重构模型中,并通过与初始文本素材相匹配的目标重构模型的嵌入层,对初始文本素材进行向量转换,得到初始文本素材的文本特征向量;
通过与初始文本素材相匹配的目标重构模型的特征融合层,对初始文本素材的文本特征向量以及预先对应生成的第一辅助特征向量进行融合,得到初始文本素材的融合后特征向量;
通过与初始文本素材相匹配的目标重构模型的预测重构层,对初始文本素材的融合后特征向量中待预测重构的向量内容进行预测重构,得到初始文本素材的预测重构向量内容;
通过与初始文本素材相匹配的目标重构模型的全连接层,对初始文本素材的预测重构向量内容进行映射,得到初始文本素材的映射后向量内容;
根据初始文本素材的映射后向量内容,确定所需补充的文本内容,并根据文本内容对初始文本素材进行文本内容补充,以生成与初始文本素材相匹配的目标文本。
在该可选的实施例中,可选的,该初始文本素材可以直接从原有的文本中提取,也可以通过相关预训练模型的字典中随机抽取文字作为噪声文本而得到。举例来说,当需要对初始文本素材进行素材补充时,此时可以将一段相应的视频进行视频帧切分,并将切分后的视频帧集合以及从原有文本中所提取的文本文字作为初始文本素材输入至目标重构模型中。随后,初始文本素材会通过目标重构模型中的训练后文本分支模型的嵌入层进行向量转换,得到初始文本素材的文本特征向量;同时,视频帧集合会通过目标重构模型中的训练后视频分支模型的嵌入层进行向量转换,得到视频帧集合的视频特征向量,也即作为初始文本素材对应的辅助特征向量。然后,将初始文本素材的文本特征向量与初始文本素材对应的辅助特征向量进行融合及预测重构,得到初始文本素材的预测重构向量内容。接着,通过训练后文本分支模型的全连接层,对初始文本素材的预测重构的向量内容进行映射,随后在训练后文本分支模型对应的预设词表中确定出与映射后向量内容对应的字符,以得到所需补充的文本内容并补充至初始文本素材中,生成完整的目标文本。
可见,该可选的实施例能够通过训练出的目标重构模型及对应的视频辅助材料,生成与初始文本素材相匹配的目标文本,不仅能够快速地生成用户所需的目标文本,还能够通过对应的视频辅助材料,提高所生成的目标文本与视频辅助材料之间的匹配度,从而提高所生成的目标文本的可靠性及准确性。
在又一个可选的实施例中,该方法还可以包括:
当待补充的初始素材为初始视频素材时,将初始视频素材输入至目标重构模型中,并通过与初始视频素材相匹配的目标重构模型的嵌入层,对初始视频素材进行向量转换,得到初始视频素材的视频特征向量;
通过与初始视频素材相匹配的目标重构模型的特征融合层,对初始视频素材的视频特征向量以及预先对应生成的第二辅助特征向量进行融合,得到初始视频素材的融合后特征向量;
通过与初始视频素材相匹配的目标重构模型的全连接层,对初始视频素材的融合后特征向量进行第一向量转换,得到初始视频素材的转换后特征向量;
通过与初始视频素材相匹配的目标重构模型的预测重构层,对初始视频素材的转换后特征向量中待预测重构的向量内容进行预测重构,得到初始视频素材的预测重构向量内容;
通过预先确定出的库处理方式,对初始视频素材的预测重构向量内容进行第二向量转换,得到初始视频素材的转换后向量内容;
根据初始视频素材的转换后向量内容,确定所需补充的视频内容,并根据视频内容对初始视频素材进行视频内容补充,以生成与初始视频素材相匹配的目标视频。
在该可选的实施例中,可选的,该初始视频素材可以直接从原有的视频中提取相关视频分镜集合,也可以通过相关预训练模型随机初始化噪声图片而得到。举例来说,当需要对初始视频素材进行素材补充时,此时可以将一段相应的脚本文字进行句切分,并将切分后的句子集合以及随机初始化噪声图片作为初始视频素材输入至目标重构模型中。随后,初始视频素材会通过目标重构模型中的训练后视频分支模型的嵌入层进行向量转换,得到初始视频素材的视频特征向量;同时,句子集合会通过目标重构模型中的训练后文本分支模型的嵌入层进行向量转换,得到句子集合的文本特征向量,也即作为初始视频素材对应的辅助特征向量。然后,将初始视频素材的视频特征向量与初始视频素材对应的辅助特征向量进行融合、向量转换及预测重构,得到初始视频素材的预测重构向量内容。接着,通过预先确定出的库处理方式,对初始视频素材的预测重构的向量内容进行特征空间向量转换,随后即可依据初始视频素材的转换后向量内容确定出所需补充的视频内容并补充至初始视频素材中,生成完整的目标视频。
可见,该可选的实施例能够通过训练出的目标重构模型及对应的文本辅助材料,生成与初始视频素材相匹配的目标视频,不仅能够快速地生成用户所需的目标视频,还能够通过对应的文本辅助材料,提高所生成的目标视频与文本辅助材料之间的匹配度,从而提高所生成的目标视频的可靠性及准确性。
实施例三
请参阅图4,图4是本发明实施例公开的一种基于多模态数据的模型训练装置的结构示意图。如图4所示,该基于多模态数据的模型训练装置可以包括:
第一确定模块301,用于确定至少两种模态类型的目标训练数据集合;
训练模块302,用于根据所有模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型;
第二确定模块303,用于确定待定重构模型的目标重构损失参数;
判断模块304,用于根据待定重构模型的目标重构损失参数,判断待定重构模型是否收敛;
第一确定模块301,还用于当判断模块304判断结果为是时,将待定重构模型确定为目标重构模型。
在本发明实施例中,每种模态类型的目标训练数据集合均包括若干个目标训练数据子集,所有模态类型的目标训练数据集合至少包括视频帧模态类型的目标训练数据集合以及文本模态类型的目标训练数据集合;其中,待训练重构模型包括与每种模态类型分别对应的待训练分支模型;目标重构模型用于对待补充的初始素材进行素材补充,以生成与初始素材相匹配的目标结果。
可见,实施图4所描述的基于多模态数据的模型训练装置能够同时对多个模态类型对应的待训练分支模型进行联合训练,从而训练出目标重构模型,以通过其生成各模态类型对应的结果。相较于单独训练多个模型来说,不仅可以缩短多个模型训练的时长,从而快速地训练出多个模态类型的模型,还可以降低各模型之间的语义特征分析差异性,进而能够提高生成的各模态类型对应的结果之间的匹配度,从而能够满足用户对多模态类型素材的处理需求。
在一个可选的实施例中,训练模块302根据所有模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型的方式具体为:
将所有模态类型的目标训练数据集合输入至预先确定出的待训练重构模型中,以使待训练重构模型所包括的与每种模态类型分别对应的待训练分支模型的嵌入层执行如下操作:对于该模态类型的目标训练数据集合中的每个目标训练数据子集,确定该目标训练数据子集对应的第一特征向量以及确定该目标训练数据子集对应的目标模态类型数据的缺失占比;根据目标模态类型数据的缺失占比,确定该目标训练数据子集的掩码参数;根据掩码参数,对该目标训练数据子集对应的第一特征向量中与掩码参数相匹配的向量内容进行掩码,得到该目标训练数据子集对应的第二特征向量;
对于输入的每种模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的特征融合层,对其所包括的每个目标训练数据子集对应的第二特征向量与预先对应生成的第三特征向量执行融合操作,得到所有目标训练数据子集对应的融合后特征向量;
对于输入的每种模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的预测重构层,对其所包括的每个目标训练数据子集对应的融合后特征向量中被掩码的向量内容执行预测重构操作,得到所有目标训练数据子集对应的预测重构向量内容。
在该可选的实施例中,掩码参数包括所需掩码的数据占比和/或所需掩码的数据位置;第三特征向量是通过该模态类型对应的其余待训练分支模型的嵌入层对其余模态类型的目标训练数据集合进行向量转换得到的,或者对该目标训练数据子集所缺失的目标模态类型数据进行向量初始化得到的。
可见,实施图5所描述的基于多模态数据的模型训练装置能够通过各模态类型对应的待训练分支模型的嵌入层、特征融合层及预测重构层对对应模态类型的目标训练数据集合进行特征向量转换、特征向量融合以及特征向量重构预测,以使每个模态类型对应的待训练分支模型能够学习到其与其他模态类型的特征信息之间的关系(如视频的画面变化信息与文本的语序信息之间的关系),这样,有利于提高各模态类型对应的待训练分支模型的训练可靠性、准确性及有效性,进而有利于提高待训练重构模型的训练可靠性、准确性及有效性,从而有利于提高各模态类型对应的目标结果之间的匹配度。
在另一个可选的实施例中,第二确定模块303确定待定重构模型的目标重构损失参数的方式具体为:
对于每种模态类型的目标训练数据集合,计算其所包括的每个目标训练数据子集对应的预测重构向量内容与对应的第一特征向量之间的距离回归损失参数,得到所有目标训练数据子集对应的距离回归损失参数,并根据所有目标训练数据子集对应的距离回归损失参数,确定该模态类型对应的训练后分支模型的重构损失参数;
通过每种模态类型分别对应的待训练分支模型的预测重构层,提取每个模态类型的目标训练数据集合对应的语义特征信息,并根据所有模态类型的目标训练数据集合对应的语义特征信息,计算所有模态类型的目标训练数据集合之间的语义特征损失参数,作为待定重构模型的目标语义特征损失参数;
根据所有模态类型分别对应的训练后分支模型的重构损失参数以及目标语义特征损失参数,计算待定重构模型的目标重构损失参数。
可见,实施图5所描述的基于多模态数据的模型训练装置能够通过计算待定重构模型的目标语义特征损失参数,从而确定待定重构模型的目标重构损失参数,这样,能够保证各模态类型对应的待训练分支模型之间的语义特征分析足够相似,进而能够降低各模态类型对应的待训练分支模型之间的语义特征分析差异性,从而能够有效提高通过目标重构模型所生成的各模态类型对应的目标结果之间的匹配度。
在又一个可选的实施例中,第二确定模块303根据所有模态类型分别对应的训练后分支模型的重构损失参数以及目标语义特征损失参数,计算待定重构模型的目标重构损失参数的方式具体为:
确定所有模态类型分别对应的训练后分支模型的重构损失参数的第一计算比例以及目标语义特征损失参数的第二计算比例;
根据所有模态类型分别对应的训练后分支模型的重构损失参数及对应的重构损失参数的第一计算比例、目标语义特征损失参数以及第二计算比例,计算待定重构模型的目标重构损失参数。
在该可选的实施例中,其中,目标重构损失参数为:
Loss_total = ( Loss_1*ratio_1 +…+ Loss_n*ratio_n) + Loss_ce *ratio_ce;
Loss_total为目标重构损失参数,Loss_n为对应的模态类型对应的训练后分支模型的重构损失参数,ratio_n为对应的重构损失参数的第一计算比例,Loss_ce为目标语义特征损失参数,ratio_ce为第二计算比例。
可见,实施图5所描述的基于多模态数据的模型训练装置能够有依据以及有针对性地对待定重构模型的目标重构损失参数进行计算,这样,有利于提高所得到的目标重构损失参数的可靠性及准确性,进而有利于提高后续所训练出的目标重构模型的可靠性及准确性,从而可以通过目标重构模型准确地生成与初始素材相匹配的目标结果。
在又一个可选的实施例中,判断模块304根据待定重构模型的目标重构损失参数,判断待定重构模型是否收敛的方式具体为:
判断目标重构损失参数是否大于等于预设重构损失阈值,若是,则确定待定重构模型不收敛;
以及,该第一确定模块301,还用于:
当判断模块304判断出待定重构模型不收敛时,将待定重构模型确定为新的待训练重构模型,并触发训练模块302执行的根据所有模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型的操作;以及,触发第二确定模块303执行的确定待定重构模型的目标重构损失参数的操作,并触发判断模块304执行的根据待定重构模型的目标重构损失参数,判断待定重构模型是否收敛的操作。
可见,实施图5所描述的基于多模态数据的模型训练装置能够智能化地对待定重构模型进行重复训练,直至待定重构模型收敛,这样,有利于提高整个模型训练过程的训练可靠性、训练准确性以及训练有效性,从而有利于训练出可靠的目标重构模型,以使得通过目标重构模型所生成的各模态类型对应的目标结果之间能够相匹配,满足用户对各模态类型的素材处理需求。
在又一个可选的实施例中,该装置还包括:
素材输入模块305,用于在第一确定模块301将待定重构模型确定为目标重构模型之后以及当待补充的初始素材为初始文本素材时,将初始文本素材输入至目标重构模型中;
向量转换模块306,用于通过与初始文本素材相匹配的目标重构模型的嵌入层,对初始文本素材进行向量转换,得到初始文本素材的文本特征向量;
向量融合模块307,用于通过与初始文本素材相匹配的目标重构模型的特征融合层,对初始文本素材的文本特征向量以及预先对应生成的第一辅助特征向量进行融合,得到初始文本素材的融合后特征向量;
预测重构模块308,用于通过与初始文本素材相匹配的目标重构模型的预测重构层,对初始文本素材的融合后特征向量中待预测重构的向量内容进行预测重构,得到初始文本素材的预测重构向量内容;
映射模块309,用于通过与初始文本素材相匹配的目标重构模型的全连接层,对初始文本素材的预测重构向量内容进行映射,得到初始文本素材的映射后向量内容;
第一确定模块301,还用于根据初始文本素材的映射后向量内容,确定所需补充的文本内容;
内容补充模块310,用于根据文本内容对初始文本素材进行文本内容补充,以生成与初始文本素材相匹配的目标文本。
可见,实施图5所描述的基于多模态数据的模型训练装置能够通过训练出的目标重构模型及对应的视频辅助材料,生成与初始文本素材相匹配的目标文本,不仅能够快速地生成用户所需的目标文本,还能够通过对应的视频辅助材料,提高所生成的目标文本与视频辅助材料之间的匹配度,从而提高所生成的目标文本的可靠性及准确性。
在又一个可选的实施例中,素材输入模块305,还用于:
当待补充的初始素材为初始视频素材时,将初始视频素材输入至目标重构模型中;
向量转换模块306,还用于通过与初始视频素材相匹配的目标重构模型的嵌入层,对初始视频素材进行向量转换,得到初始视频素材的视频特征向量;
向量融合模块307,还用于通过与初始视频素材相匹配的目标重构模型的特征融合层,对初始视频素材的视频特征向量以及预先对应生成的第二辅助特征向量进行融合,得到初始视频素材的融合后特征向量;
向量转换模块306,还用于通过与初始视频素材相匹配的目标重构模型的全连接层,对初始视频素材的融合后特征向量进行第一向量转换,得到初始视频素材的转换后特征向量;
预测重构模块308,还用于通过与初始视频素材相匹配的目标重构模型的预测重构层,对初始视频素材的转换后特征向量中待预测重构的向量内容进行预测重构,得到初始视频素材的预测重构向量内容;
向量转换模块306,还用于通过预先确定出的库处理方式,对初始视频素材的预测重构向量内容进行第二向量转换,得到初始视频素材的转换后向量内容;
第一确定模块301,还用于根据初始视频素材的转换后向量内容,确定所需补充的视频内容;
内容补充模块310,还用于根据视频内容对初始视频素材进行视频内容补充,以生成与初始视频素材相匹配的目标视频。
可见,实施图5所描述的基于多模态数据的模型训练装置能够通过训练出的目标重构模型及对应的文本辅助材料,生成与初始视频素材相匹配的目标视频,不仅能够快速地生成用户所需的目标视频,还能够通过对应的文本辅助材料,提高所生成的目标视频与文本辅助材料之间的匹配度,从而提高所生成的目标视频的可靠性及准确性。
实施例四
请参阅图6,图6是本发明实施例公开的又一种基于多模态数据的模型训练装置的结构示意图。如图6所示,该基于多模态数据的模型训练装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或本发明实施例二所描述的基于多模态数据的模型训练方法中的步骤。
实施例五
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或本发明实施例二所描述的基于多模态数据的模型训练方法中的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的基于多模态数据的模型训练方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于多模态数据的模型训练方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (10)

1.一种基于多模态数据的模型训练方法,其特征在于,所述方法包括:
确定至少两种模态类型的目标训练数据集合;每种所述模态类型的目标训练数据集合均包括若干个目标训练数据子集,所有所述模态类型的目标训练数据集合至少包括视频帧模态类型的目标训练数据集合以及文本模态类型的目标训练数据集合;
根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型,其中,所述待训练重构模型包括与每种所述模态类型分别对应的待训练分支模型;
确定所述待定重构模型的目标重构损失参数,并根据所述待定重构模型的目标重构损失参数,判断所述待定重构模型是否收敛;
当判断结果为是时,将所述待定重构模型确定为目标重构模型;所述目标重构模型用于对待补充的初始素材进行素材补充,以生成与所述初始素材相匹配的目标结果;
其中,所述根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型,包括:
将所有所述模态类型的目标训练数据集合输入至预先确定出的待训练重构模型中,以使所述待训练重构模型所包括的与每种所述模态类型分别对应的待训练分支模型的嵌入层执行如下操作:对于该模态类型的目标训练数据集合中的每个所述目标训练数据子集,确定该目标训练数据子集对应的第一特征向量以及确定该目标训练数据子集对应的目标模态类型数据的缺失占比;根据所述目标模态类型数据的缺失占比,确定该目标训练数据子集的掩码参数;根据所述掩码参数,对该目标训练数据子集对应的第一特征向量中与所述掩码参数相匹配的向量内容进行掩码,得到该目标训练数据子集对应的第二特征向量;所述掩码参数包括所需掩码的数据占比和/或所需掩码的数据位置;
对于输入的每种所述模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的特征融合层,对其所包括的每个所述目标训练数据子集对应的第二特征向量与预先对应生成的第三特征向量执行融合操作,得到所有所述目标训练数据子集对应的融合后特征向量;
对于输入的每种所述模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的预测重构层,对其所包括的每个所述目标训练数据子集对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作,得到所有所述目标训练数据子集对应的预测重构向量内容。
2.根据权利要求1所述的基于多模态数据的模型训练方法,其特征在于,所述第三特征向量是通过该模态类型对应的其余待训练分支模型的嵌入层对其余模态类型的目标训练数据集合进行向量转换得到的,或者对该目标训练数据子集所缺失的所述目标模态类型数据进行向量初始化得到的。
3.根据权利要求2所述的基于多模态数据的模型训练方法,其特征在于,所述确定所述待定重构模型的目标重构损失参数,包括:
对于每种所述模态类型的目标训练数据集合,计算其所包括的每个所述目标训练数据子集对应的预测重构向量内容与对应的所述第一特征向量之间的距离回归损失参数,得到所有所述目标训练数据子集对应的距离回归损失参数,并根据所有所述目标训练数据子集对应的距离回归损失参数,确定该模态类型对应的训练后分支模型的重构损失参数;
通过每种所述模态类型分别对应的待训练分支模型的预测重构层,提取每个所述模态类型的目标训练数据集合对应的语义特征信息,并根据所有所述模态类型的目标训练数据集合对应的语义特征信息,计算所有所述模态类型的目标训练数据集合之间的语义特征损失参数,作为所述待定重构模型的目标语义特征损失参数;
根据所有所述模态类型分别对应的训练后分支模型的重构损失参数以及所述目标语义特征损失参数,计算所述待定重构模型的目标重构损失参数。
4.根据权利要求3所述的基于多模态数据的模型训练方法,其特征在于,所述根据所有所述模态类型分别对应的训练后分支模型的重构损失参数以及所述目标语义特征损失参数,计算所述待定重构模型的目标重构损失参数,包括:
确定所有所述模态类型分别对应的训练后分支模型的重构损失参数的第一计算比例以及所述目标语义特征损失参数的第二计算比例;
根据所有所述模态类型分别对应的训练后分支模型的重构损失参数及对应的所述重构损失参数的第一计算比例、所述目标语义特征损失参数以及所述第二计算比例,计算所述待定重构模型的目标重构损失参数;
其中,所述目标重构损失参数为:
Loss_total=(Loss_1*ratio_1+…+Loss_n*ratio_n)+Loss_ce*ratio_ce;
Loss_total为所述目标重构损失参数,Loss_n为对应的模态类型对应的训练后分支模型的重构损失参数,ratio_n为对应的所述重构损失参数的第一计算比例,Loss_ce为所述目标语义特征损失参数,ratio_ce为所述第二计算比例。
5.根据权利要求1-4任一项所述的基于多模态数据的模型训练方法,其特征在于,所述根据所述待定重构模型的目标重构损失参数,判断所述待定重构模型是否收敛,包括:
判断所述目标重构损失参数是否大于等于预设重构损失阈值,若是,则确定所述待定重构模型不收敛;
以及,所述方法还包括:
当判断出所述待定重构模型不收敛时,将所述待定重构模型确定为新的待训练重构模型,并触发执行所述的根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型;以及,确定所述待定重构模型的目标重构损失参数,并根据所述待定重构模型的目标重构损失参数,判断所述待定重构模型是否收敛的操作。
6.根据权利要求5所述的基于多模态数据的模型训练方法,其特征在于,在所述将所述待定重构模型确定为目标重构模型之后,所述方法还包括:
当待补充的所述初始素材为初始文本素材时,将所述初始文本素材输入至所述目标重构模型中,并通过与所述初始文本素材相匹配的所述目标重构模型的嵌入层,对所述初始文本素材进行向量转换,得到所述初始文本素材的文本特征向量;
通过与所述初始文本素材相匹配的所述目标重构模型的特征融合层,对所述初始文本素材的文本特征向量以及预先对应生成的第一辅助特征向量进行融合,得到所述初始文本素材的融合后特征向量;
通过与所述初始文本素材相匹配的所述目标重构模型的预测重构层,对所述初始文本素材的融合后特征向量中待预测重构的向量内容进行预测重构,得到所述初始文本素材的预测重构向量内容;
通过与所述初始文本素材相匹配的所述目标重构模型的全连接层,对所述初始文本素材的预测重构向量内容进行映射,得到所述初始文本素材的映射后向量内容;
根据所述初始文本素材的映射后向量内容,确定所需补充的文本内容,并根据所述文本内容对所述初始文本素材进行文本内容补充,以生成与所述初始文本素材相匹配的目标文本。
7.根据权利要求6所述的基于多模态数据的模型训练方法,其特征在于,所述方法还包括:
当待补充的所述初始素材为初始视频素材时,将所述初始视频素材输入至所述目标重构模型中,并通过与所述初始视频素材相匹配的所述目标重构模型的嵌入层,对所述初始视频素材进行向量转换,得到所述初始视频素材的视频特征向量;
通过与所述初始视频素材相匹配的所述目标重构模型的特征融合层,对所述初始视频素材的视频特征向量以及预先对应生成的第二辅助特征向量进行融合,得到所述初始视频素材的融合后特征向量;
通过与所述初始视频素材相匹配的所述目标重构模型的全连接层,对所述初始视频素材的融合后特征向量进行第一向量转换,得到所述初始视频素材的转换后特征向量;
通过与所述初始视频素材相匹配的所述目标重构模型的预测重构层,对所述初始视频素材的转换后特征向量中待预测重构的向量内容进行预测重构,得到所述初始视频素材的预测重构向量内容;
通过预先确定出的库处理方式,对所述初始视频素材的预测重构向量内容进行第二向量转换,得到所述初始视频素材的转换后向量内容;
根据所述初始视频素材的转换后向量内容,确定所需补充的视频内容,并根据所述视频内容对所述初始视频素材进行视频内容补充,以生成与所述初始视频素材相匹配的目标视频。
8.一种基于多模态数据的模型训练装置,其特征在于,所述装置包括:
第一确定模块,用于确定至少两种模态类型的目标训练数据集合;每种所述模态类型的目标训练数据集合均包括若干个目标训练数据子集,所有所述模态类型的目标训练数据集合至少包括视频帧模态类型的目标训练数据集合以及文本模态类型的目标训练数据集合;
训练模块,用于根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型,其中,所述待训练重构模型包括与每种所述模态类型分别对应的待训练分支模型;
第二确定模块,用于确定所述待定重构模型的目标重构损失参数;
判断模块,用于根据所述待定重构模型的目标重构损失参数,判断所述待定重构模型是否收敛;
所述第一确定模块,还用于当所述判断模块判断结果为是时,将所述待定重构模型确定为目标重构模型;所述目标重构模型用于对待补充的初始素材进行素材补充,以生成与所述初始素材相匹配的目标结果;
其中,所述训练模块根据所有所述模态类型的目标训练数据集合,对预先确定出的待训练重构模型进行训练,得到待定重构模型的方式具体为:
将所有所述模态类型的目标训练数据集合输入至预先确定出的待训练重构模型中,以使所述待训练重构模型所包括的与每种所述模态类型分别对应的待训练分支模型的嵌入层执行如下操作:对于该模态类型的目标训练数据集合中的每个所述目标训练数据子集,确定该目标训练数据子集对应的第一特征向量以及确定该目标训练数据子集对应的目标模态类型数据的缺失占比;根据所述目标模态类型数据的缺失占比,确定该目标训练数据子集的掩码参数;根据所述掩码参数,对该目标训练数据子集对应的第一特征向量中与所述掩码参数相匹配的向量内容进行掩码,得到该目标训练数据子集对应的第二特征向量;所述掩码参数包括所需掩码的数据占比和/或所需掩码的数据位置;
对于输入的每种所述模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的特征融合层,对其所包括的每个所述目标训练数据子集对应的第二特征向量与预先对应生成的第三特征向量执行融合操作,得到所有所述目标训练数据子集对应的融合后特征向量;
对于输入的每种所述模态类型的目标训练数据集合,通过该模态类型对应的待训练分支模型的预测重构层,对其所包括的每个所述目标训练数据子集对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作,得到所有所述目标训练数据子集对应的预测重构向量内容。
9.一种基于多模态数据的模型训练装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的基于多模态数据的模型训练方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的基于多模态数据的模型训练方法。
CN202211024813.5A 2022-08-25 2022-08-25 基于多模态数据的模型训练方法及装置 Active CN115100582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211024813.5A CN115100582B (zh) 2022-08-25 2022-08-25 基于多模态数据的模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211024813.5A CN115100582B (zh) 2022-08-25 2022-08-25 基于多模态数据的模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN115100582A CN115100582A (zh) 2022-09-23
CN115100582B true CN115100582B (zh) 2022-12-02

Family

ID=83299940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211024813.5A Active CN115100582B (zh) 2022-08-25 2022-08-25 基于多模态数据的模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN115100582B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512006B (zh) * 2022-11-23 2023-04-07 有米科技股份有限公司 基于多图像元素的图像智能合成方法及装置
CN116776157B (zh) * 2023-08-17 2023-12-12 鹏城实验室 支持模态增加的模型学习方法及其装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN113591902A (zh) * 2021-06-11 2021-11-02 中国科学院自动化研究所 基于多模态预训练模型的跨模态理解与生成方法和装置
CN113762322A (zh) * 2021-04-22 2021-12-07 腾讯科技(北京)有限公司 基于多模态表示的视频分类方法、装置和设备及存储介质
CN113792113A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言模型获得及任务处理方法、装置、设备及介质
CN114358243A (zh) * 2021-12-14 2022-04-15 有米科技股份有限公司 通用特征提取网络训练方法、装置及通用特征提取网络
CN114445201A (zh) * 2022-02-16 2022-05-06 中山大学 一种基于多模态预训练模型的组合商品检索方法及系统
CN114840651A (zh) * 2022-04-20 2022-08-02 南方科技大学 视觉问答的训练方法、系统及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792113A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言模型获得及任务处理方法、装置、设备及介质
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN113762322A (zh) * 2021-04-22 2021-12-07 腾讯科技(北京)有限公司 基于多模态表示的视频分类方法、装置和设备及存储介质
CN113591902A (zh) * 2021-06-11 2021-11-02 中国科学院自动化研究所 基于多模态预训练模型的跨模态理解与生成方法和装置
CN114358243A (zh) * 2021-12-14 2022-04-15 有米科技股份有限公司 通用特征提取网络训练方法、装置及通用特征提取网络
CN114445201A (zh) * 2022-02-16 2022-05-06 中山大学 一种基于多模态预训练模型的组合商品检索方法及系统
CN114840651A (zh) * 2022-04-20 2022-08-02 南方科技大学 视觉问答的训练方法、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN115100582A (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN115100582B (zh) 基于多模态数据的模型训练方法及装置
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
JP7432556B2 (ja) マンマシンインタラクションのための方法、装置、機器および媒体
CA3166784A1 (en) Human-machine interactive speech recognizing method and system for intelligent devices
CN110717325B (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
EP3885966B1 (en) Method and device for generating natural language description information
CN110705284A (zh) 基于神经网络生成模型的诗词生成质量的优化方法及系统
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
JP2020004382A (ja) 音声対話方法及び装置
CN113539273B (zh) 一种语音识别方法、装置、计算机设备和存储介质
CN112257437A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN112149642A (zh) 一种文本图像识别方法和装置
CN111860653A (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN116884391B (zh) 基于扩散模型的多模态融合音频生成方法及装置
CN114286154A (zh) 多媒体文件的字幕处理方法、装置、电子设备及存储介质
KR102502985B1 (ko) 대상 추천 방법, 신경망 및 그 훈련 방법, 장치 및 매체
CN111477212A (zh) 内容识别、模型训练、数据处理方法、系统及设备
CN115883878A (zh) 视频剪辑方法、装置、电子设备及存储介质
CN115828848A (zh) 字体生成模型的训练方法、装置、设备及存储介质
CN114286181A (zh) 一种视频优化方法、装置、电子设备和存储介质
CN113505268A (zh) 一种交互处理方法及装置
CN111310847A (zh) 训练要素分类模型的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant