CN111324769A - 视频信息处理模型的训练方法、视频信息处理方法及装置 - Google Patents

视频信息处理模型的训练方法、视频信息处理方法及装置 Download PDF

Info

Publication number
CN111324769A
CN111324769A CN202010066286.9A CN202010066286A CN111324769A CN 111324769 A CN111324769 A CN 111324769A CN 202010066286 A CN202010066286 A CN 202010066286A CN 111324769 A CN111324769 A CN 111324769A
Authority
CN
China
Prior art keywords
video
information processing
target
processing model
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010066286.9A
Other languages
English (en)
Inventor
彭广举
徐聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010066286.9A priority Critical patent/CN111324769A/zh
Publication of CN111324769A publication Critical patent/CN111324769A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明通过了一种视频信息处理模型的训练方法,包括:获取第一目标视频,确定与所述第一目标视频相对应的第一视频集合和第二视频集合;对第一视频集合行相关性标注,并对第二视频集合中的每一个视频对应的用户行为特征进行标注;根据第一目标视频的视频参数,对视频信息处理模型中的网络参数进行调整;通过视频信息处理模型中的第一视频处理网络,确定与第一目标视频相匹配的融合特征向量。本发明还提供了视频信息处理方法、装置、电子设备及存储介质。本发明所获取的融合特征向量能够用于确定与相应视频推荐进程相对应的待推荐视频,以更符合用户的行为特征。

Description

视频信息处理模型的训练方法、视频信息处理方法及装置
技术领域
本发明涉及信息处理技术,尤其涉及视频信息处理模型的训练方法、视频信息处理方法、装置、电子设备及存储介质。
背景技术
视频信息向量化表示是很多机器学习算法的基础,如何能够把视频信息准确的表示出来是该方向的研究重点。现有技术大多相对比较片面,没有结构化地对视频进行表示学习。
常见的学习方式包括:1)直接使用视频标签的表示方式,包括视频分类、视频主题、视频发布来源等。通过此类标签对视频进行粗分,可以分为娱乐视频、体育视频,或者细分到篮球集锦、影视花絮。但是这类表示方法比较粗放,分类标签信息需要提前设置并及时更新,而且其内容表示能力是有限的。2)基于文本的学习,包括对视频标题、视频描述信息或者视频标签进行文本语义学习,该类方式比较依赖于文本信息的准确性,但是很多视频存在文本信息缺失的情况,从而使得视频表示不准确。3)基于神经网络模型,使用视频的各种特征作为输入,以人工标注的视频对的相关性作为目标,设计深度网络模型,端到端的学习视频间的相关性,实现视频推荐,但是模型训练时需要人工标注相关视频对数据作为训练数据,因而很难获取大规模的训练数据,同时也无法根据用户的观看习惯与行为特征对模型进行调整,严重影响用户的使用体验。
发明内容
有鉴于此,本发明实施例提供一种视频信息处理模型的训练方法、视频信息处理方法、装置、电子设备及存储介质,本发明实施例的技术方案是这样实现的:
本发明提供了一种视频信息处理模型的训练方法,所述方法包括:
获取第一目标视频,确定与所述第一目标视频相对应的第一视频集合和第二视频集合;
对所述第一视频集合中的每一个视频信息进行相关性标注,并对所述第二视频集合中的每一个视频对应的用户行为特征进行标注;
基于对所述第一视频集合的相关性标注,对所述第一目标视频进行解析以实现获取所述第一目标视频的视频参数;
根据所述第一目标视频的视频参数,确定与所述第一目标视频相匹配的基础特征,以及与所述第一目标视频相匹配的多模态特征;
基于与所述第一目标视频相匹配的基础特征和多模态特征,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配;
基于所述第二视频集合的用户行为特征标注,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第二视频集合的用户行为特征相匹配并且与所述第一视频集合的相关性相匹配。
本发明实施例还提供了一种视频信息处理方法,其特征在于,所述方法包括:
获取上文视频以及对应的视频源中的待推荐视频;
对所述待推荐视频进行解析,确定所述待推荐视频对应的基础特征和多模态特征
基于所述待推荐视频的基础特征和所述多模态特征,通过所述视频信息处理模型中的第一视频处理网络,确定与所述待推荐视频相匹配的第一特征向量;
通过所述视频信息处理模型中的第一视频处理网络,确定与所述上文视频相匹配的第二特征向量;
通过所述视频信息处理模型中的第二视频处理网络,根据所述第一特征向量和所述第二特征向量,确定相应的融合特征向量,以实现对所述视频源中的所有待推荐视频的召回顺序进行排序;
其中,所述视频信息处理模型基于如前序的方法训练得到。
上述方案中,所述方法还包括:
获取待处理图像,以及与所述待推荐视频的播放界面相对应的目标分辨率;
基于所述目标分辨率,通过第一视频处理网络中的图像处理网络对所述待处理图像进行分辨率增强处理,并获取相应的图像特征向量,以实现所述图像特征向量与所述待推荐视频的播放界面相对应的目标分辨率相适配。
上述方案中,所述方法还包括:
通过文本处理网络提取与所述标题文字特征相匹配的文字特征向量;
通过所述文本处理网络,根据所述文字特征向量确定与标题文字特征所对应的至少一个词语级的隐变量;
通过所述文本处理网络,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的处理词语以及所述处理词语的被选取概率;
根据所述处理结果的被选取概率,选取至少一个处理词语组成与所述标题文字特征相对应的文本处理结果。
上述方案中,所述方法还包括:
确定与所述待推荐视频的播放环境相匹配的码率信息;
通过所述第一视频处理网络中的视觉处理网络,利用所述多模态特征中的视觉特征,对所述待推荐视频的码率进行调整,以实现待推荐视频的码率与所述播放环境的码率信息相匹配。
本发明实施例还提供了一种视频信息处理模型的训练装置,所述装置包括:
第一信息传输模块,用于获取第一目标视频,确定与所述第一目标视频相对应的第一视频集合和第二视频集合;
训练模块,用于对所述第一视频集合中的每一个视频信息进行相关性标注,并对所述第二视频集合中的每一个视频对应的用户行为特征进行标注;
所述训练模块,用于基于对所述第一视频集合的相关性标注,对所述第一目标视频进行解析以实现获取所述第一目标视频的视频参数;
所述训练模块,用于基于所述第一目标视频的视频参数,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配;
所述训练模块,用于基于所述第二视频集合的用户行为特征标注,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第二视频集合的用户行为特征相匹配并且与所述第一视频集合的相关性相匹配。
上述方案中,
所述训练模块,用于确定与所述第一目标视频对应的不同维度的相关性参数;
所述训练模块,用于根据所述不同维度的相关性参数对所述第一视频集合中的每一个视频的相关性进行标注,以获取与所述第一视频集合相匹配的训练样本集合;
所述训练模块,用于确定与所述第二视频集合对应的播放日志信息;
所述训练模块,用于根据所述播放日志信息所包括的不同维度的播放行为参数,对所述第二视频集合中的每一个视频对应的用户行为特征进行标注,以获取与所述第二视频集合相匹配的训练样本集合。
上述方案中,
所述训练模块,用于对所述第一目标视频进行解析,获取所述第一目标视频的标签信息;
所述训练模块,用于根据所述第一目标视频的标签信息,对所述第一目标视频所对应的视频信息进行解析,以实现分别获取与所述第一目标视频在基础维度与多模态维度中的视频参数。
上述方案中,
所述训练模块,用于根据所述第一目标视频在基础维度中的视频参数,确定与所述第一目标视频相对应的类别参数、视频标签参数和视频发布来源参数;
所述训练模块,用于对所述第一目标视频相对应的类别参数、视频标签参数和视频发布来源参数分别进行特征抽取,以形成与所述第一目标视频相匹配的基础特征;
所述训练模块,用于根据所述第一目标视频在基础维度中的视频参数,确定与所述第一目标视频相对应的标题文字参数、图像信息参数和视觉信息参数;
所述训练模块,用于对所述第一目标视频相对应的标题文字参数、图像信息参数和视觉信息参数分别进行特征抽取并融合,以形成与所述第一目标视频相匹配的多模态特征。
上述方案中,
所述训练模块,用于根据所述第一目标视频的视频参数,确定与所述第一目标视频相匹配的基础特征,以及与所述第一目标视频相匹配的多模态特征;
所述训练模块,用于基于与所述第一目标视频相匹配的基础特征和多模态特征,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配。
上述方案中,
所述训练模块,用于当与所述视频信息处理模型相匹配的进程为视频推荐进程时,
所述训练模块,用于基于与所述第一目标视频相匹配的基础特征和多模态特征,确定与所述视频信息处理模型相匹配的不同维度的损失函数;
所述训练模块,用于基于所输入的所述第二视频集合的用户行为特征标注,根据所述视频信息处理模型中的第二视频处理网络所输出的第二目标视频融合特征向量,以及所述不同维度的损失函数,调整与所述第一视频处理网络中的基于注意力机制的循环卷积神经网络的参数,直至所述不同维度的损失函数直至达到相应的收敛条件,以实现所述基于注意力机制的循环卷积神经网络的参数与所述第一视频集合的相关性相匹配。
上述方案中,
所述训练模块,用于根据所述第二视频集合的用户行为特征标注的结果以及相关性标注结果,确定与所述视频信息处理模型相匹配的不同维度的损失函数;
所述训练模块,用于根据所述视频信息处理模型中的第二视频处理网络所输出的第二目标视频融合特征向量,以及所述第二视频处理网络对应的不同维度的损失函数;调整与所述第一视频处理网络中的基于注意力机制的循环卷积神经网络的参数,直至所述第二视频处理网络对应的不同维度的损失函数直至达到相应的收敛条件;以实现所述视频信息处理模型与所述第二视频集合的用户行为特征相匹配并且与所述第一视频集合的相关性相匹配。
上述方案中,
所述训练模块,用于对所述视频信息处理模型中的第二视频处理网络的参数进行调整;
所述训练模块,用于通过经过参数调整的所述视频信息处理模型中的第二视频处理网络,确定新的第二目标视频融合特征向量;
所述训练模块,用于通过与所述视频信息处理模型相匹配的分类预测函数,对所述新的第二目标视频融合特征向量和所述第一目标视频的融合特征向量进行连接,以实现确定所述第一目标视频与所述第二目标视频的关联度。
本发明实施例还提供了一种视频信息处理装置,所述装置包括:
第二信息传输模块,用于获取上文视频以及对应的视频源中的待推荐视频;
信息处理模块,用于对所述待推荐视频进行解析,确定所述待推荐视频对应的基础特征和多模态特征
所述信息处理模块,用于基于所述待推荐视频的基础特征和所述多模态特征,通过所述视频信息处理模型中的第一视频处理网络,确定与所述待推荐视频相匹配的第一特征向量;
所述信息处理模块,用于通过所述视频信息处理模型中的第一视频处理网络,确定与所述上文视频相匹配的第二特征向量;
所述信息处理模块,用于通过所述视频信息处理模型中的第二视频处理网络,根据所述第一特征向量和所述第二特征向量,确定相应的融合特征向量,以实现对所述视频源中的所有待推荐视频的召回顺序进行排序;
其中,所述视频信息处理模型基于如前序的方法训练得到。
上述方案中,
所述信息处理模块,用于通过所述第一视频处理网络中的基础信息处理网络,对所述基础特征进行处理,以形成相应的基础特征向量;
所述信息处理模块,用于通过所述第一视频处理网络中的图像处理网络,对所述多模态特征中的图像特征进行处理,以形成相应的图像特征向量;
所述信息处理模块,用于通过所述第一视频处理网络中的文字处理网络,对所述多模态特征中的标题文字特征进行处理,以形成相应标题文字特征向量;
所述信息处理模块,用于通过所述第一视频处理网络中的视觉处理网络,对所述多模态特征中的视觉特征进行处理,以形成相应的视觉特征向量;
所述信息处理模块,用于基于所述基础特征向量、所述图像特征向量、所述标题文字特征向量和所述视觉特征向量,通过所述第一视频处理网络进行向量融合,以形成与所述待推荐视频相匹配的第一特征向量。
上述方案中,
所述信息处理模块,用于确定所述第二视频处理网络对应的不同维度的损失函数;
所述信息处理模块,用于根据所述不同维度的损失函数确定所述第二视频处理网络对应的多目标损失函数以及相应的权重参数;
所述信息处理模块,用于通过所述视频信息处理模型中的第二视频处理网络,根据所述多目标损失函数,对所述第一特征向量和所述第二特征向量进行融合处理,确定相应的融合特征向量。
上述方案中,
所述信息处理模块,用于获取待处理图像,以及与所述待推荐视频的播放界面相对应的目标分辨率;
所述信息处理模块,用于基于所述目标分辨率,通过第一视频处理网络中的图像处理网络对所述待处理图像进行分辨率增强处理,并获取相应的图像特征向量,以实现所述图像特征向量与所述待推荐视频的播放界面相对应的目标分辨率相适配。
上述方案中,
所述信息处理模块,用于通过文本处理网络提取与所述标题文字特征相匹配的文字特征向量;
所述信息处理模块,用于通过所述文本处理网络,根据所述文字特征向量确定与标题文字特征所对应的至少一个词语级的隐变量;
所述信息处理模块,用于通过所述文本处理网络,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的处理词语以及所述处理词语的被选取概率;
所述信息处理模块,用于根据所述处理结果的被选取概率,选取至少一个处理词语组成与所述标题文字特征相对应的文本处理结果。
上述方案中,
所述信息处理模块,用于确定与所述待推荐视频的播放环境相匹配的码率信息;
所述信息处理模块,用于通过所述第一视频处理网络中的视觉处理网络,利用所述多模态特征中的视觉特征,对所述待推荐视频的码率进行调整,以实现待推荐视频的码率与所述播放环境的码率信息相匹配。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的视频信息处理模型的训练方法,或者,实现前序的视频信息处理方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现前序的视频信息处理模型的训练方法,或者,实现前序的视频信息处理方法。
本发明实施例具有以下有益效果:
本发明通过获取第一目标视频,确定与所述第一目标视频相对应的第一视频集合和第二视频集合;对所述第一视频集合中的每一个视频信息进行相关性标注,并对所述第二视频集合中的每一个视频对应的用户行为特征进行标注;基于对所述第一视频集合的相关性标注,对所述第一目标视频进行解析以实现获取所述第一目标视频的视频参数;根据所述第一目标视频的视频参数,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配;基于所述第二视频集合的用户行为特征标注,对视频信息处理模型中的网络参数进行调整由此,通过对第一目标视频的视频信息进行处理,不但能够获得与相应的用户行为特征相匹配的视频信息处理模型还能够确定与相应视频推荐进程相对应的待推荐视频,实现视频信息处理模型与第二视频集合的用户行为特征相匹配并且与第一视频集合的相关性相匹配,提升用户的使用体验。
附图说明
图1为本发明实施例提供的视频信息处理模型的训练方法的使用场景示意图;
图2A为本发明实施例提供的视频信息处理模型的训练装置的组成结构示意图;
图2B为本发明实施例提供的视频信息处理装置的组成结构示意图;
图3为本发明实施例提供的视频信息处理模型的训练方法一个可选的流程示意图;
图4为本发明实施例提供的视频信息处理模型的训练方法一个可选的流程示意图;
图5为本发明实施例中文本处理网络一个可选的结构示意图;
图6为本发明实施例中文本处理网络一个可选的词语级类隐变量的确定过程示意图;
图7为本发明实施例中文本处理网络中编码器一个可选的结构示意图;
图8为本发明实施例中文本处理网络中编码器的向量拼接示意图;
图9为本发明实施例中文本处理网络中编码器的编码过程示意图;
图10为本发明实施例中文本处理网络中解码器的解码过程示意图;
图11为本发明实施例中文本处理网络中解码器的解码过程示意图;
图12为本发明实施例中文本处理网络中解码器的解码过程示意图;
图13为本发明实施例中图像处理网络一个可选的结构示意图;
图14为本发明实施例中图像视觉处理网络一个可选的结构示意图;
图15为本发明实施例提供的视频信息处理模型的训练方法一个可选的流程示意图;
图16为本发明实施例中视频信息处理模型的训练方法的应用环境示意图;
图17为本发明实施例所提供的视频信息处理模型的训练方法的工作过程示意图;
图18为本发明实施例所提供的视频信息处理模型的训练方法的数据结构示意图;
图19为本发明实施例所提供的视频信息处理模型的一个可选的结构示意图;
图20为本发明实施例所提供的视频信息处理模型的一个可选的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)基于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)第一目标视频,互联网中可获取的各种形式的视频信息,如客户端或者智能设备中呈现的视频文件、多媒体信息等。
3)卷积神经网络(CNN Convolutional Neural Networks)是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)。
4)模型训练,对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建,使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵,模型输出为多分类概率,通过softmax等算法最终输出网页类别。在训练时,模型通过交叉熵等目标函数向正确趋势逼近。
5)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
6)语音识别(SR Speech Recognition):也被称为自动语音识别(ASR AutomaticSpeech Recognition)、计算机语音识别(CSR Computer Speech Recognition)或者语音转文本识别(STT Speech To Text),其目标是使用计算机自动将人类的语音内容转换为相应的文字。
7)机器翻译(Machine Translation,MT):属于计算语言学的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。神经网络机器翻译(Neural Machine Translation,NMT)是使用神经网络技术进行机器翻译的一种技术。
8)编码器-解码器结构:机器翻译技术常用的网络结构。由编码器和解码器两部分组成,编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量,解码器接收编码器输出的结果作为自己的输入,输出对应的另一种语言的文本序列。
9)双向注意力神经网络模(BERT Bidirectional Encoder Representationsfrom Transformers)谷歌提出的双向注意力神经网络模型。
10)token:词单元,对输入文本做任何实际处理前,都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。
11)Soft max:归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在[0,1]之间,并且所有元素的和为1。
12)分词:使用中文分词工具切分中文文本,得到细粒度词的集合。停用词:对于文本的语义没有贡献或者贡献可以不计的字或词。Cosin相似度:两个文本表示成向量之后的余弦相似度。
13)Transformers:一种新的网络结构,采用注意力机制,代替传统的编码器-解码器必须依赖其它神经网络的模式。字向量:对单个字用固定维度的分布向量表示。复合词:由细粒度的关键词组成的粒度较粗的关键词,其语义相对细粒度关键词更加丰富和完整。
图1为本发明实施例提供的视频信息处理模型的训练方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有能够显示相应第一目标视频的软件的客户端,例如视频播放的客户端或插件,用户通过相应的客户端可以获得第一目标视频(或者第一目标视频以及相应的第二目标视频)并进行展示;终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
作为一个示例,服务器200用于布设所述视频信息处理模型的训练装置以实现本发明所提供的视频信息处理模型的训练方法,后者布设视频信息处理装置,以实现视频信息处理方法,具体的,通过视频处理模型对视频信息进行处理包括:获取上文视频以及对应的视频源中的待推荐视频;对所述待推荐视频进行解析,确定所述待推荐视频对应的基础特征和多模态特征;基于所述待推荐视频的基础特征和所述多模态特征,通过所述视频信息处理模型中的第一视频处理网络,确定与所述待推荐视频相匹配的第一特征向量;通过所述视频信息处理模型中的第一视频处理网络,确定与所述上文视频相匹配的第二特征向量;通过所述视频信息处理模型中的第二视频处理网络,根据所述第一特征向量和所述第二特征向量,确定相应的融合特征向量,以实现对所述视频源中的所有待推荐视频的召回顺序进行排序;以通过并通过终端(终端10-1和/或终端10-2)展示输出所述上文视频以或者通过上文视频所确定的待推荐视频。当然,本发明所提供的视频信息处理模型的训练装置可以应用于视频播放,在视频播放中通常会对不同数据来源的第一目标视频进行处理,最终在用户界面(UI User Interface)上呈现出与相应的第一目标视频以及相应的与相应视频推荐进程相对应的待推荐视频,第一目标视频相的特征的准确性与及时性直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据,所得到与所述第一目标视频相匹配的文本信息还可以供其他应用程序调用,当然,与相应的用户行为特征相匹配的视频信息处理模型也可以迁移至不同的视频推荐进程(例如网页视频推荐进程、小程序视频推荐进程或者短视频客户端的视频推荐进程)。
当然通过视频信息处理模型的训练装置对第一目标视频处理,之前还需要对视频信息处理模型进行训练,具体包括:获取第一目标视频,确定与所述第一目标视频相对应的第一视频集合和第二视频集合;对所述第一视频集合中的每一个视频信息进行相关性标注,并对所述第二视频集合中的每一个视频对应的用户行为特征进行标注;基于对所述第一视频集合的相关性标注,对所述第一目标视频进行解析以实现获取所述第一目标视频的视频参数;根据所述第一目标视频的视频参数,确定与所述第一目标视频相匹配的基础特征,以及与所述第一目标视频相匹配的多模态特征;基于与所述第一目标视频相匹配的基础特征和多模态特征,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配;基于所述第二视频集合的用户行为特征标注,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第二视频集合的用户行为特征相匹配并且与所述第一视频集合的相关性相匹配,
下面对本发明实施例的视频信息处理模型的训练装置的结构做详细说明,视频信息处理模型的训练装置可以各种形式来实施,如带有视频信息处理模型的训练装置处理功能的专用终端,也可以为设置有视频信息处理模型的训练装置处理功能的服务器,例如前序图1中的服务器200。图2A为本发明实施例提供的视频信息处理模型的训练装置的组成结构示意图,可以理解,图2A仅仅示出了视频信息处理模型的训练装置的示例性结构而非全部结构,根据需要可以实施图2A示出的部分结构或全部结构。
本发明实施例提供的视频信息处理模型的训练装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。视频信息处理模型的训练装置中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2A中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的视频信息处理模型的训练装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的视频信息处理模型的训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的视频信息处理模型的训练方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的视频信息处理模型的训练装置采用软硬件结合实施的示例,本发明实施例所提供的视频信息处理模型的训练装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的视频信息处理模型的训练方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的视频信息处理模型的训练装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的视频信息处理模型的训练方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持视频信息处理模型的训练装置的操作。这些数据的示例包括:用于在视频信息处理模型的训练装置上操作的任何可执行指令,如可执行指令,实现本发明实施例的从视频信息处理模型的训练方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的视频信息处理模型的训练装置可以采用软件方式实现,图2A示出了存储在存储器202中的视频信息处理模型的训练装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括视频信息处理模型的训练装置,视频信息处理模型的训练装置中包括以下的软件模块:
第一信息传输模块2081和训练模块2082。当视频信息处理模型的训练装置中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的视频信息处理模型的训练方法,其中,视频信息处理模型的训练装置中各个软件模块的功能,包括:
第一信息传输模块2081,用于获取第一目标视频,确定与所述第一目标视频相对应的第一视频集合和第二视频集合;
训练模块2082,用于对所述第一视频集合中的每一个视频信息进行相关性标注,并对所述第二视频集合中的每一个视频对应的用户行为特征进行标注;
所述训练模块2082,用于基于对所述第一视频集合的相关性标注,对所述第一目标视频进行解析以实现获取所述第一目标视频的视频参数;
所述训练模块2082,用于根据所述第一目标视频的视频参数,确定与所述第一目标视频相匹配的基础特征,以及与所述第一目标视频相匹配的多模态特征;
所述训练模块2082,用于基于与所述第一目标视频相匹配的基础特征和多模态特征,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配;
所述训练模块2082,用于基于所述第二视频集合的用户行为特征标注,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第二视频集合的用户行为特征相匹配并且与所述第一视频集合的相关性相匹配。
下面对本发明实施例的视频信息处理装置的结构做详细说明,视频信息处理装置可以各种形式来实施,如带有视频信息处理装置处理功能的专用终端,也可以为设置有视频信息处理装置处理功能的服务器,例如前序图1中的服务器。图2B为本发明实施例提供的视频信息处理装置的组成结构示意图,可以理解,图2B仅仅示出了视频信息处理装置的示例性结构而非全部结构,根据需要可以实施图2B示出的部分结构或全部结构。
本发明实施例提供的视频信息处理装置包括:至少一个处理器301、存储器302、用户接口303和至少一个网络接口304。视频信息处理装置中的各个组件通过总线系统305耦合在一起。可以理解,总线系统305用于实现这些组件之间的连接通信。总线系统305除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2B中将各种总线都标为总线系统305。
其中,用户接口303可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器302可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器302能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的视频信息处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的视频信息处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的视频信息处理模型的训练方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable LogicDevice)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的视频信息处理装置采用软硬件结合实施的示例,本发明实施例所提供的视频信息处理装置可以直接体现为由处理器301执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器302,处理器301读取存储器302中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器301以及连接到总线305的其他组件)完成本发明实施例提供的视频信息处理模型的训练方法。
作为示例,处理器301可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的视频信息处理装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器301来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的视频信息处理模型的训练方法。
本发明实施例中的存储器302用于存储各种类型的数据以支持视频信息处理装置的操作。这些数据的示例包括:用于在视频信息处理装置上操作的任何可执行指令,如可执行指令,实现本发明实施例的从视频信息处理模型的训练方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的视频信息处理装置可以采用软件方式实现,图2B示出了存储在存储器302中的视频信息处理装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器302中存储的程序的示例,可以包括视频信息处理装置,视频信息处理装置中包括以下的软件模块:
第二信息传输模块3081和信息处理模块3082。当视频信息处理装置中的软件模块被处理器301读取到RAM中并执行时,将实现本发明实施例提供的视频信息处理模型的训练方法,其中,视频信息处理装置中各个软件模块的功能,包括:
第二信息传输模块3081,用于获取上文视频以及对应的视频源中的待推荐视频;
信息处理模块3082,用于对所述待推荐视频进行解析,确定所述待推荐视频对应的基础特征和多模态特征
所述信息处理模块3082,用于基于所述待推荐视频的基础特征和所述多模态特征,通过所述视频信息处理模型中的第一视频处理网络,确定与所述待推荐视频相匹配的第一特征向量;
所述信息处理模块3082,用于通过所述视频信息处理模型中的第一视频处理网络,确定与所述上文视频相匹配的第二特征向量;
所述信息处理模块3082,用于通过所述视频信息处理模型中的第二视频处理网络,根据所述第一特征向量和所述第二特征向量,确定相应的融合特征向量,以实现对所述视频源中的所有待推荐视频的召回顺序进行排序;其中,所述视频信息处理模型基于前述的方法训练得到。
结合图2A示出的视频信息处理模型的训练装置说明本发明实施例提供的视频信息处理模型的训练方法,参见图3,图3为本发明实施例提供的视频信息处理模型的训练方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行视频信息处理模型的训练装置的各种电子设备执行,例如可以是如带有视频信息处理模型的训练装置的专用终端、服务器或者服务器集群,其中,带有视频信息处理模型的训练装置的专用终端可以为前序图2A所示的实施例中带有视频信息处理模型的训练装置的电子设备。下面针对图3示出的步骤进行说明。
步骤301:视频信息处理模型的训练装置获取第一目标视频,确定与所述第一目标视频相对应的第一视频集合和第二视频集合。
步骤302:视频信息处理模型的训练装置对第一视频集合行相关性标注,并对第二视频集合中的每一个视频对应的用户行为特征进行标注。
在本发明的一些实施例中,对所述第一视频集合行相关性标注,并对所述第二视频集合中的每一个视频对应的用户行为特征进行标注,可以通过以下方式实现:
确定与所述第一目标视频对应的不同维度的相关性参数;根据所述不同维度的相关性参数对所述第一视频集合行相关性标注,以获取与所述第一视频集合相匹配的训练样本集合;确定与所述第二视频集合对应的播放日志信息;根据所述播放日志信息所包括的不同维度的播放行为参数,对所述第二视频集合中的每一个视频对应的用户行为特征进行标注。其中,标记为1表征视频集合的相关性为相关,标记为0表征视频集合的相关性为无关,取其中相关的视频对可以作为正向训练样本,之后在视频源中随机采样同等量级的视频对作为负向训练样本。进一步地,不同维度的播放行为参数包括:长点击参数、完成度参数、点赞参数、分享参数以及评论参数。
需要说明的是,所述第一目标视频相对应的第一视频集合和第二视频集合可以为同一个综合视频集合,综合视频集合中的视频对信息可以包括标注性相关的视频对,也可以包括用户播放日志视频对,通过综合视频集合对视频信息处理模型进行训练时,可以有效减少训练样本所占用的存储空间,降低模型训练阶段的硬件消耗。
步骤303:视频信息处理模型的训练装置基于对第一视频集合的相关性标注,对第一目标视频进行解析以实现获取第一目标视频的视频参数。
在本发明的一些实施例中,对所述第一目标视频进行解析以实现获取所述第一目标视频的视频参数,可以通过以下方式实现:
对所述第一目标视频进行解析,获取所述第一目标视频的标签信息;根据所述第一目标视频的标签信息,对所述第一目标视频所对应的视频信息进行解析,以实现分别获取与所述第一目标视频在基础维度与多模态维度中的视频参数。其中,所获取的第一目标视频的标签信息可以用于对第一目标视频的视频图像帧和对应的音频文件进行分解,由于第一目标视频的来源具有不确定性(可以是互联网中的视频资源,也可以是电子设备所保存的本地视频文件),通过获取与所述第一目标视频相对应的在基础维度与多模态维度中的视频参数,能够在相应的区块链网络中保存原始的第一目标视频时,同时将与所述第一目标视频相对应的在基础维度与多模态维度中的视频参数保存在区块链网络中,以实现对第一目标视频的溯源。
步骤304:视频信息处理模型的训练装置根据第一目标视频的视频参数,确定与第一目标视频相匹配的基础特征,以及与第一目标视频相匹配的多模态特征。
继续结合图2A示出的视频信息处理模型的训练装置说明本发明实施例提供的视频信息处理模型的训练方法,参见图4,图4为本发明实施例提供的视频信息处理模型的训练方法一个可选的流程示意图,可以理解地,图4所示的步骤可以由运行视频信息处理模型的训练装置的各种电子设备执行,例如可以是如带有视频信息处理模型的视频信息处理功能的专用终端、服务器或者服务器集群用于对确定与第一目标视频相匹配的基础特征和多模态维度特征,以确定与所述视频信息处理模型相适配的模型参数,具体包括以下步骤:
步骤401:根据所述第一目标视频在基础维度中的视频参数,确定与所述第一目标视频相对应的类别参数、视频标签参数和视频发布来源参数。
步骤402:对所述第一目标视频相对应的类别参数、视频标签参数和视频发布来源参数分别进行特征抽取,以形成与所述第一目标视频相匹配的基础特征。
步骤403:根据所述第一目标视频在基础维度中的视频参数,确定与所述第一目标视频相对应的标题文字参数、图像信息参数和视觉信息参数。
步骤404:对所述第一目标视频相对应的标题文字参数、图像信息参数和视觉信息参数分别进行特征抽取并融合,以形成与所述第一目标视频相匹配的多模态特征。
其中,在本发明的一些实施例中,基础特征主要是通过定义方式对视频进行基础描述,包含视频多级分类类别、视频标签、视频发布来源、视频时长、发布时间、事件城市。基础特征是对视频定性的描述,但是对视频本身内容表示信息比较缺乏。
在本发明的一些实施例中,多模态特征是针对视频的标题文字、图片信息以及视觉信息进行的特征抽取,用于描述视频的内容信息,标题和封面图可以影响视频的播放点击率,视频视觉帧图像信息可以影响视频的播放完成度。
步骤305:视频信息处理模型的训练装置基于与所述第一目标视频相匹配的基础特征和多模态特征,对视频信息处理模型中的网络参数进行调整。
由此,可以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配。
步骤306:视频信息处理模型的训练装置基于所述第二视频集合的用户行为特征标注,对视频信息处理模型中的网络参数进行调整。
由此,可以实现所述视频信息处理模型与所述第二视频集合的用户行为特征相匹配并且与所述第一视频集合的相关性相匹配
由此,可以实现视频信息处理模型与相应的用户行为特征相匹配。
在本发明的一些实施例中,基于与所述第一目标视频相匹配的基础特征和多模态特征,对视频信息处理模型中的网络参数进行调整,可以通过以下方式实现:
当与所述视频信息处理模型相匹配的进程为视频推荐进程时,基于与所述第一目标视频相匹配的基础特征和多模态特征,确定与所述视频信息处理模型相匹配的不同维度的损失函数;基于所输入的所述第二视频集合的用户行为特征标注,根据所述视频信息处理模型中的第二视频处理网络所输出的第二目标视频融合特征向量,以及所述不同维度的损失函数,调整与所述第一视频处理网络中的基于注意力机制的循环卷积神经网络的参数,直至所述不同维度的损失函数直至达到相应的收敛条件,以实现所述基于注意力机制的循环卷积神经网络的参数与所述第一视频集合的相关性相匹配。
在本发明的一些实施例中,基于所述第二视频集合的用户行为特征标注,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与相应的用户行为特征相匹配,可以通过以下方式实现:
当与所述视频信息处理模型相匹配的进程为视频推荐进程时,根据所述第二视频集合的用户行为特征标注的结果以及相关性标注结果,确定与所述视频信息处理模型相匹配的不同维度的损失函数;根据所述视频信息处理模型中的第二视频处理网络所输出的第二目标视频融合特征向量,以及所述不同维度的损失函数,调整与所述第一视频处理网络中的基于注意力机制的循环卷积神经网络的参数,直至所述第二视频处理网络对应的不同维度的损失函数直至达到相应的收敛条件;以实现所述视频信息处理模型与所述第二视频集合的用户行为特征相匹配并且与所述第一视频集合的相关性相匹配。
在本发明的一些实施例中,对视频信息处理模型中的网络参数进行调整还包括:
对所述视频信息处理模型中的第二视频处理网络的参数进行调整;通过经过参数调整的所述视频信息处理模型中的第二视频处理网络,确定新的第二目标视频融合特征向量;通过与所述视频信息处理模型相匹配的分类预测函数,对所述新的第二目标视频融合特征向量和所述第一目标视频的融合特征向量进行连接,以实现确定所述第一目标视频与所述第二目标视频的关联度。由此,可以实现确定所述第一目标视频与所述第二目标视频的关联度。进一步地,当关联度超过相应的关联度阈值时,可以向相应的终端推荐第一目标视频,反之,则推荐其他视频已替换当前的第一目标视频
下面分别对第一视频处理网络中的不同子网络进行说明。
在本发明的一些实施例中,所述方法还包括:
通过文本处理网络提取与所述标题文字特征相匹配的文字特征向量;通过所述文本处理网络,根据所述文字特征向量确定与标题文字特征所对应的至少一个词语级的隐变量;通过所述文本处理网络,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的处理词语以及所述处理词语的被选取概率;跟据所述处理结果的被选取概率,选取至少一个处理词语组成与所述标题文字特征相对应的文本处理结果。由此,不但实现了通过文本处理网络对目标文本的标题文字特征进行处理,以确定合适的第一目标视频的标题进行显示,还实现了对所述多模态特征中的标题文字特征进行处理,形成相应标题文字特征向量。
在本发明的一些实施例中,文本处理网络可以为双向注意力神经网络模(BERTBidirectional Encoder Representations from Transformers)。继续参考图5,图5为本发明实施例中文本处理网络一个可选的结构示意图,其中,Encoder包括:N=6个相同的layers组成,每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。
Decoder包括:由N=6个相同的Layer组成,其中layer和encoder并不相同,这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。
继续参考图6,图6为本发明实施例中文本处理网络一个可选的词语级类隐变量的确定过程示意图,其中,其中,encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后,输出到了decoder部分的每一个decoder中;输入目标为“西游记86版第15集之流沙河收沙僧”经过文本处理网络的处理,输出的词语级类隐变量结果为:“西游记-流沙河-沙僧”。
继续参考图7,图7为本发明实施例中文本处理网络中编码器一个可选的结构示意图,其中,其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成,所有键计算查询的点积,并应用softmax函数获得值的权重。
继续参考图7,图7中示出了本发明实施例中文本处理网络中编码器的向量示意,其中Q,K和V的是通过输入encoder的向量x与W^Q,W^K,W^V相乘得到Q,K和V。W^Q,W^K,W^V在文章的维度是(512,64),然后假设我们inputs的维度是(m,512),其中m代表了字的个数。所以输入向量与W^Q,W^K,W^V相乘之后得到的Q、K和V的维度就是(m,64)。
继续参考图8,图8为本发明实施例中文本处理网络中编码器的向量拼接示意图,其中,Z0到Z7就是对应的8个并行的head(维度是(m,64)),然后concat这个8个head之后就得到了(m,512)维度。最后与W^O相乘之后就到了维度为(m,512)的输出的矩阵,那么这个矩阵的维度就和进入下一个encoder的维度保持一致。
继续参考图9,图9为本发明实施例中文本处理网络中编码器的编码过程示意图,其中,x1经过self-attention到了z1的状态,通过了self-attetion的张量还需要进过残差网络和Later Norm的处理,然后进入到全连接的前馈网络中,前馈网络需要进行同样的操作,进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中,然后这样的操作,迭代经过了6次,迭代处理的结果进入到decoder中。
继续参考图10,图10为本发明实施例中文本处理网络中解码器的解码过程示意图,其中,decoder的输入输出和解码过程:
输出:对应i位置的输出词的概率分布;
输入:encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention,它的K,V来自encoder,Q来自上一位置decoder的输出。
继续参考图11和图12,图11为本发明实施例中文本处理网络中解码器的解码过程示意图,其中,解码器网络的最后一个decoder输出的向量会经过Linear层和softmax层。图12为本发明实施例中文本处理网络中解码器的解码过程示意图,Linear层的作用就是对decoder部分出来的向量做映射成一个logits向量,然后softmax层根据这个logits向量,将其转换为了概率值,最后找到概率最大值的位置,即完成了解码器的输出。
在本发明的一些实施例中,所述方法还包括:
获取待处理图像,以及与所述第一目标视频的播放界面相对应的目标分辨率;
基于所述目标分辨率,通过第一视频处理网络中的图像处理网络对所述待处理图像进行分辨率增强处理,并获取相应的图像特征向量,以实现所述图像特征向量与所述第一目标视频的播放界面相对应的目标分辨率相适配。由此,不但实现了通过图像处理网络对待处理的图像进行处理,以确定合适的第一目标视频的封面图像,还实现了对所述多模态特征中的图像特征进行处理,形成相应标题图像特征向量。
参考图13,图13为本发明实施例中图像处理网络一个可选的结构示意图,其中,编码器中可以包含卷积神经网络,将图像特征向量输入编码器后,输出图像特征向量对应的帧级别图像特征向量。具体地,将图像特征向量输入编码器,即输入编码器中的卷积神经网络,通过卷积神经网络提取图像特征向量对应的帧级别图像特征向量,卷积神经网络输出提取的帧级别图像特征向量,并作为编码器的输出,进而利用编码器输出的图像特征向量执行相应的图像语义识别,或者,编码器中可以包含卷积神经网络和循环神经网络,将图像特征向量输入编码器后,输出图像特征向量对应的携带有时序信息的帧级别图像特征向量,如图13中的编码器所示。具体地,将图像特征向量输入编码器,即输入编码器中的卷积神经网络(例如图13中的CNN神经网络),通过卷积神经网络提取图像特征向量对应的帧级别图像特征向量,卷积神经网络输出提取的帧级别图像特征向量,输入到编码器中的循环神经网络(对应图13中的hi-1、hi等结构),通过循环神经网络对提取的卷积神经网络特征向量进行时序信息的提取与融合,循环神经网络输出携带有时序信息的图像特征向量,并作为编码器的输出,进而利用编码器输出的图像特征向量执行相应的处理步骤。
在本发明的一些实施例中,所述方法还包括:
确定与所述第一目标视频的播放环境相匹配的码率信息;通过所述第一视频处理网络中的视觉处理网络,利用所述多模态特征中的视觉特征,对所述第一目标视频的码率进行调整,以实现第一目标视频的码率与所述播放环境的码率信息相匹配。由此,不但实现了通过视觉处理网络对视觉信息进行处理,以确定合适的第一目标视频的动态码率,还实现了对所述多模态特征中的视觉特征进行处理,形成相应标题视觉特征向量。
参考图14,图14为本发明实施例中图像视觉处理网络一个可选的结构示意图,其中,双流长短期记忆网络可以包括双向向量模型、注意力模型、全连接层和sigmoid分类器,双向向量模型对于所输入的视觉特征向量集合中的不同特征向量分别进行递归处理,并采用注意力模型分别将递归处理后的特征向量合并在一起形成更长的向量,例如将相关联的视觉特征向量合并在一起形成更长的向量,并将两个合并后的向量再次合并在一起形成更长的向量(局部聚合向量),最后采用两个全连接层将得到的分布式特征表示映射到对应的样本标记空间,以提高最终码率的准确性,最后采用sigmoid分类器确定图视觉特征对应各个标签的概率值,以实现对所述文本处理结果进行整合处理,形成与所述图视觉特征信息相对应的新的文本信息。
其中,卷积神经网络模型的批处理参数(batch size)可选值为32或64,卷积神经网络模型的优化器选择自适应优化器(adam)的初始学习率可选值为0.0001,随机失活(dropout)可选值为0.2。经过100000次迭代训练后,训练集和测试集准确率均稳定在90%以上,说明模型和该任务场景相匹配,能取得较为理想的训练效果并固定该状态下的卷积神经网络模型的所有参数,由此,对所述第一目标视频的码率进行调整,以实现第一目标视频的码率与所述播放环境的码率信息相匹配。
其中,融合特征向量用于与视频信息处理模型中的第二视频处理网络所输出的第二目标视频融合特征向量结合,以确定与相应视频推荐进程相对应的待推荐视频。
继续结合图2B示出的视频信息处理装置说明本发明实施例提供的视频信息处理方法,参见图15,图15为本发明实施例提供的视频信息处理方法一个可选的流程示意图,可以理解地,图15所示的步骤可以由运行视频信息处理装置的各种电子设备执行,例如可以是如带有视频信息处理模型的视频信息处理功能的专用终端、服务器或者服务器集群用于对确定与第一目标视频相匹配的基础特征和多模态维度特征,以确定与所述视频信息处理模型相适配的模型参数,具体包括以下步骤:
步骤1501:视频信息处理装置获取上文视频以及对应的视频源中的待推荐视频。
在已知上文播放视频进行视频预测的过程中,视频播放界面可以是相应的APP中所展现的,也可以是通过微信小程序所触发的(视频信息处理模型可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中),视频源中可以包括至少一个待推荐视频集合,每一个待推荐视频集合中还可以包括至少一个待推荐视频,选择适合的待推荐视频能够使得推荐视频既能够与上文视频相关联,又可以符合用户的使用习惯,有利于用户的点击观看,提升用户的使用体验。
步骤1502:视频信息处理装置对所述待推荐视频进行解析,确定所述待推荐视频对应的基础特征和多模态特征。
步骤1503:基于所述待推荐视频的基础特征和所述多模态特征,通过所述视频信息处理模型中的第一视频处理网络,确定与所述待推荐视频相匹配的第一特征向量。
在本发明的一些实施例中,基于所述待推荐视频的基础特征和所述多模态特征,通过所述视频信息处理模型中的第一视频处理网络,确定与所述待推荐视频相匹配的第一特征向量,可以通过以下方式实现:
通过所述第一视频处理网络中的基础信息处理网络,对所述基础特征进行处理,以形成相应的基础特征向量;通过所述第一视频处理网络中的图像处理网络,对所述多模态特征中的图像特征进行处理,以形成相应的图像特征向量;通过所述第一视频处理网络中的文字处理网络,对所述多模态特征中的标题文字特征进行处理,以形成相应标题文字特征向量;通过所述第一视频处理网络中的视觉处理网络,对所述多模态特征中的视觉特征进行处理,以形成相应的视觉特征向量;基于所述基础特征向量、所述图像特征向量、所述标题文字特征向量和所述视觉特征向量,通过所述第一视频处理网络进行向量融合,以形成与所述待推荐视频相匹配的第一特征向量。
步骤1504:通过所述视频信息处理模型中的第一视频处理网络,确定与所述上文视频相匹配的第二特征向量。
在本发明的一些实施例中,通过所述视频信息处理模型中的第一视频处理网络,确定与所述上文视频相匹配的第二特征向量,可以通过以下方式实现:
通过所述第一视频处理网络中的基础信息处理网络,对所述基础特征进行处理,以形成相应的基础特征向量;通过所述第一视频处理网络中的图像处理网络,对所述多模态特征中的图像特征进行处理,以形成相应的图像特征向量;通过所述第一视频处理网络中的文字处理网络,对所述多模态特征中的标题文字特征进行处理,以形成相应标题文字特征向量;通过所述第一视频处理网络中的视觉处理网络,对所述多模态特征中的视觉特征进行处理,以形成相应的视觉特征向量;基于所述基础特征向量、所述图像特征向量、所述标题文字特征向量和所述视觉特征向量,通过所述第一视频处理网络进行向量融合,以形成与所述上文视频相匹配的第一特征向量。
步骤1505:通过所述视频信息处理模型中的第二视频处理网络,根据所述第一特征向量和所述第二特征向量,确定相应的融合特征向量。
在本发明的一些实施例中,通过所述视频信息处理模型中的第二视频处理网络,根据所述第一特征向量和所述第二特征向量,确定相应的融合特征向量,可以通过以下方式实现:
确定所述第二视频处理网络对应的不同维度的损失函数;根据所述不同维度的损失函数确定所述第二视频处理网络对应的多目标损失函数以及相应的权重参数;通过所述视频信息处理模型中的第二视频处理网络,根据所述多目标损失函数,对所述第一特征向量和所述第二特征向量进行融合处理,确定相应的融合特征向量。其中,第二视频处理网络对应的多目标损失函数以及相应的权重参数可以根据不同的视频信息处理模型的使用环境灵活调整,与上文视频的具体参数相匹配。
当对视频源中的每一个待推荐视频实现图15所示的处理后,对每一个待处理视频对应的向量进行排序,能够实现对所述视频源中的所有待推荐视频的召回顺序进行排序,进一步地,还可以将排序首位的待推荐视频作为推荐视频与上文视频一同向用户进行推送。
在本发明的一些实施例中,视频信息处理方法还包括:
获取待处理图像,以及与所述待推荐视频的播放界面相对应的目标分辨率;基于所述目标分辨率,通过第一视频处理网络中的图像处理网络对所述待处理图像进行分辨率增强处理,并获取相应的图像特征向量,以实现所述图像特征向量与所述待推荐视频的播放界面相对应的目标分辨率相适配。
下面以短视频播放界面中的视频推荐场景为例对本发明实施例所提供的视频信息处理模型的训练方法进行说明,其中,图16为本发明实施例中视频信息处理模型的训练方法的应用环境示意图,其中,如图16所示,短视频播放界面可以是相应的APP中所展现的,也可以是通过微信小程序所触发的(视频信息处理模型可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中),随着短视频应用产品不断发展增多,视频信息的承载量远远大于文字信息,短视频可以通过相应的应用程序不间断地向用户进行推荐,因此,在已知上文播放视频(即前序实施例中所涉及的第二目标视频)的情况下,进行后续相关视频(即前序实施例中的第一目标视频)的推荐是其中非常重要的环节,有效的后续相关视频的推荐可以有效地提升用户的使用体验,其中,第二目标视频所表征的上文视频既可以是,第一目标视频显示之前播放的一个视频,也可以是第一目标视频显示之前播放的若干个视频的视频集合,这一过程中,视频信息向量化表示是很多机器学习算法的基础,同时用户的播放日志中记载了用户视频播放的过程的不同维度的信息,例如当前用户的长点击、完成度、点赞、分享、评论等参数。传统技术中单纯以相关性作为衡量标准,却忽略了用户消费行为、播放时长等目标,也没有体现上述目标对于视频的推荐效果的影响(不同的用户对同一视频可能会有不同的用户行为),影响了用户的使用体验。
传统技术中,常见的视频信息的推荐方式包括:1)通过对视频进行分类或者打标签,来进行相关视频推荐。比如视频类别可以分为体育、娱乐、社会、政治等,从而根据上文视频的类别推荐相同类别的视频,视频标签可以是某影视明星,某体育赛事等,从而根据上文视频的标签推荐相同标签的视频,进一步的,也可以使用知识图谱的方法对视频的类别和标签进行拓展,从而推荐范围更广的相关视频。但是这类表示方法比较粗放,分类标签信息需要提前设置并及时更新,而且其内容表示能力是有限的,且很难定义合适粒度的类别或标签来达到理想的相关推荐效果。2)基于视频内容表示的相关推荐:首先学习视频内容的向量表示,然后计算向量表示之间的相似度(例如余弦相似度等),从而推荐与上文相似度高的视频。其中,视频内容表示可以使用自然语言处理或图像处理的技术学得,包括视频标题表示、视频封面图表示、视频关键帧表示等,之后基于文本的学习,包括对视频标题、视频描述信息或者视频标签进行文本语义学习,该类方式比较依赖于文本信息的准确性,但是很多视频存在文本信息缺失的情况,从而使得视频表示不准确,同时由于需要事先学得内容的表示,且具内容相似度较大的视频可能重复度较高,这样推荐的视频也影响用户的使用体验。3)基于神经网络模型,使用视频的各种特征作为输入,以人工标注的视频对的相关性作为目标,设计深度网络模型,端到端的学习视频间的相关性,实现视频推荐,但是模型训练时需要人工标注相关视频对数据作为训练数据,因而很难获取大规模的训练数据,同时也无法根据用户的感官体验对模型进行调整。
图17为本发明实施例所提供的视频信息处理模型的训练方法的工作过程示意图,其中,图18为本发明实施例所提供的视频信息处理模型的训练方法的数据结构示意图,下面结合图18所示的视频信息处理模型的训练方法的数据结构示意图对本发明视频信息处理模型的工作过程进行说明,具体包括以下步骤:
步骤1701:在视频数据源中获取并标注相关视频对,以及用户播放日志视频对。
其中,可以在视频服务器的视频数据源中使用标题单纯计算文本相关性获取相关视频对。需要说的是,这里的相关视频对是没有方向性的,需要通过测试人员进行人工标注部分种子数据,这部分种子数据是具有指向性的数据对,既视频A可以推荐视频B,反之不成立。
进一步地,在相关视频对的标注过程中,可以使用视频的基础特征、标题特征、封面图特征或视觉特征直接计算视频相关性作为候选,再由测试人员人工标注相关性(1:相关,0:不相关),取其中相关的视频对作为正样本,再随机采样同等量级的视频对作为负样本。
用户播放日志视频对的获取过程中,可以从用户在相关视频推荐场景下的视频播放行为中抽取出视频对,并根据具体操作行为标注Label,具体如下:
长点击:1(播放时长大于长点击阈值)或0(播放时长不大于长点击阈值),长点击体现出用户的有效播放,长点击阈值定义如公式1所示:
Figure BDA0002376050310000321
其中dur为视频时长,即如果视频时长小于15秒,用户观看时长超过7秒为长点击,标注为1,否则为0,如果视频时长不小于15秒,则观看时长超过10秒和视频时长的7/15的最小值即为长点击1,否则为0。完成度:用户播放的视频时长/视频总时长;点赞:1(点赞)或0(未点赞);分享:1(分享)或0(未分享);评论:1(评论)或0(未评论)。
步骤1702:获取与视频相匹配的特征向量。
其中,视频特征归纳为两大类,分别为基础特征和多模态特征,具体的,基础特征主要是通过定义方式对视频进行基础描述,包含:视频多级分类类别、视频标签、视频发布来源、视频时长、发布时间、事件城市。基础特征是对视频定性的描述,对视频本身内容表示信息比较缺乏。
多模态特征是针对视频的标题文字、图片信息以及视觉调整进行的特征抽取。用于描述视频的内容信息,标题和封面图可以影响视频的播放点击率,视频视觉帧信息可以影响视频的播放完成度。
基础特征能够反映视频的一些基本信息,标题和封面图是吸引用户点击观看的关键信息,视觉特征则能够反映出视频的具体内容和视频质量,是决定视频相关性和用户喜欢与否的关键信息。
每类特征的构成阐述如下:基础特征由索引内的特征构成,包括视频来源、视频一级类别、视频二级类别、视频标签、视频时长、视频等级等等;标题特征使用自然语言处理的预训练模型BERT(Bidirectional Encoder Representation from Transformers)对视频的标题进行语义建模,抽取出64维标题特征向量;封面图特征使用基于深度残差Resnet50的预训练卷积神经网络对视频的封面图进行建模,抽取出128维封面图特征向量;视觉特征使用视频处理的Netvlad(Vector of Locally Aggregated Descriptors,局部聚合向量)对视频的关键帧进行特征抽取,把视频帧图像映射为128维视觉特征向量。
具体包括:标题特征使用自然语言处理的预训练模型进行特征抽取,其中,预训练模型以一个可选的结构的为双向注意力神经网络模BERT(Bidirectional EncoderRepresentation from Transformers),用于把视频标题句子送入模型任务获取64维(维度大小可以自定义)标题特征向量。通过bert模型进一步增加词向量模型泛化能力,实现句子级别的表示能力。
封面图特征使用基于深度残差resnet50的预训练卷积神经网络进行特征抽取,把视频的封面图信息提取为128维特征向量。Resnet在图片特征提取中是目前广泛的提取网络,有利于封面图信息的表示。封面图信息在用户观看前有这很大的眼球吸引力,合理贴切的封面图可以很好地提升视频的的播放点击率。
视觉特征使用视频处理的netvlad(Vector of locally aggregateddescriptors,局部聚合向量)进行特征抽取,把视频帧图像生成128为特征向量。在视频观看中,视频帧信息反映出视频的具体内容和视频质量,对用户观看时长是有直接关联。
步骤1703:通过视频信息处理模型(多目标深度网络模型)对与视频相匹配的特征向量进行处理,以实现对待推荐的视频进行优化。
参考图19,图19为本发明实施例所提供的视频信息处理模型的一个可选的结构示意图;视频信息处理模型接收视频的基础特征、标题特征、封面图特征和视觉特征作为输入,输出视频的一个向量表示。对于视频基础信息,其中的数值型特征首先进行Z-Normalization进行归一化,对于类别、标签等类别型特征进行Embedding映射到向量空间,最终将所有基础特征拼接并经过一层全连接得到128维的视频基础特征向量。对于视频标题,则使用Bert学得的句向量经过一层全连接做进一步映射成128维的视频标题特征向量。对于视频的封面图特征使用Resnet的表示并进一步映射128维的视频封面图特征向量。对于视频的视觉特征使用Netvlad学得的表示进一步映射128维的视频视觉特征向量。四种特征向量做拼接,通过两层全连接得到视频的128维向量表示,用作后续的多目标任务。
由于用户的多种播放行为都代表着用户对于相关视频的感受,使用用户的多种播放行为来监督视频表示的学习,协助相关视频的推荐,可以提高相关视频推荐场景下用户的使用体验,因此,还需要对视频信息处理模型不同维度的特征处理进行优化。本申请从用户操作日志中提取用户的长点击、完成度、点赞、分享、评论,并结合人工标注的相关性,作为模型的多个目标来共优化学习。
参考图19,视频信息处理模型有6个目标作为相应的损失函数Loss,具体包括:相关性Loss:CorLoss、长点击Loss:LclkLoss、完成度Loss:CrLoss、点赞Loss:LikeLoss、分享Loss:ShareLoss和评论Loss:CommLoss。
其中相关性Loss、长点击Loss、点赞Loss、分享Loss、评论Loss都可以使用交叉熵(Cross Entropy)来计算二分类Loss,完成度Loss可直接使用均方误差(Mean SquareError)作为Loss。
交叉熵Loss计算参考公式2:
Figure BDA0002376050310000341
均方误差Loss计算:
Figure BDA0002376050310000342
其中y为真实值,p为预测值,n为数据样本数。
最终多目标的Loss,参考公式3:
Loss=λ1CorLoss+λ2LclkLoss+λ3CrLoss+λ4LikeLoss+λ5ShareLoss+λ6CommLoss公式3
其中各个Loss的权重作为超参数需要根据不同视频推荐进程的使用环境需要调整。最终模型进行预测推荐时,可以使用多目标模型下预测的相关性的结果来对相关视频进行召回排序推荐。
参考图20,图20为本发明实施例所提供的视频信息处理模型的一个可选的结构示意图,结合前序图19的介绍,对图20所引入的注意力机制进行介绍,通过注意力机制,在对于预测相关视频的各个特征域生成时,增加了上文注意力机制来学习各个向量的权重。该注意力机制(Attention)流程如下:
1)、首先计算第二目标视频向量对相关视频在该域的权重表示为公式4,
Figure BDA0002376050310000351
2)然后使用softmax进行权重归一化(公式5)
Figure BDA0002376050310000352
3)最后将权重和相应的健值进行加权,从而获取上文注意力机制下的向量表示
其中Qabv表示第二目标视频向量,Krel表示相关视频的嵌入层网络(embedding)学习的向量。对每个域都进行注意力机制的处理后,相当于把第二目标视频向量和相关视频向量的学习通过权重加权的方式进行了关联。
进一步地,为例实现针对第二目标视频和相关视频在信息含量的区别,对视频输出进行了不同维度的重表达。相关视频在视频128维基础上,重新表达为128维新向量highembedding,而第二目标视频则只生成64维新向量low embedding,由此降低第二目标视频信息量,相对提升相关视频的信息量。之后将两个embedding拼接起来,分头表示为两个64维的中间向量。最后拼接两个中间向量,进行sigmod函数分类预测第二目标视频是否可以指向该相关视频。
分类预测sigmod函数(公式6):
Figure BDA0002376050310000353
损失函数使用带权重的交叉熵损失函数参考(公式7):
Figure BDA0002376050310000354
其中θk表示第k个样本的输入,pk表示第k个样本的预估分类,yk表示第k个样本的实际分类。ak表示样本权重,正比于第二目标视频与相关视频出现的次数。
有益技术效果:
相比于传统技术中,通过本申请所提供的技术方案,由于视频处理模型使用多个目标共同学习视频的表示,优化相关视频推荐效果,因此,网络参数更少,模型复杂度更低,易于学习且效率高;同时在相关推荐场景中,上文视频往往少于下文相关视频,共用模型的学习过程,则可以对上文视频的表示进行充分学习,也便于训练完成的视频处理模型迁移使用。
克服了传统技术单纯使用视频内容的相关性作为相关推荐的标准不能兼顾用户的感受的缺陷,而结合用户行为的相关视频推荐能兼顾到相关性和用户感受两个方面,从而能够提高不同推荐场景下的用户体验。
视频处理模型中使用多个目标,结合人工标注的视频相关性和用户的多种播放行为,来监督视频表示的学习,不仅解决了人工标注数据不足的问题,而且在多个目标的监督下可以学得更完善的视频表示,从而能够更好地进行相关视频推荐
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种视频信息处理模型的训练方法,其特征在于,所述方法包括:
获取第一目标视频,确定与所述第一目标视频相对应的第一视频集合和第二视频集合;
对所述第一视频集合中的每一个视频信息进行相关性标注,并对所述第二视频集合中的每一个视频对应的用户行为特征进行标注;
基于对所述第一视频集合的相关性标注,对所述第一目标视频进行解析以实现获取所述第一目标视频的视频参数;
基于所述第一目标视频的视频参数,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配;
基于所述第二视频集合的用户行为特征标注,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第二视频集合的用户行为特征相匹配并且与所述第一视频集合的相关性相匹配。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一视频集合中的每一个视频信息进行相关性标注,并对所述第二视频集合中的每一个视频对应的用户行为特征进行标注,包括:
确定与所述第一目标视频对应的不同维度的相关性参数;
根据所述不同维度的相关性参数对所述第一视频集合中的每一个视频的相关性进行标注,以获取与所述第一视频集合相匹配的训练样本集合;
确定与所述第二视频集合对应的播放日志信息;
根据所述播放日志信息所包括的不同维度的播放行为参数,对所述第二视频集合中的每一个视频对应的用户行为特征进行标注,以获取与所述第二视频集合相匹配的训练样本集合。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一目标视频进行解析以实现获取所述第一目标视频的视频参数,包括:
对所述第一目标视频进行解析,获取所述第一目标视频的标签信息;
根据所述第一目标视频的标签信息,对所述第一目标视频所对应的视频信息进行解析,以实现分别获取与所述第一目标视频在基础维度与多模态维度中的视频参数。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一目标视频的视频参数,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配,包括:
根据所述第一目标视频的视频参数,确定与所述第一目标视频相匹配的基础特征,以及与所述第一目标视频相匹配的多模态特征;
基于与所述第一目标视频相匹配的基础特征和多模态特征,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一目标视频的视频参数,确定与所述第一目标视频相匹配的基础特征,以及与所述第一目标视频相匹配的多模态特征,包括:
根据所述第一目标视频在基础维度中的视频参数,确定与所述第一目标视频相对应的类别参数、视频标签参数和视频发布来源参数;
对所述第一目标视频相对应的类别参数、视频标签参数和视频发布来源参数分别进行特征抽取,以形成与所述第一目标视频相匹配的基础特征;
根据所述第一目标视频在基础维度中的视频参数,确定与所述第一目标视频相对应的标题文字参数、图像信息参数和视觉信息参数;
对所述第一目标视频相对应的标题文字参数、图像信息参数和视觉信息参数分别进行特征抽取并融合,以形成与所述第一目标视频相匹配的多模态特征。
6.根据权利要求4所述的方法,其特征在于,所述基于与所述第一目标视频相匹配的基础特征和多模态特征,对视频信息处理模型中的网络参数进行调整,包括:
当与所述视频信息处理模型相匹配的进程为视频推荐进程时,
基于与所述第一目标视频相匹配的基础特征和多模态特征,确定与所述视频信息处理模型相匹配的不同维度的损失函数;
基于所输入的所述第二视频集合的用户行为特征标注,根据所述视频信息处理模型中的第二视频处理网络所输出的第二目标视频融合特征向量,以及所述不同维度的损失函数,调整与所述第一视频处理网络中的基于注意力机制的循环卷积神经网络的参数,直至所述不同维度的损失函数直至达到相应的收敛条件,以实现所述基于注意力机制的循环卷积神经网络的参数与所述第一视频集合的相关性相匹配。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第二视频集合的用户行为特征标注,对视频信息处理模型中的网络参数进行调整,包括:
根据所述第二视频集合的用户行为特征标注的结果以及相关性标注结果,确定与所述视频信息处理模型相匹配的不同维度的损失函数;
根据所述视频信息处理模型中的第二视频处理网络所输出的第二目标视频融合特征向量,以及所述第二视频处理网络对应的不同维度的损失函数,调整与所述第一视频处理网络中的基于注意力机制的循环卷积神经网络的参数,直至所述第二视频处理网络对应的不同维度的损失函数直至达到相应的收敛条件;以实现所述视频信息处理模型与所述第二视频集合的用户行为特征相匹配并且与所述第一视频集合的相关性相匹配。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
对所述视频信息处理模型中的第二视频处理网络的参数进行调整;
通过经过参数调整的所述视频信息处理模型中的第二视频处理网络,确定新的第二目标视频融合特征向量;
通过与所述视频信息处理模型相匹配的分类预测函数,对所述新的第二目标视频融合特征向量和所述第一目标视频的融合特征向量进行连接,以实现确定所述第一目标视频与所述第二目标视频的关联度。
9.一种视频信息处理方法,其特征在于,所述方法包括:
获取上文视频以及对应的视频源中的待推荐视频;
对所述待推荐视频进行解析,确定所述待推荐视频对应的基础特征和多模态特征;
基于所述待推荐视频的基础特征和所述多模态特征,通过所述视频信息处理模型中的第一视频处理网络,确定与所述待推荐视频相匹配的第一特征向量;
通过所述视频信息处理模型中的第一视频处理网络,确定与所述上文视频相匹配的第二特征向量;
通过所述视频信息处理模型中的第二视频处理网络,根据所述第一特征向量和所述第二特征向量,确定相应的融合特征向量,以实现对所述视频源中的所有待推荐视频的召回顺序进行排序;
其中,所述视频信息处理模型基于如权利要求1至7任一项所述的方法训练得到。
10.根据权利要求9所述的方法,其特征在于,所述基于所述待推荐视频的基础特征和所述多模态特征,通过所述视频信息处理模型中的第一视频处理网络,确定与所述待推荐视频相匹配的第一特征向量,包括:
通过所述第一视频处理网络中的基础信息处理网络,对所述基础特征进行处理,以形成相应的基础特征向量;
通过所述第一视频处理网络中的图像处理网络,对所述多模态特征中的图像特征进行处理,以形成相应的图像特征向量;
通过所述第一视频处理网络中的文字处理网络,对所述多模态特征中的标题文字特征进行处理,以形成相应标题文字特征向量;
通过所述第一视频处理网络中的视觉处理网络,对所述多模态特征中的视觉特征进行处理,以形成相应的视觉特征向量;
基于所述基础特征向量、所述图像特征向量、所述标题文字特征向量和所述视觉特征向量,通过所述第一视频处理网络进行向量融合,以形成与所述待推荐视频相匹配的第一特征向量。
11.根据权利要求9所述的方法,其特征在于,所述通过所述视频信息处理模型中的第二视频处理网络,根据所述第一特征向量和所述第二特征向量,确定相应的融合特征向量,包括:
确定所述第二视频处理网络对应的不同维度的损失函数;
根据所述不同维度的损失函数确定所述第二视频处理网络对应的多目标损失函数以及相应的权重参数;
通过所述视频信息处理模型中的第二视频处理网络,根据所述多目标损失函数,对所述第一特征向量和所述第二特征向量进行融合处理,确定相应的融合特征向量。
12.一种视频信息处理模型的训练装置,其特征在于,所述装置包括:
第一信息传输模块,用于获取第一目标视频,确定与所述第一目标视频相对应的第一视频集合和第二视频集合;
训练模块,用于对所述第一视频集合中的每一个视频信息进行相关性标注,并对所述第二视频集合中的每一个视频对应的用户行为特征进行标注;
所述训练模块,用于基于对所述第一视频集合的相关性标注,对所述第一目标视频进行解析以实现获取所述第一目标视频的视频参数;
所述训练模块,用于基于所述第一目标视频的视频参数,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第一视频集合的相关性相匹配;
所述训练模块,用于基于所述第二视频集合的用户行为特征标注,对视频信息处理模型中的网络参数进行调整,以实现所述视频信息处理模型与所述第二视频集合的用户行为特征相匹配并且与所述第一视频集合的相关性相匹配。
13.一种视频信息处理装置,其特征在于,所述装置包括:
第二信息传输模块,用于获取上文视频以及对应的视频源中的待推荐视频;
信息处理模块,用于对所述待推荐视频进行解析,确定所述待推荐视频对应的基础特征和多模态特征
所述信息处理模块,用于基于所述待推荐视频的基础特征和所述多模态特征,通过所述视频信息处理模型中的第一视频处理网络,确定与所述待推荐视频相匹配的第一特征向量;
所述信息处理模块,用于通过所述视频信息处理模型中的第一视频处理网络,确定与所述上文视频相匹配的第二特征向量;
所述信息处理模块,用于通过所述视频信息处理模型中的第二视频处理网络,根据所述第一特征向量和所述第二特征向量,确定相应的融合特征向量,以实现对所述视频源中的所有待推荐视频的召回顺序进行排序;
其中,所述视频信息处理模型基于如权利要求1至7任一项所述的方法训练得到。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至8任一项所述的视频信息处理模型的训练方法,或者实现权利要求9-11任一项所述视频信息处理方法。
15.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至8任一项所述的视频信息处理模型的训练方法,或者实现权利要求9-11任一项所述视频信息处理方法。
CN202010066286.9A 2020-01-20 2020-01-20 视频信息处理模型的训练方法、视频信息处理方法及装置 Pending CN111324769A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010066286.9A CN111324769A (zh) 2020-01-20 2020-01-20 视频信息处理模型的训练方法、视频信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010066286.9A CN111324769A (zh) 2020-01-20 2020-01-20 视频信息处理模型的训练方法、视频信息处理方法及装置

Publications (1)

Publication Number Publication Date
CN111324769A true CN111324769A (zh) 2020-06-23

Family

ID=71172963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010066286.9A Pending CN111324769A (zh) 2020-01-20 2020-01-20 视频信息处理模型的训练方法、视频信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN111324769A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753209A (zh) * 2020-07-02 2020-10-09 南京工业大学 一种基于改进时序卷积网络的序列推荐列表生成方法
CN111784062A (zh) * 2020-07-07 2020-10-16 上海携旅信息技术有限公司 点击概率预测方法、系统、电子设备和介质
CN112241452A (zh) * 2020-10-16 2021-01-19 百度(中国)有限公司 一种模型训练方法、装置、电子设备及存储介质
CN112905840A (zh) * 2021-02-09 2021-06-04 北京有竹居网络技术有限公司 视频处理方法、装置、存储介质及设备
CN112989977A (zh) * 2021-03-03 2021-06-18 复旦大学 一种基于跨模态注意力机制的视听事件定位方法及装置
CN113011383A (zh) * 2021-04-12 2021-06-22 北京明略软件系统有限公司 视频标签定义模型构建方法、系统、电子设备及存储介质
CN113157891A (zh) * 2021-05-07 2021-07-23 泰康保险集团股份有限公司 知识图谱路径排序方法、系统、设备及存储介质
CN113157965A (zh) * 2021-05-07 2021-07-23 杭州网易云音乐科技有限公司 音频可视化模型训练及音频可视化方法、装置及设备
CN113407780A (zh) * 2021-05-20 2021-09-17 桂林电子科技大学 一种目标检索方法、装置及存储介质
CN113569934A (zh) * 2021-07-20 2021-10-29 上海明略人工智能(集团)有限公司 Logo分类模型构建方法、系统、电子设备及存储介质
CN114064974A (zh) * 2021-11-15 2022-02-18 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备、存储介质及程序产品
CN114117203A (zh) * 2021-11-08 2022-03-01 长沙理工大学 一种短视频推荐方法、系统及设备
CN114157906A (zh) * 2020-09-07 2022-03-08 北京达佳互联信息技术有限公司 视频检测方法、装置、电子设备及存储介质
CN114882334A (zh) * 2022-04-29 2022-08-09 北京百度网讯科技有限公司 用于生成预训练模型的方法、模型训练方法及装置
CN115410212A (zh) * 2022-11-02 2022-11-29 平安科技(深圳)有限公司 多模态模型的训练方法、装置、计算机设备及存储介质
CN117593934A (zh) * 2024-01-17 2024-02-23 长春职业技术学院 一种基于工业机器人的虚拟仿真实训系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006368A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automatic Video Recommendation
CN105989326A (zh) * 2015-01-29 2016-10-05 北京三星通信技术研究有限公司 人眼三维位置信息的确定方法和装置
CN110012356A (zh) * 2019-04-16 2019-07-12 腾讯科技(深圳)有限公司 视频推荐方法、装置和设备及计算机存储介质
CN110446065A (zh) * 2019-08-02 2019-11-12 腾讯科技(武汉)有限公司 一种视频召回方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006368A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automatic Video Recommendation
CN105989326A (zh) * 2015-01-29 2016-10-05 北京三星通信技术研究有限公司 人眼三维位置信息的确定方法和装置
CN110012356A (zh) * 2019-04-16 2019-07-12 腾讯科技(深圳)有限公司 视频推荐方法、装置和设备及计算机存储介质
CN110446065A (zh) * 2019-08-02 2019-11-12 腾讯科技(武汉)有限公司 一种视频召回方法、装置及存储介质

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753209A (zh) * 2020-07-02 2020-10-09 南京工业大学 一种基于改进时序卷积网络的序列推荐列表生成方法
CN111753209B (zh) * 2020-07-02 2023-07-18 南京工业大学 一种基于改进时序卷积网络的序列推荐列表生成方法
CN111784062A (zh) * 2020-07-07 2020-10-16 上海携旅信息技术有限公司 点击概率预测方法、系统、电子设备和介质
CN114157906A (zh) * 2020-09-07 2022-03-08 北京达佳互联信息技术有限公司 视频检测方法、装置、电子设备及存储介质
CN114157906B (zh) * 2020-09-07 2024-04-02 北京达佳互联信息技术有限公司 视频检测方法、装置、电子设备及存储介质
CN112241452A (zh) * 2020-10-16 2021-01-19 百度(中国)有限公司 一种模型训练方法、装置、电子设备及存储介质
CN112241452B (zh) * 2020-10-16 2024-01-05 百度(中国)有限公司 一种模型训练方法、装置、电子设备及存储介质
CN112905840A (zh) * 2021-02-09 2021-06-04 北京有竹居网络技术有限公司 视频处理方法、装置、存储介质及设备
CN112989977A (zh) * 2021-03-03 2021-06-18 复旦大学 一种基于跨模态注意力机制的视听事件定位方法及装置
CN113011383A (zh) * 2021-04-12 2021-06-22 北京明略软件系统有限公司 视频标签定义模型构建方法、系统、电子设备及存储介质
CN113157891A (zh) * 2021-05-07 2021-07-23 泰康保险集团股份有限公司 知识图谱路径排序方法、系统、设备及存储介质
CN113157891B (zh) * 2021-05-07 2023-11-17 泰康保险集团股份有限公司 知识图谱路径排序方法、系统、设备及存储介质
CN113157965A (zh) * 2021-05-07 2021-07-23 杭州网易云音乐科技有限公司 音频可视化模型训练及音频可视化方法、装置及设备
CN113407780B (zh) * 2021-05-20 2022-07-05 桂林电子科技大学 一种目标检索方法、装置及存储介质
CN113407780A (zh) * 2021-05-20 2021-09-17 桂林电子科技大学 一种目标检索方法、装置及存储介质
CN113569934B (zh) * 2021-07-20 2024-01-23 上海明略人工智能(集团)有限公司 Logo分类模型构建方法、系统、电子设备及存储介质
CN113569934A (zh) * 2021-07-20 2021-10-29 上海明略人工智能(集团)有限公司 Logo分类模型构建方法、系统、电子设备及存储介质
CN114117203A (zh) * 2021-11-08 2022-03-01 长沙理工大学 一种短视频推荐方法、系统及设备
CN114117203B (zh) * 2021-11-08 2024-06-11 长沙理工大学 一种短视频推荐方法、系统及设备
CN114064974A (zh) * 2021-11-15 2022-02-18 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备、存储介质及程序产品
CN114882334B (zh) * 2022-04-29 2023-04-28 北京百度网讯科技有限公司 用于生成预训练模型的方法、模型训练方法及装置
CN114882334A (zh) * 2022-04-29 2022-08-09 北京百度网讯科技有限公司 用于生成预训练模型的方法、模型训练方法及装置
CN115410212A (zh) * 2022-11-02 2022-11-29 平安科技(深圳)有限公司 多模态模型的训练方法、装置、计算机设备及存储介质
CN117593934A (zh) * 2024-01-17 2024-02-23 长春职业技术学院 一种基于工业机器人的虚拟仿真实训系统
CN117593934B (zh) * 2024-01-17 2024-04-05 长春职业技术学院 一种基于工业机器人的虚拟仿真实训系统

Similar Documents

Publication Publication Date Title
CN111324769A (zh) 视频信息处理模型的训练方法、视频信息处理方法及装置
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
Frolov et al. Adversarial text-to-image synthesis: A review
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
KR102455616B1 (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
CN110956018B (zh) 文本处理模型的训练方法、文本处理方法、装置及存储介质
CN111400591B (zh) 资讯信息推荐方法、装置、电子设备及存储介质
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN110795552B (zh) 一种训练样本生成方法、装置、电子设备及存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111739520B (zh) 一种语音识别模型训练方法、语音识别方法、装置
CN111191092A (zh) 画像数据处理方法和画像模型训练方法
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111898704B (zh) 对内容样本进行聚类的方法和装置
CN111144093A (zh) 一种智能文本处理方法、装置、电子设备及存储介质
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN111125323B (zh) 一种聊天语料标注方法、装置、电子设备及存储介质
CN110941958A (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN112861580A (zh) 基于视频信息处理模型的视频信息处理方法及装置
Chen Analyzing legal education mobile learner's behavior using deep learning under social media
CN117251622A (zh) 对象推荐的方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025258

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination