CN116503791A - 模型的训练方法、装置、电子设备及存储介质 - Google Patents
模型的训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116503791A CN116503791A CN202310788299.0A CN202310788299A CN116503791A CN 116503791 A CN116503791 A CN 116503791A CN 202310788299 A CN202310788299 A CN 202310788299A CN 116503791 A CN116503791 A CN 116503791A
- Authority
- CN
- China
- Prior art keywords
- multimedia
- data
- heat data
- sample
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 136
- 238000012549 training Methods 0.000 title claims abstract description 106
- 238000012545 processing Methods 0.000 claims abstract description 168
- 238000013210 evaluation model Methods 0.000 claims abstract description 164
- 230000007246 mechanism Effects 0.000 claims abstract description 106
- 230000004927 fusion Effects 0.000 claims abstract description 64
- 238000007499 fusion processing Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 63
- 238000011176 pooling Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 23
- 238000009432 framing Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 238000005070 sampling Methods 0.000 description 18
- 230000001276 controlling effect Effects 0.000 description 14
- 239000004973 liquid crystal related substance Substances 0.000 description 12
- 230000009466 transformation Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000001994 activation Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 241001342895 Chorus Species 0.000 description 4
- 230000009901 attention process Effects 0.000 description 4
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 108091026890 Coding region Proteins 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000007526 fusion splicing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本申请提供了一种评价模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:获取多媒体帧样本以及对象热度数据;通过评价模型对多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到多媒体编码,通过评价模型对多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到对象引导编码,通过评价模型将对象引导编码与多媒体帧样本的多媒体编码进行融合处理,对多媒体帧样本进行基于对应融合结果的精彩度预测处理,得到预测精彩度;基于标记精彩度与预测精彩度之间的差异,构建精彩度预测损失,并基于精彩度预测损失更新评价模型。通过本申请,能够优化评价模型的训练效果。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种评价模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
相关技术中由于多媒体信息(音频视频)具有较长的播放时长,因此存在标记出多媒体信息中的精彩片段的需求,例如,标记出音乐中的精彩音乐片段,标记出电影中的精彩电影片段,相关技术中通常会直接将副歌或者电影中具有内容冲突的场面作为相应多媒体信息的精彩片段。但是这种精彩片段定位方式无法准确给出符合用户普遍需求的定位结果,从而有损人机交互体验。
发明内容
本申请实施例提供一种评价模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够通过开关机制将对象热度数据引入评价模型,从而优化评价模型的训练效果。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种评价模型的训练方法,包括:
对多媒体样本进行分帧处理,得到多个多媒体帧样本,并获取每个所述多媒体帧样本的对象热度数据;
通过所述评价模型对每个所述多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到每个所述多媒体帧样本的多媒体编码,其中,所述第一开关机制用于控制所述对象热度数据在所述第一编码处理中的输入;
通过所述评价模型对每个所述多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到每个所述多媒体帧样本的对象引导编码,其中,所述第二开关机制用于控制所述对象热度数据在所述第二编码处理中的输入;
通过所述评价模型将每个所述多媒体帧样本的对象引导编码与每个所述多媒体帧样本的多媒体编码进行融合处理,并对每个所述多媒体帧样本进行基于对应融合结果的精彩度预测处理,得到每个所述多媒体帧样本的预测精彩度;
基于每个所述多媒体帧样本的标记精彩度与每个所述多媒体帧样本的预测精彩度之间的差异,构建精彩度预测损失,并基于所述精彩度预测损失更新所述评价模型。
本申请实施例提供一种评价模型的训练装置,包括:
获取模块,用于对多媒体样本进行分帧处理,得到多个多媒体帧样本,并获取每个所述多媒体帧样本的对象热度数据;
编码模块,用于通过所述评价模型对每个所述多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到每个所述多媒体帧样本的多媒体编码,其中,所述第一开关机制用于控制所述对象热度数据在所述第一编码处理中的输入;
引导模块,用于通过所述评价模型对每个所述多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到每个所述多媒体帧样本的对象引导编码,其中,所述第二开关机制用于控制所述对象热度数据在所述第二编码处理中的输入;
预测模块,用于通过所述评价模型将每个所述多媒体帧样本的对象引导编码与每个所述多媒体帧样本的多媒体编码进行融合处理,并对每个所述多媒体帧样本进行基于对应融合结果的精彩度预测处理,得到每个所述多媒体帧样本的预测精彩度;
更新模块,用于基于每个所述多媒体帧样本的标记精彩度与每个所述多媒体帧样本的预测精彩度之间的差异,构建精彩度预测损失,并基于所述精彩度预测损失更新所述评价模型。
本申请实施例提供一种电子设备,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的评价模型的训练方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的评价模型的训练方法。
本申请实施例提供一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令被处理器执行时,实现本申请实施例提供的评价模型的训练方法。
本申请实施例具有以下有益效果:
本申请实施例不仅将对象热度数据引入到评价模型的训练过程中,并且对象热度数据的引入是通过第一开关机制以及第二开关机制进行控制的,从而可以控制对象热度数据的引入,因此评价模型是基于对象热度数据训练得到的,从而后续应用阶段无论是否有对象热度数据,均能够利用评价模型输出准确的精彩度预测结果。
附图说明
图1是本申请实施例提供的评价模型的训练系统的结构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3A是本申请实施例提供的评价模型的训练方法的第一流程示意图;
图3B是本申请实施例提供的评价模型的训练方法的第二流程示意图;
图3C是本申请实施例提供的评价模型的训练方法的第三流程示意图;
图3D是本申请实施例提供的评价模型的训练方法的第四流程示意图;
图3E是本申请实施例提供的评价模型的训练方法的第五流程示意图;
图4是本申请实施例提供的评价模型的训练方法的逻辑框架示意图;
图5是本申请实施例提供的评价模型的训练方法的时间合并示意图;
图6是本申请实施例提供的评价模型的训练方法的基础框架示意图;
图7是本申请实施例提供的评价模型的训练方法的编码网络示意图;
图8是本申请实施例提供的评价模型的训练方法的开关控制示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
需要指出,在本申请实施例中,涉及到用户信息、用户反馈数据等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)半监督学习(Semi-Supervised Learning,SSL):是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,并同时使用标记数据,来进行模式识别工作。
2)时域和频域:时域和频域是音频应用中最常用的两个概念,也是衡量音频特征的两个维度概念。时域是通过将音频信号的采样点在时间上进行展示处理,与时间进行了相关绑定。通过傅里叶变换可以把信号从时域转换到频域。频域代表了其音频信号在各个频带上的能量分布,从而可以具有特征表现。
3)梅尔频率:一种基于人耳对等距的音高变化的感官判断而定的非线性频率刻度,是在进行信号处理时,更能够迎合人耳的听觉感受阈变化来人为设定的频率刻度,在音频处理领域,有很多基础音频特征是通过梅尔频率来进行计算的。
4)卷积神经网络(Convolutional Neural Network,CNN):是一种前馈神经网络,卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。
5)注意力机制:源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制,简单地说就是从大量信息中快速筛选出高价值信息。
6)预训练音频神经网络(Pretrained Audio Neural Networks,PANNS):是一种基于大型音频数据集预训练的音频神经网络,通常用来音频模式识别或者音频帧级别的嵌入化,作为众多模型的前端编码网络。
7)对象数据:本申请实施例中所使用的对象数据包括用户在视频平台或者音频播放平台的各种操作数据,例如,用户的快进拖动播放条的操作数据,用户触发播放操作的次数(实时播放量)等数据。
相关技术中会根据人耳听觉感应来进行手动标注,相关技术还可以直接使用实际的用户数据曲线作为精彩度曲线进行使用。相关技术中还可以使用神经网络模型对整个音乐进行副歌预测定位,然后使用定位到的副歌时间段落作为最精彩的段落时间推荐给到用户。
申请人在实施本申请实施例时发现手动标注方式严重依赖于标注人员的标注效率以及标注准确度。申请人在实施本申请实施例时还发现用户数据曲线与精彩度曲线存在差异,比如很多人会收听每首歌曲的开头部分,但开头部分并不是音乐中最精彩的片段,这种数据的存在会扰乱对真正精彩段落的判断。申请人在实施本申请实施例时还发现虽然副歌是整个音乐的重要部分,但是可能在实际应用中,用户最为喜欢的时间片段可能不是最为重要的部分,所以用户喜好和实际的副歌时间分布存在偏差。
本申请实施例提供一种评价模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够通过开关机制将对象热度数据引入评价模型,从而优化评价模型的训练效果。
下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为终端或服务器。
参考图1,图1是本申请实施例提供的评价模型的训练方法的应用模式示意图;示例的,图1中涉及服务器200、网络300及终端400。终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,服务器200可以是应用程序对应的服务器,例如:应用程序是安装在终端400中的音乐播放软件,则服务器200是音乐平台服务器,用于获取对评价模型进行训练,并部署有评价模型之后通过评价模型预测每帧的精彩度。
本申请实施例的评价模型的训练方法还可以应用在以下应用场景中。
在视频在线播放平台的音乐频道中,提供有大量音乐视频,目前很多视频平台放置了整个视频的热度曲线,目前这个曲线大多是根据实时弹幕数量划定的,但针对刚刚发行的音乐视频,是不存在任何弹幕和热度数据的,所以在视频平台中,这种音乐视频的热度精彩度曲线就是归零直线。通过本申请实施例提供的评价模型可以在没有任何先验数据的情况下预测出每帧的精彩度,并且能够让精彩度曲线和精彩段落的预测符合用户实际喜好。
在音乐在线播放平台中,很多音乐在上架之前都需要向用户提供最直接的精彩段落时间以及精彩曲线。本申请实施例能够在音乐上架之前进行自动化的音乐精彩度曲线计算,同时能够定位到音乐最为精彩且能够受听众喜欢的段落时间。
在音乐编辑平台中,创作者在剪辑视频的时候会选择歌曲为视频进行配乐,可以选择歌曲中大家最为喜欢的片段进行截取,贴合到剪辑的视频中。本申请实施例能够结合音乐编辑平台中的对象数据,更直接定位出歌曲中的精彩片段以提供给创作者作为剪辑视频的配乐,极大的提升制作视频配乐效率。
在一些实施例中,终端400接收到模型训练请求,并将模型训练请求发送到服务器200,服务器200对多媒体样本进行分帧处理,得到多个多媒体帧样本,并获取每个多媒体帧样本的对象热度数据;通过评价模型对每个多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到每个多媒体帧样本的多媒体编码,其中,第一开关机制用于控制对象热度数据在第一编码处理中的输入;通过评价模型对每个多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到每个多媒体帧样本的对象引导编码,其中,第二开关机制用于控制对象热度数据在第二编码处理中的输入;通过评价模型将每个多媒体帧样本的对象引导编码与每个多媒体帧样本的多媒体编码进行融合处理,并对每个多媒体帧样本进行基于对应融合结果的精彩度预测处理,得到每个多媒体帧样本的预测精彩度;基于每个多媒体帧样本的标记精彩度与每个多媒体帧样本的预测精彩度之间的差异,构建精彩度预测损失,并基于精彩度预测损失更新评价模型。服务器200部署更新后的评价模型,终端400接收到针对目标音乐的精彩片段截取请求,将精彩度预测请求发送至服务器200,服务器200调用更新后的评价模型对目标音乐的每个音频帧进行精彩度预测处理,得到预测精彩度,基于预测精彩度高于精彩度阈值的音频帧,生成精彩片段,并将精彩片段返回至终端400。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。数据库可以集成在服务器200上,或者数据库可以设置在独立于服务器200的机器上,本申请实施例不做限制。
在一些实施例中,终端400可以通过运行计算机程序来实现本申请实施例提供的评价模型的训练方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,例如视频APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
参见图2,图2是本申请实施例提供的电子设备的结构示意图,电子设备为终端或者服务器,以电子设备是服务器为例进行说明,图2所示的服务器包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,该输出装置231可以包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,该输入装置232可以包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他电子设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的评价模型的训练装置可以采用软件方式实现,图2示出了存储在存储器250中的评价模型的训练装置255,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2551、编码模块2552、引导模块2553,预测模块2554、更新模块2555、应用模块2556,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
下面,说明本申请实施例提供的评价模型的训练方法,如前,实现本申请实施例的评价模型的训练方法的电子设备可以是终端或者服务器,以服务器为例进行说明。因此下文中不再重复说明各个步骤的执行主体。参见图3A,图3A是本申请实施例提供的评价模型的训练方法的第一流程示意图,评价模型包括编码网络以及预测网络,结合图3A示出的步骤101至步骤105进行说明。
在步骤101中,对多媒体样本进行分帧处理,得到多个多媒体帧样本,并获取每个多媒体帧样本的对象热度数据。
作为示例,多媒体样本可以是视频或者音频,对于由于多媒体样本是由视频帧或者音频帧构成的,因此可以通过采样的方式对多媒体样本进行分帧处理,例如针对2分20秒的音频,可以采样得到140个音频帧(多媒体帧样本),采样间隔为1秒,例如针对1份20秒的视频,可以采样得到80个视频帧(多媒体帧样本),采样间隔为1秒。下面介绍获取每个多媒体帧样本的对象热度数据的具体方案。
在一些实施例中,参见图3B,步骤101中获取每个多媒体帧样本的对象热度数据,可以通过图3B示出步骤1011至步骤1013实现。
在步骤1011中,获取多媒体样本在每个数据平台的平台热度数据。
作为示例,这里的平台热度数据本质上是对象操作数据,并且这里的对象操作数据不仅是来源于单一用户的操作数据,还可以是来源于多个用户的操作数据,从而平台热度数据可以体现出用户多多媒体样本的普遍偏好。
平台热度数据可以是多媒体样本中任一时间点在第一数据平台被执行进度条拖动的次数,进度条拖动次数越高表征热度越高。平台热度数据还可以是多媒体样本在第二数据平台的实时播放数据,例如,针多媒体样本中任意一个时间点,热度数据可以是收听过该时间点的用户数目。平台热度数据还可以是用户第三数据平台进行创作时,针对多媒体样本中任一时间点,该时间点的数据帧中被用户选择的次数。综上可知,对于每个数据平台,均会形成针对多媒体样本的热度曲线作为多媒体样本在该数据平台的平台热度数据。
在步骤1012中,对多媒体样本在多个数据平台的平台热度数据进行融合规整处理,得到多媒体样本的对象热度数据。
作为示例,这里的融合规整处理包括时间粒度转换处理、标准化处理以及多个数据平台的融合处理,后续详细介绍具体的融合规整方案。
在步骤1013中,从多媒体样本的对象热度数据中提取出每个多媒体帧样本的对象热度数据。
作为示例,这里的多媒体样本的对象热度数据是每个时间点的热度数据,可以获取每个多媒体帧样本对应的采样点,这里的采样点可以刚好与时间点吻合,或者采样点可以落入两个时间点之间,将两个时间点构成一个时间范围,每个时间点的热度数据可以表征以该时间点结束的时间范围的平台热度数据,因此当采样点落入两个时间点之间时,将对应时间范围的平台热度数据作为多媒体帧样本的对象热度数据。
在一些实施例中,步骤1012中对多媒体样本在多个数据平台的平台热度数据进行融合规整处理,得到多媒体样本的对象热度数据,可以通过图3C示出的步骤10121至步骤10125实现。
在步骤10121中,获取多媒体样本的至少一个时间范围。
作为示例,由于数据平台收集平台热度数据时,都是按照毫秒的粒度进行实时记录的,但是原始的数据粒度针对于整个系统来说太小了,因此需要获取多媒体样本的至少一个时间范围,以时间范围作为平台热度数据的最小单位,例如原始时间粒度是毫秒级的,那么时间范围可以是秒级的,即1毫秒至1000毫秒作为一个时间范围,1001毫秒至2000毫秒作为另一个时间范围。当多媒体样本播放时长本身就很短时,例如播放时长本身只有1000毫秒,那么就只有一个时间范围,这里每个时间范围是等长的。
在步骤10122中,针对每个数据平台,对多媒体样本在数据平台的平台热度数据进行对应至少一个时间范围的归并处理,得到每个时间范围的平台热度数据。
在一些实施例中,步骤10122中对多媒体样本在数据平台的平台热度数据进行对应至少一个时间范围的归并处理,得到每个时间范围的平台热度数据,可以通过以下技术方案实现:从多媒体样本在数据平台的平台热度数据中提取在每个单位时间刻度的平台热度数据;针对每个时间范围,对属于时间范围的所有单位时间刻度的平台热度数据进行求和处理,得到对应时间范围的平台热度数据。通过本申请实施例可以提高模型的时间粒度,从而提高计算效率。
作为示例,在实际计算中是对应每个时间范围,将该时间范围内所有平台热度数据进行相加,得到当前时间粒度的平台热度数据,以时间范围的长度是秒为例,可以输出以秒为时间单位的平台热度数据曲线,参见公式(1):
(1);
其中,是第T-1秒至第T秒这个时间范围的平台热度数据,是第T-1秒至第T秒
这个时间范围内每个毫秒的平台热度数据。将至内的所有平台热度数
据进行相加,就能够得到第T-1秒至第T秒这个时间范围的平台热度数据。
在步骤10123中,针对每个数据平台执行以下处理:对数据平台在每个时间范围的平台热度数据进行标准化处理,得到数据平台在每个时间范围的标准化热度数据。
在一些实施例中,步骤10123中对数据平台在每个时间范围的平台热度数据进行标准化处理,得到数据平台在每个时间范围的标准化热度数据,可以通过以下技术方案实现:获取多个时间范围的平台热度数据中的最大热度数据;针对每个时间范围,将时间范围的平台热度数据与最大热度数据的比值作为时间范围的标准化热度数据。通过本申请实施例可以统一数据的输入,从而保证对象热度数据的有效性以及客观性。
作为示例,在实际存储的平台热度数据中,不同多媒体样本之间的存在着数量级别的差异,所以不同多媒体样本之间的平台热度数据曲线分布是存在有差异的,因为多个多媒体样本的平台热度数据均需要统一输入至评价模型中进行学习,因此需要对平台热度数据进行标准化,即映射到[0,1]之内,设平台热度曲线为,然后参见公式(2)进行标准化:
(2);
其中,是某个多媒体样本在某个数据平台中第i秒的平台热度数据,是的
标准化热度数据,是某个音频在某个数据平台中多个平台热度数据中数值最大
的平台热度数据(最大热度数据)。
在步骤10124中,针对每个时间范围执行以下处理:对多个数据平台在时间范围的标准化热度数据进行融合处理,得到多媒体样本在时间范围的融合热度数据;
在一些实施例中,步骤10124中对多个数据平台在时间范围的标准化热度数据进行融合处理,得到多媒体样本在时间范围的融合热度数据,可以通过以下技术方案实现:对多个数据平台在时间范围的标准化热度数据进行最大值获取处理,得到最大标准化热度数据;对多个数据平台在时间范围的标准化热度数据进行求平均处理,得到平均标准化热度数据;对最大标准化热度数据以及平均标准化热度数据进行求平均处理,得到多媒体样本在时间范围的融合热度数据。通过本申请实施例可以融合多平台数据,从而提高对象热度数据对用户普遍偏好的表征能力。
作为示例,通过步骤10123能够将多媒体样本在三个数据平台的平台热度数据曲线全部规整到[0,1]之内,然后通过步骤10124将三条平台热度数据曲线进行融合,最终输出完整的对象热度数据曲线。三个数据平台的平台热度数据曲线包括:第一平台的平台热度数据曲线,第二平台的平台热度数据曲线/>,第三平台的平台热度数据曲线/>然后对三个曲线进行融合,最后输出的对象热度曲线/>,参见公式(3):
(3);
其中,是i时间点的融合结果,/>是三个数据平台的平台热度数据曲线分别在i时间点的热度数据中最大值,/>是三个数据平台的平台热度数据曲线分别在i时间点的热度数据的平均值。
在步骤10125中,将多个时间范围的融合热度数据组成多媒体样本的对象热度数据。
作为示例,可以直接将上述处理得到的与多个时间范围一一对应的多个融合热度数据组成多媒体样本的对象热度数据,还可以将上述处理得到的与多个时间范围一一对应的多个融合热度数据构成热度数据曲线,所构成的热度数据曲线即为多媒体样本的对象热度数据。
在步骤102中,通过评价模型对每个多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到每个多媒体帧样本的多媒体编码。
作为示例,第一开关机制用于控制对象热度数据在第一编码处理中的输入,图7所示的开关即为第一开关机制中的第一开关。
在一些实施例中,当多媒体帧样本是音频帧样本时,参见图3D,步骤102中通过评价模型对每个多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到每个多媒体帧样本的多媒体编码,可以通过评价模型对每个音频帧样本执行图3D示出步骤1021至步骤1024实现。
在步骤1021中,对音频帧样本进行时频域编码处理,得到音频帧样本的第一时域编码和第一频域编码。
作为示例,时频域编码处理包括时域编码处理以及频域编码处理,即对音频帧样本进行时域编码处理,得到第一时域编码,对音频帧样本进行频域编码处理,得到第一频域编码。具体而言,通过图7示出的时域支路701可以实现时域编码处理,通过图7示出的频域支路702可以实现频域编码处理。
在步骤1022中,当第一开关机制的第一开关处于开启状态时,基于音频帧样本的对象热度数据,对音频帧样本进行时频域融合编码处理,得到音频帧样本的时频域融合编码。
在一些实施例中,步骤1022中基于音频帧样本的对象热度数据,对音频帧样本进行时频域融合编码处理,得到音频帧样本的时频域融合编码,可以通过以下技术方案实现:对音频帧样本进行第一时域编码处理,得到第二时域编码,并对音频帧样本进行第一频域编码处理,得到第二频域编码;对对象热度数据进行热度编码处理,得到第一热度编码;对第一时域编码与第一热度编码进行注意力处理,得到第一注意力编码,并对第一频域编码与第一热度编码进行注意力处理,得到第二注意力编码;对第一注意力编码与第二注意力编码进行拼接处理,得到第一拼接结果,并对第一拼接结果、第一频域编码以及第一时域编码进行融合处理,得到音频帧样本的时频域融合编码。通过本申请实施例增加了时域和频域之间的信息交互,能够让PANNS网络的时域和频域两个支路之间的信息相互融合,从而能够让整个编码网络分层次学习到音乐音频特性的表征,其提高的内容表达能力,可以直接在最终精彩度预测时提高精彩度计算准确性。
作为示例,这里的第一时域编码处理是通过图7示出的网络结构703实现的,这里的第一频域编码处理是通过图7示出的网络结构704实现的,这里的热度编码处理是通过多层感知网络(MLP)实现的,对第一时域编码进行维度变换处理(reshape)得到第一变换结果,对第一变换结果与第一热度编码进行注意力处理,得到第一注意力编码,这里的注意力处理可以将第一热度编码分别进行键映射处理以及值映射处理,对第一变换结果进行查询映射处理,将三个映射结果代入注意力机制公式得到第一注意力编码,对第一频域编码与第一热度编码进行注意力处理,得到第二注意力编码,这里的注意力处理可以将第一热度编码分别进行键映射处理以及值映射处理,对第二频域编码进行查询映射处理,将三个映射结果代入注意力机制公式得到第二注意力编码。
作为示例,步骤1022中涉及到的对第一拼接结果、第一频域编码以及第一时域编码进行融合处理是通过图7示出的网络结构705实现的。
在步骤1023中,对第一时域编码、第一频域编码以及时频域融合编码进行拼接处理,得到音频帧样本的拼接编码。
作为示例,第一时域编码是图7中的波形图,第一频域编码是图7中的特征图,步骤1023是将第一时域编码、第一频域编码以及时频域融合编码这三者进行拼接处理。
在步骤1024中,对音频帧样本的拼接编码进行嵌入编码处理,得到音频帧样本的多媒体编码。
在一些实施例中,步骤1024中对音频帧样本的拼接编码进行嵌入编码处理,得到音频帧样本的多媒体编码,可以通过以下技术放啊实现:对音频帧样本的拼接编码进行第一卷积处理,得到第一卷积结果;对第一卷积结果进行最大池化处理,得到最大池化结果,并对第一卷积结果进行平均池化处理,得到平均池化结果;对最大池化结果与平均池化结果进行求和处理,并对求和结果进行激活处理,得到音频帧样本的多媒体编码。
作为示例,步骤1024是通过图7示出的网络结构706实现的,第一卷积处理是通过图7所示的二维卷积神经网络实现的,这里的最大池化处理是获取第一卷积结果中最后一个维度的最大值,这里的平均池化处理是获取第一卷积结果中最后一个维度的平均值。这里的激活处理是通过激活函数relu实现的。
在一些实施例中,当多媒体帧样本是视频帧时,获取对应视频帧的音频帧以及图像帧,通过上述实施例获取音频帧的音频编码,再通过图像处理网络对图像帧进行编码处理,得到图像编码,将图像编码与音频编码进行融合处理,得到多媒体帧样本的多媒体编码。
在步骤103中,通过评价模型对每个多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到每个多媒体帧样本的对象引导编码。
第二开关机制用于控制对象热度数据在第二编码处理中的输入。
在一些实施例中,第二开关机制包括第二开关和第三开关,参见图3E,步骤103中通过评价模型对每个多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到每个多媒体帧样本的对象引导编码,可以通过评价模型针对每个多媒体帧样本的对象热度数据执行图3E示出的步骤1031至步骤1032实现。
在步骤1031中,当第二开关的工作状态是开启状态时,对对象热度数据进行多层感知处理,得到第一多层感知结果。
在一些实施例中,获取多媒体帧样本所属的样本编号,并对样本编号进行角度映射处理,得到对应样本编号的角度;对样本编号的角度进行三角函数映射处理,得到样本编号的三角函数结果,并基于样本编号的三角函数结果确定第二开关的工作状态。通过本申请实施例使用开关机制来对对象热度数据引导训练进行控制,能够在整个评价模型的训练过程中,各个网络间断性的感受到对象热度数据,使用开关机制的方式能够让评价模型的训练具有通用性,即也能够进行无用户数据影响的训练,同时开关的间断性能够让整个评价模型分时段地感受到对象热度数据,提升了评价模型的学习能力,增加了评价模型在精彩度计算的精度。
作为示例,总共有100条多媒体样本作为训练数据,每个训练批次包括10个训练数据,那么第11条至第20条多媒体样本的样本编号为2,进行角度映射处理之后,第1个训练批次是0度(样本编号为1),第2个训练批次是90度(样本编号为2),第3个训练批次是180度(样本编号为3),第4个训练批次是270度(样本编号为4),以此类推,再通过正切函数对角度进行三角函数映射处理,可以得到正无穷、零与负无穷三种结果,当三角函数结果为零时,表征第二开关处于关闭状态,当三角函数不为零时,表征第二开关处于开启状态。
在步骤1032中,获取第三开关的引导权重值,并将引导权重值与第一多层感知结果进行相乘处理,得到多媒体帧样本的对象引导编码。
在一些实施例中,步骤1032中获取第三开关的引导权重值,可以通过以下技术方案实现:获取多媒体帧样本所属的帧编号,并对帧编号进行角度映射处理,得到对应帧编号的角度;对帧编号的角度进行三角函数映射处理,得到帧编号的三角函数结果;基于三角函数结果进行随机数生成处理,得到第三开关的引导权重值。通过本申请实施例使用开关机制来对对象热度数据引导训练进行控制,能够在整个评价模型的训练过程中,各个网络间断性的感受到对象热度数据,使用开关机制的方式能够让评价模型的训练具有通用性,即也能够进行无用户数据影响的训练,同时开关的间断性能够让整个评价模型分时段地感受到对象热度数据,提升了评价模型的学习能力,增加了评价模型在精彩度计算的精度。
作为示例,当第二开关处于开启状态时,对象热度数据进行输入,这个时候的对象热度数据输入到全连接层(多层感知处理)中,进行与多媒体编码相同维度的放大处理。这里通过第三开关的开关参数Y来进行控制,Y的取值是余弦函数cos(T),T为多媒体帧样本在多媒体样本的所有多媒体帧样本序列中所处的时间点(帧编号),假设有10个多媒体帧样本,角度映射处理可以是针对每个多媒体帧样本进行累加18度处理,分别是0度(帧编号为0)、18度(帧编号为1)、36度(帧编号为2)、54度(帧编号为3),…,180度,经过余弦计算(三角函数映射)之后,Y的取值范围为[0,1]之间的小数,对[0,Y]所表示的区间进行随机数求取,得到第三开关的引导权重值y。
作为示例,第三开关的引导权重值y与对象热度数据的第一多层感知结果进行相乘,相当于降低对象热度数据在训练时的引导程度。得到最终的对象热度数据特征向量(多媒体帧样本的对象引导编码)。
在步骤104中,通过评价模型将每个多媒体帧样本的对象引导编码与每个多媒体帧样本的多媒体编码进行融合处理,并对每个多媒体帧样本进行基于对应融合结果的精彩度预测处理,得到每个多媒体帧样本的预测精彩度。
作为示例,这里的融合处理是将多媒体帧样本的对象引导编码与多媒体帧样本的多媒体编码进行乘积,得到多媒体帧样本的融合结果,再通过全连接层对融合结果进行映射处理,得到预测精彩度,当预测精彩度高于精彩度阈值时,确定该多媒体帧样本属于精彩片段。
在步骤105中,基于每个多媒体帧样本的标记精彩度与每个多媒体帧样本的预测精彩度之间的差异,构建精彩度预测损失,并基于精彩度预测损失更新评价模型。
在一些实施例中,获取目标多媒体信息,并对目标多媒体信息进行分帧处理,得到多个目标多媒体帧;当目标多媒体帧具有对象热度数据时,从目标多媒体信息的数据平台获取每个目标多媒体帧的对象热度数据,并将每个目标多媒体帧以及对应的对象热度数据在经过更新的评价模型中进行正向传播,得到每个目标多媒体帧的预测精彩度;其中,经过更新的评价模型中针对对象热度数据的第一开关机制以及第二开关机制处于开启状态。
在对评价模型进行训练之后,可以利用评价模型对目标多媒体信息的精彩度进行预测,当目标多媒体信息具有来自各个数据平台的对象热度数据时,将每个目标多媒体帧以及对应的对象热度数据在经过更新的评价模型中进行正向传播,得到每个目标多媒体帧的预测精彩度的过程可以参考步骤102至步骤104,区别仅在于此时评价模型中所有开关均处于开启状态,且第二开关机制中的第三开关的引导权重值为1,即对对象热度数据进行多层感知处理,得到对象热度数据的第一多层感知结果,直接将对象热度数据的第一多层感知结果与目标多媒体帧的多媒体编码进行融合处理,并对每个目标多媒体帧进行基于对应融合结果的精彩度预测处理,得到每个目标多媒体帧的预测精彩度。
在一些实施例中,获取目标多媒体信息,并对目标多媒体信息进行分帧处理,得到多个目标多媒体帧;当目标多媒体帧不具有对象热度数据时,将每个目标多媒体帧在经过更新的评价模型中进行正向传播,得到每个目标多媒体帧的预测精彩度;其中,经过更新的评价模型中针对对象热度数据的第一开关机制以及第二开关机制处于关闭状态。
在对评价模型进行训练之后,可以利用评价模型对目标多媒体信息的精彩度进行预测,当目标多媒体信息不具有来自各个数据平台的对象热度数据时,将每个目标多媒体帧以及对应的对象热度数据在经过更新的评价模型中进行正向传播,得到每个目标多媒体帧的预测精彩度的过程可以参考步骤102至步骤104,区别仅在于此时评价模型中所有开关均处于关闭状态,即通过图7中所示的结构对目标多媒体帧进行第一编码处理时,仅执行频域支路702和时域支路701的处理,最后通过网络结构706将两个支路的输出拼接结果进行处理,得到目标多媒体帧的多媒体编码,最后直接对每个目标多媒体帧进行基于对应多媒体编码的精彩度预测处理,得到每个目标多媒体帧的预测精彩度。
即对对象热度数据进行多层感知处理,得到对象热度数据的第一多层感知结果,直接将对象热度数据的第一多层感知结果与目标多媒体帧的多媒体编码进行融合处理,并对每个目标多媒体帧进行基于对应融合结果的精彩度预测处理,得到每个目标多媒体帧的预测精彩度。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
在一些实施例中,终端接收到模型训练请求,并将模型训练请求发送到服务器,服务器对多媒体样本进行分帧处理,得到多个多媒体帧样本,并获取每个多媒体帧样本的对象热度数据;通过评价模型对每个多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到每个多媒体帧样本的多媒体编码,其中,第一开关机制用于控制对象热度数据在第一编码处理中的输入;通过评价模型对每个多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到每个多媒体帧样本的对象引导编码,其中,第二开关机制用于控制对象热度数据在第二编码处理中的输入;通过评价模型将每个多媒体帧样本的对象引导编码与每个多媒体帧样本的多媒体编码进行融合处理,并对每个多媒体帧样本进行基于对应融合结果的精彩度预测处理,得到每个多媒体帧样本的预测精彩度;基于每个多媒体帧样本的标记精彩度与每个多媒体帧样本的预测精彩度之间的差异,构建精彩度预测损失,并基于精彩度预测损失更新评价模型。服务器部署更新后的评价模型,终端接收到针对目标音乐的精彩度预测请求,将精彩度预测请求发送至服务器,服务器调用更新后的评价模型对目标音乐的每个音频帧进行精彩度预测处理,得到预测精彩度,基于预测精彩度高于精彩度阈值的音频帧,生成精彩片段,并将精彩片段返回至终端。
本申请实施例提出了一种基于多层开关机制控制引导数据融入评价模型的音乐精彩度预测方法。使用多层开关机制来控制引入对象热度数据作为评价模型的引导训练数据。
本申请实施例使用类似半监督引导训练的方式,使用开关控制机制并结合注意力机制让评价模型中多个层次引入对象热度数据来对整个评价模型作引导性的训练。通过使用对象热度数据的半监督引导训练方法,能够让评价模型学习到实际用户普遍更喜欢的精彩段落分布,从而让评价模型的精彩预测段落时间能够更倾向于用户普遍更为喜欢的时间片段,从而在实际落地应用中,能够给用户提供或者推荐更为符合需求的精彩片段。
本申请实施例使用多层控制开关,让评价模型间断性的从编码到预测两个阶段学习真实对象热度数据,从而能够让评价模型在预测没有对象热度数据的音乐精彩段落时,更为准确且符合实际用户偏好,从而让整个评价模型更通用化。
本申请实施例主要是用来对音乐中的精彩程度以及精彩段落进行预测的,能够对带有对象热度数据和未含有对象热度数据的两种音乐分别进行准确的精彩程度计算,根据计算出来的精彩度进一步落地到不同的应用场景。
本申请实施例提供一种基于多层开关机制控制对象数据融入评价模型的模型训练方法,训练得到的评价模型能够自动化地针对音乐进行精彩度计算,然后根据计算出来的精彩度自动化地定位出整个音乐的精彩段落时间,能够为各自音乐平台提供准确真实且贴合实际用户选择的精彩段落信息。
参见图4,图4是本申请实施例提供的评价模型的训练方法的逻辑框架示意图,整个逻辑框架包括三个部分,第一部分是用户数据融合模块、第二部分是融合注意力机制和开关机制的编码网络,第三部分是开关控制的基于用户数据引导的预测网络。
首先介绍对象数据融合模块,将音乐在几个平台的平台热度数据分别根据设置的规整逻辑进行规整处理,然后将几个平台的平台热度数据进行融合,以归纳出一条完整时序上的标准的对象热度数据(用户数据权重曲线),使用该数据同时输入到编码网络以及预测网络中作为引导数据。本申请实施例使用视频平台的音乐版块的音乐视频播放数据(进度条拖动数据),在线音乐平台的实时播放数据以及短视频二创乐库的用户选择数据三种对象操作数据。
再介绍融合注意力机制和开关机制的编码网络,编码网络以PANNS网络为基础,增加时域和频域两个支路之间的联系,使用第一开关机制和注意力机制将对象热度数据融合到编码网络(改进型PANNS网络)中并将音频序列输入至该编码网络中,然后经过编码网络后就能够得到音频编码特征序列。编码网络是针对于输入的音频信号数据进行处理的,经过时域频域两个支路的计算,同时在时域和频域之间加了融合联系,方便两个支路之间的互相感知和信息交互。同时由开关控制对象热度数据的引入,当开关打开需要引入对象热度数据时,对象热度数据输入到注意力机制中,然后和时域特征以及频域特征分别进行融合输出,最终得到完整的音乐音频编码向量序列,以输入到预测网络中。
最后将对象热度数据和音频编码特征序列都输入到开关控制的基于用户数据引导的预测网络中,开关控制的基于用户数据引导的预测网络将对象热度数据以及音频编码序列进行标准化(时间规整),实现单位时间节点的时间长度对齐(两个序列的单位节点所代表的时间粒度相同),通过第二开关机制进行对两个序列融合,通过开关控制是否需要将对象热度数据来引导模型训练,生成新特征序列以输入到二分类网络(分类器)中,得到预测精彩度,将预测精彩度与标注的真实精彩度标签进行比对,从而完成训练。本申请实施例将对象热度数据序列作为引导数据,对音频编码序列进行融合预加重,通过该种预加重的方式来对每个采样点的音频编码进行调整,然后输入到递归神经网络中,让每个采样点学习到上下文信息,最后通过分类层计算出精彩置信度以及推理出精彩段落的时间区间。
下面详细介绍对象数据融合模块。
首先介绍对象数据的来源,本申请实施例中所使用的对象数据分为三种,视频平台中音乐板块播放数据,在线音乐平台的实时播放数据以及短视频二创平台中的用户选择数据。
对于视频平台中音乐板块的音乐视频播放数据,在大部分在线视频平台的音乐板块中,都会存在有大量的音乐视频,然后平台会自动记录音乐视频播放数据,即这个音乐视频中对任一时间点的进度条被拖动次数,进度条被拖动次数代表着用户的喜欢程度。
对于实时播放数据,在线音乐平台中会记录整首音乐在所有时间点上的用户收听数据,尤其是针对于每个时间点上,有多少个用户听到过该音乐的这个时间点,都是能够在平台数据库中查询得到的,然后就能够统计整首音乐的所有时间点的用户收听数量,整理成为热度曲线输出。
对于用户选择数据,用户在短视频二创平台进行创作时,会挑选歌曲中的某个时间片段作为配乐,二创平台乐库中的每个音乐都存在着大量的用户选择数据,经过累加后能够形成用户选择热度曲线。
接着介绍针对多个平台的对象热度数据的融合规整过程,通过融合规整可以得到用户数据权重曲线,融合规整过程包括时间粒度调整、数据标准化以及数据融合三个部分。
对于时间粒度调整过程,首先读取需要进行训练的三个平台的所有对象热度数据,然后按照以秒为单位进行时间单位转换,参见图5,因为在进行数据记录时,都是按照毫秒的粒度进行实时记录的,但是原始的数据粒度针对于评价模型而言太小,因此需要将数据转换成为秒级别粒度,在实际的计算中是将整个秒级窗内的所有数据进行相加,得到当前秒级范围的数据,参见公式(4):
(4);/>
其中,是第T-1秒至第T秒这个时间范围的平台热度数据,/>是第T-1秒至第T秒这个时间范围内每毫秒的热度数据。将/>至/>内的所有热度数据(例如播放量)进行相加,就能够得到第T秒的总数据量。经过计算后就能够得到以秒为单位的数据曲线。
对于数据标准化的过程,经过时间粒度调整(时间归并)之后,就能够得到秒级别的对象热度曲线,因为在实际存储的数据中,不同歌曲之间的存在着数量级别的差异,所以不同歌曲之间的数据曲线分布是存在有差异的,因为多个歌曲的数据均需要统一输入至评价模型中进行学习,因此需要进行对对象热度曲线进行标准化,也就是将热度的数值规整到[0,1]之内,设对象热度曲线为,然后参见公式(5)进行标准化:
(5);
其中,是某个音频在某个数据平台中第i秒的对象热度,是的标准化热度
数据,是某个音频在某个数据平台中多个对象热度(分别与每秒对应)中数值最
大的对象热度。
对于数据融合的过程,通过上述过程能够将音频在三个平台的热度曲线全部规整到[0,1]之内,然后需要将三条热度曲线进行融合,最终输出完整的对象热度数据。经过粒度规整以及标准化,当前三条热度曲线都已经能够达到[0,1]之内,包括:第一平台的播放曲线,第二平台的实时收听数据曲线/>,第三平台的选择曲线/>,然后对三个曲线进行融合,最后输出的对象热度曲线/>,参见公式(6):
(6);
其中,是i时间点的融合结果,是三个平台分别在i时间点的热
度数据中的最大值,是三个平台分别在i时间点的热度数据中的平均值。
下面介绍融合注意力机制和开关机制的编码网络。
参见图6,图6是本申请实施例提供的评价模型的训练方法的基础框架示意图,图6包括两个支路,分别是时域支路和频域支路,时域支路涉及到卷积、池化、维度变换等处理,卷积是通过不同的卷积层实现的,卷积层(Conv1D,k=11,s=5)表征卷积核尺寸为11,步长为5的一维卷积。卷积层(Conv1D block)表征任意一维卷积,池化层(MaxPooling1D,s=4)表征步长为4的一维最大池化层,具体而言,在时域支路中依次对输入音频执行以下处理:一维卷积处理(卷积核尺寸为11,步长为5)、一维卷积处理、一维最大池化处理(步长为4)、一维卷积处理、一维最大池化处理(步长为4)、一维卷积处理、一维最大池化处理(步长为4)、维度变换处理,时域支路的输出是时域编码结果(波形图),在频域支路中依次对输入音频执行以下处理:梅尔频谱生成处理、二维卷积处理,频域支路的输出是特征图,将时域处理结果与频域处理结果进行拼接(concat),然后将拼接结果输入到二维卷积神经网络中,得到卷积结果,获取卷积结果中最后一个维度的最大值以及最后一个维度的平均值,将最大值与平均值进行求和处理,通过激活函数对求和结果进行激活处理,得到音频编码,音频编码是嵌入向量(embedding)的形式。
参见图7,图7是本申请实施例提供的评价模型的训练方法的编码网络示意图,编码网络基于PANNS网络融合有注意力机制和开关机制,通过增加时域支路和频域支路之间的信息交互融合,同时添加了基于开关机制的注意力模块,能够将对象热度数据融入到编码网络中。
编码网络分为时域支路和频域支路,编码网络的输入是音频采样点序列,也就是音频信号的原始采样点序列。对于任意一个采样点,基于采样点提取出音频的基础特征图,将基础特征图作为时域支路的输入。
时域支路中使用了大量一维卷积层,在时域信号中使用大量的卷积层能够直接学习到音频信号的时域特性,尤其是像音频响度和采样点幅度的信息。经过大量一维卷积层后,将生成的一维序列维度变换为二维图谱(Wavegram),从而能够使得时域支路与频域支路的输出进行结合。具体而言,在时域支路中依次对输入音频执行以下处理:一维卷积处理(卷积核尺寸为11,步长为5)、一维卷积处理、一维最大池化处理(步长为4)、一维卷积处理、一维最大池化处理(步长为4,经过一维最大池化处理得到的是时域支路的第一中间输出)、一维卷积处理、一维最大池化处理(步长为4)、维度变换处理,时域支路的输出是时域编码结果(波形图)。
频域支路的输入是采样点的音频原始信号,然后求得音频的频域频谱,例如可以采用梅尔频率。将求得的频域频谱输入到多个二维卷积层中,输出得到与时域支路求得同维度的特征图(Feature maps)。具体而言,在频域支路中依次对输入音频执行以下处理:梅尔频谱生成处理、二维卷积处理,二维最大池化处理、二维卷积处理、二维最大池化处理(经过二维最大池化处理得到的是频域支路的第一中间输出)、二维卷积处理,频域支路的输出是特征图。
图7中还包括通过第一开关机制控制的对象热度数据引入支路,对象热度数据引入支路的输入是与采样点对应的对象热度数据,当存在对象热度数据时,第一开关机制中的第一开关处于开启状态,就意味着可以接收对象热度数据输入,对象热度数据输入到一个全连接层后进行维度拓展生成新的数据特征(这里的全连接层是多层感知机),对图7示出的网络结构703的输出进行维度变换处理,将维度变换结果与新的数据特征输入到注意力机制中得到第一注意力编码,对图7示出的网络结构704的输出与新的数据特征输入到注意力机制中得到第二注意力编码,对第一注意力编码与第二注意力编码进行拼接处理,得到第一拼接结果,对第一拼接结果进行二维卷积处理,得到二维卷积结果,将二维卷积结果、频域支路的第一中间输出以及时域支路的第一中间输出的维度变换结果拼接为第二拼接结果,对第二拼接结果进行二维卷积处理,得到时频域融合编码,并将时频域融合编码、波形图以及特征图进行拼接,得到拼接编码。由于新数据特征与时域频域支路的数据分别输入到注意力机制中,能够让对象热度数据与两个时域频域支路的数据相互结合,然后将两个输出进行拼接,统一输入到编码网络中最高层叠加模块中。既能够让时域和频域保持信息上的互补,同时还能够让高层网络感知到底层网络信息。
最后将时域频域支路的同维度的输出特征图以及结合得到的特征图(拼接编码)进行拼接,共同组成一组二维频域特征图,将生成的二维频域特征图输入到二维卷积模块(2D CNN layers)中,然后对最后一个维度进行求取平均池化处理(mean)和最大池化处理(max),将求得的平均值与最大值进行相加,最后再通过激活层(relu),得到最终的音频语义特征向量(音频编码)。
本申请实施例会整个音轨进行分帧并分别输入到编码网络中,通过编码网络进行计算,能够得到代表整个音轨语义信息的语义特征向量序列。在本申请实施例中,该编码网络能够将输入的音频数据进行初步的编码,并融入对象热度数据,将最终生产的音频编码序列输入到预测网络中,进行最后的精彩度计算。
音乐播放数据除了会被音乐音频上的表现影响外,还会被音乐视频上的内容影响,所以还可以通过多模态编码模型构建本申请实施例提供的编码网络。
下面介绍开关控制的基于用户数据引导的预测网络。
参见图8,图8是本申请实施例提供的评价模型的训练方法的开关控制示意图,本申请实施例在训练过程中接收到的是对象热度数据,同时也接收到音频编码序列,然后在训练时,需要使用第二开关机制来对对象热度数据进行引导以实现间断使用。预测网络中的第二开关机制包括整体开关和节点开关,这两个开关是为了能够控制对象热度数据在预测网络中的作用,一方面是为了对评价模型进行间断的引导,让整个评价模型参数在进行学习时,更加能够贴合实际的精彩段落定位,同时另一方面也是为了避免评价模型太过依赖于对象热度数据,避免在推理的过程中没有对象热度数据时推理出来的精彩度与实际不符合。
在训练阶段中,整体开关是为了能够控制在训练中是否选择使用对象热度数据来进行引导,参见图8,整体开关控制第一模块(对象数据融合模块)输出的对象热度数据(对象热度曲线)是否输入到预测网络中。整体开关在实际模型构建时选择的是正切函数tanT开关,比如总共有100条音频样本作为训练数据,每个样本批次(batch)包括10个训练数据,那么第11条至第20条音频样本的T为2,每个batch之间的间隔是90度,例如,第1个batch是0度,第2个batch是90度,第3个batch是180度,第4个batch是270度,来计算开关的输出,开关的输出可以为0和1,0代表当前batch数据的训练不需要对象热度数据的引导,1代表着当前batch数据的训练需要加入对象热度数据的引导。在训练时会将所有的batch数据进行随机打乱,从而让每个数据都能够有机会进入开关。节点开关是为了能够让对象热度数据间断式的进行对训练的引导。当整体开关为1时,对象热度数据曲线进行输入,这个时候的对象热度数据曲线输入到全连接层(多层感知机)中,进行与输入的音频特征同维度的放大处理,得到对象热度数据的特征序列。这里通过开关参数Y来进行控制,Y的取值是余弦函数cosT,T为本次计算的采样点在整个序列所处的时间点,经过余弦计算之后,Y的取值范围为[0,1]之间的小数,对[0,Y]所表示的区间进行随机数求取,得到实际控制参数y,实际控制参数y与对象热度数据的多层感知结果(对象热度数据的特征序列)进行相乘,相当于降低对象热度数据在训练时的引导程度。得到最终的对象热度数据特征向量(对象引导编码),对象引导编码与当前时刻的音频编码特征向量(编码网络输出的音频编码特征序列中对应当前时刻的音频编码特征向量)进行乘积,输出最终的融合特征向量,然后将融合特征向量输入至分类器以预测出精彩程度。
在实际推理的阶段有两种情况,分别是有对象热度数据和无对象热度数据的情况。有对象热度数据时,需要将整体开关设置为1,让所有的对象热度数据去引导整体的推理流程,然后节点开关这里需要让实际控制参数y直接取值为1,让对象热度数据最大程度的引导整个系统的推理计算,这样能够让最后的精彩结果更加贴合实际的用户真实的反应选择。没有对象热度数据时,需要将整体开关设置为0,也就是无对象热度数据进行引导,从而会根据训练时评价模型所学习到的参数,贴合对象实际喜欢的精彩度计算,最终能够计算出准确的精彩度数值。
本申请实施例所产生的有益效果包括但不限于以下方面:
首先本申请实施例创建一种全自动的基于多层开关控制引导对象数据融入模型的音乐精彩度预测方法,能够完全自动化地进行计算,能够快速地对所有输入音乐数据进行准确的精彩度计算,完全可以摆脱人工的低效率标注。同时采用的是评价模型直接对音乐进行精彩度计算,所以预测出来的精彩段落时间点都是具有标准化的,不会出现人工主观感受上差异所导致的精彩时间定位不准的问题。
本申请实施例将对象热度数据作为评价模型的引导训练数据,并且是在编码网络和预测网络两个网络中同时引入,能够让整个推理过程都能够学习到最为真实的用户普遍偏好信息,能够让整个评价模型在实际的精彩度计算时得到的结果更贴合用户最为真实的收听感受数据,更符合用户普遍喜爱趋向。
本申请实施例在基于PANNS网络的基础上,增加了时域和频域之间的信息交互,能够让PANNS网络的时域和频域两个支路之间的信息相互融合,从而能够让整个编码网络分层次学习到音乐音频特性的表征,其提高的内容表达能力,可以直接在最终精彩度预测时提高精彩度计算准确性。
本申请实施例使用开关机制来对对象热度数据引导训练进行控制,类似于半监督训练的方式,能够在整个评价模型的训练过程中,各个网络间断性的感受到对象热度数据,使用开关机制的方式能够让评价模型的训练具有通用性,即也能够进行无用户数据影响的训练,同时开关的间断性能够让整个评价模型分时段地感受到对象热度数据,提升了评价模型的学习能力,增加了评价模型在精彩度计算的精度。
本申请实施例在PANNS网络的时域频域两个支路融合时增加了注意力机制,通过注意力机制能够将对象热度数据引入到评价模型中引导训练,注意力机制主要是将时域支路,频域支路以及对象热度数据进行融合,从而能够让编码出来的音频特征向量序列在语义表征上更丰富且更贴合对象热度数据,最终能够提升整个评价模型在精彩度预测上的精度和准确性。
本申请实施例虽然使用了对象热度数据来作为训练的引导,帮助评价模型计算音频的精彩度,但是评价模型使用了多层开关机制,能够纠正对象热度数据和实际精彩度不贴合的现象,在实际的情况中,对象热度数据加权多的地方也有可能存在并不是精彩的时段,所以评价模型能够反向纠正对象热度数据在精彩度上的表现,避免这种非正常用户数据对精彩预测的干扰。
可以理解的是,在本申请实施例中,涉及到用户信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的评价模型的训练装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的评价模型的训练装置255中的软件模块可以包括:获取模块2551,用于对多媒体样本进行分帧处理,得到多个多媒体帧样本,并获取每个多媒体帧样本的对象热度数据;编码模块2552,用于通过评价模型对每个多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到每个多媒体帧样本的多媒体编码,其中,第一开关机制用于控制对象热度数据在第一编码处理中的输入;引导模块2553,用于通过评价模型对每个多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到每个多媒体帧样本的对象引导编码,其中,第二开关机制用于控制对象热度数据在第二编码处理中的输入;预测模块2554,用于通过评价模型将每个多媒体帧样本的对象引导编码与每个多媒体帧样本的多媒体编码进行融合处理,并对每个多媒体帧样本进行基于对应融合结果的精彩度预测处理,得到每个多媒体帧样本的预测精彩度;更新模块2555,用于基于每个多媒体帧样本的标记精彩度与每个多媒体帧样本的预测精彩度之间的差异,构建精彩度预测损失,并基于精彩度预测损失更新评价模型。
在一些实施例中,获取模块2551,还用于:获取多媒体样本在每个数据平台的平台热度数据;对多媒体样本在多个数据平台的平台热度数据进行融合规整处理,得到多媒体样本的对象热度数据;从多媒体样本的对象热度数据中提取出每个多媒体帧样本的对象热度数据。
在一些实施例中,获取模块2551,还用于:获取多媒体样本的至少一个时间范围;针对每个数据平台,对多媒体样本在数据平台的平台热度数据进行对应至少一个时间范围的归并处理,得到每个时间范围的平台热度数据;针对每个数据平台执行以下处理:对数据平台在每个时间范围的平台热度数据进行标准化处理,得到数据平台在每个时间范围的标准化热度数据;针对每个时间范围执行以下处理:对多个数据平台在时间范围的标准化热度数据进行融合处理,得到多媒体样本在时间范围的融合热度数据;将多个时间范围的融合热度数据组成多媒体样本的对象热度数据。
在一些实施例中,获取模块2551,还用于:从多媒体样本在数据平台的平台热度数据中提取在每个单位时间刻度的平台热度数据;针对每个时间范围,对属于时间范围的所有单位时间刻度的平台热度数据进行求和处理,得到对应时间范围的平台热度数据。
在一些实施例中,获取模块2551,还用于:获取多个时间范围的平台热度数据中的最大热度数据;针对每个时间范围,将时间范围的平台热度数据与最大热度数据的比值作为时间范围的标准化热度数据。
在一些实施例中,获取模块2551,还用于:对多个数据平台在时间范围的标准化热度数据进行最大值获取处理,得到最大标准化热度数据;对多个数据平台在时间范围的标准化热度数据进行求平均处理,得到平均标准化热度数据;对最大标准化热度数据以及平均标准化热度数据进行求平均处理,得到多媒体样本在时间范围的融合热度数据。
在一些实施例中,当多媒体帧样本是音频帧样本时,编码模块2552,还用于:通过评价模型对每个音频帧样本执行以下处理:对音频帧样本进行时频域编码处理,得到音频帧样本的第一时域编码和第一频域编码;当第一开关机制的第一开关处于开启状态时,基于音频帧样本的对象热度数据,对音频帧样本进行时频域融合编码处理,得到音频帧样本的时频域融合编码;对第一时域编码、第一频域编码以及时频域融合编码进行拼接处理,得到音频帧样本的拼接编码;对音频帧样本的拼接编码进行嵌入编码处理,得到音频帧样本的多媒体编码。
在一些实施例中,编码模块2552,还用于:对音频帧样本进行第一时域编码处理,得到第二时域编码,并对音频帧样本进行第一频域编码处理,得到第二频域编码;对对象热度数据进行热度编码处理,得到第一热度编码;对第一时域编码与第一热度编码进行注意力处理,得到第一注意力编码,并对第一频域编码与第一热度编码进行注意力处理,得到第二注意力编码;对第一注意力编码与第二注意力编码进行拼接处理,得到第一拼接结果,并对第一拼接结果、第一频域编码以及第一时域编码进行融合处理,得到音频帧样本的时频域融合编码。
在一些实施例中,编码模块2552,还用于:对融合编码进行第一卷积处理,得到第一卷积结果;对第一卷积结果进行最大池化处理,得到最大池化结果,并对第一卷积结果进行平均池化处理,得到平均池化结果;对最大池化结果与平均池化结果进行求和处理,并对求和结果进行激活处理,得到音频帧样本的多媒体编码。
在一些实施例中,第二开关机制包括第二开关和第三开关,引导模块2553,还用于:通过评价模型针对每个多媒体帧样本的对象热度数据执行以下处理:当第二开关的工作状态是开启状态时,对对象热度数据进行多层感知处理,得到第一多层感知结果;获取第三开关的引导权重值,并将引导权重值与第一多层感知结果进行相乘处理,得到多媒体帧样本的对象引导编码。
在一些实施例中,引导模块2553,还用于:获取多媒体帧样本所属的样本编号,并对样本编号进行角度映射处理,得到对应样本编号的角度;对样本编号的角度进行三角函数映射处理,得到样本编号的三角函数结果,并基于样本编号的三角函数结果确定第二开关的工作状态。
在一些实施例中,引导模块2553,还用于:获取多媒体帧样本所属的帧编号,并对帧编号进行角度映射处理,得到对应帧编号的角度;对帧编号的角度进行三角函数映射处理,得到帧编号的三角函数结果;基于三角函数结果进行随机数生成处理,得到第三开关的引导权重值。
在一些实施例中,应用模块2556,还用于:获取目标多媒体信息,并对目标多媒体信息进行分帧处理,得到多个目标多媒体帧;当目标多媒体帧具有对象热度数据时,从目标多媒体信息的数据平台获取每个目标多媒体帧的对象热度数据,并将每个目标多媒体帧以及对应的对象热度数据在经过更新的评价模型中进行正向传播,得到每个目标多媒体帧的预测精彩度;其中,经过更新的评价模型中针对对象热度数据的第一开关机制以及第二开关机制处于开启状态。
在一些实施例中,应用模块2556,还用于:获取目标多媒体信息,并对目标多媒体信息进行分帧处理,得到多个目标多媒体帧;当目标多媒体帧不具有对象热度数据时,将每个目标多媒体帧在经过更新的评价模型中进行正向传播,得到每个目标多媒体帧的预测精彩度;其中,经过更新的评价模型中针对对象热度数据的第一开关机制以及第二开关机制处于关闭状态。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机可执行指令,该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的评价模型的训练方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的评价模型的训练方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块或脚本的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序的文件)中。
作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,本申请实施例不仅将对象热度数据引入到评价模型的训练过程中,并且对象热度数据的引入是通过第一开关机制以及第二开关机制进行控制的,从而可以控制对象热度数据的引入,因此评价模型是基于对象热度数据训练得到的,从而后续应用阶段无论是否有对象热度数据,均能够利用评价模型输出准确的精彩度预测结果。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (17)
1.一种评价模型的训练方法,其特征在于,所述方法包括:
对多媒体样本进行分帧处理,得到多个多媒体帧样本,并获取每个所述多媒体帧样本的对象热度数据;
通过所述评价模型对每个所述多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到每个所述多媒体帧样本的多媒体编码,其中,所述第一开关机制用于控制所述对象热度数据在所述第一编码处理中的输入;
通过所述评价模型对每个所述多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到每个所述多媒体帧样本的对象引导编码,其中,所述第二开关机制用于控制所述对象热度数据在所述第二编码处理中的输入;
通过所述评价模型将每个所述多媒体帧样本的对象引导编码与每个所述多媒体帧样本的多媒体编码进行融合处理,并对每个所述多媒体帧样本进行基于对应融合结果的精彩度预测处理,得到每个所述多媒体帧样本的预测精彩度;
基于每个所述多媒体帧样本的标记精彩度与每个所述多媒体帧样本的预测精彩度之间的差异,构建精彩度预测损失,并基于所述精彩度预测损失更新所述评价模型。
2.根据权利要求1所述的方法,其特征在于,所述获取每个所述多媒体帧样本的对象热度数据,包括:
获取所述多媒体样本在每个数据平台的平台热度数据;
对所述多媒体样本在多个所述数据平台的平台热度数据进行融合规整处理,得到所述多媒体样本的对象热度数据;
从所述多媒体样本的对象热度数据中提取出每个所述多媒体帧样本的对象热度数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述多媒体样本在多个所述数据平台的平台热度数据进行融合规整处理,得到所述多媒体样本的对象热度数据,包括:
获取所述多媒体样本的至少一个时间范围;
针对每个所述数据平台,对所述多媒体样本在所述数据平台的平台热度数据进行对应所述至少一个时间范围的归并处理,得到每个所述时间范围的平台热度数据;
针对每个所述数据平台执行以下处理:对所述数据平台在每个所述时间范围的平台热度数据进行标准化处理,得到所述数据平台在每个所述时间范围的标准化热度数据;
针对每个所述时间范围执行以下处理:对多个所述数据平台在所述时间范围的标准化热度数据进行融合处理,得到所述多媒体样本在所述时间范围的融合热度数据;
将多个所述时间范围的融合热度数据组成所述多媒体样本的对象热度数据。
4.根据权利要求3所述的方法,其特征在于,所述对所述多媒体样本在所述数据平台的平台热度数据进行对应所述至少一个时间范围的归并处理,得到每个所述时间范围的平台热度数据,包括:
从所述多媒体样本在所述数据平台的平台热度数据中提取在每个单位时间刻度的平台热度数据;
针对每个所述时间范围,对属于所述时间范围的所有单位时间刻度的平台热度数据进行求和处理,得到对应所述时间范围的平台热度数据。
5.根据权利要求3所述的方法,其特征在于,所述对所述数据平台在每个所述时间范围的平台热度数据进行标准化处理,得到所述数据平台在每个所述时间范围的标准化热度数据,包括:
获取多个所述时间范围的平台热度数据中的最大热度数据;
针对每个所述时间范围,将所述时间范围的平台热度数据与所述最大热度数据的比值作为所述时间范围的标准化热度数据。
6.根据权利要求3所述的方法,其特征在于,所述对多个所述数据平台在所述时间范围的标准化热度数据进行融合处理,得到所述多媒体样本在所述时间范围的融合热度数据,包括:
对多个所述数据平台在所述时间范围的标准化热度数据进行最大值获取处理,得到最大标准化热度数据;
对多个所述数据平台在所述时间范围的标准化热度数据进行求平均处理,得到平均标准化热度数据;
对所述最大标准化热度数据以及所述平均标准化热度数据进行求平均处理,得到所述多媒体样本在所述时间范围的融合热度数据。
7.根据权利要求1所述的方法,其特征在于,当所述多媒体帧样本是音频帧样本时,所述通过所述评价模型对每个所述多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到每个所述多媒体帧样本的多媒体编码,包括:
通过所述评价模型对每个所述音频帧样本执行以下处理:
对所述音频帧样本进行时频域编码处理,得到所述音频帧样本的第一时域编码和第一频域编码;
当所述第一开关机制的第一开关处于开启状态时,基于所述音频帧样本的对象热度数据,对所述音频帧样本进行时频域融合编码处理,得到所述音频帧样本的时频域融合编码;
对所述第一时域编码、所述第一频域编码以及所述时频域融合编码进行拼接处理,得到所述音频帧样本的拼接编码;
对所述音频帧样本的拼接编码进行嵌入编码处理,得到所述音频帧样本的多媒体编码。
8.根据权利要求7所述的方法,其特征在于,所述基于所述音频帧样本的对象热度数据,对所述音频帧样本进行时频域融合编码处理,得到所述音频帧样本的时频域融合编码,包括:
对所述音频帧样本进行第一时域编码处理,得到第二时域编码,并对所述音频帧样本进行第一频域编码处理,得到第二频域编码;
对所述对象热度数据进行热度编码处理,得到第一热度编码;
对所述第一时域编码与所述第一热度编码进行注意力处理,得到第一注意力编码,并对所述第一频域编码与所述第一热度编码进行注意力处理,得到第二注意力编码;
对所述第一注意力编码与所述第二注意力编码进行拼接处理,得到第一拼接结果,并对所述第一拼接结果、所述第二频域编码以及所述第二时域编码进行融合处理,得到所述音频帧样本的时频域融合编码。
9.根据权利要求7所述的方法,其特征在于,所述对所述音频帧样本的拼接编码进行嵌入编码处理,得到所述音频帧样本的多媒体编码,包括:
对所述音频帧样本的拼接编码进行第一卷积处理,得到第一卷积结果;
对所述第一卷积结果进行最大池化处理,得到最大池化结果,并对所述第一卷积结果进行平均池化处理,得到平均池化结果;
对所述最大池化结果与所述平均池化结果进行求和处理,并对求和结果进行激活处理,得到所述音频帧样本的多媒体编码。
10.根据权利要求1所述的方法,其特征在于,所述第二开关机制包括第二开关和第三开关,所述通过所述评价模型对每个所述多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到每个所述多媒体帧样本的对象引导编码,包括:
通过所述评价模型针对每个所述多媒体帧样本的对象热度数据执行以下处理:
当所述第二开关的工作状态是开启状态时,对所述对象热度数据进行多层感知处理,得到第一多层感知结果;
获取所述第三开关的引导权重值,并将所述引导权重值与所述第一多层感知结果进行相乘处理,得到所述多媒体帧样本的对象引导编码。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取所述多媒体帧样本所属的样本编号,并对所述样本编号进行角度映射处理,得到对应所述样本编号的角度;
对所述样本编号的角度进行三角函数映射处理,得到所述样本编号的三角函数结果,并基于所述样本编号的三角函数结果确定所述第二开关的工作状态。
12.根据权利要求10所述的方法,其特征在于,所述获取所述第三开关的引导权重值,包括:
获取所述多媒体帧样本所属的帧编号,并对所述帧编号进行角度映射处理,得到对应所述帧编号的角度;
对所述帧编号的角度进行三角函数映射处理,得到所述帧编号的三角函数结果;
基于所述三角函数结果进行随机数生成处理,得到所述第三开关的引导权重值。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标多媒体信息,并对所述目标多媒体信息进行分帧处理,得到多个目标多媒体帧;
当所述目标多媒体帧具有对象热度数据时,将每个所述目标多媒体帧以及对应的对象热度数据在经过更新的评价模型中进行正向传播,得到每个所述目标多媒体帧的预测精彩度;
其中,所述经过更新的评价模型中针对所述对象热度数据的第一开关机制以及第二开关机制处于开启状态。
14.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标多媒体信息,并对所述目标多媒体信息进行分帧处理,得到多个目标多媒体帧;
当所述目标多媒体帧不具有对象热度数据时,将每个所述目标多媒体帧在经过更新的评价模型中进行正向传播,得到每个所述目标多媒体帧的预测精彩度;
其中,所述经过更新的评价模型中针对所述对象热度数据的第一开关机制以及第二开关机制处于关闭状态。
15.一种评价模型的训练装置,其特征在于,所述装置包括:
获取模块,用于对多媒体样本进行分帧处理,得到多个多媒体帧样本,并获取每个所述多媒体帧样本的对象热度数据;
编码模块,用于通过所述评价模型对每个所述多媒体帧样本进行基于对应对象热度数据以及第一开关机制的第一编码处理,得到每个所述多媒体帧样本的多媒体编码,其中,所述第一开关机制用于控制所述对象热度数据在所述第一编码处理中的输入;
引导模块,用于通过所述评价模型对每个所述多媒体帧样本的对象热度数据进行基于第二开关机制的第二编码处理,得到每个所述多媒体帧样本的对象引导编码,其中,所述第二开关机制用于控制所述对象热度数据在所述第二编码处理中的输入;
预测模块,用于通过所述评价模型将每个所述多媒体帧样本的对象引导编码与每个所述多媒体帧样本的多媒体编码进行融合处理,并对每个所述多媒体帧样本进行基于对应融合结果的精彩度预测处理,得到每个所述多媒体帧样本的预测精彩度;
更新模块,用于基于每个所述多媒体帧样本的标记精彩度与每个所述多媒体帧样本的预测精彩度之间的差异,构建精彩度预测损失,并基于所述精彩度预测损失更新所述评价模型。
16.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至14中任一项所述的评价模型的训练方法。
17.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至14中任一项所述的评价模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310788299.0A CN116503791B (zh) | 2023-06-30 | 2023-06-30 | 模型的训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310788299.0A CN116503791B (zh) | 2023-06-30 | 2023-06-30 | 模型的训练方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116503791A true CN116503791A (zh) | 2023-07-28 |
CN116503791B CN116503791B (zh) | 2023-09-15 |
Family
ID=87323543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310788299.0A Active CN116503791B (zh) | 2023-06-30 | 2023-06-30 | 模型的训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503791B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994587A (zh) * | 2023-09-26 | 2023-11-03 | 成都航空职业技术学院 | 一种培训监管系统 |
CN117056709A (zh) * | 2023-10-11 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 时序预测模型的训练方法、装置和存储介质及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107197381A (zh) * | 2017-06-12 | 2017-09-22 | 深圳Tcl新技术有限公司 | 电视视频的热度曲线生成方法、装置和可读存储介质 |
CN109685090A (zh) * | 2017-10-19 | 2019-04-26 | 阿里巴巴集团控股有限公司 | 热度评测模型的训练方法、热度评测方法以及相关设备 |
CN110222231A (zh) * | 2019-06-11 | 2019-09-10 | 成都澳海川科技有限公司 | 一种视频片段的热度预测方法 |
CN111277892A (zh) * | 2020-01-20 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于选取视频片段的方法、装置、服务器和介质 |
CN112087665A (zh) * | 2020-09-17 | 2020-12-15 | 掌阅科技股份有限公司 | 视频直播的预览方法、计算设备及计算机存储介质 |
US20210192217A1 (en) * | 2019-12-19 | 2021-06-24 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing video |
CN114845149A (zh) * | 2021-02-01 | 2022-08-02 | 腾讯科技(北京)有限公司 | 视频片段的剪辑方法、视频推荐方法、装置、设备及介质 |
CN115861890A (zh) * | 2022-12-16 | 2023-03-28 | 北京爱奇艺科技有限公司 | 一种视频分析方法和装置、电子设备和存储介质 |
US20230108645A1 (en) * | 2021-10-01 | 2023-04-06 | Microsoft Technology Licensing, Llc | Adaptive encoding of screen content based on motion type |
-
2023
- 2023-06-30 CN CN202310788299.0A patent/CN116503791B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107197381A (zh) * | 2017-06-12 | 2017-09-22 | 深圳Tcl新技术有限公司 | 电视视频的热度曲线生成方法、装置和可读存储介质 |
CN109685090A (zh) * | 2017-10-19 | 2019-04-26 | 阿里巴巴集团控股有限公司 | 热度评测模型的训练方法、热度评测方法以及相关设备 |
CN110222231A (zh) * | 2019-06-11 | 2019-09-10 | 成都澳海川科技有限公司 | 一种视频片段的热度预测方法 |
US20210192217A1 (en) * | 2019-12-19 | 2021-06-24 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing video |
CN111277892A (zh) * | 2020-01-20 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于选取视频片段的方法、装置、服务器和介质 |
CN112087665A (zh) * | 2020-09-17 | 2020-12-15 | 掌阅科技股份有限公司 | 视频直播的预览方法、计算设备及计算机存储介质 |
CN114845149A (zh) * | 2021-02-01 | 2022-08-02 | 腾讯科技(北京)有限公司 | 视频片段的剪辑方法、视频推荐方法、装置、设备及介质 |
US20230108645A1 (en) * | 2021-10-01 | 2023-04-06 | Microsoft Technology Licensing, Llc | Adaptive encoding of screen content based on motion type |
CN115861890A (zh) * | 2022-12-16 | 2023-03-28 | 北京爱奇艺科技有限公司 | 一种视频分析方法和装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
余春艳 等: "音频情感感知与视频精彩片段提取", 《计算机辅助设计与图形学学报》, vol. 27, no. 10, pages 1890 - 1899 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994587A (zh) * | 2023-09-26 | 2023-11-03 | 成都航空职业技术学院 | 一种培训监管系统 |
CN116994587B (zh) * | 2023-09-26 | 2023-12-08 | 成都航空职业技术学院 | 一种培训监管系统 |
CN117056709A (zh) * | 2023-10-11 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 时序预测模型的训练方法、装置和存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116503791B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116503791B (zh) | 模型的训练方法、装置、电子设备及存储介质 | |
CN110781321B (zh) | 一种多媒体内容推荐方法及装置 | |
US20180276540A1 (en) | Modeling of the latent embedding of music using deep neural network | |
CN114822512B (zh) | 音频数据的处理方法、装置、电子设备及存储介质 | |
KR20230079186A (ko) | 의미론적으로 관련된 컨텐츠를 추천하는 시스템 및 방법 | |
JP2021108094A (ja) | 対話モデルを生成するための方法及び装置 | |
US11776269B2 (en) | Action classification in video clips using attention-based neural networks | |
KR102412134B1 (ko) | 음원 마스터링을 위한 전자 장치의 동작 방법 및 이를 지원하는 전자 장치 | |
CN113573161A (zh) | 多媒体数据处理方法、装置、设备及存储介质 | |
CN112182281B (zh) | 一种音频推荐方法、装置及存储介质 | |
CN117216185A (zh) | 分发内容的评论生成方法、装置、设备及存储介质 | |
KR102492774B1 (ko) | 인공지능 기반 음원 컨텐츠 라이센싱 플랫폼 서비스 제공 방법 | |
CN113284501B (zh) | 歌手识别方法、装置、设备及存储介质 | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 | |
Kathiravan et al. | Efficient Intensity Bedded Sonata Wiles System using IoT | |
Sergio et al. | Scene2Wav: a deep convolutional sequence-to-conditional SampleRNN for emotional scene musicalization | |
CN113573136A (zh) | 视频处理方法、装置、计算机设备和存储介质 | |
CN114582360A (zh) | 音频敏感内容的识别方法、设备和计算机程序产品 | |
Park et al. | Music-aided affective interaction between human and service robot | |
Pardo et al. | Towards speeding audio EQ interface building with transfer learning | |
Keluskar et al. | Mehfil: song recommendation system using sentiment detected | |
KR102623467B1 (ko) | 사용자 보컬 평가 정보에 기반한 기획사 추천 서비스 제공 방법, 장치 및 시스템 | |
Kostek | Data, Information, Knowledge, Wisdom Pyramid Concept Revisited in the Context of Deep Learning | |
KR102135098B1 (ko) | 세종실록을 이용한 정책 자문 서비스 시스템 | |
US20240020337A1 (en) | Multimodal intent discovery system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40089291 Country of ref document: HK |