CN116980648A

CN116980648A - 一种数据处理方法、装置及设备

Info

Publication number: CN116980648A
Application number: CN202310465734.6A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-10-31

Abstract

本申请公开了一种数据处理方法、装置及设备，方法包括：在获取到针对样本多媒体的样本对象数据时，对样本对象数据进行数据整合，得到样本对象融合数据；对样本多媒体进行媒体编码，得到样本编码特征序列；对输入至引导数据控制开关中的样本对象融合数据进行输入控制，在输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，基于引导数据控制开关所配置的样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，通过融合得到的样本融合特征序列预测得到第一预测精彩度标签，通过第一预测精彩度标签和样本精彩度标签对初始精彩度预测模型进行迭代训练。采用本申请，可提升多媒体精彩程度和精彩片段预测的效率和精准度。

Description

一种数据处理方法、装置及设备

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、装置及设备。

背景技术

随着互联网技术的快速发展，视频、音频等多媒体已成为人们在日常生活中获取信息与享受娱乐的主要载体。在一些业务场景下，用户可以获取相关多媒体的精彩程度和精彩片段，从而参与到音视频制作中。

在现有技术中，可以由标注人员根据自身的主观感受来对多媒体中的精彩片段进行标注，但这种人工标注的方法效率很低。此外，还可以直接将多媒体实际的对象数据曲线(比如观看视频时的弹幕量曲线)作为精彩度曲线来使用，比如可以认为弹幕量曲线的最高峰则对应于整个视频中最为精彩的地方，这种方式虽然能够起到一定效果，但实际应用中对象数据曲线可能与实际的精彩程度并不特别吻合，会存在部分情况的差异，例如视频中存在很多打卡弹幕的位置(比如该视频的开头出片名的时候)可能并不是较为精彩的段落，以至于降低了精彩片段预测的精准度，且对于缺少对象数据的多媒体(比如即将上映或者新上映的影视剧)，无法直接引用相关的对象数据曲线来表示该多媒体的精彩程度。

发明内容

本申请实施例提供了一种数据处理方法、装置及设备，可以提升多媒体精彩程度和精彩片段预测的效率和精准度，且提升精彩度预测模型的通用性。

本申请实施例一方面提供了一种数据处理方法，包括：

获取用于训练初始精彩度预测模型的样本多媒体和样本多媒体的样本精彩度标签；初始精彩度预测模型包含引导数据控制开关；

在获取到针对样本多媒体的样本对象数据时，对样本对象数据进行数据整合，得到用于表征样本对象数据的样本对象融合数据；

对样本多媒体进行媒体编码，得到用于表征样本多媒体的样本编码特征序列；

对输入至引导数据控制开关中的样本对象融合数据进行输入控制，得到输入控制结果；

在输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，通过引导数据控制开关配置样本引导序列的样本引导影响度，基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列，且通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签，通过第一预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练，得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型。

本申请实施例一方面提供了一种数据处理方法，包括：

在获取到目标多媒体时，获取用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型；目标精彩度预测模型包含引导数据控制开关；

对目标多媒体进行媒体编码，得到用于表征目标多媒体的目标编码特征序列；

在获取到针对目标多媒体的目标对象数据时，对目标对象数据进行数据整合，得到用于表征目标对象数据的目标对象融合数据；

在将目标对象融合数据输入引导数据控制开关时，将目标对象融合数据作为目标精彩度预测模型的目标引导序列，通过引导数据控制开关配置目标引导序列的目标引导影响度，基于目标引导影响度对目标引导序列和目标编码特征序列进行序列融合，得到目标融合特征序列；

通过目标融合特征序列预测得到目标多媒体的第一目标精彩度标签，且基于第一目标精彩度标签确定目标多媒体的第一精彩程度，根据第一精彩程度获取目标多媒体的第一精彩片段。

本申请实施例一方面提供了一种数据处理装置，包括：

数据获取模块，用于获取用于训练初始精彩度预测模型的样本多媒体和样本多媒体的样本精彩度标签；初始精彩度预测模型包含引导数据控制开关；

数据整合模块，用于在获取到针对样本多媒体的样本对象数据时，对样本对象数据进行数据整合，得到用于表征样本对象数据的样本对象融合数据；

媒体编码模块，用于对样本多媒体进行媒体编码，得到用于表征样本多媒体的样本编码特征序列；

输入控制模块，用于对输入至引导数据控制开关中的样本对象融合数据进行输入控制，得到输入控制结果；

第一预测模块，用于在输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，通过引导数据控制开关配置样本引导序列的样本引导影响度，基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列，且通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签，通过第一预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练，得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型。

其中，初始精彩度预测模型包含初始对象数据整合组件；样本对象数据包含针对样本多媒体的样本互动数据、样本播放数据、样本进度调控数据；

数据整合模块包括：

数据规整单元，用于将样本互动数据、样本播放数据以及样本进度调控数据输入初始对象数据整合组件，通过初始对象数据整合组件对样本互动数据进行数据规整，得到用于表征样本互动数据的样本互动规整数据，且对样本播放数据进行数据规整，得到用于表征样本播放数据的样本播放规整数据；

加权融合单元，用于由初始对象数据整合组件通过样本进度调控数据，对样本互动规整数据和样本播放规整数据进行加权融合，得到用于表征样本对象数据的样本对象融合数据。

其中，数据规整单元包括：

第一规整子单元，用于通过初始对象数据整合组件对样本互动数据进行粒度规整，得到具有目标时间粒度的样本互动过渡数据，对样本互动过渡数据进行标准化处理，得到用于表征样本互动数据的样本互动规整数据；

第二规整子单元，用于通过初始对象数据整合组件对样本播放数据进行粒度规整，得到具有目标时间粒度的样本播放过渡数据，对样本播放过渡数据进行标准化处理，得到用于表征样本播放数据的样本播放规整数据。

其中，加权融合单元包括：

数据融合子单元，用于由初始对象数据整合组件对样本互动规整数据和样本播放规整数据进行数据融合，得到样本初始融合数据；

加权处理子单元，用于获取用于表征样本进度调控数据的样本进度权重数据，通过样本进度权重数据对样本初始融合数据进行加权处理，得到用于表征样本对象数据的样本对象融合数据。

其中，初始精彩度预测模型包含初始媒体信息编码组件；初始媒体信息编码组件包含初始多媒体编码器；

媒体编码模块包括：

抽帧处理单元，用于将样本多媒体输入初始媒体信息编码组件，由初始媒体信息编码组件对样本多媒体进行抽帧处理，得到样本媒体帧序列；

媒体编码单元，用于将样本媒体帧序列输入初始媒体信息编码组件中的初始多媒体编码器，通过初始多媒体编码器对样本媒体帧序列进行媒体编码，得到用于表征样本多媒体的样本编码特征序列。

其中，在样本多媒体包含样本视频数据时，样本媒体帧序列包含对样本视频数据进行抽帧处理所得到的样本视频帧序列；初始多媒体编码器包含用于对样本视频帧序列进行视频编码的初始视频编码器；

媒体编码单元包括：

视频编码子单元，用于通过初始视频编码器对样本视频帧序列进行视频编码，得到用于表征视频语义信息的样本视频编码特征序列；基于样本视频编码特征序列确定用于表征样本多媒体的样本编码特征序列。

其中，在样本多媒体包含样本音频数据时，样本媒体帧序列包含对样本音频数据进行抽帧处理所得到的样本音频帧序列；初始多媒体编码器包含用于对样本音频帧序列进行音频编码的初始音频编码器；

媒体编码单元包括：

音频编码子单元，用于通过初始音频编码器对样本音频帧序列进行音频编码，得到用于表征音频语义信息的样本音频编码特征序列；基于样本音频编码特征序列确定用于表征样本多媒体的样本编码特征序列。

其中，样本视频帧序列包含样本视频数据中的第i个视频帧；i为正整数；初始视频编码器包含图像划分层和M个视频编码层；M为大于1的正整数；

视频编码子单元具体用于将第i个视频帧输入至图像划分层，通过图像划分层对第i个视频帧进行图像划分，得到第i个视频帧的图像块；第i个视频帧的图像块用于确定M个视频编码层中的第一个视频编码层的视频语义编码特征；在获取到M个视频编码层中的第p个视频编码层的视频语义编码特征时，通过M个视频编码层中的第q个视频编码层对第p个视频编码层的视频语义编码特征进行降采样处理，且对降采样后的视频语义编码特征进行特征提取，得到第q个视频编码层的视频语义编码特征；降采样后的视频语义编码特征的分辨率小于第p个视频编码层的视频语义编码特征的分辨率；第p个视频编码层为第q个视频编码层的上一视频编码层；p和q均为小于或等于M的正整数，且q＝p+1；在检查到第q个视频编码层的视频语义编码特征为M个视频编码层中的第M个视频编码层的视频语义编码特征时，将第M个视频编码层的视频语义编码特征作为第i个视频帧的视频语义编码特征，基于第i个视频帧的视频语义编码特征确定用于表征视频语义信息的样本视频编码特征序列。

其中，上述装置还包括：

视频编码模块，用于将第i个视频帧的图像块输入至M个视频编码层中的第一个视频编码层，通过第一个视频编码层中的线性嵌入层对第i个视频帧的图像块进行线性变换，得到图像嵌入特征；通过第一个视频编码层中的编码块对图像嵌入特征进行特征提取，得到第一个视频编码层的视频语义编码特征。

其中，第q个视频编码层包含图像降采样层、N个第一类编码块和N个第二类编码块；N为正整数；一个第一类编码块与一个第二类编码块相连接；

视频编码子单元具体用于将第p个视频编码层的视频语义编码特征输入至图像降采样层，通过图像降采样层对第p个视频编码层的视频语义编码特征进行降采样处理，得到降采样后的视频语义编码特征；降采样后的视频语义编码特征用于确定N个第一类编码块中的第一个第一类编码块的中间编码特征；在获取到N个第一类编码块中的第j个第一类编码块的中间编码特征时，通过N个第二类编码块中的第j个第二类编码块，对第j个第一类编码块的中间编码特征进行特征提取，得到第j个第二类编码块的中间编码特征；j为小于或等于N的正整数；在检查到第j个第二类编码块的中间编码特征为N个第二类编码块中的第N个第二类编码块的中间编码特征时，将第N个第二类编码块的中间编码特征作为第q个视频编码层的视频语义编码特征。

其中，引导数据控制开关包含引导控制开关；

输入控制模块包括：

开关开启单元，用于将样本对象融合数据输入至引导数据控制开关中的引导控制开关；在引导控制开关开启时，将样本对象融合数据作为初始精彩度预测模型的样本引导序列；

开关关闭单元，用于在引导控制开关关闭时，不将样本对象融合数据作为初始精彩度预测模型的样本引导序列；将样本对象融合数据为初始精彩度预测模型的样本引导序列时的结果或不将样本对象融合数据作为初始精彩度预测模型的样本引导序列时的结果，作为输入控制结果。

其中，引导数据控制开关集成在初始精彩度预测模型所包含的初始引导数据控制组件中；引导数据控制开关包含独立于引导控制开关的节点控制开关；

第一预测模块包括：

影响度配置单元，用于在输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，将样本引导序列和样本编码特征序列输入初始引导数据控制组件，由初始引导数据控制组件中的节点控制开关配置样本引导序列的样本引导影响度；

序列融合单元，用于基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列；

标签预测单元，用于通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签。

其中，影响度配置单元具体用于在获取到节点控制开关配置的节点开关参数时，基于节点开关参数确定影响度范围；由节点控制开关在影响度范围内获取样本引导序列的样本引导影响度。

其中，序列融合单元具体用于获取样本编码特征序列的时间长度，由初始引导数据控制组件基于样本编码特征序列的时间长度对样本引导序列进行长度规整，得到样本引导特征序列；样本引导特征序列的单位时间粒度与样本编码特征序列的单位时间粒度保持一致；将样本引导特征序列与样本引导影响度的乘积，与样本编码特征序列进行相乘，得到样本融合特征序列。

其中，初始引导数据控制组件包含初始分类器；

标签预测单元具体用于将样本融合特征序列输入初始引导数据控制组件中的初始分类器，通过初始分类器对样本融合特征序列进行上下文信息提取，得到第一长短时上下文信息；基于第一长短时上下文信息对样本融合特征序列进行分类预测，得到样本多媒体的第一预测精彩度标签。

其中，装置还包括：

第二预测模块，用于在输入控制结果指示不将样本对象融合数据作为初始精彩度预测模型的样本引导序列时，通过样本编码特征序列预测得到样本多媒体的第二预测精彩度标签，且通过第二预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练。

其中，引导数据控制开关集成在初始精彩度预测模型所包含的初始引导数据控制组件中；初始引导数据控制组件包含初始分类器；

第二预测模块具体用于在输入控制结果指示不将样本对象融合数据作为初始精彩度预测模型的样本引导序列时，将样本编码特征序列输入初始引导数据控制组件中的初始分类器，通过初始分类器对样本编码特征序列进行上下文信息提取，得到第二长短时上下文信息；基于第二长短时上下文信息对样本编码特征序列进行分类预测，得到样本多媒体的第二预测精彩度标签。

本申请实施例一方面提供了一种数据处理装置，包括：

模型获取模块，用于在获取到目标多媒体时，获取用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型；目标精彩度预测模型包含引导数据控制开关；

数据编码模块，用于对目标多媒体进行媒体编码，得到用于表征目标多媒体的目标编码特征序列；

数据融合模块，用于在获取到针对目标多媒体的目标对象数据时，对目标对象数据进行数据整合，得到用于表征目标对象数据的目标对象融合数据；

序列融合模块，用于在将目标对象融合数据输入引导数据控制开关时，将目标对象融合数据作为目标精彩度预测模型的目标引导序列，通过引导数据控制开关配置目标引导序列的目标引导影响度，基于目标引导影响度对目标引导序列和目标编码特征序列进行序列融合，得到目标融合特征序列；

融合预测模块，用于通过目标融合特征序列预测得到目标多媒体的第一目标精彩度标签，且基于第一目标精彩度标签确定目标多媒体的第一精彩程度，根据第一精彩程度获取目标多媒体的第一精彩片段。

其中，装置还包括：

精彩预测模块，用于在未获取到针对目标多媒体的目标对象数据时，通过目标编码特征序列预测得到目标多媒体的第二目标精彩度标签，基于第二目标精彩度标签确定目标多媒体的第二精彩程度，根据第二精彩程度获取目标多媒体的第二精彩片段。

其中，目标精彩度预测模型包含引导数据控制开关所在的目标引导数据控制组件；目标引导数据控制组件包含目标分类器；

融合预测模块具体用于将目标融合特征序列输入目标引导数据控制组件中的目标分类器，通过目标分类器对目标融合特征序列进行分类预测，得到目标多媒体的第一目标精彩度标签，基于第一目标精彩度标签确定目标多媒体的第一精彩程度；根据第一精彩程度确定目标多媒体的第一精彩时间区间，根据第一精彩时间区间从目标多媒体中获取第一精彩片段。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

在本申请实施例中，计算机设备可以获取用于训练初始精彩度预测模型的样本多媒体和该样本多媒体的样本精彩度标签；该初始精彩度预测模型包含引导数据控制开关；进一步，在获取到针对样本多媒体的样本对象数据时，可以对样本对象数据进行数据整合，得到用于表征样本对象数据的样本对象融合数据；同时，可以对样本多媒体进行媒体编码，得到用于表征样本多媒体的样本编码特征序列；进而可以对输入至引导数据控制开关中的样本对象融合数据进行输入控制，得到输入控制结果；可以理解，在该输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，可以通过引导数据控制开关配置样本引导序列的样本引导影响度，进而可以基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列，且可以通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签，通过第一预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练，从而得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型。由此可见，本申请实施例提出了一种基于样本对象数据引导训练的多媒体精彩程度和精彩片段预测方法，可使用样本多媒体的样本对象数据作为初始精彩度预测模型的样本引导序列，以便能够让初始精彩度预测模型学习到真实的用户在消费多媒体时的对象数据，引导整个模型在实际的精彩度预测时更贴合用户实际感受，且通过融合多种样本对象数据可以使预测出来的精彩程度和精彩片段更真实准确；此外，通过训练好的精彩度预测模型(即目标精彩度预测模型)可实现高效且自动化地预测出多媒体的精彩程度和精彩片段，摆脱了人工标注的低效率弊端，从而可以提升多媒体精彩程度和精彩片段预测的效率和精准度。另外，本申请实施例通过引导数据控制开关来进行对样本对象数据引导训练机制的控制，类似于半监督训练的方式，能够在模型训练过程中，间断地让模型感受到样本对象数据的信息，从而可以提升训练得到的精彩度预测模型的通用性，以使精彩度预测模型在缺少相关对象数据的情况下，仍然能预测出真实准确且贴合用户实际感受的精彩程度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构示意图；

图2是本申请实施例提供的一种数据处理场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图一；

图4是本申请实施例提供的一种数据量单位粒度转换示意图；

图5是本申请实施例提供的一种视频编码器的网络结构示意图；

图6是本申请实施例提供的一种图像划分的场景示意图；

图7是本申请实施例提供的一种编码块的结构示意图；

图8是本申请实施例提供的一种开关控制的引导数据控制组件的示意图；

图9是本申请实施例提供的一种数据处理方法的流程示意图二；

图10是本申请实施例提供的一种数据处理装置的结构示意图；

图11是本申请实施例提供的一种数据处理装置的结构示意图；

图12是本申请实施例提供的一种数据处理装置的结构示意图；

图13是本申请实施例提供的一种数据处理装置的结构示意图；

图14是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括数据处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。在本申请实施例中，计算机视觉技术可以用于对样本视频帧序列进行视频编码。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，精彩度预测模型是基于机器学习技术的AI模型，可用于对多媒体进行精彩度预测。

请参见图1，是本申请实施例提供的一种系统架构示意图。如图1所示，该系统架构可以包括业务服务器100以及终端集群，终端集群可以包括：终端设备200a、终端设备200b、终端设备200c、…、终端设备200n，其中，终端集群之间可以存在通信连接，例如终端设备200a与终端设备200b之间存在通信连接，终端设备200a与终端设备200c之间存在通信连接。同时，终端集群中的任一终端设备可以与业务服务器100存在通信连接，例如终端设备200a与业务服务器100之间存在通信连接，其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。

应该理解，如图1所示的终端集群中的每个终端设备均可以安装有应用客户端，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的业务服务器100之间进行数据交互。其中，该应用客户端可以为短视频应用、视频应用、音乐应用、直播应用、社交应用、游戏应用、购物应用、小说应用、支付应用、浏览器等具有显示文字、图像、音频以及视频等数据信息功能的应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如社交客户端、视频客户端等)中的嵌入式子客户端，在此不做限定。以短视频应用为例，业务服务器100可以为包括短视频应用对应的后台服务器、数据处理服务器等多个服务器的集合，因此，每个终端设备均可以通过该短视频应用对应的应用客户端与业务服务器100进行数据传输，如每个终端设备均可以通过短视频应用的应用客户端将其生产的短视频上传至业务服务器100，进而业务服务器100可以将这些短视频下发给其它终端设备，此外，在制作短视频的过程中，业务服务器100可以通过训练好的精彩度预测模型，为用户提供从长视频中获取的精彩片段集，这样用户只需要从精彩片段集中筛选素材进行视频制作即可，而无需提前观看长视频并手动定位选择其中的精彩片段，从而可提升短视频用户的体验感。

为便于后续理解和说明，本申请实施例可以将处于训练阶段的精彩度预测模型称为初始精彩度预测模型，可以将训练好的精彩度预测模型称为目标精彩度预测模型。为了能够获取到高性能的目标精彩度预测模型，本申请实施例提供了一种基于样本对象数据引导训练的多媒体精彩程度和精彩片段预测方法，其中，可以将用于训练初始精彩度预测模型的多媒体数据称为样本多媒体(可包含样本视频数据和样本音频数据中的一种或多种)，将预先对样本多媒体进行真实标注所得到的精彩度标签(即精彩label)称为样本精彩度标签，类似的，可以将样本对象针对样本多媒体的行为数据统称为样本对象数据，样本对象数据对应的用户可称为样本对象。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于终端设备或业务服务器。其中，业务服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备(例如智能手表、智能手环等)、智能电脑、智能车载等可以运行上述应用的智能终端。其中，终端设备和业务服务器可以通过有线或无线方式进行直接或间接地连接，本申请实施例在此不做限制。

以计算机设备为业务服务器100为例，业务服务器100可以获取用于训练初始精彩度预测模型的样本多媒体和该样本多媒体的样本精彩度标签；该初始精彩度预测模型包含引导数据控制开关；进一步，在获取到针对样本多媒体的样本对象数据时，业务服务器100可以对样本对象数据进行数据整合，得到用于表征样本对象数据的样本对象融合数据；同时，可以对样本多媒体进行媒体编码，得到用于表征样本多媒体的样本编码特征序列；进而可以对输入至引导数据控制开关中的样本对象融合数据进行输入控制，得到输入控制结果；可以理解，在该输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，业务服务器100可以通过引导数据控制开关配置样本引导序列的样本引导影响度，进而可以基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列，且可以通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签，通过第一预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练。可以理解，在训练结束后，即可得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型，这里的目标多媒体可以指任意需要进行精彩度预测的多媒体，也就是说，在通过目标精彩度预测模型预测出目标多媒体的精彩度标签后，可以基于得到的目标多媒体的精彩度标签确定目标多媒体的精彩程度，进而还可以根据目标多媒体的精彩程度确定目标多媒体的精彩片段，从而可以实现对目标多媒体的精彩度预测。

可选的，可以理解的是，也可以由终端设备(比如终端设备200n)训练初始精彩度预测模型，还可以由业务服务和终端设备共同训练初始精彩度预测模型，本申请实施例对此不做限定。

上述可知，本申请实施例可使用样本多媒体的样本对象数据作为初始精彩度预测模型的样本引导序列，以便能够让初始精彩度预测模型学习到真实的用户在消费多媒体时的对象数据，引导整个模型在实际的精彩度预测时更贴合用户实际感受，从而使定位出来的精彩片段能够更吸引用户的观看兴趣，且通过融合多种样本对象数据可以使预测出来的精彩程度和精彩片段更真实准确；此外，通过训练好的精彩度预测模型(即目标精彩度预测模型)可实现高效且自动化地预测出多媒体的精彩程度和精彩片段，摆脱了人工标注的低效率弊端，从而可以提升多媒体精彩程度和精彩片段预测的效率和精准度。同时，由于目标精彩度预测模型采用的是基于深度学习神经网络结合实际的标注数据进行训练得到的，所以经过目标精彩度预测模型预测出来的目标多媒体的精彩度以及预测出来的精彩段落时间点都是具有标准化的，不会出现人工主观感受上的差异。另外，本申请实施例通过引导数据控制开关来进行对样本对象数据引导训练机制的控制，类似于半监督(Semi-SupervisedLearning，半监督学习，简称SSL，是监督学习与无监督学习相结合的一种学习方法)训练的方式，能够在模型训练过程中，间断地让模型感受到样本对象数据的信息，从而可以提升训练得到的精彩度预测模型的通用性，以使精彩度预测模型在缺少相关对象数据的情况下，仍然能预测出真实准确且贴合用户实际感受的精彩程度。

需要说明的是，本申请实施例提供的方法可以应用于音频/视频制作场景、音频/视频推荐场景、音频/视频分发场景、音频/视频搜索场景等各类存在精彩度预测需求的业务场景中，这里将不对具体的业务场景进行一一列举。本申请实施例训练得到的目标精彩度预测模型主要用于对目标多媒体(可包括目标视频数据和目标音频数据中的一种或多种，比如影视剧长视频、歌曲音频等)的精彩程度以及精彩片段(也可称为精彩段落)进行预测，能够对带有目标对象数据(即目标对象的行为数据)和未含有目标对象数据的两种多媒体分别进行准确的精彩程度计算，并可根据计算出的精彩程度来进一步的落地应用。

例如，长视频在线播放平台中，在每个影视剧集的播放进度条中，可以放置整个视频的热度曲线，这个热度曲线在一些实施例中可以直接根据实时弹幕的数量进行划定，但针对于刚刚上架更新的视频，没有任何弹幕数据，所以在平台中该热度曲线是一个归零的直线。所以相关的目标精彩度预测模型(比如影视剧长视频精彩预测系统)可以在没有弹幕数据的情况下，计算生成整个剧集的精彩程度(可以曲线形式表示，因此也可称为精彩度曲线)，并且能够让精彩程度和精彩片段的预测更符合之后实际的弹幕等对象数据曲线的走势。

又例如，在短视频平台上，很多制作短视频的用户(也可称为up主)会直接对影视剧长视频进行精彩集锦短视频剪辑，在没有任何先验数据的情况下，用户如果对整个剧集进行剪辑，则需要提前将整部剧集进行观看，并手动地定位选择整部剧集中的精彩片段，从而完成素材收集以及视频生产。但是这种方式效率很低，耗时较长，而本申请提供的目标精彩度预测模型能够直接将整部剧集的精彩片段进行定位，直接为用户提供精彩片段集，后续用户在进行剪辑时，只需要在精彩片段集中筛选即可，极高地提升了短视频用户的体验感。

又例如，目标精彩度预测模型能够自动化地在未有对象数据的影视剧中，定位到符合目标对象行为的精彩片段以及精彩程度，视频平台以及影视剧发行方能够直接利用精彩片段和精彩程度，挑选出最为精彩的部分来制作影视剧的宣发片或者预告片，直接绑定剧集正片进行上架更新或者对影视剧做宣传使用。

除了上述举例的对视频数据的精彩度预测外，目标精彩度预测模型还可以对音频数据也进行精彩度预测，从而可以得到该音频数据的精彩片段(比如歌曲的高潮部分)和精彩程度，具体预测过程可参见针对视频数据的预测过程。此外，对于同时包含有视频数据和音频数据的多媒体，可以融合两种数据的编码特征来预测该多媒体的精彩程度和精彩片段，从而提升精彩度预测的准确性。

上述可知，本申请实施例创新性的创建了一种基于样本对象数据引导训练的多媒体精彩段落预测方法，能够自动化地针对于输入到系统(即目标精彩度预测模型)中的目标多媒体(比如影视剧长视频、歌曲、有声小说等)进行精彩度的分析，然后根据计算出来的精彩程度，自动化地定位出整个目标多媒体中的精彩片段所处的时间位置，从而能够为长视频平台制作精彩预告以及短视频平台创作者提供准确真实且贴合实际用户选择的视频精彩段落信息，还可以为音频平台用户提供准确真实且贴合实际用户选择的音频精彩段落信息(比如可用于制作铃声、视频配乐等)。

需要说明的是，本申请中用户相关数据(包括样本对象数据、目标对象数据等表示用户的行为数据的对象数据)收集处理在实例应用时应该严格根据相关国家法律法规的要求，获取个人信息主体的知情同意或单独同意，并在法律法规及个人信息主体的授权范围内，开展后续数据使用及处理行为。

为便于理解，请一并参见图2，图2是本申请实施例提供的一种数据处理场景示意图。其中，该数据处理场景的实现过程可以在业务服务器中进行，也可以在终端设备中进行，还可以在终端设备和业务服务器中交互进行，此处不做限制。

如图2所示，可以将从视频平台上获取到的大量视频数据201(比如影视剧长视频)作为样本视频数据，进而可以通过该样本视频数据进行模型训练，本申请实施例主要以样本多媒体包含样本视频数据为例进行说明，当样本多媒体包含样本音频数据时，通过样本音频数据进行模型训练的过程与此类似。在本申请实施例中，初始精彩度预测模型具体可以包含三个组件，分别为：初始对象数据整合组件(例如图2所示的组件20A)、初始媒体信息编码组件(例如图2所示的组件20B)、初始引导数据控制组件(例如图2所示的组件20C)。其中，初始对象数据整合组件可用于对获取到的样本多媒体的样本对象数据进行数据整合，初始媒体信息编码组件用于对样本多媒体进行媒体编码，初始引导数据控制组件用于通过开关机制来控制是否将初始对象数据整合组件输出的样本对象融合数据作为初始精彩度预测模型的样本引导序列，如果同意，则可以对初始对象数据整合组件输出的样本对象融合数据和初始媒体信息编码组件输出的样本编码特征序列进行序列融合，其中，序列融合之前需要将两个序列在时序上进行标准化，让两个序列的微元所代表的时间相同(即让两个序列中的每个单元阶数对齐)，进而融合得到新的特征序列(或称为特征曲线，即样本融合特征序列)，并通过该特征序列预测得到相应的预测精彩度标签，最后可与真实标注的样本精彩度标签一起用于模型参数的训练。

以图2所示的视频数据201为例，可以从视频平台库中获取视频数据201的样本对象数据，例如该样本对象数据可以包括从弹幕数据库中获取到的实时弹幕数据202a、从实时播放数据库中获取到的实时播放数据202b以及从进度条数据库中获取到的进度条数据202c，作为初始对象数据整合组件的组件20A可以对这三种样本对象数据进行数据整合，例如可以根据各样本对象数据配置的规整逻辑进行数据规整，然后将几种数据进行融合，从而归纳出一条完善标准化的时序对象数据权重曲线(即样本对象融合数据，比如样本对象融合数据203)，该样本对象融合数据203可输入到组件20C中来作为初始精彩度预测模型训练时的引导数据(即样本引导序列)。可以理解，除了图2所示的几种样本对象数据外，还可以获取其他的样本对象数据进行数据整合。

此外，可以将视频数据201输入作为初始媒体信息编码组件的组件20B，可以由组件20B对视频数据201进行抽帧处理，得到视频帧序列204，进而可以通过组件20B中的视频编码器205对视频帧序列204进行视频编码(即针对输入的视频帧序列204所包含的多个视频帧进行语义融合)，得到用于表征视频语义信息的样本视频编码特征序列(如视频编码特征序列206，也可称为样本视频帧语义编码序列)，该序列可作为组件20C的输入特征序列。其中，视频编码器205可以采用指定的编码网络进行构建(例如swin-transformer网络，该网络基于CNN(Convolutional Neural Network，卷积神经网络)和transformer搭建得到)，此处不做限定。

进一步，可以将样本对象融合数据203和视频编码特征序列206都输入到作为初始引导数据控制组件的组件20C中，初始引导数据控制组件中包含引导数据控制开关，该引导数据控制开关可用于实现开关机制，具体来说，组件20C可以通过引导数据控制开关对样本对象融合数据203进行输入控制，得到输入控制结果，在该输入控制结果指示样本对象融合数据203为初始精彩度预测模型的样本引导序列时，表示此时需要用样本对象融合数据203来引导初始精彩度预测模型的训练，这也是本申请的一个创新性机制，通过引导数据控制开关配置样本引导序列的样本引导影响度，并基于该样本引导影响度对样本引导序列(即样本对象融合数据203)和样本编码特征序列206进行序列融合，得到样本融合特征序列，相当于通过融合预加重的方式来对样本编码特征序列206的节点内容进行调整。进而可以通过样本融合特征序列预测得到视频数据201的预测精彩度标签，并与对视频数据201真实标注所得的样本精彩度标签计算损失函数，然后回传梯度进行模型参数的训练。

上述可知，本方案中提出了一种基于样本对象数据引导训练的影视剧长视频精彩段落预测方法，该方法创新性的使用了长视频平台的样本对象数据来作为影视剧长视频精彩预测系统(即初始精彩度预测模型)的引导训练数据(即样本引导序列)，且该方法创新性的使用半监督引导训练的方法，利用整体系统设计的引导数据控制开关，能够同时使用带有样本对象数据的剧集(即样本视频数据)以及未含有样本对象数据的剧集来对整个系统进行训练。通过使用样本对象数据的半监督引导训练方法，从而让系统的精彩预测的段落能够更倾向于用户的行为，让系统的整体输出更贴合实际的用户真实选择。同时创新性的利用引导数据控制开关，也能够让模型从带有样本对象数据的剧集学习到的特性参数来引导影响未含有样本对象数据的视频精彩段落训练，从而让最终的系统(即目标彩度预测模型)更通用化。

进一步，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图一。该数据处理方法可以由计算机设备执行，计算机设备可以为业务服务器(例如，上述图1所示的业务服务器100)，也可以为终端设备(例如，上述图1所示的终端设备200a)。为便于理解，本申请实施例以该方法由业务服务器执行为例进行说明。如图3所示，该数据处理方法至少可以包括以下步骤S101-步骤S105：

步骤S101，获取用于训练初始精彩度预测模型的样本多媒体和样本多媒体的样本精彩度标签；

可以理解的是，业务服务器可以获取用于训练初始精彩度预测模型的样本多媒体，同时获取该样本多媒体的样本精彩度标签(label)，其中，本申请实施例对样本多媒体的来源和内容不做限定，例如，可以从具有海量多媒体数据的多媒体平台(比如视频平台或音频平台)上获取样本多媒体，该样本多媒体可包含样本视频数据和样本音频数据中的一种或多种，并预先对该样本多媒体进行标注，例如，可以对样本多媒体进行精彩二分类，类别分别为正样本和负样本，正样本表示对应的样本精彩度标签是精彩的(也可称为精彩标签)，负样本则表示对应的样本精彩度标签是不精彩的(也可称为非精彩标签)。后续可以利用样本多媒体及其样本精彩度标签训练初始精彩度预测模型。

其中，初始精彩度预测模型可以为基于机器学习技术的AI模型，以便实现自动化的精彩度预测。在本申请实施例中，初始精彩度预测模型具体可以包含初始对象数据整合组件、初始媒体信息编码组件、以及初始引导数据控制组件，其中，初始精彩度预测模型中的初始引导数据控制组件包含引导数据控制开关，初始精彩度预测模型中每个组件的具体作用可以参见后续步骤。

步骤S102，在获取到针对样本多媒体的样本对象数据时，对样本对象数据进行数据整合，得到用于表征样本对象数据的样本对象融合数据；

可以理解的是，针对样本多媒体的样本对象数据可以包含样本对象(比如某个视频平台的用户)在消费样本多媒体(比如该视频平台的影视剧)时的各种操作所产生的相关数据，包括但不限于针对样本多媒体的样本互动数据、样本播放数据、样本进度调控数据等数据。其中，样本互动数据是指样本对象针对样本多媒体发送的实时评论数据(比如弹幕)以及针对该实时评论数据的评论操作数据(比如点赞、举报或屏蔽实时评论数据的操作)。其中，弹幕指的是在网络上观看视频或收听音频时弹出的评论性字幕，弹幕可以给观众一种“实时互动”的错觉，虽然不同弹幕的发送时间有所区别，但是其只会在视频或音频中特定的一个时间点出现，因此在相同时刻发送的弹幕基本上也具有相同的主题，在参与评论时就会有与其他观众同时评论的错觉。可以理解，样本对象在消费样本多媒体的过程中，当其内容精彩时，样本对象很可能会自愿编辑相关评价并发送到样本多媒体中，并且相关平台(如前述视频平台)会进行展示，不同样本对象使用弹幕等实时评论数据进行交流，因此，在内容较为精彩的地方往往会存在大量样本对象发送弹幕或对已有弹幕进行点赞、屏蔽等相关操作的情况，且弹幕具有实时性，因而与精彩片段的时间有强相关性。其中，样本播放数据是指针对样本多媒体所实时统计到的所有时间点存在的播放用户数(即每个时间点所统计到的消费样本多媒体的样本对象的数量)，该样本播放数据可以表达样本对象针对整个样本多媒体内容的喜爱程度。其中，样本进度调控数据是指样本对象对样本多媒体进行进度调控操作(比如快进、拖动进度条等操作)以直接跳转到自己感兴趣的位置时所记录的相关数据，这类数据也可以用于表示样本对象较为喜欢的精彩段落。

基于此，在获取到针对样本多媒体的多种样本对象数据(比如样本互动数据、样本播放数据和样本进度调控数据)时，业务服务器可以通过初始精彩度预测模型中的初始对象数据整合组件，按照设置的整合逻辑对这几种样本对象数据进行数据整合，从而得到用于表征样本对象数据的样本对象融合数据，这里的样本对象融合数据可以采用曲线形式(即一维数组)进行表示(也可称为时序对象数据权重曲线、对象数据引导曲线等)。

具体来说，业务服务器可以将样本互动数据、样本播放数据以及样本进度调控数据输入初始对象数据整合组件，通过初始对象数据整合组件对样本互动数据进行数据规整，得到用于表征样本互动数据的样本互动规整数据，且可以通过初始对象数据整合组件对样本播放数据进行数据规整，得到用于表征样本播放数据的样本播放规整数据；进一步，可以由初始对象数据整合组件通过样本进度调控数据，对样本互动规整数据和样本播放规整数据进行加权融合，从而得到用于表征样本对象数据的样本对象融合数据。

其中，可以理解，在对样本互动数据和样本播放数据进行记录时，时间单位通常都是可以定位到毫秒级别的，因此原始的数据粒度相对于整个系统来说就太小了，不便于计算，可以将这两类数据转换为以秒级别的时间粒度，因此需要分别对样本互动数据和样本播放数据进行粒度规整，实现时间单位的转换。请一并参见图4，图4是本申请实施例提供的一种数据量单位粒度转换示意图。如图4所示，在实际的计算中可以将原始数据在整个秒级窗内的所有数据进行相加，从而得到当前秒级微元的数据，计算公式如下：

其中，公式(1)中P代表着T秒时的总数据量，然后S代表着t毫秒时的数据量，将(T-1)*1000至T*1000内的所有数据量进行相加，就能够得到T秒时的总数据量。经过计算后就能够得到一条秒级为单位的数据曲线。

进一步，经过上述粒度规整后，可以得到秒级别的数据曲线，因为在实际存储的数据中，不同样本多媒体之间的热度不同，所以每个样本多媒体中所带有的用户数据量是不同的，但是都需要输入到初始精彩度预测模型中统一对样本多媒体的样本编码特征序列进行引导学习，所以需要对所有的数据曲线进行标准化，也就是将所有的数值规整到[0,1]之内。设整条数据曲线为B＝(b₀,b₁,b₂,…,b_n)，然后进行标准化，对应公式如下：

b_i＝b_i/MAX(B) (2)

基于此，对样本互动数据和样本播放数据进行数据规整的具体过程可以为：通过初始对象数据整合组件对样本互动数据进行粒度规整(具体实现过程可参见上述公式(1))，得到具有目标时间粒度(即秒级别粒度)的样本互动过渡数据，此时该样本互动过渡数据可表示为一条秒级别的数据曲线，进而可以对该样本互动过渡数据进行标准化处理(具体实现过程可参见上述公式(2))，得到用于表征样本互动数据的样本互动规整数据。类似的，通过初始对象数据整合组件对样本播放数据进行粒度规整(具体实现过程可参见上述公式(1))，得到具有目标时间粒度(即秒级别粒度)的样本播放过渡数据，此时该样本播放过渡数据可表示为一条秒级别的数据曲线，进而可以对该样本播放过渡数据进行标准化处理(具体实现过程可参见上述公式(2))，得到用于表征样本播放数据的样本播放规整数据。

进一步，经过上述数据规整后，得到的样本互动规整数据和样本播放规整数据均被规整到[0,1]区间内，通过样本进度调控数据，对样本互动规整数据和样本播放规整数据进行加权融合的具体过程可以为：由初始对象数据整合组件对样本互动规整数据和样本播放规整数据进行数据融合，得到样本初始融合数据；进一步，可以获取用于表征样本进度调控数据的样本进度权重数据，通过样本进度权重数据对样本初始融合数据进行加权处理，可以得到用于表征样本对象数据的样本对象融合数据。也就是说，可以将两条数据曲线(即样本互动规整数据和样本播放规整数据)进行融合，生成一条新的数据曲线(即样本初始融合数据)，然后使用样本进度调控数据来对新的数据曲线进行加权，最终可以输出系统引导训练所使用的一条完善的对象数据引导曲线(即样本对象融合数据)。在一些实施例中，可以设定样本对象拖动进度条以及快进到样本多媒体中的某个位置为加权重，因此可以根据样本进度调控数据确定样本进度权重数据(可以曲线形式表示)，假设将样本进度权重数据设定为Q＝(q₀,q₁,q₂,…,q_n)(第i个时间节点取值为q_i)，将样本互动规整数据设定为G＝(g₀,g₁,g₂,…,g_n)，将样本播放规整数据设定为F＝(f₀,f₁,f₂,…,f_n)，则当样本对象拖动进度条或者快进来重点观看样本多媒体中的某一片段时，样本进度权重数据在该片段中的时间节点所对应的取值均可设置为第一取值(比如取值为1)；样本进度权重数据在其余被快进或拖动进度条所忽略掉的时间节点所对应的取值均可设置为第二取值(比如取值为0.5)，例如，假设样本对象重点观看的片段中的时间节点包括第0个时间节点～第5个时间节点，则q₀～q₅的取值均可设置为1，其余时间节点(q₆～q_n，假设此时n大于或等于6)的取值均可设置为0.5。则最终输出的样本对象融合数据可设定为E＝(e₀,e₁,e₂,…,e_n)，其中，

步骤S103，对样本多媒体进行媒体编码，得到用于表征样本多媒体的样本编码特征序列；

可以理解，在本申请实施例中，可使用样本对象数据的样本对象融合数据来对整个初始精彩度预测模型的训练进行引导，同时输入到初始精彩度预测模型的除了样本对象数据外，还有整个样本多媒体的媒体帧信息流(包括视频帧流和音频帧流中的一种或多种)，所以需要对样本多媒体进行媒体编码，生成高级的样本编码特征序列，然后输入到初始引导数据控制组件中进行训练。本申请实施例中使用媒体帧信息流作为模型的最基础特征输入，媒体帧(包括视频帧和音频帧中的一种或多种)前后是有强相关性的，因此可采用swin-transformer网络来构建多媒体编码器，或者也可以采用其他网络来构建多媒体编码器，此处不做限定。

上述可知，初始精彩度预测模型包含初始媒体信息编码组件，该初始媒体信息编码组件可包含初始多媒体编码器；则业务服务器可以将样本多媒体输入初始媒体信息编码组件，由初始媒体信息编码组件对样本多媒体进行抽帧处理，得到样本媒体帧序列；进而可以将样本媒体帧序列输入初始媒体信息编码组件中的初始多媒体编码器，通过初始多媒体编码器对样本媒体帧序列进行媒体编码，从而得到用于表征样本多媒体的样本编码特征序列。

其中，可以理解，样本多媒体可包含样本视频数据和样本音频数据中的一种或多种，因此本申请实施例提供的方法既可以预测视频数据的精彩度，也可预测音频数据的精彩度，下面将阐述样本视频数据的编码过程和样本音频数据的编码过程。

可选的，在样本多媒体包含样本视频数据时，样本媒体帧序列包含对样本视频数据进行抽帧处理所得到的样本视频帧序列；初始多媒体编码器包含用于对样本视频帧序列进行视频编码的初始视频编码器；基于此，业务服务器可以通过初始视频编码器对样本视频帧序列进行视频编码，得到用于表征视频语义信息的样本视频编码特征序列，进而可以基于样本视频编码特征序列确定用于表征样本多媒体的样本编码特征序列。其中，可选的，初始视频编码器可采用swin-transformer网络进行构建，本申请实施例将不对初始视频编码器的网络结构进行限定。

可选的，在样本多媒体包含样本音频数据时，样本媒体帧序列包含对样本音频数据进行抽帧处理所得到的样本音频帧序列；初始多媒体编码器包含用于对样本音频帧序列进行音频编码的初始音频编码器；基于此，业务服务器可以通过初始音频编码器对样本音频帧序列进行音频编码，得到用于表征音频语义信息的样本音频编码特征序列，进而可以基于样本音频编码特征序列确定用于表征样本多媒体的样本编码特征序列。其中，可选的，初始视频编码器可采用swin-transformer网络进行构建，本申请实施例将不对初始音频编码器的网络结构进行限定。此外，初始视频编码器和初始视频编码器可以为彼此独立的两个编码器，也可以集成为一个编码器，此处不做限定。

可选的，在样本多媒体包含样本视频数据和与该样本视频数据同步的样本音频数据时，样本媒体帧序列包含对样本视频数据进行抽帧处理所得到的样本视频帧序列以及对样本音频数据进行抽帧处理所得到的样本音频帧序列；初始多媒体编码器包含用于对样本视频帧序列进行视频编码的初始视频编码器以及用于对样本音频帧序列进行音频编码的初始音频编码器；基于此，业务服务器可以通过初始视频编码器对样本视频帧序列进行视频编码，得到用于表征视频语义信息的样本视频编码特征序列，且可以通过初始音频编码器对样本音频帧序列进行音频编码，得到用于表征音频语义信息的样本音频编码特征序列，进而可以将样本视频编码特征序列和样本音频编码特征序列进行特征融合，得到用于表征样本多媒体的样本编码特征序列。由此可见，通过引入与样本视频数据同步的样本音频数据进行同步编码，可以实现多模态信息融合，从而可以提升使用的样本编码特征序列的信息丰富度，进而有助有提升多媒体精彩程度和精彩片段预测的效率和精准度。

为便于理解，请参见图5，图5是本申请实施例提供的一种视频编码器的网络结构示意图。如图5所示的视频编码器是基于swin-transformer网络构建得到的，下面将结合图5对视频编码的过程进行阐述，当音频编码器也采用swin-transformer网络进行构建时，音频编码的过程可以参考此处视频编码的过程，这里不再赘述。为便于说明，这里假设样本视频帧序列包含样本视频数据中的第i个视频帧，i为正整数，后续将以第i个视频帧为例对编码一个视频帧的过程进行说明，任一视频帧的编码过程与此一致。如图5所示，初始视频编码器可包含图像划分层和M个视频编码层，M为大于1的正整数，此处对视频编码层的具体数量不做限定，假设M个视频编码层具体包括视频编码层A1、视频编码层A2、视频编码层A3、…、视频编码层AM。首先，可以将第i个视频帧输入至图像划分层，通过图像划分层对第i个视频帧进行图像划分，可以得到第i个视频帧的图像块；其中，第i个视频帧的图像块可用于确定M个视频编码层中的第一个视频编码层(即视频编码层A1)的视频语义编码特征；进一步地，在获取到M个视频编码层中的第p个视频编码层(例如，视频编码层A2)的视频语义编码特征时，可通过M个视频编码层中的第q个视频编码层(例如，视频编码层A3)对第p个视频编码层的视频语义编码特征进行降采样处理，进而可对降采样后的视频语义编码特征进行特征提取，得到第q个视频编码层的视频语义编码特征；其中，降采样后的视频语义编码特征的分辨率小于第p个视频编码层的视频语义编码特征的分辨率；第p个视频编码层为第q个视频编码层的上一视频编码层；p和q均为小于或等于M的正整数，且q＝p+1；比如，视频编码层A2为视频编码层A3的上一视频编码层，在获取到视频编码层A2的视频语义编码特征时，可以通过视频编码层A3对视频编码层A2的视频语义编码特征进行降采样处理和特征提取，得到视频编码层A3的视频语义编码特征；依此类推，在检查到第q个视频编码层的视频语义编码特征为M个视频编码层中的第M个视频编码层(即视频编码层AM)的视频语义编码特征时，可以将第M个视频编码层的视频语义编码特征作为第i个视频帧的视频语义编码特征，进而可以基于第i个视频帧的视频语义编码特征确定用于表征视频语义信息的样本视频编码特征序列，也就是说，在获取到样本视频帧序列中的所有视频帧的视频语义编码特征后，可以将所有视频帧的视频语义编码特征作为样本视频编码特征序列。

其中，通过图像划分层对第i个视频帧进行图像划分后，可以得到第i个视频帧的多个图像块，为便于理解，请求参见图6，图6是本申请实施例提供的一种图像划分的场景示意图。如图6所示，第i个视频帧作为一帧图像，可以将其输入到图像划分层(即PatchPartition)，并可按照图6所示的处理步骤对该图像进行分块。其中，在图像划分层中，可以将每4x4相邻的像素作为一个图像块(即patch)，然后可以在特征图通道(channel)方向展平(flatten)。假设输入的图像是RGB三通道图片，那么每个patch就有4x4＝16个像素，而每个像素都有R、G、B三个值所以展平后是16x3＝48，也就是说，通过图像划分层后图像shape(尺寸)由[H,W,3]变成了[H/4,W/4,48]。进一步，可以通过线性嵌入层(即Linear Embeding层)对图像块每个像素的channel数据做线性变换，由48变成C，即图像shape再由[H/4,W/4,48]变成了[H/4,W/4,C]。在一些实施例中，图像划分层和线性嵌入层可以直接通过一个卷积层实现。进一步，可以通过M个视频编码层对应的M个Stage(阶段)构建不同大小的特征图(一个视频编码层对应于一个阶段)。在一些实施例中，M可取值为4，即此时只有4个阶段(阶段1～阶段4)，除了Stage1(即第一个视频编码层)中先通过一个线性嵌入层外，剩下三个Stage都是先通过一个图像降采样层(即Patch Merging层)进行下采样，随后都是重复堆叠Swin Transformer Block(即编码块)，注意这里的编码块其实有两种结构，具体请参见图7，图7是本申请实施例提供的一种编码块的结构示意图。如图7所示，编码块701为第一类编码块，编码块702为第二类编码块，这两种编码块结构的不同之处在于第一类编码块使用了W-MSA(Windows Multi-head Self-Attention)结构，二类编码块使用了SW-MSA(ShiftedWindows Multi-Head Self-Attention)结构，且这两个不同结构的编码块是成对使用的，先使用一个具有W-MSA结构的第一类编码块，再使用一个具有SW-MSA结构的二类编码块。此外，这两种编码块中均包含有全连接层(Multilayer Perceptron，MLP)、层归一化(LayerNormalization，LN)以及残差连接，这里不再进行详细展开。

其中，通过第i个视频帧的图像块确定第一个视频编码层的视频语义编码特征的过程如下：将第i个视频帧的图像块输入至M个视频编码层中的第一个视频编码层(即视频编码层A1)，通过第一个视频编码层中的线性嵌入层对第i个视频帧的图像块进行线性变换，可得到图像嵌入特征；进而可以通过第一个视频编码层中的编码块对图像嵌入特征进行特征提取，从而得到第一个视频编码层的视频语义编码特征。

其中，对第p个视频编码层的视频语义编码特征进行降采样处理，且对降采样后的视频语义编码特征进行特征提取的具体过程可以为：假设第q个视频编码层(例如，视频编码层A3)包含图像降采样层、N个第一类编码块和N个第二类编码块；N为正整数；一个第一类编码块与一个第二类编码块相连接；例如，视频编码层A3一共包含6个编码块，其中包含3个第一类编码块和3个第二类编码块，且第一类编码块与第二类编码块是成对使用的(可参见上述图7)，先使用一个第一类编码块再使用一个第二类编码块。基于此，可以将第p个视频编码层的视频语义编码特征输入至图像降采样层，先通过图像降采样层对第p个视频编码层的视频语义编码特征进行降采样处理，得到降采样后的视频语义编码特征；此处降采样后的视频语义编码特征可用于确定N个第一类编码块中的第一个第一类编码块的中间编码特征；进一步，在获取到N个第一类编码块中的第j个第一类编码块的中间编码特征时，可以通过N个第二类编码块中的第j个第二类编码块，对第j个第一类编码块的中间编码特征进行特征提取，从而得到第j个第二类编码块的中间编码特征；j为小于或等于N的正整数；依此类推，在检查到第j个第二类编码块的中间编码特征为N个第二类编码块中的第N个第二类编码块的中间编码特征时，可以将第N个第二类编码块的中间编码特征作为第q个视频编码层的视频语义编码特征。

其中，图像降采样层(即patch Merging层)的作用是做降采样，用于缩小分辨率，调整通道数，进而形成层次化的设计，同时也能节省一定运算量。patch Merging是一个类似于池化的操作，但是比Pooling操作复杂一些，池化会损失信息，patch Merging不会。在图像降采样层中，每次降采样是两倍，因此在行方向和列方向上，可以按位置间隔2选取元素，拼成新的patch，再把所有patch都拼接起来作为一整个张量，最后展开，此时通道维度会变成原先的4倍(因为H、W各缩小2倍)，随后通过一个全连接层再调整通道维度为原来的两倍。

步骤S104，对输入至引导数据控制开关中的样本对象融合数据进行输入控制，得到输入控制结果；

为便于理解，请一并参见图8，图8是本申请实施例提供的一种开关控制的引导数据控制组件的示意图。图8展示了一种示例性的引导数据控制组件的结构和相关数据处理流程，适用于训练阶段和实际推理阶段。如图8所示，在初始引导数据控制组件中进行训练时，需要使用初始引导数据控制组件中的引导数据控制开关来进行对样本对象数据的样本对象融合数据的引导间断使用。引导数据控制开关可包含引导控制开关(也可称为整体开关)以及独立于引导控制开关的节点控制开关(也可称为节点开关)，基于此，在训练阶段，可以先将样本对象融合数据输入至引导数据控制开关中的引导控制开关，为了降低训练阶段的人为干预，引导控制开关的开启或关闭都是随机的；可选的，在引导控制开关开启时(即此时引导控制开关配置的输入控制参数取值为第一参数值，如1)，可以将样本对象融合数据作为初始精彩度预测模型的样本引导序列；反之，可选的，在引导控制开关关闭时(即此时引导控制开关配置的输入控制参数取值为第二参数值，如0)，不将样本对象融合数据作为初始精彩度预测模型的样本引导序列；基于此，可以将样本对象融合数据为初始精彩度预测模型的样本引导序列时的结果或不将样本对象融合数据作为初始精彩度预测模型的样本引导序列时的结果，作为输入控制结果。

其中，引导控制开关是为了能够控制在模型训练中是否选择使用初始对象数据整合组件已经规整好的样本对象融合数据来对整个模型进行引导，如图8所示，引导控制开关就是模型中的整体开关，该引导控制开关控制初始对象数据整合组件输出的样本对象融合数据是否输入到初始引导数据控制组件中。该引导控制开关在实际模型构建时可以选择01开关，每个batch(批)进行计算时会随机在(0，1)中挑选一个作为输入控制参数的取值来进行输入控制，0(即第二参数值)代表着当前batch数据的训练不需要样本对象融合数据的引导，1(即第一参数值)代表着当前batch数据的训练需要加入样本对象融合数据据的引导。

可以理解，引导数据控制开关中的两个开关是为了能够控制样本对象融合数据在整个模型中训练时的作用，一方面是为了对模型进行间断的引导，让整个模型参数在进行学习时，更加能够贴合实际的精彩段落定位，同时另一方面也是为了避免模型太过依赖于样本对象融合数据的信息，避免在推理的过程中没有了用户的行为数据时推理出来的精彩计算信息与实际的不符合。

步骤S105，在输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，通过引导数据控制开关配置样本引导序列的样本引导影响度，基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列，且通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签，通过第一预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练，得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型。

可以理解，在输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，可以将样本引导序列和样本编码特征序列输入初始引导数据控制组件，并由初始引导数据控制组件中的节点控制开关配置样本引导序列的样本引导影响度；进一步，可以基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列；进而可以通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签。

其中，配置样本引导序列的样本引导影响度的过程可以为：在获取到节点控制开关配置的节点开关参数时，基于节点开关参数确定影响度范围，进而可以由节点控制开关在影响度范围内获取样本引导序列的样本引导影响度。如图8所示，节点控制开关是为了能够让样本引导序列间断式地进行对训练的引导，这里有一个节点开关参数Y来进行控制，Y的取值范围可为[0,1]之间的小数，这个参数是为超参，训练时进行配置。在当前数据链路中，每个特征节点使用的控制值可以在[0,Y](即影响度范围)中进行随机数求取，得到实际控制参数y(即样本引导影响度)。

进一步，基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合的具体过程可以为：获取样本编码特征序列的时间长度，由初始引导数据控制组件基于样本编码特征序列的时间长度对样本引导序列进行长度规整，可以得到样本引导特征序列；此时，样本引导特征序列的单位时间粒度与样本编码特征序列的单位时间粒度保持一致。如图8所示，当引导控制开关的输入控制参数取值为1时，样本对象融合数据作为样本引导序列进行输入，这个时候的样本引导序列是一维数据曲线，可以输入到初始引导数据控制组件的全连接(MLP)中，进行与输入的样本编码特征序列同维度放大。进一步，可以将样本引导特征序列与样本引导影响度(即控制参数y)的乘积(相当于降低样本引导特征序列在训练时的引导程度)，再与样本编码特征序列进行相乘，从而得到样本融合特征序列。

进一步地，可以通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签，具体的，初始引导数据控制组件可包含初始分类器；则可以将样本融合特征序列输入初始引导数据控制组件中的初始分类器，通过初始分类器对样本融合特征序列进行上下文信息提取，得到第一长短时上下文信息；进而可以基于第一长短时上下文信息对样本融合特征序列进行分类预测，最终得到样本多媒体的第一预测精彩度标签，进而可以通过第一预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练，具体来说，可以根据第一预测精彩度标签和样本精彩度标签，确定第一损失函数，且基于该第一损失函数对初始精彩度预测模型的模型参数进行修正，从而得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型。

可以理解，可选的，在前述输入控制结果指示不将样本对象融合数据作为初始精彩度预测模型的样本引导序列时，可以直接通过样本编码特征序列预测得到样本多媒体的第二预测精彩度标签；此时可以通过第二预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练，具体来说，可以根据第二预测精彩度标签和样本精彩度标签，确定第二损失函数，且基于该第二损失函数对初始精彩度预测模型的模型参数进行修正，从而得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型。也就是说，对于同一个样本多媒体而言，引导数据控制开关的开启或关闭是随机的，那么最终只能预测得到一种精彩度标签，即第一预测精彩度标签或第二预测精彩度标签。

其中，初始引导数据控制组件包含初始分类器；在输入控制结果指示不将样本对象融合数据作为初始精彩度预测模型的样本引导序列时，业务服务器可以将样本编码特征序列输入初始引导数据控制组件中的初始分类器，并通过初始分类器对样本编码特征序列进行上下文信息提取，得到第二长短时上下文信息；进而可以基于第二长短时上下文信息对样本编码特征序列进行分类预测，得到样本多媒体的第二预测精彩度标签。

可以理解，在整个模型训练过程中，用于训练初始精彩度预测模型的样本多媒体的数量实际上是很多的，也就是说，样本多媒体的数量为多个，而每个样本多媒体均会被输入至初始精彩度预测模型中，由初始精彩度预测模型预测得到每个样本多媒体的预测精彩度标签，对于同一个样本多媒体，其预测精彩度标签只有一个(即第一预测精彩度标签或第二预测精彩度标签)；对于不同的样本多媒体，其预测精彩度标签可能相同，也可能不相同。例如，假设多个样本多媒体中包含第一样本多媒体和第二样本多媒体，为便于区分，第一样本多媒体的样本精彩度标签可称为第一样本精彩度标签，第二样本多媒体的样本精彩度标签可称为第二样本精彩度标签，针对第一样本多媒体的样本对象数据可称为第一样本对象数据，针对第二样本多媒体的样本对象数据可称为第二样本对象数据，经过前述阐述的步骤，假设将第一样本对象数据的第一样本对象融合数据作为初始精彩度预测模型的样本引导序列，则可以得到此时第一样本多媒体的预测精彩度标签为第一预测精彩度标签；假设没有将第二样本对象数据的第二样本对象融合数据作为初始精彩度预测模型的样本引导序列，则可以得到此时第二样本多媒体的预测精彩度标签为第二预测精彩度标签，从而可以通过第一样本多媒体的预测精彩度标签和第一样本精彩度标签，以及第二样本多媒体的预测精彩度标签和第二样本精彩度标签，对初始精彩度预测模型进行迭代训练。依此类推，在训练阶段，可以间歇性地使用样本对象数据对模型进行交叠训练，从而提升模型通用性。

上述可知，本申请实施例提出了一种基于样本对象数据引导训练的多媒体精彩程度和精彩片段预测方法，可使用样本多媒体的样本对象数据作为初始精彩度预测模型的样本引导序列，以便能够让初始精彩度预测模型学习到真实的用户在消费多媒体时的对象数据，引导整个模型在实际的精彩度预测时更贴合用户实际感受，且通过融合多种样本对象数据可以使预测出来的精彩程度和精彩片段更真实准确；此外，通过训练好的精彩度预测模型(即目标精彩度预测模型)可实现高效且自动化地预测出多媒体的精彩程度和精彩片段，摆脱了人工标注的低效率弊端，从而可以提升多媒体精彩程度和精彩片段预测的效率和精准度。另外，本申请实施例通过引导数据控制开关来进行对样本对象数据引导训练机制的控制，类似于半监督训练的方式，能够在模型训练过程中，间断地让模型感受到样本对象数据的信息，从而可以提升训练得到的精彩度预测模型的通用性，以使精彩度预测模型在缺少相关对象数据的情况下，仍然能预测出真实准确且贴合用户实际感受的精彩程度。

请参见图9，图9是本申请实施例提供的一种数据处理方法的流程示意图二。该数据处理方法可以由计算机设备执行，计算机设备可以为业务服务器(例如，上述图1所示的业务服务器100)，也可以为终端设备(例如，上述图1所示的终端设备200a)。需要注意的是，在实际推理阶段所使用的计算机设备(该计算机设备可加载并使用训练好的目标精彩度预测模型)，与在训练阶段所使用的计算机设备(该计算机设备用于训练初始精彩度预测模型)，可以是同一设备，也可以是不同设备，此处不做限定。为便于理解，本申请实施例以该方法由业务服务器执行为例进行说明。如图9所示，该数据处理方法至少可以包括以下步骤：

步骤S201，在获取到目标多媒体时，获取用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型；

可以理解，在获取到目标多媒体时，为了能够预测出目标多媒体的精彩程度和精彩片段，业务服务器可以获取用于对目标多媒体进行精彩度预测的目标精彩度预测模型，该目标精彩度预测模型可以是保存在业务服务器本地的，也可以是从其他设备获取的，此处不做限定。

在本申请实施例中，目标精彩度预测模型可包含目标对象数据整合组件、目标媒体信息编码组件、以及目标引导数据控制组件，这三个组件都是在包含有初始对象数据整合组件、初始媒体信息编码组件以及初始引导数据控制组件的初始精彩度预测模型完成迭代训练后所得到的。其中，目标引导数据控制组件包含引导数据控制开关。需要说明的是，该目标精彩度预测模型可以是采用上述图3所对应实施例中的方法训练初始精彩度预测模型得到的。

步骤S202，对目标多媒体进行媒体编码，得到用于表征目标多媒体的目标编码特征序列；

可以理解，业务服务器可以将目标多媒体输入目标媒体信息编码组件，由目标媒体信息编码组件对目标多媒体进行媒体编码，以得到用于表征目标多媒体的目标编码特征序列。具体的，目标媒体信息编码组件包含目标多媒体编码器，业务服务器可以将目标多媒体输入目标媒体信息编码组件，由目标媒体信息编码组件对目标多媒体进行抽帧处理，得到目标媒体帧序列；进而可以将目标媒体帧序列输入目标媒体信息编码组件中的目标多媒体编码器，通过目标多媒体编码器对目标媒体帧序列进行媒体编码，从而得到用于表征目标多媒体的目标编码特征序列。

其中，目标多媒体可包含目标视频数据和目标音频数据中的一种或多种，因此本申请实施例提供的方法既可以预测视频数据的精彩度，也可预测音频数据的精彩度，且目标视频数据的编码过程可以参见上述图3所对应实施例中步骤S103所阐述的样本视频数据的编码过程，目标音频数据的编码过程也可以参见上述图3所对应实施例中步骤S103所阐述的样本音频数据的编码过程，此外，在目标多媒体包含目标视频数据和与该目标视频数据同步的目标音频数据时，其编码过程也可以参见上述图3所对应实施例中步骤S103所阐述的样本多媒体(包含有样本视频数据和样本音频数据)的编码过程，这里不再进行赘述。

步骤S203，在获取到针对目标多媒体的目标对象数据时，对目标对象数据进行数据整合，得到用于表征目标对象数据的目标对象融合数据；

可以理解的是，针对目标多媒体的目标对象数据可以包含目标对象(比如某个视频平台的用户)在消费目标多媒体(比如该视频平台的影视剧)时的各种操作所产生的相关数据，包括但不限于针对目标多媒体的目标互动数据、目标播放数据、目标进度调控数据等数据。基于此，在获取到针对目标多媒体的目标对象数据(比如目标互动数据、目标播放数据、目标进度调控数据)时，业务服务器可以通过目标精彩度预测模型中的目标对象数据整合组件，按照设置的整合逻辑对这几种目标对象数据进行数据整合，从而得到用于表征目标对象数据的目标对象融合数据。该步骤的具体实现过程可以参见上述图3所对应实施例中步骤S102所阐述的对样本对象数据进行数据整合的过程，这里不再进行赘述。

步骤S204，在将目标对象融合数据输入引导数据控制开关时，将目标对象融合数据作为目标精彩度预测模型的目标引导序列，通过引导数据控制开关配置目标引导序列的目标引导影响度，基于目标引导影响度对目标引导序列和目标编码特征序列进行序列融合，得到目标融合特征序列；

可以理解的是，引导数据控制开关可包含引导控制开关(也可称为整体开关)以及独立于引导控制开关的节点控制开关(也可称为节点开关)，基于此，在实际推理阶段，在将目标对象融合数据输入引导数据控制开关时，可以直接开启引导控制开关(即此时将引导控制开关配置的输入控制参数设置为第一参数值，如1)，从而可以将目标对象融合数据作为目标精彩度预测模型的目标引导序列；进而通过引导数据控制开关配置目标引导序列的目标引导影响度，并基于目标引导影响度对目标引导序列和目标编码特征序列进行序列融合，得到目标融合特征序列，该步骤的具体实现过程可以参见上述图3所对应实施例中的步骤S104-步骤S105，尤其是基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列的过程，这里不再进行赘述。

步骤S205，通过目标融合特征序列预测得到目标多媒体的第一目标精彩度标签，且基于第一目标精彩度标签确定目标多媒体的第一精彩程度，根据第一精彩程度获取目标多媒体的第一精彩片段。

可以理解，目标精彩度预测模型包含引导数据控制开关所在的目标引导数据控制组件；该目标引导数据控制组件包含目标分类器；基于此，可以将目标融合特征序列输入目标引导数据控制组件中的目标分类器，通过目标分类器对目标融合特征序列进行分类预测，得到目标多媒体的第一目标精彩度标签，进而可以基于第一目标精彩度标签确定目标多媒体的第一精彩程度(具体可以将第一目标精彩度标签对应的置信度作为目标多媒体的第一精彩程度)；随后，根据第一精彩程度确定目标多媒体的第一精彩时间区间，并可根据第一精彩时间区间从目标多媒体中获取第一精彩片段。

此外，可选的，在未获取到针对目标多媒体的目标对象数据时，可以通过目标编码特征序列预测得到目标多媒体的第二目标精彩度标签，具体的，可以将目标编码特征序列输入目标引导数据控制组件中的目标分类器，通过目标分类器对目标编码特征序列进行分类预测，得到目标多媒体的第二目标精彩度标签；进而可以基于第二目标精彩度标签确定目标多媒体的第二精彩程度(具体可以将第二目标精彩度标签对应的置信度作为目标多媒体的第二精彩程度)，随后，根据第二精彩程度确定目标多媒体的第二精彩时间区间，并可根据第二精彩时间区间从目标多媒体中获取第二精彩片段。

也就是说，在实际推理的阶段分为两种情况，分别是有目标对象数据和无目标对象数据。可选的，在有目标对象数据时，需要将引导控制开关一直置为1，让所有的目标对象数据去引导整体的推理流程，然后节点控制开关这里需要让控制参数y(即目标引导影响度)直接取值为1，让目标对象数据最大程度地引导整个系统的推理计算，这样能够让最后的精彩度预测结果更加贴合实际用户的行为和真实的反应。可选的，在没有目标对象数据时，需要将引导控制开关一直置为0，也就是无目标对象数据进行引导，这个时候就需要模型自己直接根据目标编码特征序列进行计算。

上述可知，本申请实施例创新性地创建了一种基于样本对象数据引导训练的多媒体精彩段落预测方法，该方法是一种全自动工业化的精彩度预测方法，能够快速地对于需要处理的多媒体(比如长视频平台上的影视剧)进行完整的精彩度计算，并能够自动化地定位出整个多媒体中最为精彩的部分段落。本申请实施例创新性地将样本对象数据引入到整个系统中来作为模型的引导训练数据(即样本引导序列)，这样能够让初始精彩度预测模型学习到真实的用户在消费多媒体时的行为数据信息，引导整个模型在实际的精彩度计算时更贴合用户最为真实的观看感受。此外，本申请实施例创新性地使用开关模式来进行对样本引导序列引导训练控制，同时开关机制也能够在训练阶段让模型接受无对象行为的纯净数据进行训练，也就是类似于半监督训练的方式，能够让整个模型在训练过程中，间断的感受到样本对象数据的信息，这样的创新机制能够让模型更通用，即使是在缺少用户的行为数据的情况下，仍然能够计算出真实准确且贴合实际用户感受的精彩度。此外，精彩度预测模型使用用户的行为数据来作为引导信息帮助模型计算精彩度，同时模型也能够纠正用户的行为信息与实际精彩度不贴合的现象，因为在实际情况中，用户的行为数据多的地方也有可能并不是最精彩的地方，所以本模型能够反向地纠正用户的行为数据在精彩度上的表现。

进一步，请参见图10，是本申请实施例提供的一种数据处理装置的结构示意图。如图10所示，数据处理装置10可以包括：数据获取模块100、数据整合模块200、媒体编码模块300、输入控制模块400、第一预测模块500；

数据获取模块100，用于获取用于训练初始精彩度预测模型的样本多媒体和样本多媒体的样本精彩度标签；初始精彩度预测模型包含引导数据控制开关；

数据整合模块200，用于在获取到针对样本多媒体的样本对象数据时，对样本对象数据进行数据整合，得到用于表征样本对象数据的样本对象融合数据；

媒体编码模块300，用于对样本多媒体进行媒体编码，得到用于表征样本多媒体的样本编码特征序列；

输入控制模块400，用于对输入至引导数据控制开关中的样本对象融合数据进行输入控制，得到输入控制结果；

第一预测模块500，用于在输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，通过引导数据控制开关配置样本引导序列的样本引导影响度，基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列，且通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签，通过第一预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练，得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型。

其中，数据获取模块100、数据整合模块200、媒体编码模块300、输入控制模块400、第一预测模块500的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S105，这里不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步，请参见图11，是本申请实施例提供的一种数据处理装置的结构示意图。如图11所示，数据处理装置1可以包括：数据获取模块11、数据整合模块12、媒体编码模块13、输入控制模块14、第一预测模块15、视频编码模块16、第二预测模块17；

数据获取模块11，用于获取用于训练初始精彩度预测模型的样本多媒体和样本多媒体的样本精彩度标签；初始精彩度预测模型包含引导数据控制开关；

数据整合模块12，用于在获取到针对样本多媒体的样本对象数据时，对样本对象数据进行数据整合，得到用于表征样本对象数据的样本对象融合数据；

数据整合模块12可以包括：数据规整单元121、加权融合单元122；

数据规整单元121，用于将样本互动数据、样本播放数据以及样本进度调控数据输入初始对象数据整合组件，通过初始对象数据整合组件对样本互动数据进行数据规整，得到用于表征样本互动数据的样本互动规整数据，且对样本播放数据进行数据规整，得到用于表征样本播放数据的样本播放规整数据；

其中，数据规整单元121可以包括：第一规整子单元1211、第二规整子单元1212；

第一规整子单元1211，用于通过初始对象数据整合组件对样本互动数据进行粒度规整，得到具有目标时间粒度的样本互动过渡数据，对样本互动过渡数据进行标准化处理，得到用于表征样本互动数据的样本互动规整数据；

第二规整子单元1212，用于通过初始对象数据整合组件对样本播放数据进行粒度规整，得到具有目标时间粒度的样本播放过渡数据，对样本播放过渡数据进行标准化处理，得到用于表征样本播放数据的样本播放规整数据。

其中，第一规整子单元1211、第二规整子单元1212的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

加权融合单元122，用于由初始对象数据整合组件通过样本进度调控数据，对样本互动规整数据和样本播放规整数据进行加权融合，得到用于表征样本对象数据的样本对象融合数据。

其中，加权融合单元122可以包括：数据融合子单元1221、加权处理子单元1222；

数据融合子单元1221，用于由初始对象数据整合组件对样本互动规整数据和样本播放规整数据进行数据融合，得到样本初始融合数据；

加权处理子单元1222，用于获取用于表征样本进度调控数据的样本进度权重数据，通过样本进度权重数据对样本初始融合数据进行加权处理，得到用于表征样本对象数据的样本对象融合数据。

其中，数据融合子单元1221、加权处理子单元1222的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

其中，数据规整单元121、加权融合单元122的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

媒体编码模块13，用于对样本多媒体进行媒体编码，得到用于表征样本多媒体的样本编码特征序列；

媒体编码模块13可以包括：抽帧处理单元131、媒体编码单元132；

抽帧处理单元131，用于将样本多媒体输入初始媒体信息编码组件，由初始媒体信息编码组件对样本多媒体进行抽帧处理，得到样本媒体帧序列；

媒体编码单元132，用于将样本媒体帧序列输入初始媒体信息编码组件中的初始多媒体编码器，通过初始多媒体编码器对样本媒体帧序列进行媒体编码，得到用于表征样本多媒体的样本编码特征序列。

媒体编码单元132可以包括：视频编码子单元1321、音频编码子单元1322；

视频编码子单元1321，用于通过初始视频编码器对样本视频帧序列进行视频编码，得到用于表征视频语义信息的样本视频编码特征序列；基于样本视频编码特征序列确定用于表征样本多媒体的样本编码特征序列。

视频编码子单元1321具体用于将第i个视频帧输入至图像划分层，通过图像划分层对第i个视频帧进行图像划分，得到第i个视频帧的图像块；第i个视频帧的图像块用于确定M个视频编码层中的第一个视频编码层的视频语义编码特征；在获取到M个视频编码层中的第p个视频编码层的视频语义编码特征时，通过M个视频编码层中的第q个视频编码层对第p个视频编码层的视频语义编码特征进行降采样处理，且对降采样后的视频语义编码特征进行特征提取，得到第q个视频编码层的视频语义编码特征；降采样后的视频语义编码特征的分辨率小于第p个视频编码层的视频语义编码特征的分辨率；第p个视频编码层为第q个视频编码层的上一视频编码层；p和q均为小于或等于M的正整数，且q＝p+1；在检查到第q个视频编码层的视频语义编码特征为M个视频编码层中的第M个视频编码层的视频语义编码特征时，将第M个视频编码层的视频语义编码特征作为第i个视频帧的视频语义编码特征，基于第i个视频帧的视频语义编码特征确定用于表征视频语义信息的样本视频编码特征序列。

视频编码子单元1321具体用于将第p个视频编码层的视频语义编码特征输入至图像降采样层，通过图像降采样层对第p个视频编码层的视频语义编码特征进行降采样处理，得到降采样后的视频语义编码特征；降采样后的视频语义编码特征用于确定N个第一类编码块中的第一个第一类编码块的中间编码特征；在获取到N个第一类编码块中的第j个第一类编码块的中间编码特征时，通过N个第二类编码块中的第j个第二类编码块，对第j个第一类编码块的中间编码特征进行特征提取，得到第j个第二类编码块的中间编码特征；j为小于或等于N的正整数；在检查到第j个第二类编码块的中间编码特征为N个第二类编码块中的第N个第二类编码块的中间编码特征时，将第N个第二类编码块的中间编码特征作为第q个视频编码层的视频语义编码特征。

音频编码子单元1322，用于通过初始音频编码器对样本音频帧序列进行音频编码，得到用于表征音频语义信息的样本音频编码特征序列；基于样本音频编码特征序列确定用于表征样本多媒体的样本编码特征序列。

其中，视频编码子单元1321、音频编码子单元1322的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103，这里不再进行赘述。

其中，抽帧处理单元131、媒体编码单元132的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103，这里不再进行赘述。

输入控制模块14，用于对输入至引导数据控制开关中的样本对象融合数据进行输入控制，得到输入控制结果；

其中，引导数据控制开关包含引导控制开关；

输入控制模块14可以包括：开关开启单元141、开关关闭单元142；

开关开启单元141，用于将样本对象融合数据输入至引导数据控制开关中的引导控制开关；在引导控制开关开启时，将样本对象融合数据作为初始精彩度预测模型的样本引导序列；

开关关闭单元142，用于在引导控制开关关闭时，不将样本对象融合数据作为初始精彩度预测模型的样本引导序列；将样本对象融合数据为初始精彩度预测模型的样本引导序列时的结果或不将样本对象融合数据作为初始精彩度预测模型的样本引导序列时的结果，作为输入控制结果。

其中，开关开启单元141、开关关闭单元142的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104，这里不再进行赘述。

第一预测模块15，用于在输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，通过引导数据控制开关配置样本引导序列的样本引导影响度，基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列，且通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签，通过第一预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练，得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型。

第一预测模块15可以包括：影响度配置单元151、序列融合单元152、标签预测单元153；

影响度配置单元151，用于在输入控制结果指示样本对象融合数据为初始精彩度预测模型的样本引导序列时，将样本引导序列和样本编码特征序列输入初始引导数据控制组件，由初始引导数据控制组件中的节点控制开关配置样本引导序列的样本引导影响度；

其中，影响度配置单元151具体用于在获取到节点控制开关配置的节点开关参数时，基于节点开关参数确定影响度范围；由节点控制开关在影响度范围内获取样本引导序列的样本引导影响度。

序列融合单元152，用于基于样本引导影响度对样本引导序列和样本编码特征序列进行序列融合，得到样本融合特征序列；

其中，序列融合单元152具体用于获取样本编码特征序列的时间长度，由初始引导数据控制组件基于样本编码特征序列的时间长度对样本引导序列进行长度规整，得到样本引导特征序列；样本引导特征序列的单位时间粒度与样本编码特征序列的单位时间粒度保持一致；将样本引导特征序列与样本引导影响度的乘积，与样本编码特征序列进行相乘，得到样本融合特征序列。

标签预测单元153，用于通过样本融合特征序列预测得到样本多媒体的第一预测精彩度标签。

其中，初始引导数据控制组件包含初始分类器；

标签预测单元153具体用于将样本融合特征序列输入初始引导数据控制组件中的初始分类器，通过初始分类器对样本融合特征序列进行上下文信息提取，得到第一长短时上下文信息；基于第一长短时上下文信息对样本融合特征序列进行分类预测，得到样本多媒体的第一预测精彩度标签。

其中，影响度配置单元151、序列融合单元152、标签预测单元153的具体功能实现方式可以参见上述图3所对应实施例中的步骤S105，这里不再进行赘述。

视频编码模块16，用于将第i个视频帧的图像块输入至M个视频编码层中的第一个视频编码层，通过第一个视频编码层中的线性嵌入层对第i个视频帧的图像块进行线性变换，得到图像嵌入特征；通过第一个视频编码层中的编码块对图像嵌入特征进行特征提取，得到第一个视频编码层的视频语义编码特征。

第二预测模块17，用于在输入控制结果指示不将样本对象融合数据作为初始精彩度预测模型的样本引导序列时，通过样本编码特征序列预测得到样本多媒体的第二预测精彩度标签，且通过第二预测精彩度标签和样本精彩度标签，对初始精彩度预测模型进行迭代训练。

第二预测模块17具体用于在输入控制结果指示不将样本对象融合数据作为初始精彩度预测模型的样本引导序列时，将样本编码特征序列输入初始引导数据控制组件中的初始分类器，通过初始分类器对样本编码特征序列进行上下文信息提取，得到第二长短时上下文信息；基于第二长短时上下文信息对样本编码特征序列进行分类预测，得到样本多媒体的第二预测精彩度标签。

其中，数据获取模块11、数据整合模块12、媒体编码模块13、输入控制模块14、第一预测模块15、视频编码模块16、第二预测模块17的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S105，这里不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步，请参见图12，是本申请实施例提供的一种数据处理装置的结构示意图。如图12所示，数据处理装置20可以包括：模型获取模块600、数据编码模块700、数据融合模块800、序列融合模块900、融合预测模块2000；

模型获取模块600，用于在获取到目标多媒体时，获取用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型；目标精彩度预测模型包含引导数据控制开关；

数据编码模块700，用于对目标多媒体进行媒体编码，得到用于表征目标多媒体的目标编码特征序列；

数据融合模块800，用于在获取到针对目标多媒体的目标对象数据时，对目标对象数据进行数据整合，得到用于表征目标对象数据的目标对象融合数据；

序列融合模块900，用于在将目标对象融合数据输入引导数据控制开关时，将目标对象融合数据作为目标精彩度预测模型的目标引导序列，通过引导数据控制开关配置目标引导序列的目标引导影响度，基于目标引导影响度对目标引导序列和目标编码特征序列进行序列融合，得到目标融合特征序列；

融合预测模块2000，用于通过目标融合特征序列预测得到目标多媒体的第一目标精彩度标签，且基于第一目标精彩度标签确定目标多媒体的第一精彩程度，根据第一精彩程度获取目标多媒体的第一精彩片段。

其中，模型获取模块600、数据编码模块700、数据融合模块800、序列融合模块900、融合预测模块2000的具体功能实现方式可以参见上述图9所对应实施例中的步骤S201-步骤S205，这里不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步，请参见图13，是本申请实施例提供的一种数据处理装置的结构示意图。如图13所示，数据处理装置2可以包括：模型获取模块21、数据编码模块22、数据融合模块23、序列融合模块24、融合预测模块25、精彩预测模块26；

模型获取模块21，用于在获取到目标多媒体时，获取用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型；目标精彩度预测模型包含引导数据控制开关；

数据编码模块22，用于对目标多媒体进行媒体编码，得到用于表征目标多媒体的目标编码特征序列；

数据融合模块23，用于在获取到针对目标多媒体的目标对象数据时，对目标对象数据进行数据整合，得到用于表征目标对象数据的目标对象融合数据；

序列融合模块24，用于在将目标对象融合数据输入引导数据控制开关时，将目标对象融合数据作为目标精彩度预测模型的目标引导序列，通过引导数据控制开关配置目标引导序列的目标引导影响度，基于目标引导影响度对目标引导序列和目标编码特征序列进行序列融合，得到目标融合特征序列；

融合预测模块25，用于通通过目标融合特征序列预测得到目标多媒体的第一目标精彩度标签，且基于第一目标精彩度标签确定目标多媒体的第一精彩程度，根据第一精彩程度获取目标多媒体的第一精彩片段。

融合预测模块25具体用于将目标融合特征序列输入目标引导数据控制组件中的目标分类器，通过目标分类器对目标融合特征序列进行分类预测，得到目标多媒体的第一目标精彩度标签，基于第一目标精彩度标签确定目标多媒体的第一精彩程度；根据第一精彩程度确定目标多媒体的第一精彩时间区间，根据第一精彩时间区间从目标多媒体中获取第一精彩片段。

精彩预测模块26，用于在未获取到针对目标多媒体的目标对象数据时，通过目标编码特征序列预测得到目标多媒体的第二目标精彩度标签，基于第二目标精彩度标签确定目标多媒体的第二精彩程度，根据第二精彩程度获取目标多媒体的第二精彩片段。

其中，模型获取模块21、数据编码模块22、数据融合模块23、序列融合模块24、融合预测模块25、精彩预测模块26的具体功能实现方式可以参见上述图9所对应实施例中的步骤S201-步骤S205，这里不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图14，是本申请实施例提供的一种计算机设备的结构示意图。如图14所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图14所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图14所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以执行前文图3、图9任一个所对应实施例中对该数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的数据处理装置1和数据处理装置2所执行的计算机程序，且计算机程序包括计算机指令，当处理器执行计算机指令时，能够执行前文图3、图9任一个所对应实施例中对数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

此外，这里需要指出的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图3、图9任一个所对应实施例提供的方法。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取用于训练初始精彩度预测模型的样本多媒体和所述样本多媒体的样本精彩度标签；所述初始精彩度预测模型包含引导数据控制开关；

在获取到针对所述样本多媒体的样本对象数据时，对所述样本对象数据进行数据整合，得到用于表征所述样本对象数据的样本对象融合数据；

对所述样本多媒体进行媒体编码，得到用于表征所述样本多媒体的样本编码特征序列；

对输入至所述引导数据控制开关中的所述样本对象融合数据进行输入控制，得到输入控制结果；

在所述输入控制结果指示所述样本对象融合数据为所述初始精彩度预测模型的样本引导序列时，通过所述引导数据控制开关配置所述样本引导序列的样本引导影响度，基于所述样本引导影响度对所述样本引导序列和所述样本编码特征序列进行序列融合，得到样本融合特征序列，且通过所述样本融合特征序列预测得到所述样本多媒体的第一预测精彩度标签，通过所述第一预测精彩度标签和所述样本精彩度标签，对所述初始精彩度预测模型进行迭代训练，得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型。

2.根据权利要求1所述的方法，其特征在于，所述初始精彩度预测模型包含初始对象数据整合组件；所述样本对象数据包含针对所述样本多媒体的样本互动数据、样本播放数据、样本进度调控数据；

所述对所述样本对象数据进行数据整合，得到用于表征所述样本对象数据的样本对象融合数据，包括：

将所述样本互动数据、所述样本播放数据以及所述样本进度调控数据输入所述初始对象数据整合组件，通过所述初始对象数据整合组件对所述样本互动数据进行数据规整，得到用于表征所述样本互动数据的样本互动规整数据，且对所述样本播放数据进行数据规整，得到用于表征所述样本播放数据的样本播放规整数据；

由所述初始对象数据整合组件通过所述样本进度调控数据，对所述样本互动规整数据和所述样本播放规整数据进行加权融合，得到用于表征所述样本对象数据的样本对象融合数据。

3.根据权利要求2所述的方法，其特征在于，所述通过所述初始对象数据整合组件对所述样本互动数据进行数据规整，得到用于表征所述样本互动数据的样本互动规整数据，且对所述样本播放数据进行数据规整，得到用于表征所述样本播放数据的样本播放规整数据，包括：

通过所述初始对象数据整合组件对所述样本互动数据进行粒度规整，得到具有目标时间粒度的样本互动过渡数据，对所述样本互动过渡数据进行标准化处理，得到用于表征所述样本互动数据的样本互动规整数据；

通过所述初始对象数据整合组件对所述样本播放数据进行粒度规整，得到具有所述目标时间粒度的样本播放过渡数据，对所述样本播放过渡数据进行标准化处理，得到用于表征所述样本播放数据的样本播放规整数据。

4.根据权利要求2所述的方法，其特征在于，所述由所述初始对象数据整合组件通过所述样本进度调控数据，对所述样本互动规整数据和所述样本播放规整数据进行加权融合，得到用于表征所述样本对象数据的样本对象融合数据，包括：

由所述初始对象数据整合组件对所述样本互动规整数据和所述样本播放规整数据进行数据融合，得到样本初始融合数据；

获取用于表征所述样本进度调控数据的样本进度权重数据，通过所述样本进度权重数据对所述样本初始融合数据进行加权处理，得到用于表征所述样本对象数据的样本对象融合数据。

5.根据权利要求1所述的方法，其特征在于，所述初始精彩度预测模型包含初始媒体信息编码组件；所述初始媒体信息编码组件包含初始多媒体编码器；

所述对所述样本多媒体进行媒体编码，得到用于表征所述样本多媒体的样本编码特征序列，包括：

将所述样本多媒体输入所述初始媒体信息编码组件，由所述初始媒体信息编码组件对所述样本多媒体进行抽帧处理，得到样本媒体帧序列；

将所述样本媒体帧序列输入所述初始媒体信息编码组件中的所述初始多媒体编码器，通过所述初始多媒体编码器对所述样本媒体帧序列进行媒体编码，得到用于表征所述样本多媒体的样本编码特征序列。

6.根据权利要求5所述的方法，其特征在于，在所述样本多媒体包含样本视频数据时，所述样本媒体帧序列包含对所述样本视频数据进行抽帧处理所得到的样本视频帧序列；所述初始多媒体编码器包含用于对所述样本视频帧序列进行视频编码的初始视频编码器；

所述通过所述初始多媒体编码器对所述样本媒体帧序列进行媒体编码，得到用于表征所述样本多媒体的样本编码特征序列，包括：

通过所述初始视频编码器对所述样本视频帧序列进行视频编码，得到用于表征视频语义信息的样本视频编码特征序列；

基于所述样本视频编码特征序列确定用于表征所述样本多媒体的样本编码特征序列。

7.根据权利要求1所述的方法，其特征在于，在所述样本多媒体包含样本音频数据时，所述样本媒体帧序列包含对所述样本音频数据进行抽帧处理所得到的样本音频帧序列；所述初始多媒体编码器包含用于对所述样本音频帧序列进行音频编码的初始音频编码器；

通过所述初始音频编码器对所述样本音频帧序列进行音频编码，得到用于表征音频语义信息的样本音频编码特征序列；

基于所述样本音频编码特征序列确定用于表征所述样本多媒体的样本编码特征序列。

8.根据权利要求6所述的方法，其特征在于，所述样本视频帧序列包含所述样本视频数据中的第i个视频帧；i为正整数；所述初始视频编码器包含图像划分层和M个视频编码层；M为大于1的正整数；

所述通过所述初始视频编码器对所述样本视频帧序列进行视频编码，得到用于表征视频语义信息的样本视频编码特征序列，包括：

将所述第i个视频帧输入至所述图像划分层，通过所述图像划分层对所述第i个视频帧进行图像划分，得到所述第i个视频帧的图像块；所述第i个视频帧的图像块用于确定所述M个视频编码层中的第一个视频编码层的视频语义编码特征；

在获取到所述M个视频编码层中的第p个视频编码层的视频语义编码特征时，通过所述M个视频编码层中的第q个视频编码层对所述第p个视频编码层的视频语义编码特征进行降采样处理，且对降采样后的视频语义编码特征进行特征提取，得到所述第q个视频编码层的视频语义编码特征；所述降采样后的视频语义编码特征的分辨率小于所述第p个视频编码层的视频语义编码特征的分辨率；所述第p个视频编码层为所述第q个视频编码层的上一视频编码层；p和q均为小于或等于M的正整数，且q＝p+1；

在检查到所述第q个视频编码层的视频语义编码特征为所述M个视频编码层中的第M个视频编码层的视频语义编码特征时，将所述第M个视频编码层的视频语义编码特征作为所述第i个视频帧的视频语义编码特征，基于所述第i个视频帧的视频语义编码特征确定用于表征视频语义信息的样本视频编码特征序列。

9.根据权利要求1所述的方法，其特征在于，所述引导数据控制开关包含引导控制开关；

所述对输入至所述引导数据控制开关中的所述样本对象融合数据进行输入控制，得到输入控制结果，包括：

将所述样本对象融合数据输入至所述引导数据控制开关中的所述引导控制开关；

在所述引导控制开关开启时，将所述样本对象融合数据作为所述初始精彩度预测模型的样本引导序列；

在所述引导控制开关关闭时，不将所述样本对象融合数据作为所述初始精彩度预测模型的样本引导序列；

将所述样本对象融合数据为所述初始精彩度预测模型的样本引导序列时的结果或不将所述样本对象融合数据作为所述初始精彩度预测模型的样本引导序列时的结果，作为输入控制结果。

10.根据权利要求9所述的方法，其特征在于，所述引导数据控制开关集成在所述初始精彩度预测模型所包含的初始引导数据控制组件中；所述引导数据控制开关包含独立于所述引导控制开关的节点控制开关；

所述在所述输入控制结果指示所述样本对象融合数据为所述初始精彩度预测模型的样本引导序列时，通过所述引导数据控制开关配置所述样本引导序列的样本引导影响度，基于所述样本引导影响度对所述样本引导序列和所述样本编码特征序列进行序列融合，得到样本融合特征序列，且通过所述样本融合特征序列预测得到所述样本多媒体的第一预测精彩度标签，包括：

在所述输入控制结果指示所述样本对象融合数据为所述初始精彩度预测模型的样本引导序列时，将所述样本引导序列和所述样本编码特征序列输入所述初始引导数据控制组件，由所述初始引导数据控制组件中的所述节点控制开关配置所述样本引导序列的样本引导影响度；

基于所述样本引导影响度对所述样本引导序列和所述样本编码特征序列进行序列融合，得到样本融合特征序列；

通过所述样本融合特征序列预测得到所述样本多媒体的第一预测精彩度标签。

11.根据权利要求10所述的方法，其特征在于，所述由所述初始引导数据控制组件中的所述节点控制开关配置所述样本引导序列的样本引导影响度，包括：

在获取到所述节点控制开关配置的节点开关参数时，基于所述节点开关参数确定影响度范围；

由所述节点控制开关在所述影响度范围内获取所述样本引导序列的样本引导影响度。

12.根据权利要求10所述的方法，其特征在于，所述初始引导数据控制组件包含初始分类器；

所述通过所述样本融合特征序列预测得到所述样本多媒体的第一预测精彩度标签，包括：

将所述样本融合特征序列输入所述初始引导数据控制组件中的所述初始分类器，通过所述初始分类器对所述样本融合特征序列进行上下文信息提取，得到第一长短时上下文信息；

基于所述第一长短时上下文信息对所述样本融合特征序列进行分类预测，得到所述样本多媒体的第一预测精彩度标签。

13.根据权利要求1所述的方法，其特征在于，还包括：

在所述输入控制结果指示不将所述样本对象融合数据作为所述初始精彩度预测模型的样本引导序列时，通过所述样本编码特征序列预测得到所述样本多媒体的第二预测精彩度标签，且通过所述第二预测精彩度标签和所述样本精彩度标签，对所述初始精彩度预测模型进行迭代训练。

14.根据权利要求13所述的方法，其特征在于，所述引导数据控制开关集成在所述初始精彩度预测模型所包含的初始引导数据控制组件中；所述初始引导数据控制组件包含初始分类器；

所述在所述输入控制结果指示不将所述样本对象融合数据作为所述初始精彩度预测模型的样本引导序列时，通过所述样本编码特征序列预测得到所述样本多媒体的第二预测精彩度标签，包括：

在所述输入控制结果指示不将所述样本对象融合数据作为所述初始精彩度预测模型的样本引导序列时，将所述样本编码特征序列输入所述初始引导数据控制组件中的所述初始分类器，通过所述初始分类器对所述样本编码特征序列进行上下文信息提取，得到第二长短时上下文信息；

基于所述第二长短时上下文信息对所述样本编码特征序列进行分类预测，得到所述样本多媒体的第二预测精彩度标签。

15.一种数据处理方法，其特征在于，包括：

在获取到目标多媒体时，获取用于对所述目标多媒体的精彩度标签进行预测的目标精彩度预测模型；所述目标精彩度预测模型包含引导数据控制开关；

对所述目标多媒体进行媒体编码，得到用于表征所述目标多媒体的目标编码特征序列；

在获取到针对所述目标多媒体的目标对象数据时，对所述目标对象数据进行数据整合，得到用于表征所述目标对象数据的目标对象融合数据；

在将所述目标对象融合数据输入所述引导数据控制开关时，将所述目标对象融合数据作为所述目标精彩度预测模型的目标引导序列，通过所述引导数据控制开关配置所述目标引导序列的目标引导影响度，基于所述目标引导影响度对所述目标引导序列和所述目标编码特征序列进行序列融合，得到目标融合特征序列；

通过所述目标融合特征序列预测得到所述目标多媒体的第一目标精彩度标签，且基于所述第一目标精彩度标签确定所述目标多媒体的第一精彩程度，根据所述第一精彩程度获取所述目标多媒体的第一精彩片段。

16.根据权利要求15所述的方法，其特征在于，还包括：

在未获取到针对所述目标多媒体的目标对象数据时，通过所述目标编码特征序列预测得到所述目标多媒体的第二目标精彩度标签，基于所述第二目标精彩度标签确定所述目标多媒体的第二精彩程度，根据所述第二精彩程度获取所述目标多媒体的第二精彩片段。

17.一种数据处理装置，其特征在于，包括：

数据获取模块，用于获取用于训练初始精彩度预测模型的样本多媒体和所述样本多媒体的样本精彩度标签；所述初始精彩度预测模型包含引导数据控制开关；

数据整合模块，用于在获取到针对所述样本多媒体的样本对象数据时，对所述样本对象数据进行数据整合，得到用于表征所述样本对象数据的样本对象融合数据；

媒体编码模块，用于对所述样本多媒体进行媒体编码，得到用于表征所述样本多媒体的样本编码特征序列；

输入控制模块，用于对输入至所述引导数据控制开关中的所述样本对象融合数据进行输入控制，得到输入控制结果；

第一预测模块，用于在所述输入控制结果指示所述样本对象融合数据为所述初始精彩度预测模型的样本引导序列时，通过所述引导数据控制开关配置所述样本引导序列的样本引导影响度，基于所述样本引导影响度对所述样本引导序列和所述样本编码特征序列进行序列融合，得到样本融合特征序列，且通过所述样本融合特征序列预测得到所述样本多媒体的第一预测精彩度标签，通过所述第一预测精彩度标签和所述样本精彩度标签，对所述初始精彩度预测模型进行迭代训练，得到用于对目标多媒体的精彩度标签进行预测的目标精彩度预测模型。

18.一种数据处理装置，其特征在于，包括：

模型获取模块，用于在获取到目标多媒体时，获取用于对所述目标多媒体的精彩度标签进行预测的目标精彩度预测模型；所述目标精彩度预测模型包含引导数据控制开关；

数据编码模块，用于对所述目标多媒体进行媒体编码，得到用于表征所述目标多媒体的目标编码特征序列；

数据融合模块，用于在获取到针对所述目标多媒体的目标对象数据时，对所述目标对象数据进行数据整合，得到用于表征所述目标对象数据的目标对象融合数据；

序列融合模块，用于在将所述目标对象融合数据输入所述引导数据控制开关时，将所述目标对象融合数据作为所述目标精彩度预测模型的目标引导序列，通过所述引导数据控制开关配置所述目标引导序列的目标引导影响度，基于所述目标引导影响度对所述目标引导序列和所述目标编码特征序列进行序列融合，得到目标融合特征序列；

融合预测模块，用于通过所述目标融合特征序列预测得到所述目标多媒体的第一目标精彩度标签，且基于所述第一目标精彩度标签确定所述目标多媒体的第一精彩程度，根据所述第一精彩程度获取所述目标多媒体的第一精彩片段。

19.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与所述存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使所述计算机设备执行权利要求1-18任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使具有所述处理器的计算机设备执行权利要求1-18任一项所述的方法。