CN114005077B

CN114005077B - 观众评价数据驱动的无声产品视频创作辅助方法及装置

Info

Publication number: CN114005077B
Application number: CN202111644391.7A
Authority: CN
Inventors: 孙凌云; 鲁雨佳; 陈实; 王禹溪; 杨昌源
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-05-27
Anticipated expiration: 2041-12-30
Also published as: CN114005077A

Abstract

本发明公开了一种观众评价数据驱动的无声产品视频创作辅助方法，包括将视频初始样本集进行标签一致性筛选得到产品视频样本集，基于产品类别分为外观型和功能型产品视频样本集，并构建优质案例库，通过XGBoost方法构建评价预测模型，通过SHAP算法构建评价预测模型解释器，从优质案例库中筛选出匹配用户提供的素材、视频属性和产品类型的优质案例，通过预测模型解释器得到优质案例的优质特点以辅助用户完成视频创作，通过评价预测模型预测视频成片的评价结果，通过模型解释器获得视频成片SHAP值为负的特征以及特征优化的目标值域，辅助用户调整该特征的特征值完成视频成片的优化。该方法能够提供优质参考案例，并对用户制作的视频成片进行评估与优化提示。

Description

观众评价数据驱动的无声产品视频创作辅助方法及装置

技术领域

本发明属于计算机视觉和计算机辅助设计技术领域，具体涉及观众评价数据驱动的无声产品视频创作辅助方法及装置。

背景技术

随着互联网消费的升级，商家争取市场的方式不再只是“价格战”，而是转向消费体验提升。因此近几年直观丰富的产品视频逐渐成为电商平台中最盛行的产品展示方式。产品视频，又称主图视频，位于详情页的首屏，主要的作用是帮助消费者高效舒适地获取丰富深入的产品信息，从而推动购买决策。相较于以往电商平台的图文介绍，产品视频的信息承载量更大，也更符合人类对直观信息呈现的偏好。不同于娱乐平台用户偏好视听结合，购物平台中大部分消费者在购物时观看产品视频为静音观看，所以对于产品视频制作来说，无声状态下的视觉内容设计对信息的呈现非常重要。

然而，视频制作相对于图文介绍制作的门槛要更高，视频创作者除了要考虑画面的布局还需要考虑画面的顺序与呈现的时长。专业的创作者要完成一个优质的视频创作，需要花大量的精力去收集案例，收集整理素材，制作视频，做试播获取关注反馈，发现问题和迭代方案。但产品视频作为承载产品信息的载体，其生命周期取决于产品的销售时间。电商快迭代的特征导致了产品视频的生命周期很短，需求量大。但视频专业创作者有限，无法很好满足这样庞大的市场需求。所以有很多商家或新手也加入了产品视频制作中。但由于他们缺乏制作经验，在制作过程中往往会遇到不知如何开始制作、产出的效果如何、如何优化等挑战。

目前各大电商平台都以制作指南的方式为制作产品视频的创作者们提供案例参考，创作技巧和基本的视频属性要求。但大部分的内容都比较宽泛且固定，无法为创作者提供个性化的创作辅助，这让创作者在视频创作过程中很难正确的执行指南的内容。而在计算机视觉领域中已有的评估辅助视频制作的工作，主要针对社交平台的视频，预测美学、趣味、记忆度、创新度。但产品视频因其展示产品的目的和时间短、信息多的特点，对信息呈现有效性和观感舒适度有更强的要求。另外以往的方法主要完成了预测的评价结果的功能，无法向创作者提供不足的特征分析，因此很难帮助创作新手对视频进行优化，无法解决新手在生产过程中的实际问题，更多的是服务于平台的内容筛选。

亟需一种方法来降低创作者在产品视频创作过程中的挑战，帮助其在不需要借助消费者观看和专家指导的情况下对视频效果进行自检和优化。

发明内容

本发明提供了一种观众评价数据驱动的无声产品视频创作辅助方法，该方法能够为用户提供较为优质参考案例辅助用户进行视频创作，还能够对用户制作的视频成片进行观众评价的预测，并提供改进方向。

一种观众评价数据驱动的无声产品视频创作辅助方法，包括：

S1：对获得的产品视频初始样本集在静音播放下通过观众评价方式进行评价标签标记，评价标签为信息有用性标签和视觉舒适度标签，对产品视频初始样本集进行标签一致性筛选，基于筛选结果得到评价标签标注皆为好的产品视频初始样本作为第一产品视频样本，以及评价标签标注皆为不好的产品视频初始样本作为第二产品视频样本，根据第一产品视频样本和第二产品视频样本构建产品视频样本集，基于产品类型，将产品视频样本集分为外观型产品视频样本集和功能型产品视频样本集，从产品视频样本集中筛选出评价标签标注皆为好的产品视频样本作为优质案例，以构建优质案例库；

S2：将外观型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第一训练样本，将功能型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第二训练样本，将外观型产品视频样本集中每个样本的创作特征的特征值和视觉舒适度标签作为第三训练样本，将功能型产品视频样本集中每个样本的创作特征的特征值和视觉舒适度标签作为第四训练样本，将第一训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频信息有用性评价预测模型，将第二训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能信息有用性评价预测模型，将第三训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频视觉舒适度评价预测模型，将第四训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能视频视觉舒适度评价预测模型；

S3：利用SHAP算法获得每个评价预测模型的解释器，评价预测模型解释器的类型与评价预测模型的类型相对应，评价预测模型解释器用于利用SHAP算法对输入对应评价预测模型的创作特征的特征值赋予SHAP值来解释每个创作特征对模型预测结果的贡献；

S4：用户创作视频初期，接收用户提供的视频素材，以及用户选择的产品类型和视频属性特征，从优质案例库中筛选出产品类型相同且与视频属性特征相匹配的案例样本，将案例样本的素材特征的特征值和视频素材的素材特征的特征值进行特征值相似度比较，筛选出满足特征值相似度阈值的案例样本作为优质参考案例推荐给用户进行参考；

将优质参考案例的创作特征的特征值输入至对应产品类型的评价预测模型得到优质参考案例的视觉舒适度分数和信息有用性分数，通过对应评价模型解释器得到优质参考案例的每个创作特征的SHAP值，提取优质参考案例中SHAP值为正的创作特征，以及SHAP值为正的创作特征在对应产品类型的产品视频样本集中的为正的SHAP值对应的第一特征值域作为优质参考案例的优质特点，以辅助用户进行初期视频创作；

S5：用户创作视频迭代期，获得用户提供的视频成片和用户选择的产品类型，计算视频成片的创作特征的特征值，按照用户选择的产品类型，将视频成片创作特征的特征值输入至对应产品类型的两个评价预测模型，得到视觉舒适度分数和信息有用性分数，利用对应产品类型的评价预测模型解释器从视频成片创作特征中分别得到SHAP值为负的创作特征，以及 SHAP值为负的创作特征在对应产品类型的产品视频样本集每个样本中的SHAP值，筛选出在对应产品类型的产品视频样本集中的为正的SHAP值对应的第二特征值域，使得用户能够根据第二特征值域调整SHAP值为负的创作特征的特征值，以达到提高视觉舒适度分数和信息有用性分数的目的。

将产品视频样本集分为外观型产品视频样本集和功能型产品视频样本集，其中，外观型产品视频样本集包括服装、配饰产品视频；功能型产品视频样本集包括电器、数码、数码配件、个人护理、家居、食物和玩具产品视频。

对获得的产品视频初始样本集在静音播放下通过观众评价方式进行评价标签标记，包括：

在静音播放下用户采用七点量表基于信息有用性和视觉舒适度两个维度对产品视频初始样本进行打分，并对分值进行二值化，其中，1−5分为产品视频初始样本标记为不好，6−7分为产品视频初始样本标记为好，以完成对产品视频初始样本集的标签标记。

外观型产品视频样本、功能型产品视频样本、案例样本、优质参考案例、视频成片、视频素材均为无声产品视频；

外观型产品视频样本创作特征、功能型产品视频样本创作特征、优质参考案例创作特征、视频成片创作特征均包括视频属性特征、静态特征和动态特征；

视频属性特征包括时长、尺寸和帧率；

静态特征包括场景语义、场景丰富度、人体语义、画面纹理特征、画面色彩特征、文字尺寸和字幕量；

画面纹理特征包括主体清晰度、主体位置、景深、视觉焦点数；

画面色彩特征包括色调、暗色区域与亮色区域比例、色彩丰富度；

动态特征包括剪辑频率、剪辑起伏度、剪辑硬度、画面运动强度、画面运动复杂度、画面色彩变化度；

案例样本的素材特征和视频素材的素材特征均包括静态特征中的场景语义、人体语义、画面纹理特征、画面色彩特征。

提取静态特征的特征值，包括：

通过等帧距采样无声产品视频得到帧画面集，通过随机森林算法构建的场景识别模型对每个帧画面进行场景识别，将帧画面集中出现最多的场景标签作为创作特征中场景语义特征值，将帧画面集中出现的所有场景标签作为素材特征中的场景语义特征值，将帧画面集中出现场景的数量作为场景丰富度特征值；

通过YOLO物体识别方法识别出包含人体的帧画面，将包含人体的帧画面在帧画面集的占比作为创作特征中的人体语义特征值，将是否包含人体的布尔值作为素材特征中的人体语义特征值；

通过视觉显著性检测方法提取帧画面集主体区域，采用灰度方差乘积法计算每个帧画面中的主体区域和背景区域的清晰度，将帧画面集中主体区域的清晰度均值作为主体清晰度的特征值，将帧画面集中主体区域清晰度与背景区域清晰度比值的均值作为景深的特征值，将帧画面集中主体区域重心坐标分别与画面长宽相比得到的相对坐标的均值和方差作为主体位置的特征值；

通过光谱静态显著度算法提取每个帧画面的底层视觉显著刺激区域，并计算底层视觉显著刺激区域的数量作为每个帧画面的视觉焦点数，计算帧画面集中的视觉焦点数均值作为视觉焦点数的特征值；

通过计算帧画面集中像素点色相值的均值作为色调的特征值；

通过阴影阈值将帧画面划分成暗色区域与亮色区域，计算帧画面集中的暗色区域与亮色区域的比值的均值作为暗色区域与亮色区域比例的特征值；

通过OpenCV中的色彩丰富度算法提取帧画面集中的色彩丰富度均值作为色彩丰富度的特征值；

将通过百度OCR识别方法得到包含字幕的帧画面在帧画面集中的占比作为字幕量的特征值，计算帧画面集中的文字在每个帧画面的面积占比均值作为文字尺寸的特征值。

通过随机森林算法构建的场景识别模型对帧画面集进行场景识别，包括：

收集了无声产品视频的帧图像集作为场景识别数据集，对场景识别数据集中的每个帧图像进行场景标签标记，场景标签为室内、室外和影棚，将场景标签、场景识别数据集中样本的灰度共生矩阵特征特征值和HSV颜色矩特征特征值作为场景识别训练样本，将场景识别训练样本输入至随机森林算法，采用五折交叉验证的网格搜索方法确定随机森林算法参数，以构建场景识别模型。

提取动态特征的特征值，包括：

通过dHASH算法得到每个帧画面间的差异值，基于设定的差异值阈值将无声产品视频切分为多个镜头，将镜头时长标准差作为剪辑起伏度特征值，将每分钟镜头切换次数作为剪辑频率特征值，将镜头间相邻帧画面间的差异值均值作为剪辑硬度特征值；

通过calcOpticalFlowFarneback稠密光流法计算帧画面集中所有相邻帧画面间的运动矢量的均值作为画面运动强度特征值，所有相邻帧画面间的运动矢量的方向熵的均值作为画面运动复杂度特征值；

通过视觉兴奋度算法计算得到在LUV色彩空间上帧画面集中所有相邻帧画面间的平方差的均值作为画面色彩变化度特征值。

特征值相似度阈值包括场景语义特征值相似度阈值、人体语义特征值相似度阈值、画面色彩特征值相似度阈值与画面纹理特征值相似度阈值；

其中，场景语义特征值相似度阈值为视频素材的场景语义与案例样本的场景语义相重合的场景数量占案例样本的场景数量的比例阈值；

人体语义特征值相似度阈值为视频素材中人体语义出现与否的布尔值与案例样本中人体语义出现与否的布尔值的匹配阈值；

画面色彩特征值相似度阈值为视频素材的画面色彩特征的特征值与案例样本的画面色彩特征的特征值的欧式距离阈值；

画面纹理特征值相似度阈值为视频素材的画面纹理特征的特征值与案例样本的画面纹理特征的特征值的欧式距离阈值。

信息有用性分数S1为：

S1=a1 *100

其中，a1为信息有用性模型输出结果为好的概率；

视觉舒适度分数S2为：

S2=a2*100

其中，a2为视觉舒适度模型输出结果为好的概率。

一种观众评价数据驱动的无声产品视频创作辅助装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现的观众评价数据驱动的无声产品视频创作辅助。

与现有技术相比，本发明的有益效果为：

（1）本发明通过观众评价构建优质案例库，并从优质案例库中筛选出与用户提供的视频素材、产品类型和视频属性特征相匹配的优质参考案例推荐给用户，并通过评价预测模型和评价预测模型解释器，分析得到优质参考案例的视觉舒适度和信息有用性的评价分数，以及优质参考案例的每个创作特征对评价分数的贡献，和每个SHAP值至为正的创作特征在对应产品类型的产品视频样本集的正的SHAP值对应的第一特征值域，以帮助用户对优质参考案例中的创作特征进行分析，以辅助用户进行初期视频创作，降低创作者在产品视频创作过程中的挑战。

（2）本发明利用评价预测模型对用户创作的视频成片进行视觉舒适度和信息有用性打分，以完成对视频效果的自检，并通过评价预测模型解释器得到视频成片的创作特征的SHAP值，以得到各个创作特征对评价分数的贡献，筛选出SHAP值为负的创作特征，并通过提供SHAP值为负的创作特征在对应产品类型的产品视频样本集中的特征值域来提示用户如何调整SHAP值为负的创作特征的特征值以达到优化视频成片的目的。

附图说明

图1为本发明具体实施方式提供的观众评价数据驱动的无声产品视频创作辅助方法的流程示意图；

图2为本发明具体实施方式提供的利用SHAP算法计算创作特征的SHAP值与创作特征的特征值之间映射关系的原理示意图。

具体实施方式

本发明提供了一种观众评价数据驱动的无声产品视频创作辅助方法，如图1所示，具体步骤为：

S1：构建产品视频样本集以及优质案例库，对获得的产品视频初始样本集在静音播放下通过观众评价方式进行评价标签标记，具体步骤为：通过众包平台召集观众，观众被要求在静音下观看产品视频初始样本集，并通过7点量表对产品视频样本的信息有用性和视觉舒适度进行标注，每个产品视频样本至少收集3人以上的标注数据；

评价标签为信息有用性标签和视觉舒适度标签，其中，信息有用性即观众能通过视频获取到有关产品的有用信息来帮助购买决策的程度；视觉舒适度即观众在从视频中获取信息的过程中视觉感知的舒缓程度和清晰程度；

标注数据处理，为了筛选出有共识的产品视频样本，对产品视频初始样本集中的标注数据进行处理：首先对标注数据进行二值化，其中，1−5分为产品视频初始样本标记为不好，6−7分为产品视频初始样本标记为好，以完成对产品视频初始样本集的标签标记；然后计算二值化后标注数据的一致性，取100%一致的标注数据作为产品视频样本集。标签一致性筛选的方法， 3个观众对产品视频初始样本的信息有用性和视觉舒适度标记结果都一致时，该产品视频初始样本为一致产品视频初始样本，筛选出所有一致产品视频初始样本作为产品视频样本集，基于产品类型，将产品视频样本集分为外观型产品视频样本集和功能型产品视频样本集，向产品视频样本集中筛选出评价标签标注皆为好的产品视频样本作为优质案例，以构建优质案例库；

其中，产品视频初始样本集来自电商详情页，视频时长从10s到2min，包括服装、配饰、电器、数码、数码配件、个人护理、家居、食物和玩具；其中服装和配饰的产品类型为外观型产品视频样本集，电器、数码、数码配件、个人护理、家居、食物和玩具的产品类型为功能型产品视频样本集。

S2：利用XGBoost模型构建四种类型的评价预测模型，将外观型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第一训练样本，将功能型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第二训练样本，将外观型产品视频样本集每个样本的创作特征的特征值和视觉舒适度标签作为第三训练样本，将第一训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频信息有用性评价预测模型，将第二训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能信息有用性评价预测模型，将第三训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频视觉舒适度评价预测模型，将第四训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能视频视觉舒适度评价预测模型；； XGBoost模型的参数包括组成XGBoost的学习率、树的最大深度、最小子节点样本权重和、节点分裂所需的损失函数下降最小值、每棵树的随机采样比、每棵树的列采样比、L1正则化项。

S3：利用SHAP算法获得每个评价预测模型的解释器，评价预测模型解释器的类型与评价预测模型的类型相对应，评价预测模型解释器用于利用SHAP算法对输入对应评价预测模型的创作特征的特征值赋予SHAP值来解释每个创作特征对模型预测结果的贡献。

S4：辅助用户创作初期视频，接收用户提供的视频素材，以及用户选择的产品类型和视频属性特征，从优质案例库中筛选出产品类型相同且与视频属性特征相匹配的案例样本，将案例样本的素材特征的特征值和视频素材的素材特征的特征值进行特征值相似度比较，筛选出满足特征值相似度阈值的案例样本作为优质参考案例推荐给用户进行参考，素材特征包括场景语义、人体语义、画面色彩特征与纹理特征。

将优质参考案例的创作特征的特征值输入至对应产品类型的评价预测模型得到优质参考案例的视觉舒适度分数和信息有用性分数，通过对应评价模型解释器得到优质参考案例的每个创作特征的SHAP值，提取优质参考案例中SHAP值为正的创作特征，以及SHAP值为正的创作特征在对应产品类型的产品视频样本集中的为正的SHAP值对应的第一特征值域，以辅助用户进行初期视频创作；

特征值相似度阈值包括场景语义特征值相似度阈值、人体语义特征值相似度阈值、画面色彩特征与纹理特征值相似度阈值；

画面色彩特征相似度阈值为视频素材的画面色彩特征的特征值与案例样本的画面色彩特征的特征值的欧式距离阈值；

画面纹理特征相似度阈值为视频素材的画面纹理特征的特征值与案例样本的画面纹理特征的特征值的欧式距离阈值；

信息有用性分数S1为：

S1=a1 *100

其中，a1为信息有用性模型输出结果为好的概率；

视觉舒适度分数S2为：

S2=a2*100

其中，a2为视觉舒适度模型输出结果为好的概率。

S5：辅助用户完成视频成片的优化，获得用户提供的视频成片和用户选择的产品类型，计算视频成片的创作特征的特征值，按照用户选择的产品类型，将视频成片创作特征的特征值输入至对应产品类型的两个评价预测模型，即对应产品类型的视频信息有用性评价预测模型或对应产品类型的视频视觉舒适度评价预测模型，得到视觉舒适度分数和信息有用性分数，利用对应产品类型的评价预测模型解释器从视频成片创作特征中分别得到SHAP值为负的创作特征，以及 SHAP值为负的创作特征在对应产品类型的产品视频样本集每个样本中的SHAP值，筛选出在对应产品类型的产品视频样本集中的为正的SHAP值对应的第二特征值域，使得用户能够根据第二特征值域调整SHAP值为负的创作特征的特征值，以达到提高视觉舒适度分数和信息有用性分数的目的，完成对用户的视频成片的优化。

每个创作特征的特征值对应一个SHAP值，SHAP值为负表示该创作特征需要改进，SHAP值为正说明对评价预测模型得到的评价分数做出了正向贡献，如图2的A所示，f（x）为目标视频样本x的模型预测值，为模型中所有训练样本的模型预测值均值E[f（x）]与目标视频样本x的所有创作特征的SHAP值的加和，时长这一创作特征的特征值为9.967，SHAP值为-2.02，是该视频成片创作特征中SHAP值最低的特征，提取时长这一创作特征，如图2的B所示，通过SHAP算法得到在产品视频样本集中时长这一创作特征的SHAP值为正的特征值域（B中浅灰色的点群所处的特征值区间），根据特征值域调整时长这一创作特征的特征值，以达到优化视频成片的目的；

字幕量这一创作特征的特征值为0.01，SHAP值为1.37，是视频成片创作特征中SHAP值最高的特征，提取字幕量这一创作特征，如图2的C所示，通过SHAP算法得到在产品视频样本集中，字幕量这一创作特征的SHAP值为正的特征值域（C中浅灰色的点群所处的特征值区间），得到该视频成片的优质特点。

其中，外观型产品视频样本、功能型产品视频样本、案例样本、优质参考案例、视频成片、视频素材均为无声产品视频；

视频属性特征包括时长、尺寸和帧率；

提取静态特征的特征值，包括：

通过光谱静态显著度算法提取每个帧画面的底层视觉显著刺激区域，并计算刺激区域的数量作为每个帧画面的视觉焦点数，计算帧画面集中的视觉焦点数均值作为视觉焦点数的特征值；

提取动态特征的特征值，包括：

通过calcOpticalFlowFarneback稠密光流法计算的帧画面集中所有相邻帧画面间的运动矢量的均值和方向熵的均值分别作为画面运动强度特征值和画面运动杂度特征值；

通过视觉兴奋度计算得到在LUV色彩空间上帧画面集中所有相邻帧画面间的平方差的均值作为画面色彩变化度特征值。

特征值相似度阈值包括场景语义特征值相似度阈值、人体语义特征值相似度阈值、画面色彩特征值相似度与画面纹理特征值相似度阈值；

一种观众评价数据驱动的无声产品视频创作辅助装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现观众评价数据驱动的无声产品视频创作辅助方法。

Claims

1.一种观众评价数据驱动的无声产品视频创作辅助方法，其特征在于，包括：

S1：对获得的产品视频初始样本集在静音播放下通过观众评价方式进行评价标签标记，评价标签为信息有用性标签和视觉舒适度标签，对产品视频初始样本集进行标签一致性筛选，基于筛选结果得到评价标签标注皆为好的产品视频初始样本作为第一产品视频样本，以及评价标签标注皆为不好的产品视频初始样本作为第二产品视频样本，根据第一产品视频样本和第二产品视频样本构建产品视频样本集，基于产品类型，将产品视频样本集分为外观型产品视频样本集和功能型产品视频样本集，将产品视频样本集中的第一产品视频样本作为优质案例，以构建优质案例库；

S2：将外观型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第一训练样本，将功能型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第二训练样本，将外观型产品视频样本集中每个样本的创作特征的特征值和视觉舒适度标签作为第三训练样本，将功能型产品视频样本集中每个样本的创作特征的特征值和视觉舒适度标签作为第四训练样本，将第一训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频信息有用性评价预测模型，将第二训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能视频信息有用性评价预测模型，将第三训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频视觉舒适度评价预测模型，将第四训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能视频视觉舒适度评价预测模型；

S5：用户创作视频迭代期，获得用户提供的视频成片和用户选择的产品类型，计算视频成片的创作特征的特征值，按照用户选择的产品类型，将视频成片创作特征的特征值输入至对应产品类型的评价预测模型，得到视觉舒适度分数和信息有用性分数，利用对应产品类型的评价预测模型解释器从视频成片创作特征中分别得到SHAP值为负的创作特征，以及SHAP值为负的创作特征在对应产品类型的产品视频样本集中的SHAP值，筛选出在对应产品类型的产品视频样本集中的为正的SHAP值对应的第二特征值域，使得用户能够根据第二特征值域调整SHAP值为负的创作特征的特征值，以达到提高视觉舒适度分数和信息有用性分数的目的。

2.根据权利要求1所述的观众评价数据驱动的无声产品视频创作辅助方法，其特征在于，将产品视频样本集分为外观型产品视频样本集和功能型产品视频样本集，其中，外观型产品视频样本集包括服装、配饰产品视频；功能型产品视频样本集包括电器、数码、数码配件、个人护理、家居、食物和玩具产品视频。

3.根据权利要求1所述的观众评价数据驱动的无声产品视频创作辅助方法，其特征在于，对获得的产品视频初始样本集在静音播放下通过观众评价方式进行评价标签标记，包括：

4.根据权利要求1所述的观众评价数据驱动的无声产品视频创作辅助方法，其特征在于，外观型产品视频样本、功能型产品视频样本、案例样本、优质参考案例、视频成片、视频素材均为无声产品视频；

视频属性特征包括时长、尺寸和帧率；

5.根据权利要求4所述的观众评价数据驱动的无声产品视频创作辅助方法，其特征在于，提取静态特征的特征值，包括：

通过等帧距采样无声产品视频得到帧画面集，通过随机森林算法构建的场景识别模型对每个帧画面进行场景识别，将帧画面集中出现最多的场景标签作为创作特征中的场景语义特征值，将帧画面集中出现的所有场景标签作为素材特征中的场景语义特征值，将帧画面集中出现场景的数量作为场景丰富度特征值；

6.根据权利要求5所述的观众评价数据驱动的无声产品视频创作辅助方法，其特征在于，通过随机森林算法构建的场景识别模型对帧画面集进行场景识别，包括：

7.根据权利要求5所述的观众评价数据驱动的无声产品视频创作辅助方法，其特征在于，提取动态特征的特征值，包括：

8.根据权利要求5所述的观众评价数据驱动的无声产品视频创作辅助方法，其特征在于，特征值相似度阈值包括场景语义特征值相似度阈值、人体语义特征值相似度阈值、画面色彩特征值相似度阈值与画面纹理特征值相似度阈值；

9.根据权利要求1所述的观众评价数据驱动的无声产品视频创作辅助方法，其特征在于，信息有用性分数S₁为：

S₁=a₁ *100

其中，a₁为信息有用性模型输出结果为好的概率；

视觉舒适度分数S₂为：

S₂=a₂*100

其中，a₂为视觉舒适度模型输出结果为好的概率。

10.一种观众评价数据驱动的无声产品视频创作辅助装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，其特征在于，处理器执行计算机程序时实现权利要求1~9任一项所述的观众评价数据驱动的无声产品视频创作辅助方法。