CN114005077B - 观众评价数据驱动的无声产品视频创作辅助方法及装置 - Google Patents
观众评价数据驱动的无声产品视频创作辅助方法及装置 Download PDFInfo
- Publication number
- CN114005077B CN114005077B CN202111644391.7A CN202111644391A CN114005077B CN 114005077 B CN114005077 B CN 114005077B CN 202111644391 A CN202111644391 A CN 202111644391A CN 114005077 B CN114005077 B CN 114005077B
- Authority
- CN
- China
- Prior art keywords
- video
- product
- value
- characteristic
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种观众评价数据驱动的无声产品视频创作辅助方法,包括将视频初始样本集进行标签一致性筛选得到产品视频样本集,基于产品类别分为外观型和功能型产品视频样本集,并构建优质案例库,通过XGBoost方法构建评价预测模型,通过SHAP算法构建评价预测模型解释器,从优质案例库中筛选出匹配用户提供的素材、视频属性和产品类型的优质案例,通过预测模型解释器得到优质案例的优质特点以辅助用户完成视频创作,通过评价预测模型预测视频成片的评价结果,通过模型解释器获得视频成片SHAP值为负的特征以及特征优化的目标值域,辅助用户调整该特征的特征值完成视频成片的优化。该方法能够提供优质参考案例,并对用户制作的视频成片进行评估与优化提示。
Description
技术领域
本发明属于计算机视觉和计算机辅助设计技术领域,具体涉及观众评价数据驱动的无声产品视频创作辅助方法及装置。
背景技术
随着互联网消费的升级,商家争取市场的方式不再只是“价格战”,而是转向消费体验提升。因此近几年直观丰富的产品视频逐渐成为电商平台中最盛行的产品展示方式。产品视频,又称主图视频,位于详情页的首屏,主要的作用是帮助消费者高效舒适地获取丰富深入的产品信息,从而推动购买决策。相较于以往电商平台的图文介绍,产品视频的信息承载量更大,也更符合人类对直观信息呈现的偏好。不同于娱乐平台用户偏好视听结合,购物平台中大部分消费者在购物时观看产品视频为静音观看,所以对于产品视频制作来说,无声状态下的视觉内容设计对信息的呈现非常重要。
然而,视频制作相对于图文介绍制作的门槛要更高,视频创作者除了要考虑画面的布局还需要考虑画面的顺序与呈现的时长。专业的创作者要完成一个优质的视频创作,需要花大量的精力去收集案例,收集整理素材,制作视频,做试播获取关注反馈,发现问题和迭代方案。但产品视频作为承载产品信息的载体,其生命周期取决于产品的销售时间。电商快迭代的特征导致了产品视频的生命周期很短,需求量大。但视频专业创作者有限,无法很好满足这样庞大的市场需求。所以有很多商家或新手也加入了产品视频制作中。但由于他们缺乏制作经验,在制作过程中往往会遇到不知如何开始制作、产出的效果如何、如何优化等挑战。
目前各大电商平台都以制作指南的方式为制作产品视频的创作者们提供案例参考,创作技巧和基本的视频属性要求。但大部分的内容都比较宽泛且固定,无法为创作者提供个性化的创作辅助,这让创作者在视频创作过程中很难正确的执行指南的内容。而在计算机视觉领域中已有的评估辅助视频制作的工作,主要针对社交平台的视频,预测美学、趣味、记忆度、创新度。但产品视频因其展示产品的目的和时间短、信息多的特点,对信息呈现有效性和观感舒适度有更强的要求。另外以往的方法主要完成了预测的评价结果的功能,无法向创作者提供不足的特征分析,因此很难帮助创作新手对视频进行优化,无法解决新手在生产过程中的实际问题,更多的是服务于平台的内容筛选。
亟需一种方法来降低创作者在产品视频创作过程中的挑战,帮助其在不需要借助消费者观看和专家指导的情况下对视频效果进行自检和优化。
发明内容
本发明提供了一种观众评价数据驱动的无声产品视频创作辅助方法,该方法能够为用户提供较为优质参考案例辅助用户进行视频创作,还能够对用户制作的视频成片进行观众评价的预测,并提供改进方向。
一种观众评价数据驱动的无声产品视频创作辅助方法,包括:
S1:对获得的产品视频初始样本集在静音播放下通过观众评价方式进行评价标签标记,评价标签为信息有用性标签和视觉舒适度标签,对产品视频初始样本集进行标签一致性筛选,基于筛选结果得到评价标签标注皆为好的产品视频初始样本作为第一产品视频样本,以及评价标签标注皆为不好的产品视频初始样本作为第二产品视频样本,根据第一产品视频样本和第二产品视频样本构建产品视频样本集,基于产品类型,将产品视频样本集分为外观型产品视频样本集和功能型产品视频样本集,从产品视频样本集中筛选出评价标签标注皆为好的产品视频样本作为优质案例,以构建优质案例库;
S2:将外观型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第一训练样本,将功能型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第二训练样本,将外观型产品视频样本集中每个样本的创作特征的特征值和视觉舒适度标签作为第三训练样本,将功能型产品视频样本集中每个样本的创作特征的特征值和视觉舒适度标签作为第四训练样本,将第一训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频信息有用性评价预测模型,将第二训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能信息有用性评价预测模型,将第三训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频视觉舒适度评价预测模型,将第四训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能视频视觉舒适度评价预测模型;
S3:利用SHAP算法获得每个评价预测模型的解释器,评价预测模型解释器的类型与评价预测模型的类型相对应,评价预测模型解释器用于利用SHAP算法对输入对应评价预测模型的创作特征的特征值赋予SHAP值来解释每个创作特征对模型预测结果的贡献;
S4:用户创作视频初期,接收用户提供的视频素材,以及用户选择的产品类型和视频属性特征,从优质案例库中筛选出产品类型相同且与视频属性特征相匹配的案例样本,将案例样本的素材特征的特征值和视频素材的素材特征的特征值进行特征值相似度比较,筛选出满足特征值相似度阈值的案例样本作为优质参考案例推荐给用户进行参考;
将优质参考案例的创作特征的特征值输入至对应产品类型的评价预测模型得到优质参考案例的视觉舒适度分数和信息有用性分数,通过对应评价模型解释器得到优质参考案例的每个创作特征的SHAP值,提取优质参考案例中SHAP值为正的创作特征,以及SHAP值为正的创作特征在对应产品类型的产品视频样本集中的为正的SHAP值对应的第一特征值域作为优质参考案例的优质特点,以辅助用户进行初期视频创作;
S5:用户创作视频迭代期,获得用户提供的视频成片和用户选择的产品类型,计算视频成片的创作特征的特征值,按照用户选择的产品类型,将视频成片创作特征的特征值输入至对应产品类型的两个评价预测模型,得到视觉舒适度分数和信息有用性分数,利用对应产品类型的评价预测模型解释器从视频成片创作特征中分别得到SHAP值为负的创作特征,以及 SHAP值为负的创作特征在对应产品类型的产品视频样本集每个样本中的SHAP值,筛选出在对应产品类型的产品视频样本集中的为正的SHAP值对应的第二特征值域,使得用户能够根据第二特征值域调整SHAP值为负的创作特征的特征值,以达到提高视觉舒适度分数和信息有用性分数的目的。
将产品视频样本集分为外观型产品视频样本集和功能型产品视频样本集,其中,外观型产品视频样本集包括服装、配饰产品视频;功能型产品视频样本集包括电器、数码、数码配件、个人护理、家居、食物和玩具产品视频。
对获得的产品视频初始样本集在静音播放下通过观众评价方式进行评价标签标记,包括:
在静音播放下用户采用七点量表基于信息有用性和视觉舒适度两个维度对产品视频初始样本进行打分,并对分值进行二值化,其中,1−5分为产品视频初始样本标记为不好,6−7分为产品视频初始样本标记为好,以完成对产品视频初始样本集的标签标记。
外观型产品视频样本、功能型产品视频样本、案例样本、优质参考案例、视频成片、视频素材均为无声产品视频;
外观型产品视频样本创作特征、功能型产品视频样本创作特征、优质参考案例创作特征、视频成片创作特征均包括视频属性特征、静态特征和动态特征;
视频属性特征包括时长、尺寸和帧率;
静态特征包括场景语义、场景丰富度、人体语义、画面纹理特征、画面色彩特征、文字尺寸和字幕量;
画面纹理特征包括主体清晰度、主体位置、景深、视觉焦点数;
画面色彩特征包括色调、暗色区域与亮色区域比例、色彩丰富度;
动态特征包括剪辑频率、剪辑起伏度、剪辑硬度、画面运动强度、画面运动复杂度、画面色彩变化度;
案例样本的素材特征和视频素材的素材特征均包括静态特征中的场景语义、人体语义、画面纹理特征、画面色彩特征。
提取静态特征的特征值,包括:
通过等帧距采样无声产品视频得到帧画面集,通过随机森林算法构建的场景识别模型对每个帧画面进行场景识别,将帧画面集中出现最多的场景标签作为创作特征中场景语义特征值,将帧画面集中出现的所有场景标签作为素材特征中的场景语义特征值,将帧画面集中出现场景的数量作为场景丰富度特征值;
通过YOLO物体识别方法识别出包含人体的帧画面,将包含人体的帧画面在帧画面集的占比作为创作特征中的人体语义特征值,将是否包含人体的布尔值作为素材特征中的人体语义特征值;
通过视觉显著性检测方法提取帧画面集主体区域,采用灰度方差乘积法计算每个帧画面中的主体区域和背景区域的清晰度,将帧画面集中主体区域的清晰度均值作为主体清晰度的特征值,将帧画面集中主体区域清晰度与背景区域清晰度比值的均值作为景深的特征值,将帧画面集中主体区域重心坐标分别与画面长宽相比得到的相对坐标的均值和方差作为主体位置的特征值;
通过光谱静态显著度算法提取每个帧画面的底层视觉显著刺激区域,并计算底层视觉显著刺激区域的数量作为每个帧画面的视觉焦点数,计算帧画面集中的视觉焦点数均值作为视觉焦点数的特征值;
通过计算帧画面集中像素点色相值的均值作为色调的特征值;
通过阴影阈值将帧画面划分成暗色区域与亮色区域,计算帧画面集中的暗色区域与亮色区域的比值的均值作为暗色区域与亮色区域比例的特征值;
通过OpenCV中的色彩丰富度算法提取帧画面集中的色彩丰富度均值作为色彩丰富度的特征值;
将通过百度OCR识别方法得到包含字幕的帧画面在帧画面集中的占比作为字幕量的特征值,计算帧画面集中的文字在每个帧画面的面积占比均值作为文字尺寸的特征值。
通过随机森林算法构建的场景识别模型对帧画面集进行场景识别,包括:
收集了无声产品视频的帧图像集作为场景识别数据集,对场景识别数据集中的每个帧图像进行场景标签标记,场景标签为室内、室外和影棚,将场景标签、场景识别数据集中样本的灰度共生矩阵特征特征值和HSV颜色矩特征特征值作为场景识别训练样本,将场景识别训练样本输入至随机森林算法,采用五折交叉验证的网格搜索方法确定随机森林算法参数,以构建场景识别模型。
提取动态特征的特征值,包括:
通过dHASH算法得到每个帧画面间的差异值,基于设定的差异值阈值将无声产品视频切分为多个镜头,将镜头时长标准差作为剪辑起伏度特征值,将每分钟镜头切换次数作为剪辑频率特征值,将镜头间相邻帧画面间的差异值均值作为剪辑硬度特征值;
通过calcOpticalFlowFarneback稠密光流法计算帧画面集中所有相邻帧画面间的运动矢量的均值作为画面运动强度特征值,所有相邻帧画面间的运动矢量的方向熵的均值作为画面运动复杂度特征值;
通过视觉兴奋度算法计算得到在LUV色彩空间上帧画面集中所有相邻帧画面间的平方差的均值作为画面色彩变化度特征值。
特征值相似度阈值包括场景语义特征值相似度阈值、人体语义特征值相似度阈值、画面色彩特征值相似度阈值与画面纹理特征值相似度阈值;
其中,场景语义特征值相似度阈值为视频素材的场景语义与案例样本的场景语义相重合的场景数量占案例样本的场景数量的比例阈值;
人体语义特征值相似度阈值为视频素材中人体语义出现与否的布尔值与案例样本中人体语义出现与否的布尔值的匹配阈值;
画面色彩特征值相似度阈值为视频素材的画面色彩特征的特征值与案例样本的画面色彩特征的特征值的欧式距离阈值;
画面纹理特征值相似度阈值为视频素材的画面纹理特征的特征值与案例样本的画面纹理特征的特征值的欧式距离阈值。
信息有用性分数S1为:
S1=a1 *100
其中,a1为信息有用性模型输出结果为好的概率;
视觉舒适度分数S2为:
S2=a2*100
其中,a2为视觉舒适度模型输出结果为好的概率。
一种观众评价数据驱动的无声产品视频创作辅助装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现的观众评价数据驱动的无声产品视频创作辅助。
与现有技术相比,本发明的有益效果为:
(1)本发明通过观众评价构建优质案例库,并从优质案例库中筛选出与用户提供的视频素材、产品类型和视频属性特征相匹配的优质参考案例推荐给用户,并通过评价预测模型和评价预测模型解释器,分析得到优质参考案例的视觉舒适度和信息有用性的评价分数,以及优质参考案例的每个创作特征对评价分数的贡献,和每个SHAP值至为正的创作特征在对应产品类型的产品视频样本集的正的SHAP值对应的第一特征值域,以帮助用户对优质参考案例中的创作特征进行分析,以辅助用户进行初期视频创作,降低创作者在产品视频创作过程中的挑战。
(2)本发明利用评价预测模型对用户创作的视频成片进行视觉舒适度和信息有用性打分,以完成对视频效果的自检,并通过评价预测模型解释器得到视频成片的创作特征的SHAP值,以得到各个创作特征对评价分数的贡献,筛选出SHAP值为负的创作特征,并通过提供SHAP值为负的创作特征在对应产品类型的产品视频样本集中的特征值域来提示用户如何调整SHAP值为负的创作特征的特征值以达到优化视频成片的目的。
附图说明
图1为本发明具体实施方式提供的观众评价数据驱动的无声产品视频创作辅助方法的流程示意图;
图2为本发明具体实施方式提供的利用SHAP算法计算创作特征的SHAP值与创作特征的特征值之间映射关系的原理示意图。
具体实施方式
本发明提供了一种观众评价数据驱动的无声产品视频创作辅助方法,如图1所示,具体步骤为:
S1:构建产品视频样本集以及优质案例库,对获得的产品视频初始样本集在静音播放下通过观众评价方式进行评价标签标记,具体步骤为:通过众包平台召集观众,观众被要求在静音下观看产品视频初始样本集,并通过7点量表对产品视频样本的信息有用性和视觉舒适度进行标注,每个产品视频样本至少收集3人以上的标注数据;
评价标签为信息有用性标签和视觉舒适度标签,其中,信息有用性即观众能通过视频获取到有关产品的有用信息来帮助购买决策的程度;视觉舒适度即观众在从视频中获取信息的过程中视觉感知的舒缓程度和清晰程度;
标注数据处理,为了筛选出有共识的产品视频样本,对产品视频初始样本集中的标注数据进行处理:首先对标注数据进行二值化,其中,1−5分为产品视频初始样本标记为不好,6−7分为产品视频初始样本标记为好,以完成对产品视频初始样本集的标签标记;然后计算二值化后标注数据的一致性,取100%一致的标注数据作为产品视频样本集。标签一致性筛选的方法, 3个观众对产品视频初始样本的信息有用性和视觉舒适度标记结果都一致时,该产品视频初始样本为一致产品视频初始样本,筛选出所有一致产品视频初始样本作为产品视频样本集,基于产品类型,将产品视频样本集分为外观型产品视频样本集和功能型产品视频样本集,向产品视频样本集中筛选出评价标签标注皆为好的产品视频样本作为优质案例,以构建优质案例库;
其中,产品视频初始样本集来自电商详情页,视频时长从10s到2min,包括服装、配饰、电器、数码、数码配件、个人护理、家居、食物和玩具;其中服装和配饰的产品类型为外观型产品视频样本集,电器、数码、数码配件、个人护理、家居、食物和玩具的产品类型为功能型产品视频样本集。
S2:利用XGBoost模型构建四种类型的评价预测模型,将外观型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第一训练样本,将功能型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第二训练样本,将外观型产品视频样本集每个样本的创作特征的特征值和视觉舒适度标签作为第三训练样本,将第一训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频信息有用性评价预测模型,将第二训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能信息有用性评价预测模型,将第三训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频视觉舒适度评价预测模型,将第四训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能视频视觉舒适度评价预测模型;; XGBoost模型的参数包括组成XGBoost的学习率、树的最大深度、最小子节点样本权重和、节点分裂所需的损失函数下降最小值、每棵树的随机采样比、每棵树的列采样比、L1正则化项。
S3:利用SHAP算法获得每个评价预测模型的解释器,评价预测模型解释器的类型与评价预测模型的类型相对应,评价预测模型解释器用于利用SHAP算法对输入对应评价预测模型的创作特征的特征值赋予SHAP值来解释每个创作特征对模型预测结果的贡献。
S4:辅助用户创作初期视频,接收用户提供的视频素材,以及用户选择的产品类型和视频属性特征,从优质案例库中筛选出产品类型相同且与视频属性特征相匹配的案例样本,将案例样本的素材特征的特征值和视频素材的素材特征的特征值进行特征值相似度比较,筛选出满足特征值相似度阈值的案例样本作为优质参考案例推荐给用户进行参考,素材特征包括场景语义、人体语义、画面色彩特征与纹理特征。
将优质参考案例的创作特征的特征值输入至对应产品类型的评价预测模型得到优质参考案例的视觉舒适度分数和信息有用性分数,通过对应评价模型解释器得到优质参考案例的每个创作特征的SHAP值,提取优质参考案例中SHAP值为正的创作特征,以及SHAP值为正的创作特征在对应产品类型的产品视频样本集中的为正的SHAP值对应的第一特征值域,以辅助用户进行初期视频创作;
特征值相似度阈值包括场景语义特征值相似度阈值、人体语义特征值相似度阈值、画面色彩特征与纹理特征值相似度阈值;
其中,场景语义特征值相似度阈值为视频素材的场景语义与案例样本的场景语义相重合的场景数量占案例样本的场景数量的比例阈值;
人体语义特征值相似度阈值为视频素材中人体语义出现与否的布尔值与案例样本中人体语义出现与否的布尔值的匹配阈值;
画面色彩特征相似度阈值为视频素材的画面色彩特征的特征值与案例样本的画面色彩特征的特征值的欧式距离阈值;
画面纹理特征相似度阈值为视频素材的画面纹理特征的特征值与案例样本的画面纹理特征的特征值的欧式距离阈值;
信息有用性分数S1为:
S1=a1 *100
其中,a1为信息有用性模型输出结果为好的概率;
视觉舒适度分数S2为:
S2=a2*100
其中,a2为视觉舒适度模型输出结果为好的概率。
S5:辅助用户完成视频成片的优化,获得用户提供的视频成片和用户选择的产品类型,计算视频成片的创作特征的特征值,按照用户选择的产品类型,将视频成片创作特征的特征值输入至对应产品类型的两个评价预测模型,即对应产品类型的视频信息有用性评价预测模型或对应产品类型的视频视觉舒适度评价预测模型,得到视觉舒适度分数和信息有用性分数,利用对应产品类型的评价预测模型解释器从视频成片创作特征中分别得到SHAP值为负的创作特征,以及 SHAP值为负的创作特征在对应产品类型的产品视频样本集每个样本中的SHAP值,筛选出在对应产品类型的产品视频样本集中的为正的SHAP值对应的第二特征值域,使得用户能够根据第二特征值域调整SHAP值为负的创作特征的特征值,以达到提高视觉舒适度分数和信息有用性分数的目的,完成对用户的视频成片的优化。
每个创作特征的特征值对应一个SHAP值,SHAP值为负表示该创作特征需要改进,SHAP值为正说明对评价预测模型得到的评价分数做出了正向贡献,如图2的A所示,f(x)为目标视频样本x的模型预测值,为模型中所有训练样本的模型预测值均值E[f(x)]与目标视频样本x的所有创作特征的SHAP值的加和,时长这一创作特征的特征值为9.967,SHAP值为-2.02,是该视频成片创作特征中SHAP值最低的特征,提取时长这一创作特征,如图2的B所示,通过SHAP算法得到在产品视频样本集中时长这一创作特征的SHAP值为正的特征值域(B中浅灰色的点群所处的特征值区间),根据特征值域调整时长这一创作特征的特征值,以达到优化视频成片的目的;
字幕量这一创作特征的特征值为0.01,SHAP值为1.37,是视频成片创作特征中SHAP值最高的特征,提取字幕量这一创作特征,如图2的C所示,通过SHAP算法得到在产品视频样本集中,字幕量这一创作特征的SHAP值为正的特征值域(C中浅灰色的点群所处的特征值区间),得到该视频成片的优质特点。
其中,外观型产品视频样本、功能型产品视频样本、案例样本、优质参考案例、视频成片、视频素材均为无声产品视频;
外观型产品视频样本创作特征、功能型产品视频样本创作特征、优质参考案例创作特征、视频成片创作特征均包括视频属性特征、静态特征和动态特征;
视频属性特征包括时长、尺寸和帧率;
静态特征包括场景语义、场景丰富度、人体语义、画面纹理特征、画面色彩特征、文字尺寸和字幕量;
画面纹理特征包括主体清晰度、主体位置、景深、视觉焦点数;
画面色彩特征包括色调、暗色区域与亮色区域比例、色彩丰富度;
动态特征包括剪辑频率、剪辑起伏度、剪辑硬度、画面运动强度、画面运动复杂度、画面色彩变化度;
案例样本的素材特征和视频素材的素材特征均包括静态特征中的场景语义、人体语义、画面纹理特征、画面色彩特征。
提取静态特征的特征值,包括:
通过等帧距采样无声产品视频得到帧画面集,通过随机森林算法构建的场景识别模型对每个帧画面进行场景识别,将帧画面集中出现最多的场景标签作为创作特征中场景语义特征值,将帧画面集中出现的所有场景标签作为素材特征中的场景语义特征值,将帧画面集中出现场景的数量作为场景丰富度特征值;
通过YOLO物体识别方法识别出包含人体的帧画面,将包含人体的帧画面在帧画面集的占比作为创作特征中的人体语义特征值,将是否包含人体的布尔值作为素材特征中的人体语义特征值;
通过视觉显著性检测方法提取帧画面集主体区域,采用灰度方差乘积法计算每个帧画面中的主体区域和背景区域的清晰度,将帧画面集中主体区域的清晰度均值作为主体清晰度的特征值,将帧画面集中主体区域清晰度与背景区域清晰度比值的均值作为景深的特征值,将帧画面集中主体区域重心坐标分别与画面长宽相比得到的相对坐标的均值和方差作为主体位置的特征值;
通过光谱静态显著度算法提取每个帧画面的底层视觉显著刺激区域,并计算刺激区域的数量作为每个帧画面的视觉焦点数,计算帧画面集中的视觉焦点数均值作为视觉焦点数的特征值;
通过计算帧画面集中像素点色相值的均值作为色调的特征值;
通过阴影阈值将帧画面划分成暗色区域与亮色区域,计算帧画面集中的暗色区域与亮色区域的比值的均值作为暗色区域与亮色区域比例的特征值;
通过OpenCV中的色彩丰富度算法提取帧画面集中的色彩丰富度均值作为色彩丰富度的特征值;
将通过百度OCR识别方法得到包含字幕的帧画面在帧画面集中的占比作为字幕量的特征值,计算帧画面集中的文字在每个帧画面的面积占比均值作为文字尺寸的特征值。
通过随机森林算法构建的场景识别模型对帧画面集进行场景识别,包括:
收集了无声产品视频的帧图像集作为场景识别数据集,对场景识别数据集中的每个帧图像进行场景标签标记,场景标签为室内、室外和影棚,将场景标签、场景识别数据集中样本的灰度共生矩阵特征特征值和HSV颜色矩特征特征值作为场景识别训练样本,将场景识别训练样本输入至随机森林算法,采用五折交叉验证的网格搜索方法确定随机森林算法参数,以构建场景识别模型。
提取动态特征的特征值,包括:
通过dHASH算法得到每个帧画面间的差异值,基于设定的差异值阈值将无声产品视频切分为多个镜头,将镜头时长标准差作为剪辑起伏度特征值,将每分钟镜头切换次数作为剪辑频率特征值,将镜头间相邻帧画面间的差异值均值作为剪辑硬度特征值;
通过calcOpticalFlowFarneback稠密光流法计算的帧画面集中所有相邻帧画面间的运动矢量的均值和方向熵的均值分别作为画面运动强度特征值和画面运动杂度特征值;
通过视觉兴奋度计算得到在LUV色彩空间上帧画面集中所有相邻帧画面间的平方差的均值作为画面色彩变化度特征值。
特征值相似度阈值包括场景语义特征值相似度阈值、人体语义特征值相似度阈值、画面色彩特征值相似度与画面纹理特征值相似度阈值;
其中,场景语义特征值相似度阈值为视频素材的场景语义与案例样本的场景语义相重合的场景数量占案例样本的场景数量的比例阈值;
人体语义特征值相似度阈值为视频素材中人体语义出现与否的布尔值与案例样本中人体语义出现与否的布尔值的匹配阈值;
画面色彩特征值相似度阈值为视频素材的画面色彩特征的特征值与案例样本的画面色彩特征的特征值的欧式距离阈值;
画面纹理特征值相似度阈值为视频素材的画面纹理特征的特征值与案例样本的画面纹理特征的特征值的欧式距离阈值。
一种观众评价数据驱动的无声产品视频创作辅助装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现观众评价数据驱动的无声产品视频创作辅助方法。
Claims (10)
1.一种观众评价数据驱动的无声产品视频创作辅助方法,其特征在于,包括:
S1:对获得的产品视频初始样本集在静音播放下通过观众评价方式进行评价标签标记,评价标签为信息有用性标签和视觉舒适度标签,对产品视频初始样本集进行标签一致性筛选,基于筛选结果得到评价标签标注皆为好的产品视频初始样本作为第一产品视频样本,以及评价标签标注皆为不好的产品视频初始样本作为第二产品视频样本,根据第一产品视频样本和第二产品视频样本构建产品视频样本集,基于产品类型,将产品视频样本集分为外观型产品视频样本集和功能型产品视频样本集,将产品视频样本集中的第一产品视频样本作为优质案例,以构建优质案例库;
S2:将外观型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第一训练样本,将功能型产品视频样本集中每个样本的创作特征的特征值和信息有用性标签作为第二训练样本,将外观型产品视频样本集中每个样本的创作特征的特征值和视觉舒适度标签作为第三训练样本,将功能型产品视频样本集中每个样本的创作特征的特征值和视觉舒适度标签作为第四训练样本,将第一训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频信息有用性评价预测模型,将第二训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能视频信息有用性评价预测模型,将第三训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到外观视频视觉舒适度评价预测模型,将第四训练样本输入至XGBoost模型利用五折交叉验证的网格搜索方法确定XGBoost模型参数得到功能视频视觉舒适度评价预测模型;
S3:利用SHAP算法获得每个评价预测模型的解释器,评价预测模型解释器的类型与评价预测模型的类型相对应,评价预测模型解释器用于利用SHAP算法对输入对应评价预测模型的创作特征的特征值赋予SHAP值来解释每个创作特征对模型预测结果的贡献;
S4:用户创作视频初期,接收用户提供的视频素材,以及用户选择的产品类型和视频属性特征,从优质案例库中筛选出产品类型相同且与视频属性特征相匹配的案例样本,将案例样本的素材特征的特征值和视频素材的素材特征的特征值进行特征值相似度比较,筛选出满足特征值相似度阈值的案例样本作为优质参考案例推荐给用户进行参考;
将优质参考案例的创作特征的特征值输入至对应产品类型的评价预测模型得到优质参考案例的视觉舒适度分数和信息有用性分数,通过对应评价模型解释器得到优质参考案例的每个创作特征的SHAP值,提取优质参考案例中SHAP值为正的创作特征,以及SHAP值为正的创作特征在对应产品类型的产品视频样本集中的为正的SHAP值对应的第一特征值域作为优质参考案例的优质特点,以辅助用户进行初期视频创作;
S5:用户创作视频迭代期,获得用户提供的视频成片和用户选择的产品类型,计算视频成片的创作特征的特征值,按照用户选择的产品类型,将视频成片创作特征的特征值输入至对应产品类型的评价预测模型,得到视觉舒适度分数和信息有用性分数,利用对应产品类型的评价预测模型解释器从视频成片创作特征中分别得到SHAP值为负的创作特征,以及SHAP值为负的创作特征在对应产品类型的产品视频样本集中的SHAP值,筛选出在对应产品类型的产品视频样本集中的为正的SHAP值对应的第二特征值域,使得用户能够根据第二特征值域调整SHAP值为负的创作特征的特征值,以达到提高视觉舒适度分数和信息有用性分数的目的。
2.根据权利要求1所述的观众评价数据驱动的无声产品视频创作辅助方法,其特征在于,将产品视频样本集分为外观型产品视频样本集和功能型产品视频样本集,其中,外观型产品视频样本集包括服装、配饰产品视频;功能型产品视频样本集包括电器、数码、数码配件、个人护理、家居、食物和玩具产品视频。
3.根据权利要求1所述的观众评价数据驱动的无声产品视频创作辅助方法,其特征在于,对获得的产品视频初始样本集在静音播放下通过观众评价方式进行评价标签标记,包括:
在静音播放下用户采用七点量表基于信息有用性和视觉舒适度两个维度对产品视频初始样本进行打分,并对分值进行二值化,其中,1−5分为产品视频初始样本标记为不好,6−7分为产品视频初始样本标记为好,以完成对产品视频初始样本集的标签标记。
4.根据权利要求1所述的观众评价数据驱动的无声产品视频创作辅助方法,其特征在于,外观型产品视频样本、功能型产品视频样本、案例样本、优质参考案例、视频成片、视频素材均为无声产品视频;
外观型产品视频样本创作特征、功能型产品视频样本创作特征、优质参考案例创作特征、视频成片创作特征均包括视频属性特征、静态特征和动态特征;
视频属性特征包括时长、尺寸和帧率;
静态特征包括场景语义、场景丰富度、人体语义、画面纹理特征、画面色彩特征、文字尺寸和字幕量;
画面纹理特征包括主体清晰度、主体位置、景深、视觉焦点数;
画面色彩特征包括色调、暗色区域与亮色区域比例、色彩丰富度;
动态特征包括剪辑频率、剪辑起伏度、剪辑硬度、画面运动强度、画面运动复杂度、画面色彩变化度;
案例样本的素材特征和视频素材的素材特征均包括静态特征中的场景语义、人体语义、画面纹理特征、画面色彩特征。
5.根据权利要求4所述的观众评价数据驱动的无声产品视频创作辅助方法,其特征在于,提取静态特征的特征值,包括:
通过等帧距采样无声产品视频得到帧画面集,通过随机森林算法构建的场景识别模型对每个帧画面进行场景识别,将帧画面集中出现最多的场景标签作为创作特征中的场景语义特征值,将帧画面集中出现的所有场景标签作为素材特征中的场景语义特征值,将帧画面集中出现场景的数量作为场景丰富度特征值;
通过YOLO物体识别方法识别出包含人体的帧画面,将包含人体的帧画面在帧画面集的占比作为创作特征中的人体语义特征值,将是否包含人体的布尔值作为素材特征中的人体语义特征值;
通过视觉显著性检测方法提取帧画面集主体区域,采用灰度方差乘积法计算每个帧画面中的主体区域和背景区域的清晰度,将帧画面集中主体区域的清晰度均值作为主体清晰度的特征值,将帧画面集中主体区域清晰度与背景区域清晰度比值的均值作为景深的特征值,将帧画面集中主体区域重心坐标分别与画面长宽相比得到的相对坐标的均值和方差作为主体位置的特征值;
通过光谱静态显著度算法提取每个帧画面的底层视觉显著刺激区域,并计算底层视觉显著刺激区域的数量作为每个帧画面的视觉焦点数,计算帧画面集中的视觉焦点数均值作为视觉焦点数的特征值;
通过计算帧画面集中像素点色相值的均值作为色调的特征值;
通过阴影阈值将帧画面划分成暗色区域与亮色区域,计算帧画面集中的暗色区域与亮色区域的比值的均值作为暗色区域与亮色区域比例的特征值;
通过OpenCV中的色彩丰富度算法提取帧画面集中的色彩丰富度均值作为色彩丰富度的特征值;
将通过百度OCR识别方法得到包含字幕的帧画面在帧画面集中的占比作为字幕量的特征值,计算帧画面集中的文字在每个帧画面的面积占比均值作为文字尺寸的特征值。
6.根据权利要求5所述的观众评价数据驱动的无声产品视频创作辅助方法,其特征在于,通过随机森林算法构建的场景识别模型对帧画面集进行场景识别,包括:
收集了无声产品视频的帧图像集作为场景识别数据集,对场景识别数据集中的每个帧图像进行场景标签标记,场景标签为室内、室外和影棚,将场景标签、场景识别数据集中样本的灰度共生矩阵特征特征值和HSV颜色矩特征特征值作为场景识别训练样本,将场景识别训练样本输入至随机森林算法,采用五折交叉验证的网格搜索方法确定随机森林算法参数,以构建场景识别模型。
7.根据权利要求5所述的观众评价数据驱动的无声产品视频创作辅助方法,其特征在于,提取动态特征的特征值,包括:
通过dHASH算法得到每个帧画面间的差异值,基于设定的差异值阈值将无声产品视频切分为多个镜头,将镜头时长标准差作为剪辑起伏度特征值,将每分钟镜头切换次数作为剪辑频率特征值,将镜头间相邻帧画面间的差异值均值作为剪辑硬度特征值;
通过calcOpticalFlowFarneback稠密光流法计算帧画面集中所有相邻帧画面间的运动矢量的均值作为画面运动强度特征值,所有相邻帧画面间的运动矢量的方向熵的均值作为画面运动复杂度特征值;
通过视觉兴奋度算法计算得到在LUV色彩空间上帧画面集中所有相邻帧画面间的平方差的均值作为画面色彩变化度特征值。
8.根据权利要求5所述的观众评价数据驱动的无声产品视频创作辅助方法,其特征在于,特征值相似度阈值包括场景语义特征值相似度阈值、人体语义特征值相似度阈值、画面色彩特征值相似度阈值与画面纹理特征值相似度阈值;
其中,场景语义特征值相似度阈值为视频素材的场景语义与案例样本的场景语义相重合的场景数量占案例样本的场景数量的比例阈值;
人体语义特征值相似度阈值为视频素材中人体语义出现与否的布尔值与案例样本中人体语义出现与否的布尔值的匹配阈值;
画面色彩特征值相似度阈值为视频素材的画面色彩特征的特征值与案例样本的画面色彩特征的特征值的欧式距离阈值;
画面纹理特征值相似度阈值为视频素材的画面纹理特征的特征值与案例样本的画面纹理特征的特征值的欧式距离阈值。
9.根据权利要求1所述的观众评价数据驱动的无声产品视频创作辅助方法,其特征在于,信息有用性分数S1为:
S1=a1 *100
其中,a1为信息有用性模型输出结果为好的概率;
视觉舒适度分数S2为:
S2=a2*100
其中,a2为视觉舒适度模型输出结果为好的概率。
10.一种观众评价数据驱动的无声产品视频创作辅助装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,处理器执行计算机程序时实现权利要求1~9任一项所述的观众评价数据驱动的无声产品视频创作辅助方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111644391.7A CN114005077B (zh) | 2021-12-30 | 2021-12-30 | 观众评价数据驱动的无声产品视频创作辅助方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111644391.7A CN114005077B (zh) | 2021-12-30 | 2021-12-30 | 观众评价数据驱动的无声产品视频创作辅助方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114005077A CN114005077A (zh) | 2022-02-01 |
CN114005077B true CN114005077B (zh) | 2022-05-27 |
Family
ID=79932360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111644391.7A Active CN114005077B (zh) | 2021-12-30 | 2021-12-30 | 观众评价数据驱动的无声产品视频创作辅助方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114005077B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109989B (zh) * | 2023-04-14 | 2023-06-27 | 中关村科学城城市大脑股份有限公司 | 评价信息生成方法、装置、电子设备和计算机可读介质 |
CN116539284B (zh) * | 2023-07-06 | 2023-09-22 | 天津大学 | 针对彩绘文物照明光源的光源照明质量评价方法及装置 |
CN117809061B (zh) * | 2024-01-02 | 2024-08-23 | 广州简灿科技有限公司 | 基于aigc的视频素材匹配方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103986925A (zh) * | 2014-06-05 | 2014-08-13 | 吉林大学 | 基于亮度补偿的立体视频视觉舒适度评价方法 |
WO2017204679A1 (ru) * | 2016-05-27 | 2017-11-30 | Ooo "Проект Видеосервис" | Способ автоматического создания видеоконтента, с учетом предпочтений пользователя |
CN112529048A (zh) * | 2020-11-23 | 2021-03-19 | 浙江大学 | 一种基于感知体验的产品展示视频辅助设计方法和装置 |
CN112967365A (zh) * | 2021-02-05 | 2021-06-15 | 浙江大学 | 一种基于用户感知优化的深度图生成方法 |
US11176471B1 (en) * | 2021-05-19 | 2021-11-16 | ClosedLoop.ai Inc. | Explainable machine learning models |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110351579B (zh) * | 2019-08-16 | 2021-05-28 | 深圳特蓝图科技有限公司 | 一种视频的智能剪辑方法 |
CN112435244A (zh) * | 2020-11-27 | 2021-03-02 | 广州华多网络科技有限公司 | 直播视频的质量评价方法、装置、计算机设备和存储介质 |
-
2021
- 2021-12-30 CN CN202111644391.7A patent/CN114005077B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103986925A (zh) * | 2014-06-05 | 2014-08-13 | 吉林大学 | 基于亮度补偿的立体视频视觉舒适度评价方法 |
WO2017204679A1 (ru) * | 2016-05-27 | 2017-11-30 | Ooo "Проект Видеосервис" | Способ автоматического создания видеоконтента, с учетом предпочтений пользователя |
CN112529048A (zh) * | 2020-11-23 | 2021-03-19 | 浙江大学 | 一种基于感知体验的产品展示视频辅助设计方法和装置 |
CN112967365A (zh) * | 2021-02-05 | 2021-06-15 | 浙江大学 | 一种基于用户感知优化的深度图生成方法 |
US11176471B1 (en) * | 2021-05-19 | 2021-11-16 | ClosedLoop.ai Inc. | Explainable machine learning models |
Non-Patent Citations (2)
Title |
---|
A Unified Approach to Interpreting Model Predictions;Scott M. Lundberg etal.;《proceedings of the 31st international conference on neural information processing systems》;20171204;全文 * |
基于剪辑元素属性约束的可计算产品展示视频自动剪辑框架;鲁雨佳等;《计算机辅助设计与图形学学报》;20200731;第32卷(第7期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114005077A (zh) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114005077B (zh) | 观众评价数据驱动的无声产品视频创作辅助方法及装置 | |
Li et al. | Aesthetic visual quality assessment of paintings | |
Wu et al. | Q-bench: A benchmark for general-purpose foundation models on low-level vision | |
McDuff et al. | Predicting ad liking and purchase intent: Large-scale analysis of facial responses to ads | |
US10019779B2 (en) | Browsing interface for item counterparts having different scales and lengths | |
US20130101209A1 (en) | Method and system for extraction and association of object of interest in video | |
Cao et al. | Look over here: Attention-directing composition of manga elements | |
Sartori et al. | Affective analysis of professional and amateur abstract paintings using statistical analysis and art theory | |
CN110879974B (zh) | 一种视频分类方法和装置 | |
CN106537390A (zh) | 标识教育视频的呈现样式 | |
US10026176B2 (en) | Browsing interface for item counterparts having different scales and lengths | |
KR20110110390A (ko) | 대화형 유전자 알고리즘을 기반으로 사용자 취향을 반영한 감정 기반 영상의 색변환 방법 | |
CN111143615A (zh) | 一种短视频情感类别的识别装置 | |
CN112529048B (zh) | 一种基于感知体验的产品展示视频辅助设计方法和装置 | |
CN114363714B (zh) | 标题生成方法、设备及存储介质 | |
CN110889718A (zh) | 方案筛选方法、方案筛选装置、介质以及电子设备 | |
CN106156732A (zh) | 对象识别方法和对象识别装置 | |
CN108833964A (zh) | 一种实时的连续帧信息植入识别系统 | |
CN116910302A (zh) | 一种多模态视频内容有效性反馈可视分析方法与系统 | |
Kim et al. | Key Color generation for affective multimedia production: an initial method and its application | |
Wang | Using machine learning algorithms to recognize shuttlecock movements | |
Xu et al. | Good Seed Makes a Good Crop: Discovering Secret Seeds in Text-to-Image Diffusion Models | |
El-Keilany et al. | Distant Viewing of the Harry Potter Movies via Computer Vision | |
CN113869960A (zh) | 海报生成方法、装置、存储介质及计算机设备 | |
CN114064969A (zh) | 基于情感曲线的动态图片联动展示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |