发明内容
本发明的目的在于提供一种自媒体短视频素材加工控制系统,用以解决上述背景技术中存在的技术问题:缺乏对短视频进行高效率对比的手段,通过人工的方式进行审核效率较低,人力成本和时间成本都较高,且考虑的方面不全面,短视频行业中未经授权即对原创作品进行剪辑、搬运、传播等侵权行为也层出不穷,如此不仅掏空了原创者的权益,也破坏了影视行业的健康生态,其危害不容小觑。
为实现上述目的,本发明采取的技术方案为:
一种自媒体短视频素材加工控制系统,所述系统包括:素材采集端口、素材分析端口和素材处理端口,
所述素材采集端口用于对素材和素材库中素材的信息进行采集,包括素材中图像的色彩特征向量、素材库中素材图像的色彩特征向量、素材中的文字及字数、素材库中的文字及字数、素材总时长、素材的图像面积、素材库中素材的文字和素材库中素材的图像的面积进行采集,
本发明的进一步改进在于,所述素材分析端口用于计算采集到的素材和素材库中的素材的平均余弦相似度、高度相似率、文字相似度和图像面积相似率,并通过平均余弦相似度、高度相似率、文字相似度和图像面积相似率计算出素材和素材库中的素材的相似度,
所述素材处理端口用于将相似度大于相似度对比值的素材定义为重复素材,并对采集到的重复素材进行删除。
本发明的进一步改进在于,所述素材分析端口包括数据采集和储存模块、平均余弦相似度计算模块、高度相似率计算模块、文字相似度计算模块、图像面积相似率计算模块、相似度计算模块和数据传输模块,所述数据采集和储存模块用于采集和储存素材采集端口采集到的数据信息,包括素材总时长、素材中图像的色彩特征向量、素材库中素材的色彩特征向量、素材中提取的文字、素材中提取的文字字数、素材库中素材提取的文字和素材中图像的面积大小;所述平均余弦相似度计算模块用于将素材中图像的色彩特征向量、素材库中素材的色彩特征向量和素材总时长代入平均余弦相似度计算公式,计算出平均余弦相似度;所述高度相似率模块用于将素材总时长和采集到的素材与素材库中的素材余弦相似度大于0.8的时长代入高度相似率计算公式,计算出高度相似率;所述文字相似度计算模块用于素材音频中提取的文字和素材库中素材音频中提取的文字代入文字相似度计算公式,计算出文字相似度;所述图像面积相似率计算模块用于将素材中相似图像的面积大小和素材中图像的面积大小代入图像面积相似率计算模块,计算出图像面积相似率;所述相似度计算模块用于将平均余弦相似度、高度相似率、文字相似度和图像面积相似率代入相似度计算公式中,计算出相似度;所述数据传输模块用于数据采集和储存模块、平均余弦相似度计算模块、高度相似率计算模块、文字相似度计算模块、图像面积相似率计算模块和相似度计算模块之间的数据传输。
本发明的进一步改进在于,所述平均余弦相似度计算公式为:其中其中Si为余弦相似度,T为素材总时长,Ai为素材中图像的色彩特征向量的分量,Bi为素材库中素材图像的色彩特征向量的分量。所述高度相似率计算公式为:/>其中T为素材总时长,t为素材中图像与素材库中素材图像余弦相似度Si大于0.8的时长。
本发明的进一步改进在于,所述文字相似度计算公式为:其中N为素材中文字的总字数,n为素材中文字与素材库中的素材中文字相同的字数,Cnn2为从n个文字中取出/>个文字的所有组合的个数。
所述图像面积相似率计算公式为:其中s为相似图像所占的面积,S总为素材中图像的总面积。
本发明的进一步改进在于,所述相似度计算公式为:η=α1x+α2y+α3z+α4w,即设定相似度对比值为0.6,其中Si为余弦相似度,T为素材总时长,t为素材中图像与素材库中素材图像余弦相似度Si大于0.8的时长,N为素材中的总字数,n为素材中的字与素材库中的素材中的字相同的字数,/>为从n个文字中取出/>个文字的所有组合的个数,s为相似图像所占的面积,S总为素材中图像的总面积,α1为平均余弦相似度x的占比系数,α2为高度相似率y的占比系数,α3为文字相似度z的占比系数,α4为图像面积相似率w的占比系数,α1+α2+α3+α4=1。
所述素材采集端口包括素材采集模块、色彩特征向量采集模块、文字采集模块和面积采集模块,所述素材采集模块用于对素材进行采集和存储;所述色彩特征向量采集模块通过python软件采集素材中图像的色彩特征向量和素材库中素材图像的色彩特征向量;所述文字采集模块用于将素材中的文字、素材中的文字的字数和素材库中素材的文字进行提取;所述面积采集模块用于采集素材中图像的面积。
所述素材处理端口包括相似度对比模块、重复素材处理模块和数据传送模块,所述相似度对比模块用于将素材分析模块计算出的相似度和相似度的对比值进行比较,将相似度大于相似度对比值的素材定义为重复素材;所述重复素材处理模块用于对采集到的重复素材进行删除;所述数据传送模块用于相似度对比模块和重复素材处理模块之间的数据传送。
与现有技术相比,本发明具有如下的有益效果:
1.本发明提供了一种自媒体短视频素材加工控制系统,能够通过系统对素材中重复的内容进行对比,大大减少了人工对比素材内容所需的人力成本和时间成本,提高了素材审核的效率。
2.本发明提供了一种自媒体短视频素材加工控制系统,通过采集到的素材和素材库中的素材的平均余弦相似度、高度相似率、文字相似度和图像面积相似率四个方面考虑素材内容是否重复,减少了只考虑一两个因素导致结果存在偶然性的问题,提高计算出的相似度的准确性。
3.本发明提供了一种自媒体短视频素材加工控制系统,通过采集到的素材和素材库中素材的相似度,确定采集到的素材是否为重复素材。
具体实施方式
下面结合具体实施方式对本发明作进一步详细的说明,本发明的实施例是为了示例和描述方便起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式,很多修改和变化对于本领域的普通技术人员而言是显而易见的,选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
实施例1
本实施例提供了一种自媒体短视频素材加工控制系统,能够通过采集到的素材和素材库中的素材的平均余弦相似度、高度相似率、文字相似度和图像面积相似率四个方面考虑素材内容是否重复,减少了只考虑一两个因素导致结果存在偶然性,提高计算出的相似度的准确性,具体方案为,如图1所示,一种自媒体短视频素材加工控制系统,系统包括:素材采集端口、素材分析端口和素材处理端口,
素材采集端口用于对素材和素材库中素材的信息进行采集,包括素材中图像的色彩特征向量、素材库中素材图像的色彩特征向量、素材中的文字及字数、素材库中的文字及字数、素材总时长、素材的图像面积、素材库中素材的文字和素材库中素材的图像的面积进行采集。
素材分析端口用于计算采集到的素材和素材库中的素材的平均余弦相似度、高度相似率、文字相似度和图像面积相似率,并通过平均余弦相似度、高度相似率、文字相似度和图像面积相似率计算出素材和素材库中的素材的相似度,
素材处理端口用于将相似度大于相似度对比值的素材定义为重复素材,并对采集到的重复素材进行删除。
素材分析端口包括数据采集和储存模块、平均余弦相似度计算模块、高度相似率计算模块、文字相似度计算模块、图像面积相似率计算模块、相似度计算模块和数据传输模块,数据采集和储存模块用于采集和储存素材采集端口采集到的数据信息,包括素材总时长、素材中图像的色彩特征向量、素材库中素材的色彩特征向量、素材中提取的文字、素材中提取的文字字数、素材库中素材提取的文字和素材中图像的面积大小;平均余弦相似度计算模块用于将素材中图像的色彩特征向量、素材库中素材的色彩特征向量和素材总时长代入平均余弦相似度计算公式,计算出平均余弦相似度;高度相似率模块用于将素材总时长和采集到的素材与素材库中的素材余弦相似度大于0.8的时长代入高度相似率计算公式,计算出高度相似率;文字相似度计算模块用于素材音频中提取的文字和素材库中素材音频中提取的文字代入文字相似度计算公式,计算出文字相似度;图像面积相似率计算模块用于将素材中相似图像的面积大小和素材中图像的面积大小代入图像面积相似率计算模块,计算出图像面积相似率;相似度计算模块用于将平均余弦相似度、高度相似率、文字相似度和图像面积相似率代入相似度计算公式中,计算出相似度;数据传输模块用于数据采集和储存模块、平均余弦相似度计算模块、高度相似率计算模块、文字相似度计算模块、图像面积相似率计算模块和相似度计算模块之间的数据传输。
平均余弦相似度计算公式为:其中/>其中Si为余弦相似度,T为素材总时长,Ai为素材中图像的色彩特征向量的分量,Bi为素材库中素材图像的色彩特征向量的分量。
高度相似率计算公式为:其中T为素材总时长,t为素材中图像与素材库中素材图像余弦相似度Si大于0.8的时长。
文字相似度计算公式为:其中N为素材中文字的总字数,n为素材中文字与素材库中的素材中文字相同的字数,/>为从n个文字中取出/>个文字的所有组合的个数。
图像面积相似率计算公式为:其中s为相似图像所占的面积,S总为素材中图像的总面积。
相似度计算公式为:η=α1x+α2y+α3z+α4w,即设定相似度对比值为0.6,其中Si为余弦相似度,T为素材总时长,t为素材中图像与素材库中素材图像余弦相似度Si大于0.8的时长,N为素材中的总字数,n为素材中的字与素材库中的素材中的字相同的字数,s为相似图像所占的面积,S总为素材中图像的总面积,α1为平均余弦相似度x的占比系数,α2为高度相似率y的占比系数,α3为文字相似度z的占比系数,α4为图像面积相似率w的占比系数,α1+α2+α3+α4=1。
素材采集端口包括素材采集模块、色彩特征向量采集模块、文字采集模块和面积采集模块,素材采集模块用于对素材进行采集和存储;色彩特征向量采集模块通过python软件采集素材中图像的色彩特征向量和素材库中素材图像的色彩特征向量;文字采集模块用于将素材中的文字、素材中的文字的字数和素材库中素材的文字进行提取;面积采集模块用于采集素材中图像的面积。
素材处理端口包括相似度对比模块、重复素材处理模块和数据传送模块,相似度对比模块用于将素材分析模块计算出的相似度和相似度的对比值进行比较,将相似度大于相似度对比值的素材定义为重复素材;重复素材处理模块用于对采集到的重复素材进行删除;数据传送模块用于相似度对比模块和重复素材处理模块之间的数据传送。
在本实施例中,设定α1为0.4,α2为0.3,α3为0.1,α4为0.2,计算出平均余弦相似度x为0.69,高度相似时长t为2分钟,视频总时长T为3.2分钟,素材中的总字数N为60个,素材中的字与素材库中的素材中的字相同的字数n为10个,相似图像所占的面积s为128×128像素,素材中图像的总面积S总为128×256像素,根据相似度计算公式η=α1x+α2y+α3z+α4w,即计算出相似度为0.56,小于相似度对比值0.6,该素材不被定义为重复素材。
实施例2
本实施例提供了一种自媒体短视频素材加工控制系统,能够通过采集到的素材和素材库中的素材的平均余弦相似度、高度相似率、文字相似度和图像面积相似率四个方面考虑素材内容是否重复,减少了只考虑一两个因素导致结果存在偶然性,提高计算出的相似度的准确性,具体方案为,如图1所示,一种自媒体短视频素材加工控制系统,系统包括:素材采集端口、素材分析端口和素材处理端口,
素材采集端口用于对素材和素材库中素材的信息进行采集,包括素材中图像的色彩特征向量、素材库中素材图像的色彩特征向量、素材中的文字及字数、素材库中的文字及字数、素材总时长、素材的图像面积、素材库中素材的文字和素材库中素材的图像的面积进行采集,
素材分析端口用于计算采集到的素材和素材库中的素材的平均余弦相似度、高度相似率、文字相似度和图像面积相似率,并通过平均余弦相似度、高度相似率、文字相似度和图像面积相似率计算出素材和素材库中的素材的相似度,
素材处理端口用于将相似度大于相似度对比值的素材定义为重复素材,并对采集到的重复素材进行删除。
素材分析端口包括数据采集和储存模块、平均余弦相似度计算模块、高度相似率计算模块、文字相似度计算模块、图像面积相似率计算模块、相似度计算模块和数据传输模块,数据采集和储存模块用于采集和储存素材采集端口采集到的数据信息,包括素材总时长、素材中图像的色彩特征向量、素材库中素材的色彩特征向量、素材中提取的文字、素材中提取的文字字数、素材库中素材提取的文字和素材中图像的面积大小;平均余弦相似度计算模块用于将素材中图像的色彩特征向量、素材库中素材的色彩特征向量和素材总时长代入平均余弦相似度计算公式,计算出平均余弦相似度;高度相似率模块用于将素材总时长和采集到的素材与素材库中的素材余弦相似度大于0.8的时长代入高度相似率计算公式,计算出高度相似率;文字相似度计算模块用于素材音频中提取的文字和素材库中素材音频中提取的文字代入文字相似度计算公式,计算出文字相似度;图像面积相似率计算模块用于将素材中相似图像的面积大小和素材中图像的面积大小代入图像面积相似率计算模块,计算出图像面积相似率;相似度计算模块用于将平均余弦相似度、高度相似率、文字相似度和图像面积相似率代入相似度计算公式中,计算出相似度;数据传输模块用于数据采集和储存模块、平均余弦相似度计算模块、高度相似率计算模块、文字相似度计算模块、图像面积相似率计算模块和相似度计算模块之间的数据传输。
平均余弦相似度计算公式为:其中/>其中Si为余弦相似度,T为素材总时长,Ai为素材中图像的色彩特征向量的分量,Bi为素材库中素材图像的色彩特征向量的分量。
高度相似率计算公式为:其中T为素材总时长,t为素材中图像与素材库中素材图像余弦相似度Si大于0.8的时长。
文字相似度计算公式为:其中N为素材中文字的总字数,n为素材中文字与素材库中的素材中文字相同的字数,/>为从n个文字中取出/>个文字的所有组合的个数。
图像面积相似率计算公式为:w=Ss总,其中s为相似图像所占的面积,S总为素材中图像的总面积。
相似度计算公式为:η=α1x+α2y+α3z+α4w,即设定相似度对比值为0.6,其中Si为余弦相似度,T为素材总时长,t为素材中图像与素材库中素材图像余弦相似度Si大于0.8的时长,N为素材中的总字数,n为素材中的字与素材库中的素材中的字相同的字数,/>为从n个文字中取出/>个文字的所有组合的个数,s为相似图像所占的面积,S总为素材中图像的总面积,α1为平均余弦相似度x的占比系数,α2为高度相似率y的占比系数,α3为文字相似度z的占比系数,α4为图像面积相似率w的占比系数,α1+α2+α3+α4=1。
素材采集端口包括素材采集模块、色彩特征向量采集模块、文字采集模块和面积采集模块,素材采集模块用于对素材进行采集和存储;色彩特征向量采集模块通过python软件采集素材中图像的色彩特征向量和素材库中素材图像的色彩特征向量;文字采集模块用于将素材中的文字、素材中的文字的字数和素材库中素材的文字进行提取;面积采集模块用于采集素材中图像的面积。
素材处理端口包括相似度对比模块、重复素材处理模块和数据传送模块,相似度对比模块用于将素材分析模块计算出的相似度和相似度的对比值进行比较,将相似度大于相似度对比值的素材定义为重复素材;重复素材处理模块用于对采集到的重复素材进行删除;数据传送模块用于相似度对比模块和重复素材处理模块之间的数据传送。
在本实施例中,设定α1为0.4,α2为0.3,α3为0.1,α4为0.2,计算出平均余弦相似度x为0.84,高度相似时长t为2.4分钟,视频总时长T为3分钟,素材中的总字数N为120个,素材中的字与素材库中的素材中的字相同的字数n为70个,相似图像所占的面积s为512×768像素,素材中图像的总面积S总为512×1024像素,根据相似度计算公式η=α1x+α2y+α3z+α4w,即计算出相似度为0.726,大于相似度对比值0.6,素材被定义为重复素材,进行删除处理。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围,本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。