CN110933406A - 一种短视频配乐质量客观评价方法 - Google Patents

一种短视频配乐质量客观评价方法 Download PDF

Info

Publication number
CN110933406A
CN110933406A CN201911257134.0A CN201911257134A CN110933406A CN 110933406 A CN110933406 A CN 110933406A CN 201911257134 A CN201911257134 A CN 201911257134A CN 110933406 A CN110933406 A CN 110933406A
Authority
CN
China
Prior art keywords
video
music
calculating
matching degree
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911257134.0A
Other languages
English (en)
Other versions
CN110933406B (zh
Inventor
董培祥
朱立松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Original Assignee
CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCTV INTERNATIONAL NETWORKS WUXI Co Ltd filed Critical CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority to CN201911257134.0A priority Critical patent/CN110933406B/zh
Publication of CN110933406A publication Critical patent/CN110933406A/zh
Application granted granted Critical
Publication of CN110933406B publication Critical patent/CN110933406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4756End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明是一种短视频配乐质量客观评价方法,该方法包括以下步骤:(一)视频配乐全局匹配度计算;(二)视频配乐局部匹配度计算;(三)视频配乐质量计算。本发明的优点:从短视频与背景音乐节奏匹配度的角度出发,为短视频的配乐质量评价提供了一种客观的计算方法,可以取代传统的基于人工评价的主观评价方法。

Description

一种短视频配乐质量客观评价方法
技术领域
本发明涉及的是一种短视频配乐质量客观评价方法,属于计算机多媒体(图像和视频)信息处理技术领域。
背景技术
短视频一般指在互联网上传播的、时长在5分钟以内的视频短片。近年来,随着移动互联网技术的快速发展和大屏幕智能手机的普及,短视频行业异军突起。根据CNNIC(中国互联网络信息中心)2019年8月发布的《第44次中国互联网络发展状况统计报告》,截至2019年6月,我国短视频用户规模为6.48亿,占网民整体的75.8%。短视频并非长视频的碎片版,它是一个全新的产品。与传统视频相比,短视频具有总体时长短、观看场景多样化、创作门槛低、内容多样化等特点。
对于短视频而言,大部分短视频的节奏和情绪都是由背景音乐来带动的,为短视频添加背景音乐是短视频制作过程的重要环节,除了人工选取背景音乐的方式外,近年来也有一些自动配乐的方法提出。然而,音乐的选择是一件很主观的事情,如何评价所选取的背景音乐是否适合短视频,目前尚没有能够定量评价的方法。
综上所述,现有技术的不足包括:
1)短视频并非长视频的碎片化,而是一种全新的产品形式。传统的用于长视频视频质量的评价方法无法直接应用到短视频领域;
2)对视频配乐质量的评价多以主观评价方法为主,缺乏客观的评价标准。
发明内容
本发明提出的是一种短视频配乐质量客观评价方法,其目的旨在填补现有技术存在的上述空白,从短视频与背景音乐节奏匹配度的角度出发,来评价短视频配乐质量。
本发明的技术解决方案:一种短视频配乐质量客观评价方法,该方法包括以下步骤:
(一)视频配乐全局匹配度计算:
计算视频整体的运动程度与背景音乐的节奏的匹配关系,视频运动高则配乐节奏较快,视频运动缓慢甚至静止则配乐节奏较慢,视频的运动程度由视频时间复杂度表示,音乐节奏由音乐的全局节拍数表示;
(二)视频配乐局部匹配度计算:
局部匹配度是一种细粒度的度量方法,考察视频的运动程度在时间上的分布,与背景音乐能量在时间上的分布之间的匹配程度,匹配度越高则配乐质量较高,匹配度越差则配乐质量较差;
(三)视频配乐质量计算:
最终的配乐质量由视频配乐全局匹配度和局部匹配度加权和求得。
优选的,所述的(一)视频配乐全局匹配度计算,包括:
(1)视频时间复杂度:
不同的视频画面的运动程度不同,有的视频较平缓、有的运动剧烈,视频在视觉上表现出的运动程度即视频的时间复杂度,由视频的时域信息TI计算,对于输入视频Vi,时间复杂度TIi计算步骤如下:
①提取视频中的相邻两帧In和In-1
②计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
③计算两帧图像对应的灰度图之间的差值:Mn(i,j)=In,g(i,j)-In-1,g(i,j),其中i,j为对应的像素位置,
④计算差值图Mn的标准差:
Figure BDA0002310590140000021
其中H、W为图像高度和宽度,
Figure BDA0002310590140000022
为差值图Mn像素值的均值:
Figure BDA0002310590140000023
⑤整个视频的时间复杂度为:
Figure BDA0002310590140000024
其中N为视频的总帧数;
(2)音乐节拍检测:
音乐节拍是乐曲中音符强弱规律的组织形式,节拍表征音乐的平均速度,单位是BPM每分钟节拍数,音乐节拍检测在数学上形式化为优化一个递归可计算的损失函数,该损失函数定义为:
Figure BDA0002310590140000031
其中{ti}表示在一段音乐中由算法检测到的N个节拍起始的瞬时时刻,O(ti)是音乐的音符强度包络,τp表示检测到的全局节拍间隔,F(ti-ti-1p)表示前后相邻两个节拍的时刻间隔与τp的一致性,α用于控制前后两项的权重,
通过递归的优化上面的损失函数求解音乐的节拍,或用音频处理库LibROSA实现,其中的对应模块为librosa.beat.beat_track;
(3)视频配乐全局匹配度:
全局匹配度由归一化后的视频复杂度和音乐节奏之间的距离表示,步骤如下:
①视频复杂度归一化:
视频的时间复杂度的范围为[5,40],对输入视频V,其时间复杂度为TI,归一化操作即把TI归一化到[5,40]区间,具体计算公式为:
Figure BDA0002310590140000032
②背景音乐节奏归一化:
背景音乐的节拍范围为[75,190]BPM,对输入视频V,其配乐的全局节拍为B,归一化操作即把B归一化到[75,190]区间,具体计算公式为:
Figure BDA0002310590140000033
③全局匹配度计算:
短视频与配乐的全局匹配度Qglobal的计算:Qglobal=|TInorm-Bnorm|。
优选的,所述的(二)视频配乐局部匹配度计算,包括
(1)视频场景切换检测:
视频中的一个场景即一个镜头,指一系列时序上连续的视频帧,视频场景切换检测的任务是给定一个输入视频,检测出其中的所有场景,并且标注出每个场景的起始帧和终止帧,场景检测步骤如下:
①基于像素的场景切换检测:
基于像素的场景检测方法依赖相邻两帧对应位置的像素的差值,在计算两帧像素的差值之前,先对视频的每一帧做一个平滑操作,以上基于视频帧的灰度分量进行,把视频中的一帧图像记为I,其灰度图记为Ig,平滑之后的图像记为Ic
基于像素的场景切换检测步骤为:
1)提取视频中的相邻两帧I1和I2
2)计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
3)对灰度图进行平滑滤波操作:
Figure BDA0002310590140000041
即对输入图像划分为8x8的块的操作,
4)计算相邻两帧的图像像素差值距离:
Figure BDA0002310590140000042
②基于直方图的场景切换检测:
基于直方图的场景切换检测方法,首先计算相邻视频帧的灰度直方图,用一个量化的直方图表示每帧图像,然后计算两个直方图向量的距离,选用χ2距离来度量两个直方图向量之间的距离,
基于直方图的场景切换检测步骤如下:
1)提取视频中的相邻两帧I1和I2
2)计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
3)计算灰度图的颜色直方图,直方图共划分64的灰度区间,把[0,255]区间均匀分为64份,每个区间包含4个连续的灰度值,颜色图像I1的颜色直方图记为H1=(ho,h1,...,h63),
Figure BDA0002310590140000043
4)计算两帧图像基于直方图的距离:,
③基于像素和基于直方图相结合的场景切换检测:
判别标准如下所示:
Figure BDA0002310590140000051
其中θhist和θpixel分别为直方图检测和像素检测的阈值,阈值的选取由试验中尝试获取;
(2)视频切片:
为精细化计算视频相关信息,对视频进行分片操作,输入短视频V,首先对输入视频进行场景切换检测,将输入视频分为一系列独立场景的片段,每个场景片段的时长不固定,对每个场景片段进一步切分,场景片段切分的时间单位为2s,对于时长小于2s的片段无需处理,对于时长大于2s的场景片段则每2s切分为一个新的视频片段,对于最后一个片段,如果时长在[1s,2s)之间,则作为一个新的片段,如果时长在(0,1s)之间,则合并到已切分的最后一个片段上,对于一个时长大于2s的场景片段,最终切分为N个片段,则前N-1个片段的时长均为2s,第N个片段的时长范围为[1,3)s;
(3)音乐能量分布计算:
对于输入视频V,假设切分为L片,记为P1~PL,视频的背景音乐相应的切分为L个片段,在时域中计算每个音乐片段P的均方根能量Ei:
Figure BDA0002310590140000052
整段音乐的能量分布为Da=(da1,da2,...,daL),
其中
Figure BDA0002310590140000053
(4)视频时间复杂度分布:
对于输入视频V,假设切分为L片,记为P1~PL,对于每个视频分片Pi计算其时间复杂度的值TIi,整段视频的时间复杂度分布为Dv=(dv1,dv2,...,dvL),其中
Figure BDA0002310590140000054
(5)视频配乐局部匹配度:
局部匹配度用于计算视频时间复杂度分布Dv和音乐能量分布Da之间的匹配度,使用D和D之间的Kullback-Leibler即KL距离来度量局部匹配度Qlocal
Figure BDA0002310590140000055
优选的,所述的(三)视频配乐质量计算:最终的配乐质量由视频配乐全局匹配度和局部匹配度加权和求得:Q=βQlocal+(1-βQglobal),其中β可调参数,控制两部分的权重,默认值β=0.5。
本发明的优点:从短视频与背景音乐节奏匹配度的角度出发,为短视频的配乐质量评价提供了一种客观的计算方法,可以取代传统的基于人工评价的主观评价方法。
附图说明
图1是本发明短视频配乐质量客观评价方法的流程图。
图2是视频切片一种实施例的示意图。
具体实施方式
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
实施例
如图1所示,一种短视频配乐质量客观评价方法,该方法包括以下步骤:
(一)视频配乐全局匹配度计算:
即计算视频整体的运动程度与背景音乐的节奏的匹配关系。核心思想是,如果视频运动高,那么配乐节奏也应该较快;如果视频运动缓慢,甚至静止,那么配乐节奏也应相对较慢。视频的运动程度由视频时间复杂度表示,音乐节奏由音乐的全局节拍数表示。
(二)视频配乐局部匹配度计算:
局部匹配度是一种细粒度的度量方法。考察的是视频的运动程度在时间上的分布,与背景音乐能量在时间上的分布之间的匹配程度,匹配度越高,则说明配乐质量较高,匹配度越差,则配乐质量较差。
(三)视频配乐质量计算:
最终的配乐质量由视频配乐全局匹配度和局部匹配度加权和求得。
所述的(一)视频配乐全局匹配度计算,包括:
(1)视频时间复杂度:
不同的视频画面的运动程度是不同的,有的视频较为平缓,有的运动剧烈,视频在视觉上表现出的运动程度称为视频的时间复杂度,由视频的时域信息(temporalinformation,TI)计算。对于输入视频Vi,时间复杂度TIi计算步骤如下:
①提取视频中的相邻两帧In和In-1
②计算输入帧的灰度图:Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值;
③计算两帧图像对应的灰度图之间的差值:Mn(i,j)=In,g(i,j)-In-1,g(i,j),其中i,j为对应的像素位置;
④计算差值图Mn的标准差:
Figure BDA0002310590140000071
其中H、W为图像高度和宽度,
Figure BDA0002310590140000072
为差值图Mn像素值的均值:
Figure BDA0002310590140000073
⑤整个视频的时间复杂度为
Figure BDA0002310590140000074
其中N为视频的总帧数。
(2)音乐节拍检测:
音乐节拍是乐曲中音符强弱规律的组织形式,节拍表征音乐的平均速度,单位是BPM(beats per minute,每分钟节拍数)。在数学上,音乐节拍检测可以形式化为优化一个递归可计算的损失函数,该损失函数定义为:
Figure BDA0002310590140000075
其中{ti}表示在一段音乐中由算法检测到的N个节拍起始的瞬时时刻,O(ti)是音乐的音符强度包络,τp表示检测到的全局节拍间隔,F(ti-ti-1p)表示前后相邻两个节拍的时刻间隔与τp的一致性,α用来控制前后两项的权重,
在实际中,可以通过递归的优化上面的损失函数来求解音乐的节拍,也可以用音频处理库LibROSA来实现,其中的对应模块为librosa.beat.beat_track。
(3)视频配乐全局匹配度:
全局匹配度由归一化后的视频复杂度和音乐节奏之间的距离表示,步骤如下:
①视频复杂度归一化:
经过对不同类型视频的大量分析,视频的时间复杂度的范围为[5,40],对输入视频V,其时间复杂度为TI,归一化操作就是要把TI归一化到[5,40]区间,具体计算公式为:
Figure BDA0002310590140000081
②背景音乐节奏归一化:
经过对不同类型视频的大量分析,背景音乐的节拍范围为[75,190]BPM,对输入视频V,其配乐的全局节拍为B,归一化操作就是要把B归一化到[75,190]区间,具体计算公式为:
Figure BDA0002310590140000082
③全局匹配度计算:
短视频与配乐的全局匹配度Qglobal的计算:Qglobal=|TInorm-Bnorm|。
所述的(二)视频配乐局部匹配度计算,包括
(1)视频场景切换检测:
视频中的一个场景也称为一个镜头,是指一系列时序上连续的视频帧。视频场景切换检测的任务是,给定一个输入视频,检测出其中的所有场景,并且标注出每个场景的起始帧和终止帧。场景检测可以由多种方法实现,本实施例使用一种基于像素和基于直方图相结合的方式,步骤如下:
①基于像素的场景切换检测:
基于像素的场景检测方法依赖相邻两帧对应位置的像素的差值,该方法对于物体运动和摄像机的抖动比较敏感,因此,在计算两帧像素的差值之前,先对视频的每一帧做一个平滑操作。所有这些都是基于视频帧的灰度分量进行的。我们把视频中的一帧图像记为I,其灰度图记为Ig,平滑之后的图像记为Ic
基于像素的场景切换检测步骤为:
1)提取视频中的相邻两帧I1和I2
2)计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
3)对灰度图进行平滑滤波操作
Figure BDA0002310590140000091
平滑滤波操作实际上是对输入图像划分为8x8的块的操作,
4)计算相邻两帧的图像像素差值距离:
Figure BDA0002310590140000092
②基于直方图的场景切换检测:
基于直方图的场景切换检测方法,首先计算相邻视频帧的灰度直方图,用一个量化的直方图表示每帧图像,然后计算两个直方图向量的距离,本实施例中选用χ2距离来度量两个直方图向量之间的距离,
基于直方图的场景切换检测步骤如下:
1)提取视频中的相邻两帧I1和I2
2)计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
3)计算灰度图的颜色直方图,直方图共划分64的灰度区间,把[0,255]区间均匀分为64份,每个区间包含4个连续的灰度值,颜色图像I1的颜色直方图记为H1=(ho,h1,...,h63);
4)计算两帧图像基于直方图的距离:
Figure BDA0002310590140000093
③基于像素和基于直方图相结合的场景切换检测:
基于像素的场景切换检测对于视频中的快速目标运动和摄像机的快速移动都比较敏感,而直方图的方式则对亮度变化比较敏感,因此,采用两者相结合的方式能产生较为鲁棒的检测效果,判别标准如下所示:
Figure BDA0002310590140000094
其中θhist和θpixel分别为直方图检测和像素检测的阈值,阈值的选取由试验中尝试获取。
(2)视频切片:
为了精细化计算视频相关信息,需要对视频进行分片操作。如图2所示,输入短视频V,首先对输入视频进行场景切换检测,将输入视频分为一系列独立场景的片段。在图中,输入视频V经过场景切换检测识别出3个场景,分别记为S1、S2和S3。由于每个场景片段的时长并不固定,有的场景片段的长度可能会持续几十秒以上,因此,需要对每个场景片段进一步切分。场景片段切分的时间单位为2s。对于时长小于2s的片段则无需处理;对于时长大于2s的场景片段,则每2s切分为一个新的视频片段,对于最后一个片段,如果时长在[1s,2s)之间,则作为一个新的片段,如果时长在(0,1s)之间,则合并到已切分的最后一个片段上。对于一个时长大于2s的场景片段,最终切分为N个片段,则前N-1个片段的时长均为2s,第N个片段的时长范围为[1,3)s。图2中,输入视频V最终被切分为7个视频片段:P1~P7
(3)音乐能量分布计算:
对于输入视频V,假设可以切分为L片,记为P1~PL,视频的背景音乐也相应的切分为L个片段,在时域中计算每个音乐片段P的均方根能量Ei:
Figure BDA0002310590140000101
整段音乐的能量分布为Da=(da1,da2,...,daL),
其中
Figure BDA0002310590140000102
(4)视频时间复杂度分布:
对于输入视频V,假设可以切分为L片,记为P1~PL,对于每个视频分片Pi计算其时间复杂度的值TIi,整段视频的时间复杂度分布为Dv=(dv1,dv2,...,dvL),其中
Figure BDA0002310590140000103
(5)视频配乐局部匹配度:
局部匹配度用来计算视频时间复杂度分布Dv和音乐能量分布Da之间的匹配度,我们使用Dv和Da之间的Kullback-Leibler距离(简称KL距离)来度量局部匹配度Qlocal
Figure BDA0002310590140000104
所述的(三)视频配乐质量计算:
最终的配乐质量由视频配乐全局匹配度和局部匹配度加权和求得:Q=βQlocal+(1-βQglobal),
其中β可调参数,控制两部分的权重,默认值β=0.5。
以上所述各部件均为现有技术,本领域技术人员可使用任意可实现其对应功能的型号和现有设计。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (4)

1.一种短视频配乐质量客观评价方法,其特征是该方法包括以下步骤:
(一)视频配乐全局匹配度计算:
计算视频整体的运动程度与背景音乐的节奏的匹配关系,视频运动高则配乐节奏较快,视频运动缓慢甚至静止则配乐节奏较慢,视频的运动程度由视频时间复杂度表示,音乐节奏由音乐的全局节拍数表示;
(二)视频配乐局部匹配度计算:
局部匹配度是一种细粒度的度量方法,考察视频的运动程度在时间上的分布,与背景音乐能量在时间上的分布之间的匹配程度,匹配度越高则配乐质量较高,匹配度越差则配乐质量较差;
(三)视频配乐质量计算:
最终的配乐质量由视频配乐全局匹配度和局部匹配度加权和求得。
2.如权利要求1所述的一种短视频配乐质量客观评价方法,其特征是所述的(一)视频配乐全局匹配度计算,包括:
(1)视频时间复杂度:
不同的视频画面的运动程度不同,有的视频较平缓、有的运动剧烈,视频在视觉上表现出的运动程度即视频的时间复杂度,由视频的时域信息TI计算,对于输入视频Vi,时间复杂度TIi计算步骤如下:
①提取视频中的相邻两帧In和In-1
②计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
③计算两帧图像对应的灰度图之间的差值:Mn(i,j)=In,g(i,j)-In-1,g(i,j),其中i,j为对应的像素位置,
④计算差值图Mn的标准差:
Figure FDA0002310590130000011
其中H、W为图像高度和宽度,
Figure FDA0002310590130000012
为差值图Mn像素值的均值:
Figure FDA0002310590130000013
⑤整个视频的时间复杂度为:
Figure FDA0002310590130000014
其中N为视频的总帧数;
(2)音乐节拍检测:
音乐节拍是乐曲中音符强弱规律的组织形式,节拍表征音乐的平均速度,单位是BPM每分钟节拍数,音乐节拍检测在数学上形式化为优化一个递归可计算的损失函数,该损失函数定义为:
Figure FDA0002310590130000021
其中{ti}表示在一段音乐中由算法检测到的N个节拍起始的瞬时时刻,O(ti)是音乐的音符强度包络,τp表示检测到的全局节拍间隔,F(ti-ti-1p)表示前后相邻两个节拍的时刻间隔与τp的一致性,α用于控制前后两项的权重,
通过递归的优化上面的损失函数求解音乐的节拍,或用音频处理库LibROSA实现,其中的对应模块为librosa.beat.beat_track;
(3)视频配乐全局匹配度:
全局匹配度由归一化后的视频复杂度和音乐节奏之间的距离表示,步骤如下:
①视频复杂度归一化:
视频的时间复杂度的范围为[5,40],对输入视频V,其时间复杂度为TI,归一化操作即把TI归一化到[5,40]区间,具体计算公式为:
Figure FDA0002310590130000022
②背景音乐节奏归一化:
背景音乐的节拍范围为[75,190]BPM,对输入视频V,其配乐的全局节拍为B,归一化操作即把B归一化到[75,190]区间,具体计算公式为:
Figure FDA0002310590130000023
③全局匹配度计算:
短视频与配乐的全局匹配度Qglobal的计算:Qglobal=|TInorm-Bnorm|。
3.如权利要求2所述的一种短视频配乐质量客观评价方法,其特征是所述的(二)视频配乐局部匹配度计算,包括
(1)视频场景切换检测:
视频中的一个场景即一个镜头,指一系列时序上连续的视频帧,视频场景切换检测的任务是给定一个输入视频,检测出其中的所有场景,并且标注出每个场景的起始帧和终止帧,场景检测步骤如下:
①基于像素的场景切换检测:
基于像素的场景检测方法依赖相邻两帧对应位置的像素的差值,在计算两帧像素的差值之前,先对视频的每一帧做一个平滑操作,以上基于视频帧的灰度分量进行,把视频中的一帧图像记为I,其灰度图记为Ig,平滑之后的图像记为Ic
基于像素的场景切换检测步骤为:
1)提取视频中的相邻两帧I1和I2
2)计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
3)对灰度图进行平滑滤波操作:
Figure FDA0002310590130000031
即对输入图像划分为8x8的块的操作,
4)计算相邻两帧的图像像素差值距离:
Figure FDA0002310590130000032
②基于直方图的场景切换检测:
基于直方图的场景切换检测方法,首先计算相邻视频帧的灰度直方图,用一个量化的直方图表示每帧图像,然后计算两个直方图向量的距离,选用χ2距离来度量两个直方图向量之间的距离,
基于直方图的场景切换检测步骤如下:
1)提取视频中的相邻两帧I1和I2
2)计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
3)计算灰度图的颜色直方图,直方图共划分64的灰度区间,把[0,255]区间均匀分为64份,每个区间包含4个连续的灰度值,颜色图像I1的颜色直方图记为H1=(ho,h1,...,h63),
4)计算两帧图像基于直方图的距离:
Figure FDA0002310590130000041
③基于像素和基于直方图相结合的场景切换检测:
判别标准如下所示:
Figure FDA0002310590130000042
其中θhist和θpixel分别为直方图检测和像素检测的阈值,阈值的选取由试验中尝试获取;
(2)视频切片:
为精细化计算视频相关信息,对视频进行分片操作,输入短视频V,首先对输入视频进行场景切换检测,将输入视频分为一系列独立场景的片段,每个场景片段的时长不固定,对每个场景片段进一步切分,场景片段切分的时间单位为2s,对于时长小于2s的片段无需处理,对于时长大于2s的场景片段则每2s切分为一个新的视频片段,对于最后一个片段,如果时长在[1s,2s)之间,则作为一个新的片段,如果时长在(0,1s)之间,则合并到已切分的最后一个片段上,对于一个时长大于2s的场景片段,最终切分为N个片段,则前N-1个片段的时长均为2s,第N个片段的时长范围为[1,3)s;
(3)音乐能量分布计算:
对于输入视频V,假设切分为L片,记为P1~PL,视频的背景音乐相应的切分为L个片段,在时域中计算每个音乐片段Pi的均方根能量Ei:
Figure FDA0002310590130000043
整段音乐的能量分布为Da=(da1,da2,...,daL),
其中
Figure FDA0002310590130000044
(4)视频时间复杂度分布:
对于输入视频V,假设切分为L片,记为P1~PL,对于每个视频分片Pi计算其时间复杂度的值TIi,整段视频的时间复杂度分布为Dv=(dv1,dv2,...,dvL),其中
Figure FDA0002310590130000045
(5)视频配乐局部匹配度:
局部匹配度用于计算视频时间复杂度分布Dv和音乐能量分布Da之间的匹配度,使用Dv和Da之间的Kul lback-Leibler即KL距离来度量局部匹配度Qlocal
Figure FDA0002310590130000051
4.如权利要求3所述的一种短视频配乐质量客观评价方法,其特征是所述的(三)视频配乐质量计算:最终的配乐质量由视频配乐全局匹配度和局部匹配度加权和求得:Q=βQlocal+(1-βQglobal),其中β可调参数,控制两部分的权重,默认值β=0.5。
CN201911257134.0A 2019-12-10 2019-12-10 一种短视频配乐质量客观评价方法 Active CN110933406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911257134.0A CN110933406B (zh) 2019-12-10 2019-12-10 一种短视频配乐质量客观评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911257134.0A CN110933406B (zh) 2019-12-10 2019-12-10 一种短视频配乐质量客观评价方法

Publications (2)

Publication Number Publication Date
CN110933406A true CN110933406A (zh) 2020-03-27
CN110933406B CN110933406B (zh) 2021-05-14

Family

ID=69859395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257134.0A Active CN110933406B (zh) 2019-12-10 2019-12-10 一种短视频配乐质量客观评价方法

Country Status (1)

Country Link
CN (1) CN110933406B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287771A (zh) * 2020-10-10 2021-01-29 北京沃东天骏信息技术有限公司 用于检测视频事件的方法、装置、服务器和介质
CN112367524A (zh) * 2020-12-08 2021-02-12 重庆邮电大学 一种全景视频编码方法
CN112685592A (zh) * 2020-12-24 2021-04-20 上海掌门科技有限公司 生成运动视频配乐的方法和装置
CN114390367A (zh) * 2020-10-16 2022-04-22 上海哔哩哔哩科技有限公司 一种音视频处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050097371A (ko) * 2004-04-02 2005-10-07 엘지전자 주식회사 가라오케시스템에서 영상 및 가사 매칭 장치
KR20150112048A (ko) * 2014-03-25 2015-10-07 서강대학교산학협력단 모바일 앱 기반의 실시간 영상의 배경음악 생성방법
CN109862393A (zh) * 2019-03-20 2019-06-07 深圳前海微众银行股份有限公司 视频文件的配乐方法、系统、设备及存储介质
CN110188236A (zh) * 2019-04-22 2019-08-30 北京达佳互联信息技术有限公司 一种音乐的推荐方法、装置及系统
CN110392302A (zh) * 2018-04-16 2019-10-29 北京陌陌信息技术有限公司 视频配乐方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050097371A (ko) * 2004-04-02 2005-10-07 엘지전자 주식회사 가라오케시스템에서 영상 및 가사 매칭 장치
KR20150112048A (ko) * 2014-03-25 2015-10-07 서강대학교산학협력단 모바일 앱 기반의 실시간 영상의 배경음악 생성방법
CN110392302A (zh) * 2018-04-16 2019-10-29 北京陌陌信息技术有限公司 视频配乐方法、装置、设备及存储介质
CN109862393A (zh) * 2019-03-20 2019-06-07 深圳前海微众银行股份有限公司 视频文件的配乐方法、系统、设备及存储介质
CN110188236A (zh) * 2019-04-22 2019-08-30 北京达佳互联信息技术有限公司 一种音乐的推荐方法、装置及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287771A (zh) * 2020-10-10 2021-01-29 北京沃东天骏信息技术有限公司 用于检测视频事件的方法、装置、服务器和介质
CN114390367A (zh) * 2020-10-16 2022-04-22 上海哔哩哔哩科技有限公司 一种音视频处理方法及装置
CN112367524A (zh) * 2020-12-08 2021-02-12 重庆邮电大学 一种全景视频编码方法
CN112685592A (zh) * 2020-12-24 2021-04-20 上海掌门科技有限公司 生成运动视频配乐的方法和装置

Also Published As

Publication number Publication date
CN110933406B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN110933406B (zh) 一种短视频配乐质量客观评价方法
Fang et al. No-reference quality assessment of contrast-distorted images based on natural scene statistics
CN107527337B (zh) 一种基于深度学习的视频对象移除篡改检测方法
US8699818B2 (en) Method, system, and program for determining image quality based on pixel changes between image frames
RU2011122683A (ru) Дисплей и способ управления дисплеем
US20110255005A1 (en) Information processing device, information processing method and program
CN109191444A (zh) 基于深度残差网络的视频区域移除篡改检测方法及装置
CN110689524B (zh) 一种无参考在线图像清晰度评价方法与系统
CN113706490B (zh) 一种晶片缺陷检测方法
Gu et al. Structural similarity weighting for image quality assessment
CN106570855A (zh) 猪肉新鲜度快速判定的方法及系统
CN117237279A (zh) 一种非均匀失真全景图像盲质量评价方法及系统
CN117152735A (zh) 一种基于改进yolov5s的番茄成熟度分级方法
CN109660814B (zh) 一种视频前景删除篡改的检测方法
CN113610185B (zh) 基于主色调识别的木材色选方法
CN102016879A (zh) 闪光检测
TWI747686B (zh) 缺陷檢測方法及檢測裝置
JP2007304948A (ja) 映像品質客観評価装置、及び映像品質客観評価方法
KR101124560B1 (ko) 동영상 내의 자동 객체화 방법 및 객체 서비스 저작 장치
CN107027067B (zh) 获取mv视频资源中字幕信息的方法及系统
CN104112266B (zh) 一种图像边缘虚化的检测方法和装置
CN103605973A (zh) 一种图像字符检测鉴别方法
Cao et al. Audio-visual quality assessment for user generated content: Database and method
CN113066077B (zh) 火焰检测方法及装置
US20220198194A1 (en) Method of evaluating empathy of advertising video by using color attributes and apparatus adopting the method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant