CN110162671B

CN110162671B - 通过音乐情感识别视频广告的方法

Info

Publication number: CN110162671B
Application number: CN201910384279.0A
Authority: CN
Inventors: 孙伟芳; 张勇; 董培祥
Original assignee: Cntv Wuxi Co ltd
Current assignee: Cntv Wuxi Co ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2023-01-03
Anticipated expiration: 2039-05-09
Also published as: CN110162671A

Abstract

本发明公开了一种通过音乐情感识别视频广告的方法，包括：S1获取音乐文件集，并根据Valence‑Arousal二维空间对音乐文件集中的音乐文件打分，得到各音乐文件的V‑A真值；S2分别提取音乐文件集中音乐文件的特征，使用音乐文件的特征作为输入、V‑A真值作为输出对音乐情感识别模型进行训练，完成音乐情感识别模型的搭建；S3获取配乐的待识别视频，并每间隔一定时间作为一个节点提取音乐特征；S4将提取的音乐特征输入训练好的音乐情感识别模型得到相应节点的V‑A预测值；S5根据得到的各节点的V‑A预测值对视频中的广告进行识别。基于音乐计算数据较视频更小，差异性更突出，因此该方法效率和识别率都更高，能够节省时间的同时节省计算资源和人力资源。

Description

通过音乐情感识别视频广告的方法

技术领域

本发明涉及多媒体技术领域，尤其涉及一种视频广告识别方法。

背景技术

目前，多媒体视频广泛流传，视频中的广告片段形式多种多样，数量庞大，很大程度上加大了视频资料保存和二次制作的难度。对于视频资源二次制作和保存的厂商/个人来说，快捷方便有效地去除视频中的广告能够节省存储空间的同时方便使用，进而这一需求成为了很多公司和研究人员研究开发的热点。

目前，绝大部分厂商或个人仍然通过人工识别的方式去除视频中的广告，这种方法不仅效率低下，而且成本高。此外，有一部分厂商或个人通过视频图片相似度比对的方式去除广告，但是这种方法会消耗大量的资源，且针对不同类别广告的识别鲁棒性不好。

发明内容

针对上述现有技术的不足，本发明提供了一种通过音乐情感识别视频广告的方法，有效解决现有技术中视频广告识别成本高、耗费大量资源的技术问题。

为了实现上述目的，本发明通过以下技术方案实现：

一种通过音乐情感识别视频广告的方法，包括：

S1获取音乐文件集，并根据Valence-Arousal二维空间对音乐文件集中的音乐文件打分，得到各音乐文件的V-A真值；

S2分别提取音乐文件集中音乐文件的特征，使用音乐文件的特征作为输入、V-A真值作为输出对音乐情感识别模型进行训练，完成音乐情感识别模型的搭建；

S3获取配乐的待识别视频，并每间隔一定时间作为一个节点提取音乐特征；

S4将提取的音乐特征输入训练好的音乐情感识别模型得到相应节点的V-A预测值；

S5根据得到的各节点的V-A预测值对视频中的广告进行识别。

进一步优选地，在步骤S2中包括：

S21分别提取音乐文件集中音乐文件的特征，所述特征包括：音乐的音色特征、韵律特征及强度特征；

S22将音乐文件集分为训练集和测试集；

S23根据训练集使用其中的音乐文件的特征作为输入、V-A真值作为输出对音乐情感识别模型进行训练；

S24根据测试集对音乐情感识别模型进行进一步优化调整，完成音乐情感识别模型的搭建。

进一步优选地，V-A真值中包括Valence值和Arousal值；

当Valence>0，Arousal>0，代表高兴、快乐、兴奋类情绪，此时，0°<θ<90°，且随着角度增大情绪强度增强，其中，θ＝arctan(Arousal/Valence)；

当Valence<0，Arousal>0，代表害怕、愤怒、悲痛类情绪，此时，90°<θ<180°，且随着角度增大情绪强度减弱，其中，θ＝180°+arctan(Arousal/Valence)；

当Valence<0，Arousal<0，代表伤心、沮丧、厌烦类情绪，此时，180°<θ<270°，且随着角度增大情绪强度减弱，其中，θ＝180°+arctan(Arousal/Valence)；

当Valence>0，Arousal<0，代表满足、轻松、疲乏类情绪，此时，270°<θ<360°，且随着角度增大情绪强度增强，其中，θ＝360°+arctan(Arousal/Valence)。

进一步优选地，在步骤S5中包括：

S51从视频头开始，计算预设时间段δ秒内包含的节点的空间方位角θ的平均值m；

S52判断δ秒内是否存在空间方位角θ与平均值m间差值大于预设阈值ε的节点；若是，判定该节点对应的第t秒为疑似广告节点，并跳转至步骤S53；

S53在视频中计算下一个时间段δ秒内包含的节点的空间方位角θ的平均值m’，并根据步骤S52中的方法找到下一个疑似广告节点第t1秒；

S54根据两个疑似广告节点之间的时间差值识别视频中的广告。

进一步优选地，在步骤S54中，若两个疑似广告节点之间的时间差值Δt>δ，判断两个疑似广告节点间为视频内部的剧情切换；若η<Δt<δ，判断两个疑似广告节点间为广告，其中，Δt＝t1-t，η为预先设定阈值。

进一步优选地，在步骤S54中，若判断两个疑似广告节点之间为广告，则截取两个节点之间的视频；

在截取过程中，根据预先设定的精度选定广告截取的秒数。

在本发明提供的通过音乐情感识别视频广告的方法中，利用广告配乐的情感与视频情感不一致(广告配乐情感单一，且持续时间相对固定)的特点，提出利用视频配乐的情感特征来识别视频中广告的位置的方法，基于音乐计算数据较视频更小，差异性更突出，因此该方法效率和识别率都更高，能够节省时间的同时节省计算资源和人力资源。

在该方法中，首先，利用已知音乐文件集训练出合适参数的音乐情感识别模型；之后，利用该模型，识别出一视频中音乐时间序列上的情感基因(Valence、Arousal)，最后根据(V，A)结合阈值确定出广告所在的位置，在Valence-Arousal二维空间中提出空间方位角，并描述了空间方位角的大小和音乐情感强度的关系，其适用于不同的视频类型和广告类型，可通过调节阈值提高识别正确率，且复杂度低、实时性好。

附图说明

结合附图，并通过参考下面的详细描述，将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征，其中：

图1为本发明中通过音乐情感识别视频广告的方法流程示意图；

图2为Valence-Arousal二维空间示意图；

图3为本发明中音乐情感识别模型训练流程图；

图4为本发明一音乐文件的V-A值在Valence-Arousal二维空间中的示意图。

具体实施方式

为使本发明的内容更加清楚易懂，以下结合说明书附图，对本发明的内容作进一步说明。当然本发明并不局限于该具体实施例，本领域内的技术人员所熟知的一般替换也涵盖在本发明的保护范围内。

音乐的情感特征是音乐的主要特征之一，网络的普及让各类音乐爆炸式的增长，为了满足音乐检索、音乐推荐、音乐治疗等方面的应用，依靠人为的打分或分类不能满足需求的，因此基于机器学习识别音乐情感受到了广泛关注。针对现有技术中视频中识别广告难的技术问题，本发明提供了一种通过音乐情感识别视频广告的方法，通过识别出视频配乐中不同音乐的情感基因，从而分析识别出广告片段。如图1所示，该视频广告识别方法中包括：S1获取音乐文件集，并根据Valence-Arousal二维空间对音乐文件集中的音乐文件打分，得到各音乐文件的V-A真值；S2分别提取音乐文件集中音乐文件的特征，使用音乐文件的特征作为输入、V-A真值作为输出对音乐情感识别模型进行训练，完成音乐情感识别模型的搭建；S3获取配乐的待识别视频，并每间隔一定时间作为一个节点提取音乐特征；S4将提取的音乐特征输入训练好的音乐情感识别模型得到相应节点的V-A预测值；S5根据得到的各节点的V-A预测值对视频中的广告进行识别。

如图2所示为Valence-Arousal二维空间(Valence-Arousal的情感维度空间模型)，Valence和Arousal都定义为一个实数值，其中，Valence代表愉快-不愉快的程度，即代表了正向与负向(positive-negative)的情感状态；Arousal代表激动-平静的程度(high-low)。通过该方法，各种类型的音乐文件都可以表示为VA坐标平面上的一个坐标点，代表其情感的正负向和激动程度，能够提供更为细致的情感信息。以此，将Valence、Arousal看成二维连续情感变量，通过回归方法训练识别音乐情感基因模型，得出音乐在时间序列上的(Valence、Arousal)情感基因；再利用视频内容的正片和广告内容配乐表达情感间的差异，即可以区分出正片和广告的位置。

在训练音乐情感识别模型的过程中，获取了音乐文件集之后，首先对其中的音乐文件进行统一预处理，转换为统一的音乐格式，如22050Hz、16bits、mono channel PCM WAV等，之后由MTurk网站或者个人组织志愿者对音乐文件进行打分获取音乐文件的V-A真值，具体V-A真值中Valence值和Arousal值，且值域均在(-1,1)之间。接着提取分别提取音乐文件集中音乐文件的特征，特征包括：音乐的音色特征，MFCC(Mel-frequency cepstralcoefficients，梅尔频率倒谱系数)、DWCHs(Daubechies小波系数直方图)、SC(光谱对比度)、SSDs(统计频谱描述特征)等；韵律特征，节拍、旋律、频率等；强度特征，音高、响度、子带能量等；具体可以使用Marsyas、MIRToolbox for Matlab、PsySound、openSMILE等工具对音乐特征进行提取。

音乐情感识别模型基于回归算法，如SVR、MLR、PLSR、MAPLR、GPR等，识别性能较高的有多元线性回归模型MLR和支持向量回归SVR，其中，SVR旨在构建超平面解决分类问题，SVR通过构造超平面解决回归问题。回归问题求解过程在于回归函数f(x)的求取，要求预测结果与实际值期望风险最小。一元线性回归是一个主要影响因素作为自变量来解释因变量的变化，在现实问题研究中，因变量的变化往往受几个重要因素的影响，此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化，这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时，所进行的回归分析就是多元性回归。设y为因变量X₁,X₂,…,X_k为自变量，并且自变量与因变量之间为线性关系时，则多元线性回归模型。

选定了音乐情感识别模型之后，将音乐文件集分为训练集和测试集，进而根据训练集使用其中的音乐文件的特征作为输入、V-A真值作为输出对音乐情感识别模型进行训练；之后，根据测试集对音乐情感识别模型进行进一步优化调整，完成音乐情感识别模型的搭建，训练过程如图3所示。对于训练集和测试集的分类，根据实际情况而定，如将音乐文件集分为85％的训练集和15％的测试集。

根据Valence-Arousal二维空间，V-A真值中包括Valence值和Arousal值，这里再引入空间方位角θ，如图4所示。具体，当Valence>0，Arousal>0，代表高兴、快乐、兴奋类情绪，此时，0°<θ<90°，且随着角度增大情绪强度增强，其中，空间方位角θ＝arctan(Arousal/Valence)；当Valence<0，Arousal>0，代表害怕、愤怒、悲痛类情绪，此时，90°<θ<180°，且随着角度增大情绪强度减弱，其中，空间方位角θ＝180°+arctan(Arousal/Valence)；当Valence<0，Arousal<0，代表伤心、沮丧、厌烦类情绪，此时，180°<θ<270°，且随着角度增大情绪强度减弱，其中，空间方位角θ＝180°+arctan(Arousal/Valence)；当Valence>0，Arousal<0，代表满足、轻松、疲乏类情绪，此时，270°<θ<360°，且随着角度增大情绪强度增强，其中，空间方位角θ＝360°+arctan(Arousal/Valence)。

基于此，在对视频中的广告进行识别的过程中，获取了配乐的待识别视频并进行预处理(将视频中的音乐转换为统一的格式)之后，从视频头开始(默认视频开头没有广告)，每间隔一定时间(假定为n秒)作为一个节点提取音乐特征，并将提取的各节点的音乐特征输入训练好的音乐情感识别模型中，得到该视频中各节点的时间序列情感基因(V-A预测值)。在实例中，假定从视频头开始每间隔5s作为一个节点进行音乐特征的提取，则输入音乐情感识别模型后得到视频中每5s片段的时间序列情感基因。

得到各节点的V-A预测值之后，根据预先设定的阈值δ和ε区分视频中的正片和广告。具体，从第一个n秒开始，计算预设时间段δ秒内包含的节点的空间方位角θ的平均值m；并判断δ秒内是否存在空间方位角θ与平均值m间差值大于预设阈值ε的节点；若是，则判定该节点对应的第t秒为疑似广告节点。采用相同的方法，计算视频中计算下一个时间段δ秒内包含的节点的空间方位角θ的平均值m’，找到下一个疑似广告节点第t1秒；并根据两个疑似广告节点之间的时间差值识别视频中的广告。具体，若两个疑似广告节点之间的时间差值Δt>δ，判断两个疑似广告节点间为视频内部的剧情切换；若η<Δt<δ，判断两个疑似广告节点间为广告，其中，Δt＝t1-t(单位秒)，η为预先设定阈值。一般来说，视频中插播的广告时长在20s(秒)以内，且最长不超过1min(分钟)，故，在实际应用中，将δ设定为60s，将η设定为20s，即当Δt>60，判断两个疑似广告节点间为视频内部的剧情切换；若20<Δt<60，判断两个疑似广告节点间为广告。

对于视频中广告的截取秒数，根据预先设定的精确而定，如，在一实例中，广告的起始位置为t至t+5秒内，结束位置为t1至t1+5秒内。

Claims

1.一种通过音乐情感识别视频广告的方法，其特征在于，包括：

S5根据得到的各节点的V-A预测值对视频中的广告进行识别；

在步骤S5中包括：

2.如权利要求1所述的方法，其特征在于，在步骤S2中包括：

S22将音乐文件集分为训练集和测试集；

3.如权利要求1所述的方法，其特征在于，V-A真值中包括Valence值和Arousal值；

当Valence>0，Arousal>0，代表高兴、快乐、兴奋类情绪，此时，0°<θ<90°，且随着角度增大情绪强度增强，其中，空间方位角θ＝arctan(Arousal/Valence)；

当Valence<0，Arousal>0，代表害怕、愤怒、悲痛类情绪，此时，90°<θ<180°，且随着角度增大情绪强度减弱，其中，空间方位角θ＝180°+arctan(Arousal/Valence)；

当Valence<0，Arousal<0，代表伤心、沮丧、厌烦类情绪，此时，180°<θ<270°，且随着角度增大情绪强度减弱，其中，空间方位角θ＝180°+arctan(Arousal/Valence)；

当Valence>0，Arousal<0，代表满足、轻松、疲乏类情绪，此时，270°<θ<360°，且随着角度增大情绪强度增强，其中，空间方位角θ＝360°+arctan(Arousal/Valence)。

4.如权利要求1所述的方法，其特征在于，在步骤S54中，若两个疑似广告节点之间的时间差值Δt>δ，判断两个疑似广告节点间为视频内部的剧情切换；若η<Δt<δ，判断两个疑似广告节点间为广告，其中，Δt＝t1-t，η为预先设定阈值。

5.如权利要求4所述的方法，其特征在于，在步骤S54中，若判断两个疑似广告节点之间为广告，则截取两个节点之间的视频；

在截取过程中，根据预先设定的精度选定广告截取的秒数。