CN107506370A

CN107506370A - 多媒体数据深度挖掘方法、存储介质及电子设备

Info

Publication number: CN107506370A
Application number: CN201710549413.9A
Authority: CN
Inventors: 郭继舜
Original assignee: Dasheng Technology Co ltd
Current assignee: Dasheng Technology Co ltd
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2017-12-22

Abstract

本发明提供多媒体数据深度挖掘方法，同时本发明还涉及存储介质与电子设备。本发明基于深度学习的分布式海量高维视频数据的检索方法，并针对海量高维数据的快速挖掘问题，进行检测数据和计算负载的分布式部署，同时通过实验数据证明基于深度的分布式海量高维视频数据检索框架的有效性。本发明采用虚拟节点算法对分布式海量高维视频数据检索负载均衡的优化；针对海量高维视频数据分布式检索的负载均衡问题，深入研究对等网络的动态负载均衡算法和索引结构的数据分布特点，设计出一种基于虚拟节点的动态调度算法来满足深度学习大量运算的需要。

Description

多媒体数据深度挖掘方法、存储介质及电子设备

技术领域

本发明涉及数据挖掘，尤其涉及一种多媒体数据深度挖掘方法、存储介质及电子设备。

背景技术

(1)海量视频数据检索研究现状

视频信息检索的研究与视频信息的富有程度息息相关，大致上可以分为两个阶段,即基于文本注记的视频检索和基于内容的视频检索(Content Bawd Video Retrieval，简称CBVR)。

在视频信息尚未极大丰富的第一阶段，视频检索系统利用与视频相关的文本信息采用基于文本检索方法实现。这些文本信息主要有两种：内容无关的元数据和对视频进行人工注记的关键词或自由文本。这种方法虽然简单，但随着视频数据爆炸式的增长，以下一些问题凸显，从而影响了对视频信息的有效使用。首先，一个小时的视频就包含约十万幅图像，人工注解需要大量劳动力，非常耗时，费用也很高。随着数据量的激增，对视频内容的所有属性进行标记存在很大困难，也不现实；其次，由于视频内容非常丰富，有限的关键词无法清楚的描述背景、人物、事件等信息；第三，视觉内容是客观的，但是语义内容却是主观的；不同的观察者或同一观察者在不同条件下对同一视频可能给出不同的描述，常会自相矛盾；第四，文字描述是一种特定的抽象，如果描述的标准改变，则注记也得重新制作才能适合新查询的要求。换句话说，特定的注记只适合于特定的查询要求；最后，由于文本注记一般描述的是整个视频的内容，而用户通常需要检索视频中的一个片段，因此传统的基于文本注记的检索方法无法快速找到所需片段，只能通过时序的视频浏览手段获得，因此非常繁琐、耗时。

在意识到这些问题后，学者们开始研究基于视频内容如图像、声音等信息的检索方法，期望通过对视频内容进行自动分析理解并引入少量的人机交互达到语义级的检索需求，视频检索进入了第二个阶段即基于内容的视频检索。基于内容的视频检索指的是对视频资料中蕴涵的从底层到高层的数据进行处理、分析和理解来获取视频所描述的内容并进行检索的过程。其核心是提取视频内容的三个关键部分，即视频数据的结构信息、底层视觉和听觉信息以及高层语义信息，并对这些信息进行分析和综合处理，建立通用的模型。基于内容的视频检索能够克服第一阶段视频检索系统的大部分缺点，通过机器学习的方法对颜色、纹理、形状、空间关系、运动信息等底层信息与事件、情节等高层语义之间关系的学习能够客观的对视频内容进行描述与建模，而视频结构化能够针对视频中的局部片段而不是整个视频进行检索。由于模式识别、机器学习的应用，在检索过程中不需要对所有的视频进行标注,通常仅标注部分样例就可以学习出泛化能力较强的模型。

基于内容的视频检索是视频信息有效利用、共享的前提与基础，在许多领域有着广泛的应用前景，如数字图书馆、远程教育、广播电视、出版、影视娱乐、安全监控等，从上世纪90年代开始，越来越多的高校、科研机构以及公司开始致力于多媒体信息检索方而的研究，而基于内容的视频检索在学术研究和商业应用方面也都已经取得了一定的成果。很多大学或研究所等研究机构己经开发了许多原型系统，国际上比较著名的有Columbia大学的Visual SEEK/Web SEEK、Video Q，UIUC开发的Mars，CMU大学的Informedia系统等，国内有浙江大学的Webscope-CBVR、清华大学的TV Find等，在商业仁基于内容的视频检索也被业界广泛认同，许多商用系统已经投入应用，如IBM公司的QBIC、Cue Video系统，Virage公司的Virage系统、Excalibur公司的Excalibur系统等。然而，基于内容的视频检索离真正的实用化还有较大的距离，仍然有许多技术问题需要解决，目前一些大型的通用视频搜索引擎如Google、Baidu、Bing等尚未真正支持基于内容的搜索。从2001年开始,美国NIST(National Institute of Standards and Technology)每年都主办针对大规模视频检索的国际评测会议TRC-Vid，它通过提供统一的测试数据和评估标准，鼓励各个研究机构在大规模视频信息分析和检索领域展开开拓性的研究。

(2)深度学习研究现状：

自从深度学习模型的训练方法被提出，深度学习的发展在最近几年突飞猛进，不仅在理论验证方面得到了成功，而且在实际应用方面，也得到了巨大并且迅速的推广和发展。在理论模型方面，主要分成了三种类型结构，其中包括生成性深度结构、区分性深度结构和混合型结构。深度置信网(DBN)和卷积神经网络是其中两种重要的深层架构形态，而深度置信网主要包括RBM(Restricted Boltzmann Machine)或者自动编码器(Auto Encoder)两种结构所组成。在实际应用方面，主要在语言识别和信号处理、物体识别、语言识别、自然语言处理和多任务学习方面得到了成功的应用。

在语言识别和信号处理方面：语音识别是神经网络最早的应用之一，特别是卷积神经网络。最近神经网络、深度学习的研究复兴都对语言识别领域产生了巨大的冲击，研究人员在此基础上将这些算法成功地大规模应用到实际产品中。例如，微软在2012年发布了他们的MAVIS(微软音频视频搜索服务)的一个新版本，其就是基于深度学习。该系统成功地将单词错误率在四个主要基准库上比之前的模型降低了30％(在RT03S上从27.4％错误率下降到18.5％)，而之前最好的模型是基于高斯混合的语音模型，当然也是使用相同的训练数据(309个小时的语音样本)。另一方面，有些研究成果在稍少一点的一个大量词汇基准库上(40个小时的语音样本，Bing手机商务搜索数据库)也得到了一定的错误率改善，大约在16％至23％之间。基于回归神经网络的特征学习算法同时也应用到音乐识别领域上，在四个不同的基准数据库上分别降低了5％至30％左右的错误率。

在物体识别方面：2006年深度学习的开始阶段就聚焦于MNIST手写体的图像分类问题，并在此数据集上打破了SVM保持的低错误率(1.4％)。而最新的分类错误率记录仍是由深度学习算法所保持：其中包括Ciresan使用卷积神经网络保持的0.27％错误率，和Rifai使用无先验知识的MNIST版本保持的0.81％错误率。在最近几年，深度学习的焦点已经从手写数字体的研究转移到自然图像的研究应用，最近最大的进展莫过于Krizhevsky在ImageNet数据集上从26.1％的错误率降低到15.3％的错误率。

除了语音识别，在其他自然语言处理的应用方面也有很多不同的特征学习算法。Hinton在1986年提出了分布式表示符号数据，并且在2003年进一步应用于上下文统计语言模型，它们都是基于对每个单词学习其分布表示，称作“单词嵌入”。2011年，Collobert等人使用卷积结构结合上述的思想，开发了SENNA系统，该系统在其语言模型中的各项任务中共享了其特征表示，其中包括语言标记，程序分块，命名实体识别，语义功能标识和句法分析等任务。SENNA方法或许比不上这些任务最好的分类结果，但是它比传统的预测算法速度大大提高同时只需要3500行C代码来执行它的分类预测。

在2011年，Mikolov等人通过在隐含层中添加回归反馈来提高神经网络语言模型的性能，使其无论在复杂度上还是在单词错误率上都比得上最好的平滑n-gram模型，其中在Wall Street Journal基准数据上从17.2％-16.9％的错误率降低到14.4％，同时类似的模型也被应用到统计机器翻译中。另一方面，回归自动编码器(反馈神经网络)也被应用到全文翻译检测中，几乎取得了双倍的F1分数。特征学习也能被应用到消除词义二义性的场景中，使其准确率从67.8％上升到70.2％。最后，其也被成功地应用到表现最好的情感分析中。

在多任务和转移学习方面：转移学习是指在不同的学习任务中，通过利用其之间共同的统计指标，达到在不同任务中互相利用、转移知识的过程。如下图所示，我们假设在这些不同的学习任务中，它们拥有共同类似相关的特征，在其基础上，对于特定的某项学习任务其又有对应的特殊特征，而特征学习算法则能够根据其学习任务学习到特定的特征，而且同时利用了其共同的影响因素，从而达到了知识共享的目标。

2011年，表示学习算法解决了关于转移学习问题的两大挑战。首先，Bengio等人提出了无监督分层预训练方法，然后，Goodfellow等在NIPS 2011上解决了第二个问题。另外，关于转移学习上表示学习的成功应用还包括域适应方面，其是指在输入分布改变的情况下目标分类保持不变。当然，对多任务多分类的联合预测输出问题，多任务特征学习算法的优势也得到了很好的体现。

发明内容

为了克服现有技术的不足，本发明的目的在于提供多媒体数据深度挖掘方法。

本发明提供一种多媒体数据深度挖掘方法，包括以下步骤：

步骤1，获取多媒体视频数据库中的视频，利用各视频中相邻帧的色彩信息特征，将各视频分割为若干连续的子视频片段；

步骤2，将所述的连续的子视频片段分配至独立的数据节点，并提取所述子视频片段的关键帧；

步骤3，针对视频数据库中的视频，通过构建受限玻尔兹曼机模型，提取所述关键帧的视频特征；

步骤4，将子视频片段、关键帧和视频特征作为输入，对AlexNet模型进行训练，得到多模态卷积神经网络；

步骤5，针对待挖掘的视频，采用步骤1至步骤3的方法进行关键帧提取和视频特征提取，并将子视频片段，以及提取到的关键帧和视频特征作为输入，利用步骤4的多模态卷积神经网络进行相似性判断，得到挖掘结果。

进一步地，步骤1的具体操作如下：

步骤a，将视频的颜色空间转换为HIS颜色空间；

步骤b，将视频中的任意一帧分割为若干大小相同的子区域；

步骤c，计算每个子区域中，所有像素点的色调之和、亮度之和、以及饱和度之和；

步骤d，计算每个子区域的色调平均值、亮度平均值、以及饱和度平均值；

步骤e，计算每帧视频中，所有子区域的色调平均值、亮度平均值、以及饱和度平均值之和，记为C_HSI；

步骤f，计算相邻两帧的C_HSI差值，若差值小于第一阈值，则将两帧划分至同一个子视频片段，否则，划分至不同的子视频片段。

进一步地，所述的步骤2的具体操作如下：

步骤g，针对子视频片段，依据设定的时间间隔选取至少五帧图像作为备选关键帧；

步骤h、计算任意两个备选关键帧的图像距离；

若所有图像距离均小于第二阈值，则选取时间上处于中间位置的视频帧作为关键帧；

若所有图像距离均大于第二阈值，则所有备选关键帧均作为关键帧；

否则，选取图像距离最大的两个备选关键帧作为关键帧。

进一步地，所述的步骤1前还包括，通过Hadoop构建分布式运算模块，所述的分布式运算模块包括若干数据节点与一个命名节点；所述的节点的GPU运算包括两TitanX显卡；所述的数据节点用于获取所述连续的子视频片段；所述的命名节点用于对所述连续的子视频片段命名。

进一步地，所述的数据节点的数量为5个。

一种电子设备，其特征在于包括：处理器；存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行多媒体数据深度挖掘方法。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行多媒体数据深度挖掘方法。

相比现有技术，本发明的有益效果在于：

(1)基于深度学习的分布式海量高维视频数据的挖掘方法。针对海量高维数据的快速挖掘问题，进行挖掘数据和计算负载的分布式部署，并通过实验数据证明基于深度的分布式海量高维视频数据检索框架的有效性。

(2)采用虚拟节点算法对分布式海量高维视频数据检索负载均衡的优化；针对海量高维视频数据分布式检索的负载均衡问题，深入研究了对等网络的动态负载均衡算法和索引结构的数据分布特点，设计出一种基于虚拟节点的动态调度算法来满足深度学习大量运算的需要。

(3)使用独创的海量视频数据检索中的反馈学习算法；在视频内容通过深度学习多层表示的基础上，利用创新的反馈学习算法，使用用户的相关反馈，将视频级别的样本信息回溯到特征向量级别，从而实时修正检索结果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的多媒体数据深度挖掘方法示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

多媒体数据深度挖掘方法，包括以下步骤：

视频获取：通过Hadoop构建分布式运算模块，分布式运算模块包括若干数据节点与一个命名节点；节点的GPU运算包括两TitanX显卡；数据节点用于获取连续的子视频片段；命名节点用于对连续的子视频片段命名；在一具体实施例中数据节点数量为5个，5个数据节点分别获取不同的连续的多媒体视频数据库中的视频片段，防止相同场景被误分割的情况出现。

视频分段：利用视频片段相邻帧之间的HIS(色调Hue，亮度Intensity，饱和度Saturation)的色彩信息特征将视频片段分割成多个子视频片段。

本步骤取HIS视频图像色彩信息中的色调H、亮度I和饱和度S作为视频分割的特征依据，具体的视频片段分割方法如下：

步骤a)，首先将视频图像的RGB颜色空间转换成HIS颜色空间；

步骤b)，将视频片段中的任意一帧分割为若干子区域，子区域的大小为32×32；

步骤c)，针对视频片段中任意一帧的每一个子区域，计算该子区域中所有像素点的色调H、亮度I和饱和度S之和；

步骤d)，分别算出每个子区域的色调H、亮度I和饱和度S的平均值，计算的公式如下：

H_i,j,a＝H_i,a/m；

S_i,j,a＝S_i,a/m；

I_i,j,a＝I_i,a/m；

其中，H_i,a表示第i帧第j个子区域中所有像素点的色调H之和；

S_i,a表示第i帧第j个子区域中所有像素点的饱和度S之和；

I_i,a表示第i帧第j个子区域中所有像素点的亮度I之和；

H_i,j,a表示第i帧第j个子区域的色调H的平均值；

S_i,j,a表示第i帧第j个子区域的饱和度S的平均值；

I_i,j,a表示第i帧第j个子区域的亮度I的平均值；

m表示第i帧第j个子区域的像素个数。

步骤e)，计算第i帧中所有子区域的色调H、亮度I和饱和度S的平均值的和C_i,HSI，公式如下：

C_i,HSI＝H_i,1,a+S_i,1,a+I_i,1,a+…+H_i,1024,a+S_i,1024，a+I_i,1024,a

步骤1-f、计算视频片段中的每一帧与下一相邻的视频帧的帧间数值差C′，计算帧间数值差采用如下公式计算：

C′＝C_i,HSI-C_i+1,HSI

C_i+1,HSI为第i+1帧中所有子区域的色调H、亮度I和饱和度S的平均值之和。

若帧间数值差C′比预定的阈值小，则认为这两帧差异不大，将其划分到同一个子视频片段；若帧间数值差C′等于或大于预定的阈值，则认为这两帧差异较大，划分到不同的子视频片段。

特征提取：利用视频数据库中的已有视频作为训练样本，通过无监督学习，构建一个标准的受限玻尔兹曼机网络模型。

首先，将预训练的标准的受限玻尔兹曼机模型隐藏层分为两个小组，一个小组对应视频数据的前景内容，另一个小组对应视频数据的背景内容，然后以混合结构的玻尔兹曼机模型对输入视频数据的前景内容和背景内容分别构建模型和训练学习。当标准的受限玻尔兹曼机网络模型预先学习训练以后，混合结构的玻尔兹曼机模型就包含视频目标潜在特征的隐藏层单元。由于视频目标特征在学习训练时出现的概率总是高于背景内容噪声，因此该标准的受限玻尔兹曼机网络模型对应的隐藏层单元的激活值(概率值)就大，且激活的次数较多。

本发明利用标准的受限玻尔兹曼机网络模型的隐藏层单元激活与非激活状态分别对应的平均值、方差和响应次数，提取模型隐藏层中激活值大且概率高的单元，并把该单元作为视频目标的特征单元。

关键帧分析：针对每个子视频片段进行关键帧提取；

根据各子视频片段的不同特点，关键帧提取算法自动地提取1～5帧视频图像作为关键帧。假设用f表示1帧图像，P＝{f_n，n＝1，2，3，…，M}表示具有M帧图像的1个子视频片段，首先选取f₁,f_M/5,f_2M/5,f_3M/5,f_M图像帧作为备选的视频关键帧。定义两帧视频图像和f_j间的距离为

D(f_i,f_j)＝∑x,y|f_i(x,y)-f_j(x,y)|

其中f_i(x,y)，f_j(x,y)分别是第i帧和第j帧的坐标为(x,y)的像素颜色值。

分别计算上面五个备选的视频关键帧之间的距离D，根据预先设定的阈值，按如下原则遴选关键帧：

a)如果所有的距离都比阈值小，此时选取最中间的视频帧为关键帧；

b)如果所有的距离都比阈值大，将上述五个视频帧都作为关键帧；

c)在其它情况下，选取距离最大的两帧视频图像为关键帧。

多模态卷积神经网络训练：将视频片段、关键帧、视频片段特征作为输入，对改进型AlexNet模型进行训练，得到一个多模态卷积神经网络模型；其中，改进型AlexNet模型在控制残差的效果上是现有AlexNet模型的600％。

视频检索：将待检索的视频分割为多个子视频片段，对各子视频片段进行视频特征提取以及关键帧提取，将子视频片段，以及提取到的视频特征和关键帧作为输入，利用已经训练好的多模态卷积神经网络模型进行相似性判断，最后得到最终检索的视频。

本发明多媒体数据深度挖掘方法，基于深度学习的分布式海量高维视频数据的挖掘方法。针对海量高维数据的快速挖掘问题，基完成于深度学习的分布式实现；进行挖掘数据和计算负载的分布式部署，并通过实验数据证明了基于深度的分布式海量高维视频数据检索框架的有效性。

采用虚拟节点算法对分布式海量高维视频数据检索负载均衡的优化；针对海量高维视频数据分布式检索的负载均衡问题，深入研究了对等网络的动态负载均衡算法和索引结构的数据分布特点，设计出一种基于虚拟节点的动态调度算法来满足深度学习大量运算的需要。

使用独创的海量视频数据检索中的反馈学习算法；在视频内容通过深度学习多层表示的基础上，利用创新的反馈学习算法，使用用户的相关反馈，将视频级别的样本信息回溯到特征向量级别，从而实时修正检索结果。

以上，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.多媒体数据深度挖掘方法，其特征在于，包括：

2.如权利要求1所述的多媒体数据深度挖掘方法，其特征在于，步骤1的具体操作如下：

步骤a，将视频的颜色空间转换为HIS颜色空间；

步骤b，将视频中的任意一帧分割为若干大小相同的子区域；

3.如权利要求1所述的多媒体数据深度挖掘方法，其特征在于，所述的步骤2的具体操作如下：

步骤h、计算任意两个备选关键帧的图像距离；

否则，选取图像距离最大的两个备选关键帧作为关键帧。

4.如权利要求1所述的多媒体数据深度挖掘方法，其特征在于：所述的步骤1前还包括，通过Hadoop构建分布式运算模块，所述的分布式运算模块包括若干数据节点与一个命名节点；所述的节点的GPU运算包括两TitanX显卡；所述的数据节点用于获取所述连续的子视频片段；所述的命名节点用于对所述连续的子视频片段命名。

5.如权利要求4所述的多媒体数据深度挖掘方法，其特征在于：所述的数据节点的数量为5个。

6.一种电子设备，其特征在于包括：处理器；存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行如权利要求1-5任意一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-5任意一项所述的方法。