CN104063871B

CN104063871B - 可穿戴设备的图像序列场景分割方法

Info

Publication number: CN104063871B
Application number: CN201410317539.XA
Authority: CN
Inventors: 孙伟; 郭宝龙; 张西南; 陈龙; 赵丹
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-07-04
Filing date: 2014-07-04
Publication date: 2017-03-01
Anticipated expiration: 2034-07-04
Also published as: CN104063871A

Abstract

本发明公开了一种可穿戴设备的图像序列场景分割方法，主要解决现有技术鲁棒性差、操作复杂的问题。其实现步骤是：1.对采集得到的RGB彩色图像序列计算其两两相邻帧间的相似性系数；2.计算RGB彩色图像序列的质量评价系数并对其进行中值滤波，得到无冲击干扰的图像质量评价系数；3.结合中值滤波后的图像质量评价系数曲线，通过快速联合双边滤波器对图像序列帧间相似性系数进行细化处理，得到RGB彩色图像序列的场景边界描述曲线；4.求解场景边界描述曲线的局部极大值点，作为图像序列的场景分割点。本发明能有效地定位图像序列中场景变化点的位置，并保留图像序列的时间关系，可用于各个场景中代表性图像的提取。

Description

可穿戴设备的图像序列场景分割方法

技术领域

本发明属于图像处理技术领域，特别涉及一种图像序列场景分割方法，可用于各个场景中代表性图像的提取，大幅度降低生活日志的数据冗余。

背景技术

目前，图像序列分割方法的研究对象主要集中在普通应用中，而针对可穿戴设备中图像应用的研究却较少，同时，可穿戴设备的应用方兴未艾，在不同领域均有很大的发展空间。

可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能，可穿戴设备将会对人们的生活、感知带来很大的转变。例如我们熟知的谷歌眼镜(Google Project Glass)，是由谷歌公司于2012年4月发布的一款“拓展现实”眼镜，它极大的颠覆了人们对电子设备的使用方法，可以通过声音控制拍照、视频通话和辨明方向，以第一视角记录生活，完全解放双手。

人类的记忆力总是有限的，健忘便是常见的一种记忆力出错现象。多年来，人们一直幻想能在人脑中植入能储存记忆的元件等方法来增强自己的记忆力。尽管这种技术仍然停留在幻想阶段，但人类却一直在努力发明助记技术。从古代原始人的壁画方式，到现代人发明的硅半导体存储技术，而摄像技术也是其中的一种。不过普通的摄像设备一般只能记录在时间上有所间断的几段视频或几张图片，不能比较完整地记录下事件的整个过程和每一个环节。而最近微软研究院的一个研究小组则试图在这方面有所突破，他们在摄像设备中加入摄像头和传感器，可以自动以数秒的短时间进行拍摄，以便对记忆起到更好更细致的还原作用。研究小组并将这种可穿戴设备起名为SenseCam。

利用可穿戴设备进行生活记录，不仅可以帮助那些记忆力不好的人群，比如患有神经退行性疾病的人等，并且等若干年之后，人们还可以和其他人分享以前的生活场景，提高生活质量和增强幸福感。微软的SenseCam基本上就是一台具有超广角鱼眼镜头的数码相机，可以像挂件一样挂在胸前以第一视角记录用户的日常生活。SenseCam采用全自动拍摄的设计，使用者可以选择每三十秒自拍一张，或者也可以透过内置的光热传感器，在环境有所变化时再进行拍摄。然而，问题随之而来，持续的穿戴此生活记录仪设备产生大量的图像数据，经年累月，可能保存数几千万张照片，数据量可能高达250TB。过去10年来，计算机的计算能力大幅度提高，面对浩瀚的信息海洋，人们迫切希望能够快速高效地获取所需要的特定图像信息，能高效检索、分析并显示海量信息，并有效地组织和管理大规模的图像数据。

鉴于利用可穿戴设备得到的图像序列具有明显的时间性和场景性等特点，即人们在不同的时间段可能做不同的事情。研究者们一般通过分析相邻帧间的相似性的方法，将这些数据分割成若干场景。理想情况下把一天的时间所获取的图像数据，分割成吃早饭、公司上班、午饭、打篮球、回家等不同的场景，为以后的检索、查看提供了很大的便利。更进一步，可以通过挑选每个场景中典型的高质量图像，形成场景的表示集合，大大的降低了数据冗余，从而便于进行后续更多的处理。因此，针对大量的存在冗余的图像数据，如何进行有效地场景分割已成为一个重要的研究课题。目前，主要集中在视频分割、特征提取、描述结构分析和镜头检索等方面。

借助镜头分割可将图像序列分成一系列镜头，但以镜头为单元划分视频节目常基于视觉特征进行，这表明镜头内容的语义信息尚未很好的利用。另一方面，镜头还不足以描述有语义意义的事件或活动。为此，需要对图像序列进行更高层的抽象，将内容上有关系的镜头结合起来，常称为镜头聚类，或者情节分割、镜头聚集等，而因此得到的镜头集合体也有多种叫法，如场景，视频片断、情节、故事单元等。类似于用关键帧代表镜头，也可以使用有代表性的帧来代表镜头聚集体，以简洁地表达基于语义内容层次的场景内容。目前关于对图像序列进行场景分割的方法主要有以下几类：

Lin & Hauptmann等人在论文“Structuring continuous video recordings ofeveryday life using time-constrained clustering”(In Multimedia ContentAnalysis,Management,and Retieval SPIE-IST Electronic Imaging,2006.)中提出一种基于时间限制的K-Means聚类方法进行场景分割，除此之外，该论文还对基于时间限制的K-Means聚类方法和传统的K-Means聚类方法进行了对比。实验结果表明基于时间限制的K-Means聚类方法优于传统的聚类方法，但是此方法没有识别所有场景的边界，不是有多个独立的场景单独罗列，而是将所有同类的场景进行合并，丢失了图像序列之间的时间关系。

Doherty & Smeaton在论文“Automatically segmenting lifelog data intoevents”(In Image Analysis for Multimedia Interactive Services,2008.WIAMIS'08.Ninth International Workshop on(pp.20-23).IEEE.)中利用MPEG-7描述子的直方图距离来比较相邻帧间的相似性，并使用了基于参数与非参数的阈值方法进行场景分割，能较好的对场景进行分割，但是提取MPEG-7特征比较复杂，并且此方法只利用相邻帧间的相似性确定场景分割点，在干扰比较大的情况下，比如手遮挡设备镜头等较短场景存在时，该相似性曲线不能较准确的描述场景的变化，因此该方法鲁棒性较差。

Doherty & Smeaton在论文“Multimodal Segmentation of Lifelog Data”(InRIAO2007-Large-Scale Semantic Access to Content(Text,Image,Video and Sound),2007)中提出利用SenseCam获得的多种数据信息融合进行场景分割，并比较了利用不同信息及其融合方法进行场景分割的实验效果。比如，利用加速度传感器得到的数据适合分割用户发生在不同运动环境的场景，图像和亮度传感器数据的信息融合方法适合亮度和位置变化的不同场景。总体上说，此方法并未完全利用图像的内容信息，由于外部传感器的使用，算法比较复杂。除此之外，该论文中场景分割的阈值为固定值，不具有自适应性。

Wang等人在论文“VFerret:Content-Based Similarity Search Tool forContinuous Archived Video”(In CARPE Third ACM workshop on Capture,Archivaland Retrieval of Personal Experiences,2006.)中将整个视频分割成每5分钟一个的视频片段，即每5分钟代表一个场景，然而真实生活中每个场景并不一定总是5分钟长度，所以该文章方法不能自适应于所有的情况，具有很大的局限性。

综上所述，根据图像序列的特征，仅仅利用相邻帧间的相似性，显然不是有效的图像序列场景分割的方法，偶然的镜头抖动或遮挡将会使相似性函数值大幅降低，很明显此处不宜作为场景分割点。而利用多传感器的方法，通过多种数据融合进行场景分割操作复杂，适用情况具有局限性。基于时间限制的K-Means聚类方法虽然比传统的聚类方法效果好，但是仍具有聚类方法普遍存在的问题，主要因为丢失了序列的时间关系。

发明内容

本发明的目的在于提出一种可穿戴设备的图像序列场景分割方法，以解决现有技术鲁棒性差、操作复杂的问题，有效地定位图像序列中场景变化点的位置，并保留图像序列的时间关系。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)通过可穿戴设备的日常采集，得到RGB彩色图像序列，其中R代表红色，G代表绿色，B代表蓝色；

(2)获取每帧RGB彩色图像8×8×8bins的512维RGB颜色直方图数据，得到RGB彩色图像序列的颜色直方图数据集合X；

(3)计算图像序列的颜色直方图数据集合X中两两相邻帧间RGB颜色直方图的巴氏距离，作为帧间相似性的度量，得到RGB彩色图像序列的帧间相似性系数集合S，用两两相邻帧间相似性系数作为纵坐标值，图像序列帧数作为横坐标值，获得该图像序列的帧间相似性曲线I_s(x,y)，其中(x,y)是曲线中任一点的坐标；

(4)将RGB彩色图像序列转换为256级灰度图像序列，计算每帧灰度图像的质量评价系数，得到图像质量评价系数集合p，对质量评价系数集合p进行一维中值滤波，得到图像质量评价系数集合q，用每帧图像的评价系数作为纵坐标值，图像序列帧数作为横坐标值，得到该图像序列中值滤波后的图像质量评价系数曲线I_q(x,y)；

(5)结合中值滤波后的图像质量评价系数曲线I_q(x,y)，通过快速联合双边滤波器对图像序列帧间相似性曲线I_s(x,y)值进行细化处理，得到多信息指导下反应场景变化的场景边界描述曲线I_c(x,y)；

(6)求解场景边界描述曲线I_c(x,y)的局部极大值点，作为图像序列的场景分割点。

本发明具有以下优点：

第一，本发明采用图像序列相邻两帧间的相似性和每帧图像质量评价系数方法确定场景分割点，仅仅利用了图像本身包含的信息，尽量多的使用了视觉信息，系统结构简单，同时解决了聚类方法中丢失图像序列时间关系的问题；

第二，本发明对相邻两帧间相似性的幅度与每帧图像质量评价的边缘信息进行融合，克服了传统技术中只利用一种信息的弊端；

第三、由于本发明利用快速联合双边滤波器，且得到的场景边界描述曲线既保持了局部的平滑，也具有良好的边缘细节，使得本发明进一步提高了图像序列场景边界识别的准确度，进而提高了场景分割的效果；

第四，由于本发明采用局部极大值的方法确定场景分割点，其分割阈值可以自主设定，场景分割可以在不同的尺度进行，使得本发明拥有更广泛的适用性。

附图说明

图1为本发明的实现流程图；

图2为用本发明获得Office图像序列的两两相邻帧间图像相似性系数曲线图；

图3为用本发明获得Office图像序列的每帧图像质量评价系数曲线图；

图4为用本发明获得Office图像序列的中值滤波后的图像质量评价系数曲线图；

图5为用本发明获得Office图像序列的快速联合双边滤波器信息融合后的系数曲线图；

图6为用本发明在阈值h＝0.2条件下获得Office图像序列的场景分割结果图；

图7为用本发明在阈值h＝0.5条件下获得Office图像序列的场景分割结果图；

图8为用本发明在阈值h＝0.5条件下获得Outdoor图像序列的场景分割结果图。

具体实施方式

下面结合附图对本发明做进一步详细地描述。

参照图1，本发明的具体实现步骤如下：

步骤一，获取RGB彩色图像序列。

通过可穿戴设备的日常采集，得到RGB彩色图像序列，其中R代表红色，G代表绿色，B代表蓝色。

步骤二，计算RGB彩色图像序列两两相邻帧间相似性系数。

2.1)获取RGB彩色图像序列的颜色直方图数据：

在图像的形状、颜色、纹理等特征中，颜色特征是最显著、最可靠、最稳定的视觉特征，是人识别图像的主要感知特征。相对于几何特征而言，颜色对图像中子对象的大小和方向的变化都不敏感，具有相当强的鲁棒性。同时，在许多情况下，颜色又是描述一幅图像最简便而有效的特征。颜色直方图所描述的是不同色彩在整幅图像中所占的比例，而并不关心每种色彩所处的空间位置，即对于图像中帧间的对象或物体的移动不敏感，而且经过归一化的颜色直方图还具有尺度不变性。

据此，本发明使用RGB颜色特征，获取RGB彩色图像序列的颜色直方图数据。具体实现步骤如下：

2.1.1)将每帧RGB彩色图像每个像素的R、G、B分量值转化为颜色直方图H值，即将R分量右移5位，记为R₅，将G分量右移2位，记为G₂，将B分量左移1位，记为B_-1，得到H＝B_-1+G₂+R₅，其中H取值范围为[0-511]；

2.1.2)遍历每帧图像的每个像素，找到颜色直方图H值，将该H值对应的像素个数Y_i累加1，获得一组表示图像像素对应每个H值的像素数量的数据Y^(k)＝{Y^(k) ₁,Y^(k) ₂,…,Y^(k) _i,…Y^(k) ₅₁₂}，其中i取值范围为[1-512]，k取值范围为[1-n]，n为RGB彩色图像序列长度；

2.1.3)根据步骤2.1.2)得到的数据，计算得到一组归一化的数据：X^(k)＝{X^(k) ₁,X^(k) ₂,…,X^(k) _i,…X^(k) ₅₁₂}，

其中，Xi(k)表示对应H值的像素个数归一化值，i＝1…512，式中N×N为第k帧图像的总像素数；

2.1.4)由每帧图像的颜色直方图数据X^(k)得到该图像序列的颜色直方图数据集合：X＝{X⁽¹⁾,X⁽²⁾,…,X^(k),…X⁽ⁿ⁾}；

2.2)计算RGB彩色图像序列的两两相邻帧间相似性系数：

图像序列相邻帧间相似性测量的准确性，不仅依赖于所抽取的图像特征,而且也与所采用的距离度量或相似度量函数密切相关。所谓相似度量函数,就是根据设定的准则来计算并返回两幅图像之间的相似度。本实例中，为了确定合适的相似度量函数,对不同的距离度量进行了实验,例如,Lp距离、余弦距离，巴氏距离等，其中巴氏距离是对两个统计样本的重叠量的近似计算，可用来测量两组样本的相关性。本发明在实验中发现,使用不同的距离度量均能得到较满意的计算结果。综合考虑效果和效率等因素，本发明选取巴氏距离作为作为帧间相似性的度量，计算得到RGB彩色图像序列中两两相邻帧间相似性系数，具体实现步骤如下：

2.2.1)计算图像序列的颜色直方图数据集合X中两两相邻帧间RGB颜色直方图的相似性系数S_t：

S_t＝-ln(BC(X^(t),X^(t+1))),t＝1…T-1，

式中，X^(t)和X^(t+1)分别代表前后相邻两帧图像512维的颜色直方图数据，T为数据长度；

2.2.2)由两两相邻帧间RGB颜色直方图的相似性系数S_t得到RGB彩色图像序列的帧间相似性系数集合：S＝{S₁,S₂,…,S_t,…S_T-1}。

用图像序列的两两相邻帧间相似性系数作为纵坐标值，图像序列帧数作为横坐标值，获得图像序列的帧间相似性曲线如附图2所示。由图2可以看出，对于相似性很小的图像相邻帧，可以认为发生了场景的变化。但是无法确定是否真实发生了变化，因为也有可能是一个随机的干扰，比如手突然遮挡了镜头，如第175帧的一个很低的相似度，但该帧位置不应该作为场景分割点，因为该帧位置只是手遮挡镜头的随机干扰，没有真实发生场景变化。另外，从图2可看出，曲线的噪声很大，简单地通过阈值进行直接分割，无法区别是场景切换还是图像序列中随机瞬间场景的干扰。因此仅仅利用帧间相似性进行图像序列的场景分割，具有很大的局限性。

步骤三，计算RGB彩色图像序列的质量评价系数。

3.1)将RGB彩色图像序列转换为256级灰度图像序列：

鉴于评价图像的质量时，人们更加关注图像的内容，同时，为了便于计算图像的质量评价系数，本发明将RGB彩色图像序列转换为256级灰度图像序列，具体转换方法为：将每帧彩色图像每个像素的R、G、B分量值转换为灰度图像对应像素的亮度值L：

L＝R×0.299+G×0.587+B×0.114，

式中R、G、B分别代表红色、绿色、蓝色分量值；

3.2)计算每帧灰度图像的亮度平均值μ_f和亮度均方差σ_f ²：

式中，I_f(l,j)为图像序列中第f帧图像像素灰度值，(l,j)为图像序列中第f帧灰度图像中任一像素的坐标，N×N为图像序列中第f帧灰度图像的大小；

3.3)计算每帧灰度图像的质量评价系数p_f：

鉴于可穿戴设备采集得到的视频图像序列含有噪声的影响，并且人们只关注图像的内容，对图像的照度不感兴趣，因此，本发明采用基于统计的算法评价图像的质量，并且采用归一化方差的方法，使得图像质量的评价不会受到图像平均亮度的影响。每帧灰度图像的质量评价系数的具体计算公式如下：

3.4)由每帧图像的质量评价系数p_f得到图像序列的质量评价系数集合：p＝{p₁,p₂,…,p_f,…p_F}，其中f取值范围为[1-F]，F为图像序列的质量评价系数数据的长度；

用每帧图像的质量评价系数作为纵坐标值，图像序列帧数作为横坐标值，得到图像序列的质量评价系数曲线如附图3所示。图像质量系数用来评价每帧图像的质量等级，大多数的不同图像都具有不同的图像质量系数，因此，从图3中曲线可以看出，在相对平滑的部分可以认为是同一个场景，而突变的部分可能是干扰，如200帧附近的一个冲击；而阶跃部分表现的则是场景的变化，其中干扰部分会导致场景分割的不准确，应该过滤掉。因此，本发明通过中值滤波去除冲击干扰，进一步获得该曲线的有用信息。

3.5)计算一维中值滤波后的图像质量评价系数：

中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术，中值滤波的基本原理是把数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替，从而消除孤立的噪声点。中值滤波在一定的条件下可以克服线性滤波器如最小均方滤波、均值滤波等带来的图像细节模糊，而且对滤除脉冲干扰及图像扫描噪声非常有效。因此，本发明采用一维中值滤波算法对步骤3.4)得到的图像序列的质量评价系数集合p进行一维中值滤波，去掉冲击干扰，得到图像质量评价系数集合q，其表示公式如下：

q＝{q₁,q₂,…,q_r,…q_R}，

其中r取值范围为[1-R]，R为数据长度，q_r表示第r帧图像的质量评价系数一维中值滤波后的值，

式中med为取中位数操作，M为邻域的大小，本实例取值为M＝5。

用中值滤波后的每帧图像的质量评价系数作为纵坐标值，图像序列帧数作为横坐标值，得到中值滤波后的图像序列质量评价系数曲线如附图4所示。由图4可以看出，此曲线大致反映了场景的变化规律，但是不同的图像可能会有相同或相近的质量评价系数，如图3中第200帧附近的冲击。因此，为了准确的反应场景的变化规律，应该将帧间相似性系数和图像的质量评价系数进行信息融合。因此，本发明使用一种联合双边滤波的方法，将帧间相似性的幅度信息和图像质量评价的边缘信息进行融合，获得较准确的反映场景边界的描述曲线。

步骤四，利用快速联合双边滤波器进行信息的融合。

所谓联合双边滤波器，是将双边滤波器的值域高斯核g应用于另一个具有细节信息的信号上，因为图像序列质量评价系数I_q有场景分割的边缘信息，所以本发明利用其求解值域高斯核g，对图像序列质量评价系数I_q和图像序列帧间相似性系数I_s进行联合双边滤波，这种方法既能保持图像序列质量评价系数的边缘信息，也能使帧间相似性系数更进一步平滑。

为了提高运算速度，本发明通过快速联合双边滤波器得到多信息指导下反应场景变化的场景边界描述曲线，具体实现步骤如下：

4.1)将图像序列帧间相似性系数曲线I_s(x,y)和中值滤波后的图像质量评价系数曲线I_q(x,y)作为快速联合双边滤波器的输入参数，并对I_q(x,y)的空域分辨率和值域分辨率分别进行16倍和10倍的降采样，得到网格化的三维空间(x_d,y_d,I_d)，其中x_d，y_d，I_d分别为降采样后的空间横、纵坐标及幅值；

4.2)利用网格化的三维空间(x_d,y_d,I_d)构造幅值三维数组I_data(x_d,y_d,I_d)和权值三维数组I_w(x_d,y_d,I_d)；

4.3)遍历中值滤波后的图像质量评价系数曲线I_q(x,y)的每个元素，将该I_q(x,y)和图像序列帧间相似性系数曲线I_s(x,y)中相同位置元素的幅值累加到幅值三维数组I_data(x_d,y_d,I_d)中，同时将权值三维数组I_w(x_d,y_d,I_d)累加1；

4.4)分别对累加后的幅值三维数组I_data(x_d,y_d,I_d)和权值三维数组I_w(x_d,y_d,I_d)进行三维高斯滤波，得到幅值滤波结果I'_data(x_d,y_d,I_d)和权值滤波结果I'_w(x_d,y_d,I_d)，并对其进行归一化处理得到幅值归一化结果：

I_N(x_d,y_d,I_d)＝I'_data(x_d,y_d,I_d)./I'_w(x_d,y_d,I_d)，其中./表示点除；

4.5)对幅值归一化结果I_N(x_d,y_d,I_d)进行三线性插值运算，得到场景边界描述曲线数据；

4.6)用1减去场景边界描述曲线数据的每个元素，得到最终的场景边界描述曲线数据a＝{a₁,a₂,…a_e,…,a_v}，其中，a_e表示场景边界描述曲线的第e个数据，e的取值范围为[1-v]，v为场景边界描述曲线数据长度；

4.7)将步骤4.6)得到的数据作为纵坐标值，图像序列帧数作为横坐标值，得到该图像序列场景边界描述曲线I_c(x,y)。

用场景边界描述曲线数据作为纵坐标值，图像序列帧数作为横坐标值，得到场景边界描述曲线如附图5所示。由图5可以看出，本发明的方法对图像质量变化信息和帧间相似性信息进行了较好的融合，在图像质量发生明显变化且帧间相似性低的位置，出现了明显地信号跳变及局部极值，因此，在本发明中局部极值点可以作为图像序列的场景分割点。

步骤五，确定RGB彩色图像序列的场景分割点。

5.1)利用两点中心差分法计算场景边界描述曲线I_c(x,y)的一阶导数数据集合d，其表示公式如下：d＝{d₁,d₂,…d_g,…,d_G}，其中，d_g表示第g个一阶导数数据值，g的取值范围为[1-G]，G为一阶导数数据长度，

5.2)采用伪高斯类型的平滑滤波法，对步骤5.1)得到的一阶导数数据进行平滑滤波处理，由于噪声影响，导致许多假零点，所以需对一阶导数进行平滑处理，得到平滑滤波后的数据集合U，其表示公式如下：

U＝{U₁,U₂,…,U_g,…U_G}，

其中，U_g表示第g个一阶导数数据进行平滑滤波后的值，

5.3)寻找平滑滤波后一阶导数的零点，作为局部极大值点，即为图像序列的场景分割点。

本发明的效果可以通过下述仿真实验加以说明：

1，仿真条件：

本发明在Intel(R)Core(TM)i5CPU650@3.20GHz，2.99G内存的电脑上，采用MATLABR2009b软件，分别对像素为640*480的Office和Outdoor图像序列完成仿真。

2，仿真内容与结果：

仿真1，用本发明方法在阈值h＝0.2条件下对640*480的Office图像序列进行场景分割，结果如图6所示，其中图6(a)为用本发明获得Office图像序列的标注局部极大值的系数曲线图，图6(b)为获得Office图像序列的场景分割示意图。

从图6(a)可以看出，本发明共求解出10个极值点，即本发明把Office图像序列分为10个场景分割点，则对应11个场景段，每个场景段代表这个时间节点上发生的事情，分割的场景之间具有时间先后关系，其中，场景分界的帧数目近似为：52，175，296，394，475，499，665，707，780，844。

仿真2，用本发明方法在阈值h＝0.5条件下对640*480的Office图像序列进行场景分割，结果如图7所示，其中图7(a)为用本发明获得Office图像序列的标注局部极大值的系数曲线图，图7(b)为获得Office图像序列的场景分割示意图。

从图7(a)可以看出，本发明共求解出6个极值点，即本发明把Office图像序列分为6个场景分割点，对应7个场景段，其中，场景分界的帧数目近似为：52，394，499，665，707，780。

从图7(b)可以看出，本发明去除了Office图像序列中短时间内光线变化的干扰，使分割出的场景更具有连续性，且不影响对场景的分类判别。

仿真1、仿真2使用了同一段公共测试图像序列，该图像序列为一静态场景下采集得到的，期间有少量左右运动，场景变化缓慢，通过适当的改变参数，可以得到不同尺度的分割场景。经过仔细观察分析整个图像序列，本发明可以较准确的定位图像序列的变化点，对图像序列进行场景分割，并且保持了图像序列的时间关系。

仿真3，用本发明方法在阈值h＝0.5条件下对640*480的Outdoor图像序列进行场景分割，结果如图8所示，其中图8(a)为用本发明获得Outdoor图像序列的标注局部极大值的系数曲线图，图8(b)为获得Outdoor图像序列的场景分割示意图。

从图8(a)可以看出，本发明共求解出8个极值点，即把Outdoor图像序列分为8个场景分割点，共9个场景段，结合图8(b)可以得到分割的9个场景段分别为去实验室路上、操场、操场边、路上、实验楼门厅、走廊、实验室内、走廊、楼道。鉴于操场边和操场的差距有点大，因操场边有观众座位和一些其他设施，所以本发明把操场和操场边分割成两个不同的场景段。可见，本发明能对图像序列进行较准确的场景分割，并且可以通过改变参数，得到不同尺度的分割场景。

Claims

1.一种可穿戴设备的图像序列场景分割方法，包括如下步骤：

(2)获取每帧RGB彩色图像8×8×8bins的512维RGB颜色直方图数据，得到RGB彩色图像序列的颜色直方图数据集合X:

2a)将每帧RGB彩色图像每个像素的R、G、B分量值转化为颜色直方图H值，即将R分量右移5位，记为R₅，将G分量右移2位，记为G₂，将B分量左移1位，记为B_-1，得到H＝B_-1+G₂+R₅，其中H取值范围为[0‐511]；

2b)遍历每帧图像的每个像素，找到颜色直方图H值，将该H值对应的像素个数Y_i累加1，获得一组表示图像像素对应每个H值的像素数量的数据Y^(k)＝{Y^(k) ₁,Y^(k) ₂,…,Y^(k) _i,…Y^(k) ₅₁₂}，其中i取值范围为[1‐512]，k取值范围为[1‐n]，n为图像序列长度；

2c)根据步骤2b)得到的数据，计算得到一组归一化的数据：

X^(k)＝{X^(k) ₁,X^(k) ₂,…,X^(k) _i,…X^(k) ₅₁₂}，

其中，X_i ^(k)表示对应H值的像素个数归一化值，式中N×N为第k帧图像的总像素数；

2d)由每帧图像的颜色直方图数据X^(k)得到该图像序列的颜色直方图数据集合：X＝{X⁽¹⁾,X⁽²⁾,…,X^(k),…X⁽ⁿ⁾}；

(4)将RGB彩色图像序列转换为256级灰度图像序列，计算每帧灰度图像的质量评价系数，得到图像质量评价系数集合p:

4a)分别计算每帧灰度图像的亮度平均值μ_f和亮度均方差σ_f ²：

μ_{f} = \frac{1}{N^{2}} Σ_{l = 1}^{N} Σ_{j = 1}^{N} I_{f} (l, j),

{σ_{f}}^{2} = \frac{1}{N^{2}} Σ_{l = 1}^{N} Σ_{j = 1}^{N} {(I_{f} (l, j) - μ_{f})}^{2},

4b)根据步骤4a)得到的数据，计算每帧图像的质量评价系数p_f：

p_{f} = \{\begin{matrix} 0, & μ_{f} = 0 \\ {σ_{f}}^{2} / μ_{f}, & μ_{f} &NotEqual; 0 \end{matrix};

4c)由每帧图像的质量评价系数p_f得到该图像序列的质量评价系数集合：p＝{p₁,p₂,…,p_f,…p_F}，其中f取值范围为[1‐F]，F为图像序列的质量评价系数数据的长度；

(5)对质量评价系数集合p进行一维中值滤波，得到图像质量评价系数集合q，用每帧图像的评价系数作为纵坐标值，图像序列帧数作为横坐标值，得到该图像序列中值滤波后的图像质量评价系数曲线I_q(x,y)；

(6)结合中值滤波后的图像质量评价系数曲线I_q(x,y)，通过快速联合双边滤波器对图像序列帧间相似性曲线I_s(x,y)值进行细化处理，得到多信息指导下反应场景变化的场景边界描述曲线I_c(x,y)：

6a)将图像序列帧间相似性系数曲线I_s(x,y)和中值滤波后的图像质量评价系数曲线I_q(x,y)作为快速联合双边滤波器的输入参数，并对I_q(x,y)的空域分辨率和值域分辨率分别进行16倍和10倍的降采样，得到网格化的三维空间(x_d,y_d,I_d)，其中x_d，y_d，I_d分别为降采样后的空间横、纵坐标及幅值；

6b)利用网格化的三维空间(x_d,y_d,I_d)构造幅值三维数组I_data(x_d,y_d,I_d)和权值三维数组I_w(x_d,y_d,I_d)；

6c)遍历中值滤波后的图像质量评价系数曲线I_q(x,y)的每个元素，将该I_q(x,y)和图像序列帧间相似性系数曲线I_s(x,y)中相同位置元素的幅值累加到幅值三维数组I_data(x_d,y_d,I_d)中，同时将权值三维数组I_w(x_d,y_d,I_d)累加1；

6d)分别对累加后的幅值三维数组I_data(x_d,y_d,I_d)和权值三维数组I_w(x_d,y_d,I_d)进行三维高斯滤波，得到幅值滤波结果I'_data(x_d,y_d,I_d)和权值滤波结果I'_w(x_d,y_d,I_d)，并对其进行归一化处理得到幅值归一化结果：

6e)对幅值归一化结果I_N(x_d,y_d,I_d)进行三线性插值运算，得到场景边界描述曲线数据；

6f)用1减去场景边界描述曲线数据的每个元素，得到最终的场景边界描述曲线数据a＝{a₁,a₂,…a_e,…,a_v}，其中，a_e表示场景边界描述曲线的第e个数据，e的取值范围为[1‐v]，v为场景边界描述曲线数据长度；

6g)将步骤6f)得到的数据作为纵坐标值，图像序列帧数作为横坐标值，得到该图像序列场景边界描述曲线I_c(x,y)；

(7)求解场景边界描述曲线I_c(x,y)的局部极大值点，作为图像序列的场景分割点。

2.根据权利要求1所述的可穿戴设备的图像序列场景分割方法，其特征在于：步骤(2)所述的得到RGB彩色图像序列的颜色直方图数据集合X，按如下步骤进行：

2c)根据步骤2b)得到的数据，计算得到一组归一化的数据：

X^(k)＝{X^(k) ₁,X^(k) ₂,…,X^(k) _i,…X^(k) ₅₁₂}，

2d)由每帧图像的颜色直方图数据X^(k)得到该图像序列的颜色直方图数据集合：X＝{X⁽¹⁾,X⁽²⁾,…,X^(k),…X⁽ⁿ⁾}。

3.根据权利要求1所述的可穿戴设备的图像序列场景分割方法，其特征在于：步骤(3)所述的得到RGB彩色图像序列的帧间相似性系数集合S，按如下步骤进行：

3a)计算图像序列的颜色直方图数据集合X中两两相邻帧间RGB颜色直方图的相似性系数S_t：

S_t＝-ln(BC(X^(t),X^(t+1))),t＝1…T-1，

3b)由两两相邻帧间RGB颜色直方图的相似性系数S_t得到RGB彩色图像序列的帧间相似性系数集合：S＝{S₁,S₂,…,S_t,…S_T-1}。

4.根据权利要求1所述的可穿戴设备的图像序列场景分割方法，其特征在于：步骤(4)所述的将RGB彩色图像序列转换为256级灰度图像序列，是将每帧彩色图像每个像素的R、G、B分量值转换为灰度图像对应像素的亮度值L：L＝R×0.299+G×0.587+B×0.114，式中R、G、B分别代表红色、绿色、蓝色分量值。

5.根据权利要求1所述的可穿戴设备的图像序列场景分割方法，其特征在于：步骤(4)所述的对质量评价系数集合p进行一维中值滤波，得到图像质量评价系数集合q，其表示公式如下：

q＝{q₁,q₂,…,q_r,…q_R}，其中r取值范围为[1‐R]，R为数据长度，q_r表示第r帧图像的质量评价系数一维中值滤波后的值，

6.根据权利要求1所述的可穿戴设备的图像序列场景分割方法，其特征在于：步骤(6)所述的求解场景边界描述曲线I_c(x,y)的局部极大值点，按如下步骤进行：

6a)计算场景边界描述曲线I_c(x,y)的一阶导数数据集合d，其表示公式如下：d＝{d₁,d₂,…d_g,…,d_G}，其中，d_g表示第g个一阶导数数据值，g的取值范围为[1‐G]，G为一阶导数数据长度，

6b)对步骤6a)得到的一阶导数数据进行平滑滤波处理，得到平滑滤波后的数据集合U，其表示公式如下：

U＝{U₁,U₂,…,U_g,…U_G}，

其中，U_g表示第g个一阶导数数据进行平滑滤波后的值，

6c)寻找平滑滤波后一阶导数的零点，作为局部极大值点，即为图像序列的场景分割点。