CN101114334B

CN101114334B - 利用视觉特性检测新闻片段中播报员画面的方法

Info

Publication number: CN101114334B
Application number: CN2006100992638A
Authority: CN
Inventors: 吕科谚; 张敏宽; 叶家宏; 施宣辉
Original assignee: MAVs Lab Inc
Current assignee: MAVs Lab Inc
Priority date: 2006-07-25
Filing date: 2006-07-25
Publication date: 2011-05-11
Anticipated expiration: 2026-07-25
Also published as: CN101114334A

Abstract

本发明利用视觉特性检测新闻片段中播报员画面，将新闻作不同分类的切割，其包含有下列步骤：先提供新闻图像，并利用色彩空间对图像作肤色分析检测，并配合肤色检测图像中的物体是否移动，再利用图像型态学，把人脸图像周围的噪声去除，并获得播报员人脸范围，再检测播报员可能出现片段，最后再作一次播报员检测。

Description

利用视觉特性检测新闻片段中播报员画面的方法

技术领域

本发明有关一种检测新闻片段中播报员画面的方法，尤指一种利用视觉特性检测播报员出现的片段，以作为新闻切割成不同分类的依据。

背景技术

目前在一图像中，为了找出人脸所在位置，最常使用的方法是以局部特征(local features)来进行辨识，而人脸所采用的局部特征不外乎为眼睛、鼻尖、嘴唇或脸颊、额头等部位，可将这些局部特征与图像中所检测到的画面进行比对，以确定辨识结果。因此上述部位位置的确定便成为人脸辨识过程中的关键步骤。

习用技术对于从人脸图像中找出眼、鼻、唇等脸部特征的方法大致可分为两类。一类为使用图像处理法(imageprocessing)，例如过滤(filtering)、图像型态运算(morphological operation)、或临界值运算(thresholdingoperation)等方法，来找出可能是脸部特征的候选部位，再进一步从这些候选部位中确认出特征部位；另一类系使用图像比对法(graph matching)，亦即将人脸模型以特征的关联图(graph)表示，特征位置为节点(nodes)，节点间的连线(edges)表示特征间的相对位置，其中每一节点是由图像处理方法算出附属的特征值，再将模型在图像中的行走过程，透过图像比对方式以定出人脸特征位置。

在图像处理法中，例如美国专利USP5,805,475号案，首先必须确定临界(threshold)值，确定临界值得方法可以用经验值或藉由累积经验值用统计的方法计算出一较佳值，而临界值往往是造成辨识效果的关键。在此美国专利案中，图像型态运算以及临界值运算均涉及好几个临界值的决定。这种采用经验观察(heuristic)法以决定临界值的方法，必须常常随着所观察图像的表现而有所修正，大大增加了实际施行的困难度，无法迅速有效的辨别出图像中人脸特征。

在图像比对法中，例如美国专利USP6,222,939号案，每一个节点均附属有一组特征值，为了与一图像模型(graphmodel)作比对，则必须要在待测图像中计算这些特征值，纵使不用计算每个像素点，也必须撷取相当密集的点位置计算。此美国专利案的重点在于直接在图像的二维空间上作搜寻，且用来描述参考人脸图像所用的特征值较为繁复(如需计算二维频谱等)，因此每当要比对一待测图像的人脸特征时，都必须再经过多次繁复的计算与比对后，才可辨识出图像中的人脸特征，将对系统造成庞大负荷，无法提高使用效率。

因此，前述在图像中将人脸特征定位的方法，仍存在有诸多缺失，而有予以改进的必要。

发明内容

本发明利用视觉特性检测新闻片段中播报员画面的方法，是利用视觉特性来检测新闻片段中播报员画面，将新闻作不同分类的切割，其包含有下列步骤：先提供新闻图像，利用色彩空间(YUV、NCC、HSL)对原始图像作肤色分析检测，并配合肤色检测图像中的物体是否移动，再利用图像型态学(Morphology)中的断开运算包含膨胀、侵蚀(Dilation、Erosion)，把人脸图像周围的噪声去除，以及运用连接元区域标定程序(Component Connected Labeling)，把图像中属于同一对象的相连图像找出，以便获得物体面积、高度和宽度等信息，进而获得播报员人脸范围，再检测播报员可能出现片段，最后再作一次播报员检测，以正确得知播报员出现的片段。

附图说明

图1为本发明中整体架构的流程示意图；

图2为本发明中位置像素P于矩阵排列的示意图；

图3为本发明中标定出图像对象的流程示意图；

图4为本发明中连接元区域标定的示意图；

图5为本发明中检测播报员是否移动的流程示意图；

图6为本发明中检测播报员可能出现片段的流程示意；

图7为本发明中在非肤色区域之中计算直方图的差距(Histogram difference based on non-Skin colorregion)的流程示意图；

图8为本发明中从主播片段中找出主播的特性(FindAnchorperson features from Anchorperson segment)的流程示意图。

具体实施方式

为能使贵审查员清楚本发明的组成，以及实施方式，兹配合图式说明如下：

本发明利用视觉特性检测新闻片段中播报员画面的方法，如图1所示为本发明的流程示意图，其包含下列步骤：

a、提供新闻图像；

b、进行肤色分析(Skin color detection)；

c、配合肤色的移动物体检测(Shotchange detection basedon skin color)；

d、检测播报员可能出现片段(Probable anchorpersonsegment detection)；

e、最后再由播报员可能出现的片段再作一次播报员检测(Anchorperson detection)，最后可正确得知播报员出现的片段，进而依据播报员出现的片段可将新闻作不同分类的切割，以达到新闻分类的目的。

今针对每一步骤说明如下：其中，步骤b：肤色分析(Skincolor detection)

要找出肤色的区域就必须定义肤色的颜色为何，由于肤色与一般环境的色彩有显著的差异，但在RGB space里定义的图像颜色会因光源强弱的关系而有深浅的变化，所以直接在RGB space上作颜色的分割会有很大的误差，因此可采用对光线强弱较不敏感的色彩空间(color space)，例如：YUV、NCC、HSL等，以下为针对各色彩空间与R、G、B之间的关系以及其临界值说明如下：。

1、YUV

其与R、G、B属于线性关系，公式如下：

(\begin{matrix} Y \\ U \\ V \end{matrix}) = (\begin{matrix} 0.299 & 0.587 & 0.114 \\ - 0.147 & - 0.289 & 0.437 \\ 0.615 & - 0.515 & - 0.100 \end{matrix}) (\begin{matrix} R \\ G \\ B \end{matrix})

而其肤色的临界值为：

60＜Y＜255

-25＜U＜0

10＜V＜45

2、NCC

其与R、G、B的关系，公式如下：

r＝R/(R+G+B) g＝G/(R+G+B)

而其肤色的临界值为：

Upper bound：(-1.376)×(r×r)+1.0743×r+0.1452

Lower bound：(-0.766)×(r×r)+0.5601×r+0.1766

w＝(r-0.33)×(r-0.33)+(g-0.33)×(g-0.33)

3、HSL

其与R、G、B的关系，公式如下：

H = \cos^{- 1} {\frac{\frac{1}{2} [(R - G) + (R - B)]}{\sqrt{{(R - G)}^{2} + (R - B) (G - B)}}}

S = 1 - \frac{3}{R + G + B} [\min (R, G, B)]

L = \frac{R + G + B}{3}

而其肤色的临界值为：

0≤H≤51

0.028≤S≤0.724

100≤L≤226

步骤c：配合肤色的移动物体检测(Shotchange detectionbased on skin color)

包含有肤色调整步骤(Stable Skincolor SegmentDetection)以及连接元区域标定步骤(Component ConnectedLabeling)，可标定出图像中各个独立的对象，进而获得播报员人脸范围，并利用该播报员人脸范围中的肤色分析形成一肤色临界值，再于固定时间间距撷取复数图像，将各图像的肤色与肤色临界值相比较，若大于该临界值则判定出播报员有移动。

其中，肤色调整步骤(Stable Skincolor Segment Detection)系利用图像型态学(Morphology)中的断开运算(openingoperation)包含：膨胀(Dilation)以及侵蚀(Erosion)，其膨胀(Dilation)系对图像作膨胀来扩张区域，而侵蚀(Erosion)则对图像作侵蚀来缩小区域，可依据图像而选择先进行膨胀(Dilation)再侵蚀(Erosion)(即Closing)，或先进行侵蚀(Erosion)再膨胀(Dilation)(即Opening)。

经过上述程序之后可将人脸图像周围的噪声去除，而不论膨胀或是侵蚀，都是用屏蔽(Mask，及一个N×N的矩阵，在本系统中使用的大小为3×3)，并对肤色分析后的二值图像作屏蔽运算，并将运算结果标示于新的图像上。

其中，膨胀(Dilation)判断所在位置像素P在新图像中是否为1，若符合的话，判断其周围8点是否有值为1，若有则P为1反之为0，如图2所示，亦即

P＝P1∩P2∩P3∩P4∩P5∩P6∩P7∩P8

∩：代表AND运算

而侵蚀(Erosion)与膨胀类似，判断所在位置像素P在新图像中是否为1，若符合的话，判断其周围8点是否所有值皆为1，若有则P为1反之为0，亦即

P＝P1∪P2∪P3∪P4∪P5∪P6∪P7∪P8

∪：代表OR运算

当完成上述断开运算处理后，再运用连接元区域标定程序(Component Connected Labeling)把图像中属于同一对象的相连图像找出，如图3所示，以便获得物体面积、高度和宽度等信息，并藉此标定出图像中各个独立的对象。

其方法为从上方其中一角落处开始扫描待标记的二值图像，当遇到像素值为1时，则依次检查其上、下、左、右是否有同样为1的点，若有则将其坐标纪录下来，并把其值设为1，之后依序递归的去检查刚刚所纪录点的下、左、右、上是否也有1的点存在，若有也将其坐标纪录下来，并把其值设为1，如图4所示；持续整个递归的检查，直到所有纪录点的周围都不再有1的点出现为止，即可停止递归检查的动作，如此一来便可以找出第一个群组的对象。依此类推，当整张图像都扫描递归完，即可统计出在图像中所有对象的面积、高度和宽度等信息。

故先利用色彩空间(YUV、NCC、HSL)对原始图像作肤色分析检测，并将检测出来的肤色结果转成二值图像(BinaryImage)，再利用图像型态学(Morphology)中的断开运算包含膨胀(Dilation)、侵蚀(Erosion)，把人脸图像周围的噪声去除，以及运用连接元区域标定程序(Component ConnectedLabeling)，把图像中属于同一对象的相连图像找出，以便获得物体面积、高度和宽度等信息，进而获得播报员人脸范围，并利用该播报员人脸范围中的肤色分析形成一肤色临界值，如图5所示，再于固定时间间距撷取复数图像，将各图像的肤色与肤色临界值相比较，若大于该临界值则判定出播报员有移动。

步骤d：检测播报员可能出现片段(Probableanchorperson segment detection)

若要区别播报员以及非播报员的图像，则利用上述找出播报员以及非播报员的人脸范围后，并分析于各个人脸范围中属于肤色以及非肤色区域(通常为衣服的颜色)，并将两种区域作成直方图(histogram)。若所得人脸范围的宽度大于高度时(因通常人脸范围宽度小于高度)，则再利用修改程序(Modification)方式对该人脸范围再作一次定位后，取得正确的人脸范围再取肤色以及非肤色区域作成直方图，如图6所示。

经由播报员以及非播报员的人脸范围非肤色区域的直方图(non-Skin color region histogram)，比较其差异(因为肤色区域的差异可能不大，故取非肤色区域为两者衣服的差异作比较)，即可找出播报员可能出现的片段。

步骤e：播报员检测(Anchorperson detection)

包含有：在非肤色区域之中计算直方图的差距(Histogram difference based on non-Skin color region)以及稳态物体处理(找出稳定片段中的特性)[Static objectprocess(Find features of stable segment)]，其中，在非肤色区域之中计算直方图的差距的方式同上所述，于新闻画面中取得连续图像，再由各图像中的人脸范围中取得非肤色区域的直方图，再比较各直方图的差异，如图7所示，若大于临界值则判定是为播报员出现的片段，反之，则判定是为新闻报导的片段。

而稳态物体处理包含类似于标志检测(Similar to Logodetection)以及从主播片段中找出主播的特性(FindAnchorperson features from Anchorperson segment)，其似于标志检测就是将一段影片中一直存在的物体找出来。在电视节目或电视新闻中该台的Logo通常都会一直存在于画面中，我们可以利用一直存在这个特性来检测Logo的位置，只要使用连续图像相减法，就可以完成。两张图像相减之后，只将颜色相近的位置保留下来，处理一段时间后即可将Logo的位置检测出来。

而从主播片段中找出主播的特性是先于播报员出现的片段中取得连续图像，并利用机率的方式计算相关性(Correlation)及亮度(luminance)的平均值(mean)以及标准差(standard deviation)以做为临界值，如图8所示，若影片的相关性(Correlation)及亮度(luminance)大于临界值则判定视为播报员出现的片段，反之，则判定是为新闻报导的片段。

经由上述各步骤后，最后可正确得知播报员出现的片段，进而将新闻作不同分类的切割，而达到将新闻分类的目的。

如上所述，本发明提供一利用视觉特性检测新闻片段中播报员画面的方法，于是依法提呈发明专利的申请；然而，以上的实施说明及图式所示，是本发明较佳实施例者，并非以此局限本发明，是以，举凡与本发明的构造、装置、特征等近似、雷同的，均应属本发明的创设目的及申请专利范围之内。

Claims

1.一种利用视觉特性检测新闻片段中播报员画面的方法，包含下列步骤：

a、提供新闻图像；

b、进行肤色分析；

c、配合肤色的移动物体检测；

d、通过比较新闻片段中播报员及非播报员的人脸范围非肤色区域的长条图来检测播报员可能出现片段；

e、最后再由播报员可能出现的片段作一次播报员检测，最后可正确得知播报员出现的片段；

其中配合肤色的移动物体检测包含有肤色调整步骤，其步骤为图像型态学中的断开运算，其中肤色调整步骤完成后，再运用连接元区域标定步骤把图像中属于同一对象之相连图像找出，以便获得物体面积、高度和宽度等信息，并藉此标定出图像中各个独立的物件。

2.如权利要求1所述利用视觉特性检测新闻片段中播报员画面的方法，其中该肤色分析是利用一般所使用的色彩空间对颜色作分割。

3.如权利要求1所述利用视觉特性检测新闻片段中播报员画面的方法，其中进行肤色分析的步骤，先将播报员的肤色分析形成一肤色临界值，再于固定位置于固定时间间距撷取复数图像，将各图像的肤色与肤色临界值相比较，若大于该临界值则判定出播报员有移动。

4.如权利要求1所述利用视觉特性检测新闻片段中播报员画面的方法，其中断开运算包含：膨胀以及侵蚀。

5.如权利要求1所述利用视觉特性检测新闻片段中播报员画面的方法，其中该检测播报员可能出现片段的步骤，系针对新闻片段中播报员以及非播报员的人脸范围非肤色区域，形成复数个直方图，比较其差异，即可找出播报员可能出现的片段。

6.如权利要求1所述利用视觉特性检测新闻片段中播报员画面的方法，其中该播报员检测包含有：在非肤色区域之中计算直方图的差距或稳态物体处理；其中，在非肤色区域之中计算直方图的差距的方式是于新闻画面中取得连续图像，再由各图像中的人脸范围中取得非肤色区域的直方图，再比较各直方图的差异，若大于临界值则判定是为播报员出现的片段，反之，则判定是为新闻报导的片段；

而稳态物体处理包含类似于标志检测以及从主播片段中找出主播的特性，其中类似于标志检测是将一段影片中一直存在的物体找出来，藉由连续图像相减法，将两张图像相减之后，只将颜色相近的位置保留下来，处理一段时间后即可将Logo的位置检测出来；

其从主播片段中找出主播的特性是于播报员出现的片段中取得连续图像，并利用机率的方式计算相关性及亮度的平均值以及标准差，以当做一临界值，若影片的相关性及亮度大于临界值则判定视为播报员出现的片段。