CN107027067B

CN107027067B - 获取mv视频资源中字幕信息的方法及系统

Info

Publication number: CN107027067B
Application number: CN201510351335.2A
Authority: CN
Inventors: 邓宏平; 刘青; 吴爱红; 张银田; 魏征; 吴子扬; 常欢; 魏思; 胡郁; 刘庆峰
Original assignee: Xun Feizhi Metamessage Science And Technology Ltd
Current assignee: Xun Feizhi Metamessage Science And Technology Ltd
Priority date: 2015-06-23
Filing date: 2015-06-23
Publication date: 2020-02-07
Anticipated expiration: 2035-06-23
Also published as: CN107027067A

Abstract

本发明公开了一种获取MV视频资源中字幕信息的方法及系统，该方法包括：获取MV视频资源；根据所述MV视频资源中的视频帧图像确定所述MV视频资源中的字幕空间位置；根据所述字幕的空间位置确定的上下边界之间的图像确定所述字幕的时间位置；依次计算每个时间位置内的字幕条的时间线。本发明可以实现对唱评资源中字幕信息的自动采集，并提高唱评资源的准确性。

Description

获取MV视频资源中字幕信息的方法及系统

技术领域

本发明涉及信息采集技术领域，具体涉及一种获取MV视频资源中字幕信息的方法及系统。

背景技术

随着科技的不断发展，以及人们生活水平的不断提高，人们的休闲娱乐生活越来越丰富，比如参加各种歌唱比赛以及去KTV唱歌已日益普遍，因而唱歌的打分和评测需求就相应而生。目前主流的唱歌打分系统，是通过对音高、节奏和歌词三方面的信息进行评测。因此，储备数量足够多、质量足够好的评测资源，成为该系统体验好坏的直接决定性因素。

考虑到成本与版权的问题，目前唱评资源的制作主要通过以下两种方式：

1.人工标注方式：由有一定音乐基础的人，对歌曲的歌词进行校对、补充，并通过听取音频文件，标注歌曲歌唱的音高、音长，从而实现唱评资源的标注工作。

2.乐器弹奏方式：由音乐造诣较高的人，对利用乐器歌曲进行弹奏，然后利用特制的软件进行录制，从而得到歌曲的音高、音长信息，再结合现有歌词的信息，完成唱评资源的标注。

现有的基于人工标注的方法，不仅效率低，成本高，而且标注过程中也会受到标注人员疲惫疏忽而造成的错误标注的困扰。而基于乐器弹奏的方法，同样需要人工参与，弹奏人员的技术熟练程度也会影响标注结果；对于大规模的标注任务，弹奏人员受到的压力同样不小；此外，如果弹奏的节奏与MV视频中的节奏不能完全吻合，就会影响最终的唱歌打分。因而采用传统的唱评资源采集方法，难以实现大规模的唱评资源采集。

发明内容

本发明实施例提供一种获取MV视频资源中字幕信息的方法及系统，以实现对唱评资源中字幕信息的自动采集，并提高唱评资源的准确性。

为此，本发明实施例提供如下技术方案：

一种获取MV视频资源中字幕信息的方法，包括：

获取MV视频资源；

根据所述MV视频资源中的视频帧图像确定所述MV视频资源中的字幕空间位置；

根据所述字幕的空间位置确定的上下边界之间的图像确定所述字幕的时间位置；

依次计算每个时间位置内的字幕条的时间线。

优选地，所述根据所述MV视频资源中的视频帧图像确定所述MV视频资源中的字幕空间位置包括：

对所述MV视频资源进行灰度处理，得到各视频帧图像的灰度图；

利用所述灰度图计算所述视频帧图像的梯度特征；

根据所述视频帧图像的梯度特征得到只含字幕区域像素的视频帧图像；

对所述只含字幕区域像素的视频帧图像做投影处理，并利用投影曲线计算得到字幕条的上下边界。

优选地，所述根据所述视频帧图像的梯度特征得到只含字幕区域像素的视频帧图像包括：

根据所述视频帧图像的梯度特征考察多个连续的视频帧图像内的候选梯度点，所述候选梯度点是指梯度幅值大于设定的幅度阈值的梯度点；

如果当前视频帧图像中的每个候选梯度点的设定邻域内，对应在前一视频帧图像中也存在一个候选梯度点，则确定所述候选梯度点为稳定梯度点；

获取只含稳定梯度点的视频帧图像；

对所述只含稳定梯度点的视频帧图像进行累加，并滤除累加后的图像中像素值低于设定像素阈值的像素点，得到只含字幕区域像素的视频帧图像。

优选地，所述方法还包括：

对所述MV视频资源中的视频帧图像进行采样，得到待处理视频帧图像；

所述计算所述视频帧图像的梯度特征包括：

计算所述待处理视频帧图像的梯度特征。

优选地，所述确定所述字幕的时间位置包括：

计算所述字幕的上下边界之间图像的梯度特征；

根据所述字幕的上下边界之间图像的梯度特征，获取字幕区域内的长期稳定梯度点；

根据所述长期稳定梯度点的剧变性确定所述字幕的时间位置。

优选地，所述根据所述字幕的上下边界之间图像的梯度特征，获取字幕区域内的长期稳定梯度点包括：

根据所述字幕的上下边界之间图像的梯度特征考察多个连续的视频帧图像内的候选字幕梯度点，所述候选字幕梯度点是指梯度幅值大于设定的幅度阈值的梯度点；

通过比较相邻视频帧图像中的候选字幕梯度点的位置，得到临时稳定的字幕梯度点；

如果所述临时稳定的字幕梯度点存在时间超过设定帧数，则确定所述临时稳定的字幕梯度点为长期稳定梯度点。

优选地，所述根据所述长期稳定梯度点的剧变性确定所述字幕的时间位置包括：

依次检查各视频帧图像中长期稳定梯度点的数目与上一帧相比的变化情况；

如果是急剧增加，则将当前帧时刻作为字幕的开始时间；如果是急剧减少，则将当前帧时刻作为字幕的结束时间。

优选地，所述计算所述字幕所在字幕条的时间线包括：

获取字幕尾帧图像；

根据所述字幕尾帧图像确定字幕变色后的颜色值；

利用所述颜色值提取所述字幕的时间位置内的每一帧视频帧图像中变色后的文字像素，得到对应该帧的文字像素图像；

依次计算当前帧文字像素图像与前一帧文字像素图像的帧差，得到帧差图；

根据所述帧差图确定字幕条的时间线。

优选地，所述根据所述字幕尾帧图像确定字幕变色后的颜色值包括：

滤除所述字幕尾帧图像的背景噪声，得到去噪后的文字图像；

对去噪后的文字图像中的颜色进行聚类，得到字幕变色后的颜色值。

优选地，所述滤除所述字幕尾帧图像的背景噪声，得到去噪后的文字图像包括：

从所述字幕尾帧图像中提取笔画强度特征，得到基于笔画强度特征的文字提取图；

根据所述文字提取图对所述字幕尾帧图像进行过滤，得到去噪后的文字图像。

优选地，所述从所述字幕尾帧图像中提取笔画强度特征，得到基于笔画强度特征的文字提取图包括：

计算所述字幕尾帧图像中像素点的笔画强度，得到笔画强度图；

在所述笔画强度图上计算大津阈值；

利用所述大津阈值对所述笔画强度图进行二值化处理，得到基于笔画强度特征的文字提取图。

优选地，所述方法还包括：

对所述帧差图进行垂直投影；

所述根据所述帧差图确定字幕条的时间线包括：

取投影曲线最高值位置作为当前时间线所在位置。

一种获取MV视频资源中字幕信息的系统，包括：

视频资源获取模块，用于获取MV视频资源；

字幕空间位置确定模块，用于根据所述MV视频资源中的视频帧图像确定所述MV视频资源中的字幕空间位置；

字幕时间位置确定模块，用于根据所述字幕的空间位置确定的上下边界之间的图像确定所述字幕的时间位置；

时间线计算模块，用于依次计算每个时间位置内的字幕条的时间线。

优选地，所述字幕空间位置确定模块包括：

灰度处理单元，用于对所述MV视频资源进行灰度处理，得到各视频帧图像的灰度图；

第一梯度特征计算单元，用于利用所述灰度图计算所述视频帧图像的梯度特征；

字幕图像获取单元，用于根据所述视频帧图像的梯度特征得到只含字幕区域像素的视频帧图像；

投影处理单元，用于对所述只含字幕区域像素的视频帧图像做投影处理，并利用投影曲线计算得到字幕条的上下边界。

优选地，所述字幕图像获取单元包括：

稳定梯度点确定子单元，用于根据所述视频帧图像的梯度特征考察多个连续的视频帧图像内的候选梯度点，所述候选梯度点是指梯度幅值大于设定的幅度阈值的梯度点，并且如果当前视频帧图像中的每个候选梯度点的设定邻域内，对应在前一视频帧图像中也存在一个候选梯度点，则确定所述候选梯度点为稳定梯度点；

图像获取子单元，用于获取只含稳定梯度点的视频帧图像；

图像处理子单元，用于对所述只含稳定梯度点的视频帧图像进行累加，并滤除累加后的图像中像素值低于设定像素阈值的像素点，得到只含字幕区域像素的视频帧图像。

优选地，所述系统还包括：

采样模块，用于对所述MV视频资源中的视频帧图像进行采样，得到待处理视频帧图像；

所述第一梯度特征计算单元，具体用于计算所述待处理视频帧图像的梯度特征。

优选地，所述字幕时间位置确定模块包括：

第二梯度特征计算单元，用于计算所述字幕的上下边界之间图像的梯度特征；

长期稳定梯度点获取单元，用于根据所述字幕的上下边界之间图像的梯度特征，获取字幕区域内的长期稳定梯度点；

时间位置确定单元，用于根据所述长期稳定梯度点的剧变性确定所述字幕的时间位置。

优选地，所述长期稳定梯度点获取单元，具体用于根据所述字幕的上下边界之间图像的梯度特征考察多个连续的视频帧图像内的候选字幕梯度点，所述候选字幕梯度点是指梯度幅值大于设定的幅度阈值的梯度点，通过比较相邻视频帧图像中的候选字幕梯度点的位置，得到临时稳定的字幕梯度点，并且如果所述临时稳定的字幕梯度点存在时间超过设定帧数，则确定所述临时稳定的字幕梯度点为长期稳定梯度点。

优选地，所述时间位置确定单元，具体用于依次检查各视频帧图像中长期稳定梯度点的数目与上一帧相比的变化情况，如果是急剧增加，则将当前帧时刻作为字幕的开始时间；如果是急剧减少，则将当前帧时刻作为字幕的结束时间。

优选地，所述时间线计算模块包括：

字幕尾帧图像获取单元，用于获取字幕尾帧图像；

颜色值确定单元，用于根据所述字幕尾帧图像确定字幕变色后的颜色值；

文字像素图像获取单元，用于利用所述颜色值提取所述字幕的时间位置内的每一帧视频帧图像中变色后的文字像素，得到对应该帧的文字像素图像；

帧差图生成单元，用于依次计算当前帧文字像素图像与前一帧文字像素图像的帧差，得到帧差图；

时间线确定单元，用于根据所述帧差图确定字幕条的时间线。

优选地，所述颜色值确定单元包括：

去噪子单元，用于滤除所述字幕尾帧图像的背景噪声，得到去噪后的文字图像；

聚类子单元，用于对去噪后的文字图像中的颜色进行聚类，得到字幕变色后的颜色值。

优选地，所述去噪子单元包括：

笔画强度特征提取子单元，用于从所述字幕尾帧图像中提取笔画强度特征，得到基于笔画强度特征的文字提取图；

过滤子单元，用于根据所述文字提取图对所述字幕尾帧图像进行过滤，得到去噪后的文字图像。

优选地，所述笔画强度特征提取子单元包括：

笔画强度计算子单元，用于计算所述字幕尾帧图像中像素点的笔画强度，得到笔画强度图；

大津阈值计算子单元，用于在所述笔画强度图上计算大津阈值；

二值化处理子单元，用于利用所述大津阈值对所述笔画强度图进行二值化处理，得到基于笔画强度特征的文字提取图。

优选地，所述时间线计算模块还包括：

垂直投影模块，用于对所述帧差图进行垂直投影；

所述时间线确定单元，具体用于取投影曲线最高值位置作为当前时间线所在位置。

本发明实施例提供的获取MV视频资源中字幕信息的方法及系统，利用现有的MV视频资源，首先确定出其中字幕的空间位置，然后根据所述字幕的空间位置确定的上下边界之间的图像确定所述字幕的时间位置，最后依次计算每个时间位置内的字幕条的时间线，从而实现对唱评资源中字幕信息的自动采集，而且，由于采集的原始MV视频资源通常都是由专业的人员和公司制作的，因此，在利用相关信息生成唱评资源时，可以较好地保证生成的唱评资源的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例获取MV视频资源中字幕信息的方法的流程图；

图2是本发明实施例中计算字幕所在字幕条的时间线的流程图；

图3是本发明实施例获取MV视频资源中字幕信息的系统的结构框图；

图4是本发明实施例中字幕空间位置确定模块的一种结构示意图；

图5是本发明实施例中字幕时间位置确定模块的一种结构示意图；

图6是本发明实施例中时间线计算模块的一种结构示意图；

图7是本发明实施例中笔画强度特征提取子单元的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例获取MV视频资源中字幕信息的方法的流程图，包括以下步骤：

步骤101，获取MV视频资源。

步骤102，根据所述MV视频资源中的视频帧图像确定所述MV视频资源中的字幕空间位置。

对于一个MV视频资源，可以包括多帧视频帧图像，在本发明实施例，通过对这些视频帧图像的分析，可以获得字幕的空间位置，即字幕条的上下边界信息。

比如，可以根据视频帧图像的梯度特征得到只含字幕区域像素的视频帧图像，然后对该视频帧图像做投影处理，利用投影曲线计算得到字幕条的上下边界。一种具体实现过程如下：

(1)对所述MV视频资源进行灰度处理，得到各视频帧图像的灰度图。具体的灰度化处理可采用现有的一些处理方式，对此本发明实施例不做限定。

(2)利用所述灰度图计算各视频帧图像的梯度特征。

所述梯度特征反映了图像灰度值的变化情况，考虑到在MV视频帧图像中字幕外的背景水平或垂直梯度对字幕的梯度干扰大的情况，在本发明实施例中，可以采用图像的45°梯度特征，其计算方式具体如下：

其中，矩形中的模板

表示计算梯度的卷积算子，I表示当前图像的灰度图，G表示卷积后的梯度图。

需要说明的是，由于一个视频资源包含的视频帧很多，一般可达到10000帧左右，考虑到在整个视频中，字幕的位置是固定的，因此为了节约处理时间，还可以先对视频帧进行采样，选取一些帧作为处理资源。比如将MV视频均分为12段，从中间的10段中，每段提取开始的100帧，这样总共得到1000帧，用于计算字幕空间位置。

(3)根据所述视频帧图像的梯度特征得到只含字幕区域像素的视频帧图像。

由于字幕会持续一定的时间，对应到视频帧图像上，即字幕会出现在多帧图像上，在该时间段内，字幕区域梯度保持稳定，在位置和幅值(为公式(1)所计算出梯度的绝对值)上均变化较小，而背景区域由于目标的运动，梯度则没有类似的特性。因此，可以通过考察多帧图像内候选梯度点的稳定性，将背景上的梯度像素滤除，最终得到纯净的字幕区域像素。

所述候选梯度点指梯度幅值大于预先设定的幅度阈值的梯度点。幅度阈值的设定一般可根据经验或实际应用情况而定。

稳定梯度点的具体判断方法如下：考察当前帧的每一个候选梯度点的设定邻域内，比如3*3邻域内，对应在前一帧图像中，也存在一个候选梯度点，则认为该候选梯度点是稳定的。

在确定出稳定梯度点后，即可得到只含稳定梯度点的视频帧图像。

为了进一步消除背景噪声的干扰，对只含稳定梯度点的视频帧图像进行累加(即像素值累加)，并滤除累加后的图像中像素值低于设定像素阈值的像素点，得到只含字幕区域像素的视频帧图像。

(4)对所述只含稳定梯度点的视频帧图像做投影处理，得到字幕条的上下边界。

由于MV视频中的字幕条一般都是水平排列，因此可以对只含字幕区域像素的视频帧图像进行水平投影，利用投影曲线计算字幕条的上下边界。具体做法为：计算投影曲线的平均值，将该平均值作为阈值，滤除投影曲线中投影值低于该阈值的部分，仅保留投影值高于阈值的部分。在滤除后的投影曲线上，计算字幕的上下边界。

再比如，还可以根据根据视频帧图像的梯度特征，按照以下方式确定所述MV视频资源中的字幕空间位置：

(1)对视频帧图像提取梯度，得到梯度图像；

(2)利用小滑窗(可以根据实际应用情况预先设定，如预设为40*40像素)在图像中进行遍历，考察当前位置滑窗内梯度图像的分布规律；

(3)如果滑窗内梯度分布满足字幕条的条件(如梯度直方图的分布需要满足均匀性)，将当前滑窗对应的图像内容变白；

(4)滑窗扫描完整一幅图像后，得到所有位置成为字幕条的置信度图像；

(5)对置信度图像进行后处理，将距离较近的白色子窗联合起来；

(6)利用连通域分析得到大致的候选字幕条位置；

(7)对候选字幕条区域，利用HOG特征+分类器进行验证；

(8)通过验证的即为最终的字幕条。

对于有两行或多行字幕的情况，通常各行字幕的高度一样，因此可以在得到字幕区域上下边界之后，通过对投影曲线中部的凹陷区域进行定位，完成对字幕的切分，最终得到字幕的空间位置。

需要说明的是，如果字幕条是其它方向排列，只需将上述的各种计算及投影需要做适应性的调整，同样可以适用。

步骤103，根据所述字幕的空间位置确定的上下边界之间的图像确定所述字幕的时间位置。

在确定了字幕的空间位置后，再根据字幕上下边界之间图像确定字幕的时间位置，具体过程如下：

(1)计算所述字幕的上下边界之间图像的梯度特征。

其计算方法与整个视频帧图像的梯度特征的计算方法相同，在此不再赘述。

(2)根据所述字幕的上下边界之间图像的梯度特征，获取字幕区域内的长期稳定梯度点。

因为MV视频中的字幕多是直接覆盖在视频之上，所以在字幕区域依旧有背景的干扰。在本发明实施例中，利用字幕像素上梯度点在字幕区域出现和消失时间内稳定的特性，消除字幕区域内背景的干扰。

具体地，首先，根据所述字幕的上下边界之间图像的梯度特征考察多个连续的视频帧图像内的候选字幕梯度点，所述候选字幕梯度点是指梯度幅值大于设定的幅度阈值(该幅度阈值与前面计算字幕空间位置时用到的幅度阈值可以相同，也可以不同)的梯度点。然后，通过比较相邻视频帧图像中的候选字幕梯度点的位置，得到临时稳定的字幕梯度点，也就是说，如果位置相同，则确定该字幕梯度点是临时稳定的字幕梯度点。最后再判断该临时稳定的字幕梯度点是否存在时间超过设定帧数，比如20帧，若是则被认为是长期稳定梯度点。

(3)根据所述长期稳定梯度点的剧变性确定所述字幕的时间位置。

字幕的出现和消失都具有突然性，因此长期稳定梯度点的数量存在剧烈的跳变。字幕出现时，稳定梯度点急剧增加；字幕消失时，稳定梯度点急剧减少。通过观察稳定梯度点的变化规律，可以实现字幕首尾帧的检测。

具体地，检查当前视频帧图像中长期稳定梯度点的数目与上一帧相比是否发生了跳变(比如两数目差值的绝对值大于设定值)，如果是急剧增加，则将当前帧时刻作为字幕的开始时间；如果是急剧减少，则将当前帧时刻作为字幕的结束时间。然后将下一帧作为下一个字幕首帧候选，继续检查视频帧图像中长期稳定梯度点数目的变化情况。

进一步地，为了消除一些因背景噪声的干扰导致的字幕时间位置判断错误，如字幕的最右侧出现噪声，最后一个字的结束时间就可能往后延了。针对这种情况，本发明实施例还可根据首尾帧的总帧数，对不正确的首尾帧判定加以滤除，一般一个MV视频的首尾帧的总帧数不超过300帧，不低于100帧，如果过多或过少都需滤除，具体可以由人工进行校对，或者直接剔除。

步骤104，依次计算每个时间位置内的字幕条的时间线。

唱歌的过程中，MV视频中字幕会按时间从左至右逐渐变色，所述时间线就是指当前帧变色字幕最右侧的位置。

在本发明实施例中，根据字幕颜色变化确定时间线，因此选取字幕尾帧图像作为颜色分析时的比较对象。在颜色分析前，首先对字幕尾帧做相应的预处理，达到去除背景噪声干扰的目的。然后，根据去噪后的文字图像确定字幕变色后的颜色值，利用所述颜色值确定每一帧视频帧图像中变色后的文字像素，得到对应该帧的文字像素图像。然后再依次计算当前帧文字像素图像与前一帧文字像素图像的帧差，得到帧差图，根据该帧差图即可确定字幕条的时间线。

如图2所示，是本发明实施例中计算字幕所在字幕条的时间线的流程图，包括以下步骤：

步骤201，获取字幕尾帧图像。

步骤202，根据所述字幕尾帧图像确定字幕变色后的颜色值。

首先，需要滤除所述字幕尾帧图像的背景噪声，得到去噪后的文字图像，然后再对去噪后的文字图像中的颜色进行聚类，得到字幕变色后的颜色值。

在去噪时，可以从所述字幕尾帧图像中提取笔画强度特征，得到基于笔画强度特征的文字提取图，然后再根据所述文字提取图对所述字幕尾帧图像进行过滤，得取去噪后的文字图像。

由于文字由笔画构成，采用笔画强度特征可以保留较多的文字像素，滤除绝大多数背景像素。笔画强度特征的提取过程如下：

(1)计算字幕尾帧图像中的像素点的笔画强度，得到笔画强度图。

首先，定义当前像素点的笔画强度，如图3所示，当前像素点用黑色小方块表示。首先考察这样一种水平点对，该两点的距离为W，且保证当前像素在该两点之间，且与点对处于同一水平线。这样的点对总共有W-1个(左点到当前像素的距离分别为1,2,…,W-1)。针对每个点对，选择左右两点中灰度值小的一个，并将其与当前位置像素值做差值计算，从而得到W-1个差值。其中，每个点的灰度值计算如式(2)所示：

f(x,y)＝0.299R(x,y)+0.587G(x,y)+0.114B(x,y) (2)

其中，f(x,y)表示点(x,y)的灰度值，R、G、B分别表示彩色图像中红色通道、绿色通道和蓝色通道的像素值。

然后，选择这W-1个差值中最大的一个作为当前像素水平方向上的笔画强度。其数学描述如式(3)所示：

其中，DE(x)表示在选定W的情况下，当前方向的笔画强度；f(x-i)表示当前像素的坐标为x，往左侧偏i个像素；f(x+W-i)表示当前像素的坐标为x，往右侧偏W-i个像素；f(x)表示当前坐标x的像素。

最终的笔画强度还需要同时考虑四个方向：0度、45度、90度和135度，然后选取四个方向笔画强度的最大值，作为当前像素笔画强度。如式(4)所示：

其中，DE_W(p)表示在选定W的情况下，当前像素的笔画强度；DE_Wd表示在选定W的情况下，方向为d时的笔画强度。

(2)在笔画强度图上计算大津阈值。

假设笔画强度图strokeGrayImg的大小为(M N)，这里的M和N分别代表的是横向像素点的总数和纵向像素点的总数，大津阈值为T，前景的像素点数占整幅图像的比例为ω0，前景的平均灰度为μ0，背景像素点数占整幅图像的比例为ω1，背景的平均灰度为μ1，图像的总平均灰度为μ，前景和背景的类间方差为g，图像中灰度值小于大津阈值T的像素个数为N0，图像中灰度值大于大津阈值T的像素个数为N1。则有：

g＝ω0*(μ0-μ)²+ω1*(μ1-μ)² (5)

其中，

N0+N1＝M×N、ω0+ω1＝1、μ＝ω0*μ0+ω1*μ1；

将上述各参数代入公式(5)，得到：

g＝ω0ω1*(μ0-μ1)² (6)

图像灰度值的范围是[0,255]，采用遍历的方法，即从0到255遍历，使得g最大的阈值即为大津阈值T。

(3)利用所述大津阈值对所述笔画强度图进行二值化处理，得到基于笔画强度特征的文字提取图。

具体地，利用大津阈值T对笔画强度图进行二值化，二值化方法可以采用如下式(7)所示：

其中，f(x,y)表示笔画强度图中位置(x,y)的像素值。

根据上述文字提取图对字幕尾帧图像进行过滤，即可得到去噪后的文字图像。

对去噪后的文字图像中的颜色进行聚类，得到字幕变色后的颜色值的具体过程如下：将对去噪后的文字图像中每一个文字像素对应的RGB颜色值作为待聚类样本收集起来，然后利用KMeans算法进行聚类。挑选样本数目最多的一类作为需要的结果，该类中心的色彩值就是字幕变色后的颜色值。

步骤203，利用所述颜色值提取所述字幕的时间位置内的每一帧视频帧图像中变色后的文字像素，得到对应该帧的文字像素图像。

利用聚类得到的颜色值，对每一帧视频帧图像提取文字像素。具体做法如下：比较当前帧中的每一个像素位置，如果该位置像素值的RGB三个通道，都与聚类中心颜色值的RGB三个通道值的差值在一定范围内，就认为是文字像素；否则，是背景像素。相应地，去掉背景像素，仅保留文字像素，即可得到对应该帧的文字像素图像。

步骤204，依次计算当前帧文字像素图像与前一帧文字像素图像的帧差，得到帧差图。

所述帧差指的是将两帧文字像素图像做差，去除两帧文字像素图像中相同的像素，保留其中不同的像素，这些像素所处的位置即代表了字幕条颜色变化的位置，即时间线的位置。

步骤205，根据所述帧差图确定字幕条的时间线。

进一步地，为了减少噪声干扰对时间线的影响，在本发明另一实施例中，还可以先对所述帧差图进行垂直投影，然后取投影曲线最高值位置作为当前时间线所在位置。

另外，对得到的时间线位置结果，还可进一步对其做一些处理，使得结果更为准确。如将整个字幕条开始和结束的时间内所有帧对应的时间线值排列起来，得到当前字幕的时间线数组。由于噪声的干扰，或者文字笔画稀少，导致时间线数组中部分值存在与实际不符的现象。因此，可以对时间线数组进行平滑处理，使时间线的位置更准确。

本发明实施例提供的获取MV视频资源中字幕信息的方法，利用现有的MV视频资源，首先确定出其中字幕的空间位置，然后根据所述字幕的空间位置确定的上下边界之间的图像确定所述字幕的时间位置，最后依次计算每个时间位置内的字幕条的时间线，从而实现对唱评资源中字幕信息的自动采集，而且，由于采集的原始MV视频资源通常都是由专业的人员和公司制作的，因此，在利用相关信息生成唱评资源时，可以较好地保证生成的唱评资源的准确性。

相应地，本发明实施例还提供一种获取MV视频资源中字幕信息的系统，如图3所示，是该系统的一种结构框图。

在该实施例中，所述系统包括：

视频资源获取模块301，用于获取MV视频资源；

字幕空间位置确定模块302，用于根据所述MV视频资源中的视频帧图像确定所述MV视频资源中的字幕空间位置；

字幕时间位置确定模块303，用于根据所述字幕的空间位置确定的上下边界之间的图像确定所述字幕的时间位置；

时间线计算模块304，用于依次计算每个时间位置内的字幕条的时间线。

上述字幕空间位置确定模块302具体可以根据视频帧图像的梯度特征得到只含字幕区域像素的视频帧图像，然后对该视频帧图像做投影处理，利用投影曲线计算得到字幕条的上下边界。

如图4所示，是本发明实施例中字幕空间位置确定模块的一种结构示意图，该字幕空间位置确定模块302包括以下各单元：

灰度处理单元321，用于对所述MV视频资源进行灰度处理，得到各视频帧图像的灰度图；

第一梯度特征计算单元322，用于利用所述灰度图计算所述视频帧图像的梯度特征；

字幕图像获取单元323，用于根据所述视频帧图像的梯度特征得到只含字幕区域像素的视频帧图像；

投影处理单元324，用于对所述只含字幕区域像素的视频帧图像做投影处理，并利用投影曲线计算得到字幕条的上下边界。

需要说明的是，由于一个视频资源包含的视频帧很多，考虑到在整个视频中，字幕的位置是固定的，因此为了节约处理时间，还可以先对视频帧进行采样，选取一些帧作为处理资源。为此，在本发明系统另一实施例中，还可进一步包括：采样模块，用于对所述MV视频资源中的视频帧图像进行采样，得到待处理视频帧图像。相应地，上述第一梯度特征计算单元322只需计算所述待处理视频帧图像的梯度特征即可。

上述字幕图像获取单元323具体可以通过考察多帧图像内候选梯度点的稳定性，将背景上的梯度像素滤除，得到纯净的字幕区域像素的视频帧图像。字幕图像获取单元323单元的一种具体结构可以包括以下各子单元：

图像获取子单元，用于获取只含稳定梯度点的视频帧图像；

需要说明的是，所述字幕空间位置确定模块302也可以采用其它方式确定MV视频资源中的字幕空间位置，相应地，该模块的具体结构也不限于图4所示。

上述字幕时间位置确定模块303具体可以字幕的空间位置确定的上下边界之间的图像的梯度特征获取字幕区域内的长期稳定梯度点，再根据长期稳定梯度点的剧变性确定字幕的时间位置。

如图5所示，是本发明实施例中字幕时间位置确定模块的一种结构示意图，该字幕时间位置确定模块303包括以下各单元：

第二梯度特征计算单元331，用于计算字幕的上下边界之间图像的梯度特征，具体计算方法与第一梯度特征计算单元322计算整个视频帧图像的梯度特征的计算方法类似，在此不再赘述；

长期稳定梯度点获取单元332，用于根据所述字幕的上下边界之间图像的梯度特征，获取字幕区域内的长期稳定梯度点；

时间位置确定单元333，用于根据所述长期稳定梯度点的剧变性确定所述字幕的时间位置。

上述长期稳定梯度点获取单元332具体可以于根据所述字幕的上下边界之间图像的梯度特征考察多个连续的视频帧图像内的候选字幕梯度点，所述候选字幕梯度点是指梯度幅值大于设定的幅度阈值的梯度点，通过比较相邻视频帧图像中的候选字幕梯度点的位置，得到临时稳定的字幕梯度点，并且如果所述临时稳定的字幕梯度点存在时间超过设定帧数，则确定所述临时稳定的字幕梯度点为长期稳定梯度点。

上述时间位置确定单元333具体可以依次检查各视频帧图像中长期稳定梯度点的数目与上一帧相比的变化情况，如果是急剧增加，则将当前帧时刻作为字幕的开始时间；如果是急剧减少，则将当前帧时刻作为字幕的结束时间。

上述时间线计算模块304具体可以根据字幕颜色变化确定时间线。如图6所示，是时间线计算模块304的一种结构示意图。

该时间线计算模块304包括以下各单元：

字幕尾帧图像获取单元341，用于获取字幕尾帧图像；

颜色值确定单元342，用于根据所述字幕尾帧图像确定字幕变色后的颜色值；

文字像素图像获取单元343，用于利用所述颜色值提取所述字幕的时间位置内的每一帧视频帧图像中变色后的文字像素，得到对应该帧的文字像素图像；

帧差图生成单元344，用于依次计算当前帧文字像素图像与前一帧文字像素图像的帧差，得到帧差图；

时间线确定单元345，用于根据所述帧差图确定字幕条的时间线。

上述颜色值确定单元342具体可以通过聚类的方式得到字幕变色后的颜色值，可以包括以下子单元：

其中，去噪子单元可以利用笔画强度特征滤除所述字幕尾帧图像的背景噪声，得到去噪后的文字图像。所述去噪子单元的一种具体结构包括：笔画强度特征提取子单元和过滤子单元。其中：

如图7所示，是本发明实施例中笔画强度特征提取子单元的一种结构示意图。

所述笔画强度特征提取子单元包括：

笔画强度计算子单元701，用于计算所述字幕尾帧图像中像素点的笔画强度，得到笔画强度图；

大津阈值计算子单元702，用于在所述笔画强度图上计算大津阈值；

二值化处理子单元703，用于利用所述大津阈值对所述笔画强度图进行二值化处理，得到基于笔画强度特征的文字提取图。

上述笔画强度及大津阈值的具体计算过程可参照前面本发明方法实施例中的描述。

进一步地，为了减少噪声干扰对时间线的影响，在时间线计算模块304中还可进一步包括：垂直投影模块(未图示)，用于对帧差图生成单元344得到的帧差图进行垂直投影。相应地，时间线确定单元345可以取投影曲线最高值位置作为当前时间线所在位置。

本发明实施例提供的获取MV视频资源中字幕信息的系统，利用现有的MV视频资源，首先确定出其中字幕的空间位置，然后根据所述字幕的空间位置确定的上下边界之间的图像确定所述字幕的时间位置，最后依次计算每个时间位置内的字幕条的时间线，从而实现对唱评资源中字幕信息的自动采集，而且，由于采集的原始MV视频资源通常都是由专业的人员和公司制作的，因此，在利用相关信息生成唱评资源时，可以较好地保证生成的唱评资源的准确性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所描述的终端实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。而且，其中的一些模块所提供的功能也可以由软件来实现，一些模块可以与现有的设备(比如个人电脑、平板电脑、手机)中的相同功能模块共用。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种获取MV视频资源中字幕信息的方法，其特征在于，包括：

获取MV视频资源；

根据所述字幕的空间位置确定的上下边界之间的图像特征的变化，确定所述字幕的时间位置；包括：根据计算得到的上下边界之间图像的梯度特征，获取字幕区域内的长期稳定梯度点；根据所述长期稳定梯度点的剧变性确定所述字幕的时间位置；

依次计算每个时间位置内的字幕条的时间线。

2.根据权利要求1所述的方法，其特征在于，所述根据所述MV视频资源中的视频帧图像确定所述MV视频资源中的字幕空间位置包括：

利用所述灰度图计算所述视频帧图像的梯度特征；

3.根据权利要求2所述的方法，其特征在于，所述根据所述视频帧图像的梯度特征得到只含字幕区域像素的视频帧图像包括：

获取只含稳定梯度点的视频帧图像；

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

所述计算所述视频帧图像的梯度特征包括：

计算所述待处理视频帧图像的梯度特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述字幕的上下边界之间图像的梯度特征，获取字幕区域内的长期稳定梯度点包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述长期稳定梯度点的剧变性确定所述字幕的时间位置包括：

7.根据权利要求1所述的方法，其特征在于，所述计算所述字幕所在字幕条的时间线包括：

获取字幕尾帧图像；

根据所述字幕尾帧图像确定字幕变色后的颜色值；

根据所述帧差图确定字幕条的时间线。

8.根据权利要求7所述的方法，其特征在于，所述根据所述字幕尾帧图像确定字幕变色后的颜色值包括：

9.根据权利要求8所述的方法，其特征在于，所述滤除所述字幕尾帧图像的背景噪声，得到去噪后的文字图像包括：

10.根据权利要求9所述的方法，其特征在于，所述从所述字幕尾帧图像中提取笔画强度特征，得到基于笔画强度特征的文字提取图包括：

在所述笔画强度图上计算大津阈值；

11.根据权利要求7至10任一项所述的方法，其特征在于，所述方法还包括：

对所述帧差图进行垂直投影；

所述根据所述帧差图确定字幕条的时间线包括：

取投影曲线最高值位置作为当前时间线所在位置。

12.一种获取MV视频资源中字幕信息的系统，其特征在于，包括：

视频资源获取模块，用于获取MV视频资源；

字幕时间位置确定模块，用于根据所述字幕的空间位置确定的上下边界之间的图像特征的变化，确定所述字幕的时间位置；包括：根据计算得到的上下边界之间图像的梯度特征，获取字幕区域内的长期稳定梯度点；根据所述长期稳定梯度点的剧变性确定所述字幕的时间位置；

13.根据权利要求12所述的系统，其特征在于，所述字幕空间位置确定模块包括：

14.根据权利要求13所述的系统，其特征在于，所述字幕图像获取单元包括：

图像获取子单元，用于获取只含稳定梯度点的视频帧图像；

15.根据权利要求13或14所述的系统，其特征在于，所述系统还包括：

16.根据权利要求12所述的系统，其特征在于，所述字幕时间位置确定模块包括：

17.根据权利要求16所述的系统，其特征在于，

所述长期稳定梯度点获取单元，具体用于根据所述字幕的上下边界之间图像的梯度特征考察多个连续的视频帧图像内的候选字幕梯度点，所述候选字幕梯度点是指梯度幅值大于设定的幅度阈值的梯度点，通过比较相邻视频帧图像中的候选字幕梯度点的位置，得到临时稳定的字幕梯度点，并且如果所述临时稳定的字幕梯度点存在时间超过设定帧数，则确定所述临时稳定的字幕梯度点为长期稳定梯度点。

18.根据权利要求16所述的系统，其特征在于，

所述时间位置确定单元，具体用于依次检查各视频帧图像中长期稳定梯度点的数目与上一帧相比的变化情况，如果是急剧增加，则将当前帧时刻作为字幕的开始时间；如果是急剧减少，则将当前帧时刻作为字幕的结束时间。

19.根据权利要求12所述的系统，其特征在于，所述时间线计算模块包括：

字幕尾帧图像获取单元，用于获取字幕尾帧图像；

20.根据权利要求19所述的系统，其特征在于，所述颜色值确定单元包括：

21.根据权利要求20所述的系统，其特征在于，所述去噪子单元包括：

22.根据权利要求21所述的系统，其特征在于，所述笔画强度特征提取子单元包括：

23.根据权利要求19至22任一项所述的系统，其特征在于，所述时间线计算模块还包括：

垂直投影模块，用于对所述帧差图进行垂直投影；