CN106254933A

CN106254933A - 字幕提取方法及装置

Info

Publication number: CN106254933A
Application number: CN201610643390.3A
Authority: CN
Inventors: 王星星
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-08-08
Filing date: 2016-08-08
Publication date: 2016-12-21
Anticipated expiration: 2036-08-08
Also published as: US20190114486A1; CN106254933B; US11367282B2; WO2018028583A1

Abstract

本发明公开了一种字幕提取方法及装置；方法包括：对视频解码得到视频帧，对视频帧中的像素进行字幕排布方向的连通操作，得到视频帧中的连通域；基于视频帧中的连通域确定包括相同字幕的视频帧，并基于包括相同字幕的视频帧中连通域的分布位置，确定包括相同字幕的视频帧中的字幕区域；针对字幕区域的多个通道对应构造组件树，利用所构造的组件树提取对应每个通道的对比度极值区域；对多个通道的对比度极值区域进行颜色增强处理，形成颜色增强对比度极值区域；融合多个通道的颜色增强对比度极值区域。实施本发明，能够有效滤除字幕区域的图像中消除光照、衣物强干扰背景，以便更好的分离背景与字幕，有利于提升后续文字识别的效率和精度。

Description

字幕提取方法及装置

技术领域

本发明通信的视频技术，尤其涉及一种字幕提取方法及装置。

背景技术

目前，视频文件中字幕的记载方式多样，例如，内嵌式字幕、内挂字幕和外挂字幕等。其中，内嵌式字幕是将字幕覆盖在视频的视频帧上时，与视频的视频帧融为一体，不论视频格式如何进行变化，字幕的大小、位置、效果都是不变的。内挂字幕是将视频文件和字幕文件封装为多个音轨和多个字幕轨，在播放时可选择配音和字幕。外挂字幕对应的字幕文件与视频文件相互独立，在需要播放视频的时候，由视频播放器待用字幕文件在视频上加载。

终端的视频播放器支持各种形式的字幕，但是难以对所有形式的字幕进行提取和识别，这样，就导致用户在观看视频的过程中无法提取文本形式的字幕进行分享或记录。

发明内容

本发明实施例提供一种字幕提取方法及装置，能够从视频中提取各种形式的字幕。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种字幕提取方法，所述方法包括：

对视频解码得到视频帧，对所述视频帧中的像素进行字幕排布方向的连通操作，得到所述视频帧中的连通域；

基于所述视频帧中的连通域确定包括相同字幕的视频帧，并基于所述包括相同字幕的视频帧中连通域的分布位置，确定所述包括相同字幕的视频帧中的字幕区域；

针对所述字幕区域的多个通道对应构造组件树，利用所构造的组件树提取对应每个通道的对比度极值区域；

对所述多个通道的对比度极值区域进行颜色增强处理，形成颜色增强对比度极值区域；

融合多个通道的颜色增强对比度极值区域。

第二方面，本发明实施例提供一种字幕提取装置，所述装置包括：

解码单元，用于对视频解码得到视频帧；

连通单元，用于对所述视频帧中的像素进行字幕排布方向的连通操作，得到所述视频帧中的连通域；

定位单元，用于基于所述视频帧中的连通域确定包括相同字幕的视频帧，并基于所述包括相同字幕的视频帧中连通域的分布位置，确定所述包括相同字幕的视频帧中的字幕区域；

提取单元，用于针对所述字幕区域的多个通道对应构造组件树，利用所构造的组件树提取对应每个通道的对比度极值区域；

增强单元，用于对所述融合的多个通道的对比度极值区域进行颜色增强处理，形成滤除冗余像素和噪声的颜色增强对比度极值区域；

融合单元，用于融合多个通道的对比度极值区域。

第三方面，本发明实施例提供一种字幕提取装置，所述装置包括：

处理器和存储介质；所述存储介质中存储有可执行指令，所述可执行指令用于引起所述处理器执行以下的操作：

融合多个通道的颜色增强对比度极值区域。

本发明实施例具有以下有益效果：

从视频帧中提取对应字幕的连通域，从而对于任意形式的字幕都能够提取字幕区域(与连通域对应的图像)，不受视频使用何种形式的字幕的影响；同时，对从字幕区域提取的对比度极值区域进行颜色增强处理并进行融合，有效滤除字幕区域的图像中消除光照、衣物强干扰背景，以便更好的分离背景与字幕，有利于提升后续文字识别的效率和精度。

附图说明

图1-1至图1-6是本发明实施例中像素关系的示意图；

图2是本发明是实施例中字幕提取装置的一个可选的硬件结构示意图；

图3是本发明实施例中字幕提取的一个可选的场景示意图；

图4是本发明实施例中字幕提取方法的一个可选的流程示意图；

图5-1至图5-2是本发明实施例中字幕区域的可选的示意图；

图6是本发明实施例中字幕区域叠加的一个可选的流程示意图；

图7是本发明实施例中形成对比度极值区域的一个可选的示意图；

图8是本发明实施例中颜色空间转换的一个可选的示意图；

图9-1是本发明实施例中字幕提取的一个可选的场景示意图；

图9-2是本发明实施例中字幕提取的一个可选的场景示意图；

图10是本发明实施例中字幕提取装置的一个可选的功能结构示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本发明，并不用于限定本发明。另外，以下所提供的实施例是用于实施本发明的部分实施例，而非提供实施本发明的全部实施例，在本领域技术人员不付出创造性劳动的前提下，对以下实施例的技术方案进行重组所得的实施例、以及基于对发明所实施的其他实施例均属于本发明的保护范围。

需要说明的是，在本发明实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其他要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元)。

本发明实施例中涉及的名词和术语适用于如下的解释。

1)灰度值：表示像素明暗程度的整数量，例如：像素的取值范围为0-255，就称该图像为256个灰度级的图像。

2)腐蚀(Erode)：删除对象边界某些像素，具有收缩图像作用，腐蚀算法使用一个nXn结构元素去扫描图像中的每一个像素，用nXn结构元素与nXn结构元素覆盖的二值图像做“与”操作，如果都为1，图像的该像素为1，否则为0。腐蚀之后，图像边界向内收缩。

3)膨胀(Dilate)：添加对象边界某些像素，具有扩大图像作用；膨胀算法使用一个nXn结构元素去扫描图像中的每一个像素。用nXn结构元素与nXn结构元素覆盖的二值图像做“与”操作，如果都为0，图像的该像素为0，否则为1。膨胀之后，图像边界向外扩大。

4)邻接：两个像素接触，则它们是邻接的。一个像素和它的邻域中的像素是接触的。邻接仅考虑像素的空间关系。

领域包括以下几种类型：

4.1)4邻域：如图1-1所示，像素p(x，y)的4邻域是邻接的像素：(x+1，y)；(x-1，y)；(x，y+1)；(x，y-1)。

4.2)D邻域：如图1-2所示，像素p(x，y)的D邻域是对角上的像素(x+1，y+1)；用ND(p)表示像素p的D邻域：(x+1，y-1)；(x-1，y+1)；(x-1，y-1)。

4.3)8邻域：如图1-3所示，像素p(x，y)的8邻域是：4邻域的像素+D邻域的像素，用N8(p)表示像素p的8邻域。

5)连通，两个像素连接(1)是邻接的；(2)灰度值(或其他属性)满足某个特定的相似准则(灰度相等或在某个集合中等条件)。

连通包括以下几种类型：

5.1)4连通

如图1-4所示，对于具有灰度值V的像素p和q，如果q在集合N4(p)中，则称这两个像素是4连通。

5.2)8连通

如图1-5所示，对于具有值V的像素p和q，如果q在集合N8(p)中，则称这两个像素是8连通的。

如图1-6所示，对于具有值灰度值V的像素p和q，如果:

I.q在集合N4(p)中，或，

II.q在集合ND(p)中，并且N4(p)与N4(q)的交集为空(没有灰度值V的像素)，则像素p和q是m连通的，即4连通和D连通的混合连通。

6)连通区域，彼此连通(上述的任意一种连通方式)的像素形成了一个区域，而不连通的点形成了不同的区域。这样的一个所有的点彼此连通点构成的集合，称为连通域。

数据分布集中趋势特征，也就是数组中的数字集中分布的字段，通常利用众数法、中位数法和均值法等确定分布情况；众数法就是测算数组中重复出现次数最多的数字(众数)的方法，中位数法就是测算数组中中间取值(中位数)的方法，均值法就是测算数组中数字均值的方法。

7)帧间差分法(帧差法)，将相邻视频帧对应像素的灰度值相减，在环境亮度变化不大的情况下，如果对应像素灰度相差很小(未超出阈值)，可以认为像素代表的对象是静止的；如果图像区域某处的灰度变化很大(超出阈值)，可以认为这是由于图像中对象运动引起的，将这些静止区域和运动的像素区域标记下来，利用这些标记的像素区域，就可以得到运动对象以及静止对象在视频帧中的位置。

示例性地，帧差法是在连续的图像序列中2个或3个相邻帧间采用基于像素的时间差分并且阈值化来提取视频帧中运动对象区域。该运动对象实时跟踪系统是采用三帧差分来进行运动目标检测，这种方法不仅能提高运动对象检测的速度，而且提高了所检测视频帧的完整性。

8)尺度不变特征转换(SIFT，Scale-Invariant Feature Transform)特征匹配算法，用来侦测视频帧中的局部性特征，也就是对象上的一些局部外观的特征点的特征，这些特征点的特征与对象成像的大小和旋转无关。

在空间尺度中寻找特征点，并提取出特征点的特征描述：位置、尺度和旋转不变量。基于不同视频帧得到的特征点的特征的描述，对特征点进行匹配，可以得到视频帧中是否包括相同的特征点。

尺度不变特征转换特征匹配算法所查找到的特征点是一些十分突出，不会因光照，仿射变换和噪音等因素而变化的点，如角点、边缘点、暗区的亮点及亮区的暗点等。

9)对比度极值区域(CER，Contrasting Extremal Region)，视频帧中跟周围的背景有一定对比度(超出对比度阈值)的区域，从而至少能够被人眼感知。

10)颜色增强(color-enhanced CER)，是采用基于感知的光照不变(PII，Perception-based Illumination Invariant)颜色空间中的颜色信息去增强CER，利用颜色信息滤除CER中的冗余像素或者噪声，从而得到Color-enhanced CER，该颜色空间具有视觉感知一致性，而且对光照不敏感，更接近人眼对颜色的判断。PII颜色空间的颜色模型，包括：色调H，饱和度S和明度V。

本发明实施例提供字幕提取方法、应用字幕提取方法的字幕提取装置以及存储介质(存储介质中存储有用于执行字幕提取方法的可执行指令)。

本发明实施例提供的字幕提取装置可以以各种形式来实施，示例性地，可以为智能手机、平板电脑、车载终端等移动终端，也可以台式机电脑、智能电视、机顶盒等形式的固定终端，或者是类似的运算装置，又或者是网络侧的服务器。

图2示例性示出了字幕提取装置10一个可选的硬件结构示意图，图2示出的硬件结构仅为示例，并不构成对设备结构的限定。例如，可以根据实施需要设置较图2更多的组件，或者根据实施需要省略设置部分组件。

在图2中，字幕提取装置10的一个可选的硬件结构包括：处理器11、输入/输出接口13，存储介质14以及网络接口12，组件可以经系统总线15连接通信。

处理器11可以采用中央处理器(CPU)、微处理器(MCU，Microcontroller Unit)、专用集成电路(ASIC，Application Specific Integrated Circuit)或逻辑可编程门阵列(FPGA，Field－Programmable Gate Array)实现。

输入/输出接口13可以采用如显示屏、触摸屏、扬声器等输入/输出器件实现。

存储介质14可以采用闪存、硬盘、光盘等非易失性存储介质实现，也可以采用双倍率(DDR，Double Data Rate)动态缓存等易失性存储介质实现，示例性地，存储介质14可以与硬件结构中的其他组件共同在同一设备设置，也可以相对硬件结构中的其他组件异地远程设置。

网络接口12向处理器11提供外部数据如异地设置的存储介质14的访问能力，示例性地，网络接口12可以基于近场通信(NFC，Near Field Communication)技术、蓝牙(Bluetooth)技术、紫蜂(ZigBee)技术进行的近距离通信，另外，还可以实现如基于码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband CodeDivision Multiple Access)等通信制式及其演进制式的通信。

结合图3示出的字幕提取的一个可选的场景示意图，终端30和终端40运行在线视频播放应用，根据用户在在线视频应用中选中的视频的标识如序列号(ID)向服务器请求视频的数据，服务器10从数据库20获取视频，从视频中提取字幕区域并识别为文本形式，连同视频下发至终端30和终端40。

作为在向终端下发视频时从视频中提取字幕的替代方案，服务器10可以预先从数据库20的视频中识别文本形式的字幕，并连同视频在数据库20中存储，这样在并发响应多个终端获取视频(例如，终端30和终端40请求不同视频的字幕，或者请求相同视频的字幕)时，可以实时下发文本形式的字幕以避免延迟。

当然，服务器10也可以只将终端30和终端40所请求的视频的数据下发至相应终端进行播放，在终端30和终端40需要视频中的文本形式的字幕时，才下发相应的文本形式的字幕至终端30和终端40。

示例性地，终端30、终端40与服务器10之间以实时流式传输(RealtimeStreaming)或顺序流式传输(Progressive Streaming)的方式传输流媒体的视频数据。一般说来，如视频为需要实时播放的，则使用流式传输的媒体服务器10，或应用如实时流传输协议(RTSP，Real Time Streaming Protocol)传输。如使用超文本传输协议(HTTP，HyperText Transfer Protocol)服务器10，流媒体的视频数据即通过顺序流发送。采用何种传输方式依赖于视频播放的实时性的需求。当然，终端30和终端40也可以将视频的全部的数据下载到本地再进行播放。

下面结合图4示出的可以应用于图3中服务器10的字幕提取的一个可选的流程示意图进行说明，如图4所示，包括以下步骤：

步骤101，对视频解码得到视频帧。

步骤102，对视频帧中的像素进行字幕排布方向的连通操作，得到视频帧中的连通域。

在一个实施例中，根据视频的时长采样不同时间点的视频帧，例如，基于视频的帧速率对应提取不同时间点的视频帧，为了避免遗漏某一视频帧中的字幕，抽取视频时的采样速率大于视频的帧速率。对于所提取的视频帧中的像素进行腐蚀和/或扩张操作，对于进行腐蚀和/或扩张操作后的视频帧进行与字幕排布方向的连通操作，通常，字幕在视频中以从左至右的方向排布，因此对视频帧中的像素进行左向和右向的连通操作。使得视频帧中字幕区域的字符能够形成一个连通域。当然，如果预知视频中字幕的排布方向与常规的排布方向不同，可以针对视频的字幕排布方向有针对性地进行连通操作。

步骤103，基于视频帧中的连通域确定包括相同字幕的视频帧。

在一个实施例中，对所提取的相邻的视频帧中连通域(连通域与文本行形式的字幕对应)的像素作差，例如在RGB空间的不同通道的差值，或在PII空间的不同通道的差值；若差值低于差值阈值，则说明相邻视频帧中连通域的像素的差异过大，而相邻视频帧中连通区域的字幕如果相同则像素的差值必然很小(低于差值阈值)，因此，判定所提取的相邻的视频帧包括相同的字幕，若差值高于差值阈值，则判定所提取的相邻的视频帧包括不同的字幕。

在一个实施例中，对于所提取的在时间上相邻的视频帧中的连通域，基于尺度不变特征转换特征匹配算法从相应连通域中提取特征点，由于所提取的特征点具有不因位置、尺度和旋转而改变的特点，因此，如果相邻视频帧中的字幕相同，则从相邻视频帧中连通域提取的特征点必然是匹配的，相应地，通过相邻是视频帧中连通域的特征点是否匹配，可以判断相邻视频帧是否包括相同的字幕。

另外，上述的两种判断相邻视频帧是否包括相同字幕的方式可以结合使用，从而进一步提升识别包括不同字幕的视频帧的精度。例如，对所提取的相邻的视频帧中连通域的像素作差，若差值低于差值阈值，且，基于尺度不变特征转换特征匹配算法从相应连通域中提取特征点，若相邻的视频帧中连通域中提取的特征点匹配，则判定所提取的相邻的视频帧包括相同的字幕；否则，判定所提取的相邻的视频帧包括不同的字幕。

步骤104，基于包括相同字幕的视频帧中连通域的分布位置，确定包括相同字幕的视频帧中的字幕区域。

在一个实施例中，对于包括相同字幕的视频帧中连通域的分布位置(这里的分布位置是指连通域的边缘区域的分布位置)，确定相应分布位置的分布集中趋势特征，例如，基于众数法、中位数法或均值法确定分布位置的分布趋势特征。

以众数法为例，基于包括相同字幕的各视频帧中的连通域的分布位置的出现次数，确定出现次数最多的分布位置形成的区域(也就是该分布位置为边缘位置的区域)为字幕区域。以中位数法为例，基于包括相同字幕的各视频帧中的连通域的分布位置，确定中间取值的分布位置形成的区域(也就是该分布位置为边缘位置的区域)为字幕区域。再以均值法为例，基于包括相同字幕的各视频帧中的连通域的分布位置，确定分布位置的均值形成的区域(也就是分布位置的均值为边缘位置的区域)为字幕区域。

步骤105，针对所述字幕区域的多个通道对应构造组件树，利用所构造的组件树提取对应每个通道的对比度极值区域。

在一个实施例中，从多个通道如灰度图、PII的色调通道；PII的饱和度通道对视频帧的字幕区域对应构造由嵌套的节点形成的组件树，组件树的节点与字幕区域的字符对应；节点与邻接背景的对比度采用节点相对于邻接节点的面积变化率来表征，由于极值区域与邻接背景至少有能被人眼感知到的对比度，因此，当节点相对于邻接节点的面积变化率小于面积变化率阈值时，则确定节点属于相应通道的对比度极值区域。

步骤106，对多个通道的对比度极值区域进行颜色增强处理。

在一个实施例中，对于每个通道的对比度极值区域，确定对比度极值区域的主要颜色，从对比度极值区域中提取出跟主要颜色相似程度满足预设条件的像素，基于所提取的像素组成相应通道的颜色增强对比度极值区域。

例如，对于任一通道的字幕区域，将字幕区域中的像素按照灰度值的大小从大到小排序，取灰度值排在前预定比例的像素集合，若集合中像素与集合的主要颜色的颜色距离小于颜色距离阈值(颜色距离阈值是人眼所能感知到颜色的区别时的最小颜色距离)，则基于该像素形成颜色增强对比度极值区域。

步骤107，融合多个通道的颜色增强对比度极值区域，形成滤除冗余像素和噪声的颜色增强对比度极值区域。

通过颜色增强处理并进行融合，能够实现对字幕区域的噪点去除，并分离字幕区域中的字符与背景的效果。

如前所述，示例性地，从以下的多个通道对颜色增强对比度极值区域进行融合：灰度图；基于感知的光照不变PII的色调通道；PII的饱和度通道。由于字幕区域的图像形成的颜色增强度对比度极值区域已经滤除了噪点和背景，因此能够有效滤除字幕区域的图像中消除光照、衣物强干扰背景，以便更好的分离背景与字幕，提升字符识别的效率和精度。

步骤108，对颜色增强对比度极值区域进行字符识别。

由于颜色增强对比度极值区域的图像已经滤除了噪点和背景，因此对图像进行字符识别的难度将显著降低，可以使用相关的字符识别技术对字幕区域进行字符识别。

再结合字幕提取的一个示例进行说明。

从复杂背景的视频文件中定位字幕位置，以及提取出干净的字幕图像。主要包括两个部分的处理：首先进行是视频中字幕定位，其次是将定位到的字幕从复杂的背景中提取出来。

视频字幕定位：根据视频时长提取不同时间点出的视频帧，对这些视频帧做形态学上的Erode、Dilate操作，同时结合左右连通域操作得到该视频帧的字幕区域，对不同时刻的视频帧执行上述的定位的操作，得到视频中一系列的字幕区域的位置，通过众数法，获取准确的视频中字幕区域的准确位置信息。

视频字幕提取：在视频字幕定位完成的基础上，需要将字幕区域的文字与背景信息进行分离，通过帧差法以及SIFT特征匹配算法来区分时域上的字幕信息是否为同一字幕，若为同一字幕，则对同一字幕的字幕区域的图像进行叠加，求均值，以此来消除部分光照、衣服等复杂背景的干扰，另外对均值字幕区域进行颜色过滤，通过融合多通道上字幕区域的CER(对比度极值区域)区域来寻找字幕。最后通过color-enhanced CER来得到最后干净的字幕区域的图像。

图3中服务器10的一个可选的硬件环境如下：

CPU：Genuine Intel(R)@1.73GHz或以上；

内存：1GB或以上；

硬盘：120GB以上。

图3中服务器10的一个可选的软件运行环境如下：

操作系统：64bit的tlinux 1.2以上版本

数据库：redis以及mysql

对服务器10使用上述硬件环境以及软件环境进行字幕提取的处理过程进行说明。

一、定位字幕区域

对视频进行解码得到视频帧，对其图像进行Erode、Dilate操作，再进行左右联调操作得到每个帧的字幕目标区域。通过对同一视频不同时刻取N帧图像进行字幕区域定位，最后对所有的(x1，y1)，(x2，y2)坐标众数，得到最终的文本行高度。视频帧的原始图像，以及对视频帧中的字幕区域定位之后可选的示意图如图5-1和图5-2所示。

在定位视频帧中的字幕区域，也就是字幕的文本行上下边界之后，为消除文字分离过程中强光照、衣物等事物的干扰，使用了视频时域上的帧差法以及SIFT特征匹配来区分两个视频帧中的字幕是否为同一字幕。

利用帧差法判断两个视频帧中是否包括相同字幕的一个可选的流程示意图如图6所示，对于从视频中连续提取的视频帧中的字幕区域，记为文本行图像1和文本行图像2，结合采用两种方式判断文本行图像1和文本行图像2是否为相同的字幕：

方式1)通过比较相邻文本行的像素差值，根据水平投影和垂直投影(一般是对二值图像而用的，水平方向的投影就是每行的非零像素值的个数，在这里就是1或者255，垂直投影就是每列图像数据中非零像素值的个数)来判断文本行图像1和文本行图像2是否为相同的字幕。

方式2)提取文本行1和文本行图像2的SIFT特征进行匹配，根据匹配的结果得到相似度，综合帧差法以及SIFT特征的相似度两者的结果，来综合判断是否为同一字幕，如果是相同的字幕则叠加文本行图像1和文本行图像2并求均值形成新的文本行图像。

后续提取的视频帧中的字幕区域与新的文本行图像重复进行上述的判断处理，以继续叠加相同的文本行图像，直至提取的视频帧中的文本行图像发生变化，针对新的文本行图像继续进行叠加处理。

二、字幕提取

针对每个字幕形成的文本行图像(字幕区域)，构造组件树，提取CER区域。

组件树构造流程图

参见图7示出的组件树的一个可选的结构示意图，(N，i)，(N，i+1)，…，是一串对应汉字“官”(用S表示)的节点/极值区域，且在组件树上从下往上依次嵌套。令S(N，i)，S(N，i+1)，…，分别表示(N，i)，(N，i+1)，…，的面积，则节点(N，i)与其祖先节点(N，i+Δ)的面积变化率为：

R_{Δ S} (n_{i}, n_{i + Δ}) = \frac{s_{n_{i} + Δ -} s_{n_{i}}}{s_{n_{i}}} - - - (1)

面积变化率R_ΔS(n_i,n_i+Δ)可以用来度量节点(N，i)与其邻接背景的对比度。假设字幕区域的图像中某极值区域对应的二值化阈值为level，当减小阈值的时候，该极值区域会往外扩张或者与其他极值区域合并，面积会增大，而R_ΔS(n_i,n_i+Δ)用于描述面积增长速率。极值区域与其邻接背景对比度高，则其往外扩张的面积就会越小，面积增长速率也会越慢。所以R_ΔS(n_i,n_i+Δ)反比于节点n与其邻接背景的对比度，R_ΔS(n_i,n_i+Δ)越大，对比度越低。基于面积变化率，对比极值区域CER可以定义如下。

如果(为常数)，则节点rii就是一个CER。

CER的定义虽然非常简单，但是却有着非常清晰的物理含义：它是一类特殊的极值区域，这些极值区域与它们的邻接背景至少有能被人眼感知到的对比度。CER提取条件的严格与否取决于参数Δ和例如，如果固定参数Δ，越大，则对CER的对比度要求越低，即可以提取出对比度更低的极值区域，所以提取出来的CER的数量就会越多。在实际的自然场景图像中，确实会遇到一些文字区域对比度很低的情况，为了能处理这些情况，Δ和需要设置得较为保守，即对CER的最低对比度要求很低。本发明实施例中上述的参数设定是基于人眼的视觉感知，原则是要求CER的最低对比度能被人眼感知到，通过实验，Δ和分别被设置为3和0.5。通常情况下，从组件树上提取出来的CER的数量会远低于原始组件树上节点的个数，例如对一张百万像素数量级的图像，提取出来的CER通常只有几百到几千个。

一般视频字幕噪点较多，背景和文字融合的情况常常出现，因此还需要针对字幕区域的多个通道对应构造组件树，利用所构造的组件树提取对应每个通道的CER，融合多个通道的CER，对融合的多个通道的CER进颜色增强处理，尽可能滤除CER中的冗余像素或者噪声。增强算法主要包含两个步骤：1)估计CER的主要颜色：2)从CER中提取出颜色跟主要颜色相近的像素组成Color-enhanced CER。

一般来说，噪声像素位于CER的边缘位置，所以其灰度值较小。所以，为了估计某个CERc的主要颜色，可以将C中包含的像素按照其灰度值的大小从大到小排序，令S_med表示C中灰度值排在前50％的像素集合，N_pi为集合S_med中像素的个数，为像素p_i的颜色，F_dc为CERc的主要颜色，则F_dc可以计算为:

F_{d c} = \frac{1}{N_{p i}} \underset{p i &Element; S m e d}{Σ} F_{p i} - - - (2)

像素p_i与主要颜色F_dc相近可定义为:如果颜色距离(T_dc为常数)，则称与F_dc颜色相近。此处描述和F_dc与的最低相似程度，基于人眼感知和实验，T_dc被设为

为了使得图像中更多的文字满足极值区域的定义，在多通道(灰度图，PII的H通道，PII的S通道)上面提取CER，最后融合提取的CER区域，最终达到分离文字和复杂背景的目的。

对从多个通道提取的CER进行融合时涉及到颜色空间变化，下面结合图8示出的颜色空间变化的一个可选的示意图进行说明。

下面是RGB颜色空间到PII颜色空间变换，令向量(Rrgb，Grgb，Brgb)表示RGB颜色空间中某个颜色，(Rrgb，Grgb，Brgb)的取值范围为0到1，如果(Rrgb，Grgb，Brgb)的取值范围不在0到1，则应先线性规整到0到1的区间。接着对(Rrgb，Grgb，Brgb)作如下变换:

C_{l i n e a r} = \{\begin{matrix} \frac{C_{r g b}}{12.92}, C_{r g b} \leq 0.05045 \\ {(\frac{C_{r g b} + a}{1 + a})}^{2.4}, C_{r g b} > 0.05045 \end{matrix} - - - (3)

此处C代表最后对(R_rgb，G_rgb，B_rgb)作如下线性变换:

[\begin{matrix} X \\ Y \\ Z \end{matrix}] = [\begin{matrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \\ 0.0193 & 0.1192 & 0.9505 \end{matrix}] [\begin{matrix} R_{l i n e a r} \\ G_{l i n e a r} \\ B_{l i n e a r} \end{matrix}] - - - (4)

从而得到(Rrgb，Grab.Brgb)在CIE XYZ颜色空间中的值(X，Y，Z)。

接下来令表示CIE XYZ空间中的三刺激值，再令表示从CIEXYZ空间到PII颜色空间的变换方程，则的推导过程可以概括如下:当颜色被投影到某些特定的基向量上的时候，对颜色添加光照的效果等同于对每个颜色通道乘以一个标量系数。此处，用矩阵B表示对特定基的线性变换，光照对颜色的影响可以被写为如下形式:

\overset{&RightArrow;}{x} &RightArrow; B^{- 1} D B \overset{&RightArrow;}{x} - - - (5)

此处D为仅仅与光照相关的对角阵。可以得到如下等式:

F (\overset{&RightArrow;}{x}) - F ({\overset{&RightArrow;}{x}}^{'}) - F (B^{- 1} D B \overset{&RightArrow;}{x}) - F (B^{- 1} D B {\overset{&RightArrow;}{x}}^{'}) - - - (6)

任意两个颜色f在PII空间中的视觉距离应该定义为

d (\overset{&RightArrow;}{x}, {\overset{&RightArrow;}{x}}^{'}) = | | F (\overset{&RightArrow;}{x}) - F ({\overset{&RightArrow;}{x}}^{'}) | | - - - (7)

此处符号||·||表示欧氏距离。

经过推导，可以证明必须有如下形式：

其中A矩阵为训练得到：

B = [\begin{matrix} 2.71 \times 10 & - 2.28 \times 10 & - 1.81 \\ - 5.65 & - 7.72 & 1.29 \times 10 \\ - 4.16 & - 4.58 & - 4.58 \end{matrix}] - - - (9)

其中B矩阵为训练得到：

B = [\begin{matrix} 9.47 \times 10^{- 1} & 2.95 \times 10^{- 1} & - 1.31 \times 10^{- 1} \\ - 1.18 \times 10^{- 1} & 9.93 \times 10^{- 1} & 7.37 \times 10^{- 1} \\ 9.23 \times 10^{- 2} & - 4.65 \times 10^{- 2} & 9.95 \times 10^{- 1} \end{matrix}] - - - (10)

综上，给定RGB颜色空间中任意的颜色向量，(Rrgb，Grgb，Brgb)，先通过公式(16)和(17)将其变换到CIE XYZ颜色空间，再通过公式(21)将其变换到PII颜色空间即可。

可以看出基于上述的字幕提取方案可对视频中任意形式的字幕进行提取从而进行字符识别，示例性地结合应用场景进行说明：

参见图9-1示出的字幕提取的应用场景1)

例如，视频字幕提取完以后，进而进行字符识别，基于对文本形式的字幕进行分析以确定视频的类型、属性等，分析出用户的偏好，随着用户观看视频的数量的累积，可以建立用户的偏好数据库，根据用户的偏好向用户推荐新上线的视频。

再例如，根据视频的文本形式的字幕建立视频的内容索引数据库，根据用户输入的关键字搜索内容与关键字匹配的视频，克服了相关技术仅能够基于视频的类别以及名称进行搜索的缺陷。

参见图9-2示出的字幕提取的应用场景2)

视频的边看边分享功能，用户在观看视频时通过一键识别功能，对当前视频播放界面的字幕进行提取并识别为文本形式，并自动填充到分享感言的对话框中，提升分享操作的流畅度和自动化程度。

对前述字幕提取装置的一个可选的逻辑功能结构进行说明，参见图示出的字幕提取装置的一个可选的逻辑功能结构示意图，需要指出的是，图示出的字幕提取装置的逻辑功能结构仅仅是是示例性地，基于图示出的逻辑功能结构，本领域技术人员可以其中的单元进行进一步合并或者拆分，从而对字幕提取装置的逻辑功能结构进行各种变形。

在图10中，字幕提取装置包括：

解码单元110，用于对视频解码得到视频帧；

连通单元120，用于对视频帧中的像素进行字幕排布方向的连通操作，得到视频帧中的连通域；

定位单元130，用于基于视频帧中的连通域确定包括相同字幕的视频帧，并基于包括相同字幕的视频帧中连通域的分布位置，确定包括相同字幕的视频帧中的字幕区域；

提取单元140，用于针对字幕区域的多个通道对应构造组件树，利用所构造的组件树提取对应每个通道的对比度极值区域；

增强单元150，用于对融合的多个通道的对比度极值区域进行颜色增强处理，形成滤除冗余像素和噪声的颜色增强对比度极值区域；

融合单元160，用于融合多个通道的对比度极值区域。

在一个实施例中，连通单元120，还用于根据视频的时长提取不同时间点的视频帧，对所提取的视频帧进行腐蚀和/或扩张操作；对进行腐蚀和/或扩张操作后的视频帧进行左向和右向的连通操作。

例如，连通单元120根据视频的时长采样不同时间点的视频帧，例如，基于视频的帧速率对应提取不同时间点的视频帧，为了避免遗漏某一视频帧中的字幕，抽取视频时的采样速率大于视频的帧速率。对于所提取的视频帧中的像素进行腐蚀和/或扩张操作，对于进行腐蚀和/或扩张操作后的视频帧进行与字幕排布方向的连通操作，通常，字幕在视频中以从左至右的方向排布，因此对视频帧中的像素进行左向和右向的连通操作。使得视频帧中字幕区域的字符能够形成一个连通域。当然，如果预知视频中字幕的排布方向与常规的排布方向不同，可以针对视频的字幕排布方向有针对性地进行连通操作。

在一个实施例中，定位单元130，还用于对所提取的相邻的视频帧中连通域的像素作差，若差值低于差值阈值，则判定所提取的相邻的视频帧包括相同的字幕，若差值高于差值阈值，则判定所提取的相邻的视频帧包括不同的字幕。

例如，对所提取的相邻的视频帧中连通域(连通域与文本行形式的字幕对应)的像素作差，例如在RGB空间的不同通道的差值，或在PII空间的不同通道的差值；若差值低于差值阈值，则说明相邻视频帧中连通域的像素的差异过大，而相邻视频帧中连通区域的字幕如果相同则像素的差值必然很小(低于差值阈值)，因此，判定所提取的相邻的视频帧包括相同的字幕，若差值高于差值阈值，则判定所提取的相邻的视频帧包括不同的字幕。

在一个实施例中，定位单元130，还用于对所提取的相邻的视频帧中连通域提取特征点，若相邻的视频帧中连通域中提取的特征点匹配，则判定所提取的相邻的视频帧包括相同的字幕，若不匹配，则判定所提取的相邻的视频帧包括不同的字幕。

例如，对于所提取的在时间上相邻的视频帧中的连通域，基于尺度不变特征转换特征匹配算法从相应连通域中提取特征点，由于所提取的特征点具有不因位置、尺度和旋转而改变的特点，因此，如果相邻视频帧中的字幕相同，则从相邻视频帧中连通域提取的特征点必然是匹配的，相应地，通过相邻是视频帧中连通域的特征点是否匹配，可以判断相邻视频帧是否包括相同的字幕。

在一个实施例中，定位单元130，还用于确定包括相同字幕的各视频帧中连通域的边缘区域的分布位置的出现次数，并确定出现次数最多的分布位置形成的区域为字幕区域。

例如，对于包括相同字幕的视频帧中连通域的分布位置(这里的分布位置是指连通域的边缘区域的分布位置)，确定相应分布位置的分布集中趋势特征，例如，基于众数法、中位数法或均值法确定分布位置的分布趋势特征。

在一个实施例中，增强单元150，还用于采用以下方式确定每个通道的对比度极值区域：从以下每个通道对视频帧的字幕区域对应构造由嵌套的节点形成的组件树：灰度图；基于感知的光照不变PII的色调通道；PII的饱和度通道；其中，组件树的节点与字幕区域的字符对应。当节点的面积变化率相对于邻接节点的面积变化率的小于面积变化率阈值时，则确定节点属于相应通道的对比度极值区域。

例如，将字幕区域中的像素按照灰度值的大小从大到小排序，取灰度值排在前预定比例的像素集合，若集合中像素与集合的主要颜色的颜色距离小于颜色距离阈值(颜色距离阈值是人眼所能感知到颜色的区别时的最小颜色距离)，则基于该像素形成颜色增强对比度极值区域，基于该像素形成颜色增强对比度极值区域。通过颜色增强处理，能够实现对字幕区域的噪点去除，并分离字幕区域中的字符与背景的效果。

在一个实施例中，对于每个通道的对比度极值区域，增强单元150，还用于采用以下方式形成相应通道的颜色增强对比度极值区域：确定每个通道的对比度极值区域的主要颜色；从每个通道的对比度极值区域中提取出跟主要颜色相似程度满足预设条件的像素，基于所提取的像素组成相应通道的颜色增强对比度极值区域。

在一个实施例中，参加图10，字幕提取装置10还包括：

识别单元170，用于对颜色增强对比度极值区域进行字符识别；

响应单元180，用于对所识别出的文本响应视频搜索、视频推荐、视频标记分类和字幕分享至少之一的操作。

又例如，视频的边看边分享功能，用户在观看视频时通过一键识别功能，对当前视频播放界面的字幕进行提取并识别为文本形式，并自动填充到分享感言的对话框中，提升分享操作的流畅度和自动化程度。

综上，本发明实施例具有以下有益效果：

从视频帧中提取对应字幕的连通域，由于是从加载有字幕的视频帧层面进行包括字幕的潜在区域(连通区域)的提取，因此对于任意形式的字幕都能够提取字幕区域(与连通域对应的图像)，不受视频使用何种形式的字幕的影响；

从多个通道利用颜色增强的方式对从字幕区域提取的对比度极值区域进行调整，有效滤除字幕区域的图像中的噪点和背景，降低了后续从字幕区域识别字符的难度，有利于提升后续字符识别的效率和精度；

通过提取视频字幕，方便后面对字幕进行识别，识别的字幕信息会用于做视频个性化推荐，即是通过分析视频字幕来了解视频属性，根据视频内容属性进行推荐；另外提取出来的视频字幕可以用于基于视频内容的搜索，方便用户寻找自己想要的视频。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种字幕提取方法，其特征在于，所述方法包括：

融合多个通道的颜色增强对比度极值区域。

2.如权利要求1所述的方法，其特征在于，所述对所述视频帧中的像素进行字幕排布方向的连通操作，包括：

根据所述视频的时长提取不同时间点的视频帧，对所提取的视频帧进行腐蚀和/或扩张操作；

对进行腐蚀和/或扩张操作后的视频帧进行左向和右向的连通操作。

3.如权利要求1所述的方法，其特征在于，所述基于所述视频帧中的连通域确定包括相同字幕的视频帧，包括：

对所提取的相邻的视频帧中连通域的像素作差，若差值低于差值阈值，则判定所提取的相邻的视频帧包括相同的字幕，若所述差值高于所述差值阈值，则判定所提取的相邻的视频帧包括不同的字幕。

4.如权利要求1所述的方法，其特征在于，所述基于所述视频帧中的连通域确定包括相同字幕的视频帧，包括：

对所提取的相邻的视频帧中连通域提取特征点，若相邻的视频帧中连通域中提取的特征点匹配，则判定所提取的相邻的视频帧包括相同的字幕，若不匹配，则判定所提取的相邻的视频帧包括不同的字幕。

5.如权利要求1所述的方法，其特征在于，所述基于所述包括相同字幕的视频帧中的连通域的分布位置，确定所述包括相同字幕的视频帧中的字幕区域，包括：

在所述包括相同字幕的各视频帧中，确定连通域的边缘区域的不同分布位置分别出现的次数，并确定出现次数最多的所述分布位置形成的区域为所述字幕区域。

6.如权利要求1所述的方法，其特征在于，所述针对所述字幕区域的多个通道对应构造组件树，利用所构造的组件树提取对应每个通道的对比度极值区域，包括：

从以下通道对所述视频帧的字幕区域对应构造由嵌套的节点形成的组件树：

灰度图；基于感知的光照不变PII的色调通道；PII的饱和度通道；其中，所述组件树的节点与所述字幕区域的字符对应；

当所述节点的面积变化率相对于邻接节点的面积变化率的小于面积变化率阈值时，则确定所述节点属于相应通道的对比度极值区域。

7.如权利要求1所述的方法，其特征在于，所述对所述多个通道的对比度极值区域进行颜色增强处理，形成颜色增强对比度极值区域，包括：

确定每个通道的对比度极值区域的主要颜色；

从每个通道的对比度极值区域中提取出跟所述主要颜色相似程度满足预设条件的像素，基于所提取的像素组成相应通道的颜色增强对比度极值区域。

8.如权利要求1所述的方法，其特征在于，所述方法还包括：

对所述融合的颜色增强对比度极值区域进行文本识别；

对所识别出的文本响应视频搜索、视频推荐、视频标记分类和字幕分享至少之一的操作。

9.一种字幕提取装置，其特征在于，所述装置包括：

解码单元，用于对视频解码得到视频帧；

融合单元，用于融合多个通道的对比度极值区域。

10.如权利要求9所述的装置，其特征在于，

所述连通单元，还用于根据所述视频的时长提取不同时间点的视频帧，对所提取的视频帧进行腐蚀和/或扩张操作；对进行腐蚀和/或扩张操作后的视频帧进行左向和右向的连通操作。

11.如权利要求9所述的装置，其特征在于，

所述定位单元，还用于对所提取的相邻的视频帧中连通域的像素作差，若差值低于差值阈值，则判定所提取的相邻的视频帧包括相同的字幕，若所述差值高于所述差值阈值，则判定所提取的相邻的视频帧包括不同的字幕。

12.如权利要求9所述的装置，其特征在于，

所述定位单元，还用于对所提取的相邻的视频帧中连通域提取特征点，若相邻的视频帧中连通域中提取的特征点匹配，则判定所提取的相邻的视频帧包括相同的字幕，若不匹配，则判定所提取的相邻的视频帧包括不同的字幕。

13.如权利要求9所述的装置，其特征在于，

所述定位单元，还用于在所述包括相同字幕的各视频帧中，确定连通域的边缘区域的不同分布位置分别出现的次数，并确定出现次数最多的所述分布位置形成的区域为所述字幕区域。

14.如权利要求9所述的装置，其特征在于，

所述增强单元，还用于从以下通道对所述视频帧的字幕区域对应构造由嵌套的节点形成的组件树：

当所述节点的面积变化率相对于邻接节点的面积变化率的小于面积变化率阈值时，确定所述节点属于相应通道的对比度极值区域。

15.如权利要求9所述的装置，其特征在于，

所述增强单元，还用于确定每个通道的对比度极值区域的主要颜色；从每个通道的对比度极值区域中提取出跟所述主要颜色相似程度满足预设条件的像素，基于所提取的像素组成相应通道的颜色增强对比度极值区域。

16.如权利要求9所述的装置，其特征在于，所述装置还包括：

识别单元，用于对所述融合的颜色增强对比度极值区域进行文本识别；

响应单元，用于对所识别出的文本响应视频搜索、视频推荐、视频标记分类和字幕分享至少之一的操作。