CN112925905A

CN112925905A - 提取视频字幕的方法、装置、电子设备和存储介质

Info

Publication number: CN112925905A
Application number: CN202110117737.1A
Authority: CN
Inventors: 王思博
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-06-08
Anticipated expiration: 2041-01-28
Also published as: CN112925905B

Abstract

本申请公开了一种提取视频字幕的方法、装置、电子设备和存储介质。用于解决对如何从视频中准确的提取关键字幕的问题。本申请实施例中，通过对视频进行文本检测，能够得到多个文本区域，基于对多个文本区域的特征分析和聚类分析，能够进一步挑选出重要的文本区域，从而提取出视频中的重要字幕信息。

Description

提取视频字幕的方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种提取视频字幕的方法、装置、电子设备和存储介质。

背景技术

随着社会的发展，越来越多的人们选择短视频作为传递信息的媒介。很多用户也喜欢在视频中添加字幕来传递信息。在一些业务场景下，需要提取出视频中的字幕。

然而视频中的字幕位置不统一，且风格多变，如何从视频中准确的提取关键字幕成为业界关注的问题。

发明内容

本申请的目的是提供一种提取视频字幕的方法、装置、电子设备和存储介质，用于解决如何从视频中准确的提取关键字幕的问题。

第一方面，本申请实施例提供了一种提取视频字幕的方法，包括：

对视频中的多帧图像分别进行文本检测，得到含有文本信息的文本帧；其中所述文本信息包括所述文本帧内各文本区域以及各所述文本区域对应的文本内容；

若检测到多个文本区域，则对所述多个文本区域分别进行特征提取，得到每个文本区域的特征信息；

基于所述特征信息将所述多个文本区域划分出至少一个类别，且针对每个类别分别执行：基于所述类别内不同文本帧的文本内容将所述类别划分出至少一个子类别；且若所述类别内包括的子类别数量大于预设子类别数量阈值，则将所述类别内的各文本区域对应的文本内容作为从所述视频中提取出的字幕内容。

在一个实施例中，根据所述特征信息对所述多个文本区域进行第一聚类分析操作，得到至少一个类别；包括：

基于各所述文本区域的所述特征信息进行第一聚类分析操作，对所述多个文本区域进行分类，得到至少一个类别；

所述基于所述类别内不同文本帧的文本内容将所述类别划分出至少一个子类别，包括：

通过第二聚类分析操作对所述类别内不同文本帧的文本内容进行分类，得到所述类别包括的至少一个子类别。

在一个实施例中，所述根据所述特征信息对所述多个文本区域进行第一聚类分析操作之前，所述方法还包括：

将每个所述文本区域的尺寸缩放到指定尺寸；

提取每个所述文本区域的色彩特征作为所述特征信息。

在一个实施例中，所述提取每个所述文本区域的色彩特征作为所述特征信息，包括：

针对每个文本区域，将所述文本区域转化为灰度直方图；

确定所述灰度直方图中不同区间的像素点数；

根据不同区间的像素点数构建特征向量作为所述特征信息。

在一个实施例中，所述根据所述特征信息对所述多个文本区域进行第一聚类分析操作，得到至少一个类别之后，所述方法还包括：

若任一类别内包括的文本区域数量少于文本区域数量预设值，则将所述类别剔除。

在一个实施例中，每个文本区域均具有对应的帧标识，所述对所述类别内不同文本帧的文本内容进行第二聚类分析操作，得到所述类别包括的子类别，包括：

获取所述类别内各所述文本区域对应的帧标识；

将属于同一帧标识的多个文本区域的文本内容，按照各文本区域在对应文本图像中的位置信息进行拼接，得到各所述文本帧的文本内容；

对所述类别内的任意两文本帧，确定所述任意两文本帧的文本内容相似度；

若所述文本内容相似度大于相似度预设值，则所述任意两文本帧划分到同一个子类别。

在一个实施例中，所述预设子类别数量阈值与抽帧密度和字幕变化率成正比。

在一个实施例中，所述对视频中的多帧图像分别进行文本检测，包括：

对所述视频进行抽帧处理，得到所述多帧图像；

对所述多帧图像中的每帧图像分别进行采用光学字符识别OCR，得到所述含有文本信息的文本帧。

在一个实施例中，所述文本区域数量预设值与抽帧密度和字幕变化率成正比。

在一个实施例中，所述对视频中的多帧图像分别进行文本检测之后，所述方法还包括：

若检测到一个文本区域，则确定所述视频为不包含字幕的视频。

第二方面本申请还提供了一种提取视频字幕的装置，所述装置包括：

文本检测模块，被配置为对视频中的多帧图像分别进行文本检测，得到含有文本信息的文本帧；其中所述文本信息包括所述文本帧内各文本区域以及各所述文本区域对应的文本内容；

特征提取模块，被配置为若检测到多个文本区域，则对所述多个文本区域分别进行特征提取，得到每个文本区域的特征信息；

分类模块，被配置为基于所述特征信息将所述多个文本区域划分出至少一个类别，且针对每个类别分别执行：基于所述类别内不同文本帧的文本内容将所述类别划分出至少一个子类别；且若所述类别内包括的子类别数量大于预设子类别数量阈值，则将所述类别内的各文本区域对应的文本内容作为从所述视频中提取出的字幕内容。

在一个实施例中，所述分类模块，包括：

第一聚类分析单元，基于各所述文本区域的所述特征信息进行第一聚类分析操作，对所述多个文本区域进行分类，得到至少一个类别；所述基于所述类别内不同文本帧的文本内容将所述类别划分出至少一个子类别，包括：

第二聚类分析单元，通过第二聚类分析操作对所述类别内不同文本帧的文本内容进行分类，得到所述类别包括的至少一个子类别。

在一个实施例中，所述第一聚类分析单元执行所述根据所述特征信息对所述多个文本区域进行第一聚类分析操作之前，所述装置还包括：

尺寸缩放模块，被配置为将每个所述文本区域的尺寸缩放到指定尺寸；

色彩特征提取模块，被配置为提取每个所述文本区域的色彩特征作为所述特征信息。

在一个实施例中，所述色彩特征提取模块，被配置为：

针对每个文本区域，将所述文本区域转化为灰度直方图；

确定所述灰度直方图中不同区间的像素点数；

根据不同区间的像素点数构建特征向量作为所述特征信息。

在一个实施例中，所述第一聚类分析单元执行根据所述特征信息对所述多个文本区域进行第一聚类分析操作，得到至少一个类别之后，所述装置被配置为：

在一个实施例中，每个文本区域均具有对应的帧标识，所述第二聚类分析单元，被配置为：

获取所述类别内各所述文本区域对应的帧标识；

在一个实施例中，所述文本检测模块，包括：

抽帧单元，被配置为对所述视频进行抽帧处理，得到所述多帧图像；

识别单元，被配置为对所述多帧图像中的每帧图像分别进行采用光学字符识别OCR，得到所述含有文本信息的文本帧。

在一个实施例中，所述文本检测模块执行对视频中的多帧图像分别进行文本检测之后，所述装置还包括：

不包含字幕视频确定模块，被配置为若检测到一个文本区域，则确定所述视频为不包含字幕的视频。

第三方面，本申请另一实施例还提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例提供的提取视频字幕的方法。

第四方面，本申请另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行本申请实施例中的提取视频字幕的方法。

本申请实施例中，采用光学字符识别(OCR,Optical Character Recognition)技术对视频中的多帧图像分别进行文本检测，并对得到的文本区域进行特征提取，并对提取后的特征信息进行聚类分析，可以准确的将字幕从视频中提取出来。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的提取视频字幕的方法的应用场景图；

图2为本申请实施例提供的提取视频字幕的方法的流程图；

图3为本申请实施例提供的提取视频字幕的方法中多个文本区域对应一个帧号的示意图；

图4为本申请实施例提供的提取视频字幕的方法中筛选文本区域的示意图；

图5为本申请实施例提供的提取视频字幕的方法的提取每个文本区域的色彩特征作为特征信息的具体实施流程图；

图6为本申请实施例提供的提取视频字幕的方法的获取子类别的流程图；

图7A为本申请实施例提供的提取视频字幕的方法的文本区域示意图；

图7B为本申请实施例提供的提取视频字幕的方法的文本区域拼接示意图；

图8为本申请实施例提供的提取视频字幕的方法的整体流程示意图；

图9为本申请实施例提供的提取视频字幕的方法的装置图；

图10为本申请实施例提供的提取视频字幕的方法的电子设备图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

发明人研究发现，短视频作者的编辑习惯不同于传统的视频制作者，编辑的字幕大部分不具有固定位置，会出现在视频上的任意位置，这使得依赖位置对字幕进行判断提取的策略无法应用。如何从视频中准确的提取字关键幕成为急需解决的问题。

有鉴于此，本申请提出了一种提取视频字幕的方法、装置、电子设备和存储介质，用于解决上述问题。本申请的发明构思可概括为：短视频具有内容多变的特点，有些短视频实际不含有字幕但是也会含有一些字符信息，例如背景图中存在文字涂鸦或广告牌，则单纯的采用针对图像的字符识别技术，这些并非字幕的字符信息也很容易被认定为字幕。故此，本申请为了提高字幕提取的准确性，采用分类思想能够有效的提取字幕信息。也即通过背景图中的文本和真实字幕存在特征差别的基础上，通过分类识别能够筛选出存在字幕的区域，从而准确的提取出关键字幕信息。

如图1所示，为本申请实施例中的提取视频字幕的方法的应用场景图。图中包括：终端设备101、服务器102、网络103、存储器104；

终端设备101上传视频，并通过服务器102存储到存储器104中，本申请实施例中的提取视频字幕的装置安装在服务器102中，具体应用时，从存储器104中获取视频，并在服务器102中进行字幕提取。

在一些实施例中，服务器不仅可以对通过终端上传的视频进行字幕提取，还可对轻应用等其他方式上传的视频进行字幕提取，本申请对此不作限定。

为了便于理解，下面对本申请实施例提出的一种提取视频字幕的方法的整体流程进行详细说明。

如图2所示，为本申请实施例提供的一种提取视频字幕的方法的流程示意图，包括以下步骤：

实施时，可以根据实际需求从视频中选择出一些帧图像进行文本检测。例如，若需要将视频中所有字幕内容都提取出来，则将视频中所有帧图像作为需要提取字幕的图像，若需要对视频中字幕的关键信息进行提取，则可以对视频进行抽帧处理得到需要检测字幕的图像以此降低对计算资源的消耗。实施时，可以根据视频的长度确定抽帧密度(即对视频的采样率)，例如，视频长度越长抽帧密度可以越大也可以越小。抽帧时可以等间隔抽帧，也可以非等间隔抽帧均适用于本申请实施例。

在确定视频中需要提取字幕的多帧图像之后，可以在步骤201中：对视频中的多帧图像分别进行文本检测，得到含有文本信息的文本帧；其中文本信息包括文本帧内各文本区域以及各文本区域对应的文本内容；

实施时，可以采用基于深度学习的神经网络对每帧图像进行字符识别，得到文本帧及其对应的文本信息。

通过神经网络识别文本帧及其对应的文本信息，需要采集训练样本和训练神经网络模型，且神经网络模型的计算能够对处理资源的处理能力具有一定要求。故此，实施时，为了缩短时间成本和对处理资源的消耗，可以采用光学字符识别(OCR,Optical CharacterRecognition)对每帧图像进行处理，得到含有文本信息的文本帧。

在得到文本帧及其对应的文本信息之后，可以先分析获得的文本区域的数量，若获得的文本区域数量较少例如一个文本区域时，则说明视频为字幕视频的可能性较小，可以确定该视频为不包含字幕的视频，而不继续进行后续的处理操作。

当获得多个文本区域时，可以如表1所示，建立文本帧、字符区域和文本信息之间的对应关系。如表1所示，文本帧都有对应的帧标识(如帧号)用于唯一标识视频中的一帧图像。此外，一个文本帧中可识别出多个文本区域，例如，如图3所示，文本区域A、文本区域B、文本区域C均对应帧号1；采用OCR识别技术，一行文字可以为一个文本区域。多个文本区域共同对应同一帧标识，每个文本区域都有对应识别出的文本信息。

表1

帧号	1	1	4	5
					文本帧	文本区域B	文本区域C	文本区域D	文本区域E

后续基于表1所示的对应关系，可以通过聚类分析，筛选出属于字幕的文本区域。例如，如图4所示，不同帧图像的背景相同，字幕内容不同。背景中有涂鸦的文字，字幕内容虽然不同但是不同帧的字幕区域存在相同或相似特征，但字幕区域与背景区域特征不同。故此，可以在步骤202中：若检测到多个文本区域，则对多个文本区域分别进行特征提取，得到每个文本区域的特征信息；然后，在步骤203中：根据特征信息对多个文本区域进行第一聚类分析操作，得到至少一个类别。

基于步骤202和步骤203的第一聚类分析操作，尽可能的将相同特征的文本区域划分为同一类别，例如将图4中背景文本区域划分为同一类别，将图4中字幕区域划分为同一类别。

实施时，第一聚类分析操作所采用的特征信息，可以是神经网络对各个文本区域提取的特征，也可以是简单容易实现的图像处理方法得到特征，例如纹理特征、梯度特征和色彩特征等。以色彩特征为例，由于每个文本区域的大小不同，为例避免文本区域的尺寸大小带来的影响，可以先将每个文本区域的尺寸缩放到指定尺寸；然后提取每个文本区域的色彩特征。色彩特征可以是色彩的种类，也可以是色彩分布特征。实施时，每个文本区域可以分别提取每个颜色通道(例如RGB通道各个通道的色彩分布作为色彩特征)，也可以为了简化计算，统计灰度直方图的色彩分布。

为了便于采用合适的量化处理方法构建合适的特征信息来进行聚类分析。在使用灰度直方图时，可以对灰度直方图的整个取值范围划分为多个区间。如图5所示，针对每个文本区域，在步骤501中能够将文本区域转化为灰度直方图之后，在步骤502中，确定灰度直方图中不同区间的像素点数；然后，在步骤503中，根据不同区间的像素点数构建特征向量作为特征信息。

例如：将文本区域转化为灰度直方图后总像素点的取值范围为[0,255]，将其分为3个区间，每个区间为一个维度。例如三个区间分别为：[0,100],[101,200],[201,255]；则确定这三个区间的像素点数，例如：[0,100]有x个像素点,[101,200]有y个像素点,[201,255]有z个像素点；则该文本区域的特征向量为(x,y,z)；并将该特征向量作为特征信息，以便后续根据特征信息对不同文本区域进行第一聚类分析操作，得到至少一个类别。

为了能够尽可能的筛选出字幕区域，本申请实施例中，可以对每个类别中含有的文本区域数量进行分析。若文本区域数量较少，说明该类别包括的文本信息量少，为非字幕区域概率较大，故此，若任一类别内包括的文本区域数量少于文本区域数量预设值，则将该类别剔除，从而尽可能保留字幕区域。当然，对于字幕内容很少的视频也可以采用该方法剔除掉不需要处理的视频。

需要说明的是，作为判定阈值的文本区域数量预设值可以根据经验值确定，以此来筛选符合要求的文本区域。实施时，文本区域数量预设值可以根据抽帧密度和字幕变化率确定，例如可以和抽帧密度和字幕变化率均成正比。

对于剩余的类别，即若任一类别内包括的文本区域数量大于文本区域数量预设值，则对该类别可执行后续的步骤204和205以进一步确定出字幕内容，其中，为了进一步准确的确定该类别的文本区域是否为字幕区域，可以在步骤204中：对该类别内不同文本帧的文本内容进行第二聚类分析操作，得到类别包括的子类别；然后在步骤205中：若该类别包括的子类别数量大于预设子类别数量阈值，则将该类别内的各文本区域对应的文本内容作为从视频中提取出的字幕内容。

可理解为，基于步骤204的第二聚类分析操作，可进一步筛选出字符内容丰富的字幕区域，字符内容丰富可理解为字符内容多，表达的语义丰富等特点。

故此，进行第二聚类分析操作时，如图6所述，可包括以下步骤，针对任一类别，在步骤601中，获取类别内各文本区域对应的帧标识；然后在步骤602中：将属于同一帧标识的多个文本区域的文本内容，按照各文本区域在对应文本图像中的位置信息进行拼接，得到各文本帧的文本内容。

如图7A所示，文本区域A，文本区域B，文本区域C均属于第一帧；且在对应文本图像中的位置信息如图7B所示；则将文本区域A，文本区域B，文本区域C拼接成如图7B所示。

在步骤603中：对类别内的任意两文本帧，确定任意两文本帧的文本内容相似度；

文本内容相似度的分析，可以实施为对每帧文本帧的语义进行分析，得到不同文本帧之间的语义差别，根据语义相似度进行聚类分析，从而找出语义内容丰富的类别。实施时，语义分析可以采用自然语言处理技术，如自然语言处理的神经网络模型来识别。

在另一个实施例中，还采用字符串编辑距离算法计算任意两文本帧的文本内容相似度。即，只要能够衡量文本内容相似的方法均适用于本申请实施例。

基于文本内容相似度，可以在步骤604中：若文本内容相似度大于相似度预设值，则任意两文本帧划分到同一个子类别，也即，一个类别代表了一种类型的文本，从而实现对同一类别内文本内容多样性的分析。然后，可以筛选内容丰富的类别作为最终要提取的字幕内容。这样，提取的字幕内容是视频中文本信息量大，能够准确传达文本语义意图的字幕，可以用户后续的业务场景需求。例如提取视频关键词，对视频进行分类等。在一个实施例中，若类别包括的子类别数量小于预设子类别数量阈值，则将该子类别所属的类别剔除。以便于提出不重要的或者很大可能不是字幕内容的文本区域。类似的，本申请实施例中预设子类别数量阈值和文本区域数量预设值均与抽帧密度和字幕变化率可成正比。

为了便于理解本申请实施例提供的提取视频字幕的方法，下面举例说明，如图8所示，图包括：视频帧801-808，文本区域809-815；

对视频中的多帧图像801-808分别进行文本检测，得到含有文本信息的文本帧801-807；其中文本信息包括文本帧内各文本区域以及各文本区域对应的文本内容；

将文本区域转化为灰度直方图，根据灰度直方图对多个文本区域809-815分别进行特征提取，得到每个文本区域的特征信息；根据特征信息采用密度聚类算法对多个文本区域进行聚类分析，例如，如图1中所示，将801-804分为第一类，805-807分为第二类；针对每个类别，分别执行：采用字符串编辑距离对类别内不同文本帧的文本内容进行相似度分组，得到类别包括的子类别，例如根据文本信息将第一类中的809-811分为第一子类别，将812分为第二子类别；将第二类中的813分为第三子类别，814-815分为第四子类别；类别包括的子类别数量大于预设子类别数量阈值，则将所述类别内的各文本区域对应的文本内容作为从所述视频中提取出的字幕内容，例如：预设子类别数量为1，则提取第一类和第二类中的文本区域对应的文本内容作为提取出的字幕内容。

如图9所示，基于相同的发明构思，提出一种提取视频字幕装置900，包括：

文本检测模块901，被配置为对视频中的多帧图像分别进行文本检测，得到含有文本信息的文本帧；其中所述文本信息包括所述文本帧内各文本区域以及各所述文本区域对应的文本内容；

特征提取模块902，被配置为若检测到多个文本区域，则对所述多个文本区域分别进行特征提取，得到每个文本区域的特征信息；

第一聚类分析模块903，被配置为根据所述特征信息对所述多个文本区域进行第一聚类分析操作，得到至少一个类别；针对每个类别，分别执行：

第二聚类分析模块904，被配置为对所述类别内不同文本帧的文本内容进行第二聚类分析操作，得到所述类别包括的子类别；

字幕提取模块905，被配置为若所述类别包括的子类别数量大于预设子类别数量阈值，则将所述类别内的各文本区域对应的文本内容作为从所述视频中提取出的字幕内容。

在介绍了本申请示例性实施方式的提取视频字幕方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的提取视频字幕方法中的步骤。

下面参照图10来描述根据本申请的这种实施方式的电子设备130。图10显示的电子设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的一种提取视频字幕方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种提取视频字幕方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于提取视频字幕的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种提取视频字幕的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述特征信息将所述多个文本区域划分出至少一个类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述特征信息对所述多个文本区域进行第一聚类分析操作之前，所述方法还包括：

将每个所述文本区域的尺寸缩放到指定尺寸；

提取每个所述文本区域的色彩特征作为所述特征信息。

4.据权利要求3所述的方法，其特征在于，所述提取每个所述文本区域的色彩特征作为所述特征信息，包括：

针对每个文本区域，将所述文本区域转化为灰度直方图；

确定所述灰度直方图中不同区间的像素点数；

根据不同区间的像素点数构建特征向量作为所述特征信息。

5.根据权利要求2所述的方法，其特征在于，每个文本区域均具有对应的帧标识，所述对所述类别内不同文本帧的文本内容进行第二聚类分析操作，得到所述类别包括的子类别，包括：

获取所述类别内各所述文本区域对应的帧标识；

6.根据权利要求1所述的方法，其特征在于，所述对视频中的多帧图像分别进行文本检测，包括：

对所述视频进行抽帧处理，得到所述多帧图像；

7.根据权利要求1-6中任一所述的方法，其特征在于，所述对视频中的多帧图像分别进行文本检测之后，所述方法还包括：

8.一种提取视频字幕的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任何一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行权利要求1-7任何一项所述的方法。