CN111444823A

CN111444823A - 处理视频数据的方法、装置、计算机设备和存储介质

Info

Publication number: CN111444823A
Application number: CN202010216200.6A
Authority: CN
Inventors: 王晨旭
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-07-24

Abstract

本申请涉及一种处理视频数据的方法、装置、计算机设备和存储介质。所述方法包括：获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息；获取当前视频的台词区域信息，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的；根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。通过当前视频中的多个视频帧自适应确定出台词区域，采用自适应确定的台词区域对识别到的文本区域进行筛选，不同视频中的台词区域存在差异，直接根据同一视频中的多个视频帧确定的台词区域进行台词定位，提高了定位的准确度，从而提高台词区域的检测准确度。

Description

处理视频数据的方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种处理视频数据的方法、装置、计算机设备和存储介质。

背景技术

在文本搜索，文本翻译等应用场景中，需要首先对视频中的目标区域的文本区域进行提取，以便后续进行ocr识别和翻译。目前的文本检测算法是通过直接检测预先设置的视频区域中的文本信息，将处于该位置上的文本信息作为目标文本，但是，视频中除了目标文本所在区域外，还会有多处文本区域，文本检测算法直接检测出文本，会导致检测出来的区域可能包含非目标区域的文本信息，从而降低检测结果的准确度。

发明内容

为了解决上述技术问题，本申请提供了一种处理视频数据的方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种处理视频数据的方法，包括：

获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息；

获取当前视频的台词区域信息，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的；

根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。

第二方面，本申请提供了一种处理视频数据的装置，包括：

文本检测模块，用于获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息；

信息获取模块，用于获取当前视频的台词区域信息，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的；

区域确定模块，用于根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述处理视频数据的方法、装置、计算机设备和存储介质，所述方法包括：获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息；获取当前视频的台词区域信息，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的；根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。通过当前视频中的多个视频序列帧自适应确定出台词区域，采用自适应确定的台词区域对识别到的文本区域进行筛选，不同视频中的台词区域存在差异，直接根据同一视频中的多个视频序列帧确定的台词区域进行台词定位，提高了定位的准确度，从而提高台词区域的检测准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中处理视频数据的方法的应用环境图；

图2为一个实施例中处理视频数据的方法的流程示意图；

图3为一个实施例中处理视频数据的装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一个实施例中处理视频数据的方法的应用环境图。参照图1，该处理视频数据的方法应用于处理视频数据的系统。该处理视频数据的系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110或服务器120获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息；获取当前视频的台词区域信息，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的；根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。

其中，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种处理视频数据的方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2，该处理视频数据的方法具体包括如下步骤：

步骤S201，获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息。

具体地，当前视频是指正在处理的视频数据，当前视频可以为一部电视剧，也可以为一部电视剧中的一集，还可以是一部电影等等视频数据。当前帧是指正在处理的视频数据的视频帧，当检测到当前视频帧中存在文本区域时，得到文本区域的信息，即文本区域信息。文本区域信息包括文本区域的大小、位置等等信息。

在一个实施例中，视频帧中可能也可能不存在文本区域，对于未检测到文本信息的视频帧时，获取下一个视频帧，对下一个图像帧进行文本检测。

步骤S202，获取当前视频的台词区域信息。

在本具体实施例中，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的。

步骤S203，根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。

具体地，对当前视频中的多个视频帧的文本区域信息进行筛选，在筛选时，对多个视频序列帧进行累加，对累积得到的视频帧进行区域筛选，得到台词区域，台词区域对应的信息为台词区域信息，台词区域信息包括区域大小、区域所在位置，其中位置可以用行和列的坐标表示。直接通过当前视频的多个视频序列帧的检测得到的文本区域自适应确定台词区域信息，可以得到较准确的台词区域。且视频序列帧可以是整个视频的序列帧，也可以是整个视频中的部分数据的序列帧。台词可以为电影的字幕、电视剧的字幕、或音乐片段的歌词等等。

根据当前视频的多个视频序列帧确定的台词区域信息，对当前视频帧的各个文本区域信息进行匹配，将匹配的文本区域信息作为目标文本区域信息，识别目标文本区域信息对应的文本区域中的字符，得到台词。采用台词区域信息对各个文本区域信息进行匹配时，可以直接根据文本区域信息中的位置信息、文本区域信息的高度信息和宽度信息等等中的一个或多个信息进行区域筛选，对于不满足位置信息、高度信息或宽度信息中的一个或多个信息的文本区域直接排除，直到确定出一个目标文本区域，将目标文本区域的信息作为目标文本区域信息。如对于文本区域中高度值太小，或文本区域所在的位置不在特定位置时，表示文本区域不是台词所在的区域，为视频数据中的其他文本信息所在的区域，可以直接排除不满足位置信息或高度、宽度等等参数的区域。

在一个实施例中，通过上述台词区域信息进行文本区域信息的匹配，当未存在匹配的文本区域时，获取下一视频帧，检测下一视频帧的文本区域。

上述处理视频数据的方法，包括：获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息；获取当前视频的台词区域信息，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的；根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。通过当前视频中的多个视频帧自适应确定出台词区域，采用自适应确定的台词区域对识别到的文本区域进行筛选，不同视频中的台词区域存在差异，直接根据同一视频中的多个视频帧确定的台词区域进行台词定位，提高了定位的准确度，从而提高台词区域的检测准确度。对视频帧中检测出的所有文本行进行过滤，得到台词文本。通过对台词进行过滤，可以有效提取出真正的台词区域，消除非台词区域干扰，有利于后续的翻译和视频理解等应用。

在一个实施例中，上述处理视频数据的方法，还包括：

步骤S301，获取当前视频对应的多个原始视频帧，对各个原始视频帧进行文本检测得到对应的对应的多个视频序列帧，各个视频序列帧的文本区域和非文本区域的像素值分别为1和0。

步骤S302，对各个视频序列帧进行累加，得到热图。

步骤S303，二值化热图，得到二值图像，二值图像中包含至少一个封闭区域。

步骤S304，根据预设台词区域约束规则从各个封闭区域中筛选出台词区域，得到台词区域信息。

具体地，原始视频序列帧是指对当前视频进行分帧得到的视频帧，视频序列帧是指可以包括全部或部分视频帧原始视频序列帧进行文本检测后得到的检测图像，其中视频序列帧为原始二值图像。当前视频在分帧时的分帧时长可以根据同一台词的显示时长确定。显示时长较长的视频数据，则分帧时长也可以较大，显示时长较短的视频数据，则分帧时长也可以设置的较小，分帧时长也可以为预先设置的固定时长，具体的设置方式根据需求可以自定义。如同一句台词的显示时长为1秒/3秒，则在分帧时，可以选择与1秒/3秒相近的时长，也可以是按照同样的分帧时长进行分帧，从分帧后的视频序列帧进行采样，在采样时可以根据台词的显示时长进行采样。其中各个视频序列帧中包括的区域有文本区域和非文本区域，其中文本区域和非文本区域的像素值分别为1和0。对各个视频序列帧进行叠加，得到叠加的视频帧，该视频帧为灰度图像，非文本区域的0进行累加时不会改变像素值的大小，文本区域得像素值1进行累加，得到一个热图，由于每个视频序列帧中的文本区域不同，则对各个每个视频序列帧进行累加，得到的热图轮廓较为模糊，故对热图进行阈值分割，得到二值图像，该二值图像中包含一个或多个封闭区域，封闭区域的像素值为1。

预设台词区域约束规则是指预先设置的用于预设台词的规则，该规则可以根据各个视频自适应调整。预设台词区域约束规则包括高度约束规则、宽度约束规则、位置约束位置等等，其中高度约束规则中包含高度阈值、宽度约束规则中的宽度阈值可以根据视频数据进行调整。通过上述多个约束规则中的一个或多个约束规则对各个封闭区域进行匹配，指导二值图像中仅包含一个封闭区域时，将该封闭区域作为台词区域，该台词区域对应的区域信息作为台词区域信息。

在一个实施例中，统计当前视频帧中存在文本区域的视频序列帧的数量，得到帧数，判断帧数是否大于预设帧数阈值，当大于预设帧数阈值时，执行步骤S302，反之，表示当前视频帧不存在台词。其中预设帧数阈值可以自定义。

在一个实施例中，步骤S304，包括：

步骤S3041，判断各个封闭区域是否满足预设台词区域约束规则。

在本具体实施例中，预设台词区域约束规则包括：封闭区域的高度小于预设高度阈值，封闭区域的宽度小于第一预设宽度阈值，封闭区域的宽度大于第二预设宽度阈值，和封闭区域的起始像素位于预设位置的右边。

步骤S3042，当封闭区域未满足预设台词区域约束规则中的至少一个规则时，将热图中与封闭区域对应的区域的像素值置为0，得到第二热图。

步骤S3043，当二值图像中仅包含一个封闭区域满足预设台词区域约束规则时，将满足预设台词区域约束规则封闭区域作为台词区域。

步骤S3044，根据第二热图与台词区域对应的区域计算台词区域信息。

具体地，预设台词区域约束规则包括多个维度的预设规则，预设台词区域约束规则包括高度、宽度和位置的预设规则，即封闭区域的高度小于预设高度阈值，封闭区域的宽度小于第一预设宽度阈值，封闭区域的宽度大于第二预设宽度阈值，和封闭区域的起始像素位于预设位置的右边。采用高度阈值、宽度阈值和位置信息对封闭区域进行筛选，当不满足预设高度阈值，即封闭区域的高度小于预设高度阈值，或封闭区域的宽度小于第一预设宽度阈值、或封闭区域的宽度大于第二预设宽度阈值、或封闭区域的起止位置不位于预设位置时，则表示该封闭区域不是台词区域，对不满足上述四个条件中的任意一个条件的封闭区域的像素值至0。当满足上述四个条件的封闭区域为一个时，将该封闭区域作为台词区域，将台词区域对应的区域信息作为台词区域信息，即将台词区域的行、列和位置等等信息作为台词区域信息。

在一个实施例中，将热图中与封闭区域对应的区域的像素值置为0，得到第二热图之后，还包括：当二值图像中满足预设台词区域约束规则的封闭区域多余一个时，则更新预设台词区域约束规则，得到更新的预设台词区域约束规则，其中，更新的预设台词区域约束规则中更新的参数包括预设高度阈值、第一预设宽度阈值和第二预设宽度阈值中的至少一个阈值；执行判断各个封闭区域是否满足更新的预设台词区域约束规则。

具体地，当采用预设的高度阈值，或第一预设宽度阈值和第二预设宽度阈值和位置信息判断和执行对应的置0操作后，二值图像对应非封闭区域还不止一个时，调整预设的高度阈值，第一预设宽度阈值和第二预设宽度阈值中的其中的至少一个阈值，采用调整后的阈值，即调整后的预设高度阈值、调整后的第一预设宽度阈值和调整的第二预设宽度阈值中的进行再次判断，对于不满足阈值的封闭区域执行置0操作，直至二值图像对应的封闭区域为一个时，将唯一一个封闭区域作为台词区域。

在一个实施例中，步骤S3044，包括

步骤S30441，统计第二热图的中多个预设列中包含预设像素值的行信息，得到对应的行数统计值和对应的行值集合。

步骤S30442，从行数统计值中筛选出最大值作为目标行值，将目标行值对应的行值集合作为台词区域的行值集合。

步骤S30443，统计目标行值对应的各行的像素中包含预设像素值的列信息，得到列数统计值和对应的列值集合。

步骤S30444，从列数统计值中筛选出最大值作为目标列值，将目标行值对应列值集合作为台词区域的列值集合。

具体地，预设列是指图像中的多个预先设置的列，如图像大小为m*n，则列可以为n/4，n/2，3n/4等等，预设列具体值可以根据需求设置。预设像素值是指预先配置的像素值，该像素值可以自定义设置，如选取整个图像中的最大像素。在预设列中查找包含的预设像素值的行信息，得到行值集合和行数统计值。行数统计值是指占有的行的数量，如在n/4中查找到包含最大像素值的行数有5行，行值集合中包含的行值是值行标识，如在n/4中查找到包含最大像素值的行数有5行对应的行值分别为第100行、101行、102行、103行和104行，则上述5行的行标识为组成的集合为行值集合。目标行值是指预设列中包含预设像素值最多的列的行数统计值，如在n/4、n/2和3n/4对应的行数统计值分别为5、7和10时，则目标行值为10。将目标行值10对应的行值集合，即3n/4例对应的行值集合作为台词区域的行值集合。统计台词区域的行值集合中的各个行值对应的行的像素中包含预设像素值的列信息，得到列数统计值和对应的列值集合，如行值集合包含的行值{100，101，102，103，104，105，106，107，108，109}，则统计在第上述行值集合中各个行值对应的行中包含的预设像素值的列信息，如统计在第100行中包含最大像素值的列的数量和列的位置信息，得到列数统计值和对应的列值集合，如第100行中的第10列至第99列中包含预设像素值，则第100行对应的列数统计值为90，列值集合中包含的列值为10～99。从台词区域的行值集合中的各个行值对应的列数统计值中选取最大值作为目标列值，将目标列值集合作为台词区域的列值集合。如第100行的列数统计值为最大值90，则台词区域的列值集合为10～99，台词区域的行值集合为100～109。

在一个实施例中，上述处理视频数据的方法，还包括：计算目标行值对应的行值集合中的起始行值和截止行值之间的差值的绝对值，得到差异值；判断差异值是否大于目标行值；当差异值大于目标行值时，对目标行值对应的行值集合进行划分，得到多个行值子集合，其中，两个不同的行值子集合中的任意一个行值的差值的绝对值大于预设差值，同一个行值子集合中任意两个相邻的行值的差值为预设差值，每个行值子集合对应一个台词区域。

具体地，起始行值是指行值最小值，截止行值是指行值最大值，计算截止行值和起始行值之间的差值，得到差异值。判断差异值是否大于目标行值，若差异值等于目标行值，表示台词区域为一行，若差异值大于目标行值，表示存在多行台词。按照行值集合中的行值的连续性对行值进行划分得到多个行值子集合，如目标行值为10，行值集合为{101，102，103，104，105，111，112，113，114，115}，则将行值集合划分成两个子集合，分别为{101，102，103，104，105}和{111，112，113，114，115}。两个不同的行值子集合中的任意一个行值的差值的绝对值大于预设差值，同一个行值子集合中任意两个相邻的行值的差值为预设差值，每个行值子集合对应一个台词区域。如同一个行值子行集合中的相邻的行值的差值为1，不同的行值子集合中的任意一个行值的差值的绝对值大于1。即第一个行值子集合中的最大行值105和第二个行值子集合中的最小值111的差值的绝对值为6，而6>1，故行值集合可以划分为两个子集合。按照各个行值子集合，执行将目标行值对应的各个行值子集合作为台词区域的行值子集合，统计目标行值中的各个行值子集合中的各行的像素中包含预设像素值的列信息，得到各个行值子集合对应的列数统计值和对应的列值子集合，从各个行值子集合中的列数统计值中筛选出最大值作为目标子列值，将目标子行值对应的列值子集合作为台词区域的列值子集合。在实际过程中存在多行台词的可能性，根据起始行和截止行之间的差值，和目标行值之间的大小，可以快速的判断是否存在多个台词区域。

在一个实施例中，步骤S203，包括：

步骤S2031，根据台词区域信息中的中心列所在位置确定台词区域的台词格式。

在本具体实施例中，台词格式包括居中对齐、左对齐。

步骤S2032，当台词格式为居中对齐时，判断文本区域信息中的中心列是否与台词区域信息中的中心列匹配。

步骤S2033，当匹配时，将文本区域信息作为第一候选文本区域信息。

步骤S2034，计算第一候选文本区域信息中的行高与台词区域信息中的行高的交并比，得到第一交并比。

步骤S2035，当第一交并比大于第一预设交并比阈值时，则第一候选文本区域信息为目标文本区域信息。

具体地，台词区域信息中的中心列能够判断台词的所采用的展示方式。台词格式包括居中对齐和左对齐。由于台词可以设置成横向展示和纵向展示，在横向展示和纵向展示时，数据的处理思想相同，只是将行和列进行转换。如可以通过对图像进行转置，使得纵向的台词变为横向的台词，使得处理方式一致。判断台词区域信息中的中心列是否位于图像的中心列附近，当位于图像的中心列附近，则表示台词格式为居中对齐格式，反之则表示为左对齐。当台词格式为居中对齐时，计算文本区域信息中的中心列和台词区域信息中的中心列的差异度，根据差异度判断两者是否匹配，当差异度小于预设差异度时，表示匹配，将中心列匹配的区域作为第一候选文本区域，将第一候选文本区域的区域信息作为第一候选文本区域信息。第一交并比是指第一候选文本区域和台词区域的行之间的交并比。第一预设交并比阈值是指预先设置的用于判断文本区域是否为台词区域的临界值，该临界值可以自定义。当第一交并比大于第一预设交并比阈值，将第一候选文本区域作为目标文本区域，将将第一候选文本区域的区域信息作为目标文本区域信息。通过中心列所在的位置对文本区域进行筛选，得到筛选后的文本区域，在采用行对筛选后的文本区域进行再次筛选，得到目标文本区域，使得检测更为便捷，且提高了区域检测的准确度。

在一个实施例中，当台词区域包含多个时，计算每个台词区域的行和第一候选文本区域的行的交并比，根据每个台词区域的行和第一候选文本区域的行的交并比判断第一候选文本区域是否为目标文本区域。

在一个实施例中，上述处理视频数据的方法，还包括：

步骤S2036，当台词格式为左对齐时，计算文本区域信息对应的区域与台词区域信息对应的台词区域的交并比，得到第二交并比。

步骤S2037，当第二交并比大于第二预设交并比阈值时，将文本区域信息作为第二候选文本区域信息。

步骤S2038，计算第二候选文本区域信息中的行高与台词区域信息中的行高的交并比，得到第三交并比。

步骤S2039，当第二交并比大于第三预设交并比阈值时，则第二候选文本区域信息为目标文本区域信息。

具体地，当台词格式为左对齐时，计算文本区域和台词区域的区域交并比，得到第二交并比。当存在多个台词区域时，计算各个文本区域与各个台词区域的交并比。通过第二交并比对文本区域进行筛选，将第二交并比大于第二预设交并比阈值的文本区域作为第二候选文本区域，计算第二候选文本区域与各个台词区域的行的交并比，得到第三交并比，当第二交并比大于第三预设交并比阈值时，则第二候选文本区域信息为目标文本区域信息。其中第一预设交并比和第三预设交并比可以相同。

在一个具体的实施例中，上述处理视频数据的方法，包括：

对所有图像帧中的文本检测区域累加，生成台词区域原始heatmap(Horigin)，通过判断存在文本区域的图像帧，在所有图像帧中占的比例是否超过阈值P，确定该视频是否不存在台词，对于不存在台词的视频，直接过滤所有台词区域并返回即可。反之，对Horigin归一化后做二值化处理，提取边缘，分别对由多个边缘确定的各个封闭区域进行判断是否不符合台词区域特征，主要判断条件有如下三个：1)封闭区域高度在整幅图像的高度占比小于阈值Ph；2)封闭区域宽度在整幅图像的宽度占比小于阈值Pwmin或者大于阈值Pwmax；3)封闭区域起始横坐标在图像帧右半部分。对于符合上述三个任一条件的封闭区域，将heatmap中对应位置的像素值置为0，当封闭区域多余一个时，重新对新的heatmap(Htmp)重复进行阈值判断，直到没有满足条件的封闭区域，最终得到的heatmap(Hfinal)仅包括台词区域。对Hfinal二值化后得到图像B，其宽和高分别是Bw和Bh，分别对B中Bw/4、Bw/2和3*Bw/4这三列计算像素值为255的行数，选择行数最大值Rmax并记录对应的行的位置为heatarea。如果Rmax小于heatarea起始行和结束行之差，则认为有多行台词区域，对heatarea分类为heatarea1，heatarea2等等，否则认为只有一行台词区域为heatarea。分别对各heatarea计算像素值为255的列数最大值，并将对应的列的位置记为heatcolumns。

分别对每个文本区域S与heatarea和heatcolumns位置关系进行判断。根据heatcolumns中心位置是否在图像中心附近将台词区域分为居中对齐和左对齐两种情况。对于居中场景，判断当前S中心列是否在图像帧中心列附近，若不在附近，则为非台词区域；对于台词左对齐场景，判断S和heatcolumns交并比是否大于阈值Pc；若小于阈值Pc，则为非台词区域。并且对于满足前述列位置要求的文本区域S，进一步判断S的行和任一heatarea的行交并比是否大于阈值Pr，若均小于Pr，则为非台词区域。

通过累加所有图像帧的文本区域生成heatmap，并对heatmap进行处理，可以确定台词所在区域，能够适应多行台词、左对齐、居中对齐等多种台词场景。使用heatmap定位台词区域，不需要预设台词位置，具有自适应性，不同场景台词区域使用不同的过滤判断条件，细粒度处理准确性更高。

图2为一个实施例中处理视频数据的方法的流程示意图。应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种处理视频数据的装置200，包括：

文本检测模块201，用于获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息。

信息获取模块202，用于获取当前视频的台词区域信息，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的。

区域确定模块203，用于根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。

在一个实施例中，上述处理视频数据的装置200，还包括：

视频帧获取模块，用于获取当前视频对应的多个原始视频帧，对各个原始视频帧进行文本检测得到对应的对应的多个视频序列帧，各个视频序列帧的文本区域和非文本区域的像素值分别为1和0。

图像累加模块，用于对各个视频序列帧进行累加，得到热图。

分割模块，用于二值化热图，得到二值图像，二值图像中包含至少一个封闭区域。

区域筛选模块，用于根据预设台词区域约束规则从各个封闭区域中筛选出台词区域，得到台词区域信息。

在一个实施例中，区域筛选模块具体用于判断各个封闭区域是否满足预设台词区域约束规则，预设台词区域约束规则包括：封闭区域的高度小于预设高度阈值，封闭区域的宽度小于第一预设宽度阈值，封闭区域的宽度大于第二预设宽度阈值，和封闭区域的起始像素位于预设位置的右边；当封闭区域未满足预设台词区域约束规则中的至少一个规则时，将热图中与封闭区域对应的区域的像素值置为0，得到第二热图；当二值图像中仅包含一个封闭区域满足预设台词区域约束规则时，将满足预设台词区域约束规则封闭区域作为台词区域；根据第二热图与台词区域对应的区域计算台词区域信息。

在一个实施例中，区域筛选模块具体还用于当二值图像中满足预设台词区域约束规则的封闭区域多余一个时，则更新预设台词区域约束规则，得到更新的预设台词区域约束规则，其中，更新的预设台词区域约束规则中更新的参数包括预设高度阈值、第一预设宽度阈值和第二预设宽度阈值中的至少一个阈值；执行判断各个封闭区域是否满足更新的预设台词区域约束规则。

在一个实施例中，区域筛选模块具体用于统计第二热图的中多个预设列中包含预设像素值的行信息，得到对应的行数统计值和对应的行值集合；从行数统计值中筛选出最大值作为目标行值，将目标行值对应的行值集合作为台词区域的行值集合；统计目标行值对应的各行的像素中包含预设像素值的列信息，得到列数统计值和对应的列值集合；从列数统计值中筛选出最大值作为目标列值，将目标行值对应列值集合作为台词区域的列值集合。

在一个实施例中，区域确定模块具体用于计算目标行值对应的行值集合中的截止行值和起始行值之间的差值，得到差异值；判断差异值是否大于目标行值；当差异值大于目标行值时，对目标行值对应的行值集合进行划分，得到多个行值子集合，其中，两个不同的行值子集合中的任意一个行值的差值的绝对值大于预设差值，同一个行值子集合中任意两个相邻的行值的差值为预设差值，每个行值子集合对应一个所述台词区域。

在一个实施中，区域确定模块具体用于根据台词区域信息中的中心列所在位置确定台词区域的台词格式，台词格式包括居中对齐、左对齐；当台词格式为居中对齐时，判断文本区域信息中的中心列是否与台词区域信息中的中心列匹配；当匹配时，将文本区域信息作为第一候选文本区域信息；计算第一候选文本区域信息中的行高与台词区域信息中的行高的交并比，得到第一交并比；当第一交并比大于第一预设交并比阈值时，则第一候选文本区域信息为目标文本区域信息。

在一个实施中，区域确定模块具体用于当台词格式为左对齐时，计算文本区域信息对应的区域与台词区域信息对应的台词区域的交并比，得到第二交并比；当第二交并比大于第二预设交并比阈值时，将文本区域信息作为第二候选文本区域信息；计算第二候选文本区域信息中的行高与台词区域信息中的行高的交并比，得到第三交并比；当第二交并比大于第三预设交并比阈值时，则第二候选文本区域信息为目标文本区域信息。

图4示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图4所示，该计算机设备通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现处理视频数据的方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行处理视频数据的方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的处理视频数据的装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该处理视频数据的装置的各个程序模块，比如，图3所示的文本检测模块201、信息获取模块202和区域确定模块203。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的处理视频数据的方法中的步骤。

例如，图4所示的计算机设备可以通过如图3所示的处理视频数据的装置中的文本检测模块201执行获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息。计算机设备可以通过信息获取模块202执行获取当前视频的台词区域信息，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的。计算机设备可以通过区域确定模块203执行根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息；获取当前视频的台词区域信息，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的；根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获获取当前视频对应的多个原始视频帧，对各个原始视频帧进行文本检测得到对应的视频序列帧，各个视频序列帧的文本区域和非文本区域的像素值分别为1和0；对各个视频序列帧进行累加，得到热图；二值化热图，得到二值图像，二值图像中包含至少一个封闭区域；根据预设台词区域约束规则从各个封闭区域中筛选出台词区域，得到台词区域信息。

在一个实施例中，根据预设台词区域约束规则从各个封闭区域中筛选出台词区域，得到台词区域信息，包括：判断各个封闭区域是否满足预设台词区域约束规则，预设台词区域约束规则包括：封闭区域的高度小于预设高度阈值，封闭区域的宽度小于第一预设宽度阈值，封闭区域的宽度大于第二预设宽度阈值，和封闭区域的起始像素位于预设位置的右边；当封闭区域未满足预设台词区域约束规则中的至少一个规则时，将热图中与封闭区域对应的区域的像素值置为0，得到第二热图；当二值图像中仅包含一个封闭区域满足预设台词区域约束规则时，将满足预设台词区域约束规则封闭区域作为台词区域；根据第二热图与台词区域对应的区域计算台词区域信息。

在一个实施例中，将热图中与封闭区域对应的区域的像素值置为0，得到第二热图，处理器执行计算机程序时还实现以下步骤：当二值图像中满足预设台词区域约束规则的封闭区域多余一个时，则更新预设台词区域约束规则，得到更新的预设台词区域约束规则，其中，更新的预设台词区域约束规则中更新的参数包括预设高度阈值、第一预设宽度阈值和第二预设宽度阈值中的至少一个阈值；执行判断各个封闭区域是否满足更新的预设台词区域约束规则。

在一个实施例中，根据第二热图与台词区域对应的区域计算台词区域信息，包括：统计第二热图的中多个预设列中包含预设像素值的行信息，得到对应的行数统计值和对应的行值集合；从行数统计值中筛选出最大值作为目标行值，将目标行值对应的行值集合作为台词区域的行值集合；统计目标行值对应的各行的像素中包含预设像素值的列信息，得到列数统计值和对应的列值集合；从列数统计值中筛选出最大值作为目标列值，将目标行值对应列值集合作为台词区域的列值集合。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：计算目标行值对应的行值集合中的截止行值和起始行值之间的差值，得到差异值；判断差异值是否大于目标行值；当差异值大于目标行值时，对目标行值对应的行值集合进行划分，得到多个行值子集合，其中，两个不同的行值子集合中的任意一个行值的差值的绝对值大于预设差值，同一个行值子集合中任意两个相邻的行值的差值为预设差值，每个行值子集合对应一个台词区域。

在一个实施例中，根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息，包括：根据台词区域信息中的中心列所在位置确定台词区域的台词格式，台词格式包括居中对齐、左对齐；当台词格式为居中对齐时，判断文本区域信息中的中心列是否与台词区域信息中的中心列匹配；当匹配时，将文本区域信息作为第一候选文本区域信息；计算第一候选文本区域信息中的行高与台词区域信息中的行高的交并比，得到第一交并比；当第一交并比大于第一预设交并比阈值时，则第一候选文本区域信息为目标文本区域信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当台词格式为左对齐时，计算文本区域信息对应的区域与台词区域信息对应的台词区域的交并比，得到第二交并比；当第二交并比大于第二预设交并比阈值时，将文本区域信息作为第二候选文本区域信息；计算第二候选文本区域信息中的行高与台词区域信息中的行高的交并比，得到第三交并比；当第二交并比大于第三预设交并比阈值时，则第二候选文本区域信息为目标文本区域信息。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取当前视频中的当前帧，对当前帧进行文本检测，得到当前帧的至少一个文本区域信息；获取当前视频的台词区域信息，当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的；根据台词区域信息对各个文本区域信息进行筛选，得到目标文本区域信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获获取当前视频对应的多个原始视频帧，对各个原始视频帧进行文本检测得到对应的视频序列帧，各个视频序列帧的文本区域和非文本区域的像素值分别为1和0；对各个视频序列帧进行累加，得到热图；二值化热图，得到二值图像，二值图像中包含至少一个封闭区域；根据预设台词区域约束规则从各个封闭区域中筛选出台词区域，得到台词区域信息。

在一个实施例中，将热图中与封闭区域对应的区域的像素值置为0，得到第二热图，计算机程序被处理器执行时还实现以下步骤：当二值图像中满足预设台词区域约束规则的封闭区域多余一个时，则更新预设台词区域约束规则，得到更新的预设台词区域约束规则，其中，更新的预设台词区域约束规则中更新的参数包括预设高度阈值、第一预设宽度阈值和第二预设宽度阈值中的至少一个阈值；执行判断各个封闭区域是否满足更新的预设台词区域约束规则。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算目标行值对应的行值集合中的截止行值和起始行值之间的差值，得到差异值；判断差异值是否大于目标行值；当差异值大于目标行值时，对目标行值对应的行值集合进行划分，得到多个行值子集合，其中，两个不同的行值子集合中的任意一个行值的差值的绝对值大于预设差值，同一个行值子集合中任意两个相邻的行值的差值为预设差值，每个行值子集合对应一个台词区域。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当台词格式为左对齐时，计算文本区域信息对应的区域与台词区域信息对应的台词区域的交并比，得到第二交并比；当第二交并比大于第二预设交并比阈值时，将文本区域信息作为第二候选文本区域信息；计算第二候选文本区域信息中的行高与台词区域信息中的行高的交并比，得到第三交并比；当第二交并比大于第三预设交并比阈值时，则第二候选文本区域信息为目标文本区域信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种处理视频数据的方法，其特征在于，所述方法包括：

获取当前视频中的当前帧，对所述当前帧进行文本检测，得到所述当前帧的至少一个文本区域信息；

获取所述当前视频的台词区域信息，所述当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的；

根据所述台词区域信息对各个所述文本区域信息进行筛选，得到目标文本区域信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述当前视频对应的多个原始视频帧，对各个所述原始视频帧进行文本检测得到对应的视频序列帧，各个所述视频序列帧的文本区域和非文本区域的像素值分别为1和0；

对各个所述视频序列帧进行累加，得到热图；

二值化所述热图，得到二值图像，所述二值图像中包含至少一个封闭区域，所述封闭区域的像素值为1；

根据预设台词区域约束规则从各个所述封闭区域中筛选出台词区域，得到所述台词区域信息。

3.根据权利要求2所述的方法，其特征在于，所述根据预设台词区域约束规则从各个所述封闭区域中筛选出台词区域，得到所述台词区域信息，包括：

判断各个所述封闭区域是否满足所述预设台词区域约束规则，所述预设台词区域约束规则包括：所述封闭区域的高度小于预设高度阈值，所述封闭区域的宽度小于第一预设宽度阈值，所述封闭区域的宽度大于第二预设宽度阈值，和所述封闭区域的起始像素位于预设位置的右边；

当所述封闭区域未满足所述预设台词区域约束规则中的至少一个规则时，将所述热图中与所述封闭区域对应的区域的像素值置为0，得到第二热图；

当所述二值图像中仅包含一个封闭区域满足所述预设台词区域约束规则时，将满足所述预设台词区域约束规则所述封闭区域作为所述台词区域；

根据所述第二热图与所述台词区域对应的区域计算所述台词区域信息。

4.根据权利要求3所述的方法，其特征在于，所述将所述热图中与所述封闭区域对应的区域的像素值置为0，得到第二热图之后，还包括：

当所述二值图像中满足所述预设台词区域约束规则的封闭区域多余一个时，则更新所述预设台词区域约束规则，得到更新的预设台词区域约束规则，其中，所述更新的所述预设台词区域约束规则中更新的参数包括所述预设高度阈值、所述第一预设宽度阈值和所述第二预设宽度阈值中的至少一个阈值；

执行判断各个所述封闭区域是否满足所述更新的预设台词区域约束规则。

5.根据权利要求3所述的方法，其特征在于，所述根据所述第二热图与所述台词区域对应的区域计算所述台词区域信息，包括：

统计所述第二热图的中多个预设列中包含预设像素值的行信息，得到对应的行数统计值和对应的行值集合；

从所述行数统计值中筛选出最大值作为目标行值，将所述目标行值对应的行值集合作为所述台词区域的行值集合；

统计所述目标行值对应的各行的像素中包含所述预设像素值的列信息，得到列数统计值和对应的列值集合；

从所述列数统计值中筛选出最大值作为目标列值，将所述目标行值对应列值集合作为所述台词区域的列值集合。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

计算所述目标行值对应的行值集合中的截止行值和起始行值之间的差值，得到差异值；

判断差异值是否大于所述目标行值；

当所述差异值大于所述目标行值时，对所述目标行值对应的行值集合进行划分，得到多个行值子集合，其中，两个不同的行值子集合中的任意一个行值的差值的绝对值大于预设差值，同一个所述行值子集合中任意两个相邻的行值的差值为预设差值，每个所述行值子集合对应一个所述台词区域。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述台词区域信息对各个所述文本区域信息进行筛选，得到目标文本区域信息，包括：

根据所述台词区域信息中的中心列所在位置确定所述台词区域的台词格式，所述台词格式包括居中对齐、左对齐；

当所述台词格式为所述居中对齐时，判断所述文本区域信息中的中心列是否与所述台词区域信息中的中心列匹配；

当匹配时，将所述文本区域信息作为第一候选文本区域信息；

计算所述第一候选文本区域信息中的行高与所述台词区域信息中的行高的交并比，得到第一交并比；

当所述第一交并比大于第一预设交并比阈值时，则所述第一候选文本区域信息为所述目标文本区域信息。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

当所述台词格式为所述左对齐时，计算所述文本区域信息对应的区域与所述台词区域信息对应的台词区域的交并比，得到第二交并比；

当所述第二交并比大于第二预设交并比阈值时，将所述文本区域信息作为第二候选文本区域信息；

计算所述第二候选文本区域信息中的行高与所述台词区域信息中的行高的交并比，得到第三交并比；

当所述第二交并比大于第三预设交并比阈值时，则所述第二候选文本区域信息为所述目标文本区域信息。

9.一种处理视频数据的装置，其特征在于，所述装置包括：

文本检测模块，用于获取当前视频中的当前帧，对所述当前帧进行文本检测，得到所述当前帧的至少一个文本区域信息；

信息获取模块，用于获取所述当前视频的台词区域信息，所述当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的；

区域确定模块，用于根据所述台词区域信息对各个所述文本区域信息进行筛选，得到目标文本区域信息。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。