CN113052169A

CN113052169A - 视频字幕识别方法、装置、介质及电子设备

Info

Publication number: CN113052169A
Application number: CN202110277906.8A
Authority: CN
Inventors: 马天泽; 王铭喜; 马超
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-29

Abstract

本公开涉及一种视频字幕识别方法、装置、介质及电子设备，包括：获取待处理视频中的多个目标视频帧；识别多个目标视频帧中的每个目标视频帧中的字幕文本；按照多个目标视频帧在待处理视频中的顺序依次判断相邻的目标视频帧中的字幕文本是否相同；将同一字幕文本首次出现和最后出现时分别对应的目标视频帧的时间戳确定为同一字幕文本的起始时间和终止时间。通过上述技术方案，在对该待处理视频中的目标视频帧进行字幕文本的识别时，能够同时将每一个字幕文本对应的起始时间和终止时间一并识别出来，从而实现了视频中字幕信息的自动提取，大大简化了字幕在视频画面中的视频的字幕提取过程。

Description

视频字幕识别方法、装置、介质及电子设备

技术领域

本公开涉及文字识别领域，具体地，涉及一种视频字幕识别方法、装置、介质及电子设备。

背景技术

视频作为一种最为流行的媒体形式，通过网络和电视广泛传播。光学字符识别技术(OCR)作为图像文本提取技术已日趋成熟。视频中的文本检测与识别技术作为二者的结合，可以助力于视频检索与分类，可以在需要提取影视剧字幕时节约人力。目前虽然也有一些对于视频中的字幕进行文本识别的方法，但通常都是通过常规的文本识别得到一定的文本内容，后期仍需要再次对识别得到的文本进行复杂的整理才能够得到的精简的字幕文本，并且无法自动得到精简后的字幕文本中每一个字幕文本对应的时间信息。

发明内容

本公开的目的是提供一种视频字幕识别方法、装置、介质及电子设备，能够同时将每一个字幕文本对应的起始时间和终止时间一并识别出来，从而实现了视频中字幕信息的自动提取，大大简化了字幕在视频画面中的视频的字幕提取过程。

为了实现上述目的，本公开提供一种视频字幕识别方法，所述方法包括：

获取待处理视频中的多个目标视频帧；

识别所述多个目标视频帧中的每个目标视频帧中的字幕文本；

按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本是否相同；

将同一字幕文本首次出现和最后出现时分别对应的所述目标视频帧的时间戳确定为所述同一字幕文本的起始时间和终止时间。

可选地，所述识别所述多个目标视频帧中的每个目标视频帧中的字幕文本包括：

截取所述目标视频帧中出现字幕的目标图像；

获取所述目标图像中的字幕所对应的识别框；

对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本。

可选地，所述获取所述目标图像中的字幕所对应的识别框包括：

通过字幕文本检测模型获取所述目标图像中的所述字幕所对应的所述识别框，其中，所述字幕文本检测模型为预先训练好的深度学习模型。

可选地，所述通过字幕文本检测模型获取所述目标图像中的所述字幕所对应的所述识别框包括：

通过所述字幕文本检测模型确定所述目标图像中的所有识别框，以及与所述所有识别框分别对应的检测得分，所述检测得分表征所述识别框的置信度；

将所述检测得分高于第一预设阈值的识别框确定为所述目标图像中的所述字幕所对应的所述识别框。

可选地，所述对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本包括：

通过字幕文本识别模型对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本，其中，所述字幕文本识别模型为预先训练好的深度学习模型。

可选地，所述字幕文本识别模型的训练数据中包括带有空格标记的训练数据、中文训练数据、英文训练数据、带有中文标点符号标记的训练数据和带有英文标点符号标记的训练数据。

可选地，所述字幕文本识别模型的训练数据中包括长文本训练数据，所述长文本训练数据中识别框的长度大于预设长度。

可选地，所述按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本是否相同包括：

按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本之间的编辑距离；

将所述编辑距离小于第二预设阈值的两个或多个所述字幕文本确定为相同的字幕文本。

可选地，所述通过字幕文本识别模型对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本还包括：

通过所述字幕文本识别模型确定所述识别框中的所有字幕文本，以及与所述所有字幕文本分别对应的识别得分，所述识别得分表征所述字幕文本的置信度；

在将所述编辑距离小于第二预设阈值的两个或多个所述字幕文本确定为相同的字幕文本之后，方法还包括：

将所述相同的字幕文本中，所述识别得分最大的字幕文本确定为所述相同的字幕文本所对应的字幕文本。

可选地，在所述获取所述目标图像中的字幕所对应的识别框之后，方法还还包括：

获取所述目标图像中所有识别框的坐标信息；

将所述所有识别框中坐标信息之间的距离小于第三预设阈值的识别框进行合并，得到合并后的识别框。

本公开还提供一种视频字幕识别装置，所述装置包括：

获取模块，用于获取待处理视频中的多个目标视频帧；

识别模块，用于识别所述多个目标视频帧中的每个目标视频帧中的字幕文本；

判断模块，用于按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本是否相同；

确定模块，用于将同一字幕文本首次出现和最后出现时分别对应的所述目标视频帧的时间戳确定为所述同一字幕文本的起始时间和终止时间。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以上任一项所述方法的步骤。

泵公开还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现以上任一项所述方法的步骤。

通过上述技术方案，在对该待处理视频中的目标视频帧进行字幕文本的识别时，能够同时将每一个字幕文本对应的起始时间和终止时间一并识别出来，从而实现了视频中字幕信息的自动提取，大大简化了字幕在视频画面中的视频的字幕提取过程。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种视频字幕识别方法的流程图。

图2是根据本公开又一示例性实施例示出的一种视频字幕识别方法的流程图。

图3是根据本公开又一示例性实施例示出的一种视频字幕识别方法的流程图。

图4是根据本公开一示例性实施例示出的一种视频字幕识别装置的结构框图。

图5是根据一示例性实施例示出的一种电子设备的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据本公开一示例性实施例示出的一种视频字幕识别方法的流程图。如图1所示，所述方法包括步骤101至步骤104。

在步骤101中，获取待处理视频中的多个目标视频帧。该待处理视频可以为任意格式和内容的视频，例如MP4、wav等格式的视频等，只要是视频中存在待识别的字幕即可。从该待处理视频中获取得到的目标视频帧可以是从该待处理视频中提取得到的带有字幕的视频帧，该目标视频帧的确定方法在本公开中不进行限制，例如可以通过Ffmpeg抽帧的方法提取得到，只要提取出来的该目标视频帧能够包括该待处理视频中的所有字幕即可。

在步骤102中，识别所述多个目标视频帧中的每个目标视频帧中的字幕文本。从该目标视频帧中的识别该字幕文本的方法可以为任意文本识别方法，例如可以为任意类型的OCR(Optical Character Recognition，光学字符识别)方法。

在步骤103中，按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本是否相同。在将该待处理视频中的所有目标视频帧中的字幕文本都识别出来之后，由于字幕本身的特性，同一个字幕在该待处理视频中出现的时长可以为多秒，因此出现多个目标视频帧中的字幕文本相同的情况，因此，可以根据该多个目标视频帧在该待处理视频中的顺序依次进行比较。

例如，可以将该待处理视频中的第一个目标视频帧对应的字幕文本和第二个目标视频帧对应的字幕文本进行比较，若相同，则可以将该第一个目标视频帧和该第二个目标视频帧中的字幕文本确定为同一字幕文本，接着，可以将第二个目标视频帧中的字幕文本与第三个目标视频帧中的字幕文本进行比较，若相同，则也可以将该第三个目标视频帧中的字幕文本和该第一个目标视频帧、第二个目标视频帧中的字幕文本确定为同一字幕文本。下一步，继续将第三个目标视频帧中的字幕文本与第四个目标视频帧中的字幕文本进行比较，若不相同，则继续比较该第四个目标视频帧和第五个目标视频帧中的字幕文本是否相同。

在一种可能的实施方式中，若该目标视频帧中所包括的字幕文本有多行，则可以分别针对每一行的字幕文本进行比较判断，例如，若该第一个目标视频帧和该第二个目标视频帧中包括两行字幕文本，则分别比较该第一个目标视频帧中的第一行字幕文本与该第二个目标视频帧中的第一行字幕文本，以及该第一个目标视频帧中的第二行字幕文本与该第二个目标视频帧中的第二行字幕文本，且需要两个字幕文本都相同的情况下，才能够将两个不同的目标视频帧中的字幕文本判定为相同。

在步骤104中，将同一字幕文本首次出现和最后出现时分别对应的所述目标视频帧的时间戳确定为所述同一字幕文本的起始时间和终止时间。

根据上述示例，第一个目标视频帧、第二个目标视频帧和该第三个目标视频帧中的字幕文本进行比较之后确定相同，为同一字幕文本，且与接下来的第四个目标视频帧中的字幕文本不相同，则该字幕文本首次出现时对应的目标视频帧则可以为该第一个目标视频帧，该字幕文本最后出现时对应的目标视频帧则可以为该第三个目标视频帧。由于每个目标视频帧在该待处理视频中的时间戳是确定的，因此就可以直接确定得到该字幕文本的起始时间和终止时间。例如，该第一个目标视频帧可以为该待处理视频第0.027566秒处视频帧，该第三个目标视频帧可以为该待处理视频中第3.023851秒的视频帧，也即该第一个目标视频帧中的时间戳为0.027566秒，该第三个目标视频帧中的时间戳为3.023851秒，则该第一个目标视频帧、第二个目标视频帧和第三个目标视频帧中的同一字幕文本的起始时间可以为0.027566秒，终止时间可以为3.023851秒。

其中，若任一目标视频帧中的字幕文本既不与其前一个目标视频帧中的字幕文本相同，也不与其后一个目标视频帧中的字幕文本相同，则该目标视频帧中的字幕文本的起始时间和终止时间都为该目标视频帧中的时间戳。例如，若上述示例中的第四个目标视频帧中的字幕文本不与第三个目标视频帧中的字幕文本相同，也不与第五目标视频帧中的字幕文本相同，则该第四个目标视频帧中的字幕文本的起始时间和终止时间都为该第四个目标视频帧的时间戳。

在一种可能的实施方式中，每个目标视频帧对应的时间戳中也可以包括视频帧起始时间和视频帧终止时间，则在确定该字幕文本的起始时间和终止时间时，如上示例，若该字幕文本首次出现时对应的目标视频帧为该第一个目标视频帧，最后出现时对应的目标视频帧为该第三个目标视频帧，则该字幕文本的起始时间可以为该第一个目标视频帧中的视频帧起始时间，该字幕文本的终止时间可以为该第三个目标视频帧中的视频帧终止时间；若该第四个目标视频帧中的字幕文本不与其他目标视频帧中的字幕文本相同，则该第四个目标视频帧中的字幕文本的起始时间为该第四个目标视频帧中的视频帧起始时间，该第四个目标视频帧中的字幕文本的终止时间为该第四个目标视频帧中的视频帧终止时间。

图2是根据本公开又一示例性实施例示出的一种视频字幕识别方法的流程图。如图2所示，所述方法还包括步骤201至步骤203。

在步骤201中，截取所述目标视频帧中出现字幕的目标图像。

截取该目标图像的方式可以根据具体的待处理视频中字幕的出现位置的不同而不同，例如，若一待处理视频中的所有字幕都出现在画面的正下方，则截取该目标图像的方式可以为截取该目标视频帧的下半部分，截取高度可以为该目标视频帧高度的50％等。若一待处理视频中的所有字幕都出现在画面的右方，则截取该目标图像的方式可以为截取该目标视频帧的右半部分，截取宽度可以为该目标视频帧宽度的50％等。

在步骤202中，获取所述目标图像中的字幕所对应的识别框。

该识别框能够标识将该目标图像中的字幕所在的区域，该识别框的长宽设定可以是与该目标图像中的字幕紧密相接，或者该识别框的长宽也可以为设定为与该目标图像中的字幕分别相距预设距离，该预设距离通常可以为较小的距离，以保证该识别框能够精确标识出该目标图像中出现字幕的区域，且尽量不包括其他可能干扰字幕文本识别的内容。

获取该识别框的方法可以是通过字幕文本检测模型获取所述目标图像中的所述字幕所对应的所述识别框，其中，所述字幕文本检测模型为预先训练好的深度学习模型。该字幕文本检测模型可以是通过带字幕的图像所进行的训练得到，或者也可以为根据任意类型的训练数据训练得到的深度学习模型。只要该字幕文本检测模型能够将该目标图像中出现字幕文本的区域用该识别框的形式检测得到即可。

在一种可能的实施方式中，通过所述字幕文本检测模型确定所述目标图像中的所有识别框的同时，还可以同时输出与每一个识别框分别对应的检测得分，所述检测得分表征所述识别框的置信度；将所述检测得分高于第一预设阈值的识别框确定为所述目标图像中的所述字幕所对应的所述识别框。也即，通过该字幕文本检测模型检测得到的识别框并不会全部作为该目标图像中的字幕所对应的识别框，而会根据该字幕文本检测模型输出的与每个识别框对应的置信度进行筛选，将置信度较高的识别框确定为所述目标图像中的所述字幕所对应的所述识别框。从而，就能够在一定程度上提高该目标图像中的字幕所对应的识别框的精度。

在步骤203中，对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本。

在确定该识别框的情况下，可以仅对该识别框中的图像区域进行文本识别，从而得到该字幕文本。进行该文本识别的方式可以为多种，例如可以通过字幕文本识别模型对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本，其中，所述字幕文本识别模型为预先训练好的深度学习模型。

该字幕文本识别模型与该字幕文本检测模型可以是同时训练得到的深度学习模型。

在一种可能的实施方式中，所述字幕文本识别模型的训练数据中包括带有空格标记的训练数据、中文训练数据、英文训练数据、带有中文标点符号标记的训练数据和带有英文标点符号标记的训练数据。所述字幕文本识别模型的训练数据中还包括长文训练数据，所述预设训练数据中识别框的长度大于预设长度。

由于视频字幕文本中经常会出现空格，因此在常规的文本识别模型的训练过程中，在训练数据中加入对于空格的标注，这样能够使得训练得到的该字幕文本识别模型对于该字幕文本中空格能够有更好的识别效果，从而在一定程度上提高了字幕文本的识别精度。

并且，视频字幕中出现同时出现英文和中文的情况也较多，例如一句话中掺杂着中文和英文的情况，或者视频字幕为双语字幕，包括一行中文和一行对应的英文的情况等。因此在训练该字幕文本识别模型时，将中文训练数据和英文训练数据同时作为该字幕文本识别模型的训练数据，这样就能使得训练得到的字幕文本识别模型能够同时较好地识别中文和英文。

另外，在视频字幕中既包括中文也包括英文的情况下，经常也会同时出现中文标点符号和英文标点符号，因此在该字幕文本识别模型的训练数据中还增加该中文标点符号标记和该英文标点符号标记，从而使得训练得到的该字幕文本识别模型能够更好地识别出该识别框中的中文标点符号和英文标点符号，避免影响该字幕文本中的文字的识别，从而也在一定程度上提高了字幕文本的识别精度。

进一步的，由于通过上述字幕文本检测模型检测得到的识别框的尺寸是与该目标图像中的字幕的尺寸相同，而字幕的尺寸通常为长度较长，但宽度较小，例如仅一行文本的宽度，但有十多个文字的长度，因此通过常规的文本识别训练数据训练的字幕文本识别模型的输入图像的尺寸通常都会小于从该目标图像中直接检测得到识别框的尺寸。因此，常规的文本识别模型在对该字幕文本检测模型检测得到的识别框中的字幕文本进行识别时，可能会需要将同一个识别框对应的图像区域先划分为与该常规的文本识别模型的输入图像尺寸对应的两个或三个图像区域，然后对同一个识别框中的字幕文本分别进行两次或三次的文本识别。这样，无法根据同一个识别框中的一句连续的字幕同时进行字幕文本的识别，在一定程度上也可能影响字幕文本识别的精确度。因此，在对该字幕文本识别模型进行训练时，该字幕文本识别模型的训练数据中可以包括大于预设长度的识别框对应的训练数据，该预设长度可以根据所述字幕所对应的所述识别框的长度来确定得到，也即，该字幕文本识别模型的输入图像的尺寸相较于常规的文本识别模型，更加符合该目标图像中检测到的该识别框的尺寸，从而就能够实现对该目标视频帧中的同一行的字幕文本同时进行识别的效果，进而也在一定程度上提高了该字幕文本识别模型的识别精度。

图3是根据本公开又一示例性实施例示出的一种视频字幕识别方法的流程图，如图3所示，所述方法还包括步骤301和步骤302。

在步骤301中，按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本之间的编辑距离。该编辑距离也即Minimum EditDistance，MED，又称Levenshtein距离，是指两个字符串之间，由一个转成另一个所需要的最少编辑操作次数。允许的编辑操作包括：将一个字符替换成另一个字符，插入一个字符或者删除一个字符。

在步骤302中，将所述编辑距离小于第二预设阈值的两个或多个所述字幕文本确定为相同的字幕文本。在该编辑距离小于该第二阈值的情况下，可以表示该两个字幕文本之间的相似程度较高，因此可以将其确定为相同的字幕文本。

其中，确定两个字幕文本之间是否相同的方法还可以为其他判断文本之间相似度的方法，在本公开中不进行限制。

在一种可能的实施方式中，如图3所示，所述方法还包括步骤303和步骤304。

在步骤303中，通过所述字幕文本识别模型确定所述识别框中的所有字幕文本，以及与所述所有字幕文本分别对应的识别得分，所述识别得分表征所述字幕文本的置信度。

在步骤304中，将所述相同的字幕文本中，所述识别得分最大的字幕文本确定为所述相同的字幕文本所对应的字幕文本。

也即，在通过该字幕文本识别模型对该字幕文本进行识别时，每一个字幕文本都可以同时对应一个识别得分来表征该字幕文本的置信度。从而，在后续对多个目标视频帧中的字幕文本进行是否相同的判断进而进行字幕文本的融合的情况下，由于如步骤301和步骤302所示，可能会出现判断为相同的两个字幕文本并不完全一致的情况，因此，此时则可以根据该字幕文本识别模型所输出的与各个字幕文本对应的识别得分来确定最终的字幕文本。例如，如上示例中的第一个目标视频帧、第二个目标视频帧和第三个目标视频帧中的字幕文本被确定为相同的字幕文本，其中第一个目标视频帧中的字幕文本为“去看看也能看到什么”，对应的识别得分为85％，第二个目标视频帧中的字幕文本为“去看看他能看到什幺”，对应的识别得分为89％，第三个目标视频帧中的字幕文本为“去看看他能看到什么”，对应的识别得分为92％，则会将该第一个目标视频帧、第二个目标视频帧和第三个目标视频帧中的相同的字幕文本确定为该第三个目标视频帧中的字幕文本“去看看他能看到什么”。也即字幕文本“去看看他能看到什么”的起始时间和终止时间会根据该第一个目标视频帧中的时间戳和该第三个目标视频帧中的时间戳来确定得到。这样，就能够进一步提高最终确定得到带有起始时间和终止时间的字幕文本的精确性。

在一种可能的实施方式中，在获取所述目标图像中的字幕所对应的识别框之后，所述方法还可以包括：获取所述目标图像中所有识别框的坐标信息；将所述所有识别框中坐标信息之间的距离小于第三预设阈值的识别框进行合并，得到合并后的识别框。该坐标信息可以为该识别框的四个角点坐标，或者两个角点坐标，或者任意一个角点坐标和识别框的长与高，例如(x0,y0,x1,y1)，可以是两个对角点的交点坐标；任意两个识别框坐标信息之间的距离可以通过识别框的坐标信息中的高度信息来判断，例如上述示例中的y0，在两个识别框的坐标信息中的y0之间的差距小于该第三预设阈值的情况下，则可以将两个识别框进行合并。该第三预设阈值的设定应该小于在有两行字幕的情况下，两行字幕分别对应的识别框之间的高度差。从而，就能够根据该第三预设阈值来调整该识别框的识别精度，避免原本属于同一行的字幕被划分在不同的识别框中的问题。例如，有一行字幕“蚂蚁八个跟着八个行进，欢呼，欢呼”，被分别识别在了两个识别框中，分别包括“蚂蚁八个跟着八个行进，欢呼，”“欢呼”，由于原本字幕为同一行，因此这个两个识别框的高度差距一定小于该第三预设阈值，此时，就可以将两个识别框合并为同一个识别框，并将其中对应的字幕内容合并为“蚂蚁八个跟着八个行进，欢呼，欢呼”，具体的，在合并时，可以直接将两个识别框中的字幕进行合并，也可以在两个字幕之间添加空格，以避免出现字幕不流畅的情况。

根据该识别框所进行的字幕文本的调整，可以是在将该识别框输入该字幕文本识别模型之间进行，也即，将该高度位置之间的距离小于第三预设阈值的所述字幕文本确定为所述目标视频帧中的同一字幕文本之后，将属于同一字幕文本的识别框合并为同一识别框，然后输入该字幕文本识别模型中进行字幕文本的识别。或者，也可以是在已经进行文本识别之后，直接将属于同一字幕文本的所有识别得到的字幕文本合并为一个字幕文本。其中相应的识别得分可以通过取均值或取中值的方式重新确定。

图4是根据本公开一示例性实施例示出的一种视频字幕识别装置的结构框图。如图4所示，所述装置包括：获取模块10，用于获取待处理视频中的多个目标视频帧；识别模块20，用于识别所述多个目标视频帧中的每个目标视频帧中的字幕文本；判断模块30，用于按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本是否相同；确定模块40，用于将同一字幕文本首次出现和最后出现时分别对应的所述目标视频帧的时间戳确定为所述同一字幕文本的起始时间和终止时间。

在一种可能的实施方式中，所述识别模块20包括：截取子模块，用于截取所述目标视频帧中出现字幕的目标图像；获取子模块，用于获取所述目标图像中的字幕所对应的识别框；识别子模块，用于对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本。

在一种可能的实施方式中，所述获取子模块还用于：通过字幕文本检测模型获取所述目标图像中的所述字幕所对应的所述识别框，其中，所述字幕文本检测模型为预先训练好的深度学习模型。

在一种可能的实施方式中，所述获取子模块还用于：通过所述字幕文本检测模型确定所述目标图像中的所有识别框，以及与所述所有识别框分别对应的检测得分，所述检测得分表征所述识别框的置信度；将所述检测得分高于第一预设阈值的识别框确定为所述目标图像中的所述字幕所对应的所述识别框。

在一种可能的实施方式中，所述识别子模块还用于：通过字幕文本识别模型对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本，其中，所述字幕文本识别模型为预先训练好的深度学习模型。

在一种可能的实施方式中，所述字幕文本识别模型的训练数据中包括带有空格标记的训练数据、中文训练数据、英文训练数据、带有中文标点符号标记的训练数据和带有英文标点符号标记的训练数据。

在一种可能的实施方式中，所述字幕文本识别模型的训练数据中包括长文本训练数据，所述长文本训练数据中识别框的长度大于预设长度。

在一种可能的实施方式中，所述判断模块30还用于：按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本之间的编辑距离；将所述编辑距离小于第二预设阈值的两个或多个所述字幕文本确定为相同的字幕文本。

在一种可能的实施方式中，所述识别子模块还用于：通过所述字幕文本识别模型确定所述识别框中的所有字幕文本，以及与所述所有字幕文本分别对应的识别得分，所述识别得分表征所述字幕文本的置信度；所述判断模块30还用于：将所述相同的字幕文本中，所述识别得分最大的字幕文本确定为所述相同的字幕文本所对应的字幕文本。

在一种可能的实施方式中，所述识别模块20还用于：获取所述目标图像中所有识别框的坐标信息；将所述所有识别框中坐标信息之间的距离小于第三预设阈值的识别框进行合并，得到合并后的识别框。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示，该电子设备500可以包括：处理器501，存储器502。该电子设备500还可以包括多媒体组件503，输入/输出(I/O)接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该电子设备500的整体操作，以完成上述的视频字幕识别方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的视频字幕识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的视频字幕识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的视频字幕识别方法。

图6是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以被提供为一服务器。参照图6，电子设备600包括处理器622，其数量可以为一个或多个，以及存储器632，用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器622可以被配置为执行该计算机程序，以执行上述的视频字幕识别方法。

另外，电子设备600还可以包括电源组件626和通信组件650，该电源组件626可以被配置为执行电子设备600的电源管理，该通信组件650可以被配置为实现电子设备600的通信，例如，有线或无线通信。此外，该电子设备600还可以包括输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统，例如Windows Server^TM，Mac OSX^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的视频字幕识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器632，上述程序指令可由电子设备600的处理器622执行以完成上述的视频字幕识别方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的视频字幕识别方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种视频字幕识别方法，其特征在于，所述方法包括：

获取待处理视频中的多个目标视频帧；

2.根据权利要求1所述的方法，其特征在于，所述识别所述多个目标视频帧中的每个目标视频帧中的字幕文本包括：

截取所述目标视频帧中出现字幕的目标图像；

获取所述目标图像中的字幕所对应的识别框；

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标图像中的字幕所对应的识别框包括：

4.根据权利要求3所述的方法，其特征在于，所述通过字幕文本检测模型获取所述目标图像中的所述字幕所对应的所述识别框包括：

5.根据权利要求2所述的方法，其特征在于，所述对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本包括：

6.根据权利要求5所述的方法，其特征在于，所述字幕文本识别模型的训练数据中包括带有空格标记的训练数据、中文训练数据、英文训练数据、带有中文标点符号标记的训练数据和带有英文标点符号标记的训练数据。

7.根据权利要求5所述的方法，其特征在于，所述字幕文本识别模型的训练数据中包括长文本训练数据，所述长文本训练数据中识别框的长度大于预设长度。

8.根据权利要求5所述的方法，其特征在于，所述按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本是否相同包括：

9.根据权利要求8所述的方法，其特征在于，所述通过字幕文本识别模型对所述识别框中的所述字幕进行识别，以得到相应的所述字幕文本还包括：

10.根据权利要求2所述的方法，其特征在于，在所述获取所述目标图像中的字幕所对应的识别框之后，方法还包括：

获取所述目标图像中所有识别框的坐标信息；

11.一种视频字幕识别装置，其特征在于，所述装置包括：

获取模块，用于获取待处理视频中的多个目标视频帧；

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。

13.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-10中任一项所述方法的步骤。