CN115797921B

CN115797921B - 字幕识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN115797921B
Application number: CN202310053894.XA
Authority: CN
Inventors: 刘艳鑫
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-05-09
Anticipated expiration: 2043-02-03
Also published as: CN115797921A

Abstract

本申请公开了一种字幕识别方法、装置、电子设备及可读存储介质，所述字幕识别方法包括：获取视频数据；检测所述视频数据对应的字幕文件；当未检测到所述视频数据对应的字幕文件时，检测所述视频数据是否具备内置字幕信息；当检测到所述视频数据具备内置字幕信息时，遍历所述视频数据的所有文本框；基于所述文本框以及预设的运动检测算法，识别所述视频数据的字幕。本申请提供的字幕识别方案提高字幕识别的准确率。

Description

字幕识别方法、装置、电子设备及可读存储介质

技术领域

本申请涉及通信领域，具体涉及一种字幕识别方法、装置、电子设备及可读存储介质。

背景技术

随着多媒体技术和网络技术的迅速发展，现代计算机技术特别是海量数据存储与传输技术的成熟，视频作为一种主要的媒体类型在人们的生活、教育、娱乐等方面日益成为不可或缺的信息载体。视频文件播放，尤其是对于观看国外影片，字幕成为一个非常重要的部分。

目前的主流播放器都提供播放视频和在线字幕匹配的功能，但是匹配成功的效率差别很大，直接造成了播放字幕体验很差。造成这种问题的主要原因是，没有足够丰富的字幕文件与视频文件对应关系能够被播放客户端使用，从而导致播放匹配的命中率不高。

发明内容

针对上述技术问题，本申请提供一种字幕识别方法、装置、电子设备及可读存储介质，可以提高字幕识别的准确率。

为解决上述技术问题，本申请提供一种字幕识别方法，包括：

获取视频数据；

检测所述视频数据对应的字幕文件；

当未检测到所述视频数据对应的字幕文件时，检测所述视频数据是否具备内置字幕信息；

当检测到所述视频数据具备内置字幕信息时，遍历所述视频数据的所有文本框；

基于所述文本框以及预设的运动检测算法，识别所述视频数据的字幕。

可选的，在本申请的一些实施例中，所述基于所述文本框以及预设的运动检测算法，识别所述视频数据的字幕，包括：

获取所述视频数据的分辨率；

基于所述分辨率，构建初始矩阵；

根据所述文本框、初始矩阵以及预设的运动检测算法，识别所述视频数据的字幕。

可选的，在本申请的一些实施例中，所述根据所述文本框、初始矩阵以及预设的运动检测算法，识别所述视频数据的字幕，包括：

基于预设的运动检测算法，计算所述文本框的运动矢量；

将当前处理的文本框确定为当前处理对象；

计算所述当前处理对象与所述文本框之间的交并比；

基于所述交并比、初始矩阵以及运动矢量，识别所述视频数据的字幕。

可选的，在本申请的一些实施例中，所述基于所述交并比、初始矩阵以及运动矢量，识别所述视频数据的字幕，包括：

基于所述交并比对所述文本框进行更新；

根据所述初始矩阵以及运动矢量，对更新后文本框进行滤除处理；

将处理后文本框的字幕确定为所述视频数据的字幕。

可选的，在本申请的一些实施例中，所述当未检测到所述视频数据对应的字幕文件时，检测所述视频数据是否具备内置字幕信息，包括：

确定所述视频数据中包含文字的帧数；

检测所述帧数是否大于预设值；

当检测到所述帧数大于预设值时，则遍历所述视频数据中的文本框；

基于所述文本框，检测所述视频数据是否具有内置字幕信息。

可选的，在本申请的一些实施例中，所述获取视频数据，包括：

获取视频链接；

根据所述视频链接下载所述视频数据，并将所述视频数据转换为预设格式的视频数据。

可选的，在本申请的一些实施例中，所述基于所述文本框以及预设的运动检测算法，识别所述视频数据的字幕之后，还包括：

根据所述内置字幕信息对所述视频数据进行语音对齐。

相应的，本申请还提供一种字幕识别装置，包括：

获取模块，用于获取视频数据；

第一检测模块，用于检测所述视频数据对应的字幕文件；

第二检测模块，用于当未检测到所述视频数据对应的字幕文件时，检测所述视频数据是否具备内置字幕信息；

遍历模块，用于当检测到所述视频数据具备内置字幕信息时，遍历所述视频数据的所有文本框；

识别模块，用于基于所述文本框以及预设的运动检测算法，识别所述视频数据的字幕。

本申请还提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

本申请还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

如上所述，本申请提供一种字幕识别方法、装置、电子设备及可读存储介质，在获取视频数据后，检测所述视频数据对应的字幕文件，当未检测到所述视频数据对应的字幕文件时，检测所述视频数据是否具备内置字幕信息，当检测到所述视频数据具备内置字幕信息时，遍历所述视频数据的所有文本框，最后，基于所述文本框以及预设的运动检测算法，识别所述视频数据的字幕。在本申请提供的字幕识别方案中，可以检测视频数据是否具有对应的字幕文件，当视频数据不具备字幕文件时，检测视频数据是否具备内置字幕信息，当检测到视频数据具备内置字幕信息时，根据视频数据的文本框以及预设的运动检测算法，识别视频数据的字幕，不依赖于视频数据的字幕文件，实现字幕识别，避免在缺乏字幕文件时无法识别视频的字幕或识别的字幕准确性不佳，可见，本方案可以提高字幕识别的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的字幕识别系统的结构示意图。

图2是本申请实施例提供的字幕识别方法的流程示意图。

图3是本申请实施例提供的字幕识别装置的结构示意图。

图4是本申请实施例提供的智能终端的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或者“单元”可以混合地使用。

以下对本申请涉及的实施例进行具体描述，需要说明的是，在本申请中对实施例的描述顺序不作为对实施例优先顺序的限定。

本申请实施例提供一种字幕识别方法、装置、存储介质及电子设备。具体地，本申请实施例的字幕识别方法可以由电子设备或服务器执行，其中，该电子设备可以为终端。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机（PC，PersonalComputer）、个人数字助理(Personal Digital Assistant，PDA)等电子设备，终端还可以包括客户端，该客户端可以是媒体播放客户端或即时通信客户端等。

例如，当该字幕识别方法运行于电子设备时，电子设备可以获取视频数据，并检测视频数据对应的字幕文件，当未检测到视频数据对应的字幕文件时，检测视频数据是否具备内置字幕信息，当检测到视频数据具备内置字幕信息时，遍历视频数据的所有文本框，最后，基于文本框以及预设的运动检测算法，识别视频数据的字幕。其中电子设备可以通过图形用户界面与用户进行交互。该电子设备将图形用户界面提供给用户的方式可以包括多种，例如，可以渲染显示在电子设备的显示屏上，或者，通过全息投影呈现图形用户界面。例如，电子设备可以包括触控显示屏和处理器，该触控显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

请参阅图1，图1为本申请实施例提供的字幕识别装置的系统示意图。该系统可以包括至少一个电子设备1000，至少一个服务器或个人电脑2000。用户持有的电子设备1000可以通过网络连接到不同的服务器或个人电脑。电子设备1000可以是具有计算硬件的电子设备，该计算硬件能够支持和执行与多媒体对应的软件产品。另外，电子设备1000还可以具有用于感测和获得用户通过在一个或者多个触控显示屏的多个点执行的触摸或者滑动操作的输入的一个或者多个多触敏屏幕。另外，电子设备1000可以通过网络与服务器或个人电脑2000相互连接。网络可以是无线网络或者有线网络，比如无线网络为无线局域网(WLAN)、局域网(LAN)、蜂窝网络、2G网络、3G网络、4G网络、5G网络等。另外，不同的电子设备1000之间也可以使用自身的蓝牙网络或者热点网络连接到其他嵌入式平台或者连接到服务器以及个人电脑等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例提供了一种字幕识别方法，该方法可以由电子设备或服务器执行。本申请实施例以字幕识别方法由电子设备执行为例来进行说明。其中，该电子设备包括触控显示屏和处理器，该触控显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。用户通过触控显示屏对图形用户界面进行操作时，该图形用户界面可以通过响应于接收到的操作指令控制电子设备本地的内容，也可以通过响应于接收到的操作指令控制服务器端的内容。例如，用户作用于图形用户界面产生的操作指令包括用于对初始音频数据进行处理的指令，处理器被配置为在接收到用户提供的指令之后启动对应的应用程序。此外，处理器被配置为在触控显示屏上渲染和绘制与应用程序相关联的图形用户界面。触控显示屏是能够感测屏幕上的多个点同时执行的触摸或者滑动操作的多触敏屏幕。用户在使用手指在图形用户界面上执行触控操作，图形用户界面在检测到触控操作时，控制应用的图形用户界面中显示对应的操作。

本申请提供的字幕识别方案，可以检测视频数据是否具有对应的字幕文件，当视频数据不具备字幕文件时，检测视频数据是否具备内置字幕信息，当检测到视频数据具备内置字幕信息时，根据视频数据的文本框以及预设的运动检测算法，识别视频数据的字幕，不依赖于视频数据的字幕文件，实现字幕识别，避免在缺乏字幕文件时无法识别视频的字幕或识别的字幕准确性不佳，可见，本方案可以提高字幕识别的准确率。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

一种字幕识别方法，包括：获取视频数据；检测视频数据对应的字幕文件；当未检测到视频数据对应的字幕文件时，检测视频数据是否具备内置字幕信息；当检测到视频数据具备内置字幕信息时，遍历视频数据的所有文本框；基于文本框以及预设的运动检测算法，识别视频数据的字幕。

请参阅图2，图2为本申请实施例提供的字幕识别方法的流程示意图。该数字幕识别方法的具体流程可以如下：

101、获取视频数据。

其中，视频数据是指连续的图像序列，其实质是由一组组连续的图像构成的，而对于图像本身而言，除了其出现的先后顺序而外，没有任何结构信息，其可以通过网络的形式进行获取，比如，可以通过统一资源定位系统（uniformresource locator，URL）链接进行获取，即，可选地，在一些实施例中，步骤“获取视频数据”，具体可以包括：

（11）获取视频链接；

（12）根据视频链接下载所述视频数据，并将视频数据转换为预设格式的视频数据。

例如，具体的，通过传入的URL链接得到当前网页的源码，使用正则表达式方法获取所需视频的URL，并保存视频的标识以及URL。随后，通过保存的视频的URL下载视频，将所有视频转化成相同格式，如mp4、avi、rmvb等，可选地，视频的格式可以根据实际需求进行调整，本申请不作限制。

102、检测视频数据对应的字幕文件。

例如，具体的，可以通过检测视频数据的文件头，进而确定视频数据是否具有对应的字幕文件，当检测到视频数据具有对应的字幕文件时，则基于该字幕文件对视频数据进行字幕识别；当未检测到视频数据具有对应的字幕文件时，则执行步骤103。

103、当未检测到视频数据对应的字幕文件时，检测视频数据是否具备内置字幕信息。

当未检测到视频数据对应的字幕文件时，则获取视频数据的内置字幕信息，需要说明的是，并非每个视频数据都具有内置字幕信息，因此，可以检测该视频数据是否具有内置字幕信息。

例如，可以检测其包含文字的帧数是否大于预设值，并基于此确定视频是否具有内置字幕信息，即，可选地，在一些实施例中，步骤“当未检测到视频数据对应的字幕文件时，检测视频数据是否具备内置字幕信息”，具体可以包括：

（21）确定视频数据中包含文字的帧数；

（22）检测帧数是否大于预设值；

（23）当检测到帧数大于预设值时，则遍历视频数据中的文本框；

（24）基于文本框，检测视频数据是否具有内置字幕信息。

例如，具体的，定义f为包含文字的帧数，初始化f为零；若识别到文本框，则f累加一。当f大于预设值时，则确定视频数据具有内置字幕信息，执行步骤104。

104、当检测到视频数据具备内置字幕信息时，遍历视频数据的所有文本框。

105、基于文本框以及预设的运动检测算法，识别视频数据的字幕。

例如，具体的，初始化一个维度与视频分辨率大小相同的全零矩阵N，初始化一个数据保存列表tb，列表tb中保存的文本框记录含以下信息：文本框识别结果s、开始时间t1、结束时间t2、文本框坐标rect和运动矢量mv，随后，基于该文本框、初始矩阵以及预设的运动检测算法，识别视频数据的字幕，即，可选地，在一些实施例中，步骤“基于文本框以及预设的运动检测算法，识别视频数据的字幕”，具体可以包括：

（31）获取视频数据的分辨率；

（32）基于分辨率，构建初始矩阵；

（33）根据文本框、初始矩阵以及预设的运动检测算法，识别视频数据的字幕。

例如，具体的，可以通过运算检测算法计算文本框的运动矢量，同时，计算当前处理的文本框与每个文本框之间的交并比，最后，根据交并比、初始矩阵以及运动矢量，识别视频数据的字幕，即，可选地，在一些实施例中，步骤“根据文本框、初始矩阵以及预设的运动检测算法，识别视频数据的字幕”，具体可以包括：

（41）基于预设的运动检测算法，计算文本框的运动矢量；

（42）将当前处理的文本框确定为当前处理对象；

（43）计算当前处理对象与文本框之间的交并比；

（44）基于交并比、初始矩阵以及运动矢量，识别视频数据的字幕。

例如，具体的，将当前处理的文本框确定为当前处理对象，计算当前处理对象与每个文本框之间的交并比，并基于该交并比以及当前处理对象与文本框之间内容差异，对文本框进行更新；然后，利用初始矩阵以及运动矢量，对更新后文本框进行滤除处理，即，滤除文本框中无用的文本信息，从而识别视频数据的字幕，即，可选地，在一些实施例中，步骤“基于交并比、初始矩阵以及运动矢量，识别视频数据的字幕”，具体可以包括：

（51）基于交并比对所述文本框进行更新；

（52）根据初始矩阵以及运动矢量，对更新后文本框进行滤除处理；

（53）将处理后文本框的字幕确定为视频数据的字幕。

例如，具体的，若矩阵N中的点（x,y）位于文本框记录Ri的区域内，则N（x,y）累加一。

初始化一个数据保存列表tb，列表tb中保存的文本框记录含以下信息：文本框识别结果s、开始时间t1、结束时间t2、文本框坐标rect和运动矢量mv。通过文本区域检测工具逐帧处理视频中的每帧图像，若识别到文本框，则f累加一，通过运动检测算法（例如：帧差法、光流法等等），计算每个文本框记录Ri的运动矢量mv。计算文本框记录Ri的区域与列表tb中每一个文本框记录tbi的区域重合度的交并比（Intersection-over-Union，IoU），其中，IOU是目标检测中使用的一个概念,是产生的候选框与原标记框的交叠率,即它们的交集与并集的比值，在本申请中，候选框为当前处理的文本框，原标记框为数据保存列表的文本框，通过下式（1）计算IoU，式（1）记录IoU最大的文本框记录tbmax，以及最大值IoUmax，

当IoUmax大于阈值，若文字相同，文本框记录tbmax的结束时间t2更新为当前帧号。更新tbmax的运动矢量mv，可采用最大值法或者平均值法。

当IoUmax大于阈值,若文字不同，将该文本框记录Ri保存到列表tb中，并初始化开始时间t1、结束时间t2为当前帧号。

当IoUmax小于阈值，但tb列表中有和Ri文字识别结果相同的记录tbi，则更新tbi的结束时间t2为当前帧号，tbi的区域更新为Ri的区域。

当IoUmax小于阈值，并且tb列表中没有和Ri文字识别结果相同的记录tbi，将该文本框记录Ri保存到列表tb中，并初始化开始时间t1、结束时间t2为当前帧号。

处理完当前视频的所有帧之后，遍历tb列表中的所有文本框记录，将相近时间段内出现的多个文本框记录，合并成一个文本框记录。例如：视频字幕可能会出现两行文字，则将这两行文字合并成一行文字。

紧接着，对无效字幕进行过滤，具体如下：

舍弃一闪而过的文字：根据步骤5.2.1中得到的矩阵N，矩阵N中所有元素除以视频总帧数，将矩阵N中元素大于阈值γ(阈值γ可根据需求设定)的区域设为一，小于阈值γ的区域设为零。计算矩阵N中文本框所在区域内的数值之和与文本框面积之比R，如果R小于阈值(阈值可根据需求设定)，则舍弃该文本框记录。

舍弃运动文字：如果文本框记录的运动矢量mv的模大于一定阈值ι（ι可根据需求设定），则认为该文本框记录为运动文字，例如：移动的弹幕、滚动的弹幕、视频中移动的车牌等等。认为这些文字与音频无关，则舍弃该文本框记录。

舍弃关键词：定义一个关键词忽略列表，该列表由视频中常见的文字信息构成，例如：CCTV、湖南卫视、浙江卫视等等。若文本框记录中文字出现在列表中，且该文字出现的持续时长(t2-t1)占总帧数的比值大于阈值β（阈值β可根据需求调节），则舍弃该文本框记录。

舍弃特定标签：若该文本框记录出现持续时长(t2-t1)与总帧数的比值大于阈值λ（阈值λ可根据需求调节，阈值λ大于阈值β），例如：一个视频中该文本框记录持续出现时长占总时长的80%，则认为该文本框记录中的文字为特定标签，并不是语音中出现的，则舍弃该文本框记录。

基于分类器舍弃文字：统计该区域两个字幕文本间的切换时间间隔、字幕文本的长度、对应存在时长等特征，训练分类器，分类方法可以选择决策树、逻辑回归、朴素贝叶斯、神经网络等算法中的一种或几种相结合，确定该文本框记录是否舍弃。

可选地，在一些实施例中，为了便于用户观看视频，在识别视频数据的字幕后，可以根据内置字幕信息对视频数据进行语音对齐。

例如，具体的，将内置字幕信息输入到预构建的字级对齐模型中进行运算，输出与初视频数据对应的字级对齐结果。其中字级对齐模型可以为预先构建的模型，例如可以是一个预先构建的端到端神经网络模型。在此基础上，还可以进一步通过音素级对齐模型，获取与视频数据对应的音素级对齐结果，从而实现字级和音素级的二次对齐

以上完成本申请的字幕识别流程。

由上可知，本申请提供一种字幕识别方法，在获取视频数据后，检测视频数据对应的字幕文件，当未检测到视频数据对应的字幕文件时，检测视频数据是否具备内置字幕信息，当检测到视频数据具备内置字幕信息时，遍历视频数据的所有文本框，最后，基于文本框以及预设的运动检测算法，识别视频数据的字幕，在本申请提供的字幕识别方案中，可以检测视频数据是否具有对应的字幕文件，当视频数据不具备字幕文件时，检测视频数据是否具备内置字幕信息，当检测到视频数据具备内置字幕信息时，根据视频数据的文本框以及预设的运动检测算法，识别视频数据的字幕，不依赖于视频数据的字幕文件，实现字幕识别，避免在缺乏字幕文件时无法识别视频的字幕或识别的字幕准确性不佳，可见，本方案可以提高字幕识别的准确率。

为便于更好的实施本申请的字幕识别方法，本申请还提供一种基于上述字幕识别装置。其中名词的含义与上述字幕识别方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本申请提供的字幕识别装置的结构示意图，其中该字幕识别装置可以包括获取模块201、第一检测模块202、第二检测模块203、遍历模块204以及识别模块205，具体可以如下：

获取模块201，用于获取视频数据。

其中，可以通过网络的形式进行获取，比如，可以通过统一资源定位系统（uniformresource locator，URL）链接进行获取，即，可选地，在一些实施例中，获取模块201具体可以用于：获取视频链接；根据视频链接下载所述视频数据，并将视频数据转换为预设格式的视频数据。

第一检测模块202，用于检测视频数据对应的字幕文件。

第二检测模块203，用于当未检测到视频数据对应的字幕文件时，检测视频数据是否具备内置字幕信息。

例如，可以检测其包含文字的帧数是否大于预设值，并基于此确定视频是否具有内置字幕信息，即，可选地，在一些实施例中，第二检测模块203具体可以用于：确定视频数据中包含文字的帧数；检测帧数是否大于预设值；当检测到帧数大于预设值时，则遍历视频数据中的文本框；基于文本框，检测视频数据是否具有内置字幕信息。

遍历模块204，用于当检测到视频数据具备内置字幕信息时，遍历视频数据的所有文本框。

识别模块205，用于基于文本框以及预设的运动检测算法，识别视频数据的字幕。

以上完成本申请的字幕识别流程。

由上可知，本申请提供一种字幕识别装置，获取模块201在获取视频数据后，第一检测模块202检测视频数据对应的字幕文件，当未检测到视频数据对应的字幕文件时，第二检测模块203检测视频数据是否具备内置字幕信息，当检测到视频数据具备内置字幕信息时，遍历模块204遍历视频数据的所有文本框，最后，识别模块205基于文本框以及预设的运动检测算法，识别视频数据的字幕，在本申请提供的字幕识别方案中，可以检测视频数据是否具有对应的字幕文件，当视频数据不具备字幕文件时，检测视频数据是否具备内置字幕信息，当检测到视频数据具备内置字幕信息时，根据视频数据的文本框以及预设的运动检测算法，识别视频数据的字幕，不依赖于视频数据的字幕文件，实现字幕识别，避免在缺乏字幕文件时无法识别视频的字幕或识别的字幕准确性不佳，可见，本方案可以提高字幕识别的准确率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

本发明实施例还提供一种电子设备500，如图4所示，该电子设备500可以集成上述字幕识别装置，还可以进一步包括射频（RF，Radio Frequency）电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、无线保真（WiFi，Wireless Fidelity)模块507、包括有一个或者一个以上处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解，图4中示出的电子设备500结构并不构成对电子设备500的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路501可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器508处理；另外，将涉及上行的数据发送给基站。通常，RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块（SIM，SubscriberIdentity Module）卡、收发信机、耦合器、低噪声放大器（LNA，Low NoiseAmplifier）、双工器等。此外，RF电路501还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（GSM，Global Systemof Mobile communication）、通用分组无线服务（GPRS ，GeneralPacketRadio Service）、码分多址（CDMA，Code DivisionMultiple Access）、宽带码分多址（WCDMA，Wideband CodeDivision Multiple Access）、长期演进（LTE，Long TermEvolution)、电子邮件、短消息服务（SMS，Short Messaging Service)等。

存储器502可用于存储软件程序以及模块，处理器508通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及信息处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、目标数据播放功能等）等；存储数据区可存储根据电子设备500的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器508和输入单元503对存储器502的访问。

输入单元503可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元503可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器508，并能接收处理器508发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元503还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元504可用于显示由用户输入的信息或提供给用户的信息以及电子设备500的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元504可包括显示面板，可选的，可以采用液晶显示器（LCD，Liquid CrystalDisplay）、有机发光二极管（OLED，Organic Light-EmittingDiode）等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器508以确定触摸事件的类型，随后处理器508根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

电子设备500还可包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备500移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等;至于电子设备500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路506、扬声器，传声器可提供用户与电子设备500之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路506接收后转换为音频数据，再将音频数据输出处理器508处理后，经RF电路501以发送给比如另一电子设备500，或者将音频数据输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔，以提供外设耳机与电子设备500的通信。

WiFi属于短距离无线传输技术，电子设备500通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块507，但是可以理解的是，其并不属于电子设备500的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器508是电子设备500的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行电子设备500的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器508可包括一个或多个处理核心；优选的，处理器508可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器508中。

电子设备500还包括给各个部件供电的电源509（比如电池），优选的，电源可以通过电源管理系统与处理器508逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源数据指示器等任意组件。

尽管未示出，电子设备500还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备500中的处理器508会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器508来运行存储在存储器502中的应用程序，从而实现各种功能：

获取视频数据；检测视频数据对应的字幕文件；当未检测到视频数据对应的字幕文件时，检测视频数据是否具备内置字幕信息；当检测到视频数据具备内置字幕信息时，遍历视频数据的所有文本框；基于文本框以及预设的运动检测算法，识别视频数据的字幕。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文字幕识别方法的详细描述，此处不再赘述。

由上可知，本发明实施例的电子设备500可以检测视频数据是否具有对应的字幕文件，当视频数据不具备字幕文件时，检测视频数据是否具备内置字幕信息，当检测到视频数据具备内置字幕信息时，根据视频数据的文本框以及预设的运动检测算法，识别视频数据的字幕，不依赖于视频数据的字幕文件，实现字幕识别，避免在缺乏字幕文件时无法识别视频的字幕或识别的字幕准确性不佳，可见，本方案可以提高字幕识别的准确率。

为此，本申请实施例还提供一种存储介质，其上存储有多条指令，所述指令适于处理器进行加载，以执行上述字幕识别方法中的步骤。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器（ROM，Read OnlyMemory）、随机存取记忆体（RAM，Random AccessMemory）、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种字幕识别方法中的步骤，因此，可以实现本发明实施例所提供的任一种字幕识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的字幕识别方法、装置、系统及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种字幕识别方法，其特征在于，包括：

获取视频数据；

检测所述视频数据对应的字幕文件；

获取所述视频数据的分辨率；

基于所述分辨率，构建初始矩阵，所述初始矩阵为一个维度与视频分辨率大小相同的全零矩阵；

基于预设的运动检测算法，计算所述文本框的运动矢量；

将当前处理的文本框确定为当前处理对象；

计算所述当前处理对象与所述文本框之间的交并比；

基于所述交并比以及所述当前处理对象与所述文本框之间内容差异对所述文本框进行更新；

将处理后文本框的字幕确定为所述视频数据的字幕。

2.根据权利要求1所述的方法，其特征在于，所述当未检测到所述视频数据对应的字幕文件时，检测所述视频数据是否具备内置字幕信息，包括：

确定所述视频数据中包含文字的帧数；

检测所述帧数是否大于预设值；

3.根据权利要求1或2所述的方法，其特征在于，所述获取视频数据，包括：

获取视频链接；

4.根据权利要求1或2所述的方法，其特征在于，所述基于所述文本框以及预设的运动检测算法，识别所述视频数据的字幕之后，还包括：

根据所述内置字幕信息对所述视频数据进行语音对齐。

5.一种字幕识别装置，其特征在于，包括：

获取模块，用于获取视频数据；

第一检测模块，用于检测所述视频数据对应的字幕文件；

识别模块，用于获取所述视频数据的分辨率；基于所述分辨率，构建初始矩阵；基于预设的运动检测算法，计算所述文本框的运动矢量；将当前处理的文本框确定为当前处理对象；计算所述当前处理对象与所述文本框之间的交并比；基于所述交并比以及所述当前处理对象与所述文本框之间内容差异对所述文本框进行更新；根据所述初始矩阵以及运动矢量，对更新后文本框进行滤除处理；将处理后文本框的字幕确定为所述视频数据的字幕，其中，所述初始矩阵为一个维度与视频分辨率大小相同的全零矩阵。

6.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述字幕识别方法的步骤。

7.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述字幕识别方法的步骤。