CN111582241A

CN111582241A - 视频字幕识别方法、装置、设备及存储介质

Info

Publication number: CN111582241A
Application number: CN202010485647.3A
Authority: CN
Inventors: 彭俊石; 吴飞; 彭艺
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-08-25
Anticipated expiration: 2040-06-01
Also published as: CN111582241B

Abstract

本公开提供一种视频字幕识别方法、装置、设备及存储介质，涉及计算机视觉技术领域。该方法包括：从包含字幕的待识别视频中获取多帧图像；对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果；获取所述多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离；基于所述相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像；获取所述多帧连续的相似图像的初始字幕识别结果的语义可信度；根据所述语义可信度确定所述多帧连续的相似图像的最终字幕识别结果。该方法实现了一定程度上提高视频字幕的识别结果准确性。

Description

视频字幕识别方法、装置、设备及存储介质

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及一种视频字幕识别方法、装置、设备及可读存储介质。

背景技术

随着计算机技术及互联网的发展，用户可接触到的视频的语言种类也日趋丰富。用户处理各种语言的视频时，可通过视频字幕提取技术从视频中提取、识别字幕，用于各种用途，例如视频分类。

对视频字幕进行识别时通常采用光学字符识别(Optical CharacterRecognition,OCR)技术。OCR解决方案一般包含两个步骤：1)文本区域检测：找到包含文字的区域；2)文本识别：识别区域中的文字。相关技术中采用OCR识别模型进行字幕文本识别时，由于视频背景图像较为复杂，可能发生某些字符识别错误的情况，字幕识别结果的准确率较低。相关技术中在进行文本区域检测时采用CTPN或EAST基于深度学习的算法，在相对简单的场景下，检测效果较好，但耗时较长，检测效率较低。相关技术中OCR识别模型在针对具体的应用场景进行识别时具有局限性，例如在对视频字幕进行识别时，视频字幕的背景复杂，采用相关技术中的OCR识别模型进行字幕识别的准确性较差；又例如没有针对小语种视频字幕的OCR识别方法，无法识别出小语种视频的字幕。

如上所述，如何提供能够准确识别视频中字幕的方法成为亟待解决的问题。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种视频字幕识别方法、装置、设备及可读存储介质，至少在一定程度上提高视频字幕识别的准确性。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提供一种视频字幕识别方法，包括：从包含字幕的待识别视频中获取多帧图像；对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果；获取所述多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离；基于所述相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像；获取所述多帧连续的相似图像的初始字幕识别结果的语义可信度；根据所述语义可信度确定所述多帧连续的相似图像的最终字幕识别结果。

根据本公开的一实施例，在所述从包含字幕的待识别视频中获取多帧图像之前，所述方法还包括：预定间隔从所述待识别视频中选取多帧检测图像；获得所述多帧检测图像的字幕区域边缘；统计所述多帧检测图像的字幕区域边缘以确定所述待识别视频的字幕区域的上边缘和下边缘。

根据本公开的一实施例，所述对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果包括：根据所述字幕区域的上边缘和下边缘从所述多帧图像中提取字幕识别区域；基于端到端神经网络字符识别模型对所述字幕识别区域中的字幕进行识别获得所述初始字幕识别结果。

根据本公开的一实施例，所述端到端神经网络字符识别模型包括卷积层、循环层和转录层；所述基于端到端神经网络字符识别模型对所述字幕识别区域中的字幕进行识别获得所述初始字幕识别结果包括：通过所述卷积层从所述字幕识别区域中提取特征序列；通过所述循环层预测所述特征序列对应标签的概率分布；通过所述转录层根据所述特征序列对应标签的概率分布获得所述初始字幕识别结果。

根据本公开的一实施例，所述统计所述多帧检测图像的字幕区域边缘以确定所述待识别视频的字幕区域的上边缘和下边缘包括：对所述多帧检测图像的字幕区域边缘进行统计获得具有相同的字幕区域上边缘的检测图像数量；对所述多帧检测图像的字幕区域边缘进行统计获得具有相同的字幕区域下边缘的检测图像数量；根据所述具有相同的字幕区域上边缘的检测图像数量确定所述字幕区域的上边缘；根据所述具有相同的字幕区域下边缘的检测图像数量确定所述字幕区域的下边缘。

根据本公开的一实施例，所述基于所述相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像包括：根据所述编辑距离计算所述相邻两帧图像的初始字幕识别结果之间的相似度；获得所述多帧连续的相似图像，所述多帧连续的相似图像中任意相邻两帧图像的初始字幕识别结果之间的相似度大于预设相似度阈值。

根据本公开的一实施例，所述获取所述多帧连续的相似图像的初始字幕识别结果的语义可信度包括：通过语言模型分别计算所述多帧连续的相似图像的初始字幕识别结果的语义可信度；所述根据所述语义可信度确定所述多帧连续的相似图像的最终字幕识别结果包括：选取语义可信度最大的图像对应的初始字幕识别结果作为所述多帧连续的相似图像的最终字幕识别结果。

根据本公开的一实施例，所述方法还包括：获得所述多帧连续的相似图像在所述待识别视频中的时间戳；根据所述时间戳获得所述最终字幕识别结果对应的音频在所述待识别视频中的延续时间。

根据本公开的一实施例，在所述对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果之前，所述方法还包括：从训练视频中获取背景图像，所述背景图像包含预定语言字幕区域；从所述背景图像中排除所述预定语言字幕区域获得感兴趣区域；获取预定语言文本；将所述预定语言文本融合至所述背景图像的感兴趣区域，生成包含预定语言字幕的合成图像；基于所述合成图像和所述预定语言文本获得预定语言的训练图像和标签；利用所述训练图像和标签训练端到端神经网络字符识别模型；所述对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果包括：基于所述端到端神经网络字符识别模型对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果。

根据本公开的一实施例，所述将所述预定语言文本融合至所述背景图像的感兴趣区域，生成包含预定语言字幕的合成图像包括：对所述预定语言文本进行模糊处理获得仿真文本；将所述仿真文本粘贴至所述背景图像的感兴趣区域，生成所述合成图像；所述基于所述合成图像和所述预定语言文本获得预定语言的训练图像和标签包括：根据将所述仿真文本粘贴至所述感兴趣区域的位置从所述合成图像中获得所述训练图像；将所述预定语言文本作为所述训练图像的标签。

根据本公开的一实施例，所述将所述预定语言文本融合至所述背景图像的所述感兴趣区域以生成包含预定语言字幕的合成图像包括：将所述预定语言文本以多种字体样式粘贴到所述背景图像的所述感兴趣区域以生成所述合成图像。

根据本公开的一实施例，所述获取预定语言文本包括：获取预定语言文本段落；对所述预定语言文本段落进行分句获得多个预定语言文本句；从所述多个预定语言文本句中选取字符数量小于预设句长阈值的预定语言文本句作为所述预定语言文本，所述预设句长阈值相关于所述背景图像的宽度。

根据本公开的再一方面，提供一种视频字幕识别装置，包括：视频分帧模块，用于从包含字幕的待识别视频中获取多帧图像；字幕识别模块，用于对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果；距离计算模块，用于获取所述多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离；相似判断模块，用于基于所述相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像；结果矫正模块，用于获取所述多帧连续的相似图像的初始字幕识别结果的语义可信度；根据所述语义可信度确定所述多帧连续的相似图像的最终字幕识别结果。

根据本公开的一实施例，所述装置还包括：检测图像获取模块，用于以预定间隔从所述待识别视频中选取多帧检测图像；边缘检测模块，用于获得所述多帧检测图像的字幕区域边缘；边缘统计模块，用于统计所述多帧检测图像的字幕区域边缘以确定所述待识别视频的字幕区域的上边缘和下边缘。

根据本公开的一实施例，所述装置还包括：识别区域提取模块，用于根据所述字幕区域的上边缘和下边缘从所述多帧图像中提取字幕识别区域；所述字幕识别模块包括端到端神经网络字符识别模型，所述端到端神经网络字符识别模型用于对所述字幕识别区域中的字幕进行识别获得所述初始字幕识别结果。

根据本公开的一实施例，所述端到端神经网络字符识别模型包括卷积层、循环层和转录层，其中，所述卷积层用于从所述字幕识别区域中提取特征序列；所述循环层用于预测所述特征序列对应标签的概率分布；所述转录层用于根据所述特征序列对应标签的概率分布获得所述初始字幕识别结果。

根据本公开的一实施例，所述边缘统计模块，还用于对所述多帧检测图像的字幕区域边缘进行统计获得具有相同的字幕区域上边缘的检测图像数量；对所述多帧检测图像的字幕区域边缘进行统计获得具有相同的字幕区域下边缘的检测图像数量；根据所述具有相同的字幕区域上边缘的检测图像数量确定所述字幕区域的上边缘；根据所述具有相同的字幕区域下边缘的检测图像数量确定所述字幕区域的下边缘。

根据本公开的一实施例，所述相似判断模块，还用于根据所述编辑距离计算所述相邻两帧图像的初始字幕识别结果之间的相似度；获得所述多帧连续的相似图像，所述多帧连续的相似图像中任意相邻两帧图像的初始字幕识别结果之间的相似度大于预设相似度阈值。

根据本公开的一实施例，所述结果矫正模块，还用于通过语言模型分别计算所述多帧连续的相似图像的初始字幕识别结果的语义可信度；选取语义可信度最大的图像对应的初始字幕识别结果作为所述多帧连续的相似图像的最终字幕识别结果。

根据本公开的一实施例，所述装置还包括：时间获取模块，用于获得所述多帧连续的相似图像在所述待识别视频中的时间戳；根据所述时间戳获得所述最终字幕识别结果对应的音频在所述待识别视频中的延续时间。

根据本公开的一实施例，所述装置方法还包括：背景获取模块，用于从训练视频中获取背景图像，所述背景图像包含预定语言字幕区域；感兴趣区域(ROI)选取模块，用于从所述背景图像中排除所述预定语言字幕区域获得感兴趣区域；文本获取模块，用于获取预定语言文本；图像融合模块，用于将所述预定语言文本融合至所述背景图像的感兴趣区域，生成包含预定语言字幕的合成图像；训练集生成模块，用于基于所述合成图像和所述预定语言文本获得预定语言的训练图像和标签；模型训练模块，用于利用所述训练图像和标签训练端到端神经网络字符识别模型；所述字幕识别模块包括所述端到端神经网络字符识别模型，所述端到端神经网络字符识别模型用于对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果。

根据本公开的一实施例，所述图像融合模块，还用于对所述预定语言文本进行模糊处理获得仿真文本；将所述仿真文本粘贴至所述背景图像的感兴趣区域，生成所述合成图像；所述训练集生成模块，还用于根据将所述仿真文本粘贴至所述感兴趣区域的位置从所述合成图像中获得所述训练图像；将所述预定语言文本作为所述训练图像的标签。

根据本公开的一实施例，所述图像融合模块，还用于将所述预定语言文本以多种字体样式粘贴到所述背景图像的所述感兴趣区域以生成所述合成图像。

根据本公开的一实施例，所述文本获取模块，还用于获取预定语言文本段落；对所述预定语言文本段落进行分句获得多个预定语言文本句；从所述多个预定语言文本句中选取字符数量小于预设句长阈值的预定语言文本句作为所述预定语言文本，所述预设句长阈值相关于所述背景图像的宽度。

根据本公开的再一方面，提供一种设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现如上述任一种方法。

根据本公开的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上述任一种方法。

本公开的实施例提供的视频字幕识别方法，通过从包含字幕的待识别视频中获取多帧图像，对多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果，然后获取多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离，并基于编辑距离获得多帧连续的相似图像，再根据多帧连续的相似图像的初始字幕识别结果的语义可信度确定多帧连续的相似图像的最终字幕识别结果，从而可实现一定程度上提高视频字幕的识别结果准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1示出本公开实施例中一种系统结构的示意图。

图2示出本公开实施例中一种视频字幕识别方法的流程图。

图3是根据一示例性实施例示出的一种视频字幕识别模型训练方法的流程图。

图4A是根据一示例性实施例示出的一种ROI选取过程示意图。

图4B是根据一示例性实施例示出的另一种ROI选取过程示意图。

图5示出了图3中所示的步骤S306在一实施例中的处理过程示意图。

图6示出了图3中所示的步骤S308在一实施例中的处理过程示意图。

图7A是根据一示例性实施例示出的一种训练图像获得过程示意图。

图7B是根据一示例性实施例示出的另一种训练图像获得过程示意图。

图8是根据图3至图7示出的一种训练图像生成流程示意图。

图9示出本公开实施例中另一种视频字幕识别方法的流程图。

图10是根据图9示出的一种字幕区域检测流程示意图。

图11A示出了图9中所示的步骤S2044在一实施例中的处理过程示意图。

图11B是根据图11A示出的一种端到端神经网络字符识别模型结构示意图。

图11C是根据图11B示出的另一种端到端神经网络字符识别模型结构示意图。

图12示出了图2中所示的步骤S208在一实施例中的处理过程示意图。

图13示出了图2中所示的步骤S210至步骤212在一实施例中的处理过程示意图。

图14示出本公开实施例中再一种视频字幕识别方法的流程图。

图15A是根据图2、图9至图14示出的一种视频字幕流程识别示意图。

图15B是根据图15A示出的一种相似图像集的获得过程示意图。

图16示出本公开实施例中一种视频字幕识别装置的框图。

图17示出本公开实施例中另一种视频字幕识别装置的框图。

图18示出本公开实施例中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施例使得本公开将更加全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，在本公开的描述中，除非另有明确的规定和限定，“连接”等术语应做广义理解，例如，可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连。“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉(Computer Vision,CV)技术计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

图1示出了可以应用本公开的视频字幕识别方法或视频字幕识别装置的示例性系统架构10。

如图1所示，系统架构10可以包括终端设备102、网络104、服务器106和数据库108。终端设备102可以是具有显示屏并且支持输入、输出的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。网络104用以在终端设备102和服务器106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。服务器106可以是提供各种服务的服务器或服务器集群等。数据库108可以为置于服务器上的大型数据库软件，也可以为安装在计算机上的小型数据库软件，用于存储数据。

用户可以使用终端设备102通过网络104与服务器106和数据库108交互，以接收或发送数据等。例如用户通过网络104从服务器106上将包含待识别视频下载到终端设备102上，然后通过终端设备102上的视频处理软件从该视频中获取多帧图像。又例如用户通过网络104从数据库108中获取预定语言文本，然后通过终端设备102上的图像处理软件将预定语言文本与从背景图像中选取的感兴趣区域融合以生成合成图像。再例如用户可在终端设备102上进行操作，通过网络104将训练图像发送到数据库108进行存储。

在服务器106也可通过网络104从数据库108接收数据或向数据库108发送数据等。例如服务器106可为后台处理服务器，用于通过网络104从数据库108获取的训练图像对字幕识别模型进行训练。又例如服务器106可用于对通过网络104从终端设备102获取的包含字幕的待识别视频中的字幕进行识别，并将初始字幕识别结果反馈给终端设备102。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

本公开实施例提供的技术方案涉及CV技术的OCR技术以及及其ML等方面，先通过具体的实施例进行举例说明。

OCR技术是CV领域的分支之一，是计算机科学的重要组成部分。OCR技术是利用光学技术和计算机技术把图像中的文字读取出来。相关技术中OCR识别模型识别视频字幕文本时可能发生字符误识，导致识别视频字幕的准确性较差。因此，本公开提供了一种视频字幕识别方法，通过从包含字幕的待识别视频中按顺序获取多帧图像，利用字幕识别模型对多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果，然后获取多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离，并基于编辑距离获得多帧连续的相似图像，再通过语言模型从多帧连续的相似图像的初始字幕识别结果中选取最终字幕识别结果，从而可实现一定程度上提高视频字幕的识别结果准确性。

图2是根据一示例性实施例示出的一种视频字幕识别方法的流程图。如图2所示的方法例如可以应用于上述系统的服务器，也可以应用于上述系统的终端设备。

参考图2，本公开实施例提供的方法20可以包括以下步骤。

在步骤S202中，从包含字幕的待识别视频中获取多帧图像。对视频进行分帧获取连续的多帧图像，可通过设定初始帧偏移量以跳过视频开始的音乐部分，获得帧数连续的带有字幕的视频图像，例如设定帧偏移为5500、或6000、或6500等等，将分帧设定为每秒10帧、或每秒8帧、或每秒12帧等等。

在步骤S204中，对多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果。可采用OCR识别模型对获得的各帧图像中的字幕进行识别，将识别结果写入文件，同时写入与之匹配的帧序数和时间戳。

在一些实施例中，例如，可先通过边缘检测算法获得该视频的字幕区域，根据字幕区域从连续的多帧图像中提取出字幕识别区域，然后将连续的多帧图像的字幕识别区域通过由卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)构成的OCR识别模型进行识别，以便更有针对性地进行字幕识别。CRNN的具体实施方式可参照图11A至图11C。获得字幕区域的具体实施方式可参照图9至图10。

在另一些实施例中，例如，可先通过基于深度学习的文本检测算法(例如CTPN、EAST)获得该视频的字幕区域，根据字幕区域从连续的多帧图像中提取出字幕识别区域，然后将多帧图像的字幕识别区域通过OCR识别模型对获得的各帧视频图像中的字幕进行识别，获得包含识别出的字幕文本的初始识别结果。

在步骤S206中，获取多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离。视频音轨中同一句话可延续多帧图像，因此连续的多帧图像中相邻两帧图像中的字幕可为同一条字幕。在对某些帧进行字幕识别时可能由于背景图像复杂等原因发生字符误识现象，在这种情况下，如果以相邻两帧的初始字幕识别结果的所有字符是否完全相同来判定这两相邻在是否对应同一条字幕不太合理，因此可以通过计算相邻两帧图像的初始字幕识别结果之间的编辑距离来判断相邻两帧是否可能对应同一条字幕。

对连续的多帧图像进行字幕识别获得的初始识别结果为字符序列，又称字符串。字符串编辑距离是指利用字符操作，把字符串A转换成字符串B所需要的最少操作数，其中，字符操作包括删除一个字符、插入一个字符以及修改一个字符。例如对于字符串“if”和“iff”，可以通过插入一个“f”或者删除一个“f”来进行互相转换。两个字符串的编辑距离越小，则认为它们越相似。如果两个字符串相等，则它们的编辑距离为0(不需要任何操作)。

在步骤S208中，基于相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像。可选择初始识别结果之间的编辑距离小于预设阈值的相邻两帧图像为相似图像，以获得同一句话的多帧连续的相似图像。可将对应同一句话的多帧相似图像、各帧相似图像对应的初始识别结果及多帧相似图像时间戳记录到一个相似图像集文件中以便后续处理，对完整视频进行字幕识别及相似判断之后可获得多个相似图像集文件。

在步骤S210中，获取多帧连续的相似图像的初始字幕识别结果的语义可信度。由于在对某些帧进行字幕识别时可能发生个别字符误识现象，可通过语言模型获得多个初始字幕识别结果的语义可信度，即判断各个初始字幕识别结果作为字符串符合人类说话习惯的概率。

在步骤S212中，根据语义可信度确定多帧连续的相似图像的最终字幕识别结果。可选取语义可信度最大的初始字幕识别结果作为这些多帧相似图像的最终字幕识别结果，具体实施方式可参照图13。可采用图5中对获得的该语言文本进行清理后生成的字典作为语料库，对语言模型进行训练。

在一些实施例中，例如对于一些最小字符单位可作为具有完整含义的词的语种(例如属于阿尔泰语系的韩语、日语等)，相邻字符之间可形成具有特定含义的词，可先将对多帧连续的相似图像进行字幕识别获得的初始字幕识别结果进行分词后再输入语言模型进行概率判断，以获得最终字幕识别结果。

在另一些实施例中，例如，对于一些最小字符单位为字母的语种(例如拉丁语系语言)，由字母构成的具有完整含义的单词之间由空格隔开，可将对多帧连续的相似图像进行字幕识别获得的初始字幕识别结果直接输入语言模型进行概率判断，以获得最终字幕识别结果。

根据本公开实施例提供的视频字幕识别方法，通过从包含字幕的待识别视频中获取多帧图像，对多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果，然后获取多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离，并基于编辑距离获得多帧连续的相似图像以获得对应同一条字幕的连续帧，再根据多帧连续的相似图像的初始字幕识别结果的语义可信度确定最终字幕识别结果以矫正其它初始字幕识别结果，从而可实现一定程度上提高视频字幕的识别结果准确性。

图3是根据一示例性实施例示出的一种视频字幕识别模型训练方法的流程图。如图3所示的方法例如可以应用于上述系统的服务器，也可以应用于上述系统的终端设备。

参考图3，本公开实施例提供的方法30可以包括以下步骤。

在步骤S302中，从训练视频中获取背景图像，背景图像包含预定语言字幕区域。可以以预定间隔从训练视频中获取背景图像，例如以跳帧方式(即按照一定的帧间隔)或以预定的时间间隔从训练视频中获取背景图像。包含预定语言字幕的训练视频的场景通常为使用该预定语言，尽可能获取多种类、场景丰富的预定语言训练视频，例如若待训练的字幕识别模型将针对日语视频的字幕识别以生产音频语料(该音频语料可用于训练日语视频场景的语音识别模型)，可筛选具有多样性场景的带有日语字幕的训练视频，如剧情类型可包括爱情、职场、古装、都市等等，通过丰富视频的多样性，可提供场景多样的背景图像，同时尽可能的从更多视频中获取背景图像，以获得覆盖不同色调、分辨率等场景下的背景图像，以获得丰富的训练图像，使待训练的字幕识别模型可适应复杂多变的视频场景。从训练视频中获取的一帧背景图像为视频完整的一帧图像，其上可带有预定语言字幕。

可以跳帧的方式从包含训练视频中获取背景图像。在一些实施例中，例如，可根据视频的帧率设定跳帧间隔，如视频的帧率为30时，相邻几帧之间的图像变化较小，此类图像采样不必过多以免影响背景图像的多样性，因此可以设定间隔1s(或2s等)进行背景图像采样，获得多样的背景图像。

在步骤S304中，从背景图像中排除预定语言字幕区域获得感兴趣区域(ROI)。从视频中选取的背景图像包含字幕，字幕通常都在背景图像的底部，字幕字体样式偏亮色，为仿照将采用字幕识别模型的真实视频场景中的字幕背景图像，可将获取的背景图像排除有字幕的区域，以选取背景图像的ROI，用于后续与已知内容的预定语言文本融合以模拟真实场景中带有字幕的视频图像。

在一些实施例中，例如，可将背景图像截掉包含预定语言字幕的区域获得ROI。根据对各分辨率视频样本的统计，可把背景图像底部p/q的区域截掉，例如p取1、q取4，或p取2、q取9，或p取3、q取11等等，去除大部分视频的原有字幕区域，截取后剩下的无字幕的背景图像(1-p)/q区域可以作为ROI，用于与预定语言文本融合。

在另一些实施例中，例如，可在背景图像上部(1-p)/q的区域随机截取预设高度的区域获得ROI，此时获得的ROI与预定语言文本融合获得的合成图像可直接作为训练图像。在从多帧背景图像中选取ROI时，可设定多个不同的预设高度进行截取，以增加训练图像的多样性。

在步骤S306中，获取预定语言文本。获取预定语言的大量文本，尽可能考虑覆盖该语种的全部字符，以训练一个针对预定语言视频场景的字幕识别模型，例如为了覆盖所有常用字符，可以获取大量包括新闻、娱乐、历史、军事、推特、维基百科等内容领域的文本。

在步骤S308中，将预定语言文本融合至背景图像的感兴趣区域，生成包含预定语言字幕的合成图像。

在一些实施例中，例如，ROI通过将背景图像截掉包含预定语言字幕的区域获得，可将预定语言文本以预定字体大小随机选取ROI中的位置与ROI进行融合。预定语言文本与ROI融合时预定字体大小可有不同的选择，例如同一句文本，以三种不同的字体大小与ROI融合则生产了三个合成图像，若在只有5百万行的文本时需要生产2千万帧合成图像，可将各句文件以四种不同的字体大小与ROI融合以生成多样化的合成图像。

在另一些实施例中，例如，ROI通过在背景图像上部(1-p)/q的区域随机截取预设高度的区域获得，可在融合时调节预定语言文本的字体大小，将预定语言文本以适合ROI的大小粘贴到ROI上。

在步骤S310中，基于合成图像和预定语言文本获得预定语言的训练图像和标签。基于合成图像可获得预定语言的训练图像，预定语言文本为获得的已知内容的文本，可作为对应的训练图像的标签。

在一些实施例中，例如，合成图像通过将预定语言文本以预定字体大小随机选取ROI中的位置与ROI进行融合获得，可根据将仿真文本粘贴到ROI上的位置从合成图像中截取文本区域以获得训练图像。

在另一些实施例中，例如，合成图像通过将预定语言文本以适合ROI的大小粘贴到ROI上获得，可将合成图像作高斯模糊、边缘锐化等处理获得训练图像，以获得更接近真实视频场景的训练图像。

在步骤S312中，利用训练图像和标签训练端到端神经网络字符识别模型。可将训练图像输入端到端神经网络字符识别模型获得预测结果，根据预测结果和训练图像对应的标签计算损失函数，更新神经网络的参数使损失函数值最小以训练该字符识别模型。

根据本公开实施例提供的方法，通过从包含预定语言字幕的训练视频中获取背景图像后从其中获取ROI，然后将预定语言文本融合至ROI以生成包含与预定语言文本对应的字幕的合成图像，再基于该合成图像和对应文本获得包含该字幕的训练图像及其标签以训练端到端神经网络字符识别模型，从而可通过具有字幕场景仿真的、标注准确的语料训练获得针对预定语言场景的字符识别模型，可提高字符识别模型从视频中识别预定语言字幕的准确性。

图4A是根据一示例性实施例示出的一种ROI选取过程示意图。如图4A所示，将背景图像底部1/4的区域截掉以去除原有字幕区域，剩下的无字幕的背景图像3/4区域作为ROI。

图4B是根据一示例性实施例示出的另一种ROI选取过程示意图。如图4B所示，在背景图像中上部3/4的区域随机截取预设高度的区域获得ROI，设置不同的预设高度可获得不同高度的ROI。

图5示出了图3中所示的步骤S306在一实施例中的处理过程示意图。如图5所示，本公开实施例中，上述步骤S306可以进一步包括以下步骤。

步骤S3062，获取预定语言文本段落。在获得预定语言的多内容领域的大量文本后，可对初始文本进行清理，包括转换初始文本的格式、去除所有与字幕场景无关的符号等等，例如HTML字符转换、将解码数据格式统一化(如使用UTF-8的编码形式)、移除表情符号等等，获得清理后的文本以便后续处理。清理后的文本包含预定语言的几乎所有字符，可为每个字符都分配一个标识符，例如一个0至6000之间的数字，数字范围与不同字符数量相关；字幕中可能出现的标点符号(如逗号、句号、问号等)也可分配一个标识符，因此可生成表示预定语言单个字符及标点与标识符之间的映射关系的字典，以后续处理时生成训练图像对应的标签。清理后的文本及其字典还可用于进行字幕识别时选取最终识别结果的语言模型的训练，生成该语言模型的训练样本和标签。

步骤S3064，对预定语言文本段落进行分句获得多个预定语言文本句。对文本段落进行分句时，分句的标准可以逗号、句号、问号等常见标点符号为基准进行断句，断句后每句一行写入文件保存，以便后续将一句一句的文本与ROI融合为训练图像。

步骤S3066，从多个预定语言文本句中选取字符数量小于预设句长阈值的预定语言文本句作为预定语言文本，预设句长阈值相关于背景图像的宽度。由于文本句是为了与背景图像进行融合，而从视频中获得的背景图像的长度有限，因此可进行进一步清理，过滤掉那些字符数过多的句子，以免在融合时文本溢出图像区域，造成合成图像与其文本标签不匹配的现象。

根据本公开实施例提供的方法，通过对获取的预定语言文本段落进行分句获得多个预定语言文本句，然后从多个预定语言文本句中选取字符数量小于预设句长阈值的预定语言文本句作为预定语言文本，从而避免了文本溢出图像导致训练图像与其文本标签不匹配的技术问题。

图6示出了图3中所示的步骤S308在一实施例中的处理过程示意图。如图6所示，本公开实施例中，上述步骤S308可以进一步包括以下步骤。

步骤S3082，将预定语言文本以多种字体样式显示。为仿真视频场景的字幕形式的多样性，可将预定语言文本通过不同的字体、大小(字号)、颜色、艺术字(如阴影)等样式显示后再与背景图像融合，例如同一句文本，分别以三种不同的字体与颜色的组合(共9种组合方式)与背景图像中的ROI融合则生产了9个合成图像，在有5百万行的文本时可生产4500万帧合成图像，即可通过进行循环的选择不同字体样式以生产多样化的训练图像。

步骤S3084，对具有多种字体样式的预定语言文本进行模糊处理获得仿真文本。在预定语言文本以第一字体样式粘贴到ROI上之前，对文本进行模糊处理，例如高斯模糊、边缘锐化、添加噪声以及放大缩小等处理，可使其模仿真实视频场景的的字幕清晰度情况。

步骤S3086，将仿真文本粘贴到ROI上以生成合成图像。由于待进行字幕识别的视频可能为多种分辨率的视频，背景图像与字幕的叠加造成字幕的清晰度也具有多样性，因此可通过对文本进行模糊处理后再粘贴到ROI上以生成模仿真实场景的合成图像，从而获得更接近真实场景的训练图像。

根据本公开实施例提供的方法，通过将预定语言文本以多种字体样式显示后进行模糊处理获得仿真文本，将仿真文本粘贴到ROI上以生成合成图像，获得了字幕字体多样化训练图像，从而使训练图像较为接近实际字幕场景，通过该接近实际字幕场景的训练图像训练字幕识别模型，可提高字幕识别模型的字幕识别能力。

图7A是根据一示例性实施例示出的一种训练图像获得过程示意图。如图7A所示，获得预定语言文本后，对文本进行字体、大小等变换，然后进行模糊处理后粘贴在图4A中从背景图像中选取的ROI上生成合成图像，粘贴位置可随机获得，然后根据粘贴的位置从合成图像中提取训练图像，左侧和右侧为同一条文本以不同的字体大小粘贴到ROI上不同位置获得的训练图像。

图7B是根据一示例性实施例示出的另一种训练图像获得过程示意图。如图7B所示，获得预定语言文本后，根据ROI的尺寸调整字体大小变换字体样式，再进行模糊处理后粘贴到ROI上生成训练图像，左侧和右侧为同一条文本粘贴到不同大小的ROI上获得的训练图像。

图4A、图4B、图7A和图7B仅为选取ROI、获得训练图像过程的示意，真实场景中的视频图像背景图案多样且颜色丰富，而字幕通常为明亮的颜色。

图8是根据图3至图7示出的一种训练图像生成流程示意图。如图8所示，开始(S802)可同时进行背景图像获取子流程和文本获取子流程。在背景图像获取子流程中，首先获取场景多样的包含预定语言字幕的视频(S8042)，然后跳帧获取该视频的帧作为背景图像(S8044)；在文本获取子流程中，首先获取场景多样的大量预定语言文本(S8062)，然后对文本进行格式转换、无关字符清理(S8064)，再将清理后的文本、标点符号映射到标识符获得字典(S8065)用于标签生成，并对清理后的文本进行分句得到文本句(S8066)。之后根据文本句随机粘贴到将背景图像裁掉底部p/q的区域获得的无字幕区域的位置选取ROI(S8046)，例如p取1、q取4，或p取2、q取9，或p取3、q取11等等，并将文本句以不同的字体样式粘贴到ROI上(S808)，从而获得仿真视频字幕的字幕识别模型的训练图像(S810)。

图9示出了不同于上述图2的另一种视频字幕识别方法的流程图。如图9所示，与上述实施例的不同之处，在步骤S202之前，本公开实施例提供的方法还可以进一步包括以下步骤S2012至S2016，用于在进行字幕识别之前先对视频进行字幕区域检测，可缩小识别区域，排除非检测区域的字符识别，进而提高字幕识别能力和准确度。

在步骤S2012中，以预定间隔从待识别视频中选取多帧检测图像。视频的开始部分和结束部分通常都是音乐部分，可选取一个合适的起点进行帧选取，如采用opencv可以选择从哪一帧开始进行读取图像，比如9000帧，以避免在开始部分采样图像获得多帧无字幕的情况，不利于字幕区域检测。然后以预定间隔抽取帧图像，比如间隔1s跳帧选取帧图像。视频场景的字幕区域检测与普通图像文本检测相比具有特殊性，例如在一个完整视频中，其字幕所在区域的上下边缘通常是一致的，因此在进行字幕区域检测时可对少数帧进行检测，此处获取的检测图像的数量可远少于进行字幕识别时获取的连续的多帧图像的数量。通常可选取超过100帧的图像进行字幕区域检测。

在步骤S2014中，获得多帧检测图像的字幕区域边缘。可对多帧检测图像中的每帧图像先进行二值化处理。图像的二值化处理方法为：对于图像中的每个像素应用相同的阈值，如果像素值小于阈值，则将其设置为0，否则将其设置为最大值(例如255)，例如可通过最大类间方差法(Otsu)获得最佳全局阈值。然后将二值化处理后的图像通过边缘检测算法(例如索贝尔(Sobel)边缘检测等)检测字幕边缘，再进行腐蚀去噪、膨胀等方式得到字幕区域边缘。

在步骤S2016中，统计多帧检测图像的字幕区域边缘以确定待识别视频的字幕区域的上边缘和下边缘。由于视频图像中各帧图像中的字幕长短可能不一致，因此在确定字幕区域边缘时可不考虑字幕区域的左右边缘。在检测出多帧检测图像的多个上、下边缘后，可对多个上、下边缘进行直方图统计，直方图的横坐标表示图像宽度，纵坐标表示图像横坐标对应的像素点的像素值经过二值化后值为255的点个数，根据统计结果得到字幕区域的上、下边缘。

由于通过上述方法进行字幕区域边缘检测获得的结果可能存在个别帧的偏差，因此可以通过统计的方式得到具有相同上、下边缘的帧的最大数量，即可对多个字幕区域边缘进行统计获得具有相同的字幕区域上边缘的检测图像数量，对多个字幕区域边缘进行统计获得具有相同的字幕区域下边缘的检测图像数量，即沿着各检测图像的横轴，分别统计各上、下边缘像素点的纵坐标，获得具有相同纵坐标的检测图像数量。然后根据具有相同的字幕区域上边缘的检测图像数量确定字幕区域的上边缘，根据具有相同的字幕区域下边缘的检测图像数量确定字幕区域的下边缘，在一些实施例中，例如，可选择具有相同的字幕区域上边缘的检测图像数量最多对应的上边缘为字幕区域的上边缘，可选择具有相同的字幕区域下边缘的检测图像数量最多对应的下边缘为字幕区域的下边缘。

在另一些实施例中，例如，可选择设置相同边缘图像数量阈值，获取具有相同的字幕区域上边缘的检测图像数量大于该阈值的检测图像对应的上边缘，然后选取其中最靠上的边缘作为字幕区域的上边缘；类似地，获取具有相同的字幕区域下边缘的检测图像数量大于该阈值的检测图像对应的下边缘，然后选取其中最靠下的边缘作为字幕区域的下边缘。

如图9所示，与上述实施例的不同之处，上述步骤S204可以进一步包括以下步骤。

在步骤S2042中，根据字幕区域的上边缘和下边缘从多帧图像中提取字幕识别区域。可从字幕区域的上边缘和下边缘位置从连续的多帧图像中提取字幕识别区域，获得的字幕识别区域左、右边缘为图像原边缘。由于视频图像中各帧图像中的字幕长短通常不一致，如果进行检测并进行截取则必须对所有帧进行检测以获取各帧准确的字幕左右边缘，这样则会大大降低检测效率；而且若将字幕左右边缘也通过直方图统计的方式确定则会造成一些帧边缘的误检，降低字幕识别的准确性，因此只需根据字幕区域的上边缘和下边缘位置从连续的多帧图像中提取字幕识别区域，提高字幕识别的准确性和效率。

在步骤S2044中，基于端到端神经网络字符识别模型对字幕识别区域中的字幕进行识别获得初始字幕识别结果。相对于深度学习，传统机器学习的流程往往由多个独立的模块组成，比如在一个典型的自然语言处理(Natural Language Processing,NLP)流程中，包括分词、词性标注、句法分析、语义分析等多个独立步骤，每个步骤是一个独立的任务，其结果的好坏会影响到下一步骤，从而影响整个训练的结果，这是非端到端的模型。深度学习模型在训练过程中，从输入初始数据的输入端到输出端会得到一个预测结果，与真实结果相比较会得到一个误差，这个误差会在模型中的每一层传递(反向传播)，模型中每一层网络的参数都会根据这个误差来做调整，直到模型收敛或达到预期的效果时完成模型训练，中间所有的操作都包含在神经网络内部，不再分成多个模块处理，此为端到端的模型。采用非端到端OCR识别模型时，识别过程分为两步：单字切割和分类任务，先将字符串通过投影法切割出单个字符，再送入卷积神经网络(CNN)中进行文字分类，采用此种方法对每个文字进行切割识别较为繁琐，而且切割错误可能会导致后续识别错误，且不能使用文本的历史或未来信息，对于不定长序列的识别的准确度和效率都较低。可采用基于深度学习的端到端的识别模型(如CRNN、注意力机制OCR等等)进行字幕识别，即不需要显式加入文字切割这个环节，而是将文本识别转化为序列学习问题，简化模型的参数，提高字幕识别的效率和准确度。

根据本公开实施例提供的视频字幕识别方法，通过对视频帧进行字幕区域检测得到字幕区域的上、下边缘并基于统计确定字幕识别区域，提高字幕区域位置检测准确度，然后根据字幕识别区域的上、下边缘对图像进行字幕区域截取用于端到端的OCR模型识别，缩小了进行OCR识别的图像尺寸进而缩短识别时间，实现了一定程度上提高视频字幕识别结果的准确性及效率。

图10是根据图9示出的一种字幕区域检测流程示意图。首先对获取的视频(S1002)进行分帧处理，选取视频分帧起始时间并以跳帧方式获取检测图像(S1004)，然后截取检测图像底部(如底部p/q高度部分，例如p取1、q取4，或p取2、q取9，或p取3、q取11等等)区域进行二值化处理(S1006)，再对二值化的图像进行边缘检测后进行锐化及平滑(或腐蚀及膨胀)处理，获得检测图像的字幕区域边缘(S1008)，然后统计各帧检测图像的字幕区域上、下边缘(S1010)，根据统计结果确定用于字幕识别模型的字幕识别区域(S1012)。

图11A示出了图9中所示的步骤S2044在一实施例中的处理过程示意图。如图11A所示，本公开实施例中，上述步骤S2044可以进一步包括以下步骤。

在步骤S20442中，通过端到端神经网络字符识别模型中的卷积层从字幕识别区域中提取特征序列。卷积层是一种类似于人工神经网络的深度学习模型或多层感知机，常用于分析和处理视觉数据。在端到端字符识别模型中添加卷积神经网络可增加模型的泛化能力。字符识别模型中采用的卷积层由标准的CNN模型中的依次连接的卷积层和最大池化层组成，结构类似于VGG模型，具体结构可采取CRNN结构或者DenseNet结构等。在通过卷积层网络进行特征提取前可将图像字幕识别区域进行缩放到相同的尺寸，如输入图像的尺寸可设定为1000*40。然后从卷积层产生的特征图中提取特征序列，例如特征序列的每一个特征向量在特征图上按列从左到右生成，将这些特征序列作为循环层的输入。

在步骤S20444中，通过端到端神经网络字符识别模型中的循环层预测特征序列对应标签的概率分布。循环层可由一个双向长短期记忆(LSTM)循环神经网络构成。人类并不是每时每刻都从一片空白的大脑开始他们的思考。在阅读文章时候，人类都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义，并不会将已知东西都全部丢弃，然后用空白的大脑进行思考。循环层则模拟人类思想的持久性，考虑历史信息来推论当前信息，更进一步，也可通过未来信息反馈当前信息，即可通过双向LSTM实现(BLSTM)。输入BLSTM的数据具有时间维度，本模型中可将输入特征序列的宽作为BLSTM的时间步。其中，在卷积层和循环层之间定义了数据重构层，数据重构层可采用“特征图到序列(Map-to-Sequence)”网络用于循环层误差反馈与特征序列的转换，作为卷积层和循环层之间连接的桥梁，从而将误差从循环层反馈到卷积层。

在步骤S20446中，通过端到端神经网络字符识别模型中的转录层根据特征序列对应标签的概率分布获得初始识别结果。转录层可采用基于联结时序分类(Connectionisttemporal classification,CTC)算法，把从循环层获取的标签概率分布通过去重、整合等操作转换成最终的识别结果。CTC算法是从LSTM网络预测的特征序列的标签概率分布中选取最优的标签序列，作为最终输出的识别结果，实现了端到端的识别。

图11B是根据图11A示出的一种端到端神经网络字符识别模型结构示意图。如图11B所示，字幕识别区域图像输入CNN 1102提取特征序列，然后将特征序列输入BLSTM 1104预测特征序列对应标签的概率分布，再通过CTC 1106将特征序列对应标签的概率分布转换为初始识别结果输出。

图11C是根据图11B示出的另一种端到端神经网络字符识别模型结构示意图。如图11C所示，可将字幕识别区域图像设定像素尺寸为宽度(例如宽度可设为1000*40)后，输入CNN 1102的第一卷积层11021进行卷积计算后输出，第一卷积层11021的卷积核数量设为64，卷积核尺寸设为3*3，卷积核移动步长设为1，衬底填充(0)的圈数设为1；然后输入第一池化层11022进行最大池化操作后输出，池化窗口尺寸可设为2*2，步帧可设为2；然后输入第二卷积层11023进行卷积计算后输出，第二卷积层11023的卷积核数量设为128，卷积核尺寸设为3*3，卷积核移动步长设为1，衬底填充(0)的圈数设为1；然后输入第二池化层11024进行最大池化操作后输出，池化窗口尺寸可设为2*2，步帧可设为2；然后输入第三卷积层11025进行卷积计算后输出，第三卷积层11025的卷积核数量设为256，卷积核尺寸设为3*3，卷积核移动步长设为1，衬底填充(0)的圈数设为1；然后输入第四卷积层11026进行卷积计算后输出，第四卷积层11026的卷积核数量设为256，卷积核尺寸设为3*3，卷积核移动步长设为1，衬底填充(0)的圈数设为1；然后输入第三池化层11027进行最大池化操作后输出，池化窗口尺寸可设为1*2，步帧可设为2；然后输入第五卷积层11028进行卷积计算后输出，第五卷积层11028的卷积核数量设为512，卷积核尺寸设为3*3，卷积核移动步长设为1，衬底填充(0)的圈数设为1；然后输入第一归一化层11029进行归一化后输出；然后输入第六卷积层110210进行卷积计算后输出，第六卷积层110210的卷积核数量设为512，卷积核尺寸设为3*3，卷积核移动步长设为1，衬底填充(0)的圈数设为1；然后输入第二归一化层110211进行归一化后输出；然后输入第七卷积层110212进行卷积计算后输出，第七卷积层110212的卷积核数量设为512，卷积核尺寸设为3*3，卷积核移动步长设为1，衬底填充(0)的圈数设为1。第七卷积层110212输出的特征图经过数据重构层1103获得维数为样本量*时间步(可设为5)*512的特征序列。然后将特征序列输入BLSTM 1104预测特征序列对应标签的概率分布，BLSTM 1104可设有5个放弃(dropout)正则化层，隐藏神经元数量设为320。再通过CTC 1106将特征序列对应标签的概率分布转换为初始识别结果输出。

图12示出了图2中所示的步骤S208在一实施例中的处理过程示意图。如图12所示，本公开实施例中，上述步骤S208可以进一步包括以下步骤。

在步骤S2082中，根据编辑距离计算相邻两帧图像的初始字幕识别结果之间的相似度。可将编辑距离转换为相似度以衡量相邻帧图像的初始识别结果之间的相似程度，相似度可为编辑距离加1后的倒数。

在步骤S2084中，获得多帧连续的相似图像，多帧连续的相似图像中任意相邻两帧图像的初始字幕识别结果之间的相似度大于预设相似度阈值。可按照帧顺序依次计算相邻两帧图像的初始字幕识别结果之间的相似度，如果其中相邻两帧图像的初始字幕识别结果之间的相似度大于预设相似度阈值，则该相邻两帧图像为相似图像，然后若该相邻两帧图像中后一帧图像与其后相邻帧图像的初始字幕识别结果之间的相似度也大于预设相似度阈值，则这连续的三帧图像为相似图像，以此类推进行判断获得多帧连续的相似图像的相似图像集，多帧连续的相似图像中任意相邻两帧图像的初始字幕识别结果之间的相似度都大于预设相似度阈值。

图13示出了图2中所示的步骤S210至步骤212在一实施例中的处理过程示意图。如图13所示，本公开实施例中，上述步骤S210至步骤212可以分别包括以下步骤。

在步骤S2102中，通过语言模型分别计算多帧连续的相似图像的初始字幕识别结果的语义可信度。可采用语言模型对多个初始识别结果使用语言模型进行语义可信度得分计算，例如可采用基于统计的N-gram语言模型或者神经网络语言模型等等。例如N-gram语言模型基本原理是将初始识别结果文本中内容按照字符进行大小为N的滑动窗口操作，形成了长度为N的字符片段序列，每一个字符片段称为gram，在初始识别结果中对所有的gram出现的频数进行统计，再与模型的语料库中各个gram出现的频数进行比对可以计算初始识别结果中每个gram出现的概率，从而获得初始字幕识别结果(为符合人类语言习惯的语句)的概率。

在步骤S2122中，选取语义可信度最大的图像对应的初始字幕识别结果作为多帧连续的相似图像的最终字幕识别结果。

根据本公开实施例提供的方法，通过语言模型从多帧连续相似图像的初始字幕识别结果中选取语义可信度最大的相似图像的初始字幕识别结果作为多帧连续的相似图像的最终字幕识别结果，可将相似图像中发生字符误识的结果矫正为符合人类语言习惯的文本，以避免发生字符误识导致的字幕识别准确率低的情况。

图14示出了不同于上述图2的另一种视频字幕识别方法的流程图。如图14所示，与上述实施例的不同之处，本公开实施例提供的方法还可以进一步包括以下步骤。

在步骤S214中，获得多帧连续的相似图像在待识别视频中的时间戳。通过编辑距离计算获得对应同一句话的多帧连续的相似图像后，可将各帧相似图像对应的初始识别结果及多帧相似图像时间戳记录到一个相似帧文件中。

在步骤S216中，根据时间戳获得最终字幕识别结果对应的音频在待识别视频中的延续时间。视频的中同一句音频可延续多帧图像，因此多帧连续的相似图像中的字幕可为同一条字幕，在对某些帧进行字幕识别时可能由于背景图像复杂等原因发生个别字符误识，从而导致对多帧相似图像进行字幕识别获得的初始识别结果可能不完全相同。通过上述基于语言模型的方法选取最终识别结果，并获得最终识别结果(该同一条字幕)的起始时间为多帧相似图像中帧序数最小的图像对应的帧开始时间，结束时间为多帧相似图像中帧序数最大的图像对应的帧结束时间，以用于从视频中生产音频语料。

图15A是根据图2、图9至图14示出的一种视频字幕识别流程示意图。获取包含预定语言字幕的视频(S1502)后首先进行字幕区域检测(S1504)，然后对视频以0.1s的间隔进行分帧获得连续的多帧图像(S1506)，再采用训练完成的针对预定语言场景的字幕识别模型识别连续的多帧图像中的字幕获得初始识别结果(S1508)。然后通过编辑距离按照帧序数依次判断相邻帧图像是否为相似图像(S1510)，若相邻帧图像不为相似图像，则将两相邻帧图像中前一帧图像的起止时间为该帧图像对应字幕的起止时间(S1512)，以用于切割音频语料；若相邻帧图像为相似图像，则将两相邻帧图像中后一帧图像的0.1s累加为该相似图像对应的同一句字幕的延续时间(S1514)，获得所有相似图像的初始识别结果的集合(S1516)，再通过采用预定语言文本训练(S1517)的语言模型对集合中各个初始识别结果进行打分(S1518)，以从中选取最终识别结果(S1520)。

图15B是根据图15A示出的一种相似图像集的获得过程示意图。如图15B所示，通过初始识别结果之间的编辑距离判断相邻的第i-1帧图像和第i帧图像(i为大于1的正整数)相似图像(即对应同一条字幕)后，获得第n个相似图像集(n为大于或等于1的正整数)，其中包括各个第i-1帧图像、第i-1帧图像的字幕初始识别结果、第i-1帧图像的时间戳(包括开始时间和结束时间)和第i帧图像、第i帧图像的字幕初始识别结果、第i帧图像的时间戳。然后获取第i+1帧图像，通过初始识别结果之间的编辑距离判断第i帧图像和第i+1帧图像是否为相似图像，若第i帧图像和第i+1帧图像为相似图像，则将第i+1帧图像及其初始识别结果和时间戳加入到第n个相似图像集中，然后获取第i+2帧图像继续判断相似帧图像的相似情况；若第i帧图像和第i+1帧图像不为相似图像，则将第i+1帧图像作为第n+1个相似图像集的第一个元素，然后获取第i+2帧图像继续判断相似帧图像的相似情况。

图16是根据一示例性实施例示出的一种视频字幕识别装置的框图。如图16所示的装置例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图16，本公开实施例提供的装置160可以包括视频分帧模块1602、字幕识别模块1604、距离计算模块1606、相似判断模块1608和结果矫正模块1610。

视频分帧模块1602可用于从包含字幕的待识别视频中获取多帧图像。

字幕识别模块1604可用于对多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果。

距离计算模块1606可用于获取多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离。

相似判断模块1608可用于基于相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像。

结果矫正模块1610可用于获取多帧连续的相似图像的初始字幕识别结果的语义可信度；根据语义可信度确定多帧连续的相似图像的最终字幕识别结果。

图17是根据一示例性实施例示出的另一种视频字幕识别装置的框图。如图17所示的装置例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图17，本公开实施例提供的装置170可以包括检测图像获取模块17012、边缘检测模块17014、边缘统计模块17016、视频分帧模块1702、识别区域提取模块1703、字幕识别模块1704、背景获取模块17051、ROI选取模块17052、文本获取模块17053、图像融合模块17054、训练集生成模块17055、模型训练模块17056、距离计算模块1706、相似判断模块1708、结果矫正模块1710、时间获取模块1712。

检测图像获取模块17012可用于以预定间隔从待识别视频中选取多帧检测图像。

边缘检测模块17014可用于获得多帧检测图像的字幕区域边缘。

边缘统计模块17016可用于统计多帧检测图像的字幕区域边缘以确定待识别视频的字幕区域的上边缘和下边缘。

边缘统计模块17016还可用于对多帧检测图像的字幕区域边缘进行统计获得具有相同的字幕区域上边缘的检测图像数量；对多帧检测图像的字幕区域边缘进行统计获得具有相同的字幕区域下边缘的检测图像数量；根据具有相同的字幕区域上边缘的检测图像数量确定字幕区域的上边缘；根据具有相同的字幕区域下边缘的检测图像数量确定字幕区域的下边缘。

视频分帧模块1702可用于从包含字幕的待识别视频中获取多帧图像。

识别区域提取模块1703可用于根据字幕区域的上边缘和下边缘从多帧图像中提取字幕识别区域。

字幕识别模块1704可用于对多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果。

字幕识别模块1704可包括端到端神经网络字符识别模型17042，用于对字幕识别区域中的字幕进行识别获得初始字幕识别结果。

端到端神经网络字符识别模型17042还可用于对多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果。

端到端神经网络字符识别模型17042可包括卷积层170422、循环层170424和转录层170426，其中，卷积层170422用于从字幕识别区域中提取特征序列；循环层170424用于预测特征序列对应标签的概率分布；转录层170426用于根据特征序列对应标签的概率分布获得初始字幕识别结果。

背景获取模块17051可用于从训练视频中获取背景图像，背景图像包含预定语言字幕区域。

ROI选取模块17052可用于从背景图像中排除预定语言字幕区域获得感兴趣区域。

文本获取模块17053可用于获取预定语言文本。

文本获取模块17053还可用于获取预定语言文本段落；对预定语言文本段落进行分句获得多个预定语言文本句；从多个预定语言文本句中选取字符数量小于预设句长阈值的预定语言文本句作为预定语言文本，预设句长阈值相关于背景图像的宽度。

图像融合模块17054可用于将预定语言文本融合至背景图像的感兴趣区域，生成包含预定语言字幕的合成图像。

图像融合模块17054还可用于对预定语言文本进行模糊处理获得仿真文本；将仿真文本粘贴至背景图像的感兴趣区域以生成合成图像。

图像融合模块17054还可用于将预定语言文本以多种字体样式粘贴到背景图像的感兴趣区域，生成合成图像。

训练集生成模块17055可用于基于合成图像和预定语言文本获得预定语言的训练图像和标签。

训练集生成模块17055还可用于根据将仿真文本粘贴至感兴趣区域的位置从合成图像中获得训练图像；将预定语言文本作为训练图像的标签。

模型训练模块17056可用于利用训练图像和标签训练端到端神经网络字符识别模型。

距离计算模块1706可用于获取多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离。

相似判断模块1708可用于基于相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像。

相似判断模块1708还可用于根据编辑距离计算相邻两帧图像的初始字幕识别结果之间的相似度；确定初始字幕识别结果之间的相似度大于预设相似度阈值的相邻两帧图像，从而获得多帧连续的相似图像。

结果矫正模块1710可用于获取多帧连续的相似图像的初始字幕识别结果的语义可信度；根据语义可信度确定多帧连续的相似图像的最终字幕识别结果。

结果矫正模块1710还可用于通过语言模型分别计算多帧连续的相似图像的初始字幕识别结果的语义可信度；选取语义可信度最大的图像对应的初始字幕识别结果作为多帧连续的相似图像的最终字幕识别结果。

时间获取模块1712可用于获得多帧连续的相似图像在待识别视频中的时间戳；根据时间戳获得最终字幕识别结果对应的音频在待识别视频中的延续时间。

本公开实施例提供的视频字幕识别装置中的各个模块的具体实现可以参照上述视频字幕识别方法中的内容，此处不再赘述。

图18示出本公开实施例中一种电子设备的结构示意图。需要说明的是，图18示出的设备仅以计算机系统为示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图18所示，设备1800包括中央处理单元(CPU)1801，其可以根据存储在只读存储器(ROM)1802中的程序或者从存储部分1808加载到随机访问存储器(RAM)1803中的程序而执行各种适当的动作和处理。在RAM 1803中，还存储有设备1800操作所需的各种程序和数据。CPU1801、ROM 1802以及RAM 1803通过总线1804彼此相连。输入/输出(I/O)接口1805也连接至总线1804。

以下部件连接至I/O接口1805：包括键盘、鼠标等的输入部分1806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1807；包括硬盘等的存储部分1808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1809。通信部分1809经由诸如因特网的网络执行通信处理。驱动器1810也根据需要连接至I/O接口1805。可拆卸介质1811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1810上，以便于从其上读出的计算机程序根据需要被安装入存储部分1808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1809从网络上被下载和安装，和/或从可拆卸介质1811被安装。在该计算机程序被中央处理单元(CPU)1801执行时，执行本公开的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括视频分帧模块、字幕识别模块、距离计算模块、相似判断模块和结果矫正模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，视频分帧模块还可以被描述为“从待识别视频中获取多帧图像的模块”。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：从包含字幕的待识别视频中获取多帧图像；对多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果；获取多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离；基于相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像；获取多帧连续的相似图像的初始字幕识别结果的语义可信度；根据语义可信度确定多帧连续的相似图像的最终字幕识别结果。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种视频字幕识别方法，其特征在于，包括：

从包含字幕的待识别视频中获取多帧图像；

对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果；

获取所述多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离；

基于所述相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像；

获取所述多帧连续的相似图像的初始字幕识别结果的语义可信度；

根据所述语义可信度确定所述多帧连续的相似图像的最终字幕识别结果。

2.根据权利要求1所述的视频字幕识别方法，其特征在于，在所述从包含字幕的待识别视频中获取多帧图像之前，所述方法还包括：

以预定间隔从所述待识别视频中选取多帧检测图像；

获得所述多帧检测图像的字幕区域边缘；

统计所述多帧检测图像的字幕区域边缘以确定所述待识别视频的字幕区域的上边缘和下边缘。

3.根据权利要求2所述的视频字幕识别方法，其特征在于，所述对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果包括：

根据所述字幕区域的上边缘和下边缘从所述多帧图像中提取字幕识别区域；

基于端到端神经网络字符识别模型对所述字幕识别区域中的字幕进行识别获得所述初始字幕识别结果。

4.根据权利要求3所述的视频字幕识别方法，其特征在于，所述端到端神经网络字符识别模型包括卷积层、循环层和转录层；

所述基于端到端神经网络字符识别模型对所述字幕识别区域中的字幕进行识别获得所述初始字幕识别结果包括：

通过所述卷积层从所述字幕识别区域中提取特征序列；

通过所述循环层预测所述特征序列对应标签的概率分布；

通过所述转录层根据所述特征序列对应标签的概率分布获得所述初始字幕识别结果。

5.根据权利要求2所述的视频字幕识别方法，其特征在于，所述统计所述多帧检测图像的字幕区域边缘以确定所述待识别视频的字幕区域的上边缘和下边缘包括：

对所述多帧检测图像的字幕区域边缘进行统计获得具有相同的字幕区域上边缘的检测图像数量；

对所述多帧检测图像的字幕区域边缘进行统计获得具有相同的字幕区域下边缘的检测图像数量；

根据所述具有相同的字幕区域上边缘的检测图像数量确定所述字幕区域的上边缘；

根据所述具有相同的字幕区域下边缘的检测图像数量确定所述字幕区域的下边缘。

6.根据权利要求1所述的视频字幕识别方法，其特征在于，所述基于所述相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像包括：

根据所述编辑距离计算所述相邻两帧图像的初始字幕识别结果之间的相似度；

获得所述多帧连续的相似图像，所述多帧连续的相似图像中任意相邻两帧图像的初始字幕识别结果之间的相似度大于预设相似度阈值。

7.根据权利要求1所述的视频字幕识别方法，其特征在于，所述获取所述多帧连续的相似图像的初始字幕识别结果的语义可信度包括：

通过语言模型分别计算所述多帧连续的相似图像的初始字幕识别结果的语义可信度；

所述根据所述语义可信度确定所述多帧连续的相似图像的最终字幕识别结果包括：

选取语义可信度最大的图像对应的初始字幕识别结果作为所述多帧连续的相似图像的最终字幕识别结果。

8.根据权利要求1所述的视频字幕识别方法，其特征在于，所述方法还包括：

获得所述多帧连续的相似图像在所述待识别视频中的时间戳；

根据所述时间戳获得所述最终字幕识别结果对应的音频在所述待识别视频中的延续时间。

9.根据权利要求1所述的视频字幕识别方法，其特征在于，在所述对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果之前，所述方法还包括：

从训练视频中获取背景图像，所述背景图像包含预定语言字幕区域；

从所述背景图像中排除所述预定语言字幕区域获得感兴趣区域；

获取预定语言文本；

将所述预定语言文本融合至所述背景图像的感兴趣区域，生成包含预定语言字幕的合成图像；

基于所述合成图像和所述预定语言文本获得预定语言的训练图像和标签；

利用所述训练图像和标签训练端到端神经网络字符识别模型；

所述对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果包括：

基于所述端到端神经网络字符识别模型对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果。

10.根据权利要求9所述的视频字幕识别方法，其特征在于，所述将所述预定语言文本融合至所述背景图像的感兴趣区域，生成包含预定语言字幕的合成图像包括：

对所述预定语言文本进行模糊处理获得仿真文本；

将所述仿真文本粘贴至所述背景图像的感兴趣区域，生成所述合成图像；

所述基于所述合成图像和所述预定语言文本获得预定语言的训练图像和标签包括：

根据将所述仿真文本粘贴至所述感兴趣区域的位置从所述合成图像中获得所述训练图像；

将所述预定语言文本作为所述训练图像的标签。

11.根据权利要求9所述的视频字幕识别方法，其特征在于，所述将所述预定语言文本融合至所述背景图像的所述感兴趣区域以生成包含预定语言字幕的合成图像包括：

将所述预定语言文本以多种字体样式粘贴到所述背景图像的所述感兴趣区域以生成所述合成图像。

12.根据权利要求9所述的视频字幕识别方法，其特征在于，所述获取预定语言文本包括：

获取预定语言文本段落；

对所述预定语言文本段落进行分句获得多个预定语言文本句；

从所述多个预定语言文本句中选取字符数量小于预设句长阈值的预定语言文本句作为所述预定语言文本，所述预设句长阈值相关于所述背景图像的宽度。

13.一种视频字幕识别装置，其特征在于，包括：

视频分帧模块，用于从包含字幕的待识别视频中获取多帧图像；

字幕识别模块，用于对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果；

距离计算模块，用于获取所述多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离；

相似判断模块，用于基于所述相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像；

结果矫正模块，用于获取所述多帧连续的相似图像的初始字幕识别结果的语义可信度；根据所述语义可信度确定所述多帧连续的相似图像的最终字幕识别结果。

14.一种设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-12任一项所述的方法。