CN114495128B

CN114495128B - 字幕信息检测方法、装置、设备以及存储介质

Info

Publication number: CN114495128B
Application number: CN202210356087.0A
Authority: CN
Inventors: 王洪松; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-08
Anticipated expiration: 2042-04-06
Also published as: CN114495128A

Abstract

本申请实施例公开了一种字幕信息检测方法、装置、设备以及存储介质，可适用于人工智能、云计算、计算机视觉等领域。该方法包括：确定目标视频的每个视频帧中的各文本框，并确定至少一个文本框序列；确定目标视频对应的每个音频片段对应的文本内容；基于各文本框序列以及对应的第一时间区间、各音频片段对应的第二时间区间和文本内容，确定每个文本框序列与各音频片段的匹配度；基于每个文本框序列与各音频片段的匹配度，从各文本框序列中确定出包括字幕信息的目标文本框序列；基于各目标文本框序列确定目标视频的字幕信息。采用本申请实施例，可提升确定字幕信息的准确率和效率，适用性高。

Description

字幕信息检测方法、装置、设备以及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种字幕信息检测方法、装置、设备以及存储介质。

背景技术

随着计算机和多媒体技术的不断发展，视频已经成为重要的信息传播载体，大多数视频往往包括字幕信息以辅助视频内容的表达。并且检测视频中的字幕也成为主要技术需求，如在对视频字幕进行翻译时需要提前获取到视频的字幕信息才能对字幕信息进行翻译。

现有的字幕信息检测方式往往是通过简单的文本识别技术识别视频帧中的字幕信息，但是若视频的各视频帧中包括较多的非字幕信息，如包括大量的地图标记信息、广告文字等信息时，现有技术往往不能准确检测到视频中的字幕信息。因此，如何准确检测到视频的字幕信息成为亟需解决的问题。

发明内容

本申请实施例提供一种字幕信息检测方法、装置、设备以及存储介质，可准确检测视频中的字幕信息，适用性高。

一方面，本申请实施例提供一种字幕信息检测方法，该方法包括：

确定目标视频的每个视频帧中的各文本框，基于各上述文本框确定至少一个文本框序列，每个上述文本框序列中的任意两个文本框位于不同的视频帧；

确定上述目标视频对应的每个音频片段对应的文本内容；

基于每个上述文本框序列以及对应的第一时间区间、各上述音频片段对应的第二时间区间和文本内容，确定每个上述文本框序列与各上述音频片段的匹配度；

基于每个上述文本框序列与各上述音频片段的匹配度，从各上述文本框序列中确定出包括字幕信息的目标文本框序列；

基于各上述目标文本框序列确定上述目标视频的字幕信息。

另一方面，本申请实施例提供了一种字幕信息检测装置，该训练装置包括：

文本框确定模块，用于确定目标视频的每个视频帧中的各文本框，基于各上述文本框确定至少一个文本框序列，每个上述文本框序列中的任意两个文本框位于不同的视频帧；

语音识别模块，用于确定上述目标视频对应的每个音频片段对应的文本内容；

匹配度确定模块，用于基于每个上述文本框序列以及对应的第一时间区间、各上述音频片段对应的第二时间区间和文本内容，确定每个上述文本框序列与各上述音频片段的匹配度；

字幕确定模块，用于基于每个上述文本框序列与各上述音频片段的匹配度，从各上述文本框序列中确定出包括字幕信息的目标文本框序列；

上述字幕确定模块，用于基于各上述目标文本框序列确定上述目标视频的字幕信息。

另一方面，本申请实施例提供了一种电子设备，包括处理器和存储器，该处理器和存储器相互连接；

上述存储器用于存储计算机程序；

上述处理器被配置用于在调用上述计算机程序时，执行本申请实施例提供的字幕信息检测方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行以实现本申请实施例提供的字幕信息检测方法。

另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，上述计算机程序被处理器执行时实现本申请实施例提供的字幕信息检测方法。

在本申请实施例中，基于目标视频的每一视频帧中各部分文本内容对应的文本框可确定出至少一个文本框序列，通过确定每个文本框序列与目标视频的每个音频片段的匹配度，可从所有文本框序列中确定出包括目标视频的字幕信息的目标文本框序列。从而可从目标文本框序列中包括字幕信息的文本内容中确定出目标视频的字幕信息，提升字幕信息的检测效率和准确性，适用性高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的字幕信息检测方法的一场景示意图；

图2是本申请实施例提供的字幕信息检测方法的流程示意图；

图3是本申请实施例提供的确定视频帧中的文本框的场景示意图；

图4是本申请实施例提供的确定交集区域和并集区域的场景示意图；

图5是本申请实施例提供的确定文本框序列的流程框架示意图；

图6a是本申请实施例提供的对目标视频进行语音识别的流程框架示意图；

图6b是本申请实施例提供的确定各音频片段对应的文本内容的场景示意图；

图7是本申请实施例提供的确定目标文本框序列的流程框架示意图；

图8是本申请实施例提供的确定字幕信息的一场景示意图；

图9是本申请实施例提供的字幕信息检测方法的流程框架示意图；

图10是本申请实施例提供的字幕信息检测装置的结构示意图；

图11是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的字幕信息检测方法可基于计算机视觉、人工智能、云计算等技术实现字幕信息的检测，并可适用于以字幕信息为基础的任何场景中的确定字幕信息的环节。

例如，在视频搜索场景中，可基于本申请实施例提供的字幕信息检测方法确定各视频片段中的字幕信息，通过字幕信息进一步反映视频片段中的片段内容，进而基于各视频片段中的字幕信息得到与搜索关键词相匹配的目标视频片段。

再例如，在视频字幕翻译场景中，可基于本申请实施例提供的字幕信息检测方法确定出待翻译视频片段中的字幕信息，进而确定字幕信息对应的译文，提升字幕翻译效率。

再例如，语音标注场景中，基于本申请实施例提供的字幕信息检测方法可确定出视频片段的字幕信息，进而对视频片段对应的语音片段进行标注以确定语音片段与字幕信息的对应关系。

同时，基于本申请实施例提供的字幕信息检测方法，可确定出智能交通系统(Intelligent Traffic System，ITS)或智能车路协同系统(Intelligent VehicleInfrastructure Cooperative Systems，IVICS)中车辆行驶视频、地图分析视频中的字幕信息并将其翻译成其他语言，从而使得车载终端可显示同一视频的不同语言的字幕信息。

其中，智能交通系统又称智能运输系统(Intelligent Transportation System)，是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造，加强车辆、道路、使用者三者之间的联系，从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。或者；

智能车路协同系统简称车路协同系统，是智能交通系统(ITS)的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术，全方位实施车车、车路动态实时信息交互，并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理，充分实现人车路的有效协同，保证交通安全，提高通行效率，从而形成的安全、高效和环保的道路交通系统。

参见图1，图1是本申请实施例提供的字幕信息检测方法的一场景示意图。如图1所示，对于目标视频110而言，设备120可基于本申请实施例提供的字幕信息检测方法确定出目标视频110的每个视频帧中的字幕信息130，如确定出目标视频110第1帧视频帧中的字幕信息“台风即将登陆”以及第7帧视频帧中的字幕信息“台风吹起海浪”等。

其中，设备120可以是服务器或终端等具有数据处理能力的设备，在此不做限制。例如，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备（例如智能音箱）、可穿戴电子设备（例如智能手表）、车载终端、智能家电（例如智能电视）、AR/VR设备等，但并不局限于此。

其中，本申请实施例提供的字幕信息检测方法的具体实现方式可参见图2，图2是本申请实施例提供的字幕信息检测方法的流程示意图。如图2所示，本申请实施例提供的字幕信息检测方法具体可包括如下步骤：

步骤S21、确定目标视频的每个视频帧中的各文本框，基于各文本框确定至少一个文本框序列。

在一些可行的实施方式中，对于目标视频而言，可先确定出目标视频的每个视频帧，并对每个视频帧进行文本识别得到每个视频帧中的文本框。

其中，每个视频帧中的每个文本框包括该视频帧中的一部分文本内容，即每个视频帧中出现的每一部分文本均对应一个文本框，每个文本框用于标记该文本框区域内包括视频帧中的一部分文本内容。

如图3所示，图3是本申请实施例提供的确定视频帧中的文本框的场景示意图。图3所示了一科普视频中用于描述恐龙的一视频帧。通过对该视频帧进行文字视频可识别出该视频帧中所有包括文本内容的区域，将每一区域确定为一个文本框。如该视频帧中包括3部分文本内容：“科教频道”、“霸王龙”以及“几千万前年恐龙已经灭绝了”，每一部分文本内容对应一个文本框。

其中，在对每一视频帧进行文本识别时，可人工智能领域中的基于深度学习的文字检测算法、文本识别工具等检测视频帧中的文本内容以及对应的文本框。

其中，基于深度学习的文字检测算法可以为基于神经网络的Pixellink算法，也可为其他算法，在此不做限制。

其中，文本识别工具包括但不限于基于光学字符识别（Optical CharacterRecognition，OCR）的识别工具，在此不做限制。

在一些可行的实施方式中，在确定出目标视频的每个视频帧中的文本框之后，可确定所有文本框中每两个文本框的文本框相似度，进而基于各文本框中每两个文本框的文本框相似度，从所有文本框中确定出至少一个文本框序列。

其中，每个文本框序列中的文本框按照所在视频帧的帧序号由小到大的顺序进行排列，且每个文本框序列中的任意两个文本框位于不同的视频帧。

其中，对于每个文本框序列中任意两个相邻的文本框（为方便描述，以下称为第一文本框和第二文本框），第一文本框之后的第二文本框是基于以下方式确定的：

确定第一文本框所在视频帧之后的第一数量的视频帧中的第一视频帧，每个第一视频帧包括与第一文本框的文本框相似度大于第一阈值的文本框。即对于第一文本框所在视频帧之后的每一视频帧，若该视频帧与第一文本框所在视频帧的帧序号差小于或者等于第一数量、且该视频帧中包括至少一个与第一文本框的文本框相似度大于第一阈值的文本框，则可确定该视频帧为第一文本框所在视频帧之后的一个第一视频帧。

进一步地，在确定出第一文本框所在视频帧对应的各第一视频帧之后，可将帧序号最小的第一视频帧中与第一文本框的文本框相似度最大的文本框确定为第二文本框。

也就是说，对于目标视频的各文本框中的任一文本框，可确定该文本框所在视频帧之后的第一个视频帧中是否包括与该文本框的文本框相似度大于第一阈值的文本框，若第一个视频帧中包括与该文本框的文本框相似度大于第一阈值的文本框，则确定第一个视频帧中与该文本框的文本框相似度最大的文本框与该文本框处于同一文本框序列，同时与该文本框相邻且位于该文本框之后。

若第一个视频帧中不包括与该文本框的文本框相似度大于第一阈值的文本框，则确定该文本框所在视频帧之后的第二个视频帧中是否包括与该文本框的文本框相似度大于第一阈值的文本框。若第二个视频帧包括与该文本框的文本框相似度大于第一阈值的文本框，则确定第二个视频帧中与该文本框的文本框相似度最大的文本框与该文本框处于同一文本框序列，同时与该文本框相邻且位于该文本框之后。以此类推，可确定出同一文本框序列中的两个相邻的文本框。其中，对于该文本框所在视频帧之后且与该文本框所在视频帧间隔超过第一数量的视频帧，则可认为其不包括与该文本框的文本框相似度大于第一阈值的文本框。若该文本框所在视频帧之后间隔第一数量的视频帧中仍不包括与该文本框的文本框相似度大于第一阈值的文本框，则该文本框所在视频帧之后的其他视频帧中不存在可以与该文本框处于同一文本框序列的文本框。

若该文本框所在视频帧为目标视频的第一个视频帧，若该文本框所在视频帧之后第一数量的各个视频帧中均不包括与该文本框的文本框相似度大于第一阈值的文本框，则确定该文本框不属于同一文本框序列。否则可确定该文本框为一个文本框序列中的第一个文本框。

基于上述实现方式，可从目标视频的所有视频帧中的所有文本框中确定出至少一个文本框序列，每个文本框序列可将相似文本内容进行连接，每个文本框序列中的任意两个文本框位于不同的视频帧，且任意两个相邻的文本框所在视频帧的帧序号差小于第一数量。

例如，基于上述实现方式确定出的一个文本框序列可基于以下方式表示：

其中，B _t表示目标视频的第t帧视频帧的一个文本框，B _s表示目标视频的第s帧视频帧的一个文本框，任意两个相邻的文本框所在视频帧的帧序号差小于第一数量。

在一些可行的实施方式中，在确定任意两个文本框（以第三文本框和第四文本框为例）的文本框相似度时，为提升基于文本框相似度确定文本框序列的效率。由于同一视频帧中只包括字幕信息对应的文本框，因此在第三文本框和第四文本框位于相同视频帧的情况下，可确定第三文本框和第四文本框的文本框相似度为0。

为使得最终的文本框序列中任意两个相邻的文本框所在的视频帧较为接近，避免当任意两个相邻的文本框包括字幕信息时导致所在文本框序列遗漏该两个文本框所在视频帧之间的视频帧中的字幕信息，因此在第三文本框和第四文本框所在视频帧的帧序号差大于第一数量，即第三文本框和第四文本框间隔较多的视频帧的情况下，可确定第三文本框和第四文本框的文本框相似度同样为0。

在第三文本框和第四文本框所在的视频帧的帧序号差小于或者等于第一数量、且第三文本框和第四文本框位于不同的视频帧的情况下，可基于第三文本框和第四文本框分别对应的文本内容，确定第三文本框和第四文本框的文本框相似度。

其中，在确定各文本框对应的文本内容时，为了减少文本框大小为文本识别所带来的误差，因此可确定每个文本框在对应视频帧中的文本图像，将每个文本框对应的文字图像缩放至统一大小。例如可将各文本框对应的文本图像的高缩放至预设高度，将各文本框对应的文本图像的宽进行等比例缩放，得到缩放后的文本图像。进一步采用文字识别算法对各缩放后的文本图像进行文字识别，得到各文本框对应的文本内容。

其中，上述文字识别算法包括但不限于基于卷积回归神经网络（ConvolutionRecurrent Neural Network，CRNN）的文本识别算法，在此不做限制。

具体地，在确定第三文本框和第四文本框的文本框相似度时，可确定第三文本框和第四文本框分别对应的文本内容之间的文本相似度（为方便描述，以下称为第一文本相似度），将第一文本相似度确定为第三文本框和第四文本框的文本框相似度。

其中，第一文本相似度的确定方式在此不做限制，如可以将第三文本框和第四文本框分别对应的文本内容的文字编辑距离确定为第三文本框和第四文本框对应的文本内容的文本相似度。

可选地，在确定第三文本框和第四文本框的文本框相似度时，还可基于第三文本框和第四文本框分别对应的文本内容、以及分别在对应视频帧中的区域，确定第三文本框和第四文本框的文本框相似度。为方便描述，以下将第三文本框在对应视频帧中的区域称为第一区域，将第四文本框在对应视频帧中的区域称为第二区域。

具体可确定第一区域和第二区域的交集区域和并集区域，并确定交集区域和并集区域的第一区域交并比。

其中，目标视频的每个文本框在对应视频帧中的区域可采用通过文本框坐标进行表示。例如，每个文本框在对应视频帧中的文本框坐标可以表示为(x,y,w,h)，x、y分别表示文本框左上角顶点在对应视频帧中的位置坐标，w和h分别表示文本框的宽度和高度。

参见图4，图4是本申请实施例提供的确定交集区域和并集区域的场景示意图。如图4所示，第三文本框为视频帧1中文本内容“霸王龙”对应的文本框，第四文本框为视频帧2中文本内容“恐龙蛋”对应的文本框。基于第三文本框在视频帧1中的第一区域以及第四文本框在视频帧2中的第二区域，可确定第一区域和第二区域的第一交集区域和第一并集区域。

进一步可确定第三文本框和第四文本框分别对应的文本内容的第一文本相似度，基于第一文本相似度和第一区域交并比确定第三文本框和第四文本框的文本框相似度。

作为一示例，对于任意两个文本框B _m和B _n（m和n表示文本框所在视频帧的帧序号），定义文本框相似度S _mn如下：

其中，w _Bm和w _Bn分别表示文本框B _m和B _n对应的文本内容，d(w _Bm, w _Bn)表示文本框B _m和B _n对应的文本内容的文字编辑距离，area(B _m∩B _n)和area(B _m∪B _n)分别表示文本框B _m和B _n在对应视频帧中的区域的交集区域和并集区域，λ为权重系数，a表示第一数量。

基于此，在基于每两个文本框之间的文本框相似度从各文本框中确定出至少一个文本框序列的过程可视为聚类过程，聚类的类别数为文本框序列的个数，从而得到至少一个文本框序列。

其中，确定文本框序列所采用的聚类算法包括但不限于ISODATA算法，在此不做限制。

下面结合图5对本申请实施例中确定文本框序列的方法流程进行进一步说明。图5是本申请实施例提供的确定文本框序列的流程框架示意图。如图5所示，对于目标视频的每个视频帧，可对其进行文字检测以确定出视频帧中各部分文本内容对应的文本框。进一步可对各文本框进行文本识别得到每个文本框对应的文本内容，从而基于各文本框对应的文本内容从目标视频的所有文本框中确定出至少一个文本框序列。

其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术。本申请实施例可基于计算机视觉技术确定各视频帧中的文本框以及文本框对应的文本内容。

步骤S22、确定目标视频对应的每个音频片段对应的文本内容。

在一些可行的实施方式中，目标视频对应的每个音频片段为目标视频的每一句字幕信息所对应的音频片段。由于在确定目标视频的字幕信息时需要以目标视频的音频数据对应的文本内容为基础，为减少直接对时长较长的音频数据进行语音识别所带来的误差，且提升语音识别效率，可对目标视频的完整音频数据进行活性检测以去除完整音频数据中不存在语音信号部分的语音片段以及只包括噪声信号的语音片段，从而得到目标视频对应的包括字幕信息的音频片段。

进一步地，对于目标视频的每个音频片段，可对其进行语音识别得到每个音频片段对应的文本内容，进而基于各音频片段对应的文本内容以及各文本框序列确定出目标视频的字幕信息。

其中，确定目标视频的各音频片段以及对各音频片段进行语音识别的过程可基于人工智能的语义分割方法和语音识别方法实现，在此不做限制。

下面结合图6a和图6b对本申请实施例中音频片段的文本内容的方法流程进行进一步说明。图6a是本申请实施例提供的对目标视频进行语音识别的流程框架示意图，图6b是本申请实施例提供的确定各音频片段对应的文本内容的场景示意图。对于目标视频的完整音频数据，可对目标视频进行活性检测以从音频数据分割得到多个音频片段，如得到音频片段1、音频片段2以及音频片段3，且每个音频片段包括目标视频的一句字幕信息所对应的语音。对每个音频片段进行语音识别得到每个音频片段对应的文本内容，如对音频片段1、音频片段2以及音频片段3分别进行语音识别得到音频片段1、音频片段2以及音频片段3对应的文本内容，也即得到目标视频每一句字幕信息。

步骤S23、基于每个文本框序列以及对应的第一时间区间、各音频片段对应的第二时间区间和文本内容，确定每个文本框序列与各音频片段的匹配度。

在一些可行的实施方式中，每个音频片段对应的第二时间区间即为该音频片段在目标视频中出现的时间区间。每个文本框序列对应的第一时间区间的起始时刻为文本框序列中第一个文本框所在视频帧在目标视频中的播放时刻，每个文本框序列对应的第一时间区间的结束时刻为文本框序列中最后一个文本框所在视频帧在目标视频帧中的播放时刻。

也就是说，对于每个文本框序列，该文本框序列中各文本框所在视频帧中帧序号最小的视频帧对应的播放时刻与帧序号最大的视频帧对应的播放时刻所构成的时间区间，即为该文本框序列对应的第一时间区间。

由于目标视频中的字幕信息与音频片段对应的文本内容相匹配，因此可确定每一文本框序列与各音频片段的匹配度，匹配度越高表示文本框序列对应的文本内容与音频片段的文本内容相似度越高，进而说明文本框序列中包括目标视频的字幕信息可能性越高。反之，匹配度越低表示文本框序列对应的文本内容与音频片段的文本内容相似度越低，进而说明文本框序列中包括目标视频的字幕信息的可能性较低。

在一些可行的实施方式中，对于每个文本框序列和每个语音片段，在确定该文本框序列和该语音片段的匹配度时，可先确定该文本框序列对应的第一时间区间和该音频片段对应的第二时间区间的时间交集，进而基于该文本框序列对应的文本内容，确定该文本框序列在上述时间交集内的文本内容（为方便描述，以下称为第一文本内容）。

其中，可确定该文本框序列中各文本框所在的视频帧，将视频帧对应的播放时刻位于上述时间交集内的文本框所对应的文本内容，确定为该文本框序列在上述时间交集内的文本内容。

或者，由于该文本框序列中任意两个相邻的文本框对应的文本内容较为相似，因此可基于该文本框序列中任意一个或者多个文本框对应的文本内容（如文本长度最长的文本内容），预测得到该文本框序列在上述时间交集内的第一文本内容。具体可通过线性插值的方法或者通过上下文预测网络确定第一文本内容，在此不做限制。

同样地，可基于该语音片段对应的文本内容，确定该音频片段在上述时间交集内的文本内容（为方便描述，以下称为第二文本内容）。

其中，可确定该语音片段对应的文本内容的每个字对应的播放时刻，将该语音片段对应的文本内容中播放时刻位于上述时间交集内的文本片段确定为该语音片段在上述时间交集内的文本内容。

或者，可基于该语音片段对应的第二时间区间以及该语音片段对应的文本内容，预测得到该语音片段在上述时间交集内的第二文本内容。具体同样可通过线性插值的方法或者通过上下文预测网络确定第二文本内容，在此不做限制。

进一步地，可确定第一文本内容和第二文本内容的文本相似度（为方便描述，以下称为第二文本相似度），将第二文本相似度确定为该文本框序列和该音频片段的匹配度。

其中，可通过确定第一文本内容和第二文本内容的文字编辑距离，将该文字编辑距离确定为第一文本内容和第二文本内容的第二文本相似度，或者可通过其他方式确定，在此不做限制。

可选地，对于每个文本框序列和每个语音片段，在确定该文本框序列和该语音片段的匹配度时，还可直接确定该文本框序列对应的文本内容与该语音片段对应的文本内容的文本相似度，并将其确定为该文本框序列和该语音片段的匹配度。

可选地，在确定出第一文本内容和第二文本内容的第二文本相似度之后，可进一步确定第一文本内容的第一文本长度和第二文本内容的第二文本长度，进而基于第二文本相似度、第一文本长度以及第二文本长度确定第一文本内容和第二文本内容的相对文字距离，并将相对文字距离确定为该文本框序列和该音频片段的匹配度。

作为一示例，一个文本框序列对应的第一时间区间为[k ₁,k ₂]，该文本框序列中任意一个文本框对应的文本内容为w _k。一个音频片段对应的第二时间区间为[q ₁,q ₂]，且该音频片段对应的文本内容为w _q。

若第一时间区间为[k ₁,k ₂]和第二时间区间为[q ₁,q ₂]的时间交集为[t ₁,t ₂]，基于文本内容w _k并通过线性插值的方法可预测得到该文本框序列在时间交集[t ₁,t ₂]内的文本内容w ^~ _k，基于文本内容w _q并通过线性插值的方法可预测得到该音频片段在时间交集为[t ₁,t ₂]内的文本内容w ^~ _q。

进一步地，确定文本内容w ^~ _k和文本内容w ^~ _q的文字编辑距离d(w ^~ _k,w ^~ _q)，并确定文本内容w ^~ _k的文本长度|w ^~ _k|和文本内容w ^~ _q的文本长度|w ^~ _q|，则该音频片段和该文本框序列的匹配度为d(w ^~ _k,w ^~ _q)/max(|w ^~ _k|,|w ^~ _q|)。

可选地，在确定第一文本内容和第二文本内容的文本相似度或相对文本距离之前，也即确定每个文本框序列与每个音频片段的匹配度之前，还可确定该文本框序列对应的第一时间区间和该音频片段对应的第二时间区间的时间并集与时间交集，并进一步确定时间交集和时间并集的时间交并比。

若该文本框序列对应的第一时间区间和该音频片段对应的第二时间区间的时间交并比小于或者等于一定阈值，说明该文本框序列对应的文本内容和该音频片段对应的文本内容的内容重合度较低，进而说明该文本框序列包括字幕信息的可能性较低，此时无需继续确定该文本框序列与该音频片段的匹配度。

若该文本框序列对应的第一时间区间和该音频片段对应的第二时间区间的时间交并比大于一定阈值，说明该文本框序列对应的文本内容和该音频片段对应的文本内容的内容重合度较高，进而说明该文本框序列包括字幕信息的可能性较高，此时则可进一步确定该文本框序列与该音频片段的匹配度。

步骤S24、基于每个文本框序列与各音频片段的匹配度，从各文本框序列中确定出包括字幕信息的目标文本框序列。

在一些可行的实施方式中，基于上述实现方式可依次确定每个文本框序列与各音频片段的匹配度，若每个文本框序列与至少一个音频片段的匹配度满足第一预设条件，则确定该文本框序列为包括目标视频的字幕信息的目标文本框序列。

其中，在每个文本框序列与每个音频片段的匹配度是基于文本相似度确定的情况下，如基于每个文本框序列对应的文本内容和每个音频片段对应的文本内容的文本相似度确定匹配度，或者基于每个文本框序列在时间交集内的第一文本内容与每个音频片段在时间交集内的第二文本内容的文本相似度确定匹配度，由于文本相似度越高表示两部分文本内容越相近，因此对于每一文本框序列，该文本框序列与至少一个音频片段的匹配度满足第一预设条件，可以为该文本框序列与至少一个音频片段的匹配度大于一定阈值。

其中，在每个文本框序列与每个音频片段的匹配度是基于文字编辑距离确定的情况下，如基于每个文本框序列在时间交集内的第一文本内容与每个音频片段在时间交集内的第二文本内容的文字编辑距离或相对文本距离确定匹配度，由于第一文本内容和第二文本内容的相对文本距离或文字编辑距离越小，表示第一文本内容和第二文本内容越相近，因此对于每一文本框序列，该文本框序列与至少一个音频片段的匹配度满足第一预设条件，可以为该文本框序列与至少一个音频片段的匹配度小于一定阈值。

下面结合图7对本申请实施例提供的确定目标文本框序列的方法进行进一步说明。图7是本申请实施例提供的确定目标文本框序列的流程框架示意图。如图7所示，对于一个文本框序列和一个音频片段，可确定文本框序列的第一时间区间和音频片段的第二时间区间的时间交并比。若时间交并比不大于时间交并比阈值，则确定文本框序列和音频片段匹配失败。若时间交并比大于时间交并比阈值，则确定文本框序列在第一时间区间和第二时间区间的时间交集内的第一文本内容、以及音频片段在第一时间区间和第二时间区间的时间交集的第二文本内容。

进一步确定第一文本内容和第二文本内容的相对文字距离，若第一文本内容和第二文本内容的相对文字距离不小于距离阈值，则确定文本框序列与音频片段匹配失败。若第一文本内容和第二文本内容的相对文字距离小于距离阈值，则确定文本框序列与音频片段匹配成功。

在该文本框序列与至少一个音频片段匹配成功的情况下，可确定该文本框序列为包括字幕信息的目标文本框序列。

在一些可行的实施方式中，由于确定出的各文本框对应的文本内容以及各语音片段对应的文本内容与其实际文本内容可能存在误差，从而导致部分文本框序列与各音频片段的匹配度均不满足第一预设条件，进而导致该部分文本框序列中可能仍然存在包括字幕信息的目标文本框序列。

基于此，若将基于上述实现方式确定出的目标文本框序列称为第一文本框序列，则可确定目标视频对应的至少一个第三时间区间，每个第三时间区间为目标视频对应的完整时间区间中除各第一文本框序列对应的第一时间区间以外的一个时间区间。也就是说，各第一文本框序列对应的文本内容中并不包括目标视频在各第三时间区间对应的字幕信息，此时需要从除各第一文本框序列外的其他文本框序列中，确定出包括各第三时间区间对应的字幕信息的目标文本框序列。

进一步地，对于除各第一文本框序列之外的其他任一文本框序列，若该文本框序列包括一个第三时间区间对应的字幕信息，则该文本框序列对应的第一时间区间显然包括该第三时间区间。因此对于确定出的每个第三时间区间而言，可确定该第三时间区间对应的至少一个第二文本框序列，每个第二文本框序列为所有文本框序列中除各第一文本框序列以外的、对应的第一时间区间包括该第三时间区间的一个文本框序列。

基于此，对于每一第三时间区间，该第三时间区间对应的各第二文本框序列为可能包括该第三时间区间对应的字幕信息的目标文本框序列，也即需要从该第三时间区间对应的第二文本框序列中确定出包括字幕信息的目标文本框序列。此时可确定每个第二文本框序列与各第一文本框序列的文本框序列相似度，若每个第二文本框序列与至少一个第一文本框序列的文本框序列相似度满足第二预设条件，则确定该第二文本框序列为包括目标视频在该第三时间区间的字幕信息的目标文本框序列。

具体地，由于各第一文本框序列包括目标视频的字幕信息，因此对于每个第三时间区间对应的每个第二文本框序列，可确定该第二文本框序列对应的文本内容与各第一文本框序列对应的文本内容的文本相似度（为方便描述，以下称为第三文本相似度），进而将第三文本相似度确定为该第二文本框序列和各第一文本框序列的文本框序列相似度。

可选地，对于目标视频而言，同一个视频的字幕信息在不同视频帧所处的区域大致相同，因此对于任意两个第一文本框序列而言，一个文本框序列对应的所有文本框在对应视频帧中的区域与另一个文本框序列对应的所有文本框在对应视频帧中的区域存在大部分交集。

基于此，可确定每个第一文本框序列中的各文本框在对应视频帧中的区域（为方便描述，以下称为第三区域），对于每个第三时间区间对应的每个第二文本框序列，可确定该第二文本框中的各文本框在对应视频帧中的区域（为方便描述，以下称为第四区域）。

需要特别说明的是，每个第一文本框序列对应的第三区域用于整体表示该第一文本框序列中所有文本框在对应视频帧中的区域，每个第二文本框序列对应的第四区域用于整体表示该第二文本框序列中所有文本框在对应视频帧中的区域。

进一步地，对于每个第三时间区间的每个第二文本框序列，可确定该第二文本框序列对应的第四区域与每个第一文本框序列对应的第三区域的第二区域交并比，并将第二区域交并比确定为该第二文本框序列和对应的第一文本框序列的文本框序列相似度。

可选地，对于每个第三时间区间的每个第二文本框序列，可确定该第二文本框序列对应的文本内容与各第一文本框序列对应的文本内容的第三文本相似度、以及该第二文本框序列对应的第四区域与每个第一文本框序列对应的第三区域的第二区域交并比，进而基于第三文本相似度和第二区域交并比确定该第二文本框序列和对应的第一文本框序列的文本框序列相似度。如将第三文本相似度和第二区域交并比之和或权重和确定为该第二文本框序列和对应的第一文本框序列的文本框序列相似度，在此不做限制。

步骤S25、基于各目标文本框序列确定目标视频的字幕信息。

在一些可行的实施方式中，由于每个目标文本框序列中包括多个文本框，因此每个目标文本框序列中各文本框对应的文本内容中可能包括不属于目标视频的字幕信息其他文本内容，如广告文本、弹幕信息、地图标记信息以及视频播放平台标志信息等。同时，由于目标视频中的字幕信息通常位于每个视频帧中的固定区域范围内，因此对于得到的所有目标文本框序列而言，可确定所有目标文本框序列中每个文本框在对应视频帧中的区域（为方便描述，以下称为第五区域）。

进一步地，可基于各文本框对应的第五区域，确定出目标视频的各视频帧对应的字幕显示区域。如超过一定比例的第五区域位于对应视频帧中的相同区域内，则将该区域确定为目标视频的各视频帧对应的字幕显示区域。

基于此，可筛除所有目标文本框序列中位于字幕显示区域以外的文本框对应的文本框，将所有位于字幕显示区域以内的文本框对应的文本内容确定为目标视频的字幕信息。

例如，由于一般的字幕显示区域位于视频帧中偏下方的区域，因此可确定所有目标文本框序列中的每个文本框的纵坐标，对于每一文本框，若该文本框的纵坐标位于字幕显示区域内，则确定该文本框对应的文本内容为目标视频的字幕信息，若该文本框的纵坐标位于字幕显示区域之外，则确定该文本框对应的文本内容不属于目标视频的字幕信息。

参见图8，图8是本申请实施例提供的确定字幕信息的一场景示意图。基于所有目标文本框序列中各文本框在对应视频帧中的第五区域所确定出的字幕显示区域如图8所示。若该视频帧中的各文本框分别属于不同的目标文本框序列，则文本内容“岷山”对应的文本框、文本内容“岷江”对应的文本框以及文本内容“成都”对应的文本框位于字幕显示区域以外，则可确定上述各文本框对应的文本内容不属于目标视频的字幕信息。

对于文本内容“岷江位于岷山和成都之间”对应的文本框，该文本框位于字幕显示区域以内，则可确定文本内容“岷江位于岷山和成都之间”为目标视频的字幕信息。

可选地，对于目标视频的任一视频帧，若该视频帧中包括字幕信息，则该视频帧内只有一个文本框对应的文本内容属于目标视频的字幕信息。因此，对于目标视频的任一视频帧，若该视频帧中存在多个位于字幕显示区域内的文本框，且位于字幕显示区域内的文本框分别属于不同的目标文本框序列，可确定字幕显示区域的中心点。进一步确定位于字幕显示区域内的各文本框的中心点，从而可将中心点最接近字幕显示区域的中心点的文本框确定为目标视频的字幕信息，并可将其他文本框对应的文本内容筛除。

下面结合图9对本申请实施例提供的字幕信息检测方法进行进一步说明。图9是本申请实施例提供的字幕信息检测方法的流程框架示意图。如图9所示，在获取到目标视频后，可对目标视频的各视频帧进行文本识别，得到每个视频帧每部分文本内容对应的文本框，进而从各文本框中确定出至少一个文本框序列。同时可对目标视频的各音频片段进行语音视频，得到各音频片段对应的文本内容。

进一步地，基于各文本框序列以及对应的第一时间区间、各音频片段对应的第二时间区间和文本内容，从各文本框序列中确定出至少一个包括字幕信息的目标文本框序列。进而通过确定出的字幕显示区域从各目标文本框序列中各文本框对应的文本内容中筛选得到目标视频的字幕信息。

在得到目标视频的字幕信息后，可将目标视频的字幕信息存储至预设存储空间，以在需要获取目标视频的字幕信息时直接从预设存储空间获取即可。其中。预设存储空间可以为服务器、数据库、云存储空间或者区块链，具体可基于实际应用场景需求确定，在此不做限制。数据库简而言之可视为电子化的文件柜——存储电子文件的处所，在本申请中可用于存储目标视频的字幕信息。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块。在本申请中区块链中的每一个数据块均可存储目标视频的字幕信息。云存储是在云计算概念上延伸和发展出来的一个新的概念，是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备（存储设备也称之为存储节点）通过应用软件或应用接口集合起来协同工作，共同存储目标视频的字幕信息。

本申请实施例中涉及到数据处理以及计算过程可基于云计算实现，如文本框相似度、区域交并比、时间交并比等均可通过云计算实现。其中，云计算指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源，是网格计算（Grid Computing)、分布式计算（DistributedComputing)、并行计算（Parallel Computing)、效用计算（Utility Computing)、网络存储（Network Storage Technologies)、虚拟化（Virtualization)、负载均衡（Load Balance)等传统计算机和网络技术发展融合的产物。

在本申请实施例中，基于目标视频的每一视频帧中各部分文本内容对应的文本框确定出的每个文本框序列中可包括文本内容相近的来自不同视频的文本内容。通过确定每个文本框序列与目标视频的每个音频片段的匹配度，可基于匹配度从各个文本框序列中确定出包括字幕信息的目标文本框序列，减少目标视频中不属于字幕信息的文本内容的影响。进一步地，通过确定字幕显示区域可准确从目标文本框序列中筛选出目标视频的字幕信息，提升字幕信息检测效率和准确性。

参见图10，图10是本申请实施例提供的字幕信息检测装置的结构示意图。本申请实施例提供的字幕信息检测装置包括：

文本框确定模块101，用于确定目标视频的每个视频帧中的各文本框，基于各上述文本框确定至少一个文本框序列，每个上述文本框序列中的任意两个文本框位于不同的视频帧；

语音识别模块102，用于确定上述目标视频对应的每个音频片段对应的文本内容；

匹配度确定模块103，用于基于每个上述文本框序列以及对应的第一时间区间、各上述音频片段对应的第二时间区间和文本内容，确定每个上述文本框序列与各上述音频片段的匹配度；

字幕确定模块104，用于基于每个上述文本框序列与各上述音频片段的匹配度，从各上述文本框序列中确定出包括字幕信息的目标文本框序列；

上述字幕确定模块104，用于基于各上述目标文本框序列确定上述目标视频的字幕信息。

在一些可行的实施方式中，上述文本框确定模块101，用于：

确定各上述文本框中每两个文本框的文本框相似度；

基于各上述文本框中每两个文本框的文本框相似度，从各上述文本框中确定出至少一个文本框序列，每个上述文本框序列中的文本框按照所在视频帧的帧序号由小到大的顺序进行排列；

其中，对于每个上述文本框序列中任意两个相邻的第一文本框和第二文本框，上述第一文本框之后的上述第二文本框是基于以下方式确定的：

确定上述第一文本框所在视频帧之后的第一数量的视频帧中的第一视频帧，每个上述第一视频帧包括与上述第一文本框的文本框相似度大于第一阈值的文本框；

将帧序号最小的第一视频帧中与上述第一文本框的文本框相似度最大的文本框确定为上述第二文本框。

在一些可行的实施方式中，对于各上述文本框中的任意两个不相同的第三文本框和第四文本框，上述文本框确定模块101，用于：

响应于上述第三文本框和上述第四文本框所在视频帧的帧序号差小于或者等于第一数量、且上述第三文本框和上述第四文本框位于不同的视频帧，基于上述第三文本框和上述第四文本框分别对应的文本内容、以及分别在对应视频帧中的第一区域和第二区域，确定上述第三文本框和上述第四文本框的文本框相似度。

在一些可行的实施方式中，上述文本框确定模块101，用于：

确定上述第三文本框和上述第四文本框分别对应的文本内容的第一文本相似度；

确定上述第三文本框和上述第四文本框分别在对应视频帧中的第一区域和第二区域的交集区域和并集区域，并确定上述交集区域和上述并集区域的区域交并比；

基于上述第一文本相似度和上述区域交并比，确定上述第三文本框和上述第四文本框的文本框相似度。

在一些可行的实施方式中，对于每个上述文本框序列和每个上述音频片段，上述匹配度确定模块103，用于：

确定该文本框序列对应的第一时间区间和该音频片段对应的第二时间区间的时间交集；

基于该文本框序列对应的文本内容，确定该文本框序列在上述时间交集内的第一文本内容，基于该音频片段对应的文本内容，确定该音频片段在上述时间交集的第二文本内容；

基于上述第一文本内容和上述第二文本内容，确定该文本框序列与该音频片段的匹配度。

在一些可行的实施方式中，上述匹配度确定模块103，用于：

确定上述第一文本内容的第一文本长度、以及上述第二文本内容的第二文本长度；

确定上述第一文本内容和上述第二文本内容的第二文本相似度；

基于上述第二文本相似度、上述第一文本长度以及上述第二文本长度，确定该文本框序列与该音频片段的匹配度。

在一些可行的实施方式中，上述匹配度确定模块103，用于：

确定该文本框序列对应的第一时间区间和该音频片段对应的第二时间区间的时间并集；

确定上述时间交集和上述时间并集的时间交并比；

响应于上述时间交并比大于第二阈值，执行确定上述第一文本内容和上述第二文本内容的步骤。

在一些可行的实施方式中，上述字幕确定模块104，用于：

将各上述文本框序列中与至少一个上述音频片段的匹配度满足第一预设条件的第一文本框序列，确定为包括字幕信息的目标文本框序列。

在一些可行的实施方式中，上述字幕确定模块104，还用于：

确定上述目标视频对应的至少一个第三时间区间，每个上述第三时间区间为上述目标视频对应的完整时间区间中除各上述第一文本框序列对应的第一时间区间之外的一个时间区间；

确定每个上述第三时间区间对应的至少一个第二文本框序列，每个上述第二文本框序列为各上述文本框序列中除各上述第一文本框序列之外的、对应的第一时间区间包括该第三时间区间的一个文本框序列；

对于每个上述第三时间区间，基于各上述第一文本框序列，从该第三时间区间对应的第二文本框序列中确定出包括字幕信息的目标文本框序列。

在一些可行的实施方式中，对于每个上述第三时间区间，上述字幕确定模块104，用于：

确定每个上述第一文本框序列中的各文本框在对应视频帧中的第三区域、以及该第三时间区间对应的每个上述第二文本框序列中的各文本框在对应视频帧中的第四区域；

对于该第三时间区间对应的每个上述第二文本框序列，基于各上述第一文本框序列对应的第三区域、以及该第二文本框序列对应的第四区域，确定该第二文本框序列与各上述第一文本框序列的文本框序列相似度；

将该第三时间区间对应的、与至少一个上述第一文本框序列的文本框序列相似度满足第二预设条件的第二文本框序列，确定为包括字幕信息的目标文本框序列。

在一些可行的实施方式中，上述字幕确定模块104，用于：

基于各上述目标文本框序列中各文本框在对应视频帧中的第五区域，确定上述目标视频的各视频帧对应的字幕显示区域；

基于上述字幕显示区域，从各上述目标文本框序列对应的文本内容中确定出上述目标视频的字幕信息。

具体实现中，上述装置可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

参见图11，图11是本申请实施例提供的电子设备的结构示意图。如图11所示，本实施例中的电子设备1100可以包括：处理器1101，网络接口1104和存储器1105，此外，上述电子设备1100还可以包括：对象接口1103，和至少一个通信总线1102。其中，通信总线1102用于实现这些组件之间的连接通信。其中，对象接口1103可以包括显示屏（Display）、键盘（Keyboard），可选对象接口1103还可以包括标准的有线接口、无线接口。网络接口1104可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1104可以是高速RAM存储器，也可以是非易失性存储器（non-volatile memory，NVM），例如至少一个磁盘存储器。存储器1105可选的还可以是至少一个位于远离前述处理器1101的存储装置。如图11所示，作为一种计算机可读存储介质的存储器1105中可以包括操作系统、网络通信模块、对象接口模块以及设备控制应用程序。

在图11所示的电子设备1100中，网络接口1104可提供网络通讯功能；而对象接口1103主要用于为用户提供输入的接口；而处理器1101可以用于调用存储器1105中存储的设备控制应用程序，以实现：

确定上述目标视频对应的每个音频片段对应的文本内容；

基于各上述目标文本框序列确定上述目标视频的字幕信息。

在一些可行的实施方式中，上述处理器1101用于：

确定各上述文本框中每两个文本框的文本框相似度；

在一些可行的实施方式中，对于各上述文本框中的任意两个不相同的第三文本框和第四文本框，上述处理器1101用于：

在一些可行的实施方式中，上述处理器1101用于：

在一些可行的实施方式中，对于每个上述文本框序列和每个上述音频片段，上述处理器1101用于：

在一些可行的实施方式中，上述处理器1101用于：

在一些可行的实施方式中，上述处理器1101还用于：

确定上述时间交集和上述时间并集的时间交并比；

在一些可行的实施方式中，上述处理器1101用于：

在一些可行的实施方式中，上述处理器1101还用于：

在一些可行的实施方式中，对于每个上述第三时间区间，上述处理器1101用于：

在一些可行的实施方式中，上述处理器1101用于：

应当理解，在一些可行的实施方式中，上述处理器1101可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路 (application specific integratedcircuit，ASIC)、现成可编程门阵列 (field-programmable gate array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

具体实现中，上述电子设备1100可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，被处理器执行以实现图2中各个步骤所提供的方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的装置或电子设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡（smart media card,SMC），安全数字（secure digital, SD）卡，闪存卡（flash card）等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体（read-only memory，ROM）或随机存储记忆体（randomaccess memory，RAM）等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，上述计算机程序或计算机指令被处理器执行图2中各个步骤所提供的方法。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种字幕信息检测方法，其特征在于，所述方法包括：

确定目标视频的每个视频帧中的各文本框，基于各所述文本框确定至少一个文本框序列，每个所述文本框序列中的任意两个文本框位于不同的视频帧；

确定所述目标视频对应的每个音频片段对应的文本内容；

基于每个所述文本框序列以及对应的第一时间区间、各所述音频片段对应的第二时间区间和文本内容，确定每个所述文本框序列与各所述音频片段的匹配度；

将各所述文本框序列中与至少一个所述音频片段的匹配度满足第一预设条件的第一文本框序列，确定为包括字幕信息的目标文本框序列；

确定至少一个第三时间区间，每个所述第三时间区间为所述目标视频对应的完整时间区间中除各所述第一时间区间之外的一个时间区间，对于每个所述第三时间区间，从除各所述第一文本框序列外的文本框序列中确定该第三时间区间对应的至少一个第二文本框序列，每个所述第二文本框序列对应的第一时间区间包括该第三时间区间，基于各所述第一文本框序列，从该第三时间区间对应的第二文本框序列中确定出包括字幕信息的目标文本框序列；

基于各所述目标文本框序列确定所述目标视频的字幕信息。

2.根据权利要求1所述的方法，其特征在于，所述基于各所述文本框确定至少一个文本框序列，包括：

确定各所述文本框中每两个文本框的文本框相似度；

基于各所述文本框中每两个文本框的文本框相似度，从各所述文本框中确定出至少一个文本框序列，每个所述文本框序列中的文本框按照所在视频帧的帧序号由小到大的顺序进行排列；

其中，对于每个所述文本框序列中任意两个相邻的第一文本框和第二文本框，所述第一文本框之后的所述第二文本框是基于以下方式确定的：

确定所述第一文本框所在视频帧之后的第一数量的视频帧中的第一视频帧，每个所述第一视频帧包括与所述第一文本框的文本框相似度大于第一阈值的文本框；

将帧序号最小的第一视频帧中与所述第一文本框的文本框相似度最大的文本框确定为所述第二文本框。

3.根据权利要求2所述的方法，其特征在于，对于各所述文本框中的任意两个不相同的第三文本框和第四文本框，确定所述第三文本框和所述第四文本框的文本框相似度，包括：

响应于所述第三文本框和所述第四文本框所在视频帧的帧序号差小于或者等于第一数量、且所述第三文本框和所述第四文本框位于不同的视频帧，基于所述第三文本框和所述第四文本框分别对应的文本内容、以及分别在对应视频帧中的第一区域和第二区域，确定所述第三文本框和所述第四文本框的文本框相似度。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第三文本框和所述第四文本框分别对应的文本内容、以及分别在对应视频帧中的第一区域和第二区域，确定所述第三文本框和所述第四文本框的文本框相似度，包括：

确定所述第三文本框和所述第四文本框分别对应的文本内容的第一文本相似度；

确定所述第三文本框和所述第四文本框分别在对应视频帧中的第一区域和第二区域的交集区域和并集区域，并确定所述交集区域和所述并集区域的区域交并比；

基于所述第一文本相似度和所述区域交并比，确定所述第三文本框和所述第四文本框的文本框相似度。

5.根据权利要求1所述的方法，其特征在于，对于每个所述文本框序列和每个所述音频片段，基于该文本框序列以及对应的第一时间区间、该音频片段对应的第二时间区间和文本内容，确定该文本框序列与该音频片段的匹配度，包括：

基于该文本框序列对应的文本内容，确定该文本框序列在所述时间交集内的第一文本内容，基于该音频片段对应的文本内容，确定该音频片段在所述时间交集的第二文本内容；

基于所述第一文本内容和所述第二文本内容，确定该文本框序列与该音频片段的匹配度。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一文本内容和所述第二文本内容，确定该文本框序列与该音频片段的匹配度，包括：

确定所述第一文本内容的第一文本长度、以及所述第二文本内容的第二文本长度；

确定所述第一文本内容和所述第二文本内容的第二文本相似度；

基于所述第二文本相似度、所述第一文本长度以及所述第二文本长度，确定该文本框序列与该音频片段的匹配度。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

确定所述时间交集和所述时间并集的时间交并比；

响应于所述时间交并比大于第二阈值，执行确定所述第一文本内容和所述第二文本内容的步骤。

8.根据权利要求1所述的方法，其特征在于，对于每个所述第三时间区间，所述基于各所述第一文本框序列，从该第三时间区间对应的第二文本框序列中确定出包括字幕信息的目标文本框序列，包括：

确定每个所述第一文本框序列中的各文本框在对应视频帧中的第三区域、以及该第三时间区间对应的每个所述第二文本框序列中的各文本框在对应视频帧中的第四区域；

对于该第三时间区间对应的每个所述第二文本框序列，基于各所述第一文本框序列对应的第三区域、以及该第二文本框序列对应的第四区域，确定该第二文本框序列与各所述第一文本框序列的文本框序列相似度；

将该第三时间区间对应的、与至少一个所述第一文本框序列的文本框序列相似度满足第二预设条件的第二文本框序列，确定为包括字幕信息的目标文本框序列。

9.根据权利要求1所述的方法，其特征在于，所述基于各所述目标文本框序列确定所述目标视频的字幕信息，包括：

基于各所述目标文本框序列中各文本框在对应视频帧中的第五区域，确定所述目标视频的各视频帧对应的字幕显示区域；

基于所述字幕显示区域，从各所述目标文本框序列对应的文本内容中确定出所述目标视频的字幕信息。

10.一种字幕信息检测装置，其特征在于，所述装置包括：

文本框确定模块，用于确定目标视频的每个视频帧中的各文本框，基于各所述文本框确定至少一个文本框序列，每个所述文本框序列中的任意两个文本框位于不同的视频帧；

语音识别模块，用于确定所述目标视频对应的每个音频片段对应的文本内容；

匹配度确定模块，用于基于每个所述文本框序列以及对应的第一时间区间、各所述音频片段对应的第二时间区间和文本内容，确定每个所述文本框序列与各所述音频片段的匹配度；

字幕确定模块，用于将各所述文本框序列中与至少一个所述音频片段的匹配度满足第一预设条件的第一文本框序列，确定为包括字幕信息的目标文本框序列；

所述字幕确定模块，用于确定至少一个第三时间区间，每个所述第三时间区间为所述目标视频对应的完整时间区间中除各所述第一时间区间之外的一个时间区间，对于每个所述第三时间区间，从除各所述第一文本框序列外的文本框序列中确定该第三时间区间对应的至少一个第二文本框序列，每个所述第二文本框序列对应的第一时间区间包括该第三时间区间，基于各所述第一文本框序列，从该第三时间区间对应的第二文本框序列中确定出包括字幕信息的目标文本框序列；

所述字幕确定模块，用于基于各所述目标文本框序列确定所述目标视频的字幕信息。

11.一种电子设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序；

所述处理器被配置用于在调用所述计算机程序时，执行如权利要求1至9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至9任一项所述的方法。