CN117576678B

CN117576678B - 视频处理方法、装置、设备、介质及产品

Info

Publication number: CN117576678B
Application number: CN202410051120.8A
Authority: CN
Inventors: 李昊曦; 郭春超; 刘思聪; 刘威; 蒋杰; 顾曼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-04-05
Anticipated expiration: 2044-01-15
Also published as: CN117576678A

Abstract

本申请实施例提出了一种视频处理方法、装置、设备、介质及产品，该方法包括：对待处理的视频进行抽帧处理，得到视频帧序列，视频帧序列包含一个或多个视频帧；对每个视频帧进行文本检测处理，以检测得到每个视频帧中的文本行；基于每个文本行的文本行特征，对检测得到的文本行进行文案聚合处理，得到目标文案块集合；目标文案块集合中包含一个或多个文案块，每个文案块中包含一个或多个文本行，属于同一个文案块中的各个文本行的文本行特征之间相匹配；获取每个文案块分别对应的字幕置信度；按照每个文案块分别对应的字幕置信度，从一个或多个文案块中选择目标文案块确定为视频的字幕集合。本申请实施例能准确地识别视频的字幕内容。

Description

视频处理方法、装置、设备、介质及产品

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，具体涉及一种视频处理方法、一种视频处理装置、一种计算机设备、一种计算机可读存储介质以及一种计算机程序产品。

背景技术

文本、图像、视频是互联网中主要的几种信息源，相较于文本和图像，视频能承载更多信息，更容易吸引和引导用户。大部分视频都会通过字幕来辅助表达，而视频的字幕内容也可以服务于视频检索、视频审核、视频字幕翻译等视频处理任务，因此，视频字幕识别技术有着广泛的应用场景。

实践发现，对于电视剧和电影等视频场景，由于视频字幕的出现位置（如通常展示在界面的中心偏下的位置）、大小（如不超过一行，字体为五号楷体）、数量（如各个视频帧均包含一个视频字幕）都比较固定，因而判断字幕区域（用于展示字幕的图像区域）容易实现，以至于视频字幕识别的准确率较高。但像广告视频、短视频、教学视频、应用展示视频、幻灯片展示视频等视频场景，其视频字幕识别具有以下难点：①视频字幕具有不规律性（例如，视频字幕的数量、大小、出现位置都会发生变化）和不连续性（例如，视频字幕可能会发生一段时间的消失）；②视频的播放时长较短（例如广告视频一般小于30秒）、画面背景复杂、文字众多；③同一视频帧中多行字幕并存；④难以定义视频中的字幕区域。目前，还没有成熟的视频字幕识别技术来解决这些难点，因此如何准确地识别视频的字幕内容仍是亟待解决的问题。

发明内容

本申请实施例提供了一种视频处理方法、装置、设备、介质及产品，能准确地识别视频的字幕内容。

一方面，本申请实施例提供了一种视频处理方法，该视频处理方法包括：

对待处理的视频进行抽帧处理，得到视频帧序列，视频帧序列包含一个或多个视频帧；

对每个视频帧进行文本检测处理，以检测得到每个视频帧中的文本行；

基于每个文本行的文本行特征，对检测得到的文本行进行文案聚合处理，得到目标文案块集合；目标文案块集合中包含一个或多个文案块，每个文案块中包含一个或多个文本行，属于同一个文案块中的各个文本行的文本行特征之间相匹配；

获取每个文案块分别对应的字幕置信度；字幕置信度用于指示对应文案块中的文本行所包含的文本内容是视频的字幕内容的概率；

按照每个文案块分别对应的字幕置信度，从一个或多个文案块中选择目标文案块确定为视频的字幕集合。

相应地，本申请实施例提供了一种视频处理装置，该视频处理装置包括：

处理单元，用于对待处理的视频进行抽帧处理，得到视频帧序列，视频帧序列包含一个或多个视频帧；

处理单元，还用于对每个视频帧进行文本检测处理，以检测得到每个视频帧中的文本行；

处理单元，还用于基于每个文本行的文本行特征，对检测得到的文本行进行文案聚合处理，得到目标文案块集合；目标文案块集合中包含一个或多个文案块，每个文案块中包含一个或多个文本行，属于同一个文案块中的各个文本行的文本行特征之间相匹配；

获取单元，用于获取每个文案块分别对应的字幕置信度；字幕置信度用于指示对应文案块中的文本行所包含的文本内容是视频的字幕内容的概率；

处理单元，还用于对按照每个文案块分别对应的字幕置信度，从一个或多个文案块中选择目标文案块确定为视频的字幕集合。

相应地，本申请实施例提供一种计算机设备，该计算机设备包括：

处理器，适于实现计算机程序；

计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序适于由处理器加载并执行上述的视频处理方法。

相应地，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的视频处理方法。

相应地，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述的视频处理方法。

本申请实施例中，通过对待处理的视频进行抽帧处理可得到视频帧序列，对视频帧序列中的每个视频帧进行文本检测处理，可检测得到每个视频帧中的文本行；可见，本申请借助成熟的单视频帧的文本检测技术，能够快速提取视频帧中的文本行，从而提升视频处理的效率。基于每个文本行的文本行特征，对每个文本行进行文案聚合处理，得到目标文案块集合；目标文案块集合中包含一个或多个文案块，每个文案块中包含一个或多个文本行，属于同一文案块中的各个文本行的文本行特征之间相匹配。由于文本行特征用于表征相应文本行，通过基于文本行特征进行文案聚合处理可实现将视频帧序列中相匹配的文本行聚合至同一个文案块中，这样就可以定位出视频帧中稳定出现文本的区域（即文案块对应的文本区域）。获取每个文案块分别对应的字幕置信度，该字幕置信度指示对应文案块中的文本行所包含的文本内容是视频的字幕内容的概率；也就是说，字幕置信度可用于指示对应文案块所对应的文本区域是视频的字幕区域的概率；那么，按照每个文案块分别对应的字幕置信度，从一个或多个文案块中选择目标文案块确定为视频的字幕集合，即目标文案块对应的文本区域可以理解为是视频的字幕区域，相应地，该目标文案块中包含的文本行中的文本内容则为视频的字幕内容，通过上述这样的方式，就能通过字幕集合中的各个文本行所包含的文本内容得到视频的字幕内容，实现视频字幕的准确识别。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频处理方案的示意图；

图2为本申请实施例提供的一种视频处理系统的架构示意图；

图3为本申请实施例提供的一种视频处理方法的流程示意图；

图4为本申请实施例提供的一种基于文本置信度的文本检测识别算法的流程示意图；

图5为本申请实施例提供的一种快速CTC置信度算法的流程示意图；

图6为本申请实施例提供的一种文案聚合处理方法的流程示意图；

图7为本申请实施例提供的一种字幕内容输出的示意图；

图8为本申请实施例提供的一种视频处理方法的场景示意图；

图9是本申请实施例提供的一种视频处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

常见的用于视频字幕识别的算法一般包括两种：一种是单目标检测算法，其会基于检测目标（如字幕区域）在视频的第一个视频帧中的位置，给定检测目标的初始位置，再在视频的第一个视频帧之后的各个视频帧中检测该检测目标的位置。虽然一个视频帧通常只会有一个字幕区域，但不通过一段较长的视频段往往难以准确判断字幕区域的初始位置，这限制了单目标检测算法的使用。即使能够获得字幕区域的初始位置，但由于视频字幕的不规律性和不连续性，导致单目标检测算法仍旧难以获得可用的检测结果，例如，不同长度的两句话会导致字幕区域大幅度变动从而导致检测失败。另一种是检测匹配算法，其通过目标检测并配合帧间数据之间的关联来实现，例如，可检测视频中当前视频帧中的字幕区域，再在当前视频帧的下一视频帧中检测与该字幕区域最匹配的区域。但检测匹配算法同样会受到视频字幕的不规律性和不连续性的影响，且其准确度极大依赖于字幕区域的精确度，但字幕区域往往难以定义。由此可见，单目标检测算法和检测匹配算法均难以解决视频字幕识别的难点。

本申请实施例提出了一种视频处理方案，该视频处理方案能够对任意视频实现视频字幕识别，解决视频字幕识别的难点；请参见图1，图1为本申请实施例提供的一种视频处理方案的示意图，该视频处理方案大致包括：视频帧抽取、字幕候选不定行检测、文本区域聚合打分、字幕置信度排序、字幕内容输出。

（1）视频帧抽取：

在获取到待处理的视频之后，可以从该视频中抽取视频帧组成视频帧序列，该视频帧序列包含R个视频帧，R为正整数。

（2）字幕候选不定行检测：

视频帧包含有文本行，文本行是指包含有一行文本的图像区域，如文本行可以是文本行检测框。可以对视频帧序列中的每个视频帧进行文本检测处理，从而检测得到该每个视频帧中的文本行。

每个文本行具有各自的文本行特征，该文本行特征能够从多维度来表征相应文本行。比如，文本行特征可以包括以下至少一种信息：文本行所包含的文本内容，用于表示文本行的语义信息的语义特征，用于表示文本行的表观信息的表观特征，文本行的段落信息，以及文本行的位置信息（如起始位置点、中心位置点、倾斜角、高度等）、位置变化信息（如起始位置点变化信息、中心位置点变化信息、倾斜角变化信息、高度变化信息等）、文本置信度（用于反映相应文本行所包含的文本内容的识别准确度）。通过文案检测算法（可用于实现文案聚合处理）将文本行特征之间相匹配的多个文本行聚合至同一个文案块，若任一文本行的文本行特征与其他所有文本行特征均不匹配，则将该任一文本行单独聚合至一个文案块中，从而得到包含一个或多个文案块的目标文案块集合。

示意性地，若该文本行特征包括文本区分度特征（是相应文本行所包含的文本内容所具有的特征，如上述的文本置信度、表观特征、语义特征、文本内容），则文本区分度特征相匹配的多个文本行之间包含的文本内容相似（甚至相同），也就是说，本申请会将这些相似（包括相同）文本行聚合至同一个文案块中。例如，图1中视频帧序列包括的各个视频帧均包含文本行：“xx机构”，则会将该各个视频帧均包含的文本行：“xx机构”聚合至同一个文案块中。

示意性地，若该文本行特征包括文案稳定度特征（能够反映相应文本行的轨迹信息，如上述的位置信息、位置变化信息、段落信息），则文案稳定度特征相匹配的多个文本行之间的轨迹相匹配，也就是说，本申请会将轨迹相匹配的文本行聚合至同一个文案块中。所谓轨迹是指用于描述文本行在各个视频帧中出现的位置情况的曲线（直线是一种特殊的曲线）；例如，文本行1在视频帧1中出现的位置为（2,2），文本行2在视频帧2中出现的位置为（2,3），文本行3在视频帧1中出现的位置为（2,4），则基于文本行1、文本行2、文本行3各自的位置构造出的轨迹为一条斜线（一种直线）。可选地，多个文本行的轨迹相匹配包括该多个文本行所处位置邻近（甚至相同）。例如，图1中的多个文本行：“AA，听说你...”、“对啊！”、“你怎么知道的?”均展示在界面的中心偏下的位置，则认为这多个文本行的轨迹相匹配。可选地，多个文本行的轨迹相匹配包括基于该多个文本行构造的轨迹与文本区域的运动轨迹相匹配，但由于事先无法获得文本区域的运动轨迹，因此多个文本行的轨迹相匹配是指能基于该多个文本行构造出规律性的轨迹。例如，文本行1（包含在第一个视频帧中）、文本行2（包含在第二个视频帧中）和文本行3（包含在第三个视频帧中）的中心位置点均相同，文本行1的高度为1，文本行2的高度为2，文本行3的高度为3，则通过文本行1、文本行2和文本行3的高度可以推测出文本区域是逐帧向上移动1个单位长度，则认为文本行1、文本行2和文本行3的轨迹相匹配。

需要说明的是，若视频的多个视频帧均包含同一个文本区域（用于展示文本的图像区域），则将该多个视频帧均包含的文本区域称为视频的文本区域（即稳定出现文字的区域）。一个文案块（如文案块p）可以对应于视频的一个文本区域（如文本区域q），也就是说，文案块p中的各个文本行应展示在视频的文本区域q中。例如，图1中的多个文本行：“AA，听说你...”、“对啊！”、“你怎么知道的?”被聚合至文案块1中，该文案块1对应于文本区域1，则该文案块1中的多个文本行显示在文本区域1中。

（3）文本区域聚合打分：

经过数据分析发现视频字幕普遍具有以下共性：①属于视频主要表达内容，在视频内出现总时间较长、信息量大；②字幕出现位置大部分处于一个固定的区域，一般在中心或靠下的位置，且字体和大小保持稳定；③有人声一一对应伴随出现；④字幕内容以秒级时间粒度持续变化。基于此，本申请设计了一套加权字幕置信度算法，计算每个文案块分别对应的字幕置信度；该字幕置信度用于指示对应文案块所对应的文本区域是视频的字幕区域的概率，即指示对应文案块中的文本行所包含的文本内容是视频的字幕内容的概率。其中，该加权字幕置信度算法的详细实现过程请参见下述图3所对应实施例中的S304，在此不赘述。

（4）字幕置信度排序：

按照每个文案块分别对应的字幕置信度，对目标文案块集合中的一个或多个文案块进行排序，得到置信度排序结果。基于置信度排序结果，从目标文案块集合中选取目标文案块。示例地，目标文案块可以是目标文案块集合中最大字幕置信度对应的文案块，或者是目标文案块集合中对应字幕置信度大于第一预设置信度阈值（可以按需设置）的文案块。

（5）字幕内容输出：

目标文案块即为视频的字幕集合，目标文案块（即字幕集合）中的文本行所包含的文本内容即是视频的字幕内容。在一实现方式中，可以对目标文案块中文本行所包含的文本内容进行集成处理，输出视频的字幕内容。该集成处理可以包括文本行的去重处理（用于去除重复的文本行）和整合处理（用于实现文本行所包含的文本内容的排列过程）。

本申请实施例，支持检测视频中的文本行，采用文本行的文本行特征实现文案聚合处理，得到目标文案块集合（包含一个或多个文案块），对所有文案块设计字幕置信度排序的方式，从目标文案块集合中选取出目标文案块作为视频的字幕集合，通过字幕集合中各个文本行所包含的文本内容得到视频的字幕内容。由此可见，本申请实施例，无需使用单独的字幕区域检测模型，而是将字幕区域定义为多个文本行的聚合，将文本行作为检测目标，可以无惧视频字幕的不规律性和不连续性，实现对同帧多行字幕的准确识别，解决视频字幕识别的难点，实现视频字幕的准确识别。

在实际应用中，本申请实施例支持使用视频处理平台来为任意视频（即本申请实施例中的待处理的视频）生成字幕内容，即该视频处理平台部署了本申请实施例提供的视频处理方案，这样目标对象具有获取待处理的视频的字幕内容的需要时，可以调用该视频处理平台自动为待处理的视频生成对应的字幕内容。其中，视频处理平台可以是指具备视频处理能力的应用程序。应用程序可是指为完成某项或多项特定工作的计算机程序；按照不同维度（如应用程序的运行方式、功能等）对应用程序进行归类，可得到同一应用程序在不同维度下的类型。例如：按照应用程序的运行方式分类，应用程序可包括但不限于：安装在终端中的客户端、无需下载安装即可使用的小程序（作为客户端的子程序）、通过浏览器打开的web（World Wide Web，全球广域网）应用程序等等。再如：按照应用程序的功能类型分类，应用程序可包括但不限于：IM（Instant Messaging，即时通信）应用程序、内容交互应用程序等等。其中，即时通信应用程序是指基于互联网的即时交流消息和社交交互的应用程序，即时通信应用程序可以包括但不限于：包含通信功能的社交应用程序、包含社交交互功能的地图应用程序、游戏应用程序等等。内容交互应用程序是指能够实现内容交互的应用程序，例如可以是分享平台、个人空间、新闻等应用程序。

进一步的，视频处理平台还可以是上述提及的应用程序所包含的，支持视频处理的插件（或功能）。例如，应用程序为客户端形式的即时通信应用程序，那么视频处理平台可以是该即时通信应用程序中包含的视频处理插件，此时通过该视频处理插件，目标对象（如使用即时通信应用程序的任一对象）在使用该即时通信应用程序进行社交的过程中，可以直接在该即时通信应用程序中生成视频的字幕内容，而无需应用跳转。

为便于理解本申请实施例提供的视频处理方案，下面结合图2（为本申请实施例提供的一种视频处理系统的架构示意图），对视频处理方案的一种视频处理场景进行示例性说明。如图2所示，该视频处理系统中包含终端设备201和服务器202，本申请实施例对终端设备201和服务器202的数量和命名不作限定。

其中，终端设备201可以是一种电子设备，包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实（Augmented Reality/VirtualReality，AR/VR）设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备（mobile internet device，MID），或者火车、轮船、飞行等场景下的终端设备等。其中，服务器202可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。在一实现方式中，服务器202具体可以对应于一个提供视频处理服务的平台（如视频处理平台），该平台内可以部署多种功能的服务器。

本申请实施例提供的视频处理方案可以是由计算机设备来执行的，该计算机设备可以包括图2所示系统中的终端设备201和服务器202，即本申请实施例支持由终端设备201和服务器202共同执行视频处理方案。具体实现中，目标对象具有获取视频的字幕内容的需要时，可以通过终端设备201向服务器202发送待处理的视频。这样服务器202可以待处理的视频进行抽帧处理，得到视频帧序列，该视频帧序列包含一个或多个视频帧；对视频帧序列中的每个视频帧进行文本检测处理，以检测得到该每个视频帧中的文本行。基于每个文本行的文本行特征，对每个文本行进行文案聚合处理，得到目标文案块集合；该目标文案块集合中包含一个或多个文案块，每个文案块中包含一个或多个文本行，属于同一文案块中的各个文本行的文本行特征之间相匹配。获取每个文案块分别对应的字幕置信度，该字幕置信度用于指示对应文案块中的文本行所包含的文本内容是视频的字幕内容的概率。按照每个文案块分别对应的字幕置信度，从一个或多个文案块中选择目标文案块确定为视频的字幕集合，并基于目标文案块（即字幕集合）中各个文本行所包含的文本内容确定待处理的视频的字幕内容。服务器202可以将该字幕内容返回给终端设备201。

本申请提供的视频处理方案涉及人工智能（Artificial Intelligence，AI）技术。例如，可以利用AI实现文本检测处理。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术（Computer Vision，CV）、语音处理技术、自然语言处理技术以及机器学习（Machine Learning，ML）/深度学习（Deep Learning ，DL）等几大方向。自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。需要说明的是，本申请实施例所涉及的视频处理方案可以为下游的自然语言处理服务提供输入，例如，自然语言处理服务可以包括视频搜索服务（涉及字幕内容与搜索文本的文本匹配）、视频推荐服务（涉及基于字幕内容的视频表征学习）、视频页导航服务（涉及基于字幕内容的文本分类）、视频字幕翻译服务、视频审核服务（涉及基于字幕内容的文本审核）等。

本申请提出的视频处理方案中，涉及较多的数据计算服务以及数据存储服务，因此需要花费大量的计算机运营成本。那么，本申请可以基于云技术中的云存储技术来执行相应的数据处理操作；例如，基于数据存储服务将视频、文本置信度、字幕置信度等进行数据存储；基于数据计算服务进行文本检测处理等。其中，所谓云技术（Cloud technology）是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。其中，云技术可以包括云存储技术，所谓云存储（cloud storage）是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统（以下简称存储系统）是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备（存储设备也称之为存储节点）通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

需要说明的是，图2所示只是本申请实施例提供的示例性的视频处理系统的架构示意图。在实际应用中该架构可以发生适应性变化，例如，本申请实施例提供的视频处理方案可以是由终端设备来执行的，此时前述提及的执行主体计算机设备为终端设备；此实现方式下，终端设备在获取到目标对象上传的待处理的视频后，可以执行为该待处理的视频生成字幕内容的具体实施过程，而无需将待处理的视频发送至服务器端进行相关处理。再如，本申请实施例提供的视频处理方案还可以是由服务器来执行的，此时前述提及的执行主体计算机设备为服务器；此实现方式下，服务器在获取到待处理的视频后，可以直接执行为该待处理的视频生成字幕内容的具体操作。

需要说明的是，本申请实施例运用到具体产品或技术中时，如获取待处理的视频或视频中的文本内容等时，需要获得目标对象（即该视频的所有者或视频中的文本内容的所有者）的许可或者同意，且相关数据收集、使用和处理过程需遵守地区的相关法律法规和标准，符合合法、正当、必要的原则，不涉及获取法律法规禁止或限制的数据类型。在一些可选的实施例中，本申请实施例中所涉及的相关数据是经过目标对象单独授权后获取的，另外，在获取目标对象单独授权时，向目标对象表明所涉及的相关数据的用途。

下面结合附图对视频处理方案涉及的具体实施例进行描述。请参见图3，图3为本申请实施例提供的一种视频处理方法的流程示意图。该视频处理方法可以由图2所示的视频处理系统中的计算机设备（终端设备201或服务器202）执行。其中，该视频处理方法主要包括但不限于如下步骤S301~S305：

S301、对待处理的视频进行抽帧处理，得到视频帧序列，视频帧序列包含一个或多个视频帧。

待处理的视频可以是任意需获取字幕内容的视频，本申请对视频的类型不加以限定，例如，待处理的视频可以为广告视频、短视频、教学视频、应用展示视频、幻灯片展示视频等。

本申请实施例支持对待处理的视频进行抽帧处理，示意性的，该抽帧处理可以是指按播放顺序间隔抽取视频帧的操作；例如，设置预设间隔参数为0.5秒（或10帧），针对总时长为1分钟的视频，可以每间隔0.5秒（或10帧）就抽取一个视频帧。这样从视频中抽取的每个视频帧分别具有各自的抽帧时刻，假设视频帧序列共包含R（正整数）个视频帧，则视频帧序列中该R个视频帧按照抽帧时刻的先后顺序排列；例如，从视频中依次抽取的视频帧为：视频帧1、视频帧2、视频帧3，视频帧1的抽帧时刻为：抽帧时刻1（如0.5秒），视频帧2的抽帧时刻为：抽帧时刻2（如1秒），视频帧3的抽帧时刻为：抽帧时刻3（如1.5秒），则视频帧序列包含：[视频帧1，视频帧2，视频帧3]。需要说明的是，本申请实施例将视频帧序列中任一个视频帧表示为第i视频帧，i为小于或等于R的正整数。

S302、对每个视频帧进行文本检测处理，以检测得到每个视频帧中的文本行。

视频中大量存在的背景小字容易引发字幕误识别（例如，文本行1所包含的文本内容为“xx机构”，但被误识别为：“xx机制”，若该文本行1所包含的文本内容被误识别为字幕内容，则会导致字幕误识别）以及引发文案块的误聚合（例如，文本行1所包含的文本内容与文本行2所包含的文本内容相似，若文本行1所包含的文本内容被误识别，可能导致文本行1和文本行2被聚合至不同的文案块中）。基于此，本申请实施例提出了一种基于文本置信度的文本检测识别算法，可以过滤掉视频帧中的低质量文本行（指所包含的文本内容被错误识别的文本行），提高视频字幕识别的准确度。下面以对第i视频帧进行文本检测处理，得到第i视频帧中的J个文本行为例，对该文本检测识别算法的整体流程进行说明。如图4（为本申请实施例提供的一种基于文本置信度的文本检测识别算法的流程示意图）所示，该文本检测识别算法包括但不限于如下步骤S11-S13：

S11、对第i视频帧进行文本行检测处理，得到第i视频帧中的至少一个备选文本行。

在一个实施例中，可以通过文本行检测模型对第i视频帧进行文本行检测处理，得到第i视频帧中的至少一个备选文本行；即将文本行检测模型从该第i视频帧检测得到的文本行称为备选文本行。该文本行检测模型是用于确定文本行所在位置、范围及其布局的模型，可以为FasterRCNN（一种高效的目标检测模型）、PixelLink（一种文本检测模型）、高效准确的场景文本检测器（Efficientand Accurate Scene Text Detector，EAST）等。

需要说明的是，本申请实施例中，将该至少一个备选文本行中任一个备选文本行表示为备选文本行k，k为正整数且小于或等于至少一个备选文本行的总数。

S12、确定每个备选文本行分别对应的文本置信度，文本置信度用于指示对应备选文本行所包含的文本内容的识别准确度。

本申请可采用文本行识别模型对每个备选文本行进行文本行识别处理，得到该每个备选文本行所包含的文本内容。该文本行识别模型是文本编码模块+CTC（ConnectionistTemporal Classification，基于神经网络的时序类分类）快速文本行识别模型；文本编码模块可以为CNN（Convolutional Neural Networks，卷积神经网络）、DenseNet（DenseConvolutional Network，密集连接的卷积网络）、CRNN（Convolutional Recurrent NeuralNetwork，卷积循环神经网络）等神经网络。上述文本检测识别算法主要包括针对文本行识别模型中的CTC设计快速CTC置信度算法，以确定每个备选文本行对应的文本置信度。下面以确定备选文本行k对应的文本置信度为例，对该快速CTC置信度算法进行说明。确定备选文本行k对应的文本置信度，包括：

（1）采用文本行识别模型中的文本编码模块对备选文本行k进行编码处理，得到备选文本行k的文本概率分布矩阵（在该文本编码模块的最后一层应用softmax函数即可输出该文本概率分布矩阵）。其中，文本概率分布矩阵的大小为编码长度M（即行数）×字典的字符数量N（即列数），×表示乘积运算，文本概率分布矩阵中位于位置（m,n）的矩阵元素的取值表示M个编码位中第m个编码位是字典中第n个字符的概率；字典可包括中文汉字、英文字母、符号（如标点）、分隔符（表示为-）等字符；N、M、n和m均为正整数，且m小于或等于M，n小于或等于N。

（2）基于文本概率分布矩阵，确定M个编码位中各个编码位分别对应的字符。其中，M个编码位中第m个编码位对应的字符是文本概率分布矩阵的第m列中最大取值对应的字符；例如，文本概率分布矩阵的第m列包括多个取值：0.2（表示第m个编码位是字典中第1个字符的概率为0.2）、0.5（表示第m个编码位是字典中第2个字符的概率为0.5）、0.3（表示第m个编码位是字典中第3个字符的概率为0.3），则第m个编码位对应的字符是字典中第2个字符。

（3）按照M个编码位的排列顺序，将各个编码位分别对应的字符进行组合，生成初始字符序列。例如，第1个编码位对应的字符为：“文”、第2个编码位对应的字符为：“文”、第3个编码位对应的字符为：“-”、第4个编码位对应的字符为：“本”、第5个编码位对应的字符为：“区”、第6个编码位对应的字符为：“域”，则初始字符序列为：“文文-本区域”。

（4）获取初始字符序列中各个字符分别对应的字符置信度，字符置信度用于指示对应字符的识别准确度。在一实现方式中，获取初始字符序列中第m个字符对应的字符置信度，包括：基于文本概率分布矩阵的第m列中最大取值（表示为fc_max值）和预设取值（可以按需设置，如10）之间的差值（如fc_max-10），确定分割值（partion）。从文本概率分布矩阵的第m列中获取大于分割值的一个或多个参考取值。对该一个或多个参考取值进行排序，并基于排序的结果从该一个或多个参考取值中选择一个或多个目标取值，基于该一个或多个目标取值和文本概率分布矩阵的第m列中最大取值，确定初始字符序列中第m个字符对应的字符置信度。具体的，可对该一个或多个参考取值从大到小进行排列（可通过最小堆算法实现），得到排序结果，从排序结果中选取排在前面的V（V为正整数，可按需设置，如V=10）个参考取值确定为V个目标取值，将该V个目标取值和文本概率分布矩阵的第m列中最大取值输入字符置信度计算公式中，得到该第m个字符对应的字符置信度。其中，该字符置信度计算公式为：

w=

其中，w表示字符置信度，fc_max表示文本概率分布矩阵的第m列中的最大取值，f_v表示第v个目标取值，v的取值为[1，V]，∑表示求和公式。

（5）基于初始字符序列和初始字符序列中各个字符分别对应的字符置信度，确定备选文本行k对应的文本置信度。具体的，将初始字符序列中位置相邻的相同字符进行合并处理，得到中间字符序列；例如，初始字符序列为：“文文-本区域”，则需将“文文”合并为“文”，得到中间字符序列：“文-本区域”。基于初始字符序列中各个字符分别对应的字符置信度，确定中间字符序列中各个字符分别对应的字符置信度；其中，若中间字符序列中任一字符是对初始字符序列中多个字符合并得到的，则该任一字符对应的字符置信度是该多个字符对应的多个字符置信度中的最大字符置信度。例如，初始字符序列：“文文-本区域”中各个字符分别对应的字符置信度依次为：0.1、0.3、0.8、0.6、0.5、0.8，则中间字符序列：“文-本区域”中各个字符分别对应的字符置信度依次为：0.3、0.8、0.6、0.5、0.8。将中间字符序列中的间隔符删除，得到目标字符序列；例如，中间字符序列为：“文-本区域”，则删除间隔符后得到的目标字符序列为：“文本区域”。基于中间字符序列中各个字符分别对应的字符置信度，确定目标字符序列中各个字符分别对应的字符置信度；例如，中间字符序列：“文-本区域”中各个字符分别对应的字符置信度依次为：0.3、0.8、0.6、0.5、0.8，则目标字符序列：“文本区域”中各个字符分别对应的字符置信度依次为：0.3、0.6、0.5、0.8。需要说明的是，目标字符序列用于表示备选文本行k所包含的文本内容。对目标字符序列中各个字符分别对应的字符置信度进行均值处理，得到备选文本行k对应的文本置信度；例如，目标字符序列：“文本区域”中各个字符分别对应的字符置信度依次为：0.3、0.6、0.5、0.8，则备选文本行k对应的文本置信度为0.55=（0.3+0.6+0.5+0.8）÷4。其中，+表示加法运算，÷表示除法运算。

综上所述，请参见图5，图5为本申请实施例提供的一种快速CTC置信度算法的流程示意图；如图5所示，该快速CTC置信度算法包括：将待处理的文本行输入文本编码模块，并由文本编码模块输出大小为编码长度M×字典的字符数量N的文本概率分布矩阵。采用Argmax函数（最大值计算函数）求文本概率分布矩阵中每一列的最大取值，以得到M个编码位中每个编码位分别对应的字符。利用M个编码位中每个编码位分别对应的字符组合得到初始字符序列，如图5中的“文文-本区域”。采用分割值快速softmax，基于分割值从文本概率分布矩阵的每一列中选取出V个目标取值（可基于最小堆算法实现），并基于该V个目标取值（包含最大取值）进行编码置信度计算，得到每个编码位分别对应的字符的字符置信度（即初始字符序列中每个字符的字符置信度）。按照初始字符序列和该初始字符序列中每个字符的字符置信度进行带置信度的CTC贪心解码计算，得到目标字符序列以及目标字符序列中各个字符分别对应的字符置信度（如图5中的“文本区域”分别对应的字符置信度：0.3、0.6、0.5、0.8），基于该目标字符序列中各个字符分别对应的字符置信度进行均值计算得到该待处理的文本行的文本置信度（如图5中的行置信度：0.55）。由此可见，该快速CTC置信度算法可通过计算单个字符的字符置信度，得到整个文本行的文本置信度，也就是说，可通过单个字符的识别准确度，评估整个文本行的识别准确度。

需要说明的是，该快速CTC置信度算法可应用于文本质量判断，如判断拍照文字识别得到的文本内容是否准确。另外，像注意力机制（Attention）、ACE loss（AggregationCross-Entropy，聚合交叉熵）等也会使用softmax函数（一种激活函数）计算单字置信度输出结果（如文本概率分布矩阵），因此省略该快速CTC置信度算法中的CTC贪心解码计算，像注意力机制（Attention）、ACE loss（Aggregation Cross-Entropy，聚合交叉熵）等也可使用同原理的快速文本行置信度判断。

S13、按照每个备选文本行分别对应的文本置信度，从至少一个备选文本行中选择J个备选文本行，确定为从第i视频帧检测得到的J个文本行，J为正整数。

文本置信度越大，则对应备选文本行所包含的文本内容的识别准确度越高；文本置信度越小，则对应备选文本行所包含的文本内容的识别准确度越低。在一个实现方式中，可以设置第二预设置信度阈值（按需设置），将该至少一个备选文本行中对应文本置信度小于该第二预设置信度阈值的备选文本行删除，将该至少一个备选文本行中删除后剩下的备选文本行确定为从第i视频帧检测得到的J个文本行。

需要说明的是，该基于文本置信度的文本检测识别算法可以在文本行识别模型时耗增加不到3%的情况下有效过滤视频帧中的低质量文本行（即文本内容被错误识别的文本行），防止低质量文本行导致文案块的误聚合，有利于提升视频字幕识别的准确度。

S303、基于每个文本行的文本行特征，对检测得到的文本行进行文案聚合处理，得到目标文案块集合；目标文案块集合中包含一个或多个文案块，每个文案块中包含一个或多个文本行，属于同一个文案块中的各个文本行的文本行特征之间相匹配。

视频帧序列包含R个视频帧，每个视频帧具备各自的抽帧时刻，R个视频帧按照抽帧时刻的先后顺序排列；视频帧序列中任一个视频帧表示为第i视频帧，第i视频帧具备抽帧时刻T，且从第i视频帧检测得到J个文本行；i、R、T和J均为正整数，且i小于或等于R。请参见图6，图6为本申请实施例提供的一种文案聚合处理方法的流程示意图；如图6所示，该文案聚合处理方法包括但不限于如下步骤S21-S24：

S21、获取J个文本行中每个文本行的文本行特征。

需要说明的是，本申请实施例中，将J个文本行中任一个文本行表示为文本行j；j为小于或等于J的正整数。其中，文本行特征包括文本区分度特征和文案稳定度特征中的一种或两种。下面以获取该文本行j的文本行特征为例进行说明。

在一实现方式中，若文本行特征包括文本区分度特征（是相应文本行所包含的文本内容所具有的特征），则获取该文本行j的文本区分度特征，包括：将文本行j对应的文本置信度（用于反映文本行j所包含的文本内容的识别准确度）、文本行j所包含的文本内容的表观特征、文本行j所包含的文本内容的语义特征进行融合处理，得到文本行j的文本区分度特征。该融合处理包括以下至少一种：横向拼接处理或纵向拼接处理。

其中，表观特征用于反映相应文本行所包含的文本内容的表观信息；可选地，文本行j所包含的文本内容的表观特征包括：文本行j与第i视频帧中除文本行j以外的其他文本行之间的交集和并集的比值（即交并比）、文本行j的卡尔曼滤波特征，通过图像特征提取模型（例如CNN）对文本行j进行特征提取得到的图像特征。其中，语义特征用于反映相应文本行所包含的文本内容的语义信息；可选地，文本行j所包含的文本内容的语义特征包括：文本行j对应的目标字符序列（用于表示文本行j所包含的文本内容）、通过语义特征提取模型（例如文本行识别模型中的文本编码模块）对文本行j进行特征提取得到的图像特征。

在一实现方式中，若文本行特征包括文案稳定度特征（能够反映相应文本行的轨迹信息），则获取该文本行j的文案稳定度特征，包括：将文本行j对应的文本置信度、文本行j在第i视频帧中的位置段落特征、以及文本行j在第i视频帧中的位置变化特征进行融合处理，得到文本行j的文案稳定度特征。该融合处理包括以下至少一种：横向拼接处理或纵向拼接处理。

其中，位置段落特征用于反映相应文本行在所属视频帧中的位置信息和段落信息；可选地，文本行j在第i视频帧中的位置段落特征包括：文本行j在第i视频帧中的起始位置点、文本行j在第i视频帧中的中心位置点、文本行j在第i视频帧中的倾斜角、文本行j在第i视频帧中的高度、文本行j在第i视频帧中的段落信息。其中，位置变化特征用于反映相应文本行在所属视频帧中的位置变化信息。可选地，文本行j在第i视频帧中的位置变化特征，包括：文本行j在第i视频帧中的起始位置点变化信息、文本行j在第i视频帧中的中心位置点变化信息、文本行j在第i视频帧中的倾斜角变化信息、文本行j在第i视频帧中的高度变化信息、经过深度图模型学习的文本行j的轨迹节点特征。

S22、令i=1，基于J个文本行中每个文本行的文本行特征，对J个文本行进行帧内文案匹配处理，得到抽帧时刻T对应的第一文案块集合。

其中，令i=1，是指第i视频帧是视频帧序列中的第一个视频帧。此时本申请实施例对J个文本行（从第i视频帧检测得到）进行帧内文案匹配处理。其中，所谓帧内文案匹配处理是指对一个视频帧内包含的各个文本行进行匹配处理，可用于检测第i视频帧内包含的各个文本行的文本行特征之间是否相匹配；例如，第i视频帧包含文本行1、文本行2、文本行3，可以检测文本行1的文本行特征、文本行2的文本行特征和文本行3的文本行特征之间是否相匹配，从而实现对文本行1、文本行2、文本行3的匹配处理。

在一个实施例中，基于J个文本行中每个文本行的文本行特征，对J个文本行进行帧内文案匹配处理，得到抽帧时刻T对应的第一文案块集合，包括：

（1）若J的取值为1，则生成一个包含J（即1）个文本行的文案块，并将包含J（即1）个文本行的文案块添加至抽帧时刻T对应的第一文案块集合中。

（2）若J的取值大于1，则按照J个文本行中每个文本行的文本行特征，将J个文本行聚合至K个文案块中，并将聚合得到的K个文案块添加至第一文案块集合中，K为正整数。

需要说明的是，若文本行特征包括文本区分度特征，则K个文案块中，被聚合至同一个文案块中的各个文本行的文本区分度特征之间的匹配度大于或等于第一预设匹配阈值（可以按需设置），被聚合至不同文案块中的各个文本行的文本区分度特征之间的匹配度小于第一预设匹配阈值。其中，文本区分度特征之间的匹配度用于反映文本行之间的文本匹配度；也就是说，若两个文本行的文本区分度特征之间的匹配度越大，则这两个文本行的文本匹配度越大，这两个文本行越可能相似；若两个文本行的文本区分度特征之间的匹配度越小，则这两个文本行的文本匹配度越小，这两个文本行越可能不相似。

在一个实现方式中，任意两个文本行的文本区分度特征之间的匹配度可以是采用归一化相似函数对该任意两个文本行的文本区分度特征进行文本匹配运算得到的。其中，该归一化相似函数可以是相似度计算算法（包括但不限于欧氏距离、余弦相似度等）的算术表达式，具体可以表示为：F（，/>），其中，/>和/>可以表示任意两个文本行的文本区分度特征，F表示文本匹配运算，该归一化相似函数的取值可以为[0,1]。

需要说明的是，若文本行特征包括文案稳定度特征，则K个文案块中，被聚合至同一个文案块中的各个文本行的文案稳定度特征之间的匹配度大于或等于第二预设匹配阈值（可以按需设置），被聚合至不同文案块中的各个文本行的文案稳定度特征之间的匹配度小于第二预设匹配阈值。文案稳定度特征之间的匹配度用于反映文本行之间的轨迹匹配度；也就是说，若两个文本行的文案稳定度特征之间的匹配度越大，则这两个文本行的轨迹匹配度越大，这两个文本行越可能轨迹相匹配；若两个文本行的文案稳定度特征之间的匹配度越小，则这两个文本行的轨迹匹配度越小，这两个文本行越可能轨迹不匹配。

在一个实现方式中，任意两个文本行的文案稳定度特征之间的匹配度可以是对该任意两个文本行的文案稳定度特征进行轨迹匹配运算得到的。具体的，文案稳定度特征中包括一个或多个子信息（如上述的文本置信度、起始位置点变化信息、中心位置点变化信息、倾斜角、高度等），确定该任意两个文本行的文案稳定度特征中各个子信息之间的参考匹配度，对该各个子信息之间的参考匹配度进行加权求和处理，得到该任意两个文本行的文案稳定度特征之间的匹配度。举例说明，文案稳定度特征中包括多个子信息：起始位置点变化信息、倾斜角，确定文本行1和文本行2的文案稳定度特征中的起始位置点变化信息之间的第一匹配度（若文本行1和文本行2的起始位置点变化信息越相似，则该第一匹配度越大；反之，则该第一匹配度越小），以及确定文本行1和文本行2的文案稳定度特征中的倾斜角之间的第二匹配度（若文本行1和文本行2的倾斜角越相似，则该第二匹配度越大；反之，则该第二匹配度越小），通过第一匹配度×起始位置点变化信息对应的权值（用于反映起始位置点变化信息对轨迹匹配度的影响程度）+第二匹配度×倾斜角对应的权值（用于反映倾斜角对轨迹匹配度的影响程度）得到文本行1和文本行2的文案稳定度特征之间的匹配度。

在一个实施例中，若文本行特征包括文本区分度特征和文案稳定度特征，则上述按照J个文本行中每个文本行的文本行特征，将J个文本行聚合至K个文案块，包括：（1）将J个文本行中，文本区分度特征之间的匹配度大于第一预设匹配阈值的文本行聚合至同一个文案块中，得到一个或多个文案块；（2）若该J个文本行中不存在未被聚合至文案块中的文本行（简称为未被匹配的文本行），则将该一个或多个文案块确定为K个文案块；（3）若该J个文本行中存在未被匹配的文本行，则获取该一个或多个文案块中每个文案块包括的各个文本行的文案稳定度特征，检测每个文案块包括的各个文本行的文案稳定度特征与该未被匹配的文本行的文案稳定度特征之间的匹配度是否大于或等于第二预设匹配阈值，具体可以对该每个文案块包括的各个文本行的文案稳定度特征中的各个子信息进行均值处理（即将一系列数据进行求和，然后将求和结果再除以数据的个数），利用均值处理后得到的各个信息与该未被匹配的文本行的文案稳定度特征进行轨迹匹配运算，得到该每个文案块包括的各个文本行的文案稳定度特征与该未被匹配的文本行的文案稳定度特征之间的匹配度；（4）若该未被匹配的文本行与该一个或多个文案块中的参考文案块之间的匹配度大于或等于第二预设匹配阈值，则将该未被匹配的文本行添加至该参考文案块中；（5）若该未被匹配的文本行与该一个或多个文案块中每个文案块之间的匹配度均小于第二预设匹配阈值，则将该未被匹配的文本行单独添加至一个文案块中，这样J个文本行中每个文本行均被聚合至相应的文案块中，即可得到K个文案块。

S23、令i=i+1，获取抽帧时刻T-1对应的第二文案块集合及第二文案块集合中的各个文案块的文案块特征，并基于J个文本行中每个文本行的文本行特征和第二文案块集合中的各个文案块的文案块特征，将J个文本行与第二文案块集合中的各个文案块进行帧间文案匹配处理，得到抽帧时刻T对应的第一文案块集合，抽帧时刻T-1是抽帧时刻T的前一抽帧时刻。

其中，令i=i+1，是指需将视频帧序列中第i视频帧的下一视频帧作为新的第i视频帧；例如，将视频帧序列中第一个视频帧的下一视频帧：第二个视频帧作为第i视频帧，将视频帧序列中第二个视频帧的下一视频帧：第三个视频帧作为第i视频帧，等等。此时可获取到抽帧时刻T-1对应的第二文案块集合（包含一个或多个文案块）；例如，第i视频帧为视频帧序列中的第二个视频帧，则通过S22对视频帧序列中的第一个视频帧进行帧内文案匹配处理可聚合得到一个或多个文案块，包含该一个或多个文案块的文案块集合即抽帧时刻T-1对应的第二文案块集合；又例如，第i视频帧为视频帧序列中的第三个视频帧，则通过S23对视频帧序列中的第二个视频帧进行帧间文案匹配处理可聚合得到一个或多个文案块，包含该一个或多个文案块的文案块集合即抽帧时刻T-1对应的第二文案块集合。

需要说明的是，在本申请实施例中，第二文案块集合中的任一个文案块表示为文案块p；p为正整数。第二文案块集合中每个文案块具有文案块特征，文案块特征包含文案区分度特征（是指相应文案块中各个文本行所包含的文本内容所具有的特征）和文案块轨迹特征（能够反映相应文案块中各个文本行的轨迹信息）中的一种或两种。下面以获取文案块p的文案块特征为例进行说明。

在一个实现方式中，若文本行特征包括文本区分度特征，文案块特征包含文案区分度特征，则获取文案块p的文案区分度特征，包括：对文案块p中的文本行的文本区分度特征进行特征处理，得到文案块p的文案区分度特征。若文本行特征包括文案稳定度特征，文案块特征包含文案块轨迹特征，则获取文案块p的文案块轨迹特征，包括：对文案块p中的文本行的文案稳定度特征进行特征处理，得到文案块p的文案块轨迹特征。其中，特征处理的方式包括以下至少一种：指数加权平均处理、均值处理、滑动平均处理、替换处理。

举例说明，假设文案块p包括文本行1（属于第一个视频帧）、文本行2（属于第二个视频帧）、文本行3（属于第三个视频帧）、文本行4（属于第四个视频帧）。若文本行特征包括高度，则可对文案块p中各个文本行的文本行特征中的高度进行滑动平均处理，得到文案块p的文案区分度特征中的高度；例如文本行1、文本行2、文本行3、文本行4的高度分别为：2、4、3、5，则文案块p的文案区分度特征中的高度为：3（（2+4）÷2）、3.5（（4+3）÷2）、4（（3+5）÷2）。若文本行特征包括文本置信度，则可对文案块p中各个文本行的文本行特征中的文本置信度进行均值处理，得到文案块p的文案区分度特征中的文本置信度；例如，文本行1、文本行2、文本行3、文本行4的文本置信度分别为：0.84、0.54、0.63、0.49，则文案块p的文案区分度特征中的文本置信度为：0.625=（0.84+0.54+0.63+0.49）÷4。若文本行包括倾斜角，则可对文案块p中各个文本行的文本行特征中的倾斜角进行指数加权平均处理；例如文本行1、文本行2、文本行3、文本行4的倾斜角分别为：30、50、50、60，则文案块p的文案区分度特征所包括的倾斜角为：58.33=0.9×60+0.1×（30+50+50）÷3。若文本行特征包括起始位置点，则可将文案块p中的参考文本行（可以是抽帧时刻T-1所抽取的视频帧中的文本行）的文本行特征中的起始位置点，作为文案块p的文案区分度特征中的起始位置点。

需要说明的是，文本行j的文案稳定度特征中的位置变化信息（如起始位置点变化信息、中心位置点变化信息、倾斜角变化信息、高度变化信息）可以是基于抽帧时刻T-1对应的第二文案块集合中各个文案块的文案块特征确定的。例如，第二文案块集合中文案块1的文案块特征包括均值处理后得到的中心位置点：（2,4），而文本行j在第i视频帧中的中心位置点为：（3,2），则文本行j的位置变化信息可包括文本行j相对于文案块1的中心位置点变化信息：（1,-2）=（3,2）-（2,4）。

其中，所谓帧间文案聚合处理是指对不同视频帧内包含的文本行进行匹配处理，可用于检测第i视频帧内包含的各个文本行的文本行特征与第二文案块集合中的各个文案块的文案块特征之间是否相匹配；例如，第i视频帧包含文本行1，第二文案块集合包含文案块1，可以检测文本行1的文本行特征与文案块1的文案块特征之间是否相匹配，从而实现对文本行1和文案块1中各个文本行的匹配处理。

在一个实施例中，基于J个文本行中每个文本行的文本行特征和第二文案块集合中的各个文案块的文案块特征，将J个文本行与第二文案块集合中的各个文案块进行帧间文案匹配处理，得到抽帧时刻T对应的第一文案块集合，包括：

（1）基于J个文本行中每个文本行的文本行特征和第二文案块集合中的各个文案块的文案块特征，对J个文本行和第二文案块集合中的各个文案块进行匹配处理。

在一实现方式中，可以确定J个文本行中任一个文本行的文本行特征与第二文案块集合中的任一个文案块的文案块特征之间的特征匹配度。可选地，若文本行特征包括文本区分度特征，文案块特征包括文案区分度特征，则特征匹配度用于反映该任一个文本行与该任一个文案块之间的文本匹配度。若特征匹配度大于或等于第一预设匹配阈值，则确定该任一个文本行与该任一个文案块相匹配。可选地，若文本行特征包括文案稳定度特征，文案块特征包括文案块轨迹特征，则特征匹配度用于反映该任一个文本行与该任一个文案块之间的轨迹匹配度。若特征匹配度大于或等于第二预设匹配阈值，则确定该任一个文本行与该任一个文案块相匹配。

在另一实现方式中，可以构建二分图；二分图包含第一节点和第二节点，J个文本行中的任一个文本行为二分图中的一个第一节点；第二文案块集合中的任一个文案块为二分图中的一个第二节点；二分图还包括第一节点与第二节点之间的连接边，连接边包含边权重，且边权重大于或等于预设权重阈值。其中，边权重用于指示相连接的第一节点对应的文本行的文本行特征与第二节点对应的文案块的文案块特征之间的特征匹配度。其中，若文本行特征包括文本区分度特征，文案块特征包括文案区分度特征，则特征匹配度用于反映相连接的第一节点对应的文本行与第二节点对应的文案块之间的文本匹配度。若文本行特征包括文案稳定度特征，文案块特征包括文案块轨迹特征，则特征匹配度用于反映相连接的第一节点对应的文本行与第二节点对应的文案块之间的轨迹匹配度。可选地，可以将相连接的第一节点对应的文本行的文本行特征与第二节点对应的文案块的文案块特征之间的特征匹配度确定为边权重；若文本行特征包括文本区分度特征，文案块特征包括文案区分度特征，则边权重大于或等于预设权重阈值是指特征匹配度大于或等于第一预设匹配阈值；若文本行特征包括文案稳定度特征，文案块特征包括文案块轨迹特征，则边权重大于或等于预设权重阈值是指特征匹配度大于或等于第二预设匹配阈值。

对二分图进行最大匹配处理，得到文本匹配结果。该文本匹配结果用于指示所述J个文本行和所述第二文案块集合中相匹配的文本行与文案块。其中，在二分图的一个子图中，若该子图中的任意两条连接边都不依附于同一个顶点（包括第一节点和第二节点），则称该子图是该二分图的一个匹配结果。对二分图进行最大匹配处理是指从二分图的所有匹配结果中获取包含最多连接边的匹配结果（即文本匹配结果）。具体可以通过KM（Kuhn-Munkras，一种带权二分图的匹配算法）算法、匈牙利算法等匹配算法实现对二分图的最大匹配处理。由于该文本匹配结果是二分图的一个子图，因此本申请确定该文本匹配结果中连接边连接的第一节点对应的文本行和第二节点对应的文案块之间相匹配。

下面以文本行j和文案块p为例，对获取文本行j的文本行特征和文案块p的文案块特征之间的特征匹配度进行说明。

在一实现方式中，获取文本行j的文本区分度特征和文案块p的文案区分度特征之间的特征匹配度（用于反映文本行j与文案块p之间的文本匹配度），包括：采用上述归一化相似函数对文本行j的文本区分度特征和文案块p的文案区分度特征进行文本匹配运算，得到文本行j的文本区分度特征和文案块p的文案区分度特征之间的特征匹配度。其中，和/>可以分别表示文本行的文本区分度特征和文案块的文案区分度特征。需要说明的是，特征匹配度越大，则表明文本行j与文案块p之间的文本匹配度越大，文本行j与文案块p中各个文本行越可能相似；特征匹配度越小，则表明文本行j与文案块p之间的文本匹配度越小，文本行j与文案块p中各个文本行越可能不相似。

在一实现方式中，获取文本行j的文案稳定度特征和文案块p的文案块轨迹特征之间的特征匹配度（用于反映文本行j与文案块p之间的轨迹匹配度），包括：对文本行j的文案稳定度特征和文案块p的文案块轨迹特征进行轨迹匹配运算，得到文本行j的文案稳定度特征和文案块p的文案块轨迹特征之间的特征匹配度（用于反映文本行j与文案块p之间的轨迹匹配度）。具体的，获取文本行j的文案稳定度特征和文案块p的文案块轨迹特征中各个子信息之间的参考匹配度，对该各个子信息之间的参考匹配度进行加权求和处理，得到文本行j的文案稳定度特征和文案块p的文案块轨迹特征之间的特征匹配度。举例说明，文案稳定度特征中包括多个子信息：起始位置点变化信息、高度，确定文本行j的文案稳定度特征中的起始位置点变化信息和文案块p的文案块轨迹特征中的起始位置点变化信息之间的第一匹配度（如起始位置点变化信息越相似，该第一匹配度越大；反之，则该第一匹配度越小），以及确定文本行j的文案稳定度特征中的高度和文案块p的文案块轨迹特征中的高度之间的第二匹配度（如高度越相似，该第二匹配度越大；反之，则该第二匹配度越小），通过第一匹配度×起始位置点变化信息对应的权值（用于反映起始位置点变化信息对轨迹匹配度的影响程度）+第二匹配度×高度对应的权值（用于反映高度对轨迹匹配度的影响程度）得到文本行j的文案稳定度特征和文案块p的文案块轨迹特征之间的特征匹配度。需要说明的是，特征匹配度越大，则表明文本行j与文案块p之间的轨迹匹配度越大，文本行j与文案块p中各个文本行越可能轨迹相匹配；特征匹配度越小，则表明文本行j与文案块p之间的轨迹匹配度越小，文本行j与文案块p中各个文本行越可能轨迹不匹配。

（2）若J个文本行中每个文本行在第二文案块集合中均成功匹配到文案块，则将J个文本行中各个文本行分别加入至成功匹配到的相应文案块中，并将第二文案块集合确定为抽帧时刻T对应的第一文案块集合。

（3）若J个文本行中存在未成功匹配的文本行，则基于未成功匹配的文本行形成新的文案块，将新的文案块添加至第二文案块集合中形成抽帧时刻T对应的第一文案块集合。具体可以对未成功匹配的文本行进行上述帧内文案匹配处理以形成新的文案块。

S24、当i=R时，将抽帧时刻T对应的第一文案块集合确定为目标文案块集合。其中，当i=R时，表明第i视频帧是视频帧序列中的第R个视频帧，此时将抽帧时刻T对应的第一文案块集合确定为目标文案块集合。

在一个实施例中，若文本行特征包括文本区分度特征和文案稳定度特征，文案块特征包括文案区分度特征和文案块轨迹特征，则上述基于J个文本行中每个文本行的文本行特征和第二文案块集合中的各个文案块的文案块特征，将J个文本行与第二文案块集合中的各个文案块进行帧间文案匹配处理，得到抽帧时刻T对应的第一文案块集合，包括：（1）使用归一化相似函数F（，/>），基于J个文本行中每个文本行的文本区分度特征和抽帧时刻T-1对应的第二文案块集合中各个文案块的文案区分度特征，将J个文本行与第二文案块集合中各个文案块进行文本匹配处理（可以基于二分图的最大匹配处理实现）；（2）将J个文本行中文本匹配成功的文本行分别加入至成功匹配到的相应文案块中；（3）若还存在文本匹配未成功的文本行，则使用归一化轨迹特征函数（其中，/>表示基于文案块中各个文本行的文案稳定度特征确定的文案块的文案块轨迹特征，/>表示第i视频帧中的文本行j的文案稳定度特征，G表示轨迹匹配运算），基于文本匹配未成功的文本行的文案稳定度特征和第二文案块集合中各个文案块的文案块轨迹特征，将文本匹配未成功的文本行和第二文案块集合中各个文案块进行轨迹匹配处理（可以基于二分图的最大匹配处理实现）；其中，文本匹配未成功是指文本行在文本匹配处理过程中未成功匹配到文案块。（4）将J个文本行中轨迹匹配成功的文本行分别加入至成功匹配到的相应文案块中；（5）若还存在轨迹匹配未成功的文本行，则对轨迹匹配未成功的文本行采用帧内文案匹配处理形成新的文案块。这样J个文本行中每个文本行均被聚合至相应的文案块中，即可得到抽帧时刻T对应的第一文案块集合。其中，轨迹匹配未成功是指文本行在轨迹匹配过程中未成功匹配到文案块。在一实现方式中，可以设置每个文案块中加入的文本匹配未成功的文本行的数量不超过预设数量个（如2个），也就是说，新出现的文本行不超过预设数量个。

由此可见，本申请不使用通用的字幕区域检测器，对单个字幕区域整体进行检测，而是将单个文本行作为检测目标，将相邻帧字幕区的检测任务分拆为同一文本行的检测任务和新文本行加入已有文案块的检测任务，并分别设计同一文案检测算法（即基于文本行区分度特征和文案区分度特征进行的帧间文案匹配处理）与文案块轨迹检测算法（即基于文案稳定度特征和文案块轨迹特征进行的帧间文案匹配处理），使得本方案具有不定行文字字幕（不定行是指一个视频帧中可包含多行字幕）检测的能力，在字幕内容发生变化的时候可以实时更新相应文案块。

S304、获取每个文案块分别对应的字幕置信度；字幕置信度用于指示对应文案块中的文本行所包含的文本内容是视频的字幕内容的概率。

字幕置信度越大，表示对应文案块中的文本行所包含的文本内容是视频的字幕内容的概率越大；字幕置信度越小，表示对应文案块中的文本行所包含的文本内容是视频的字幕内容的概率越小。下面以获取文案块p对应的字幕置信度为例进行说明。

在一实现方式中，获取文案块p对应的字幕置信度，包括：

（1）获取文案块p的字幕信息量、字幕更新频率和字幕稳定度。

字幕信息量是指文案块p所包括的文本种类数量和文案块p的文案播放时长之间的比值。其中，文本种类数量是指文案块中各个文本行所包含的中文字的数量和/或英文词的数量；例如，文本行：“文本行的文本置信度”所包含的字幕信息量为8。文案播放时长用于指示文案块p对应的文本区域的播放时长；例如，文案块p包含文本行1和文本行2，若在第一个视频帧到第三个视频帧内均包含该文本行1，在第三个视频帧到第五个视频帧内均包含该文本行2，则文案播放时长是指从第一个视频帧到第五个视频帧所对应的播放时长。字幕信息量越大，表明相应文案块单位时间内出现的文本种类数量越多，该文案块含义越丰富，则该文案块中的文本行所包含的文本内容越可能是视频的字幕内容。

字幕更新频率是基于文案块p中各个文本行的文本更新频率确定的，具体可以对该各个文本行的文本更新频率进行均值处理，得到字幕更新频率。文本更新频率是指相应文本行在视频中的文本播放时长与视频的视频播放时长之间的比值。相应文本行在视频中的文本播放时长可基于相应文本行被归一化相似函数持续检测到的平均时长确定。

字幕稳定度是基于文案块p的文案块轨迹特征确定的；例如，若文案块p的文案块轨迹特征包括位置变化信息，则位置变化信息的绝对值越大，表明文本行的位置变化程度越大，字幕稳定度越低；又例如，若文案块p的文案块轨迹特征包括文案块p中各个文本行的表观特征，则各个文本行的表观特征越接近，表明该各个文本行的文本图像质量特征越接近，字幕稳定度越高。

一般来说，字幕区域中字幕的字体都较大。可选地，可基于文案块p中各个文本行的字体的大小确定字幕稳定度；其中，文案块p中各个文本行的字体越大，字幕稳定度越大，文案块p中各个文本行的字体越小，字幕稳定度越小。

（2）对文案块p的字幕信息量、字幕更新频率和字幕稳定度进行加权求和处理，得到文案块p对应的字幕置信度。

具体的，按照文案块p的字幕信息量、字幕更新频率和字幕稳定度各自的权值（用于反映对字幕置信度的影响程度），对文案块p的字幕信息量、字幕更新频率和字幕稳定度进行加权求和处理，得到文案块p对应的字幕置信度。

视频字幕都是动态更新的，长时间（例如超过预设时长）不动的一般不属于视频字幕，但视频字幕又有很高的中心稳定性（例如常处于界面的中心偏下的位置）、且文本图像质量特征接近，因此部分字幕稳定度与字幕更新频率之间成反比关系。本申请实施例以字幕稳定度为主，例如可以为字幕稳定度设置较大的权值；同时若字幕更新频率低于预设频率阈值时，为字幕更新频率设置的权重可以为负无穷大，以使相应文案块对应的字幕置信度极低。

S305、按照每个文案块分别对应的字幕置信度，从一个或多个文案块中选择目标文案块确定为视频的字幕集合。

在一个实施例中，目标文案块是目标文案块集合中最大字幕置信度对应的文案块，或者是目标文案块集合中对应字幕置信度大于第一预设置信度阈值的文案块。目标文案块对应的文本区域即视频的字幕区域，目标文案块中的文本行所包含的文本内容即视频的字幕内容。

目标文案块中可能存在多帧不定行文字，在一实现方式中，可以对目标文案块中文本行所包含的文本内容进行集成处理（包括去重处理和整合处理，用于将目标文案块中各个文本行所包含的文本内容聚合成可阅读的连续文案），从而得到视频的字幕内容。

具体的，视频帧序列中的目标视频帧包含有目标文案块中的文本行。可以从目标文案块中确定目标视频帧所包括的一个或多个文本行。对目标视频帧所包括的一个或多个文本行进行去重处理，得到目标视频帧所包括的S（大于或等于0的整数）个文本行。其中，去重处理包括保留文本最长且对应文本置信度大于第二预设置信度阈值的文本行。例如，针对该S个文本行中的任一个文本行，可以检测目标文案块中除所述任一个文本行以外的其他文本行与该任一个文本行是否相似，若存在与该任一个文本行相似的一个或多个文本行，则可保留该任一个文本行和该一个或多个文本行中文本最长且对应文本置信度大于第二预设置信度阈值的文本行；又例如，可以从视频帧序列中获取目标视频帧的下一视频帧，检测目标视频帧中任一文本行与目标视频帧的下一视频帧中的各个文本行是否相似，若存在与该任一个文本行相似的一个或多个文本行，则保留该任一个文本行和该一个或多个文本行中文本最长且对应文本置信度大于第二预设置信度阈值的文本行。

对目标视频帧所包括的S个文本行进行整合处理，得到目标视频帧所包含的字幕内容。该整合处理包括按照目标视频帧所包括的S个文本行在目标视频帧中的位置对该S个文本行从上到下整合后依次排列该S个文本行所包含的文本内容，以及按照目标视频帧所包括的S个文本行在目标视频帧中的位置对该S个文本行从左到右整合后依次排列该S个文本行所包含的文本内容中的一种或两种。这样就得到了单个视频帧所包括的字幕内容。

按照目标视频帧在视频中的播放顺序，对目标视频帧所包含的字幕内容进行整合处理，得到视频的字幕内容。也就是说，视频帧序列包括多个目标视频帧，按照多个目标视频帧在视频中的播放顺序，将该多个目标视频帧所包含的字幕内容依次排列，得到视频的字幕内容。这样即可获得可读性较强的完整视频字幕。

需要说明的是，若目标文案块中的文本行为弹幕式文本（文本行首端位于图像靠左边缘位置且首字不断消失），则需在视频的字幕内容中保留弹幕式文本的完整内容（即前半段消失部分需补足）。

如图7（为本申请实施例提供的一种字幕内容输出的示意图）所示，可以生成视频的字幕展示区域框，在字幕展示区域框中展示视频的字幕内容，以及为视频的当前播放帧所包含的字幕内容添加第一标记（例如将相应的字幕内容用指定颜色显示、为相应的字幕内容添加包围框等），为字幕展示区域框中当前播放帧所包含的字幕内容添加第二标记（例如将相应的字幕内容用指定颜色显示、为相应的字幕内容添加包围框等）。

综上所述，请参见图8，图8为本申请实施例提供的一种视频处理方法的场景示意图。如图8所示，通过对视频帧序列中第一个视频帧到第i个视频帧（如图8中的视频帧1~i）进行文案聚合处理，可以得到历史字幕稳定度特征集，该历史字幕稳定度特征集包括一个或多个文案块（如图8中的文案块1和文案块2）。另外，通过该历史字幕稳定度特征集可以确定该一个或多个文案块中各个文案块的同一字幕相似特征集，该同一字幕相似特征集包括相应文案块中文本相似的文本行（如图8所示的同一字幕相似特征集中的表观特征），以及该文本行所包含的文本内容和置信度（如图8所示的同一字幕相似特征集中的语义特征）。对视频帧序列中第i+1视频帧（如图8中的视频帧i+1）进行文案聚合处理：具体可以采用文本行检测模型对第i+1视频帧进行文本行检测处理，得到第i+1视频帧中的文本行（如图8中的文本行：“现在装备又不值钱，你急什么”）。采用文本行识别模型对第i+1视频帧中的文本行进行文本行识别处理，并进行CTC快速置信度解码以及段落分析，得到第i+1视频帧中的文本行的识别结果（即目标字符序列）、文本置信度、段落信息，即图8中的单帧-语义特征。另外，可获取第i+1视频帧中的文本行的检测特征（如通过文本行检测模型得到的中心位置点、高度、倾斜角等）、框内表观特征（如通过文本行识别模型得到的文本行的图像特征）、检测稳定度特征（如位置变化信息），即图8中的单帧-表观特征。采用KM算法，基于单帧-语义特征和单帧-表观特征，对第i+1视频帧中的文本行与该历史字幕稳定度特征集包括的各个文案块进行帧间文案匹配处理（包括基于文案块的同一字幕相似特征集判断是否存在历史相同文本），以将第i+1视频帧中的文本行聚合至相应的文案块中，若i+1为R，则此时可得到目标文案块集合。详细实现过程可以参见前述图6所对应实施例中的S23，此处不再赘述。可以从目标文案块集合中确定目标文案块，并对目标文案块中的文本行进行集成处理（包括去重），得到视频的字幕内容。

由此可见，本申请实施例提出了一种多行分块字幕检测的算法，该多行分块字幕检测的算法通过提取文本行的文本区分度特征与已有文案块进行相同文本匹配，通过提取文本行的文案稳定度特征与已有文案块进行可重复不定行匹配，从而得到目标文案块集合；针对目标文案块集合中各个文案块，设计了一套加权字幕置信度算法进行字幕置信度排序，以从目标文案块集合中确定目标文案块；对目标文案块中文本行进行去重并整合成可阅读的连续文案，获得了具有良好识别效果的视频字幕识别算法。另外，所使用的文本行检测模型和文本行识别模型，以及文本行特征提取和文案块特征提取均可使用现有成熟算法，实现了本方案中各个子模块间的低耦合，且无依赖的技术实现路线也可以在各类视频字幕识别场景快速应用上线。

下面提供了本申请实施例的装置，接下来结合上述本申请实施例提供的视频处理方法，对本申请实施例的相关装置进行相应介绍。

请参见图9，图9是本申请实施例提供的一种视频处理装置的结构示意图。如图9所示，该视频处理装置900可应用于前述实施例中所提及的计算机设备。具体来说，视频处理装置900可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该视频处理装置900为一个应用软件；该视频处理装置900可以用于执行本申请实施例提供的视频处理方法中的相应步骤。具体实现时，该视频处理装置900具体可以包括：

处理单元901，用于对待处理的视频进行抽帧处理，得到视频帧序列，视频帧序列包含一个或多个视频帧；

处理单元901，还用于对每个视频帧进行文本检测处理，以检测得到每个视频帧中的文本行；

处理单元901，还用于基于每个文本行的文本行特征，对检测得到的文本行进行文案聚合处理，得到目标文案块集合；目标文案块集合中包含一个或多个文案块，每个文案块中包含一个或多个文本行，属于同一个文案块中的各个文本行的文本行特征之间相匹配；

获取单元902，用于获取每个文案块分别对应的字幕置信度；字幕置信度用于指示对应文案块中的文本行所包含的文本内容是视频的字幕内容的概率；

处理单元901，还用于对按照每个文案块分别对应的字幕置信度，从一个或多个文案块中选择目标文案块确定为视频的字幕集合。

在一实现方式中，视频帧序列包含R个视频帧，每个视频帧具备各自的抽帧时刻，R个视频帧按照抽帧时刻的先后顺序排列；视频帧序列中任一个视频帧表示为第i视频帧，第i视频帧具备抽帧时刻T，且从第i视频帧检测得到J个文本行；i、R、T和J均为正整数，且i小于或等于R；处理单元901用于基于每个文本行的文本行特征，对检测得到的文本行进行文案聚合处理，得到目标文案块集合时，具体执行以下步骤：

获取J个文本行中每个文本行的文本行特征；

令i=1，基于J个文本行中每个文本行的文本行特征，对J个文本行进行帧内文案匹配处理，得到抽帧时刻T对应的第一文案块集合；

令i=i+1，获取抽帧时刻T-1对应的第二文案块集合及第二文案块集合中的各个文案块的文案块特征，并基于J个文本行中每个文本行的文本行特征和第二文案块集合中的各个文案块的文案块特征，将J个文本行与第二文案块集合中的各个文案块进行帧间文案匹配处理，得到抽帧时刻T对应的第一文案块集合，抽帧时刻T-1是抽帧时刻T的前一抽帧时刻；

当i=R时，将抽帧时刻T对应的第一文案块集合确定为目标文案块集合。

在一实现方式中，处理单元901用于基于J个文本行中每个文本行的文本行特征，对J个文本行进行帧内文案匹配处理，得到抽帧时刻T对应的第一文案块集合时，具体执行以下步骤：

若J的取值为1，则生成一个包含J个文本行的文案块，将包含J个文本行的文案块添加至第一文案块集合中；

若J的取值大于1，则按照J个文本行中每个文本行的文本行特征，将J个文本行聚合至K个文案块中，并将聚合得到的K个文案块添加至第一文案块集合中，K为正整数；

其中，若文本行特征包括文本区分度特征，则K个文案块中，被聚合至同一个文案块中的各个文本行的文本区分度特征之间的匹配度大于或等于第一预设匹配阈值，被聚合至不同文案块中的各个文本行的文本区分度特征之间的匹配度小于第一预设匹配阈值；文本区分度特征之间的匹配度用于反映文本行之间的文本匹配度；

若文本行特征包括文案稳定度特征，则K个文案块中，被聚合至同一个文案块中的各个文本行的文案稳定度特征之间的匹配度大于或等于第二预设匹配阈值，被聚合至不同文案块中的各个文本行的文案稳定度特征之间的匹配度小于第二预设匹配阈值；文案稳定度特征之间的匹配度用于反映文本行之间的轨迹匹配度。

在一实现方式中，处理单元901用于基于J个文本行中每个文本行的文本行特征和第二文案块集合中的各个文案块的文案块特征，将J个文本行与第二文案块集合中的各个文案块进行帧间文案匹配处理，得到抽帧时刻T对应的第一文案块集合时，具体执行以下步骤：

基于J个文本行中每个文本行的文本行特征和第二文案块集合中的各个文案块的文案块特征，对J个文本行和第二文案块集合中的各个文案块进行匹配处理；

若J个文本行中每个文本行在第二文案块集合中均成功匹配到文案块，则将J个文本行中各个文本行分别加入至成功匹配到的相应文案块中，并将第二文案块集合确定为抽帧时刻T对应的第一文案块集合；

若J个文本行中存在未成功匹配的文本行，则基于未成功匹配的文本行形成新的文案块，将新的文案块添加至第二文案块集合中形成抽帧时刻T对应的第一文案块集合。

在一实现方式中，处理单元901用于基于J个文本行中每个文本行的文本行特征和第二文案块集合中的各个文案块的文案块特征，对J个文本行和第二文案块集合中的各个文案块进行匹配处理时，具体执行以下步骤：

构建二分图；二分图包含第一节点和第二节点，J个文本行中的任一个文本行为二分图中的一个第一节点；第二文案块集合中的任一个文案块为二分图中的一个第二节点；二分图还包括第一节点与第二节点之间的连接边，连接边包含边权重，且边权重大于或等于预设权重阈值；

对二分图进行最大匹配处理，得到文本匹配结果，文本匹配结果用于指示J个文本行和第二文案块集合中相匹配的文本行与文案块；

其中，边权重用于指示相连接的第一节点对应的文本行的文本行特征与第二节点对应的文案块的文案块特征之间的特征匹配度；若文本行特征包括文本区分度特征，文案块特征包括文案区分度特征，则特征匹配度用于反映相连接的第一节点对应的文本行与第二节点对应的文案块之间的文本匹配度；若文本行特征包括文案稳定度特征，文案块特征包括文案块轨迹特征，则特征匹配度用于反映相连接的第一节点对应的文本行与第二节点对应的文案块之间的轨迹匹配度。

在一实现方式中，J个文本行中任一个文本行表示为文本行j；j为小于或等于J的正整数；获取单元902用于获取文本行j的文本行特征时，具体执行以下步骤：

若文本行特征包括文本区分度特征，则将文本行j对应的文本置信度、文本行j所包含的文本内容的表观特征、文本行j所包含的文本内容的语义特征进行融合处理，得到文本行j的文本区分度特征；

若文本行特征包括文案稳定度特征，则将文本行j对应的文本置信度、文本行j在第i视频帧中的位置段落特征、以及文本行j在第i视频帧中的位置变化特征进行融合处理，得到文本行j的文案稳定度特征。

在一实现方式中，第二文案块集合中的任一个文案块表示为文案块p；p为正整数；获取单元902用于获取文案块p的文案块特征时，具体执行以下步骤：

若文本行特征包括文本区分度特征，文案块特征包括文案区分度特征，则对文案块p中的文本行的文本区分度特征进行特征处理，得到文案块p的文案区分度特征；

若文本行特征包括文案稳定度特征，文案块特征包括文案块轨迹特征，则对文案块p中的文本行的文案稳定度特征进行特征处理，得到文案块p的文案块轨迹特征；

其中，特征处理的方式包括以下至少一种：指数加权平均处理、均值处理、滑动平均处理、替换处理。

在一实现方式中，视频帧序列中任一个视频帧表示为第i视频帧；i为小于或等于R的正整数；处理单元901用于对第i视频帧进行文本检测处理，以检测得到第i视频帧中的J个文本行时，具体执行以下步骤：

对第i视频帧进行文本行检测处理，得到第i视频帧中的至少一个备选文本行；

确定每个备选文本行分别对应的文本置信度，文本置信度用于指示对应备选文本行所包含的文本内容的识别准确度；

按照每个备选文本行分别对应的文本置信度，从至少一个备选文本行中选择J个备选文本行，确定为从第i视频帧检测得到的J个文本行，J为正整数。

在一实现方式中，至少一个备选文本行中任一个备选文本行表示为备选文本行k；k为正整数且小于或等于至少一个备选文本行的总数；处理单元901用于确定备选文本行k对应的文本置信度时，具体执行以下步骤：

对备选文本行k进行编码处理，得到备选文本行k的文本概率分布矩阵，文本概率分布矩阵的大小为编码长度M×字典的字符数量N，文本概率分布矩阵中位于位置（m,n）的矩阵元素的取值表示M个编码位中第m个编码位是字典中第n个字符的概率；N、M、n和m均为正整数，且m小于或等于M，n小于或等于N；

基于文本概率分布矩阵，确定M个编码位中各个编码位分别对应的字符，并按照M个编码位的排列顺序，将各个编码位分别对应的字符进行组合，生成初始字符序列；

获取初始字符序列中各个字符分别对应的字符置信度，字符置信度用于指示对应字符的识别准确度；

基于初始字符序列和初始字符序列中各个字符分别对应的字符置信度，确定备选文本行k对应的文本置信度。

在一实现方式中，初始字符序列包括间隔符；处理单元901用于基于初始字符序列和初始字符序列中各个字符分别对应的字符置信度，确定备选文本行k对应的文本置信度时，具体执行以下步骤：

将初始字符序列中位置相邻的相同字符进行合并处理，得到中间字符序列，并确定中间字符序列中各个字符分别对应的字符置信度；

将中间字符序列中的间隔符删除，得到目标字符序列，并确定目标字符序列中各个字符分别对应的字符置信度，目标字符序列用于表示备选文本行k所包含的文本内容；

对目标字符序列中各个字符分别对应的字符置信度进行均值处理，得到备选文本行k对应的文本置信度；

其中，若中间字符序列中任一字符是对初始字符序列中多个字符合并得到的，则任一字符对应的字符置信度是多个字符对应的多个字符置信度中的最大字符置信度。

在一实现方式中，初始字符序列中第m个字符是文本概率分布矩阵的第m列中最大取值对应的字符；获取单元902用于获取初始字符序列中第m个字符对应的字符置信度时，具体执行以下步骤：

基于文本概率分布矩阵的第m列中最大取值和预设取值之间的差值，确定分割值；

从文本概率分布矩阵的第m列中获取大于分割值的一个或多个参考取值；

对一个或多个参考取值进行排序，并基于排序的结果从一个或多个参考取值中选择一个或多个目标取值；

基于一个或多个目标取值和文本概率分布矩阵的第m列中最大取值，确定初始字符序列中第m个字符对应的字符置信度。

在一实现方式中，目标文案块集合中任一个文案块表示为文案块p，p为正整数；获取单元902用于获取文案块p对应的字幕置信度时，具体执行以下步骤：

获取文案块p的字幕信息量、字幕更新频率和字幕稳定度；字幕信息量是指文案块p所包括的文本种类数量和文案块p的文案播放时长之间的比值；字幕更新频率是基于文案块p中各个文本行的文本更新频率确定的，文本更新频率是指相应文本行在视频中的文本播放时长与视频的视频播放时长之间的比值；字幕稳定度是基于文案块p的文案块轨迹特征确定的；

对文案块p的字幕信息量、字幕更新频率和字幕稳定度进行加权求和处理，得到文案块p对应的字幕置信度；

其中，目标文案块是目标文案块集合中最大字幕置信度对应的文案块，或者是目标文案块集合中对应字幕置信度大于第一预设置信度阈值的文案块。

在一实现方式中，视频帧序列中的目标视频帧包含有目标文案块中的文本行；处理单元901还用于执行以下步骤：

从目标文案块中确定目标视频帧所包括的一个或多个文本行；

对目标视频帧所包括的一个或多个文本行进行去重处理，得到目标视频帧所包括的S个文本行，去重处理包括保留文本最长且对应文本置信度大于第二预设置信度阈值的文本行；S为大于或等于0的整数；

对目标视频帧所包括的S个文本行进行整合处理，得到目标视频帧所包含的字幕内容；

按照目标视频帧在视频中的播放顺序，对目标视频帧所包含的字幕内容进行整合处理，得到视频的字幕内容。

在一实现方式中，处理单元901还用于执行以下步骤：

生成视频的字幕展示区域框；

在字幕展示区域框中展示视频的字幕内容；

为视频的当前播放帧所包含的字幕内容添加第一标记，为字幕展示区域框中当前播放帧所包含的字幕内容添加第二标记。

由此可见，本申请实施例能够基于文本行的文本行特征实现文案聚合处理，得到目标文案块集合，按照文案块的字幕置信度，从目标文案块集合中选取出目标文案块确定为视频的字幕集合，这样就能通过字幕集合中的各个文本行所包含的文本内容得到视频的字幕内容，实现视频字幕的准确识别。

请参见图10，图10是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备1000用于执行前述方法实施例中计算机设备所执行的步骤，该计算机设备1000包括：一个或多个处理器1001；一个或多个输入设备1002，一个或多个输出设备1003和存储器1004。上述处理器1001、输入设备1002、输出设备1003和存储器1004通过总线1005连接。其中，存储器1004用于存储计算机程序，计算机程序包括程序指令。在一个可行的实施例中，处理器1001用于调用存储器1004存储的程序指令，用于执行以下操作：

在一实现方式中，视频帧序列包含R个视频帧，每个视频帧具备各自的抽帧时刻，R个视频帧按照抽帧时刻的先后顺序排列；视频帧序列中任一个视频帧表示为第i视频帧，第i视频帧具备抽帧时刻T，且从第i视频帧检测得到J个文本行；i、R、T和J均为正整数，且i小于或等于R；处理器1001用于基于每个文本行的文本行特征，对检测得到的文本行进行文案聚合处理，得到目标文案块集合时，具体执行以下步骤：

获取J个文本行中每个文本行的文本行特征；

在一实现方式中，处理器1001用于基于J个文本行中每个文本行的文本行特征，对J个文本行进行帧内文案匹配处理，得到抽帧时刻T对应的第一文案块集合时，具体执行以下步骤：

在一实现方式中，处理器1001用于基于J个文本行中每个文本行的文本行特征和第二文案块集合中的各个文案块的文案块特征，将J个文本行与第二文案块集合中的各个文案块进行帧间文案匹配处理，得到抽帧时刻T对应的第一文案块集合时，具体执行以下步骤：

在一实现方式中，处理器1001用于基于J个文本行中每个文本行的文本行特征和第二文案块集合中的各个文案块的文案块特征，对J个文本行和第二文案块集合中的各个文案块进行匹配处理时，具体执行以下步骤：

在一实现方式中，J个文本行中任一个文本行表示为文本行j；j为小于或等于J的正整数；处理器1001用于获取文本行j的文本行特征时，具体执行以下步骤：

在一实现方式中，第二文案块集合中的任一个文案块表示为文案块p；p为正整数；处理器1001用于获取文案块p的文案块特征时，具体执行以下步骤：

在一实现方式中，视频帧序列中任一个视频帧表示为第i视频帧；i为小于或等于R的正整数；处理器1001用于对第i视频帧进行文本检测处理，以检测得到第i视频帧中的J个文本行时，具体执行以下步骤：

在一实现方式中，至少一个备选文本行中任一个备选文本行表示为备选文本行k；k为正整数且小于或等于至少一个备选文本行的总数；处理器1001用于确定备选文本行k对应的文本置信度时，具体执行以下步骤：

在一实现方式中，初始字符序列包括间隔符；处理器1001用于基于初始字符序列和初始字符序列中各个字符分别对应的字符置信度，确定备选文本行k对应的文本置信度时，具体执行以下步骤：

在一实现方式中，初始字符序列中第m个字符是文本概率分布矩阵的第m列中最大取值对应的字符；处理器1001用于获取初始字符序列中第m个字符对应的字符置信度时，具体执行以下步骤：

在一实现方式中，目标文案块集合中任一个文案块表示为文案块p，p为正整数；处理器1001用于获取文案块p对应的字幕置信度时，具体执行以下步骤：

在一实现方式中，视频帧序列中的目标视频帧包含有目标文案块中的文本行；处理器1001还用于执行以下步骤：

在一实现方式中，处理器1001还用于执行以下步骤：

生成视频的字幕展示区域框；

在字幕展示区域框中展示视频的字幕内容；

基于同一发明构思，本申请实施例中提供的计算机设备解决问题的原理与有益效果与本申请方法实施例中视频处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文所对应实施例中的方法，因此，这里将不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行。

根据本申请的一个方面，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术对象可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术对象可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如，同轴电缆、光纤、数字线（DSL））或无线（例如，红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据处理设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如，固态硬盘(Solid State Disk，SSD)）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频处理方法，其特征在于，包括：

对待处理的视频进行抽帧处理，得到视频帧序列，所述视频帧序列包含一个或多个视频帧；

对每个所述视频帧进行文本检测处理，以检测得到每个所述视频帧中的文本行；

基于每个所述文本行的文本行特征，对检测得到的文本行进行文案聚合处理，得到目标文案块集合；所述目标文案块集合中包含一个或多个文案块，每个所述文案块中包含一个或多个文本行，属于同一个文案块中的各个文本行的文本行特征之间相匹配；

获取每个所述文案块分别对应的字幕置信度；所述字幕置信度用于指示对应文案块中的文本行所包含的文本内容是所述视频的字幕内容的概率；

按照每个所述文案块分别对应的字幕置信度，从所述一个或多个文案块中选择目标文案块确定为所述视频的字幕集合；

其中，所述视频帧序列中任一个视频帧表示为第i视频帧；i为小于或等于R的正整数；对所述第i视频帧进行文本检测处理，检测得到的所述第i视频帧中的J个文本行是按照文本置信度从所述第i视频帧中的至少一个备选文本行选择得到的；J为正整数；所述至少一个备选文本行中任一个备选文本行表示为备选文本行k；k为正整数且小于或等于至少一个备选文本行的总数；确定所述备选文本行k对应的文本置信度，包括：对所述备选文本行k进行编码处理，得到所述备选文本行k的文本概率分布矩阵，所述文本概率分布矩阵的大小为编码长度M×字典的字符数量N，所述文本概率分布矩阵中位于位置（m,n）的矩阵元素的取值表示M个编码位中第m个编码位是所述字典中第n个字符的概率；N、M、n和m均为正整数，且m小于或等于M，n小于或等于N；基于所述文本概率分布矩阵，确定M个编码位中各个编码位分别对应的字符，并按照所述M个编码位的排列顺序，将所述各个编码位分别对应的字符进行组合，生成初始字符序列；获取所述初始字符序列中各个字符分别对应的字符置信度，所述字符置信度用于指示对应字符的识别准确度；基于所述初始字符序列和所述初始字符序列中各个字符分别对应的字符置信度，确定所述备选文本行k对应的文本置信度。

2.如权利要求1所述的方法，其特征在于，所述视频帧序列包含R个视频帧，每个所述视频帧具备各自的抽帧时刻，所述R个视频帧按照抽帧时刻的先后顺序排列；所述视频帧序列中任一个视频帧表示为第i视频帧，所述第i视频帧具备抽帧时刻T，且从所述第i视频帧检测得到J个文本行；i、R、T和J均为正整数，且i小于或等于R；

所述基于每个所述文本行的文本行特征，对检测得到的文本行进行文案聚合处理，得到目标文案块集合，包括：

获取所述J个文本行中每个文本行的文本行特征；

令i=1，基于所述J个文本行中每个文本行的文本行特征，对所述J个文本行进行帧内文案匹配处理，得到所述抽帧时刻T对应的第一文案块集合；

令i=i+1，获取抽帧时刻T-1对应的第二文案块集合及所述第二文案块集合中的各个文案块的文案块特征，并基于所述J个文本行中每个文本行的文本行特征和所述第二文案块集合中的各个文案块的文案块特征，将所述J个文本行与所述第二文案块集合中的各个文案块进行帧间文案匹配处理，得到所述抽帧时刻T对应的第一文案块集合，所述抽帧时刻T-1是所述抽帧时刻T的前一抽帧时刻；

当i=R时，将所述抽帧时刻T对应的第一文案块集合确定为所述目标文案块集合。

3.如权利要求2所述的方法，其特征在于，所述基于所述J个文本行中每个文本行的文本行特征，对所述J个文本行进行帧内文案匹配处理，得到所述抽帧时刻T对应的第一文案块集合，包括：

若J的取值为1，则生成一个包含所述J个文本行的文案块，将所述包含所述J个文本行的文案块添加至所述第一文案块集合中；

若J的取值大于1，则按照所述J个文本行中每个文本行的文本行特征，将所述J个文本行聚合至K个文案块中，并将聚合得到的所述K个文案块添加至所述第一文案块集合中，K为正整数；

其中，若所述文本行特征包括文本区分度特征，则所述K个文案块中，被聚合至同一个文案块中的各个文本行的文本区分度特征之间的匹配度大于或等于第一预设匹配阈值，被聚合至不同文案块中的各个文本行的文本区分度特征之间的匹配度小于所述第一预设匹配阈值；所述文本区分度特征之间的匹配度用于反映文本行之间的文本匹配度；

若所述文本行特征包括文案稳定度特征，则所述K个文案块中，被聚合至同一个文案块中的各个文本行的文案稳定度特征之间的匹配度大于或等于第二预设匹配阈值，被聚合至不同文案块中的各个文本行的文案稳定度特征之间的匹配度小于所述第二预设匹配阈值；所述文案稳定度特征之间的匹配度用于反映文本行之间的轨迹匹配度。

4.如权利要求2所述的方法，其特征在于，所述基于所述J个文本行中每个文本行的文本行特征和所述第二文案块集合中的各个文案块的文案块特征，将所述J个文本行与所述第二文案块集合中的各个文案块进行帧间文案匹配处理，得到所述抽帧时刻T对应的第一文案块集合，包括：

基于所述J个文本行中每个文本行的文本行特征和所述第二文案块集合中的各个文案块的文案块特征，对所述J个文本行和所述第二文案块集合中的各个文案块进行匹配处理；

若所述J个文本行中每个文本行在所述第二文案块集合中均成功匹配到文案块，则将所述J个文本行中各个文本行分别加入至成功匹配到的相应文案块中，并将所述第二文案块集合确定为所述抽帧时刻T对应的第一文案块集合；

若所述J个文本行中存在未成功匹配的文本行，则基于所述未成功匹配的文本行形成新的文案块，将所述新的文案块添加至所述第二文案块集合中形成所述抽帧时刻T对应的第一文案块集合。

5.如权利要求4所述的方法，其特征在于，所述基于所述J个文本行中每个文本行的文本行特征和所述第二文案块集合中的各个文案块的文案块特征，对所述J个文本行和所述第二文案块集合中的各个文案块进行匹配处理，包括：

构建二分图；所述二分图包含第一节点和第二节点，所述J个文本行中的任一个文本行为所述二分图中的一个第一节点；所述第二文案块集合中的任一个文案块为所述二分图中的一个第二节点；所述二分图还包括第一节点与第二节点之间的连接边，所述连接边包含边权重，且所述边权重大于或等于预设权重阈值；

对所述二分图进行最大匹配处理，得到文本匹配结果，所述文本匹配结果用于指示所述J个文本行和所述第二文案块集合中相匹配的文本行与文案块；

其中，所述边权重用于指示相连接的第一节点对应的文本行的文本行特征与第二节点对应的文案块的文案块特征之间的特征匹配度；若所述文本行特征包括文本区分度特征，所述文案块特征包括文案区分度特征，则所述特征匹配度用于反映相连接的第一节点对应的文本行与第二节点对应的文案块之间的文本匹配度；若所述文本行特征包括文案稳定度特征，所述文案块特征包括文案块轨迹特征，则所述特征匹配度用于反映相连接的第一节点对应的文本行与第二节点对应的文案块之间的轨迹匹配度。

6.如权利要求2-5中任一项所述的方法，其特征在于，所述J个文本行中任一个文本行表示为文本行j；j为小于或等于J的正整数；

获取所述文本行j的文本行特征，包括：

若所述文本行特征包括文本区分度特征，则将所述文本行j对应的文本置信度、所述文本行j所包含的文本内容的表观特征、所述文本行j所包含的文本内容的语义特征进行融合处理，得到所述文本行j的文本区分度特征；

若所述文本行特征包括文案稳定度特征，则将所述文本行j对应的文本置信度、所述文本行j在所述第i视频帧中的位置段落特征、以及所述文本行j在所述第i视频帧中的位置变化特征进行融合处理，得到所述文本行j的文案稳定度特征。

7.如权利要求2-5中任一项所述的方法，其特征在于，所述第二文案块集合中的任一个文案块表示为文案块p；p为正整数；

获取所述文案块p的文案块特征，包括：

若所述文本行特征包括文本区分度特征，所述文案块特征包括文案区分度特征，则对所述文案块p中的文本行的文本区分度特征进行特征处理，得到所述文案块p的文案区分度特征；

若所述文本行特征包括文案稳定度特征，所述文案块特征包括文案块轨迹特征，则对所述文案块p中的文本行的文案稳定度特征进行特征处理，得到所述文案块p的文案块轨迹特征；

其中，所述特征处理的方式包括以下至少一种：指数加权平均处理、均值处理、滑动平均处理、替换处理。

8.如权利要求1所述的方法，其特征在于，对所述第i视频帧进行文本检测处理，以检测得到所述第i视频帧中的J个文本行，包括：

对所述第i视频帧进行文本行检测处理，得到所述第i视频帧中的至少一个备选文本行；

确定每个所述备选文本行分别对应的文本置信度，所述文本置信度用于指示对应备选文本行所包含的文本内容的识别准确度；

按照每个所述备选文本行分别对应的文本置信度，从所述至少一个备选文本行中选择J个备选文本行，确定为从所述第i视频帧检测得到的J个文本行，J为正整数。

9.如权利要求1所述的方法，其特征在于，所述初始字符序列包括间隔符；所述基于所述初始字符序列和所述初始字符序列中各个字符分别对应的字符置信度，确定所述备选文本行k对应的文本置信度，包括：

将所述初始字符序列中位置相邻的相同字符进行合并处理，得到中间字符序列，并确定所述中间字符序列中各个字符分别对应的字符置信度；

将所述中间字符序列中的间隔符删除，得到目标字符序列，并确定所述目标字符序列中各个字符分别对应的字符置信度，所述目标字符序列用于表示所述备选文本行k所包含的文本内容；

对所述目标字符序列中各个字符分别对应的字符置信度进行均值处理，得到所述备选文本行k对应的文本置信度；

其中，若所述中间字符序列中任一字符是对所述初始字符序列中多个字符合并得到的，则所述任一字符对应的字符置信度是所述多个字符对应的多个字符置信度中的最大字符置信度。

10.如权利要求1所述的方法，其特征在于，所述初始字符序列中第m个字符是所述文本概率分布矩阵的第m列中最大取值对应的字符；

获取所述初始字符序列中第m个字符对应的字符置信度，包括：

基于所述文本概率分布矩阵的第m列中最大取值和预设取值之间的差值，确定分割值；

从所述文本概率分布矩阵的第m列中获取大于所述分割值的一个或多个参考取值；

对所述一个或多个参考取值进行排序，并基于所述排序的结果从所述一个或多个参考取值中选择一个或多个目标取值；

基于所述一个或多个目标取值和所述文本概率分布矩阵的第m列中最大取值，确定所述初始字符序列中第m个字符对应的字符置信度。

11.如权利要求1所述的方法，其特征在于，所述目标文案块集合中任一个文案块表示为文案块p，p为正整数；

获取文案块p对应的字幕置信度，包括：

获取所述文案块p的字幕信息量、字幕更新频率和字幕稳定度；所述字幕信息量是指所述文案块p所包括的文本种类数量和所述文案块p的文案播放时长之间的比值；所述字幕更新频率是基于所述文案块p中各个文本行的文本更新频率确定的，所述文本更新频率是指相应文本行在所述视频中的文本播放时长与所述视频的视频播放时长之间的比值；所述字幕稳定度是基于所述文案块p的文案块轨迹特征确定的；

对所述文案块p的字幕信息量、字幕更新频率和字幕稳定度进行加权求和处理，得到所述文案块p对应的字幕置信度；

其中，所述目标文案块是所述目标文案块集合中最大字幕置信度对应的文案块，或者是所述目标文案块集合中对应字幕置信度大于第一预设置信度阈值的文案块。

12.如权利要求1所述的方法，其特征在于，所述视频帧序列中的目标视频帧包含有所述目标文案块中的文本行；所述方法还包括：

从所述目标文案块中确定所述目标视频帧所包括的一个或多个文本行；

对所述目标视频帧所包括的一个或多个文本行进行去重处理，得到所述目标视频帧所包括的S个文本行，所述去重处理包括保留文本最长且对应文本置信度大于第二预设置信度阈值的文本行；S为大于或等于0的整数；

对所述目标视频帧所包括的S个文本行进行整合处理，得到所述目标视频帧所包含的字幕内容；

按照所述目标视频帧在所述视频中的播放顺序，对所述目标视频帧所包含的字幕内容进行整合处理，得到所述视频的字幕内容。

13.如权利要求12所述的方法，其特征在于，所述方法还包括：

生成所述视频的字幕展示区域框；

在所述字幕展示区域框中展示所述视频的字幕内容；

为所述视频的当前播放帧所包含的字幕内容添加第一标记，为所述字幕展示区域框中所述当前播放帧所包含的字幕内容添加第二标记。

14.一种视频处理装置，其特征在于，包括：

处理单元，用于对待处理的视频进行抽帧处理，得到视频帧序列，所述视频帧序列包含一个或多个视频帧；

所述处理单元，还用于对每个所述视频帧进行文本检测处理，以检测得到每个所述视频帧中的文本行；

所述处理单元，还用于基于每个所述文本行的文本行特征，对检测得到的文本行进行文案聚合处理，得到目标文案块集合；所述目标文案块集合中包含一个或多个文案块，每个所述文案块中包含一个或多个文本行，属于同一个文案块中的各个文本行的文本行特征之间相匹配；

获取单元，用于获取每个所述文案块分别对应的字幕置信度；所述字幕置信度用于指示对应文案块中的文本行所包含的文本内容是所述视频的字幕内容的概率；

所述处理单元，还用于对按照每个所述文案块分别对应的字幕置信度，从所述一个或多个文案块中选择目标文案块确定为所述视频的字幕集合；

其中，所述视频帧序列中任一个视频帧表示为第i视频帧；i为小于或等于R的正整数；所述处理单元对所述第i视频帧进行文本检测处理，检测得到的所述第i视频帧中的J个文本行是按照文本置信度从所述第i视频帧中的至少一个备选文本行选择得到的；J为正整数；所述至少一个备选文本行中任一个备选文本行表示为备选文本行k；k为正整数且小于或等于至少一个备选文本行的总数；确定所述备选文本行k对应的文本置信度，包括：对所述备选文本行k进行编码处理，得到所述备选文本行k的文本概率分布矩阵，所述文本概率分布矩阵的大小为编码长度M×字典的字符数量N，所述文本概率分布矩阵中位于位置（m,n）的矩阵元素的取值表示M个编码位中第m个编码位是所述字典中第n个字符的概率；N、M、n和m均为正整数，且m小于或等于M，n小于或等于N；基于所述文本概率分布矩阵，确定M个编码位中各个编码位分别对应的字符，并按照所述M个编码位的排列顺序，将所述各个编码位分别对应的字符进行组合，生成初始字符序列；获取所述初始字符序列中各个字符分别对应的字符置信度，所述字符置信度用于指示对应字符的识别准确度；基于所述初始字符序列和所述初始字符序列中各个字符分别对应的字符置信度，确定所述备选文本行k对应的文本置信度。

15.一种计算机设备，其特征在于，所述计算机设备包括：

处理器，适于实现计算机程序；

计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-13中任一项所述的视频处理方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1-13中任一项所述的视频处理方法。

17.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1-13中任一项所述的视频处理方法。