CN113869304A

CN113869304A - 视频的文字检测方法及装置

Info

Publication number: CN113869304A
Application number: CN202010616987.5A
Authority: CN
Inventors: 金典; 王晶; 朱声高
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-12-31

Abstract

本申请公开了一种视频的文字检测方法及装置，属于AI领域。所述方法包括：获取视频，所述视频包括n帧图片，n为大于1的整数；识别所述视频的每一帧图片中的文字，获得所述视频的文字识别结果，其中，识别所述视频中第k帧图片的文字的过程包括：获取所述第k帧图片中的文字，1＜k≤n；基于所述第k帧图片中的文字的特征向量与所述视频中所述第k帧图片之前的图片中出现的文字的特征向量，对所述第k帧图片中的文字与所述第k帧图片之前的图片中出现的文字进行匹配。本申请能够提高文字的识别效率。

Description

视频的文字检测方法及装置

技术领域

本申请涉及人工智能(artificial intelligence，AI)领域，特别涉及一种视频的文字检测方法及装置。

背景技术

文字检测技术(也称文字检测与识别技术)通常要求将多种场景下的数字图片中的文字区域进行定位并识别。

目前，针对视频的文字检测技术仅能对视频中的每帧图片分别进行识别，获得的视频文字识别结果仅是每帧图片的文字识别结果的汇总，导致户体验较差。

发明内容

本发明实施例提供了一种视频的文字检测方法及装置。所述技术方案如下：

第一方面，提供了一种视频的文字检测方法，该方法包括：获取视频，该视频包括n帧图片，n为大于1的整数；识别该视频的每一帧图片中的文字，获得该视频的文字识别结果，其中，识别该视频中第k帧图片的文字的过程包括：获取该第k帧图片中的文字，1＜k≤n；基于该第k帧图片中的文字的特征向量与该视频中该第k帧图片之前的图片中出现的文字的特征向量，对该第k帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配。

本申请实施例在进行视频中文字的识别时，基于第k帧图片中文字的特征向量以及之前的图片中连续出现的文字的特征向量进行匹配，如此通过视频的图片之间特征向量的关联关系，实现了不同帧中相同文字目标的识别，从而实现视频的文字识别结果不仅仅是每帧图片的文字识别结果的汇总，还可以反映图片之间文字的关联关系，提供给用户视频的更多信息，提高用户体验。

进一步的，基于第k帧图片中文字的特征向量以及之前的图片中连续出现的文字的特征向量进行匹配，还可以实现视频中对应同一文字目标的文字的关联，实现对视频中的文字的校正，减少误识别概率，提高了视频中文字的识别精度。

在一些可能的实现方式中，该方法还包括：将该第k帧图片输入特征生成模型，获得该第k帧图片中的文字的特征向量。该特征生成模型可以为AI模型，例如深度学习模型，示例的，该特征生成模型为CNN模型或DNN模型。

通过特征生成模型来生成文字的特征向量，可以实现快速准确地特征向量的生成，提高特征向量的生成效率。

在一种可选的实现方式中，文字识别模型与特征生成模型为相同的AI模型。在此情况下，该获取该第k帧图片中的文字的过程，包括：根据该特征生成模型，获得该第k帧图片中的文字。

当文字识别模型与特征生成模型为相同的AI模型时，可以实现文字识别模型和特征生成模型的一层或多层功能层进行复用，从而减少视频的文字检测装置所使用的模型的复杂度。

在另一种可选的实现方式中，文字识别模型与特征生成模型为不同的AI模型。不同的AI模型指的是模型的结构、参数、训练方式或损失函数等中的一种或多种不同。在此情况下，该获取该第k帧图片中的文字的过程，包括：将该第k帧图片输入至文字识别模型，根据该文字识别模型获得该第k帧图片中的文字，其中，该文字识别模型与该特征生成模型为两个不同的人工智能AI模型。

当文字识别模型与特征生成模型为两个不同的AI模型时，可以分别进行模型的训练，减少训练和推理阶段文字识别和特征生成过程的相互干扰。

在一些可能的实现方式中，视频的文字识别结果包括以下结果中的一种或多种：根据视频中的图片之间的匹配结果进行文字去重后得到的视频的文字识别结果；根据视频中的图片之间的匹配结果进行文字追踪后得到的视频的文字识别结果。

其中，当根据视频中的图片之间的匹配结果进行文字去重后得到的视频的文字识别结果时，基于每帧图片中的文字的特征向量与视频中在每帧图片之前出现的文字的特征向量，对每帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配，并将匹配成功的文字去重，实现输出的视频的文字识别结果中对应同一文字目标的相同的文字的去重，减少识别结果中对应同一文字目标的相同的文字重复出现的概率，提高文字的识别效率。

当根据视频中的图片之间的匹配结果进行文字追踪后得到的视频的文字识别结果时，通过文字追踪可以获取追踪的文字目标在视频中出现的轨迹，用户通过该轨迹可以快速确定文字的位置，提高用户体验。

在一些可能的实现方式中，文字的特征向量包括语义特征向量和/或视觉特征向量。该语义特征向量用于反映图片中文字本身的语义(即文字的含义)属性特征，当图片中的文字不同时，提取的语义特征向量不同。该视觉特征向量用于标识图片中的视觉特征，反映人眼看到的视觉效果。如视觉特征包括颜色、形状、位置和/或尺寸。

由于视频的视觉上相同或相似的文字有一定相同的概率，当文字的特征向量既包括语义特征向量，又包括视觉特征向量时，通过该至少两个维度对第k帧图片中的文字与第k帧图片之前的图片中出现的文字进行匹配时，匹配的准确率进一步增高，还可以优化去重的效果。并且，由于视觉特征向量反映文字的低层视觉特征，即人眼能看到文字在图片的效果；而语义特征向量反映文字的高层语义特征，即人能理解的文字的含义，因此该两个维度的特征向量的鲁棒性更高，能够有效反映文字的特征。

在一些可能的实现方式中，该特征生成模型为训练完成的AI模型，训练该特征生成模型采用的损失函数为三元损失函数。

采用三元损失函数训练得到的特征生成模型在推理阶段生成的特征向量更准确。

在一些可能的实现方式中，该方法还包括：在训练样本集中获取训练样本，该训练样本为文字图像，生成该训练样本对应的三元组；根据该三元组和该三元损失函数对初始特征生成模型进行训练，获得该特征生成模型。采用文字图像作为训练样本获取三元组，并根据该三元组和该三元损失函数对初始特征生成模型进行训练，可以提高训练得到的特征生成模型在推理阶段生成的文字的特征向量的鲁棒性。

在一些可能的实现方式中，该训练样本对应的三元组包括：该训练样本、与该训练样本相似度大于第一相似度阈值的正样本、以及与该训练样本相似度小于第二相似度阈值的负样本。

通过包括该训练样本、与该训练样本相似度大于第一相似度阈值的正样本、以及与该训练样本相似度小于第二相似度阈值的负样本的三元组训练初始特征生成模型，可以在训练阶段使训练样本与正样本的距离减小，使训练样本与负样本被的距离增大，从而进一步提高训练得到的特征生成模型在推理阶段生成的文字的特征向量的鲁棒性。并且，根据三元组和三元损失函数来训练初始特征生成模型可以使得训练完成的特征生成模型在推理阶段所获取的特征向量有效反映前述视频中图片的特点，准确地体现第k帧图片中文字的特征向量与第k帧图片之前的图片中文字的特征向量的相同或不同，从而提高训练得到的特征生成模型在推理阶段的效果。

在一些可能的实现方式中，对所述第k帧图片中的文字与所述第k帧图片之前的图片中出现的文字进行匹配，包括：

基于该第k帧图片中的文字与该视频中该第k帧图片之前的图片的编辑距离，对该第k帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配；和/或，基于该第k帧图片中的文字的位置以及该第k帧图片之前的图片中出现的文字在该第k帧图片的预测位置，对该第k帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配。

在文字的特征向量的基础上，通过基于编辑距离的匹配，和/或基于该第k帧图片中的文字的位置以及该第k帧图片之前的图片中出现的文字在该第k帧图片的预测位置的匹配，可以进一步提高同一文字目标所对应的文字的匹配概率，减少误判率，从而提高文字识别结果的精度。通过为识别得到的文字分配ID，可以便于后续索引到相应文字，尤其索引到对应同一文字目标的文字，实现文字在视频中的快速检索。

可选地，获取视频中的第k帧图片中的文字的过程还包括：为识别得到的每组文字分配一个标识(Identity，ID)，该ID的分配规则是预先设置的。可选地，该分配规则为：保证同一文字目标的ID相同，不同文字目标的ID不同。

第二方面，提供一种视频的文字检测装置，所述装置包括：至少一个模块，该至少一个模块可以用于实现上述第一方面或者第一方面的各种可能实现方式提供的方法。

第三方面，提供一种计算设备，所述计算设备包括存储器和处理器，所述存储器用于存储一组计算机指令；所述处理器执行所述存储器存储的一组计算机指令，以执行上述第一方面或者第一方面的各种可能实现方式提供的方法。

第四方面，提供一种非瞬态的可读存储介质，所述非瞬态的可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算设备执行时，所述计算设备执行上述第一方面或者第一方面的各种可能实现方式提供的方法。

第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码被计算设备执行时，所述计算设备执行上述第一方面或者第一方面的各种可能实现方式提供的方法。

第六方面，提供一种芯片，所述芯片可以包括可编程逻辑电路和/或程序指令，当所述芯片运行时用于实现如第一方面或者第一方面的各种可能实现方式提供的视频的文字检测方法。

并且，本申请实施例提供的视频的文字检测方法通过对匹配成功的文字的去重，避免了文字识别结果中重复出现对应同一文字目标的相同的文字，使得文字识别结果更为完整准确，提高用户的对文字识别结果的观看体验。

附图说明

图1本申请实施例提供的一种视频的文字检测方法的应用在自动驾驶场景示意图；

图2是本申请实施例提供的一种视频的文字检测方法的流程示意图；

图3是本申请提供的一种识别视频中第k帧图片的文字的场景示意图；

图4是本申请提供的一种文字图片识别的示意图；

图5是本申请提供的一种识别视频中第k帧图片的文字的流程的示意图；

图6是本申请实施例提供的一种第一文字识别模型的结构示意图；

图7是本申请提供的另一种识别视频中第k帧图片的文字的流程的示意图；

图8是本申请实施例提供的一种第二文字识别模型的结构示意图；

图9是本申请实施例提供的一种第一特征生成模型的结构示意图；

图10是本申请实施例提供的另一种第一特征生成模型的结构示意图；

图11是本申请实施例提供的一种第二特征生成模型的结构示意图；

图12是本申请实施例提供的一种特征生成模型的结构示意图；

图13是本申请实施例提供的另一种特征生成模型的结构示意图；

图14是本申请实施例提供的又一种特征生成模型的结构示意图；

图15是本申请实施例提供的再一种特征生成模型的结构示意图；

图16是本申请实施例提供的再一种特征生成模型的结构示意图；

图17是本申请实施例提供的一种文字识别效果示意图；

图18是本申请实施例提供的一种视频的文字检测装置的框图；

图19是本申请实施例提供的另一种视频的文字检测装置的框图；

图20是本申请实施例提供的又一种视频的文字检测装置的框图；

图21为本申请实施例提供的一种部署有视频的文字检测装置的计算设备的硬件结构示意图。

具体实施方式

为使本申请的原理和技术方案更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

文字检测技术可以应用于多种场景。当在视频中执行文字检测技术时，通过对数字图片中的文字区域进行定位并识别，可以辅助用户进行文字的追踪和分析。例如，图1本申请实施例提供的一种视频的文字检测方法的应用在自动驾驶场景示意图，车辆上可以设置视频的文字检测装置，该视频的文字检测装置通过识别车辆行驶路径上出现的文字，实现对车辆的辅助自动驾驶。又例如，视频的文字检测方法可以应用在文字内容审查场景，如新闻内容审核；再例如，视频的文字检测方法可以应用在文字内容追踪场景，例如文字敏感词追踪。

本申请实施例提供一种视频的文字检测方法，由视频的文字检测装置执行，图2是本申请实施例提供的一种视频的文字检测方法的流程示意图，该视频的文字检测方法应用于光学字符识别OCR(Optical Character Recognition，OCR)场景中，如图2所示，该视频的文字检测方法包括：

S201、获取视频，该视频包括n帧图片，n为大于1的整数。

在获取待识别包括n帧图片的视频后，将视频处理得到基于时序的图片流(或称图片序列)，该图片流包括n帧图片。处理得到的图片流的格式是视频的文字检测装置支持的格式。在一种可选示例中，待识别的视频的格式与视频的文字检测装置支持的格式不同，例如待识别的视频的格式为mov、mtv、dat或wmv等格式，而视频的文字检测装置支持的格式为jpg格式，则通过格式转化将视频转化为图片流。在另一种可选示例中，待识别的视频的格式与视频的文字检测装置支持的格式相同，视频的文字检测装置可以直接将视频中的基于时序排列多帧的图片获取为图片流。

S202、识别视频的每一帧图片中的文字。

其中，假设第k帧图片为n帧图片中的一帧图片，即1≤k≤n，识别该视频中第k帧图片的文字的过程具体包括如下A1至A2的流程。值得说明的是，由于本申请实施例后续过程需要对第k帧图片与该第k帧图片之前的图片中的文字进行匹配。在一种可选方式中，若在视频中第k帧图片之前不存图片或不存在包含文字的图片(如k＝1)，则对第k帧图片仅执行下述流程A1，若第k帧图片之前存图片或存在包含文字的图片，则可以对第k帧图片执行流程A1和A2。在另一种可选方式中，在S201中，在视频中第1帧图片之后的图片中获取n帧图片，对于视频中的第1帧图片执行前述流程A1，对于该n帧图片中的每一帧图片，执行前述流程A1和A2。

下面对A1至A2的流程进行详细说明：

A1、获取视频中的第k帧图片中的文字。

本申请实施例中，第k帧图片的文字的获取方式有多种，为了便于读者理解，下面对本申请实施例所涉及的文字的识别原理进行简单介绍。该识别视频中文字的流程包括：文字定位、文字图像提取和文字识别三个子流程，分别如下：

第一、文字定位子流程，包括：判断一张图片中是否有文字，如果该图片中存在文字，确定定位得到文字，并确定定位得到的文字的位置和大小(也称尺寸)等信息。基于定位得到的文字的位置和大小，在该文字外部添加文字框(box)，该文字框可以是文字的最小外接矩，或者任意其他的规格和形状。值得说明的是，在文字定位场景还可以预先设置分词规则，该分词规则用于定义文字定位时添加文字框的规则，也即是文字的分组规则，在第一种可选分组规则中，对于识别到的每个文字，检测该文字与其他文字的距离，当该文字与其他文字的距离小于指定距离阈值，将该文字与其他文字划分为一组文字，也即是添加同一文字框；在第二种可选规则中，在检测两个文字之间添加有指定分隔符，将该两个文字划分在不同组中，也即是添加不同文字框，该指定分割符可以为逗号、句号或分号等符号。前述两种可选规则可以根据实际应用场景分别使用或者组合使用。示例的，按照第一种可选分组规则，可以将前述图1中车辆获取的图片中的文字定位为6组文字，分别为：“小客车”、“120”、“60”、“大型车”、“100”和“60”。在文字定位场景也可以不设置分词规则，通过指定的样本集合训练对应的模型，来实现训练完成的模型在推理阶段输出的文字具有分词的效果。

第二、文字图像提取子流程，包括：在图片中对文字框进行提取(如裁剪)，得到包含文字框所围成的区域的图片，该图片称为文字图像。

第三、文字识别子流程，包括：确定文字图像中的文字的内容。

本申请实施例中，文字识别子流程可以是将文字图像对应的特征图(featuremap)转化为文字内容的过程。

图3是本申请提供的一种识别视频中第k帧图片的文字的场景的示意图，如图3所示，假设待识别的第k帧图片为图片p1，通过文字定位过程检测图片p1中是否存在文字，如果该图片p1中存在文字，则返回图片p1内的该文字所在区域的位置和大小等信息；如图3所示，图3中假设通过文字定位过程检测到图片p1中存在6组文字，分别为：“小客车”、“120”、“60”、“大型车”、“100”和“60”，以“小客车”，通过文字图像提取得到与该6组文字对应的文字图像。图4以获取一组文字“小客车”的文字图像为例对该组文字的后续识别过程进行说明。假设执行文字图像提取过程得到“小客车”的文字图像x1；通过提取该文字图像x1的特征图，并将该特征图进行转录处理，得到文字“小客车”。

本申请实施例中，上述识别视频中文字的流程中的全部或部分过程可以由文字识别模型来执行，该文字识别模型可以为人工智能(artificial intelligent，AI)模型，例如深度学习(DeepLearning)模型，深度学习是基于深层次神经网络算法的机器学习技术，其主要特征是使用多重非线性变换对数据进行处理和分析。

示例的，该文字识别模型为卷积神经网络(convolutional neural network，CNN)模型或深度神经网络(Deep Neural Network，DNN)模型。CNN和DNN均是前馈神经网络，可以使用反向传播算法进行训练，是深度学习技术中极具代表的网络架构，其中，CNN的人工神经元(英文：neuron)可以响应一部分覆盖范围内的周围单元，能够根据图片特征进行处理。CNN和DNN包括一个或多个卷积层，还包括池化层(pooling layer)和/或全连接层(fullyconnected layer)。

本申请实施例以以下几种方式为例对本申请实施例涉及的识别视频中文字的流程进行说明：

在第一种可选方式中，文字定位子流程、文字图像提取子流程和文字识别子流程的过程均可以由文字识别模型来实现。假设视频的文字检测装置通过第一文字识别模型获取第k帧图片中的文字，该第一文字识别模型用于生成接收的图片中的文字，也即是第一文字识别模型的输入端支持视频的图片的输入，通常输入的图片的尺寸相同。如图5所示，该识别过程包括：将该第k帧图片输入至第一文字识别模型；根据文字识别模型获得第k帧图片中的文字。获取的文字包括识别得到的一组或多组文字，每组文字包括至少一个文字。

在本申请实施例中，第一文字识别模型可以是人工智能(artificialintelligent，AI)模型中的可以基于图片进行文字识别的任意一种模型。图6是本申请实施例提供的一种第一文字识别模型的结构示意图。示例的，该第一文字识别模型为CNN模型。该第一文字识别模型包括：特征金字塔网络(feature pyramid networks，FPN)301、目标检测特殊层(RoiAlign)302、特征图提取层303和解码器(decoder)304，该FPN301用于提取输入的图片的多个第一特征图(也称建议窗口，proposals)，该FPN301用于融合输入的图片不同层次的特征，每个第一特征图a1为一个可能包含一个候选对象的区域，该候选对象的区域也称感兴趣区域(region of interest，Roi)或候选区域，即前述文字图像提取子流程中所述的文字框所在区域。在本申请实施例中，该候选对象为一组文字，该一组文字包括一个或多个文字；该RoiAlign302用于基于该多个第一特征图a1，获取第二特征图a2。示例的，该RoiAlign302根据Roi在输入的图片(即第k帧图片)中的位置在多个第一特征图a1中获取相应的第二特征图a2，以用于回归，RoiAlign302获取的第二特征图a2的个数与Roi的个数相同，也即是，RoiAlign302获取的每个第二特征图a2对应一个Roi。RoiAlign302提取的第二特征图通常为固定尺寸，示例的，RoiAlign302避免对Roi的边缘量化，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集过程转化为一个连续的操作。示例的，Roi在输入的图片中的位置可以由该Roi的坐标[x，y，w，h]表示，其中，x、y为Roi的中心坐标，w为Roi的宽度，h为Roi的高度。该特征图提取层303包括一个或多个卷积层，特征图提取层303用于基于该第二特征图a2获取语义特征图，示例的，该语义特征图为二维特征图，如7×7的特征图，该解码器304用于进行文字的转录，即基于提取的该语义特征图输出图片中的文字，也即是每个Roi所包含的文字。可选地，该解码器304基于注意力(attention Mechanism)机制进行文字的转录。采用注意力机制可以实现解码器304输出更为贴近人眼识别结果的文字识别结果，提高用户观看最终文字识别结果的用户体验。

在第二种可选方式中，文字识别子流程可以由文字识别模型来实现。文字定位子流程和文字图像提取子流程由其他模型或模块实现。假设视频的文字检测装置通过第二文字识别模型获取第k帧图片中的文字，该第二文字识别模型能够进行文字识别，该第二文字识别模型用于生成接收的文字图像(即文字框的图片)中的文字，也即是第二文字识别模型的输入端支持视频的文字图像的输入，输入的文字图像的尺寸可以不同。如图7所示，该识别过程包括：

A11、在第k帧图片中获取文字图像，每个文字图像包括该第k帧图片中的一个或多个文字所在区域。

A11可以参考前述文字定位子流程和文字图像提取子流程。例如，在第k帧图片中确定定位得到的文字的位置和大小等信息，并基于确定的信息在第k帧图片中的文字外添加文字框，对文字框所在区域进行裁剪，得到文字图像。

A12、将获取的文字图像输入第二文字识模型。

A13、获取第二文字识别模型输出的文字框中文字的识别结果。

在本申请实施例中，第二文字识别模型可以是AI模型中的可以基于文字图像进行文字识别的任意一种模型。图8是本申请实施例提供的一种第二文字识别模型的结构示意图。示例的，该第二文字识别模型为DNN模型。该第二文字识别模型包括：骨干网401、最大池化层(MaxPooling layer)402、全连接层403和解码器404，该骨干网络401用于提取输入的图片(即裁剪得到的文字图像)的第一特征图b1，该第一特征图b1用于反映输入的图片的特征，示例的，该骨干网包括一个或多个卷积层，该骨干网可以为ResNet；该最大池化层402用于对该特征图进行降维处理得到第二特征图b2；该全连接层403用于对该第二特征图b2进行降维处理得到该输入的图片的语义特征图b3；该解码器404用于基于该语义特征图b3获取该输入的图片中的文字。示例的，该语义特征图b3为二维特征图。

值得说明的是，本申请实施例中，识别视频中文字的流程也可以采用其他模型或模块执行，只要能有效识别到每帧图片中的文字即可。文字识别模型的结构也可以有其他方式，例如可以将FPN替换为区域生成网络(Region Proposal Network，RPN)、将RoiAlign替换为Roi Pooling(Roi池化层)；将特征图提取层替换为其他卷积层等等。还可以调整文字识别模型中的各个功能层的连接关系等等。

A2、基于第k帧图片中的文字的特征向量与该视频中该第k帧图片之前的图片中出现的文字的特征向量，对该第k帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配。

为了便于读者理解，下面对本申请实施例的提供的识别方法的原理进行说明。视频在录制或播放时，其连续的图片流中的文字具有一定的轨迹，使文字的显示具有一定的关联，例如，连续多帧图片中同一文字目标对应显示的文字内容相同。本申请实施例正是利用了连续的不同帧图片中文字的关联性进行文字的匹配。

本申请实施例中，视频的文字检测装置通过比对第k帧图片中的文字的特征向量与该视频中该第k帧图片之前的图片中出现的文字的特征向量进行文字的匹配，确定属于相同文字目标的文字。进一步可以实现文字的去重。可选地，前述视频中第k帧图片之前的图片可以为视频中与该第k帧图片相邻且位于第k帧图片之前的图片。示例的，该第k帧图片之前的图片包括m帧图片，m为正整数。m可以为固定值，例如m＝1，则进行文字匹配的是第k-1帧图片中的文字和第k帧图片中的文字。又例如，m为可变数值，如第k帧图片之前存在多帧图片，则将该多帧图片获取为m帧图片；或者，第k帧图片之前存在多帧存在文字的图片，则将该多帧存在文字的图片获取为m帧图片。可选地，该m帧图片包括第k帧图片的前m(例如，m＝k-1)帧连续图片，在这种情况下，第k帧图片中的文字需要与第k-m帧连续图片至第k-1帧图片中的文字分别匹配。如此，通过第k帧图片中的文字与第k-m帧至第k-1帧连续图片中的文字的特征向量的关联关系，来进行文字匹配。

可选地，第k帧图片之前的图片中出现的文字可以为第k帧图片之前的m帧图片中每帧图片中均出现的文字，即在该m帧连续图片中连续出现的文字。连续出现的文字产生连续的轨迹，与第k帧图片产生关联性的概率更高，出现相同文字目标的概率更高，重复的概率也更高，基于此筛选第k帧图片之前的图片中需要匹配的文字更为准确，去重效率更高。

在流程A2之前，视频的文字检测装置需要获取第k帧图片中的文字的特征向量与该视频中第k帧图片之前的图片中出现的文字的特征向量。该视频中文字的特征向量的获取流程中的全部或部分过程可以由特征生成模型来执行，通过特征生成模型来生成文字的特征向量，可以实现快速准确地特征向量的生成，提高特征向量的生成效率。该特征生成模型可以为AI模型，例如深度学习模型，示例的，该特征生成模型为CNN模型或DNN模型。本申请实施例以以下两种方式对该特征向量的获取流程进行说明：

在第一种可选方式中，假设视频的文字检测装置通过第一特征生成模型获取第k帧图片中的文字的特征向量，该第一特征生成模型识用于生成接收的图片中文字的特征向量，也即是第一特征生成模型的输入端支持视频的图片的输入，通常输入的图片的尺寸相同。视频中文字的特征向量的获取流程包括：

A21、将该第k帧图片输入第一特征生成模型，获得第k帧图片中的文字的特征向量。

视频的文字检测装置在向第一特征生成模型输入第k帧图片后，提取第一特征生成模型生成的该第k帧图片中的文字的特征向量。

A22、获取该k帧图片之前的图片中出现的文字的特征向量。

视频的文字检测装置在每次向第一特征生成模型输入图片后，都会获取相应的图片中的文字的特征向量。本申请实施例中，可以将已获取的特征向量存储在指定位置，在获取前述k帧图片中的文字的特征向量后，在指定存储位置提取k帧图片之前的图片中出现的文字的特征向量。

图9是本申请实施例提供的一种第一特征生成模型的结构示意图。示例的，该第一特征生成模型为CNN模型。前述文字的特征向量包括语义特征向量，该第一特征生成模型包括：FPN501、RoiAlign502、第一特征图提取层503和语义特征提取层504，该FPN501用于提取输入的图片的多个第一特征图c1，该FPN501用于融合输入的图片不同层次的特征；该RoiAlign502用于基于该多个第一特征图c1，获取第二特征图c2，示例的，该RoiAlign502根据文字框在输入的图片中的位置在多个第一特征图c1中提取相应的第二特征图c2，以用于回归。该第一特征图提取层503包括一个或多个卷积层，该第一特征图提取层503用于基于该第二特征图c2，获取语义特征图c3。该语义提取层504用于基于该语义特征图c3，获取语义特征向量，该语义特征向量用于反映图片中文字本身的语义(即文字的含义)属性特征，当图片中的文字不同时，提取的语义特征向量不同。其中，FPN501、RoiAlign502和第一特征图提取层503的功能可以分别对应参考前述FPN301、RoiAlign302和特征图提取层303的功能，详细解释可以参考前述对应功能层。

可选地，前述文字的特征向量还包括视觉特征向量，如图10所示，该第一特征生成模型还包括：第二特征图提取层505包括一个或多个卷积层，该第二特征图提取层505用于基于该第二特征图c2，获取视觉特征图c4。该视觉特征提取层506用于基于视觉特征图c4，获取视觉特征向量，该视觉特征向量用于标识视觉特征图c4在所属图片中的视觉特征，反映人眼看到的视觉效果。如视觉特征包括颜色、形状、位置和/或尺寸。例如，输入第一特征生成模型的图片为第k帧图片，该视觉特征向量用于标识视觉特征图c4(即对应Roi)在第k帧图片中的视觉特征。

由于视频的视觉上相同或相似的文字有一定相同的概率，而本申请实施例中，文字的特征向量既包括语义特征向量，又包括视觉特征向量，因此通过该至少两个维度对第k帧图片中的文字与第k帧图片之前的图片中出现的文字进行匹配时，文字匹配的准确率进一步增高，还可以优化去重的效果。并且，由于视觉特征向量反映文字的低层视觉特征，即人眼能看到文字在图片的效果；而语义特征向量反映文字的高层语义特征，即人能理解的文字的含义，因此该两个维度的特征向量的鲁棒性更高，能够有效反映文字的特征。

在第二种可选方式中，假设视频的文字检测装置通过第二特征生成模型获取第k帧图片中的文字，该第二特征生成模型识用于生成接收的文字图像中文字的特征向量，也即是第二特征生成模型的输入端支持文字图像的输入，输入的文字图像的尺寸可以不同。视频中文字的特征向量的获取流程包括：

A23、在第k帧图片中获取文字图像，每个文字图像包括该第k帧图片中的一个或多个文字所在区域。

该文字图像的获取过程参考前述文字定位子流程和文字图像提取子流程。也可以参考流程A11。

A24、将获取的文字图像输入第二特征生成模型，获得第k帧图片中的文字的特征向量。

视频的文字检测装置在向第二特征生成模型输入第k帧图片中每个文字图像后，提取第二特征生成模型生成的该文字图像(即文字框内的图像)中文字的特征向量，最终将第k帧图片中所有文字图像对应的特征向量作为第k帧图片中文字的特征向量。

A25、获取该第k帧图片之前的图片中出现的文字对应文字图像中文字的特征向量。

视频的文字检测装置在每次向第二特征生成模型输入图片后，都会获取相应的图片中文字的特征向量。本申请实施例中，可以将已获取的特征向量存储在指定位置，在获取前述k帧图片中的文字的特征向量后，在指定存储位置提取k帧图片之前的图片中出现的文字的特征向量。

图11是本申请实施例提供的一种第二特征生成模型的结构示意图。示例的，该第二特征生成模型为DNN模型。该第二特征生成模型包括：骨干网601、最大池化层602、全连接层603和特征提取层604，该骨干网络601用于提取输入的图片(即文字图像)的第一特征图d1，示例的，该骨干网包括一个或多个卷积层，该骨干网可以为ResNet网络；该最大池化层602用于对该第一特征图d1进行降维处理得到第二特征图d2；该全连接层603用于对该第二特征图d2进行降维处理得到语义特征图d3，特征提取层604用于提取该语义特征图d3的特征得到该输入的图片中文字的特征向量。该特征提取层604可以包括一个或多个卷积层。骨干网601、最大池化层602、全连接层603的功能可以分别对应参考前述骨干网401、最大池化层402、全连接层403。

值得说明的是，本申请实施例中，特征向量生成的流程也可以采用其他模型或模块执行，只要能有效生成文字的特征向量即可。特征生成模型的结构也可以有其他方式，例如可以将FPN替换为RPN、将RoiAlign替换为Roi Pooling；将特征图提取层替换为其他卷积层等等。还可以调整特征生成模型中的各个功能层的连接关系等等。

本申请实施例在实际实现时，在一种可选的实现方式中，文字识别模型与特征生成模型为两个不同的AI模型。不同的AI模型指的是模型的结构、参数、训练方式或损失函数等中的一种或多种不同。当文字识别模型与特征生成模型为两个不同的AI模型时，可以分别进行模型的训练，减少训练和推理阶段文字识别和特征生成过程的相互干扰。

在一种可选的实现方式中，文字识别模型与特征生成模型为相同的AI模型。参考前述流程A1，由于识别视频中文字的流程的全部或部分过程由文字识别模型来执行时，文字识别模型会生成特征图，而在流程A2中，需要获取的文字的特征向量可以包括语义特征向量，该语义特征向量可以基于语义特征图获取，因此，可以将文字识别模型和特征生成模型的一层或多层功能层进行复用，从而减少视频的文字检测装置所使用的模型的复杂度。例如，文字特征模型还用于对输入的图片进行文字识别，也即是前述文字识别模型的功能可以由特征生成模型实现。则前述流程A1中获取第k帧图片中的文字的过程可以由A1中的两种可选方式替换为：根据特征生成模型，获得第k帧图片中的文字。本申请实施例以以下两种可选示例对文字识别模型与特征生成模型为相同的AI模型的场景进行说明：

在一种可选示例中，图6中第一文字识别模型的FPN301、RoiAlign302和特征图提取层303与图9或图10中第一特征生成模型中的FPN501、RoiAlign502和第一特征图提取层503可以分别对应复用，以图6中的第一文字识别模型与图10所示的第一特征生成模型的功能层复用为例，假设复用后的模型为图12所示的特征生成模型，该特征生成模型在图10所示的第一特征生成模型的基础上，还包括：解码器507，该解码器507用于基于特征图(如第一特征图提取层503输出的语义特征图)输出该输入的图片中的文字，该特征图可以为二维特征图。则前述流程A1中的第一文字识别模型执行的动作均可以由该特征生成模型执行。采用前述图12所示的特征生成模型，由于该图12所示的特征生成模型能够一次性完成文字定位子流程、文字图像提取子流程和文字识别子流程的过程。可选地，该特征生成模型还用于完成文字的去重，因此，在推理阶段，直接向该特征生成模型输入n帧图片(即前述图片流)，第一文字识别模型即可输出对该n帧图片，即可在后续过程中输出视频的文字识别结果。实现视频的端到端的识别。

本申请实施例中，特征生成模型根据其具体应用场景的不同还包括其他结构。可选地，如图13所示，该特征生成模型还包括分类器508、掩膜(mask)图形提取层509和/或预测层510，该分类器508用于基于视觉特征图c4确定分类结果和Roi的位置，该分类结果用于指示该输入的图片是否存在文字框，该Roi的位置可以由该Roi的坐标[x，y，w，h]表示；该掩膜图形提取层509用于获取该输入的图片中Roi的掩膜图形，例如基于语义特征图c3，获取该输入的图片中Roi的掩膜(mask)图形；预测层510还用于获取该输入的图片中Roi的分割掩码。

对于输入的每帧图片，第一特征图提取层503输出的掩膜图形与Roi对应，每个掩膜图形是对对应的Roi进行二值化处理得到的二进制图形，例如掩膜图形是将对应Roi中的背景像素的灰度值置0(对应图13的掩膜图形中黑色区域)，将文字像素的灰度值置1(对应图13的掩膜图形中白色区域)得到的。每个掩膜图形可以直观地表征对应Roi的内容，便于用户通过该掩膜图形了解文字框中实际的文字内容。其中，分割掩码用于指示掩膜图形在特征生成模型的输入的图像中文字的边界位置，由于文字的边界的形状不规则，如呈曲形，采用该分割掩码能够更好地表征文字形状。该分割掩码可以看作对应文字的高层特征。该分割掩码即为前述掩膜图形的文字像素所在区域，例如其为前述掩码图形中灰度值为1的区域。

值得说明的是，FPN501、RoiAlign502、第一特征图提取层503、第二特征图提取层505、分类器508、掩膜图形提取层509和/或预测层510的结构可以参考掩膜区域CNN(MaskRegion-CNN，Mask R-CNN)的对应结构。

可选地，在前述该第一特征图提取层503和解码器507之间还设置有长短期记忆网络(Long Short-Term Memory，LSTM)，该LSTM用于对语义特征图进行时序建模。

由于RoiAlign302提取的第二特征图已经进行了位置特征的一次回归，而分类器508进行了位置特征的二次回归，通过双阶段回归(即在不同层进行文字框的位置的回归)可以准确定位到每组文字，从而实现更准确的位置特征获取，提高了后续文字匹配的精度。

可选地，如图14所示，RoiAlign502还用于在推理阶段获取该分类器确定的Roi的位置，并基于获取的Roi的位置再次基于多个第一特征图a1，确定第二特征图a2，即进行第二特征图a2的更新。由于分类器508相对于RoiAlign502对同一位置进行了两次回归，其获取的Roi的位置相较于RoiAlign502获取的第二特征图所指示的Roi的位置更准确，因此通过前述反馈机制，实现RoiAlign获取的Roi的位置指导RoiAlign再次提取特征图，以得到新的第二特征图，新的第二特征图会更为准确，从而保证文字位置的准确获取。

在另一种可选示例中，图8中的第二文字识别模型的骨干网401、最大池化层402和全连接层403与图11中第二特征生成模型中的干网601、最大池化层602和全连接层603可以分别对应复用，假设复用后的模型为图15所示的特征生成模型，该特征生成模型在图11所示的第二特征生成模型的基础上，还包括：解码器605，该解码器605用于基于语义特征图d3获取输入的图片中的文字。则前述流程A1中的第二文字识别模型执行的动作均可以由该特征生成模型执行。

需要说明的是，前述视频的文字检测装置中使用的文字识别模型和特征生成模型的组合方式只是示意性说明，本申请实施例在实际实现时，视频的文字检测装置中使用的文字识别模型和特征生成模型还可以有其他组合方式，只要在文字识别的同时可以生成文字的特征向量即可。

在视频的文字检测装置获取第k帧图片中的文字的特征向量与该视频中第k帧图片之前的图片中出现的文字的特征向量后，基于获取的特征向量执行文字匹配流程。本申请实施例中，文字匹配流程包括：基于该第k帧图片中的文字的特征向量与该视频中该第k帧图片之前的图片中出现的文字的特征向量，对该第k帧图片中的文字与第k帧图片之前的图片中出现的文字进行匹配。如前述流程A1所述，在进行文字定位之后，若一帧图片中包括文字，则根据分词规则，该帧图片中包括一组或多组文字，则基于该第k帧图片中的文字的特征向量与该视频中该第k帧图片之前的图片中出现的文字的特征向量，对该第k帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配，包括：对于第k帧图片中的每组文字，将该组文字的特征向量与视频中该第k帧图片之前的图片中出现的每组文字的特征向量进行匹配。例如，第k帧图片中出现Q组文字，第k帧图片之前的图片中出现P组文字，则对于Q组文字中的每组文字，分别与P组文字中的每组文字进行匹配。

可选地，对于第k帧图片中的每组文字，该组文字与第k帧图片之前的图片中出现的另一组文字匹配成功的条件包括该组文字的特征向量与另一组文字的特征向量满足第一匹配条件。示例的，该第一匹配条件包括：相似度大于指定相似度阈值，或者，距离小于第一距离阈值中的至少一种。其中，特征向量的相似度与特征向量的距离负相关，也即是，距离越小，相似度越大。示例的，该距离可以为欧氏距离或余弦距离。

值得说明的是，当每组文字的特征向量包括语义特征向量时，该组文字与另一组文字匹配成功的条件包括该组文字的语义特征向量与另一组文字的语义特征向量满足该第一匹配条件。当每组文字的特征向量包括视觉特征向量时，该组文字与另一组文字匹配成功的条件包括该组文字的视觉特征向量与另一组文字的视觉特征向量满足该第一匹配条件。当每组文字的特征向量包括语义特征向量和视觉特征向量时，在第一种可选方式中，该组文字与另一组文字匹配成功的条件包括该组文字的语义特征向量与另一组文字的语义特征向量满足该第一匹配条件，且该组文字的视觉特征向量与另一组文字的视觉特征向量满足该第一匹配条件；在第二种可选方式中，文字的特征向量由视觉特征向量和该语义特征向量拼接得到，例如，对于一组文字，其视觉特征向量为一个128维的向量，语义特征向量为一个128维的向量，则拼接得到256维的特征向量。其中，在拼接得到的特征向量中，视觉特征向量可以在语义特征向量之前，也可以在语义特征向量之后，只要保证对于同一视频，各帧图片中每组文字的特征向量的拼接规则一致即可。相应的，该组文字与另一组文字匹配成功的条件包括该组文字的特征向量与另一组文字的特征向量满足该第一匹配条件，如此文字的特征向量包含的元素更为丰富，更能反映不同帧中不同文字的关系，且匹配过程相对于前述第一种可选方式更为简洁，运算开销更小。

可选地，对第k帧图片中的文字与第k帧图片之前的图片中出现的文字进行匹配的过程还包括以下两种可选方式的至少一种：

在第一种可选方式中，基于第k帧图片中的文字与视频中出现的文字的编辑距离(Minimum Edit Distance，MED)，对第k帧图片中的文字与第k帧图片之前的图片中出现的文字进行匹配。编辑距离又称莱文斯坦(Levenshtein)距离，指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括：将一个字符替换成另一个字符，插入一个字符，以及删除一个字符。

例如，将“kitten”转成“sitting”的莱文斯坦距离为3，经过的操作包括：

1、kitten→sitten(k→s)；2、sitten→sittin(e→i)；3、sittin→sitting(插入g)。

对于第k帧图片中的每组文字，该组文字与第k帧图片之前的图片中出现的另一组文字匹配成功的条件包括该组文字与另一组文字的编辑距离小于第二距离阈值。

在第二种可选方式中，基于第k帧图片中的文字的位置以及第k帧图片之前的图片中出现的文字在第k帧图片的预测位置，对第k帧图片中的文字与第k帧图片之前的图片中出现的文字进行匹配。该第二种可选方式基于卡尔曼滤波(Kalman filtering)原理，将第k帧图片之前的图片中出现的文字在该第k帧图片的位置进行预测。例如，在公路上，随着车辆的行驶，车辆的视频的文字检测装置获取的视频的图片流不断变化，在第k-1帧出现的文字可能在第k帧有部分就不再出现，通过卡尔曼滤波可以滤除该不再出现的部分文字。可选地，当第k帧和第k-1帧均存在文字时，基于第k帧图片中的文字的位置以及第k帧图片之前的图片中出现的文字在第k帧图片的预测位置，对第k帧图片中的文字与第k帧图片之前的图片中出现的文字进行匹配，如此可以提高匹配精度。

对于第k帧图片中的每组文字，该组文字与第k帧图片之前的图片中出现的另一组文字匹配成功的条件包括该组文字与另一组文字在第k帧图片中的预测位置满足第二匹配条件，该第二匹配条件包括相似度大于相似度阈值，或者重叠程度大于指定重叠程度，或者距离小于第三距离阈值，该距离可以为交并比(Intersection over Union，IOU)距离。

其中，获取第k帧图片之前的图片中出现的文字在第k帧图片的预测位置的过程包括：将视频中的文字的运动模式简单近似为匀速直线运动，也即是每帧图片的运动速度相同，每一组文字所在文字框在图像坐标系中，对应的状态变量包括

其中，x、v为文字框的中心坐标，h为文字框的高度，ε为文字框的宽高比，θ为文字框的倾斜角度(该倾斜角度为相对于图像坐标系中指定坐标轴，如横轴，的倾斜角度)

分别为x，y，h，ε，θ的速度。

由于目标文字在前m帧图片中连续出现，而第k-1帧图片相对于第k帧图片为最新的图片，因此，对于每组文字，可以仅基于第k-1帧图片进行状态估计。采用状态估计模型，确定该组文字所在文字框在第k帧图片中的估计状态变量。其中，第k-1帧图片的状态变量和第k帧图片的状态变量满足以下关系：

其中，x_k、y_k、h_k、ε_k、θ_k分别为第k帧图片中的一个文字框的x，y，h，ε，θ，x_k-1、y_k-1、h_k-1、ε_k-1、θ_k-1分别为第k-1帧图片中的一个文字框的x，y，h，ε，θ；

分别为第k-1帧图片中的一个文字框的x，y，h，ε，θ的速度，

分别通过统计原理得到，相邻两帧图片的对应参数的速度视为相等，Δt为第k-1帧图片与第k帧图片在视频中的时间间隔。

该状态估计模型满足：

其中，X_k表示第k帧图片中的一组文字(即一个文字框)所对应的状态变量；X_k-1表示第k-1帧图片中一组文字所对应的状态变量，该系数矩阵中的元素与前述状态变量中的元素一一对应，e5为5维的单位矩阵。

可以视为一个固定的系数。

则，如前所述，对于第k帧图片中的每组文字，该组文字与第k帧图片之前的图片中出现的另一组文字匹配成功的条件包括：条件1、在该组文字的特征向量与该另一组文字的特征向量满足第一匹配条件；还包括：条件2、该组文字与另一组文字的编辑距离小于第二距离阈值，和/或，条件3、该组文字与另一组文字在第k帧图片中的预测位置满足第二匹配条件。在一种可选实现方式中，在同时满足前述条件1至条件3时，可以确定该组文字与第k帧图片之前的图片中出现的另一组文字匹配成功；在不满足前述条件1至条件3中的任意一种时，可以确定该组文字与第k帧图片之前的图片中出现的另一组文字匹配失败。

在另一种可选实现方式中，通过比较该组文字与另一组文字的距离代价值(cost)是否大于第四距离阈值，当该距离代价值小于第四距离阈值，确定该组文字与第k帧图片之前的图片中出现的另一组文字匹配成功，当该距离代价值不小于第四距离阈值，确定该组文字与第k帧图片之前的图片中出现的另一组文字匹配失败。其中，距离代价为第一代价值、第二代价值和第三代价值的加权值，或者，距离代价为第一代价值和第二代价值的加权值，或者，距离代价为第一代价值和第三代价值的加权值。其中，第一代价值为该组文字的特征向量与该另一组文字的特征向量的距离；该第二代价值为该组文字与另一组文字的编辑距离；该第三代价值为该组文字与另一组文字在第k帧图片中的预测位置的距离。

示例的，假设距离代价为第一代价值和第三代价值的加权值，第一代价值为特征向量与该另一组文字的特征向量的距离dist_向量距离，第三代价值为该组文字与另一组文字在第k帧图片中的预测位置的IOU距离dist_iou，假设与第一代价值对应权重为0.9，与第三代价值对应权重为0.1，则第一代价值和第三代价值的加权值＝0.1*dist_iou+0.9*dist_向量距离。

当前述一组文字与第k帧图片之前的图片中出现的另一组文字匹配成功的条件在条件1的基础上，结合条件2和条件3中的至少一个条件进行文字的匹配，可以进一步提高同一文字目标所对应的文字的匹配成功概率。

在对第k帧图片中的文字与第k帧图片之前的图片中出现的文字进行匹配后，若第k帧图片中的文字与第k帧图片之前的图片中出现的文字匹配成功，说明匹配成功的文字是同一文字目标对应的文字，后续在S203可以基于匹配成功的文字获取文字识别结果，例如将匹配成功的文字的去重结果作为文字识别结果的内容；若第k帧图片中的文字与第k帧图片之前的图片中出现的文字匹配失败，说明匹配失败的文字不是同一文字目标对应的文字，可以对第k帧图片的下一帧图片再次执行前述S202的过程，也可以根据具体情况停止动作。

S203、基于文字匹配结果，获得视频的文字识别结果。

在对视频中的n帧图片均执行识别文字的流程后，已经完成了多次文字的匹配，保证了第k帧图片与第k帧图片之前的图片中属于相同文字目标的文字的确定。本申请实施例提供的视频的文字检测方法，可以应用于不同的视频文字处理场景。基于文字匹配结果，可以进行不同的处理流程，以获取视频的文字识别结果。本申请实施例以以下几种文字处理场景为例进行说明：

第一种文字处理场景，文字去重场景。视频的文字检测装置可以根据视频中的图片之间的匹配结果进行文字去重后得到的视频的文字识别结果。

当第k帧图片中一组文字与视频中第k帧图片之前的图片中出现的另一组文字匹配成功，则说明该组文字与该另一组文字相似或相同，两者在一定概率上对应同一文字目标，可以将两者进行去重处理，去重后在最终的视频的文字识别结果中仅保留对应同一文字目标的一组文字。

示例的，若第k帧图片之前的图片中出现的文字为第k帧图片之前的图片中每帧图片中均出现的文字，当第k帧图片中一组文字与视频中第k帧图片之前的图片中连续出现的另一组文字匹配成功，则说明视频中该组文字在多帧连续图片中出现，通过去重处理将重复出现的多组相同的文字处理得到1组相同的文字，从最终的视频的文字识别结果中输出，可以保证对视频文字内容识别的准确性和连贯性。

相关技术中，针对视频的文字检测技术仅能对视频中的每帧图片分别进行识别，导致对视频的识别结果中相同的文字重复出现，影响文字识别效率。例如，若视频中的10帧图片中存在文字，对视频的文字识别结果包括该10帧图片中的文字。

而本申请实施例中，基于每帧图片中的文字的特征向量与视频中在每帧图片之前出现的文字的特征向量，对每帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配，并将匹配成功的文字去重，实现输出的视频的文字识别结果中对应同一文字目标的相同的文字的去重，减少识别结果中对应同一文字目标的相同的文字重复出现的概率，提高文字的识别效率。例如，若视频中的10帧图片中存在文字，且有8帧图片中的文字相同，则对视频的文字识别结果包括该3帧图片中的文字，其中1帧图片的文字为前述8帧图片中的文字的去重结果，剩余2帧图片为文字不同的2帧图片。

需要说明的是，在前述流程A1中获取视频中的第k帧图片中的文字的过程还包括：为识别得到的每组文字分配一个标识(Identity，ID)，该ID的分配规则是预先设置的。可选地，该分配规则为：保证同一文字目标的ID相同，不同文字目标的ID不同。在一种可选方式中，在前述文字识别子流程中，数据库中存储的每个语义特征向量对应一个ID，示例的，在一组文字X的语义特征向量与数据库中存储的语义特征向量匹配成功后，即两者的相似度大于相似度阈值后，将数据库中匹配成功的语义特征向量的ID分配给该组文字X。在另一种可选方式中，在第k帧图片中识别得到一组文字X后，基于该组文字X的位置和/或语义生成ID。示例的，该位置可以为该组文字X的文字框的坐标。通过为识别得到的文字分配ID，可以便于后续索引到相应文字，尤其索引到对应同一文字目标的文字，实现文字在视频中的快速检索。

相应的，在文字去重场景中，文字识别结果也可以包括去重后文字的ID，如此便于采用ID对文字进行记录。

文字去重场景可以包括多种实际的应用场景，例如辅助自动驾驶场景和视频内容提取场景。对于辅助自动驾驶场景，在进行文字的去重处理之后，还可以生成驾驶建议，在文字识别结果中输出；对于视频内容提取场景，在进行文字的去重处理之后，还可以获取其他的视频相关内容，在文字识别结果中输出。

第二种文字处理场景，文字内容追踪场景。根据视频中的图片之间的匹配结果进行文字追踪后得到的视频的文字识别结果。

在进行文字内容追踪时，可以将对应相同文字目标的文字(即匹配成功的文字)所在图片依时序排列得到图片序列，该文字识别结果包括匹配成功的文字以及该图片序列对应的图片帧，或者，匹配成功的文字以及图片序列中图片的标识。其中，图片的标识可以由图片在视频中的位置表示，例如图片在视频中的ID或坐标，如每帧图片在视频中的ID可以采用图片序号表示，一组相同的文字多对应的图片序列为[1，2，4，7]，表示对应相同文字目标的文字出现在视频的第1、2、4、7帧图片中。可选地，文字识别结果也可以包括匹配成功的文字的ID，如此便于采用ID对文字进行记录。可选地，图片识别结果还包括图片序列中每帧图片中匹配成功的文字的位置，例如该文字在图片中的坐标。可选地，文字识别结果中包括图片序列对应的图片帧时，图片序列中图片中的匹配成功的文字在显示时可以突出显示，例如，显示有文字框。

相同文字(即匹配成功的文字)对应的图片序列，可以描述同一文字目标在视频中出现的轨迹，用户通过该轨迹可以快速确定文字的位置，实现文字的有效追踪。

当文字识别结果包括图片序列对应的图片帧时，在文字识别结果中可以将文字序列对应的图片帧依时序展示，从而便于用户观看同一文字目标的轨迹，从而更便捷地找到文字目标的出现规律。

在前述文字追踪的过程中，在一种可选方式中，视频的文字检测装置还可以先对匹配成功的文字进行文字内容审核，将审核得到的违规文字作为追踪目标。示例的，将文字识别结果中获取的匹配成功的文字与敏感词库中的词语进行对比，将与敏感词库中词语相同的文字确定为违规文字，并将该文字在视频中的图片帧标记为违规图片帧。后续可以将视频中的违规图片帧删除或者进行其他处理。相应的，文字识别结果包括违规文字以及该违规文字对应的图片序列的标识；或者，文字识别结果包括违规文字以及该违规文字对应的图片序列对应的图片帧。当文字识别结果中包括违规文字对应的图片序列对应的图片帧时，可以便于用户观看，从而更便捷地找到违规图片。

在另一种可选方式中，视频的文字检测装置可以在追踪的过程中同步进行文字内容审核，示例的，将识别得到的文字与敏感词库中的词语进行对比，将与敏感词库中词语相同的文字确定为违规文字，并将该文字在视频中的图片帧标记为违规图片帧。后续可以将视频中的违规图片帧删除或者进行其他处理。相应的，文字识别结果包括违规文字。可选地，文字识别结果也可以包括违规文字的ID，如此便于采用ID对文字进行记录。可选地，文字识别结果还可以包括违规图片帧在视频中的位置，例如该违规图片帧在视频中的ID或坐标。可选地，文字识别结果还包括：违规图片帧。在文字识别结果中不仅输出违规文字还输出一帧或多帧违规图片，可以便于用户观看，从而更便捷地找到违规图片。

需要说明的是，上述两种文字处理场景对应的两种文字识别结果的获取方式，可以根据实际情况进行组合执行或者分别执行，本申请实施例对此不做限定。

S204、输出该文字识别结果。

通过输出文字识别结果，可以便于用户基于该文字识别结果对视频中所需获取的内容有准确的了解。

值得说明的是，在输出文字识别结果后，视频的文字检测装置还可以进一步执行与当前文字处理场景对应的动作。例如，在视频内容提取场景，将文字识别结果插入到视频的开始部分，作为视频的概述内容输出。在辅助自动驾驶场景，基于文字识别结果对车辆进行自动驾驶控制。例如，文字识别结果识别得到的文字为：限速80，将车辆的速度调整为80千米每小时以下。

综上所述，本申请实施例在进行视频中文字的识别时，基于第k帧图片中文字的特征向量以及之前的图片中连续出现的文字的特征向量进行匹配，如此通过视频的图片之间特征向量的关联关系，实现了不同帧中相同文字目标的识别，从而实现视频的文字识别结果不仅仅是每帧图片的文字识别结果的汇总，还可以反映图片之间文字的关联关系，提供给用户视频的更多信息，提高用户体验。

进一步的，本申请实施例提供的视频的文字检测方法通过对匹配成功的文字的去重，避免了文字识别结果中重复出现对应同一文字目标的相同的文字，使得文字识别结果更为完整准确，提高用户的对文字识别结果的观看体验。

如前所述，本申请实施例提供的视频的文字检测方法所涉及的模型可以为AI模型，例如：深度学习模型。AI模型的使用包括训练(training，也称预训练)和推理(inference)两个过程。其中，训练过程是采用训练样本集对AI模型进行参数优化的过程；推理过程是运行训练好的AI模型的过程，是AI模型的实际使用过程。前述S202中各个模型的使用过程即为推理过程。在前述S202之前，还需要进行合理的训练，如此可以保证训练得到的模型的有效性。示例的，前述特征生成模型(如图9至图15任一所示的特征生成模型)为训练完成的AI模型，训练该特征生成模型采用的损失函数为三元损失函数(Triplet lossfunction)。采用三元损失函数训练得到的特征生成模型在推理阶段生成的特征向量更准确。

则在前述S201之前，本申请实施例提供的视频的文字检测方法还包括：对初始特征生成模型进行训练，获得特征生成模型的过程。该过程包括如下B1至B2的流程。

B1、在训练样本集中获取训练样本，该训练样本为文字图像，生成训练样本对应的三元组。

可选地，训练样本对应的三元组(Triplet)包括：训练样本、与训练样本相似度大于第一相似度阈值的正样本(Positive)、以及与训练样本相似度小于第二相似度阈值的负样本(Negative)。其中，正样本和训练样本可以视为相同或相似的样本，负样本和训练样本可以视为不同或不相似的样本。第一相似度阈值和第二相似度阈值通常不同，第二相似度阈值通常远小于第一相似度阈值。在本申请实施例中，每个样本具有一个ID，ID相同的样本表示相同或相似的样本，ID不同的样本表示不相同或不相似的样本。每个样本的标识由人工标注或机器标注。可选地，在生成每个三元组时，基于训练样本的ID，提取与该训练样本的ID相同的样本作为正样本，与该训练样本的ID不同的样本作为负样本。

B2、根据三元组和三元损失函数对初始特征生成模型进行训练，获得特征生成模型。

一个视频满足以下特点：不同图片中同一文字目标对应的文字相似的文字外貌结构、以及相同的语义，不同文字目标对应的文字外貌结构相异。三元损失函数的原理为：通过训练，将每个训练样本与其正样本的相似度提高，将每个训练样本与其负样本的相似度降低，即使训练样本与正样本的距离减小，使训练样本与负样本被的距离增大。根据三元组和三元损失函数来训练初始特征生成模型可以使得训练完成的特征生成模型在推理阶段所获取的特征向量有效反映前述视频中图片的特点，准确地体现第k帧图片中文字的特征向量与第k帧图片之前的图片中文字的特征向量的相同或不同，从而提高训练得到的特征生成模型在推理阶段的效果。该三元损失函数可以表示为：

L＝[d_a，p+d_a，n+a]₊；

其中，a表示训练样本，p表示与训练样本a对应的正样本，n表示与训练样本a对应的负样本，d_a，p表示训练样本a与正样本p的距离，d_a，n表示训练样本a与负样本n的距离，a为超参数，其为预设值，例如0.2或0.3等。+表示[]内的值大于零的时候，取该值为损失值，[]内的值小于零的时候，损失值为零。

如图16所示，在根据三元组和三元损失函数进行初始特征生成模型的训练时，可以多次执行前述流程B1，得到多个三元组，然后根据得到的多个三元组执行流程B2，也可以在每次执行流程B1之后执行流程B2。本申请实施例对此不做限定。

以每次执行流程B1之后执行流程B2为例。可以执行多次训练流程，直至该三元损失函数的损失值收敛在指定范围内，其中每次训练流程包括：与训练样本相似度大于第一相似度阈值的正样本、以及与训练样本相似度小于第二相似度阈值的负样本，将该三元组输入初始特征生成模型，基于初始特征生成模型进行反向传播训练，以使训练样本与正样本的距离减小，使训练样本与负样本被的距离增大。其中，每次训练流程包括：基于三元损失函数可以算出损失值(loss)，然后基于该损失值计算梯度后更新初始特征生成模型的网络参数。

以图10、图13或图14中所示的初始特征生成模型为例，由于该初始特征生成模型既生成语义特征向量，又生成视觉特征向量，在根据三元组以及前述三元损失函数进行初始特征生成模型的训练时，可以为语义特征生成层503设置一个三元损失函数L1，为位置特征生成层504设置另一个三元损失函数L2，两者输入的三元组相同，但是两者的超参数不同，分别为a1和a2，最终确定一个整体三元损失函数L，L＝L1+L2。则执行多次训练流程，直至该三元损失函数L的损失值收敛在a1+a2所对应的指定范围内，即完成训练过程。其中，在每次训练流程中，使训练样本的视觉特征向量与正样本的视觉特征向量的距离减小，使训练样本的视觉特征向量与负样本的视觉特征向量的距离增大，并使训练样本的语义特征向量与正样本的语义特征向量的距离减小，使训练样本的语义特征向量与负样本的语义特征向量的距离增大。

由于同一样本视频中相邻帧图片的关联性更强。可选地，训练样本集中的训练样本属于同一样本视频，每个训练样本与对应的正样本分别属于该样本视频的相邻帧，每个训练样本与对应的负样本分别属于该样本视频的相邻帧。如此训练阶段的一个batch(批次)训练数据来自于同一样本视频中的两个相邻的图片，可以提高推理过程中，特征生成模型对于相邻帧的图片所生成的特征向量的关联关系的准确性。

值得说明的是，前述流程S202根据具体场景的不同，执行的时机可以不同。在一种可选实现方式中，在对视频中的n帧图片全部完成识别后，再依次对n帧图片中每帧图片进行基于文字的特征向量的匹配。也即是依次将n帧图片的每一帧图片作为第k帧图片执行前述流程A1后，再依次将n帧图片的每一帧图片作为第k帧图片执行前述流程A2。

在另一种可选方式中，依次将视频中的每一帧图片作为第k帧图片，并对第k帧图片执行前述流程A1和A2。也即是，采用循环迭代的方式执行图片的文字识别过程。可选地，在该循环迭代的过程中，还可以同步进行文字的去重和/或追踪。假设第k帧图片之前的图片为该第k帧图片的前一帧图片，采用前述第一特征生成模型进行推理，本申请实施例提供的一种视频的文字检测方法的S202的示意过程，该过程包括：

B1、获取第k帧图片。

B2、识别得到第k帧图片中的h1个Roi，h1为正整数。每个Roi对应一个可能出现文字的位置，也即是一个Roi对应一组文字。该过程可以参考前述流程A1中第一文字识别模型或第二文字识别模型所执行的过程。示例的，在进行第k帧图片的识别时，当获取了h个Roi时，计算每个Roi的置信度，当任一Roi的置信度大于该Roi对应的置信度阈值，将该Roi确定为最终的Roi。从而从h个Roi中筛选出h1个更为可靠的Roi。

B3、将该第k帧图片中的文字与第k-1帧图片中出现的文字进行匹配，并将匹配成功的文字去重。假设第k-1帧图片中存在h2个Roi，h2为正整数，则流程B3包括：对于h1个Roi中每个Roi，将每个Roi的文字的特征向量分别与h2个Roi的文字的特征向量进行匹配，得到h2个距离(或相似度)，则最终确定h1个Roi与h2个Roi的h1×h2个第一距离(或相似度)。

可选地，流程B3还包括：对于h1个Roi中每个Roi，获取每个Roi的文字分别与h2个Roi的文字的特征向量的编辑距离，得到h2个编辑距离，则最终确定h1个Roi与h2个Roi的h1×h2个编辑距离。

可选地，流程B3还包括：对于h1个Roi中每个Roi，获取每个Roi的位置分别与h2个Roi的文字在该第k帧图片上的预测位置的距离(或重叠程度或相似度)，得到h2个距离，则最终确定h1个Roi与h2个Roi的h1×h2个第二距离(或重叠程度或相似度)。

基于获取的参数进行h1个Roi与h2个Roi匹配，其中获取的参数至少包括h1×h2个第一距离(或相似度)，可选地，还包括：h1×h2个编辑距离和h1×h2个第二距离(或重叠程度或相似度)中的至少一种。

当第k帧图片中的某一Roi与第k-1帧图片中的某一Roi匹配成功，确定对两者对应的相同文字目标，为相同文字目标的Roi分配同一ID。

流程B3可以参考前述流程A2中的文字匹配流程。可选地，可以将分配同一ID的多组文字仅保留一组，同步实现文字的去重。可选地，基于相同文字目标对应的ID，更新同一ID的文字对应的图片序列，同步实现文字的追踪。其中，当该文字目标首次出现，该更新过程指的是建立一个新的文字序列；当该文字目标非首次出现，该更新过程指的是在文字目标对应的图片序列添加第k帧图片的ID或坐标。

B4、更新k，使得更新后的k＝k+1。当更新后的k＞n，输出视频的文字识别结果。当更新后的k≤n，重复执行B1至B4，直至更新后的k＞n，输出视频的文字识别结果。

如图17所示，当视频的n帧图片包括图片p1和图片p2时，采用传统技术得到的文字识别结果为：与图片p1对应的“小客车”、“120”、“60”、“大型车”、“100”和“60”；以及与图片p2对应的“小客车”、“120”、“6”、“大型车”、“100”和“6”。例如，对于同一文字目标“小客车”本应该输出一组文字，采用传统技术会产生两组文字的输出。而采用本申请实施例提供的视频识别方法，由于建立了视频的图片之间特征向量的关联关系，实现了同一文字目标对应的文字的去重，因此得到的视频的文字识别结果为：“小客车”、“120”、“60”、“大型车”、“100”和“60”，避免了对应同一文字目标的相同的文字的重复出现，实现完整的文字识别结果的识别。

本申请实施例提供的视频的文字检测方法，在进行视频中文字的识别时，基于第k帧图片中文字的特征向量以及之前的图片中连续出现的文字的特征向量进行匹配，并进行匹配成功的文字的去重，如此通过视频的图片之间特征向量的关联关系，避免了文字识别结果中重复出现对应同一文字目标的相同的文字，提高了文字识别效率。

并且，在推理阶段由视觉特征向量和语义特征向量拼接为文字的一个特征向量，从而作为一个结合了低层视觉特征和高层语义特征的鲁棒特征向量，能够有效反映文字的特征，优化去重效果。

根据三元组和三元损失函数来训练初始特征生成模型可以使得训练完成的特征生成模型在推理阶段所获取的特征向量有效反映前述视频中图片的特点，准确地体现第k帧图片中文字的特征向量与第k帧图片之前的图片中文字的特征向量的相同或不同，从而提高训练得到的特征生成模型在推理阶段的效果。

本申请实施例提供的视频的文字检测方法的步骤先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

本申请实施例提供一种视频的文字检测装置70，如图18所示该装置70包括：

第一获取模块701，用于获取视频，该视频包括n帧图片，n为大于1的整数；

识别模块702，用于识别该视频的每一帧图片中的文字，获得该视频的文字识别结果，其中，该识别模块702识别该视频中第k帧图片的文字的过程包括：

获取该第k帧图片中的文字，1＜k≤n；

基于该第k帧图片中的文字的特征向量与该视频中该第k帧图片之前的图片中出现的文字的特征向量，对该第k帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配。

本申请实施例提供的文字检测装置，识别模块在进行视频中文字的识别时，基于第k帧图片中文字的特征向量以及之前的图片中连续出现的文字的特征向量进行匹配，并进行匹配成功的文字的去重，如此通过视频的图片之间特征向量的关联关系，实现了不同帧中相同文字目标的识别，从而实现视频的文字识别结果不仅仅是每帧图片的文字识别结果的汇总，还可以反映图片之间文字的关联关系，提供给用户视频的更多信息，提高用户体验。

可选地，如图19所示，该装置70还包括：

第二获取模块703，用于将该第k帧图片中文字图像输入特征生成模型，获得该第k帧图片中的文字的特征向量。

可选地，该识别模块702获取该第k帧图片中的文字，包括：根据该特征生成模型，获得该第k帧图片中的文字；或者，将该第k帧图片输入至文字识别模型，根据该文字识别模型获得该第k帧图片中的文字，其中，该文字识别模型与该特征生成模型为两个不同的人工智能AI模型。

可选地，该视频的文字识别结果包括以下结果中的一种或多种：根据该视频中的图片之间的匹配结果进行文字去重后得到的该视频的文字识别结果；根据该视频中的图片之间的匹配结果进行文字追踪后得到的该视频的文字识别结果。

可选地，文字的特征向量包括语义特征向量和视觉特征向量。

可选地，该特征生成模型为训练完成的人工智能AI模型，训练该特征生成模型采用的损失函数为三元损失函数。

可选地，如图20所示，该装置70还包括：第三获取模块704，用于在训练样本集中获取训练样本，该训练样本为文字图像，生成该训练样本对应的三元组；训练模块705，用于根据该三元组和该三元损失函数对初始特征生成模型进行训练，获得该特征生成模型。

可选地，该训练样本对应的三元组包括：该训练样本、与该训练样本相似度大于第一相似度阈值的正样本、以及与该训练样本相似度小于第二相似度阈值的负样本。

可选地，该识别模块702对该第k帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配，还包括：

基于该第k帧图片中的文字与该视频中该第k帧图片之前的图片的编辑距离，对该第k帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配；

和/或，基于该第k帧图片中的文字的位置以及该第k帧图片之前的图片中出现的文字在该第k帧图片的预测位置，对该第k帧图片中的文字与该第k帧图片之前的图片中出现的文字进行匹配。

图21为本申请实施例提供的一种部署有视频的文字检测装置70的计算设备800的硬件结构示意图，图21所示的计算设备800包括存储器801、处理器802、通信接口803以及总线804。其中，存储器801、处理器802、通信接口803通过总线804实现彼此之间的通信连接。

存储器801可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器801可以存储程序，当存储器801中存储的程序被处理器802执行时，处理器802和通信接口803用于执行视频的文字检测方法。存储器还可以存储数据集合，例如：存储器801中的一部分存储资源被划分成一个数据集存储模块106，用于存储视频的文字检测装置70所需的数据集，存储器801中的一部分存储资源被划分成一个AI模型存储模块107，用于存储AI模型库。

处理器802可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路。

处理器802还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的视频的文字检测装置70的功能可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802还可以是通用处理器、数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请下文实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请下文实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801，处理器802读取存储器801中的信息，结合其硬件完成本申请实施例的视频的文字检测装置70的功能。

通信接口803使用例如但不限于收发器一类的收发模块，来实现计算设备800与其他设备或通信网络之间的通信。例如，可以通过通信接口803获取数据集。

总线804可包括在计算设备800各个部件(例如，存储器801、处理器802、通信接口803)之间传送信息的通路。

需要说明的是：上述实施例提供的视频的文字检测装置在进行文字识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频的文字检测装置与视频的文字检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请中，术语“第一”和“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。A参考B，指的是A与B相同或者A为B的简单变形。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频的文字检测方法，其特征在于，所述方法包括：

获取视频，所述视频包括n帧图片，n为大于1的整数；

识别所述视频的每一帧图片中的文字，获得所述视频的文字识别结果，其中，识别所述视频中第k帧图片的文字的过程包括：

获取所述第k帧图片中的文字，1＜k≤n；

基于所述第k帧图片中的文字的特征向量与所述视频中所述第k帧图片之前的图片中出现的文字的特征向量，对所述第k帧图片中的文字与所述第k帧图片之前的图片中出现的文字进行匹配。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第k帧图片输入特征生成模型，获得所述第k帧图片中的文字的特征向量。

3.根据权利要求2所述的方法，其特征在于，所述获取所述第k帧图片中的文字，包括：

根据所述特征生成模型，获得所述第k帧图片中的文字；

或者，

将所述第k帧图片输入至文字识别模型，根据所述文字识别模型获得所述第k帧图片中的文字，其中，所述文字识别模型与所述特征生成模型为两个不同的人工智能AI模型。

4.根据权利要求1-3任一所述的方法，其特征在于，所述视频的文字识别结果包括以下结果中的一种或多种：根据所述视频中的图片之间的匹配结果进行文字去重后得到的所述视频的文字识别结果；根据所述视频中的图片之间的匹配结果进行文字追踪后得到的所述视频的文字识别结果。

5.根据权利要求1-4任一所述的方法，其特征在于，文字的特征向量包括语义特征向量和视觉特征向量。

6.根据权利要求1-5任一所述的方法，其特征在于，所述特征生成模型为训练完成的人工智能AI模型，训练所述特征生成模型采用的损失函数为三元损失函数。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在训练样本集中获取训练样本，所述训练样本为文字图像，生成所述训练样本对应的三元组；

根据所述三元组和所述三元损失函数对初始特征生成模型进行训练，获得所述特征生成模型。

8.根据权利要求7所述的方法，其特征在于，所述训练样本对应的三元组包括：

所述训练样本、与所述训练样本相似度大于第一相似度阈值的正样本、以及与所述训练样本相似度小于第二相似度阈值的负样本。

9.根据权利要求1-8任一所述的方法，其特征在于，对所述第k帧图片中的文字与所述第k帧图片之前的图片中出现的文字进行匹配，包括：

基于所述第k帧图片中的文字与所述视频中所述第k帧图片之前的图片的编辑距离，对所述第k帧图片中的文字与所述第k帧图片之前的图片中出现的文字进行匹配；

和/或，基于所述第k帧图片中的文字的位置以及所述第k帧图片之前的图片中出现的文字在所述第k帧图片的预测位置，对所述第k帧图片中的文字与所述第k帧图片之前的图片中出现的文字进行匹配。

10.一种视频的文字检测装置，其特征在于，所述装置包括：

第一获取模块，用于获取视频，所述视频包括n帧图片，n为大于1的整数；

识别模块，用于识别所述视频的每一帧图片中的文字，获得所述视频的文字识别结果，其中，所述识别模块识别所述视频中第k帧图片的文字的过程包括：

获取所述第k帧图片中的文字，1＜k≤n；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于将所述第k帧图片中文字图像输入特征生成模型，获得所述第k帧图片中的文字的特征向量。

12.根据权利要求11所述的装置，其特征在于，所述识别模块获取所述第k帧图片中的文字，包括：

根据所述特征生成模型，获得所述第k帧图片中的文字；

或者，

13.根据权利要求10-12任一所述的方法，其特征在于，所述视频的文字识别结果包括以下结果中的一种或多种：根据所述视频中的图片之间的匹配结果进行文字去重后得到的所述视频的文字识别结果；根据所述视频中的图片之间的匹配结果进行文字追踪后得到的所述视频的文字识别结果。

14.根据权利要求10-13任一所述的装置，其特征在于，文字的特征向量包括语义特征向量和视觉特征向量。

15.根据权利要求10-14任一所述的装置，其特征在于，所述特征生成模型为训练完成的人工智能AI模型，训练所述特征生成模型采用的损失函数为三元损失函数。

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

第三获取模块，用于在训练样本集中获取训练样本，所述训练样本为文字图像，生成所述训练样本对应的三元组；

训练模块，用于根据所述三元组和所述三元损失函数对初始特征生成模型进行训练，获得所述特征生成模型。

17.根据权利要求16所述的装置，其特征在于，所述训练样本对应的三元组包括：

18.根据权利要求10-17任一所述的装置，其特征在于，所述识别模块对所述第k帧图片中的文字与所述第k帧图片之前的图片中出现的文字进行匹配，包括：

19.一种计算设备，其特征在于，所述计算设备包括存储器和处理器，所述存储器用于存储一组计算机指令；

所述处理器执行所述存储器存储的一组计算机指令，以执行上述权利要求1至9中任一项所述的方法。

20.一种非瞬态的可读存储介质，其特征在于，所述非瞬态的可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算设备执行时，所述计算设备执行上述权利要求1至9中任一项所述的方法。

21.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码被计算设备执行时，所述计算设备执行上述权利要求1至9中任一项所述的方法。