CN115063800A

CN115063800A - 文本识别方法和电子设备

Info

Publication number: CN115063800A
Application number: CN202210982026.5A
Authority: CN
Inventors: 王章成; 赵德丽; 吕逸良; 赵永飞; 马傲
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-09-16
Anticipated expiration: 2042-08-16
Also published as: CN115063800B

Abstract

本发明公开了一种文本识别方法和电子设备。其中，该方法包括：获取待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。本申请提供的视频识别方案解决了相关技术中对视频中文本进行识别的准确度较低的技术问题。

Description

文本识别方法和电子设备

技术领域

本发明涉及文本处理领域，具体而言，涉及一种文本识别方法和电子设备。

背景技术

随着深度学习的飞速发展，文字识别（Optical Character Recognition，简称OCR）领域取得了飞速的发展，许多利用神经网络和特征提取网络的网络架构被提出，并且不断刷新各个数据集的指标，但是，目前关于视频文字识别的研究还处于初级阶段，其是将视频解帧，然后利用文本检测和跟踪的方法获取潜在的文字区域，将其退化成一个图像文字识别的问题，然后利用图像文字识别的方法进行识别，最后使用文本跟踪的信息对识别结果进行输出。但是，在这个过程中会受到视频清晰度、艺术字体、复杂背景、场景多样的影响，导致最终识别结果的准确度较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本识别方法和电子设备，以至少解决相关技术中对视频中文本进行识别的准确度较低的技术问题。

根据本发明实施例的一个方面，提供了一种文本识别方法，包括：获取待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

根据本发明实施例的另一方面，还提供了一种模型训练方法，包括：获取训练样本，其中，训练样本包含训练文本；对训练样本的原始信息进行数据增强，得到训练样本的附加信息，其中，原始信息至少包括：训练样本的三原色信息，附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息；利用初始识别模型基于原始信息和附加信息对训练样本进行文本识别，得到识别文本；基于训练文本和识别文本对初始识别模型的模型参数进行调整，得到文本识别模型。

根据本发明实施例的另一方面，还提供了一种文本识别方法，包括：获取待识别的图像，其中，待识别的图像包含待识别的文本；对待识别的图像的第一原始信息进行数据增强，得到待识别的图像的第一附加信息，其中，第一原始信息至少包括：待识别的图像的三原色信息，第一附加信息包括如下至少之一：待识别的图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对待识别的图像进行文本识别，得到待识别的文本的目标识别结果。

根据本发明实施例的另一方面，还提供了一种文本识别方法，包括：响应作用于操作界面上的输入指令，在操作界面上显示待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；响应作用于操作界面上的文本识别指令，在操作界面上显示待识别的文本的目标识别结果，其中，目标识别结果是基于目标图像的第一原始信息和第一附加信息对目标图像进行文本识别得到的识别结果，目标图像通过对待识别的视频进行采样得到，第一附加信息通过对第一原始信息进行数据增强得到，第一原始信息包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息。

根据本发明实施例的另一方面，还提供了一种文本识别方法，包括：云服务器接收客户端上传的待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；云服务器对待识别的视频进行采样，得到目标图像，其中，目标图像用于表征包含待识别的文本的图像；云服务器对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；云服务器基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果；云服务器输出目标识别结果至客户端。

根据本发明实施例的另一方面，还提供了一种文本识别方法，包括：分别获取多个图像采集设备在所处视频点位上对交通道路采集到的一段监测视频，得到多段监测视频，其中，多个图像采集设备对应的多个视频点位与交通道路相关联，视频中包含了交通道路中需要监测的至少一种车辆牌照的待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

根据本发明实施例的另一方面，还提供了一种文本识别方法，包括：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果；驱动VR设备或AR设备渲染展示目标识别结果。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项的方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：存储器，存储有可执行程序；处理器，用于运行程序，其中，程序运行时执行上述实施例中任意一项的的方法。

在本发明实施例中，首先获取待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果，实现了提高待识别的视频中文本的识别准确度，容易注意到的是，通过对目标图像的第一原始信息进行数据增强，可以增加目标图像所包含的信息，以便在对目标图像进行文本识别时，可以给予更多的信息用于识别过程，从而提高识别的精确度，进而解决了相关技术中对视频中文本进行识别的准确度较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本申请实施例的一种文本识别方法的计算机终端（或移动设备）的硬件结构框图；

图2是根据本申请实施例1的一种文本识别方法的流程图；

图3是根据本申请实施例提供的一种视频图像帧的示意图；

图4是根据本申请实施例提供的一种文本检测框的示意图；

图5是根据本申请实施例提供的一种检测后文本HSV通道可视化的示意图；

图6是根据本申请实施例提供的一种检测后文本边缘算子通道可视化的示意图；

图7是根据本申请实施例的一种训练样本频次统计的示意图；

图8是根据本申请实施例的一种字向量拆解的示意图；

图9是根据本申请实施例的一种字体复杂度分布的示意图；

图10是根据本申请实施例的一种视频文本识别的结构框图；

图11是根据本发明实施例2的一种模型训练方法的流程图；

图12是根据本发明实施例3的一种模型训练装置的示意图；

图13是根据本发明实施例4的一种文本识别方法的流程图；

图14是根据本发明实施例5的一种文本识别方法的流程图；

图15是根据本发明实施例6的一种文本识别方法的流程图；

图16是根据本发明实施例7的一种文本识别方法的流程图；

图17是根据本发明实施例8的一种文本识别装置的示意图；

图18是根据本发明实施例9的一种文本识别装置的示意图；

图19是根据本发明实施例10的一种文本识别装置的示意图；

图20是根据本发明实施例11的一种文本识别装置的示意图；

图21是根据本发明实施例12的一种文本识别装置的示意图；

图22是根据本发明实施例13的一种文本识别方法的流程图；

图23是根据本发明实施例14的一种文本识别装置的示意图；

图24是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

视频文本识别（Video-OCR）：对视频中出现的文字进行检测定位和识别输出。

路径信息（Tracklet）：通过文本跟踪生成的数据格式，主要包含文本识别内容，识别置信度，文本检测区域的位置，时间戳等信息。

RGB：由红色（Red），绿色（Green）和蓝色（Blue）三原色构成，是图像处理中最基本、最常用、面向硬件的颜色空间，比较容易理解。

HSV：由Hue（色相）、Saturation（饱和度）和Value（明度）构成，比 RGB 更接近人们对彩色的感知经验，非常直观地表达颜色的色调、鲜艳程度和明暗程度，方便进行颜色的对比。

实施例1

根据本发明实施例，还提供了一种文本识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是根据本申请实施例的一种文本识别方法的计算机终端（或移动设备）的硬件结构框图。如图1所示，计算机终端10（或移动设备10）可以包括一个或多个（图中采用102a、102b，……，102n来示出）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口（I/O接口）、通用串行总线（USB）端口（可以作为BUS总线的端口中的一个端口被包括）、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10（或移动设备）中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制（例如与接口连接的可变电阻终端路径的选择）。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的文本识别方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器（LCD），该液晶显示器可使得用户能够与计算机终端10（或移动设备）的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备（或移动设备）可以包括硬件元件（包括电路）、软件元件（包括存储在计算机可读介质上的计算机代码）、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备（或移动设备）中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的文本识别方法。图2是根据本申请实施例1的一种文本识别方法的流程图。

步骤S202，获取待识别的视频。

其中，待识别的视频中至少存在一帧图像包含有待识别的文本。

上述待识别的视频可以是包含有待识别的文本的视频，可以通过对待识别的视频进行识别，提取得到视频中的文本信息。

上述的待识别的视频可以是各种场景下的视频，可以是电视中播放的视频、视频软件中播放的视频、网页中播放的视频、城市的交通监测视频等，此处对待识别的视频不做限定。对于电视中播放的视频，其包含的待识别文本可以为台标、字幕、新闻标题等；对于视频软件中播放的视频和网页中播放的视频，其包含的待识别文本可以为字幕、弹幕、广告标语等；对于城市的交通监测视频，其包含的待识别文本可以为车辆的车牌、路上的标识牌等，其中仅作为举例，对实际视频中所包含的待识别文本的类型不做限定。

在一种可选的实施例中，待识别的视频中可以包含有复杂的背景，其中显示的文本可以为艺术字体，待识别的视频还可以是多种场景下的视频。在另一种可选的实施例中，待识别的视频中的图像中可以包含有不同种类的文本，在不同位置显示的文本。

步骤S204，对待识别的视频进行采样，得到目标图像。

其中，目标图像为视频中包含了待识别的文本的图像。

上述的目标图像可以为视频中的包含待识别文本的视频图像帧，目标图像还可以是对视频图像帧中的文本信息进行抠图得到的文本图像。

在一种可选的实施例中，可以先对待识别的视频进行解帧操作，得到多个图像帧，然后对多个图像帧进行检测，得到包含待识别的文本的图像，也即上述的目标图像。通过对待识别视频进行解帧操作，可以将视频识别转换为图像识别。可选的，可以对输入的待识别的视频以每秒钟三帧的频率进行解帧得到一个图像帧。

在另一种可选的实施例中，可以利用文本检测跟踪算法，检测出视频图像帧可能存在文本的区域，并对可能存在文本的区域进行有效合并，并过滤掉置信度较低的文本检测框，然后生成Tracklet信息，其中，多个图像帧中属于同一Tracklet的文本可以是同一类别的文本。可选的，由于同一Tracklet的位置基本上不会发生变动，一般在同一位置都会展示同一类型的文本，例如字幕处的文本类型都相同，因此，可以将多个图像帧中属于同一Tracklet的文本设置为同一类型的文本。

在另一种可选的实施例中，可以根据文本检测框对图像帧进行抠图，将图像帧中的待识别文本对应的区域作为上述的目标图像，通过减少目标图像的面积，可以进一步减少后续对目标图像进行文本识别的资源。

图3是根据本申请实施例提供的一种视频图像帧的示意图，如图3所示，视频解帧得到的视频图像帧中在多个位置都包含有文本，每个位置包含的文本类型可以不同。图4是根据本申请实施例提供的一种文本检测框的示意图，如图4所示，在利用文本检测跟踪算法检测出视频图像帧中的文本区域时，可以通过文本检测框进行框选，以便于后续的识别过程。

步骤S206，对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息。

其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息。

上述的目标图像的三原色信息可以为红、绿、蓝三原色信息。

上述的第一附加信息可以为色相信息、饱和度信息、明度信息、以及边缘信息中的任意一种或多种。

在一种可选的实施例中，在目标图像清晰的情况下，可以对目标图像的第一原始信息进行低强度的数据增强，可以将色相信息、饱和度信息、明度信息，以及边缘信息中的任意一种作为第一附加信息，以便进一步提高文本识别结果的准确度。但不限于此，还可以将其中的任意多种或全部作为第一附加信息，此处仅给出示例进行说明。

在另一种可选的实施例中，在目标图像轻微模糊的情况下，可以将色相信息、饱和度信息、明度信息以及边缘信息中的任意多种作为第一附加信息，以便能够弥补由于视频模糊导致的文本识别准确度较低的情况。但不限于此，还可以将其中的任意一种或全部作为第一附加信息，此处仅给出示例进行说明。

在另一种可选的实施例中，在目标图像非常模糊的情况下，可以将色相信息、饱和度信息、明度信息以及边缘信息全部作为第一附加信息，以便能够提高文本识别结果。但不限于此，可以根据实际情况将其中的任意一种或多种作为第一附加信息，此处仅给出示例进行说明。

上述的数据增强可以指对目标图像进行通道扩展。其中，通道可以为目标图像的图层。例如，三原色信息分别对应三个通道（即R、G、B三个通道），色相信息对应通道H，饱和度信息对应通道S，明度信息对应通道V，边缘信息对应通道边缘算子通道。

在一种可选的实施例中，可以对输入的包含有三原色信息的目标图像进行通道扩展，增加HSV通道和边缘算子通道，也即上述的第一附加信息。

通过比对HSV通道的可视化图像和边缘算子通道可视化图像，可以发现HSV和边缘算子通道所包含的信息与RGB通道所包含的信息截然不同，虽然深度学习网络强大的学习能力可以弥补一些信息差异，但是增加目标图像的信息量可以进一步的提高模型的收敛能力和模型的性能。

图5是根据本申请实施例提供的一种检测后文本HSV通道可视化的示意图，图6是根据本申请实施例提供的一种检测后文本边缘算子通道可视化的示意图，图5和图6是对目标图像中文本所处的区域进行通道扩展。

在另一种可选的实施例中，可以直接对包含有文本的视频图像帧中的第一原始信息进行数据增强，得到目标图像的第一附加信息；还可以对抠图得到的文本图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，这样可以减少数据增强的区域，从而可以减少数据增强所占用的运算资源。

步骤S208，基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

上述的目标识别结果可以为待识别的文本中包含的文本信息。

在一种可选的实施例中，可以结合第一原始信息和第一附加信息对目标图像进行文本识别，这样用于对目标图像进行文本识别的信息就会更加丰富，以便于得到的待识别的文本的目标识别结果精确度更高。

在另一种可选的实施例中，可以将通道扩展后的目标图像，也即，将包含第一原始信息和第一附加信息的目标图像输入到文本识别模型中进行预测，其中，文本识别模型可以是通过多个预先设计的损失函数来指导训练得到的，例如，文本识别模型可以为AAAI20的DBNet模型（用于文字检测的可微二值化网络），但不仅限于此，任何在图像识别领域中能够对文本进行识别的模型都可以达到上述目的。其中，多个预先设计的损失函数可以为字形相似度、字体复杂度和出现频次等相关的损失函数。

图3是对新闻视频进行采样得到的图像帧，可以对图3中的文本区域进行检测，得到包含有文本的区域，并使用文本检测框对文本区域进行标记，可以对相似度较大的多个文本检测框进行合并，得到合并后的文本检测框，呈现效果如图4所示，其中，图4可以将图像帧中的“佛山南海”、“女童微信巨额转账竟为打赏网络主播”、“她对此并没太在意”中利用文本检测框进行标注，HSV通道的可视化图像中的图像帧包含有色相信息、饱和度信息和明度信息，其中文字的清晰度较低，但是增加了其他的通道，边缘算子通道可视化图像中的图像帧包含有边缘信息，其中色彩以及其他的文字信息较为模糊，但是物体的边框信息较为明显。在实际应用过程中，会对图像帧中的文本进行抠图操作，以便确定主要进行文字识别的区域，提高识别的精确度，图7是对图像帧进行抠图之后得到的仅包含有待识别的文本的目标图像，该目标图像包含有文字的色相信息、饱和度信息和明度信息，图8是对图像帧进行抠图之后得到的仅包含有待识别的文本的目标图像，该目标图像包含有文字的边缘信息。可以结合包含有三原色信息的目标图像、包含有HSV通道的目标图像、包含有边缘信息通道的目标图像对待识别的文本进行识别，最终识别得到待识别文本为“女童微信巨额转账竟为打赏网络主播”。对于该图像帧中的其他文本可以采用同样的方式进行识别，此处不做赘述。

目前，由于视频清晰度不足、艺术字体、复杂背景、场景多样的限制，给视频识别任务带来了很大的困难，目前的Video-OCR框架均通过视频解帧将其转化为图片识别问题，通过文本检测、文本跟踪、文本识别三个模块来完成，其中，文本检测针对图像纹理信息预测可能存在文本的区域；文本跟踪对文本检测获得的文本框进行有效合并，过滤置信度低的文本框同时生成Tracklet信息；文本识别通过对文本跟踪获得的文本框进行抠图识别，然后利用文本跟踪生成Tracklet信息对识别结果进行合并输出，最终输出识别结果，在这一框架下，对于检测跟踪识别三个模块的性能要求很高，虽然目前可以利用视频时序信息对输出结果进行纠错处理，但是模型对于相似字体、复杂字体、罕见字体识别能力仍然存在一些问题。对于上述问题本申请中通过通道增强可以将更多的通道信息补充给网络进行选择，相当于给网络更多的信息先验，进而提升识别效果，另一方面，也可以进一步的提高网络的收敛速度。同时在不增加基础模型训练开销的前提下，对视频识别框架进行改进，增加了多个通道用于对视频中的图像进行处理，以便提高文本识别结果的准确度。

通过上述步骤中，首先获取待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果，实现了提高待识别的视频中文本的识别准确度，容易注意到的是，通过对目标图像的第一原始信息进行数据增强，可以增加目标图像所包含的信息，以便在对目标图像进行文本识别时，可以给予更多的信息用于识别过程，从而提高识别的精确度，进而解决了相关技术中对视频中文本进行识别的准确度较低的技术问题。

本申请上述实施例中，对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息包括如下至少之一：对第一原始信息进行空间转换，得到色相信息；对第一原始信息进行空间转换，得到饱和度信息；对第一原始信息进行空间转换，得到明度信息；对目标图像进行边缘检测，得到边缘信息。

上述的空间转换可以是对第一原始信息进行通道扩展，可选的，可以是对第一原始信息的通道信息进行拓宽。

上述的色相信息是指图像的颜色信息，色相是色彩的首要特征，是区别各种不同色彩的最准确的标准。

上述的饱和度信息是指图像颜色的浓度，饱和度越高，图像的颜色越饱满，饱和度越低，图像的颜色会显得越陈旧、惨淡。

上述的明度信息是指图像中色彩的明亮程度，也可以成为色阶和照度。

在一种可选的实施例中，可以对第一原始信息进行通道扩展，得到色相信息的通道；可以对第一原始信息进行空间转换，得到饱和度信息的通道；可以对第一原始信息进行空间转换，得到明度信息的通道；可以对目标图像进行边缘检测，得到边缘信息的通道。

本申请上述实施例中，利用文本识别模型基于第一原始信息和第一附加信息对目标图像进行文本识别，得到目标识别结果，其中，文本识别模型的损失函数是基于目标权重、训练文本和识别文本确定的，目标权重是基于训练文本的类别进行确定的，训练文本是训练样本中包含的文本，识别文本是利用文本识别模型基于训练样本的第二原始信息和第二附加信息对训练样本进行文本识别得到的文本，第二原始信息包括：训练样本的三原色信息，第二附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息。

上述的训练文本可以是训练样本中包含的准确文本，上述的识别文本可以是利用文本识别模型对训练样本的原始信息和附加信息进行文本识别得到的文本，对于不同类型的训练文本可以设置不同的目标权重，以便于后续训练过程中可以对训练困难度较大的类型对应的训练文本进行着重训练，从而可以提高文本识别模型的准确度。

本申请上述实施例中，该方法还包括：获取训练样本，其中，训练样本包含训练文本；对训练样本的原始信息进行数据增强，得到训练样本的附加信息，其中，原始信息至少包括：训练样本的三原色信息，附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息；利用初始识别模型基于原始信息和附加信息对训练样本进行文本识别，得到识别文本；基于训练文本和识别文本对初始识别模型的模型参数进行调整，得到文本识别模型。

在一种可选的实施例中，可以先获取训练样本，对训练样本的原始信息进行数据增强，以便于丰富训练样本的信息，可以利用初始识别模型根据原始信息和附加信息对训练样本进行文本识别，得到准确度较高的识别文本，然后根据训练文本和识别文本对初始识别模型的模型参数进行调整，从而得到准确度较高的初始识别模型。

本申请上述实施例中，基于训练文本和识别文本对初始识别模型的模型参数进行调整，得到文本识别模型，包括：基于训练文本的类别确定目标权重；基于目标权重、训练文本和识别文本，生成初始识别模型的损失函数；基于损失函数对初始识别模型的模型参数进行调整，得到文本识别模型。

在一种可选的实施例中，损失函数可以为交叉熵损失函数（cross-entropyloss）。原始的交叉熵损失函数可以为

，其中，

为训练文本，i为训练文本的字符总数，

为识别文本。其中，损失函数中的每个样本是多个多分类问题，每个字符是一个多分类问题，在这里为了方便观察可以将损失函数统一写成一般的分类问题形式，其中，i为batch内字符的总数，而不是batch内样本数。可以发现，在损失函数中对于每一个类别的字符都是均等对待的，因此，难以避免对于训练集中常见的字符类别以及简单的类别有更强的倾向性，对于罕见类别以及复杂字体识别能力就存在不足。

对于上述问题，本申请中考虑在损失函数中引入惩罚权重，也即上述的目标权重，将原始损失函数改写为：

，其中，

为惩罚权重。惩罚权重可以由三部分因素协调决定，其中，三部分因素分别可以为训练集样本出现频次、字体复杂度、预测结果与标签的字形相似度，最终目的是给予在训练集中出现频次少、字体复杂度高、字形相似度高的样本更大的权重，起到样本均衡和困难样本挖掘的作用。

在一种可选的实施例中，可以根据训练文本的类别确定该训练文本的目标权重，若训练文本的类别为简单类别的，例如“一”、“二”等不容易识别出错的类别，则可以设置较低的目标权重，若训练文本的类别为复杂类别的，例如“個”、“倏”等复杂度较高的类别，则可以设置较高的目标权重，以便提高文本识别模型对于复杂度较高的字体进行准确识别，可以提高目标识别结果的准确度。本申请上述实施例中，基于训练文本的类别确定目标权重，包括：确定训练样本中不同类别的训练文本的出现次数，并基于出现次数确定频次权重；确定训练样本中不同类别的训练文本的复杂程度，并基于复杂程度，确定复杂度权重；确定训练文本和识别文本的相似度，并基于相似度确定相似度权重；基于频次权重、复杂度权重和/或相似度权重，确定目标权重。

在一种可选的实施例中，可以确定训练样本中不同类别的训练文本的出现次数，可以对出现次数越低的训练文本设置更高的权重，可以对出现次数越高的训练文本设置更低的权重。

在另一种可选的实施例中，可以确定频次权重为目标权重，可以确定复杂度权重为目标权重，可以确定相似度权重为目标权重；可以根据频次权重和复杂度权重确定目标权重；可以根据复杂度权重和相似度权重确定目标权重。对于根据多个权重确定出目标权重，可以是根据多个权重的和确定出目标权重，还可以根据其他方式确定出目标权重，例如根据两个权重之间的乘积、加权和，在此不做任何限定；

在另一种可选的实施例中，可以确定训练样本中不同类别的训练文本的出现次数，对于出现次数较低的训练文本，可以设置越高的频次权重，以便对出现次数较低的训练文本进行充分的学习；可以确定训练样本中不同类别的训练文本的复杂程度，对于复杂度较高的训练文本，可以设置较高的复杂度权重，以便对复杂度较高的训练文本进行充分的学习；可以确定训练样本中不同类别的训练文本的相似度，对于相似度较高的训练文本，可以设置较高的相似度权重，以便对相似度较高的训练文本进行充分的学习。

图7是根据本申请实施例的一种训练样本频次统计的示意图，针对训练样本中的11379个字符类别统计其出现的频次，结果如图7所示，其中，横轴为类别，纵轴为出现频次，根据图7显示可以发现训练样本不均衡现象很明显，为了解决训练样本不均衡的问题，可以采用Focal loss（处理样本不均衡的损失）和Balanced-softmax loss（平衡分类损失函数）来进行处理，其中，Focal loss通过损失函数引入网络预测分类做困难样本挖掘，给予得分低的正样本和得分高的负样本更高的惩罚；其中，Balanced-softmax loss直接在softmax（二分类）时引入频次的影响，在最终输出的预测值中直接做样本均衡，但是，这两种处理方式在视频文本识别中的效果并不理想， Focal loss对于模型是有倾向性的，对于未见过的样本泛化能力不好，Balanced-softmax loss在计算预测值时强制将样本的影响均衡，但是视频文本识别的训练样本也是天然不均衡的，将训练样本中的训练文本影响均衡会导致训练样本中大量常见文本的识别能力下降。对于目前存在的问题，本申请给出了一种更好的解决方式，如下文。

可以给予训练样本中每个类别的训练文本不同的权值，根据样本均衡的思想，可以给予出现频次低的类别更高的目标权重，可以给予出现频次低的类别较低的目标权重。

本申请上述实施例中，基于出现次数确定频次权重包括：获取训练样本中所有类别文本的总出现次数；基于出现次数和总出现次数的比值，得到第一初始权重；获取第一初始权重的平均值，得到第一平均值；获取第一初始权重与第一平均值的比值，得到频次权重。

上述的第一初始权重用于表示不同类别文本出现次数的频率对应的权重。

在一种可选的实施例中，可以获取训练样本中所有类别文本的总出现次数，可以根据每个类别文本的出现次数和所有类别文本的总出现次数的比值，并将该比值的倒数乘以常数作为e的次方，从而得到第一初始权重，其中，常数可以为10，但不仅限于此，并且出现次数越高，则第一初始权重越低；出现次数越低，则第一初始权重越高。可以获取所有类别文本的第一初始权重的平均值，得到第一平均值，根据第一初始权重和第一平均值的比值，可以得到频次权重。

上述的第一初始权重可以通过如下公式进行表示：

；

其中，

为单个类别文本出现次数，

为所有类别文本的总出现次数，sum（）为求和函数。

上述的频次权重可以通过如下公式进行表示：

；

其中，

为第一初始权重，

为所有类别文本的第一初始权重的平均值。

在另一种可选的实施例中，还可以将第一初始权重直接作为上述的频次权重。

本申请上述实施例中，确定训练样本中不同类别的训练文本的复杂程度，并基于复杂程度，确定复杂度权重包括：对不同类别的训练文本进行拆解，得到不同类别的训练文本对应的目标向量；基于目标向量的长度，确定复杂程度；基于复杂程度确定第二初始权重；获取第二初始权重的平均值，得到第二平均值；获取第二初始权重与第二平均值的比值，得到复杂度权重。

上述的目标向量可以为字向量。

在一种可选的实施例中，针对于复杂字体而言，需要先明白如何定义字体的复杂程度，由于汉字的特殊性，可以根据字体的结构以及笔画对字体进行拆解，得到对应字向量，图8是根据本申请实施例的一种字向量拆解的示意图，如图8所示，分别是对“伲”、“伶”、“伸”、“個”、“倏”的字体结构以及笔画进行拆解得到的字向量，图9是根据本申请实施例的一种字体复杂度分布示意图，一般而言，越是复杂的字体，拆解成的字向量长度越长，因此可以利用拆解后的字向量长度定义字体的复杂度，如图9所示为统计的训练样本中11379类字体复杂度分布。

在另一种可选的实施例中，出于样本学习难易程度的考虑，可以给予复杂字体更高的惩罚权重，可以定义字体复杂度权重如下：

；

其中，len代表长度，

为上述的第二初始权重。

当目标向量的长度小于10，则设置第二初始权重为1.0，当目标向量的长度大于等于10且小于30，则设置第二初始权重为1.1，当目标向量的长度大于等于30，则设置第二初始权重为1.2。也就是说，训练文本对应的目标向量的长度越长，则说明该训练文本的复杂程度越高，则第二初始权重越高。

在另一种可选的实施例中，可以获取第二初始权重的平均值，得到第二平均值，并获取第二初始权重与第二平均值的比值，得到目标权重，该目标权重可以通过如下公式进行表示：

；

其中，

为第二初始权重，

为第二平均值，

为目标权重。

在又一种可选的实施例中，还可以将第二初始权重直接作为上述的目标权重。

本申请上述实施例中，确定训练文本和识别文本的相似度，并基于相似度确定相似度权重包括：分别对训练文本和识别文本进行拆解，得到训练文本对应的第一向量和识别文本对应的第二向量；获取第一向量和第二向量的编辑距离；基于第一向量的第一长度和第二向量的第二长度，确定第一长度和第二长度中的目标长度，其中，目标长度大于第一长度和第二长度中除目标长度之外的其余长度；获取编辑距离与目标长度的比值，得到相似度；获取相似度的平均值，得到第三平均值；获取相似度与第三平均值的比值，得到相似度权重。

上述的编辑距离可以用于表示第一向量和第二向量之间的相似度。

在一种可选的实施例中，可以对训练文本和识别文本进行拆解，得到训练文本和识别文本的第二向量，可以获取第一向量和第二向量的编辑距离，根据第一向量的第一长度和第二向量的第二长度，确定出第一长度和第二长度中较大的目标长度，可以获取编辑距离与目标长度的比值，得到训练文本和识别文本之间的相似度，可以获取相似度的平均值，得到第三平均值，可以获取相似度与第三平均值的比值，得到训练文本的目标权重，相似度越大，其对应的目标权重就越大，相似度越小，其对应的目标权重就越小。

上述的相似度可以通过如下公式表示：

；

其中，

为第一向量的第一长度，

为第二向量的第二长度，

为第一向量和第二向量的编辑距离。

上述的目标权重可以通过如下公式表示：

；

其中，

为第三平均值。

本申请上述实施例中，该方法包括：在交互界面中显示出现次数、复杂程度和相似度；响应于交互界面中的选择指令，基于选择指令对应的选择结果确定目标权重，其中，选择指令用于对出现次数、复杂程度和相似度进行选择。

在一种可选的实施例中，可以在交互界面中显示训练样本中训练文本的出现次数、复杂程度和相似度，用户可以根据需求在交互界面中选择通过出现次数、复杂程度和相似度中任意一项或多项来确定目标权重。

在一种可选的实施例中，可以选择将出现次数的目标权重和复杂程度的目标权重之间的均值作为训练时的最终权重，可以选择将出现次数的目标权重和相似度的目标权重之间的均值作为训练时的最终权重，可以选择将复杂程度的目标权重和相似度的目标权重之间的均值作为训练时的最终权重。

在又一种可选的实施例中，可以将出现次数的目标权重、复杂程度的目标权重和相似度的目标权重的均值作为训练时的最终权重。

本申请上述实施例中，在基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果之后，该方法包括：基于目标识别结果对待识别的视频进行检测，得到待识别的视频的检测结果，其中，检测结果用于表征待识别的视频是否满足预设条件。

上述的预设条件可以用于表示视频为合法的视频。上述的预设条件还可以是预先设置的条件。预设条件可以为根据检测需求预先设置的条件。

在一种可选的实施例中，在得到目标识别结果的基础上，可以通过Tracklet内部细粒度平滑和视频内定常短语纠错两个后处理模块对目标识别结果进行修正，最后按照Tracklet包装输出精确度较高待识别的视频的检测结果，以便通过该检测结果判断待识别的视频是否合法。

本申请上述实施例中，对待识别的视频进行采样，得到目标图像包括：对待识别的视频进行采样，得到图像帧；对图像帧进行文本检测，得到图像帧的检测结果，其中，检测结果用于表征图像帧中存在待识别的文本的检测区域；基于检测结果对图像帧进行抠图操作，得到目标图像。

在一种可选的实施例中，可以对待识别的视频进行采样，得到图像帧，可以通过文本检测模型对图像帧进行文本检测，确定出图像帧中待识别的文本的检测区域，可以根据待识别的文本的检测区域对图像帧进行抠图操作，得到包含有待识别的文本的目标图像，其中，目标图像的大部分区域可以都为待识别的文本。

本申请上述实施例中，对图像帧进行文本检测，得到图像帧的检测结果包括：对图像帧进行文本检测，得到多个检测区域；将多个检测区域与图像帧中的预设区域进行匹配，得到检测结果。

上述的预设区域可以是多个检测区域中的任意一个区域。

在一种可选的实施例中，可以对图像帧进行文本检测，得到多个可能存在文本的检测区域，可以将多个检测区域与图像帧中的预设区域进行匹配，可以根据匹配结果将相似度较大的多个检测区域进行有效合并，得到最终的检测区域，可以对最终的检测区域进行文本检测，得到检测结果。

本申请上述实施例中，检测结果还包括：检测区域的位置信息和时间戳信息，其中，基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果包括：基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的初始识别结果；基于检测区域的位置信息和时间戳信息，对初始识别结果进行纠错处理，得到目标识别结果。

在一种可选的实施例中，可以基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的初始识别结果，其中，初始识别结果是针对于单张图像进行识别的结果，若要得到准确度较高的待识别的视频的目标识别结果，则需要根据时间戳信息结合上下文信息和位置信息确定出检测区域是否发生较大的改变，可以根据改变的程度对初始识别结果进行纠错处理，从而得到准确度较高的目标识别结果。

图10是根据本申请实施例的一种视频文本识别的结构框图，首先可以对输入的视频进行解帧操作，然后将得到的图像帧输入到核心处理算法中，先识别出图像帧中存在文本的待检测区域，然后利用视频跟踪算法对多个文本检测框进行有效合并，可选的，可以对多个文本检测框进行交并比（Intersection over Union，简称为IOU）匹配，多个文本检测框大于一定阈值则认为是同一个文本检测框，可以对多个文本检测框进行合并处理，得到合并后的文本检测框，可以利用Tracklet内的检测框信息对图像帧进行抠图，然后利用HSV和边缘算子对原始RGB通道进行扩展，最后文本识别模型在字形相似度、字体复杂度和出现次数三种损失函数的训练指导下，对合并后的文本检测框中的内容进行识别，得到初始识别结果。对于初始识别结果，可以采用基于视频内部上下文信息的视频文本识别纠错算法进行后纠错处理，最终对纠错后的识别结果进行合并输出，得到目标识别结果。

目前的Video-OCR采用RGB三通道的输入，但是RGB三通道对于图像的描述能力是有限的，对于视频的色相信息、饱和度信息、明度信息和边缘信息等并不包含其中，另外现有的框架都使用交叉熵分类损失函数，均等对待每个类别的样本，因此在实际情况中，对于相似字体、复杂字体、罕见字体的识别能力不足。本申请提出了基于多通道信息增强视频文本识别，可以通过对输入进行扩展使得包含更多的输入信息，并针对相似字体、复杂字体、罕见字体三种困难样本分别设计损失函数，使得模型对困难样本具有更强的识别能力，配合后处理纠错模块，最终可以实现整体识别性能的快速提升。

从数值结果来看，通过引入多通道信息和更新损失函数，平均编辑距离下降至0.4441，句子的识别准确率提高了3.3%，字准确率提高了1.57%，其效果提升明显。本申请在不增加基础模型训练开销的前提下，探索了在Video-OCR框架中增加HSV通道和边缘算子，将其扩充成七通道，并且在网络收敛速度和识别能力上都取得了正向收益，另外，精心设计的基于字形相似度、字体复杂度和出现频次三种损失函数对网络的训练进行指导，最终达到了高效且精确的视频文本识别效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种模型训练方法的实施例，需要说明的是，在附图的流程图示出了步骤可以在诸如一组计算可执行指令计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同此处的顺序执行所示出或描述的步骤。

图11是根据本发明实施例2的一种模型训练方法的流程图，如图11所示，该方法可以包括如下步骤：

步骤S1102，获取训练样本。

其中，训练样本包含训练文本。

步骤S1104，对训练样本的原始信息进行数据增强，得到训练样本的附加信息。

其中，原始信息至少包括：训练样本的三原色信息，附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息。

步骤S1106，利用初始识别模型基于原始信息和附加信息对训练样本进行文本识别，得到识别文本。

步骤S1108，基于训练文本和识别文本对初始识别模型的模型参数进行调整，得到文本识别模型。

本申请上述实施例中，基于训练文本的类别确定目标权重，包括：确定训练样本中不同类别的训练文本的出现次数，并基于出现次数确定频次权重；确定训练样本中不同类别的训练文本的复杂程度，并基于复杂程度，确定复杂度权重；确定训练文本和识别文本的相似度，并基于相似度确定相似度权重；基于频次权重、复杂度权重和/或相似度权重，确定目标权重。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本发明实施例，还提供了一种用于实施上述模型训练方法的模型训练装置，图12是根据本发明实施例3的一种模型训练装置的示意图，如图12所示，该装置1200包括：获取模块1202、增强模块1204、识别模块1206、调整模块1208。

其中，获取模块用于获取训练样本，其中，训练样本包含训练文本；增强模块用于对训练样本的原始信息进行数据增强，得到训练样本的附加信息，其中，原始信息至少包括：训练样本的三原色信息，附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息；识别模块用于利用初始识别模型基于原始信息和附加信息对训练样本进行文本识别，得到识别文本；调整模块用于基于训练文本和识别文本对初始识别模型的模型参数进行调整，得到文本识别模型。

此处需要说明的是，获取模块1202、增强模块1204、识别模块1206、调整模块1208对应于实施例2中的步骤S1102至步骤S1108，四个模块与对应的步骤所实现的实例与应用场景相同，但不限于上述实施例1所公开的内容，需要说明的是，上述模块作为工具的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，调整模块包括：确定单元、生成单元、调整单元。

其中，确定单元用于基于训练文本的类别确定目标权重；生成单元用于基于目标权重、训练文本和识别文本，生成初始识别模型的损失函数；调整单元用于基于损失函数对初始识别模型的模型参数进行调整，得到文本识别模型。

本申请上述实施例中，确定单元还用于确定训练样本中不同类别的训练文本的出现次数，并基于出现次数确定频次权重；确定单元还用于确定训练样本中不同类别的训练文本的复杂程度，并基于复杂程度，确定复杂度权重；确定单元还用于确定训练文本和识别文本的相似度，并基于相似度确定相似度权重；确定单元还用于基于频次权重、复杂度权重和/或相似度权重，确定目标权重。

本申请上述实施例中，确定单元包括：获取子单元、生成子单元。

其中，获取子单元用于获取训练样本中所有类别文本的总出现次数；生成子单元用于基于出现次数和总出现次数的比值，得到第一初始权重；获取子单元还用于获取第一初始权重的平均值，得到第一平均值；获取子单元还用于获取第一初始权重与第一平均值的比值，得到频次权重。

本申请上述实施例中，确定单元还包括：拆解子单元、确定子单元。

其中，拆解子单元用于对不同类别的训练文本进行拆解，得到不同类别的训练文本对应的目标向量；确定子单元用于基于目标向量的长度，确定复杂程度；确定子单元还用于基于复杂程度确定第二初始权重；获取子单元还用于获取第二初始权重的平均值，得到第二平均值；获取子单元还用于获取第二初始权重与第二平均值的比值，得到复杂度权重。

本申请上述实施例中，确定子单元还用于确定训练文本和识别文本的相似度，并基于相似度确定相似度权重包括：拆解子单元还用于分别对训练文本和识别文本进行拆解，得到训练文本对应的第一向量和识别文本对应的第二向量；获取子单元还用于获取第一向量和第二向量的编辑距离；确定子单元还用于基于第一向量的第一长度和第二向量的第二长度，确定第一长度和第二长度中的目标长度，其中，目标长度大于第一长度和第二长度中除目标长度之外的其余长度；获取子单元还用于获取编辑距离与目标长度的比值，得到相似度；获取子单元还用于获取相似度的平均值，得到第三平均值；获取子单元还用于获取相似度与第三平均值的比值，得到相似度权重。

实施例4

根据本发明实施例，还提供了一种文本识别方法的实施例，需要说明的是，在附图的流程图示出了步骤可以在诸如一组计算可执行指令计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同此处的顺序执行所示出或描述的步骤。

图13是根据本发明实施例4的一种文本识别方法的流程图，如图13所示，该方法可以包括如下步骤：

步骤S1302，响应作用于操作界面上的输入指令，在操作界面上显示待识别的视频。

上述的操作界面可以为计算机终端、移动终端等的显示界面，其可以用于进行触控操作，操作界面还可以是能够通过鼠标、键盘等操作的界面。

步骤S1304，响应作用于操作界面上的文本识别指令，在操作界面上显示待识别的文本的目标识别结果。

其中，目标识别结果是基于目标图像的第一原始信息和第一附加信息对目标图像进行文本识别得到的识别结果，目标图像通过对待识别的视频进行采样得到，第一附加信息通过对第一原始信息进行数据增强得到，第一原始信息包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息。

实施例5

图14是根据本发明实施例5的一种文本识别方法的流程图，如图14所示，该方法可以包括如下步骤：

步骤S1402，云服务器接收客户端上传的待识别的视频。

步骤S1404，云服务器对待识别的视频进行采样，得到目标图像。

其中，目标图像用于表征包含待识别的文本的图像。

步骤S1406，云服务器对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息。

步骤S1408，云服务器基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

步骤S1410，云服务器输出目标识别结果至客户端。

实施例6

图15是根据本发明实施例6的一种文本识别方法的流程图，如图15所示，该方法可以包括如下步骤：

步骤S1502，分别获取多个图像采集设备在所处视频点位上对交通道路采集到的一段监测视频，得到多段监测视频。

其中，多个图像采集设备对应的多个视频点位与交通道路相关联，视频中包含了交通道路中需要监测的至少一种车辆牌照的待识别的文本。

上述的视频点位可以是多个图像采集设备对应的视频点位。

上述的监测视频可以是包含有待识别车牌的监测视频。

步骤S1504，对待识别的视频进行采样，得到目标图像。

其中，目标图像为视频中包含了待识别的文本的图像。

步骤S1506，对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息。

步骤S1508，基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

实施例7

根据本发明实施例，还提供了一种可以应用于虚拟现实VR设备、增强现实AR设备等虚拟现实场景下的文本识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图16是根据本申请实施例7的一种文本识别方法的流程图。如图16所示，该方法可以包括如下步骤：

步骤S1602，在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别的视频。

步骤S1604，对待识别的视频进行采样，得到目标图像。

其中，目标图像为视频中包含了待识别的文本的图像。

步骤S1606，对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息。

步骤S1608，基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

步骤S1610，驱动VR设备或AR设备渲染展示目标识别结果。

可选地，在本实施例中，上述文本识别方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。在虚拟现实VR设备或增强现实AR设备的呈现画面上展示目标识别结果，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。

可选地，虚拟现实设备包括：存储器、处理器和传输装置。存储器用于存储应用程序，该应用程序可以用于执行：对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果；驱动VR设备或AR设备渲染展示目标识别结果。

需要说明的是，该实施例的上述应用在VR设备或AR设备中的文本识别方法可以包括图3所示实施例的方法，以实现驱动VR设备或AR设备渲染展示目标识别结果的目的。

可选地，该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件，也可以用于上述处理器与存储器之间的数据传输。

可选地，在虚拟现实设备中，带有眼球追踪的头戴式显示器，该HMD头显中的屏幕，用于显示展示的视频画面，HMD中的眼球追踪模块，用于获取用户眼球的实时运动路径，跟踪系统，用于追踪用户在真实三维空间的位置信息与运动信息，计算处理单元，用于从跟踪系统中获取用户的实时位置与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向等。

在本申请实施例中，虚拟现实设备可以与终端相连接，终端与服务器通过网络进行连接，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端并不限定于PC、手机、平板电脑等，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。

实施例8

根据本发明实施例，还提供了一种用于实施上述文本识别方法的文本识别装置，图17是根据本发明实施例8的一种文本识别装置的示意图，如图17所示，该装置1700包括：获取模块1702、采样模块1704、增强模块1706、识别模块1708。

其中，获取模块用于获取待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；采样模块用于对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；增强模块用于对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；识别模块用于基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

此处需要说明的是，获取模块1702、采样模块1704、增强模块1706、识别模块1708对应于实施例1中的步骤S202至步骤S208，四个模块与对应的步骤所实现的实例与应用场景相同，但不限于上述实施例1所公开的内容，需要说明的是，上述模块作为工具的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，增强模块包括如下至少之一：第一转化单元、第二转化单元、第一检测单元。

其中，第一转化单元用于对第一原始信息进行空间转换，得到色相信息；第二转化单元用于对第一原始信息进行空间转换，得到饱和度信息；对第一原始信息进行空间转换，得到明度信息；检测单元，用于对目标图像进行边缘检测，得到边缘信息。

本申请上述实施例中，识别模块还用于利用文本识别模型基于第一原始信息和第一附加信息对目标图像进行文本识别，得到目标识别结果，其中，文本识别模型的损失函数是基于目标权重、训练文本和识别文本确定的，目标权重是基于训练文本的类别进行确定的，训练文本是训练样本中包含的文本，识别文本是利用文本识别模型基于训练样本的第二原始信息和第二附加信息对训练样本进行文本识别得到的文本，第二原始信息包括：训练样本的三原色信息，第二附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息。

本申请上述实施例中，该装置还包括：检测模块。

其中，检测模块用于基于目标识别结果对待识别的视频进行检测，得到待识别的视频的检测结果，其中，检测结果用于表征待识别的视频是否满足预设条件。

需要说明的是，本申请上述实施例1中涉及的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例9

根据本发明实施例，还提供了一种用于实施上述文本识别方法的文本识别装置，图18是根据本发明实施例9的一种文本识别装置的示意图，如图18所示，该装置1800包括：第一显示模块1802、第二显示模块1804。

第一显示模块，用于响应作用于操作界面上的输入指令，在操作界面上显示待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；第二显示模块用于响应作用于操作界面上的文本识别指令，在操作界面上显示待识别的文本的目标识别结果，其中，目标识别结果是基于目标图像的第一原始信息和第一附加信息对目标图像进行文本识别得到的识别结果，目标图像通过对待识别的视频进行采样得到，第一附加信息通过对第一原始信息进行数据增强得到，第一原始信息包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息。

此处需要说明的是，第一显示模块1802、第二显示模块1804对应于实施例4中的步骤S1302至步骤S1304，两个模块与对应的步骤所实现的实例与应用场景相同，但不限于上述实施例1所公开的内容，需要说明的是，上述模块作为工具的一部分可以运行在实施例1提供的计算机终端10中。

实施例10

根据本发明实施例，还提供了一种用于实施上述文本识别方法的文本识别装置，图19是根据本发明实施例10的一种文本识别装置的示意图，如图19所示，该装置1900包括：接收模块1902、采样模块1904、增强模块1906、识别模块1908、输出模块1910。

其中，接收模块用于通过云服务器接收客户端上传的待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；其中，采样模块用于通过云服务器对待识别的视频进行采样，得到目标图像，其中，目标图像用于表征包含待识别的文本的图像；增强模块用于通过云服务器对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；识别模块用于通过云服务器基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果；输出模块用于通过云服务器输出目标识别结果至客户端。

此处需要说明的是，接收模块1902、采样模块1904、增强模块1906、识别模块1908、输出模块1910对应于实施例5中的步骤S1402至步骤S1410，五个模块与对应的步骤所实现的实例与应用场景相同，但不限于上述实施例1所公开的内容，需要说明的是，上述模块作为工具的一部分可以运行在实施例1提供的计算机终端10中。

实施例11

根据本发明实施例，还提供了一种用于实施上述文本识别方法的文本识别装置，图20是根据本发明实施例11的一种文本识别装置的示意图，如图20所示，该装置2000包括：获取模块2002、采样模块2004、增强模块2006、识别模块2008。

其中，获取模块用于分别获取多个图像采集设备在所处视频点位上对交通道路采集到的一段监测视频，得到多段监测视频，其中，多个图像采集设备对应的多个视频点位与交通道路相关联，视频中包含了交通道路中需要监测的至少一种车辆牌照的待识别的文本；采样模块用于对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；增强模块用于对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；识别模块用于基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

此处需要说明的是，获取模块2002、采样模块2004、增强模块2006、识别模块2008对应于实施例6中的步骤S1502至步骤S1508，四个模块与对应的步骤所实现的实例与应用场景相同，但不限于上述实施例1所公开的内容，需要说明的是，上述模块作为工具的一部分可以运行在实施例1提供的计算机终端10中。

实施例12

根据本发明实施例，还提供了一种用于实施上述文本识别方法的文本识别装置，图21是根据本发明实施例12的一种文本识别装置的示意图，如图21所示，该装置2100包括：展示模块2102、采样模块2104、增强模块2106、识别模块2108、驱动模块2110。

其中，展示模块用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；采样模块用于对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；增强模块用于对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；识别模块用于基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果；驱动模块用于驱动VR设备或AR设备渲染展示目标识别结果。

此处需要说明的是，展示模块2102、采样模块2104、增强模块2106、识别模块2108、驱动模块2110对应于实施例7中的步骤S1602至步骤S1610，五个模块与对应的步骤所实现的实例与应用场景相同，但不限于上述实施例1所公开的内容，需要说明的是，上述模块作为工具的一部分可以运行在实施例1提供的计算机终端10中。

实施例13

图22是根据本发明实施例13的一种文本识别方法的流程图，如图22所示，该方法可以包括如下步骤：

步骤S2202，获取待识别的图像。

其中，待识别的图像包含待识别的文本。

步骤S2204，对待识别的图像的第一原始信息进行数据增强，得到待识别的图像的第一附加信息。

其中，第一原始信息至少包括：待识别的图像的三原色信息，第一附加信息包括如下至少之一：待识别的图像的色相信息、饱和度信息、明度信息和边缘信息；

步骤S2206，基于第一原始信息和第一附加信息对待识别的图像进行文本识别，得到待识别的文本的目标识别结果。

实施例14

根据本发明实施例，还提供了一种用于实施上述文本识别方法的文本识别装置，图23是根据本发明实施例14的一种文本识别装置的示意图，如图23所示，该装置2300包括：获取模块2302、增强模块2304、识别模块2306。

其中，获取模块用于获取待识别的图像，其中，待识别的图像包含待识别的文本；增强模块用于对待识别的图像的第一原始信息进行数据增强，得到待识别的图像的第一附加信息，其中，第一原始信息至少包括：待识别的图像的三原色信息，第一附加信息包括如下至少之一：待识别的图像的色相信息、饱和度信息、明度信息和边缘信息；识别模块用于基于第一原始信息和第一附加信息对待识别的图像进行文本识别，得到待识别的文本的目标识别结果。

此处需要说明的是，获取模块2302、增强模块2304、识别模块2306对应于实施例13中的步骤S2202至步骤S2206，三个模块与对应的步骤所实现的实例与应用场景相同，但不限于上述实施例1所公开的内容，需要说明的是，上述模块作为工具的一部分可以运行在实施例1提供的计算机终端10中。

实施例15

本发明的实施例可以提供一种电子设备，其中，该电子设备可以为计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的文本识别方法中以下步骤的程序代码：获取待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

可选地，图24是根据本发明实施例的一种计算机终端的结构框图。如图24所示，该计算机终端A可以包括：一个或多个（图中仅示出一个）处理器、存储器。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

可选的，上述处理器还可以执行如下步骤的程序代码：对第一原始信息进行空间转换，得到色相信息；对第一原始信息进行空间转换，得到饱和度信息；对第一原始信息进行空间转换，得到明度信息；对目标图像进行边缘检测，得到边缘信息。

可选的，上述处理器还可以执行如下步骤的程序代码：利用文本识别模型基于第一原始信息和第一附加信息对目标图像进行文本识别，得到目标识别结果，其中，文本识别模型的损失函数是基于目标权重、训练文本和识别文本确定的，目标权重是基于训练文本的类别进行确定的，训练文本是训练样本中包含的文本，识别文本是利用文本识别模型基于训练样本的第二原始信息和第二附加信息对训练样本进行文本识别得到的文本，第二原始信息包括：训练样本的三原色信息，第二附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息。

可选的，上述处理器还可以执行如下步骤的程序代码：基于目标识别结果对待识别的视频进行检测，得到待识别的视频的检测结果，其中，检测结果用于表征待识别的视频是否满足预设条件。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取训练样本，其中，训练样本包含训练文本；对训练样本的原始信息进行数据增强，得到训练样本的附加信息，其中，原始信息至少包括：训练样本的三原色信息，附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息；利用初始识别模型基于原始信息和附加信息对训练样本进行文本识别，得到识别文本；基于训练文本和识别文本对初始识别模型的模型参数进行调整，得到文本识别模型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于训练文本的类别确定目标权重；基于目标权重、训练文本和识别文本，生成初始识别模型的损失函数；基于损失函数对初始识别模型的模型参数进行调整，得到文本识别模型。

可选的，上述处理器还可以执行如下步骤的程序代码：确定训练样本中不同类别的训练文本的出现次数，并基于出现次数确定频次权重；确定训练样本中不同类别的训练文本的复杂程度，并基于复杂程度，确定复杂度权重；确定训练文本和识别文本的相似度，并基于相似度确定相似度权重；基于频次权重、复杂度权重和/或相似度权重，确定目标权重。

可选的，上述处理器还可以执行如下步骤的程序代码：获取训练样本中所有类别文本的总出现次数；基于出现次数和总出现次数的比值，得到第一初始权重；获取第一初始权重的平均值，得到第一平均值；获取第一初始权重与第一平均值的比值，得到频次权重。

可选的，上述处理器还可以执行如下步骤的程序代码：对不同类别的训练文本进行拆解，得到不同类别的训练文本对应的目标向量；基于目标向量的长度，确定复杂程度；基于复杂程度确定第二初始权重；获取第二初始权重的平均值，得到第二平均值；获取第二初始权重与第二平均值的比值，得到复杂度权重。

可选的，上述处理器还可以执行如下步骤的程序代码：分别对训练文本和识别文本进行拆解，得到训练文本对应的第一向量和识别文本对应的第二向量；获取第一向量和第二向量的编辑距离；基于第一向量的第一长度和第二向量的第二长度，确定第一长度和第二长度中的目标长度，其中，目标长度大于第一长度和第二长度中除目标长度之外的其余长度；获取编辑距离与目标长度的比值，得到相似度；获取相似度的平均值，得到第三平均值；获取相似度与第三平均值的比值，得到相似度权重。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待识别的图像，其中，待识别的图像包含待识别的文本；对待识别的图像的第一原始信息进行数据增强，得到待识别的图像的第一附加信息，其中，第一原始信息至少包括：待识别的图像的三原色信息，第一附加信息包括如下至少之一：待识别的图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对待识别的图像进行文本识别，得到待识别的文本的目标识别结果。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：云服务器接收客户端上传的待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；云服务器对待识别的视频进行采样，得到目标图像，其中，目标图像用于表征包含待识别的文本的图像；云服务器对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；云服务器基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果；云服务器输出目标识别结果至客户端。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：分别获取多个图像采集设备在所处视频点位上对交通道路采集到的一段监测视频，得到多段监测视频，其中，多个图像采集设备对应的多个视频点位与交通道路相关联，视频中包含了交通道路中需要监测的至少一种车辆牌照的待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果；驱动VR设备或AR设备渲染展示目标识别结果。

采用本发明实施例，首先获取待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果，实现了提高待识别的视频中文本的识别准确度，容易注意到的是，通过对目标图像的第一原始信息进行数据增强，可以增加目标图像所包含的信息，以便在对目标图像进行文本识别时，可以给予更多的信息用于识别过程，从而提高识别的精确度，进而解决了相关技术中对视频中文本进行识别的准确度较低的技术问题。

本领域普通技术人员可以理解，图24所示的结构仅为示意，计算机终端也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌声电脑以及移动互联网设备（MobileInternet Devices，MID）、PAD等终端设备。图24其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图24中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图24所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

实施例16

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的文本识别方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：对第一原始信息进行空间转换，得到色相信息；对第一原始信息进行空间转换，得到饱和度信息；对第一原始信息进行空间转换，得到明度信息；对目标图像进行边缘检测，得到边缘信息。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用文本识别模型对第一原始信息和第一附加信息进行文本识别，得到目标识别结果，其中，文本识别模型的损失函数是基于目标权重、训练文本和识别文本确定的，目标权重是基于训练文本的类别进行确定的，训练文本是训练样本中包含的文本，识别文本是利用文本识别模型对训练样本的第二原始信息和第二附加信息进行文本识别得到的文本，第二原始信息包括：训练样本的三原色信息，第二附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用文本识别模型基于第一原始信息和第一附加信息对目标图像进行文本识别，得到目标识别结果，其中，文本识别模型的损失函数是基于目标权重、训练文本和识别文本确定的，目标权重是基于训练文本的类别进行确定的，训练文本是训练样本中包含的文本，识别文本是利用文本识别模型基于训练样本的第二原始信息和第二附加信息对训练样本进行文本识别得到的文本，第二原始信息包括：训练样本的三原色信息，第二附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于目标识别结果对待识别的视频进行检测，得到待识别的视频的检测结果，其中，检测结果用于表征待识别的视频是否满足预设条件。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取训练样本，其中，训练样本包含训练文本；对训练样本的原始信息进行数据增强，得到训练样本的附加信息，其中，原始信息至少包括：训练样本的三原色信息，附加信息包括如下至少之一：训练样本的色相信息、饱和度信息、明度信息和边缘信息；利用初始识别模型基于原始信息和附加信息对训练样本进行文本识别，得到识别文本；基于训练文本和识别文本对初始识别模型的模型参数进行调整，得到文本识别模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于训练文本的类别确定目标权重；基于目标权重、训练文本和识别文本，生成初始识别模型的损失函数；基于损失函数对初始识别模型的模型参数进行调整，得到文本识别模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：确定训练样本中不同类别的训练文本的出现次数，并基于出现次数确定频次权重；确定训练样本中不同类别的训练文本的复杂程度，并基于复杂程度，确定复杂度权重；确定训练文本和识别文本的相似度，并基于相似度确定相似度权重；基于频次权重、复杂度权重和/或相似度权重，确定目标权重。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取训练样本中所有类别文本的总出现次数；基于出现次数和总出现次数的比值，得到第一初始权重；获取第一初始权重的平均值，得到第一平均值；获取第一初始权重与第一平均值的比值，得到频次权重。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：对不同类别的训练文本进行拆解，得到不同类别的训练文本对应的目标向量；基于目标向量的长度，确定复杂程度；基于复杂程度确定第二初始权重；获取第二初始权重的平均值，得到第二平均值；获取第二初始权重与第二平均值的比值，得到复杂度权重。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：分别对训练文本和识别文本进行拆解，得到训练文本对应的第一向量和识别文本对应的第二向量；获取第一向量和第二向量的编辑距离；基于第一向量的第一长度和第二向量的第二长度，确定第一长度和第二长度中的目标长度，其中，目标长度大于第一长度和第二长度中除目标长度之外的其余长度；获取编辑距离与目标长度的比值，得到相似度；获取相似度的平均值，得到第三平均值；获取相似度与第三平均值的比值，得到相似度权重。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待识别的图像，其中，待识别的图像包含待识别的文本；对待识别的图像的第一原始信息进行数据增强，得到待识别的图像的第一附加信息，其中，第一原始信息至少包括：待识别的图像的三原色信息，第一附加信息包括如下至少之一：待识别的图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对待识别的图像进行文本识别，得到待识别的文本的目标识别结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：云服务器接收客户端上传的待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；云服务器对待识别的视频进行采样，得到目标图像，其中，目标图像用于表征包含待识别的文本的图像；云服务器对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；云服务器基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果；云服务器输出目标识别结果至客户端。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：分别获取多个图像采集设备在所处视频点位上对交通道路采集到的一段监测视频，得到多段监测视频，其中，多个图像采集设备对应的多个视频点位与交通道路相关联，视频中包含了交通道路中需要监测的至少一种车辆牌照的待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别的视频，其中，待识别的视频中至少存在一帧图像包含有待识别的文本；对待识别的视频进行采样，得到目标图像，其中，目标图像为视频中包含了待识别的文本的图像；对目标图像的第一原始信息进行数据增强，得到目标图像的第一附加信息，其中，第一原始信息至少包括：目标图像的三原色信息，第一附加信息包括如下至少之一：目标图像的色相信息、饱和度信息、明度信息和边缘信息；基于第一原始信息和第一附加信息对目标图像进行文本识别，得到待识别的文本的目标识别结果；驱动VR设备或AR设备渲染展示目标识别结果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本识别方法，其特征在于，包括：

获取待识别的视频，其中，所述待识别的视频中至少存在一帧图像包含有待识别的文本；

对所述待识别的视频进行采样，得到目标图像，其中，所述目标图像为所述视频中包含了所述待识别的文本的图像；

对所述目标图像的第一原始信息进行数据增强，得到所述目标图像的第一附加信息，其中，所述第一原始信息至少包括：所述目标图像的三原色信息，所述第一附加信息包括如下至少之一：所述目标图像的色相信息、饱和度信息、明度信息和边缘信息；

基于所述第一原始信息和所述第一附加信息对所述目标图像进行文本识别，得到所述待识别的文本的目标识别结果。

2.根据权利要求1所述的方法，其特征在于，对所述目标图像的第一原始信息进行数据增强，得到所述目标图像的第一附加信息包括如下至少之一：

对所述第一原始信息进行空间转换，得到所述色相信息；

对所述第一原始信息进行空间转换，得到所述饱和度信息；

对所述第一原始信息进行空间转换，得到所述明度信息；

对所述目标图像进行边缘检测，得到所述边缘信息。

3.根据权利要求1所述的方法，其特征在于，基于所述第一原始信息和所述第一附加信息对所述目标图像进行文本识别，得到所述待识别的文本的目标识别结果包括：

利用文本识别模型基于所述第一原始信息和所述第一附加信息对所述目标图像进行文本识别，得到所述目标识别结果，其中，所述文本识别模型的损失函数是基于目标权重、训练文本和识别文本确定的，所述目标权重是基于所述训练文本的类别进行确定的，所述训练文本是训练样本中包含的文本，所述识别文本是利用所述文本识别模型基于所述训练样本的第二原始信息和第二附加信息对所述训练样本进行文本识别得到的文本，所述第二原始信息包括：所述训练样本的三原色信息，所述第二附加信息包括如下至少之一：所述训练样本的色相信息、饱和度信息、明度信息和边缘信息。

4.根据权利要求1所述的方法，其特征在于，在基于所述第一原始信息和所述第一附加信息对所述目标图像进行文本识别，得到所述待识别的文本的目标识别结果之后，所述方法包括：

基于所述目标识别结果对所述待识别的视频进行检测，得到所述待识别的视频的检测结果，其中，所述检测结果用于表征所述待识别的视频是否满足预设条件。

5.一种模型训练方法，其特征在于，包括：

获取训练样本，其中，所述训练样本包含训练文本；

对所述训练样本的原始信息进行数据增强，得到所述训练样本的附加信息，其中，所述原始信息至少包括：所述训练样本的三原色信息，所述附加信息包括如下至少之一：所述训练样本的色相信息、饱和度信息、明度信息和边缘信息；

利用初始识别模型基于所述原始信息和所述附加信息对所述训练样本进行文本识别，得到识别文本；

基于所述训练文本和所述识别文本对初始识别模型的模型参数进行调整，得到文本识别模型。

6.根据权利要求5所述的方法，其特征在于，基于所述训练文本和所述识别文本对初始识别模型的模型参数进行调整，得到文本识别模型，包括：

基于所述训练文本的类别确定目标权重；

基于所述目标权重、所述训练文本和所述识别文本，生成所述初始识别模型的损失函数；

基于所述损失函数对所述初始识别模型的模型参数进行调整，得到所述文本识别模型。

7.根据权利要求6所述的方法，其特征在于，基于所述训练文本的类别确定目标权重，包括：

确定所述训练样本中不同类别的训练文本的出现次数，并基于所述出现次数确定频次权重；

确定所述训练样本中所述不同类别的训练文本的复杂程度，并基于所述复杂程度，确定复杂度权重；

确定所述训练文本和所述识别文本的相似度，并基于所述相似度确定相似度权重；

基于所述频次权重、所述复杂度权重和/或所述相似度权重，确定所述目标权重。

8.根据权利要求7所述的方法，其特征在于，基于所述出现次数确定所述频次权重包括：

获取所述训练样本中所有类别文本的总出现次数；

基于所述出现次数和所述总出现次数的比值，得到第一初始权重；

获取所述第一初始权重的平均值，得到第一平均值；

获取所述第一初始权重与所述第一平均值的比值，得到所述频次权重。

9.根据权利要求7所述的方法，其特征在于，确定所述训练样本中所述不同类别的训练文本的复杂程度，并基于所述复杂程度，确定复杂度权重包括：

对所述不同类别的训练文本进行拆解，得到所述不同类别的训练文本对应的目标向量；

基于所述目标向量的长度，确定所述复杂程度；

基于所述复杂程度确定第二初始权重；

获取所述第二初始权重的平均值，得到第二平均值；

获取所述第二初始权重与所述第二平均值的比值，得到所述复杂度权重。

10.根据权利要求7所述的方法，其特征在于，确定所述训练文本和所述识别文本的相似度，并基于所述相似度确定相似度权重包括：

分别对所述训练文本和所述识别文本进行拆解，得到所述训练文本对应的第一向量和所述识别文本对应的第二向量；

获取所述第一向量和所述第二向量的编辑距离；

基于所述第一向量的第一长度和所述第二向量的第二长度，确定所述第一长度和所述第二长度中的目标长度，其中，所述目标长度大于所述第一长度和所述第二长度中除所述目标长度之外的其余长度；

获取所述编辑距离与所述目标长度的比值，得到所述相似度；

获取所述相似度的平均值，得到第三平均值；

获取所述相似度与所述第三平均值的比值，得到所述相似度权重。

11.一种文本识别方法，其特征在于，包括：

获取待识别的图像，其中，所述待识别的图像包含待识别的文本；

对所述待识别的图像的第一原始信息进行数据增强，得到所述待识别的图像的第一附加信息，其中，所述第一原始信息至少包括：所述待识别的图像的三原色信息，所述第一附加信息包括如下至少之一：所述待识别的图像的色相信息、饱和度信息、明度信息和边缘信息；

基于所述第一原始信息和所述第一附加信息对所述待识别的图像进行文本识别，得到所述待识别的文本的目标识别结果。

12.一种文本识别方法，其特征在于，包括：

云服务器接收客户端上传的待识别的视频，其中，所述待识别的视频中至少存在一帧图像包含有待识别的文本；

所述云服务器对所述待识别的视频进行采样，得到目标图像，其中，所述目标图像用于表征包含所述待识别的文本的图像；

所述云服务器对所述目标图像的第一原始信息进行数据增强，得到所述目标图像的第一附加信息，其中，所述第一原始信息至少包括：所述目标图像的三原色信息，所述第一附加信息包括如下至少之一：所述目标图像的色相信息、饱和度信息、明度信息和边缘信息；

所述云服务器基于所述第一原始信息和所述第一附加信息对所述目标图像进行文本识别，得到所述待识别的文本的目标识别结果；

所述云服务器输出所述目标识别结果至所述客户端。

13.一种文本识别方法，其特征在于，包括：

分别获取多个图像采集设备在所处视频点位上对交通道路采集到的一段监测视频，得到多段监测视频，其中，所述多个图像采集设备对应的多个所述视频点位与所述交通道路相关联，所述视频中包含了所述交通道路中需要监测的至少一种车辆牌照的待识别的文本；

14.一种文本识别方法，其特征在于，包括：

在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别的视频，其中，所述待识别的视频中至少存在一帧图像包含有待识别的文本；

基于所述第一原始信息和所述第一附加信息对所述目标图像进行文本识别，得到所述待识别的文本的目标识别结果；

驱动所述VR设备或所述AR设备渲染展示所述目标识别结果。

15.一种电子设备，其特征在于，包括：

存储器，存储有可执行程序；

处理器，用于运行所述程序，其中，所述程序运行时执行权利要求1至14中任意一项所述的方法。