CN111563502B

CN111563502B - 图像的文本识别方法、装置、电子设备及计算机存储介质

Info

Publication number: CN111563502B
Application number: CN202010387657.3A
Authority: CN
Inventors: 徐培; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2023-12-15
Anticipated expiration: 2040-05-09
Also published as: CN111563502A

Abstract

本申请提供了一种图像的文本识别方法、装置、电子设备及计算机可读存储介质，涉及图像处理领域。该方法包括：接收待检测图像；调用训练后的字符识别模型对待检测图像进行处理，或将待检测图像输入字符识别模型中，使得字符识别模型基于预设的锚框参数中的倾斜角度，在待检测图像中生成具有互不相同的倾斜角度的至少两个锚框；基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域；识别出待识别区域中的至少一个关键字字符，并对待识别区域和各个关键字字符进行掩膜处理，以生成待识别区域和各个关键字字符的标注信息；将识别出的各个关键字字符和各个标注信息在待检测图像中进行展示。本申请有效提高了字符识别精度。

Description

图像的文本识别方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本申请涉及一种图像的文本识别方法、装置、电子设备及计算机可读存储介质。

背景技术

现有的关键词检索技术主要以根据字符串检索(QbS，Query by String)为主，根据字符串检索的关键词定位工作又可以大致分为两类：基于分割的方法和不基于分割的方法。

基于分割的方法需要首先对所有单词进行分割，然后将单词特征向量和查询转换为相同的空间嵌入。例如，将分割后的单词图像和文本串嵌入到一个共同的矢量子空间中，这是通过标签嵌入和属性学习的组合以及子空间回归实现的，如图1所示。

基于分割的方法能够处理大量关键词。然而，这些方法受限于分割的准确性，在中文关键词定位问题里会更严重。在中文文本中，分词是一项具有挑战性的任务，因为词之间没有视觉空白，汉语中文本行里的词通常只能通过语义意义来分开。因此，现有的基于分割的方法不适合于中文关键词的定位。

不基于分割的方法通常会从整图产生很多候选区域，然后，这些候选区域与查询字符串匹配。例如，从整图产生所有的单词框并对该单词进行分类识别，如图2所示。

不基于分割的方法不需要切分出所有单词，但这些方法的主要缺点是会在整图产生大量候选区域，导致虚警较多，且计算效率较低。

进一步，现有的关键词检索技术大多应用在英文领域，在中文关键词识别上尚无较好地应用，中文关键词识别存在如下问题：

在使用OCR(Optical Character Recognition，光学字符识别)对图像中的字符进行检测与识别时，密集倾斜长文本和混排大角度文本行的字符识别是常见的解决难点。

发明内容

本申请提供了一种图像的文本识别方法、装置、电子设备及计算机可读存储介质，可以解决上述问题。所述技术方案如下：

第一方面，提供了一种图像的文本识别方法，该方法包括：

接收待检测图像；所述待检测图像包括至少一个关键字字符；

调用训练后的字符识别模型对所述待检测图像进行处理，或将所述待检测图像输入所述字符识别模型中，以使得所述字符识别模型基于预设的锚框参数中的倾斜角度，在所述待检测图像中生成具有互不相同的倾斜角度的至少两个锚框；

基于倾斜角度互不相同的各个锚框确定出图像中的待识别区域；

识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息；

将识别出的各个关键字字符和各个标注在所述待检测图像中进行展示。

优选地，所述基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区，包括：

从所述待检测图像中提取得到特征图，以及基于倾斜角度互不相同的各个锚框确定出候选待识别区域；

从所述特征图中提取出所述候选待识别区域对应的感兴趣旋转区域特征；

基于所述感兴趣旋转区域特征从所述候选待识别区域中确定出最终的包含至少一个关键字字符的待识别区域。

优选地，所述锚框参数还包括锚框的长高比、第一顶点坐标、第二顶点坐标以及高度；

所述基于倾斜角度互不相同的各个锚框确定出候选待识别区域，包括：

将所述倾斜角度互不相同的各个锚框对应的区域均作为候选待识别区域。

优选地，所述字符识别模型包括分类回归分支；

所述基于所述感兴趣旋转区域特征从所述候选待识别区域中确定出最终的包含至少一个关键字字符的待识别区域，包括：

通过所述分类回归分支对各个锚框进行是否包含字符的二分类，以及对各个锚框的第一顶点坐标、第二顶点坐标和高度进行偏移量的回归，确定出包含字符的目标锚框，并基于所述目标锚框对应区域确定出最终的包含至少一个关键字字符的待识别区域。

优选地，所述关键字字符包括文本字符，所述字符识别模型还包括文本字符实例分割分支；

对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域标注信息，包括：

通过所述文本字符实例分割分支生成与所述待识别区域对应的文本实例分割掩膜；

将文本实例分割掩膜与所述待识别区域进行掩膜处理，确定出各个文本字符的位置；

基于各个文本字符的位置确定出当前文本行的位置，并对当前文本行的位置对应的区域进行标注。

优选地，所述字符识别模型还包括至少两个关键字字符实例分割分支，每个关键字字符实例分割分支具有各自对应的关键字字符类别集合；

所述识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息，包括：

通过各个关键字字符实例分割分支生成各自对应的关键字实例分割掩膜；各个关键字实例分割掩膜均与所述待识别区域对应；

将多个关键字实例分割掩膜分别与文本区域进行掩膜处理，确定出每个关键字字符实例分割分支中各个关键字字符的位置；

对各个位置的文本字符进行识别，确定出各个关键字字符实例分割分支中各个关键字字符的类别；

基于预设的映射关系确定出各个类别各自映射的关键字字符，并对各个关键字字符进行标注；其中，映射关系为关键字字符与关键字字符的类别的对应关系。

优选地，所述字符识别模型通过如下方式训练：

针对具有真实标注的样本图像，采用第一方面所述的图像的文本识别方法，确定出所述样本图像中待识别区域和各个关键字字符的预测标注；其中，所述真实标注为所述样本图像中待识别区域和各个关键字字符的真实标注；

基于所述真实标注和所述预测标注确定出所述分类回归分支的第一损失函数、所述文本字符实例分割分支的第二损失函数，以及各个关键字字符实例分割分支的第三损失函数；

基于所述第一损失函数、第二损失函数以及各个第三损失函数确定出所述字符识别模型的总损失函数；

基于预设的学习率采用反向梯度传播对所述字符识别模型进行迭代，直至所述总损失函数满足所述学习率，得到训练后的字符识别模型。

第二方面，提供了一种图像的文本识别装置，该装置包括：

接收模块，用于接收待检测图像；所述待检测图像包括至少一个关键字字符；

第一处理模块，用于调用训练后的字符识别模型对所述待检测图像进行处理，或将所述待检测图像输入所述字符识别模型中，以使得所述字符识别模型基于预设的锚框参数中的倾斜角度，在所述待检测图像中生成具有互不相同的倾斜角度的至少两个锚框；

确定模块，用于基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域；

第二处理模块，用于识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息；

展示模块，用于将识别出的各个关键字字符和各个标注在所述待检测图像中进行展示。

优选地，所述确定模块包括：

提取子模块，用于从所述待检测图像中提取得到特征图；

候选待识别区域确定子模块，用于基于倾斜角度互不相同的各个锚框确定出候选待识别区域；

所述提取子模块，还用于从所述特征图中提取出所述候选待识别区域对应的感兴趣旋转区域特征；

待识别区域确定子模块，用于基于所述感兴趣旋转区域特征从所述候选待识别区域中确定出最终的包含至少一个关键字字符的待识别区域。

所述候选待识别区域确定子模块具体用于：

优选地，所述字符识别模型包括分类回归分支；

所述待识别区域确定子模块具体用于：

优选地，所述字符包括文本字符，所述字符识别模型还包括文本字符实例分割分支；

第二处理模块包括：

掩膜生成子模块，用于通过所述文本字符实例分割分支生成与所述待识别区域对应的文本实例分割掩膜；

字符位置确定子模块，用于将文本实例分割掩膜与所述待识别区域进行掩膜处理，确定出各个文本字符的位置；

文本行位置确定子模块，用于基于各个文本字符的位置确定出当前文本行的位置；

标注子模块，用于对当前文本行的位置对应的区域进行标注。

优选地，所述字符包括关键字字符，所述字符识别模型还包括至少两个关键字字符实例分割分支，每个关键字字符实例分割分支具有各自对应的关键字字符类别集合；

所述第二处理模块包括：

所述掩膜生成子模块，还用于通过各个关键字字符实例分割分支生成各自对应的关键字实例分割掩膜；各个关键字实例分割掩膜均与所述待识别区域对应；

所述字符位置确定子模块，还用于将多个关键字实例分割掩膜分别与文本区域进行掩膜处理，确定出每个关键字字符实例分割分支中各个关键字字符的位置；

字符类别确定子模块，用于对各个位置的文本字符进行识别，确定出各个关键字字符实例分割分支中各个关键字字符的类别；

字符确定子模块，用于基于预设的映射关系确定出各个类别各自映射的关键字字符；

所述标注子模块，还用于对各个关键字字符进行标注；其中，映射关系为关键字字符与关键字字符的类别的对应关系。

优选地，所述字符识别模型通过如下方式训练：

第三方面，处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，可执行指令使处理器执行如本申请的第一方面所示的图像的文本识别方法对应的操作。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的图像的文本识别方法。

本申请提供的技术方案带来的有益效果是：

接收待检测图像，待检测图像包括至少一个关键字字符；调用训练后的字符识别模型对所述待检测图像进行处理，或将所述待检测图像输入所述字符识别模型中，以使得所述字符识别模型基于预设的锚框参数中的倾斜角度，在所述待检测图像中生成具有互不相同的倾斜角度的至少两个锚框，然后基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域，再识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息，以及将识别出的各个关键字字符和各个标注在待检测图像中进行展示。由于采用了具有倾斜角度的锚框来检测包含字符的区域，有效解决了密集倾斜和混排大角度文本行的字符检测难点，有效提高了密集倾斜长文本和混排大角度文本行的字符识别精度，这种关键字字符检测能和线上OCR系统实现很好地互补，在图片文字高对抗场景能够较好地应对快速变异的对抗文字类型。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为现有技术中根据字符串检索的逻辑流程一；

图2为现有技术中根据字符串检索的逻辑流程二；

图3为本申请一个实施例提供的一种图像的文本识别方法的流程示意图；

图4为现有技术中生成多个anchor的效果示意图；

图5A～5B为待检测图像的示意图，以及现有技术中生成anchor的效果示意图；

图6为本申请中生成不同倾斜角度的anchor的效果示意图；

图7为本申请中针对图5A生成anchor的效果示意图；

图8为本申请中各个anchor参数的示意图；

图9A～9B为NMS过滤的效果示意图；

图10为掩膜运算的效果示意图；

图11为本申请中字符框缩放的效果示意图；

图12A～12B为本申请中针对图5A检测后的效果示意图；

图13为本申请的一种图像的文本识别方法的流程示意图一；

图14为本申请的一种图像的文本识别方法的流程示意图二；

图15为本申请又一实施例提供的一种图像的文本识别装置的结构示意图；

图16为本申请又一实施例提供的一种图像的文本识别的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

应用于本申请的图像的文本识别方法中，可以先基于计算机视觉技术、自然语言处理技术以及机器学习对预设的字符识别模型进行训练，然后通过训练后的字符识别模型对图像进行处理。

具体而言，本申请中的字符识别模型可以设置多个分支：分类回归分支，用于确定出图像中的待识别区域；文本字符实例分割分支，用于对待识别区域进行标注，并识别出待识别区域中的文本字符；至少两个关键字字符实例分割分支，用于识别出待识别区域中的至少一个关键字字符，并对各个关键字字符进行标注。

进一步，本申请中可以设置至少一个字符库，字符库中包含字符、字符类别，以及字符与字符类别的一一映射关系，也就是说，字符库中字符的数量与字符类别的数量是相同的。而且，字符库支持动态增加、删除、修改字符，使得用户可以对字符库进行动态自定义。

其中，字符类别可以设置为数字，比如，类别“1”映射的字符为“我”，类别“2”映射的字符为“你”等等。当然，字符类别除了可以设置为数字，也可以设置为其它形式的类别，在实际应用中可以根据实际情况进行设置，本申请对此不作限制。

更进一步，在本申请中，由于可以设置n个关键字字符实例分割分支，所以，可以将字符库中的字符类别数量K平均分配给每个关键字字符实例分割分支，每一个关键字字符实例分割分支只负责学习K/n个字符类别，计算复杂度从乘法降为加法，学习难度也大大降低。比如，字符库中有5000(K)个字符类别，关键字字符实例分割分支的数量为5(n)，那么每个关键字字符实例分割分支对应一个关键字字符类别集合，每个集合中包含1000个字符类别。当然，关键字字符实例分割分支的数量可以根据实际需求进行设置，字符库中字符的数量也可以根据实际需求进行调整，本申请对此都不作限制。其中，K、n为正整数。

在实际应用中，多个关键字字符实例分割分支可以并行对待识别区域进行识别，从而提高识别效率。比如，待识别区域中包含关键字字符“一二三四五六七八”，关键字字符类别集合1中包含“一”和“二”，关键字字符类别集合2中包含“三”和“四”，关键字字符类别集合3中包含“五”和“六”，关键字字符类别集合4中包含“七”和“八”，关键字字符类别集合1对应关键字字符实例分割分支1，关键字字符类别集合2对应关键字字符实例分割分支2，关键字字符类别集合3对应关键字字符实例分割分支3，关键字字符类别集合4对应关键字字符实例分割分支4，这样，在识别时，可以同时采用4个关键字字符实例分割分支对待识别区域进行识别，得到关键字字符“一二三四五六七八”。

进一步，用户可以通过具有图像处理能力的应用程序来执行本申请的图像的文本识别方法，该应用程序可以安装在终端中，终端可以具有如下特点：

(1)在硬件体系上，设备具备中央处理器、存储器、输入部件和输出部件，也就是说，设备往往是具备通信功能的微型计算机设备。另外，还可以具有多种输入方式，诸如键盘、鼠标、触摸屏、送话器和摄像头等，并可以根据需要进行调整输入。同时，设备往往具有多种输出方式，如受话器、显示屏等，也可以根据需要进行调整；

(2)在软件体系上，设备必须具备操作系统，如Windows Mobile、Symbian、Palm、Android、iOS等。同时，这些操作系统越来越开放，基于这些开放的操作系统平台开发的个性化应用程序层出不穷，如通信簿、日程表、记事本、计算器以及各类游戏等，极大程度地满足了个性化用户的需求；

(3)在通信能力上，设备具有灵活的接入方式和高带宽通信性能，并且能根据所选择的业务和所处的环境，自动调整所选的通信方式，从而方便用户使用。设备可以支持GSM(Global System for Mobile Communication，全球移动通信系统)、WCDMA(Wideband CodeDivision Multiple Access，宽带码分多址)、CDMA2000(Code Division MultipleAccess，码分多址)、TDSCDMA(Time Division-Synchronous Code Division MultipleAccess，时分同步码分多址)、Wi-Fi(Wireless-Fidelity，无线保真)以及WiMAX(WorldwideInteroperability for Microwave Access，全球微波互联接入)等，从而适应多种制式网络，不仅支持语音业务，更支持多种无线数据业务；

(4)在功能使用上，设备更加注重人性化、个性化和多功能化。随着计算机技术的发展，设备从“以设备为中心”的模式进入“以人为中心”的模式，集成了嵌入式计算、控制技术、人工智能技术以及生物认证技术等，充分体现了以人为本的宗旨。由于软件技术的发展，设备可以根据个人需求调整设置，更加个性化。同时，设备本身集成了众多软件和硬件，功能也越来越强大。

更进一步，本申请的图像的文本识别方法既可以是在终端本地上执行，也可以是终端结合服务器共同执行，在实际应用中可以根据实际需求进行设置，本申请对此不作限制。

本申请提供的图像的文本识别方法、装置、电子设备和计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

在一个实施例中提供了一种图像的文本识别方法，如图3所示，该方法包括：

步骤S301，接收待检测图像；待检测图像包括至少一个关键字字符；

其中，待检测图像可以是用户输入的包含至少一个关键字字符的图像。

步骤S302，调用训练后的字符识别模型对所述待检测图像进行处理，或将所述待检测图像输入所述字符识别模型中，以使得所述字符识别模型基于预设的锚框参数中的倾斜角度，在所述待检测图像中生成具有互不相同的倾斜角度的至少两个锚框；

在本发明实施例中，可以调用预先训练后的字符识别模型对待检测图像进行处理，也可以将待检测图像输入字符识别模型中，从而使得字符识别模型基于预设的锚框参数中的倾斜角度，在所述待检测图像中生成具有互不相同的倾斜角度的至少两个锚框。其中，锚框可以称之为anchor，用于检测出图像中包含目标的区域，应用于本发明实施例，则是用于检测出待检测图像中包含字符的区域。而且，本发明实施例可以设置字符识别模型中anchor的倾斜角度，这样就得到了不同倾斜角度的anchor。

步骤S303，基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域；

具体而言，每个倾斜角度的anchor可以基于倍数和长宽比例得到多种大小的anchor，这样，检测到的包含至少一个关键字字符的待识别区域中就不会包含相邻字符，避免了相邻字符对后续的字符识别造成的干扰。

需要说明的是，在本发明实施例中，一个anchor可以对应一行字符。也就是说，如果待检测图像中的字符只有一行，那么一个目标anchor即可包含全部字符，然后将这一个anchor对应的区域作为待识别区域；如果待检测图像中的字符有多行，比如三行，那么三个目标anchor即可包含三行字符，每行对应一个anchor，然后将三个anchor对应的三个区域都作为待识别区域。

步骤S304，识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息；在确定出了最终的待识别区域后，即可通过文本字符实例分割分支和各个关键字字符实例分割分支对待识别区域进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息。

步骤S305，将识别出的各个关键字字符和各个标注在所述待检测图像中进行展示。

具体而言，识别得到的各个关键字字符也可以进行展示，当待检测图像的色彩较多，用户看不清字符时，用户可以看到识别得到的各个关键字字符，提升了用户体验。而且，将各个关键字字符进行展示，就可以对展示的字符进行搜索，当展示的字符数量较多时，用户可以通过搜索找到需求的字符，提升了用户体验。

在本发明实施例中，接收待检测图像，待检测图像包括至少一个关键字字符；调用训练后的字符识别模型对所述待检测图像进行处理，或将所述待检测图像输入所述字符识别模型中，以使得所述字符识别模型基于预设的锚框参数中的倾斜角度，在所述待检测图像中生成具有互不相同的倾斜角度的至少两个锚框，然后基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域，再识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息，以及将识别出的各个关键字字符和各个标注在待检测图像中进行展示。由于采用了具有倾斜角度的锚框来检测包含字符的区域，有效解决了密集倾斜和混排大角度文本行的字符检测难点，有效提高了密集倾斜长文本和混排大角度文本行的字符识别精度，这种关键字字符检测能和线上OCR系统实现很好地互补，在图片文字高对抗场景能够较好地应对快速变异的对抗文字类型。

在另一个实施例中继续对如图3所示的一种图像的文本识别方法进行详细说明。

现有技术中，anchor具有基准大小，由于目标大小和长宽比例与基准大小不一致，所以，将基准的anchor按照预设的倍数和长宽比例调整即可得到不同大小的anchor。比如，anchor的基准大小为16，预设的倍数为(8，16，32)，预设的长宽比为(0.5，1，2)，这样就能够得到一共9种大小的anchor，如图4所示。

但是这种anchor都是水平的，如果图像中的字符是倾斜的，如图5A所示，那么采用这种anchor检测到的待识别区域就可能包含背景或相邻字符，如图5B所示，这样就会对后续的字符识别造成干扰。

针对这种问题，本发明实施例可以设置字符识别模型中anchor的倾斜角度。比如，anchor的角度设置为(-45°,0°,45°,90°)，这样就得到了不同倾斜角度的anchor，如图6所示，然后，每个倾斜角度的anchor可以基于倍数和长宽比例得到9种大小的anchor，这样，针对如图5A所示的图像，检测到的包含至少一个关键字字符的待识别区域中就不会包含相邻字符，如图7所示，避免了相邻字符对后续的字符识别造成的干扰。

在本发明一种优选实施例中，基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域，包括：

从待检测图像中提取得到特征图，以及基于倾斜角度互不相同的各个锚框确定出候选待识别区域；

从特征图中提取出候选待识别区域对应的感兴趣旋转区域特征；

基于感兴趣旋转区域特征从候选待识别区域中确定出最终的包含至少一个关键字字符的待识别区域。

具体而言，将待检测图像输入字符识别模型，字符识别模型可以是Rotated RPN(Rotated Region Proposal Network，旋转区域提取网络)，Rotated RPN以ResNet(Residual Network，残差网络)FPN(Feature Pyramid Network，特征金字塔网络)为骨干网络。

FPN本身不是检测算法，只是一个特征提取器，需要和其他检测算法结合才能使用，FPN是一种利用常规CNN模型来高效提取图片中各维度特征的方法。在计算机视觉学科中，多维度的目标检测一直以来都是通过将缩小或扩大后的不同维度图片作为输入来生成出反映不同维度信息的特征组合。这种办法确实也能有效地表达出图片之上的各种维度特征，但却对硬件计算能力及内存大小有较高要求，因此只能在有限的领域内部使用。

FPN通过利用常规CNN(Convolutional Neural Networks，卷积神经网络)模型内部从底至上各个层对同一scale图片不同维度的特征表达结构，提出了一种可有效在单一图片视图下生成对其的多维度特征表达的方法。它可以有效地赋能常规CNN模型，从而可以生成出表达能力更强的feature maps以供下一阶段计算机视觉任务像object detection/semantic segmentation等来使用，本质上说它是一种加强主干网络CNN特征表达的方法。

应用于本发明实施例中，可以通过ResNet FPN网络中的多个stage提取得到各个stage对应的特征图(feature map)，然后对不同stage进行FPN特征金字塔融合，从而得到多尺度的特征图，同时，基于各个不同倾斜角度的anchor确定出待检测图像中的候选待识别区域；其中，候选待识别区域包含字符，但是由于区域的范围可能会较大，所以可能会包含少量背景或相邻字符。

然后从特征图中提取出候选待识别区域对应的Rotated RoI(Rotated Region ofInteresting，感兴趣旋转区域)特征，并基于感兴趣旋转区域特征从候选待识别区域中进一步确定出最终的待识别区域。也就是说，最终的待识别区域小于等于候选待识别区域，这样就能将候选待识别区域中的背景或相邻字符过滤掉，得到较为精准的、包含字符的区域。

在本发明一种优选实施例中，锚框参数还包括锚框的长高比、第一顶点坐标、第二顶点坐标以及高度；

基于倾斜角度互不相同的各个锚框确定出候选待识别区域，包括：

将倾斜角度互不相同的各个锚框对应的区域均作为候选待识别区域。

具体而言，在基于各个anchor确定出候选待识别区域之前，可以基于预设的锚框参数在全图范围内生成多个带倾斜角度的anchor。

anchor的参数包括但不限于anchor的倾斜角度、长高比、第一顶点坐标、第二顶点坐标以及高度。其中，anchor的倾斜角度的表达形式可以是(-45°,0°,45°,90°)，长高比的表达形式可以是(0.2，0.5，1.0)，第一顶点坐标、第二顶点坐标以及高度的表达形式可以是(x₁,y₁,x₂,y₂,h)，(x₁,y₁)为第一顶点坐标，(x₂,y₂)为第二顶点坐标，(h)为高度，同一长高比的多个anchor可以如图8所示。

需要说明的是，anchor的参数除了可以设置为上述形式之外，也可以根据实际需求设置为其它形式；anchor的倾斜角度的数量和数值、长高比的数量和数值也可以根据实际需求进行调整，比如，anchor的角度还可以设置为(-60°,-30°,0°,30°,60°,90°)，长高比还可以设置为(0.1，0.2，0.5，1.0，2.0)等等，本发明实施对此均不作限制。

进一步，在实际应用中，如果是采用未训练的字符识别模型进行识别，那么就基于不同的参数在全图中生成大量的anchor。但是在本发明实施例中，采用训练后的字符识别模型进行识别，那么生成的anchor都会在字符附近，也就是说，有的anchor可能会包含全部字符和部分背景，有的anchor可能会包含部分字符等等，然后，将这些anchor都作为候选待识别区域。这样，不包含任何字符的无效anchor的数量就会大大减少。

在本发明一种优选实施例中，字符识别模型包括分类回归分支；

基于感兴趣旋转区域特征从候选待识别区域中确定出最终的包含至少一个关键字字符的待识别区域，包括：

通过分类回归分支对各个锚框进行是否包含字符的二分类，以及对各个锚框的第一顶点坐标、第二顶点坐标和高度进行偏移量的回归，确定出包含字符的目标锚框，并基于目标锚框对应区域确定出最终的包含至少一个关键字字符的待识别区域。

具体而言，在确定出了各个候选待识别区域，并从特征图中提取出各个候选待识别区域对应的各个感兴趣旋转区域特征之后，针对每一个感兴趣旋转区域特征，可以将其采样到C×7×7大小的特征，其中，C为通道数，比如取值为256。然后利用分类回归分支对采样得到的特征进行包含字符/不包含字符的分类，以及，对anchor的第一个顶点、第二个顶点和高度进行偏移量的回归，具体的回归量为(Δx₁,Δy₁,Δx₂,Δy₂,Δh)，得到各个anchor的分类回归结果，将不包含字符的各个anchor舍弃，将包含字符的各个anchor进行NMS(non maximum suppression，非极大值抑制)过滤。

NMS过滤则是为了将包含字符的各个anchor中重复的anchor去除掉。比如，如图9A所示，两个目标分别有多个anchor和各个anchor的分数，现在要去掉多余的anchor，分别在局部选出分数最高的anchor，得到图9B。

通过NMS过滤后即可到包含字符的目标anchor，并将目标anchor对应区域作为最终的待识别区域。同时，并行地将每个感兴趣旋转区域特征采样到C×10×30大小的特征，作为文本字符实例分割分支和各个关键字字符实例分割分支的输入，这种细长的特征适用于中文长文本的字符的分割；其中，C为通道数，比如取值为256。

步骤S304，识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息。

在确定出了最终的待识别区域后，即可通过文本字符实例分割分支和各个关键字字符实例分割分支对待识别区域进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息。

在本发明一种优选实施例中，关键字字符包括文本字符；对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域标注信息，包括：

通过文本字符实例分割分支生成与待识别区域对应的文本实例分割掩膜；

将文本实例分割掩膜与待识别区域进行掩膜处理，确定出各个文本字符的位置；

具体而言，将采样到C×10×30大小的特征输入文本字符实例分割分支中，即，先将采样到的特征送入到4层卷积层中，然后通过反卷积层进行上采样，得到大小为2×20×60的实例分割掩膜，该掩膜分别包括2个类别：第0个通道为背景掩膜，第1个通道为文本字符的实例掩膜。

其中，掩模是由0和1组成的一个二进制图像。当在某一功能中应用掩模时，1值区域被处理，被屏蔽的0值区域不被包括在计算中。通过指定的数据值、数据范围、有限或无限值、感兴趣区和注释文件来定义图像掩模，也可以应用上述选项的任意组合作为输入来建立掩模。

以图和掩膜的与运算为例：原图中的每个像素和掩膜中的每个对应像素进行与运算。比如1&1＝1，1&0＝0，那么，一个3×3的图像与3×3的掩膜进行运算，得到的结果图像如图10所示。

应用于本发明实施例中，生成的文本实例分割掩膜是与待识别区域对应的，文本实例分割掩膜的大小不得小于待识别区域的大小，然后将文本实例分割掩膜与待识别区域进行掩膜处理，利用OpenCV函数可以从分割掩膜上处理出连通区域，从而确定出各个文本字符的位置，再基于各个文本字符的位置确定出当前文本行的位置，并对当前文本行的位置对应的区域进行标注，比如，采用线框对待识别区域进行标注。需要说明的是，如果待检测图像中的字符只有一行，那么在待检测图像中标注一个即可；如果待检测图像中的字符有多行，比如三行，那么在待检测图像中标注三个即可。

在本发明一种优选实施例中，识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息，包括：

通过各个关键字字符实例分割分支生成各自对应的关键字实例分割掩膜；各个关键字实例分割掩膜均与待识别区域对应；

对各个位置的文本字符进行识别，确定出各个关键字字符实例分割分支中各个关键字字符的第二类别；

基于预设的第二映射关系确定出各个第二类别各自映射的关键字字符，并对各个关键字字符进行标注；其中，第二映射关系为关键字字符与关键字字符的类别的对应关系。

具体而言，将采样到C×10×30大小的特征分别输入各个关键字字符实例分割分支中，即，先将采样到的特征送入到4层卷积层中，然后通过反卷积层进行上采样，得到多个大小为的实例分割掩膜，该掩膜分别包括2个类别：第0个通道为背景掩膜，第1个通道为文本字符的实例掩膜。

进一步，生成的关键字实例分割掩膜是与待识别区域对应的，关键字实例分割掩膜的大小不得小于待识别区域的大小，然后将关键字实例分割掩膜与待识别区域进行掩膜处理，利用OpenCV函数可以从分割掩膜上处理出连通区域，从而确定出各个关键字字符的位置，再对各个位置的关键字字符进行识别，即，在每个通道的同一连通区域内进行概率投票，得到概率最大的关键字字符的类别，从而确定出各个关键字字符的类别，之后根据字符库确定出各个关键字字符的类别各自映射的关键字字符即可，以及对各个关键字字符进行标注，比如，采用线框对待识别区域进行标注。

需要说明的是，上述采样的大小和实例分割掩膜的大小仅仅只是举例说明，在实际应用中可以根据实际需求进行调整，本发明实施例对此不作限制。

进一步，在确定各个关键字字符位置的时候，会对每个关键字字符进行分割，比如，通过字符框来确定标注各个关键字字符，但是当各个关键字字符的间距过小时，会出现字符框粘连情况，也就是将多个关键字字符判定为一个关键字字符，导致一个字符框中包含多个字符，从而无法识别。

针对这种情况，本发明实施例为字符框设置了一个收缩比例，比如，收缩比例为0.5，这样在对每个关键字字符进行分割时就不会出现字符框粘连的情况了。比如，图11所示，虚线为收缩前的字符框，实线为收缩后的字符框(为方便阅读，虚线的类型有所区别)。进一步，收缩比例可以通过收缩函数确定，也可以人为确定，在实际应用中可以根据实际需求进行设置，本发明实施例对此不作限制。

通过上述方式，针对图5A所示的图像，本发明实施例的处理结果如图12A所示，其中，实线框为文本字符标注，虚线框为关键字字符标注。

具体而言，识别得到的各个关键字字符也可以进行展示，如图12B所示，当待检测图像的色彩较多，用户看不清字符时，用户可以看到识别得到的各个关键字字符，提升了用户体验。而且，将各个关键字字符进行展示，就可以对展示的字符进行搜索，当展示的字符数量较多时，用户可以通过搜索找到需求的字符，进一步提升了用户体验。

在本发明一种优选实施例中，字符识别模型通过如下方式训练：

针对具有真实标注的样本图像，采用步骤S301～步骤S305的图像的文本识别方法，确定出样本图像中待识别区域和各个关键字字符的预测标注；其中，真实标注为样本图像中待识别区域和各个关键字字符的真实标注；

基于真实标注和预测标注确定出分类回归分支的第一损失函数、文本字符实例分割分支的第二损失函数，以及各个关键字字符实例分割分支的第三损失函数；

基于第一损失函数、第二损失函数以及各个第三损失函数确定出字符识别模型的总损失函数；

基于预设的学习率采用反向梯度传播对字符识别模型进行迭代，直至总损失函数满足学习率，得到训练后的字符识别模型。

具体而言，在训练字符识别模型的时候，可以将具有真实标注的样本图像输入字符识别模型，其中，真实标注为样本图像中待识别区域和各个关键字字符的真实标注，也就是人为标注的待识别区域和各个关键字字符。然后采用采用步骤S301～步骤S305的图像的文本识别方法，确定出样本图像中待识别区域和各个关键字字符的预测标注，也就是字符识别模型确定出的待识别区域和各个关键字字符。

需要说明的是，针对样本图像，在确定候选待识别区域时，可以根据anchor与真实标注的IOU(Intersection over Union，交并比)来区分前景和背景，前景即为候选待识别区域，其它步骤可参考步骤S301～步骤S302，在此就不赘述了。

由于真实标注和预测标注之间存在误差，所以就可以根据误差算出分类回归分支的第一损失函数、文本字符实例分割分支的第二损失函数，以及各个关键字字符实例分割分支的第三损失函数，通过如下公式计算第一损失函数、第二损失函数和第三损失函数之和：

其中，N是每个掩膜中的像素数目，Y是输出的掩膜，为的向量，通道数为/>每一个通道对应一个字符类别，X为相应的真实标签，也为/>的向量，X_i,k表示第i个字符分支的第k类字符的真实标签，大小为20×60，Y_i,k表示第i个字符分支的第k类字符的预测掩膜，大小也为20×60，掩膜上任一像素的值代表属于第k类字符的概率，取值在0-1之间。

得到了字符识别模型的总损失函数之后，采用反向梯度传播和预设的学习率对字符识别模型进行迭代训练，直至总损失函数满足学习率，得到训练后的字符识别模型。

其中，学习率(Learning rate)作为监督学习以及深度学习中重要的参数，其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值，合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。

在本发明实施例中，可以首先使用大量具有真实标注的样本图像对字符识别模型进行训练，然后使用无标注的待检测图像与样本图像按照1:1的比例混合对字符识别模型进行微调。

在训练过程中，输入图像的短边可以从[400,500,600]中随机选取，然后基于预设的长宽比对输入图像进行缩放，再以批量大小为8(即一次性采用8张图像进行训练)、学习率为0.01使用样本图像进行迭代训练，每10w次迭代后学习率除以10，迭代至收敛最优。由于无标注的待检测图像的数量较小容易出现过拟合的情况，影响识别率，因此进行样本图像与待检测图像的混合微调，以学习率为0.0025进行迭代至最优，得到训练后的字符识别模型。

当然，训练过程中设置的上述各项数据仅仅只是举例说明，在实际应用中可以根据实际需求进行调整，本发明实施例对此不作限制。

进一步，如图13所示，为本发明实施例的流程图一，以及，如图14所示，为本发明实施例的流程图二，流程一、二中的各个步骤均可参照步骤S301～步骤S305，在此就不赘述了。

进一步，本发明实施例在字符识别模型中设置多个关键字字符实例分割分支，然后将字符库中的所有字符类别平均分配给各个关键字字符实例分割分支，使得每个关键字字符实例分割分支只需要各自独立地学习一小部分字符，然后将各个关键字字符实例分割分支的识别结果组合，就能取得更好的检测效果并且能有效地降低资源消耗、模型复杂度、和模型的学习难度，解决在字符类别的数量较大时难以检测的问题。

图15为本申请又一实施例提供的一种图像的文本识别装置的结构示意图，如图15所示，本实施例的装置可以包括：

接收模块1501，用于接收待检测图像；所述待检测图像包括至少一个关键字字符；

第一处理模块1501，用于调用训练后的字符识别模型对所述待检测图像进行处理，或将所述待检测图像输入所述字符识别模型中，以使得所述字符识别模型基于预设的锚框参数中的倾斜角度，在所述待检测图像中生成具有互不相同的倾斜角度的至少两个锚框；

确定模块1503，用于基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域；

第二处理模块1504，用于识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息；

展示模块1505，用于将识别出的各个字符和标注在所述待检测图像中进行展示。

在本发明一种优选实施例中，确定模块包括：

提取子模块，用于从待检测图像中提取得到特征图；

提取子模块，还用于从特征图中提取出候选待识别区域对应的感兴趣旋转区域特征；

待识别区域确定子模块，用于基于感兴趣旋转区域特征从候选待识别区域中确定出最终的包含至少一个关键字字符的待识别区域。

候选待识别区域确定子模块具体用于：

待识别区域确定子模块具体用于：

在本发明一种优选实施例中，字符包括文本字符，字符识别模型还包括文本字符实例分割分支；

第二处理模块包括：

掩膜生成子模块，用于通过文本字符实例分割分支生成与待识别区域对应的文本实例分割掩膜；

字符位置确定子模块，用于将文本实例分割掩膜与待识别区域进行掩膜处理，确定出各个文本字符的位置；

在本发明一种优选实施例中，字符包括关键字字符，字符识别模型还包括至少两个关键字字符实例分割分支，每个关键字字符实例分割分支具有各自对应的关键字字符类别集合；

第二处理模块包括：

掩膜生成子模块，还用于通过各个关键字字符实例分割分支生成各自对应的关键字实例分割掩膜；各个关键字实例分割掩膜均与待识别区域对应；

字符位置确定子模块，还用于将多个关键字实例分割掩膜分别与文本区域进行掩膜处理，确定出每个关键字字符实例分割分支中各个关键字字符的位置；

标注子模块，还用于对各个关键字字符进行标注；其中，映射关系为关键字字符与关键字字符的类别的对应关系。

本实施例的图像的文本识别装置可执行本申请第一个实施例、第二个实施例所示的图像的文本识别方法，其实现原理相类似，此处不再赘述。

本申请的又一实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：接收待检测图像，待检测图像包括至少一个关键字字符；调用训练后的字符识别模型对所述待检测图像进行处理，或将所述待检测图像输入所述字符识别模型中，以使得所述字符识别模型基于预设的锚框参数中的倾斜角度，在所述待检测图像中生成具有互不相同的倾斜角度的至少两个锚框，然后基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域，再识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息，以及将识别出的各个关键字字符和各个标注在待检测图像中进行展示。由于采用了具有倾斜角度的锚框来检测包含字符的区域，有效解决了密集倾斜和混排大角度文本行的字符检测难点，有效提高了密集倾斜长文本和混排大角度文本行的字符识别精度，这种关键字字符检测能和线上OCR系统实现很好地互补，在图片文字高对抗场景能够较好地应对快速变异的对抗文字类型。

在一个可选实施例中提供了一种电子设备，如图16所示，图16所示的电子设备16000包括：处理器16001和存储器16003。其中，处理器16001和存储器16003相连，如通过总线16002相连。可选地，电子设备16000还可以包括收发器16004。需要说明的是，实际应用中收发器16004不限于一个，该电子设备16000的结构并不构成对本申请实施例的限定。

处理器16001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器16001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线16002可包括一通路，在上述组件之间传送信息。总线16002可以是PCI总线或EISA总线等。总线16002可以分为地址总线、数据总线、控制总线等。为便于表示，图16中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器16003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器16003用于存储执行本申请方案的应用程序代码，并由处理器16001来控制执行。处理器16001用于执行存储器16003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

本申请的又一实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，接收待检测图像，待检测图像包括至少一个关键字字符；调用训练后的字符识别模型对所述待检测图像进行处理，或将所述待检测图像输入所述字符识别模型中，以使得所述字符识别模型基于预设的锚框参数中的倾斜角度，在所述待检测图像中生成具有互不相同的倾斜角度的至少两个锚框，然后基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域，再识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息，以及将识别出的各个关键字字符和各个标注在待检测图像中进行展示。由于采用了具有倾斜角度的锚框来检测包含字符的区域，有效解决了密集倾斜和混排大角度文本行的字符检测难点，有效提高了密集倾斜长文本和混排大角度文本行的字符识别精度，这种关键字字符检测能和线上OCR系统实现很好地互补，在图片文字高对抗场景能够较好地应对快速变异的对抗文字类型。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像的文本识别方法，其特征在于，包括：

基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域；识别出所述待识别区域中的至少一个关键字字符，并对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域和各个关键字字符的标注信息；

将识别出的各个关键字字符和各个标注信息在所述待检测图像中进行展示；其中，所述基于倾斜角度互不相同的各个锚框确定出图像中包含至少一个关键字字符的待识别区域，包括：从所述待检测图像中提取得到特征图，以及基于倾斜角度互不相同的各个锚框确定出候选待识别区域；

通过字符识别模型中的分类回归分支，根据感兴趣旋转区域特征对各个锚框进行相应的是否包含字符的二分类，以及对各个锚框的第一顶点坐标、第二顶点坐标和高度进行偏移量的回归，确定出包含字符的目标锚框，并基于NMS过滤从包含字符的目标锚框中确定出最终的包含至少一个关键字字符的待识别区域。

2.根据权利要求1所述的图像的文本识别方法，其特征在于，所述锚框参数还包括锚框的长高比、第一顶点坐标、第二顶点坐标以及高度；

3.根据权利要求1所述的图像的文本识别方法，其特征在于，所述关键字字符包括文本字符，所述字符识别模型还包括文本字符实例分割分支；

对所述待识别区域和各个关键字字符进行掩膜处理，以生成所述待识别区域标注信息，包括：通过所述文本字符实例分割分支生成与所述待识别区域对应的文本实例分割掩膜；

4.根据权利要求1所述的图像的文本识别方法，其特征在于，所述字符识别模型还包括至少两个关键字字符实例分割分支，每个关键字字符实例分割分支具有各自对应的关键字字符类别集合；

5.根据权利要求1所述的图像的文本识别方法，其特征在于，所述字符识别模型通过如下方式训练：

针对具有真实标注的样本图像，采用权利要求1-4任一所述的图像的文本识别方法，确定出所述样本图像中待识别区域和各个关键字字符的预测标注；其中，所述真实标注为所述样本图像中待识别区域和各个关键字字符的真实标注；

基于所述真实标注和所述预测标注确定出所述分类回归分支的第一损失函数、文本字符实例分割分支的第二损失函数，以及各个关键字字符实例分割分支的第三损失函数；

6.一种图像的文本识别装置，其特征在于，包括：

展示模块，用于将识别出的各个字符和标注在所述待检测图像中进行展示；

其中，确定模块具体用于：

通过字符识别模型中的分类回归分支，根据感兴趣旋转区域特征对各个锚框进行相应的候选待识别区域是否包含字符的二分类，以及对各个锚框的第一顶点坐标、第二顶点坐标和高度进行偏移量的回归，确定出包含字符的目标锚框，并基于NMS过滤从包含字符的目标锚框中确定出最终的包含至少一个关键字字符的待识别区域。

7.一种电子设备，其特征在于，其包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行上述权利要求1-5中任一项所述的图像的文本识别方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1-5中任一项所述的图像的文本识别方法。