CN112818979A

CN112818979A - 文本识别方法、装置、设备及存储介质

Info

Publication number: CN112818979A
Application number: CN202010871409.6A
Authority: CN
Inventors: 伍敏慧; 黄华杰; 梅利健; 林榆耿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2021-05-18
Anticipated expiration: 2040-08-26
Also published as: CN112818979B

Abstract

本申请公开了文本识别方法、装置、设备及存储介质。方法包括：获取待识别物的目标图像；对目标图像进行文本检测处理，得到文本类别检测结果和文本方向检测结果，文本类别检测结果包括目标图像中的各个像素分别对应的文本类别信息，文本方向检测结果包括目标图像中的各个像素分别对应的文本方向信息；基于目标图像、文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像；对至少一个待识别文本图像进行文本识别处理，得到识别文本。在获取待识别文本图像的过程中，不仅考虑文本类别还考虑文本方向，考虑的信息较全面，有利于提高待识别文本图像的获取效果，对获取的待识别文本图像进行文本识别处理后得到的识别文本的准确率较高。

Description

文本识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种文本识别方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，越来越多的设备能够从待识别物(如，身份证件、银行卡等)的图像中识别文本，以利用识别出的文本实现便捷业务，如，将识别出的文本快速填充至输入框中，从而降低用户的输入成本，提升用户体验。

相关技术在从待识别物的图像中识别文本的过程中，先获取待识别物的图像对应的文本类别检测结果，然后直接根据待识别物的图像和文本类别检测结果获取待识别文本图像，进而从待识别文本图像中识别出文本。在此种过程中，待识别文本图像的获取过程仅考虑文本类别，考虑的信息较局限，待识别文本图像的获取效果不佳，从而导致从待识别文本图像中识别出的文本的准确率较低。

发明内容

本申请实施例提供了一种文本识别方法、装置、设备及存储介质，可用于提高识别出的文本的准确率。所述技术方案如下：

一方面，本申请实施例提供了一种文本识别方法，所述方法包括：

获取待识别物的目标图像，所述待识别物中包括待识别的文本；

对所述目标图像进行文本检测处理，得到所述目标图像对应的文本类别检测结果和文本方向检测结果，所述文本类别检测结果包括所述目标图像中的各个像素分别对应的文本类别信息，所述文本方向检测结果包括所述目标图像中的各个像素分别对应的文本方向信息；

基于所述目标图像、所述文本类别检测结果和所述文本方向检测结果，获取至少一个待识别文本图像；

对所述至少一个待识别文本图像进行文本识别处理，得到所述至少一个待识别文本图像分别对应的识别文本。

另一方面，提供了一种文本识别装置，所述装置包括：

第一获取单元，用于获取待识别物的目标图像，所述待识别物中包括待识别的文本；

第一处理单元，用于对所述目标图像进行文本检测处理，得到所述目标图像对应的文本类别检测结果和文本方向检测结果，所述文本类别检测结果包括所述目标图像中的各个像素分别对应的文本类别信息，所述文本方向检测结果包括所述目标图像中的各个像素分别对应的文本方向信息；

第二获取单元，用于基于所述目标图像、所述文本类别检测结果和所述文本方向检测结果，获取至少一个待识别文本图像；

第二处理单元，用于对所述至少一个待识别文本图像进行文本识别处理，得到所述至少一个待识别文本图像分别对应的识别文本。

在一种可能实现方式中，所述第二获取单元，用于基于所述文本类别检测结果，从所述目标图像中确定至少一个目标文本条目区域，任一目标文本条目区域中的像素对应的文本类别信息指示的文本类别相同；基于所述文本方向检测结果，确定所述至少一个目标文本条目区域分别对应的文本条目方向，任一目标文本条目区域对应的文本条目方向基于所述任一目标文本条目区域中的像素对应的文本方向信息确定；基于所述至少一个目标文本条目区域和所述至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像。

在一种可能实现方式中，所述第二获取单元，还用于基于所述至少一个目标文本条目区域分别对应的文本条目方向，确定所述至少一个目标文本条目区域分别对应的旋转角度；在所述目标图像中对所述至少一个目标文本条目区域进行图像截取，得到所述至少一个目标文本条目区域分别对应的截取图像；对于所述至少一个目标文本条目区域中的任一目标文本条目区域，将所述任一目标文本条目区域对应的截取图像按照所述任一目标文本条目区域对应的旋转角度进行旋转，得到所述任一目标文本条目区域对应的待识别文本图像。

在一种可能实现方式中，所述第二获取单元，还用于基于所述至少一个目标文本条目区域分别对应的文本条目方向，确定所述至少一个目标文本条目区域分别对应的旋转角度；根据所述至少一个目标文本条目区域分别对应的旋转角度对所述目标图像进行旋转处理，基于旋转处理得到的旋转图像，获取所述至少一个目标文本条目区域分别对应的待识别文本图像。

在一种可能实现方式中，所述第二获取单元，还用于按照所述至少一个目标文本条目区域分别对应的旋转角度对所述至少一个目标文本条目区域进行分组，得到至少一个文本条目区域组，任一文本条目区域组中的目标文本条目区域对应的旋转角度相同；将所述目标图像按照所述至少一个文本条目区域组中的第一个文本条目区域组对应的旋转角度进行旋转，得到第一个旋转图像，在所述第一个旋转图像中对所述第一个文本条目区域组中的目标文本条目区域进行图像截取，得到所述第一个文本条目区域组中的目标文本条目区域对应的待识别文本图像；将上一个旋转图像按照所述至少一个文本条目区域组中的下一个文本条目区域组对应的旋转角度进行旋转，得到下一个旋转图像，在所述下一个旋转图像中对所述下一个文本条目区域组中的目标文本条目区域进行图像截取，得到所述下一个文本条目区域组中的目标文本条目区域对应的待识别文本图像；以此类推，直至得到所述至少一个目标文本条目区域分别对应的待识别文本图像；其中，所述第一个文本条目区域组对应的旋转角度为所述第一个文本条目区域组中的目标文本条目区域对应的旋转角度，所述下一个文本条目区域组对应的旋转角度为所述下一个文本条目区域组中的目标文本条目区域对应的旋转角度与上一个文本条目区域组中的目标文本条目区域对应的旋转角度之间的差异角度。

在一种可能实现方式中，所述第二获取单元，还用于对所述至少一个目标文本条目区域分别进行仿射变换，得到仿射变换后的至少一个目标文本条目区域；基于所述仿射变换后的至少一个目标文本条目区域和所述仿射变换后的至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像。

在一种可能实现方式中，所述装置还包括：

第三处理单元，用于对所述至少一个待识别文本图像进行排序处理，得到排序处理后的至少一个待识别文本图像；

所述第二处理单元，用于对所述排序处理后的至少一个待识别文本图像进行文本识别处理，得到所述排序处理后的至少一个待识别文本图像分别对应的识别文本。

在一种可能实现方式中，所述第一获取单元，还用于获取所述目标图像对应的分割结果；

所述装置还包括：

确定单元，用于基于所述分割结果确定所述待识别物在所述目标图像中的面积占比；

所述第二获取单元，还用于响应于执行条件满足第一参考条件，基于所述目标图像、所述文本类别检测结果和所述文本方向检测结果，获取至少一个待识别文本图像，所述第一参考条件包括所述面积占比不小于第一阈值且所述文本类别检测结果指示所述目标图像中存在文本条目区域。

在一种可能实现方式中，所述确定单元，还用于响应于执行条件满足第二参考条件，确定文本识别失败，所述第二参考条件包括所述面积占比小于第二阈值，所述第二阈值小于所述第一阈值；

所述装置还包括：

第四处理单元，用于响应于执行条件不满足所述第二参考条件且不满足第一参考条件，基于所述分割结果在所述目标图像中对所述待识别物的所在区域进行图像截取；基于截取得到的图像获取至少一个待识别文本图像。

在一种可能实现方式中，所述第一处理单元，用于调用文本检测模型对所述目标图像进行文本检测处理，得到所述目标图像对应的文本类别检测结果和文本方向检测结果；

所述第二处理单元，用于调用文本识别模型对所述至少一个待识别文本图像进行文本识别处理，得到所述至少一个待识别文本图像分别对应的识别文本。

在一种可能实现方式中，所述第一处理单元，还用于响应于基于所述目标图像未获取到所述待识别物的完整角点，对所述目标图像进行文本检测处理，得到所述目标图像对应的文本类别检测结果和文本方向检测结果。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一所述的文本识别方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一所述的文本识别方法。

另一方面，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行上述任一所述的文本识别方法。

本申请实施例提供的技术方案至少带来如下有益效果：

在本申请实施例中，在获取待识别文本图像的过程中，不仅考虑文本类别还考虑文本方向，考虑的信息较全面，有利于提高待识别文本图像的获取效果，对此种方式获取的待识别文本图像进行文本识别处理后，能够得到准确率较高的识别文本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本识别方法的实施环境的示意图；

图2是本申请实施例提供的一种文本识别方法的流程图；

图3是本申请实施例提供的一种待识别物中的待识别的文本条目的示意图；

图4是本申请实施例提供的一种调用文本检测模型对目标图像进行文本检测处理的过程示意图；

图5是本申请实施例提供的一种标记有目标文本条目区域的目标图像的示意图；

图6是本申请实施例提供的一种根据检测结果获取待识别文本图像的过程示意图；

图7是本申请实施例提供的一种调用CRNN模型进行文本识别处理的过程示意图；

图8是本申请实施例提供的一种文本识别的过程示意图；

图9是本申请实施例提供的一种文本识别装置的示意图；

图10是本申请实施例提供的一种文本识别装置的示意图；

图11是本申请实施例提供的一种终端的结构示意图；

图12是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例中的方案涉及人工智能技术中的计算机视觉技术。计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(OpticalCharacter Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(Three Dimensional，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供了一种文本识别方法，请参考图1，其示出了本申请实施例提供的文本识别方法的实施环境的示意图。该实施环境可以包括：终端11和服务器12。

其中，终端11能够获取待识别物的图像，然后对待识别物的图像进行文本识别，以得到待识别物中的文本。当然，终端11也可以将待识别物的图像发送至服务器12，服务器12对待识别物的图像进行文本识别，以得到待识别物中的文本。在示例性实施例中，服务器12在得到待识别物中的文本后，还可以将待识别物中的文本发送至终端11，以由终端11根据待识别物的文本进行实现便捷业务，如，待识别物为待识别身份证件，则终端11可以将待识别身份证件中的姓名、身份证件号码等文本填充至对应的输入框中，从而降低用户的输入成本，提升用户体验。

在一种可能实现方式中，终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、自助终端、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供一种文本识别方法，以该方法应用于终端11为例。如图2所示，本申请实施例提供的方法可以包括如下步骤：

在步骤201中，获取待识别物的目标图像，待识别物中包括待识别的文本。

待识别物的目标图像是指包括待识别物的图像，待识别物中包括待识别的文本。本申请实施例对待识别物的类型不加以限定，示例性地，待识别物为某一固定版式的证件，例如，身份证件、银行卡、行驶证件、驾驶证件等。需要说明的是，待识别物的图像中可以包括完整的待识别物，也可以包括不完整的待识别物，本申请实施例对此不加以限定。此外，本申请实施例对待识别物在目标图像中的面积占比、待识别物在目标图像中的所处区域以及待识别物在目标图像中的摆放方向等均不加以限定。

在一种可能实现方式中，终端获取待识别物的目标图像的方式包括但不限于以下两种：

方式1：响应于检测到目标对象将待识别物置于图像采集区域，终端采集待识别物的目标图像。

方式2：终端接收目标对象上传的待识别物的目标图像。

无论以上哪种获取方式，终端均能够获取待识别物的目标图像，进而通过对待识别物的目标图像进行处理，识别出待识别物中的文本。

需要说明的是，获取待识别物的目标图像的时机与待识别物的类型以及应用场景有关，本申请实施例对此不加以限定。示例性地，假设待识别物的类型为身份证件，应用场景为对某一应用账号进行实名认证，此种情况下，获取待识别物的目标图像的时机为：目标对象触发身份证件识别控件。示例性地，假设待识别物的类型为银行卡，应用场景为将某一应用账号绑定银行卡，此种情况下，获取待识别物的目标图像的时机为：目标对象触发银行卡识别控件。

在步骤202中，对目标图像进行文本检测处理，得到目标图像对应的文本类别检测结果和文本方向检测结果，文本类别检测结果包括目标图像中的各个像素分别对应的文本类别信息，文本方向检测结果包括目标图像中的各个像素分别对应的文本方向信息。

在获取待识别物的目标图像后，对目标图像进行文本检测处理，以在目标图像中检测出与文本相关的信息，为后续获取待识别文本图像提供数据支持。与文本相关的信息包括但不限于文本类别检测结果和文本方向检测结果。

文本类别检测结果包括目标图像中的各个像素分别对应的文本类别信息。任一像素对应的文本类别信息用于指示该任一像素对应的文本类别。本申请实施例对任一像素对应的文本类别信息的形式不加以限定，示例性地，任一像素对应的文本类别信息包括该任一像素对应的文本类别的标识；或者，任一像素对应的文本类别信息包括该任一像素对应各个候选文本类别的概率。根据任一像素对应的文本类别信息能够得知任一像素对应的文本类别。需要说明的是，任一像素对应的文本类别为候选文本类别中的某一类别。

候选文本类别为预先设置的待识别的文本可能对应的文本类别，候选文本类别根据经验设置，或者根据应用场景、待识别物的类型灵活调整，本申请实施例对此不加以限定。示例性地，当待识别物为身份证件时，候选文本类别包括姓名条目、性别条目、民族条目、出生年份条目、出生月份条目、出生日期条目、住址条目、公民身份号码条目、其他类别等。当待识别物为银行卡时，候选文本类别包括银行卡号条目、有效期条目、其他类别等。也就是说，任一像素对应的文本类别可能为某一具体的文本条目，也可能为其他类别，其他类别包括但不限于非文本、除设置的几种具体文本条目外的其他文本条目(如，标题条目等)。

文本方向检测结果包括目标图像中的各个像素分别对应的文本方向信息。任一像素对应的文本方向信息用于指示该任一像素对应的文本方向。本申请实施例对任一像素对应的文本方向信息的形式不加以限定，示例性地，任一像素对应的文本方向信息包括该任一像素对应的文本方向的标识；或者，任一像素对应的文本方向信息包括该任一像素对应各个候选文本方向的概率。根据任一像素对应的文本方向信息能够得知任一像素对应的文本方向。需要说明的是，任一像素对应的文本方向为候选文本方向中的某一方向。

候选文本方向根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。示例性地，候选文本方向包括分为5种，分别为正文本方向、将正文本方向逆时针旋转90度后的文本方向、将正文本方向逆时针旋转180度后的文本方向、将正文本方向逆时针270度后的文本方向和其他方向。不同的文本方向可以利用不同的标记进行表示，例如，利用数字0表示正文本方向，利用数字1表示将正文本方向逆时针旋转90度后的文本方向、利用数字2表示将正文本方向逆时针旋转180度后的文本方向、利用数字3表示将正文本方向逆时针旋转270度后的文本方向等、利用数字4表示非文本方向。根据上述分析可知，任一像素对应的文本方向可能为某一具体的文本方向，也可能为非文本方向。通常情况下，对应的文本类别为某一具体条目的像素对应的文本方向为某一具体的文本方向，对应的文本类别为非文本的像素对应的文本方向为非文本方向。

在示例性实施例中，目标图像对应的文本类别检测结果和文本方向检测结果均可以利用图(map)来描述。

需要说明的是，待识别物中的待识别的文本可能为不连续文本，将每个局部的待识别连续文本均称为一个待识别的文本条目。不同的文本条目可能对应相同的文本类别，也可能对应不同的文本类别，本申请实施例对此不加以限定。示例性地，以待识别物为身份证件为例，如图3所示，身份证件中的待识别的文本条目包括“张三”、“男”、“汉”、“2000”、“01”、“01”、“A省B市C县D小区”和“YYYYYY20000101XXXX”。其中，每个文本条目均对应一个文本类别，如，“张三”对应的文本类别为姓名条目、“男”对应的文本类别为性别条目、“2020”对应的文本类别为出生年份条目等等。

需要进一步说明的是，虽然对于证件等固定版式的待识别物，待识别物中的文本条目的位置是固定的，但由于不确定待识别物在目标图像中的所处区域以及放置方向等，所以需要通过对目标图像进行文本检测处理，分析出各个像素分别对应的文本类别信息以及文本方向信息，以为在目标图像中确定文本条目区域以及后续获取高质量的待识别文本图像提供数据支持。

在一种可能实现方式中，对目标图像进行文本检测处理，得到目标图像对应的文本类别检测结果和文本方向检测结果的过程为：调用文本检测模型对目标图像进行文本检测处理，得到目标图像对应的文本类别检测结果和文本方向检测结果。

文本检测模型为预先训练得到的用于对待识别物的目标图像进行文本检测处理的模型。将目标图像输入文本检测模型，得到文本检测模型输出的文本类别检测结果和文本方向检测结果。

在一种可能实现方式中，在调用文本检测模型对目标图像进行文本检测处理的过程中，除了得到目标图像对应的文本类别检测结果和文本方向检测结果外，还可以得到目标图像对应的分类结果和分割结果中的至少一个。

目标图像对应的分类结果用于指示目标图像中的待识别物的具体类别。分类结果可以用待识别物属于各个候选具体类别的概率表示，根据待识别物属于各个候选具体类别的概率可以得知待识别物的具体类别。候选具体类别根据经验设置，也可以根据应用场景灵活调整。示例性地，对于识别身份证件以进行实名认证的应用场景，候选具体类别包括居民身份证、临时身份证、护照、港澳同胞回乡证、背景等。其中，背景说明待识别物在目标图像中的面积占比过小，被当成背景忽略了。需要说明的是，是否获取目标图像对应的分类结果可以根据业务需求确定，例如，当业务需求指示需要识别出实名认证的证件类型时，获取目标图像对应的分类结果来确定证件的具体类型。

目标图像对应的分割结果用于指示目标图像中的各个像素分别对应的分割类别。任一像素的分割类别为候选分割类别中的任一种，候选分割类别包括待识别物和非待识别物这两个类别。任一像素对应的分割类别用于指示该任一像素是否属于待识别物。根据分割结果能够分析出待识别物在目标图像中的所在区域以及分析出待识别物在目标图像中的面积占比。需要说明的是，是否获取目标图像对应的分割结果可以根据业务需求，例如，当业务需求指示需要获取待识别物在目标图像中的面积占比时，获取目标图像对应的分割结果。

本申请实施例以调用文本检测模型对目标图像进行文本检测处理后，得到目标图像对应的分类结果、分割结果、文本类别检测结果和文本方向检测结果为例进行说明。

在一种可能实现方式中，调用文本检测模型对目标图像进行文本检测处理，得到目标图像对应的分类结果、分割结果、文本类别检测结果和文本方向检测结果的过程为：调用文本检测模型对目标图像进行特征提取，得到目标图像的分类特征；基于目标图像的分类特征，获取目标图像的分割特征和预测特征；调用文本检测模型对分类特征进行分类处理，得到目标图像对应的分类结果；调用文本检测模型对分割特征进行分割处理，得到目标图像对应的分割结果；调用文本检测模型对预测特征进行文本类别预测处理，得到目标图像对应的文本类别检测结果；调用文本检测模型对预测特征进行文本方向预测处理，得到目标图像对应的文本方向检测结果。

需要说明的是，执行上述特征提取、分类处理、分割处理、文本类别预测处理以及文本方向预测处理的可以为文本检测模型中的不同网络层，也可以是指文本检测模型中的具有不同功能的处理子模型，本申请实施例对此不加以限定。

在一种可能实现方式中，目标图像的分类特征的获取方式与文本检测模型中用于实现特征提取功能的网络层或者处理子模型的结构有关，本申请实施例对此不加以限定。示例性地，文本检测模型对目标图像进行特征提取，得到目标图像的分类特征的逻辑过程为：文本检测模型对目标图像进行第一下采样处理，得到第一图像特征；对第一图像特征进行第二下采样处理，得到第二图像特征；对第二图像特征进行第三下采样处理，得到第三图像特征；对第三图像特征进行第四下采样处理，得到第四图像特征；对第四图像特征进行第五下采样处理，得到第五图像特征；对第五图像特征进行卷积处理，得到目标图像的分类特征。

下采样处理能够对图像的尺寸进行降维，本申请实施例对下采样处理的具体方式不加以限定，示例性地，每经过一次下采样处理，图像的尺寸均降维至原来的1/4。例如，若目标图像的尺寸为512×512维，则第一下采样处理后得到的第一图像特征的尺寸为256×256维。

在一种可能实现方式中，在上述获取分类特征的过程的基础上，基于目标图像的分类特征，获取目标图像的分割特征和预测特征的过程为：将分类特征和第五图像特征进行融合处理，得到第六图像特征；将第六图像特征进行第一上采样处理，将第一上采样处理后的图像特征和第四图像特征进行融合处理，得到第七图像特征；将第七图像特征进行第二上采样处理，将第二上采样处理后的图像特征和第三图像特征进行融合处理，得到第八图像特征；对第八图像特征进行第三上采样处理，将第三上采样处理后的图像特征和第二图像特征进行融合处理，得到分割特征；对分割特征进行第四上采样处理，将第四上采样处理后的图像特征和第一图像特征进行融合处理，得到预测特征。上采样处理能够放大图像的尺寸，本申请实施例对上采样处理的具体实现过程不加以限定。示例性地，上采样处理采用双线性插值或者转置卷积方法等。

根据上述过程可知，在调用文本检测模型对目标图像进行文本检测的过程中，涉及了先下采样处理后上采样处理的过程，文本检测模型类似于UNet(U型网络)模型的结构。在示例性实施例中，文本检测模型的基础网络结构为轻量级网络结构，以加速文本检测处理速度，本申请实施例对轻量级网络结构不加以限定，例如，轻量级网络为ShuffleNet(混洗网络)、MobileNet(移动网络)等。

根据上述过程可知，文本检测模型可视为一种多任务模型。能够实现以下任务：1、分类任务，该分类任务能够识别目标图像中的待识别物的具体类别。2、方向检测任务，该方向检测任务能够检测每个像素对应的文本方向，进而由每个像素对应的文本方向来投票决定文本条目区域对应的文本方向。3、文本语义检测任务，该文本语义检测任务能够得到文本类别检测结果，以判断每个像素是否属于文本条目且属于哪一个文本条目。4、分割任务，该分割任务用于在目标图像中分割出待识别物。针对待识别物在目标图像中的面积占比太小的情况，分类任务很可能误判目标图像中不存在待识别物或者不存在文本条目，因此，加入分割任务，利用分割结果来获取待识别物的所在区域。对于待识别物在目标图像中的面积占比太小的情况，可以在目标图像中截取出待识别物的所在区域的图像后进行二次检测，从而提高文本检测的可靠性。

需要说明的是，以上仅以调用文本检测模型对目标图像进行文本检测，得到分类结果、分割结果、文本类别检测结果和文本方向检测结果为例进行了说明，在示例性实施例中，调用文本检测模型还可以仅获取文本类别检测结果和文本方向检测结果；或者，仅获取分割结果、文本类别检测结果和文本方向检测结果；或者，仅获取分类结果、文本类别检测结果和文本方向检测结果。在上述情况下，仅需对文本检测模型的内部处理逻辑进行相应微调即可，示例性地，对于调用文本检测模型仅获取文本类别检测结果和文本方向检测结果的情况，取消对分类特征进行分类处理以及对分割特征进行分割处理的逻辑即可。

在取消对分类特征进行分类处理以及对分割特征进行分割处理的逻辑的基础上，调用文本检测模型对目标图像进行文本检测，得到文本类别检测结果和文本方向检测结果的过程为：调用文本检测模型对目标图像进行特征提取，得到目标图像的分类特征；基于目标图像的分类特征，获取目标图像的分割特征和预测特征；调用文本检测模型对预测特征进行文本类别预测处理，得到目标图像对应的文本类别检测结果；调用文本检测模型对预测特征进行文本方向预测处理，得到目标图像对应的文本方向检测结果。

需要说明的是，在调用文本检测模型对目标图像进行文本检测处理之前，需要先训练得到文本检测模型。在一种可能实现方式中，以调用文本检测模型能够获取分类结果、分割结果、文本类别检测结果和文本方向检测结果的情况为例，训练得到文本检测模型的过程为：

获取训练数据，训练数据包括训练图像、训练图像对应的标准分类结果、标准分割结果、标准文本类别检测结果和标准文本方向检测结果；调用初始文本检测模型对训练图像进行文本检测处理，得到预测分类结果、预测分割结果、预测文本类别检测结果和预测文本方向检测结果；基于预测分类结果和标准分类结果获取第一损失函数；基于预测分割结果和标准分割结果获取第二损失函数；基于预测文本类别检测结果和标准文本类别检测结果获取第三损失函数；基于预测文本方向检测结果和标准文本方向检测结果获取第四损失函数；基于第一损失函数、第二损失函数、第三损失函数和第四损失函数，计算目标损失函数；利用目标损失函数反向更新初始文本检测模型的参数；再次获取训练数据执行上述过程，直至满足训练终止条件，得到训练好的文本检测模型。

需要说明的是，作为正样本的训练数据中的训练图像为与对待识别物的目标图像进行文本识别的应用场景相同的应用场景下采集的图像，以提高对目标图像的文本检测处理效果。

在示例性实施例中，本申请实施例对基于模型输出的预测结果和训练数据中的标准结果获取损失函数的实现方式不加以限定。示例性地，基于预测分类结果和标准分类结果获取第一损失函数的实现方式为：计算预测分类结果和标准分类结果之间的交叉熵损失函数，将计算得到的交叉熵损失函数作为第一损失函数。示例性地，基于预测分割结果和标准分割结果获取第二损失函数的实现方式为：分别计算预测分割结果和标准分割结果之间的交叉熵损失函数和Dice(戴斯)损失函数，将计算得到的交叉熵损失函数和Dice损失函数的加权平均值作为第二损失函数。

示例性地，基于预测文本类别检测结果和标准文本类别检测结果获取第三损失函数的实现方式为：计算预测文本类别检测结果和标准文本类别检测结果之间的交叉熵损失函数，将计算得到的交叉熵损失函数作为第三损失函数。示例性地，基于预测文本方向检测结果和标准文本方向检测结果获取第四损失函数的实现方式为：计算预测文本类别检测结果和标准文本方向检测结果之间的交叉熵损失函数，将计算得到的交叉熵损失函数作为第四损失函数。

需要说明的是，以上所述仅介绍了调用文本检测模型能够获取分类结果、分割结果、文本类别检测结果和文本方向检测结果的情况下，训练得到文本检测模型的过程。对于调用文本检测模型仅能够获取文本类别检测结果和文本方向检测结果的情况；或者，调用文本检测模型仅能够获取分类结果、文本类别检测结果和文本方向检测结果的情况；或者，调用文本检测模型仅能够获取分割结果、文本类别检测结果和文本方向检测结果的情况，训练得到文本检测模型的过程可以通过对上述过程进行微调得到。

示例性地，对于调用文本检测模型仅能够获取文本类别检测结果和文本方向检测结果的情况，在训练得到文本检测模型的过程中仅需获取上述过程中的第三损失函数和第四损失函数，进而基于第三损失函数和第四损失函数计算得到的目标损失函数反向更新文本检测模型的参数即可。

在一种可能实现方式中，对目标图像进行文本检测处理，得到目标图像对应的文本类别检测结果和文本方向检测结果的实现过程为：响应于基于目标图像未获取到待识别物的完整角点，对目标图像进行文本检测处理，得到目标图像对应的文本类别检测结果和文本方向检测结果。也就说，在示例性实施例中，仅在基于目标图像未获取到待识别物的完整角点的情况下，再执行步骤202，以提高文本识别过程的效率。

待识别物的完整角点与待识别物的形状有关，示例性地，对于证件类型的待识别物，待识别物的形状为矩形，此种情况下，待识别物的完整角点是指待识别物的四个顶点。当基于目标图像未获取到待识别物的完整角点时，说明目标图像中的待识别物不完整，此时，无法基于传统的文本识别方式实现良好效果的文本识别，执行本申请实施例中的步骤202，以为后续良好地进行文本识别提供数据支持。需要说明的是，本申请实施例对从目标图像中获取待识别物的角点的方式不加以限定，示例性地，基于角点检测算法从目标图像中获取待识别物的角点，例如，角度检测算法为Moravec(莫拉韦克)角点检测算法、Harris(哈里斯)角点检测算法、FAST(快速)角点检测算法等。

在示例性实施例中，当基于目标图像获取到待识别物的完整角点时，可以直接对待识别物的完整角点对应的区域进行仿射变换，以将目标图像中的待识别物进行矫正，然后直接从矫正后的待识别物中检测出文本条目区域并进行文本识别。

例如，调用文本检测模型对目标图像进行文本检测处理的过程如图4所示。将尺寸为512×512维的目标图像400输入文本检测模型，通过第一下采样处理、第二下采样处理、第三下采样处理、第四下采样处理、第五下采样处理和卷积处理，依次得到尺寸为256×256维的第一图像特征401、尺寸为128×128维的第二图像特征402、尺寸为64×64维的第三图像特征403、尺寸为32×32维的第四图像特征404、尺寸为16×16维的第五图像特征405和尺寸为16×16维的分类特征406。对分类特征406进行分类处理，得到目标图像对应的分类结果407，分类结果407的尺寸为1×1×n(n为不小于1的整数)，n表示候选具体类别的数量。基于目标图像获取分类特征的过程由文本检测模型中的网络骨架实现。

基于分类特征，依次获取第六图像特征408、第七图像特征409、第八图像特征410、分割特征411和预测特征412。对分割特征411进行分割处理，得到目标图像对应的分割结果413，该分割结果413的尺寸为l×128×128(l为不小于1的整数)，l表示候选分割类别的数量；对预测特征412进行文本类别预测处理，得到文本类别检测结果414，该文本类别检测结果414的尺寸为m×256×256(m为不小于1的整数)，m表示候选文本类别的数量；对预测特征412进行文本方向预测处理，得到文本方向检测结果415，该文本方向检测结果415的尺寸为k×256×256(k为不小于1的整数)，k表示候选文本方向的数量，例如，k为5。

在步骤203中，基于目标图像、文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像。

在得到目标图像对应的文本类别检测结果和文本方向检测结果后，基于目标图像、文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像。待识别文本图像是指需要识别的文本序列的图像。待识别文本图像的数量为一个或多个，本申请实施例对此不加以限定。

在一种可能实现方式中，基于目标图像、文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像的过程包括以下步骤2031至步骤2033：

步骤2031：基于文本类别检测结果，从目标图像中确定至少一个目标文本条目区域，任一目标文本条目区域中的像素对应的文本类别信息指示的文本类别相同。

文本类别检测结果包括目标图像中的各个像素分别对应的文本类别信息。根据各个像素分别对应的文本类别信息用于指示各个像素分别对应的文本类别。在一种可能实现方式中，基于文本类别检测结果，从目标图像中确定至少一个目标文本条目区域的过程包括以下步骤A和步骤B：

步骤A：基于文本类别检测结果，从目标图像中确定至少一个初始文本条目区域，任一初始文本条目区域中的像素对应的文本类别信息指示的文本类别相同。

至少一个初始文本条目区域是指根据文本类别检测结果能够确定的全部文本条目区域。在一种可能实现方式中，基于文本类别检测结果，从目标图像中确定至少一个初始文本条目区域的方式为：利用滑动窗口在目标图像中进行遍历，将对应的文本类别信息指示的文本条目类别相同且处于连通区域中的像素构成的区域作为一个初始文本条目区域。需要说明的是，不同的初始文本条目区域中的像素对应的文本类别信息指示的文本类别可能相同，也可能不同，本申请实施例对此不加以限定。在一种可能实现方式中，初始文本条目区域可以用旋转矩形框来描述，通过确定旋转矩形框的四个角点，能够确定一个初始文本条目区域。

在一种可能实现方式中，在确定至少一个初始文本条目区域后，将每个初始文本条目区域中的像素对应的文本类别信息指示的文本类别作为该初始文本条目区域对应的文本类别，由此，能够得到至少一个初始文本条目区域分别对应的文本类别。

步骤B：在至少一个初始文本条目区域中确定至少一个目标文本条目区域。

目标文本条目区域是指需要识别出文本的文本条目区域。在一种可能实现方式中，在至少一个初始文本条目区域中确定至少一个目标文本条目区域的方式包括但不限于以下两种：

方式1：将至少一个初始文本条目区域均作为目标文本条目区域。

方式2：对至少一个初始文本条目区域进行筛选处理，将筛选处理后剩余的文本条目区域作为目标文本条目区域。

对至少一个初始文本条目区域进行筛选处理的处理方式可以根据经验设置，也可以根据业务需求或者应用场景灵活调整，本申请实施例对此不加以限定。

在示例性实施例中，对至少一个初始文本条目区域进行筛选处理，将筛选处理后剩余的文本条目区域作为目标文本条目区域的过程为：将至少一个初始文本条目区域中处于待标识物的所在区域之内的初始文本条目区域作为第一文本条目区域；将至少一个第一文本条目区域中对应的文本类别为参考类别的第一文本条目区域作为第二文本条目区域；对至少一个第二文本条目区域进行NMS(Non-Maximum Suppression，非极大值抑制)处理，将剩余的文本条目区域作为目标文本条目区域。

待标识物的所在区域可以基于目标图像对应的分割结果得到，由于需要识别的是待识别物中的文本，所以，仅将处于待识别物的所在区域之内的初始文本条目区域作为第一文本条目区域，处于待识别物的所在区域之外的初始文本条目区域不作考虑。

参考类别根据待识别物的类别以及应用需求确定，本申请实施例对此不加以限定。示例性地，假设待识别物为身份证件，应用需求为自动识别出身份证件中的姓名和身份证件号码填充至实名认证页面中，此种情况下，参考类别为姓名条目和公民身份号码条目。将对应的文本类别为姓名条目的第一文本条目区域和对应的文本类别为公民身份号码条目的第一文本条目区域作为第二文本条目区域。需要说明的是，参考类别的数量为一个或多个，本申请实施例对此不加以限定，第二文本条目区域的数量可以与第一文本条目区域的数量相同，也可以少于第一文本条目区域的数量。

NMS处理能够将第二文本条目区域中的冗余文本条目区域进行适当的剔除，保留具有代表性的第二文本条目区域作为目标文本条目区域。

需要说明的是，在上述对至少一个初始文本条目区域进行筛选处理，将筛选处理后剩余的文本条目区域作为目标文本条目区域的过程中，依次执行了区域限制处理、文本类别限制处理以及NMS处理这三种处理过程。在示例性实施例中，区域限制处理、文本类别限制处理以及非极大值抑制处理这三种处理过程的执行顺序不局限于此，可以进行灵活调整，例如，依次执行区域限制处理、NMS处理和文本类别限制处理；或者，依次执行NMS处理、区域限制处理和文本类别处理等等。

在示例性实施例中，在对至少一个初始文本条目区域进行筛选处理的过程，可以仅执行区域限制处理、文本类别限制处理以及NMS处理这三种处理过程中的任一种或者两种，本申请实施例对此不加以限定。当执行区域限制处理、文本类别限制处理以及NMS处理这三种处理过程中的任两种处理过程时，本申请实施例对两种处理过程的执行先后顺序不加以限定。

步骤2032：基于文本方向检测结果，确定至少一个目标文本条目区域分别对应的文本条目方向，任一目标文本条目区域对应的文本条目方向基于任一目标文本条目区域中的像素对应的文本方向信息确定。

文本方向检测结果包括目标图像中的各个像素分别对应的文本方向信息，各个像素分别对应的文本方向信息用于指示各个像素分别对应的文本方向。在一种可能实现方式中，基于文本方向检测结果，确定至少一个目标文本条目区域分别对应的文本条目方向的方式为：对于至少一个目标文本条目区域中的任一目标文本条目区域，基于文本方向检测结果确定该任一目标文本条目区域中的各个像素分别对应的文本方向；基于该任一目标文本条目区域中的各个像素分别对应的文本方向，确定该任一目标文本条目区域对应的文本条目方向。

在一种可能实现方式中，基于任一目标文本条目区域中的各个像素分别对应的文本方向，确定该任一目标文本条目区域对应的文本条目方向的方式为：基于任一目标文本条目区域中的各个像素分别对应的文本方向，统计每个文本方向分别对应的像素数量，将对应的像素数量最多的文本方向作为该任一目标文本条目区域对应的文本条目方向。基于此种方式确定的文本条目方向可以视为是根据像素对应的文本方向投票决定的文本条目方向。

基于上述方式可以获取各个目标文本条目区域分别对应的文本条目方向。需要说明的是，不同的目标文本条目区域对应的文本条目方向可能相同，也可能不同，本申请实施例对此不加以限定。

在示例性实施例中，若确定待识别物中的各个目标文本条目区域均对应相同的文本条目方向，则基于文本方向检测结果，获取至少一个目标文本条目区域分别对应的文本条目方向的过程为：基于文本方向检测结果，确定各个目标文本条目区域中的全部像素分别对应的文本方向；基于全部像素分别对应的文本方向，统计每个文本方向分别对应的像素数量，将对应的像素数量最多的文本方向作为指定文本条目方向，将该指定文本条目方向作为至少一个目标文本条目区域统一对应的文本条目方向。在示例性实施例中，当待识别物为证件时，待识别物中的各个文本条目区域均对应相同的文本条目方向。

步骤2033：基于至少一个目标文本条目区域和至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像。

待识别文本图像为最终需要进行文本识别处理的图像。在一种可能实现方式中，基于至少一个目标文本条目区域和至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像的过程包括以下步骤20331至步骤20333：

步骤20331：基于至少一个目标文本条目区域分别对应的文本条目方向，确定至少一个目标文本条目区域分别对应的旋转角度。

目标文本条目区域对应的文本条目方向用于指示目标文本条目区域中的目标文本条目当前所处的文本方向，目标文本条目区域对应的旋转角度用于指示将目标文本条目区域中的目标文本条目调正所需旋转的角度。

在一种可能实现方式中，基于任一目标文本条目区域对应的文本条目方向，确定该任一目标文本条目区域对应的旋转角度的方式为：基于任一目标文本条目区域对应的文本条目方向，确定从该任一目标文本条目区域对应的文本条目方向旋转至正文本方向所需的角度，将该角度作为该任一目标文本条目区域对应的旋转角度。例如，假设任一目标文本条目区域对应的文本条目方向为正文本方向逆时针旋转90度后的文本方向，则从该任一目标文本条目区域对应的文本条目方向旋转至正文本方向所需的角度为顺时针90度或者逆时针270度。

需要说明的是，从任一目标文本条目区域对应的文本条目方向旋转至正文本方向所需的角度可以是指逆时针旋转所需的角度，也可以是指顺时针旋转所需的角度，本申请实施例对此不加以限定。在确定各个目标文本条目区域分别对应的旋转角度的过程中，以相同的旋转方向进行确定，以保证各个目标文本条目区域分别对应的旋转角度之间的可比性。

步骤20332：在目标图像中对至少一个目标文本条目区域进行图像截取，得到至少一个目标文本条目区域分别对应的截取图像。

目标文本条目区域处于目标图像中，在目标图像中对至少一个目标文本条目区域进行图像截取，能够得到各个目标文本条目区域分别对应的截取图像。目标文本条目区域对应的截取图像为包括目标文本条目的图像。

步骤20333：对于至少一个目标文本条目区域中的任一目标文本条目区域，将任一目标文本条目区域对应的截取图像按照任一目标文本条目区域对应的旋转角度进行旋转，得到任一目标文本条目区域对应的待识别文本图像。

由于目标文本条目区域对应的截取图像中的目标文本条目的方向可能不为正方向，直接对目标文本条目区域对应的截取图像进行文字识别处理可能会造成识别错误，所以，将目标文本条目区域对应的截取图像按照目标文本条目区域对应的旋转角度进行旋转，从而使得旋转后的图像中的目标文本条目为正方向的文本条目，将旋转后的图像作为目标文本条目区域对应的待识别文本图像，该待识别文本图像中的待识别文本为正方向的文本，有利于提高文本识别的准确率。

需要说明的是，在基于步骤20333获取各个目标文本条目区域对应的待识别文本图像的过程中，可以将每个目标文本条目区域对应的截取图像按照对应的旋转角度依次进行旋转，也可以将一组对应相同的旋转角度的目标文本条目区域对应的截取图像按照该相同的旋转角度同时进行旋转，本申请实施例对此不加以限定。

在另一种可能实现方式中，基于至少一个目标文本条目区域和至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像的过程包括以下步骤2033a和步骤2033b：

步骤2033a：基于至少一个目标文本条目区域分别对应的文本条目方向，确定至少一个目标文本条目区域分别对应的旋转角度。

该步骤2033a的实现方式参见步骤20331，此处不再赘述。

步骤2033b：根据至少一个目标文本条目区域分别对应的旋转角度对目标图像进行旋转处理，基于旋转处理得到的旋转图像，获取至少一个目标文本条目区域分别对应的待识别文本图像。

需要说明的是，旋转处理得到的旋转图像的数量可能为一个或多个，与实际的旋转处理过程有关。基于一个旋转图像可能获取一个或多个目标文本条目区域对应的待识别文本图像，本申请实施例对此不加以限定。

在一种可能实现方式中，步骤2033b的实现过程包括以下四个步骤：

步骤1：按照至少一个目标文本条目区域分别对应的旋转角度对至少一个目标文本条目区域进行分组，得到至少一个文本条目区域组，任一文本条目区域组中的目标文本条目区域对应的旋转角度相同。

将对应的旋转角度相同的目标文本条目区域划分到同一个文本条目区域组中，得到至少一个文本条目区域组。需要说明的是，不同文本条目区域组中包括的目标文本条目区域的数量可能相同，也可能不同，本申请实施例对此不加以限定。

在一种可能实现方式中，在得到至少一个文本条目区域组后，对至少一个文本条目区域组进行排序，以便于后续按照排列顺序依次对各个文本条目区域组进行处理。需要说明的是，本申请实施例对对至少一个文本条目区域组进行排序的方式不加以限定，示例性地，可以根据随机排序的方式对至少一个文本条目区域进行排序，还可以根据包括的目标文本条目区域对应的旋转角度从小到大或者从大到小的顺序对至少一个文本条目区域进行排序等。

步骤2：将目标图像按照至少一个文本条目区域组中的第一个文本条目区域组对应的旋转角度进行旋转，得到第一个旋转图像，在第一个旋转图像中对第一个文本条目区域组中的目标文本条目区域进行图像截取，得到第一个文本条目区域组中的目标文本条目区域对应的待识别文本图像。

其中，第一个文本条目区域组对应的旋转角度为第一个文本条目区域组中的目标文本条目区域对应的旋转角度。

步骤2介绍了获取第一个文本条目区域组中的目标文本条目区域对应的待识别文本图像的过程。需要说明的是，第一个文本条目区域组可以是指至少一个文本条目区域组中未被处理过的任一文本条目区域组。在得到至少一个文本条目区域组后，还对至少一个文本条目区域组进行排序的情况，第一个文本条目区域组是指排列在第一位的文本条目区域组。

在获取第一个文本条目区域组中的目标文本条目区域对应的待识别文本图像的过程中，首先将目标图像按照该第一个文本条目区域对应的旋转角度进行旋转，得到第一个旋转图像。第一个文本条目区域组对应的旋转角度为第一个文本条目区域组中的目标文本条目区域对应的旋转角度，在得到的第一个旋转图像中，第一个文本条目区域组中的目标文本条目区域中的目标文本条目为正方向的文本条目。在第一个旋转图像中对第一个文本条目区域组中的目标文本条目区域进行图像截取，得到第一个文本条目区域组中的目标文本条目区域对应的待识别文本图像。待识别文本图像中的目标文本条目为正方向的文本条目。

在此种过程中，能够通过旋转一次目标图像，使第一个文本条目区域组中的各个目标文本条目区域均调正，有利于提高获取待识别文本图像的效率。

步骤3：将上一个旋转图像按照至少一个文本条目区域组中的下一个文本条目区域组对应的旋转角度进行旋转，得到下一个旋转图像，在下一个旋转图像中对下一个文本条目区域组中的目标文本条目区域进行图像截取，得到下一个文本条目区域组中的目标文本条目区域对应的待识别文本图像。

其中，下一个文本条目区域组对应的旋转角度为下一个文本条目区域组中的目标文本条目区域对应的旋转角度与上一个文本条目区域组中的目标文本条目区域对应的旋转角度之间的差异角度。

步骤3介绍了获取除第一个文本条目区域组外的其他文本条目区域组中的目标文本条目区域对应的待识别文本图像的过程。对于除第一个文本条目区域组外的其他文本条目区域组而言，下一个文本条目区域组对应的旋转角度为下一个文本条目区域组中的目标文本条目区域对应的旋转角度与上一个文本条目区域组中的目标文本条目区域对应的旋转角度之间的差异角度。

示例性地，假设下一个文本条目区域组为第二个文本条目区域组，则上一个文本条目区域组为第一个文本条目区域组，第一个文本条目区域组中的目标文本条目区域对应的旋转角度为顺时针旋转30度，第二个文本条目区域组中的目标文本条目区域对应的旋转角度为顺时针旋转90度，则第二个目标文本条目区域组对应的旋转角度为顺时针旋转60度。

将上一个旋转图像按照下一个文本条目区域组对应的旋转角度进行旋转，在得到的下一个旋转图像中，下一个文本条目区域组中的目标文本条目区域中的目标文本条目为正方向的文本条目，从而使得从下一个旋转图像中截取出的待识别文本图像均为正文本序列对应的图像。

步骤4：以此类推，直至得到至少一个目标文本条目区域分别对应的待识别文本图像。

当存在未处理过的文本条目区域组时，继续根据步骤3中的步骤获取新的文本条目区域组中的目标文本条目区域对应的待识别文本图像，直至得到至少一个目标文本图像分别对应的待识别文本图像。此时，得到的待识别文本图像均为正文本序列的图像，有利于提高文本识别的准确率。

需要说明的是，本申请实施例对文本条目区域组的数量不加以限定，示例性地，假设全部目标文本条目区域对应的旋转角度均相同，则此时文本条目区域组的数量为一个，此种情况下，直接基于步骤1和步骤2即可得到至少一个目标文本条目区域分别对应的待识别文本图像。

需要说明的是，以上所述步骤1至步骤4仅为实现步骤2033b的一种示例性描述。在示例性实施例中，在执行上述步骤1和步骤2后，可以将第一个旋转图像恢复至旋转前的状态，得到恢复后的图像；然后将恢复后的图像按照下一个文本条目区域组中的目标文本条目区域对应的旋转角度进行旋转，得到下一个旋转图像，在下一个旋转图像中对下一个文本条目区域组中的目标文本条目区域进行图像截取，得到下一个文本条目区域组中的目标文本条目区域对应的待识别文本图像，将下一个旋转图像同样恢复至旋转前的状态，得到恢复后的图像；以此类推，直至得到至少一个目标文本条目区域分别对应的待识别文本图像。

在另一种可能实现方式中，还可以将每个目标文本条目区域均作为一个文本条目区域组，进而根据上述步骤2至步骤4获取各个目标文本条目区域分别对应的待识别文本图像。在此种情况下，对图像进行旋转的次数与目标文本条目区域的数量相同。需要说明的是，在本申请实施例中，将旋转0度也称为一次旋转。

在一种可能实现方式中，基于至少一个目标文本条目区域和至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像的过程为：对至少一个目标文本条目区域分别进行仿射变换，得到仿射变换后的至少一个目标文本条目区域；基于仿射变换后的至少一个目标文本条目区域和仿射变换后的至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像。在示例性实施例中，仿射变换后的至少一个目标文本条目区域分别对应的文本条目方向与仿射变换前的至少一个目标文本条目区域分别对应的文本条目方向相同。也就是说，直接将仿射变换前的至少一个目标文本条目区域分别对应的文本条目方向作为仿射变换后的至少一个目标文本条目区域分别对应的文本条目方向。

在此种过程中，增加了对目标文本区域进行仿射变换的过程，对目标文本条目区域进行仿射变换能够较大程度上消除目标文本条目区域中的目标文本条目的几何畸变，得到水平的目标文本条目区域。目标文本条目区域可以利用一个旋转矩形框描述，这样可以适应任何角度，对目标文本条目区域进行仿射变换的过程可以通过对旋转矩形框进行仿射变换来实现。

在示例性实施例中，目标文本条目区域可以利用带有颜色的旋转矩形框描述，以便于直观辨别出各个目标文本条目区域所在位置以及直观辨别出不同的目文本条目区域。例如，标记有目标文本条目区域的目标图像如图5所示。在图5中，利用带有颜色的旋转矩形框描述目标文本条目区域，不同的目标文本条目区域具有利用不同的颜色进行标记。

在示例性实施例中，基于仿射变换后的至少一个目标文本条目区域和仿射变换后的至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像的实现过程可以参见上述步骤20331至步骤20333或者参见上述步骤2033a和步骤2033b，只需将目标文本条目区域替换为仿射变换后的目标文本条目区域，将目标文本条目区域对应的文本条目方向替换为仿射变换后的目标文本条目区域对应的文本条目方向即可。在此种情况下，得到的待识别文本图像中的文本序列为水平正方向的文本序列。

在一种可能实现方式中，在获取至少一个待识别文本图像之后，还包括：对至少一个待识别文本图像进行排序处理，得到排序处理后的至少一个待识别文本图像。对至少一个待识别文本图像进行排序处理能够将构成同一文本序列的待识别文本图像按照文本序列中的先后顺序依次排列。此种方式能够根据识别出的文本快速确定出最终需要进行实际应用的文本序列。示例性地，对于完整的住址文本被划分到两个待识别文本图像中的情况，按照包括的部分住址文本的先后顺序对这两个待识别文本图像进行相邻排列，以根据识别出的文本快速确定完整的住址文本。

在一种可能实现方式中，在基于目标图像、文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像之前，先判断执行条件是否满足第一参考条件，在执行条件满足第一参考条件时再基于目标图像、文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像，以提高待识别文本图像的获取效果。也就是说，响应于执行条件满足第一参考条件，基于目标图像、文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像。

第一参考条件包括面积占比不小于第一阈值且文本类别检测结果指示目标图像中存在文本条目区域执行条件是指当前的执行条件。其中，面积占比是指待识别物在目标图像中的面积占比。也就是说，在判断执行条件是否满足第一参考条件之前，需要先确定面积占比。在一种可能实现方式中，确定面积占比的过程为：获取目标图像对应的分割结果；基于分割结果确定待识别物在目标图像中的面积占比。需要说明的是，获取目标图像对应的分割结果的方式可以为步骤202中所述的在调用文本检测模型对目标图像进行文本检测处理的过程中获取，也可以为调用单独的分割模型对目标图像进行分割处理获取，本申请实施例对此不加以限定。

目标图像对应的分割结果用于指示目标图像中的各个像素分别对应的分割类别。任一像素对应的分割类别用于指示该任一像素是否属于待识别物。根据分割结果能够分析出待识别物在目标图像中的所在区域，进而根据待识别物在目标图像中的所在区域确定待识别物在目标图像中的面积占比。

第一阈值根据经验设置或者根据应用场景灵活调整，例如，第一阈值为0.33。当待识别物在目标图像中的面积占比不小于第一阈值时，说明待识别物在目标图像中的面积占比较大。文本类别检测结果指示目标图像中存在文本条目区域说明目标图像中能够计算出文本条目区域。在一种可能实现方式中，目标图像中不存在文本条目区域的情况包括但不限于：文本类别检测结果指示不存在任何属于文本条目的像素；或者，文本类别检测结果指示属于各个文本类别的像素的数量均少于数量阈值。当不满足上述目标图像中不存在文本条目区域的情况时，说明文本类别检测结果指示目标图像中存在文本条目区域。

当面积占比不小于第一阈值且文本类别检测结果指示目标图像中存在文本条目区域时，说明能够得到可靠性较高的待识别文本图像，此时认为执行条目满足第一参考条件，从而基于目标图像、文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像，此种方式能够提高获取的待识别文本图像的可靠性。

在一种可能实现方式中，还包括以下两种情况：

情况1：执行条件满足第二参考条件。其中，第二参考条件包括面积占比小于第二阈值，第二阈值小于第一阈值。

在此种情况1下，说明待识别物在目标图像中的面积占比极小，基于此种目标图像无法得到可靠的文本识别结果。在此种情况1下，直接确定文本识别失败。也就是说，响应于执行条件满足第二参考条件，确定文本识别失败。第二参考条件包括面积占比小于第二阈值，第二阈值根据经验设置或者根据应用场景灵活调整，本申请实施例对此不加以限定，只需第二阈值小于第一阈值即可。例如，第二阈值为0.05。

情况2：执行条件不满足第二参考条件且不满足第一参考条件。

第一参考条件包括面积占比不小于第一阈值且文本类别检测结果指示目标图像中存在文本条目区域，第二参考条件包括面积占比小于第二阈值(第二阈值小于第一阈值)，因此，执行条件不满足第二参考条件且不满足第一参考条件包括以下三种子情况：

1、面积占比大于第二阈值、面积占比小于第一阈值，且文本类别检测结果指示目标图像中存在文本条目区域。

2、面积占比大于第二阈值、面积占比小于第一阈值，且文本类别检测结果指示目标图像中不存在文本条目区域。

3、面积占比大于第一阈值且文本类别检测结果指示目标图像中不存在文本条目区域。

在满足上述三种子情况中的任一子情况时，说明既无法直接确定文本识别失败，也无法直接获取到效果良好的待识别文本图像。在此种情况2下，响应于执行条件不满足第二参考条件且不满足第一参考条件，基于分割结果在目标图像中对待识别物的所在区域进行图像截取；基于截取得到的图像获取至少一个待识别文本图像。截取得到的图像中待识别物的面积占比较大，基于截取到的图像获取的待识别文本图像的可靠性较高，有利于提高文本识别的准确率。

基于截取到的图像获取至少一个待识别文本图像的过程为：对截取到的图像进行文本检测处理，得到截取到的图像对应的文本类别检测结果和文本方向检测结果；基于截取到的图像、截取到的图像对应的文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像。此过程的实现方式参见步骤202和步骤203，此处不再赘述。

示例性的，对目标图像进行文本检测处理后，根据文本检测处理后得到的检测结果获取待识别文本图像的过程如图6所示。对目标图像进行文本检测处理后得到检测结果，检测结果包括分割结果、文本类别检测结果和文本方向检测结果。根据分割结果确定待识别物在目标图像中的面积占比。通过判断面积占比是否小于第二阈值，判断执行条件是否满足第二参考条件。当执行条件满足第二参考条件时，直接确定文本识别失败。当执行条件不满足第二参考条件时，执行计算文本条目区域的过程，在执行计算文本条目区域的过程中，判断执行条件是否满足第一参考条件，若执行条件满足第一参考条件，则获取待识别文本图像；若执行条件不满足第一参考条件，则执行二次检测操作。

获取待识别文本图像的过程包括：对初始文本条目区域依次进行区域限制处理、文本类别限制处理和NMS处理，得到目标文本条目区域；对目标文本条目区域进行仿射变换，通过旋转图像的方式对仿射变换后的目标文本条目区域进行方向调整，得到待识别文本图像，对待识别图像进行排序处理，得到排序处理后的待识别文本图像。二次检测操作是指基于分割结果在目标图像中对待识别物的所在区域进行图像截取；对截取到的图像进行文本检测处理，得到截取到的图像对应的文本类别检测结果和文本方向检测结果，返回计算文本条目区域的步骤。

需要说明的是，在判断执行条件是否满足第一参考条件的过程中，可以同时判断面积占比是否不小于第一阈值，以及判断文本类别检测结果是否指示目标图像中存在文本条目区域，两个判断分支可以并列执行，在两个判断分支的判断结果均为是时，确定执行条件满足第一参考条件。在两个判断分支中的至少一个判断分支的判断结果为否时，确定执行条件不满足第一参考条件。需要说明的是，判断执行条件是否满足第一参考条件的过程发生在执行条件不满足第二参考条件的前提下，所以，执行条件不满足第一参考条件是指执行条件不满足第二参考条件且不满足第一参考条件。

在步骤204中，对至少一个待识别文本图像进行文本识别处理，得到至少一个待识别文本图像分别对应的识别文本。

对至少一个待识别文本图像进行文本识别处理的过程可以是指对各个待识别文本图像逐个进行文本识别处理，也可以是指对小批量的待识别文本图像同时进行文本识别处理，本申请实施例对此不加以限定。小批量根据经验设置或者根据应用场景灵活调整，示例性地，小批量为10。需要说明的是，若待识别文本图像的数量小于小批量，则将各个待识别文本图像同时进行文本识别处理。

在一种可能实现方式中，对至少一个文本识别文本图像进行文本识别处理，得到至少一个待识别文本图像分别对应的识别文本的过程为：调用文本识别模型对至少一个文本识别文本图像进行文本识别处理，得到至少一个待识别文本图像分别对应的识别文本。本申请实施例对文本识别模型的结构不加以限定，只要能够从待识别文本图像中识别出文本即可。

示例性地，文本识别模型为CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)模型。调用CRNN模型进行文本识别处理的过程如图7所示。CRNN模型中包括三个网络层，分别为卷积层、循环层和转录层。其中，卷积层基于CNN(ConvolutionalNeural Networks，卷积神经网络)实现，卷积层的作用是从待识别文本图像中提取卷积特征图，从而得到卷积特征序列。循环层基于RNN(Recurrent Neural Network，循环神经网络)实现，循环层作用是基于卷积层提取的卷积特征序列获取文本序列特征。在示例性实施例中，RNN具体可以是指深度BiLSTM(Bidirectional Long Short-Term Memory，双向长短期记忆网络)。转录层基于CTC(Connectionist Temporal Classification，联结时序分类)实现，转录层的作用是把从循环层获取的文本序列特征通过去重整合等操作转换成最终的识别文本(如图7中所示的“state”)。

在示例性实施例中，文本识别模型中的基础网络为轻量级网络结构，如ShuffleNet(混洗网络)、MobileNet(移动网络)等，以提高文本识别速度。CRNN模型能够对整个文本序列进行识别，并且能够达到很高的准确率。

在一种可能实现方式中，对于在获取至少一个待识别文本图像后，对至少一个待处理文本图像进行排序处理，得到排序处理后的至少一个待识别文本图像的情况，此步骤204的实现方式为：对排序处理后的至少一个待识别文本图像进行文本识别处理，得到排序处理后的至少一个待识别文本图像分别对应的识别文本。此种方式得到的识别文本有利于快速得到实际应用所需的文本序列。

示例性地，文本识别的过程如图8所示，首先获取待识别物的目标图像，然后基于待识别物的目标图像获取至少一个待识别文本图像，进而通过对至少一个待识别文本图像进行文本识别处理，得到识别文本。

本申请实施例提供的文本识别方法支持多种角度、多种方向拍摄的待识别物的图像的文本识别，对待识别物的图像的大小适应良好，对任意拍摄的图像具有良好的自适应性，对用户的拍摄要求低，能够保证识别的速度和精度，具备可商用的识别准确率，使得文本识别能适用于更加广泛和复杂的场景。此外，本申请实施例实现了快速高效的轻量级网络结构，保证文本检测和文本识别过程的耗时能够得到控制。在实际应用过程中，本申请实施例提供的方法可视为一种适用于固定版式的证件图像的通用识别解决方案，对于像身份证件、银行卡、行驶证、驾驶证等固定信息的证件类图像都能适用。能够帮助用户快速进行证件的结构化识别和录入，有效降低用户的输入成本，提高用户体验。

参见图9，本申请实施例提供了一种文本识别装置，该装置包括：

第一获取单元901，用于获取待识别物的目标图像，待识别物中包括待识别的文本；

第一处理单元902，用于对目标图像进行文本检测处理，得到目标图像对应的文本类别检测结果和文本方向检测结果，文本类别检测结果包括目标图像中的各个像素分别对应的文本类别信息，文本方向检测结果包括目标图像中的各个像素分别对应的文本方向信息；

第二获取单元903，用于基于目标图像、文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像；

第二处理单元904，用于对至少一个待识别文本图像进行文本识别处理，得到至少一个待识别文本图像分别对应的识别文本。

在一种可能实现方式中，第二获取单元903，用于基于文本类别检测结果，从目标图像中确定至少一个目标文本条目区域，任一目标文本条目区域中的像素对应的文本类别信息指示的文本类别相同；基于文本方向检测结果，确定至少一个目标文本条目区域分别对应的文本条目方向，任一目标文本条目区域对应的文本条目方向基于任一目标文本条目区域中的像素对应的文本方向信息确定；基于至少一个目标文本条目区域和至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像。

在一种可能实现方式中，第二获取单元903，还用于基于至少一个目标文本条目区域分别对应的文本条目方向，确定至少一个目标文本条目区域分别对应的旋转角度；在目标图像中对至少一个目标文本条目区域进行图像截取，得到至少一个目标文本条目区域分别对应的截取图像；对于至少一个目标文本条目区域中的任一目标文本条目区域，将任一目标文本条目区域对应的截取图像按照任一目标文本条目区域对应的旋转角度进行旋转，得到任一目标文本条目区域对应的待识别文本图像。

在一种可能实现方式中，第二获取单元903，还用于基于至少一个目标文本条目区域分别对应的文本条目方向，确定至少一个目标文本条目区域分别对应的旋转角度；根据至少一个目标文本条目区域分别对应的旋转角度对目标图像进行旋转处理，基于旋转处理得到的旋转图像，获取至少一个目标文本条目区域分别对应的待识别文本图像。

在一种可能实现方式中，第二获取单元903，还用于按照至少一个目标文本条目区域分别对应的旋转角度对至少一个目标文本条目区域进行分组，得到至少一个文本条目区域组，任一文本条目区域组中的目标文本条目区域对应的旋转角度相同；将目标图像按照至少一个文本条目区域组中的第一个文本条目区域组对应的旋转角度进行旋转，得到第一个旋转图像，在第一个旋转图像中对第一个文本条目区域组中的目标文本条目区域进行图像截取，得到第一个文本条目区域组中的目标文本条目区域对应的待识别文本图像；将上一个旋转图像按照至少一个文本条目区域组中的下一个文本条目区域组对应的旋转角度进行旋转，得到下一个旋转图像，在下一个旋转图像中对下一个文本条目区域组中的目标文本条目区域进行图像截取，得到下一个文本条目区域组中的目标文本条目区域对应的待识别文本图像；以此类推，直至得到至少一个目标文本条目区域分别对应的待识别文本图像；其中，第一个文本条目区域组对应的旋转角度为第一个文本条目区域组中的目标文本条目区域对应的旋转角度，下一个文本条目区域组对应的旋转角度为下一个文本条目区域组中的目标文本条目区域对应的旋转角度与上一个文本条目区域组中的目标文本条目区域对应的旋转角度之间的差异角度。

在一种可能实现方式中，第二获取单元903，还用于对至少一个目标文本条目区域分别进行仿射变换，得到仿射变换后的至少一个目标文本条目区域；基于仿射变换后的至少一个目标文本条目区域和仿射变换后的至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像。

在一种可能实现方式中，参见图10，该装置还包括：

第三处理单元905，用于对至少一个待识别文本图像进行排序处理，得到排序处理后的至少一个待识别文本图像；

第二处理单元904，用于对排序处理后的至少一个待识别文本图像进行文本识别处理，得到排序处理后的至少一个待识别文本图像分别对应的识别文本。

在一种可能实现方式中，第一获取单元901，还用于获取目标图像对应的分割结果；

参见图10，该装置还包括：

确定单元906，用于基于分割结果确定待识别物在目标图像中的面积占比；

第二获取单元903，还用于响应于执行条件满足第一参考条件，基于目标图像、文本类别检测结果和文本方向检测结果，获取至少一个待识别文本图像，第一参考条件包括面积占比不小于第一阈值且文本类别检测结果指示目标图像中存在文本条目区域。

在一种可能实现方式中，确定单元906，还用于响应于执行条件满足第二参考条件，确定文本识别失败，第二参考条件包括面积占比小于第二阈值，第二阈值小于第一阈值；

参见图10，该装置还包括：

第四处理单元907，用于响应于执行条件不满足第二参考条件且不满足第一参考条件，基于分割结果在目标图像中对待识别物的所在区域进行图像截取；基于截取得到的图像获取至少一个待识别文本图像。

在一种可能实现方式中，第一处理单元902，用于调用文本检测模型对目标图像进行文本检测处理，得到目标图像对应的文本类别检测结果和文本方向检测结果；

第二处理单元904，用于调用文本识别模型对至少一个待识别文本图像进行文本识别处理，得到至少一个待识别文本图像分别对应的识别文本。

在一种可能实现方式中，第一处理单元902，还用于响应于基于目标图像未获取到待识别物的完整角点，对目标图像进行文本检测处理，得到目标图像对应的文本类别检测结果和文本方向检测结果。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种终端的结构示意图。该终端可以是：智能手机、平板电脑、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的文本识别方法。

在一些实施例中，终端还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置在终端的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位终端的当前地理位置，以实现导航或LBS(Location BasedService，基于位置的服务)。定位组件1108可以是基于美国的GPS(Global PositioningSystem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1109用于为终端中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端的侧边框时，可以检测用户对终端的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置在终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo时，指纹传感器1114可以与物理按键或厂商Logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端的前面板。接近传感器1116用于采集用户与终端的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是本申请实施例提供的一种服务器的结构示意图，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1201和一个或多个存储器1202，其中，该一个或多个存储器1202中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1201加载并执行，以实现上述各个方法实施例提供的文本识别方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行，以实现上述任一种文本识别方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由计算机设备的处理器加载并执行，以实现上述任一种文本识别方法。

在一种可能实现方式中，上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种文本识别方法。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像、所述文本类别检测结果和所述文本方向检测结果，获取至少一个待识别文本图像，包括：

基于所述文本类别检测结果，从所述目标图像中确定至少一个目标文本条目区域，任一目标文本条目区域中的像素对应的文本类别信息指示的文本类别相同；

基于所述文本方向检测结果，确定所述至少一个目标文本条目区域分别对应的文本条目方向，任一目标文本条目区域对应的文本条目方向基于所述任一目标文本条目区域中的像素对应的文本方向信息确定；

基于所述至少一个目标文本条目区域和所述至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像。

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个目标文本条目区域和所述至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像，包括：

基于所述至少一个目标文本条目区域分别对应的文本条目方向，确定所述至少一个目标文本条目区域分别对应的旋转角度；

在所述目标图像中对所述至少一个目标文本条目区域进行图像截取，得到所述至少一个目标文本条目区域分别对应的截取图像；

对于所述至少一个目标文本条目区域中的任一目标文本条目区域，将所述任一目标文本条目区域对应的截取图像按照所述任一目标文本条目区域对应的旋转角度进行旋转，得到所述任一目标文本条目区域对应的待识别文本图像。

4.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个目标文本条目区域和所述至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像，包括：

根据所述至少一个目标文本条目区域分别对应的旋转角度对所述目标图像进行旋转处理，基于旋转处理得到的旋转图像，获取所述至少一个目标文本条目区域分别对应的待识别文本图像。

5.根据权利要求4所述的方法，其特征在于，所述根据所述至少一个目标文本条目区域分别对应的旋转角度对所述目标图像进行旋转处理，基于旋转处理得到的旋转图像，获取所述至少一个目标文本条目区域分别对应的待识别文本图像，包括：

按照所述至少一个目标文本条目区域分别对应的旋转角度对所述至少一个目标文本条目区域进行分组，得到至少一个文本条目区域组，任一文本条目区域组中的目标文本条目区域对应的旋转角度相同；

将所述目标图像按照所述至少一个文本条目区域组中的第一个文本条目区域组对应的旋转角度进行旋转，得到第一个旋转图像，在所述第一个旋转图像中对所述第一个文本条目区域组中的目标文本条目区域进行图像截取，得到所述第一个文本条目区域组中的目标文本条目区域对应的待识别文本图像；

将上一个旋转图像按照所述至少一个文本条目区域组中的下一个文本条目区域组对应的旋转角度进行旋转，得到下一个旋转图像，在所述下一个旋转图像中对所述下一个文本条目区域组中的目标文本条目区域进行图像截取，得到所述下一个文本条目区域组中的目标文本条目区域对应的待识别文本图像；

以此类推，直至得到所述至少一个目标文本条目区域分别对应的待识别文本图像；

其中，所述第一个文本条目区域组对应的旋转角度为所述第一个文本条目区域组中的目标文本条目区域对应的旋转角度；所述下一个文本条目区域组对应的旋转角度为所述下一个文本条目区域组中的目标文本条目区域对应的旋转角度与上一个文本条目区域组中的目标文本条目区域对应的旋转角度之间的差异角度。

6.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个目标文本条目区域和所述至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像，包括：

对所述至少一个目标文本条目区域分别进行仿射变换，得到仿射变换后的至少一个目标文本条目区域；

基于所述仿射变换后的至少一个目标文本条目区域和所述仿射变换后的至少一个目标文本条目区域分别对应的文本条目方向，获取至少一个待识别文本图像。

7.根据权利要求1所述的方法，其特征在于，所述获取至少一个待识别文本图像之后，所述方法还包括：

对所述至少一个待识别文本图像进行排序处理，得到排序处理后的至少一个待识别文本图像；

所述对所述至少一个待识别文本图像进行文本识别处理，得到所述至少一个待识别文本图像分别对应的识别文本，包括：

对所述排序处理后的至少一个待识别文本图像进行文本识别处理，得到所述排序处理后的至少一个待识别文本图像分别对应的识别文本。

8.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像、所述文本类别检测结果和所述文本方向检测结果，获取至少一个待识别文本图像之前，所述方法还包括：

获取所述目标图像对应的分割结果；

基于所述分割结果确定所述待识别物在所述目标图像中的面积占比；

所述基于所述目标图像、所述文本类别检测结果和所述文本方向检测结果，获取至少一个待识别文本图像，包括：

响应于执行条件满足第一参考条件，基于所述目标图像、所述文本类别检测结果和所述文本方向检测结果，获取至少一个待识别文本图像，所述第一参考条件包括所述面积占比不小于第一阈值且所述文本类别检测结果指示所述目标图像中存在文本条目区域。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

响应于执行条件满足第二参考条件，确定文本识别失败，所述第二参考条件包括所述面积占比小于第二阈值，所述第二阈值小于所述第一阈值；

响应于执行条件不满足所述第二参考条件且不满足第一参考条件，基于所述分割结果在所述目标图像中对所述待识别物的所在区域进行图像截取；基于截取得到的图像获取至少一个待识别文本图像。

10.根据权利要求1-9任一所述的方法，其特征在于，所述对所述目标图像进行文本检测处理，得到所述目标图像对应的文本类别检测结果和文本方向检测结果，包括：

调用文本检测模型对所述目标图像进行文本检测处理，得到所述目标图像对应的文本类别检测结果和文本方向检测结果；

调用文本识别模型对所述至少一个待识别文本图像进行文本识别处理，得到所述至少一个待识别文本图像分别对应的识别文本。

11.根据权利要求1-9任一所述的方法，其特征在于，所述对所述目标图像进行文本检测处理，得到所述目标图像对应的文本类别检测结果和文本方向检测结果，包括：

响应于基于所述目标图像未获取到所述待识别物的完整角点，对所述目标图像进行文本检测处理，得到所述目标图像对应的文本类别检测结果和文本方向检测结果。

12.一种文本识别装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至11任一所述的文本识别方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至11任一所述的文本识别方法。