CN114299500A

CN114299500A - 识别方法、装置、计算机设备和存储介质

Info

Publication number: CN114299500A
Application number: CN202111453959.7A
Authority: CN
Inventors: 王迪; 李捷; 王巍; 厉超; 赵逸如; 徐柯文
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-04-08

Abstract

本申请涉及一种识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：将待分类的目标图像输入至预先训练的文本分类检测模型，得到包含目标图像中的至少一个关键区域的文本类别以及关键区域的文本坐标的目标图像的文本分类结果。这样，可以在目标图像中，根据关键区域的文本坐标，提取关键区域的文本切片，并将文本切片输入至预设文本识别模型，得到关键区域的文本内容。本实施例所提供的方法可以仅对业务中有价值的文本进行高效检测，实现对其他文本的自动过滤，简化了文本检测的步骤。

Description

识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种识别方法、装置、计算机设备和存储介质。

背景技术

不动产登记证明是不动产权利人证明其享有不动产权力的证书。一般用于产权人申请贷款、房屋交易、产权证明等。在贷款业务、房屋交易业务、产权证明业务。在上述业务中，每天都会产生大量的不动产登记证明的录入需求。通过OCR(Optical CharacterRecognition，光学字符识别)的方式可以自动抽取不动产登记证明中的关键信息。

相关技术中，针对于不动产登记证明图像的OCR识别技术，需要进行全文本检测，得到全部文本坐标，根据识别结果与文本坐标位置，对没有价值的文本信息进行过滤。但是，由于过滤规则较为繁琐，且相关栏位还含有印章、手写体等多种干扰信息，导致无效文本过滤的效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高文本识别以及分类效率的识别方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种识别方法。所述方法包括：

将待分类的目标图像输入至预先训练的文本分类检测模型，得到所述目标图像的文本分类结果，所述文本分类结果包含所述目标图像中的至少一个关键区域的文本类别以及所述关键区域的文本坐标；

在所述目标图像中，根据所述关键区域的文本坐标，提取所述关键区域的文本切片；

将所述关键区域的文本切片输入至预设文本识别模型，得到所述关键区域的文本内容。

在其中一个实施例中，所述在所述目标图像中，根据所述关键区域的文本坐标，提取所述关键区域的文本切片，包括：

在所述目标图像的文本分类结果中，确定待检测的目标文本类别对应的目标文本坐标；

在所述目标图像中，根据所述目标文本坐标，提取所述目标文本坐标对应的目标关键区域的目标文本切片。

在其中一个实施例中，所述方法还包括：

将所述文本类别对应的第一字段、所述文本坐标对应的第二字段以及所述文本切片对应的文本内容的第三字段输入至预设的结构化输出格式的初始模版，得到所述目标图像的结构化输出结果。

在其中一个实施例中，所述方法还包括：

获取训练数据，所述训练数据包括第一样本图像以及所述第一样本图像对应的样本数据，所述样本数据中包含样本区域的类别以及各样本区域的样本坐标数据；

基于预设的拉伸系数，对所述第一样本图像以及所述样本数据进行拉伸处理，得到拉伸处理后的第一样本图像以及样本数据；

将所述第一样本图像输入至待训练的文本分类检测模型，得到预测数据，所述预测数据中包含各预测区域的类别以及所述各预测区域的预测坐标数据；

根据所述样本数据以及所述预测数据，计算训练损失函数；

根据所述训练损失函数更新所述待训练的文本分类检测模型的网络参数，并返回执行所述获取训练数据的步骤，直到所述训练损失函数满足预设训练完成条件，得到训练完成的文本分类检测模型。

在其中一个实施例中，在所述获取训练数据的步骤之后，所述方法还包括：

获取所述第一样本图像的宽度和高度；

根据所述第一样本图像的宽度和高度，确定使所述第一样本图像满足所述宽度和所述高度相同的拉伸系数。

在其中一个实施例中，所述方法还包括：

获取初始图像，所述初始图像是票据图像；

计算所述初始图像的矫正角度；

根据所述矫正角度，计算所述初始图像的旋转矩阵；

基于所述旋转矩阵，对所述初始图像进行矫正，得到矫正后的目标图像。

在其中一个实施例中，所述计算所述初始图像的矫正角度，包括：

如果所述初始图像与预设坐标系满足预设正位条件，则基于预设朝向判断模型，确定所述初始图像的目标朝向；

根据预设的朝向与矫正角度的对应关系，确定所述目标朝向对应的矫正角度。

如果所述初始图像与预设坐标系不满足预设正位条件，则根据所述初始图像的中线坐标，对所述初始图像进行分割，得到第一图像，所述第一图像是包含多段文本部分的图像；

基于预设的文本检测模型对所述第一图像进行检测，得到满足预设文本框提取条件的目标文本框；

基于预设的文本框角度计算函数，计算各所述目标文本框的初始旋转角度；

根据初始旋转角度以及第一图像中目标文本框的宽高比，计算所述目标文本框的旋转角度；

根据各目标文本框的旋转角度，计算初始图像的矫正角度。

第二方面，本申请还提供了一种识别装置。所述装置包括：

输入模块，用于将待分类的目标图像输入至预先训练的文本分类检测模型，得到所述目标图像的文本分类结果，所述文本分类结果包含所述目标图像中的至少一个关键区域的文本类别以及所述关键区域的文本坐标；

提取模块，用于在所述目标图像中，根据所述关键区域的文本坐标，提取所述关键区域的文本切片；

文本内容确定模块，用于将所述关键区域的文本切片输入至预设文本识别模型，得到所述关键区域的文本内容。

在其中一个实施例中，所述提取模块具体用于：

在其中一个实施例中，所述装置还包括：

输出模块，用于将所述文本类别对应的第一字段、所述文本坐标对应的第二字段以及所述文本切片对应的文本内容的第三字段输入至预设的结构化输出格式的初始模版，得到所述目标图像的结构化输出结果。

在其中一个实施例中，所述装置还包括：

第一获取模块，用于获取训练数据，所述训练数据包括第一样本图像以及所述第一样本图像对应的样本数据，所述样本数据中包含样本区域的类别以及各样本区域的样本坐标数据；

拉伸模块，用于基于预设的拉伸系数，对所述第一样本图像以及所述样本数据进行拉伸处理，得到拉伸处理后的第一样本图像以及样本数据；

预测模块，用于将所述第一样本图像输入至待训练的文本分类检测模型，得到预测数据，所述预测数据中包含各预测区域的类别以及所述各预测区域的预测坐标数据；

第一计算模块，用于根据所述样本数据以及所述预测数据，计算训练损失函数；

更新模块，用于根据所述训练损失函数更新所述待训练的文本分类检测模型的网络参数，并返回执行所述获取训练数据的步骤，直到所述训练损失函数满足预设训练完成条件，得到训练完成的文本分类检测模型。

在其中一个实施例中，所述装置还包括：

第二获取模块，用于获取所述第一样本图像的宽度和高度；

第一确定模块，用于根据所述第一样本图像的宽度和高度，确定使所述第一样本图像满足所述宽度和所述高度相同的拉伸系数。

在其中一个实施例中，所述装置还包括：

第三获取模块，用于获取初始图像，所述初始图像是票据图像；

第二计算模块，用于计算所述初始图像的矫正角度；

第三计算模块，用于根据所述矫正角度，计算所述初始图像的旋转矩阵；

第一矫正模块，用于基于所述旋转矩阵，对所述初始图像进行矫正，得到矫正后的目标图像。

在其中一个实施例中，所述第一矫正模块具体用于：

在其中一个实施例中，所述第一矫正模块还具体用于：

根据各目标文本框的旋转角度，计算初始图像的矫正角度。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述识别方法、装置、计算机设备、存储介质和计算机程序产品，通过将待分类的目标图像输入至预先训练的文本分类检测模型，得到包含目标图像中的至少一个关键区域的文本类别以及关键区域的文本坐标的目标图像的文本分类结果。这样，可以在目标图像中，根据关键区域的文本坐标，提取关键区域的文本切片，并将文本切片输入至预设文本识别模型，得到关键区域的文本内容。本实施例所提供的方法可以仅对业务中有价值的文本进行高效检测，实现对其他文本的自动过滤，简化了文本检测的步骤。

附图说明

图1为一个实施例中识别方法的流程示意图；

图2为一个实施例中提取目标文本切片步骤的流程示意图；

图3为一个实施例中模型训练步骤的流程示意图；

图4为一个实施例中确定拉伸系数步骤的流程示意图；

图5为一个实施例中图像矫正步骤的流程示意图；

图6为一个实施例中计算第一矫正角度步骤的流程示意图；

图7a为一个实施例中目标朝向为下的图像示意图；

图7b为一个实施例中目标朝向为左的图像示意图；

图7c为一个实施例中目标朝向为右的图像示意图；

图8为一个实施例中计算第二矫正角度步骤的流程示意图；

图9为一个实施例中不满足预设正位条件的图像示意图；

图10为一个实施例中票据图像及其识别结果的示意图；

图11为一个实施例中识别装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

相关技术中，票据可以是证明产权人拥有一项权利的证书。例如不动产登记证明是不动产权利人证明其享有不动产权力的证书。在贷款业务、房屋交易业务、产权证明业务中，每天都会产生大量的不动产登记证明录入需求。通过OCR智能识别的方式可以自动抽取不动产登记证明中的关键信息。

但是，在相关的不动产登记证明OCR识别技术中，一般都是进行全部文本的检测。根据得到的全部文本的坐标以及OCR识别结果，对没有价值的文本信息进行过滤。由于在实际应用中，文本过滤规则较为繁琐，且相关栏位含有印章、手写体等干扰文字信息，进一步导致该栏位提取结果冗余，检测效率以及识别效率较低。又由于相关技术中，一般是通过文本识别结果与预设模板直接进行配置，也就是根据坐标的相对位置对各个字段进行结构化输出，导致预先配置模版的方式完全依赖检测结果，计算复杂，效率低下，且不动产证版式较多，不同地区的版式存在一定差异，无法通用。

基于上述背景，在本发明提供的一个实施例中，如图1所示，提供了一种识别方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现，上述终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该识别方法包括以下步骤：

步骤102，将待分类的目标图像输入至预先训练的文本分类检测模型，得到目标图像的文本分类结果。

其中，文本分类结果包含目标图像中的至少一个关键区域的文本类别以及关键区域的文本坐标。

具体地，待分类的目标图像可以是具备通用版式的票据图像，例如可以是不动产登记证明票据图像、支付票据图像等等；预先训练的文本分类检测模型是通过对样本图像以及样本图像数据进行训练后得到的。样本图像数据可以包括样本图像中的样本关键区域的类别数据以及该样本关键区域的坐标数据。预先训练的文本分类检测模型用于对目标图像所包含的文字类别进行分类，以及对该文字类别对应的坐标进行检测。终端可以将待分类的目标图像输入至预先已经训练完成的文本分类检测模型中，得到该模型输出的目标图像的文本分类结果(文本分类检测结果)。该文本分类结果包含该目标图像中至少一个关键区域的文本类别数据以及该关键区域的文本坐标数据。

可选地，目标图像可以是不动产登记证明票据图像，那么预先训练的文本分类检测模型输出的文本分类结果中所包含的关键区域的文本类别可以包括证明权利或事项类别、权利人(申请人)类别、义务人类别、坐落类别等等。

步骤104，在目标图像中，根据关键区域的文本坐标，提取关键区域的文本切片。

具体地，关键区域的文本坐标可以是在目标图像对应的预设坐标系中，各个关键区域的坐标数据。也就是说，终端可以通过文本坐标数据，在目标图像的预设坐标系中，获取该文本坐标对应的文本切片。

步骤106，将关键区域的文本切片输入至预设文本识别模型，得到关键区域的文本内容。

具体地，预设文本识别模型可以是能够识别文本切片中的文字内容的模型，例如可以是CRNN-CTC模型(Convolutional Recurrent Neural Network-ConnectionistTemporal Classification，文字识别网络)，该模型的网络结构为卷积循环神经网络结构(CRNN)，损失函数为连结时序分类(CTC)。终端将该关键区域的文本切片输入至预设文本识别模型，可以得到该关键区域的文本内容。也就是说，终端可以得到目标图像中各关键区域的文本类别、各关键区域的文本坐标以及各关键区域的文本内容。

上述识别方法中，结合通过将待分类的目标图像输入至预先训练的文本分类检测模型，得到包含目标图像中的至少一个关键区域的文本类别以及关键区域的文本坐标的目标图像的文本分类结果。这样，可以在目标图像中，根据关键区域的文本坐标，提取关键区域的文本切片，并将文本切片输入至预设文本识别模型，得到关键区域的文本内容。本实施例所提供的方法可以仅对业务中有价值的文本进行高效检测，实现对其他文本的自动过滤，简化了文本检测的步骤。

在一个实施例中，如图2所示，步骤104“在目标图像中，根据关键区域的文本坐标，提取关键区域的文本切片”的具体处理过程，包括：

步骤202，在目标图像的文本分类结果中，确定待检测的目标文本类别对应的目标文本坐标。

具体地，终端可以预先获取待检测的目标文本类别。即，终端可以根据用户的分类需求确定待检测的目标文本类别。这样，终端可以在预先训练的文本分类检测模型输出的该目标图像的文本分类结果中，筛选目标文本类别对应的目标关键区域，以及该目标关键区域的目标文本坐标。

可选地，预先训练的文本分类检测模型输出的文本分类结果中所包含的关键区域的文本类别可以包括证明权利或事项类别、权利人(申请人)类别、义务人类别、坐落类别等等。终端根据用户检测策略确定的目标文本类别可以是“义务人类别”。这样，终端会在文本分类结果中进行筛选，提取“义务人类别”的关键区域，以及该关键区域的文本坐标。

步骤204，在目标图像中，根据目标文本坐标，提取目标文本坐标对应的目标关键区域的目标文本切片。

具体地，终端可以根据目标文本坐标，在目标图像中提取对应的关键区域的文本切片。也就是说，终端可以在目标图像中，基于该目标文本坐标，确定对应的目标关键区域，即目标文本坐标对应的目标关键区域。这样，终端就可以得到该目标关键区域对应的目标文本切片。

本实施例中，通过根据用户的检测需求确定待检测的目标文本类别，有选择性的提取目标图像中的目标文件切片，提取过程简单且高效。

在一个实施例中，该识别方法还包括：

将文本类别对应的第一字段、文本坐标对应的第二字段以及文本切片对应的文本内容的第三字段输入至预设的结构化输出格式的初始模版，得到目标图像的结构化输出结果。

具体地，终端获取到的第一字段、第二字段以及第三字段可以是JSON(JavaScriptObject Notation，轻量级数据交互)格式的字段。预设的结构化输出格式可以是JSON格式，预设的结构化输出格式的初始模版可以是待输入具体字段的数据表。例如终端可以是将获取到的目标文本类别对应的第一字段、目标文本坐标对应的第二字段以及目标文本切片对应的文本内容的第三字段输入至，预设的结构化输出格式的初始模版中对应的空缺位置，可以得到目标图像的结构化输出结果。

本实施例中，通过将多个字段分别输入至预设的初始模板中，可以快速、高效地进行不动产登记证明的结构化提取，本实施例中通过直接将文本检测结果与模型的识别结果进行封装，可以在避免进行模板配置、坐标计算、NLP(Natural Language Processing，自然语言处理)信息抽取等方式的处理工作的情况下，高效且准确地输出目标图像的结构化输出结果。

在一个实施例中，如图3所示，该识别方法还包括：

步骤302，获取训练数据。

其中，训练数据包括第一样本图像以及第一样本图像对应的样本数据，样本数据中包含样本区域的类别以及各样本区域的样本坐标数据。

具体地，第一样本图像可以是上下排列有序的图像，例如可以是不动产登记图像。终端可以在预先配置的数据库中获取训练数据，该训练数据可以是数据集，该数据集可以包含多张第一样本图像以及该第一样本图像的样本数据。样本数据可以是该第一样本图像上各关键区域的文本类别数据以及该关键区域对应的文本坐标数据。也就是说，第一样本图像对应的样本数据可以是已经在第一样本图像上标注好的关键区域、关键区域的文本类别数据以及关键区域的文本坐标数据。

可选地，终端在获取训练数据后，还可以基于训练数据中所包含的第一样本图像以及第一样本图像对应的样本数据，对该训练数据进行扩充处理。

步骤304，基于预设的拉伸系数，对第一样本图像以及样本数据进行拉伸处理，得到拉伸处理后的第一样本图像以及样本数据。

具体地，预设的拉伸系数可以是对第一样本图像进行拉伸的参数。终端对第一样本图像进行拉伸处理，得到使该第一样本图像满足预设的拉伸条件的拉伸系数。这样，终端可以基于该拉伸系数，对训练数据中包含的第一样本图像的样本数据进行处理，计算进行拉伸处理后的第一样本图像的样本数据。终端可以基于该拉伸系数，对第一样本图像的宽高比进行调整。

可选地，预设的拉伸条件可以是第一样本图像的宽度与高度相同。

可选地，预设的拉伸条件还可以是第一样本图像的高度大于宽度。

步骤306，将第一样本图像输入至待训练的文本分类检测模型，得到预测数据。

其中，预测数据中包含各预测区域的类别以及各预测区域的预测坐标数据，待训练的文本分类检测模型可以是Retinanet模型。

具体地，终端将进行拉伸处理后的第一样本图像输入至待训练的文本分类检测模型，得到模型输出的预测数据，该预测数据包括预测的关键区域。预测的关键区域的文本类别以及预测的关键区域的文本坐标。

步骤308，根据样本数据以及预测数据，计算训练损失函数。

具体地，文本分类检测模型的训练目标是缩小样本数据以模型输出的预测数据之间的误差。这样，终端根据训练数据中的样本数据，以及模型输出的预测数据，计算训练损失函数。

步骤310，根据训练损失函数更新待训练的文本分类检测模型的网络参数，并返回执行获取训练数据的步骤，直到训练损失函数满足预设训练完成条件，得到训练完成的文本分类检测模型。

具体地，为了使损失函数最小化，待训练的文本分类检测模型的神经网络结构可以通过反向传播的方式，对待训练的文本分类检测模型的网络参数进行不断的更新。例如，可以通过SGD方法(stochastic gradient descent，随机梯度下降法)来更新模型的网络参数。

在一个实施例中，如图4所示，在获取训练数据的步骤之后，该识别方法还包括：

步骤402，获取第一样本图像的宽度和高度。

具体地，终端可以获取训练数据中各第一样本图像的宽度值以及高度值。

步骤404，根据第一样本图像的宽度和高度，确定使第一样本图像满足宽度和高度相同的拉伸系数。

具体地，在第一样本图像是不动产登记证明票据图像的情况下，由于不动产登记证明票据图像的宽度值大于高度值，为了增大不同类别文本之间的间距，可以通过调整该第一样本图像的拉伸系数来实现。终端可以对第一样本图像进行拉伸处理，例如，终端可以计算可以使第一样本图像的宽度与高度相同的目标宽高比。这样，终端可以根据该目标宽高比，计算使第一样本图像满足宽度和高度相同的拉伸系数。

本实施例中，通过基于使第一样本图像满足宽度和高度相同的拉伸系数对第一样本图像进行拉伸处理，通过进行拉伸处理后的训练数据对文本分类检测模型进行训练，可以增大模型训练的精度，提高训练得到的模型的文本分类检测的精确度。

在一个实施例中，由于终端在获取票据图像时，图像会发生不同角度的偏移与旋转，且票据图像中的文本长度并不统一，以及票据图像中各项栏位中的短文本较多。因此，通过文本旋转角度的平均值计算得到的图片旋转角度的误差也比较大，所以，本发明实施例提还需对票据图像进行角度的校正。如图5所示，该识别方法还包括：

步骤502，获取初始图像，初始图像是票据图像。

具体地，终端可以获取初始图像，初始图像可以是各种角度的票据图像。该票据图像可以是不动产登记证明票据的图像。

步骤504，计算初始图像的矫正角度。

具体地，矫正角度可以是终端计算得到的可以使该初始图像与预设的平面坐标系相匹配的调整角度。例如，预设的平面坐标系中的第一坐标轴的正方向与矩形的显示屏幕的一边的方向相一致，第二坐标轴的正方向与矩形的显示屏幕的与另一边的方向相一致，该另一边与上述一边相邻。

可选地，终端可以通过该初始图像包含的多个关键区域对应的文本行的偏移角度，计算该初始图像的矫正角度。该偏移角度可以是该文本行与预设的平面坐标系的第一坐标轴的正方向的角度差值。

步骤506，根据矫正角度，计算初始图像的旋转矩阵。

步骤508，基于旋转矩阵，对初始图像进行矫正，得到矫正后的目标图像。

具体地，终端可以根据计算得到的矫正角度，极端初始图像的旋转矩阵。这样，终端可以根据该旋转矩阵对初始图像进行校正，得到进行矫正处理后的目标图像。

本实施例中，通过计算得到的矫正角度对票据图像进行矫正，并可以将矫正后图像输入至文本分类检测模型中，得到该票据图像的结构化输出结果，保证文本识别与文本输出的准确性，适用于不同板式的票据图像，保证了通用性。

在一个实施例中，如图6所示，步骤504“计算初始图像的矫正角度”的具体处理过程，包括：

步骤602，如果初始图像与预设坐标系满足预设正位条件，则基于预设朝向判断模型，确定初始图像的目标朝向。

具体地，预设正位条件可以是以该初始图像的边框为坐标轴的第一坐标系与预设坐标系重合。预设坐标系可以是上述实施例中的预设的平面坐标系。如果初始图像与预设坐标系满足预设正位条件，则终端可以确定以该初始图像的边框为坐标轴的第一坐标系与预设的平面坐标系重合。这样，终端可以确定该初始图像的朝向可以是上、下、左、右四个朝向中的任意一种朝向。初始图像的朝向示意图可以是如图7所示，如图7a所示，该图像的目标朝向为下；如图7b所示，该图像的目标朝向为左；如图7c所示，该图像的目标朝向为右。

那么，终端可以通过预设朝向判断模型，确定初始图像的目标朝向。该预设朝向判断模型可以是ResNet分类模型。

步骤604，根据预设的朝向与矫正角度的对应关系，确定目标朝向对应的矫正角度。

具体地，预设的朝向与矫正角度的对应关系可以是：在初始图像的朝向是上的情况下，说明该初始图像无需矫正，则矫正角度是0°；在初始图像的朝向是下的情况下，说明该初始图像需要矫正，则矫正角度是180°(顺时针方向或者逆时针方向)；在初始图像的朝向是左的情况下，说明该初始图像需要矫正，则矫正角度是270°(顺时针方向)；在初始图像的朝向是右的情况下，说明该初始图像需要矫正，则矫正角度是90°(顺时针方向)。

这样，终端可以基于上述朝向与矫正角度的对应关系，确定目标朝向对应的第一矫正角度。

在一个实施例中，如图8所示，步骤504“计算初始图像的矫正角度”的具体处理过程，包括：

步骤702，如果初始图像与预设坐标系不满足预设正位条件，则根据初始图像的中线坐标，对初始图像进行分割，得到第一图像，第一图像是包含多段文本部分的图像。

具体地，如果终端判断该初始图像与预设坐标系不满足预设正位条件，则终端可以确定以该初始图像的边框为坐标轴的第一坐标系与预设的平面坐标系不重合，存在角度偏差。这样，终端可以对该初始图像进行裁剪，得到包含多段文本部分的第一图像。该第一图像是包含多个文本部分且该文本部分固定不变的图像。

可选地，在初始图像是不动产登记证明的票据图像的情况下，由于该不动产登记证明的左半部分文本固定不变，且文本长度较长，文本旋转角度与图片的旋转角度相一致。因此，终端可以选用左半部分的图像作为第一图像。

可选地，终端可以确定该初始图像的中线坐标，基于该中线坐标，将初始图像进行分割，并将分割得到的包含多个文本部分且该文本部分固定不变的部分图像作为第一图像。

步骤704，基于预设的文本检测模型对第一图像进行检测，得到满足预设文本框提取条件的目标文本框。

具体地，预设的文本检测模型可以是PSENET模型。如图9所示，终端通过PSENET模型对第一图像进行检测，得到该第一图像包含的每一行文本对应的文本框。这样，为了提高检测效率以及检测准确度，终端根据各行文本框的长度对个行文本框进行过滤。例如，终端可以将文文本框长度最长的预设数量的文本框作为目标文本框。

步骤706，基于预设的文本框角度计算函数，计算各目标文本框的初始旋转角度。

具体地，预设的文本框角度计算函数可以是OpenCv开源库中的minAreaRect计算函数。该minAreaRect计算函数的输出结果是一个包含多个元素的元组。该元组中第三个元素的值是各目标文本框的初始旋转角度。

步骤708，根据初始旋转角度以及第一图像中目标文本框的宽高比，计算所述目标文本框的旋转角度。

具体地，终端根据该初始旋转角度与第一图像中的各目标文本框的宽高比，计算该目标文本框的旋转角度。

步骤710，根据目标文本框的旋转角度，计算初始图像的矫正角度。

具体地，终端可以将各个目标文本框的旋转角度的中位数，作为该初始图像的第二矫正角度。

可选地，终端也可以将各个目标文本框的旋转角度进行均值计算，将计算得到的均值作为该初始图像的第二矫正角度。

本实施例中，通过对各个文本框进行筛选得到目标文本框，以及将目标文本框输入至开源库中的minAreaRect计算函数，计算该初始图像的第二矫正角度，以过滤误检框，也可以保留长文本，提高角度检测精度以及计算精度。终端通过对初始图像进行裁剪得到第一图像，可以减半图片输入尺寸，提高模型的训练速度以及推理速度。

以下，结合一个具体实施例，详细描述本发明公开的一种识别方法，该识别方法可以应用于识别多种票据图像的具体应用场景中，票据图像可以是不动产登记证明的票据图像。该识别方法的执行步骤包括：

步骤1、终端判断待分类的目标图像(不动产登记证明的票据图像)的朝向并矫正。具体地，终端可以通过ResNet分类模型判断目标图像的朝向，该朝向可以是上、下、左、右四个朝向中的任意一种。也就是说，由于目标图像具有三种不同角度的翻转，因此可以对目标图像进行90°、180°、270°中其中一种的翻转。

步骤2、在目标图像需要进行小角度校正的情况下，也就是说，终端判断该目标图像不满足预设正位条件，又由于该票据图像的左半部分的文本是固定不变的，且文本长度较长。因此，终端可以沿该票据图像的中线对票据图像进行裁剪，保留长文本部分的图像。

这样，终端可以使用PSENET模型对裁剪后的图片进行文本检测，可以保证角度计算的精度，也可以减半图片输入尺寸，提高模型的推理速度。

在进行文本检测后，终端可以得到多行文本对应的多个文本框。终端可以保留文本框长度最长的五行文本框。也就是说，终端可以根据文本框的长度进行过滤，保留文本长度最长的五行文本框。

那么，终端可以使用OpenCv开源库中的minAreaRect计算函数，计算保留文本长度最长的五行文本框的旋转角度，再通过取中位数的方法，将得到的中位数作为图片的旋转角度(第二校正角度)，可以过滤误检框，也可以保留长文本，提高检测精度。终端可以根据计算得到的第二矫正角度对票据图像进行矫正。

步骤3：根据实际业务场景对票据图像的关键区域的文本进行定位以及分类。具体的过程可以是：终端需要获取训练数据，训练数据的过程可以是：对包含票据图像的真实数据集中的每一个关键区域的类别以及各关键区域的文本坐标进行标注，得到训练数据。终端还可以基于该训练数据进行扩充，可以是在保证真实数据分布占比的情况下，丰富训练样本，并保证扩充得到的样本图像中包含不同文本类别的特征。

这样，在文本分类检测模型的训练过程中，终端可以预先对训练数据中包含的第一样本图像进行处理，例如可以是对该第一样本图像的宽高比进行拉伸处理，使第一样本图像中的不同类别的文本的间距增大。相应地，终端也需要对第一样本图像的样本数据进行相应的拉伸处理。终端通过进行拉伸处理后的第一样本图像以及样本数据对文本分类检测模型进行训练，并可以根据训练过程中文本分类检测模型输出的预测数据与样本数据计算损失函数，以及根据该损失函数更新文本分类检测模型的网络参数。也就是说，终端需要根据模型推理结果(损失函数)好坏，不断优化训练参数、调整数据增强策略并增加推理效果较差版式的数据，直至模型推理结果达到理想精度。

步骤4、票据图像的文本识别：终端可以通过CRNN-CTC对图片中的文本切片进行识别，并将分类结果与识别结果组装成JSON格式。

步骤5、根据实际业务场景对模型输出结果进行结构化输出。如图10所示，左半部分是待分类的目标图像，右半部分是该待分类的目标图像的结构化输出结果。例如可以包括：X1类别、X2类别、…、X8类别，以及各类别的具体文字内容：AXXXXXXXXXXXXXXXX、BXXXXXXXXXXXXXXXX等等。

根据上述步骤中的JSON结果与实际业务场景，直接将各个字段内容输出。

本发明实施例提供的一种识别方法，在对不动产登记证明的票据图像进行识别的场景中，由于该票据图像中的有效文本集中在右侧表格处，且文本排列上下有序的特点，提出了一种文本检测方法与训练方法，可以实现自动过滤无效文本。针对该票据图像的右半部分的文字固定且文本较长的特点，提出了一种基于PSENET文本检测的角度检测方法。本发明实施例提出的识别方法可以快速、高效对上述票据图像进行结构化提取，对文本检测结果以及识别结果进行封装，避免了通过模板配置、坐标计算、NLP信息抽取等方式的后处理工作，简洁、高效。

本发明实施例提供的一种识别方法，简单、快速、实用，避免了人工录入票据图像时所承担的耗时、数据泄露、录入信息出错等风险。采用传统图形学与深度学习相结合的方式进行图片的角度矫正，充分考虑实际应用场景中的票据图像中的数据分布与数据录入场景，可以解决由于图片朝向、文本旋转带来的无法提取有效信息的问题。仅仅对实际应用场景中的不动产登记证明业务相关的文字信息进行检测，可以提高文字检测模型的效率；同时对关键文字信息进行分类，可以提高信息化抽取的效率，避免了大量对文本坐标的逻辑计算；对于相关栏位中的印章、手写体等无关文本，也可以起到过滤作用，提高提取的准确率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的识别方法的识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个识别装置实施例中的具体限定可以参见上文中对于识别方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种识别装置900，包括：输入模块901、提取模块902和文本内容确定模块903，其中：

输入模块901，用于将待分类的目标图像输入至预先训练的文本分类检测模型，得到目标图像的文本分类结果，文本分类结果包含目标图像中的至少一个关键区域的文本类别以及关键区域的文本坐标。

提取模块902，用于在目标图像中，根据关键区域的文本坐标，提取关键区域的文本切片。

文本内容确定模块903，用于将关键区域的文本切片输入至预设文本识别模型，得到关键区域的文本内容。

在其中一个实施例中，所述提取模块具体用于：

在其中一个实施例中，所述装置还包括：

第二获取模块，用于获取所述第一样本图像的宽度和高度；

在其中一个实施例中，所述装置还包括：

第二计算模块，用于计算所述初始图像的矫正角度；

在其中一个实施例中，所述第一矫正模块具体用于：

在其中一个实施例中，所述第一矫正模块还具体用于：

根据各目标文本框的旋转角度，计算初始图像的矫正角度。

上述识别装置900中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种识别方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述在所述目标图像中，根据所述关键区域的文本坐标，提取所述关键区域的文本切片，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述样本数据以及所述预测数据，计算训练损失函数；

5.根据权利要求4所述的方法，其特征在于，在所述获取训练数据的步骤之后，所述方法还包括：

获取所述第一样本图像的宽度和高度；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取初始图像，所述初始图像是票据图像；

计算所述初始图像的矫正角度；

根据所述矫正角度，计算所述初始图像的旋转矩阵；

7.根据权利要求6所述的方法，其特征在于，所述计算所述初始图像的矫正角度，包括：

8.根据权利要求6所述的方法，其特征在于，所述计算所述初始图像的矫正角度，包括：

基于预设的文本框角度计算函数，计算所述目标文本框的初始旋转角度；

根据所述初始旋转角度以及第一图像中目标文本框的宽高比，计算所述目标文本框的旋转角度；

根据所述目标文本框的旋转角度，计算初始图像的矫正角度。

9.一种识别装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。