CN112633279A

CN112633279A - 文本识别方法、装置和系统

Info

Publication number: CN112633279A
Application number: CN202011617846.1A
Authority: CN
Inventors: 詹明捷; 刘学博; 梁鼎
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-09
Also published as: WO2022142549A1

Abstract

本公开实施例提供一种文本识别方法、装置和系统，获取模板证件中的第一区域；确定待处理证件中与所述第一区域对应的第二区域，所述待处理证件与所述模板证件的证件类别相同，所述第一区域在所述模板证件中的相对位置与所述第二区域在所述待处理证件中的相对位置相同；基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别。

Description

文本识别方法、装置和系统

技术领域

本公开涉及文本识别技术领域，尤其涉及文本识别方法、装置和系统。

背景技术

光学字符识别(Optical Character Recognition，OCR)能够将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工。传统的光学字符识别方式一般只支持对版面固定的图像进行识别，即，要求待识别的字符在版面中的位置是确定的。对于版面不固定的图像，识别准确度较低。

发明内容

本公开提供一种文本识别方法、装置和系统。

根据本公开实施例的第一方面，提供一种文本识别方法，所述方法包括：获取模板证件中的第一区域；确定待处理证件中与所述第一区域对应的第二区域，所述待处理证件与所述模板证件的证件类别相同，所述第一区域在所述模板证件中的相对位置与所述第二区域在所述待处理证件中的相对位置相同；基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别。

在一些实施例中，所述字段的属性信息包括所述字段的字符类型和/或所述字段的字体类型。

在一些实施例中，所述方法还包括：在对所述第二区域进行文本识别之后，基于所述第二区域中文本的位置信息和/或语义信息，从所述第二区域中确定需要调整的目标区域；对所述目标区域进行调整，并对调整后的目标区域进行文本识别。

在一些实施例中，所述基于所述第二区域中字段的位置信息和/或语义信息，从所述第二区域中确定需要调整的目标区域，包括：将满足以下至少一项条件的第二区域确定为所述目标区域：所述第二区域中字段的位置超出所述第二区域的边界；所述第二区域中字段的语义不完整；所述第二区域中字段的语义与所述第一区域中字段的语义属于不同语义类型。

在一些实施例中，所述对所述目标区域进行调整，包括：在所述目标区域的数量大于预设数量阈值，且各个目标区域的偏移方向相同的情况下，确定多个目标区域的整体偏移量；基于所述整体偏移量对所述多个目标区域进行调整。

在一些实施例中，所述对所述目标区域进行调整，包括：在所述目标区域的数量不大于预设数量阈值，或者存在至少两个目标区域的偏移方向不同的情况下，确定所述待处理证件中的第一目标区域的偏移量；基于所述第一目标区域的偏移量，对所述第一目标区域以外的第二目标区域进行调整。

在一些实施例中，所述第一目标区域为在所述第二目标区域之前检测到的目标区域。

在一些实施例中，所述对所述目标区域进行调整，包括：从所述待处理证件中查找与所述第一区域具有相同语义类别的字段；将所述目标区域调整为查找到的字段所在的区域。

在一些实施例中，所述确定待处理证件中与所述第一区域对应的第二区域，包括：基于预先建立的转换矩阵确定待处理证件中与所述第一区域对应的第二区域；其中，所述转换矩阵基于以下方式确定：基于所述模板证件中的k个第三区域和所述待处理证件中的k个第四区域确定多个第一矩阵，1≤k<N，k和N均为正整数，N为所述第三区域的总组数，第三区域与第四区域一一对应，且第三区域与对应的第四区域中的文本信息相同；针对所述多个第一矩阵中的每个第一矩阵，基于所述第一矩阵对其余N-k个第三区域以及对应于所述其余N-k个第三区域的第四区域进行匹配，确定匹配成功的组数；将匹配成功的组数最多的第一矩阵确定为所述转换矩阵。

在一些实施例中，所述基于所述模板证件中的k个第三区域和所述待处理证件中的k个第四区域确定多个第一矩阵，包括：从所述模板证件中的第i个第三区域和所述待处理证件中的第i个第四区域中选取多个点对，所述多个点对包括首字段的中心点、末字段的中心点、区域上边界的中点以及区域下边界的中点；基于所述第i个第三区域和所述第i个第四区域中的多个点对，确定所述多个第一矩阵中的第i个第一矩阵。

在一些实施例中，所述方法还包括：在对所述第二区域进行文本识别之后，基于所述第二区域中字段的语义信息和/或位置信息，将所述第二区域中的字段拆分到多个新的第二区域中；分别对每个新的第二区域进行文本识别。

在一些实施例中，所述基于所述第二区域中字段的语义信息，将所述第二区域中的字段拆分到多个新的第二区域中，包括：基于所述第二区域中字段的语义信息，将所述第二区域中的字段划分为多个字段组，不同字段组中的字段的语义不相关；分别将每个字段组拆分到一个新的第二区域中。

在一些实施例中，所述第二区域的数量为多个；所述方法还包括：在对所述第二区域进行文本识别之后，将所述第二区域中至少两个第二区域的识别结果作为整体进行语义识别；基于语义识别结果，输出文本信息。

在一些实施例中，所述基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别，包括：基于与所述第一区域中的字段的属性信息调用对应的神经网络；通过调用的神经网络对所述第二区域进行文本识别。

在一些实施例中，所述待处理证件中包括固定字段和非固定字段；在对所述第二区域进行文本识别之后，所述方法还包括：向目标设备发送识别出的非固定字段与所述待处理证件中的固定字段的关联关系，以使所述目标设备基于所述关联关系对所述固定字段与所述识别出的非固定字段进行关联显示。

根据本公开实施例的第二方面，提供一种文本识别装置，所述装置包括：获取模块，用于获取模板证件中的第一区域；确定模块，用于确定待处理证件中与所述第一区域对应的第二区域，所述待处理证件与所述模板证件的证件类别相同，所述第一区域在所述模板证件中的相对位置与所述第二区域在所述待处理证件中的相对位置相同；第一识别模块，用于基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别。

在一些实施例中，所述装置还包括：调整模块，用于基于所述第二区域中文本的位置信息和/或语义信息，从所述第二区域中确定需要调整的目标区域；以及对所述目标区域进行调整，并对调整后的目标区域进行文本识别。

在一些实施例中，所述调整模块用于：将满足以下至少一项条件的第二区域确定为所述目标区域：所述第二区域中字段的位置超出所述第二区域的边界；所述第二区域中字段的语义不完整；所述第二区域中字段的语义与所述第一区域中字段的语义属于不同语义类型。

在一些实施例中，所述调整模块用于：在所述目标区域的数量大于预设数量阈值，且各个目标区域的偏移方向相同的情况下，确定多个目标区域的整体偏移量，基于所述整体偏移量对所述多个目标区域进行调整。

在一些实施例中，所述调整模块用于：在所述目标区域的数量不大于预设数量阈值，或者存在至少两个目标区域的偏移方向不同的情况下，确定所述待处理证件中的第一目标区域的偏移量，基于所述第一目标区域的偏移量，对所述第一目标区域以外的第二目标区域进行调整。

在一些实施例中，所述调整模块用于从待处理证件中查找与所述第一区域具有相同语义类别的字段，将所述目标区域调整为查找到的字段所在的区域。

在一些实施例中，所述确定模块包括：第一确定单元，用于基于预先建立的转换矩阵确定待处理证件中与所述第一区域对应的第二区域；其中，所述第一确定单元用于：基于所述模板证件中的k个第三区域和所述待处理证件中的k个第四区域确定多个第一矩阵，1≤k<N，k和N均为正整数，N为所述第三区域的总组数，第三区域与第四区域一一对应，且第三区域与对应的第四区域中的文本信息相同；匹配单元，用于针对所述多个第一矩阵中的每个第一矩阵，基于所述第一矩阵对其余N-k个第三区域以及对应于所述其余N-k个第三区域的第四区域进行匹配，确定匹配成功的组数；第二确定单元，用于将匹配成功的组数最多的第一矩阵确定为所述转换矩阵。

在一些实施例中，所述第一确定单元包括：选取子单元，用于从所述模板证件中的第i个第三区域和所述待处理证件中的第i个第四区域中选取多个点对，所述多个点对包括首字段的中心点、末字段的中心点、区域上边界的中点以及区域下边界的中点；确定子单元，用于基于所述第i个第三区域和所述第i个第四区域中的多个点对，确定所述多个第一矩阵中的第i个第一矩阵。

在一些实施例中，所述装置还包括：拆分模块，用于在对所述第二区域进行文本识别之后，基于所述第二区域中字段的语义信息和/或位置信息，将所述第二区域中的字段拆分到多个新的第二区域中；第二识别模块，用于分别对每个新的第二区域进行文本识别。

在一些实施例中，所述拆分模块包括：第一拆分单元，用于基于所述第二区域中字段的语义信息，将所述第二区域中的字段划分为多个字段组，不同字段组中的字段的语义不相关；第二拆分单元，用于分别将每个字段组拆分到一个新的第二区域中。

在一些实施例中，所述第二区域的数量为多个；所述装置还包括：第三识别模块，用于在对所述第二区域进行文本识别之后，将所述第二区域中至少两个第二区域的识别结果作为整体进行语义识别；输出模块，用于基于语义识别结果，输出文本信息。

在一些实施例中，所述第一识别模块包括：调用单元，用于基于与所述第一区域中的字段的属性信息调用对应的神经网络；识别单元，用于通过调用的神经网络对所述第二区域进行文本识别。

根据本公开实施例的第三方面，提供一种文本识别系统，包括：客户端，用于上传所述待处理证件，并向服务器发送所述待处理证件；以及服务器，用于执行本公开任一实施例所述的方法。

在一些实施例中，所述待处理证件中包括固定字段和非固定字段；所述服务器还用于：在对所述第二区域进行文本识别之后，向所述客户端发送识别出的非固定字段与所述待处理证件中的固定字段的关联关系；所述客户端还用于：响应于接收到所述服务器发送的所述关联关系，基于所述关联关系对所述固定字段与所述识别出的非固定字段进行匹配显示。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

根据本公开实施例的第五方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

本公开实施例基于模板证件对待处理证件进行文本识别，由于待处理证件与所述模板证件的证件类别相同，从而可以基于模板证件准确地从待处理证件中定位到待识别区域。此外，由于模板证件中第一区域的字段的属性信息与待处理证件中第二区域的字段的属性信息相同，根据第一区域的字段的不同属性信息，采用不同的识别方式对所述第二区域进行文本识别，减少了对类别不同但相似度较高的字段进行识别时的识别错误，从而提高了文本识别准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例的文本识别方法的流程图。

图2是本公开实施例的建立转换矩阵的示意图。

图3A至图3C是本公开实施例的需要调整第二区域的情况的示意图。

图4A至图4C是本公开实施例的第二区域的调整方式的示意图。

图5A至5C是本公开实施例的建立模板证件的示意图。

图6是本公开实施例的文本识别结果的示意图。

图7是本公开实施例的文本识别装置的框图。

图8是本公开实施例的计算机设备的结构示意图。

图9是本公开实施例的文本识别系统的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

如图1所示，本公开实施例提供一种文本识别方法，所述方法可包括：

步骤101：获取模板证件中的第一区域；

步骤102：确定待处理证件中与所述第一区域对应的第二区域，所述待处理证件与所述模板证件的证件类别相同，所述第一区域在所述模板证件中的相对位置与所述第二区域在所述待处理证件中的相对位置相同；

步骤103：基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别。

本公开实施例的方法可由服务器执行，所述服务器可以是单台服务器，也可以是包括多台服务器的服务器集群。在步骤101中，服务器可以预先存储模板证件。具体地，可以存储多种不同证件类别的模板证件。所述证件类别可以是身份证、驾驶证、港澳通行证等。

第一区域可以是模板证件中包括非固定字段在内的区域，非固定字段是指在不同证件中文本内容不同的字段。模板证件中还包括固定字段，即，在不同证件中文本内容相同的字段。例如，不同居民的身份证上都包括字段“姓名”和“性别”等字段，则“姓名”和“性别”属于固定字段，也称为参照字段或者参考字段。而张三的身份证上的姓名具体为“张三”，李四的身份证上的姓名具体为“李四”，则“张三”和“李四”属于非固定字段，也称为识别字段。

一个模板证件中可以包括一个或多个第一区域。为了提高文本识别的准确度，每个第一区域内可以仅包括一个文本行(称为一组字段)，每个文本行中可以包括水平排列的一个或多个字符。所述字符可以包括但不限于数字、字母、汉字、符号等中的至少一种或者至少两种的组合。第一区域可以由用户在创建模板证件时手动框选，也可以通过预先训练的神经网络或者其他方式获取。

在步骤102中，可以确定待处理证件中与所述第一区域对应的第二区域。其中，所述待处理证件可以是图片格式或者便携式文档格式(Portable Document Format，PDF)等格式。所述待处理证件与所述模板证件的证件类别相同，例如，在所述待处理证件为身份证的情况下，所述模板证件也是身份证。所述第一区域在所述模板证件中的相对位置与所述第二区域在所述待处理证件中的相对位置相同。其中，证件中一个区域的相对位置是指基于该证件的尺寸对该区域的位置进行归一化处理后得到的归一化位置，一个区域的位置可以用该区域上的特征点的位置来表示，所述特征点可以是该区域的中心点或者角点。假设所述第一区域的特征点的坐标为(x1,y1)，模板证件的长度(水平方向的尺寸)和高度(竖直方向的尺寸)分别为(X1,Y1)，所述第二区域的特征点的坐标为(x2,y2)，待处理证件的长度(水平方向的尺寸)和高度(竖直方向的尺寸)分别为(X2,Y2)，则满足以下条件：

x1/X1＝x2/X2；

y1/Y1＝y2/Y2。

可以先获取模板证件中包括参考字段的第三区域以及待处理证件中包括参考字段的第四区域。然后，从第三区域和第四区域中分别选取多个点对。一个点对中包括第三区域中的第一点以及第四区域中的第二点，且所述点对中的第一点在第三区域中的相对位置与所述点对中的第二点在第四区域中的相对位置相同。例如，所述多个点对可以包括所述第三区域的首个字段的中心点与所述第四区域的首个字段的中心点，所述第三区域的最后一个字段的中心点与所述第四区域的最后一个字段的中心点、所述第三区域的上边界的中点与所述第四区域的上边界的中点，以及所述第三区域的下边界的中点与所述第四区域的下边界的中点。根据所述多个点对可以建立变换矩阵，然后，基于所述变换矩阵对所述第一区域进行变换，以确定所述第二区域。

在根据多个点对建立变换矩阵之前，还可以对第三区域和第四区域进行筛选，只保留完全匹配的第三区域和第四区域。其中，所述完全匹配是指第三区域和第四区域中的字段完全相同。最终保留的第三区域和第四区域可用于创建所述变换矩阵。

在一些实施例中，可以基于所述模板证件中的k个第三区域和所述待处理证件中的k个第四区域确定多个第一矩阵，1≤k<N，k和N均为正整数，N为所述第三区域的总组数，第三区域与第四区域一一对应，且第三区域与对应的第四区域中的文本信息相同。针对所述多个第一矩阵中的每个第一矩阵，基于所述第一矩阵对其余N-k个第三区域以及对应于所述其余N-k个第三区域的第四区域进行匹配，确定匹配成功的组数。将匹配成功的组数最多的第一矩阵确定为所述转换矩阵。

参见图2，通过一个数值实施例对本公开建立转换矩阵的方式进行说明，其中，k＝2，N＝5，本领域技术人员可以理解，本实施例中的数值仅为举例说明，实际应用中所采用的数值不限于此。为了便于描述，假设第i个第三区域与第i个第四区域相对应，1≤i≤5。可以从第1个第三区域和第1个第四区域中选取多个点对，得到第一矩阵M₁，从第2个第三区域和第2个第四区域中选取多个点对，得到第一矩阵M₂。然后，通过M₁对第3个第三区域和第3个第四区域、第4个第三区域和第4个第四区域，以及第5个第三区域和第5个第四区域中的多个点对进行匹配，确定匹配成功的组数m₁。通过M₂对第3个第三区域和第3个第四区域、第4个第三区域和第4个第四区域，以及第5个第三区域和第5个第四区域中的多个点对进行匹配，确定匹配成功的组数m₂。将m₁和m₂中较大的一者对应的第一矩阵确定为所述转换矩阵。

相比于通过一次计算得到转换矩阵的方式，上述确定转换矩阵的方式从多个第一矩阵中选取最优的第一矩阵作为转换矩阵，提高了确定第二区域的准确性，从而提高了文本识别的准确性。上述对矩阵M₁和矩阵M₂的处理可以并行执行，也可以串行执行，本公开对此不作限制。

在步骤103中，可以基于所述第一区域中的字段的属性信息确定对所述第二区域进行文本识别的识别方式。字段属性信息包括所述字段的字符类型和/或所述字段的字体类型。所述第一区域中的字段可以包括一个或多个字符，所述字符类型可以包括但不限于数字类型、字母类型、符号类型、汉字类型、混合字符类型中的一者，所述混合字符类型是指所述第一区域中的字段包括多种字符类型，例如，数字与字母的混合类型、数字与汉字的字符类型等。所述字段的字体类型包括但不限于宋体类型、楷体类型、times new roman类型、混合字体类型中的一者，所述混合字体类型是指所述第一区域中的字段包括多种字体类型。第一区域中字段的属性信息可以在创建模板时由用户手动输入，也可以通过神经网络模型识别得到。基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别，能够减少字段类型不同但相似度较高时识别错误的情况，从而提高文本识别准确度。例如，第二区域中的字段包括字母“O”，如果采用对所有字段通用的文本识别方式，很容易将字母“O”与数字“0”相混淆。但如果先确定了字段类型为字母类型，则可以采用针对字母类型的文本进行文本识别的方式，避免了将字母“O”识别成数字“0”，从而提高了识别准确度。

在一些实施例中，用户上传的待处理证件的照片由于拍摄角度等原因，可能与模板证件存在一定的差异。例如，待处理证件中各个第二区域的尺寸和间距可能不同于模板证件。因此，在对所述第二区域进行文本识别之后，还可以基于所述第二区域中文本的位置信息和/或语义信息，从所述第二区域中确定需要调整的目标区域，对所述目标区域进行调整，并对调整后的目标区域重新进行文本识别。所述调整包括调整所述目标区域的方向，以使所述目标区域内的字段的语义信息是完整的，还可以包括调整所述目标区域的大小，使一个目标区域内仅包括一个文本行。参考图3A至图3C，可以将满足以下至少一项条件的第二区域作为目标区域：

条件一：所述第二区域中字段的语义不完整，即第二区域内仅包括一句话或者一个词语中的一部分。如图3A所示，实线框内为第二区域，可以看出，第二区域的边界将属于同一词语“小区”的两个字分割开了，导致第二区域内仅包括词语“小区”中的“小”字，即第二区域中字段的语义不完整。

条件二：所述第二区域中字段的位置超出所述第二区域的边界，如图3B所示，第二区域中的字段超出了第二区域的上边框。

条件三：所述第二区域中字段的语义与所述第一区域中字段的语义属于不同语义类型。如图3C所示，模板证件中第一区域中的字段的语义类型为“姓名”类型的字段，而待处理证件中第二区域中的字段的语义类型为“年龄”类型的字段，二者属于不同的语义类型。

在存在上述任一情况时，可能导致文本识别结果与真实结果偏差较大。因此，需要对满足上述任一情况的目标区域的位置进行调整，从而提高文本识别的准确性。在对一个目标区域进行调整时，可以基于各个目标区域的总数，该目标区域周围的目标区域的调整方式，和/或待处理证件中各个字段的语义信息，对所述目标区域进行调整。

可选地，在所述目标区域的数量大于预设数量阈值，且各个目标区域的偏移方向相同的情况下，可以确定多个目标区域的整体偏移量，基于所述整体偏移量对所述多个目标区域进行调整。在这种情况下，由于多个目标区域的偏移方向相同，因此，基于多个目标区域的整体偏移量，按照相同的方式对所述多个目标区域进行统一调整，能够提高对目标区域的调整效率。并且，在多个目标区域的偏移方向相同的情况下，各个目标区域的偏移量常常也较为接近，因此，本实施例的调整方式能够通过一次处理，较为准确地实现对多个目标区域的调整。所述数量阈值可以基于第二区域的数量与预设权重的乘积来确定，所述权重为小于或等于1的正数。例如，所述数量阈值可以等于第二区域数量的90％，或者所述数量阈值可以等于第二区域的数量。以所述数量阈值等于第二区域数量为例，所述多个目标区域的整体偏移量可以等于所述多个目标区域中各个目标区域的平均偏移量。具体来说，可以分别计算所述各个目标区域在水平方向的平均偏移量和所述各个目标区域在竖直方向的平均偏移量，根据水平方向的平均偏移量在水平方向上对所述多个目标区域进行调整，根据竖直方向的平均偏移量在竖直方向上对所述多个目标区域进行调整。

如图4A所示，调整前的待处理证件401中包括三个第二区域401a、401b和401c，这三个第二区域均存在向上的偏移量，则根据这三个第二区域的平均偏移量，将这三个第二区域均向下调整，得到调整后的待处理证件402。

可选地，在所述目标区域的数量不大于预设数量阈值，或者存在至少两个目标区域的偏移方向不同的情况下，可以确定所述待处理证件中的第一目标区域的偏移量，基于所述第一目标区域的偏移量，对所述第一目标区域以外的第二目标区域进行调整。由于存在偏移方向不同的目标区域，因此需要对偏移方向不同的目标区域分别进行调整，从而提高对目标区域进行调整的准确性。本实施例将第一目标区域的偏移量作为对第二目标区域进行调整的参考量，能够较为准确地确定对第二目标区域进行调整的调整量。如图4B所示，可以根据目标区域404的偏移量和目标区域405的偏移量，对目标区域403进行调整。

具体来说，第一目标区域可以是在所述第二目标区域之前检测到的目标区域。例如，可以基于检测到的第1个目标区域的偏移量，对检测到的第2个目标区域进行调整。其中，所述检测可以沿着待处理证件的某个特定方向进行，所述特定方向可以是从上到下，或者从左到右等等。

可选地，还可以从所述待处理证件中查找与所述第一区域具有相同语义类别的字段，将所述目标区域调整为查找到的字段所在的区域。在各个目标区域的偏移量比较随机，检测到第一个目标区域的情况下，可以通过本实施例的方式对目标区域进行调整，从而提高上述情况下对目标区域进行调整的准确性。如图4C所示，针对模板证件中第一区域406中的“年龄”这一语义类别的字段“18”，可以在待处理证件中查找与其同为“年龄”这一语义类别的字段“21”，从而将包括字段“21”的目标区域407调整为图中右侧部分所示。

在一些实施例中，在对所述第二区域进行文本识别之后，可以基于所述第二区域中字段的语义信息和/或位置信息，将所述第二区域中的字段拆分到多个新的第二区域中；分别对每个新的第二区域进行文本识别。

一般来说，一个第二区域中仅包括一个文本行。但由于拍摄角度等原因，也可能导致一个第二区域中包括多个文本行。例如，第二区域中包括文本行“李四”和文本行“女”。在这种情况下，需要对第二区域进行拆分，得到两个新的第二区域，其中一个新的第二区域仅包括文本行“李四”，另一个新的第二区域仅包括文本行“女”。通过拆分第二区域的方式，能够减少因拍摄角度等原因导致多个文本行距离较近导致的识别错误，从而提高文本识别的准确性。

具体来说，可以基于所述第二区域中字段的语义信息，将所述第二区域中的字段划分为多个字段组，不同字段组中的字段的语义不相关；分别将每个字段组拆分到一个新的第二区域中。例如，在前面的例子中，文本行“李四”和文本行“女”的语义分别是“姓名”和“性别”，二者属于不同语义类别的字段，语义不相关，从而可以将文本行“李四”和文本行“女”拆分到两个不同的新的第二区域中。

在一些实施例中，在对所述第二区域进行文本识别之后，可以将多个第二区域中至少两个第二区域的识别结果作为整体进行语义识别；基于所述至少两个区域整体的语义识别结果，输出文本信息，该过程称为联合语义识别。所述联合语义识别可以在对第二区域中的目标区域进行调整之后进行。

例如，从待处理证件中的三个第二区域中分别识别出文本信息“李四”、“XX省XX市XX街道”和“XX小区XX号”，则可以对“李四”和“XX省XX市XX街道”共同进行文本识别，以判断这两条文本信息是否相关，如果相关，则将这两条文本信息合并为同一条。同理，可以对“XX省XX市XX街道”和“XX小区XX号”共同进行文本识别。由于这两条文本信息的语义类别都是地址类别，因此，可以将这两条文本信息合并为同一条，得到文本信息“XX省XX市XX街道XX小区XX号”。

上述实施例中的文本识别方法可用于对待处理证件中的非固定字段进行识别。在得到非固定字段的文本识别结果之后，可以将非固定字段的文本识别结果与待处理证件中的固定字段进行关联处理，以确定每一条非固定字段的识别结果所属的固定字段。例如，在得到文本信息“XX省XX市XX街道XX小区XX号”之后，可以将该文本信息与固定字段“居住地址”进行关联。进一步地，还可以对关联结果进行输出，例如，识别出的文本信息可以输出至其关联的固定字段的尾部。具体来说，对于一个字段W_n，可以基于该字段的坐标，确定该字段所在的第二区域。然后，将字段W_n输出至所在第二区域的上一个字段W_n-1的尾部。如果字段W_n是第二区域中的第一个字段，则将其直接输出至对应的固定字段的尾部。例如，对于第二区域中的字段“李四”，可以将其中的第一个字段“李”输出至固定字段“姓名”的尾部，将其中的第二个字段“四”输出至字段“李”的尾部。在一些实施例中，可以向目标设备发送识别出的非固定字段与所述待处理证件中的固定字段的关联关系，以使所述目标设备基于所述关联关系对所述固定字段与所述识别出的非固定字段进行关联显示。

上述文本识别可采用神经网络实现。可以基于与所述第一区域中的字段的属性信息调用对应的神经网络，通过调用的神经网络对所述第二区域进行文本识别。通过神经网络进行文本识别，能够获得较高的识别准确性。

下面结合一个具体示例，对本公开实施例的方案进行说明。如图5A至图5C所示，可以预先创建模板证件。具体来说，可以先采集模板证件的照片并上传至客户端，然后，可以对上传的照片的角点进行调整，以调整照片的大小。进一步地，还可以对照片进行透视变换，以调整照片中文字的角度和方向。然后，可以从照片中选取第一区域(图5B中左侧区域)，还可以对第一区域中的识别字段的字段名(例如，出生日期、性别、姓名、证件号码等)和字段类型(例如，文字、数字等)进行编辑。其中，字段名和字段类型可以在选取第一区域之后，由用户手动输入，也可以由神经网络自动进行识别，并在识别结果有误的情况下，由用户进行修改。随后，可以选取固定字段(如图5C中左侧区域内用灰色作为底色标记出的字段)。同样地，固定字段可以由用户手动输入，也可以由神经网络自动进行识别，并由用户进行修改。选取的固定字段尽量分布在模板证件的四周，以提高最终的文本识别结果的准确度。创建完成之后，可以将模板证件保存在服务器中。

在用户通过网页、客户端等上传待处理图片之后，服务器可以从待处理图片中识别出一个或多个待处理证件的位置、类别和方向，并针对识别出的每个待处理证件，调用相应的模板证件来对该待处理证件进行识别。如图6所示，示出了服务器输出的一种识别结果，其中包括固定字段和识别字段，可将识别字段输出至对应的固定字段的尾部。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

如图7所示，本公开还提供一种文本识别装置，所述装置包括：

获取模块701，用于获取模板证件中的第一区域；

确定模块702，用于确定待处理证件中与所述第一区域对应的第二区域，所述待处理证件与所述模板证件的证件类别相同，所述第一区域在所述模板证件中的相对位置与所述第二区域在所述待处理证件中的相对位置相同；

第一识别模块703，用于基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别。

在一些实施例中，所述调整模块用于：从所述待处理证件中查找与所述第一区域具有相同语义类别的字段，将所述目标区域调整为查找到的字段所在的区域。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述任一实施例所述的方法。

图8示出了本说明书实施例所提供的一种更为具体的计算机设备硬件结构示意图，该设备可以包括：处理器801、存储器802、输入/输出接口803、通信接口804和总线805。其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。

处理器801可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器802可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器802可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器802中，并由处理器801来调用执行。

输入/输出接口803用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口804用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线805包括一通路，在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器801、存储器802、输入/输出接口803、通信接口804以及总线805，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

如图9所示，本公开实施例还提供一种文本识别系统，包括客户端901，用于上传所述待处理证件，并向服务器发送所述待处理证件；以及服务器902，用于执行本公开任一实施例所述的方法。

其中，所述客户端901可以安装在手机、平板电脑、台式电脑等智能终端上。所述智能终端上设有交互组件，用于上传照片。所述交互组件可以是触摸屏、鼠标、按键等。所述智能终端上还可以设有显示屏，用于预览上传的照片以及文本识别结果。所述智能终端还可以包括通信接口，用于与服务器902进行通信，以向服务器902发送用户上传的照片和用户发送的各种指令，并接收服务器返回的包括文本识别结果在内的各种信息和指令。

在一些实施例中，所述待处理证件中包括固定字段和非固定字段；所述服务器还用于：在对所述第二区域进行文本识别之后，向所述客户端发送识别出的非固定字段与所述待处理证件中的固定字段的关联关系；所述客户端还用于：响应于接收到所述服务器发送的所述关联关系，基于所述关联关系对所述固定字段与所述识别出的非固定字段进行匹配显示。例如，将非固定字段显示在对应的固定字段的末尾。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取模板证件中的第一区域；

确定待处理证件中与所述第一区域对应的第二区域，所述待处理证件与所述模板证件的证件类别相同，所述第一区域在所述模板证件中的相对位置与所述第二区域在所述待处理证件中的相对位置相同；

基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别。

2.根据权利要求1所述的方法，其特征在于，所述字段的属性信息包括所述字段的字符类型和/或所述字段的字体类型。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

在对所述第二区域进行文本识别之后，基于所述第二区域中文本的位置信息和/或语义信息，从所述第二区域中确定需要调整的目标区域；

对所述目标区域进行调整，并对调整后的目标区域进行文本识别。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第二区域中字段的位置信息和/或语义信息，从所述第二区域中确定需要调整的目标区域，包括：

将满足以下至少一项条件的第二区域确定为所述目标区域：

所述第二区域中字段的位置超出所述第二区域的边界；

所述第二区域中字段的语义不完整；

所述第二区域中字段的语义与所述第一区域中字段的语义属于不同语义类型。

5.根据权利要求3或4所述的方法，其特征在于，所述对所述目标区域进行调整，包括：

在所述目标区域的数量大于预设数量阈值，且各个目标区域的偏移方向相同的情况下，确定多个目标区域的整体偏移量；

基于所述整体偏移量对所述多个目标区域进行调整。

6.根据权利要求3至5任意一项所述的方法，其特征在于，所述对所述目标区域进行调整，包括：

在所述目标区域的数量不大于预设数量阈值，或者存在至少两个目标区域的偏移方向不同的情况下，确定所述待处理证件中的第一目标区域的偏移量；

基于所述第一目标区域的偏移量，对所述第一目标区域以外的第二目标区域进行调整。

7.根据权利要求6所述的方法，其特征在于，所述第一目标区域为在所述第二目标区域之前检测到的目标区域。

8.根据权利要求3所述的方法，其特征在于，所述对所述目标区域进行调整，包括：

从所述待处理证件中查找与所述第一区域具有相同语义类别的字段；

将所述目标区域调整为查找到的字段所在的区域。

9.根据权利要求1至8任意一项所述的方法，其特征在于，所述确定待处理证件中与所述第一区域对应的第二区域，包括：

基于预先建立的转换矩阵确定待处理证件中与所述第一区域对应的第二区域；

其中，所述转换矩阵基于以下方式确定：

基于所述模板证件中的k个第三区域和所述待处理证件中的k个第四区域确定多个第一矩阵，1≤k<N，k和N均为正整数，N为所述第三区域的总组数，第三区域与第四区域一一对应，且第三区域与对应的第四区域中的文本信息相同；

针对所述多个第一矩阵中的每个第一矩阵，基于所述第一矩阵对其余N-k个第三区域以及对应于所述其余N-k个第三区域的第四区域进行匹配，确定匹配成功的组数；

将匹配成功的组数最多的第一矩阵确定为所述转换矩阵。

10.根据权利要求9所述的方法，其特征在于，所述基于所述模板证件中的k个第三区域和所述待处理证件中的k个第四区域确定多个第一矩阵，包括：

从所述模板证件中的第i个第三区域和所述待处理证件中的第i个第四区域中选取多个点对，所述多个点对包括首字段的中心点、末字段的中心点、区域上边界的中点以及区域下边界的中点；

基于所述第i个第三区域和所述第i个第四区域中的多个点对，确定所述多个第一矩阵中的第i个第一矩阵。

11.根据权利要求1至10任意一项所述的方法，其特征在于，所述方法还包括：

在对所述第二区域进行文本识别之后，基于所述第二区域中字段的语义信息和/或位置信息，将所述第二区域中的字段拆分到多个新的第二区域中；

分别对每个新的第二区域进行文本识别。

12.根据权利要求11所述的方法，其特征在于，所述基于所述第二区域中字段的语义信息，将所述第二区域中的字段拆分到多个新的第二区域中，包括：

基于所述第二区域中字段的语义信息，将所述第二区域中的字段划分为多个字段组，不同字段组中的字段的语义不相关；

分别将每个字段组拆分到一个新的第二区域中。

13.根据权利要求1至12任意一项所述的方法，其特征在于，所述第二区域的数量为多个；所述方法还包括：

在对所述第二区域进行文本识别之后，将所述第二区域中至少两个第二区域的识别结果作为整体进行语义识别；

基于语义识别结果，输出文本信息。

14.根据权利要求1至13任意一项所述的方法，其特征在于，所述基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别，包括：

基于与所述第一区域中的字段的属性信息调用对应的神经网络；

通过调用的神经网络对所述第二区域进行文本识别。

15.根据权利要求1至14任意一项所述的方法，其特征在于，所述待处理证件中包括固定字段和非固定字段；在对所述第二区域进行文本识别之后，所述方法还包括：

向目标设备发送识别出的非固定字段与所述待处理证件中的固定字段的关联关系，以使所述目标设备基于所述关联关系对所述固定字段与所述识别出的非固定字段进行关联显示。

16.一种文本识别装置，其特征在于，所述装置包括：

获取模块，用于获取模板证件中的第一区域；

确定模块，用于确定待处理证件中与所述第一区域对应的第二区域，所述待处理证件与所述模板证件的证件类别相同，所述第一区域在所述模板证件中的相对位置与所述第二区域在所述待处理证件中的相对位置相同；

第一识别模块，用于基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至15任意一项所述的方法。

18.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至15任意一项所述的方法。

19.一种文本识别系统，其特征在于，包括：

客户端，用于上传所述待处理证件，并向服务器发送所述待处理证件；以及

服务器，用于执行权利要求1至15任意一项所述的方法。

20.根据权利要求19所述的文本识别系统，其特征在于，所述待处理证件中包括固定字段和非固定字段；所述服务器还用于：在对所述第二区域进行文本识别之后，向所述客户端发送识别出的非固定字段与所述待处理证件中的固定字段的关联关系；

所述客户端还用于：响应于接收到所述服务器发送的所述关联关系，基于所述关联关系对所述固定字段与所述识别出的非固定字段进行匹配显示。