CN108345882B

CN108345882B - 用于图像识别的方法、装置、设备和计算机可读存储介质

Info

Publication number: CN108345882B
Application number: CN201810142437.7A
Authority: CN
Inventors: 向宇波; 袁运筹; 王天天; 陈帆; 李琦; 陈涛涛; 张红光; 刘建夏; 娄双双
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2021-04-27
Anticipated expiration: 2038-02-11
Also published as: CN108345882A

Abstract

本公开的实施例涉及用于图像识别的方法、装置、计算设备以及计算机可读存储介质。该方法包括：识别第一图像中的字符；响应于确定识别出的字符与模板图像的至少一个参考定位区域中的字符相匹配，从第一图像中确定与至少一个参考定位区域相对应的至少一个第一区域；利用至少一个参考定位区域和至少一个第一区域，基于第一图像确定与模板图像相匹配的第二图像；以及从第二图像中确定与模板图像中的参考识别区域相对应的第二区域中的字符。本公开的实施例能够在原始图像质量较差的情况下实现图像识别。另外，还可以根据不同的模板图像来确定不同的信息，例如，可以获得不同字段之间的关系。

Description

用于图像识别的方法、装置、设备和计算机可读存储介质

技术领域

本公开的实施例总体涉及图像处理领域，并且更具体地涉及用于图像识别的方法、装置、计算设备和计算机可读存储介质。

背景技术

当前存在各种文字识别工具，将图像中的文字识别出来，按行输出。然而，当前的文字识别工具的前置条件较多，例如，要求较高的图像质量，对准图像进行拍摄。然而，在图像存在严重畸变的情况下，这些文字识别工具可能无法获得较好的文字识别结果。

另外，这些文字识别工具对于图像中的结构化数据的识别也是困难的。例如，这些文字识别工具通常无法获得结构化数据的字段之间的关系。例如，如果针对某一类发票进行识别，金额项和金额数值的关系在文字识别时被破坏，用户无法直接从金额里提取需要的数值，这对于数据的上层处理带来了巨大的障碍。

发明内容

根据本公开的示例实施例，提供了一种用于图像识别的方法和装置。

根据本公开的第一方面，提供了一种用于图像识别的方法。所述方法包括：识别第一图像中的字符；响应于确定识别出的所述字符与模板图像的至少一个参考定位区域中的字符相匹配，从所述第一图像中确定与所述至少一个参考定位区域相对应的至少一个第一区域；利用所述至少一个参考定位区域和所述至少一个第一区域，基于所述第一图像确定与所述模板图像相匹配的第二图像；以及从所述第二图像中确定与所述模板图像中的参考识别区域相对应的第二区域中的字符。

根据本公开的第二方面，提供了一种用于图像识别的装置。所述装置包括：字符识别模块，被配置为识别第一图像中的字符；区域确定模块，被配置为响应于确定识别出的所述字符与模板图像的至少一个参考定位区域中的字符相匹配，从所述第一图像中确定与所述至少一个参考定位区域相对应的至少一个第一区域；图像确定模块，被配置为利用所述至少一个参考定位区域和所述至少一个第一区域，基于所述第一图像确定与所述模板图像相匹配的第二图像；以及字符确定模块，被配置为从所述第二图像中确定与所述模板图像中的参考识别区域相对应的第二区域中的字符。

根据本公开的第三方面，提供了一种计算设备。所述计算设备包括：一个或多个处理器；以及存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据本公开的第一方面所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据本公开的第一方面所述的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的图像识别方法的流程图；

图3示出了根据本公开的一些实施例的原始图像的示意图；

图4示出了根据本公开的一些实施例的模板图像的示意图；

图5示出了根据本公开的一些实施例的包括定位区域的原始图像的示意图；

图6A示出了根据本公开的一些实施例的经变换的原始图像的示意图；

图6B示出了根据本公开的一些实施例的经变换的原始图像的另一示意图；

图7示出了根据本公开的实施例的图像识别装置的示意框图；以及

图8示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上所述，当前的图像识别工具的前置条件较多，例如，要求较高的图像质量，对准图像进行拍摄。另外，这些文字识别工具通常仅能逐行识别文字，而无法获得结构化数据的不同字段之间的关系。

本公开的实施例提供了一种用于图像识别的方案。根据本公开的实施例，将识别出的原始图像的字符与模板图像的至少一个参考定位区域中的字符进行匹配。然后，利用匹配之后的区域之间的对应性，对原始图像进行变换。将变换后的图像与模板图像中的参考识别区域进行匹配，以识别所匹配的区域内的字符。以这种方式，可以降低对图像质量的要求，也不需要原始图像中存在特定的图形。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。在该示例环境100中，计算设备104接收待识别的原始图像102，原始图像102可以是由各种图像捕获设备获取的图像，例如，相机、移动电话、扫描仪等。

计算设备104从数据库108获取模板图像110，模板图像110可以具有与原始图像102相同的类型，例如，发票、提货单、医疗票据等。模板图像110可以包括参考定位区域和参考识别区域。参考定位区域可以包括字符，以用于将模板图像110与原始图像102进行匹配。参考识别区域表示待识别的区域，其可以包括固定字段区域和/或固定表格区域。应当理解，数据库108也可以集成在计算设备104中，并且模块图像110可以由用户根据实际需求进行自定义。例如，用户可以将自定义的模板图像提供给计算设备104。作为另一示例，用户可以在图像上框选参考定位区域和参考识别区域，以自定义模板图像110。

计算设备104可以将原始图像102转换为与模板图像110相匹配的目标图像106。计算设备104可以从目标图像106确定与参考识别区域相对应的识别区域，并确定识别区域内的字符，以提供识别结果112。

用户还可以进一步提供另外的图像对模板图像110进行测试。针对另外的图像应用本文所述的图像识别方法来获得识别结果112。如果用户对识别结果112不满意，则可以对模板图像110进行进一步的修改。

图2示出了根据本公开的一些实施例的图像识别方法200的流程图。图像识别方法200例如可以由图1所示的计算设备104实施。

在框202，识别原始图像102中的字符。为了方便描述，以下将原始图像102称为第一图像。图3示出了根据本公开的一些实施例的第一图像300的示意图。为了简单起见，图3仅示出了旋转畸变，然而应当理解，第一图像300可以具有各种其他类型的畸变，例如，不平整、不清晰、缺少部分内容等等。

在一些实施例中，可以使用光学字符识别(OCR)方法来对第一图像300进行识别。例如，可以使用基于卷积神经网络(CNN)的字符识别方法来对第一图像300进行识别。应当理解，可以通过多种方案来对原始图像102中的字符进行识别，而不局限于上述提到的具体方法。上述提到的识别方法仅仅是示例性的，而无意对本公开的实施例进行任何限制。

在框204，确定识别出的字符与模板图像的参考定位区域中的字符是否匹配。图4示出了根据本公开的一些实施例的模板图像400的示意图。如图4所示，模板图像400包括参考定位区域401-407和参考识别区域411-417。参考定位区域410-407可以位于模板图像400的周界处或周界附近，以提高定位的准确性。

由于第一图像300可能存在较大的畸变，可以使用粗略的字符匹配的方式来确定识别出的字符是否与参考定位区域401-407中的字符是否匹配，以提高对严重畸变图像的识别效果。在一些实施例中，如果识别出的字符包括参考定位区域中的字符的至少一部分，则认为识别出的字符与该参考定位区域中的字符相匹配。例如，如果识别出的字符与一个参考定位区域中的字符匹配的数目大于预定义阈值，则认为识别出的字符与参考定位区域匹配。例如，如果从第一图像中识别出“保”和“区”，并且阈值设置为0.5，则可以认为“保”和“区”与参考定位区域401(“保税区”)相匹配(2大于3×0.5)。

如果确定识别出的字符与模板图像的参考定位区域中的字符匹配，则方法200前进至框206。在框206，从第一图像中确定与参考定位区域相对应的第一区域。例如，可以将与参考定位区域中的字符匹配的识别出的字符所在的第一图像的区域确定为第一区域。图5示出了根据公开的一些实施例的包括第一区域的第一图像的示意图。如图5所示，第一图像300包括多个第一区域501-507。

由于将第一图像的字符与参考定位区域的字符进行匹配，第一图像中可能多次出现与一个参考定位区域相同的字符。在这些情况下，可能确定出与一个参考定位区域匹配的多个候选区域。这些候选区域包括异常的候选区域。例如，在一张图像中可能在两个角落内包括“保”和“区”两个字符。这两个字符所在的区域可以被认为异常的候选区域。因此，可以从这些候选区域中去除异常的候选区域来获得所述第一区域，以便提高图像变换的效果，更加容易将图像进行摆正。在一些实施例中，可以使用随机抽样一致(RANSAC)算法从这些候选区域中去除异常的候选区域。

在框208，基于参考定位区域和第一区域，从第一图像300确定与模板图像400相匹配的第二图像。图6A示出了根据本公开的一些实施例的第二图像500的示意图。图6A还示出了与参考定位区域401-407匹配的第一区域501-507。

如图6A所示，在框206处获得了多个第一区域501-507，并且如图4所示，模板图像400包括多个参考定位区域401-407。因此，可以根据多个第一区域501-507和多个参考定位区域401-407来进行透视变换。例如，可以基于多个第一区域501-507和相应的多个参考定位区域401-407来计算透视投影矩阵。然后，可以对第一图像300应用该透视投影矩阵，以得到第二图像500。例如，可以利用这些区域的中心点来计算透视投影矩阵。

在一些实施例中，可以从多个第一区域501-507中选择预定数目个第一区域，例如四个第一区域，以使得这四个第一区域包围的面积最大化。这四个第一区域所包围的面积可以表示四个第一区域的中心所连接的四边形包围的面积。然后，可以基于四个第一区域和与四个第一区域对应的四个参考定位区域，计算透视投影矩阵。以这种方式，可以选择分散得较开的区域进行匹配，从而提升匹配效果。透视投影矩阵的计算可以使用目前已知的或者将来开发的任何方法来实现，本公开在此不受限制。

在一些实施例中，由于第一图像300质量不佳，可能无法获得多个第一区域，从而无法对第一图像进行透视变换。在这种情况下，可以从所获得的第一区域中选择字符串最长的第一区域。基于该第一区域与相对应的参考定位区域，可以对第一图像执行旋转和/或拉伸操作，以将第一区域与相应的参考定位区域重叠。

在一些实施例中，可以通过多次迭代的方式从第一图像300确定与模板图像400相匹配的第二图像。例如，基于参考定位区域和第一区域，可以将第一图像300变换为第三图像。如果确定第三图像与模板图像400不匹配，则可以从第三图像中确定与参考定位区域相对应的第三区域。基于参考定位区域和第三区域，从第三图像确定与模板图像相匹配的第二图像。在从第三图像确定与模板图像相匹配的第二图像也可以涉及多次迭代过程。经过多次迭代，可以提高变换后的图像与模板图像的匹配程度，进而提高后续的识别和结构化的过程中的准确性。

例如，可以通过第一透视投影矩阵将第一图像300变换为第三图像。如果第三图像与模板图像400不匹配，则从第三图像出发以相同的方式计算第二透视投影矩阵。在一些实施例中，可以将第一透视投影矩阵与第二透视投影矩阵相乘以获得组合的透视投影矩阵。向第一图像300应用组合的透视投影矩阵以获得相应的变换结果。与向第三图像直接应用第二透视投影矩阵相比，向原始图像(即，第一图像300)应用组合的透视投影矩阵可以保留更多的原始图像的信息，因为在向原始图像应用第一透视投影矩阵之后会丢失原始图像的部分信息。

在一些实施例中，可以通过将图像的四个顶点与经过透视变换的图像的四个顶点的位置非常接近，则认为不再需要透视投影。在一些实施例中，可以通过计算变换前后的四个顶点的坐标之差的绝对值来确定四个顶点的位置是否接近。在一些实施例中，也可以通过计算变换前后的四个顶点的距离来确定四个顶点的位置是否接近。计算坐标之差的绝对值具有更高的准确性，这是因为距离是标量，丢失了角度的信息。例如，可以将四个点的横坐标差的绝对值相加，然后除以图像的宽度；将四个点的纵坐标差的绝对值相加，然后除以图像的高度。两者可以作为自然对数的指数。如果变换前后相差很小，则指数的次幂接近零，否则指数的次幂接近无穷大。例如，可以计算ret＝2/(1+exp(x_diff/d+y_diff/h))，其中ret表示匹配的误差，x_diff表示四个顶点的横坐标差的绝对值之和，y_diff表示四个顶点的纵坐标差的绝对值之后，d表示图像的宽度，并且h表示图像的高度。

在框210，从第二图像500中确定与模板图像中的参考识别区域对应的第二区域中的字符。例如，可以从第二图像500中确定与模板图像400中的参考识别区域411-417相对应的第二区域。图6B示出了这样的第二区域611-617的示意图。

如图6B所示，第二区域611-617包括两种类型，固定字段区域和固定表格区域，其中第二区域611-616示出了固定字段区域，其与模板图像400中的参考识别区域411-416相对应；并且第二区域617示出了固定表格区域，其与模板图像400中的参考识别区域417相对应。

第二区域611-616对应于固定字段区域，则可以确定第二区域611-616是否包含字符。如果第二区域611-616包含字符，可以将第二区域611-611所包括的字符根据高度分行。每一行按照从左至右的顺序进行排列，最后拼接成一个完整字段。

第二区域617对应于模板图像400中的表格区域417。表格区域417可以指定各列的范围，例如，指定各列的宽度。在一些实施例中，表格区域可以是与表格区域417相比行和列对调的表格区域。在这种情况下，表格区域也可以指定各行的范围，例如，指定各行的高度。换言之，表格区域可以包括多个属性，并指定各个属性相应的维度。例如，如果属性是按列排列，如图6B所示，则其相应的维度是列宽。

在一些实施例中，可以基于第二区域617中的字符来确定多个字符序列。例如，在图6B的实施例中，每一个字符序列对应于一列。字符序列的每一项对应于一个表格单元，其可以包括一个或多个字符。每一个表格单元的字段可以通过与固定字段区域相同的方法来进行组合。基于多个字符序列之间的位置关系，可以将多个字符序列彼此匹配。

如图6B所示，可以将第二区域617内的多个字符序列各自从上到下排序。然后，每次取每一个字符序列的头部项(即，每一列的头部字段)尝试组合成行。可以根据各个头部项或头部字段之间相对的高度信息来进行组合。例如，如果第一列的第一字段与第二列的第二字段之间的高度相差小于预定义阈值，则第一字段与第二字段组合成功。如果组合成功，则将相应字段从字符序列的头部去除。如果组合失败，则可以将高度较高的字段从头部摘除。如此循环。

应当理解，尽管以上结合从上到下的顺序进行解释，以上操作也可以从下到上进行。另外，如前所述，针对与表格区域417相比行和列对调的表格区域，也可以使用按行分组来进行组合。

在一些实施例中，可以从具有极大值或极小值高度的列开始进行组合。例如，由于在拍摄图像时，纸张可能存在突起等变形导致某一列相对于其他列更高，尽管两列应当在同一高度。在这种情况下，可以从这一列向两侧扩展以进行匹配。

通过结构化处理，可以确定不同字段之间的关系，以方便后续的处理。例如，在图3-图6B所示的实施例中，可以根据从第二区域617所获取的数据创建数据库，从而方便信息的查询等。

图7示出了根据本公开的一些实施例的用于图像识别的装置700的示意框图。如图7所示，装置700包括：字符识别模块702，被配置为识别第一图像中的字符；区域确定模块704，被配置为响应于确定识别出的字符与模板图像的至少一个参考定位区域中的字符相匹配，从第一图像中确定与至少一个参考定位区域相对应的至少一个第一区域；图像确定模块706，被配置为利用至少一个参考定位区域和至少一个第一区域，基于第一图像确定与模板图像相匹配的第二图像；以及字符确定模块708，被配置为从第二图像中确定与模板图像中的参考识别区域相对应的第二区域中的字符。

在一些实施例中，区域确定模块包括：字符匹配模块，被配置为响应于识别出的字符包括至少一个参考定位区域中的字符的至少一部分，确定识别出的字符与至少一个参考定位区域中的字符相匹配。

在一些实施例中，区域确定模块704包括：第一区域确定模块，被配置为从第一图像中确定与至少一个参考定位区域相对应的多个候选区域；以及第二区域确定模块，被配置为从多个候选区域中去除异常的候选区域，以得到至少一个第一区域。

在一些实施例中，至少一个第一区域包括多个第一区域，至少一个参考区域包括多个参考定位区域，并且图像确定模块706包括：透视变换模块，被配置为利用多个第一区域和多个参考定位区域，对第一图像进行透视变换，以得到第二图像。

在一些实施例中，透视变换模块包括：矩阵计算模块，被配置为基于多个第一区域和多个参考定位区域，计算透视投影矩阵；以及矩阵应用模块，被配置为对第一图像应用透视投影矩阵，以得到第二图像。

在一些实施例中，图像确定模块706包括：变换模块，被配置为基于参考定位区域和第一区域，将第一图像变换为第三图像；第一确定模块，被配置为响应于确定第三图像与模板图像不匹配，从第三图像中确定与参考定位区域相对应的第三区域；以及第二确定模块，被配置为基于参考定位区域和第三区域，从第三图像确定与模板图像相匹配的第二图像。

在一些实施例中，装置700还包括：序列确定模块，被配置为响应于参考识别区域的至少一部分是表格，从第二区域中的字符确定多个字符序列；序列匹配模块，被配置为基于多个字符序列之间的位置关系，使多个字符序列之间彼此匹配。

图8示出了一个可以用来实施本公开的实施例的设备800的示意性框图。如图所示，设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200，可由处理单元801执行。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序被加载到RAM 803并由CPU 801执行时，可以执行上文描述的方法200的一个或多个步骤。备选地，在其他实施例中，CPU 801也可以以其他任何适当的方式被配置以实现上述过程/方法。

本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实施例。

Claims

1.一种用于图像识别的方法，包括：

识别第一图像中的字符；

响应于确定识别出的所述字符与模板图像的多个参考定位区域中的字符相匹配，从所述第一图像中确定与所述多个参考定位区域相对应的多个第一区域；

从所述多个第一区域中选择预定数目个第一区域，使得所述预定数目个第一区域包围的面积最大化；

利用所述预定数目个第一区域以及与所述预定数目个第一区域对应的预定数目个参考定位区域，对所述第一图像进行透视变换，以得到与所述模板图像相匹配的第二图像；以及

从所述第二图像中确定与所述模板图像中的参考识别区域相对应的第二区域中的字符。

2.根据权利要求1所述的方法，其中确定识别出的所述字符与模板图像的多个参考定位区域中的字符相匹配包括：

响应于识别出的所述字符包括所述多个参考定位区域中的字符的至少一部分，确定识别出的所述字符与所述多个参考定位区域中的字符相匹配。

3.根据权利要求1所述的方法，其中从所述第一图像中确定与所述多个参考定位区域相对应的所述多个第一区域包括：

从所述第一图像中确定与所述多个参考定位区域相对应的多个候选区域；以及

从所述多个候选区域中去除异常的候选区域，以得到所述多个第一区域。

4.根据权利要求1所述的方法，还包括：

确定所述第一图像的顶点的坐标与所述第二图像的顶点的坐标之差的绝对值；以及

响应于所述绝对值小于预定阈值，确定所述第二图像与所述模板图像匹配。

5.根据权利要求1所述的方法，其中对所述第一图像进行透视变换包括：

基于所述多个第一区域和所述多个参考定位区域，计算透视投影矩阵；以及

对所述第一图像应用所述透视投影矩阵，以得到所述第二图像。

6.根据权利要求1所述的方法，其中基于所述第一图像确定与所述模板图像相匹配的第二图像包括：

基于所述参考定位区域和所述第一区域，将所述第一图像变换为第三图像；

响应于确定所述第三图像与所述模板图像不匹配，从所述第三图像中确定与所述参考定位区域相对应的第三区域；以及

基于所述参考定位区域和所述第三区域，从所述第三图像确定与所述模板图像相匹配的第二图像。

7.根据权利要求1所述的方法，还包括：

响应于所述参考识别区域的至少一部分是表格，从所述第二区域中的字符确定多个字符序列；

基于所述多个字符序列之间的位置关系，使所述多个字符序列之间彼此匹配。

8.一种用于图像识别的装置，包括：

字符识别模块，被配置为识别第一图像中的字符；

区域确定模块，被配置为响应于确定识别出的所述字符与模板图像的多个参考定位区域中的字符相匹配，从所述第一图像中确定与所述多个参考定位区域相对应的多个第一区域；

透视变换模块，被配置为从所述多个第一区域中选择预定数目个第一区域，使得所述预定数目个第一区域包围的面积最大化；

图像确定模块，被配置为利用所述预定数目个第一区域以及与所述预定数目个第一区域对应的预定数目个参考定位区域，对所述第一图像进行透视变换，以得到与所述模板图像相匹配的第二图像；以及

字符确定模块，被配置为从所述第二图像中确定与所述模板图像中的参考识别区域相对应的第二区域中的字符。

9.根据权利要求8所述的装置，其中所述区域确定模块包括：

字符匹配模块，被配置为响应于识别出的所述字符包括所述多个参考定位区域中的字符的至少一部分，确定识别出的所述字符与所述多个参考定位区域中的字符相匹配。

10.根据权利要求8所述的装置，其中所述区域确定模块包括：

第一区域确定模块，被配置为从所述第一图像中确定与所述多个参考定位区域相对应的多个候选区域；以及

第二区域确定模块，被配置为从所述多个候选区域中去除异常的候选区域，以得到所述多个第一区域。

11.根据权利要求8所述的装置，还包括：

绝对值确定模块，被配置为确定所述第一图像的顶点的坐标与所述第二图像的顶点的坐标之差的绝对值；以及

匹配确定模块，被配置为响应于所述绝对值小于预定阈值，确定所述第二图像与所述模板图像匹配。

12.根据权利要求8所述的装置，其中所述透视变换模块包括：

矩阵计算模块，被配置为基于所述多个第一区域和所述多个参考定位区域，计算透视投影矩阵；以及

矩阵应用模块，被配置为对所述第一图像应用所述透视投影矩阵，以得到所述第二图像。

13.根据权利要求8所述的装置，其中所述图像确定模块包括：

变换模块，被配置为基于所述参考定位区域和所述第一区域，将所述第一图像变换为第三图像；

第一确定模块，被配置为响应于确定所述第三图像与所述模板图像不匹配，从所述第三图像中确定与所述参考定位区域相对应的第三区域；以及

第二确定模块，被配置为基于所述参考定位区域和所述第三区域，从所述第三图像确定与所述模板图像相匹配的第二图像。

14.根据权利要求8所述的装置，还包括：

序列确定模块，被配置为响应于所述参考识别区域的至少一部分是表格，从所述第二区域中的字符确定多个字符序列；

序列匹配模块，被配置为基于所述多个字符序列之间的位置关系，使所述多个字符序列之间彼此匹配。

15.一种计算设备，所述计算设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。