CN106326888B

CN106326888B - 图像识别方法和装置

Info

Publication number: CN106326888B
Application number: CN201610675805.5A
Authority: CN
Inventors: 周舒畅; 孙霏; 姚聪; 敖翔; 周昕宇; 何蔚然; 印奇
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2016-08-16
Filing date: 2016-08-16
Publication date: 2022-08-16
Anticipated expiration: 2036-08-16
Also published as: CN106326888A

Abstract

本发明的实施例提供了一种图像识别方法和装置。该图像识别方法包括：从待识别图像中提取包含待识别对象的图像块；对图像块中的文字进行文字识别，以获得初级识别结果；获取描述文件，描述文件包括用于指示图像块中的文字需要符合的规则要求的约束信息；将图像块的坐标系与描述文件中规定的图像坐标系对齐；以及利用描述文件中的至少部分约束信息对初级识别结果进行修正，以获得最终识别结果。上述图像识别方法和装置，在从待识别图像中识别文字信息时，利用获取的描述文件修正文字识别结果，可以达到提高文字识别准确度和文字识别速度的效果。

Description

图像识别方法和装置

技术领域

本发明涉及计算机领域，更具体地涉及一种图像识别方法和装置。

背景技术

在很多领域，需要对诸如身份证的证照或类似的具有一定文字排布规则的非证照对象中的文字进行识别。以证照为例，典型的证照识别流程是：用户提供一张证照图像，识别引擎从证照图像中提取文字信息并输出给用户。

以上流程的缺陷在于：系统无法利用关于待识别证照的先验知识，特别是关于各个域(包含文字的区域)的先验知识来改进识别结果。例如按法律规定，中国居民身份证的背面的签发机关只能是县级公安机关。但是在现有流程中，无法将县级公安机关的列表提供给识别引擎，从而无法利用这一信息。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种图像识别方法和装置。

根据本发明一方面，提供了一种图像识别方法，包括：从待识别图像中提取包含待识别对象的图像块；对所述图像块中的文字进行文字识别，以获得初级识别结果；获取描述文件，所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息；将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐；以及利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正，以获得最终识别结果。

示例性地，在所述对所述图像块中的文字进行文字识别之后，所述图像识别方法进一步包括：输出所述初级识别结果，以供用户查看。

示例性地，在所述利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正之前，所述图像识别方法进一步包括：接收用户修正指令；以及根据所述用户修正指令从所述描述文件中选择所述至少部分约束信息。

示例性地，在所述接收用户修正指令之前，所述图像识别方法进一步包括：提供关于所述描述文件中的所有约束信息的标识信息，以供用户选择，其中，所述用户修正指令包括所述用户输入的、针对关于所述至少部分约束信息的标识信息的选择指令。

示例性地，所述获取描述文件包括：接收用户输入的初始文件；以及对所述初始文件进行解析，以获得所述描述文件。

示例性地，在所述将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐之前，所述图像识别方法进一步包括：检查所述描述文件是否存在格式错误，如果存在格式错误，则发出提醒信息。

示例性地，所述获取描述文件包括：根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

示例性地，所述图像块中的文字分布于一个或多个域中，所述约束信息包括所述一个或多个域中的每一个的域名、坐标和属性信息。

示例性地，所述属性信息包括用于指向属性文档的指示信息，所述属性文档包括其所对应的域中可能出现的所有文字。

示例性地，所述图像识别方法还包括：接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

根据本发明另一方面，提供了一种图像识别装置，包括提取模块、文字识别模块、文件获取模块、对齐模块和修正模块。提取模块用于从待识别图像中提取包含待识别对象的图像块。文字识别模块用于对所述图像块中的文字进行文字识别，以获得初级识别结果。文件获取模块用于获取描述文件，所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息。对齐模块用于将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐。修正模块用于利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正，以获得最终识别结果。

示例性地，所述图像识别装置进一步包括：输出模块，用于输出所述初级识别结果，以供用户查看。

示例性地，所述图像识别装置进一步包括：指令接收模块，用于接收用户修正指令；以及选择模块，用于根据所述用户修正指令从所述描述文件中选择所述至少部分约束信息。

示例性地，所述图像识别装置进一步包括：信息提供模块，用于提供关于所述描述文件中的所有约束信息的标识信息，以供用户选择，其中，所述用户修正指令包括所述用户输入的、针对关于所述至少部分约束信息的标识信息的选择指令。

示例性地，所述文件获取模块包括：文件接收子模块，用于接收用户输入的初始文件；以及解析子模块，用于对所述初始文件进行解析，以获得所述描述文件。

示例性地，所述图像识别装置进一步包括：检查模块，用于在所述对齐模块将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐之前，检查所述描述文件是否存在格式错误，如果存在格式错误，则发出提醒信息。

示例性地，所述文件获取模块包括：文件选择子模块，用于根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

示例性地，所述图像识别装置进一步包括：属性文档获取模块，用于接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

根据本发明实施例的图像识别方法和装置，在从待识别图像中识别文字信息时，利用获取的描述文件修正文字识别结果，可以达到提高文字识别准确度和文字识别速度的效果。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的图像识别方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的图像识别方法的示意性流程图；

图3示出示例性的身份证背面图像；

图4示出根据本发明另一实施例的图像识别方法的示意性流程图；

图5示出根据本发明另一实施例的图像识别方法的示意性流程图；

图6a示出根据一个示例的身份证图像的初级识别结果；

图6b示出对图6a所示的初级识别结果进行修正后获得的最终识别结果；

图7示出根据本发明另一实施例的图像识别方法的示意性流程图；

图8示出根据本发明一个实施例的图像识别装置的示意性框图；以及

图9示出根据本发明一个实施例的图像识别系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为减少文字识别的错误率并提高文字识别速度，根据本发明实施例，提出一种图像识别方法和装置。首先，参照图1来描述用于实现根据本发明实施例的图像识别方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集待识别图像(例如证照图像等)，并且将所采集的待识别图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他图像采集装置采集待识别图像，并将采集的待识别图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的图像识别方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的图像识别方法。图2示出根据本发明一个实施例的图像识别方法200的示意性流程图。如图2所示，图像识别方法200包括以下步骤。

在步骤S210，从待识别图像中提取包含待识别对象的图像块。

待识别图像可以是任何合适的需要进行文字识别的图像，例如针对身份证采集的证照图像或其他类似的非证照图像等。待识别图像可以是摄像头采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。待识别对象可以是身份证、银行卡、营业执照等证照或类似的具有一定文字排布规则的非证照对象(诸如发票、支票等)。

步骤S210的操作可以包括裁剪操作。举例来说，在用户利用摄像头等图像采集装置采集其身份证的图像时，或多或少都要采集到一些背景物体。因此，可以在对待识别图像中的身份证文字进行识别之前，首先从待识别图像中提取包含待识别对象，即身份证，的图像块，即将无关的背景物体去除，仅提取出身份证所在的那块图像块。参见图3，示出示例性的身份证背面图像。在图3中，除身份证之外，还采集到了计算机、墙壁等无关物体，因此需要将这些无关物体去除。背景去除得越干净，随后执行的文字识别的准确率越高。因此，在步骤S210中，希望提取出的图像块中尽可能仅包含待识别对象。

可选地，在提取出包含待识别对象的图像块之后，可以对图像块进行一定预处理，例如对图像块进行倾斜校正、对比度调整等，从而使得预处理后的图像块能够更容易地进行文字识别。

待识别图像可以由诸如移动终端的客户端设备发送到电子设备100以由电子设备100的处理器102进行处理，也可以由电子设备100包括的图像采集装置110(例如摄像头)采集并传送到处理器102进行处理。

在步骤S220，对图像块中的文字进行文字识别，以获得初级识别结果。

可以采用常规的光学字符识别(OCR)方式识别图像块中的文字。通过文字识别，可以将图像块中所包含的文字识别出来。例如，可以识别身份证图像中的姓名、性别、民族、出生日期、住址、身份证号码、签发机关、有效期限等信息。

当然，在此步骤中识别出的内容可以包括分类信息，也可以包括分类信息对应的具体身份信息。例如，对于身份证中的姓名一栏中，在身份证中其形式通常为“姓名XXX”。以“姓名张三”为例，其中“姓名”二字为分类信息，“张三”二字为具体身份信息。在文字识别过程中，可以将“姓名”二字及其后面跟随的“张三”二字识别出来。为方便描述，本文将一定大小的包含文字的子图像块(对应于待识别对象中的一个区域)称为“域”，也就是说，图像块中的文字是分布于一个或多个域中的。例如，包含“姓名”二字的子图像块可以视为一个域，包含“张三”二字的子图像块可以视为一个域，或者可以将包含“姓名张三”的整个子图像块视为一个域。域的划分可以根据需要确定，本发明不对此进行限制。

步骤S220中获得的文字识别结果是初级识别结果，随后还可以利用约束信息对其进行修正。经过修正后的识别结果是最终的文字识别结果。

在步骤S230，获取描述文件，所述描述文件包括用于指示图像块中的文字需要符合的规则要求的约束信息。

描述文件可以是用户经由输入装置106输入电子设备100的或者可以是预先存储在存储装置104中的。

描述文件是一个预先定义好的文档，其可以描述待识别对象中的文字通常遵循的格式和属性，也就是说，其规定了图像块中的文字需要符合的规则要求。描述文件可以用于提供关于待识别对象的先验信息，从而帮助对初级识别结果进行修正。

描述文件可以具有任何合适的格式。示例性地，一种描述文件的典型格式如下：描述文件由多行组成，其中一行包括描述文件中规定的图像大小；其余每行包括域名、对应的域出现的位置(坐标)和属性信息。其中，“属性”部分可以指向用户提供或预先存储的属性文档，还可以包括该域对应的文字所具有的属性(例如，该域可能出现的文字是数字、字母或汉字等的属性)。

例如，当目前需求是识别身份证背面时，待识别图像为一针对身份证背面采集的图像。可以按以下约定好的格式提供描述文件，其内容为：

图像宽200高100

域名:签发机关,坐标:(60,80)(180,90),属性:'中国县级公安机关大全.txt'

域名:有效期限,坐标:(60,95)(190,105),属性:'年.月.日-年.月.日'。

在上述示例中，描述文件规定的图像大小为宽200像素、高100像素的图像，对于域名为“签发机关”的域，其位置位于图像中坐标(60,80)(180,90)处，对应的属性信息指向用户提供或者预先存储的属性文档“中国县级公安机关大全.txt”；对于域名为“有效期限”的域，其位置位于图像中坐标(60,95)(190,105)处，对应的属性表示该域的文字应该是数字。

在步骤S240，将图像块的坐标系与描述文件中规定的图像坐标系对齐。

描述文件规定对包含待识别对象的图像块中的文字的规则要求，根据这些规定好的规则要求可以判断初级识别结果是否准确。对于不准确的初级识别结果可以进行修正。

为了实现上述目的，需要将图像块的坐标系与描述文件中规定的图像坐标系对齐。下面举例说明。应注意，在本文的示例中，所描述的坐标系的单位为像素，但其并非对本发明的限制。

例如，在描述文件中指明“图像宽200高100”，而图像块的大小为宽300高150时，需要将描述文件中的各个域的坐标乘以1.5或者将图像块的坐标除以1.5。当然，如果图像块的大小为宽300高200时，需要将描述文件中的各个域的横坐标乘以1.5、纵坐标乘以2，或者将图像块的横坐标除以1.5、纵坐标除以2。总之，在步骤S240中，需要将图像块的坐标系与描述文件规定的图像坐标系对齐，使得图像块的大小与描述文件规定的图像大小保持一致。

在步骤S250，利用描述文件中的至少部分约束信息对初级识别结果进行修正，以获得最终识别结果。

约束信息是指描述文件中用于指示图像块中的文字需要符合的规则要求的信息，诸如上述示例中的“域名：签发机关,坐标:(60,80)(180,90),属性:'中国县级公安机关大全.txt'”的信息。

由于已经将图像块的坐标系与描述文件规定的图像坐标系对齐，因此可以根据图像块的坐标与描述文件中的各个域的坐标将图像块中的子图像块与描述文件中的域对应起来。通常来说，诸如身份证的待识别对象中的文字的位置大致是固定的，因此这种对应关系的确定准确度是很高的。

下面举例说明如何利用约束信息修正初级识别结果。例如，对于身份证中的有效期限域来说，其约束信息为“域名:有效期限,坐标:(60,95)(190,105),属性:'年.月.日-年.月.日'”，也就是说在属性为“年.月.日-年.月.日”的文字段中，所识别出的文字应当符合年、月、日的格式和属性。这意味着在有效期限域所识别出的文字不可能是字母。因此，对于将数字“0”识别为字母“O”或“o”、将数字“1”识别为小写字母“l”或大写字母“I”这样的错误，可以将字母修正为数字。另外，“年”前面不可能出现1001这样不合理的数字，因此在这种情况下，可以视情况将“1001年”修正为“2001年”。

图2所示的图像识别方法200中的各步骤的执行顺序仅是示例而非限制。本发明实施例提供的图像识别方法可以具有其他合理的执行顺序，例如，步骤S230可以在步骤S210之前、在步骤S210之后及步骤S220之前、或者与步骤S210或S220同时执行，步骤S220可以在步骤S240之后或与步骤S240同时执行。

根据本发明实施例的图像识别方法，在从待识别图像中识别文字信息时，利用获取的描述文件修正文字识别结果，可以达到提高文字识别准确度和文字识别速度的效果。

示例性地，根据本发明实施例的图像识别方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的图像识别方法可以部署在图像采集端，例如，可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。替代地，根据本发明实施例的图像识别方法还可以部署在服务器端(或云端)处。例如，可以在客户端采集待识别图像，客户端将采集到的待识别图像传送给服务器端(或云端)，由服务器端(或云端)进行图像识别。

图4示出根据本发明另一实施例的图像识别方法400的示意性流程图。图4所示的图像识别方法400的步骤S410、S420和S440-S460分别与图2所示的图像识别方法200的步骤S210-S250相对应，本领域技术人员结合上述对图2所示的图像识别方法200的描述可以理解本实施例的上述步骤，在此不再赘述。在本实施例中，在步骤S420之后，图像识别方法400可以进一步包括步骤S430。

在步骤S430，输出初级识别结果，以供用户查看。

可以经由诸如显示屏的输出装置输出初级识别结果，以供用户查看。用户查看初级识别结果之后，可以判断初级识别结果是否存在错误，对于存在错误的情况，可以指示电子设备100进行修正。

图5示出根据本发明另一实施例的图像识别方法500的示意性流程图。图5所示的图像识别方法500的步骤S510-S540和S570分别与图2所示的图像识别方法200的步骤S210-S250相对应，本领域技术人员结合上述对图2所示的图像识别方法200的描述可以理解本实施例的上述步骤，在此不再赘述。在本实施例中，在步骤S570之前，图像识别方法500可以进一步包括步骤S550和S560。

在步骤S550，接收用户修正指令。

在用户发现初级识别结果的错误之后，可以指示电子设备100对错误之处进行修正。为此，用户可以经由输入装置106向电子设备100输入用户修正指令，电子设备100接收用户输入的修正指令。

在步骤S560，根据用户修正指令从描述文件中选择至少部分约束信息。

例如，如果用户发现身份证中的签发机关域的信息识别错误，可以指示电子设备100对签发机关域的信息进行修正。例如，用户经由输入装置106向电子设备100输入指示对签发机关域的信息进行修正的修正指令。当电子设备100接收到这样的用户修正指令时，可以从描述文件中选择与签发机关域相关的约束信息，例如上文所述的“域名:签发机关,坐标:(60,80)(180,90),属性:'中国县级公安机关大全.txt'”这一行信息。随后电子设备100可以根据这部分约束信息对识别出来的签发机关域的文字信息进行修正。

下面结合图6a-6b进行描述。图6a示出根据一个示例的身份证图像的初级识别结果，图6b示出对图6a所示的初级识别结果进行修正后获得的最终识别结果。

如图6a所示，在初级识别结果中，将签发机关域中的字符“市”识别成了字符“布”，将字符“海”识别成了字符“诲”，将有效期限域中的字符“1”识别成了字符“7”。

如上文所述，可以将初级识别结果显示在显示屏上以供用户查看。用户发现这些错误之后，可以指示电子设备100对签发机关域和有效期限域进行修正。对于签发机关域来说，描述文件的属性信息中指示了“中国县级公安机关大全.txt”。电子设备100根据该属性信息的指示，可以获取该txt属性文档。该txt属性文档可以是预先存储在存储器中的，也可以是由用户输入(即上传)的。当获取该txt属性文档之后，再根据txt属性文档中记载的所有县级公安机关的名称找出初级识别结果中的公安机关域的识别错误并对该错误进行修正，使得修正后的识别结果符合属性信息所指示的属性文档中的名称。同样，也可以根据描述文件中的有效期限域信息对初级识别结果中的有效期限域的识别错误进行修正。图6b示出的是修正后的结果。从图6b中可以看出，图6a中的错误均已得到修正。

应当理解，以上步骤S550和S560也可以在图5所示的步骤S540之前执行。另外，在图4所示的图像识别方法400中，也可以进一步执行以上步骤S550和S560，例如可以在步骤S460之前执行步骤S550和S560。

在现有技术中，未向用户提供与用户交互以控制文字识别结果的修正的功能，因此用户无法利用描述文件控制文字识别结果的修正。而根据本发明实施例，可以接收用户修正指令并基于该指令修正初级识别结果。由于用户对错误的识别率通常比较高，因此这种方法可以有效提高文字识别的准确度。

图7示出根据本发明另一实施例的图像识别方法700的示意性流程图。图7所示的图像识别方法700的步骤S710-S740和S760-S780分别与图5所示的图像识别方法500的步骤S510至S570相对应，本领域技术人员结合上述对图5所示的图像识别方法500的描述可以理解本实施例的上述步骤，在此不再赘述。在本实施例中，在步骤S760之前，图像识别方法700可以进一步包括步骤S750。

在步骤S750，提供关于描述文件中的所有约束信息的标识信息，以供用户选择，其中，用户修正指令包括用户输入的、针对关于至少部分约束信息的标识信息的选择指令。

关于约束信息的标识信息可以是例如标注“姓名”、“性别”、“签发机关”等的显示控件。可以经由诸如显示屏的显示装置提供这些标识信息。用户可以通过点击显示控件来选择相应的约束信息，此时电子设备100可以接收到用户输入的、对相应的约束信息的选择指令。例如，用户点击“姓名”显示控件，则可以从描述文件中选择与姓名域相关的约束信息来修正姓名域的初级识别结果。

可以理解的是，用户也可以选择哪些域不需进行修正。例如，有些身份证的有效期限的结束时间为“长期”，此时用户可以选择不利用“域名:有效期限,坐标:(60,95)(190,105),属性:'年.月.日-年.月.日'”这样的约束信息来修正初级识别结果。在这种情况下，可以采用排除方式选择至少部分约束信息。也就是说，用户修正指令可以包括用户输入的、针对关于描述文件中的除至少部分约束信息之外的其余约束信息的选择指令。

根据本发明实施例，上述步骤S230(S440、S530或S730)可以包括：接收用户输入的初始文件；以及对初始文件进行解析，以获得描述文件。

如上文所述，描述文件可以来自用户，也可以由系统预先存储。在由用户输入的情况下，可以对用户输入的初始文件进行解析，即将其转换为系统可以识别的格式，进而获得描述文件。

在现有技术中，未向用户提供与用户交互以获得描述文件的功能，因此即使用户拥有有益的先验知识，也无法将其用于文字识别结果的改进。而根据本发明实施例，可以接收来自用户的描述文件，这有利于进一步提高文字识别结果的准确度。

根据本发明实施例，在步骤S240(S450、S540或S740)之前，图像识别方法200(400、500或700)可以进一步包括：检查描述文件是否存在格式错误，如果存在格式错误，则发出提醒信息。

例如，如果在用户提供的描述文件中，在关于签发机关域的信息中缺少属性信息或者属性信息的格式不符合要求，则可以向用户发出提醒信息，提醒用户其所上传的描述文件出错。用户在接收到提醒信息之后，可以提供新的符合要求的描述文件。随后可以利用该新提供的描述文件进行初级识别结果的修正。

通过发出提醒信息可以及时通知用户描述文件的错误，以保证利用合格的描述文件来对文字识别结果进行修正，从而进一步确保文字识别结果的准确性。

根据本发明实施例，上述步骤S230(S440、S530或S730)可以包括：根据待识别对象的类别从预先存储在存储器中的描述文件集合中选择描述文件。

可以预先在存储器中存储与多种待识别对象相对应的描述文件，即描述文件集合。例如，可以分别存储与身份证、银行卡、营业执照等证照相对应的描述文件。当发现待识别对象是身份证时，从描述文件集合中选择与身份证相对应的描述文件。

根据本发明实施例，图像块中的文字分布于一个或多个域中，约束信息包括一个或多个域中的每一个的域名、坐标和属性信息。上文已经结合示例描述了约束信息包括的内容及其表示形式，在此不再赘述。

根据本发明实施例，属性信息包括用于指向属性文档的指示信息，所述属性文档包括其所对应的域中可能出现的所有文字。如上文所述，对于身份证的签发机关域来说，其约束信息可以是“域名：签发机关,坐标:(60,80)(180,90),属性:'中国县级公安机关大全.txt'”，其中，属性信息中的“中国县级公安机关大全.txt”指向一个包含中国县级公安机关的名称的txt属性文档。该txt属性文档即本文所述的属性文档，其中包括了在签发机关域中可能出现的所有文字。

根据本发明实施例，图像识别方法200(400、500或700)可以进一步包括：接收用户输入的属性文档或获取预先存储在存储器中的属性文档。

属性文档(诸如名称为“中国县级公安机关大全.txt”的txt属性文档)可以由用户输入提供或者可以预先存储在存储器中。特别地，为了减少上传时间，可以利用存储器(如图1所示的存储装置104)存储可能被频繁利用的属性文档。当用户欲提供的属性文档已存储在存储器中时，可以利用已经存储的属性文档以及利用已经约定好的属性名。例如当系统中已存储包括所有县级公安机关的名称的文件“中国县级公安机关大全.txt”时，可以直接在描述文件中用“中国县级公安机关大全.txt”作为属性名并利用该属性文档，而无需额外定义属性名并上传属性文档。

根据本发明另一方面，提供一种图像识别装置。图8示出了根据本发明一个实施例的图像识别装置800的示意性框图。

如图8所示，根据本发明实施例的图像识别装置800包括提取模块810、文字识别模块820、文件获取模块830、对齐模块840和修正模块850。所述各个模块可分别执行上文中结合图2-7描述的图像识别方法的各个步骤/功能。以下仅对该图像识别装置800的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

提取模块810用于从待识别图像中提取包含待识别对象的图像块。提取模块810可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

文字识别模块820用于对所述图像块中的文字进行文字识别，以获得初级识别结果。文字识别模块820可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

文件获取模块830用于获取描述文件，所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息。文件获取模块830可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

对齐模块840用于将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐。对齐模块840可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

修正模块850用于利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正，以获得最终识别结果。修正模块850可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明实施例，所述图像识别装置800可以进一步包括：输出模块，用于输出所述初级识别结果，以供用户查看。

根据本发明实施例，所述图像识别装置800可以进一步包括：指令接收模块，用于接收用户修正指令；以及选择模块，用于根据所述用户修正指令从所述描述文件中选择所述至少部分约束信息。

根据本发明实施例，所述图像识别装置800可以进一步包括：信息提供模块，用于提供关于所述描述文件中的所有约束信息的标识信息，以供用户选择，其中，所述用户修正指令包括所述用户输入的、针对关于所述至少部分约束信息的标识信息的选择指令。

根据本发明实施例，所述文件获取模块830可以包括：文件接收子模块，用于接收用户输入的初始文件；以及解析子模块，用于对所述初始文件进行解析，以获得所述描述文件。

根据本发明实施例，所述图像识别装置800可以进一步包括：检查模块，用于在所述对齐模块将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐之前，检查所述描述文件是否存在格式错误，如果存在格式错误，则发出提醒信息。

根据本发明实施例，所述文件获取模块830可以包括：文件选择子模块，用于根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

根据本发明实施例，所述图像块中的文字分布于一个或多个域中，所述约束信息包括所述一个或多个域中的每一个的域名、坐标和属性信息。

根据本发明实施例，所述属性信息包括用于指向属性文档的指示信息，所述属性文档包括其所对应的域中可能出现的所有文字。

根据本发明实施例，所述图像识别装置800可以进一步包括：属性文档获取模块，用于接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图9示出了根据本发明一个实施例的图像识别系统900的示意性框图。图像识别系统900包括图像采集装置910、存储装置920、以及处理器930。

图像采集装置910用于采集待识别图像。图像采集装置910是可选的，图像识别系统900可以不包括图像采集装置910。

所述存储装置920存储用于实现根据本发明实施例的图像识别方法中的相应步骤的程序代码。

所述处理器930用于运行所述存储装置920中存储的程序代码，以执行根据本发明实施例的图像识别方法的相应步骤，并且用于实现根据本发明实施例的图像识别装置中的提取模块810、文字识别模块820、文件获取模块830、对齐模块840和修正模块850。

在一个实施例中，所述程序代码被所述处理器930运行时使所述图像识别系统900执行以下步骤：从待识别图像中提取包含待识别对象的图像块；对所述图像块中的文字进行文字识别，以获得初级识别结果；获取描述文件，所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息；将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐；以及利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正，以获得最终识别结果。

在一个实施例中，在所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的对所述图像块中的文字进行文字识别的步骤之后，所述程序代码被所述处理器930运行时使所述图像识别系统900进一步执行：输出所述初级识别结果，以供用户查看。

在一个实施例中，在所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正的步骤之前，所述程序代码被所述处理器930运行时使所述图像识别系统900进一步执行：接收用户修正指令；以及根据所述用户修正指令从所述描述文件中选择所述至少部分约束信息。

在一个实施例中，在所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的接收用户修正指令的步骤之前，所述程序代码被所述处理器930运行时使所述图像识别系统900进一步执行：提供关于所述描述文件中的所有约束信息的标识信息，以供用户选择，其中，所述用户修正指令包括所述用户输入的、针对关于所述至少部分约束信息的标识信息的选择指令。

在一个实施例中，所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的获取描述文件的步骤包括：接收用户输入的初始文件；以及对所述初始文件进行解析，以获得所述描述文件。

在一个实施例中，在所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐的步骤之前，所述程序代码被所述处理器930运行时使所述图像识别系统900进一步执行：检查所述描述文件是否存在格式错误，如果存在格式错误，则发出提醒信息。

在一个实施例中，所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的获取描述文件的步骤包括：根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

在一个实施例中，所述图像块中的文字分布于一个或多个域中，所述约束信息包括所述一个或多个域中的每一个的域名、坐标和属性信息。

在一个实施例中，所述属性信息包括用于指向属性文档的指示信息，所述属性文档包括其所对应的域中可能出现的所有文字。

在一个实施例中，所述程序代码被所述处理器930运行时还使所述图像识别系统900执行：接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的图像识别方法的相应步骤，并且用于实现根据本发明实施例的图像识别装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的图像识别装置的各个功能模块，并且/或者可以执行根据本发明实施例的图像识别方法。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行以下步骤：从待识别图像中提取包含待识别对象的图像块；对所述图像块中的文字进行文字识别，以获得初级识别结果；获取描述文件，所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息；将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐；以及利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正，以获得最终识别结果。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的对所述图像块中的文字进行文字识别的步骤之后，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：输出所述初级识别结果，以供用户查看。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正的步骤之前，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：接收用户修正指令；以及根据所述用户修正指令从所述描述文件中选择所述至少部分约束信息。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的接收用户修正指令的步骤之前，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：提供关于所述描述文件中的所有约束信息的标识信息，以供用户选择，其中，所述用户修正指令包括所述用户输入的、针对关于所述至少部分约束信息的标识信息的选择指令。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的获取描述文件的步骤包括：接收用户输入的初始文件；以及对所述初始文件进行解析，以获得所述描述文件。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐的步骤之前，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：检查所述描述文件是否存在格式错误，如果存在格式错误，则发出提醒信息。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的获取描述文件的步骤包括：根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

在一个实施例中，所述计算机程序指令在被计算机运行时，还使所述计算机执行：接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

根据本发明实施例的图像识别系统中的各模块可以通过根据本发明实施例的实施图像识别的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的图像识别方法及装置，在从待识别图像中识别文字信息时，利用获取的描述文件修正文字识别结果，可以达到提高文字识别准确度和文字识别速度的效果。

虽然在本文的描述中主要以身份证识别为例对本发明提供的图像识别方法和装置进行描述，但这不应构成对本发明的限制。根据本发明实施例的图像识别方法和装置可以应用于多种图像识别领域，例如可以对社保证、资质证、银行卡、营业执照等证照上的信息或其他合适的非证照对象(例如支票、发票等)上的信息进行识别。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图像识别装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像识别方法，包括：

从待识别图像中提取包含待识别对象的图像块；

对所述图像块中的文字进行文字识别，以获得初级识别结果；

获取描述文件，所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息，其中，所述图像块中的文字分布于一个或多个域中，所述约束信息包括所述一个或多个域中的每一个的域名、坐标和属性信息；

将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐；

根据所述图像块的坐标与所述描述文件中的各个域的坐标将所述图像块中的子图像块与所述描述文件中的域对应起来；以及

利用所述描述文件中的与至少部分域相对应的至少部分约束信息对所述初级识别结果中与所述至少部分域相对应的文字信息进行修正，以获得最终识别结果；

其中，在所述利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正之前，所述图像识别方法进一步包括：

接收用户修正指令；以及

根据所述用户修正指令从所述描述文件中选择与所述至少部分域相对应的所述至少部分约束信息。

2.如权利要求1所述的图像识别方法，其中，在所述对所述图像块中的文字进行文字识别之后，所述图像识别方法进一步包括：

输出所述初级识别结果，以供用户查看。

3.如权利要求1或2所述的图像识别方法，其中，在所述接收用户修正指令之前，所述图像识别方法进一步包括：

提供关于所述描述文件中的所有约束信息的标识信息，以供用户选择，

其中，所述用户修正指令包括所述用户输入的、针对关于与所述至少部分域相对应的所述至少部分约束信息的标识信息的选择指令。

4.如权利要求1所述的图像识别方法，其中，所述获取描述文件包括：

接收用户输入的初始文件；以及

对所述初始文件进行解析，以获得所述描述文件。

5.如权利要求4所述的图像识别方法，其中，在所述将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐之前，所述图像识别方法进一步包括：

检查所述描述文件是否存在格式错误，如果存在格式错误，则发出提醒信息。

6.如权利要求1所述的图像识别方法，其中，所述获取描述文件包括：

根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

7.如权利要求1所述的图像识别方法，其中，所述属性信息包括用于指向属性文档的指示信息，所述属性文档包括其所对应的域中可能出现的所有文字。

8.如权利要求7所述的图像识别方法，其中，所述图像识别方法还包括：

接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

9.一种图像识别装置，包括：

提取模块，用于从待识别图像中提取包含待识别对象的图像块；

文字识别模块，用于对所述图像块中的文字进行文字识别，以获得初级识别结果；

文件获取模块，用于获取描述文件，所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息，其中，所述图像块中的文字分布于一个或多个域中，所述约束信息包括所述一个或多个域中的每一个的域名、坐标和属性信息；

对齐模块，用于将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐；

对应模块，用于根据所述图像块的坐标与所述描述文件中的各个域的坐标将所述图像块中的子图像块与所述描述文件中的域对应起来；以及

修正模块，用于利用所述描述文件中的与至少部分域相对应的至少部分约束信息对所述初级识别结果中与所述至少部分域相对应的文字信息进行修正，以获得最终识别结果；

其中，所述图像识别装置进一步包括：

指令接收模块，用于接收用户修正指令；以及

选择模块，用于根据所述用户修正指令从所述描述文件中选择与所述至少部分域相对应的所述至少部分约束信息。

10.如权利要求9所述的图像识别装置，其中，所述图像识别装置进一步包括：

输出模块，用于输出所述初级识别结果，以供用户查看。

11.如权利要求9或10所述的图像识别装置，其中，所述图像识别装置进一步包括：

信息提供模块，用于提供关于所述描述文件中的所有约束信息的标识信息，以供用户选择，

12.如权利要求9所述的图像识别装置，其中，所述文件获取模块包括：

文件接收子模块，用于接收用户输入的初始文件；以及

解析子模块，用于对所述初始文件进行解析，以获得所述描述文件。

13.如权利要求12所述的图像识别装置，其中，所述图像识别装置进一步包括：

检查模块，用于在所述对齐模块将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐之前，检查所述描述文件是否存在格式错误，如果存在格式错误，则发出提醒信息。

14.如权利要求9所述的图像识别装置，其中，所述文件获取模块包括：

文件选择子模块，用于根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

15.如权利要求9所述的图像识别装置，其中，所述属性信息包括用于指向属性文档的指示信息，所述属性文档包括其所对应的域中可能出现的所有文字。

16.如权利要求15所述的图像识别装置，其中，所述图像识别装置进一步包括：

属性文档获取模块，用于接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。