CN105809170A

CN105809170A - 字符识别方法和装置

Info

Publication number: CN105809170A
Application number: CN201610125383.4A
Authority: CN
Inventors: 王磊; 麦涛; 张旭; 张明亮; 齐勇
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-03-04
Filing date: 2016-03-04
Publication date: 2016-07-27
Anticipated expiration: 2036-03-04
Also published as: CN105809170B

Abstract

本发明公开了一种字符识别方法和装置，涉及图文处理技术领域，该方法包括：通过对目标图像中的目标内容进行第一次字符识别后，对得到的第一识别结果进行语义分析，以识别出第一识别结果中字符属性为字母的字符，以及字符属性为数字的字符，并且将字符属性为字母的字符标记为字母，将字符属性为数字的字符标记为数字，而后对带有标记的字符在目标图像中的位置进行第二次字符识别，得到第二识别结果，并根据第一识别结果和第二识别结果输出目标内容的字符识别结果，从而能解决免字母和数字容易混淆的问题，提高字符识别的准确率。

Description

字符识别方法和装置

技术领域

本发明涉及图文处理技术领域，具体地，涉及一种字符识别方法和装置。

背景技术

目前，OCR(OpticalCharacterRecognition，光学字符识别)是当前比较常用的基于图像的字符识别技术，该技术是采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。随着OCR技术的不断成熟，其应用范围也越来越广泛。

但是，现有的OCR技术在识别图像中的字母和数字时容易将二者混淆，影响字符识别的准确率。

发明内容

本发明提供一种字符识别方法和装置，用于解决现有的基于图像的字符识别技术中字母和数字容易混淆的问题。

为了实现上述目的，本发明提供一种字符识别方法，所述方法包括：

对目标图像中的目标内容进行第一次字符识别，得到第一识别结果；

通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符；

将所述字符属性为字母的字符标记为字母，将所述字符属性为数字的字符标记为数字；

确定所述第一识别结果中带有标记的字符在所述目标图像中的位置，并根据所述字符所带的标记对所述位置进行第二次字符识别，得到第二识别结果；

根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。

可选的，所述通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符包括：

通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符；

当查找到所述目标字符时，确定所述目标字符所匹配的关键词所属的分类，所述分类包括代表数字的关键词，或代表字母的关键词；

当所述目标字符所匹配的关键词属于所述代表数字的关键词时，将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符；

当所述目标字符所匹配的关键词属于所述代表字母的关键词时，将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符。

可选的，所述通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符，包括：

对所述第一识别结果进行分词处理以将所述第一识别结果划分为多个字符集合，每个字符集合中包括一个或多个字符；

在所有的字符集合中查找所述目标字符，所述目标字符为与预定义的关键词匹配的字符集合。

可选的，所述当所述目标字符所匹配的关键词属于所述代表数字的关键词时，将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符包括：当所述目标字符所匹配的关键词属于所述代表数字的关键词时，将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符；

所述当所述目标字符所匹配的关键词属于所述代表字母的关键词时，将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符包括：当所述目标字符所匹配的关键词属于所述代表字母的关键词时，将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为字母的字符。

可选的，所述对目标图像中的目标内容进行第一次字符识别，得到第一识别结果包括：

利用光学字符识别OCR对目标图像中的目标内容进行第一次字符识别，得到第一识别结果。

本发明还提供一种字符识别装置，所述装置包括：

字符识别模块，用于对目标图像中的目标内容进行第一次字符识别，得到第一识别结果；

语义分析模块，用于通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符；

标记模块，用于将所述字符属性为字母的字符标记为字母，将所述字符属性为数字的字符标记为数字；

所述字符识别模块，还用于确定所述第一识别结果中带有标记的字符在所述目标图像中的位置，并根据所述字符所带的标记对所述位置进行第二次字符识别，得到第二识别结果；

输出模块，用于根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。

可选的，所述语义分析模块包括：

匹配子模块，用于通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符；

分类子模块，用于当查找到所述目标字符时，确定所述目标字符所匹配的关键词所属的分类，所述分类包括代表数字的关键词，或代表字母的关键词；

确定子模块，用于当所述目标字符所匹配的关键词属于所述代表数字的关键词时，将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符；

所述确定子模块，还用于当所述目标字符所匹配的关键词属于所述代表字母的关键词时，将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符。

可选的，所述匹配子模块，包括：

分词子模块，用于对所述第一识别结果进行分词处理以将所述第一识别结果划分为多个字符集合，每个字符集合中包括一个或多个字符；

查找子模块，用于在所有的字符集合中查找所述目标字符，所述目标字符为与预定义的关键词匹配的字符集合。

可选的，所述确定子模块用于：当所述目标字符所匹配的关键词属于所述代表数字的关键词时，将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符；

所述确定子模块还用于：当所述目标字符所匹配的关键词属于所述代表字母的关键词时，将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为字母的字符。

可选的，所述字符识别模块用于：

本发明提供的字符识别方法和装置，通过对目标图像中的目标内容进行第一次字符识别后，对得到的第一识别结果进行语义分析，以识别出第一识别结果中字符属性为字母的字符，以及字符属性为数字的字符，并且将字符属性为字母的字符标记为字母，将字符属性为数字的字符标记为数字，而后对带有标记的字符在目标图像中的位置进行第二次字符识别，得到第二识别结果，最后根据第一识别结果和第二识别结果输出目标内容的字符识别结果，从而能解决免字母和数字容易混淆的问题，提高字符识别的准确率。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明实施例提供的一种字符识别方法的流程示意图；

图2是本发明另一实施例提供的一种字符识别方法的流程示意图；

图3是本发明一实施例提供的一种字符识别装置的结构框图；

图4是图3所示实施例示出的一种语义分析模块的框图；

图5是图4所示实施例示出的一种匹配子模块的框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1是本发明实施例提供的一种字符识别方法的流程示意图，参见图1，该方法可以包括：

步骤101，对目标图像中的目标内容进行第一次字符识别，得到第一识别结果。

步骤102，通过对第一识别结果进行语义分析以识别出第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符。

步骤103，将字符属性为字母的字符标记为字母，将字符属性为数字的字符标记为数字。

步骤104，确定第一识别结果中带有标记的字符在目标图像中的位置，并根据字符所带的标记对位置进行第二次字符识别，得到第二识别结果。

步骤105，根据第一识别结果和第二识别结果输出目标内容的字符识别结果。

本发明提供的字符识别方法，通过对目标图像中的目标内容进行第一次字符识别后，对得到的第一识别结果进行语义分析，以识别出第一识别结果中字符属性为字母的字符，以及字符属性为数字的字符，并且将字符属性为字母的字符标记为字母，将字符属性为数字的字符标记为数字，而后对带有标记的字符在目标图像中的位置进行第二次字符识别，得到第二识别结果，最后根据第一识别结果和第二识别结果输出目标内容的字符识别结果，从而能解决免字母和数字容易混淆的问题，提高字符识别的准确率。

图2是本发明另一实施例提供的一种字符识别方法的流程示意图，参见图2，该方法可以包括：

步骤201，对目标图像中的目标内容进行第一次字符识别，得到第一识别结果。

示例地，目标图像指的是想要识别其中文字的图像，例如任意包含文字的图像、PDF(PortableDocumentFormat，便携式文档格式)文件中的图像等等，目标内容可以是目标图像中的一句话，一段话，或者是一篇文章，目标内容的实际文字数量可以预先设置，也由用户来选定。另外，字符识别可以通过OCR技术来进行。

步骤202，通过对第一识别结果进行语义分析在第一识别结果的字符中查找与预定义的关键词匹配的目标字符。

示例地，语义分析可以通过自然语言处理技术，具体的可以包括：

首先，第一识别结果中可能包括多个字符，该多个字符中可能包括汉字、外语单词、字母、数字或者符号中的一种或者多种，因此可以先将第一识别结果进行分词，用于将所述第一识别结果划分为多个字符集合，每个字符集合中包括一个或多个字符，即每个字符集合可能是一个字、词、句，也可能是一个字母、一个单词、一个或一组数字。例如，假设目标图像中的目标内容为“最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy，1966年他们发表了第一篇关于汉字识别的文章”，在通过OCR对目标内容进行字符识别后，假设得到的第一识别结果为“最早对印刷体汉字识别进行研究的是1BM公司的Casey和Nagy，I966年他们发表了第一篇关于汉字识别的文章”。在对该第一识别结果进行分词后，示例地，假设得到的分词结果为：“最早，对，印刷体，汉字识别，进行研究的，是，1BM，公司，的，Casey和Nagy，l966，年，他们，发表了，第一篇，关于，汉字识别，的文章”。

其次，将上述分词得到的多个字符集合分别与预定义的关键词进行对比，在所有的字符集合中查找与预定义的关键词匹配的字符集合，与预定义的关键词匹配的字符集合就是需要找到的目标字符。示例地，预定义的关键词可以包括两类，一类为代表数字的关键词，例如：年、月、日，时、分、秒等时间单位，以及重量，体积，价钱等度量单位；另一类为代表字母的关键词，例如：品牌，公司，地名等名词形式的词语。从而，根据这里的关键词，可以确定上述分词得到的多个字符集合“最早，对，印刷体，汉字识别，进行研究的，是，1BM，公司，的，Casey和Nagy，l966，年，他们，发表了，第一篇，关于，汉字识别，的文章”中与预定义的关键词匹配的为“公司”和“年”，从而第一识别结果中的目标字符就是“公司”和“年”，进而根据上述目标字符进行步骤203。

步骤203，当查找到目标字符时，确定目标字符所匹配的关键词所属的分类，分类包括代表数字的关键词，或代表字母的关键词。

根据步骤202中关键词的分类可以确定，“公司”为代表字母的关键词，“年”为代表数字的关键词，从而进行步骤204或205。

步骤204，当目标字符所匹配的关键词属于代表数字的关键词时，将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为数字的字符。

在本实施例中，A和/或B可以理解为A、B中的至少一种，即包括以下三种情况：A，或者B，或者A和B。因此，将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为数字的字符可以理解为，将目标字符之前的，或者目标字符之后的，或者目标字符前后的确定为字符属性为数字的字符，而实际需要采用上述三种情况中的哪一种可以根据目标字符所匹配的关键词，以及与该关键词对应的判定策略来确定。示例地，由于年、月、日，时、分、秒等时间单位，以及重量，体积，价钱等度量单位之前的字符为数字的可能性大于为字母的可能性，因此其对应的判定策略可以为：将目标字符之前的字符确定为字符属性为数字的字符。

因此，由于在步骤202中得到的分词结果中，在目标字符“年”之前的字符集合为“l966”，从而结合步骤203确定的“年”为代表数字的关键词，以及上述的判定策略，可以将目标字符“年”之前的字符集合“l966”确定为字符属性为数字的字符。

步骤205，当目标字符所匹配的关键词属于代表字母的关键词时，将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为字母的字符。

与步骤204相似，将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为字母的字符可以理解为，将目标字符之前的，或者目标字符之后的，或者目标字符前后的确定为字符属性为字母的字符，而实际需要采用上述三种情况中的哪一种可以根据目标字符所匹配的关键词，以及与该关键词对应的判定策略来确定。示例地，由于品牌，公司，地名等名词形式的词语之前的字符为字母的可能性大于为数字的可能性，因此其对应的判定策略可以为：将目标字符之前的字符确定为字符属性为字母的字符。

因此，由于在步骤202中得到的分词结果中，在目标字符“公司”之前的字符集合为“1BM”，从而结合步骤203确定的“公司”为代表字母的关键词，以及上述的判定策略，可以将目标字符“公司”之前的字符集合“1BM”确定为字符属性为字母的字符。

步骤206，将字符属性为字母的字符标记为字母，将字符属性为数字的字符标记为数字。

示例地，根据步骤204及205中得到的结果，字符集合“l966”为字符属性为数字的字符，字符集合“1BM”为字符属性为字母的字符，因此，将字符集合“l966”中的字符标记为数字，将字符集合“1BM”中的字符标记为字母。

步骤207，确定第一识别结果中带有标记的字符在目标图像中的位置，并根据字符所带的标记对位置进行第二次字符识别，得到第二识别结果。

示例地，通过OCR对字符集合“l966”以及“1BM”在目标图像中的位置进行第二次字符识别，由于“l966”被标记为数字，因此在第二次字符识别时，“l966”会被识别为“1966”，同理，由于“1BM”被标记为字母，因此在第二次字符识别时，会被识别为“IBM”。

步骤208，根据第一识别结果和第二识别结果输出目标内容的字符识别结果。

从而利用第二识别结果对第一识别结果进行更新就可以得到目标内容的最终的字符识别结果，该结果为“最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy，1966年他们发表了第一篇关于汉字识别的文章”。由此可见，解决了在识别图像中的字母和数字时容易将二者混淆的问题，提高了字符识别的准确率。

综上所述，本发明提供的字符识别方法，通过对目标图像中的目标内容进行第一次字符识别后，对得到的第一识别结果进行语义分析，以识别出第一识别结果中字符属性为字母的字符，以及字符属性为数字的字符，并且将字符属性为字母的字符标记为字母，将字符属性为数字的字符标记为数字，而后对带有标记的字符在目标图像中的位置进行第二次字符识别，得到第二识别结果，最后根据第一识别结果和第二识别结果输出目标内容的字符识别结果，从而能解决免字母和数字容易混淆的问题，提高字符识别的准确率。

图3是本发明一实施例提供的一种字符识别装置的结构框图，该字符识别装置300可以用于执行图1或图2所示的方法，参见图3，该装置300可以包括：

字符识别模块310，用于对目标图像中的目标内容进行第一次字符识别，得到第一识别结果；

语义分析模块320，用于通过对第一识别结果进行语义分析以识别出第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符；

标记模块330，用于将字符属性为字母的字符标记为字母，将字符属性为数字的字符标记为数字；

字符识别模块310，还用于确定第一识别结果中带有标记的字符在目标图像中的位置，并根据字符所带的标记对位置进行第二次字符识别，得到第二识别结果。

输出模块340，用于根据第一识别结果和第二识别结果输出所述目标内容的字符识别结果。

可选的，图4是图3所示实施例示出的一种语义分析模块的框图，参见图4，语义分析模块320可以包括：

匹配子模块321，用于通过对第一识别结果进行语义分析在第一识别结果的字符中查找与预定义的关键词匹配的目标字符；

分类子模块322，用于当查找到目标字符时，确定目标字符所匹配的关键词所属的分类，分类包括代表数字的关键词，或代表字母的关键词；

确定子模块323，用于当目标字符所匹配的关键词属于代表数字的关键词时，将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为数字的字符；

确定子模块323，还用于当目标字符所匹配的关键词属于代表字母的关键词时，将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为字母的字符。

可选的，图5是图4所示实施例示出的一种匹配子模块的框图，参见图5，匹配子模块321，可以包括：

分词子模块3211，用于对第一识别结果进行分词处理以将第一识别结果划分为多个字符集合，每个字符集合中包括一个或多个字符；

查找子模块3212，用于在所有的字符集合中查找目标字符，目标字符为与预定义的关键词匹配的字符集合。

可选的，确定子模块323用于：当目标字符所匹配的关键词属于代表数字的关键词时，将目标字符之前相邻的和/或目标字符之后相邻的字符集合中的字符确定字符属性为数字的字符；

确定子模块323还用于：当目标字符所匹配的关键词属于代表字母的关键词时，将目标字符之前相邻的和/或目标字符之后相邻的字符集合中的字符确定字符属性为字母的字符。

可选的，字符识别模块310可以用于：

利用OCR对目标图像中的目标内容进行第一次字符识别，得到第一识别结果。

综上所述，本发明提供的字符识别装置，通过对目标图像中的目标内容进行第一次字符识别后，对得到的第一识别结果进行语义分析，以识别出第一识别结果中字符属性为字母的字符，以及字符属性为数字的字符，并且将字符属性为字母的字符标记为字母，将字符属性为数字的字符标记为数字，而后对带有标记的字符在目标图像中的位置进行第二次字符识别，得到第二识别结果，最后根据第一识别结果和第二识别结果输出目标内容的字符识别结果，从而能解决免字母和数字容易混淆的问题，提高字符识别的准确率。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种字符识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符包括：

3.根据权利要求2所述的方法，其特征在于，所述通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符，包括：

4.根据权利要求3所述的方法，其特征在于，

所述当所述目标字符所匹配的关键词属于所述代表数字的关键词时，将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符包括：当所述目标字符所匹配的关键词属于所述代表数字的关键词时，将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符；

5.根据权利要求1所述的方法，其特征在于，所述对目标图像中的目标内容进行第一次字符识别，得到第一识别结果包括：

6.一种字符识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述语义分析模块包括：

8.根据权利要求7所述的装置，其特征在于，所述匹配子模块，包括：

9.根据权利要求8所述的装置，其特征在于，

所述确定子模块用于：当所述目标字符所匹配的关键词属于所述代表数字的关键词时，将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符；

10.根据权利要求6所述的装置，其特征在于，所述字符识别模块用于：