CN104346616B

CN104346616B - 字符识别装置和字符识别方法

Info

Publication number: CN104346616B
Application number: CN201310346659.8A
Authority: CN
Inventors: 耿蕾蕾; 董宁; 徐剑波
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Current assignee: Beijing Fangzheng Apapi Technology Co Ltd; New Founder Holdings Development Co ltd
Priority date: 2013-08-09
Filing date: 2013-08-09
Publication date: 2017-12-12
Anticipated expiration: 2033-08-09
Also published as: CN104346616A

Abstract

本发明提供了一种字符识别装置，包括：提取单元，用于从导入文件中提取出具有自定义字符编码标识的基本字符；识别单元，用于在数据库中检索与所述基本字符相匹配的字符，在检索出与所述基本字符相匹配的字符时，将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码。本发明还提出了一种字符识别方法。通过本发明的技术方案，可以减小字符识别对人工干预的依赖性，并且可以提高对文件中字符识别的效率与精度。

Description

字符识别装置和字符识别方法

技术领域

本发明涉及信息处理技术领域，具体而言，涉及一种字符识别装置和一种字符识别方法。

背景技术

目前，在数字报刊内容的反解过程中，会出现大量需要人工干预进行OCR（OpticalCharacter Recognition，光学字符识别，即通过光学技术对文字进行识别）识别的工作，并且该识别过程是一次性的，即对其中一份数字报刊进行反解时，对自定义编码的字符进行人工OCR识别后，在反解其他数字报刊时，若出现与上述其中一份数字报刊中相同的自定义编码字符，依然需要人工OCR识别，导致报社工作人员做出了大量的重复性的工作，同时也大大降低了对数字报刊内容OCR识别的效率。

因此，如何提高数字报刊内容的OCR识别效率成为亟待解决的技术问题。

发明内容

考虑到相关技术中出现的技术问题，本发明提供了一种新的字符识别方案，通过本发明的技术方案，可以减小字符识别对人工干预的依赖性，并且可以提高对文件中字符识别的效率与精度。

根据本发明的一个方面，提供了一种字符识别装置，包括：提取单元，用于从导入文件中提取出具有自定义字符编码标识的基本字符；识别单元，用于在数据库中检索与所述基本字符相匹配的字符，在检索出与所述基本字符相匹配的字符时，将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码，其中，所述数据库存储有自定义编码字符的字符编码信息。

在该技术方案中，通过将导入文件中具有自定义字符编码标识的基本字符与数据库中的字符进行匹配，并在匹配时，将数据库中的匹配字符对应的字符编码作为基本字符的字符编码，减少了对导入文件中具有自定义字符编码标识的基本字符进行一一人工识别的步骤，从而提高了对文件中字符识别的效率。

在上述技术方案中，优选地，所述提取单元还用于提取所述基本字符的字体、字号和点阵图像数据；字形获取单元，用于根据所述字体、字号和点阵图像数据生成所述基本字符的字形；所述识别单元还用于将所述基本字符与所述数据库中的字符以字形为依据进行匹配。

在该技术方案中，点阵图像数据描述了字体的轮廓，不同的字符具有不同轮廓，而字符通常有相应的字体、字号特征，因此根据字符的字体、字号和点阵图像数据可以得到一个字符的字形，字形可以起到对字符进行唯一标识的作用，在进行匹配的过程中，以字形作为依据来进行匹配，可以更加精准地找到匹配的字符，提高了字符匹配的精度。

在上述技术方案中，优选地，所述识别单元还用于在所述数据库中未检索到与所述基本字符相匹配的字符时，对所述基本字符的自定义字符编码进行人工识别，并将识别出的字符编码保存至所述数据库。

在该技术方案中，通过对在数据库中未匹配到的基本字符进行人工识别，并将识别出的字符编码与相应的字符对应保存至数据库中，这样在进行下次识别，若遇到相同的自定义字符编码的基本字符，则直接将保存至数据库中相对应的字符编码作为上述基本字符的字符编码，无需再进行人工识别，以提高识别效率，随着数据库中存储的字符编码数量的增多，使得字符的识别对人工干预的依赖性减小，降低了人工识别的错误率，提高了字符识别的准确度。

在上述技术方案中，优选地，所述提取单元还用于从所述导入文件中提取所有基本字符，并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符，以生成自定义字符列表；所述识别单元还用于顺序识别所述自定义字符列表中的基本字符。

在具体识别过程中，将提取出整个导入文件中自定义字符编码的基本字符并放入自定义字符列表中，对自定义列表中的基本字符进行顺序匹配识别，可以方便地对需要进行识别的基本字符进行汇总查看与处理。

在上述技术方案中，优选地，所述识别单元还用于在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时，将未被匹配的基本字符加入人工识别列表中，对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。

将在自定义字符列表中未匹配到的基本字符加入人工识别列表中，可以使需要人工识别的字符更加直观地呈现给用户，避免用户在导入的文件中对未匹配到的基本字符一一寻找并识别的繁琐过程，方便了用户的操作，同时也提高了识别的效率。

根据本发明的另一方面，还提出了一种字符识别方法，包括：从导入文件中提取出具有自定义字符编码标识的基本字符；在数据库中检索与所述基本字符相匹配的字符；在检索出与所述基本字符相匹配的字符时，将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码，其中，所述数据库存储有自定义编码字符的字符编码信息。

通过将导入文件中具有自定义字符编码标识的基本字符与数据库中的字符进行匹配，并在匹配时，将数据库中的匹配字符对应的字符编码作为基本字符的字符编码，减少了对导入文件中具有自定义字符编码标识的基本字符进行一一人工识别的步骤，从而提高了对文件中字符识别的效率。

在上述技术方案中，优选地，还可以包括：提取所述基本字符的字体、字号和点阵图像数据；根据所述字体、字号和点阵图像数据生成所述基本字符的字形；将所述基本字符与所述数据库中的字符以字形为依据进行匹配。

点阵图像数据描述了字体的轮廓，不同的字符具有不同轮廓，而字符通常有相应的字体、字号特征，因此根据字符的字体、字号和点阵图像数据可以得到一个字符的字形，字形可以起到对字符进行唯一标识的作用，在进行匹配的过程中，以字形作为依据来进行匹配，可以更加精准地找到匹配的字符，提高了字符匹配的精度。在上述技术方案中，优选地，还包括：在所述数据库中未检索到与所述基本字符相匹配的字符时，对所述基本字符的自定义字符编码进行人工识别，并将识别出的字符编码保存至所述数据库。

通过对在数据库中未匹配到的基本字符进行人工识别，并将识别出的字符编码与相应的字符对应保存至数据库中，这样在进行下次识别，若遇到相同的自定义字符编码的基本字符，则直接将保存至数据库中相对应的字符编码作为上述基本字符的字符编码，无需再进行人工识别，以提高识别效率，随着数据库中存储的字符编码数量的增多，使得字符的识别对人工干预的依赖性减小，降低了人工识别的错误率，提高了字符识别的准确度。

在上述技术方案中，优选地，从所述导入文件中提取所有基本字符，并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符，以生成自定义字符列表；顺序识别所述自定义字符列表中的基本字符。

在具体识别过程中，将提取出整个导入文件中自定义字符编码的基本字符并放入自定义字符列表中，对自定义列表中的基本字符进行顺序匹配识别，可以方便地对需要进行识别的基本字符进行汇总查看与处理。在上述技术方案中，优选地，在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时，将未被匹配的基本字符加入人工识别列表中；对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。

通过本发明的技术方案，可以减小字符识别对人工干预的依赖性，并且可以提高对文件中字符识别的效率与精度。

附图说明

图1示出了根据本发明的实施例的字符识别装置的框图；

图2示出了根据本发明的实施例的字符识别方法的流程图；

图3示出了根据本发明的实施例的字符识别方法的具体流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的字符识别装置的框图。如图1所示，根据本发明的实施例的字符识别装置100，包括：提取单元102，用于从导入文件中提取出具有自定义字符编码标识的基本字符；识别单元104，用于在数据库中检索与所述基本字符相匹配的字符，在检索出与所述基本字符相匹配的字符时，将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码，其中，所述数据库存储有自定义编码字符的字符编码信息。

在上述技术方案中，优选地，所述提取单元102还用于提取所述基本字符的字体、字号和点阵图像数据；字形获取单元106，用于根据所述字体、字号和点阵图像数据生成所述基本字符的字形；所述识别单元104还用于将所述基本字符与所述数据库中的字符以字形为依据进行匹配。

点阵图像数据描述了字体的轮廓，不同的字符具有不同轮廓，而字符通常有相应的字体、字号特征，因此根据字符的字体、字号和点阵图像数据可以得到一个字符的字形，字形可以起到对字符进行唯一标识的作用，在进行匹配的过程中，以字形作为依据来进行匹配，可以更加精准地找到匹配的字符，提高了字符匹配的精度。

在上述技术方案中，优选地，所述识别单元104还用于在所述数据库中未检索到与所述基本字符相匹配的字符时，对所述基本字符的自定义字符编码进行人工识别，并将识别出的字符编码保存至所述数据库。

在上述技术方案中，优选地，所述提取单元102还用于从所述导入文件中提取所有基本字符，并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符，以生成自定义字符列表；所述识别单元104还用于顺序识别所述自定义字符列表中的基本字符。

在上述技术方案中，优选地，所述识别单元104还用于在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时，将未被匹配的基本字符加入人工识别列表中，对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。

图2示出了根据本发明的实施例的字符识别方法的流程图。

如图2所示，根据本发明的实施例的字符识别方法，包括：步骤202，从导入文件中提取出具有自定义字符编码标识的基本字符；步骤204，在数据库中检索与所述基本字符相匹配的字符；步骤206，在检索出与所述基本字符相匹配的字符时，将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码，其中，所述数据库存储有自定义编码字符的字符编码信息。

在上述技术方案中，优选地，还包括：提取所述基本字符的字体、字号和点阵图像数据；根据所述字体、字号和点阵图像数据生成所述基本字符的字形；将所述基本字符与所述数据库中的字符以字形为依据进行匹配。

在上述技术方案中，优选地，还包括：在所述数据库中未检索到与所述基本字符相匹配的字符时，对所述基本字符的自定义字符编码进行人工识别，并将识别出的字符编码保存至所述数据库。

将在自定义字符列表中未匹配到的基本字符加入人工识别列表中，可以使需要人工识别的字符更加直观地呈现给用户，避免用户在导入的文件中对未匹配到的基本字符一一寻找并识别的繁琐过程，方便了用户的操作，同时也提高了识别的效率。为了提供数字报刊内容OCR识别的效率，降低人工干预的工作量，首先，需要在本地建立字体库，以存储经过用户人工OCR识别的自定义字符编码信息，该自定义字符编码信息包括报刊字形数据、字符编码数据、字符对应的字体名称，信息存储时并以字体名称为分类标准；其次，对某版数字内容进行OCR识别时，先进行OCR识别的预处理，即从本地字体库中匹配需要OCR识别的自定义字符，如匹配成功，则不需要再送去人工OCR识别；最后，对于需要人工OCR识别的自定义字符，经过人工识别后，将识别结果存储到本地字体库中。

如图3所示，根据本发明的实施例的字符识别方法，包括：

步骤302，提取文件版面中基本的文字块信息（一个字为一个基本的文字块，每个文字块包含有字体、字号、字符编码、是否为自定义编码等特征信息），形成文字块列表，即从导入的文件中提取出所有基本字符，该导入的文件可以是PDF、OFD等版式文档格式或CEBX、ePub等流式文档格式；

步骤304，筛选自定义编码文字块，形成自定义字符编码列表，即从提取出的所有基本字符中筛选出具有自定义字符编码标识的基本字符，并生成自定义字符列表；

步骤306，开始顺序处理本版面内的自定义字符列表，即顺序识别上述的自定义字符列表中的基本字符；

步骤308，根据字形进行全字体库检索匹配（即进行OCR预识别），字形是根据字符的字体、字号和点阵图像数据生成的，点阵图像数据描述了字体的轮廓，不同的字符具有不同轮廓，而字符通常有字体、字号特征，因此根据字符的字体、字号和点阵图像数据得到字符的字形，对字符具有唯一标识的作用，在进行匹配的过程中，可以更加精准地找到匹配的字符；

步骤310，判断是否检索到对应的字形，若是，则执行步骤314，否则，执行步骤312；

步骤312，将该字符添加到需要人工识别的字符列表中，对于在数据库中未匹配到的基本字符，可以添加到人工识别列表中，使需要人工识别的字符更加直观地呈现给用户；

步骤314，，用数据库中存储的匹配字符对应的字符编码替代待识别字符的自定义编码；

步骤316，判断是否到达了自定义字符列表的尾部，即判断是否将自定义列表中的基本字符都进行了匹配处理，若是，则执行步骤318，否则，返回执行步骤308；

步骤318，将需要用户识别的字符列表进行人工OCR识别，即对于未在数据库中匹配到的字符需要进行人工识别；

步骤320，将识别后的字符编码添加到本地字体库中，可以在进行下次识别，遇到相同的基本字符时，直接将保存至数据库中相对应的字符编码作为上述基本字符的字符编码，提高了识别效率，随着数据库中存储的字符编码数量的增多，使得字符的识别对人工干预的依赖性减小，降低了人工识别的错误率，提高了字符识别的准确度。

采用程序自主记忆的方式，对于自定义编码的字符经过人工OCR识别后，将其识别结果存储到本地，形成本地字体库，在以后OCR识别时预先在本地字体库中进行自动匹配，如匹配成功，则不再需要用户人工进行OCR识别。随着用户使用次数的增多，本地字体库中存储的字符也会逐渐增多，同时需要用户人工进行OCR识别的次数也会逐步减少，甚至不再需要用户人工干预，从而提高了识别效率。

以上结合附图详细说明了本发明的技术方案，考虑到在现有技术中，对数字报刊内容的反解过程中，会出现大量需要人工干预进行识别的工作，并且该识别过程是一次性的，导致工作人员做出了大量的重复性的工作，同时也大大降低了对数字报刊内容OCR识别的效率。因此，本发明提出了一种新的字符识别方案，可以大大降低反解报刊文件时进行人工OCR识别的工作量，提高数字报刊内容处理的效率，并且随着使用次数的增多，本地存储的字体库会越来越全面，同时需要人工OCR识别的工作也会越来越少，甚至不再需要对OCR识别进行人工干预，并且也能降低因人为操作造成的错误率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种字符识别装置，其特征在于，包括：

提取单元，用于从导入文件中提取出具有自定义字符编码标识的基本字符；

识别单元，用于在数据库中检索与所述基本字符相匹配的字符，在检索出与所述基本字符相匹配的字符时，将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码，

其中，所述数据库存储有自定义编码字符的字符编码信息；

所述识别单元还用于在所述数据库中未检索到与所述基本字符相匹配的字符时，对所述基本字符的自定义字符编码进行人工识别，并将识别出的字符编码保存至所述数据库。

2.根据权利要求1所述的字符识别装置，其特征在于，所述提取单元还用于提取所述基本字符的字体、字号和点阵图像数据；

字形获取单元，用于根据所述字体、字号和点阵图像数据生成所述基本字符的字形；

所述识别单元还用于将所述基本字符与所述数据库中的字符以字形为依据进行匹配。

3.根据权利要求1或2所述的字符识别装置，其特征在于，所述提取单元还用于从所述导入文件中提取所有基本字符，并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符，以生成自定义字符列表；

所述识别单元还用于顺序识别所述自定义字符列表中的基本字符。

4.根据权利要求3所述的字符识别装置，其特征在于，所述识别单元还用于在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时，将未被匹配的基本字符加入人工识别列表中，对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。

5.一种字符识别方法，其特征在于，包括：

从导入文件中提取出具有自定义字符编码标识的基本字符；

在数据库中检索与所述基本字符相匹配的字符；

在检索出与所述基本字符相匹配的字符时，将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码，

其中，所述数据库存储有自定义编码字符的字符编码信息；

在所述数据库中未检索到与所述基本字符相匹配的字符时，对所述基本字符的自定义字符编码进行人工识别，并将识别出的字符编码保存至所述数据库。

6.根据权利要求5所述的字符识别方法，其特征在于，还包括：提取所述基本字符的字体、字号和点阵图像数据；

根据所述字体、字号和点阵图像数据生成所述基本字符的字形；

将所述基本字符与所述数据库中的字符以字形为依据进行匹配。

7.根据权利要求5或6所述的字符识别方法，其特征在于，从所述导入文件中提取所有基本字符，并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符，以生成自定义字符列表；

顺序识别所述自定义字符列表中的基本字符。

8.根据权利要求7所述的字符识别方法，其特征在于，在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时，将未被匹配的基本字符加入人工识别列表中；

对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。