CN115527226A

CN115527226A - 文字可靠识别的方法、装置和电子设备

Info

Publication number: CN115527226A
Application number: CN202211231898.4A
Authority: CN
Inventors: 刘峰; 刘洋; 刘渊; 周进洋; 张科; 杨明; 段焱丰; 汪晗韬; 黄宇; 孙佩豪; 符颖
Original assignee: Zhongdian Jinxin Software Co Ltd
Current assignee: Zhongdian Jinxin Software Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-27
Anticipated expiration: 2042-09-30
Also published as: CN115527226B

Abstract

本发明提供了一种文字可靠识别的方法、装置和电子设备，首先采用多个文字区域检测引擎分别对获取到的待识别文字图像的二值化图像进行文字检测。进而，根据文字区域检测结果裁剪对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到初始识别结果。最后，基于文字区域检测结果和初始识别结果将初始识别结果作为最终识别结果，或，将初始识别结果发送至人工处理，并将人工处理后的识别结果作为最终识别结果。该方法通过采用多个文字区域检测引擎和文字识别引擎对二值化图像相互交叉的进行检测和识别，以及引入人工确认的识别方式，极大地提升了系统识别的可靠性，降低了纯人工确认的时间成本。

Description

文字可靠识别的方法、装置和电子设备

技术领域

本发明涉及图像识别的技术领域，尤其是涉及一种文字可靠识别的方法、装置和电子设备。

背景技术

随着数字化时代的发展，金融行业对于发票等纸质票据的保存也转变为数字存储。但当前效率低下的人工录入处理，远不能实现对数量庞大的纸质票据的处理，并且也无法实现同时录入大规模的票据数据。因此，现有技术中已出现OCR等自动扫描录入技术，并且在检测与识别算法上也进行了深度研究，可以在实现高效率、高识别率的基础上，同时处理规模较大的纸质票据。但由于AI(人工智能)的特点，此类算法仍无法在准确率上保证100％，而金融系统对准确率要求非常高，因此，如何在保证纸质票据高效录入的同时进一步提高准确率成为当前亟待解决的技术问题。

综上，现有的自动扫描识别技术仍存在纸质票据录入效率低、准确率低和可靠性差的技术问题。

发明内容

本发明的目的在于提供一种文字可靠识别的方法、装置和电子设备，以缓解现有的自动扫描识别技术仍存在纸质票据录入效率低且准确率低的技术问题。

第一方面，本发明提供了一种文字可靠识别的方法，包括：

获取待识别文字图像的二值化图像，并采用多个文字区域检测引擎分别对所述二值化图像进行文字区域检测，得到与每个文字区域检测引擎对应的文字区域检测结果；

根据每个所述文字区域检测结果中的文字区域坐标对所述二值化图像进行裁剪，得到对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到与每个文字识别引擎对应的初始识别结果；

基于所述文字区域检测结果、所述初始识别结果和综合置信度选择最终识别结果的确定方式，其中，所述最终识别结果的确定方式包括：将所述初始识别结果作为所述最终识别结果，或，将所述初始识别结果经过人工处理后得到的结果作为所述最终识别结果。

进一步的，所述文字区域检测结果包括：所述待识别文字图像中的各文字区域的文字区域坐标和每个文字区域坐标的第一置信度，所述初始识别结果包括：每个所述文字区域图像内的文字信息和所述文字信息对应的第二置信度，所述文字信息携带对应的文字区域图像的文字区域坐标；

根据所述第一置信度和所述第二置信度计算得到所述综合置信度。

进一步的，基于所述文字区域检测结果、所述初始识别结果和综合置信度选择最终识别结果的确定方式，其中，所述最终识别结果的确定方式包括：将所述初始识别结果作为所述最终识别结果，或，将所述初始识别结果经过人工处理后得到的结果作为所述最终识别结果，包括：

分别对多个所述初始识别结果内携带相同文字区域坐标的文字信息进行比较，并判断多个所述文字信息是否一致；

若多个所述文字信息一致，则根据每个所述文字信息对应的所述第二置信度和与其携带的文字区域坐标对应的所述第一置信度计算综合置信度，并判断所述综合置信度是否大于预设阈值；

若所述综合置信度大于所述预设阈值，则将所述初始识别结果作为所述最终识别结果；

否则，将不一致的多个所述文字信息和对应的文字区域图像或所述综合置信度不大于所述预设阈值的多个所述文字信息和对应的文字区域图像发送至人工处理，并将所述人工处理后的识别结果作为所述最终识别结果。

进一步的，获取待识别文字图像的二值化图像，包括：

对所述待识别文字图像进行角度矫正处理，得到角度矫正后的图像；

对所述角度矫正后的图像进行畸变矫正处理，得到畸变矫正后的图像；

对所述畸变矫正后的图像进行图像降噪处理，得到降噪后的图像；

对所述降噪后的图像进行灰度处理，得到灰度处理后的灰度图像；

对所述灰度图像进行二值化处理，得到所述二值化图像。

进一步的，将不一致的多个所述文字信息和对应的文字区域图像或所述综合置信度不大于所述预设阈值的多个所述文字信息和对应的文字区域图像发送至人工处理，包括：

将与所述文字信息对应的文字区域图像确定为待处理文字区域图像；

在多个所述文字信息中确定目标文字信息，其中，所述目标文字信息为多个所述文字信息中与最大的第二置信度对应的文字信息；

将所述待处理文字区域图像和所述目标文字信息整合为左右对照表，并将所述左右对照表发送至人工处理。

进一步的，所述人工处理，包括：

接收所述左右对照表，并人工确定所述左右对照表的所述待处理文字区域图像实际包含的文字信息与所述目标文字信息是否一致；

若所述待处理文字区域图像实际包含的文字信息与所述目标文字信息不一致，则人工修改所述目标文字信息，并将修改后的文字信息作为所述最终识别结果；

否则，将所述目标文字信息作为所述最终识别结果。

进一步的，若所述待处理文字区域图像实际包含的文字信息与所述目标文字信息不一致，所述方法还包括：

将与所述待处理文字区域图像实际包含的文字信息不一致的所述目标文字信息发送至历史数据库；

统计分析所述历史数据库内累积的所述目标文字信息进入所述人工处理的次数，得到所述目标文字信息的准确率信息，进而根据所述准确率信息对所述综合置信度的计算系数进行调整。

第二方面，本发明实施例还提供了一种文字可靠识别的装置，包括：

获取和检测模块，用于获取待识别文字图像的二值化图像，并采用多个文字区域检测引擎分别对所述二值化图像进行文字区域检测，得到与每个文字区域检测引擎对应的文字区域检测结果；

识别模块，用于根据每个所述文字区域检测结果中的文字区域坐标对所述二值化图像进行裁剪，得到对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到与每个文字识别引擎对应的初始识别结果；

选择模块，用于基于所述文字区域检测结果、所述初始识别结果和综合置信度选择最终识别结果的确定方式，其中，所述最终识别结果的确定方式包括：将所述初始识别结果作为所述最终识别结果，或，将所述初始识别结果经过人工处理后得到的结果作为所述最终识别结果。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述机器可运行指令在被处理器调用和运行时，所述机器可运行指令促使所述处理器运行上述第一方面任一项所述的方法。

在本发明实施例中，提供了一种文字可靠识别的方法，包括：获取待识别文字图像的二值化图像，并采用多个文字区域检测引擎分别对二值化图像进行文字区域检测，得到与每个文字区域检测引擎对应的文字区域检测结果；根据每个文字区域检测结果中的文字区域坐标对二值化图像进行裁剪，得到对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到与每个文字识别引擎对应的初始识别结果；基于文字区域检测结果、初始识别结果和综合置信度选择最终识别结果的确定方式，其中，最终识别结果的确定方式包括：将初始识别结果作为最终识别结果，或，将初始识别结果经过人工处理后得到的结果作为最终识别结果。通过上述描述可知，本发明的文字可靠识别的方法首先通过多个文字区域检测引擎分别对待识别文字图像的二值化图像进行文字检测。进而，根据文字区域检测结果裁剪对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到初始识别结果。最后，基于文字区域检测结果、初始识别结果和综合置信度选择将初始识别结果作为最终识别结果，或，将初始识别结果经过人工处理后得到的结果作为最终识别结果。该方法通过采用多个文字区域检测引擎对待识别文字图像的二值化图像进行识别，并通过多个文字识别引擎相互交叉的对检测得到的多个检测结果组合进行识别，以及引入人工确认的识别方式，极大地提升了系统识别的可靠性，降低了纯人工确认的时间成本，有效缓解了现有自动扫描识别技术仍存在纸质票据录入效率低、准确率低和可靠性差的技术问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文字可靠识别的方法的流程图；

图2为本发明实施例提供的一种最终识别结果的确定方法的流程图；

图3为本发明实施例提供的一种左右对照表的整合方法的流程图；

图4为本发明实施例提供的一种人工处理方法的流程图；

图5为本发明实施例提供的一种综合置信度的计算系数的调整方法的流程图；

图6为本发明实施例提供的一种文字可靠识别的方法的完整流程图；

图7为本发明实施例提供的一种文字可靠识别的装置的示意图；

图8为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种文字可靠识别的方法进行详细介绍。

实施例一：

根据本发明实施例，提供了一种文字可靠识别的方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种文字可靠识别的方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待识别文字图像的二值化图像，并采用多个文字区域检测引擎分别对二值化图像进行文字区域检测，得到与每个文字区域检测引擎对应的文字区域检测结果；

具体的，在进行文字的识别前，首先获取待识别文字图像的二值化图像，其中，在金融行业内，待识别图像可以为增值发票等纸质票据。而后，调用多个文字区域检测引擎分别对待识别文字图像的二值化图像进行文字区域检测，分别得到每个文字区域检测引擎识别到的待识别文字图像内各个文字区域对应的文字区域检测结果。

为了更好的对本实施例进行理解，下面假设本实施例待识别文字图像内包含3个文字区域，且本实施例调用的文字区域检测引擎的数量为3。那么，进行文字区域检测后，将得到3个文字区域检测引擎分别对应的3组文字区域检测结果。

步骤S104，根据每个文字区域检测结果中的文字区域坐标对二值化图像进行裁剪，得到对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到与每个文字识别引擎对应的初始识别结果；

为了更好的对本实施例进行理解，以下有关实施例的介绍中均假设调用的文字识别引擎的数量为3。具体的，经过上述步骤进行文字区域检测得到3组文字区域检测结果后，分别根据每组文字区域检测结果中的文字区域坐标对二值化图像进行裁剪，从而得到裁剪后的每组文字检测结果分别对应的一组文字区域图像(每组文字区域图像的数量为3)。进一步，调用3个文字识别引擎交叉的对裁剪得到的3组文字区域图像进行文字识别，使得每个文字识别引擎均得到与3组文字区域图像分别对应的3组初始识别结果。此时，3个文字识别引擎共计得到9组初始识别结果。

步骤S106，基于文字区域检测结果、初始识别结果和综合置信度选择最终识别结果的确定方式，其中，最终识别结果的确定方式包括：将初始识别结果作为最终识别结果，或，将初始识别结果经过人工处理后得到的结果作为最终识别结果。

具体的，基于前述步骤获得的3组文字区域检测结果、9组初始识别结果和综合置信度，将初始识别结果作为最终识别结果或将人工处理后的识别结果作为最终识别结果，其中，综合置信度根据文字区域检测结果和初始识别结果计算得到。

在本发明实施例中，提供了一种文字可靠识别的方法，包括：获取待识别文字图像的二值化图像，并采用多个文字区域检测引擎分别对二值化图像进行文字区域检测，得到与每个文字区域检测引擎对应的文字区域检测结果；根据每个文字区域检测结果中的文字区域坐标对二值化图像进行裁剪，得到对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到与每个文字识别引擎对应的初始识别结果；基于文字区域检测结果、初始识别结果和综合置信度选择最终识别结果的确定方式，其中，最终识别结果的确定方式包括：将初始识别结果作为最终识别结果，或，将初始识别结果经过人工处理后得到的结果作为最终识别结果。通过上述描述可知，本发明的文字可靠识别的方法首先通过多个文字区域检测引擎分别对待识别文字图像的二值化图像进行文字检测。进而，根据文字区域检测结果裁剪对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到初始识别结果。最后，基于文字区域检测结果、初始识别结果和综合置信度选择将初始识别结果作为最终识别结果，或，将初始识别结果经过人工处理后得到的结果作为最终识别结果。该方法通过采用多个文字区域检测引擎和文字识别引擎对待识别文字图像的二值化图像进行识别，并通过多个文字识别引擎相互交叉的对检测得到的多个检测结果组合进行识别，以及引入人工确认的识别方式，极大地提升了系统识别的可靠性，降低了纯人工确认的时间成本，有效缓解了现有自动扫描识别技术仍存在纸质票据录入效率低、准确率低和可靠性差的技术问题。

上述内容对本发明的文字可靠识别的方法进行了简要介绍，下面对其中涉及到的具体内容进行详细描述。

在本发明的一个可选实施例中，文字区域检测结果包括：待识别文字图像中的各文字区域的文字区域坐标和每个文字区域坐标的第一置信度，初始识别结果包括：每个文字区域图像内的文字信息和文字信息对应的第二置信度，文字信息携带对应的文字区域图像的文字区域坐标；

根据第一置信度和第二置信度计算得到综合置信度。

为便于理解本实施例同样基于前述举例，具体的，3个文字区域检测引擎分别对应3组文字区域检测结果，其中，每一组文字区域检测结果包括：待识别文字图像内3个文字区域分别对应的文字区域坐标，以及每个文字区域对应的文字区域坐标的第一置信度。其中，第一置信度表示文字区域检测引擎识别每个文字区域所在位置的准确性，即每个文字区域对应的文字区域坐标的可信度。

其次，3个文字识别引擎共计对应9组初始识别结果，其中，每一组初始识别结果包括：一组文字区域图像内的文字信息，以及每个文字区域图像的文字信息所对应的第二置信度。其中，第二置信度表示文字识别引擎识别得到的文字信息的准确性，即识别的文字信息的可信度。值得注意的是，每个文字区域图像的文字信息携带有该文字区域图像的文字区域坐标。

此外，根据每个文字区域对应的文字区域坐标的第一置信度和每个文字区域图像的文字信息所对应的第二置信度，可以计算出该文字区域内文字信息的综合置信度。具体计算算式如下：

其中，c_m表示待识别文字图像内第m个文字区域图像识别结果的综合置信度，D_am、D_bm、D_cm表示文字区域检测引擎a、b、c分别检测第m个文字区域图像得到的文字信息对应的第一置信度，R_a1m、R_a2m、R_a3m表示在文字区域检测引擎a检测之后文字识别引擎1、2、3分别识别得到第m个文字区域图像的文字信息对应的第二置信度，R_b1m、R_b2m、R_b3m表示在文字区域检测引擎b检测之后文字识别引擎1、2、3分别识别得到第m个文字区域图像的文字信息对应的第二置信度，R_c1m、R_c2m、R_c3m表示在文字区域检测引擎c检测之后文字识别引擎1、2、3分别识别得到第m个文字区域图像的文字信息对应的第二置信度。

在本发明的一个可选实施例中，参考图2，基于文字区域检测结果、初始识别结果和综合置信度选择最终识别结果的确定方式，其中，最终识别结果的确定方式包括：将初始识别结果作为最终识别结果，或，将初始识别结果经过人工处理后得到的结果作为最终识别结果，包括如下步骤：

步骤S201，分别对多个初始识别结果内携带相同文字区域坐标的文字信息进行比较，并判断多个文字信息是否一致；

具体的，对多个文字识别引擎进行文字识别后得到的多个初始识别结果内携带相同文字区域坐标的文字信息划分为一组，分别划分后的每组文字信息进行比较，判断每组内的文字信息是否一致。为便于说明，本实施例同样以待识别文字图像的文字区域、文字区域检测引擎和文字识别引擎的数量均为3个进行举例讲解。

具体实现时，3个文字识别引擎进行文字识别后得到9组初始识别结果，将9组初始识别结果携带相同文字区域坐标的文字信息划分为一组，可以得到3组划分后的文字信息比对组，其中，每个文字信息比对组内含有9个携带相同文字区域坐标的文字信息。进一步地，判断每组内的9个文字信息是否相同。

步骤S202，若多个文字信息一致，则根据每个文字信息对应的第二置信度和与其携带的文字区域坐标对应的第一置信度计算综合置信度，并判断综合置信度是否大于预设阈值；

具体的，若上述步骤比较出每组内的9个文字信息一致，则根据每组内的9个文字信息分别对应的第二置信度以及其各自携带的文字区域坐标分别对应的第一置信度，计算综合置信度。进一步的，利用计算出的综合置信度与预设的综合置信度的阈值进行比较。其中，在实际应用中，综合置信度的阈值c₀一般设置为经验阈值0.9。

步骤S203，若综合置信度大于预设阈值，则将初始识别结果作为最终识别结果；

具体的，若计算出的综合置信度大于预设阈值，则表明初始识别结果的可信度等级为高级，其包含的文字信息可以作为最终的识别结果，此时，可以直接用初始识别结果作为最终识别结果。

步骤S204，否则，将不一致的多个文字信息和对应的文字区域图像或综合置信度不大于预设阈值的多个文字信息和对应的文字区域图像发送至人工处理，并将人工处理后的识别结果作为最终识别结果。

具体的，若前述步骤比较出每组内的9个文字信息不一致，则初始识别结果的可信度等级为中级，其可信度表明初始识别结果还不足以作为最终识别结果。此时，需将不一致的文字信息和对应的文字区域图像发送至人工处理，并将人工处理后的识别结果作为最终识别结果。

其次，若前述步骤比较出每组内的9个文字信息一致，但利用每组内的9个文字信息分别对应的第二置信度以及其各自携带的文字区域坐标分别对应的第一置信度计算出的综合置信度不大于预设阈值，则表明初始识别结果的可信度等级同样为中级。此时，同样需要将不大于预设阈值的综合置信度所对应的文字信息和该文字信息对应的文字区域图像发送至人工处理，并将人工处理后的识别结果作为最终识别结果。

在本发明的一个可选实施例中，获取待识别文字图像的二值化图像，包括：

对待识别文字图像进行角度矫正处理，得到角度矫正后的图像；

对角度矫正后的图像进行畸变矫正处理，得到畸变矫正后的图像；

对畸变矫正后的图像进行图像降噪处理，得到降噪后的图像；

对降噪后的图像进行灰度处理，得到灰度处理后的灰度图像；

对灰度图像进行二值化处理，得到二值化图像。

具体的，由于直接得到的待识别文字图像无法直接进行文字识别，因此，在进行文字识别前需要对待识别文字图像进行预处理，从而获得待识别文字图像的二值化图像。其中，预处理主要包括以下处理流程：角度矫正、畸变矫正、降噪处理、灰度处理和二值化处理。

在本发明的一个可选实施例中，参考图3，将不一致的多个文字信息和对应的文字区域图像或综合置信度不大于预设阈值的多个文字信息和对应的文字区域图像发送至人工处理，包括：

步骤S301，将与文字信息对应的文字区域图像确定为待处理文字区域图像；

具体的，在发送不一致的多个文字信息和对应的文字区域图像或综合置信度不大于预设阈值的多个文字信息和对应的文字区域图像至人工处理时，首先将与不一致的多个文字信息对应的文字区域图像确定为待处理文字区域图像。

步骤S302，在多个文字信息中确定目标文字信息，其中，目标文字信息为多个文字信息中与最大的第二置信度对应的文字信息；

具体的，由于不一致的多个文字信息是通过将多组初始识别结果携带相同文字区域坐标的文字信息分组划分后，经过组内比较得出的。因此，不一致的多个文字信息对应有待识别文字图像的同一个文字区域。为了提高人工对后续文字识别处理的效率且减轻业务人员录入的数据压力，在发送人工处理时，无需发送同一个文字区域识别得到的多种文字信息，仅需发送不一致的多个文字信息中对应有最大第二置信度的目标文字信息。

步骤S303，将待处理文字区域图像和目标文字信息整合为左右对照表，并将左右对照表发送至人工处理。

具体的，将确定出的对应有最大第二置信度的目标文字信息与其携带的文字区域坐标对应的待处理文字区域图像，整合为左右对照表后，将左右对照表发送至人工处理。该方法不仅便于后续人工处理时，对不同文字区域图像的区分，而且极大提高了文字信息处理的效率和可靠性，降低了人工确认的时间成本。

在本发明的一个可选实施例中，参考图4，人工处理，包括：

步骤S401，接收左右对照表，并人工确定左右对照表的待处理文字区域图像实际包含的文字信息与目标文字信息是否一致；

具体的，人工处理开始时，首先接收左右对照表，进而根据左右对照表的提示，判断左右对照表的待处理文字区域图像实际包含的文字信息与目标文字信息是否一致。

步骤S402，若待处理文字区域图像实际包含的文字信息与目标文字信息不一致，则人工修改目标文字信息，并将修改后的文字信息作为最终识别结果；

具体的，当业务人员处理时，判断出待处理文字区域图像实际包含的文字信息与目标文字信息并不一致，将修改目标文字信息为实际包含的文字信息，并将修改后的文字信息作为最终识别结果。

步骤S403，否则，将目标文字信息作为最终识别结果。

具体的，当业务人员处理时，判断出待处理文字区域图像实际包含的文字信息与目标文字信息是一致的，则直接将目标文字信息作为最终识别结果。

在本发明的一个可选实施例中，参考图5，若待处理文字区域图像实际包含的文字信息与目标文字信息不一致，方法还包括：

步骤S501，将与待处理文字区域图像实际包含的文字信息不一致的目标文字信息发送至历史数据库；

具体的，业务人员处理时，若判断出待处理文字区域图像实际包含的文字信息与目标文字信息并不一致，除了对目标文字信息进行修改外，还会将不一致的目标文字信息发送至系统的历史数据库进行存储。

步骤S502，统计分析历史数据库内累积的目标文字信息进入人工处理的次数，得到目标文字信息的准确率信息，进而根据准确率信息对综合置信度的计算系数进行调整。

具体的，历史数据库内累计有多种待处理图像的不同文字区域的文字信息，通过对历史数据内累积的某种目标文字信息的数量(即目标文字信息进入人工处理的次数)进行统计分析，可以计算出该目标文字信息的准确率信息，还可以通过所述准确率信息分析出该目标文字信息存在的对应类型的待处理图像进入人工处理的次数较多。进一步的，可以根据统计分析的结果，增大处理引擎对该类型待处理图像的处理训练，并调整该类型待处理图像综合置信度的计算系数。或者，通过统计分析结果，得到某种类型待处理图像的某一文字区域的文字识别进入人工处理的次数较多，那么可以根据该分析结果，针对处理引擎增大对该类型待处理图像的特定文字区域的文字识别的训练集，并调整该类型待处理图像的特定文字区域的综合置信度的计算系数。具体实现综合置信度计算系数的调整时，若目标文字信息从未进入过人工处理(即历史数据库内该目标文字信息数量为0)，则定义其综合置信度计算系数为1。若目标文字信息进入过人工处理，且统计分析得到准确率信息为20％，则定义其综合置信度计算系数为0.2，以此类推。本实施例中通过统计分析历史数据库积累的目标文字信息的准确率信息，实现对文字识别方法的反馈与优化处理，提高文字识别的精准度，从而形成良性循环，减少进入人工处理的次数，使人工处理的工作量越来越小。

最后，结合前述实施例中关于文字可靠识别的方法的介绍，本发明的文字可靠识别的方法的整体流程示意图如图6所示。

实施例二：

本发明实施例还提供了一种文字可靠识别的装置，该文字可靠识别的装置主要用于执行本发明实施例一中所提供的文字可靠识别的方法，以下对本发明实施例提供的文字可靠识别的装置做具体介绍。

图7是根据本发明实施例的一种文字可靠识别的装置的示意图，如图7所示，该装置主要包括：获取和检测模块10、识别模块20和选择模块30，其中：

获取和检测模块10，用于获取待识别文字图像的二值化图像，并采用多个文字区域检测引擎分别对二值化图像进行文字区域检测，得到与每个文字区域检测引擎对应的文字区域检测结果；

识别模块20，用于根据每个文字区域检测结果中的文字区域坐标对二值化图像进行裁剪，得到对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到与每个文字识别引擎对应的初始识别结果；

选择模块30，用于基于文字区域检测结果、初始识别结果和综合置信度选择最终识别结果的确定方式，其中，最终识别结果的确定方式包括：将初始识别结果作为最终识别结果，或，将初始识别结果经过人工处理后得到的结果作为最终识别结果。

在本发明实施例中，提供了一种文字可靠识别的装置，包括：获取待识别文字图像的二值化图像，并采用多个文字区域检测引擎分别对二值化图像进行文字区域检测，得到与每个文字区域检测引擎对应的文字区域检测结果；根据每个文字区域检测结果中的文字区域坐标对二值化图像进行裁剪，得到对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到与每个文字识别引擎对应的初始识别结果；基于文字区域检测结果、初始识别结果和综合置信度选择最终识别结果的确定方式，其中，最终识别结果的确定方式包括：将初始识别结果作为最终识别结果，或，将初始识别结果经过人工处理后得到的结果作为最终识别结果。通过上述描述可知，本发明的文字可靠识别的装置首先通过多个文字区域检测引擎分别对待识别文字图像的二值化图像进行文字检测。进而，根据文字区域检测结果裁剪对应的文字区域图像，并利用多个文字识别引擎分别对每个文字区域图像进行文字识别，得到初始识别结果。最后，基于文字区域检测结果、初始识别结果和综合置信度选择将初始识别结果作为最终识别结果，或，将初始识别结果经过人工处理后得到的结果作为最终识别结果。该装置通过采用多个文字区域检测引擎和文字识别引擎对待识别文字图像的二值化图像进行识别，并通过多个文字识别引擎相互交叉的对检测得到的多个检测结果组合进行识别，以及引入人工确认的识别方式，极大地提升了系统识别的可靠性，降低了纯人工确认的时间成本，有效缓解了现有自动扫描识别技术仍存在纸质票据录入效率低、准确率低和可靠性差的技术问题。

可选的，文字区域检测结果包括：待识别文字图像中的各文字区域的文字区域坐标和每个文字区域坐标的第一置信度，初始识别结果包括：每个文字区域图像内的文字信息和文字信息对应的第二置信度，文字信息携带对应的文字区域图像的文字区域坐标；

根据第一置信度和第二置信度计算得到综合置信度。

可选地，选择模块30还用于：分别对多个初始识别结果内携带相同文字区域坐标的文字信息进行比较，并判断多个文字信息是否一致；

若多个文字信息一致，则根据每个文字信息对应的第二置信度和与其携带的文字区域坐标对应的第一置信度计算综合置信度，并判断综合置信度是否大于预设阈值；

若综合置信度大于预设阈值，则将初始识别结果作为最终识别结果；

否则，将不一致的多个文字信息和对应的文字区域图像或综合置信度不大于预设阈值的多个文字信息和对应的文字区域图像发送至人工处理，并将人工处理后的识别结果作为最终识别结果。

可选地，获取和检测模块10还用于：对待识别文字图像进行角度矫正处理，得到角度矫正后的图像；

对灰度图像进行二值化处理，得到所述二值化图像。

可选地，选择模块30还用于：将与文字信息对应的文字区域图像确定为待处理文字区域图像；

在多个文字信息中确定目标文字信息，目标文字信息为多个文字信息中与最大的第二置信度对应的文字信息；

将待处理文字区域图像和目标文字信息整合为左右对照表，并将左右对照表发送至人工处理。

可选地，文字可靠识别的装置还用于：接收左右对照表，并人工确定左右对照表的所述待处理文字区域图像实际包含的文字信息与目标文字信息是否一致；

若待处理文字区域图像实际包含的文字信息与目标文字信息不一致，则人工修改目标文字信息，并将修改后的文字信息作为最终识别结果；

否则，将目标文字信息作为最终识别结果。

可选地，若待处理文字区域图像实际包含的文字信息与目标文字信息不一致，文字可靠识别的装置还用于：将与待处理文字区域图像实际包含的文字信息不一致的目标文字信息发送至历史数据库；

统计分析历史数据库内累积的目标文字信息进入人工处理的次数，得到目标文字信息的准确率信息，进而根据准确率信息对综合置信度的计算系数进行调整。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

如图8所示，本申请实施例提供的一种电子设备800，包括：处理器801、存储器802和总线，所述存储器802存储有所述处理器801可执行的机器可读指令，当电子设备运行时，所述处理器801与所述存储器802之间通过总线通信，所述处理器801执行所述机器可读指令，以执行如上述文字可靠识别的方法的步骤。

具体地，上述存储器802和处理器801能够为通用的存储器和处理器，这里不做具体限定，当处理器801运行存储器802存储的计算机程序时，能够执行上述文字可靠识别的方法。

处理器801可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802，处理器801读取存储器802中的信息，结合其硬件完成上述方法的步骤。

对应于上述文字可靠识别的方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述文字可靠识别的方法的步骤。

本申请实施例所提供的文字可靠识别的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

再例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文字可靠识别的方法，其特征在于，包括：

2.根据权利要求1所述的文字可靠识别的方法，其特征在于，所述文字区域检测结果包括：所述待识别文字图像中的各文字区域的文字区域坐标和每个文字区域坐标的第一置信度，所述初始识别结果包括：每个所述文字区域图像内的文字信息和所述文字信息对应的第二置信度，所述文字信息携带对应的文字区域图像的文字区域坐标；

3.根据权利要求2所述的文字可靠识别的方法，其特征在于，基于所述文字区域检测结果、所述初始识别结果和综合置信度选择最终识别结果的确定方式，其中，所述最终识别结果的确定方式包括：将所述初始识别结果作为所述最终识别结果，或，将所述初始识别结果经过人工处理后得到的结果作为所述最终识别结果，包括：

4.根据权利要求1所述的文字可靠识别的方法，其特征在于，获取待识别文字图像的二值化图像，包括：

对所述灰度图像进行二值化处理，得到所述二值化图像。

5.根据权利要求3所述的文字可靠识别的方法，其特征在于，将不一致的多个所述文字信息和对应的文字区域图像或所述综合置信度不大于所述预设阈值的多个所述文字信息和对应的文字区域图像发送至人工处理，包括：

6.根据权利要求5所述的文字可靠识别的方法，其特征在于，所述人工处理，包括：

否则，将所述目标文字信息作为所述最终识别结果。

7.根据权利要求6所述的文字可靠识别的方法，其特征在于，若所述待处理文字区域图像实际包含的文字信息与所述目标文字信息不一致，所述方法还包括：

8.一种文字可靠识别的装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可运行指令，所述机器可运行指令在被处理器调用和运行时，所述机器可运行指令促使所述处理器运行上述权利要求1至7中任一项所述的方法。