CN110991270B

CN110991270B - 文本识别的方法、装置、电子设备和存储介质

Info

Publication number: CN110991270B
Application number: CN201911118898.1A
Authority: CN
Inventors: 丁笑天
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2023-10-20
Anticipated expiration: 2039-11-15
Also published as: CN110991270A

Abstract

本发明公开了文本识别的方法、装置、电子设备和存储介质，涉及计算机技术领域。该方法的一具体实施方式包括：识别目标图像中的多个文本块的文本块信息；根据待输出文本集合中每个待输出文本的至少一个文本特征，以及文本块信息，筛选与每个待输出文本对应的文本块集合；对每个待输出文本，根据待输出文本的文本特征的置信分值，确定待输出文本对应文本块集合中每个文本块的置信得分，并将置信得分最高的目标文本块的内容，确定为每个待输出文本。该实施方式能够避免图像中文字识别方式中依赖于关键字词，如果识别出关键字词出现错误，则会极大影响识别结果的准确性，降低识别的准确率的问题。

Description

文本识别的方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本识别的方法、装置、电子设备和存储介质。

背景技术

目前生活中很多业务办理时都需要用户的卡证类的信息，例如，身份证、银行卡、行驶证、营业执照等等。为了操作方便，通常是将卡证影像化，然后对影像化图像的信息进行识别，确定出所需的信息，所以如何对影像化图像中信息准确识别成为重要问题。因为这些卡证均具有规范化的格式，所以得到影像化的图像也具有固定的格式，现有对影像化图像识别的方式为：对影像化的图像进行文字识别，然后根据图像格式和所需信息对应关键字词查找相匹配的文字，得出所需要的信息。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有的识别方式中依赖于关键字词，如果识别出文字中关键字词出现错误，则会极大影响识别结果的准确性，降低识别的准确率。

发明内容

有鉴于此，本发明实施例提供一种文本识别的方法、装置、系统和存储介质，能够避免图像中文字识别方式中依赖于关键字词，如果识别出关键字词出现错误，则会极大影响识别结果的准确性，降低识别的准确率的问题。

为实现上述目的，根据本发明实施例的一个方面，提供了一种文本识别的方法。

本发明实施例的一种文本识别的方法包括：识别目标图像中的多个文本块的文本块信息；根据待输出文本集合中每个待输出文本的至少一个文本特征，以及所述文本块信息，筛选与所述每个待输出文本对应的文本块集合；对所述每个待输出文本，根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分，并将所述置信得分最高的目标文本块的内容，确定为所述每个待输出文本。

在一个实施例中，所述根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分，包括：

对所述待输出文本对应文本块集合中的每个文本块，根据所述文本块的文本块信息和所述待输出文本的文本特征，确定所述文本块所满足的文本特征，并将所述文本块所满足的文本特征的置信分值之和，确定为所述文本块的置信得分。

在又一个实施例中，所述对所述每个待输出文本，根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分，并将所述置信得分最高的目标文本块的内容，确定为所述每个待输出文本，包括：

根据所述待输出文本集合中待输出文本的优先级，对所述待输出文本集合中的待输出文本排序；其中，所述优先级低的待输出文本的文本特征包括根据所述优先级高的待输出文本设置的文本特征；

按照所述优先级由高到底的顺序，依次将所述待输出文本集合中每个待输出文确定为目标待输出文本，并对每个所述目标待输出文本，根据所述目标待输出文本的文本特征的置信分值，确定所述目标待输出文本对应文本块集合中每个文本块的置信得分，并将所述置信得分最高的目标文本块的内容，确定为所述目标待输出文本。

在又一个实施例中，在所述将所述置信得分最高的目标文本块的内容，确定为所述每个待输出文本之后，还包括：

若对应目标文本块为空的待输出文本数量小于数量阈值、且不为空的目标文本块的置信得分平均值大于置信阈值，则输出所述目标文本块的内容。

在又一个实施例中，所述文本块信息包括所述文本块的内容和所述文本块的属性信息；

所述文本特征包括对应所述待输出文本的内容特征和属性特征。

在又一个实施例中，在对所述每个待输出文本，根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分之前，还包括：

根据所述待输出文本的各文本特征的重要程度，设置所述待输出文本的各文本特征的置信分值，所述重要程度表示文本特征对确定待输出文本的重要程度。

在又一个实施例中，所述识别目标图像中的多个文本块的文本块信息，包括：

根据OCR(Optical Character Recognition，光学字符识别)识别目标图像中的多个文本块的文本块信息。

为实现上述目的，根据本发明的另一方面，提供了一种文本识别的装置。

本发明的一种文本识别的装置包括：识别单元，用于识别目标图像中的多个文本块的文本块信息；筛选单元，用于根据待输出文本集合中每个待输出文本的至少一个文本特征，以及所述文本块信息，筛选与所述每个待输出文本对应的文本块集合；确定单元，用于对所述每个待输出文本，根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分，并将所述置信得分最高的目标文本块的内容，确定为所述每个待输出文本。

在一个实施例中，所述确定单元，具体用于：

在又一个实施例中，所述确定单元，具体用于：

在又一个实施例中，所述装置还包括：

输出单元，用于若对应目标文本块为空的待输出文本数量小于数量阈值、且不为空的目标文本块的置信得分平均值大于置信阈值，则输出所述目标文本块的内容。

所述文本特征包括对应所述待输出文本的内容特征和属性特征

在又一个实施例中，所述装置还包括：

设置单元，用于根据所述待输出文本的各文本特征的重要程度，设置所述待输出文本的各文本特征的置信分值，所述重要程度表示文本特征对确定待输出文本的重要程度。

在又一个实施例中，所述识别单元，具体用于根据OCR识别目标图像中的多个文本块的文本块信息。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种电子设备。

本发明实施例的一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的文本识别的方法。

为实现上述目的，根据本发明实施例的又一个方面，提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例提供的文本识别的方法。

上述发明中的一个实施例具有如下优点或有益效果：本发明实施例中，识别出目标图像的文本块后，可以根据每个待输出文本的文本特征和各文本特征的置信分值，从文本块中确定出对应目标文本块的内容，即每个待输出文本。如此本发明实施例中，在对目标图像进行文本块识别后，可以根据待输出文本的特征筛选出目标文本块，进而得出待输出文本的内容，识别过程不依赖关键字词，从而图像中文字识别方式中依赖于关键字词，降低识别的准确率的问题。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的文本识别的方法的一种主要流程的示意图；

图2是根据本发明实施例的文本识别的方法的又一种主要流程的示意图；

图3是根据本发明实施例的文本识别的装置的主要单元的示意图；

图4是本发明实施例可以应用于其中的一种示例性系统架构图；

图5是适于用来实现本发明实施例的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要指出的是，在不冲突的情况下，本发明中的实施例以及实施例中的特征可以互相组合。

本发明实施例提供了一种文本识别的方法，该方法可由终端设备执行，如图1所示，该方法包括以下步骤。

S101：识别目标图像中的多个文本块的文本块信息。

本发明实施例中，目标图像通常为卡证类等影像化图像，目标图像具有一定的格式，所以识别出的文本会以文本块的形式输出。一个文本块可以为目标图像中处于同一行且没有被标点、空格分隔的字符集合。

文本块信息可以包括文本块的内容和文本块的属性信息。文本块的内容是指每个文本块包括的具体内容。文本块的属性信息可以包括文本块中字符的位置信息，文本块中字符的角度，文本块中文字的颜色、字体、大小等等。位置信息可以为坐标，即以矩形或四边形框表示的字符或文本块位置坐标(可以以像素单位表示)，例如，目标图像为身份证影像时，文本块“姓名”的坐标位置为：左上点的坐标(x，y)为(50，50)、宽为100、高为20，通过这些坐标可以确定出文本块“姓名”的位置。字符角度是指字符的朝向，如果预定义目标图像的正上方为0度，则如果字符或文本块的方向朝正左，那么该字符或文本块的朝向为270度(或-90度)。

本发明实施例中，本步骤可以通过OCR进行识别。具体实现时可以使用本地部署的或者云端在线的OCR识别引擎执行本步骤。

需要说明的是，在执行本步骤之前，可以对目标图像进行预处理，以便于本步骤识别。预处理的方式可以包括倾斜矫正、投射变换、亮度调节、对比度调节、锐化、图像缩放等操作。倾斜矫正和投射变换用于调整目标图像中存在的旋转以及近大远小等现象。亮度调节、对比度调节可使用伽马矫正、直方图变换等算法实现。目标图像的图像缩放是指在目标图像过大时(如手机拍照得到目标图像的分辨率经常能达到4000×3000)，为了加快识别处理速度，可以将目标图像横向、纵向等比例缩放。

S102：根据待输出文本集合中每个待输出文本的至少一个文本特征，以及多个文本块信息，筛选与每个待输出文本对应的文本块集合。

其中，待输出文本集合是指对目标图像识别输出的内容。待输出文本集合可以包括多个待输出文本，也可以包括一个待输出文本。每个待输出文本通常对应一个文本块的内容。

本发明实施例中，可以预先针对每个待输出文本设置至少一个文本特征。文本特征是指对应待输出文本所具有的特征，可以包括待输出文本的内容特征和属性特征。

例如，目标图像为身份证的图像，待输出文本包括身份证号码，则待输出文本的属性特征可以为：包含有18位或15位的数字+末位可能为X的字符的组合，待输出文本的内容特征可以为：包含有“公民身份号码”文字内容的文本。

根据待输出文本集合中每个待输出文本的文本特征，可以与各文本块的文本块信息进行对比，从而可以筛选出满足各文本特征的文本块。对每个待输出文本的所有文本特征，满足这些文本特征的文本块即可组成此待输出文本的文本块集合，即得出所有带输出文本对应的文本块集合。

例如，一个待输出文本的文本特征包括集合{P1、P2、P3…PN}，本步骤可以筛选满足这些文本特征的文本块，进而得到该待输出文本的文本块集合。具体方式可以为：遍历每个文本块的文本块信息，并且判断它与集合{P1、P2、P3…PN}中的文本特征是否符合；如果符合，则将这个文本块或其索引存储到所符合文本特征对应的容器中，从而得出满足文本特征集合{P1、P2、P3…PN}的文本块集合，进而得出该待输出文本对应的文本块集合。

S103：对每个待输出文本，根据待输出文本的文本特征的置信分值，确定待输出文本对应文本块集合中每个文本块的置信得分，并将置信得分最高的目标文本块的内容，确定为每个待输出文本。

本发明实施例中，还可以为每个待输出文本的文本特征设置置信分值。在步骤S102中确定出每个待输出文本对应的文本块后，可以基于各文本特征的置信分值计算出每个文本块的置信得分，然后讲置信得分最高的文本块的内容，确定出此待输出文本。

本发明实施例的一种实施方式中，每个待输出文本对应文本块集合中各文本块均满足此待输出文本的一个或多个文本特征，所以对于每个待输出文本，本步骤可以具体执行为：对待输出文本对应文本块集合中的每个文本块，根据文本块的文本块信息和待输出文本的文本特征，确定文本块所满足的文本特征，并将文本块所满足的文本特征的置信分值之和，确定为文本块的置信得分。

对于每个待输出文本，其对应文本块集合中的每个文本块，可以根据文本块的文本块信息确定出其所满足的文本特征，有可能是多个也有可能是一个。在确定出每个待输出文本对应文本块集合中各文本块所满足的文本特征后，可以将这些文本特征的置信分值之和确定为文本块的置信得分。

例如，目标图像为身份证的图像，待输出文本为身份证号码，待输出文本的文本特征为：(1)包含有18位或15位的数字+末位可能为X的字符的组合；(2)包含有“公民身份号码”文字内容的文本。待输出文本对应文本块集合中一个文本块同时满足了上述两个文本特征，则此文本块的置信得分即为上述两个文本特征的置信分值之和。

需要说明的是，文本块中包括的内容，有可能除了包括待输出的文本外，还会包括一些其他字符。所以在本步骤中，可以先从待输出文本对应文本块集合的每个文本块中抽取与待输出文本相应的文本内容，然后根据每个抽取的文本内容所满足文本特征的置信分值确定出置信得分，再将置信得分最高的文本内容确定为待输出文本，从而使确定的待输出文本中没有无关的字符。

或者，本发明实施例中，对于一个待处理文本，可以初始化一个候选列表，用于储存该待处理文本的文本特征对应的文本块和置信得分。然后，对于文本块集合中文本块，可以使用正则匹配、字符串查找或其他方式，计算出每个文本块的置信分值(Score)，并添加到候选列表中。如果候选列表中重复的文本块，则可以将两个文本块的置信得分相加；如果候选列表中不存在某个文本块，那么将这个文本块和它的置信得分增加到候选列表中。

例如，对于身份证号码来说，符合其文本特征的文本块可能有3个，从第一个文本块中得到的身份证号码为“430221199012113358”，计算置信得分为2.0，此时将它存储在身份证号码下的候选列表中；从第二个文本块中抽取到身份证号码同样为“430221199012113358”，置信得分为0.5，此时候选列表中已经存在这个号码，因此只需要将其置信得分加0.5，变为2.5，也就是说内容为“430221199012113358”的文本块同时满足了两个文本特征，两个文本特征的置信分值分别为2.0和0.5，则得出此文本框的置信得分为2.5。从第三个文本块中抽取到身份证号码为“123451199012113369”，置信分值为1.0；此时候选列表中不存在这个号码，那么将它及其置信分值存储到候选列表中。

需要说明的是，本发明实施例中，每个待输出文本的文本特征的置信分值大小可以根据其的重要程度来设置，文本特征的重要程度是指文本特征对准确筛选待输出文本的重要程度。通常为重要程度越大，置信分值越高。

例如，文本特征为身份证号码前6位符合全国区县列表中的地区编码，其置信分值设置为1.0；文本特征为身份证号码符合校验规则，其置信分值+4.0等等，身份证号码符合校验规则说明其很大可能为身份证号，所以置信分值较高。除此之外，还可应用包括但不仅限于位置关系、字体、颜色、字号等信息。

本发明实施例中，各待输出文本可以设置优先级，优先级表示其它待输出文本确定时对其的依赖程度。由于优先级低的待输出文本的文本特征可以根据优先级高的待输出文本设置，即优先级低的待输出文本的文本特征可以包括根据优先级高的待输出文本设置的文本特征，所以优先级越高说明其对其它待输出文本确定时的依赖程度越高。例如，目标图像为身份证的图像，待输出文本为身份证号码和出生日期，出生日期的文本特征可以包括：出生日期与身份证号码中的日期匹配，所以出生日期的确定依赖于身份证号，所以身份证号码的优先级高于出生日期的优先级。

基于以上场景，本发明实施例中在确定待输出文本时，需要按照优先级来依次确定，以便于能够准确的识别出所以待输出文本。具体执行方式可以为：根据待输出文本集合中待输出文本的优先级，对待输出文本集合中的待输出文本排序；按照优先级由高到底的顺序，依次将待输出文本集合中每个待输出文确定为目标待输出文本，并对每个目标待输出文本，根据目标待输出文本的文本特征的置信分值，确定目标待输出文本对应文本块集合中每个文本块的置信得分，并将置信得分最高的目标文本块的内容，确定为目标待输出文本。

根据待输出文本集合中待输出文本的优先级，可以各待输出文本排序，然后按照优先级由高到底的顺序，依次来确定出待输出文本目标文本块，即确定出待输出文本的内容。本发明实施例在执行时可以按照各待输出文本优先级由高到底的顺序，依次将待输出文本确定为目标待输出文本，并在每次确定出目标待输出文本时，对目标待输出文本执行以下过程：根据目标待输出文本的文本特征的置信分值，确定目标待输出文本对应文本块集合中每个文本块的置信得分，并将置信得分最高的目标文本块的内容，确定为目标待输出文本。

需要说明的是，本发明实施例中对各待输出文本，可能存在没有筛选出对应文本块集合或者其对应目标文本块的置信得分的值较低的情况，此时则说明待输出文本可能没有识别出来或者识别出来的准确性较低，这种情况出现说明本发明实施例对目标图像的识别并不一定成功，输出的结果准确性很低。为了避免上述输出结果不准确或准确率很低的情况，则可以设置：在步骤S102之后，若目标文本块为空的待输出文本数量小于数量阈值、且不为空的目标文本块的置信得分平均值大于置信阈值，则输出目标文本块的内容。

也就是说，待输出文本对应文本块集合为空时，待输出文本没有对应的目标文本块，也即对待输出文本的目标文本块为空，没有识别结果。目标文本块为空的待输出文本数量小于数量阈值，表示没有识别结果的待输出文本的数量小于数量阈值。能够确定出目标文本块，即不为空的目标文本块，表示此待输出文本识别出了结果，所以不为空的目标文本块的置信得分平均值，是指识别出待输出文本对应目标文本块的置信得分平均值。

本发明实施例中，识别出目标图像的文本块后，可以根据每个待输出文本的文本特征和各文本特征的置信分值，从文本块中确定出对应目标文本块的内容，即每个待输出文本。如此本发明实施例中，在对目标图像进行文本块识别后，可以根据待输出文本的特征筛选出目标文本块，进而得出待输出文本的内容，识别过程不依赖关键字词，从而图像中文字识别方式中依赖于关键字词，降低识别的准确率的问题。

下面结合图1所示的实施例，以目标图像为身份证图像，待输出文本集合包括待输出文本分别为：身份证号、性别、出生日期、住址、名族和姓名为例，对文本识别方法进行具体说明。本发明实施例提供了一种文本识别方法的方法，如图2所示，该方法包括以下步骤。

S201：设置每个待输出文本的文本特征和置信分值。

其中，目标图像为身份证图像，待输出文本集合包括待输出文本分别为：身份证号、性别、出生日期、住址、名族和姓名，所以对每个待输出文本，均设置文本特征和置信分值

例如，对“身份证号码”的文本特征和置信分值设置为：1a)满足15位或18位数字(或以X或x字符结尾)，置信分值1.0；1b)前6位满足全国一个县区的编码，置信分值1.0；1c)出生年月位，满足出生年月格式(日期1900年～2019年，月份1～12月，等等)，置信分值1.0；1d)身份证号码能够满足校验规则，置信分值4.0；1e)包含有“公民身份号码”字样，置信分值0.5。

对“性别”的文本特征和置信分值设置为：2a)男或者女，置信分值1.0；2b)包含有“性别”文字，置信分值0.5；2c)同一行文本有“民族”文字；2d)身份证号码倒数第二位表示男或者女，置信分值4.0。

对“出生日期”的文本特征和置信分值设置为：3a)包含有“出生”文字，置信分值0.5；3b)满足日期规则，置信分值1.0；3c)日期与身份证号码中的日期应匹配，置信分值4.0。

对“住址”的文本特征和置信分值设置为：4a)包含有“住址”文字，置信分值0.5；4b)第一行包含有全国省市名称，且省市与身份证号码的地区码应匹配，置信分值1.0；4c)文本块位置在身份证号码文本块的上方，在出生年月日文本块的下方，置信分值4.0。

对“民族”的文本特征和置信分值设置为：5a)包含有“民族”文字，置信分值0.5；5b)含有全国56个民族列表中的某一个民族，置信分值1.0；5c)文本块与性别在同一行，置信分值1.0。

对“姓名”的文本特征和置信分值设置为：6a)包含有“姓名”文字，置信分值0.5；6b)文本块位置在性别和民族的上方，置信分值1.0。

由上述设置可知，性别、出生日期和住址的文本特征中均包括一项根据身份证号设置的文本特征，所以身份证号的优先级要高于性别、出生日期和住址的优先级。住址的文本特征中包括一项根据出生日期设置的文本特征，所以出生日期的优先级要高于住址的优先级。民族的文本特征中均包括一项根据性别设置的文本特征，所以性别的优先级要高于民族的优先级。姓名的文本特征中包括一项根据性别和民族设置的文本特征，所以性别和民族的优先级要高于姓名的优先级。

S202：通过OCR识别目标图像，得出多个文本块的文本块信息。

其中，本步骤可以将目标图像输入到OCR识别系统中进行识别。

OCR识别系统接收目标图像并进行处理后，返回识别后的文本块的文本块信息。OCR识别系统一般认为字符间明显的空隙为文字的中断，因此会出现一行文本会被分成多个文本块的情况。

需要说明的是，在执行本步骤之前，还可以对目标图像进行预处理，预处理方式不做限定。

例如，本步骤可以执行为：读取指定存储或网络位置的目标图像，如果图像存在倾斜、畸变等，则可选地将其矫正(OCR识别系统对矫正后的目标图像识别效果较好)；如果存在亮度、对比度差的情况，则使用伽马矫正算法进行矫正；如果图像大于2000像素，则缩放至原来的1/2，从而目标图像识别速度可以提升为原来的四倍。以上预处理方法可以使用计算机图像处理的开源库(例如OpenCV)进行处理。

S203：根据每个待输出文本的文本特征，筛选待输出文本对应的文本块集合。

本步骤可以具体执行为：根据识别后得出的文本块的文本块信息，对步骤S201设置的每个待输出文本的文本特征，判断每个文本块是否符合文本特征，如果符合，则将其储存到相应待输出文本的文本块列表中。例如，符合“满足15位或18位数字(或以X或x字符结尾)”文本特征的文本块，即为身份证号码对应的文本块，则将此文本块存储到身份证号码的文本块列表。

经过以上过程，可以得出每个待输出文本的文本块列表，即文本块集合。

需要说明的是，待输出文本对应的文本块集合可能包括若干个文本块，也可能为空(即对于某个待输出文本，没有满足其文本特诊的文本块)。

S204：按照待输出文本的优先级，依次确定待输出文本对应的目标文本块。

本发明实施例中，按照待输出文本的优先级可知身份证号码的优先级最高，所以先确定身份证号码对应的目标文本块。

本步骤中，确定身份证号码对应的目标文本块可以执行为：可以先初始化一个列表，用于存储身份证号码的候选文本块及其置信得分；然后，对于身份证号码对应文本块集合中的每个文本块，执行如下操作：使用正则匹配方式，从文本块中抽取文本块中的身份证号码，并依据步骤S201设置文本特征的置信分值，将其满足文本特征的置信分值之和确定为此文本块的置信得分，然后将其存储至列表中，如此计算出文本块集合中各个文本块的置信分值并存储到列表中；从列表中选取置信分值最高的文本块作为身份证号码对应的目标文本块。

如果候表中不存在候选文本块，则认为身份证号码的目标文本块为空。

在确定出身份证号码对应的目标文本块后，可以按照优先级，使用确定出身份证号码对应的目标文本块的方式，依次确定出每个待输出文本的目标文本块。

S205：判断目标文本块为空的待输出文本数量是否小于数量阈值、且不为空的目标文本块的置信得分的平均值大于置信阈值。

经过步骤S204，身份证号码等待输出文本分别确定出目标文本块，则根据各目标文本块为空的数量和不为空的目标文本块的置信得分平均值，可以判断本次目标图像的识别是否成功。例如，数量阈值可以设置为3、置信阈值可以设置为2.0，则如果目标文本块为空的待输出文本数量小于3、且不为空的目标文本块的置信得分的平均值大于2.0，则判定本次目标图像的识别成功；如果目标文本块为空的待输出文本数量不小于3、或不为空的目标文本块的置信得分的平均值不大于2.0，则判定本次目标图像的识别失败。

S206：若是，将待输出文本对应的目标文本块内容，确定为待输出内容。

如果步骤S205判定本次目标图像的识别成功，则可以将识别的结果输出，即将各待输出文本对应目标文本扩的内容作为待输出文本输出。本步骤中待输出文本可以通过XML或JSON格式，进行输出。

S207：若否，则对目标图像的文本识别失败。

如果步骤S205判定本次目标图像的识别失败，则说明对目标图像的文本识别失败。

本发明实施例还具有快速、通用、可扩展性和鲁棒性好的优点。在OCR识别阶段输出的结果存在较多错误时，能够显著提升确定待输出文本的正确率。另外本发明实施例的方法能够识别卡证类影像的输入范围广，照件、扫描件(黑白、彩色)，以及包含有倾斜、畸变、光照不均、复杂背景、与其他证件同时拍摄等影像均可以识别。并且本发明实施例整个过程无需人工干预，能够以自动、实时或批量处理方式完成卡证类影像的文本识别。

此外，本发明实施例还可以输出各个待输出文本的置信得分，以JSON或XML格式对待输出文本进行输出，方便各种应用程序的调用。

为了解决现有技术存在的问题，本发明实施例提供了一种文本识别的装置300，如图3所示，该装置300包括：

识别单元301，用于识别目标图像中的多个文本块的文本块信息；

筛选单元302，用于根据待输出文本集合中每个待输出文本的至少一个文本特征，以及所述多个文本块信息，筛选与所述每个待输出文本对应的文本块集合；

确定单元303，用于对所述每个待输出文本，根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分，并将所述置信得分最高的目标文本块的内容，确定为所述每个待输出文本。

应理解的是，实施本发明实施例的方式与实施图1所示实施例的方式相同，在此不再赘述。

本发明实施例的一种实现方式中，所述确定单元303，具体用于：

本发明实施例的又一种实现方式中，所述确定单元303，具体用于：

本发明实施例的又一种实现方式中，所述装置300还包括：

输出单元，用于若所述目标文本块为空的待输出文本数量小于数量阈值、且不为空的目标文本块的置信得分平均值大于置信阈值，则输出所述目标文本块的内容。

本发明实施例的又一种实现方式中，所述文本块信息包括所述文本块的内容和所述文本块的属性信息；

本发明实施例的又一种实现方式中，所述装置300还包括：

设置单元，用于根据所述待输出文本的各文本特征的重要程度，设置所述待输出文本的各文本特征的置信分值。

本发明实施例的又一种实现方式中，所述识别单元301，具体用于根据OCR识别目标图像中的多个文本块的文本块信息。

应理解的是，实施本发明实施例的方式与实施图1或图2所示实施例的方式相同，在此不再赘述。

根据本发明的实施例，本发明还提供了一种电子设备和一种可读存储介质。

本发明的电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明实施例所提供的文本识别的方法。

图4示出了可以应用本发明实施例的文本识别的方法或文本识别的装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的文本识别的方法一般由服务器405执行，相应地，文本识别的装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的计算机系统500的结构示意图。图5示出的计算机系统仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分，上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括识别单元、筛选单元和确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，识别单元还可以被描述为“识别单元的功能的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行本发明所提供的文本识别的方法。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种文本识别的方法，其特征在于，包括：

识别目标图像中的多个文本块的文本块信息；

根据待输出文本集合中每个待输出文本的至少一个文本特征，以及所述文本块信息，筛选与所述每个待输出文本对应的文本块集合；

对所述每个待输出文本，根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分，并将所述置信得分最高的目标文本块的内容，确定为所述每个待输出文本；

所述对所述每个待输出文本，根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分，并将所述置信得分最高的目标文本块的内容，确定为所述每个待输出文本，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分，包括：

3.根据权利要求1所述的方法，其特征在于，在所述将所述置信得分最高的目标文本块的内容，确定为所述每个待输出文本之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述文本块信息包括所述文本块的内容和所述文本块的属性信息；

5.根据权利要求1所述的方法，其特征在于，在对所述每个待输出文本，根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述识别目标图像中的多个文本块的文本块信息，包括：

根据光学字符识别OCR识别所述目标图像中的多个文本块的文本块信息。

7.一种文本识别的装置，其特征在于，包括：

识别单元，用于识别目标图像中的多个文本块的文本块信息；

筛选单元，用于根据待输出文本集合中每个待输出文本的至少一个文本特征，以及所述文本块信息，筛选与所述每个待输出文本对应的文本块集合；

确定单元，用于对所述每个待输出文本，根据所述待输出文本的文本特征的置信分值，确定所述待输出文本对应文本块集合中每个文本块的置信得分，并将所述置信得分最高的目标文本块的内容，确定为所述每个待输出文本；

所述确定单元，具体用于：

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。