CN113780098B

CN113780098B - 文字识别方法、装置、电子设备以及存储介质

Info

Publication number: CN113780098B
Application number: CN202110945259.3A
Authority: CN
Inventors: 黄聚; 谢群义; 李煜林; 钦夏孟; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2024-02-06
Anticipated expiration: 2041-08-17
Also published as: CN113780098A

Abstract

本公开提供了文字识别方法、装置、电子设备以及存储介质，涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术领域，可应用于OCR光学字符识别等场景。具体实现方案为：采用骨干网络对待识别的目标图像进行特征提取，得到特征图；将特征图输入第一网络，以预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置；将特征图输入第二网络，以预测特征图中各特征点所属文本框之间的关联关系；根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容；根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。由此，提高了文字识别的准确性。

Description

文字识别方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术领域，可应用于OCR光学字符识别等场景，尤其涉及文字识别方法、装置、电子设备以及存储介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)技术，主要通过对载体上显示的光学字符进行识别，生成文本。以纸质文件的OCR识别为例，通过采集纸质文件上的印刷体得到光学字符，并对其进行识别，即可得到文本信息等数据。

相关技术，为了提高对票据等具有大量结构化文字信息的场景的识别效率，减少人力成本，通常借助于OCR技术，通过机器实现文字识别，而利用机器进行文字识别时，如何提高识别准确性是很重要的。

发明内容

本公开提供了一种文字识别方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种文字识别方法，包括：采用骨干网络对待识别的目标图像进行特征提取，得到特征图；将所述特征图输入第一网络，以采用所述第一网络预测所述特征图中的各特征点是否属于文本框，以及所属的文本框在所述目标图像中的位置；将所述特征图输入第二网络，以采用所述第二网络预测所述特征图中各特征点所属文本框之间的关联关系；根据各所述文本框的位置，对所述目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容；根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。

根据本公开的另一方面，提供了一种文字识别装置，包括：特征提取模块，用于采用骨干网络对待识别的目标图像进行特征提取，得到特征图；

第一预测模块，用于将所述特征图输入第一网络，以采用所述第一网络预测所述特征图中的各特征点是否属于文本框，以及所属的文本框在所述目标图像中的位置；第二预测模块，用于将所述特征图输入第二网络，以采用所述第二网络预测所述特征图中各特征点所属文本框之间的关联关系；识别模块，用于根据各所述文本框的位置，对所述目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容；组织模块，用于根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的文字识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的文字识别方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据如上所述的文字识别方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的文字识别方法的流程示意图；

图2是根据本公开第一实施例的目标图像的示例图；

图3是根据本公开第一实施例的各文本框的示例图；

图4是根据本公开第二实施例的文字识别方法的流程示意图；

图5是根据本公开第二实施例的文本检测模型的框架示例图；

图6是根据本公开第三实施例的文字识别方法的流程示意图；

图7是根据本公开第四实施例的文字识别装置的结构示意图；

图8是根据本公开第五实施例的文字识别装置的结构示意图；

图9是用来实现本公开实施例的文字识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

OCR技术，主要通过对载体上显示的光学字符进行识别，生成文本。以纸质文件的OCR识别为例，通过采集纸质文件上的印刷体得到光学字符，并对其进行识别，即可得到文本信息等数据。

本公开为了提高文字识别的准确性，提出一种文字识别方法，首先采用骨干网络对待识别的目标图像进行特征提取，得到特征图，再将所述特征图输入第一网络，以采用所述第一网络预测所述特征图中的各特征点是否属于文本框，以及所属的文本框在所述目标图像中的位置，将所述特征图输入第二网络，以采用所述第二网络预测所述特征图中各特征点所属文本框之间的关联关系，根据各所述文本框的位置，对所述目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容，进而根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息，由此，避免了前置模块的预测结果存在少量错误导致后置模块的预测准确性很差的问题发生，提高了文字识别的准确性。

下面参考附图描述本公开实施例的文字识别方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。

首先结合图1，对本公开提供的文字识别方法进行详细描述。

图1是根据本公开第一实施例的文字识别方法的流程示意图。

其中，需要说明的是，本公开实施例提供的文字识别方法，执行主体为文字识别装置。该文字识别装置可以为电子设备，也可以被配置在电子设备中，以提高文字识别的准确性。本公开实施例以文字识别装置被配置在电子设备中为例进行说明。

其中，电子设备，可以是任意能够进行数据处理的静止或者移动计算设备，例如笔记本电脑、智能手机、可穿戴设备等移动计算设备，或者台式计算机等静止的计算设备，或者服务器，或者其它类型的计算设备等，本公开对此不作限制。

如图1所示，文字识别方法，可以包括以下步骤：

步骤101，采用骨干网络对待识别的目标图像进行特征提取，得到特征图。

其中，待识别的目标图像，为具有结构化文字信息的图像，比如票据图像、表单图像、证件图像等。

在示例性实施例中，文字识别装置可以基于文本检测模型来实现对目标图像的识别。其中，文本检测模型可以包括骨干网络，骨干网络具有特征提取功能，比如可以包括EAST(Efficient and Accuracy Scene Text，高效准确的场景文字)模型中的骨干网络以及特征融合模块，从而可以采用骨干网络对待识别的目标图像进行特征提取，得到特征图。

步骤102，将特征图输入第一网络，以采用第一网络预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置。

在示例性实施例中，文本检测模块可以包括第一网络，第一网络与骨干网络连接，其中，第一网络用于预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置，从而将特征图输入第一网络后，可以采用第一网络预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置。

其中，文本框为一个四边形框，文本框在目标图像中的位置，具体可以通过文本框的四个角点各自的坐标表示。

其中，对于特征图中的每个特征点，在特征点属于文本框时，表示该特征点是否属于文字；在特征点不属于文本框时，表示该特征点不属于文字。

在示例性实施例中，采用第一网络预测得到的特征图中每个特征点所属的文本框在目标图像中的位置，具体可以包括八个值，这八个值分别包括特征点所属的文本框的四个角点各自的x轴坐标以及y轴坐标。在示例性实施例中，采用第一网络预测得到的每个特征点所属的文本框在目标图像中的位置，具体可以包括四个向量，每个向量分别从对应的特征点指向特征点所属的文本框的角点。

需要说明的是，对于目标图像中同一个文字实例(即连续的字组成的字段)，对应的各特征点属于同一个文本框。比如，“姓名”对应的各特征点属于同一个文本框，“地址”对应的各特征点属于同一个文本框。

步骤103，将特征图输入第二网络，以采用第二网络预测特征图中各特征点所属文本框之间的关联关系。

在示例性实施例中，文本检测模块可以包括第二网络，第二网络与骨干网络连接，其中第二网络用于预测特征图中的各特征点所属文本框之间的关联关系，从而将特征图输入第二网络后，可以采用第二网络预测特征图中的各特征点所属文本框之间的关联关系。

其中，特征图中各特征点所属文本框之间的关联关系，可以包括哪两个或多个文本框之间存在关联关系，以及存在关联关系的文本框之间的关联关系类型。其中，关联关系类型可以包括一对一关联类型，或者多对一关联类型等，本公开对此不作限制。

举例来说，假设目标图像如图2所示，其中，“张三”为属性项“姓名”对应的具体姓名，“X省X市X区X小区X号楼X单元X室”为属性项“住址”对应的具体地址。图2所示的目标图像对应的特征图中各特征点所属文本框如图3所示。需要说明的是，为了方便，图3以目标图像中文字内容对应的文本框来示出特征图中各特征点所属文本框。则本公开实施例中，将图2所示的目标图像对应的特征图输入第二网络，可以预测特征图中各特征点所属文本框之间的关联关系。其中，预测结果可以包括文本框301与文本框302存在关联关系，且关联关系类型为一对一关联；文本框304、305和306分别与文本框303存在关联关系，且关联关系类型为多对一关联。

步骤104，根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容。

在示例性实施例中，采用第一网络预测特征图中的各特征点是否属于文本框以及所属的文本框在目标图像中的位置后，即可根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容。

其中，对目标图像中对应图像内容进行文字识别时，可以采用任意的文字识别方法，本公开对此不作限制。

步骤105，根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。

在示例性实施例中，采用第二网络预测特征图中各特征点所属文本框之间的关联关系，并根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容后，即可根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。

举例来说，以图2所示的目标图像为例，在采用第一网络预测图2所示的目标图像对应的特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置后，即可根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到文本框301对应的文字内容“姓名”、文本框302对应的文字内容“张三”、文本框303对应的文字内容“住址”、文本框304对应的文字内容“X省X市X区X小”、文本框305对应的文字内容“区X号楼X单元X”以及文本框306对应的文字内容“室”。

根据文本框301与文本框302之间的一对一关联类型，可以根据“姓名”和“张三”，生成一条结构化信息；根据文本框304、305、306与文本框303之间的多对一关联类型，可以对“X省X市X区X小”、“区X号楼X单元X”以及“室”进行合并，得到合并后的“X省X市X区X小区X号楼X单元X室”，进而根据“住址”和合并后的“X省X市X区X小区X号楼X单元X室”生成一条结构化信息。

本公开实施例中，由于采用骨干网络对待识别的目标图像进行特征提取，得到特征图后，将特征图分别输入第一网络和第二网络，采用第一网络预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置，采用第二网络预测特征图中各特征点所属文本框之间的关联关系，进而根据两个网络的预测结果获取结构化信息，其中第一网络和第二网络各自的预测结果之间互不影响，从而避免了前置模块的预测结果存在少量错误导致后置模块的预测准确性很差的问题发生，提高了文字识别的准确性。并且，整个过程简单易实现，能够提高文字识别的效率。

本公开实施例提供的文字识别方法，首先采用骨干网络对待识别的目标图像进行特征提取，得到特征图，再将特征图输入第一网络，以采用第一网络预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置，将特征图输入第二网络，以采用第二网络预测特征图中各特征点所属文本框之间的关联关系，根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容，进而根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。由此，提高了文字识别的准确性。

通过上述分析可知，本公开实施例中，可以将特征图输入第二网络，以采用第二网络预测特征图中各特征点所属文本框之间的关联关系。下面结合图4，对本公开提供的文字识别方法中采用第二网络预测特征图中各特征点所属文本框之间的关联关系的过程进一步说明。

图4是根据本公开第二实施例的文字识别方法的流程示意图。如图4所示，文字识别方法，可以包括以下步骤：

步骤401，采用骨干网络对待识别的目标图像进行特征提取，得到特征图。

在示例性实施例中，文字识别装置可以基于文本检测模型来实现对目标图像的识别。其中，文本检测模型可以为任意能够实现文本检测的神经网络模型，比如EAST模型，本公开对此不作限制。本公开实施例以EAST模型为例进行说明。

参考图5，文本检测模块可以包括骨干网络501，其中，骨干网络501具体可以包括EAST模型的骨干网络以及特征融合模块，骨干网络501具有特征提取功能，从而可以采用骨干网络501对待识别的目标图像进行特征提取，得到特征图502。

步骤402，将特征图输入第一网络，以采用第一网络预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置。

在示例性实施例中，参考图5，文本检测模块可以包括第一网络503，第一网络503与骨干网络501连接，其中，第一网络503可以包括两个分支，其中一个分支用于预测特征图中的各特征点是否属于文本框，另一个分支用于预测特征图中的各特征点所属的文本框在目标图像中的位置，从而将特征图502输入第一网络后，可以采用第一网络的两个分支分别预测特征图502中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置。

在示例性实施例中，第一网络503的其中一个分支可以输出一个分值信息图，该分值信息图中包括特征图中各特征点对应的第一分值，其中，第一分值与特征点是否属于文本框具有对应关系，从而可以根据各特征点对应的第一分值，确定各特征点是否属于文本框。其中，对于每个特征点，在特征点属于文本框对应的第一分值较高时，可以确定该特征点属于文本框；在特征点不属于文本框对应的第一分值较高时，可以确定该特征点不属于文本框。

第一网络503的另一个分支可以输出一个几何信息图，该几何信息图中包括各特征点分别对应的四个第一向量，其中，每个第一向量从对应的特征点指向该特征点所属文本框的其中一个角点。从而可以根据各特征点分别对应的四个第一向量，确定各特征点所属文本框在目标图像中的位置。

步骤403，将特征图输入第二网络，其中，第二网络包括第一分支和第二分支。

在示例性实施例中，参考图5，文本检测模块可以包括第二网络504，第二网络504与骨干网络501连接，其中，第二网络504可以包括两个分支，其中第一分支用于预测特征图中的各特征点所属的文本框中哪两个或多个文本框之间存在关联关系，第二分支用于预测特征图中的各特征点所属的文本框中存在关联关系的文本框之间的关联关系类型，从而可以将特征图502输入第二网络，以预测特征图中的各特征点所属的文本框中哪两个或多个文本框之间存在关联关系，以及存在关联关系的文本框之间的关联关系类型。

步骤404，根据第一分支的输出，确定特征图中各特征点对应的目标中心点坐标；其中，目标中心点是对应特征点所属文本框存在关联关系的目标文本框的中心。

在示例性实施例中，参考图5，可以根据文本检测模块包括的第二网络504的第一分支的输出，确定特征图中各特征点对应的目标中心点坐标，其中，目标中心点是对应特征点所属文本框存在关联关系的目标文本框的中心。

举例来说，假设特征图中特征点A所属的文本框a与特征点B所属的文本框b存在关联关系，则文本框b为与特征图中特征点A所属文本框a存在关联关系的目标文本框，特征点A对应的目标中心点，为文本框b的中心点，根据第一分支的输出，可以确定特征图中特征点A对应的文本框b的中心点坐标。

在示例性实施例中，第二网络504的第一分支可以输出一个几何信息图，该几何信息图中包括各特征点对应的向量，其中，为了与前述第一向量区分，此处的向量也可以称为第二向量，第二向量从对应的特征点指向目标中心点，从而文本识别装置可以读取第一分支输出的几何信息图，根据几何信息图中包括的各特征点对应的第二向量，确定各特征点对应的目标中心点坐标。

步骤405，根据第二分支的输出，确定特征图中各特征点所属文本框与目标文本框之间的关联关系类型。

在示例性实施例中，参考图5，可以根据文本检测模块包括的第二网络504的第二分支的输出，确定特征图中各特征点所属文本框与目标文本框之间的关联关系类型。

在示例性实施例中，第二网络504的第二分支可以输出一个分值信息图，分值信息图中包括各特征点对应的分值，其中，为了与前述第一分值区分，此处的分值也可以称为第二分值，第二分值与关联关系类型具有对应关系，从而文本识别装置可以读取第二分支输出的分值信息图，根据分值信息图中包括的各特征点对应的第二分值，确定各特征点所属文本框与目标文本框之间的关联关系类型。

其中，针对每个特征点，可以将最高分值对应的关联关系类型确定为特征点所属文本框与目标文本框之间的关联关系类型。

举例来说，假设特征点A所属文本框a存在关联关系的目标文本框为文本框b，特征点C所属文本框c存在关联关系的目标文本框为文本框d。第二网络的第二分支输出的分值信息图中包括特征点A对应的分值1和分值2，以及特征点C对应的分值3和分值4。其中，分值1对应一对一关联类型，分值2对应多对一关联类型，且分值1高于分值2；分值3对应多对一关联类型，分值4对应一对一关联类型，且分值3高于分值4。则可以根据特征点A对应的2个分值，确定特征点A所属文本框a与目标文本框b之间的关联关系类型为一对一关联类型。可以根据特征点C对应的2个分值，确定特征点C所属文本框c与目标文本框d之间的关联关系类型为多对一关联类型。需要说明的是，该示例仅以特征图中部分特征点为例进行说明。

可以理解的是，本公开实施例中的文本检测模型基于回归建模，通过将特征图输入第二网络，根据第二网络包括的第一分支的输出，确定特征图中各特征点对应的目标中心点坐标，根据第二网络包括的第二分支的输出，确定特征图中各特征点所属文本框与目标文本框之间的关联关系类型，实现了通过第二网络准确回归得到特征图中各特征点对应的目标中心点坐标以及各特征点所属文本框与目标文本框之间的关联关系类型，从而可以准确确定特征图中各特征点所属文本框中哪两个或多个文本框之间存在关联关系，以及存在关联关系的文本框之间的关联关系类型。

在示例性实施例中，可以预先训练文本检测模型，进而利用训练后的文本检测模型实现上述获取特征图中各特征点是否属于文本框、所属文本框在目标图像中的位置以及获取特征图中各特征点所属文本框之间的关联关系的过程。

在示例性实施例中，对文本检测模型进行训练时，例如可以通过深度学习的方式进行监督训练，相比于其它机器学习方法，深度学习在大数据集上的表现更好。

其中，训练文本检测模型的训练样本可以包括：多个样本图像，每个样本图像采用对应的特征图中的各特征点是否属于文本框、所属的文本框在样本图像中的样本位置以及各特征点所属文本框之间的样本关联关系进行标注。

通过深度学习的方式训练文本检测模型时，可以先将训练样本中的一个或多个样本图像作为输入，输入文本检测模型，获取文本检测模型的第一网络预测的该样本图像对应的特征图中各特征点是否属于文本框以及所属的文本框在该样本图像中的预测位置，再结合标注的该样本图像对应的特征图中的各特征点是否属于文本框、所属的文本框在样本图像中的样本位置，得到文本检测模型的第一网络的输出与对应的标注数据之间的第一差异，并且，获取文本检测模型的第二网络预测的该样本图像对应的特征图中各特征点所属文本框之间的预测关联关系，并结合标注的该样本图像对应的特征图中的各特征点所属文本框之间的样本关联关系，得到文本检测模型的第二网络的输出与对应的标注数据之间的第二差异。进而根据第一差异和第二差异对文本检测模型的参数进行调整，得到调整后的文本检测模型。

再将训练样本中的另一个或多个样本图像作为输入，输入调整后的文本检测模型，获取调整后的文本检测模型的第一网络预测的该样本图像对应的特征图中各特征点是否属于文本框以及所属的文本框在该样本图像中的预测位置，再结合标注的该样本图像对应的特征图中的各特征点是否属于文本框、所属的文本框在样本图像中的样本位置，得到调整后的文本检测模型的第一网络的输出与对应的标注数据之间的第一差异，并且，获取调整后的文本检测模型的第二网络预测的该样本图像对应的特征图中各特征点所属文本框之间的预测关联关系，结合标注的该样本图像对应的特征图中的各特征点所属文本框之间的样本关联关系，得到调整后的文本检测模型的第二网络的输出与对应的标注数据之间的第二差异。进而根据第一差异和第二差异对调整后的文本检测模型的参数进行调整，得到进一步调整后的文本检测模型。

由此，通过不断地调整文本检测模型的参数对文本检测模型进行迭代训练，直至文本检测模型的第一网络和第二网络输出的预测结果的准确率满足预先设定的阈值，训练结束，得到经过训练的文本检测模型。

通过上述过程，即可得到经过训练的文本检测模型，其中经过训练的文本检测模型中的骨干网络可以对某个图像进行特征提取，得到特征图，第一网络可以预测某个特征图中各特征点是否属于文本框以及所属的文本框在目标图像中的位置，第二网络可以预测某个特征图中各特征点所属文本框之间的关联关系，为后续采用骨干网络对目标图像进行特征提取、采用第一网络预测目标图像对应的特征图中各特征点是否属于文本框以及所属的文本框在目标图像中的位置，以及采用第二网络预测目标图像对应的特征图中各特征点所属文本框之间的关联关系奠定了基础。

可以理解的是，本公开实施例中的文本检测模型基于回归进行建模，不需要确定特征图中各特征点所属文本框对应的文字实例本身的特征，只需要根据文字实例在视觉上的上下文关系，即可准确回归得到几何信息图以及分值信息图，其中，几何信息图中包括特征图中各特征点对应的从特征点指向目标中心点的向量，分值信息图中包括各特征点对应的与关联关系类型具有对应关系的分值，进而通过读取第一分支输出的几何信息图和第二分支输出的分值信息图，实现准确确定特征图中各特征点所属文本框之间的哪两个或多个文本框之间存在关联关系，以及存在关联关系的文本框之间的关联关系类型。并且，确定特征图中各特征点所属文本框之间的关联关系的方式简单易实现，能够提高确定特征图中各特征点所属文本框之间的关联关系的效率，进而提高文字识别的效率。

步骤406，根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容。

步骤407，根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。

其中，步骤406-407的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。

本公开实施例的文字识别方法，首先采用骨干网络对待识别的目标图像进行特征提取，得到特征图，再将特征图输入第一网络，以采用第一网络预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置，将特征图输入第二网络，其中，第二网络包括第一分支和第二分支，根据第一分支的输出，确定特征图中各特征点对应的目标中心点坐标，根据第二分支的输出，确定特征图中各特征点所属文本框与目标文本框之间的关联关系类型，根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容，根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。由此，提高了文本识别的准确性。

通过上述分析可知，本公开实施例中，可以根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。下面结合图6，对本公开提供的文字识别方法中根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息的过程进一步说明。

图6是根据本公开第三实施例的文字识别方法的流程示意图。如图6所示，文字识别方法，可以包括以下步骤：

步骤601，采用骨干网络对待识别的目标图像进行特征提取，得到特征图。

步骤602，将特征图输入第一网络，以采用第一网络预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置。

步骤603，将特征图输入第二网络，以采用第二网络预测特征图中各特征点所属文本框之间的关联关系。

步骤604，根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容。

其中，步骤601-604的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。

步骤605，针对任意的两文本框，在关联关系为一对一关联的情况下，根据两文本框对应文字内容，生成一条结构化信息。

在示例性实施例中，针对任意的两文本框，在关联关系为一对一关联的情况下，其中一个文本框作为属性项key，另外一个文本框作为属性值value，则可以根据两文本框对应文字内容，生成一条结构化信息。

举例来说，以图2所示的目标图像为例，针对图3中的文本框301和文本框302，由于文本框301和文本框302之间为一对一关联，其中，文本框301作为属性项key，文本框302作为属性值value，则可以根据文本框301对应的文字内容“姓名”和文本框302对应的文字内容“张三”，生成一条结构化信息。

通过上述过程，实现了对关联关系为一对一关联的文本框对应的文字内容进行组织，以准确得到结构化信息。

步骤606，针对任意的至少三个文本框，在关联关系为多对一关联的情况下，对至少三个文本框中作为属性值的至少两个文本框对应的文字内容进行合并，得到合并内容。

步骤607，根据至少三个文本框中作为属性项的文本框对应的文字内容，以及对应的合并内容，生成一条结构化信息。

在示例性实施例中，针对任意的至少三个文本框，在关联关系为多对一关联的情况下，其中一个文本框作为属性项key，其它至少两个文本框作为属性值value，则可以对作为属性值的至少两个文本框对应的文字内容进行合并，得到合并内容，进而根据作为属性项的文本框对应的文字内容以及对应的合并内容，生成一条结构化信息。

举例来说，以图2所示的目标图像为例，针对图3中的文本框303、文本框304、文本框305和文本框306，由于文本框304、305、306与文本框303之间为多对一关联，其中，文本框303作为属性项key，文本框304、305、306作为属性值value，则可以对作为属性值的文本框304、305、306对应的文字内容进行合并，得到合并内容“X省X市X区X小区X号楼X单元X室”，进而根据作为属性项的文本框303对应的文字内容“地址”，以及合并内容，生成一条结构化信息。

通过上述过程，实现了对关联关系为多对一关联的文本框对应的文字内容进行组织，以准确得到结构化信息。

本公开实施例的文字识别方法，首先采用骨干网络对待识别的目标图像进行特征提取，得到特征图，再将特征图输入第一网络，以采用第一网络预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置，将特征图输入第二网络，以采用第二网络预测特征图中各特征点所属文本框之间的关联关系，根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容，针对任意的两文本框，在关联关系为一对一关联的情况下，根据两文本框对应文字内容，生成一条结构化信息，针对任意的至少三个文本框，在关联关系为多对一关联的情况下，对至少三个文本框中作为属性值的至少两个文本框对应的文字内容进行合并，得到合并内容，根据至少三个文本框中作为属性项的文本框对应的文字内容，以及对应的合并内容，生成一条结构化信息。由此，提高了文字识别的准确性。

下面结合图7，对本公开提供的文字识别装置进行说明。

图7是根据本公开第四实施例的文字识别装置的结构示意图。

如图7所示，本公开提供的文字识别装置700，包括：特征提取模块701、第一预测模块702、第二预测模块703、识别模块704以及组织模块705。

其中，特征提取模块701，用于采用骨干网络对待识别的目标图像进行特征提取，得到特征图；

第一预测模块702，用于将特征图输入第一网络，以采用第一网络预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置；

第二预测模块703，用于将特征图输入第二网络，以采用第二网络预测特征图中各特征点所属文本框之间的关联关系；

识别模块704，用于根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容；

组织模块705，用于根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。

需要说明的是，本实施例提供的文字识别装置，可以执行前述实施例的文字识别方法。其中，文字识别装置可以为电子设备，也可以被配置在电子设备中，以提高文字识别的准确性。

需要说明的是，前述对于文字识别方法的实施例的说明，也适用于本公开提供的文字识别装置，此处不再赘述。

本公开实施例提供的文字识别装置，首先采用骨干网络对待识别的目标图像进行特征提取，得到特征图，再将特征图输入第一网络，以采用第一网络预测特征图中的各特征点是否属于文本框，以及所属的文本框在目标图像中的位置，将特征图输入第二网络，以采用第二网络预测特征图中各特征点所属文本框之间的关联关系，根据各文本框的位置，对目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容，进而根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。由此，提高了文字识别的准确性。

下面结合图8，对本公开提供的文字识别装置进行说明。

图8是根据本公开第五实施例的文字识别装置的结构示意图。

如图8所示，文字识别装置800，具体可以包括：特征提取模块801、第一预测模块802、第二预测模块803、识别模块804以及组织模块805。其中，图8中特征提取模块801、第一预测模块802、第二预测模块803、识别模块804以及组织模块805与图7中特征提取模块701、第一预测模块702、第二预测模块703、识别模块704以及组织模块705具有相同功能和结构。

在示例性实施例中，第二预测模块803，包括：

处理单元8031，用于将特征图输入第二网络，其中，第二网络包括第一分支和第二分支；

第一确定单元8032，用于根据第一分支的输出，确定特征图中各特征点对应的目标中心点坐标；其中，目标中心点是对应特征点所属文本框存在关联关系的目标文本框的中心；

第二确定单元8033，用于根据第二分支的输出，确定特征图中各特征点所属文本框与目标文本框之间的关联关系类型。

在示例性实施例中，第一确定单元8032，包括：

第一读取子单元，用于读取第一分支输出的几何信息图，其中，几何信息图中包括各特征点对应的向量；其中，向量从对应的特征点指向目标中心点；

第一确定子单元，用于根据各特征点的向量，确定各特征点对应的目标中心点坐标。

在示例性实施例中，第二确定单元8033，包括：

第二读取子单元，用于读取第二分支输出的分值信息图，其中，分值信息图中包括各特征点对应的分值；其中，分值与关联关系类型具有对应关系；

第二确定子单元，用于根据各特征点对应的分值，确定各特征点所属文本框与目标文本框之间的关联关系类型。

在示例性实施例中，关联关系包括一对一关联，组织模块805，包括：

第一生成单元，用于针对任意的两文本框，在关联关系为一对一关联的情况下，根据两文本框对应文字内容，生成一条结构化信息。

在示例性实施例中，关联关系包括多对一关联，组织模块805，包括：

合并单元，用于针对任意的至少三个文本框，在关联关系为多对一关联的情况下，对至少三个文本框中作为属性值的至少两个文本框对应的文字内容进行合并，得到合并内容；

第二生成单元，用于根据至少三个文本框中作为属性项的文本框对应的文字内容，以及对应的合并内容，生成一条结构化信息。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如文字识别方法。例如，在一些实施例中，文字识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的文字识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文字识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本公开涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术领域，可应用于OCR光学字符识别等场景。

需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本公开实施例的技术方案，提高了文字识别的准确性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文字识别方法，包括：

采用骨干网络对待识别的目标图像进行特征提取，得到特征图；

将所述特征图输入第一网络，以采用所述第一网络预测所述特征图中的各特征点是否属于文本框，以及所属的文本框在所述目标图像中的位置；

将所述特征图输入第二网络，以采用所述第二网络预测所述特征图中各特征点所属文本框之间的关联关系；其中，所述第二网络包括第一分支和第二分支；根据所述第一分支的输出，确定所述特征图中各特征点对应的目标中心点坐标；其中，所述目标中心点是对应特征点所属文本框存在关联关系的目标文本框的中心；根据所述第二分支的输出，确定所述特征图中各特征点所属文本框与所述目标文本框之间的关联关系类型；

根据各所述文本框的位置，对所述目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容；

根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息。

2.根据权利要求1所述的方法，其中，所述根据所述第一分支的输出，确定所述特征图中各特征点对应的目标中心点坐标，包括：

读取所述第一分支输出的几何信息图，其中，所述几何信息图中包括各特征点对应的向量；其中，所述向量从对应的特征点指向所述目标中心点；

根据各特征点的向量，确定各特征点对应的目标中心点坐标。

3.根据权利要求1所述的方法，其中，所述根据所述第二分支的输出，确定所述特征图中各特征点所属文本框与所述目标文本框之间的关联关系类型，包括：

读取所述第二分支输出的分值信息图，其中，所述分值信息图中包括各特征点对应的分值；其中，所述分值与所述关联关系类型具有对应关系；

根据各特征点对应的分值，确定各特征点所属文本框与所述目标文本框之间的关联关系类型。

4.根据权利要求1-3任一项所述的方法，其中，所述关联关系包括一对一关联，所述根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息，包括：

针对任意的两文本框，在所述关联关系为一对一关联的情况下，根据所述两文本框对应文字内容，生成一条结构化信息。

5.根据权利要求1-3任一项所述的方法，其中，所述关联关系包括多对一关联，所述根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息，包括：

针对任意的至少三个文本框，在所述关联关系为多对一关联的情况下，对所述至少三个文本框中作为属性值的至少两个文本框对应的文字内容进行合并，得到合并内容；

根据所述至少三个文本框中作为所述属性项的文本框对应的文字内容，以及对应的所述合并内容，生成一条结构化信息。

6.一种文字识别装置，包括：

特征提取模块，用于采用骨干网络对待识别的目标图像进行特征提取，得到特征图；

第一预测模块，用于将所述特征图输入第一网络，以采用所述第一网络预测所述特征图中的各特征点是否属于文本框，以及所属的文本框在所述目标图像中的位置；

第二预测模块，用于将所述特征图输入第二网络，以采用所述第二网络预测所述特征图中各特征点所属文本框之间的关联关系；

识别模块，用于根据各所述文本框的位置，对所述目标图像中对应图像内容进行文字识别，得到各文本框对应的文字内容；

组织模块，用于根据各文本框之间的关联关系，对各文本框对应的文字内容进行组织得到结构化信息；

其中，所述第二预测模块，包括：

处理单元，用于将所述特征图输入所述第二网络，其中，所述第二网络包括第一分支和第二分支；

第一确定单元，用于根据所述第一分支的输出，确定所述特征图中各特征点对应的目标中心点坐标；其中，所述目标中心点是对应特征点所属文本框存在关联关系的目标文本框的中心；

第二确定单元，用于根据所述第二分支的输出，确定所述特征图中各特征点所属文本框与所述目标文本框之间的关联关系类型。

7.根据权利要求6所述的装置，其中，所述第一确定单元，包括：

第一读取子单元，用于读取所述第一分支输出的几何信息图，其中，所述几何信息图中包括各特征点对应的向量；其中，所述向量从对应的特征点指向所述目标中心点；

8.根据权利要求6所述的装置，其中，所述第二确定单元，包括：

第二读取子单元，用于读取所述第二分支输出的分值信息图，其中，所述分值信息图中包括各特征点对应的分值；其中，所述分值与所述关联关系类型具有对应关系；

第二确定子单元，用于根据各特征点对应的分值，确定各特征点所属文本框与所述目标文本框之间的关联关系类型。

9.根据权利要求6-8任一项所述的装置，其中，所述关联关系包括一对一关联，所述组织模块，包括：

第一生成单元，用于针对任意的两文本框，在所述关联关系为一对一关联的情况下，根据所述两文本框对应文字内容，生成一条结构化信息。

10.根据权利要求6-8任一项所述的装置，其中，所述关联关系包括多对一关联，所述组织模块，包括：

合并单元，用于针对任意的至少三个文本框，在所述关联关系为多对一关联的情况下，对所述至少三个文本框中作为属性值的至少两个文本框对应的文字内容进行合并，得到合并内容；

第二生成单元，用于根据所述至少三个文本框中作为所述属性项的文本框对应的文字内容，以及对应的所述合并内容，生成一条结构化信息。

11. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。