CN113449716A

CN113449716A - 字段定位与分类方法、文本图像识别方法、装置、设备

Info

Publication number: CN113449716A
Application number: CN202110583236.2A
Authority: CN
Inventors: 丁拥科
Original assignee: Zhongan Online P&c Insurance Co ltd
Current assignee: Zhongan Online P&c Insurance Co ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-28
Anticipated expiration: 2041-05-27
Also published as: CN113449716B

Abstract

本申请涉及图像处理技术领域，特别是涉及一种字段定位与分类方法、文本图像识别方法、装置、设备。所述字段定位与分类方法包括：获取待识别文本图像；对待识别文本图像进行识别，生成待识别文本图像的真值标签图；基于真值标签图，确定待识别文本图像中的各文本连通域；根据各文本连通域以及真值标签图，确定待识别文本图像中各文本字段的位置信息以及类别信息。采用本方法能够提升文本图像识别准确性。

Description

字段定位与分类方法、文本图像识别方法、装置、设备

技术领域

本申请涉及图像处理技术领域，特别是涉及一种字段定位与分类方法、文本图像识别方法、装置、设备。

背景技术

随着移动互联网和人工智能(Artificial Intelligence，AI)技术的快速发展，文档和卡证电子化采集和处理趋势日益明显，越来越多的文档(如档案材料、医疗病历等)或卡证(如身份证、银行卡等)通过智能手机app(Application)拍摄采集后，送入后台进行自动化处理，例如，通过光学文字识别(Optical Character Recognition，OCR)获得文本信息，通过自然语言处理(Natural Language Processing，NLP)进行实体抽取或语义分析。

在传统方式中，在获取到待识别文本图像之后，通常是直接对其进行识别，并生成对应的识别结果。

对于倾斜图像，得到的识别准确率较低，影响用户体验。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升文本图像识别准确性的字段定位与分类方法、文本图像识别方法、装置、设备。

一种字段定位与分类方法，所述字段定位与分类方法包括：

获取待识别文本图像；

对待识别文本图像进行识别，生成待识别文本图像的真值标签图；

基于真值标签图，确定待识别文本图像中的各文本连通域；

根据各文本连通域以及真值标签图，确定待识别文本图像中各文本字段的位置信息以及类别信息。

在其中一个实施例中，对待识别文本图像进行识别，生成待识别文本图像的真值标签图，包括：

对待识别文本图像进行标签转换，得到对应待识别文本图像的标签矩阵，标签矩阵中各矩阵元素与待识别文本图像的各像素点相对应；

基于标签矩阵中各矩阵元素的元素值，确定待识别文本图像中各像素点的标签类别；

基于各标签类别，得到待识别文本图像的真值标签图。

在其中一个实施例中，基于真值标签图，确定待识别文本图像中的各文本连通域，包括：

基于真值标签图，生成对应各标签类别的二值分割图；

基于各二值分割图，确定像素值相同的像素点构成同一连通域，得到对应的各文本连通域。

在其中一个实施例中，对待识别文本图像进行识别，生成待识别文本图像的真值标签图为通过预先训练的识别模型进行的，识别模型的训练方式包括：

获取训练图像集；

对各训练图像集中各训练图像进行字段类型的标注；

基于标注的结果，生成对应各训练图像的标签矩阵；

构建初始识别模型；

将各标签矩阵输入初始识别模型中，对初始识别模型进行训练，得到训练后的识别模型。

在其中一个实施例中，基于标注的结果，生成对应各训练图像的标签矩阵，包括：

获取各训练图像的图像尺寸；

基于图像尺寸，构建对应训练图像的空白矩阵，空白矩阵中各矩阵元素与训练图像中各像素点一一对应，空白矩阵中各矩阵元素设置初始数值；

基于标注的结果，确定训练图像中各像素点的类别信息；

根据各类别信息，对空白矩阵中对应的矩阵元素的初始数值进行更新，生成对应训练图像的标签矩阵。

一种文本图像识别方法，所述文本图像识别方法包括：

通过上述任一实施例的字段定位与分类方法确定待识别文本图像中各文本字段的位置信息以及类别信息；

基于位置信息以及类别信息，对各文本字段进行字段内容的识别，得到待识别文本图像中各文本字段的识别结果。

一种字段定位与分类装置，所述字段定位与分类装置包括：

图像获取模块，用于获取待识别文本图像；

识别模块，用于对待识别文本图像进行识别，生成待识别文本图像的真值标签图；

连通域确定模块，用于基于真值标签图，确定待识别文本图像中的各文本连通域；

位置信息与类别信息确定模块，用于根据各文本连通域以及真值标签图，确定待识别文本图像中各文本字段的位置信息以及类别信息。

一种文本图像识别装置，所述文本图像识别装置包括：

定位与分类模块，用于通过上述的字段定位与分类装置确定待识别文本图像中各文本字段的位置信息以及类别信息；

文本识别模块，用于基于位置信息以及类别信息，对各文本字段进行字段内容的识别，得到待识别文本图像中各文本字段的识别结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。

上述字段定位与分类方法、文本图像识别方法、装置、设备，通过获取待识别文本图像，并对待识别文本图像进行识别，生成待识别文本图像的真值标签图，然后基于真值标签图，确定待识别文本图像中的各文本连通域，并根据各文本连通域以及真值标签图，确定待识别文本图像中各文本字段的位置信息以及类别信息。从而，可以通过基于待识别文本图像得到的真值标签图确定待识别文本图像中各文本字段对应的文本连通域，即便对应于倾斜图像或者是不规则的图像，也可以基于真值标签图准确对各文本连通域进行定位，提升定位的准确性。并且，基于真值标签图以及文本连通域，可以准确确定待识别文本图像中各文本字段的位置信息以及类别信息，使得在后续进行文本内容识别的时候，可以基于各文本字段对应的类别信息以及位置信息对各文本字段进行识别，相比于传统方式中直接对待识别文本图像进行识别，本方案结合了待识别文本图像中各文本字段的位置信息以及类别信息，可以提升后续文本内容识别的准确性。

附图说明

图1为一个实施例中字段定位与分类方法的应用场景图；

图2为一个实施例中字段定位与分类方法的流程示意图；

图3为一个实施例中文本图像识别方法的流程示意图；

图4为一个实施例中字段定位与分类装置的结构示意图；

图5为一个实施例中文本图像识别装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的字段定位与分类方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以接受用户指令，并发送至服务器104，以指示服务器进行数据处理。服务器104基于用户指令，可以获取待识别文本图像，然后对待识别文本图像进行识别，生成待识别文本图像的真值标签图。进一步，服务器104可以基于真值标签图，确定待识别文本图像中的各文本连通域，并根据各文本连通域以及真值标签图，确定待识别文本图像中各文本字段的位置信息以及类别信息。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种字段定位与分类方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取待识别文本图像。

其中，待识别图像是指需要进行文本内容识别的图像。待识别图像可以是对应于不同业务需求的图像，例如，可以是保险业务中的保单、证明材料等各档案材料，或者也可以是医疗领域中的医疗病历单、诊断结果报告以及付款收据等，或者也可以是各种卡证的图像等，例如，身份证、银行卡、社保卡等。

在本实施例中，终端可以基于用户指示，通过APP或者是扫描设备等，采集并获取待识别文本图像，然后通过网络发送至服务器，使得服务器在获取到待识别图像后，进行后续的处理。

在本实施例中，待识别文本图像可以是单张图像，也可以是多张图像，对多张图像，服务器可以分别对其进行分类，然后进行后续的处理。例如，待识别文本图像中既包括医疗病历单，也包括保单，还包括身份证等，则服务器可以先分别对各待识别文本图像进行分类，然后在对各个类别的待识别文本图像进行处理。

步骤S204，对待识别文本图像进行识别，生成待识别文本图像的真值标签图。

其中，真值标签图是指表示待识别文本图像中各不同分类的标签图，真值标签图中指示待识别文本图像中各像素所对应的标签分类。

在本实施例中，服务器在获取到待识别文本图像之后，可以对待识别文本图像中各像素点的分类类别进行识别，并基于识别结果，生成对应待识别文本图像的真值标签图。

步骤S206，基于真值标签图，确定待识别文本图像中的各文本连通域。

在本实施例中，服务器可以根据得到的真值标签图，对相同标签分类的像素点进行连接，得到相连通的连通域。

在本实施例中，不同的标签可以对应于不同的文本字段，则服务器得到的各连通域可以是分别对应于各不同文本字段的各文本连通域。

步骤S208，根据各文本连通域以及真值标签图，确定待识别文本图像中各文本字段的位置信息以及类别信息。

其中，位置信息可以包括各文本字段的位置以及区域大小，例如，可以包括各文本字段的左上角坐标以及文本字段的宽高尺寸。

在本实施例中，文本字段的左上角坐标可以是相对于待识别图像的左上顶点的相对坐标。

类别信息可以包括分类标签，对于不同类别待识别文本图像，其对应的类别标签不同，例如，对于身份证图像，其类别标签可以包括姓名标签、性别标签、出生标签、地址标签、公民身份号码标签、签发机关标签、有效期限标签等，而对于医疗领域中的付款收据，其类别标签可以包括票据编号标签、医院地址标签、姓名标签、住院号标签、住院期间标签以及费用标签等。

具体地，服务器在确定对应待识别文本图像的文本连通域以及真值标签图之后，可以基于确定的文本连通域以及真值标签图，对待识别文本图像中各文本字段进行定位，并标注对应的分类类别，即确定待识别文本图像中各文本字段的位置信息以及类别信息。

上述字段定位与分类方法中，通过获取待识别文本图像，并对待识别文本图像进行识别，生成待识别文本图像的真值标签图，然后基于真值标签图，确定待识别文本图像中的各文本连通域，并根据各文本连通域以及真值标签图，确定待识别文本图像中各文本字段的位置信息以及类别信息。从而，可以通过基于待识别文本图像得到的真值标签图确定待识别文本图像中各文本字段对应的文本连通域，即便对应于倾斜图像或者是不规则的图像，也可以基于真值标签图准确对各文本连通域进行定位，提升定位的准确性。并且，基于真值标签图以及文本连通域，可以准确确定待识别文本图像中各文本字段的位置信息以及类别信息，使得在后续进行文本内容识别的时候，可以基于各文本字段对应的类别信息以及位置信息对各文本字段进行识别，相比于传统方式中直接对待识别文本图像进行识别，本方案结合了待识别文本图像中各文本字段的位置信息以及类别信息，可以提升后续文本内容识别的准确性。

在其中一个实施例中，对待识别文本图像进行识别，生成待识别文本图像的真值标签图，可以包括：对待识别文本图像进行标签转换，得到对应待识别文本图像的标签矩阵，标签矩阵中各矩阵元素与待识别文本图像的各像素点相对应；基于标签矩阵中各矩阵元素的元素值，确定待识别文本图像中各像素点的标签类别；基于各标签类别，得到待识别文本图像的真值标签图。

在本实施例中，服务器在获取到待识别文本图像之后，可以对待识别图像进行标签转换，以生成对应待识别文本图像的标签矩阵。

在本实施例中，标签矩阵中矩阵元素的数量与待识别文本图像中像素点的数量相等，各标签矩阵中各矩阵元素与待识别文本图像中各像素点相对应，标签矩阵中各矩阵元素的像素值表示待识别文本图像中各像素点的标签类别。

在本实施例中，服务器在对待识别文本图像进行标签转化，得到对应的标签矩阵之后，可以基于标签矩阵中的各标签类别，生成待识别文本图像的真值标签图。

具体地，服务器可以将标签矩阵中的各标签类别映射至待识别图像中，生成对应待识别文本图像的真值标签图。

在本实施例中，服务器对待识别文本图像进行标签转换，以及基于得到的标签矩阵，得到待识别文本图像的真值标签图可以是基于神经网络模型进行的，例如，可以是ResNet-FPN、Unet等图像分割深度神经网络，或者是传统监督学习方法，如支持矢量机(Support Vector Machine，SVM)等，本申请对此不作限制。

在其中一个实施例中，基于真值标签图，确定待识别文本图像中的各文本连通域，可以包括：基于真值标签图，生成对应各标签类别的二值分割图；基于各二值分割图，确定像素值相同的像素点构成同一连通域，得到对应的各文本连通域。

在本实施例中，待识别文本图像可以是h*w的图像，其中，h为图像高，w为图像宽。

在本实施例中，服务器得到的真值标签图可以是h*w*(N+1)大小的热力图。其中，N+1为通道数，分别对应于待识别文本图像中的背景以及N个标签分类。

在本实施例中，服务器可以对真值标签图的各个通道分别进行二值化处理，以得到对应各标签类别的二值分割图。

进一步，服务器可以基于得到的各二值分割图，将像素值相同的像素点进行连接，以得到对应标签类别的连通域，即得到对应各文本字段的各文本连通域。

在本实施例中，服务器在对各通道分别进行像素值相同的像素点的连接时，可以是并行进行的，即服务器可以对N标签分类分线程并行进行二值化处理，以及进行连通域的连接，以通过分线程并行的方式得到对应的各文本连通域，从而可以提升数据处理效率。

在其中一个实施例中，对待识别文本图像进行识别，生成待识别文本图像的真值标签图为通过预先训练的识别模型进行的，识别模型的训练方式可以包括：获取训练图像集；对各训练图像集中各训练图像进行字段类型的标注；基于标注的结果，生成对应各训练图像的标签矩阵；构建初始识别模型；将各标签矩阵输入初始识别模型中，对初始识别模型进行训练，得到训练后的识别模型。

其中，训练图像集可以是服务器获取到的与待识别文本图像的图像类型一致的图像。服务器可以获取至少500张以上的图像作为训练图像集，以提升后续模型训练的准确性。

在本实施例中，服务器获取到训练图像集之后，可以对训练图像集中的各训练图像进行文本字段的标注，标注各训练图像中的各字段类型，即对各文本字段标注对应的标签。

以财务发票为例，服务器可以定义票据号、付款人、总金额、付款日期等字段类型，并分别对各文本字段的字段类型进行标注，可以分别标记为Ci，i＝1，…，N。

在本实施例中，服务器可以通过可视化标注软件，如Label Me等进行字段类型的标注。

在本实施例中，服务器可以通过四边形或多边形来标注相应文本字段的字段区域，并填写各文本字段对应的字段类型，即标签。

在本实施例中，服务器可以基于各训练图像，构建对应的标签矩阵，并将构建的标签矩阵输入构建的初始识别模型中，对构建的初始模型进行训练，以得到训练后的识别模型。

在本实施例中，服务器在进行模型训练的时候，可以是将生成的标签矩阵输入初始识别模型中，通过初始识别模型输出对应的识别结果。

进一步，服务器可以基于识别结果以及对应训练图像的标注结果，计算初始识别模型的模型损失。具体地，服务器可以通过L1损失函数、L2损失函数或者是交叉熵损失函数等进行损失值的计算，本申请对此不作限制。

在本实施例中，服务器在得到对应的损失值之后，可以基于计算得到的损失值，对初始识别模型的模型参数进行更新，得到模型参数更新后的初始识别模型。

进一步，服务器可以继续对模型参数更新后的初始识别模型继续进行训练，直至训练完成。

在其中一个实施例中，服务器可以将训练图像集分为训练集以及测试集，服务器可以通过训练集对初始识别模型进行训练，并在训练结束后，通过测试集进行测试，在测试通过后，完成初始识别模型的训练的，得到识别模型。

在其中一个实施例中，基于标注的结果，生成对应各训练图像的标签矩阵，可以包括：获取各训练图像的图像尺寸；基于图像尺寸，构建对应训练图像的空白矩阵，空白矩阵中各矩阵元素与训练图像中各像素点一一对应，空白矩阵中各矩阵元素设置初始数值；基于标注的结果，确定训练图像中各像素点的类别信息；根据各类别信息，对空白矩阵中对应的矩阵元素的初始数值进行更新，生成对应训练图像的标签矩阵。

在本实施例中，服务器可以获取各训练图像的图像尺寸，例如，w*h，其中，w为训练图像的图像宽，h为训练图像的图像高。

进一步，服务器可以基于获取到的图像尺寸，构建对应的训练图像的空白矩阵，例如，图像尺寸为w*h，则服务器可以构建一个w*h的空白矩阵。

在本实施例中，空白矩阵中各矩阵元素与训练图像中各像素点坐标位置相对应，一个矩阵元素对应训练图像中一个像素点。

在本实施例中，对于构建的空白矩阵，服务器可以设置各矩阵元素的值为初始数值，例如，设置为0。

进一步，服务器可以标注的结果，确定训练图像中各像素点的类别信息。

在本实施例中，标注Ci为对应于一个文本区域的标注结果，类别信息是指对应于各个像素点的类别信息。服务器可以基于对各文本区域的标注结果，确定对应文本区域的各像素点的类别信息。

在本实施例中，服务器可以基于各像素点的类别信息，对空白矩阵中对应的矩阵元素的值进行更新，即将初始数值更新为对应类别信息的数值。

在本实施例中，服务器可以遍历各训练图像的各像素点，以得到对应各训练图像的标签矩阵。

在其中一个实施例中，如图3所示，提供了一种文本图像识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S302，通过字段定位与分类方法确定待识别文本图像中各文本字段的位置信息以及类别信息。

具体地，服务器在获取到待识别文本图像字后，可以通过前文任一实施例所述的字段定位与分类方法确定待识别文本图像中各文本字段的位置信息以及类别信息，具体可以参见前文所述，此处不再赘述。

步骤S304，基于位置信息以及类别信息，对各文本字段进行字段内容的识别，得到待识别文本图像中各文本字段的识别结果。

具体地，服务器可以基于位置信息以及类别信息，对各待识别文本图像中的各文本字段分别进行字段内容的识别，得到待识别文本图像中各文本字段的识别结果。

在本实施例中，服务器对各文本字段进行字段内容的识别可以是多线程并行进行，以得到待识别文本图像中各文本字段的识别结果。通过多线程并行进行识别，可以提升识别处理效率，节约识别处理时间。

在本实施例中，服务器对各文本字段进行字段内容的识别可以是通过预先训练的基于深度学习的神经网络模型进行的，例如可以是resnet、mobilenet等，本申请对此不作限制。

上述实施例中，通过对待识别文本图像中各文本字段进行位置信息以及类别信息确定，然后基于位置信息以及类别信息对各文本字段分别进行识别，可以有针对性的对各不同类型的文本字段进行识别，提升识别的准确性，降低识别出错的概率。

应该理解的是，虽然图2～3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2～3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种字段定位与分类装置，包括：图像获取模块401、识别模块402、连通域确定模块403、位置信息与类别信息确定模块404，其中：

图像获取模块401，用于获取待识别文本图像。

识别模块402，用于对待识别文本图像进行识别，生成待识别文本图像的真值标签图。

连通域确定模块403，用于基于真值标签图，确定待识别文本图像中的各文本连通域。

位置信息与类别信息确定模块404，用于根据各文本连通域以及真值标签图，确定待识别文本图像中各文本字段的位置信息以及类别信息。

在其中一个实施例中，识别模块402，可以包括：

标签矩阵确定子模块，用于对待识别文本图像进行标签转换，得到对应待识别文本图像的标签矩阵，标签矩阵中各矩阵元素与待识别文本图像的各像素点相对应。

标签类别确定子模块，用于基于标签矩阵中各矩阵元素的元素值，确定待识别文本图像中各像素点的标签类别。

真值标签图生成子模块，用于基于各标签类别，得到待识别文本图像的真值标签图。

在其中一个实施例中，连通域确定模块403，可以包括：

二值分割图生成子模块，用于基于真值标签图，生成对应各标签类别的二值分割图。

文本连通域生成子模块，用于基于各二值分割图，确定像素值相同的像素点构成同一连通域，得到对应的各文本连通域。

在其中一个实施例中，对待识别文本图像进行识别，生成待识别文本图像的真值标签图为通过预先训练的识别模型进行的，上述字段定位与分类装置还可以包括：训练模块，用于训练识别模型。

在本实施例中，训练模块可以包括：

训练图像集获取子模块，用于获取训练图像集。

标注子模块，用于对各训练图像集中各训练图像进行字段类型的标注。

标签矩阵生成子模块，用于基于标注的结果，生成对应各训练图像的标签矩阵。

模型建立子模块，用于构建初始识别模型。

训练子模块，用于将各标签矩阵输入初始识别模型中，对初始识别模型进行训练，得到训练后的识别模型。

在其中一个实施例中，标签矩阵生成子模块，可以包括：

图像尺寸获取单元，用于获取各训练图像的图像尺寸。

空白矩阵生成单元，用于基于图像尺寸，构建对应训练图像的空白矩阵，空白矩阵中各矩阵元素与训练图像中各像素点一一对应，空白矩阵中各矩阵元素设置初始数值。

类别信息确定单元，用于基于标注的结果，确定训练图像中各像素点的类别信息。

标签矩阵生成单元，用于根据各类别信息，对空白矩阵中对应的矩阵元素的初始数值进行更新，生成对应训练图像的标签矩阵。

在一个实施例中，如图5所示，提供了一种文本图像识别装置，包括：定位与分类模块501、文本识别模块502，其中：

定位与分类模块501，用于通过字段定位与分类装置确定待识别文本图像中各文本字段的位置信息以及类别信息。

文本识别模块502，用于基于位置信息以及类别信息，对各文本字段进行字段内容的识别，得到待识别文本图像中各文本字段的识别结果。

关于字段定位与分类装置以及文本图像识别装置的具体限定可以参见上文中对于字段定位与分类方法以及文本图像识别方法的限定，在此不再赘述。上述字段定位与分类装置以及文本图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待识别文本图像、真值标签图、文本连通域、位置信息以及类别信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种字段定位与分类方法和/或文本图像识别方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待识别文本图像；对待识别文本图像进行识别，生成待识别文本图像的真值标签图；基于真值标签图，确定待识别文本图像中的各文本连通域；根据各文本连通域以及真值标签图，确定待识别文本图像中各文本字段的位置信息以及类别信息。

在其中一个实施例中，处理器执行计算机程序时实现对待识别文本图像进行识别，生成待识别文本图像的真值标签图，可以包括：对待识别文本图像进行标签转换，得到对应待识别文本图像的标签矩阵，标签矩阵中各矩阵元素与待识别文本图像的各像素点相对应；基于标签矩阵中各矩阵元素的元素值，确定待识别文本图像中各像素点的标签类别；基于各标签类别，得到待识别文本图像的真值标签图。

在其中一个实施例中，处理器执行计算机程序时实现基于真值标签图，确定待识别文本图像中的各文本连通域，可以包括：基于真值标签图，生成对应各标签类别的二值分割图；基于各二值分割图，确定像素值相同的像素点构成同一连通域，得到对应的各文本连通域。

在其中一个实施例中，处理器执行计算机程序时实现对待识别文本图像进行识别，生成待识别文本图像的真值标签图为通过预先训练的识别模型进行的，识别模型的训练方式可以包括：获取训练图像集；对各训练图像集中各训练图像进行字段类型的标注；基于标注的结果，生成对应各训练图像的标签矩阵；构建初始识别模型；将各标签矩阵输入初始识别模型中，对初始识别模型进行训练，得到训练后的识别模型。

在其中一个实施例中，处理器执行计算机程序时实现基于标注的结果，生成对应各训练图像的标签矩阵，可以包括：获取各训练图像的图像尺寸；基于图像尺寸，构建对应训练图像的空白矩阵，空白矩阵中各矩阵元素与训练图像中各像素点一一对应，空白矩阵中各矩阵元素设置初始数值；基于标注的结果，确定训练图像中各像素点的类别信息；根据各类别信息，对空白矩阵中对应的矩阵元素的初始数值进行更新，生成对应训练图像的标签矩阵。

在一个实施例中，提供了另一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：通过上述任一实施例的字段定位与分类方法确定待识别文本图像中各文本字段的位置信息以及类别信息；基于位置信息以及类别信息，对各文本字段进行字段内容的识别，得到待识别文本图像中各文本字段的识别结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待识别文本图像；对待识别文本图像进行识别，生成待识别文本图像的真值标签图；基于真值标签图，确定待识别文本图像中的各文本连通域；根据各文本连通域以及真值标签图，确定待识别文本图像中各文本字段的位置信息以及类别信息。

在其中一个实施例中，计算机程序被处理器执行时实现对待识别文本图像进行识别，生成待识别文本图像的真值标签图，可以包括：对待识别文本图像进行标签转换，得到对应待识别文本图像的标签矩阵，标签矩阵中各矩阵元素与待识别文本图像的各像素点相对应；基于标签矩阵中各矩阵元素的元素值，确定待识别文本图像中各像素点的标签类别；基于各标签类别，得到待识别文本图像的真值标签图。

在其中一个实施例中，计算机程序被处理器执行时实现基于真值标签图，确定待识别文本图像中的各文本连通域，可以包括：基于真值标签图，生成对应各标签类别的二值分割图；基于各二值分割图，确定像素值相同的像素点构成同一连通域，得到对应的各文本连通域。

在其中一个实施例中，计算机程序被处理器执行时实现对待识别文本图像进行识别，生成待识别文本图像的真值标签图为通过预先训练的识别模型进行的，识别模型的训练方式可以包括：获取训练图像集；对各训练图像集中各训练图像进行字段类型的标注；基于标注的结果，生成对应各训练图像的标签矩阵；构建初始识别模型；将各标签矩阵输入初始识别模型中，对初始识别模型进行训练，得到训练后的识别模型。

在其中一个实施例中，计算机程序被处理器执行时实现基于标注的结果，生成对应各训练图像的标签矩阵，可以包括：获取各训练图像的图像尺寸；基于图像尺寸，构建对应训练图像的空白矩阵，空白矩阵中各矩阵元素与训练图像中各像素点一一对应，空白矩阵中各矩阵元素设置初始数值；基于标注的结果，确定训练图像中各像素点的类别信息；根据各类别信息，对空白矩阵中对应的矩阵元素的初始数值进行更新，生成对应训练图像的标签矩阵。

在一个实施例中，提供了另一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：通过上述任一实施例的字段定位与分类方法确定待识别文本图像中各文本字段的位置信息以及类别信息；基于位置信息以及类别信息，对各文本字段进行字段内容的识别，得到待识别文本图像中各文本字段的识别结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种字段定位与分类方法，其特征在于，所述字段定位与分类方法包括：

获取待识别文本图像；

对所述待识别文本图像进行识别，生成所述待识别文本图像的真值标签图；

基于所述真值标签图，确定所述待识别文本图像中的各文本连通域；

根据各所述文本连通域以及所述真值标签图，确定所述待识别文本图像中各文本字段的位置信息以及类别信息。

2.根据权利要求1所述的字段定位与分类方法，其特征在于，所述对所述待识别文本图像进行识别，生成所述待识别文本图像的真值标签图，包括：

对所述待识别文本图像进行标签转换，得到对应所述待识别文本图像的标签矩阵，所述标签矩阵中各矩阵元素与所述待识别文本图像的各像素点相对应；

基于所述标签矩阵中各矩阵元素的元素值，确定所述待识别文本图像中各像素点的标签类别；

基于各所述标签类别，得到所述待识别文本图像的真值标签图。

3.根据权利要求2所述的字段定位与分类方法，其特征在于，所述基于所述真值标签图，确定所述待识别文本图像中的各文本连通域，包括：

基于所述真值标签图，生成对应各标签类别的二值分割图；

基于各所述二值分割图，确定像素值相同的像素点构成同一连通域，得到对应的各文本连通域。

4.根据权利要求1所述的字段定位与分类方法，其特征在于，所述对所述待识别文本图像进行识别，生成所述待识别文本图像的真值标签图为通过预先训练的识别模型进行的，所述识别模型的训练方式包括：

获取训练图像集；

对各所述训练图像集中各训练图像进行字段类型的标注；

基于标注的结果，生成对应各训练图像的标签矩阵；

构建初始识别模型；

将各所述标签矩阵输入所述初始识别模型中，对所述初始识别模型进行训练，得到训练后的识别模型。

5.根据权利要求4所述的字段定位与分类方法，其特征在于，所述基于标注的结果，生成对应各训练图像的标签矩阵，包括：

获取各所述训练图像的图像尺寸；

基于所述图像尺寸，构建对应所述训练图像的空白矩阵，所述空白矩阵中各矩阵元素与所述训练图像中各像素点一一对应，所述空白矩阵中各矩阵元素设置初始数值；

基于标注的结果，确定所述训练图像中各像素点的类别信息；

根据各所述类别信息，对所述空白矩阵中对应的矩阵元素的初始数值进行更新，生成对应训练图像的标签矩阵。

6.一种文本图像识别方法，其特征在于，所述文本图像识别方法包括：

通过权利要求1至5任一项所述字段定位与分类方法确定待识别文本图像中各文本字段的位置信息以及类别信息；

基于所述位置信息以及类别信息，对各文本字段进行字段内容的识别，得到所述待识别文本图像中各文本字段的识别结果。

7.一种字段定位与分类装置，其特征在于，所述字段定位与分类装置包括：

图像获取模块，用于获取待识别文本图像；

识别模块，用于对所述待识别文本图像进行识别，生成所述待识别文本图像的真值标签图；

连通域确定模块，用于基于所述真值标签图，确定所述待识别文本图像中的各文本连通域；

位置信息与类别信息确定模块，用于根据各所述文本连通域以及所述真值标签图，确定所述待识别文本图像中各文本字段的位置信息以及类别信息。

8.一种文本图像识别装置，其特征在于，所述文本图像识别装置包括：

定位与分类模块，用于通过权利要求7所述字段定位与分类装置确定待识别文本图像中各文本字段的位置信息以及类别信息；

文本识别模块，用于基于所述位置信息以及类别信息，对各文本字段进行字段内容的识别，得到所述待识别文本图像中各文本字段的识别结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。