CN113837152B

CN113837152B - 一种表格图片文本智能检测方法及系统

Info

Publication number: CN113837152B
Application number: CN202111410772.9A
Authority: CN
Inventors: 叶汇贤; 徐晓刚; 王军; 何鹏飞; 朱亚光; 曹卫强
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-04-15
Anticipated expiration: 2041-11-25
Also published as: CN113837152A

Abstract

本发明公开了一种表格图片文本智能检测方法及系统，系统包含文本自动检测模块、位置变换矩阵模块和位置加权模块。方法包括：S1，检测目标表格图片当中所有可能的文本；S2，自动生成相对位置关系的变换矩阵；S3，通过位置加权，计算最终检测结果。本发明针对表格图片文本，采用深度学习训练的方式，通过将通用自动文本检测方法与表格文本之间相对位置相结合，不仅依赖于文本目标自身的位置，还依赖于文本间的相对位置关系，最终以位置变换矩阵的形式表示，还通过对目标检测结果进行加权来确认每个目标的具体位置，从而提高表格图片文本检测精度。

Description

一种表格图片文本智能检测方法及系统

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种表格图片文本智能检测的方法及系统。

背景技术

文本智能检测与识别技术已广泛应用于诸如车牌识别等应用场景。文本识别的前提是检测出文本，目标通常存在于文本数据和图片数据之中。本发明主要针对于表格图片数据中文本的智能检测。图片数据与文本数据不同之处在于其包含大量的背景信息，因而使用图片文本的前提是正确检测出文本所在位置。目前，图片文本检测主要包含字符检测、词检测和行文本检测等方法。这类检测方法通常能够自动检测出文本位置，但是会产生漏检或误检。

发明内容

为解决现有技术的不足，实现提高表格图片文本检测精度的目的，本发明采用如下的技术方案：

一种表格图片文本智能检测方法，区别于现有文本自动检测的方法，本发明所提出的方法不仅依赖于文本目标自身的位置，还依赖于文本间的相对位置关系，这种相对位置关系通过深度学习的方式学习得到，最终以位置变换矩阵的形式表示；本发明所提出的方法，还通过对目标检测结果进行加权来确认每个目标的具体位置，以提高文本检测精度，包括如下步骤：

S1，检测目标表格图片中的文本，通过深度学习训练，根据K个目标文本的表格图片，产生N个目标文本检测结果，每个检测结果包含目标文本位置和置信度，N表示目标文本个数，置信度表示目标文本存在的可能性大小，取值越大，存在的可能性越大，正确的目标个数N应与K相等，由于模型检测时可能会有误检和漏检，因而N与K可能不相等，检测结果的维度为N×(M+1)，M为目标文本位置维度，1为置信度维度；

S2，生成相对位置关系的位置变换矩阵，包括如下步骤：

S21，根据已标注目标文本位置的表格图片，生成用于位置变换矩阵的样本标签数据，每一张已标注表格图片，包含了全部目标文本位置，位置变换矩阵，根据其中一个目标文本位置即可得到全部目标文本位置，K个已标注目标文本位置的表格图片，在位置变换矩阵的训练中，拆分成K条训练数据，每条训练数据为原标注中的一个目标位置，维度为1×M，将K个维度为K×M的目标文本位置，作为样本标签数据；

S22，根据矩阵乘法，将K×M的向量乘以M×M的向量，作为对原向量做了空间上的位置变换，位置变换矩阵的维度为M×M，通过位置变换矩阵，1×M的目标文本位置，能够得到一个新的1×M的目标文本位置，新的目标文本位置就是对其他目标文本位置的变换，当M×M的位置变换矩阵为单位矩阵时，目标文本位置段乘以位置变换矩阵，得到对自身的预测，当位置变换矩阵的元素取值变化时，产生新的目标文本位置，作为其他目标文本位置的预测，K个目标文本位置，需要K个M×M位置变换矩阵，因此位置变换矩阵的输出的维度为K×K×M×M；每一个目标文本位置会训练得到K个位置变换矩阵，K个目标文本位置得到K×K个位置变换矩阵，位置变换矩阵的维度与标注坐标维度相关，已标注目标文本位置维度为M，则位置变换矩阵的维度为M×M；

S3，通过位置加权，计算最终检测结果，包括如下步骤：

S31，输入待检测表格图片后，得到N个文本检测结果，位置变换矩阵输出K×K个矩阵；

S32，对于K×K个位置变换矩阵，表示每一个目标文本位置都对应K个变换矩阵，即通过每一个目标都能够经矩阵变换，得到全部的K个目标文本位置，N个文本检测结果，经位置变换矩阵产生N×K个目标文本位置，且经位置变换得到的目标文本的置信度，与文本检测结果的目标的置信度保持一致；

S33，对于N×K个目标文本位置，K个目标中每个目标实际检测到N个结果，最终检测到的每个目标文本位置，将由N个目标共同决定，分别计算K个目标的文本位置与N个目标的文本位置的距离，得到N×K的矩阵D；

S34，距离矩阵D中，每一行均有一个置信度与之对应，该置信度来源于目标文本的检测结果；

S35，将位置加权的权重，构建距离矩阵和置信度的函数，且各个检测结果的权重与距离成反比，与置信度成正比；

S36，根据权重函数，每个目标的最终位置通过加权求和的方式得到。

进一步地，所述S35中的权重为：

W(i) = f(D(i), T) （1≤i≤K）

W(i)表示针对于N个已检测结果，第i个目标位置确认时的权重，D(i)表示距离矩阵D中的第i列，T表示置信度构成的置信度矩阵，f表示权重函数：

置信度越大的检测结果越可靠，相应权重应越大，经矩阵变换距离越远误差越大，相应权重越小，其中，D(i,n)是距离矩阵中第i列第n行的元素，表示第n个目标对第i个预测目标的预测，Tn表示置信度矩阵的第n个元素。

进一步地，所述S36中，对于第i个目标，经位置变换得到的N个目标文本位置表示为Pin，最终输出的目标文本位置为：

。

进一步地，所述S31中，当N个文本检测结果中，有多个结果同时属于K个目标中的一个时，仅保留其中置信度最大的检测结果。经过该处理后，N一定是一个不大于K的数。

进一步地，所述S33中，目标A为N中一个检测到的目标，A经矩阵变换得到K个目标文本位置，分别计算K个目标文本位置与A的距离，共K个取值，记作d11，d12，…，d1K，N个检测到的目标，能够得到N×K的距离矩阵：

。

进一步地，所述M维目标文本位置，是维度为M的目标文本的坐标。

进一步地，所述坐标表示为（x, y, w, h），x表示字段的水平位置坐标，y表示字段的垂直位置坐标，w表示字段的宽度，h表示字段的高度，坐标总的维度为4，即M=4。

进一步地，所述坐标是左上角和/或右下角坐标和/或全部顶点坐标。

一种表格图片文本智能检测系统，包括文本自动检测模块、位置变换矩阵模块和位置加权模块；

所述文本自动检测模块，用于检测表格图片中的目标文本；

所述位置变换矩阵模块，用于自动生成相对位置关系的位置变换矩阵；

所述位置加权模块，用于计算最终检测结果。

本发明的优势和有益效果在于：

本发明针对表格图片文本，采用深度学习训练的方式，通过将通用自动文本检测方法与表格文本之间相对位置相结合，从而提高表格图片文本检测精度。

附图说明

图1是本发明方法的框架图。

图2是本发明中文本自动检测模块结构示意图。

图3是本发明中位置变换矩阵模块的训练流程图。

图4是本发明方法的流程图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

一种表格图片文本智能检测的方法，具体包括文本自动检测模块、位置变换矩阵模块和位置加权模块，如图1所示：

1、文本自动检测模块，用于检测目标表格图片当中所有可能的文本，通过以下子步骤来实现，如图2所示：

（1.1）获得表格图片数据。表格图片中通常包含多个文本目标，这里假设包含有K个目标。本方法采用深度学习训练的方式进行模型训练。模型需要一部分已标注的数据来进行训练。每张表格图片会标注出目标文本的位置，通常以坐标的方式进行标注，坐标维度为M。例如，在下表中姓名字段的坐标可以表示为（x, y, w, h）,x=1,y=1,w=5,h=3。x表示字段的水平位置坐标，y表示字段的垂直位置坐标，w表示字段的宽度，h表示字段的高度。坐标总的维度为4，即M=4。位置坐标也可以是其他表现形式，如左上角和右下角坐标、全部顶点坐标等，此时M的取值可以是其他取值。

表格图片文本智能检测的任务为计算出全部文本目标的对应位置。那么一张具有K个文本目标的表格图片最终输出结果的维度为K×M。下表中共有20个文本目标，那么总的目标结果维度为20x4，即K=20，M=4。

表格中共有20个字段，即20个目标，K=20。普通的目标检测方法直接对这20个字段直接进行检测，不考虑目标的相关性。例如，如果姓名这个字段目标没有检测出来，那么普通方法检测结果就会丢失这一结果。本发明的方法在进行目标检测时会考虑到位置关系。首先，本方法会同普通方法一样检测出目标的可能位置，然后每个目标的位置将由所有检测结果加权确定。加权的意义在于最终检测结果不仅由目标本身检测的结果决定，还由其他检测出的目标决定。这样即使当个别目标未检测出来时，也可以通过其他目标推断出结果。例如，如果姓名这个字段没有被直接检测到，那么根据电话、国籍等其他所有字段可以推断出姓名的位置。由于根据其他每个字段都可以得到一个姓名字段可能所在的位置，所以需要对全部结果进行加权确认。加权的策略可以有多种，比如距离姓名字段越近的字段预测结果分配越大的权重。假设根据国籍字段预测姓名字段的水平位置可能为1，根据电话字段预测姓名字段的水平位置可能为5，由于国籍字段距离姓名字段更近，那么二者的权重分别设置为0.8和0.2。那么预测姓名字段的水平位置为1x0.8+5x0.2=1.8。另一方面，如果某个预测结果与其他预测结果偏差较大，可以把权重设置为0，这样可以减少误识别，进一步提高检测精度。

（1.2）训练文本自动检测模型。文本自动检测模块采用现有的文本检测技术方案，通过深度学习训练得到文本检测模型。该模块的示意图如图2所示。首先，通过深度学习训练的方法对已标注数据进行训练，得到文本检测模型。然后，在实际文本检测过程中，具有K个文本目标的表格图片输入到经训练得到的文本检测模型，自动产生N个文本检测结果。每个检测结果包含文本位置坐标和置信度。置信度表示目标存在的可能性大小，取值范围为0-1，取值越大，表示可能性越大。N为模型检测出的目标个数，正确的目标个数应与K相等。由于模型检测时可能会有误检和漏检，因而N与K可能不相等。检测结果的维度为N×(M+1)，M为坐标维度，1为置信度维度。以上表为例，K=20，假设文本自动检测模块检测到15个目标，即N=15。每个检测到的目标用（x,y,w,h,t）表示，前四个为上文所述坐标，t为置信度。姓名字段的预测结果可表示为（1,1,5,3,0.9），其中0.9为置信度，即目标存在的概率为0.9。

2、位置变换矩阵模块，用于自动生成相对位置关系的变换矩阵，通过以下子步骤来实现，如图3所示：

（2.1）根据已有标注数据，生成用于位置变换矩阵模块的样本标签数据。在已标注数据中，每一张图片的标注数据中包含了全部目标的坐标位置。位置变换矩阵模块，利用其中一个目标即可得到全部目标的位置。因此，K个目标图片的标注数据在该模块训练过程中需要拆分成K条训练数据。每条训练数据为原标注中的一个目标位置，维度为1×M，相应的目标标签为K个目标坐标，维度为K×M。因此，每一个目标会训练得到K个位置变换矩阵，而K个目标会得到K×K个位置变换矩阵。位置变换矩阵的维度与标注坐标维度相关，如果标注坐标维度为M，那么位置变换矩阵的维度为M×M。以上表为例，K为20，M为4，那么图片中全部坐标维度可以表示为20×4。以姓名字段为例，利用位置关系，根据姓名字段可以推断出全部20×4个坐标。姓名字段的坐标为（1×4），即（1,1,5,3），目标检测结果的维度为（20x4）,这构成了一个样本。每一个字段都会生成一个这样的样本，那么20个目标，会生成20组样本，每组样本的输入为1×4的目标坐标，输出为20x4的全部目标坐标。我们称这20个样本为生成的样本标签数据。

（2.2）根据(2.1)生成的样本标签数据，训练得到用于计算各个目标的位置变换矩阵的模型。模型通常由神经网络组成，模型的结构不限，但输出为K×K×M×M。训练过程按照现有深度模型训练的方式进行。以上表为例，根据矩阵乘法，1×4的向量乘以4×4的向量可以看作成对原向量做了空间上的位置变换，也就是位置变换矩阵的维度为4×4。通过位置变换矩阵，1×4的坐标可以得到一个新的1×4的坐标。这个新的坐标就是对其他目标的变换。当4×4的位置变换矩阵为单位矩阵时，姓名字段乘以变换矩阵会得到对自身的预测，预测结果为（1,1,5,3）。同样地，当位置变换矩阵元素取值变化时，可以产生新的坐标，作为其他字段的预测。那么20个目标坐标，需要20个4×4位置变换矩阵。这里，仅仅对于姓名字段而言，需要20个维度为4×4的位置变换矩阵。那么全部20个字段需要的位置变换矩阵数目为20×20，因此位置变换矩阵即模型输出的维度为20×20×4×4。

3、位置加权模块，用于计算最终检测结果；通过以下子步骤来实现，如图4所示：

（3.1）输入新的待检测图片后，（1.2）中文本自动检测模块输出N个检测结果，位置变换矩阵模块输出K×K个矩阵。当N个检测结果中有多个结果同时属于K个目标中的一个时，那么仅保留其中置信度最大的检测结果。经过该处理后，N一定是一个不大于K的数。

（3.2）对于（2.2）中K×K个的变换矩阵，表示每一个目标都对应K个变换矩阵，即通过每一个目标都可以经矩阵变换得到全部的K个目标。那么，文本自动检测模块输出的N个检测结果，经矩阵变换模块会产生N×K个目标。经位置变换得到的目标的置信度与自动检测模块输出的目标的置信度保持一致。

（3.3）经文本检测模型和变换矩阵会产生N×K个检测结果，其中K为可能的目标数量，N表示候选的结果数量，每一个可能的结果有K个目标。N×K个目标可理解为K个目标中每个目标实际检测到N个结果。最终检测到的每个目标的位置将由N个目标共同决定。假设目标A为N中一个检测到的目标，那么A经矩阵变换会得到K个目标。分别计算这K个目标的坐标与A的距离，共K个取值，记作d11，d12，…，d1K。按照这种计算方式可得到N×K的距离矩阵，如下矩阵D所示。以上表为例，K=20，N=15。对于姓名字段，该步骤会分别计算出全部20个预测结果与姓名字段间的位置距离，即d11，d12，…，d120。

（3.4）距离矩阵D中每一行均有一个置信度与之对应，该置信度来源于文本自动检测模块。以上上表为例，假设文本自动检测模块输出姓名字段的结果为（1,1,5,3,0.9），那么置信度T1=0.9。实例中N取值为15，即共检测到15个目标，每个目标各自有1个置信度，如T1表示姓名字段的置信度。那么，置信度矩阵T可表示为T1，T2，…，TN。

（3.5）位置加权模块定义的权重为：

W(i) = f(D(i), T) （1≤i≤K）

W(i)表示第i个目标位置确认时的权重，这些权重针对于N个已检测结果。D(i)表示矩阵D中的第i列。T为置信度矩阵。f为自定义函数表达式。以上表为例，K=20，N=15，那么每个目标将由15个检测结果共同决定。以姓名字段为例，15个检测结果根据位置变换矩阵会得到15个预测结果，我们分别计算这15个结果的坐标与姓名字段预测结果坐标之间的距离。这样可以得到15个距离值，记作D11，D12，…D115。同样地，15个预测结果中各有一个置信度，记作T1，T2，…，T15。

举例来说，置信度越大的检测结果越可靠，那么相应权重应越大；经矩阵变换距离越远误差越大，那么相应权重越小。权重函数f可表示为：

D(i,n)表示第i个预测目标，n表示第n个目标对第i个预测目标的预测。

（3.6）权重函数确认之后，对于第i个目标，经位置变换得到的N个坐标表示为Pi1，…，PiN。那么最终输出的位置坐标为:

。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种表格图片文本智能检测方法，其特征在于包括如下步骤：

S1，检测目标表格图片中的文本，通过深度学习训练，根据K个目标文本的表格图片，产生N个目标文本检测结果，每个检测结果包含目标文本位置和置信度，N表示目标文本个数，置信度表示目标文本存在的可能性大小，取值越大，存在的可能性越大，检测结果的维度为N×(M+1)，M为目标文本位置维度，1为置信度维度；

S2，生成相对位置关系的位置变换矩阵，包括如下步骤：

S22，根据矩阵乘法，将K×M的向量乘以M×M的向量，作为对原向量做了空间上的位置变换，位置变换矩阵的维度为M×M，通过位置变换矩阵，1×M的目标文本位置，能够得到一个新的1×M的目标文本位置，当M×M的位置变换矩阵为单位矩阵时，目标文本位置段乘以位置变换矩阵，得到对自身的预测，当位置变换矩阵的元素取值变化时，产生新的目标文本位置，作为其他目标文本位置的预测，K个目标文本位置，需要K个M×M位置变换矩阵，因此位置变换矩阵的输出的维度为K×K×M×M；每一个目标文本位置会训练得到K个位置变换矩阵，K个目标文本位置得到K×K个位置变换矩阵，已标注目标文本位置维度为M，则位置变换矩阵的维度为M×M；

S3，通过位置加权，计算最终检测结果，包括如下步骤：

2.根据权利要求1所述的一种表格图片文本智能检测方法，其特征在于所述S35中的权重为：

W(i) = f(D(i), T) （1≤i≤K）

其中，D(i,n)是距离矩阵中第i列第n行的元素，表示第n个目标对第i个预测目标的预测，Tn表示置信度矩阵的第n个元素。

3.根据权利要求2所述的一种表格图片文本智能检测方法，其特征在于所述S36中，对于第i个目标，经位置变换得到的N个目标文本位置表示为Pin，最终输出的目标文本位置为：

。

4.根据权利要求1所述的一种表格图片文本智能检测方法，其特征在于所述S31中，当N个文本检测结果中，有多个结果同时属于K个目标中的一个时，仅保留其中置信度最大的检测结果。

5.根据权利要求1所述的一种表格图片文本智能检测方法，其特征在于所述S33中，目标A为N中一个检测到的目标，A经矩阵变换得到K个目标文本位置，分别计算K个目标文本位置与A的距离，共K个取值，记作d11，d12，…，d1K，N个检测到的目标，能够得到N×K的距离矩阵：

。

6.根据权利要求1所述的一种表格图片文本智能检测方法，其特征在于所述M为目标文本位置维度，是维度为M的目标文本的坐标。

7.根据权利要求6所述的一种表格图片文本智能检测方法，其特征在于所述坐标表示为（x, y, w, h），x表示字段的水平位置坐标，y表示字段的垂直位置坐标，w表示字段的宽度，h表示字段的高度，坐标总的维度为4，即M=4。

8.根据权利要求6所述的一种表格图片文本智能检测方法，其特征在于所述坐标是左上角和/或右下角坐标和/或全部顶点坐标。

9.根据权利要求1所述的一种表格图片文本智能检测方法的系统，包括文本自动检测模块、位置变换矩阵模块和位置加权模块，其特征在于：

所述文本自动检测模块，用于检测表格图片中的目标文本；

所述位置加权模块，用于计算最终检测结果。