CN113255566B - 表格图像识别方法及装置 - Google Patents
表格图像识别方法及装置 Download PDFInfo
- Publication number
- CN113255566B CN113255566B CN202110657029.7A CN202110657029A CN113255566B CN 113255566 B CN113255566 B CN 113255566B CN 202110657029 A CN202110657029 A CN 202110657029A CN 113255566 B CN113255566 B CN 113255566B
- Authority
- CN
- China
- Prior art keywords
- feature
- attribute
- form image
- region
- header information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本说明书实施例提供一种表格图像识别方法及装置,在表格图像识别方法中,对于存在表头信息的表格图像,则先根据表头信息,确定针对表格图像划分的若干区域各自的属性类别。之后将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。对于不存在表头信息的表格图像,则先利用属性类别预测模型预测针对表格图像划分的若干区域各自的属性类别。之后将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种表格图像识别方法及装置。
背景技术
表格是文档中常用的数据资料载体。表格在我们日常生活中的应用越来越广泛,以表格的形式表达数据可以形象直观,并且表达方式简洁。目前,大多数企业特别是IT、银行、金融等行业,每天要处理的表格数量惊人。然而,在实际应用中,我们会遇到一些包含表格的文档是PDF格式或者图片格式,也即会遇到一些表格图像,在这些情况下,如要获取表格数据,就需要对表格图像进行识别处理。
现有的表格图像识别方法往往会受表格图像的拍摄质量的影响,因此,迫切需要提供一种更可靠地表格图像识别方法。
发明内容
本说明书一个或多个实施例描述了一种表格图像识别方法及装置,可以提高表格图像识别的可靠性。
第一方面,提供了一种表格图像识别方法,包括:
获取表格图像;
判断所述表格图像中是否存在表头信息,其中,所述表头信息用于指示出表格内的行内容和/或列内容的属性类别;
在所述表格图像存在表头信息的情况下,根据所述表头信息,确定针对所述表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别;
在所述表格图像不存在表头信息的情况下,利用属性类别预测模型,预测针对所述表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。
第二方面,提供了一种表格图像识别装置,包括:
获取单元,用于获取表格图像;
判断单元,用于判断所述表格图像中是否存在表头信息,其中,所述表头信息用于指示出表格内的行内容和/或列内容的属性类别;
第一输入单元,用于在所述表格图像存在表头信息的情况下,根据所述表头信息,确定针对所述表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别;
第二输入单元,用于在所述表格图像不存在表头信息的情况下,利用属性类别预测模型预测针对所述表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。
第三方面,提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
本说明书一个或多个实施例提供的表格图像识别方法及装置,对于存在表头信息的表格图像,则先根据表头信息,确定针对表格图像划分的若干区域各自的属性类别。之后将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。对于不存在表头信息的表格图像,则先利用属性类别预测模型,预测针对表格图像划分的若干区域各自的属性类别。之后将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。也即本说明书提供的方案中,可以基于表格图像的各区域的属性类别,来对表格图像进行识别处理。由于区域的属性类别可以指示出区域数据的类型,从而可以有效收窄模型的搜索空间,进而可以提升表格图像识别的效率。此外,利用文本识别模型针对表格图像进行识别处理,通常不受表格图像的拍摄质量的影响,从而可以提升表格图像识别的可靠性。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书一个实施例提供的实施场景示意图;
图2为本说明书一个实施例提供的表格图像识别方法流程图;
图3为本说明书提供的表格图像示意图之一;
图4为本说明书提供的区域的识别处理方法示意图;
图5为本说明书提供的表格图像示意图之二;
图6为本说明书提供的表格图像的识别处理方法示意图;
图7为本说明书一个实施例提供的表格图像识别装置示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
在描述本说明书实施例提供的方案之前,先对本方案的发明构思作以下说明。
传统的表格图像识别方法可以如下:先对表格图像进行行列分割。之后基于分割结果确定表格图像的各单元格图像,并对各单元格图像进行文本识别。最后,基于识别结果对表格结构进行还原。其中的文本识别是基于OCR技术进行的,然而在基于OCR技术针对图像进行识别时,往往会受到图像拍摄质量(光照情况、图片倾斜/弯曲、相机分辨率)的影响。因此,传统的表格图像识别技术的准确性较差。
为此,本申请的发明人提出基于文本识别模型对表格图像进行识别。具体地,对于存在表头信息的表格图像,则先根据表头信息,确定针对表格图像划分的若干区域各自的属性类别。之后将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。对于不存在表头信息的表格图像,则先利用属性类别预测模型,预测针对表格图像划分的若干区域各自的属性类别。之后将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。
也即本说明书提供的方案中,可以基于表格图像的各区域的属性类别,来对表格图像进行识别处理。由于区域的属性类别可以指示出区域数据的类型,从而可以有效收窄模型的搜索空间,进而可以提升表格图像识别的效率。此外,利用文本识别模型针对表格图像进行识别处理,通常不受表格图像的拍摄质量的影响,从而可以提升表格图像识别的可靠性。
以上就是本说明书实施例提供的发明构思,基于该发明构思就可以得到本方案,以下对本方案进行详细说明。
图1为本说明书一个实施例提供的实施场景示意图。图1中,对于当前待识别的表格图像,先判断该表格图像中是否存在表头信息。如果是,则根据表头信息,确定针对表格图像划分的若干区域各自的属性类别,将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。如果否,则先利用属性类别预测模型,预测针对表格图像划分的若干区域各自的属性类别。之后将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。
图2为本说明书一个实施例提供的表格图像识别方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置。如图2所示,所述方法具体可以包括:
步骤202,获取表格图像。
这里的表格图像中可以存在表头信息,也可以不存在表头信息。其中,表头信息用于指示出表格内的行内容和/或列内容的属性类别。
以图3示出的表格图像为例来说,表格中的表头信息可以是指表格中的第一行内容,即“项目”、“规格”、“单价”、“数量”、“单位”以及“结账金额”。其中,“项目”表明表格中的第一列的各行内容均为汉字等。“单价”表明表格中的第三列的各行内容均为数字序列等等。
需要说明,根据上述属性类别,通常可以确定出对应行内容或列内容的搜索空间。如“单价”这一列内容的搜索空间就可以限制在10个数字字符(0-9)和小数点组成的数字序列,这有效收窄了下游任务(文本识别模型)的搜索空间,由此可以提升文本识别模型的识别的效率。
步骤204,判断表格图像中是否存在表头信息。
具体地,可以先从表格图像中提取表头区域,然后对表头区域进行文本识别,得到文本内容,以及判断识别到的文本内容是否为表头信息。
以下先对表头区域的提取方法进行说明。
在一种实现方式中,可以从预定位置开始,从表格图像中提取预定宽度或长度的区域作为表头区域。
在另一种实现方式中,也可以将表格图像输入行列分割模型,得到按序排列的若干行分割结果以及按序排列的若干列分割结果。从若干行分割结果中,提取第一行分割结果作为表头区域;和/或,从若干列分割结果中,提取第一列分割结果作为表头区域。
在一个例子中,行分割结果或者列分割结果可以通过矩形边框示出,其对应于表格图像中表格的一行或一列内容。应理解,上述若干行分割结果与若干列分割结果之间的各相交区域即为表格的各单元格。
上述行列分割模型可以包括以下中的任一种:2D注意力(attention)模型、目标检测模型以及实例分割模型等。此处的目标检测模型可以实现为快速的(Faster)-基于区域的卷积神经网络(Region-based Convolutional Neural Network,RCNN),基于区域的全卷积网络(Region-based Fully Convolutional Network,RFCN),单次多边界框检测器(Single Shot MultiBox Detector,SSD)或者YOLO等。
以上是针对表头区域的提取方法的说明,以下对表头区域的识别方法进行说明。
在一种实现方式中,可以将表头区域输入识别模型,得到表头信息。这里的识别模型可以包括基础特征提取器和解码器。其中的基础特征提取器可以由多层主干网络(backbone)构成,其中,每层主干网络可以实现为深度卷积神经网络VGGNet,深度残差网络(Residual Network,ResNet)或者空间变换网络(Spatial Transformer Networks,STN)等。
具体地,利用基础特征提取器,对表头区域进行特征提取,得到基础特征表示。利用解码器,对基础特征表示进行解码,得到表头信息。
在另一种实现方式中,也可以利用光学字符识别(Optical CharacterRecognition,OCR)识别技术,识别表头区域。
在识别得到表头区域的文本内容之后,可以将识别的文本内容与预定义表头信息进行比对,如果相一致,则确定识别的文本内容是表头信息,从而表格图像中存在表头信息。否则确定识别的文本内容不是表头信息,从而表格图像中不存在表头信息。
步骤206,在表格图像存在表头信息的情况下,根据表头信息,确定针对表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。
在一个示例中,不同的属性类别可以对应有不同的文本识别模型。此外,这里的区域可以与表格图像中表格的单元格相对应,也可以与表格图像中表格的一行或一列相对应。
在一个示例中,上述文本识别模型可以包括各属性类别共享的基础特征提取器和解码器,以及该文本识别模型的属性类别所对应的专属特征提取器。这里的基础特征提取器可以如前所述,即其由多层主干网络(backbone)构成。
上述将各区域分别输入各自的属性类别所对应的文本识别模型可以包括:对于各区域中任意的第一区域,利用基础特征提取器对第一区域进行特征提取,得到基础特征表示。利用第一区域的第一类别对应的专属特征提取器,基于第一区域和基础特征表示进行特征处理,得到目标特征表示。利用解码器,对目标特征表示进行解码,得到第一区域的文本内容。
类似地,可以得到其它第一区域各自的文本内容。
在一个具体例子中,上述专属特征提取器可以包括:专属空间特征提取器和专属语义特征提取器。其中专属空间特征提取器可以由多层卷积神经网络(ConvolutionalNeural Networks,CNN)构成,用于从输入图像(如,上述各区域)中提取空间特征。其中的每层CNN与一层主干网络以残差连接的方式进行连接。换句话说,CNN的层数与主干网络的层数是相等的。上述专属语义特征提取器可以实现为循环神经网络(Recurrent NeuralNetwork),用于从输入图像(如,上述各区域)中提取语义特征。也就是说,本说明书实施例提供的文本识别模型针对输入图像同时提取空间特征和语义特征,由此可以大大提升图像识别的准确率。
在专属特征提取器可以包括专属空间特征提取器和专属语义特征提取器的情况下,上述基于第一区域和基础特征表示进行特征处理,得到目标特征表示,可以包括:利用第一类别对应的专属空间特征提取器,对第一区域进行特征提取,得到空间特征表示。根据基础特征表示和空间特征表示,得到综合特征表示。将综合特征表示输入第一类别对应的专属语义特征提取器,得到目标特征表示。
其中,上述根据基础特征表示和空间特征表示,得到综合特征表示可以包括:对基础特征表示与空间特征表示进行求和或者加权求和,得到综合特征表示。
以下对表格图像存在表头信息的情况下,利用文本识别模型,对表格图像的各区域中任一区域的识别处理方法进行说明。
图4为本说明书提供的区域的识别处理方法示意图。图4中示出m个文本识别模型,其中,每个文本识别模型包括m个属性类别共享的基础特征提取器和解码器,其中的基础特征提取器由n层主干网络构成。每个文本识别模型还包括与其属性类别相对应的专属空间特征提取器以及专属语义特征提取器。这里的专属空间特征提取器由n层CNN构成,其中的每层CNN与一层主干网络以残差连接的方式进行连接。这里的专属语义特征提取器可以实现为RNN。假设当前输入的区域的属性类别为类别1,那么针对其的识别方法可以如下:
将区域输入类别1对应的文本识别模型1,并在该模型中,利用基础特征提取器对该区域进行特征提取,得到基础特征表示。利用该模型中的专属空间特征提取器1,对该区域进行特征提取,得到空间特征表示。根据基础特征表示和空间特征表示,得到综合特征表示。将综合特征表示输入该模型中的专属语义特征提取器1,得到目标特征表示。利用解码器,对目标特征表示进行解码,得到该区域的文本内容。类似地,可以得到其它区域各自的文本内容。
需要说明,本说明书实施例中,在表格图像存在表头信息时,对应于不同属性类别的输入区域,通过对应的专属空间特征提取器和专属语义特征提取器进行特征提取,由此可以实现各属性类别的特性化学习。此外,针对不同的属性类别,设定不同的专属空间特征提取器和专属语义特征提取器,可以实现各空间特征提取器和语义特征提取器的参数的隔离,进而可以避免参数的遗忘。最后,通过基础特征提取器针对各属性类别的输入区域提取基础特征表示,可以实现网络的复用,且可以减少空间特征提取器和语义特征提取器的训练次数,由此可以提升模型训练效率。
步骤208,在表格图像不存在表头信息的情况下,利用属性类别预测模型,预测针对表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。
在表格图像不存在表头信息的情况下,该表格图像可以如图5所示。图5中,该表格图像包含3列内容,该3列内容的属性类别分别为“项目”、“规格”和“单价”。应理解,在实际应用中,该表格图像还可以包含更多列内容。
在一个示例中,上述若干区域可以是利用目标检测算法检测到的。其中的每个区域与表格图像中表格的一行或者一列相对应。以图5为例来说,针对表格图像可以划分得到3个区域,每个区域对应于表格中的一列。
在一个示例中,上述属性类别预测模型可以包括各属性类别共享的基础特征提取器、特征抽取器和分类器。这里的基础特征提取器可以如前所述,即其由多层主干网络(backbone)构成。其中的特征抽取器可以包括但不限于以下中的任一种:长短期记忆网络(LSTM,Long Short-Term Memory),RNN以及双向门控循环单元(Gated Recurrent Unit,GRU)等。
上述利用属性类别预测模型预测针对表格图像划分的若干区域各自的属性类别,可以包括:利用基础特征提取器对表格图像进行特征提取,得到基础特征表示。利用特征抽取器,从基础特征表示中,依次抽取若干区域各自对应的子特征表示。利用分类器,基于各子特征表示,预测若干区域各自的属性类别。
也就是说,在将表格图像划分为若干区域之后,利用基础特征提取器提取的基础特征表示可以由各区域各自对应的子特征表示构成。其中,每个区域对应的子特征表示的位置以及长度可以是训练文本识别模型的过程中学习得到。
在一个示例中,上述文本识别模型可以包括该文本识别模型的属性类别对应的专属语义特征提取器,以及各属性类别共享的解码器。这里的语义特征提取器也可以如前所述,即可以实现为RNN。
上述将各区域分别输入各自的属性类别所对应的文本识别模型,包括:将各区域分别输入各自的属性类别所对应的专属语义特征提取器进行特征处理,得到各目标特征表示。利用解码器,对各目标特征表示进行解码,得到各区域的文本内容。
具体地,可以是将各区域各自的基础特征表示,输入各自的属性类别所对应的专属语义特征提取器进行特征处理。其中,各区域各自的基础特征表示即为上述利用属性类别预测模型中的基础特征提取器所提取到的基础特征表示。
在一个例子中,上述特征处理具体可以包括:根据各区域的属性类别,从基础特征表示中抽取对应的子特征表示作为各区域的中间特征表示。选择对应的专属语义特征提取器处理各区域的中间特征表示,得到各目标特征表示。
在另一个例子中,上述特征处理可以包括:将基础特征表示划分为对应于若干目标区域的若干区段,将每个区段的元素设定为该区段对应的目标区域的属性类别的索引值,得到对应于基础特征表示的掩码向量。这里的目标区域通过对若干相近的区域汇总得到。对于目标区域中对应于第一类别的第一目标区域,在掩码向量中遮蔽除第一类别的索引值外的其它索引值得到目标掩码向量。将目标掩码向量与基础特征表示按位相乘,得到对应于第一类别的各区域的中间特征表示。选择对应的专属语义特征提取器处理对应于第一类别的各区域的中间特征表示,得到目标特征表示。
以下结合例子对中间特征表示的获取过程进行说明。
假设表格图像可以划分为三个区域,分别为:“单价”、“项目”和“总价”。以及假设基础特征表示为如下向量:(0.21,0.35,0.44,0.27,0.53,0.67,0.43,0.51,0.33,0.46)。其中,前2位与“单价”相对应,中间6位于“项目”相对应,最后2位与“总价”相对应。然而,由于“单价”和“总价”的数据类型相类似,也即该两个区域相近。因此,在实际应用中,可以将“单价”和“总价”合并为一个目标区域进行预测,也即上述表格图像可以划分为两个目标区域。假设针对该两个目标区域,可以预测得到两个属性类别,分别为:“项目”和“价格”,且假设“项目”和“价格”各自对应的索引值分别为1和2。那么各属性类别对应中间特征表示的确定方法可以如下:
首先,可以将上述基础特征表示划分为两个区段,然后将每个区段的元素设定为该区段对应的目标区域的属性类别的索引值,从而得到掩码向量:(2,2,1,1,1,1,1,1,2,2)。也就是说,本说明书所述的掩码向量与基础特征表示的维度相同。
现假设要获取“价格”(即“单价”和“总价”)的中间特征表示,那么可以将掩码向量中,对应于“价格”的索引值设定为第一数值(如,1),对应于“项目”索引值设定为第二数值(如,0),得到目标掩码向量:(1,1,0,0,0,0,0,0,1,1)。将目标掩码向量与基础特征表示按位相乘,得到对应于“价格”的中间特征表示:(0.21,0.35,0,0,0,0,0,0,0.33,0.46)。
应理解,在该示例中,各专属语义特征提取器对应的属性类别为目标区域对应的属性类别,比如“价格”。
此外,在该示例中,所得到的目标特征表示为若干相近的区域共同对应的特征表示,对其解码得到的文本内容同时包含各相近的区域的文本内容。
以下对表格图像不存在表头信息的情况下,利用文本识别模型,对表格图像的识别处理方法进行说明。
图6为本说明书提供的表格图像的识别处理方法示意图。图6中,属性类别预测模型包括m个属性类别共享的基础特征提取器、特征抽取器以及分类器,其中基础特征提取器由n层主干网络构成。此外,图6示出m个文本识别模型,其中每个文本识别模型包括与其属性类型对应的专属语义特征提取器以及m个属性类别共享的解码器。这里的专属语义特征提取器可以实现为RNN。
图6中,在将表格图像输入属性类别预测模型之后,可以利用基础特征提取器对表格图像进行特征提取,得到基础特征表示。利用特征抽取器,从基础特征表示中,依次抽取若干区域各自对应的子特征表示。利用分类器,基于各子特征表示,预测若干区域各自的属性类别。假设任一区域的属性类别为类别1,那么可以将该任一区域输入类别1对应的文本识别模型1,并利用该模型中的专属语义特征提取器1处理该区域的基础特征表示,得到目标特征表示。利用解码器,对目标特征表示进行解码,得到该区域的文本内容。类似地,可以得到其它区域各自的文本内容。
需要说明,本说明书实施例中,在表格图像不存在表头信息时,可以针对表格图像中不同属性类别的区域,通过不同的语义特征提取器进行特征提取,由此可以实现各属性类别的特性化学习。此外,针对不同的属性类别,设定不同的语义特征提取器,可以实现各语义特征提取器的参数的隔离,进而可以避免参数的遗忘。最后,通过基础特征提取器针对各属性类别的区域提取基础特征表示,可以实现网络的复用,且可以减少语义特征提取器的训练次数,由此可以提升模型训练效率。
综合以上,本说明书实施例提供的方法,可以基于表格图像的各区域的属性类别,来对表格图像进行识别处理。由于区域的属性类别可以指示出区域数据的类型,从而可以有效收窄模型的搜索空间,进而可以提升表格图像识别的效率。此外,利用文本识别模型针对表格图像进行识别处理,通常不受表格图像的拍摄质量的影响,从而可以提升表格图像识别的可靠性。
与上述表格图像识别方法对应地,本说明书一个实施例还提供的一种表格图像识别装置,如图7所示,该装置可以包括:
获取单元702,用于获取表格图像。
判断单元704,用于判断表格图像中是否存在表头信息,其中,表头信息用于指示出表格内的行内容和/或列内容的属性类别。
其中,判断单元704可以包括:
提取模块7042,用于从表格图像中提取表头区域。
提取模块7042具体可以用于:
将表格图像输入行列分割模型,得到若干行分割结果以及若干列分割结果;
从若干行分割结果中,提取第一行分割结果作为表头区域;和/或,
从若干列分割结果中,提取第一列分割结果作为表头区域。
上述区域可以是指若干行分割结果与若干列分割结果之间的相交区域。
识别模块7044,用于对表头区域进行文本识别,得到文本内容。
识别模块7044具体可以用于:
将表头区域输入基础特征提取器和解码器,其中,利用基础特征提取器,对表头区域进行特征提取,得到基础特征表示。利用解码器,对基础特征表示进行解码,得到表头信息。
判断模块7046,用于判断识别的文本内容是否为表头信息。
第一输入单元706,用于在表格图像存在表头信息的情况下,根据表头信息,确定针对表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。
其中,这里所述的区域与表格图像中表格的单元格相对应,或者,该区域与表格图像中表格的一行或一列相对应。
第二输入单元708,用于在表格图像不存在表头信息的情况下,利用属性类别预测模型预测针对表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别。
这里所述的区域与表格图像中表格的一行或一列相对应。
在一个示例中,在表格图像存在表头信息的情况下,文本识别模型包括各属性类别共享的基础特征提取器和解码器,以及该文本识别模型的属性类别所对应的专属特征提取器。
第一输入单元706具体用于:
对于各区域中任意的第一区域,利用基础特征提取器对第一区域进行特征提取,得到基础特征表示;
利用第一区域的第一类别对应的专属特征提取器,基于第一区域和基础特征表示进行特征处理,得到目标特征表示;
利用解码器,对目标特征表示进行解码,得到第一区域的文本内容。
在一个具体示例中,上述专属特征提取器包括:专属空间特征提取器和专属语义特征提取器。
第一输入单元706还具体用于:
利用第一类别对应的专属空间特征提取器,对第一区域进行特征提取,得到空间特征表示;
根据基础特征表示和空间特征表示,得到综合特征表示;
将综合特征表示输入第一类别对应的专属语义特征提取器,得到目标特征表示。
在一个示例中,上述属性类别预测模型包括各属性类别共享的基础特征提取器、特征抽取器和分类器。
第二输入单元708具体用于:
利用基础特征提取器对表格图像进行特征提取,得到基础特征表示;
利用特征抽取器,从基础特征表示中,依次抽取若干区域各自对应的子特征表示;
利用分类器,基于各子特征表示,预测若干区域各自的属性类别。
其中,在表格图像不存在表头信息的情况下,上述文本识别模型包括,该文本识别模型的属性类别对应的专属语义特征提取器,以及各属性类别共享的解码器。
第二输入单元708还具体用于:
将各区域分别输入各自的属性类别所对应的专属语义特征提取器进行特征处理,得到各目标特征表示;
利用所述解码器,对各目标特征表示进行解码,得到各区域的文本内容。
本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的表格图像识别装置,可以提高表格图像识别的效率和可靠性。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2、图4或图6所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2、图4或图6所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的具体实施方式而已,并不用于限定本说明书的保护范围,凡在本说明书的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的保护范围之内。
Claims (20)
1.一种表格图像识别方法,包括:
获取表格图像;
判断所述表格图像中是否存在表头信息,其中,所述表头信息用于指示出表格内的行内容和/或列内容的属性类别;
在所述表格图像存在表头信息的情况下,根据所述表头信息,确定针对所述表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别;
在所述表格图像不存在表头信息的情况下,利用属性类别预测模型,预测针对所述表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别;
在所述表格图像存在表头信息的情况下,所述文本识别模型包括各属性类别共享的基础特征提取器和解码器,以及该文本识别模型的属性类别所对应的专属特征提取器;
所述将各区域分别输入各自的属性类别所对应的文本识别模型,包括:
对于所述各区域中任意的第一区域,利用所述基础特征提取器对所述第一区域进行特征提取,得到基础特征表示;
利用所述第一区域的第一类别对应的专属特征提取器,基于所述第一区域和所述基础特征表示进行特征处理,得到目标特征表示;
利用所述解码器,对所述目标特征表示进行解码,得到所述第一区域的文本内容。
2.根据权利要求1所述的方法,其中,在所述表格图像存在表头信息的情况下,所述区域与所述表格图像中表格的单元格相对应,或者,所述区域与所述表格图像中表格的一行或一列相对应;在所述表格图像不存在表头信息的情况下,所述区域与所述表格图像中表格的一行或一列相对应。
3.根据权利要求1所述的方法,其中,所述判断所述表格图像中是否存在表头信息,包括:
从所述表格图像中提取表头区域;
对所述表头区域进行文本识别,得到文本内容;
判断所述文本内容是否为表头信息。
4.根据权利要求3所述的方法,其中,所述从所述表格图像中提取表头区域,包括:
将所述表格图像输入行列分割模型,得到若干行分割结果以及若干列分割结果;
从所述若干行分割结果中,提取第一行分割结果作为所述表头区域;和/或,
从所述若干列分割结果中,提取第一列分割结果作为所述表头区域。
5.根据权利要求4所述的方法,其中,所述区域是所述若干行分割结果与所述若干列分割结果之间的相交区域。
6.根据权利要求3所述的方法,其中,所述对所述表头区域进行文本识别,包括:
将所述表头区域输入基础特征提取器和解码器,其中,利用所述基础特征提取器,对所述表头区域进行特征提取,得到基础特征表示;利用所述解码器,对所述基础特征表示进行解码,得到所述表头信息。
7.根据权利要求1所述的方法,其中,所述专属特征提取器包括:专属空间特征提取器和专属语义特征提取器;
所述基于所述第一区域和所述基础特征表示进行特征处理,得到目标特征表示,包括:
利用所述第一类别对应的专属空间特征提取器,对所述第一区域进行特征提取,得到空间特征表示;
根据所述基础特征表示和所述空间特征表示,得到综合特征表示;
将所述综合特征表示输入所述第一类别对应的专属语义特征提取器,得到目标特征表示。
8.根据权利要求1所述的方法,其中,所述属性类别预测模型包括各属性类别共享的基础特征提取器、特征抽取器和分类器;
所述利用属性类别预测模型,预测针对所述表格图像划分的若干区域各自的属性类别,包括:
利用所述基础特征提取器对所述表格图像进行特征提取,得到基础特征表示;
利用所述特征抽取器,从所述基础特征表示中,依次抽取所述若干区域各自对应的子特征表示;
利用所述分类器,基于各子特征表示,预测所述若干区域各自的属性类别。
9.根据权利要求1所述的方法,其中,在所述表格图像不存在表头信息的情况下,所述文本识别模型包括,该文本识别模型的属性类别对应的专属语义特征提取器,以及各属性类别共享的解码器;
所述将各区域分别输入各自的属性类别所对应的文本识别模型,包括:
将各区域分别输入各自的属性类别所对应的专属语义特征提取器进行特征处理,得到各目标特征表示;
利用所述解码器,对所述各目标特征表示进行解码,得到所述各区域的文本内容。
10.一种表格图像识别装置,包括:
获取单元,用于获取表格图像;
判断单元,用于判断所述表格图像中是否存在表头信息,其中,所述表头信息用于指示出表格内的行内容和/或列内容的属性类别;
第一输入单元,用于在所述表格图像存在表头信息的情况下,根据所述表头信息,确定针对所述表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别;
第二输入单元,用于在所述表格图像不存在表头信息的情况下,利用属性类别预测模型预测针对所述表格图像划分的若干区域各自的属性类别,并将各区域分别输入各自的属性类别所对应的文本识别模型进行文本识别;
其中,在所述表格图像存在表头信息的情况下,所述文本识别模型包括各属性类别共享的基础特征提取器和解码器,以及该文本识别模型的属性类别所对应的专属特征提取器;
所述第一输入单元具体用于:
对于所述各区域中任意的第一区域,利用所述基础特征提取器对所述第一区域进行特征提取,得到基础特征表示;
利用所述第一区域的第一类别对应的专属特征提取器,基于所述第一区域和所述基础特征表示进行特征处理,得到目标特征表示;
利用所述解码器,对所述目标特征表示进行解码,得到所述第一区域的文本内容。
11.根据权利要求10所述的装置,其中,在所述表格图像存在表头信息的情况下,所述区域与所述表格图像中表格的单元格相对应,或者,所述区域与所述表格图像中表格的一行或一列相对应;在所述表格图像不存在表头信息的情况下,所述区域与所述表格图像中表格的一行或一列相对应。
12.根据权利要求10所述的装置,其中,所述判断单元包括:
提取模块,用于从所述表格图像中提取表头区域;
识别模块,用于对所述表头区域进行文本识别,得到文本内容;
判断模块,用于判断所述文本内容是否为表头信息。
13.根据权利要求12所述的装置,其中,所述提取模块具体用于:
将所述表格图像输入行列分割模型,得到若干行分割结果以及若干列分割结果;
从所述若干行分割结果中,提取第一行分割结果作为所述表头区域;和/或,
从所述若干列分割结果中,提取第一列分割结果作为所述表头区域。
14.根据权利要求13所述的装置,其中,所述区域是所述若干行分割结果与所述若干列分割结果之间的相交区域。
15.根据权利要求12所述的装置,其中,所述识别模块具体用于:
将所述表头区域输入基础特征提取器和解码器,其中,利用所述基础特征提取器,对所述表头区域进行特征提取,得到基础特征表示;利用所述解码器,对所述基础特征表示进行解码,得到所述表头信息。
16.根据权利要求10所述的装置,其中,所述专属特征提取器包括:专属空间特征提取器和专属语义特征提取器;
所述第一输入单元还具体用于:
利用所述第一类别对应的专属空间特征提取器,对所述第一区域进行特征提取,得到空间特征表示;
根据所述基础特征表示和所述空间特征表示,得到综合特征表示;
将所述综合特征表示输入所述第一类别对应的专属语义特征提取器,得到目标特征表示。
17.根据权利要求10所述的装置,其中,所述属性类别预测模型包括各属性类别共享的基础特征提取器、特征抽取器和分类器;
所述第二输入单元具体用于:
利用所述基础特征提取器对所述表格图像进行特征提取,得到基础特征表示;
利用所述特征抽取器,从所述基础特征表示中,依次抽取所述若干区域各自对应的子特征表示;
利用所述分类器,基于各子特征表示,预测所述若干区域各自的属性类别。
18.根据权利要求10所述的装置,其中,在所述表格图像不存在表头信息的情况下,所述文本识别模型包括,该文本识别模型的属性类别对应的专属语义特征提取器,以及各属性类别共享的解码器;
所述第二输入单元还具体用于:
将各区域分别输入各自的属性类别所对应的专属语义特征提取器进行特征处理,得到各目标特征表示;
利用所述解码器,对所述各目标特征表示进行解码,得到所述各区域的文本内容。
19.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项所述的方法。
20.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657029.7A CN113255566B (zh) | 2021-06-11 | 2021-06-11 | 表格图像识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657029.7A CN113255566B (zh) | 2021-06-11 | 2021-06-11 | 表格图像识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255566A CN113255566A (zh) | 2021-08-13 |
CN113255566B true CN113255566B (zh) | 2022-12-06 |
Family
ID=77187777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110657029.7A Active CN113255566B (zh) | 2021-06-11 | 2021-06-11 | 表格图像识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255566B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920512B (zh) * | 2021-12-08 | 2022-03-15 | 共道网络科技有限公司 | 一种图像识别的方法及装置 |
CN113989822B (zh) * | 2021-12-24 | 2022-03-08 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321760A (zh) * | 2018-03-29 | 2019-10-11 | 北京和缓医疗科技有限公司 | 一种医疗单据识别方法和装置 |
CN109522452B (zh) * | 2018-11-13 | 2023-09-05 | 南京烽火星空通信发展有限公司 | 一种海量半结构化数据的处理方法 |
CN110222695B (zh) * | 2019-06-19 | 2021-11-02 | 拉扎斯网络科技(上海)有限公司 | 一种证件图片处理方法及装置、介质、电子设备 |
US11042734B2 (en) * | 2019-08-13 | 2021-06-22 | Adobe Inc. | Electronic document segmentation using deep learning |
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
CN111062259B (zh) * | 2019-11-25 | 2023-08-25 | 泰康保险集团股份有限公司 | 表格识别方法和装置 |
CN111325110B (zh) * | 2020-01-22 | 2024-04-05 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置及存储介质 |
CN112100387B (zh) * | 2020-11-13 | 2021-02-19 | 支付宝(杭州)信息技术有限公司 | 用于文本分类的神经网络系统的训练方法及装置 |
CN112733623A (zh) * | 2020-12-26 | 2021-04-30 | 科大讯飞华南人工智能研究院(广州)有限公司 | 文本要素提取方法、相关设备及可读存储介质 |
-
2021
- 2021-06-11 CN CN202110657029.7A patent/CN113255566B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113255566A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569830B (zh) | 多语言文本识别方法、装置、计算机设备及存储介质 | |
CN108427950B (zh) | 一种文字行检测方法及装置 | |
US11804056B2 (en) | Document spatial layout feature extraction to simplify template classification | |
US20210064860A1 (en) | Intelligent extraction of information from a document | |
RU2693916C1 (ru) | Распознавание символов с использованием иерархической классификации | |
KR101114135B1 (ko) | 카메라 입력된 문서들을 위한 저해상 ocr | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CN113255566B (zh) | 表格图像识别方法及装置 | |
RU2707147C1 (ru) | Обучение нейронной сети посредством специализированных функций потерь | |
US20220019834A1 (en) | Automatically predicting text in images | |
CN113254654B (zh) | 模型训练、文本识别方法、装置、设备和介质 | |
WO2021042505A1 (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN115443490A (zh) | 影像审核方法及装置、设备、存储介质 | |
US20210124976A1 (en) | Apparatus and method for calculating similarity of images | |
EP3539051A1 (en) | System and method of character recognition using fully convolutional neural networks | |
CN113963147A (zh) | 一种基于语义分割的关键信息提取方法及系统 | |
He et al. | Aggregating local context for accurate scene text detection | |
US20130268476A1 (en) | Method and system for classification of moving objects and user authoring of new object classes | |
Manzoor et al. | A novel system for image text recognition and classification using deep learning | |
CN115147847A (zh) | 文本识别结果的确定方法、装置、存储介质及计算机设备 | |
RU2703270C1 (ru) | Оптическое распознавание символов посредством применения специализированных функций уверенности, реализуемое на базе нейронных сетей | |
Li et al. | Towards end-to-end container code recognition | |
CN116563869B (zh) | 页面图像文字处理方法、装置、终端设备和可读存储介质 | |
Dharsini et al. | Devanagri character image recognition and conversion into text using long short term memory | |
US11972626B2 (en) | Extracting multiple documents from single image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |