CN111695517B - 图像的表格提取方法、装置、电子设备及存储介质 - Google Patents
图像的表格提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111695517B CN111695517B CN202010538176.8A CN202010538176A CN111695517B CN 111695517 B CN111695517 B CN 111695517B CN 202010538176 A CN202010538176 A CN 202010538176A CN 111695517 B CN111695517 B CN 111695517B
- Authority
- CN
- China
- Prior art keywords
- image
- processed
- features
- generating
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 75
- 230000015654 memory Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 14
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 21
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 15
- 238000004590 computer program Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18162—Extraction of features or characteristics of the image related to a structural representation of the pattern
- G06V30/18181—Graphical representation, e.g. directed attributed graph
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种图像的表格提取方法、装置、电子设备、存储介质及表格提取模型的训练方法,涉及人工智能和云计算技术领域,包括:获取待处理图像,根据表格提取模型,生成待处理图像的表格,其中,表格提取模型为根据样本图像的字段位置特征、图像特征及文本特征得到的,将待处理图像的文本信息填入至表格,一方面,通过字段位置特征,可以确定各字段在位置上的关联关系,可以适用于至少部分虚线框表格的图像,实现了提高表格识别的灵活性和广泛性的技术效果;另一方面,由于充分考虑了字段位置特征、图像特征及文本特征,即通过对待处理图像从多个维度进行分析,得到多个维度的特征,从而可以提高表格识别的准确性和可靠性的技术效果。
Description
技术领域
本申请实施例涉及图像处理技术领域,尤其涉及人工智能技术领域,具体涉及一种图像的表格提取方法、装置、电子设备、存储介质及表格提取模型的训练方法。
背景技术
在现有技术中,对图像中的表格进行提取,主要采用的方法为:提取表格框,根据表格框提取框内区域,对框内区域图像进行光学字符识别(Optical CharacterRecognition,OCR),从而提取出表格。
然而发明人在实现本申请的过程中,发现至少存在如下问题:当为无线框的表格,或者线不完全的框的表格时,如果通过提取表格框的方式生成表格,则会存在准确性偏低的问题。
发明内容
提供了一种用于解决准确性偏低的图像的表格提取方法、装置、电子设备、存储介质及表格提取模型的训练方法。
根据第一方面,提供了一种图像的表格提取方法,所述方法包括:
获取待处理图像;
根据表格提取模型,生成所述待处理图像的表格,其中,所述表格提取模型为根据样本图像的字段位置特征、图像特征及文本特征得到的;
将所述待处理图像的文本信息填入至所述表格。
在本申请实施例中,一方面,通过字段位置特征,可以确定各字段在位置上的关联关系,因此可以适用于至少部分虚线框表格的图像,从而实现了提高表格识别的灵活性和广泛性的技术效果;另一方面,由于充分考虑了字段位置特征、图像特征及文本特征,即通过对待处理图像从多个维度进行分析,得到多个维度的特征,从而可以提高表格识别的准确性和可靠性的技术效果。
根据第二方面,本申请实施例提供了一种图像的表格提取装置,所述装置包括:
获取模块,用于获取待处理图像;
第一生成模块,用于根据表格提取模型,生成所述待处理图像的表格,其中,所述表格提取模型为根据样本图像的字段位置特征、图像特征及文本特征得到的;
填入模块,用于将所述待处理图像的文本信息填入至所述表格。
根据第三方面,本申请实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上任一实施例所述的方法。
根据第四面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上任一实施例所述的方法。
根据第五面,本申请实施例提供了一种表格提取模块的训练方法,所述方法包括:
对获取到的样本图像进行识别,得到图像识别信息,所述样本图像中包括表格;
根据所述图像识别信息,生成字段位置特征、图像特征及文本特征;
根据所述字段位置特征、所述图像特征、所述文本特征及预设的预测真值,生成表格提取模型。
根据本申请的第六方面,提供了一种计算机程序产品,所述程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
根据本申请的获取待处理图像,根据表格提取模型,生成待处理图像的表格,其中,表格提取模型为根据样本图像的字段位置特征、图像特征及文本特征得到的,将待处理图像的文本信息填入至表格的技术,解决了相关技术中表格提取的灵活性不强,准确性不高的问题,一方面,通过字段位置特征,可以确定各字段在位置上的关联关系,因此可以适用于至少部分虚线框表格的图像,从而实现了提高表格识别的灵活性和广泛性的技术效果;另一方面,由于充分考虑了字段位置特征、图像特征及文本特征,即通过对待处理图像从多个维度进行分析,得到多个维度的特征,从而可以提高表格识别的准确性和可靠性的技术效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例的图像的表格提取方法的应用场景示意图;
图2为本申请一个实施例的图像的表格提取方法的流程示意图;
图3为本申请另一实施例的图像的表格提取方法的流程示意图;
图4为本申请另一实施例的图像的表格提取方法的流程示意图;
图5为本申请实施例的样本图像的示意图;
图6为本申请实施例的两个概率矩阵的示意图;
图7为本申请一个实施例的图像的表格提取装置的示意图;
图8为本申请另一实施例的图像的表格提取装置的示意图;
图9为本申请实施例提供的电子设备的框图;
图10为本申请实施例的表格提取模型的训练方法的流程示意图。
具体实施方式
以下结合附图对本申请实施例的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请实施例的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例的图像的表格提取方法,可以应用于终端设备将图像格式的表格,转换为存储格式的表格的场景。其中,存储格式的表格用于表征可以编辑的形式的表格。
终端设备可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network,简称RAN)与一个或多个核心网设备进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。再例如,无线终端还可以是个人通信业务(Personal Communication Service,简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol,简称SIP)话机、无线本地环路(Wireless Local Loop,简称WLL)站、个人数字助理(Personal Digital Assistant,简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station),移动站(MobileStation)、移动台(Mobile)、远程站(Remote Station)、远程终端(Remote Terminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(User Agent)、用户设备(User Device or User Equipment),在此不作限定。可选的,上述终端设备还可以是智能手表、平板电脑等设备。
为使读者更加清楚地理解本申请实施例的图像的表格提取方法的应用场景,现以终端设备为台式电脑为例,对本申请实施例的图像的表格提取方法的应用场景进行详细地阐述。
请参阅图1,图1为本申请实施例的图像的表格提取方法的应用场景示意图。
如图1所示,图像可以为图1中所示的包括虚线框表格的图像100,也可以为图1中所示的包括实线框表格的图像200。
台式电脑300执行本申请实施例的图像的表格提取方法,对图像(包括虚线框表格的图像100和实线框表格的图像200)中的表格进行提取,得到存储格式的表格,用户可对存储格式的表格进行编辑等操作。
其中,图1中示范性地给出了两种类型的表格的图像,一种为包括虚线框表格的图像,另一种为包括实线框表格的图像,当然,本申请实施例的图像的表格提取方法还可以用于包括部分虚线框表格的图像,等等。
值得说明地是,上述示例只是用于示范性地说明,本申请实施例的图像的表格提取方法可以应用的场景,而不能理解为对本申请实施例的图像的表格提取方法的应用场景的限定。
在相关技术中,一般采用边缘检测和直线检测等图像形态学处理手段,提取表格框线,从而得到存储格式的表格。
然而,通过相关技术中提取表格框线得到存储格式的表格,由于只能针对为实线表格的图像,因此存在适用性小,灵活性不强的问题。
为了解决上述问题,本申请的发明人在经过创造性地劳动之后,想到了本申请实施例的发明构思:结合考虑图像的各字段的位置特征,基于各字段的位置特征生成表格提取模型,并由该表格提取模型对图像中的表格进行提取。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
根据本申请实施例的一个方面,本申请实施例提供了一种图像的表格提取方法。
请参阅图2,图2为本申请一个实施例的图像的表格提取方法的流程示意图。
如图2所示,该方法包括:
S101:获取待处理图像。
其中,本申请实施例的图像的表格提取方法执行主体可以为图像的表格提取装置,且图像的表格提取装置可以为服务器(包括本地服务器和云端服务器)、终端设备、处理器和芯片等。
例如,当本申请实施例的图像的表格提取方法,应用于如图1所示的应用场景时,则图像的表格提取装置可以为终端设备,且终端设备可以具体为如图1中所示的台式电脑。
又如,当本申请实施例的图像的表格提取方法,应用于如图1所示的应用场景时,则图像的表格提取装置可以为终端设备,且终端设备可以具体为如图1中所示的台式电脑中设置的处理器,或者如图1中所示的台式电脑中设置的芯片。
又如,当本申请实施例的图像的表格提取方法,应用于如图1所示的应用场景时,则图像的表格提取装置可以为与如图1中所示的台式电脑连接的服务器(图中未示出)。
值得说明地是,上述示例只是用于示范性地说明,本申请实施例的图像的表格提取方法的执行主体,而不能理解为对执行主体的限定。
其中,待处理图像用于表征包括图像格式的表格的图像,且为需要将图像格式的表格转换为存储格式的表格的图像。
在本申请实施例中,对获取待处理图像的方式不进行限定。
在一些实施例中,可以为图像的表格提取装置接收对象输入的待处理图像。
例如,对象可以为用户终端(如手机等),图像的表格提取装置可以与用户终端建立通信连接,用户通过用户终端将待处理图像传输至图像的表格提取装置。
在另一些实施例中,可以为图像的表格提取装置对待处理图像进行采集。
例如,图像的表格提取装置上可以设置图像采集装置,且可以通过该图像采集装置对待处理图像进行采集。其中,图像采集装置可以为摄像头等。
S102:根据表格提取模型,生成待处理图像的表格,其中,表格提取模型为根据样本图像的字段位置特征、图像特征及文本特征得到的。
其中,表格提取模型可以用于表征,对样本图像进行训练生成的,用于对图像中的表格进行提取的神经网络模型,且具体可以根据样本图像的三个特征训练生成,三个特征分别为字段位置特征、图像特征及文本特征。
其中,字段位置特征可以用于表征,基于样本图像的各字段的位置生成的特征;图像特征可以用于表征,基于样本图像的图像检测框生成的特征;文本特征可以用于表征,基于样本图像的文本信息生成的特征。
在本申请实施例中,引入了字段位置特征,且通过字段位置特征,可以确定各字段在位置上的关联关系,如A字段位于B字段的左边,其中,左边可以以表格对应的坐标系为基础,且在字段位置特征的基础上结合图像特征和文本特征,由于充分考虑了各字段的位置、图像特征及文本特征,可以提高表格识别的准确性,且可以适用于包括至少部分虚线框表格的图像,提高了识别的灵活性和广泛性的技术效果。
S103:将待处理图像的文本信息填入至表格。
其中,本申请实施例对将文本信息填入至表格的方式不做限定。
例如,可以通过OCR识别的方式对图像中的文本信息进行识别,并将识别得到的文本信息复制至表格。
基于上述分析可知,本申请实施例提供了一种图像的表格提取方法,该方法包括:获取待处理图像,根据表格提取模型,生成待处理图像的表格,其中,表格提取模型为根据样本图像的字段位置特征、图像特征及文本特征得到的,将待处理图像的文本信息填入至表格,一方面,通过字段位置特征,可以确定各字段在位置上的关联关系,因此可以适用于至少部分虚线框表格的图像,从而实现了提高表格识别的灵活性和广泛性的技术效果;另一方面,由于充分考虑了字段位置特征、图像特征及文本特征,即通过对待处理图像从多个维度进行分析,得到多个维度的特征,从而可以提高表格识别的准确性和可靠性的技术效果。
为使读者更加清楚地理解根据表格提取模型,生成待处理图像的表格的方法,现结合图3对本申请实施例的图像的表格提取方法进行详细地阐述。其中,图3为本申请另一实施例的图像的表格提取方法的流程示意图。
如图3所示,该方法包括:
S201:获取待处理图像。
其中,关于S201的描述可以参见S101,此处不再赘述。
S202:根据表格提取模型,生成待处理图像的邻接矩阵。
其中,待处理图像的邻接矩阵用于表征,由待处理图像的字段组成的行与列之间的概率矩阵。
也就是说,在该步骤中,可以确定出待处理图像的字段之间可能存在的位置关系,如可能位于同一行的字段,可能位于同一列的字段等。
S203:根据待处理图像的邻接矩阵和待处理图像的字段,确定表格。
其中,当得到待处理图像的邻接矩阵时,相当于得到了待处理图像的字段之间可能存在的位置关系,如上述描述的同一行,或者同一列,而当知道待处理图像的字段之间可能存在的位置关系时,则可以基于该位置关系和待处理图像的字段确定出待处理图像中的表格。
在本申请实施例中,通过确定待处理图像的邻接矩阵,可以避免对表格的实线的依赖,以实现在表格为至少部分虚线框表格的情况下,也可以基于邻接矩阵生成表格,从而实现对至少部分虚线框表格的提取,即提高表格提取的灵活性和广泛性的技术效果。
在一些实施例中,S203可以包括:
S2031:以待处理图像的字段中的任一字段为起点,从待处理图像的邻接矩阵中提取最大连通图。
也就是说,在该步骤中,起点可以为待处理图像的任一字段,且可以基于任一字段确定最大连通图。
S2032:根据最大连通图构建表格。
在本申请实施例中,通过基于最大连通图对表格进行构建,可以提高表格的完整性和全面性的技术效果。
S204:将待处理图像的文本信息填入至表格。
其中,关于S204的描述可以参见S103,此处不再赘述。
为使读者更加清楚地理解生成表格提取模型的方法,现结合图4对本申请实施例的图像的表格提取方法进行详细地阐述。其中,图4为本申请另一实施例的图像的表格提取方法的流程示意图。
如图4所示,该方法包括:
S301:对样本图像进行识别,得到图像识别信息。
其中,样本图像的数量可以基于需求、经验和试验进行设定。
也就是说,在本申请实施例中,对样本图像的数量不做限定,样本图像中包括表格。
例如,针对对表格提取模型的精度要求相对较高的需求,可以选择数量相对较多的样本图像,而针对对表格提取模型的精度要求相对较低的需求,可以选择数量相对较少的样本图像。
值得说明地是,在本申请实施例中,对识别样本图像的方式不做限定。例如,在一些实施例中,可以采用OCR识别方法对样本图像进行识别。
其中,图像识别信息可以用于表征,对样本图像识别得到的样本图像的属性信息,如样本图像的字段的相关的信息,又如样本图像的文本相关的信息,等等。
S302:根据图像识别信息,生成字段位置特征、图像特征及文本特征。
在一些实施例中,根据图像识别信息,生成字段位置特征可以包括:
S3021:根据图像识别信息确定样本图像的各字段的位置信息。
其中,样本图像的各字段可以看做样本图像中的节点,即样本图像可以理解为由各节点(即各字段)组成的样本图像。
基于上述示例可知,图像识别信息可以用于表征,样本图像的字段的相关的信息,因此,在该步骤中,可以基于图像识别信息对样本图像的各字段的位置信息进行确定。
例如,若样本图像为Fi∈Rw*h*3,即样本图像的宽为w,高为h,通道数为3的彩色图像,在采用OCR识别方法对样本图像进行识别之后,可以得到样本图像的k个字段的位置信息Fp∈Rk*4,且位置信息可以通过(x_top_left,y_top_left,x_right_bottom,y_right_bottom)的方式表示,即字段的左侧顶部的位置信息,字段的右侧顶部的位置信息,字段的左侧底部的位置信息,以及字段的右侧底部的位置信息。
S3022:根据预设的节点图对位置信息进行填充处理,生成字段位置特征。
其中,节点图为由多个节点组成的图,且节点图的大小可以基于需求、经验和试验进行设定。且一般而言,节点图的尺寸比样本图像的尺寸稍微大一些,以便保留样本图像的全部特征,如保留样本图像中的各节点(即样本图像中的各字段)。
基于上述示例可知,样本图像的各字段可以理解为各节点,相当于样本图像共包括k个节点组成的样本图。
例如,若节点图中的节点数量为v,则可以通过填充的方式,对Fp∈Rk*4进行填充,得到Fp∈Rv*4。且在一些实施例中,具体可以通过零填充(Zero-padding)的方式进行填充。
在本申请实施例中,通过图像识别信息确定各字段的位置信息,可以实现确定出的位置信息的准确性,且对各字段的位置信息进行填充处理,确保各字段被保留,使得图像识别信息的可靠性偏高,从而使得字段位置特征的准确性比较高,进而实现后续生成的表格提取模型的稳定性和准确性的技术效果。
在一些实施例中,根据图像识别信息,生成图像特征可以包括:
根据预设的卷积神经网络模型,从图像识别信息中提取图像特征。
基于上述示例,针对样本图像Fi∈Rw*h*3,通过卷积神经网络模型(CNN网络模型)进行图像特征提取,得到尺寸为M*N*C的特征图,根据特征图和样本图像的尺寸对应关系,将W*H尺寸的检测框映射到和特征图相同的尺寸M*N,根据检测框的中心点位置,从特征图上提取对应点的通道(channel)级1*C的V*C维的图像特征Fi∈Rv*c。
在本申请实施例中,通过卷积神经网络模型对图像特征进行提取,由于充分考虑了尺寸对应关系,并基于中心点位置对图像特征进行提取,因此,可以提高得到的图像特征的可靠性和准确性的技术效果。
在一些实施例中,根据图像识别信息,生成文本特征可以包括:
根据预设的长短期记忆神经网络模型和预设的双向循环神经网络模型,从图像识别信息中提取文本特征。
基于上述示例可知,各字段可以理解为样本图像中的各节点,因此,在本申请实施例中,也可以采用填充的方式对图像识别信息中的文本信息进行填充,并从填充后的文本信息中提取文本特征。
具体地,基于上述示例,对样本图像Fi∈Rw*h*3进行识别,可以得到文本信息Fw∈Rk*l,其中,l可以用于表征文本信息中文字对应的最大长度就,对Fw∈Rk*l进行填充处理,得到Fw∈Rv*l,并通过长短期记忆神经网络模型和预设的双向循环神经网络模型,得到V*H维的文本特征Fc∈Rv*h。
在本申请实施例中,通过长短期记忆神经网络模型和预设的双向循环神经网络模型,可以实现提高文本特征的效率和准确性的技术效果。且当文本特征为基于填充处理后得到的文本特征时,还可以提高文本特征的完整性和全面性的技术效果,进而实现后续生成准确性偏高的表格提取模型的技术效果。
S303:根据字段位置特征、图像特征、文本特征及预设的预测真值,生成表格提取模型。
在本申请实施例中,通过结合字段位置特征、图像特征及文本特征三个维度的特征,可以提高生成的表格提取模型的可靠性和高精度的技术效果,且通过引入字段位置特征,可以实现对至少部分虚线框表格的提取,从而实现了表格提取的灵活性和多样性的技术效果。
在一些实施例中,S303可以包括:
S3031:对字段位置特征、图像特征及文本特征进行融合处理,生成字段位置特征对应的各节点的信息。
基于上述示例可知,各字段可以为节点图中的各节点,因此,在该步骤中,相当于将字段位置特征、图像特征及文本特征三个维度的特征进行融合,得到各节点的信息,即各节点的信息包括三个维度的信息,可以采用V*(C+H+4)维的特征矩阵表示。
S3032:根据各节点的信息和预测真值,生成表格提取模型。
在本申请实施例中,通过将字段位置特征、图像特征及文本特征三个维度的特征进行融合,得到各节点的信息,并基于各节点的信息的生成表格提取模型,相当于表格提取模型包括了三个维度的信息,因此,可以提高表格提取模型的准确性和可靠性的技术效果。
在一些实施例中,S3032可以包括:
S30321:根据各节点的信息生成邻接矩阵。
其中,基于上述示例可知,邻接矩阵用于表征由各节点组成的行与列之间的概率矩阵。
在一些实施例中,S30321可以包括:
S303211:对各节点的信息进行相互关联处理。
其中,相互关联处理可以用于表征,通过特征向量的方式在各节点之间进行关联,得到V*S维的关联矩阵,且各节点中的任一节点均可以由S维的特征向量进行表示Fn∈Rv*s。
也就是说,各节点的信息可以理解为各节点的特征向量,在进行互相关联处理之前,各节点的特征向量为独立的(可以理解为全局特征向量),而在进行相互关联处理之后,可以得到各节点的局部特征向量。即,在进行相关关联处理之后,得到的各节点的信息包括全局特征向量和局部特征向量。
例如,对于任一节点Ni,通过邻近算法(k-NearestNeighbor,kNN),找到k(k可以为20)个距离最近的节点,k个点的距离生序排列,得到Ni1,Ni2,…,Nik;依次计算出k个边的特征向量,即Ni的局部特征向量:Ni1-Ni,Ni2-Ni,…,Nik-Ni;在每个边的特征中加入全局特征向量,得到对应的k个特征向量:(Ni,Ni1-Ni),(Ni,Ni2-Ni),…,(Ni,Nik-Ni);对于上面得到的每个特征向量,可以用一个共享的网络来更新(如全联接层hΘ进行更新),得到:hΘ(Ni,Ni1-Ni),hΘ(Ni,Ni2-Ni),…,hΘ(Ni,Nik-Ni);通过max pooling的方式,可以将以上的k个特征向量整合为一个特征向量,作为节点Ni新的特征向量。
S303212:对相互关联处理后的各节点的信息进行成对抽样处理,生成各节点的边特征矩阵。
值得说明地是,表格提取模型可以理解为确定各字段之间的关联关系,即各节点之间的关联关系,而各节点之间的关联关系可以由边来表示。因此,在该步骤中,通过成对抽样处理(Pairwise Sampling),可以生成各节点的边特征矩阵。
例如,对于节点V1→节点V2的边E12,可以通过节点V1的1*S维的特征向量,节点V2的1*S维的特征向量拼接而成,E12=V1||V2,即E12∈R1*2S,最终可得V*V*2S维的边特征矩阵。
S303213:根据预设的全连接网络模型生成与边特征矩阵对应的邻接矩阵。
基于上述示例,针对V*V*2S维的边特征矩阵,每种关系都经过三层全连接网络模型进行特征学习,实践中三层全连接网络模型的输出维数分别为128,64,1,最后一层使用sigmoid函数进行激活,从而输出V*V*1的矩阵,矩阵中的元素Pij可以用于表征节点i和节点j的之间有边相连的概率值,最终得到两个概率矩阵(即邻接矩阵)Prows∈Rv*v*1(行概率矩阵),Pcols∈Rv*v*1(列概率矩阵)。
例如,若样本图像如图5所示,则得到的两个概率矩阵可以参见图6。
在本申请实施例中,通过将各节点的信息进行互相关联处理,可以提高各节点之间的关联关系的可靠性,从而实现在生成边特征矩阵时,确保生成的边特征矩阵的全面性和准确性,进而实现生成可靠性高和准确性高的邻接矩阵的技术效果。
S30322:根据邻接矩阵和预测真值,生成表格提取模型。
其中,邻接矩阵为测试值,而预测真值为实际值,通过测试值(即邻接矩阵)和实际值(即预测真值)可以生成表格提取模型。
具体地,可以通过计算测试值(即邻接矩阵)和实际值(即预测真值)之间的叉熵损失,并根据叉熵损失对表格提取模型的参数进行不断地优化,当测试值(即邻接矩阵)和实际值(即预测真值)之间的叉熵损失,小于预设的阈值时,则参数的优化完成,可以生成精确度相对较高的表格提取模型。
在本申请实施例中,通过根据各节点的信息生成邻接矩阵,由于充分考虑了各维度的信息(即上述三个维度的特征对应的信息),因此,可以提高邻接矩阵的全面性和完整性的技术效果,尤其当基于迭代的方式对表格提取模型的参数不断进行优化时,可以提高表格提取模型的准确性和可靠性的技术效果。
S304:获取待处理图像。
其中,关于S304的描述可以参见S101,此处不再赘述。
S305:根据表格提取模型,生成待处理图像的表格。
其中,关于S305的描述可以参见S102,或者,可以参见S202和S203,此处不再赘述。
S306:将待处理图像的文本信息填入至表格。
其中,关于S306的描述可以参见S103的描述,此处不再赘述。
根据本申请实施例的另一个方面,本申请实施例还提供了一种图像的表格提取装置,用于执行上述任一实施例所述的方法,如执行图2至图4中任一实施例所示的方法。
请参阅图7,图7为本申请一个实施例的图像的表格提取装置的示意图。
如图7所示,该装置包括:
获取模块11,用于获取待处理图像;
第一生成模块12,用于根据表格提取模型,生成所述待处理图像的表格,其中,所述表格提取模型为根据样本图像的字段位置特征、图像特征及文本特征得到的;
填入模块13,用于将所述待处理图像的文本信息填入至所述表格。
在一些实施例中,所述第一生成模块12用于,根据所述表格提取模型,生成所述待处理图像的邻接矩阵,所述待处理图像的邻接矩阵用于表征,由所述待处理图像的字段组成的行与列之间的概率矩阵,根据所述待处理图像的邻接矩阵和所述待处理图像的字段,确定所述表格。
在一些实施例中,所述第一生成模块12用于,以所述待处理图像的字段中的任一字段为起点,从所述待处理图像的邻接矩阵中提取最大连通图,根据所述最大连通图构建所述表格。
结合图8可知,在一些实施例中,该装置还包括:
识别模块14,用于对所述样本图像进行识别,得到图像识别信息;
第二生成模块15,用于根据所述图像识别信息,生成所述字段位置特征、所述图像特征及所述文本特征;
第三生成模块16,用于根据所述字段位置特征、所述图像特征、所述文本特征及预设的预测真值,生成所述表格提取模型。
在一些实施例中,所述第三生成模块16用于,对所述字段位置特征、所述图像特征及所述文本特征进行融合处理,生成所述字段位置特征对应的各节点的信息,其中,所述各节点用于表征所述样本图像中的各字段,根据所述各节点的信息和所述预测真值,生成所述表格提取模型。
在一些实施例中,所述第三生成模块16用于,根据所述各节点的信息生成邻接矩阵,所述邻接矩阵用于表征由所述各节点组成的行与列之间的概率矩阵,根据所述邻接矩阵和所述预测真值,生成所述表格提取模型。
在一些实施例中,所述第三生成模块16用于,对所述各节点的信息进行相互关联处理,对相互关联处理后的各节点的信息进行成对抽样处理,生成所述各节点的边特征矩阵,根据预设的全连接网络模型生成与所述边特征矩阵对应的所述邻接矩阵。
在一些实施例中,第二生成模块15用于,根据所述图像识别信息确定所述样本图像的各字段的位置信息,根据预设的节点图对所述位置信息进行填充处理,生成所述字段位置特征。
在一些实施例中,第二生成模块15用于,根据预设的卷积神经网络模型,从所述图像识别信息中提取所述图像特征。
在一些实施例中,第二生成模块15用于,根据预设的长短期记忆神经网络模型和预设的双向循环神经网络模型,从所述图像识别信息中提取所述文本特征。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
根据本申请的实施例,本申请还提供了一种计算机程序产品,程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
请参阅图9,图9为本申请实施例提供的电子设备的框图。
其中,电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请实施例的实现。
如图9所示,该电子设备包括:一个或多个处理器101、存储器102,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器101为例。
存储器102即为本申请实施例所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请实施例所提供的图像的表格提取方法。本申请实施例的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请实施例所提供的图像的表格提取方法。
存储器102作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的程序指令/模块。处理器101通过运行存储在存储器102中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的图像的表格提取方法。
存储器102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器102可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器102可选包括相对于处理器101远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、区块链服务网络(Block-chain-based Service Network,BSN)、移动通信网及其组合。
电子设备还可以包括:输入装置103和输出装置104。处理器101、存储器102、输入装置103和输出装置104可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置103可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置104可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、区块链服务网络(Block-chain-based Service Network,BSN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的另一个方面,本申请实施例还提供了一种表格提取模型的训练方法。
请参阅图10,图10为本申请实施例的表格提取模型的训练方法的流程示意图。
如图10所示,该方法包括:
S1:对获取到的样本图像进行识别,得到图像识别信息,样本图像中包括表格。
S2:根据图像识别信息,生成字段位置特征、图像特征及文本特征。
S3:根据字段位置特征、图像特征、文本特征及预设的预测真值,生成表格提取模型。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (19)
1.一种图像的表格提取方法,其特征在于,所述方法包括:
获取待处理图像;
根据表格提取模型,生成所述待处理图像的表格,其中,所述表格提取模型为根据样本图像的字段位置特征、图像特征及文本特征得到的;
将所述待处理图像的文本信息填入至所述表格;
所述根据表格提取模型,生成所述待处理图像的表格包括:
根据所述表格提取模型,生成所述待处理图像的邻接矩阵,所述待处理图像的邻接矩阵用于表征,由所述待处理图像的字段组成的行与列之间的概率矩阵;
根据所述待处理图像的邻接矩阵和所述待处理图像的字段,确定所述表格;
所述根据所述待处理图像的邻接矩阵和所述待处理图像的字段,确定所述表格包括:
以所述待处理图像的字段中的任一字段为起点,从所述待处理图像的邻接矩阵中提取最大连通图;
根据所述最大连通图构建所述表格。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述样本图像进行识别,得到图像识别信息;
根据所述图像识别信息,生成所述字段位置特征、所述图像特征及所述文本特征;
根据所述字段位置特征、所述图像特征、所述文本特征及预设的预测真值,生成所述表格提取模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述字段位置特征、所述图像特征、所述文本特征及预设的预测真值,生成所述表格提取模型包括:
对所述字段位置特征、所述图像特征及所述文本特征进行融合处理,生成所述字段位置特征对应的各节点的信息,其中,所述各节点用于表征所述样本图像中的各字段;
根据所述各节点的信息和所述预测真值,生成所述表格提取模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述各节点的信息和所述预测真值,生成所述表格提取模型包括:
根据所述各节点的信息生成邻接矩阵,所述邻接矩阵用于表征由所述各节点组成的行与列之间的概率矩阵;
根据所述邻接矩阵和所述预测真值,生成所述表格提取模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述各节点的信息生成邻接矩阵包括:
对所述各节点的信息进行相互关联处理;
对相互关联处理后的各节点的信息进行成对抽样处理,生成所述各节点的边特征矩阵;
根据预设的全连接网络模型生成与所述边特征矩阵对应的所述邻接矩阵。
6.根据权利要求2所述的方法,其特征在于,根据所述图像识别信息,生成所述字段位置特征包括:
根据所述图像识别信息确定所述样本图像的各字段的位置信息;
根据预设的节点图对所述位置信息进行填充处理,生成所述字段位置特征。
7.根据权利要求2所述的方法,其特征在于,根据所述图像识别信息,生成所述图像特征包括:
根据预设的卷积神经网络模型,从所述图像识别信息中提取所述图像特征。
8.根据权利要求2所述的方法,其特征在于,根据所述图像识别信息,生成所述文本特征包括:
根据预设的长短期记忆神经网络模型和预设的双向循环神经网络模型,从所述图像识别信息中提取所述文本特征。
9.一种图像的表格提取装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图像;
第一生成模块,用于根据表格提取模型,生成所述待处理图像的表格,其中,所述表格提取模型为根据样本图像的字段位置特征、图像特征及文本特征得到的;
填入模块,用于将所述待处理图像的文本信息填入至所述表格;
所述第一生成模块用于,根据所述表格提取模型,生成所述待处理图像的邻接矩阵,所述待处理图像的邻接矩阵用于表征,由所述待处理图像的字段组成的行与列之间的概率矩阵,根据所述待处理图像的邻接矩阵和所述待处理图像的字段,确定所述表格;
所述第一生成模块用于,以所述待处理图像的字段中的任一字段为起点,从所述待处理图像的邻接矩阵中提取最大连通图,根据所述最大连通图构建所述表格。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
识别模块,用于对所述样本图像进行识别,得到图像识别信息;
第二生成模块,用于根据所述图像识别信息,生成所述字段位置特征、所述图像特征及所述文本特征;
第三生成模块,用于根据所述字段位置特征、所述图像特征、所述文本特征及预设的预测真值,生成所述表格提取模型。
11.根据权利要求10所述的装置,其特征在于,所述第三生成模块用于,对所述字段位置特征、所述图像特征及所述文本特征进行融合处理,生成所述字段位置特征对应的各节点的信息,其中,所述各节点用于表征所述样本图像中的各字段,根据所述各节点的信息和所述预测真值,生成所述表格提取模型。
12.根据权利要求11所述的装置,其特征在于,所述第三生成模块用于,根据所述各节点的信息生成邻接矩阵,所述邻接矩阵用于表征由所述各节点组成的行与列之间的概率矩阵,根据所述邻接矩阵和所述预测真值,生成所述表格提取模型。
13.根据权利要求12所述的装置,其特征在于,所述第三生成模块用于,对所述各节点的信息进行相互关联处理,对相互关联处理后的各节点的信息进行成对抽样处理,生成所述各节点的边特征矩阵,根据预设的全连接网络模型生成与所述边特征矩阵对应的所述邻接矩阵。
14.根据权利要求10所述的装置,其特征在于,第二生成模块用于,根据所述图像识别信息确定所述样本图像的各字段的位置信息,根据预设的节点图对所述位置信息进行填充处理,生成所述字段位置特征。
15.根据权利要求10所述的装置,其特征在于,所述第二生成模块用于,根据预设的卷积神经网络模型,从所述图像识别信息中提取所述图像特征。
16.根据权利要求10所述的装置,其特征在于,所述第二生成模块用于,根据预设的长短期记忆神经网络模型和预设的双向循环神经网络模型,从所述图像识别信息中提取所述文本特征。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
19.一种表格提取模块的训练方法,其特征在于,所述方法包括:
对获取到的样本图像进行识别,得到图像识别信息,所述样本图像中包括表格;
根据所述图像识别信息,生成字段位置特征、图像特征及文本特征;
根据所述字段位置特征、所述图像特征、所述文本特征及预设的预测真值,生成表格提取模型,以根据所述表格提取模型,生成待处理图像的表格;
所述以根据表格提取模型,生成所述待处理图像的表格包括:
以根据所述表格提取模型,生成所述待处理图像的邻接矩阵,所述待处理图像的邻接矩阵用于表征,由所述待处理图像的字段组成的行与列之间的概率矩阵;以所述待处理图像的字段中的任一字段为起点,从所述待处理图像的邻接矩阵中提取最大连通图;根据所述最大连通图构建所述表格。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010538176.8A CN111695517B (zh) | 2020-06-12 | 2020-06-12 | 图像的表格提取方法、装置、电子设备及存储介质 |
US17/139,403 US20210390294A1 (en) | 2020-06-12 | 2020-12-31 | Image Table Extraction Method And Apparatus, Electronic Device, And Storgage Medium |
KR1020210038686A KR102604306B1 (ko) | 2020-06-12 | 2021-03-25 | 이미지의 테이블 추출 방법, 장치, 전자 기기 및 저장 매체 |
JP2021054347A JP7278321B2 (ja) | 2020-06-12 | 2021-03-26 | 画像におけるテーブル抽出方法、画像におけるテーブル抽出装置、電子機器、コンピュータ読み取り可能な記憶媒体、テーブル抽出モジュールの訓練方法及びコンピュータプログラム |
EP21174603.7A EP3855353A3 (en) | 2020-06-12 | 2021-05-19 | Image table extraction method and apparatus, electronic device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010538176.8A CN111695517B (zh) | 2020-06-12 | 2020-06-12 | 图像的表格提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695517A CN111695517A (zh) | 2020-09-22 |
CN111695517B true CN111695517B (zh) | 2023-08-18 |
Family
ID=72480790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010538176.8A Active CN111695517B (zh) | 2020-06-12 | 2020-06-12 | 图像的表格提取方法、装置、电子设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210390294A1 (zh) |
EP (1) | EP3855353A3 (zh) |
JP (1) | JP7278321B2 (zh) |
KR (1) | KR102604306B1 (zh) |
CN (1) | CN111695517B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842489A (zh) * | 2022-05-13 | 2022-08-02 | 北京百度网讯科技有限公司 | 表格解析方法及装置 |
CN115497113B (zh) * | 2022-09-30 | 2023-11-14 | 北京百度网讯科技有限公司 | 信息生成方法、装置、电子设备以及存储介质 |
CN115512006B (zh) * | 2022-11-23 | 2023-04-07 | 有米科技股份有限公司 | 基于多图像元素的图像智能合成方法及装置 |
US11837004B1 (en) * | 2023-02-24 | 2023-12-05 | Oracle Financial Services Software Limited | Searchable table extraction |
CN116486427B (zh) * | 2023-06-19 | 2023-08-25 | 深圳爱莫科技有限公司 | 一种文本识别的方法、装置、设备及存储介质 |
CN117173719B (zh) * | 2023-11-01 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452443A (zh) * | 2007-12-06 | 2009-06-10 | 富士通株式会社 | 逻辑结构模型创建辅助设备和方法,用于其的记录介质 |
JP2017219882A (ja) * | 2016-06-02 | 2017-12-14 | 日本電信電話株式会社 | 論理関係認識装置、論理関係認識方法および論理関係認識プログラム |
CN107862303A (zh) * | 2017-11-30 | 2018-03-30 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN109726643A (zh) * | 2018-12-13 | 2019-05-07 | 北京金山数字娱乐科技有限公司 | 图像中表格信息的识别方法、装置、电子设备及存储介质 |
RU2695489C1 (ru) * | 2018-03-23 | 2019-07-23 | Общество с ограниченной ответственностью "Аби Продакшн" | Идентификация полей на изображении с использованием искусственного интеллекта |
CN110135218A (zh) * | 2018-02-02 | 2019-08-16 | 兴业数字金融服务(上海)股份有限公司 | 用于识别图像的方法、装置、设备和计算机存储介质 |
CN110287854A (zh) * | 2019-06-20 | 2019-09-27 | 北京百度网讯科技有限公司 | 表格的提取方法、装置、计算机设备和存储介质 |
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
CN110619252A (zh) * | 2018-06-19 | 2019-12-27 | 百度在线网络技术(北京)有限公司 | 识别图片中表单数据的方法、装置、设备及存储介质 |
CN110751038A (zh) * | 2019-09-17 | 2020-02-04 | 北京理工大学 | 一种基于图注意力机制的pdf表格结构识别方法 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
JP2020046860A (ja) * | 2018-09-18 | 2020-03-26 | 株式会社三菱Ufj銀行 | 帳票読取装置 |
CN111191715A (zh) * | 2019-12-27 | 2020-05-22 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517112B (zh) * | 2013-09-29 | 2017-11-28 | 北大方正集团有限公司 | 一种表格识别方法与系统 |
JP2017107455A (ja) * | 2015-12-10 | 2017-06-15 | キヤノン株式会社 | 情報処理装置、制御方法、及びプログラム |
CN108416279B (zh) * | 2018-02-26 | 2022-04-19 | 北京阿博茨科技有限公司 | 文档图像中的表格解析方法及装置 |
WO2020044537A1 (ja) * | 2018-08-31 | 2020-03-05 | 株式会社Pfu | 画像照合装置、画像照合方法、及びプログラム |
JP7118923B2 (ja) * | 2019-05-09 | 2022-08-16 | 株式会社 みずほ銀行 | 帳票対応システム、帳票対応方法及び帳票対応プログラム |
-
2020
- 2020-06-12 CN CN202010538176.8A patent/CN111695517B/zh active Active
- 2020-12-31 US US17/139,403 patent/US20210390294A1/en not_active Abandoned
-
2021
- 2021-03-25 KR KR1020210038686A patent/KR102604306B1/ko active IP Right Grant
- 2021-03-26 JP JP2021054347A patent/JP7278321B2/ja active Active
- 2021-05-19 EP EP21174603.7A patent/EP3855353A3/en active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452443A (zh) * | 2007-12-06 | 2009-06-10 | 富士通株式会社 | 逻辑结构模型创建辅助设备和方法,用于其的记录介质 |
JP2017219882A (ja) * | 2016-06-02 | 2017-12-14 | 日本電信電話株式会社 | 論理関係認識装置、論理関係認識方法および論理関係認識プログラム |
CN107862303A (zh) * | 2017-11-30 | 2018-03-30 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN110135218A (zh) * | 2018-02-02 | 2019-08-16 | 兴业数字金融服务(上海)股份有限公司 | 用于识别图像的方法、装置、设备和计算机存储介质 |
RU2695489C1 (ru) * | 2018-03-23 | 2019-07-23 | Общество с ограниченной ответственностью "Аби Продакшн" | Идентификация полей на изображении с использованием искусственного интеллекта |
CN110619252A (zh) * | 2018-06-19 | 2019-12-27 | 百度在线网络技术(北京)有限公司 | 识别图片中表单数据的方法、装置、设备及存储介质 |
JP2020046860A (ja) * | 2018-09-18 | 2020-03-26 | 株式会社三菱Ufj銀行 | 帳票読取装置 |
CN109726643A (zh) * | 2018-12-13 | 2019-05-07 | 北京金山数字娱乐科技有限公司 | 图像中表格信息的识别方法、装置、电子设备及存储介质 |
CN110287854A (zh) * | 2019-06-20 | 2019-09-27 | 北京百度网讯科技有限公司 | 表格的提取方法、装置、计算机设备和存储介质 |
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
CN110751038A (zh) * | 2019-09-17 | 2020-02-04 | 北京理工大学 | 一种基于图注意力机制的pdf表格结构识别方法 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
CN111191715A (zh) * | 2019-12-27 | 2020-05-22 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3855353A2 (en) | 2021-07-28 |
JP2021103581A (ja) | 2021-07-15 |
JP7278321B2 (ja) | 2023-05-19 |
US20210390294A1 (en) | 2021-12-16 |
KR102604306B1 (ko) | 2023-11-17 |
CN111695517A (zh) | 2020-09-22 |
EP3855353A3 (en) | 2021-12-08 |
KR20210040878A (ko) | 2021-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695517B (zh) | 图像的表格提取方法、装置、电子设备及存储介质 | |
US11899710B2 (en) | Image recognition method, electronic device and storage medium | |
CN111291885B (zh) | 近红外图像的生成方法、生成网络的训练方法和装置 | |
CN111860167B (zh) | 人脸融合模型获取及人脸融合方法、装置及存储介质 | |
CN114550177B (zh) | 图像处理的方法、文本识别方法及装置 | |
US11775845B2 (en) | Character recognition method and apparatus, electronic device and computer readable storage medium | |
CN111783870A (zh) | 人体属性的识别方法、装置、设备及存储介质 | |
CN111291729B (zh) | 一种人体姿态估计方法、装置、设备及存储介质 | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN112149741B (zh) | 图像识别模型的训练方法、装置、电子设备及存储介质 | |
US10217224B2 (en) | Method and system for sharing-oriented personalized route planning via a customizable multimedia approach | |
US11557120B2 (en) | Video event recognition method, electronic device and storage medium | |
CN111680600B (zh) | 人脸识别模型处理方法、装置、设备和存储介质 | |
CN114565916B (zh) | 目标检测模型训练方法、目标检测方法以及电子设备 | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN111950272B (zh) | 文本相似度的生成方法、装置及电子设备 | |
CN111967591B (zh) | 神经网络自动剪枝方法、装置及电子设备 | |
CN110532415A (zh) | 图像搜索处理方法、装置、设备及存储介质 | |
CN111209909B (zh) | 资质识别模板构建方法、装置、设备和存储介质 | |
CN111862305A (zh) | 处理图像的方法、装置和计算机存储介质 | |
CN112183484B (zh) | 一种图像处理方法、装置、设备以及存储介质 | |
CN113378773B (zh) | 手势识别方法、装置、设备、存储介质以及程序产品 | |
CN113128601B (zh) | 分类模型的训练方法和对图像进行分类的方法 | |
CN113033258B (zh) | 一种图像特征提取方法、装置、设备和存储介质 | |
CN113065011B (zh) | 图片的确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |