CN116071773B - 检测电网建设类档案中表格的方法、装置、介质和设备 - Google Patents
检测电网建设类档案中表格的方法、装置、介质和设备 Download PDFInfo
- Publication number
- CN116071773B CN116071773B CN202310245167.3A CN202310245167A CN116071773B CN 116071773 B CN116071773 B CN 116071773B CN 202310245167 A CN202310245167 A CN 202310245167A CN 116071773 B CN116071773 B CN 116071773B
- Authority
- CN
- China
- Prior art keywords
- detection
- document image
- fusion
- network
- heads
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000010276 construction Methods 0.000 title claims abstract description 57
- 238000001514 detection method Methods 0.000 claims abstract description 558
- 230000004927 fusion Effects 0.000 claims abstract description 107
- 238000000605 extraction Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 20
- 238000007499 fusion processing Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000000295 complement effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 1
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种检测电网建设类档案中表格的方法、装置、介质和设备。所述方法包括:利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取,并基于所述检测头各自提取到的图像特征对文档图像进行表格检测,得到各检测头的检测结果;其中,所述文档图像通过对电网建设类档案进行扫描得到;基于各检测头的检测结果,对所述至少两个检测头提取到的图像特征进行特征融合,得到文档图像的检测融合特征;将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络确定文档图像中的表格区域。本申请技术方案可以降低表格检测的成本,提高表格检测的效率和准确率。
Description
技术领域
本申请涉及计算机应用技术领域,尤其涉及一种检测电网建设类档案中表格的方法、装置、介质和设备,可用于在文档图像中检测表格。
背景技术
在电网企业对电网建设类项目进行项目审核的过程中,往往会产生大量的纸质文档,这些纸质文档即为电网建设类档案,实施人员需要用扫描仪将纸质文档扫描成图像格式得到文档图像,将文档图像上传到云服务器中进行备案。然后再由审核人员对电网建设类档案中各项目卷文档中的关键信息进行审核。在审核人员进行审核的过程中,很重要的一个审查项就是验评划分表的一致性。
验评划分表的一致性,需要在项目划分表文档中定位划分表的位置。目前,大多采用人工方式在项目划分表文档中定位划分表,不仅人工成本高,还存在工作效率低的问题。将表格检测技术应用电网建设类项目的审核过程,对电网建设类档案中的划分表进行自动检测,可以有效降低人工成本,提工作效率。
现有的表格检测技术主要包括传统表格检测方法和基于深度学习的表格检测方法。传统表格检测方法依赖大量的先验条件或者规则信息,鲁棒性较低,一般仅用于检测特定格式的表格。电网建设类档案对应的文档图像中大多包含格式各异及大小不同的表格,此外,受到扫描设备参数等因素的影响,通过对电网建设类档案进行扫描得到的文档图像中通常分布有复杂的噪声。将传统表格检测方法并不能准确检测电网建设类档案中的表格。
相较于传统表格检测方法,基于深度学习的表格检测方法具有更高的鲁棒性,其检测性能与特征提取能力直接相关。而电网建设类档案对应的文档图像中表格的形态以及大小等内类变化差异较大,表格与图形以及图表等版面元素内间差异较小,这使得现有的基于深度学习的表格检测方法很难提取到准确的特征,导致基于深度学习的表格检测模型,对电网建设类档案中表格区域定位还不够精确,容易出现误检和漏检的现象。
发明内容
本申请提供了一种检测电网建设类档案中表格的方法、装置、介质和设备,可以达到有效降低表格检测成本,提高表格检测效率和准确性的目的。
根据本申请的第一方面,提供了检测电网建设类档案中表格的方法,所述方法包括:
利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取,并基于所述检测头各自提取到的图像特征对文档图像进行表格检测,得到各检测头的检测结果;其中,所述文档图像通过对电网建设类档案进行扫描得到;
基于各检测头的检测结果,对所述至少两个检测头提取到的图像特征进行特征融合,得到文档图像的检测融合特征;
将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络确定文档图像中的表格区域。
根据本申请的第二方面,提供了检测电网建设类档案中表格的装置,所述装置包括:
特征提取模块,用于利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取,并基于所述检测头各自提取到的图像特征对文档图像进行表格检测,得到各检测头的检测结果;其中,所述文档图像通过对电网建设类档案进行扫描得到;
特征融合模块,用于基于各检测头的检测结果,对所述至少两个检测头提取到的图像特征进行特征融合,得到文档图像的检测融合特征;
表格检测模块,用于将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络确定文档图像中的表格区域。
根据本发明的第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的检测电网建设类档案中表格的方法。
根据本发明的第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的检测电网建设类档案中表格的方法。
本申请实施例技术方案采用二阶段识别定位模式,将初步检测网络与精细检测网络相结合,由粗到细对文档图像进行目标的分类和定位,首先,采用设置有至少两个检测头的初步检测网络进行粗粒度检测,然后,利用精细检测网络进行细粒度检测。初步检测网络中的至少两个检测头,能够从多个角度提取文档图像更加互补的图像特征,将各检测头提取到的图像特征进行融合,再将得到的检测融合特征输入精细检测网络,通过精细检测网络基于检测融合特征在文档图像中确定表格区域,有效降低了表格检测的成本,提高了表格检测的效率和准确率。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据实施例一提供的检测电网建设类档案中表格的方法的流程图;
图2是根据实施例二提供的检测电网建设类档案中表格的方法的流程图;
图3A是根据实施例三提供的检测电网建设类档案中表格的方法的流程图;
图3B示出了一种用于实现本申请实施例所提供的检测电网建设类档案中表格的方法的具体网络模型;
图3C示出了初步检测网络中检测头的网络结构;
图3D示出了表格检测模型中介于初步检测网络和精细检测网络之间的特征融合单元如何融合各检测头从关键区域中提取到的图像特征;
图3E示出了类别检测分支和位置检测分支的网络结构;
图4是本申请实施例四提供的检测电网建设类档案中表格的装置的结构示意图;
图5是本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”以及“候选”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1是根据实施例一提供的检测电网建设类档案中表格的方法的流程图,本实施例可适用于在对电网建设类项目进行项目审核的过程中从文档图像中检测表格的情况,该方法可以由检测电网建设类档案中表格的装置来执行,该表格检测装置可以采用硬件和/或软件的形式实现,并可集成于运行此系统的电子设备中。
如图1所示,该方法包括:
S110、利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取,并基于所述检测头各自提取到的图像特征对文档图像进行表格检测,得到各检测头的检测结果;
其中,文档图像是指是需要进行表格检测的文档。文档图像的数据格式为图像格式。可选的,通过扫描纸质文档得到文档图像。其中,所述文档图像通过对电网建设类档案进行扫描得到,相应的,对文档图像进行表格检测,可以是在电网建设类档案中定位检测划分表。
文档图像中候选的表格区域是指可能存在表格的文档区域。文档图像中候选的表格区域可能包括表格,也可能不包括表格,文档图像中候选的表格区域是否包括表格在这里不作限定,具体根据实际情况确定。
初步检测网络中检测头用于对文档图像初步进行表格检测,检测文档图像中是否存在表格,并在表格存在的情况下确定表格所在的位置。初步检测网络中包括至少两个检测头,各检测头相互独立,不同检测头之间互不干扰。可选的,初步检测网络中的各检测头以并联的方式连接。初步检测网络中的检测头数量,在这里不作限定,具体根据实际业务需求确定。其中,初步检测网络通过预先训练得到。
在一个可选的实施例中,所述初步检测网络中的至少两个检测头基于不同的丢弃概率训练得到。其中,丢弃概率(dropout)用于初步检测网络的训练阶段,具体的,在训练阶段的前向传播过程中,基于丢弃概率随机丢弃检测头中的神经节点,值得注意的是,本申请实施例中所提及的丢弃检测头中的神经节点是指使得神经节点的激活值以丢弃概率停止工作。这样可以增强初步检测网络的泛化能力,使得初步检测网络中的各检测头可以独立收敛,差异化初步检测网络中各检测头的特征学习能力。
初步检测网络中的每一个检测头均存在与之对应的丢弃概率,不同检测头对应的丢弃概率存在差异。丢弃概率根据实际情况预先确定,在这里不作限定。
利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取,可以使得不同检测头能够从候选的表格区域中提取到更加互补的图像特征,得到的更具独立性的检测结果。
S120、基于各检测头的检测结果,对所述至少两个检测头提取到的图像特征进行特征融合,得到文档图像的检测融合特征;
检测结果包括类别信息和位置信息。可选的,类别信息包括元素类别和类别得分。位置信息用于在文档图像中定位版面元素;元素类别用于确定版面元素的元素种类;类别得分是指元素类型的置信度。
为了便于理解,以检测头1为例进行说明,示例性的,检测头1的检测结果为box1,class1和90%,其中,box1根据位置信息确定,可以是根据位置信息确定的检测框,用于定位文档图像中的版面元素。将处于box1中的版面元素成为版面元素1。class1用于确定版面元素1的元素种类;示例性的,class1可以是表格。90%表示类别得分,表示box1中的版面元素1有90%概率是表格。
可选的,基于各检测头的检测结果,对检测头提取到的图像特征进行融合的过程中,对检测头所提取到的更大可能属于表格的图像特征赋予更多的关注,得到文档图像的检测融合特征。
S130、将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络确定文档图像中的表格区域。
其中,检测融合特征通过对初步检测网络中各检测头提取到的图像特征进行融合处理得到。初步检测网络用于对文档图像进行粗粒度的表格检测;区别于初步检测网络,精细检测网络用于对文档图像进行细粒度的表格检测。初步检测网络和精细检测网络的网络结构存在差异。初步检测网络与精细检测网络的输入数据也不相同。精细检测网络在初步检测网络所提取到图像特征的基础上对文档图像进行表格检测。其中,精细检测网络通过预先训练得到。
将文档图像的检测融合特征输入精细检测网络,得到精细检测网络的检测结果。可选的,检测结果包括类别信息和位置信息。根据检测结果中的类别信息和位置信息,可以确定文档图像中的表格区域。
电网建设类档案中表格的形态,大小等内类变化差异较大,表格与图形,图表等内间差异小,检测电网检测类档案中表格难度较大。本申请实施例技术方案采用二阶段识别定位模式,将初步检测网络与精细检测网络相结合,由粗到细对文档图像进行目标的分类和定位,首先,采用设置有至少两个检测头的初步检测网络进行粗粒度检测,然后,利用精细检测网络进行细粒度检测。初步检测网络中的至少两个检测头,能够从多个角度提取文档图像更加互补的图像特征,将各检测头提取到的图像特征进行融合,再将得到的检测融合特征输入精细检测网络,通过精细检测网络基于检测融合特征在文档图像中确定表格区域,有效降低了表格检测成本,提高了表格检测的效率和准确率。
在一个可选的实施例中,在利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取之前,所述方法还包括:对文档图像进行特征提取,从所述文档图像中提取至少两种尺度的图像特征;对所述至少两种尺度的图像特征进行融合处理,得到文档图像的尺度融合特征;基于所述文档图像的尺度融合特征,在所述文档图像中确定候选的表格区域,并将候选的表格区域关联到文档图像。
可以理解的是,在实际业务场景中文档图像的图像大小存在差异,为了提高表格检测算法的鲁棒性,保证表格检测算法的表格识别性能不随文档图像的图像大小发生变化,本申请实施例对文档图像进行特征提取,从文档图像中提取至少两种尺度的图像特征,然后对至少两种尺度的图像特征进行融合处理,得到文档图像的尺度融合特征。
再基于文档图像的尺度融合特征,在文档图像中确定候选的表格区域,并将侯选的表格区域关联到文档图像。文档图像的尺度融合特征很好地融合了文档图像的局部和全局特征,将文档图像的尺度融合特征用于确定文档图像中候选的表格区域,有利于提高表格检测的准确性。
可选的,利用特征金字塔网络(Feature Pyramid Networks, FPN)从文档图像中提取至少两种尺度的图像特征。可选的,在对文档图像进行特征提取,从文档图像中提取至少两种尺度的图像特征之前,先利用基于可变形卷积的残差网络,对文档图像进行特征提取。然后在残差网络所提取到图像特征的基础上,进一步提取至少两种尺度的图像特征。其中,可变形卷积实际是在标准卷积操作中的采样位置增加了一个偏移量,可以使得卷积核能够在训练过程中扩展到很大的范围。
可选的,利用区域候选网络(Region Proposal Network,RPN)对文档图像的尺度融合特征进行处理,通过区域候选网络在文档图像中确定候选的表格区域,这样做可以从文档图像中筛选掉很多非表格区域,及质量欠佳的潜在表格区域,减少计算量,提高资源利用率。
实施例二
图2是根据实施例二提供的检测电网建设类档案中表格的方法的流程图。本实施例在上述实施例的基础上进行进一步地优化,具体的,对操作“基于各检测头的检测结果,对所述至少两个检测头提取到的图像特征进行特征融合,得到文档图像的检测融合特征”进行细化。
如图2所示,该方法包括:
S210、利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取,并基于所述检测头各自提取到的图像特征对文档图像进行表格检测,得到各检测头的检测结果;
其中,所述文档图像通过对电网建设类档案进行扫描得到;
S220、基于所述检测结果中的位置信息,确定各检测头在所述文档图像中识别到的关键区域;
可选的,检测结果包括位置信息和类别信息。类别信息包括元素类别和类别得分。位置信息用于在文档图像中定位版面元素;元素类别用于确定版面元素的元素种类;类别得分是指元素类型的置信度。示例性的,元素类别可以是表格、图表以及公式等。位置信息是指版面元素在文档图像中所处位置。位置信息可以是文档图像中可能为表格的版面元素的位置坐标。
每个检测头均存在对应的检测结果,根据检测头与检测结果之间的对应关系,可以将位置信息关联到检测结果对应的检测头。然后,基于位置信息,确定各检测头在文档图像中识别到的关键区域,将关键区域关联到对应的检测头。
其中,关键区域是指检测头检测到的文档图像中可能包括表格的区域。不同检测头检测到的关键区域可能存在差异,具体根据实际情况确定。
S230、基于所述检测结果中的类别信息,确定各检测头的注意力权重;
其中,基于类别信息可以确定关键区域中的版面元素属于表格的概率。不同检测头预测到的类别信息可能存在差异,具体根据实际情况确定。
根据检测结果与检测头的对应关系,将检测结果中的位置信息关联到对应的检测头。基于各检测头对应的类别信息,确定各检测头的注意力权重。
其中,注意力权重用于量化在特征融合过程中量化对各检测头所提取到图像特征的关注度。可以理解的是,为了使后续的精细化网络可以学习到更多的表格特征,需要对于有更高概率属于表格的关键区域赋予更多的关注。
示例性,检测头1检测到关键区域1中的版面元素有90%的概率属于表格;检测头2检测到关键区域2中的版面元素有70%的概率属于表格。根据关键区域中版面元素属于表格的概率,相较于检测头2赋予检测头1更多的关注。
可选的,将关键区域中的版面元素属于表格的概率作为关键区域相对应检测头的注意力权重。
S240、基于所述注意力权重,对所述至少两个检测头从所述关键区域提取到的图像特征进行融合处理,得到文档图像的检测融合特征。
初步检测网络中的每个检测头均存在对应的注意力权重,基于注意力权重对相应的检测头从关键区域提取到的图像特征进行加权处理,将加权后的图像特征进行叠加实现特征融合,得到文档图像的检测融合特征。
S250、将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络确定文档图像中的表格区域。
本申请技术方案,在对至少两个检测头提取到的图像特征进行特征融合的过程中引入注意力机制,基于各检测头输出检测结果中的类别信息,为各检测头赋予对应的注意力权重,然后将注意力权重用于融合至少两个检测头各自从关键区域提取到的图像特征,可以使得到的文档图像的检测融合特征更加丰富鲁棒,将检测融合特征用于表格检测,可以提高表格检测的准确性。
在一个可选的实施例中,基于所述注意力权重,对所述至少两个检测头从所述关键区域提取到的图像特征进行融合处理,得到文档图像的检测融合特征,包括:对所述至少两个检测头从所述关键区域提取到的图像特征进行维度对齐;基于各检测头的注意力权重,对维度对齐后的图像特征进行加权处理得到特征加权结果;根据所述特征加权结果,确定文档图像的检测融合特征。
不同检测头检测到的关键区域可能存在差异,检测头从关键区域所提取到图像特征的特征维度也可能不同,为了保证特征融合的准确性,对至少两个检测头从关键区域提取到的图像特征进行维度对齐。然后,利用各检测头的注意力权重,对维度对齐后的图像特征进行加权处理,根据加权处理结果,确定文档图像的检测融合特征。可选的,对属于各检测头的加权处理结果进行叠加运算,得到文档图像的检测融合特征。
上述技术方案,通过在对至少两个检测头各自从关键区域提取到的图像特征进行融合处理的过程中,先对各检测头从关键区域提取到的图像特征进行维度对齐,基于维度对齐后的图像特征进行融合处理,保证了特征融合的准确度。
实施例三
图3A是根据实施例三提供的检测电网建设类档案中表格的方法的流程图。本实施例在上述实施例的基础上进行进一步地优化,具体的,对操作“将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络确定文档图像中的表格区域”进行细化。
如图3A所示,该方法包括:
S310、利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取,并基于所述检测头各自提取到的图像特征对文档图像进行表格检测,得到各检测头的检测结果;
其中,所述文档图像通过对电网建设类档案进行扫描得到。
S320、基于各检测头的检测结果,对所述至少两个检测头提取到的图像特征进行特征融合,得到文档图像的检测融合特征;
S330、将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络中的类型检测分支从所述检测融合特征中提取目标类别特征;
其中,精细检测网络包括:类型检测分支和位置检测分支。其中,类型检测分支用于检测文档图像中版面元素所属类型。位置检测分支用于检测文档图像中版面元素所在位置。
在一个可选的实施例中,所述位置检测分支的网络结构与所述类型检测分支的网络结构不同。
类型检测分支具有类型特征敏感性,位置检测分支具有位置特征敏感性。类型检测分支采用类型检测性能表现突出的网络结构;位置检测分支采用位置检测性能突出的网络结构。运用不同的网络结构可以提取更加丰富的图像特征,有利于提高表格检测的准确率。
类型检测分支和位置检测分支的网络结构,在这里不作限定,具体根据实际情况确定。示例性的,类型检测分支基于全连接层(fc)组成;位置检测分支基于全卷积层(conv)和转换器层(transformer)组成。
将文档图像的检测融合特征输入精细检测网络,通过精细检测网络中的类型检测分支对检测融合特征进行处理,从检测融合特征中进一步提取目标类别特征,其中,目标类别特征用于检测文档图像中版面元素的类别信息。
S340、通过所述精细检测网络中的位置检测分支从所述检测融合特征中提取目标位置特征;
可选的,类型检测分支和位置检测分支并行连接。检测融合特征输入类型检测分支的同时输入到位置检测分支。通过位置检测分支对检测融合特征进行处理,从检测融合特征中进一步提取目标位置特征,其中,目标位置特征用于检测文档图像中版面元素所处的区域位置。
S350、根据所述类型检测分支提取到的目标类型特征,以及所述位置检测分支提取到的目标位置特征,确定文档图像中的表格区域。
其中,类别特征用于检测文档图像中版面元素所属的元素类型;位置特征用于检测文档图像中版面元素所处的区域位置。
类型检测分支基于目标类别特征对文档图像中的版面元素所属类别进行检测,通过类型检测分支输出类型信息。其中,类型信息包括元素类别和类别得分。位置检测分支基于目标位置特征对文档图像中的版面元素所在位置进行检测,通过位置检测分支输出位置信息。
根据类型检测分支输出的类型信息和位置检测分支输出的位置信息,确定文档图像中的表格区域。
可以理解的是,检测融合特征基于各检测头的检测结果,对至少两个检测头提取到的图像特征进行特征融合得到,检测融合特征包括初步检测网络中各检测头的检测结果。通过精细检测网络中的类型检测分支和位置检测分支进一步对检测融合特征进行特征提取,基于得到的目标类别特征和目标位置特征,对文档图像中的目标类型以及目标位置进行检测,可以修正初步检测网络给出的检测结果,在其基础上给出更加准确的检测结果。
本申请技术方案,通过在精细检测网络中设置类型检测分支和位置检测分支,解耦了分类任务和回归任务,针对于分类任务特点和回归任务特点设计针对于性的网络结构进行特征提取,利用类型检测分支从检测融合特征中提取目标类别特征;利用位置检测分支从检测融合特征中提取目标位置特征,可以提取到更加丰富的特征,有利于提高表格检测的准确率。
图3B示出了一种用于实现本申请实施例所提供的检测电网建设类档案中表格的方法的具体网络模型。为了方便表述将该网络模型称为表格检测模型。参见图3B所示,表格检测模型至少包括:初步检测网络和精细检测网络。初步检测网络中包括至少两个检测头,为了便于描述本申请实施例提供检测电网建设类档案中表格的方法,以初步检测网络中包括两个检测头即检测头1和检测头2的情况,进行说明。值得注意的是,图3B中示出的检测头数量并不对本申请实施例所提供的检测电网建设类档案中表格的方法造成限定。
如图3B所示,表格检测模型还包括:残差网络、FPN网络和RPN网络。其中,FPN网络分别与残差网络和RPN网络相连接,残差网络作为表格检测模型的骨干网络,可以是ResNet-34,残差网络的网络结构采用可变形卷积搭建。文档图像输入表格检测模型,首先通过残差网络对文档图像进行初步特征提取得到文档图像的特征图(feature map),然后通过FPN网络在残差网络所提取到特征图的基础上,再次进行特征提取,从中提取并融合至少两个尺度的图像特征,接下来,将FPN网络提取到的多尺度特征图输入RPN网络,通过RPN网络在多尺度特征图的基础上确定文档图像中感兴趣区域(ROI),作为文档图像中候选的表格区域。
将候选的表格区域关联到文档图像的多尺度特征图,并将其送入初步检测网络中,首先通过初步检测网络中的特征池化单元,对输入的多尺度特征图进行池化处理,将其转换成为指定大小的特征图。然后,将转换后的特征图分别输入检测头1和检测头2,通过检测头1和检测头2对文档图像中候选的表格区域进行特征提取,并基于各自提取到的图像特征对文档图像进行表格识别,各自输出检测结果。检测结果包括类别信息和位置信息。示例性的,检测头1出的检测结果以class1和box1表示;检测头2出的检测结果以class2和box2表示。其中,class用于表示类别信息;box用于表示位置信息;数字1和2为检测标识用于区分检测结果与检测头之间的对应关系。
可选的,图3C示出了初步检测网络中检测头的网络结构;参见图3C,检测头1和检测头2采用相同的网络结构,示例性的,检测头1和检测头2均有两个全连接层fc。为确保两个检测头学习的特征具有差异性,在初步检测网络的训练过程中基于不同的丢弃概率对检测头1和检测头2进行正则化,使得检测头1和检测头2独立收敛,可以提取到有用的互补信息。其中,有用的互补信息是指对于在文档图像中确定表格区域有贡献的图像特征。
图3D示出了表格检测模型中介于初步检测网络和精细检测网络之间的特征融合单元如何融合各检测头从关键区域中提取到的图像特征;参见图3D,根据检测头1输出的位置信息box1,以及检测头2输出的位置信息box2,确定检测头1和检测头2在文档图像中识别到的关键区域,然后,根据检测头1和检测头2各自识别到的关键区域,从输入到初步检测网络的多尺度特征图中提取对应区域的特征图,分别作为区域特征图1和区域特征图2。然后,采用RoI Align技术将对应区域的特征图设计为固定尺寸特征图。可选的,将分别利用转换器层(transformer)和双卷积层(conv)对维度对齐单元输出的特征图进一步进行特征提取。具体的,利用转换器层对区域特征图1进行特征提取;利用双卷积层对区域特征图2进行进行特征提取。
接下来,分别利用检测头1的注意力权重Sclass1和检测头2的注意力权重Sclass2对转换器层以及两个卷积层输出的特征图进行加权处理,然后对加权处理结果进行叠加运算,得到文档图像的检测融合特征。其中,注意力权重Sclass1根据检测头1输出的类别信息class1确定;注意力权重Sclass2根据检测头2输出的类别信息class2确定。
值得注意的是,还可以采用RoI Align技术将检测头1和检测头2从关键区域提取到的特征图进行维度对齐,然后,利用Sclass1和Sclass2分别对与检测头1相对应的特征图和与与检测头2相对应的特征图进行加权处理,然后对加权处理结果进行叠加运算,得到文档图像的检测融合特征。
然后,继续参见图3B,将特征融合单元输出的检测融合特征输入到精细检测网络。精细检测网络包括类别检测分支和位置检测分支。可选的,类别检测分支和位置检测分支的网络结构不同。示例性的,图3E示出了类别检测分支和位置检测分支的网络结构,参见图3E,类别检测分支包括两层全连接层(fc);位置检测分支包括双卷积层(conv)和平均池化层(avg)。其中,类别检测分支用于从检测融合特征中提取目标类别特征;位置检测分支用于从检测融合特征中提取目标位置特征。其中,目标类别特征和目标位置特征用于在文档图像中确定表格区域。
类型检测分支基于目标类别特征对文档图像中的版面元素所属类别进行检测,通过类型检测分支输出类型信息。位置检测分支基于目标位置特征对文档图像中的版面元素所在位置进行检测,通过位置检测分支输出位置信息。根据类型检测分支输出的类型信息和位置检测分支输出的位置信息可以确定精细检测网络的检测结果。精细检测网络的检测结果以class 3和box3表示,其中,class3表示位置检测分支输出的位置信息;box3表示类型检测分支输出的类型信息。根据class3和box3在文档图像中确定表格区域。
其中,表格检测模型通过预先训练得到。可选的,构建总损失函数Ltotal对表格检测模型中的各部分进行综合训练,然后运用ADAM梯度下降算法,进行整个模型训练。其中,表格检测模型的总损失函数Ltotal,Ltotal=λ1Lrpn+λ2Lcoarse+λ3Lfine。其中,Lrpn表示RPN的损失函数;Lcoarse表示初步检测网络的损失函数;Lfine表示精细检测网络的损失函数。λ1,λ2和λ3表示权重参数;λ1,λ2和λ3的具体取值在这里不作限定,具体根据实际情况确定。
进一步的,初步检测网络的损失函数Lcoarse由各个检测头中的分类损失函数和定位回归损失函数组成,Lcoarse=γ1(LHead1cls+ LHead1reg) + γ2(LHead2cls+ LHead2reg),其中LHead1cls 和L Head1reg分别为检测头1的分类损失函数和定位回归损失函数, L Head2cls 和L Head2reg分别为检测头2的分类损失函数和定位回归损失函数。
进一步的,精细检测网络的损失函数Lfine 由类型检测分支的分类损失函数LHead3cls和位置检测分支的定位回归损失函数LHead3reg构成。具体的,Lfine=LHead3cls+ LHead3reg 。
值得注意的是,并不对本申请实施例所提供的检测电网建设类档案中表格的方法造成限定。
实施例四
图4是本申请实施例四提供的检测电网建设类档案中表格的装置的结构示意图,本实施例可适用于在对电网建设类项目进行项目审核的过程中从文档图像中检测表格的情况。所述装置可由软件和/或硬件实现,并可集成于智能终端等电子设备中。
如图4所示,该装置可以包括:特征提取模块410、特征融合模块420和表格检测模块430。
特征提取模块410,用于利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取,并基于所述检测头各自提取到的图像特征对文档图像进行表格检测,得到各检测头的检测结果;其中,所述文档图像通过对电网建设类档案进行扫描得到;
特征融合模块420,用于基于各检测头的检测结果,对所述至少两个检测头提取到的图像特征进行特征融合,得到文档图像的检测融合特征;
表格检测模块430,用于将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络确定文档图像中的表格区域。
本申请实施例技术方案采用二阶段识别定位模式,将初步检测网络与精细检测网络相结合,由粗到细对文档图像进行目标的分类和定位,首先,采用设置有至少两个检测头的初步检测网络进行粗粒度检测,然后,利用精细检测网络进行细粒度检测。初步检测网络中的至少两个检测头,能够从多个角度提取文档图像更加互补的图像特征,将各检测头提取到的图像特征进行融合,将得到的检测融合特征输入精细检测网络,通过精细检测网络基于检测融合特征,在文档图像中确定表格区域有效降低了表格检测成本,提高了表格检测的效率和准确率。
可选的,特征融合模块420,包括:关键区域子模块,用于基于所述检测结果中的位置信息,确定各检测头在所述文档图像中识别到的关键区域;注意力权重确定子模块,用于基于所述检测结果中的类别信息,确定各检测头的注意力权重;检测融合特征子模块,用于基于所述注意力权重,对所述至少两个检测头从所述关键区域提取到的图像特征进行融合处理,得到文档图像的检测融合特征。
可选的,表格检测模块430,包括:类别特征提取子模块,用于将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络中的类型检测分支从所述检测融合特征中提取目标类别特征;位置特征提取检测子模块,用于通过所述精细检测网络中的位置检测分支从所述检测融合特征中提取目标位置特征;表格区域确定子模块,用于根据所述类型检测分支提取到的目标类型特征,以及所述位置检测分支提取到的目标位置特征,确定文档图像中的表格区域。
可选的,所述初步检测网络中的至少两个检测头基于不同的丢弃概率训练得到。
可选的,所述装置还包括:尺度特征提取模块,用于在利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取之前,对文档图像进行特征提取,从所述文档图像中提取至少两种尺度的图像特征;尺度特征融合模块,用于对所述至少两种尺度的图像特征进行融合处理,得到文档图像的尺度融合特征;表格区域确定模块,用于基于所述文档图像的尺度融合特征,在所述文档图像中确定候选的表格区域,并将候选的表格区域关联到文档图像。
可选的,所述位置检测分支的网络结构与所述类型检测分支的网络结构不同。
可选的,检测融合特征子模块,包括:维度对齐单元,用于对所述至少两个检测头从所述关键区域提取到的图像特征进行维度对齐;加权处理单元,用于基于各检测头的注意力权重,对维度对齐后的图像特征进行加权处理得到特征加权结果;检测特征融合单元,用于根据所述特征加权结果,确定文档图像的检测融合特征。
发明实施例所提供的检测电网建设类档案中表格的装置可执行本申请任意实施例所提供的检测电网建设类档案中表格的方法,具备执行检测电网建设类档案中表格的方法相应的性能模块和有益效果。
本公开的技术方案中,所涉及的用户数据的收集、存储、使用、加工、传输、提供和公开等,均符合相关法律法规的规定,且不违背公序良俗。
实施例五
图5示出了可以用来实施的实施例的电子设备510的结构示意图。电子设备510包括至少一个处理器511,以及与至少一个处理器511通信连接的存储器,如只读存储器(ROM)512、随机访问存储器(RAM)513等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器511可以根据存储在只读存储器(ROM)512中的计算机程序或者从存储单元518加载到随机访问存储器(RAM)513中的计算机程序,来执行各种适当的动作和处理。在RAM513中,还可存储电子设备510操作所需的各种程序和数据。处理器511、ROM 512以及RAM513通过总线514彼此相连。输入/输出(I/O)接口515也连接至总线514。
电子设备510中的多个部件连接至I/O接口515,包括:输入单元516,例如键盘、鼠标等;输出单元517,例如各种类型的显示器、扬声器等;存储单元518,例如磁盘、光盘等;以及通信单元519,例如网卡、调制解调器、无线通信收发机等。通信单元519允许电子设备510通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器511可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器511的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器511执行上文所描述的各个方法和处理,例如检测电网建设类档案中表格的方法。
在一些实施例中,检测电网建设类档案中表格的方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元518。在一些实施例中,计算机程序的部分或者全部可以经由ROM 512和/或通信单元519而被载入和/或安装到电子设备510上。当计算机程序加载到RAM 513并由处理器511执行时,可以执行上文描述的检测电网建设类档案中表格的方法的一个或多个步骤。备选地,在其他实施例中,处理器511可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行检测电网建设类档案中表格的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程表格检测装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为表格检测服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (8)
1.一种检测电网建设类档案中表格的方法,其特征在于,所述方法包括:
利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取,并基于所述检测头各自提取到的图像特征对文档图像进行表格检测,得到各检测头的检测结果;其中,所述文档图像通过对电网建设类档案进行扫描得到;所述初步检测网络中的至少两个检测头基于不同的丢弃概率训练得到;
基于各检测头的检测结果,对所述至少两个检测头提取到的图像特征进行特征融合,得到文档图像的检测融合特征;
将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络确定文档图像中的表格区域;
其中,所述基于各检测头的检测结果,对所述至少两个检测头提取到的图像特征进行特征融合,得到文档图像的检测融合特征,包括:
基于所述检测结果中的位置信息,确定各检测头在所述文档图像中识别到的关键区域;
基于所述检测结果中的类别信息,确定各检测头的注意力权重;
基于所述注意力权重,对所述至少两个检测头从所述关键区域提取到的图像特征进行融合处理,得到文档图像的检测融合特征。
2.根据权利要求1所述的方法,其特征在于,将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络确定文档图像中的表格区域,包括:
将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络中的类型检测分支从所述检测融合特征中提取目标类别特征;
通过所述精细检测网络中的位置检测分支从所述检测融合特征中提取目标位置特征;
根据所述类型检测分支提取到的目标类型特征,以及所述位置检测分支提取到的目标位置特征,确定文档图像中的表格区域。
3.根据权利要求1所述的方法,其特征在于,在利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取之前,所述方法还包括:
对文档图像进行特征提取,从所述文档图像中提取至少两种尺度的图像特征;
对所述至少两种尺度的图像特征进行融合处理,得到文档图像的尺度融合特征;
基于所述文档图像的尺度融合特征,在所述文档图像中确定候选的表格区域,并将候选的表格区域关联到文档图像。
4.根据权利要求2所述的方法,其特征在于,所述位置检测分支的网络结构与所述类型检测分支的网络结构不同。
5.根据权利要求1所述的方法,其特征在于,基于所述注意力权重,对所述至少两个检测头从所述关键区域提取到的图像特征进行融合处理,得到文档图像的检测融合特征,包括:
对所述至少两个检测头从所述关键区域提取到的图像特征进行维度对齐;
基于各检测头的注意力权重,对维度对齐后的图像特征进行加权处理得到特征加权结果;
根据所述特征加权结果,确定文档图像的检测融合特征。
6.一种检测电网建设类档案中表格的装置,其特征在于,所述装置包括:
特征提取模块,用于利用初步检测网络中的至少两个检测头分别对文档图像中候选的表格区域进行特征提取,并基于所述检测头各自提取到的图像特征对文档图像进行表格检测,得到各检测头的检测结果;其中,所述文档图像通过对电网建设类档案进行扫描得到;其中,所述初步检测网络中的至少两个检测头基于不同的丢弃概率训练得到;
特征融合模块,用于基于各检测头的检测结果,对所述至少两个检测头提取到的图像特征进行特征融合,得到文档图像的检测融合特征;
表格检测模块,用于将所述文档图像的检测融合特征输入精细检测网络,通过所述精细检测网络确定文档图像中的表格区域;
特征融合模块,包括:关键区域子模块,用于基于所述检测结果中的位置信息,确定各检测头在所述文档图像中识别到的关键区域;注意力权重确定子模块,用于基于所述检测结果中的类别信息,确定各检测头的注意力权重;检测融合特征子模块,用于基于所述注意力权重,对所述至少两个检测头从所述关键区域提取到的图像特征进行融合处理,得到文档图像的检测融合特征。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的检测电网建设类档案中表格的方法。
8.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的检测电网建设类档案中表格的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310245167.3A CN116071773B (zh) | 2023-03-15 | 2023-03-15 | 检测电网建设类档案中表格的方法、装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310245167.3A CN116071773B (zh) | 2023-03-15 | 2023-03-15 | 检测电网建设类档案中表格的方法、装置、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116071773A CN116071773A (zh) | 2023-05-05 |
CN116071773B true CN116071773B (zh) | 2023-06-27 |
Family
ID=86175140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310245167.3A Active CN116071773B (zh) | 2023-03-15 | 2023-03-15 | 检测电网建设类档案中表格的方法、装置、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071773B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598290A (zh) * | 2018-11-22 | 2019-04-09 | 上海交通大学 | 一种基于两级检测相结合的图像小目标检测方法 |
CN113869144A (zh) * | 2021-09-10 | 2021-12-31 | 深延科技(北京)有限公司 | 目标检测方法、装置、电子设备及计算机可读存储介质 |
CN114913495A (zh) * | 2022-05-06 | 2022-08-16 | 北京交通大学 | 基于协作图融合的协同目标检测方法及系统 |
CN115171135A (zh) * | 2022-05-31 | 2022-10-11 | 武汉大学 | 基于关键点预测的手绘图表识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101997479B1 (ko) * | 2015-10-20 | 2019-10-01 | 삼성전자주식회사 | 사용자 인증을 위한 생체 영역을 검출하는 방법 및 장치 |
CN110059608B (zh) * | 2019-04-11 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 一种物体检测方法、装置、电子设备和存储介质 |
CN111353413B (zh) * | 2020-02-25 | 2022-04-15 | 武汉大学 | 一种输电设备低漏报率缺陷识别方法 |
CN111461133B (zh) * | 2020-04-20 | 2023-04-18 | 上海东普信息科技有限公司 | 快递面单品名识别方法、装置、设备及存储介质 |
CN113780256B (zh) * | 2021-11-12 | 2022-03-15 | 科大讯飞(苏州)科技有限公司 | 粗细分类相结合的图像目标检测方法及相关装置 |
CN114170531B (zh) * | 2021-11-23 | 2024-08-09 | 北京航天自动控制研究所 | 基于困难样本迁移学习的红外图像目标检测方法和装置 |
CN115187786A (zh) * | 2022-07-21 | 2022-10-14 | 北京工业大学 | 一种基于旋转的CenterNet2目标检测方法 |
CN115690549A (zh) * | 2022-11-12 | 2023-02-03 | 东南大学 | 一种基于并联交互架构模型实现多维度特征融合的目标检测方法 |
-
2023
- 2023-03-15 CN CN202310245167.3A patent/CN116071773B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598290A (zh) * | 2018-11-22 | 2019-04-09 | 上海交通大学 | 一种基于两级检测相结合的图像小目标检测方法 |
CN113869144A (zh) * | 2021-09-10 | 2021-12-31 | 深延科技(北京)有限公司 | 目标检测方法、装置、电子设备及计算机可读存储介质 |
CN114913495A (zh) * | 2022-05-06 | 2022-08-16 | 北京交通大学 | 基于协作图融合的协同目标检测方法及系统 |
CN115171135A (zh) * | 2022-05-31 | 2022-10-11 | 武汉大学 | 基于关键点预测的手绘图表识别方法 |
Non-Patent Citations (1)
Title |
---|
基于候选框多步迭代优化的多阶段目标检测模型;赵钊等;《中国新通信》(第第14期期);第50-54页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116071773A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210406897A1 (en) | Payment information processing method, apparatus, device and computer readable storage medium | |
CN113205041B (zh) | 结构化信息提取方法、装置、设备和存储介质 | |
CN114359932B (zh) | 文本检测方法、文本识别方法及装置 | |
KR102655237B1 (ko) | 가이드 특징맵 기반 표적 탐지 장치 및 방법 | |
CN115546488B (zh) | 信息分割方法、信息提取方法和信息分割模型的训练方法 | |
CN115471476A (zh) | 一种部件缺陷检测方法、装置、设备及介质 | |
CN115063656A (zh) | 图像检测方法、装置、计算机可读存储介质及电子设备 | |
CN118154583A (zh) | 电池丝印质量检测方法及模型获取方法、装置和终端设备 | |
CN113869253A (zh) | 活体检测方法、训练方法、装置、电子设备及介质 | |
CN111414889B (zh) | 基于文字识别的财务报表识别方法及装置 | |
CN113283396A (zh) | 目标对象的类别检测方法、装置、计算机设备和存储介质 | |
CN111340139B (zh) | 一种图像内容复杂度的判别方法及装置 | |
CN116071773B (zh) | 检测电网建设类档案中表格的方法、装置、介质和设备 | |
CN116109874A (zh) | 一种检测方法、装置、电子设备和存储介质 | |
CN113033431B (zh) | 光学字符识别模型训练和识别方法、装置、设备及介质 | |
CN114120305B (zh) | 文本分类模型的训练方法、文本内容的识别方法及装置 | |
CN115359322A (zh) | 一种目标检测模型训练方法、装置、设备和存储介质 | |
CN115205555B (zh) | 确定相似图像的方法、训练方法、信息确定方法及设备 | |
CN115331217B (zh) | 一种餐食结算方法、装置、设备及介质 | |
CN114677691B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN115497112B (zh) | 表单识别方法、装置、设备以及存储介质 | |
CN113157160B (zh) | 用于识别误导播放按钮的方法和设备 | |
CN115497113B (zh) | 信息生成方法、装置、电子设备以及存储介质 | |
CN115471717B (zh) | 模型的半监督训练、分类方法装置、设备、介质及产品 | |
CN116258769B (zh) | 一种定位校验方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |