CN115546790B - 文档版面分割方法、装置、设备及存储介质 - Google Patents
文档版面分割方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115546790B CN115546790B CN202211504111.7A CN202211504111A CN115546790B CN 115546790 B CN115546790 B CN 115546790B CN 202211504111 A CN202211504111 A CN 202211504111A CN 115546790 B CN115546790 B CN 115546790B
- Authority
- CN
- China
- Prior art keywords
- vector
- classification
- layout
- document
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18143—Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
- G06V30/18152—Extracting features based on a plurality of salient regional features, e.g. "bag of words"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Character Input (AREA)
Abstract
本发明涉及图像分割技术领域,公开了一种文档版面分割方法、装置、设备及存储介质,该方法包括:从原始文档中提取图像特征向量和文本特征向量;基于图像特征向量获取候选锚定框向量,候选锚定框向量用于表示原始文档中版面元素的基础轮廓;基于文本特征向量和候选锚定框向量获取区域分类和区域分类对应的分类置信度;根据区域分类和分类置信度对原始文档进行版面分割。相比于现有技术通过人为制定的分割规则来对文档版面进行分割,本发明通过结合图像特征向量对应的视觉语义分析技术和文本特征向量对应的自然语言处理技术实现文档版面分割,从而消除了现有技术中人为因素对于版面分割结果造成的负面影响,进而能够对文档版面进行准确分割。
Description
技术领域
本发明涉及图像分割技术领域,尤其涉及一种文档版面分割方法、装置、设备及存储介质。
背景技术
随着信息技术的发展,文档中的版面元素也越来越多,因此需要采用合理的文档版面分割方法对文档版面进行分割,从而提升用户的观感体验。文档版面分割,即采用智能算法将整页影像文档按照感兴趣的内容进行区域切块划分,这些区域可能是文本段、篇章或段落标题、表格、图片及其标题和页眉页脚等,获得整个版面的布局信息后方便对各区域元素分别进行识别和解析。
目前的文档分割通常是基于规则和传统计算机视觉算法技术来进行的,需要依赖人为制定的分割规则,这就导致人为因素对文档分割进程的负面影响较大,从而使得目前的文档分割技术对于版面元素的定位精度和分类准确性都较低。因此,目前行业内需要一种能够准确对文档版面元素进行定位和分类的文档分割方法。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种文档版面分割方法、装置、设备及存储介质,旨在解决现有的文档版面分割方法无法准确对文档版面元素进行定位和分类的技术问题。
为实现上述目的,本发明提供了一种文档版面分割方法,所述方法包括以下步骤:
从原始文档中提取图像特征向量和文本特征向量;
基于所述图像特征向量获取候选锚定框向量,所述候选锚定框向量用于表示所述原始文档中版面元素的基础轮廓;
基于所述文本特征向量和所述候选锚定框向量获取区域分类和所述区域分类对应的分类置信度;
根据所述区域分类和所述分类置信度对所述原始文档进行版面分割。
可选地,所述从原始文档中提取图像特征向量和文本特征向量,包括:
通过双流卷积网络从原始文档的图像和对应文本内容中获取图像特征和文本特征;
对所述图像特征和所述文本特征进行向量化,获得图像特征向量和文本特征向量。
可选地,所述基于所述图像特征向量获取候选锚定框向量,所述候选锚定框向量用于表示所述原始文档中版面元素的基础轮廓,包括:
从所述图像特征向量中获得若干标记像素,基于所述标记像素获得第一目标区域向量;
将所述图像特征向量输入至多尺度图像特征的目标区域生成模块中,获得第二目标区域向量;
将所述第一目标区域向量的置信度与所述第二目标区域向量的置信度进行对比,并基于对比结果获取候选锚定框向量。
可选地,所述从所述图像特征向量中获得若干标记像素,基于所述标记像素获得第一目标区域向量,包括:
从所述图像特征向量中获得若干标记像素,将所述标记像素中具有相同标记的标记像素对应的文档区域进行合并,获得若干连通域;
根据所述连通域以及无相同标记的标记像素对应的文档区域获得第一目标区域向量。
可选地,所述基于所述文本特征向量和所述候选锚定框向量获取区域分类和所述区域分类对应的分类置信度,包括:
从所述文本特征向量中获取文本嵌入向量和文本框位置向量;
通过注意力网络对所述文本嵌入向量、所述文本框位置向量和所述候选锚定框向量进行融合,获得融合向量;
基于所述融合向量获取区域分类和所述区域分类对应的分类置信度。
可选地,所述根据所述区域分类和所述分类置信度对所述原始文档进行版面分割,包括:
从所述分类置信度中筛选出可信分类置信度,所述可信分类置信度为数值大于或等于预设置信度的分类置信度;
基于所述可信分类置信度对应的区域分类对所述原始文档进行版面分割。
可选地,所述基于所述可信分类置信度对应的区域分类对所述原始文档进行版面分割,包括:
将所述可信分类置信度对应的区域分类输入至基于注意力机制的特征增强层,获得排序后的区域分类;
对所述排序后的区域分类进行特征加权,获得加权区域分类;
基于所述加权区域分类对所述原始文档进行版面分割。
此外,为实现上述目的,本发明还提出一种文档版面分割装置,所述文档版面分割装置包括:
数据提取模块,用于从原始文档中提取图像特征向量和文本特征向量;
第一计算模块,用于基于所述图像特征向量获取候选锚定框向量,所述候选锚定框向量用于表示所述原始文档中版面元素的基础轮廓;
第二计算模块,用于基于所述文本特征向量和所述候选锚定框向量获取区域分类和所述区域分类对应的分类置信度;
版面分割模块,用于根据所述区域分类和所述分类置信度对所述原始文档进行版面分割。
此外,为实现上述目的,本发明还提出一种文档版面分割设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文档版面分割程序,所述文档版面分割程序配置为实现如上文所述的文档版面分割方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有文档版面分割程序,所述文档版面分割程序被处理器执行时实现如上文所述的文档版面分割方法的步骤。
本发明首先从原始文档中提取图像特征向量和文本特征向量,并基于图像特征向量获取候选锚定框向量,候选锚定框向量用于表示原始文档中版面元素的基础轮廓,然后基于文本特征向量和候选锚定框向量获取区域分类和区域分类对应的分类置信度,最后根据区域分类和分类置信度对原始文档进行版面分割。相比于现有技术基于规则和传统计算机视觉算法的方法,即通过人为制定的分割规则来对文档版面进行分割,本发明上述方法通过结合图像特征向量对应的视觉语义分析技术和文本特征向量对应的自然语言处理技术实现文档版面分割,从而消除了现有技术中人为因素对于版面分割结果造成的负面影响,进而能够有效地提升版面元素定位精度和分类准确性,对文档版面进行准确分割。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的文档版面分割设备的结构示意图;
图2为本发明文档版面分割方法第一实施例的流程示意图;
图3为本发明文档版面分割方法第二实施例的流程示意图;
图4为本发明文档版面分割方法第三实施例的流程示意图;
图5为本发明文档版面分割装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的文档版面分割设备结构示意图。
如图1所示,该文档版面分割设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对文档版面分割设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文档版面分割程序。
在图1所示的文档版面分割设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明文档版面分割设备中的处理器1001、存储器1005可以设置在文档版面分割设备中,所述文档版面分割设备通过处理器1001调用存储器1005中存储的文档版面分割程序,并执行本发明实施例提供的文档版面分割方法。
本发明实施例提供了一种文档版面分割方法,参照图2,图2为本发明文档版面分割方法第一实施例的流程示意图。
本实施例中,所述文档版面分割方法包括以下步骤:
步骤S10:从原始文档中提取图像特征向量和文本特征向量。
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通讯以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等,还可以是能够实现相同或相似功能的其他电子设备,本实施例对此不加以限制。此处将以文档版面分割设备为例对本发明文档版面分割方法的各项实施例进行说明。
可理解的是,上述原始文档指的是未经过处理的待进行版面分割的文档,例如未进行版面分割的论文、财报、公司简章、合同等富文本电子文档。
应理解的是,上述图像特征向量和文本特征向量表示原始文档中的图像数据和文本数据分别在向量空间中对应的特征向量。
在具体实现中,可以通过将原始文档中的图像数据和文本数据经过卷积网络生成图像特征和文本特征,再将上述图像特征和文本特征转换为图像特征向量和文本特征向量。
进一步地,在本实施例中,为了准确提取出原始文档中的特征向量,所述步骤S10可包括:
步骤S101:通过双流卷积网络从原始文档的图像和对应文本内容中获取图像特征和文本特征。
需要说明的是,上述双流卷积网络为一种能够对不同形式或表示的特征进行提取的卷积网络,本实施例中对应的“双流”即为视觉流和语义流。
在具体实现中,上述双流卷积网络可以包含ResNet50和TextCNN两种网络结构。其中,可以将ResNet50作为视觉流的特征提取主干,将TextCNN作为语义流的特征提取主干,然后将图像数据和文本数据分别输入至ResNet50和TextCNN网络结构中,获取图像特征和文本特征。
步骤S102:对所述图像特征和所述文本特征进行向量化,获得图像特征向量和文本特征向量。
在具体实现中,可以通过将上述图像特征和文本特征所在的二维空间转换为三维空间,然后在上述三维空间中将图像特征和文本特征对应的特征值乘以预设非零向量来获得上述图像特征向量和文本特征向量。当然,上述对于向量化的描述仅用于对本实施例进行举例说明,而非用于限定,其他能够将图像特征和文本特征进行向量化的方法也同样适用于本实施例,此处不作赘述。
步骤S20:基于所述图像特征向量获取候选锚定框向量,所述候选锚定框向量用于表示所述原始文档中版面元素的基础轮廓。
需要说明的是,上述候选锚定框向量表示候选锚定框在向量空间中对应的特征向量。在实际情况中,文档的版面是根据不同版面元素来进行分割的,而版面元素的形状存在多种可能性。基于此,上述候选锚定框可以是任意形状的四边形,本实施例对此不加以限制。
在具体实现中,由于文档版面分割的情况可能较为复杂,例如部分版面元素在形态上相似,极易导致分类错误。常规手段同一区域会被学习出几类不同形态的定位结果,而筛选手段仅仅凭借从视觉语义计算得到的置信度。因此,为了有效获取原始文档中版面元素的基础轮廓,需要引入区域内容作为文本语义特征,还需建模候选框的空间依赖关系和共现关系作为位置信息,将视觉、文本和位置信息进行融合从而对上述原始文档中版面元素的分类结果进行精准化。
步骤S30:基于所述文本特征向量和所述候选锚定框向量获取区域分类和所述区域分类对应的分类置信度。
需要说明的是,上述区域分类表示版面元素在原始文档中所处的区域,上述分类置信度表示其对应区域分类为正确区域分类的可信程度。
在具体实现中,可以通过引入特征网络的方式对上述文本特征向量和上述候选锚定框向量进行融合,从而根据融合结果来获取区域分类和所述区域分类对应的分类置信度。
步骤S40:根据所述区域分类和所述分类置信度对所述原始文档进行版面分割。
应理解的是,上述版面分割即对原始文档中不同的版面元素进行分割,而不同的版面元素往往对应不同的文档内容,因此经过版面分割后的原始文档能够提升用户在阅读时的观感体验和阅读效率。
在具体实现中,可以通过设定统一的规则来对各区域分类对应的分类置信度进行判别,从而根据判别结果来对上述原始文档进行版面分割。
本实施例首先从原始文档中提取图像特征向量和文本特征向量,并基于图像特征向量获取候选锚定框向量,候选锚定框向量用于表示原始文档中版面元素的基础轮廓,然后基于文本特征向量和候选锚定框向量获取区域分类和区域分类对应的分类置信度,最后根据区域分类和分类置信度对原始文档进行版面分割。相比于现有技术基于规则和传统计算机视觉算法的方法,即通过人为制定的分割规则来对文档版面进行分割,本实施例上述方法通过结合图像特征向量对应的视觉语义分析技术和文本特征向量对应的自然语言处理技术实现文档版面分割,从而消除了现有技术中人为因素对于版面分割结果造成的负面影响,进而能够有效地提升版面元素定位精度和分类准确性,对文档版面进行准确分割。
参考图3,图3为本发明文档版面分割方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,为了准确获得候选锚定框向量,所述步骤S20,可包括:
步骤S201:从所述图像特征向量中获得若干标记像素,基于所述标记像素获得第一目标区域向量。
需要说明的是,上述标记像素表示原始文档中各版面元素对应的像素类型,换句话来说,若两个版面元素的标记像素相同,则说明这两个版面元素的像素类型相同。
步骤S202:将所述图像特征向量输入至多尺度图像特征的目标区域生成模块中,获得第二目标区域向量。
在具体实现中,由于标记像素可以用来确认版面元素对应的像素类型,而单个候选锚定框向量对应的单个候选锚定框中的版面元素也是相同的,因此可以通过将相同标记像素进行归类,再基于归类结果来确定候选锚定框向量。
步骤S203:将所述第一目标区域向量的置信度与所述第二目标区域向量的置信度进行对比,并基于对比结果获取候选锚定框向量。
在具体实现中,可以通过判断上述第一目标区域向量的置信度和上述第二目标区域向量的置信度之间的大小来确定上述候选锚定框向量。例如,当第一目标区域向量的置信度大于第二目标区域向量的置信度时,将第一目标区域向量设定为候选锚定框向量;当第二目标区域向量的置信度大于第一目标区域向量的置信度时,将第二目标区域向量设定为候选锚定框向量。
进一步地,在本实施例中,为了提高候选锚定框的准确性,从而更好地进行版面分割,所述步骤S201可包括:
步骤S2011:从所述图像特征向量中获得若干标记像素,将所述标记像素中具有相同标记的标记像素对应的文档区域进行合并,获得若干连通域。
需要说明的是,上述连通域即为图像中具有相同像素值并且位置相邻的像素组成的区域。而具有相同标记的标记像素也就意味着具有相同的像素值,基于此,可以将具有相同标记的标记像素对应的文档区域进行合并,从而形成连通域。
步骤S2012:根据所述连通域以及无相同标记的标记像素对应的文档区域获得第一目标区域向量。
应理解的是,在原始文档中可能还存在无相同标记的标记像素,也就是说,这类标记像素对应的文档区域需要单独为它们建立一个目标区域,从而与其他文档区域进行区分。
进一步地,基于上述第一实施例,在本实施例中,为了更为全面地获取包括小目标区域或重合区域对应的区域分类以及区域分类对应的分类置信度,所述步骤S30,可包括:
步骤S301:从所述文本特征向量中获取文本嵌入向量和文本框位置向量。
需要说明的是,上述文本嵌入向量表示文本特征向量中单位数量文本对应的向量。其中,上述文本所属的语种可以是汉语,也可以是英语、日语或其他拥有文字系统的语种,本实施例对此不加以限制。上述文本框位置向量为文本特征向量中文本所占区域对应的向量。
在具体实现中,可以通过WordEmbedding(词嵌入向量)将上述文本特征向量中的文本转换成固定长度的向量,从而获得文本嵌入向量和文本框位置向量。
步骤S302:通过注意力网络对所述文本嵌入向量、所述文本框位置向量和所述候选锚定框向量进行融合,获得融合向量。
应理解的是,上述注意力网络为一种通过对最底层的特征向量向上采样,并进行融合后得到高分辨率、强语义特征向量的网络结构。
步骤S303:基于所述融合向量获取区域分类和所述区域分类对应的分类置信度。
在具体实现中,上述融合向量通过结合文本语义、目标位置关系和视觉特征多模态信息,即结合了文本嵌入向量、文本框位置向量和候选锚定框向量来获取区域分类和所述区域分类对应的分类置信度。
本实施例通过从图像特征向量中获得若干标记像素,将标记像素中具有相同标记的标记像素对应的文档区域进行合并,获得若干连通域。根据连通域以及无相同标记的标记像素对应的文档区域获得第一目标区域向量。将图像特征向量输入至多尺度图像特征的目标区域生成模块中,获得第二目标区域向量,将第一目标区域向量的置信度与第二目标区域向量的置信度进行对比,并基于对比结果获取候选锚定框向量,从文本特征向量中获取文本嵌入向量和文本框位置向量,通过注意力网络对文本嵌入向量、文本框位置向量和候选锚定框向量进行融合,获得融合向量,基于融合向量获取区域分类和区域分类对应的分类置信度。相较于现有技术中仅通过视觉或仅通过语义对文档版面进行分割,本实施例上述方法通过融合文本语义、目标位置关系和视觉特征多模态信息,从而避免了现有技术在文档版面分割时出现的部分特征漏检错检的问题,进而获得准确的文档版面区域分类。
参考图4,图4为本发明文档版面分割方法第三实施例的流程示意图。
基于上述各实施例,在本实施例中,为了准确判断,所述步骤S40,可包括:
步骤S401:从所述分类置信度中筛选出可信分类置信度,所述可信分类置信度为数值大于或等于预设置信度的分类置信度。
在具体实现中,由于上述各分类置信度的数值可能存在不一致的情况,因此需要通过制定一种规则来对所有分类置信度进行分类。可以通过将各分类置信度与预设置信度进行对比的方式来对各分类置信度进行分类,即将大于或等于预设置信度的分类置信度分类为可信分类置信度,将小于预设置信度的分类置信度分类为非可信分类置信度。
步骤S402:基于所述可信分类置信度对应的区域分类对所述原始文档进行版面分割。
应理解的是,上述可信分类置信度对应的区域分类即为文档版面分割设备确定的分割区域,文档版面分割设备可以基于该区域分类对上述原始文档的版面进行分割操作。
进一步地,基于上述各实施例,在本实施例中,为了提高文档版面分割的精确度,所述步骤S402可包括:
步骤S4021:将所述可信分类置信度对应的区域分类输入至基于注意力机制的特征增强层,获得排序后的区域分类。
可理解的是,上述基于注意力机制的特征增强层为一种能够根据对象的权重大小来突出对象的某些重要特征。在本实施例中,上述基于注意力机制的特征增强层可以对输入的可信分类置信度对应的区域分类的权重大小进行排序,从而根据排序结果来确定排序后的区域分类。
步骤S4022:对所述排序后的区域分类进行特征加权,获得加权区域分类。
在具体实现中,上述排序后的区域分类即对应可信置信度从高至低的区域分类。文档版面分割设备可以通过解析识别出的文字特征向量,结合版面元素的位置关系,从置信度高的区域分类出发,在一定区域内为周围区域分类对应版面元素的权重进行特征加权,从而增加置信度高的区域分类对应的权重,获得加权区域分类。
步骤S4023:基于所述加权区域分类对所述原始文档进行版面分割。
在具体实现中,可以通过在上述加权区域分类中引入二值化特征图和区域边界特征图。其中,二值化特征图对应一个可微自适应二值化函数,将FPNet生成的多尺度特征聚合后对应的置信度进行二值化操作,再计算有效区域的轮廓,得到任意角度的四边形;区域边界特征图对应一个锚框的匹配度函数,为RPNet推荐的区域匹配合适的锚框,再调整锚框的长宽比适应区域边界,得到与预设锚框一致角度的四边形。在上述两类特征图计算得到的候选锚定框倾斜一致的情况下,通常选择置信度最高的特征图对应的加权区域分类来确定文档版面分割的具体分割区域。
本实施例从分类置信度中筛选出可信分类置信度,将可信分类置信度对应的区域分类输入至基于注意力机制的特征增强层,获得排序后的区域分类,然后对排序后的区域分类进行特征加权,获得加权区域分类,最后基于加权区域分类对原始文档进行版面分割。相较于现有技术利用OCR等方法获得文本信息,再结合版面元素的形态特征设计统计学习规则简单地判断分类,本实施例上述方法通过引入一系列图像经模型来计算生成四边形检测框,从而能够贴合原始文档版面的真实轮廓,进而提高了文档版面分割的精确度。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有文档版面分割程序,所述文档版面分割程序被处理器执行时实现如上文所述的文档版面分割方法的步骤。
参照图5,图5为本发明文档版面分割装置第一实施例的结构框图。
如图5所示,本发明实施例提出的文档版面分割装置包括:
数据提取模块501,用于从原始文档中提取图像特征向量和文本特征向量;
第一计算模块502,用于基于所述图像特征向量获取候选锚定框向量,所述候选锚定框向量用于表示所述原始文档中版面元素的基础轮廓;
第二计算模块503,用于基于所述文本特征向量和所述候选锚定框向量获取区域分类和所述区域分类对应的分类置信度;
版面分割模块504,用于根据所述区域分类和所述分类置信度对所述原始文档进行版面分割。
本实施例首先从原始文档中提取图像特征向量和文本特征向量,并基于图像特征向量获取候选锚定框向量,候选锚定框向量用于表示原始文档中版面元素的基础轮廓,然后基于文本特征向量和候选锚定框向量获取区域分类和区域分类对应的分类置信度,最后根据区域分类和分类置信度对原始文档进行版面分割。相比于现有技术基于规则和传统计算机视觉算法的方法,即通过人为制定的分割规则来对文档版面进行分割,本实施例上述方法通过结合图像特征向量对应的视觉语义分析技术和文本特征向量对应的自然语言处理技术实现文档版面分割,从而消除了现有技术中人为因素对于版面分割结果造成的负面影响,进而能够有效地提升版面元素定位精度和分类准确性,对文档版面进行准确分割。
本发明文档版面分割装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种文档版面分割方法,其特征在于,所述方法包括以下步骤:
从原始文档中提取图像特征向量和文本特征向量;
基于所述图像特征向量获取候选锚定框向量,所述候选锚定框向量用于表示所述原始文档中版面元素的基础轮廓;
基于所述文本特征向量和所述候选锚定框向量获取区域分类和所述区域分类对应的分类置信度;
根据所述区域分类和所述分类置信度对所述原始文档进行版面分割;
其中,所述从原始文档中提取图像特征向量和文本特征向量,包括:
通过双流卷积网络从原始文档的图像和对应文本内容中获取图像特征和文本特征,所述双流卷积网络包含ResNet50网络结构和TextCNN网络结构,所述ResNet50网络结构用于从所述原始文档中提取所述图像特征,所述TextCNN网络结构用于从所述原始文档中提取所述文本特征;
将所述图像特征和所述文本特征对应的特征值分别乘以预设非零向量,获得图像特征向量和文本特征向量;
所述基于所述图像特征向量获取候选锚定框向量,包括:
从所述图像特征向量中获得若干标记像素,基于所述标记像素获得第一目标区域向量,所述标记像素为所述原始文档中各版面元素对应的像素类型;
将所述图像特征向量输入至多尺度图像特征的目标区域生成模块中,获得第二目标区域向量;
将所述第一目标区域向量的置信度与所述第二目标区域向量的置信度进行对比,并基于对比结果获取候选锚定框向量。
2.如权利要求1所述的文档版面分割方法,其特征在于,所述从所述图像特征向量中获得若干标记像素,基于所述标记像素获得第一目标区域向量,包括:
从所述图像特征向量中获得若干标记像素,将所述标记像素中具有相同标记的标记像素对应的文档区域进行合并,获得若干连通域;
根据所述连通域以及无相同标记的标记像素对应的文档区域获得第一目标区域向量。
3.如权利要求1所述的文档版面分割方法,其特征在于,所述基于所述文本特征向量和所述候选锚定框向量获取区域分类和所述区域分类对应的分类置信度,包括:
从所述文本特征向量中获取文本嵌入向量和文本框位置向量;
通过注意力网络对所述文本嵌入向量、所述文本框位置向量和所述候选锚定框向量进行融合,获得融合向量;
基于所述融合向量获取区域分类和所述区域分类对应的分类置信度。
4.如权利要求1所述的文档版面分割方法,其特征在于,所述根据所述区域分类和所述分类置信度对所述原始文档进行版面分割,包括:
从所述分类置信度中筛选出可信分类置信度,所述可信分类置信度为数值大于或等于预设置信度的分类置信度;
基于所述可信分类置信度对应的区域分类对所述原始文档进行版面分割。
5.如权利要求4所述的文档版面分割方法,其特征在于,所述基于所述可信分类置信度对应的区域分类对所述原始文档进行版面分割,包括:
将所述可信分类置信度对应的区域分类输入至基于注意力机制的特征增强层,获得排序后的区域分类;
对所述排序后的区域分类进行特征加权,获得加权区域分类;
基于所述加权区域分类对所述原始文档进行版面分割。
6.一种文档版面分割装置,其特征在于,所述文档版面分割装置包括:
数据提取模块,用于从原始文档中提取图像特征向量和文本特征向量;
第一计算模块,用于基于所述图像特征向量获取候选锚定框向量,所述候选锚定框向量用于表示所述原始文档中版面元素的基础轮廓;
第二计算模块,用于基于所述文本特征向量和所述候选锚定框向量获取区域分类和所述区域分类对应的分类置信度;
版面分割模块,用于根据所述区域分类和所述分类置信度对所述原始文档进行版面分割;
其中,所述数据提取模块,还用于:
通过双流卷积网络从原始文档的图像和对应文本内容中获取图像特征和文本特征,所述双流卷积网络包含ResNet50网络结构和TextCNN网络结构,所述ResNet50网络结构用于从所述原始文档中提取所述图像特征,所述TextCNN网络结构用于从所述原始文档中提取所述文本特征;
将所述图像特征和所述文本特征对应的特征值分别乘以预设非零向量,获得图像特征向量和文本特征向量;
所述第一计算模块,还用于:
从所述图像特征向量中获得若干标记像素,基于所述标记像素获得第一目标区域向量,所述标记像素为所述原始文档中各版面元素对应的像素类型;
将所述图像特征向量输入至多尺度图像特征的目标区域生成模块中,获得第二目标区域向量;
将所述第一目标区域向量的置信度与所述第二目标区域向量的置信度进行对比,并基于对比结果获取候选锚定框向量。
7.一种文档版面分割设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文档版面分割程序,所述文档版面分割程序配置为实现如权利要求1至5中任一项所述的文档版面分割方法的步骤。
8.一种存储介质,其特征在于,所述存储介质上存储有文档版面分割程序,所述文档版面分割程序被处理器执行时实现如权利要求1至5中任一项所述的文档版面分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211504111.7A CN115546790B (zh) | 2022-11-29 | 2022-11-29 | 文档版面分割方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211504111.7A CN115546790B (zh) | 2022-11-29 | 2022-11-29 | 文档版面分割方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115546790A CN115546790A (zh) | 2022-12-30 |
CN115546790B true CN115546790B (zh) | 2023-04-07 |
Family
ID=84722347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211504111.7A Active CN115546790B (zh) | 2022-11-29 | 2022-11-29 | 文档版面分割方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546790B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361247A (zh) * | 2021-06-23 | 2021-09-07 | 北京百度网讯科技有限公司 | 文档版面分析方法、模型训练方法、装置和设备 |
CN113420669A (zh) * | 2021-06-24 | 2021-09-21 | 武汉工程大学 | 基于多尺度训练和级联检测的文档版面分析方法和系统 |
CN115082945A (zh) * | 2022-05-12 | 2022-09-20 | 吉林省吉林祥云信息技术有限公司 | 一种基于深度学习的灰度印章着色方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120233205A1 (en) * | 2008-03-07 | 2012-09-13 | Inware, Llc | System and method for document management |
US20180039853A1 (en) * | 2016-08-02 | 2018-02-08 | Mitsubishi Electric Research Laboratories, Inc. | Object Detection System and Object Detection Method |
CN108304761A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、存储介质和计算机设备 |
CN108460400B (zh) * | 2018-01-02 | 2022-05-20 | 南京师范大学 | 一种结合多种特征信息的高光谱图像分类方法 |
US10671878B1 (en) * | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
CN109933756B (zh) * | 2019-03-22 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN109977956B (zh) * | 2019-04-29 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、电子设备以及存储介质 |
US11443416B2 (en) * | 2019-08-30 | 2022-09-13 | Sas Institute Inc. | Techniques for image content extraction |
CN112612911A (zh) * | 2020-12-30 | 2021-04-06 | 华为技术有限公司 | 一种图像处理方法、系统、设备及介质、程序产品 |
CN113378580B (zh) * | 2021-06-23 | 2022-11-01 | 北京百度网讯科技有限公司 | 文档版面分析方法、模型训练方法、装置和设备 |
CN114330234A (zh) * | 2021-12-30 | 2022-04-12 | 科大讯飞股份有限公司 | 版面结构分析方法、装置、电子设备和存储介质 |
CN114863431A (zh) * | 2022-04-14 | 2022-08-05 | 中国银行股份有限公司 | 一种文本检测方法、装置及设备 |
CN114926849A (zh) * | 2022-04-22 | 2022-08-19 | 南京三百云信息科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
-
2022
- 2022-11-29 CN CN202211504111.7A patent/CN115546790B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361247A (zh) * | 2021-06-23 | 2021-09-07 | 北京百度网讯科技有限公司 | 文档版面分析方法、模型训练方法、装置和设备 |
CN113420669A (zh) * | 2021-06-24 | 2021-09-21 | 武汉工程大学 | 基于多尺度训练和级联检测的文档版面分析方法和系统 |
CN115082945A (zh) * | 2022-05-12 | 2022-09-20 | 吉林省吉林祥云信息技术有限公司 | 一种基于深度学习的灰度印章着色方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115546790A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304835B (zh) | 文字检测方法和装置 | |
WO2019192397A1 (zh) | 一种任意形状的场景文本端到端识别方法 | |
EP3570208A1 (en) | Two-dimensional document processing | |
US8442319B2 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
US20190385054A1 (en) | Text field detection using neural networks | |
US20180286023A1 (en) | Digital Image Processing through use of an Image Repository | |
CN111291759A (zh) | 文字检测方法、装置、电子设备及存储介质 | |
Fernandes et al. | TableDet: An end-to-end deep learning approach for table detection and table image classification in data sheet images | |
US11281928B1 (en) | Querying semantic data from unstructured documents | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
CN112269872A (zh) | 简历解析方法、装置、电子设备及计算机存储介质 | |
CN113255686A (zh) | 图像中印章的识别方法、装置、处理设备及存储介质 | |
JP5480008B2 (ja) | マンガコンテンツの要約を生成する要約マンガ画像生成装置、プログラム及び方法 | |
CN114092949A (zh) | 类别预测模型的训练、界面元素类别的识别方法及装置 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
CN113239227A (zh) | 图像数据结构化方法、装置、电子设备及计算机可读介质 | |
Ma et al. | A recognition method of hand gesture with CNN-SVM model | |
CN115546790B (zh) | 文档版面分割方法、装置、设备及存储介质 | |
Yu et al. | An effective method for figures and tables detection in academic literature | |
Rayar et al. | Comic text detection using neural network approach | |
Razzaghi et al. | Image retargeting using nonparametric semantic segmentation | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN113128496B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
CN114399626A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |