CN112509106A - 文档图片展平方法、装置以及设备 - Google Patents

文档图片展平方法、装置以及设备 Download PDF

Info

Publication number
CN112509106A
CN112509106A CN202011287722.1A CN202011287722A CN112509106A CN 112509106 A CN112509106 A CN 112509106A CN 202011287722 A CN202011287722 A CN 202011287722A CN 112509106 A CN112509106 A CN 112509106A
Authority
CN
China
Prior art keywords
document
pictures
dimensional
picture
structure information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011287722.1A
Other languages
English (en)
Inventor
陶炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202011287722.1A priority Critical patent/CN112509106A/zh
Publication of CN112509106A publication Critical patent/CN112509106A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文档图片展平方法、装置以及设备,本发明的构思在于结合三维重建、深度学习以及相关优化知识,通过多张图片的联合输入进行文档图片的三维重构,并从中获取三维结构信息,接着再由基于深度学习框架的网络模型根据三维结构信息进行展平校正处理。本发明提出的解决思路简便、高效、且可以保证处理结果的精度,无需花费较大成本构建拍摄平台也无需进行复杂的求解运算,在满足实时处理要求的同时,能够显著降低信息的丢失率。

Description

文档图片展平方法、装置以及设备
技术领域
本发明涉及图像处理领域,尤其涉及一种文档图片展平方法、装置以及设备。
背景技术
在日常工作中经常会使用到文档进行信息的传递和交流,但是由于传统文档载体不利于传输和共享等缺点,因此电子文档成为了一种非常快捷和方便的文档形式,通常可以使用诸如手机、相机等拍摄设备对文档内容进行采集,然后进行后续信息的提取和共享。
但是在拍摄的过程中很容易造成信息丢失,比如文档实物由于材质和形态等原因,会出现弯曲或折痕等变形情况,这就使得拍摄的文档图片中展示的内容有所缺损甚至丢失。
经发明人实践发现,对于此类不规则或变形的文档图片进行校正的操作处理,一般都较为复杂且处理效率不高,或者是需要搭建专业设备平台,导致难以合理控制成本,因而均无法在最大保留原始信息的目标前提下,高效、便捷、精准地完成展平处理任务。
发明内容
鉴于上述,本发明旨在提供一种文档图片展平方法、装置以及设备,以及相应地提供了一种计算机可读存储介质和计算机程序产品,用以在对文档图片进行展平处理时确保信息损失较小,并兼顾高效、准确的展平效果以及相对较低的处理成本。
本发明采用的技术方案如下:
第一方面,本发明提供了一种文档图片展平方法,其中,包括:
获取同一待处理文档的多张图片;
根据所述多张图片对所述待处理文档进行三维重建,获得三维结构信息;
根据所述三维结构信息以及预先训练的纹理映射模型,进行渲染贴图处理,得到展平后的文档图片。
在其中至少一种可能的实现方式中,所述对所述待处理文档进行三维重建,获得三维结构信息包括:
根据所述多张图片以及预先训练的三维重建模型,获得所述待处理文档的三维网格及其顶点的位置信息和法向值。
在其中至少一种可能的实现方式中,所述三维重建模型用于:
提取到所述多张图片的特征向量;
对特征向量进行下采样,得到特征信息;
对所述特征信息进行上采样,得到所述三维结构信息的特征向量。
在其中至少一种可能的实现方式中,所述纹理映射模型包含若干稠密块层;
首个稠密块层接收三维结构信息的特征向量并进行处理;
后续稠密块层接收在先所有稠密块层的处理结果以及三维结构信息的特征向量;
经最后一个稠密块层处理后,输出经渲染贴图的展平后的文档图片。
在其中至少一种可能的实现方式中,所述获取同一待处理文档的多张图片包括:
基于多种拍摄位置所采集的所述待处理文档的多视角多形态的图片,且在同一角度采集若干张图片。
在其中至少一种可能的实现方式中,所述方法还包括:
对所述待处理文档的同一角度的若干张图片进行预处理,得到该角度下的优化图片。
第二方面,本发明提供了一种文档图片展平装置,其中,包括:
图片获取模块,用于获取同一待处理文档的多张图片;
三维重建模块,用于根据所述多张图片对所述待处理文档进行三维重建,获得三维结构信息;
纹理映射模块,用于根据所述三维结构信息以及预先训练的纹理映射模型,进行渲染贴图处理,得到展平后的文档图片。
在其中至少一种可能的实现方式中,所述三维重建模块具体用于:
根据所述多张图片以及预先训练的三维重建模型,获得所述待处理文档的三维网格及其顶点的位置信息和法向值。
在其中至少一种可能的实现方式中,所述三维重建模块包括:
特征提取单元,用于提取到所述多张图片的特征向量;
编码单元,用于对特征向量进行下采样,得到特征信息;
解码单元,用于对所述特征信息进行上采样,得到所述三维结构信息的特征向量。
在其中至少一种可能的实现方式中,所述纹理映射模块包括:
首个稠密块单元,用于接收三维结构信息的特征向量并进行处理;
若干个中间稠密块单元,用于接收在先所有稠密块层的处理结果以及三维结构信息的特征向量;
最后一个稠密块单元,用于在处理后输出经渲染贴图的展平后的文档图片。
在其中至少一种可能的实现方式中,所述图片获取模块具体用于:
基于多种拍摄位置所采集的所述待处理文档的多视角多形态的图片,且在同一角度采集若干张图片。
在其中至少一种可能的实现方式中,所述装置还包括:
图片预处理模块,用于对所述待处理文档的同一角度的若干张图片进行预处理,得到该角度下的优化图片。
第三方面,本发明提供了一种文档图片展平设备,其中,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机至少执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
第五方面,本发明还提供了一种计算机程序产品,当所述计算机程序产品被计算机执行时,用于至少执行第一方面或者第一方面的任一可能实现方式中的所述方法。
在第五方面的至少一种可能的实现方式中,该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上,也可以部分或者全部存储在不与处理器封装在一起的存储介质上。
本发明的构思在于结合三维重建、深度学习以及相关优化知识,通过多张图片的联合输入进行文档图片的三维重构,并从中获取三维结构信息,接着再由基于深度学习框架的网络模型根据三维结构信息进行展平校正处理。本发明提出的解决思路简便、高效、且可以保证处理结果的精度,无需花费较大成本构建拍摄平台也无需进行复杂的求解运算,在满足实时处理要求的同时,能够显著降低信息的丢失率。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的文档图片展平方法的实施例的流程图;
图2为本发明提供的文档图片展平装置的实施例的示意图;
图3为本发明提供的文档图片展平设备的实施例的示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在对本发明具体技术方案介绍之前,先对发明人的处理及推导思路进行如下说明。对于如何将电子图片中扭曲变形的文档进行校正展平该问题,发明人首先考虑的是采用三维优化方式,即单独利用三维重建技术获得相应于文档的三维网格,然后再基于迭代优化策略进行展平求解。但是经过实践发现,虽然可以将展平问题转化为数学优化问题进行处理,但求解复杂度较高,导致处理效率很低,尤其不能满足实时处理场景的要求。
进一步地,发明人考虑采用与深度学习技术,尤其是以神经网络相关的处理方式,以期缓解求解压力。该策略只需一张图片作为神经网络的输入,但是其必然需要利用到专业的深度采集设备构建该输入图片的深度图并重建出网格,尤其利用深度相机采集数据的过程,需要构建相应的采集平台,导致此方式成本耗费太大,并且相比于普通相机而言,深度相机灯专业拍摄设备对外部环境更为敏感,也容易引入随机误差;此外,该方式的弊端还在于仅仅利用单张图片的信息,实际验证后发现并不能有效解决信息缺失的问题。
有鉴于此,发明人考虑对上述两种尝试思路进行整合,以期同时规避求解复杂、成本较高、信息缺失的问题。具体地,本发明提供了一种文档图片展平方法的实施例,参照图1所示,具体可以包括:
步骤S1、获取同一待处理文档的多张图片。
在实际操作中,无需花费巨大成本配置专业的深度拍照设备,只需利用普通的相机、手机等通用的图片采集设备即可以对待处理文档进行拍照,从而获取待处理文档的多张图片,由此在源头处便可以确保信息的全面性,当然为了保证后续处理的精度,选用的拍照设备所提供的图片的清晰度越高越佳,而现有的通用拍照设备也已相对成熟,可以达到该需求。
具体到多张图片的采集,可以基于多种不同的拍摄位置采集同一所述待处理文档的多视角多形态的图片,例如可以在不同方位、不同距离等条件下拍摄到多视角图片,当然还可以结合打灯等光照效果获得不同亮度的多角度图片;同时为了保证图片质量可靠、信息获取全面,优选在同一角度采集待处理文档的若干张图片,也即是在拍摄过程中,对于单一角度方向而言优选拍摄多张待处理文档的图片。本发明对所述多张图片的数量、角度选取等拍摄参数不做限定,本领域技术人员可以理解的是,图片数量越多、拍摄参数越全面,则对后续处理结果更有正面的保证,但在实际运行阶段也应当结合整体的运算代价、拍摄环境、需求效果等进行综合考量和平衡。
基于上述构思,还可以进一步对所述待处理文档某一角度下的多张图片进行预处理,得到该角度下的优化图片。也即是由于在拍摄的过程中,有可能会引入随机误差,因而在进行后续处理之前,可以通过成熟的图像处理技术对单一角度的多张图片进行整合优化,例如但不限于对同一角度的多张图片进行平均,从而可以消除拍摄过程中可能引入的误差,由此提高图片质量,经过前述处理环节就可以得到同一文档在不同视角方向的多张高质量照片。
步骤S2、根据所述多张图片对所述待处理文档进行三维重建,获得三维结构信息。
经实践后,本发明认为三维结构信息在整个展平任务处理过程中具有十分重要的意义,因而在本实施例中同样提出需要恢复与文档图片对应的三维网格。具体地,可以利用SFM(structure from motion)技术,根据前述实施例获取到的多张图片进行相应的三维重建,得到重建之后的文档三维网格图。进一步地,在得到相应的三维网格之后,还可以对三维网格进行光滑和去噪操作,从而确保可以获得较为精准的三维结构信息。
对于所述三维结构信息,还可以具体说明如下:本发明之所以要引入三维结构信息,发明人经分析认为至少有两点原因:(1)对于一张二维图片而言,如果想要将其展平,从数学层面来讲,就是对曲面进行展平,也即是本质要求就是该曲面是可展曲面,但是如果仅仅将维度限制在二维平面上,是远远不能够表达复杂曲面的信息的。(2)展平的目的在于为了更好地识别图片中的内容,那么这个目标就对应到获得图片较佳的纹理信息,进而也就关联到需要获得高精度的图片渲染效果,而以上处理须在三维空间上进行,才具有实际意义。鉴于以上分析,本发明认为有必要获取三维网格的结构信息,更为具体地,在实际操作中不仅可以获得三维网格的采顶点位置信息作为约束条件,还可以优选引入顶点的法向值作为额外的补充约束。发明人观察到额外的先验信息对于平整的图片而言,其顶点方向是相同的,因而引入三维网格的顶点法向值的目的在于是与顶点的位置数据相辅相成,即法向信息也可以反过来影响顶点的位置信息。综上而言,发明人认为从二维空间恢复并得到三维空间信息,是一个不适定问题,因此需要更多额外的信息来对该问题进行约束,在本发明的优选实施中联合了顶点位置及法向信息,便可以更好地对二维图片转换到三维网格进行约束,同时也能够获得精准的三维结构表示。
步骤S3、根据所述三维结构信息以及预先训练的纹理映射模型,进行渲染贴图处理,得到展平后的文档图片。
最后,可以基于深度学习框架预先训练出用于展平贴图操作的纹理映射模型,其作用是将前述步骤得到的三维结构信息作为输入,将纹理渲染到三维网格上并投影到二维空间,最后输出具备展平效果的文档图片。
基于此构思,三维重建过程也可以与深度学习相结合,也即是在实际操作中可以根据前述多张输入图片以及预先基于深度学习框架训练的三维重建模型,获得所述待处理文档的三维网格及其顶点的位置信息和法向值,这样也可以在一定程度上降低处理复杂度。换言之,在本发明一些更佳的实施例中,可以考虑由三维重建模型与纹理映射模型联合实现文档图片展平任务,即将采集到的同一待处理文档的多张图片输入(较佳地可以经过优化处理后再输入)至三维重建模型获得三维网格的顶点位置和法向值,然后这些特定的三维数据再输入至纹理映射模型进行渲染贴图处理,最终得到展平处理后的图片。
由于该实施例的主要处理环节均是基于深度学习框架实现的,因此后文将对该技术方案涉及的数据集构造、模型网络设计及训练等具体过程进行介绍,此处,则先对上述两个网络模型的处理细节进行如下举例:
(1)所述三维重建模型的用途是:提取到所述多张图片的特征向量;对特征向量进行下采样,得到特征信息;对所述特征信息进行上采样,得到所述三维结构信息的特征向量。后文将对该模型结构进行具体介绍。
(2)所述纹理映射模型可以包含若干稠密块层:首个稠密块层接收三维结构信息的特征向量并进行处理;后续的稠密块层接收在先所有稠密块层的处理结果以及三维结构信息的特征向量;经最后一个稠密块层处理后,输出经渲染贴图的展平后的文档图片。后文将对该模型结构进行具体介绍。
如前文提及,本发明一些基于深度学习框架下实施的示例,会涉及数据集构造、网络结构设计以及训练等方面,这里对此进行具体介绍:
(一)数据集构造
当本发明在某些实施例中采用深度学习技术时,作为训练用途的数据集的构造便是较为重要的。具体来说,在实际操作中可以先利用通用的高清图片拍摄设备或扫描设备对平整的原始文档样本图片进行采集,获得文档的标准二维数据,并做相应的信息标注。然后可以通过人工或机械方式处理原始文档,使其变形或出现弯曲、折痕等,当然,可以根据需求构造出变形程度不一的待处理文档样本。接着,利用通用的拍照设备对待处理文档样本进行多方向多角度的图片采集,除此之外,在拍摄过程中同样可以对单一视角拍摄多张图片(更佳地,在此阶段也可以对多张图片进行前文提及的优化处理,提高图片精度)。由此操作就可以得到同一文档样本在不同视角、不同方向、不同距离、不同亮度的多张图片,作为后续模型训练的输入数据。
接着,可以利用但不限于前文提及的SFM技术获得待处理文档样本的三维网格,并对三维网格数据进行标注,具体可根据多视角下拍摄的图片样本,通过特征匹配方法,找到多张图片之间特征点进行匹配和融合操作,从而实现相应的三维重建,得到该文本图片对应的网格。这样做的好处在于充分利用了多张图片的信息,使得重建后的网格更为精准,也更能反映出真实的文本结构信息。这里可以说明的,优选在得到相应的三维网格后不仅提取到顶点位置数据,同时也可以利用离散微分几何的相关知识计算出各个顶点所对应的法向数据,也即是在较佳的训练集构建方式中,三维网格顶点的法向值也作为三维结构的标注数据之一。
经过上述操作之后,便可以至少得到如下训练数据:某一待处理文档的多张图片,该文档的三维网格的顶点位置标注数据、顶点法向值标注数据、各顶点的拓扑结构和连接关系,以及平整文档的二维图像标注数据。
(二)网络结构设计:
在本发明一些较佳的联合处理实施例中,主要构思在于由输入的多视角图片通过学习的方法,回归得到对应的三维网格结构信息,再根据输入图片的三维结构信息,训练纹理贴图任务,回归得到展平后的最终图片。
那么便会涉及两阶段网络,这里,本发明示意性地给出如下说明:第一阶段可以是结构网络Shape Network,也即是前文所述三维重建模型。该模型的作用是给定待处理文档多张图片,回归输入图片对应的三维结构信息,更佳地,该三维结构信息不仅包括三维网格每个顶点的位置信息,即(x,y,z)坐标值,同时也可以包含各顶点对应的法向值,即(nx,ny,nz)。在实际操作中,Shape Network网络结构可以采用U-net网络作为基本框架,其本质上是一个Encoder-Decoder框架,但需指出此结构框架并非限定,仅为示意。基于该示例,可以具体说明如下:在该网络结构中,输入输出均被转化为相应的向量表示。U-net网络结构主要可以由两部分组成,第一部分为提取特征,对应于Encoder部分。在该部分中,其基本模块可以包括卷积模块、BatchNorm模块、ReLU激活模块以及下采样模块。输入数据依次通过上述模块后,即提取到输入图片的像素特征向量,同时对特征进行下采样。针对该U-Net网络结构而言,例如可以设计四层所述基本模块,即输入数据依次经过四层卷积之后进行下采样得到最后的特征信息;第二部分为恢复特征,对应于Decoder部分。在该部分中,其基本模块可以包括卷积模块、BatchNorm模块以及上采样模块。Decoder过程是接收Encoder提取的特征信息作为其输入,依次经过上述模块进行解码操作。同样地,可以设计四层基本模块,即Decoder的输入数据依次经过四层卷积之后进行上采样得到最后的三维结构信息,将该信息作为Shape Network的输出。
第二阶段可以是纹理映射网络Texture Mapping Network,也即是前文所述纹理映射模型。该模型的作用是给定输入的三维结构信息,回归得到最后的展平图片。在实际操作中,同样可以但不限于采用Encoder-Decoder结构实现,进一步地,还可以在该网络中采用Coordinates Convolution卷积结构。具体到本发明的一些较佳实施例中,该网络结构中的主要模块可以采用Multiple Densenet Blocks(DenseNet的主要构建模块是稠密块和过渡层,前者定义了输入和输出是如何连结的,后者则用来控制通道数,使之不过大),这样可以较佳地提高网络的泛化能力。具体来说,稠密块其组成结构同样可以是卷积模块、BatchNorm模块以及ReLu激活模块,并且同样地,也可以设计四层该稠密块进行网络结构的搭建。不同之处在于,稠密块不仅接收来自上一部分的数据作为输入,同时其也把原始输入作为该模块的输入,也就是其把各模块的输入进行整合。之后,其再通过过渡层进行连接,过渡层主要可以由卷积层和Pooling层组成。
(三)网络训练
对于第一阶段,可利用数据集训练前述结构网络,具体可以是利用某一待处理文档的多张图片以及该文档的三维网格标注数据训练Shape Network得到与输入图片对应的三维信息,优选包括顶点位置坐标和法向信息。对于第二阶段,可利用数据集训练前述纹理映射网络,具体可以是利用三维网格标注数据和二维图像标注数据训练Texture MappingNetwork得到渲染贴图并投影在二维空间的展平图片。上述两个训练阶段所涉及的目标函数,可以参考如下:
Figure BDA0002782908660000101
Figure BDA0002782908660000102
L=LC+γLB
首先对于Shape Network结构而言,
Figure BDA0002782908660000103
为网络结构预测的三维信息,C为真实三维信息,也就是三维标注数据,
Figure BDA0002782908660000104
为对应的梯度符号。在Loss函数中(LC),采用L1范数进行约束,同时λ为对应的权重系数,用于调整两项之间的权重关系。
然后对于Texture Mapping Network结构而言,
Figure BDA0002782908660000105
为网络结构预测的展平结果,B为真实展平结果,也就是二维标注数据。在Loss函数中(LB),同样采用L1范数进行约束。
当然,本领域技术人员可以理解的是,在网络的实际训练过程中,可以分成两阶段进行独立训练,即分别单独训练Shape Network和Texture Mapping Network;训练结束后,再将两个网络串行起来进行联合训练优化,其总的Loss函数即为上述L,γ为对应的权重系数,用于平衡两个网络Loss的权重关系。在联合优化的过程中,还可以用单独训练的网络进行初始化参数;联合训练结束后,利用Loss函数最小的模型作为最终结果的处理工具。对于前述训练方式本身,可参考常规且成熟深度学习训练方法,本发明不作限定。
综上所述,本发明的构思在于结合三维重建、深度学习以及相关优化知识,通过多张图片的联合输入进行文档图片的三维重构,并从中获取三维结构信息,接着再由基于深度学习框架的网络模型根据三维结构信息进行展平校正处理。本发明提出的解决思路简便、高效、且可以保证处理结果的精度,无需花费较大成本构建拍摄平台也无需进行复杂的求解运算,在满足实时处理要求的同时,能够显著降低信息的丢失率。
相应于上述各实施例及优选方案,本发明还提供了一种文档图片展平装置的实施例,如图2所示,具体可以包括如下部件:
图片获取模块1,用于获取同一待处理文档的多张图片;
三维重建模块2,用于根据所述多张图片对所述待处理文档进行三维重建,获得三维结构信息;
纹理映射模块3,用于根据所述三维结构信息以及预先训练的纹理映射模型,进行渲染贴图处理,得到展平后的文档图片。
在其中至少一种可能的实现方式中,所述三维重建模块具体用于:
根据所述多张图片以及预先训练的三维重建模型,获得所述待处理文档的三维网格及其顶点的位置信息和法向值。
在其中至少一种可能的实现方式中,所述三维重建模块包括:
特征提取单元,用于提取到所述多张图片的特征向量;
编码单元,用于对特征向量进行下采样,得到特征信息;
解码单元,用于对所述特征信息进行上采样,得到所述三维结构信息的特征向量。
在其中至少一种可能的实现方式中,所述纹理映射模块包括:
首个稠密块单元,用于接收三维结构信息的特征向量并进行处理;
若干个中间稠密块单元,用于接收在先所有稠密块层的处理结果以及三维结构信息的特征向量;
最后一个稠密块单元,用于在处理后输出经渲染贴图的展平后的文档图片。
在其中至少一种可能的实现方式中,所述图片获取模块具体用于:
基于多种拍摄位置所采集的所述待处理文档的多视角多形态的图片,且在同一角度采集若干张图片。
在其中至少一种可能的实现方式中,所述装置还包括:
图片预处理模块,用于对所述待处理文档的同一角度的若干张图片进行预处理,得到该角度下的优化图片。
应理解以上图2所示的文档图片展平装置可中各个部件的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分部件以软件通过处理元件调用的形式实现,部分部件通过硬件的形式实现。例如,某个上述模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些部件可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些部件可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明所涉及的技术构思可适用于多种实施方式,本发明以下述载体作为示意性说明:
(1)一种文档图片展平设备。该设备具体可以包括:一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行前述实施例或者等效实施方式的步骤/功能。
图3为本发明提供的文档图片展平设备的实施例的结构示意图,其中,该设备可以为服务器、台式PC、笔记本电脑、智能终端等(例如但不限于手机、平板、阅读器、学习机、录音笔、音箱、阅读灯、手表、眼镜等)。
具体如图3所示,文档图片展平设备900包括处理器910和存储器930。其中,处理器910和存储器930之间可以通过内部连接通路互相通信,传递控制和/或数据信号,该存储器930用于存储计算机程序,该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置,更常见的是彼此独立的部件,处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时,该存储器930也可以集成在处理器910中,或者,独立于处理器910。
除此之外,为了使得文档图片展平设备900的功能更加完善,该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个,所述音频电路还可以包括扬声器982、麦克风984等。其中,显示单元970可以包括显示屏。
进一步地,上述设备900还可以包括电源950,用于给该设备900中的各种器件或电路提供电能。
应理解,该设备900中的各个部件的操作和/或功能,具体可参见前文中关于方法、系统等实施例的描述,为避免重复,此处适当省略详细描述。
应理解,图3所示的文档图片展平设备900中的处理器910可以是片上系统SOC,该处理器910中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等,具体在下文中再作介绍。
总之,处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器930中。
(2)一种可读存储介质,在可读存储介质上存储有计算机程序或上述装置,当计算机程序或上述装置被执行时,使得计算机执行前述实施例或等效实施方式的步骤/功能。
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。
(3)一种计算机程序产品(该产品可以包括上述装置),该计算机程序产品在终端设备上运行时,使终端设备执行前述实施例或等效实施方式的文档图片展平方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指APP;接续前文,上述设备/终端可以是一台计算机设备,并且,该计算机设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括特定集成电路ASIC,或者是被配置成实施本发明实施例的一个或多个集成电路等,此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储器等存储介质中;而前述的存储器/存储介质可以包括:非易失性存储器(non-volatile memory),例如非可移动磁盘、U盘、移动硬盘、光盘等,以及只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)等。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。尤其,对于装置、设备等实施例而言,由于其基本相似于方法实施例,所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的,其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (10)

1.一种文档图片展平方法,其特征在于,包括:
获取同一待处理文档的多张图片;
根据所述多张图片对所述待处理文档进行三维重建,获得三维结构信息;
根据所述三维结构信息以及预先训练的纹理映射模型,进行渲染贴图处理,得到展平后的文档图片。
2.根据权利要求1所述的文档图片展平方法,其特征在于,所述对所述待处理文档进行三维重建,获得三维结构信息包括:
根据所述多张图片以及预先训练的三维重建模型,获得所述待处理文档的三维网格及其顶点的位置信息和法向值。
3.根据权利要求2所述的文档图片展平方法,其特征在于,所述三维重建模型用于:
提取到所述多张图片的特征向量;
对特征向量进行下采样,得到特征信息;
对所述特征信息进行上采样,得到所述三维结构信息的特征向量。
4.根据权利要求1所述的文档图片展平方法,其特征在于,所述纹理映射模型包含若干稠密块层;
首个稠密块层接收三维结构信息的特征向量并进行处理;
后续稠密块层接收在先所有稠密块层的处理结果以及三维结构信息的特征向量;
经最后一个稠密块层处理后,输出经渲染贴图的展平后的文档图片。
5.根据权利要求1~4任一项所述的文档图片展平方法,其特征在于,所述获取同一待处理文档的多张图片包括:
基于多种拍摄位置所采集的所述待处理文档的多视角多形态的图片,且在同一角度采集若干张图片。
6.根据权利要求5所述的文档图片展平方法,其特征在于,所述方法还包括:
对所述待处理文档的同一角度的若干张图片进行预处理,得到该角度下的优化图片。
7.一种文档图片展平装置,其特征在于,包括:
图片获取模块,用于获取同一待处理文档的多张图片;
三维重建模块,用于根据所述多张图片对所述待处理文档进行三维重建,获得三维结构信息;
纹理映射模块,用于根据所述三维结构信息以及预先训练的纹理映射模型,进行渲染贴图处理,得到展平后的文档图片。
8.根据权利要求7所述的文档图片展平装置,其特征在于,所述三维重建模块包括:
特征提取单元,用于提取到所述多张图片的特征向量;
编码单元,用于对特征向量进行下采样,得到特征信息;
解码单元,用于对所述特征信息进行上采样,得到所述三维结构信息的特征向量。
9.根据权利要求7或8所述的文档图片展平装置,其特征在于,所述纹理映射模块包括:
首个稠密块单元,用于接收三维结构信息的特征向量并进行处理;
若干个中间稠密块单元,用于接收在先所有稠密块层的处理结果以及三维结构信息的特征向量;
最后一个稠密块单元,用于在处理后输出经渲染贴图的展平后的文档图片。
10.一种文档图片展平设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行权利要求1~6任一项所述的文档图片展平方法。
CN202011287722.1A 2020-11-17 2020-11-17 文档图片展平方法、装置以及设备 Pending CN112509106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011287722.1A CN112509106A (zh) 2020-11-17 2020-11-17 文档图片展平方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011287722.1A CN112509106A (zh) 2020-11-17 2020-11-17 文档图片展平方法、装置以及设备

Publications (1)

Publication Number Publication Date
CN112509106A true CN112509106A (zh) 2021-03-16

Family

ID=74956526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011287722.1A Pending CN112509106A (zh) 2020-11-17 2020-11-17 文档图片展平方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN112509106A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723289A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN115641280A (zh) * 2022-12-16 2023-01-24 摩尔线程智能科技(北京)有限责任公司 图像校正方法及装置、电子设备和存储介质
WO2023019974A1 (zh) * 2021-08-17 2023-02-23 北京百度网讯科技有限公司 文档图像的矫正方法、装置、电子设备和存储介质
WO2023221683A1 (zh) * 2022-05-20 2023-11-23 腾讯科技(深圳)有限公司 图像渲染方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208347B1 (en) * 1997-06-23 2001-03-27 Real-Time Geometry Corporation System and method for computer modeling of 3D objects and 2D images by mesh constructions that incorporate non-spatial data such as color or texture
CN105095894A (zh) * 2015-08-06 2015-11-25 磐纹科技(上海)有限公司 非接触型图书扫描设备
CN106296745A (zh) * 2015-05-26 2017-01-04 富士通株式会社 对文档图像进行校正的方法和装置
CN111832371A (zh) * 2019-04-23 2020-10-27 珠海金山办公软件有限公司 文本图片矫正方法、装置、电子设备及机器可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208347B1 (en) * 1997-06-23 2001-03-27 Real-Time Geometry Corporation System and method for computer modeling of 3D objects and 2D images by mesh constructions that incorporate non-spatial data such as color or texture
CN106296745A (zh) * 2015-05-26 2017-01-04 富士通株式会社 对文档图像进行校正的方法和装置
CN105095894A (zh) * 2015-08-06 2015-11-25 磐纹科技(上海)有限公司 非接触型图书扫描设备
CN111832371A (zh) * 2019-04-23 2020-10-27 珠海金山办公软件有限公司 文本图片矫正方法、装置、电子设备及机器可读存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SAGNIK DAS等: "DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regression Networks", 2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), pages 3 *
SHAODI YOU等: "Multiview Rectification of Folded Documents", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 40, no. 2, pages 1 *
任帅;王震;苏东旭;张?|;慕德俊;: "基于三维模型贴图与结构数据的信息隐藏算法", 通信学报, no. 05 *
曾凡锋;郭玉阳;肖珂;: "基于三维数据的扭曲文档矫正技术", 计算机工程与设计, no. 09 *
汤君友编著: "虚拟现实技术与应用", 31 August 2020, 东南大学出版社, pages: 53 - 56 *
贾晓光;伍星;何中市;但静培;: "基于U-Net的历史文档图像分割研究", 现代计算机, no. 19 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023019974A1 (zh) * 2021-08-17 2023-02-23 北京百度网讯科技有限公司 文档图像的矫正方法、装置、电子设备和存储介质
CN113723289A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN113723289B (zh) * 2021-08-30 2024-03-08 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
WO2023221683A1 (zh) * 2022-05-20 2023-11-23 腾讯科技(深圳)有限公司 图像渲染方法、装置、设备和介质
CN115641280A (zh) * 2022-12-16 2023-01-24 摩尔线程智能科技(北京)有限责任公司 图像校正方法及装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN112509106A (zh) 文档图片展平方法、装置以及设备
CN114549731B (zh) 视角图像的生成方法、装置、电子设备及存储介质
CN110910486B (zh) 室内场景光照估计模型、方法、装置、存储介质以及渲染方法
WO2020001168A1 (zh) 三维重建方法、装置、设备和存储介质
US10846836B2 (en) View synthesis using deep convolutional neural networks
CN110163801B (zh) 一种图像超分辨和着色方法、系统及电子设备
CN110619676A (zh) 一种基于神经网络的端到端的三维人脸重建方法
CN106447601B (zh) 一种基于投影-相似变换的无人机遥感影像拼接方法
CN112767467B (zh) 一种基于自监督深度学习的双图深度估计方法
WO2021063271A1 (zh) 人体模型重建方法、重建系统及存储介质
CN109472752B (zh) 基于航拍图像的多曝光融合系统
CN112465718A (zh) 一种基于生成对抗网络的两阶段图像修复方法
CN113077545B (zh) 一种基于图卷积的从图像中重建着装人体模型的方法
CN112991231B (zh) 单图像超分与感知图像增强联合任务学习系统
CN111062326A (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
CN114119607B (zh) 基于深度神经网络的酒瓶缺陷样本生成方法及系统
CN113781659A (zh) 一种三维重建方法、装置、电子设备及可读存储介质
CN115908753B (zh) 一种全身人体网格表面重建方法及相关装置
CN111654621B (zh) 一种基于卷积神经网络模型的双焦相机连续数字变焦方法
Kim et al. Real-time panorama canvas of natural images
CN113763231A (zh) 模型生成方法、图像透视图确定方法、装置、设备及介质
CN112967373A (zh) 一种基于非线性3dmm的人脸图像特征编码方法
CN114782596A (zh) 语音驱动的人脸动画生成方法、装置、设备及存储介质
CN117315169A (zh) 基于深度学习多视密集匹配的实景三维模型重建方法和系统
CN111311732B (zh) 3d人体网格获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination