CN102117269B - 对文档进行数字化的装置及方法 - Google Patents

对文档进行数字化的装置及方法 Download PDF

Info

Publication number
CN102117269B
CN102117269B CN201110008963.2A CN201110008963A CN102117269B CN 102117269 B CN102117269 B CN 102117269B CN 201110008963 A CN201110008963 A CN 201110008963A CN 102117269 B CN102117269 B CN 102117269B
Authority
CN
China
Prior art keywords
page
list
table object
document
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110008963.2A
Other languages
English (en)
Other versions
CN102117269A (zh
Inventor
榎本诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN102117269A publication Critical patent/CN102117269A/zh
Application granted granted Critical
Publication of CN102117269B publication Critical patent/CN102117269B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F3/00Labels, tag tickets, or similar identification or indication means; Seals; Postage or like stamps
    • G09F3/02Forms or constructions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B32LAYERED PRODUCTS
    • B32BLAYERED PRODUCTS, i.e. PRODUCTS BUILT-UP OF STRATA OF FLAT OR NON-FLAT, e.g. CELLULAR OR HONEYCOMB, FORM
    • B32B7/00Layered products characterised by the relation between layers; Layered products characterised by the relative orientation of features between layers, or by the relative values of a measurable parameter between layers, i.e. products comprising layers having different physical, chemical or physicochemical properties; Layered products characterised by the interconnection of layers
    • B32B7/04Interconnection of layers
    • B32B7/12Interconnection of layers using interposed adhesives or interposed materials with bonding properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F3/00Labels, tag tickets, or similar identification or indication means; Seals; Postage or like stamps
    • G09F3/08Fastening or securing by means not forming part of the material of the label itself
    • G09F3/10Fastening or securing by means not forming part of the material of the label itself by an adhesive layer
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F3/00Labels, tag tickets, or similar identification or indication means; Seals; Postage or like stamps
    • G09F3/02Forms or constructions
    • G09F2003/0222Features for removal or adhesion, e.g. tabs
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F3/00Labels, tag tickets, or similar identification or indication means; Seals; Postage or like stamps
    • G09F3/02Forms or constructions
    • G09F2003/0264Shapes or borders
    • G09F2003/0267Shapes or borders die cut

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种对文档进行数字化的装置及方法。根据本发明的所述装置包括:区域提取单元,其被构造为从包括表的文档图像数据中提取针对各对象的区域数据;表结构分析单元,其被构造为分析所提取的区域数据当中的关于表对象的区域数据,并提取关于所述表对象中的各个的表结构信息;页单生成单元,其被构造为通过使用关于各对象的区域数据和所述表结构信息,来生成显示页单以及各表对象的编辑页单,所述显示页单用于再现所述文档图像数据中的所述对象的布局,所述编辑页单用于编辑所述表;以及电子文档生成单元,其被构造为生成将所述显示页单与所述编辑页单相关联的电子文档。

Description

对文档进行数字化的装置及方法
技术领域
本发明涉及用于对纸质文档(paper document)进行数字化的装置及方法。
背景技术
近年来,以互联网为代表的网络的广泛传播增加了对文档进行数字化分发的机会,但是仍然经常分发印刷纸形式的文档。在这种情况下,一直在考虑即使手头只有纸质文档时、也能够获得文档的内容作为可再利用的数据的技术。
例如,有一种如下的技术,即通过扫描器等读取纸质文档,从终端将所得到的图像数据发送到服务器,并且使服务器进行识别并将数据转换成可再利用的形式,然后将所得到的数据返回到终端(参见日本专利特开平11-167532号(1999年)公报)。
在另一种技术中,根据类型将文档的图像数据划分成区域,以使数据可以基于区域而单独输出(参见日本专利特开2005-346137号公报)。
当通过扫描纸质文档生成的文档图像(图像数据)经历文档数字化处理时,用户根据其目的或者用途而期望得到不同的数据格式。无论如何,很多用户期望文档被数字化成便于利用的格式。
例如,当文档包括表时,意图在表上执行包括行/列的插入/删除的编辑操作的用户,期望对文档进行数字化,以使电子文档包括作为表对象的可编辑表。另一方面,意图不作改变地重新打印文档以作为纸质文档使用的用户,也期望对文档进行数字化,以使表的线布局等的可视信息尽可能忠实地再现。
然而,在电子文档的一些格式规范中,当文档图像中的表被转换成表对象时,表结构或者表的线布局可能无法按原样再现。
而且,在将表作为矢量对象进行绘制以再现表上的可视信息的方法中,不能进行包括行/列的插入/删除的编辑操作。
当参照表结构使用表中的表元(cell)内的值来执行计算等时,优选以电子表格应用程序格式(基于表元矩阵结构表现表结构的格式)来再现表。然而,在基于表元矩阵结构来表现表结构的格式中,当同一页(页单(sheet))包含有多个表时,对所述多个表中的一个表执行的编辑操作可能无意地影响其他表。
图13A示出了表1311和表1312总共两个表存在于同一页单上的状态。由于在电子表格应用程序等中,表元之间的边界落在线位置,因此,执行表元的合并等以再现两个表。图13B示出了在上述条件下、在页单编辑窗口1313上执行的在表元1313的右侧添加新列的操作的结果。可以看到,在表1311中新列1321插入到表元1313的右侧,但是同时无意的列1322也插入到表1312中。在删除列、改变表元宽度等的其他操作中,如果对一个表执行编辑操作,则其他表会无意地受到影响。
直到现在,也很难实现能够同时满足用户的各种要求而不产生上述问题的纸质文档的数字化。
发明内容
根据本发明提供一种装置,该装置包括:区域提取单元,其被构造为提取包含区域的细节的区域数据,所述区域被包括在文档图像数据中的表对象占据;表结构分析单元,其被构造为分析关于所述表对象的所述区域数据,并提取关于所述表对象的表结构信息;页单生成单元,其被构造为通过使用关于所述表对象的所述区域数据以及所述表结构信息,来生成显示页单以及各表对象的编辑页单,所述显示页单用于再现所述文档图像数据中的表对象的外观,所述编辑页单用于对表进行编辑;以及电子文档生成单元,其被构造为生成将所述显示页单与所述编辑页单相关联的电子文档。
根据本发明的电子文档(工作簿文档)包括编辑页单和打印显示页单。这使得能够针对包括表的文档忠实地再现文档布局,同时确保表编辑的便利性。
通过参照附图对下面示例性实施例的描述,本发明的其他特征将变得清楚。
附图说明
图1是示出根据实施例1的示例性系统结构的图;
图2是例示实施例1中的操作的功能框图;
图3是关于表对象的信息的树状结构图;
图4是例示页单生成单元中的处理流程的流程图;
图5是由扫描器读取的示例性文档图像;
图6是示出表区域信息和表结构信息的示例的图;
图7是示出字符识别处理的示例性结果的图;
图8A和图8B是示出示例性显示页单的图;
图9A和图9B是示出示例性编辑页单的图;
图10是示出示例性工作簿文档的图;
图11是示出通过显示/编辑程序显示的示例性显示页单的图;
图12A和图12B是示出通过显示/编辑程序显示的示例性编辑页单的图;
图13A和图13B是例示相关现有技术的图;
图14是示例性文档图像;
图15A和图15B是示出通过显示/编辑程序显示编辑页单和显示页单的状态的图;
图16是例示根据实施例2的页单生成单元中的处理流程的流程图;
图17是示出示例性确定表的图;以及
图18是示出示例性文档图像的图。
具体实施方式
(实施例1)
图1是示出根据本实施例的示例性系统结构的图。
附图标记100表示图像处理装置。
附图标记101表示扫描器,其用作扫描纸质文档以获得文档图像(图像数据)的读取装置。
附图标记102是CPU,其执行用于对所获得的图像数据执行根据本发明的各种类型的处理的数字化处理程序。
附图标记103表示存储器,其用于例如在CPU 102执行数字化处理程序时,临时存储工作记忆(work memories)和数据。
附图标记104表示硬盘,其存储数字化处理程序和数据。
附图标记105表示网络I/F(接口),其用于从外部装置接收数据或者将数据发送至外部装置。
附图标记110表示网络(LAN)。
附图标记120表示个人计算机(PC),其经由LAN 110连接至图像处理装置100。
附图标记121表示显示/编辑程序,其能够使图像处理装置100生成的电子文档显示在PC 120的显示器上以便用户编辑。
图2是例示本实施例中的操作的功能框图。
假设图2中所示的各单元通过CPU 102执行数字化处理程序来实现,但是它们中的一部分或者全部也可以由电路构成。
附图标记200表示作为由扫描器101读取纸质文档的结果而获得的图像数据。
附图标记210表示数字化处理单元,其对接收到的图像数据200执行数字化处理。
附图标记220表示数字化处理单元210生成的工作簿文档。在这点上,本说明书中的术语“工作簿文档”是指能够通过存储在PC 120中的显示/编辑程序121来显示和编辑的电子文档,并包括多个页单。本说明书中的显示/编辑程序121是电子表格应用程序(例如,Microsoft OfficeExcel(注册商标))。页单(电子表格(spreadsheet))是这样的电子数据,在其中表布局能由组织成列和行的最小单位(称作表元)的表结构和其他能够自由布置的对象(浮动对象)来表现。在这点上,在本实施例中描述的工作簿文档以XML(可扩展标记语言,Extensible MarkupLanguage)格式来记述。应当理解,XML格式是一个示例,也可以采用应用程序特有的二进制格式。
块211至215中的各个示意性地示出数字化处理单元210执行的、作为独立构成要素的各功能。
附图标记211表示区域提取单元,其分析接收到的文档图像(图像数据),然后根据对象类型(例如表、字符、自然图像等)将所得到的图像划分成区域,然后基于对象来提取区域数据。区域数据包括对象类型信息,以及还包括关于对象位置、对象大小、对象倾斜等的信息。在这点上,为了更容易理解,将表对象的区域数据简称作“表区域数据”,将字符对象的区域数据简称作“字符区域数据”。
附图标记212表示表结构分析单元,其分析区域提取单元211提取的表区域数据中的表结构,然后提取并生成表结构信息。
附图标记213表示字符识别单元,其识别字符区域数据中的字符,并生成包括字符代码数据的字符识别信息。
图3是示出关于通过区域提取处理、表结构分析处理以及字符识别处理而获得的表对象的信息的树状结构图。首先将关于表的信息粗略划分成表区域信息和表结构信息两种。
表区域信息通过区域提取处理获得。然后将表区域信息分成关于形成表的外框的矩形的坐标信息、大小信息和倾斜信息。假设文档图像的左上角点被定义为原点(0,0),则坐标信息表示形成表的外框的矩形的左上角位置的坐标。利用由水平轴方向上的位置x和垂直轴方向上的位置y构成的坐标(x,y)来表现坐标信息。大小信息表示形成表的外框的矩形的大小,包括描述宽度w和高度h的信息(w,h)。倾斜信息是关于表的垂直线段相对于文档的垂直方向倾斜多少的信息,用度(°)表示。
表结构信息通过表结构分析处理获得。表结构信息是关于分别用行和列定义、作为表的最小单位的表元的信息(表元信息)的集合。而表元信息又分为字符代码数据、行列坐标信息、矩形信息、背景信息及线信息(格线信息,ruled line information)等。行列坐标信息包括通过列c和行r表示表元的位置的信息(c,r)。矩形信息包括如下两种信息的组合(x,y-w,h),其中一种信息(水平轴位置x,垂直轴位置y)表示在假设形成表的外框的矩形的左上角点被定义为原点(0,0)的情况下的表元的左上角位置,另一种信息(宽度w,高度h)表示表元的大小。背景信息是关于表元的背景的颜色及图案等的信息。线信息是表示表元的线段的颜色及线类型(例如,实线、虚线、粗实线、细实线以及双线)等的信息。
对应于上述表区域信息的区域信息与其他对象(例如,字符区域信息等)相关地存在,并且以类似的树状结构进行管理和存储。在这点上,树状结构是用于管理关于表的信息的一种技术,类似的信息也可以用其他技术管理和存储。
附图标记214表示页单生成单元,其基于针对各对象获得的区域数据来生成显示页单221和编辑页单222。
附图标记215表示工作簿文档生成单元,其由页单生成单元214生成的页单,来生成工作簿文档220作为电子文档。工作簿文档220包括作为工作簿文档中的页单位的显示页单221和编辑页单222。工作簿文档220可以通过PC 120中的显示/编辑程序121来显示或者编辑。
显示页单221是用于在PC 120的显示器上显示文档图像、并在打印机(未示出)上打印该文档图像的电子数据。由于显示页单221是用于对文档图像中的对象的布局给予最高的重要度、并显示图像而不改变布局的页单,故被称为“显示页单”。
编辑页单222是用于对包括在文档图像中的表执行编辑操作(例如,添加列或者删除行)的电子数据。由于编辑页单222是用于编辑文档图像中的表的页单,因此被称为“编辑页单”。
下面说明电子文档生成单元210的各功能(各处理单元)的处理的具体步骤的细节。
(区域提取单元)
首先,在区域提取单元211中,将通过扫描器101接收的图像数据基于对象而划分成区域,并且针对各对象提取区域数据。对于提取,可以应用诸如美国专利5680478号公报中描述的已知方法。在采用美国专利5680478号公报中描述的方法的情况下,从图像数据中提取黑色像素的块和白色像素的块,之后基于形状、大小及集合状态等,针对按照诸如字符、图片、绘画、表、自然图像、框和线等的类型来分类的对象中的各个来提取区域。应当注意,作为从图像数据中提取表的方法,有一种对输入图像数据执行霍夫变换(Hough transform)等以提取线段信息的方法,在这种情况下,可以检测相对于文档倾斜的表。
当提取区域时,也提取关于对象的位置(布局)、大小及倾斜等的信息。通过示例来描述表对象。除了上述表区域信息,即,除了形成表的外框的矩形的坐标信息和大小信息之外,还提取表示表相对于文档倾斜了多少的倾斜信息。也就是说,区域数据包括关于对象的类型、位置、大小和倾斜等的信息。
图5中的附图标记500表示扫描器101读取的文档图像的示例。附图标记501表示被提取作为字符区域的区域,附图标记502和503分别表示被提取作为表区域的区域。
然后,图6中的附图标记601表示与表区域502和503一起提取的表区域信息。对于表区域502,示出形成表的外框的矩形的左上角位置的坐标信息(90,550)和表示矩形的宽度和高度的大小信息(2200,570)。另外,由于表区域502的垂直方向上的线段平行于文档图像500的垂直方向,因此,倾斜信息表示“0°”。对于表区域503,示出形成表的外框的矩形的左上角位置的坐标信息(420,1630),以及表示矩形的宽度和高度的大小信息(1350,540)。类似地,倾斜信息表示“0°”。
(表结构分析单元)
当针对各对象完成区域数据的提取时,表结构分析单元212进而分析表区域数据,以提取诸如表的行列结构、表元的坐标、线的颜色和类型等的表结构信息。对于分析表区域数据以提取表结构信息的方法,存在例如日本专利特开2004-086436号公报中描述的方法等。在该方法中,首先,在表区域内的白色像素块的边界附近计算两方向上的边缘,然后,基于由所计算出的两方向上的边缘中的各个计算的边缘直方图,来获得部分线信息。基于这样获得的部分线信息,通过获得表区域的线信息来分析表结构。
图6中的附图标记602表示提取的关于表区域502和503的表结构信息。对于表区域502,示出在将形成表区域的外框的矩形的左上角定义为原点(0,0)的情况下,位于第一行第一列的表元的矩形的左上角位置的坐标(0,0)和矩形的大小(580,190)。另外,作为背景信息示出“无”,作为线信息示出“黑,实线”。对于直到第三行第三列表元的表元(总共9个表元)示出类似信息。对于表区域503,示出位于第一行第一列的表元的矩形的左上角位置的坐标(0,0)和矩形的大小(600,180),并且作为背景信息示出“无”,作为线信息示出“黑,实线”。对于直到第三行第二列表元的表元(总共6个表元)示出类似信息。
(字符识别单元)
当表结构的分析完成时,字符识别单元213对基于字符区域数据和表区域数据的表元范围执行字符识别处理。已知的字符识别技术可以用于字符识别处理。下面,将描述对字符区域数据执行的字符识别的示例。
首先,对于字符区域数据,字符识别单元213确定字符方向是水平的还是垂直的,即行朝哪个方向延伸。作为确定技术,有对图像数据进行二值化、然后测量垂直和水平投影、进而将投影分散较低的方向确定为行方向的方法等。
接下来,逐字符地将字符区域数据划分成图像数据组。具体来说,使用二值化图像在行方向上的投影在要切断的行之间寻找边界,由此逐行地将字符区域数据划分成图像数据组(行图像数据)。然后,使用在与行垂直的方向上的投影在要切断的字符之间寻找边界,由此逐字符地将行图像数据划分成图像数据组(字符图像数据)。
随后,从划分的各字符图像数据组中读取特征,然后使用预先存储有所有字符类型的特征的词典,来检索与读取的特征最接近的特征。然后,具有这样检索到的最接近特征的字符类型的字符代码,即是字符图像数据的字符识别结果。
另外,当识别各字符图像数据组中的字符时,也同时获取关于字符的大小的信息,并计算所有存在于字符区域数据中的字符的大小的平均值。通过这种方式,针对各字符区域数据组计算了字符大小信息。对这样获得的字符代码数据和字符大小信息进行组合,以生成关于字符区域数据的字符识别信息。
在表区域数据中的表元范围内,针对构成表的各表元执行类似的处理。当区域提取单元211从提取的表区域数据中获取了关于表中的字符的字符区域数据时,可以对所获取的字符区域数据执行字符识别处理。
图7示出对图5所示的三个区域501至503上的图像数据执行字符识别处理的结果。
在字符区域501中,示出作为识别结果的字符串“Member List”、形成字符区域501的外框的矩形的位置和大小信息(170,120-1050),以及字符大小信息(180)。
对于表区域502,针对第一列第一行表元示出字符串“Name”和字符大小信息“45像素”。同样,在第二列第一行表元中示出字符串“Email”。在第三列第一行表元中示出字符串“Group”。在第一列第二行表元中示出字符串“Maruko Taro”。在第二列第二行表元中示出字符串“marukotxxx.co.jp”。在第三列第二行表元中示出字符串“A”。在第一列第三行表元中示出字符串“Kosugi Ichiro”。在第二列第三行表元中示出字符串“kosugiixxx.co.jp”,在第三列第三行表元中示出字符串“B”。另外,在表区域503中的第一列第一行表元中示出字符串“Group”。然后,在第二列第一行表元中示出字符串“Leader”。在第一列第二行表元中示出字符串“A”。在第二列第二行表元中示出字符串“Maruko Taro”。在第三列第一行表元中示出字符串“B”,在第三列第二行表元中示出字符串“Kosugi Ichiro”。然后,示出45(像素),作为从表区域502和503的各表元中提取的上述字符串的字符大小信息。
(页单生成单元)
当字符识别处理完成时,页单生成单元214执行生成显示页单221和编辑页单222的处理。
在描述页单生成单元214中的处理的流程之前,将详细描述记述在页单上的各元素。在接下来的描述中,将根据需要参照图8和图9。
作为页单格式的根元素的Sheet元素,包括存储表元信息的Table元素,以及存储关于能够被自由放置在页单上的浮动对象的信息的Shapes元素。Sheet元素的Name属性表示页单名称。
Shapes子元素的Text元素是处理字符串信息的元素,包括示出在页单的左上角被定义成原点(0,0)的情况下的绘制(rendering)的左上角位置的x属性和y属性、指定字符的大小的fontSize属性、以及用于识别要被显示的字符的字符信息。Shapes子元素的Image元素是处理图像对象的元素,其存储示出在页单的左上角被定义成原点(0,0)的情况下的绘制的左上角位置的x属性和y属性,以及作为图像对象的内容的图像数据。
Table元素包括存储列信息(column information)的Column元素,以及存储行信息的Row元素。Column元素包括表示列编号的c属性和表示列宽度的width属性。Row元素包括表示行编号的r属性、表示高度的height属性,以及子元素Cell。
Cell元素对应于页单上的表元。Cell元素包括表示表元对应于哪一列(Column元素)的c属性、表示值的属性的type属性、表示字体大小的fontSize属性、表示表元的值的value属性,以及表示线颜色的borderColor属性。
接下来,将参照图4中的流程图,来详细描述页单生成单元214中的处理的流程。
首先,在步骤401,页单生成单元214生成描述有除表之外的对象的显示页单。具体来说,将字符和/或自然图像等的对象表现在独立于表元层的层上,作为能够被自由放置的浮动对象,由此生成再现文档中的对象布局的页单。
图8A是描述有图5所示的文档图像500中字符区域501的字符对象的示例性显示页单。可以看到,页单具有通过作为页单名称的“viewSheet”、作为字符区域的矩形的位置及大小信息的x=“170”、y=“120”及fontSize=“180”以及作为内容的“Member List”来识别的字符串的text元素。
应当注意,在文档图像500的情况下,只有字符对象作为除表之外的对象存在。然而,如果其他图像或者图形形式或自然图像等的对象存在,则以类似的方式将其描述在显示页单中。
接下来,在步骤402,页单生成单元214针对表对象生成编辑页单。具体来说,针对各表(表对象单位)生成描述有表结构信息的页单。在这种情况下,如果存在多个待处理的表对象,则编辑页单可以按任意顺序依次生成,或者可以通过并行处理针对所有表对象生成。
图9A和图9B分别是针对表区域502的表对象和表区域503的表对象的示例性编辑页单。例如,在图9A的情况下,可以看到,页单名称为“TableEditSheet1”,对于排列在三行三列中以形成表区域502的表元,以表元形式表现关于大小及线等的信息,并且字符识别的结果被表现为表元值。同样,在图9B中,页单名称为“ableEditSheet2”,对于排列在三行二列中以形成表区域503的表元,以表元形式表现关于大小及线等的信息,并且字符识别的结果被表现为表元值。
然后,在步骤403,页单生成单元214确定是否针对所有表对象生成了编辑页单,当针对所有表对象完成了编辑页单的生成时,处理进入到步骤404。
在步骤404,页单生成单元214参照步骤402中生成的各编辑页单上的表来生成绘制对象,并将绘制对象作为参照信息添加到步骤401中生成的显示页单上。在这点上,通过绘制编辑页单上指定的范围,来获得绘制对象。当用于绘制的编辑页单上的表被编辑时,将用于参照的显示页单上的图像对象的内容,根据编辑后的内容进行更新。
图8B是通过将参照表区域502和503的编辑页单(图9A和图9B)的绘制对象801、添加至字符区域501的显示页单(图8A)而得到的示例性显示页单。这里,表示图像数据的Image元素的内容是Script元素,在其中描述了适合于本实施例中的说明的虚拟Script语言。
“ThisWorkbook.Sheet(″TableName″).getRenderImage()”的意思是用于获取同一工作簿文档中的TableName页单的绘制图像的指示。结果,两个编辑页单(TableEditSheet1,TableEditSheet2)的绘制图像被放置在显示页单上。
(工作簿文档生成单元)
当由页单生成单元214完成页单生成处理时,工作簿文档生成单元215基于所生成的页单来生成工作簿文档。具体来说,生成包括显示页单和编辑页单被相互关联的Workbook元素、Sheets元素及Sheet元素的电子文档。
这里,将描述各元素。作为根元素的Workbook元素包括描述有关于形成自身的页单的信息的Sheets元素。其次,Sheets元素包括Sheet元素,并且Sheet元素使用ref属性来参照显示页单或者编辑页单。
图10是示例性工作簿文档。工作簿文档具有分别存储文件名“ViewSheet.xml”、“TableEditSheet1.xml”及“TableEditSheet2.xml”的ref属性值。可以理解,图10中的工作簿文档由经历了添加处理的显示页单(图8B)和两个编辑页单(图9A和图9B)构成。
以此方式,针对由扫描器101进行读出的纸质文档,生成工作簿文档作为电子文档。
图11示出了通过显示/编辑程序121显示经历了添加处理的显示页单(图8B)的PC 120的显示器的状态。附图标记1101表示显示窗口,附图标记1102表示页单编辑窗口。
布置在页单编辑窗口1102内的自由位置的表图像1103和1104,分别是对应于图9A和图9B中的编辑页单的绘制图像,在其中与表元无关地显示了表位置和线位置。
图12A和图12B示出了通过显示/编辑程序121显示编辑页单(图9A和图9B)的PC 120的显示器的状态。在图12A中,表1的选项卡1201是激活的,因此,对应于表区域502的编辑页单(图9A)被显示在页单编辑窗口1102上。同样,在图12B中,选项卡1202是激活的,因此,对应于表区域503的编辑页单(图9B)被显示在页单编辑窗口1102上。与显示页单的情况不同,以使得表位置和线位置与表元的矩形相匹配的方式,来显示页单。
当在画面上对显示的表执行行/列的插入/删除、或者表元中的文本编辑等时,编辑的内容即时反映在图11所示的显示页单中。
如上所述,在作为根据本发明生成的电子文档的工作簿文档中,表的实际数据被表现在针对各表的编辑页单上。因此,即使当同一页中包括多个表时,也可以互不影响地(即,不产生如图13B所述的情况)对表进行编辑。
另外,下面描述当图14所示的文档图像1400被输入时的处理。
使文档图像1400上的表区域1404相对于文档的垂直方向顺时针倾斜约15度。当使表以如上所述的方式倾斜时,在相关现有技术中,仅有一种表现表的技术,其将表表现为没有行列结构的图形对象等、而非表现为具有行列结构的表对象。
然而,在本发明中,可以将这种倾斜的表表现为表对象。
图15A和图15B例示了当通过显示/编辑程序、来显示通过对文档图像1400应用本发明而获得的编辑页单以及经历了添加处理的显示页单时的状态。
从图15B可以清楚地看到,在显示页单上,表保持约15度的倾斜,文档图像1400的概观被无改变地保持。另一方面,在图15A中的编辑页单中,表的实际数据被表现为行列结构,以使得能够对表进行编辑操作。另外,由于显示页单上的表被作为绘制对象从编辑页单进行参照,因此使得能够进行旋转表等的操作。
如上所述,利用根据本实施例的图像处理装置,可以将纸质文档转换成电子文档,同时既能够实现包括在文档中的表的可编辑性,又能够实现文档总体的布局的精确再现。
(实施例2)
在实施例1中,当在经由扫描器101接收的文档图像中存在表区域时,针对各表生成编辑页单。然而,即使在希望编辑表的文档数字化中,文档图像中的一些表也可能不需要编辑。为了解决该问题,作为实施例2描述仅在需要时生成编辑页单的实施例。
图16是示出根据本实施例的页单生成单元214中的处理流程的流程图。下面,将根据流程图详细描述该处理,并且简化或省略与根据实施例1的图4中的流程图相同的部分的描述。以下主要描述与实施例1的不同之处。
首先,在步骤1601,页单生成单元214生成描述了除表对象之外的对象的显示页单。这类似于步骤401。
接下来,在步骤1602,页单生成单元214确定是否针对表对象生成编辑页单。具体来说,页单生成单元214使用描述用于生成编辑页单的预定条件的确定表,来确定表对象是否满足生成条件。如果确定表对象满足生成条件,则处理进入到步骤1604。如果确定表对象不满足生成条件,则处理进入到步骤1603。
图17是示出示例性确定表的图。在图17所示的确定表中,基于工作簿文档的规范、与其他对象的位置关系以及与其他表的位置关系三个主要方面,来确定是否应当生成编辑页单。
在关于工作簿文档的规范的条件中,条件被进一步分成两个元素,即倾斜和表元背景。“倾斜”是如下条件,即当表相对于文档的倾斜是除0度、90度、180度和270度之外的任何其他角度时,生成编辑页单。换句话说,当表相对于文档以除直角之外的任何角度(例如,30度)倾斜时,生成编辑页单。“表元背景”是如下条件,即除了当表元的背景是单色背景时之外,生成编辑页单。换句话说,当表元的背景是多色背景时,生成编辑页单。
关于与其他对象的位置关系的条件是如下条件,即当表对象的区域整体地或者部分地与除表之外的其他对象交叠时,生成编辑页单。
关于与其他表的位置关系的条件是如下条件,即当存在多个表、并且表之间的位置关系导致在行方向和列方向中的任意一者上的交叠时,生成编辑页单。换句话说,当以使得对表中的一个执行诸如插入/删除行/列等的操作可能会影响其他表的位置关系、对表进行了布置时,生成编辑页单。
在这点上,以示例的方式描述了上述用于生成确定表的生成条件,也可以设置除此之外的其他各种条件。例如,在其他可能条件中,当在垂直方向上垂直布置的表的线的X坐标没有对齐时,或者当在横向方向上并列布置的表的线的Y坐标没有对齐时,可以生成编辑页单。在其他可能的条件中,当存在两个或者更多表时,可以总是生成编辑页单。用户可以根据自己的使用目的或者数字化文档的用途,来任意地设置用于生成确定表的条件。
在步骤1603,页单生成单元214在步骤1601中生成的显示页单上,以添加方式将表描述作为浮动对象。当该添加完成时,处理进入到步骤1605。
另一方面,在步骤1604,页单生成单元214针对表对象来生成编辑页单。具体过程类似于步骤402。当编辑页单的生成完成时,处理进入到步骤1605。
在步骤1605,确定是否已将所有表对象添加到显示页单中,或者是否已针对所有表对象生成了编辑页单。如果确定完成,处理进入到步骤1606。
在步骤1606,页单生成单元214参照在步骤1605中生成的编辑页单上的表,来生成绘制对象,然后将绘制对象添加到步骤1603中生成的显示页单上。该步骤类似于步骤404。
下面,将描述将图17中的确定表用于根据本实施例的处理的应用的具体示例。
首先,将描述图18所示的文档图像1800的示例。在图18所示的文档图像1800中,存在两个在上下方向和左右方向上没有对齐的表(1801和1802)。
首先,如同在实施例1的情况下,区域提取单元211针对表区域1801和1802提取区域数据作为表对象。然后,区域提取单元211提取各种关于表区域1801的信息的项目,(110,600)作为位置信息,(1100,500)作为大小信息,以及0度作为倾斜角。同样,对于表区域1802,提取(1350,1400)作为位置信息,提取(1000,550)作为大小信息,并且提取0度作为倾斜角。
随后,表结构分析单元212分析各个表的表区域数据。在这种情况下,针对所有表元提取RGB#FFF(白色)作为关于表元背景色的信息。
然后,使用图17中的确定表,来确定是否应当生成编辑页单。首先,在表区域1801、1802二者中均没有倾斜,且表元背景为单色背景。因此,表1801、1802不满足关于工作簿文档的规范的编辑页单的生成条件。另外,由于没有所述表之外的对象,因此,表不满足关于与其他对象的位置关系的生成条件。同样,由于两个表之间的位置关系不涉及在X轴和Y轴两个方向上的叠合,因此,两个表不满足关于与其他表的位置关系的生成条件。
因此,不生成编辑页单,且两个表被添加到显示页单中,其后页单生成单元214的处理结束。
结果,生成仅包括显示页单的工作簿文档。
接下来,将描述图14所示的文档图像1400的示例。
首先,区域提取单元211针对表区域1401提取区域数据作为表对象,并同时提取表示15度倾斜的信息。
在进行了分析之后,表结构分析单元212使用图17中的确定表,来确定是否应当生成编辑页单。在这种情况下,由于表区域1401倾斜15度,因此,表满足关于工作簿文档的规范的编辑页单的生成条件。
这样,生成了编辑页单,然后,将参照所生成的编辑页单上的表的绘制对象添加到显示页单中,其后页单生成单元214的处理结束。
结果,生成包括显示页单和编辑页单的工作簿文档。
如上所述,根据本实施例,能够通过基于预定条件确定是否应当生成编辑页单,来禁止生成不必要的编辑页单。这样使得能够在响应用户的各种需求的同时,将纸质文档数字化成电子文档。
其他实施例
本发明的各方面还可以通过读出并执行记录在存储装置上的用于执行上述实施例的功能的程序的系统或设备的计算机(或诸如CPU或微处理单元(MPU)的装置)、以及由系统或设备的计算机例如读出并执行记录在存储装置上的用于执行上述实施例的功能的程序来执行各步骤的方法来实现。鉴于此,例如可以经由网络或者从用作存储装置的各种类型的记录介质(例如计算机可读介质)向计算机提供程序。
虽然参照示例性实施例对本发明进行了说明,但是应当理解,本发明不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释,以使其涵盖所有变型、等同结构及功能。

Claims (7)

1.一种对文档进行数字化的装置,该装置包括:
区域提取单元,其被构造为提取包含区域的细节的区域数据,所述区域被包括在文档图像数据中的表对象占据;
表结构分析单元,其被构造为分析关于所述表对象的所述区域数据,并提取关于所述表对象的表结构信息;
页单生成单元,其被构造为基于关于所述表对象的所述区域数据以及所述表结构信息,来生成显示页单以及编辑页单,所述显示页单用于再现所述文档图像数据中的所述表对象的外观,所述编辑页单用于对所述表对象进行显示和编辑,所述编辑页单中的各个与所述表对象中的各个相对应,其中所述显示页单包括将所述编辑页单的绘制图像作为浮动对象放置在所述显示页单上的指令;以及
电子文档生成单元,其被构造为生成能够通过电子表格应用程序显示和编辑的电子文档,所生成的电子文档包括由所述页单生成单元生成的所述显示页单及所述编辑页单作为所生成的电子文档的电子表格,其中所述显示页单与所述编辑页单相关联,其中能够通过所述电子表格应用程序以不影响其他表对象的方式对所述编辑页单上显示的所述表对象进行编辑。
2.根据权利要求1所述的装置,其中,
在所述编辑页单被编辑的情况下,所述显示页单上的作为所述浮动对象放置的所述绘制对象被更新以反映所述编辑后的内容。
3.根据权利要求1所述的装置,其中,
所述页单生成单元还包括确定单元,所述确定单元被构造为基于预定生成条件是否被满足来确定是否生成所述编辑页单。
4.根据权利要求3所述的装置,其中,
所述预定生成条件包括关于以下任意一者的条件:各表对象相对于所述文档的倾斜的角度、表元背景的颜色、表对象与其他对象之间的位置关系以及表对象之间的位置关系。
5.根据权利要求1所述的装置,其中,
所述区域数据包括关于所述表对象的位置、所述表对象的大小以及所述表对象的倾斜中的至少一者的信息,并且
所述表结构信息包括关于行/列结构、表元的坐标、线颜色以及线类型中的至少一者的信息。
6.根据权利要求1所述的装置,其中,所述电子文档的格式为XML格式。
7.一种对文档进行数字化的方法,所述方法包括以下步骤:
提取包含区域的细节的区域数据,所述区域被包括在文档图像数据中的表对象占据;
分析关于所述表对象的所述区域数据,并提取关于所述表对象的表结构信息;
使用关于所述表对象的所述区域数据以及所述表结构信息,来生成显示页单以及编辑页单,所述显示页单用于再现所述文档图像数据中的所述表对象的外观,所述编辑页单用于对所述表对象进行显示和编辑,所述编辑页单中的各个与所述表对象中的各个相对应,其中所述显示页单包括将所述编辑页单的绘制图像作为浮动对象放置在所述显示页单上的指令;以及
生成能够通过电子表格应用程序显示和编辑的电子文档,所生成的电子文档包括所生成的显示页单及所生成的编辑页单作为所生成的电子文档的电子表格,其中所述显示页单与所述编辑页单相关联,其中能够通过所述电子表格应用程序以不影响其他表对象的方式对所述编辑页单上显示的所述表对象进行编辑。
CN201110008963.2A 2010-01-06 2011-01-06 对文档进行数字化的装置及方法 Expired - Fee Related CN102117269B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-001426 2010-01-06
JP2010001426A JP5465015B2 (ja) 2010-01-06 2010-01-06 文書を電子化する装置及び方法

Publications (2)

Publication Number Publication Date
CN102117269A CN102117269A (zh) 2011-07-06
CN102117269B true CN102117269B (zh) 2014-06-04

Family

ID=43828378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110008963.2A Expired - Fee Related CN102117269B (zh) 2010-01-06 2011-01-06 对文档进行数字化的装置及方法

Country Status (5)

Country Link
US (1) US8718364B2 (zh)
EP (1) EP2343670B1 (zh)
JP (1) JP5465015B2 (zh)
KR (1) KR101334483B1 (zh)
CN (1) CN102117269B (zh)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9042653B2 (en) * 2011-01-24 2015-05-26 Microsoft Technology Licensing, Llc Associating captured image data with a spreadsheet
JP5541202B2 (ja) * 2011-03-16 2014-07-09 コニカミノルタ株式会社 スプレッドシートデータ生成装置およびプログラム
US8984404B2 (en) * 2011-05-27 2015-03-17 Hewlett-Packard Development Company, L.P. Guiding an image-based task execution
US8657195B2 (en) * 2011-09-27 2014-02-25 Symbol Technologies, Inc. Document capture with imaging-based bar code readers
US8990675B2 (en) * 2011-10-04 2015-03-24 Microsoft Technology Licensing, Llc Automatic relationship detection for spreadsheet data items
US9069748B2 (en) * 2011-10-04 2015-06-30 Microsoft Technology Licensing, Llc Selective generation and display of data items associated with a spreadsheet
EP2807604A1 (en) 2012-01-23 2014-12-03 Microsoft Corporation Vector graphics classification engine
WO2013110289A1 (en) 2012-01-23 2013-08-01 Microsoft Corporation Borderless table detection engine
CN102819564A (zh) * 2012-07-05 2012-12-12 无锡中科泛在信息技术研发中心有限公司 一种有限表元组合的报表生成方法
US9626067B2 (en) 2012-12-12 2017-04-18 Apple Inc. Modifying positions of on-canvas objects
CN103020031A (zh) * 2012-12-19 2013-04-03 珠海金山办公软件有限公司 一种智能更新数据透视表的方法及装置
US9953008B2 (en) 2013-01-18 2018-04-24 Microsoft Technology Licensing, Llc Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally
CN107103319A (zh) * 2013-05-22 2017-08-29 华为终端有限公司 一种文字识别方法及用户终端
CN104700176B (zh) * 2013-12-09 2018-08-21 中国商用飞机有限责任公司 一种技术出版物内容交付系统及方法
CN104731813A (zh) * 2013-12-23 2015-06-24 珠海金山办公软件有限公司 表格文件显示方法及系统
KR101447555B1 (ko) * 2014-03-06 2014-10-08 주식회사 한글과컴퓨터 표 입력 제어 기반의 전자 문서 편집 장치 및 방법
US9513671B2 (en) 2014-08-01 2016-12-06 Microsoft Technology Licensing, Llc Peripheral retention device
US10191986B2 (en) 2014-08-11 2019-01-29 Microsoft Technology Licensing, Llc Web resource compatibility with web applications
US9705637B2 (en) 2014-08-19 2017-07-11 Microsoft Technology Licensing, Llc Guard band utilization for wireless data communication
US9805483B2 (en) 2014-08-21 2017-10-31 Microsoft Technology Licensing, Llc Enhanced recognition of charted data
US9524429B2 (en) 2014-08-21 2016-12-20 Microsoft Technology Licensing, Llc Enhanced interpretation of character arrangements
US9397723B2 (en) 2014-08-26 2016-07-19 Microsoft Technology Licensing, Llc Spread spectrum wireless over non-contiguous channels
US9424048B2 (en) 2014-09-15 2016-08-23 Microsoft Technology Licensing, Llc Inductive peripheral retention device
CN105069293B (zh) * 2015-08-07 2017-11-10 宋声台 一种信息录入终端的方法和智能笔记本
CN105373791B (zh) * 2015-11-12 2018-12-14 中国建设银行股份有限公司 信息处理方法及信息处理装置
US20170220858A1 (en) * 2016-02-01 2017-08-03 Microsoft Technology Licensing, Llc Optical recognition of tables
CN106650664A (zh) * 2016-12-22 2017-05-10 深圳爱拼信息科技有限公司 一种高招大本数据采集系统及方法
KR102016998B1 (ko) 2017-05-12 2019-09-03 이세희 개인정보를 포함하는 비공개 처리 기록물의 효율적 관리를 위한 비전자 기록물의 디지털화 시스템 및 방법
KR101868468B1 (ko) 2017-05-12 2018-06-19 이세희 무선통신수단을 이용하여 기록물철의 관리 및 검색 효율성을 개선시킨 비 전자 기록물의 디지털화 시스템
KR101991087B1 (ko) 2017-05-12 2019-06-19 이세희 검증 및 보정 효율성이 개선된 비 전자 기록물의 디지털화 시스템 및 방법
US11003796B2 (en) 2017-06-30 2021-05-11 Accenture Global Solutions Limited Artificial intelligence based document processor
US11562143B2 (en) 2017-06-30 2023-01-24 Accenture Global Solutions Limited Artificial intelligence (AI) based document processor
US10489502B2 (en) 2017-06-30 2019-11-26 Accenture Global Solutions Limited Document processing
KR101991088B1 (ko) 2017-08-02 2019-06-19 이세희 비 전자 기록물의 넘버링을 자동화 한 기록물의 자동 디지털화 장치 및 방법
KR101907029B1 (ko) * 2017-08-24 2018-10-12 (주) 더존비즈온 서식 자동화를 위한 테이블 생성 장치 및 방법
CN109992759B (zh) * 2017-12-29 2023-12-01 珠海金山办公软件有限公司 表格对象编辑方法、装置、电子设备及存储介质
US11650970B2 (en) 2018-03-09 2023-05-16 International Business Machines Corporation Extracting structure and semantics from tabular data
KR102107449B1 (ko) * 2018-07-30 2020-06-02 주식회사 한글과컴퓨터 스프레드시트 문서 내 병합된 셀의 콘텐트를 표시하는 전자 장치 및 그의 동작 방법
US11200413B2 (en) * 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents
CN109447019B (zh) * 2018-11-08 2021-05-28 公安部沈阳消防研究所 基于图像识别与数据库存储的纸质扫描文档电子化方法
CN109829814B (zh) * 2018-12-29 2024-04-02 平安科技(深圳)有限公司 历史还款信息的生成方法、装置、设备及存储介质
CN110956087B (zh) * 2019-10-25 2024-04-19 北京懿医云科技有限公司 一种图片中表格的识别方法、装置、可读介质和电子设备
KR102300475B1 (ko) * 2019-12-13 2021-09-09 주식회사 한글과컴퓨터 표가 삽입된 이미지를 전자 문서로 변환할 수 있는 전자 장치 및 그 동작 방법
US11501549B2 (en) 2020-05-13 2022-11-15 Accenture Global Solutions Limited Document processing using hybrid rule-based artificial intelligence (AI) mechanisms
CN111898402A (zh) * 2020-06-01 2020-11-06 王昌龙 一种智能排版系统
US11341318B2 (en) 2020-07-07 2022-05-24 Kudzu Software Llc Interactive tool for modifying an automatically generated electronic form
US11403455B2 (en) * 2020-07-07 2022-08-02 Kudzu Software Llc Electronic form generation from electronic documents
KR102211516B1 (ko) * 2020-08-21 2021-02-04 주식회사 애자일소다 가상 셀을 이용한 ocr 기반 문서 분석 시스템 및 방법
CN112149506A (zh) * 2020-08-25 2020-12-29 北京来也网络科技有限公司 结合rpa和ai的图像中的表格生成方法、设备及存储介质
KR102614760B1 (ko) * 2020-11-16 2023-12-19 주식회사 솔트룩스 표 이미지로부터 구조화된 출력 데이터를 생성하기 위한 표 정보 생성 시스템 및 방법
WO2022102823A1 (ko) * 2020-11-16 2022-05-19 주식회사 솔트룩스 표 이미지로부터 구조화된 출력 데이터를 생성하기 위한 표 정보 생성 시스템 및 방법
KR102525024B1 (ko) * 2021-08-19 2023-04-24 (주)복부인 부동산 계약서 자동 분석 및 관리 장치
US11837004B1 (en) * 2023-02-24 2023-12-05 Oracle Financial Services Software Limited Searchable table extraction

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3838729C2 (de) * 1987-11-16 1994-05-05 Canon Kk Dokumentverarbeitungsgerät
JPH05250357A (ja) * 1992-03-05 1993-09-28 Ricoh Co Ltd 画像読取修正装置および修正画像形成装置
US5680479A (en) 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JPH11167532A (ja) 1997-12-02 1999-06-22 Canon Inc データ加工システムおよび装置、データ加工方法、記録媒体
JPH11312231A (ja) * 1998-04-28 1999-11-09 Omron Corp データ処理プログラムを記録した記録媒体、データ処理装置およびデータ処理方法
US6337924B1 (en) * 1999-02-26 2002-01-08 Hewlett-Packard Company System and method for accurately recognizing text font in a document processing system
US6816630B1 (en) * 2000-05-22 2004-11-09 Electro-Sensors, Inc. System and method for creating and processing data forms
US7155667B1 (en) * 2000-06-21 2006-12-26 Microsoft Corporation User interface for integrated spreadsheets and word processing tables
JP2002007953A (ja) 2000-06-22 2002-01-11 Hitachi Ltd 電子帳票処理装置
JP2002185763A (ja) * 2000-12-11 2002-06-28 Minolta Co Ltd デジタル複写機
JP4208520B2 (ja) * 2002-08-26 2009-01-14 キヤノン株式会社 画像処理装置および画像処理方法、プログラムおよび記憶媒体
US7882427B2 (en) * 2003-07-24 2011-02-01 Balenz Software, Inc. System and method for managing a spreadsheet
JP4041442B2 (ja) 2003-09-08 2008-01-30 シャープ株式会社 無線通信装置及び無線通信システム
JP3796500B2 (ja) * 2003-11-21 2006-07-12 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
JP4371911B2 (ja) 2004-05-31 2009-11-25 キヤノン株式会社 関数化処理方法及び関数化処理装置
US7873218B2 (en) 2004-04-26 2011-01-18 Canon Kabushiki Kaisha Function approximation processing method and image processing method
DE102005048600B4 (de) * 2005-10-06 2008-09-25 Klaus Rehm Verfahren zum Erfassen von Daten
JP2007249754A (ja) * 2006-03-17 2007-09-27 Internatl Business Mach Corp <Ibm> 情報処理装置、情報処理方法およびプログラム
AU2006252025B2 (en) * 2006-12-13 2012-10-04 Canon Kabushiki Kaisha Recognition of parameterised shapes from document images
AU2006252019B2 (en) * 2006-12-13 2012-06-28 Canon Kabushiki Kaisha Method and Apparatus for Dynamic Connector Analysis
US8595615B2 (en) * 2007-02-07 2013-11-26 International Business Machines Corporation System and method for automatic stylesheet inference
JP4988842B2 (ja) 2007-06-28 2012-08-01 富士通株式会社 表データ生成プログラム、表データ生成方法および表データ生成装置
US8000529B2 (en) * 2007-07-11 2011-08-16 Hewlett-Packard Development Company, L.P. System and method for creating an editable template from a document image
US8260049B2 (en) * 2007-09-28 2012-09-04 Abbyy Software Ltd. Model-based method of document logical structure recognition in OCR systems

Also Published As

Publication number Publication date
KR20110081099A (ko) 2011-07-13
CN102117269A (zh) 2011-07-06
US8718364B2 (en) 2014-05-06
US20110164813A1 (en) 2011-07-07
EP2343670A2 (en) 2011-07-13
JP2011141677A (ja) 2011-07-21
EP2343670B1 (en) 2019-03-13
KR101334483B1 (ko) 2013-11-29
EP2343670A3 (en) 2014-11-26
JP5465015B2 (ja) 2014-04-09

Similar Documents

Publication Publication Date Title
CN102117269B (zh) 对文档进行数字化的装置及方法
US6466694B2 (en) Document image processing device and method thereof
US7844896B2 (en) Layout-rule generation system, layout system, layout-rule generation program, layout program, storage medium, method of generating layout rule, and method of layout
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
JP2536966B2 (ja) テキスト編集システム
EP2270714B1 (en) Image processing device and image processing method
US9514103B2 (en) Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US8930814B2 (en) Digital comic editor, method and non-transitory computer-readable medium
US20050210372A1 (en) Method and system for creating a table version of a document
US8515176B1 (en) Identification of text-block frames
US8952985B2 (en) Digital comic editor, method and non-transitory computer-readable medium
US20130326341A1 (en) Digital comic editor, method and non-transitorycomputer-readable medium
US20120017144A1 (en) Content analysis apparatus and method
US9049400B2 (en) Image processing apparatus, and image processing method and program
US9798724B2 (en) Document discovery strategy to find original electronic file from hardcopy version
US11430166B1 (en) Facilitating generation of number-bullet objects
CN112365402B (zh) 智能组卷方法、装置、存储介质及电子设备
CN113378526A (zh) Pdf段落处理方法、装置、存储介质及设备
US20130104014A1 (en) Viewer unit, server unit, display control method, digital comic editing method and non-transitory computer-readable medium
JP5569367B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN115994521A (zh) 文档编辑方法、呈现方法、文档段落的识别方法及装置
JPH0678119A (ja) 画像ファイリング装置および画像読取処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140604

Termination date: 20210106

CF01 Termination of patent right due to non-payment of annual fee