CN103186911A - 一种处理扫描书数据的方法及装置 - Google Patents

一种处理扫描书数据的方法及装置 Download PDF

Info

Publication number
CN103186911A
CN103186911A CN201110448225XA CN201110448225A CN103186911A CN 103186911 A CN103186911 A CN 103186911A CN 201110448225X A CN201110448225X A CN 201110448225XA CN 201110448225 A CN201110448225 A CN 201110448225A CN 103186911 A CN103186911 A CN 103186911A
Authority
CN
China
Prior art keywords
literal
page
style
page documents
character image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110448225XA
Other languages
English (en)
Other versions
CN103186911B (zh
Inventor
仇睿恒
李赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Pku Founder Information Industry Group Co ltd
Peking University Founder Group Co Ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201110448225.XA priority Critical patent/CN103186911B/zh
Priority to US13/730,387 priority patent/US8995768B2/en
Publication of CN103186911A publication Critical patent/CN103186911A/zh
Application granted granted Critical
Publication of CN103186911B publication Critical patent/CN103186911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • H04N1/411Bandwidth or redundancy reduction for the transmission or storage or reproduction of two-tone pictures, e.g. black and white pictures
    • H04N1/4115Bandwidth or redundancy reduction for the transmission or storage or reproduction of two-tone pictures, e.g. black and white pictures involving the recognition of specific patterns, e.g. by symbol matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明公开了一种处理扫描书数据的方法及装置,为实现对扫描书的页面文档进行版面重排提供必要条件,从而能够实现对扫描书进行版面重排。方法包括:读取所述页面文档的页面图像数据;对所述页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码;对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息;存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。

Description

一种处理扫描书数据的方法及装置
技术领域
本发明涉及数字排版领域,尤其涉及一种处理扫描书数据的方法及装置。
背景技术
所谓的“扫描书”是指利用扫描仪等设备对纸质书籍进行扫描而得到的电子书。扫描书中的每一页对应一张DPI(Dot Per Inch,分辨率)较高的扫描图,由于扫描图数据量较大,因此不利于数据的存储和传输;并且,每一页上的数据都很难得到有效的利用,例如文字拷贝、版面重排等应用。
为实现文字拷贝,目前提出了一种双层页面的技术,即在扫描图上附加一层透明层,利用OCR(Optical Character Recognition,光学字符识别)在该透明层的相应位置上添加透明文字,以使得用户在使用扫描书时可以在不影响扫描书原始页面结构的同时能够将透明层上的透明文字拷贝下来。该种方式虽然能够实现扫描书的文字的拷贝,但是由于OCR本身的技术特点,透明层上的文字难以用于诸如版面重排等高级应用。因此,目前的扫描书仍然存在数据量较大、不能进行版面重排的问题。
发明内容
针对现有技术中不能实现对扫描书进行版面重排的问题,本发明实施例提供一种处理扫描书数据的方法及装置,为实现对扫描书的版面重排提供条件,从而实现对扫描书的版面重排。
一种处理扫描书数据的方法,针对扫描书中的每页文档,包括:
读取所述页面文档的页面图像数据;
对所述页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码;
对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息;
存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。
较佳地,上述方法中,根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正,具体包括:
根据所述文字行信息确定出所述每行文字对应的行高;
将所述每行文字中的所有文字的矩形框的高度调整为与所述每行文字对应的行高相同。
较佳地,确定出所述每行文字对应的行高之后,还包括:
根据所述每行文字的前一行文字和后一行文字的行高,对所述每行文字的行高进行修正。
较佳地,根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正之后,还包括:
针对所述页面文档,根据所述页面文档中的文字的像素数据,对所述页面文档中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;
为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;
将所述页面文档中的每类文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档。
较佳地,根据相应的文字行信息对所述扫描书中所有文字对应的矩形框进行修正之后,还包括:
针对每本扫描书,根据所述每本扫描书的所有文字的像素数据,对所述每本扫描书中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;
为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;
针对所述每本扫描书中的每个页面文档,将该页面文档中的文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档。
较佳地,对所述页面图像数据进行分割、识别,具体包括:采用光学字符识别OCR技术对所述页面图像数据进行分割和识别操作。
一种处理扫描书数据的装置,包括:
页面图像数据读取单元,用于读取扫描书中的每个页面文档的页面图像数据;
文字信息获取单元,用于对所述页面图像数据读取单元读取得到的所述页面文档的页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码;
文字修正单元,用于对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息;
信息存储单元,用于存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。
较佳地,所述文字修正单元根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正,具体用于:
根据所述文字行信息确定出所述每行文字对应的行高;
将所述每行文字中的所有文字的矩形框的高度调整为与所述每行文字对应的行高相同。
较佳地,所述装置还包括:
压缩处理单元,用于在所述文字修正单元根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正之后,针对所述页面文档,根据所述页面文档中的文字的像素数据,对所述页面文档中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;将所述页面文档中的每类文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档;或者,
压缩处理单元,用于在所述文字修正单元根据相应的文字行信息对所述扫描书中所有文字对应的矩形框进行修正之后,针对每本扫描书,根据所述每本扫描书的所有文字的像素数据,对所述每本扫描书中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;针对所述每本扫描书中的每个页面文档,将该页面文档中的文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档。
较佳地,所述文字信息获取单元,具体用于:
采用光学字符识别OCR技术对所述每页文档的页面图像数据进行分割和识别操作,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码。
本发明实施例中,一方面,读取所述页面文档的页面图像数据;对所述页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码;对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息;存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。采用本发明技术方案,由于获取并保存每个文字的确切图像矩形框位置信息、文字行聚合信息以及字符编码,因此为后续对该页文档进行版面重排提供了必要信息,因此采用本发明技术方案能够实现对扫描书进行版面重排。另一方面,本发明技术方案在对扫描书的每个页面文档的所有文字进行修正处理之后,还将该页面文档中的文字进行分类得到多类文字图像,并为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及相应编号;再将所述页面文档中的每类文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档;因此,采用本发明技术方案,对原来包含很多文字图像的文档中的文字图像删除并压缩,从而在很大程度上降低扫描书的文件体积;并且由于存储了文档中各类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及相应编号,因此可以还原出压缩之前的文档;在不影响文档正常呈现的情况下还能够将当前不需要呈现的文档设置为压缩状态,从而在很大程度上降低了扫描书的数据量。
附图说明
图1为本发明实施例中处理扫描书数据的方法流程图之一;
图2为本发明实施例中处理扫描书数据的方法流程图之二;
图3为本发明实施例中处理扫描书数据的方法流程图之三;
图4A、图4B、图4C、图4D、图4E和图4F分别为对数字扫描书中的某一页面图像数据进行具体处理时的各阶段的示意图;
图5为本发明实施例中处理扫描书数据的装置的结构示意图之一;
图6为本发明实施例中处理扫描书数据的装置的结构示意图之二。
具体实施方式
针对现有技术中,不能实现对扫描书进行版面重排的问题,本发明实施例提供一种处理扫描书数据的方法及装置,为实现对扫描书进行版面重排提供必要信息,从而实现对扫描书的版面重排。处理扫描书数据的方法,可包括:读取所述页面文档的页面图像数据;对所述页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码;对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息;存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。采用本发明技术方案,由于获取并保存每个文字的确切图像矩形框位置信息、文字行聚合信息以及字符编码,因此为后续对该页文档进行版面重排提供了必要信息,因此采用本发明技术方案能够实现对扫描书进行版面重排。
下面结合说明书附图对本发明技术方案进行详细的描述。
参见图1,为本发明实施例中处理扫描书数据的方法流程图,该方法针对扫描书中的每个页面文档(即每一页),包括:
步骤101、读取所述页面文档的页面图像数据。
步骤102、对所述页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码。
步骤103、对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息。
步骤104、存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。
本发明实施例中,文字行信息包括:文字行在页面文档中的位置信息、大小、该行文字中各文字的排序信息、文字行高度等信息;文字聚合信息包括:文字的像素数据、轮廓信息、切割准确度、文字在相应文字行中的位置等信息。
较佳地,上述步骤103中,根据相应的文字行信息对每行文字中的每个文字对应的矩形框进行修正,具体可采用以下方式:根据所述文字行信息确定出所述每行文字对应的行高;将所述每行文字中的所有文字的矩形框的高度调整为与所述每行文字对应的行高相同。
较佳地,为避免后续在对扫描书中的页面文档进行版面重排时出现折行或拼接行而导致版面重排失败的问题,本发明实施例中,上述步骤103中,确定出所述每行文字对应的行高之后,还包括:根据所述每行文字的前一行文字和后一行文字的行高,对所述每行文字的行高进行修正。
较佳地,为降低扫描书的数据量,上述方法还可包括步骤105a或步骤105b,该步骤105a是在对扫描书中的每页文档的所有文字进行修正处理之后对该页文档所进行的操作,步骤105b是在对扫描书中的所有页面文档的文字进行修正处理之后对该扫描书的所有页面文档所进行的操作。
当对扫描书中的某页文档进行操作时,如图2所示:
步骤105a、针对所述页面文档,根据所述页面文档中的文字的像素数据,对所述页面文档中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;将所述页面文档中的每类文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档。
当对扫描书中的所有文档进行操作时,如图3所示:
步骤105b、针对每本扫描书,根据所述每本扫描书的所有文字的像素数据,对所述每本扫描书中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;针对所述每本扫描书中的每个页面文档,将该页面文档中的文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档。
较佳地,上述步骤105a和步骤105b中,将视觉相同的文字归为一类,可采用以下方式实现:根据各文字的像素数据、形态、颜色等因素综合确定视觉上无差异的文字。
较佳地,上述方法流程中的步骤102中,对所述页面图像数据进行分割、识别,采用以下方式实现:采用OCR技术对所述页面图像数据进行分割和识别操作。
为了更清楚、详细的描述本发明技术方案,下面以一具体的实例进行详细的描述。
假设扫描书中的某一页面文档的页面图像数据如图4A所示。
步骤1,采用OCR技术对上述文档的页面图像数据进行分割、识别,得到页面图像数据中的每个文字在相应页面上的矩形框位置和字符编码(本发明实施例中字符编码为unicode码),如图4B以页面图像数据的第一行文字为例进行分割、识别等操作。上述每个矩形框代表文档中切割得到一个文字,而第一行上方的文字则是识别出的字符编码所对应的文字;由上可知,通过OCR技术分割出的各个文字的矩形框的尺寸大小不一,并且识别出的文字存在错误,如将横线“-”误识别为汉字的大写“一”,逗号“,”被误识别为点号“.”等,这些误识别的字符将可能不利于对文档的版面重排。
步骤2,采用文字行聚合技术对所述页面文档中的每行文字进行处理,得到相应的文字行信息,并根据文字行信息修对该行文字中的每个文字对应的矩形框进行修正,得到所述每个文字的确切图像矩形框位置信息和文字行聚合信息;图4C中的粗体横线部分为第一行文字对应的文字行。
根据文字行对第一行文字中的每个文字对应的矩形框进行修正后,如图4D所示。
步骤3、利用聚类技术对该文档的文字的像素数据进行聚类操作,如将上述页面数据中的字母“o”归为同一类;第一个字母“g”右上钩较平,第二字母“g”的右上较为倾斜,差异较大,因此第一个字母“g”和第二个字母“g”归到不同类中,依此,得到多类文字图像,并对该多类文字图像分配相应的编号。对于一类文字图像来说,通过计算得到一个合适的文字图像作为该类文字图像的文字图像代表。在本实施例中,由于对于归属于同一类的多个文字图像来说,难以从视觉上察觉它们之间的差异,因此,可以将该类文字图像中的任意一个文字图像选取为该类文字图像的文字图像代表;或者,还可以通过其他方式选取文字图像代表,如:计算该类文字图像的像素平均值,将像素等于像素平均值的文字图像确定为文字图像代表;或者,根据一个偏序函数对该类文字图像中的多个文字图像进行排序,将位于中间的文字图像确定为文字图像代表。针对本实例中的第一行文字可以得到以下几类文字图像及其对应的编号,如图4E所示。
步骤3、存储每类文字图像中的文字图像的确切图像矩形框位置信息、字符编码和编号,如下表1所示:
  确切矩形框位置信息   字符编码对应的文字   编号
  …   …   …
  (100,70)   道   31
  (110,70)   g   32
  (118,70)   o   33
  (125,70)   o   33
  (132,70)   -   34
  (138,70)   g   35
  (145,70)   o   33
  (151,70)   o   33
  …   …   …
步骤4、将所述页面文档中的所有文字图像删除,得到空白的文档。
步骤5、对所述空白的页面文档以及包含该空白页面文档中的文字图像的确切图像矩形框位置信息、字符编码和编号的表进行压缩保存。
本发明实施例中,由于在处理过程中,将视觉无差异的多个文字图像由同一个文字图像替换,从而可以在一定程度上节省大量的存储数据量,而经过处理的页面图像也变成由大量空白和少部分剩余信息组成的图像,利用现有的图像压缩方法可以获得更好的压缩率,从而极大的减少了原始文档的体积,在实际使用中能够达到数十倍的差异。
本发明实施例中,当需要还原扫描书的页面文档时,将该页面文档对应的压缩文件进行解压缩,得到该页面文档的文字图像及其对应的确切图像矩形框位置信息、字符编码和编号;将各文字图像放置到页面文档中的相应位置,依此完成文档的还原操作。
本发明实施例中,当需要从页面文档中提取文字时,根据用户选择的区域确定被选中的文字图像,再将被选中的文字图像对应的字符编码按照相应的顺序进行排列,并返回给用户。
本发明实施例中,当需要对页面文档进行版面重排时,将存储的该页面文档对应的各文字的文字行聚合信息输入到排版引擎中,由排版引擎根据页面文档的宽度、各文字的文字行聚合信息进行相应的排版操作,以得到排版后的页面文档;以前述例子为例,排版引擎进行排版之后得到的页面文档如图4F所示。
基于前述方法的相同构思,本发明实施例还提供一种处理扫描书数据的装置,该装置的结构如图5所示,包括:
页面图像数据读取单元51,用于读取扫描书中的每个页面文档的页面图像数据;
文字信息获取单元52,用于对所述页面图像数据读取单元读取得到的所述页面文档的页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码;
文字修正单元53,用于对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息;
信息存储单元54,用于存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。
较佳地,文字修正单元53根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正,具体用于:根据所述文字行信息确定出所述每行文字对应的行高;将所述每行文字中的所有文字的矩形框的高度调整为与所述每行文字对应的行高相同。
较佳地,上述装置还可包括压缩处理单元55,如图6所示:
压缩处理单元55,用于在文字修正单元53根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正之后,针对所述页面文档,根据所述页面文档中的文字的像素数据,对所述页面文档中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;将所述页面文档中的每类文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档;或者,
压缩处理单元55,用于在文字修正单元53根据相应的文字行信息对所述扫描书中所有文字对应的矩形框进行修正之后,针对每本扫描书,根据所述每本扫描书的所有文字的像素数据,对所述每本扫描书中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;针对所述每本扫描书中的每个页面文档,将该页面文档中的文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档。
较佳地,文字信息获取单元52,具体用于:采用OCR技术对所述页面文档的页面图像数据进行分割和识别操作,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码。
本发明实施例中,本发明实施例中,一方面,读取所述页面文档的页面图像数据;对所述页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码;对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息;存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。采用本发明技术方案,由于获取并保存每个文字的确切图像矩形框位置信息、文字行聚合信息以及字符编码,因此为后续对该页文档进行版面重排提供了必要信息,因此采用本发明技术方案能够实现对扫描书进行版面重排。另一方面,本发明技术方案在对扫描书的每个页面文档的所有文字进行修正处理之后,还将该页面文档中的文字进行分类得到多类文字图像,并为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及相应编号;再将所述页面文档中的每类文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档;因此,采用本发明技术方案,对原来包含很多文字图像的文档中的文字图像删除并压缩,从而在很大程度上降低扫描书的文件体积;并且由于存储了文档中各类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及相应编号,因此可以还原出压缩之前的文档;在不影响文档正常呈现的情况下还能够将当前不需要呈现的文档设置为压缩状态,从而在很大程度上降低了扫描书的数据量。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种处理扫描书数据的方法,其特征在于,针对扫描书中的每个页面文档,包括:
读取所述页面文档的页面图像数据;
对所述页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码;
对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息;
存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。
2.如权利要求1所述的方法,其特征在于,根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正,具体包括:
根据所述文字行信息确定出所述每行文字对应的行高;
将所述每行文字中的所有文字的矩形框的高度调整为与所述每行文字对应的行高相同。
3.如权利要求2所述的方法,其特征在于,确定出所述每行文字对应的行高之后,还包括:
根据所述每行文字的前一行文字和后一行文字的行高,对所述每行文字的行高进行修正。
4.如权利要求1所述的方法,其特征在于,根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正之后,还包括:
针对所述页面文档,根据所述页面文档中的文字的像素数据,对所述页面文档中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;
为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;
将所述页面文档中的每类文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档。
5.如权利要求1所述的方法,其特征在于,根据相应的文字行信息对所述扫描书中所有文字对应的矩形框进行修正之后,还包括:
针对每本扫描书,根据所述每本扫描书的所有文字的像素数据,对所述每本扫描书中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;
为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;
针对所述每本扫描书中的每个页面文档,将该页面文档中的文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档。
6.如权利要求1所述的方法,其特征在于,对所述页面图像数据进行分割、识别,具体包括:
采用光学字符识别OCR技术对所述页面图像数据进行分割和识别操作。
7.一种处理扫描书数据的装置,其特征在于,包括:
页面图像数据读取单元,用于读取扫描书中的每个页面文档的页面图像数据;
文字信息获取单元,用于对所述页面图像数据读取单元读取得到的所述页面文档的页面图像数据进行分割、识别,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码;
文字修正单元,用于对所述页面文档中的每行文字进行文字行聚合处理,得到所述每行文字的文字行信息,并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正,得到每个文字的确切图像矩形框位置信息和文字行聚合信息;
信息存储单元,用于存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。
8.如权利要求7所述的装置,其特征在于,所述文字修正单元根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正,具体用于:
根据所述文字行信息确定出所述每行文字对应的行高;
将所述每行文字中的所有文字的矩形框的高度调整为与所述每行文字对应的行高相同。
9.如权利要求7所述的装置,其特征在于,还包括:
压缩处理单元,用于在所述文字修正单元根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正之后,针对所述页面文档,根据所述页面文档中的文字的像素数据,对所述页面文档中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;将所述页面文档中的每类文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档;或者,
压缩处理单元,用于在所述文字修正单元根据相应的文字行信息对所述扫描书中所有文字对应的矩形框进行修正之后,针对每本扫描书,根据所述每本扫描书的所有文字的像素数据,对所述每本扫描书中的所有文字进行分类,将视觉相同的文字归为一类,从而得到多类文字图像;为每类文字图像分配相应的编号,并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号;针对所述每本扫描书中的每个页面文档,将该页面文档中的文字图像删除,并对删除后的页面文档进行压缩得到压缩文档,并存储所述压缩文档。
10.如权利要求7所述的装置,其特征在于,所述文字信息获取单元,具体用于:
采用光学字符识别OCR技术对所述页面文档的页面图像数据进行分割和识别操作,得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码。
CN201110448225.XA 2011-12-28 2011-12-28 一种处理扫描书数据的方法及装置 Active CN103186911B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110448225.XA CN103186911B (zh) 2011-12-28 2011-12-28 一种处理扫描书数据的方法及装置
US13/730,387 US8995768B2 (en) 2011-12-28 2012-12-28 Methods and devices for processing scanned book's data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110448225.XA CN103186911B (zh) 2011-12-28 2011-12-28 一种处理扫描书数据的方法及装置

Publications (2)

Publication Number Publication Date
CN103186911A true CN103186911A (zh) 2013-07-03
CN103186911B CN103186911B (zh) 2015-07-15

Family

ID=48678068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110448225.XA Active CN103186911B (zh) 2011-12-28 2011-12-28 一种处理扫描书数据的方法及装置

Country Status (2)

Country Link
US (1) US8995768B2 (zh)
CN (1) CN103186911B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376317A (zh) * 2013-08-12 2015-02-25 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
CN104715497A (zh) * 2014-12-30 2015-06-17 上海孩子国科教设备有限公司 数据替换的方法及系统
CN105404683A (zh) * 2015-11-30 2016-03-16 北大方正集团有限公司 一种版式文档处理方法及装置
CN106104570A (zh) * 2014-03-11 2016-11-09 微软技术许可有限责任公司 检测和提取图像文档组件来创建流文档
CN107103597A (zh) * 2016-02-19 2017-08-29 青岛海信电器股份有限公司 一种像素点位置确定方法和装置
CN107291342A (zh) * 2017-05-03 2017-10-24 广东小天才科技有限公司 一种点读数据的勾勒方法及装置
CN107301418A (zh) * 2017-06-28 2017-10-27 江南大学 光学字符识别中的版面分析
CN109479081A (zh) * 2017-07-03 2019-03-15 京瓷办公信息系统株式会社 原稿读取装置
CN110852326A (zh) * 2019-11-06 2020-02-28 贵州工程应用技术学院 一种手写体版面分析和多风格古籍背景融合方法
US10755594B2 (en) 2015-11-20 2020-08-25 Chrysus Intellectual Properties Limited Method and system for analyzing a piece of text

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015175824A1 (en) * 2014-05-16 2015-11-19 AppCard, Inc. Method and system for improved optical character recognition
KR20160027692A (ko) * 2014-09-02 2016-03-10 엘지전자 주식회사 화면 겹치기를 통해 디지털 컨텐츠를 복사하는 디지털 디바이스 및 그 제어 방법
CN105373790B (zh) * 2015-10-23 2019-02-05 北京汉王数字科技有限公司 版面分析方法和装置
CN110309703B (zh) * 2019-04-25 2021-07-27 东莞市七宝树教育科技有限公司 一种智能适应识别并切割试卷答案区域的方法及其系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458699A (zh) * 2007-12-12 2009-06-17 佳能株式会社 图像处理装置和图像处理方法
CN101558425A (zh) * 2007-06-29 2009-10-14 佳能株式会社 图像处理设备、图像处理方法和计算机程序
CN101689203A (zh) * 2007-06-29 2010-03-31 佳能株式会社 图像处理设备、图像处理方法和计算机程序
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN102081732A (zh) * 2010-12-29 2011-06-01 方正国际软件有限公司 一种版式识别模板方法及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5825919A (en) * 1992-12-17 1998-10-20 Xerox Corporation Technique for generating bounding boxes for word spotting in bitmap images
US5373566A (en) * 1992-12-24 1994-12-13 Motorola, Inc. Neural network-based diacritical marker recognition system and method
US5577135A (en) * 1994-03-01 1996-11-19 Apple Computer, Inc. Handwriting signal processing front-end for handwriting recognizers
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
US6188790B1 (en) * 1996-02-29 2001-02-13 Tottori Sanyo Electric Ltd. Method and apparatus for pre-recognition character processing
US6636631B2 (en) * 1998-06-04 2003-10-21 Matsushita Electric Industrial Co., Ltd. Optical character reading method and system for a document with ruled lines and its application
US6249605B1 (en) * 1998-09-14 2001-06-19 International Business Machines Corporation Key character extraction and lexicon reduction for cursive text recognition
US6487311B1 (en) * 1999-05-04 2002-11-26 International Business Machines Corporation OCR-based image compression
US6681044B1 (en) * 2000-03-29 2004-01-20 Matsushita Electric Industrial Co., Ltd. Retrieval of cursive Chinese handwritten annotations based on radical model
JP3425408B2 (ja) * 2000-05-31 2003-07-14 株式会社東芝 文書読取装置
US8065321B2 (en) * 2007-06-20 2011-11-22 Ricoh Company, Ltd. Apparatus and method of searching document data
US20090202151A1 (en) * 2008-02-13 2009-08-13 Kabushiki Kaisha Toshiba Format processing apparatus for document image and format processing method for the same
US8331680B2 (en) * 2008-06-23 2012-12-11 International Business Machines Corporation Method of gray-level optical segmentation and isolation using incremental connected components
KR20110091296A (ko) * 2010-02-05 2011-08-11 삼성전자주식회사 문서 작성 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101558425A (zh) * 2007-06-29 2009-10-14 佳能株式会社 图像处理设备、图像处理方法和计算机程序
CN101689203A (zh) * 2007-06-29 2010-03-31 佳能株式会社 图像处理设备、图像处理方法和计算机程序
CN101458699A (zh) * 2007-12-12 2009-06-17 佳能株式会社 图像处理装置和图像处理方法
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN102081732A (zh) * 2010-12-29 2011-06-01 方正国际软件有限公司 一种版式识别模板方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376317B (zh) * 2013-08-12 2018-12-14 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
CN104376317A (zh) * 2013-08-12 2015-02-25 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
CN106104570A (zh) * 2014-03-11 2016-11-09 微软技术许可有限责任公司 检测和提取图像文档组件来创建流文档
CN106104570B (zh) * 2014-03-11 2019-10-25 微软技术许可有限责任公司 检测和提取图像文档组件来创建流文档
CN104715497A (zh) * 2014-12-30 2015-06-17 上海孩子国科教设备有限公司 数据替换的方法及系统
US10755594B2 (en) 2015-11-20 2020-08-25 Chrysus Intellectual Properties Limited Method and system for analyzing a piece of text
CN105404683A (zh) * 2015-11-30 2016-03-16 北大方正集团有限公司 一种版式文档处理方法及装置
CN107103597B (zh) * 2016-02-19 2020-04-21 青岛海信电器股份有限公司 一种像素点位置确定方法和装置
CN107103597A (zh) * 2016-02-19 2017-08-29 青岛海信电器股份有限公司 一种像素点位置确定方法和装置
CN107291342A (zh) * 2017-05-03 2017-10-24 广东小天才科技有限公司 一种点读数据的勾勒方法及装置
CN107291342B (zh) * 2017-05-03 2020-01-31 广东小天才科技有限公司 一种点读数据的复制勾勒方法及装置
CN107301418A (zh) * 2017-06-28 2017-10-27 江南大学 光学字符识别中的版面分析
CN109479081A (zh) * 2017-07-03 2019-03-15 京瓷办公信息系统株式会社 原稿读取装置
CN109479081B (zh) * 2017-07-03 2019-12-17 京瓷办公信息系统株式会社 原稿读取装置
CN110852326A (zh) * 2019-11-06 2020-02-28 贵州工程应用技术学院 一种手写体版面分析和多风格古籍背景融合方法
CN110852326B (zh) * 2019-11-06 2022-11-04 贵州工程应用技术学院 一种手写体版面分析和多风格古籍背景融合方法

Also Published As

Publication number Publication date
US8995768B2 (en) 2015-03-31
CN103186911B (zh) 2015-07-15
US20130170751A1 (en) 2013-07-04

Similar Documents

Publication Publication Date Title
CN103186911A (zh) 一种处理扫描书数据的方法及装置
US20190294399A1 (en) Method and device for parsing tables in pdf document
US8295590B2 (en) Method and system for creating a form template for a form
US8736869B2 (en) Layout print system, method for viewing layout document, and program product
TW399179B (en) Method and apparatus for compressing slice-oriented bitmaps
CN100568263C (zh) 布局分析设备和布局分析方法
JP5455038B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US6959121B2 (en) Document image processing device, document image processing method, and memory medium
CN103914496B (zh) 一种页面校对的方法和装置
CN101443790A (zh) 数字图像中的非回流内容的有效处理
US11630621B2 (en) Information processing apparatus and non-transitory computer readable medium
CN101388111A (zh) 图像处理装置和图像处理方法
CN105335453A (zh) 图像分文档方法
US10586125B2 (en) Line removal method, apparatus, and computer-readable medium
JPH09198511A (ja) シンボルの分類方法
CN102915429B (zh) 一种扫描图片匹配方法和装置
US20210279459A1 (en) System for identifying and linking entity relationships in documents
US9218327B2 (en) Optimizing the layout of electronic documents by reducing presentation size of content within document sections so that when combined a plurality of document sections fit within a page
US20080266606A1 (en) Optimized print layout
CN104376317A (zh) 一种将纸质文件转换为电子文件的方法
CN103095964A (zh) 一种页面点阵压缩方法及装置
US20190005038A1 (en) Method and apparatus for grouping documents based on high-level features clustering
EP3299949A1 (en) Method of storing record information
JP2009011874A (ja) 帳票仕分け方法及び該帳票仕分け方法を用いた光学的文字読取システム
US8634094B2 (en) Image processing apparatus, image processing method and non-transitory computer readable medium storing program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: FOUNDER INFORMATION INDUSTRY HOLDING CO., LTD. BEI

Free format text: FORMER OWNER: BEIJING FOUNDER APABI TECHNOLOGY CO., LTD.

Effective date: 20130902

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130902

Address after: 100871 Beijing, Haidian District into the house road, founder of the building on the 9 floor, No. 298

Applicant after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant after: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Applicant after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871 Beijing, Haidian District into the house road, founder of the building on the 9 floor, No. 298

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: FOUNDER APABI TECHNOLOGY Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee after: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220908

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.