CN103186911A

CN103186911A - 一种处理扫描书数据的方法及装置

Info

Publication number: CN103186911A
Application number: CN201110448225XA
Authority: CN
Inventors: 仇睿恒; 李赟
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Pku Founder Information Industry Group Co ltd; Peking University Founder Group Co Ltd; Founder Apabi Technology Ltd
Priority date: 2011-12-28
Filing date: 2011-12-28
Publication date: 2013-07-03
Anticipated expiration: 2031-12-28
Also published as: US8995768B2; CN103186911B; US20130170751A1

Abstract

本发明公开了一种处理扫描书数据的方法及装置，为实现对扫描书的页面文档进行版面重排提供必要条件，从而能够实现对扫描书进行版面重排。方法包括：读取所述页面文档的页面图像数据；对所述页面图像数据进行分割、识别，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码；对所述页面文档中的每行文字进行文字行聚合处理，得到所述每行文字的文字行信息，并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正，得到每个文字的确切图像矩形框位置信息和文字行聚合信息；存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。

Description

一种处理扫描书数据的方法及装置

技术领域

本发明涉及数字排版领域，尤其涉及一种处理扫描书数据的方法及装置。

背景技术

所谓的“扫描书”是指利用扫描仪等设备对纸质书籍进行扫描而得到的电子书。扫描书中的每一页对应一张DPI(Dot Per Inch，分辨率)较高的扫描图，由于扫描图数据量较大，因此不利于数据的存储和传输；并且，每一页上的数据都很难得到有效的利用，例如文字拷贝、版面重排等应用。

为实现文字拷贝，目前提出了一种双层页面的技术，即在扫描图上附加一层透明层，利用OCR(Optical Character Recognition，光学字符识别)在该透明层的相应位置上添加透明文字，以使得用户在使用扫描书时可以在不影响扫描书原始页面结构的同时能够将透明层上的透明文字拷贝下来。该种方式虽然能够实现扫描书的文字的拷贝，但是由于OCR本身的技术特点，透明层上的文字难以用于诸如版面重排等高级应用。因此，目前的扫描书仍然存在数据量较大、不能进行版面重排的问题。

发明内容

针对现有技术中不能实现对扫描书进行版面重排的问题，本发明实施例提供一种处理扫描书数据的方法及装置，为实现对扫描书的版面重排提供条件，从而实现对扫描书的版面重排。

一种处理扫描书数据的方法，针对扫描书中的每页文档，包括：

读取所述页面文档的页面图像数据；

对所述页面图像数据进行分割、识别，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码；

对所述页面文档中的每行文字进行文字行聚合处理，得到所述每行文字的文字行信息，并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正，得到每个文字的确切图像矩形框位置信息和文字行聚合信息；

存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。

较佳地，上述方法中，根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正，具体包括：

根据所述文字行信息确定出所述每行文字对应的行高；

将所述每行文字中的所有文字的矩形框的高度调整为与所述每行文字对应的行高相同。

较佳地，确定出所述每行文字对应的行高之后，还包括：

根据所述每行文字的前一行文字和后一行文字的行高，对所述每行文字的行高进行修正。

较佳地，根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正之后，还包括：

针对所述页面文档，根据所述页面文档中的文字的像素数据，对所述页面文档中的所有文字进行分类，将视觉相同的文字归为一类，从而得到多类文字图像；

为每类文字图像分配相应的编号，并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号；

将所述页面文档中的每类文字图像删除，并对删除后的页面文档进行压缩得到压缩文档，并存储所述压缩文档。

较佳地，根据相应的文字行信息对所述扫描书中所有文字对应的矩形框进行修正之后，还包括：

针对每本扫描书，根据所述每本扫描书的所有文字的像素数据，对所述每本扫描书中的所有文字进行分类，将视觉相同的文字归为一类，从而得到多类文字图像；

针对所述每本扫描书中的每个页面文档，将该页面文档中的文字图像删除，并对删除后的页面文档进行压缩得到压缩文档，并存储所述压缩文档。

较佳地，对所述页面图像数据进行分割、识别，具体包括：采用光学字符识别OCR技术对所述页面图像数据进行分割和识别操作。

一种处理扫描书数据的装置，包括：

页面图像数据读取单元，用于读取扫描书中的每个页面文档的页面图像数据；

文字信息获取单元，用于对所述页面图像数据读取单元读取得到的所述页面文档的页面图像数据进行分割、识别，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码；

文字修正单元，用于对所述页面文档中的每行文字进行文字行聚合处理，得到所述每行文字的文字行信息，并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正，得到每个文字的确切图像矩形框位置信息和文字行聚合信息；

信息存储单元，用于存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。

较佳地，所述文字修正单元根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正，具体用于：

根据所述文字行信息确定出所述每行文字对应的行高；

较佳地，所述装置还包括：

压缩处理单元，用于在所述文字修正单元根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正之后，针对所述页面文档，根据所述页面文档中的文字的像素数据，对所述页面文档中的所有文字进行分类，将视觉相同的文字归为一类，从而得到多类文字图像；为每类文字图像分配相应的编号，并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号；将所述页面文档中的每类文字图像删除，并对删除后的页面文档进行压缩得到压缩文档，并存储所述压缩文档；或者，

压缩处理单元，用于在所述文字修正单元根据相应的文字行信息对所述扫描书中所有文字对应的矩形框进行修正之后，针对每本扫描书，根据所述每本扫描书的所有文字的像素数据，对所述每本扫描书中的所有文字进行分类，将视觉相同的文字归为一类，从而得到多类文字图像；为每类文字图像分配相应的编号，并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号；针对所述每本扫描书中的每个页面文档，将该页面文档中的文字图像删除，并对删除后的页面文档进行压缩得到压缩文档，并存储所述压缩文档。

较佳地，所述文字信息获取单元，具体用于：

采用光学字符识别OCR技术对所述每页文档的页面图像数据进行分割和识别操作，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码。

本发明实施例中，一方面，读取所述页面文档的页面图像数据；对所述页面图像数据进行分割、识别，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码；对所述页面文档中的每行文字进行文字行聚合处理，得到所述每行文字的文字行信息，并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正，得到每个文字的确切图像矩形框位置信息和文字行聚合信息；存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。采用本发明技术方案，由于获取并保存每个文字的确切图像矩形框位置信息、文字行聚合信息以及字符编码，因此为后续对该页文档进行版面重排提供了必要信息，因此采用本发明技术方案能够实现对扫描书进行版面重排。另一方面，本发明技术方案在对扫描书的每个页面文档的所有文字进行修正处理之后，还将该页面文档中的文字进行分类得到多类文字图像，并为每类文字图像分配相应的编号，并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及相应编号；再将所述页面文档中的每类文字图像删除，并对删除后的页面文档进行压缩得到压缩文档，并存储所述压缩文档；因此，采用本发明技术方案，对原来包含很多文字图像的文档中的文字图像删除并压缩，从而在很大程度上降低扫描书的文件体积；并且由于存储了文档中各类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及相应编号，因此可以还原出压缩之前的文档；在不影响文档正常呈现的情况下还能够将当前不需要呈现的文档设置为压缩状态，从而在很大程度上降低了扫描书的数据量。

附图说明

图1为本发明实施例中处理扫描书数据的方法流程图之一；

图2为本发明实施例中处理扫描书数据的方法流程图之二；

图3为本发明实施例中处理扫描书数据的方法流程图之三；

图4A、图4B、图4C、图4D、图4E和图4F分别为对数字扫描书中的某一页面图像数据进行具体处理时的各阶段的示意图；

图5为本发明实施例中处理扫描书数据的装置的结构示意图之一；

图6为本发明实施例中处理扫描书数据的装置的结构示意图之二。

具体实施方式

针对现有技术中，不能实现对扫描书进行版面重排的问题，本发明实施例提供一种处理扫描书数据的方法及装置，为实现对扫描书进行版面重排提供必要信息，从而实现对扫描书的版面重排。处理扫描书数据的方法，可包括：读取所述页面文档的页面图像数据；对所述页面图像数据进行分割、识别，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码；对所述页面文档中的每行文字进行文字行聚合处理，得到所述每行文字的文字行信息，并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正，得到每个文字的确切图像矩形框位置信息和文字行聚合信息；存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。采用本发明技术方案，由于获取并保存每个文字的确切图像矩形框位置信息、文字行聚合信息以及字符编码，因此为后续对该页文档进行版面重排提供了必要信息，因此采用本发明技术方案能够实现对扫描书进行版面重排。

下面结合说明书附图对本发明技术方案进行详细的描述。

参见图1，为本发明实施例中处理扫描书数据的方法流程图，该方法针对扫描书中的每个页面文档(即每一页)，包括：

步骤101、读取所述页面文档的页面图像数据。

步骤102、对所述页面图像数据进行分割、识别，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码。

步骤103、对所述页面文档中的每行文字进行文字行聚合处理，得到所述每行文字的文字行信息，并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正，得到每个文字的确切图像矩形框位置信息和文字行聚合信息。

步骤104、存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。

本发明实施例中，文字行信息包括：文字行在页面文档中的位置信息、大小、该行文字中各文字的排序信息、文字行高度等信息；文字聚合信息包括：文字的像素数据、轮廓信息、切割准确度、文字在相应文字行中的位置等信息。

较佳地，上述步骤103中，根据相应的文字行信息对每行文字中的每个文字对应的矩形框进行修正，具体可采用以下方式：根据所述文字行信息确定出所述每行文字对应的行高；将所述每行文字中的所有文字的矩形框的高度调整为与所述每行文字对应的行高相同。

较佳地，为避免后续在对扫描书中的页面文档进行版面重排时出现折行或拼接行而导致版面重排失败的问题，本发明实施例中，上述步骤103中，确定出所述每行文字对应的行高之后，还包括：根据所述每行文字的前一行文字和后一行文字的行高，对所述每行文字的行高进行修正。

较佳地，为降低扫描书的数据量，上述方法还可包括步骤105a或步骤105b，该步骤105a是在对扫描书中的每页文档的所有文字进行修正处理之后对该页文档所进行的操作，步骤105b是在对扫描书中的所有页面文档的文字进行修正处理之后对该扫描书的所有页面文档所进行的操作。

当对扫描书中的某页文档进行操作时，如图2所示：

步骤105a、针对所述页面文档，根据所述页面文档中的文字的像素数据，对所述页面文档中的所有文字进行分类，将视觉相同的文字归为一类，从而得到多类文字图像；为每类文字图像分配相应的编号，并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号；将所述页面文档中的每类文字图像删除，并对删除后的页面文档进行压缩得到压缩文档，并存储所述压缩文档。

当对扫描书中的所有文档进行操作时，如图3所示：

步骤105b、针对每本扫描书，根据所述每本扫描书的所有文字的像素数据，对所述每本扫描书中的所有文字进行分类，将视觉相同的文字归为一类，从而得到多类文字图像；为每类文字图像分配相应的编号，并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号；针对所述每本扫描书中的每个页面文档，将该页面文档中的文字图像删除，并对删除后的页面文档进行压缩得到压缩文档，并存储所述压缩文档。

较佳地，上述步骤105a和步骤105b中，将视觉相同的文字归为一类，可采用以下方式实现：根据各文字的像素数据、形态、颜色等因素综合确定视觉上无差异的文字。

较佳地，上述方法流程中的步骤102中，对所述页面图像数据进行分割、识别，采用以下方式实现：采用OCR技术对所述页面图像数据进行分割和识别操作。

为了更清楚、详细的描述本发明技术方案，下面以一具体的实例进行详细的描述。

假设扫描书中的某一页面文档的页面图像数据如图4A所示。

步骤1，采用OCR技术对上述文档的页面图像数据进行分割、识别，得到页面图像数据中的每个文字在相应页面上的矩形框位置和字符编码(本发明实施例中字符编码为unicode码)，如图4B以页面图像数据的第一行文字为例进行分割、识别等操作。上述每个矩形框代表文档中切割得到一个文字，而第一行上方的文字则是识别出的字符编码所对应的文字；由上可知，通过OCR技术分割出的各个文字的矩形框的尺寸大小不一，并且识别出的文字存在错误，如将横线“-”误识别为汉字的大写“一”，逗号“，”被误识别为点号“.”等，这些误识别的字符将可能不利于对文档的版面重排。

步骤2，采用文字行聚合技术对所述页面文档中的每行文字进行处理，得到相应的文字行信息，并根据文字行信息修对该行文字中的每个文字对应的矩形框进行修正，得到所述每个文字的确切图像矩形框位置信息和文字行聚合信息；图4C中的粗体横线部分为第一行文字对应的文字行。

根据文字行对第一行文字中的每个文字对应的矩形框进行修正后，如图4D所示。

步骤3、利用聚类技术对该文档的文字的像素数据进行聚类操作，如将上述页面数据中的字母“o”归为同一类；第一个字母“g”右上钩较平，第二字母“g”的右上较为倾斜，差异较大，因此第一个字母“g”和第二个字母“g”归到不同类中，依此，得到多类文字图像，并对该多类文字图像分配相应的编号。对于一类文字图像来说，通过计算得到一个合适的文字图像作为该类文字图像的文字图像代表。在本实施例中，由于对于归属于同一类的多个文字图像来说，难以从视觉上察觉它们之间的差异，因此，可以将该类文字图像中的任意一个文字图像选取为该类文字图像的文字图像代表；或者，还可以通过其他方式选取文字图像代表，如：计算该类文字图像的像素平均值，将像素等于像素平均值的文字图像确定为文字图像代表；或者，根据一个偏序函数对该类文字图像中的多个文字图像进行排序，将位于中间的文字图像确定为文字图像代表。针对本实例中的第一行文字可以得到以下几类文字图像及其对应的编号，如图4E所示。

步骤3、存储每类文字图像中的文字图像的确切图像矩形框位置信息、字符编码和编号，如下表1所示：

确切矩形框位置信息	字符编码对应的文字	编号
			…	…	…
(100，70)	道	31
			(110，70)	g	32
(118，70)	o	33
			(125，70)	o	33
(132，70)	-	34
			(138，70)	g	35
(145，70)	o	33
			(151，70)	o	33
…	…	…

步骤4、将所述页面文档中的所有文字图像删除，得到空白的文档。

步骤5、对所述空白的页面文档以及包含该空白页面文档中的文字图像的确切图像矩形框位置信息、字符编码和编号的表进行压缩保存。

本发明实施例中，由于在处理过程中，将视觉无差异的多个文字图像由同一个文字图像替换，从而可以在一定程度上节省大量的存储数据量，而经过处理的页面图像也变成由大量空白和少部分剩余信息组成的图像，利用现有的图像压缩方法可以获得更好的压缩率，从而极大的减少了原始文档的体积，在实际使用中能够达到数十倍的差异。

本发明实施例中，当需要还原扫描书的页面文档时，将该页面文档对应的压缩文件进行解压缩，得到该页面文档的文字图像及其对应的确切图像矩形框位置信息、字符编码和编号；将各文字图像放置到页面文档中的相应位置，依此完成文档的还原操作。

本发明实施例中，当需要从页面文档中提取文字时，根据用户选择的区域确定被选中的文字图像，再将被选中的文字图像对应的字符编码按照相应的顺序进行排列，并返回给用户。

本发明实施例中，当需要对页面文档进行版面重排时，将存储的该页面文档对应的各文字的文字行聚合信息输入到排版引擎中，由排版引擎根据页面文档的宽度、各文字的文字行聚合信息进行相应的排版操作，以得到排版后的页面文档；以前述例子为例，排版引擎进行排版之后得到的页面文档如图4F所示。

基于前述方法的相同构思，本发明实施例还提供一种处理扫描书数据的装置，该装置的结构如图5所示，包括：

页面图像数据读取单元51，用于读取扫描书中的每个页面文档的页面图像数据；

文字信息获取单元52，用于对所述页面图像数据读取单元读取得到的所述页面文档的页面图像数据进行分割、识别，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码；

文字修正单元53，用于对所述页面文档中的每行文字进行文字行聚合处理，得到所述每行文字的文字行信息，并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正，得到每个文字的确切图像矩形框位置信息和文字行聚合信息；

信息存储单元54，用于存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。

较佳地，文字修正单元53根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正，具体用于：根据所述文字行信息确定出所述每行文字对应的行高；将所述每行文字中的所有文字的矩形框的高度调整为与所述每行文字对应的行高相同。

较佳地，上述装置还可包括压缩处理单元55，如图6所示：

压缩处理单元55，用于在文字修正单元53根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正之后，针对所述页面文档，根据所述页面文档中的文字的像素数据，对所述页面文档中的所有文字进行分类，将视觉相同的文字归为一类，从而得到多类文字图像；为每类文字图像分配相应的编号，并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号；将所述页面文档中的每类文字图像删除，并对删除后的页面文档进行压缩得到压缩文档，并存储所述压缩文档；或者，

压缩处理单元55，用于在文字修正单元53根据相应的文字行信息对所述扫描书中所有文字对应的矩形框进行修正之后，针对每本扫描书，根据所述每本扫描书的所有文字的像素数据，对所述每本扫描书中的所有文字进行分类，将视觉相同的文字归为一类，从而得到多类文字图像；为每类文字图像分配相应的编号，并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及对应的编号；针对所述每本扫描书中的每个页面文档，将该页面文档中的文字图像删除，并对删除后的页面文档进行压缩得到压缩文档，并存储所述压缩文档。

较佳地，文字信息获取单元52，具体用于：采用OCR技术对所述页面文档的页面图像数据进行分割和识别操作，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码。

本发明实施例中，本发明实施例中，一方面，读取所述页面文档的页面图像数据；对所述页面图像数据进行分割、识别，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码；对所述页面文档中的每行文字进行文字行聚合处理，得到所述每行文字的文字行信息，并根据所述文字行信息对所述每行文字中的每个文字对应的矩形框进行修正，得到每个文字的确切图像矩形框位置信息和文字行聚合信息；存储所述页面文档中每个文字对应的确切图像矩形框位置信息、文字行聚合信息和字符编码。采用本发明技术方案，由于获取并保存每个文字的确切图像矩形框位置信息、文字行聚合信息以及字符编码，因此为后续对该页文档进行版面重排提供了必要信息，因此采用本发明技术方案能够实现对扫描书进行版面重排。另一方面，本发明技术方案在对扫描书的每个页面文档的所有文字进行修正处理之后，还将该页面文档中的文字进行分类得到多类文字图像，并为每类文字图像分配相应的编号，并存储该类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及相应编号；再将所述页面文档中的每类文字图像删除，并对删除后的页面文档进行压缩得到压缩文档，并存储所述压缩文档；因此，采用本发明技术方案，对原来包含很多文字图像的文档中的文字图像删除并压缩，从而在很大程度上降低扫描书的文件体积；并且由于存储了文档中各类文字图像中每个文字图像的确切图像矩形框位置信息、字符编码及相应编号，因此可以还原出压缩之前的文档；在不影响文档正常呈现的情况下还能够将当前不需要呈现的文档设置为压缩状态，从而在很大程度上降低了扫描书的数据量。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种处理扫描书数据的方法，其特征在于，针对扫描书中的每个页面文档，包括：

读取所述页面文档的页面图像数据；

2.如权利要求1所述的方法，其特征在于，根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正，具体包括：

根据所述文字行信息确定出所述每行文字对应的行高；

3.如权利要求2所述的方法，其特征在于，确定出所述每行文字对应的行高之后，还包括：

4.如权利要求1所述的方法，其特征在于，根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正之后，还包括：

5.如权利要求1所述的方法，其特征在于，根据相应的文字行信息对所述扫描书中所有文字对应的矩形框进行修正之后，还包括：

6.如权利要求1所述的方法，其特征在于，对所述页面图像数据进行分割、识别，具体包括：

采用光学字符识别OCR技术对所述页面图像数据进行分割和识别操作。

7.一种处理扫描书数据的装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述文字修正单元根据相应的文字行信息对所述每行文字中的每个文字的矩形框进行修正，具体用于：

根据所述文字行信息确定出所述每行文字对应的行高；

9.如权利要求7所述的装置，其特征在于，还包括：

10.如权利要求7所述的装置，其特征在于，所述文字信息获取单元，具体用于：

采用光学字符识别OCR技术对所述页面文档的页面图像数据进行分割和识别操作，得到所述页面文档中的每个文字在相应页面文档上的矩形框位置和字符编码。