CN110209759A

CN110209759A - 自动识别书页的方法及装置

Info

Publication number: CN110209759A
Application number: CN201910464694.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: WANGTI SCIENCE AND TECHNOLOGY DEVELOPMENT Co Ltd BEIJING
Current assignee: WANGTI SCIENCE AND TECHNOLOGY DEVELOPMENT Co Ltd BEIJING
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-09-06
Anticipated expiration: 2039-05-30
Also published as: CN110209759B

Abstract

本发明涉及一种自动识别书页的方法及装置，所述方法使用光学字符识别技术OCR和全文检索技术来实现书页自动定位，分为两个大的步骤：书籍全文检索数据库准备和页码自动识别。将书页的定位转化为文本的OCR识别和检索技术，解决了现有方法存在的问题，对OCR识别的精度要求较低，部分的文本识别错误不会影响整体的检索结果。

Description

自动识别书页的方法及装置

技术领域

本发明涉及一种自动识别书页的方法及装置，用于对于大部分是文字（中文或其它语言）的书籍，使用智能手机或其它带摄像头的设备，自动定位书籍中某个书页的页码。

背景技术

对于大部分是文字的书籍，一般是在智能手机的软件上手工选择相应的书籍，章节和页码，或者直接识别书页上的页码，这个方法操作起来不方便，而且对数字页码的识别精度要求很高，很难实用；对于图画类的书籍，直接把某一页作为图片，通过机器学习的方法训练分类器，然后使用手机拍摄书页图片后，通过识别出分类器中对应的图片，找到对应的页码，这个方法需要把每一页作为一个类别进行训练，当书籍数量达到几十本以上后，分类器的类别数将达到几千甚至几万个，模型过于庞大，无法训练和实时处理。

如何提高检索速度且能满足使用要求，是目前自动识别书页领域中急需解决的技术问题。

发明内容

本发明所要解决的技术问题是如何解决已有方法存在的问题，提高检索速度且能满足使用要求。

本发明的技术方案如下：

一种自动识别书页的方法，所述方法包括检索数据的准备阶段和页码自动识别阶段；

所述检索数据的准备阶段包括以下步骤：

1-1）将书籍的电子文档，按照页面生成一个个单独的分页数据，其中一个页面对应一条分页数据；

1-2）将生成的分页数据存入全文检索数据库；

1-3）在全文检索数据库中进行文本内容分词和词语索引，以及全文检索相关数据的生成和存储；

1-4）将全文检索数据库部署在云端或相应的设备上；

所述的页码自动识别阶段包括以下步骤：

2-1）使用智能相机或其它设备的摄像头拍摄待定位书页的图像；

2-2）使用图像处理算法或机器学习方法自动对图像质量进行评估，若所述图像质量低于设定的阈值，则重新拍摄图像；

2-3）使用图像处理算法或机器学习方法自动识别出书页图像的大致方向，根据识别出的方向对图像做旋转，使文字方向自动调整为正常阅读的方向；

2-4）对调整后的图像进行自动分割，并自动识别其中的文字块或文字行中的文本；

2-5）将识别出的全部或部分的文本结果，作为检索词输入之前部署好的书籍全文检索数据库，使用自动搜索技术检索出包含检索词的分页数据，提取其对应的书名和页码，并根据检索词匹配的数量计算每个分页数据的检索分值；

2-6）对检索出的分页数据按照检索分值排序，将分值最高的分页数据作为检索结果；

2-7）将分值最高的检索分值与设定的第二阈值进行比较，若比较的结果为低于第二阈值，则返回定位失败，重新拍摄图像；如果比较的结果为高于所述第二阈值，则从检索结果中提取书名和页码，并输出所述提取的内容。

还提供一种自动识别书页的装置，所述装置包括检索数据准备阶段单元和页码自动识别单元；

所述检索数据准备单元用于执行以下步骤：

1-2）将生成的分页数据存入全文检索数据库；

1-4）将全文检索数据库部署在云端或相应的设备上；

所述的页码自动识别单元用于执行以下步骤：

以及提供一种计算机可读存储介质，所述存储介质上存储着程序代码，所述程序代码能够被处理器执行，用于实现上述所述的方法。

本发明通过检索数据的准备和页码自动识别，使用智能相机或其它设备的摄像头拍摄待定位书页的图像，使用图像处理算法或机器学习方法自动对图像质量进行评估和调整，对调整后的图像进行自动分割，并自动识别其中的文字块或文字行中的文本，使用光学字符识别技术OCR和全文检索技术来实现书页自动定位，并根据检索词匹配的数量计算每个分页数据的检索分值，将分值最高的检索分值与设定的第二阈值进行比较以从检索结果中提取书名和页码，并输出所述提取的内容。将书页的定位转化为文本的OCR识别和检索技术，解决了现有方法存在的问题，对OCR识别的精度要求较低，部分的文本识别错误不会影响整体的检索结果。

附图说明

图1是本发明的准备书籍全文检索数据库的流程图；

图2是本发明的页码自动识别的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所述一种自动识别书页的方法及装置具体实施方式如下：

所述检索数据的准备阶段包括以下步骤：

1-2）将生成的分页数据存入全文检索数据库；

1-4）将全文检索数据库部署在云端或相应的设备上；

所述的页码自动识别阶段包括以下步骤：

2-7）将分值最高的检索分值与设定的第二阈值进行比较，基于比较结果，确定是重新拍摄图像还是输出从检索结果中提取的内容。

其中，基于比较结果，确定是重新拍摄图像还是输出从检索结果中提取的内容具体包括：若比较的结果为低于第二阈值，则返回定位失败，重新拍摄图像；如果比较的结果为高于所述第二阈值，则从检索结果中提取书名和页码，并输出所述提取的内容。

所述检索数据准备单元用于执行以下步骤：

1-2）将生成的分页数据存入全文检索数据库；

1-4）将全文检索数据库部署在云端或相应的设备上；

所述的页码自动识别单元用于执行以下步骤：

其中，所述图像质量包括图像的光照、是否模糊等。

所述步骤2-4）具体包括，使用光学字符识别技术OCR技术自动分割出文字块或文字行。

所述分页数据是指单独的文本文件或数据记录，具体包括书名、页码、文本及其对应关系。

还提供一种用于实现上述方法的自动识别书页系统，所述系统包括上述自动识别书页的装置。

还提供一种计算机可读存储介质，所述存储介质上存储着程序代码，所述程序代码能够被处理器执行，用于实现上述所述的方法。

该发明所涉及的系统的技术方案具有如下特点：

使用光学字符识别技术(OCR)和全文检索技术来实现书页自动定位，分为两个大的步骤：（1）书籍全文检索数据库准备和（2）页码自动识别。

上述方法将书页的定位转化为文本的OCR识别和检索技术，解决了已有方法存在的问题：（1）对OCR识别的精度要求较低，部分的文本识别错误不会影响整体的检索结果；（2）书籍的数量只会影响全文检索数据库的大小，即使书籍数量达到数千本，全文检索数据库的大小和检索速度仍能满足使用要求。

参照图1-2，基于上述实施方式，本发明的技术方案如下：

首先是书籍全文检索数据的准备：

将书籍的电子文档，如pdf等，按照页面生成一个个单独的文本文件或数据记录（简称分页数据），一个页面对应一条分页数据。

每条分页数据中包含以下几项数据：书名、页码、对应页面中的文本内容。

将分页数据存入全文检索数据库，在全文检索数据库中进行文本内容分词和词语索引，以及全文检索相关的数据的生成和存储。

将全文检索数据库部署在云端或相应的设备上。

在页码自动识别阶段：

使用智能相机或其它设备的摄像头拍摄待定位书页的图像。

使用图像处理算法或机器学习方法自动对图像质量，如光照、模糊等进行评估，若质量低于设定的阈值，则重新拍摄图像。

使用图像处理算法或机器学习方法自动识别出书页图像的大致方向，根据识别出的方向对图像做旋转，使文字方向调整为正常阅读的方向。

在调整后的图像中，使用OCR技术自动分割出文字块或文字行，并自动识别文字块或文字行中的文字。

将识别出的全部或部分的文本结果，作为检索词输入之前部署好的书籍全文检索数据库，使用自动搜索技术检索出包含检索词的分页数据，提取其对应的书名和页码，并根据检索词匹配的数量计算每个分页数据的检索分值。

对检索出的分页数据按照检索分值排序，分值最高的分页数据作为检索结果。

将最高的检索分值与设定的阈值进行比较，低于阈值的结果，返回定位失败，重新拍摄图像；如果高于阈值，则从检索结果(分页数据)中提取书名和页码，并输出。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上对本发明实施例所提供的自动识别书页的方法和设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种自动识别书页的方法，其特征在于，所述方法包括检索数据的准备阶段和页码自动识别阶段；

所述检索数据的准备阶段包括以下步骤：

1-2）将生成的分页数据存入全文检索数据库；

1-4）将全文检索数据库部署在云端或相应的设备上；

所述的页码自动识别阶段包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述图像质量包括图像的光照、是否模糊等。

3.如权利要求1或2所述的方法，其特征在于，所述步骤2-4）具体包括，使用光学字符识别技术OCR技术自动分割出文字块或文字行。

4.如权利要求1-3所述的方法，其特征在于，所述分页数据是指单独的文本文件或数据记录，具体包括书名、页码、文本及其对应关系。

5.一种自动识别书页的装置，其特征在于，所述装置包括检索数据准备阶段单元和页码自动识别单元；

所述检索数据准备单元用于执行以下步骤：

1-2）将生成的分页数据存入全文检索数据库；

1-4）将全文检索数据库部署在云端或相应的设备上；

所述的页码自动识别单元用于执行以下步骤：

6.如权利要求5所述的装置，其特征在于，所述图像质量包括图像的光照、是否模糊等。

7.如权利要求6所述的装置，其特征在于，所述步骤2-4）具体包括，使用光学字符识别技术OCR技术自动分割出文字块或文字行。

8.如权利要求7所述的装置，其特征在于，所述分页数据是指单独的文本文件或数据记录，具体包括书名、页码、文本及其对应关系。

9.一种用于实现如权利要求1-4任一项所述方法的自动识别书页系统，其特征在于，所述系统包括如权利要求5-8任一项所述装置。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储着程序代码，所述程序代码能够被处理器执行，用于实现如权利要求1-4任一项所述的方法。