CN114359533B

CN114359533B - 一种基于页面文本的页码识别方法和计算机设备

Info

Publication number: CN114359533B
Application number: CN202111370871.9A
Authority: CN
Inventors: 廖泽宇; 秦曙光
Original assignee: Zhuhai Readboy Software Technology Co Ltd
Current assignee: Zhuhai Readboy Software Technology Co Ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-11-04
Anticipated expiration: 2041-11-18
Also published as: CN114359533A

Abstract

本发明提供一种基于页面文本的页码识别方法和计算机设备，所述基于页面文本的页码识别方法包括：对目标书籍的待检测页面进行图像采集，得到待检测页面图像；对所述待检测页面图像进行文字识别，得到待检测页面图像的实际文本内容；将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到与所述实际文本内容对应的目标页码文本内容；其中，所述页码数据库保存有多个书籍的页码文本内容，所述页码文本内容包括对应书籍的各个页面的预存页码和预存文本文字；根据所述目标页码文本内容得到所述待检测页面对应的页码数值。本发明的基于页面文本的页码识别方法和计算机设备，可以高效地识别出待检测页面对应的页码数值，且操作简单。

Description

一种基于页面文本的页码识别方法和计算机设备

技术领域

本发明涉及页码识别的技术领域，具体涉及一种基于页面文本的页码识别方法和计算机设备。

背景技术

目前随着智能识别的不断发展，图像识别也愈加的成熟，特别是在智慧课堂中，能够实现教辅、试卷等资料的智能批改、统分等功能。

由于智慧课堂教辅识别或试卷识别要求准确性高，故而一般都需要先对教辅或试卷进行页码确认，若页码出现遮挡或被涂画，则无法识别出对应教辅的页码数据，而目前的常规做法有通过页码呈现位置与图片采集位置进行比对获取，有通过二维码扫描获取，但是要么准确率还不够高，要么操作复杂，如贴二维码，则每一页都得贴上，导致用户体验不高，且操作麻烦。

发明内容

本发明的目的在于克服现有技术中的缺点与不足，提供一种基于页面文本的页码识别方法和计算机设备，可以高效地识别出待检测页面对应的页码数值，且操作简单。

本发明的一个实施例提供一种基于页面文本的页码识别方法，包括：

对目标书籍的待检测页面进行图像采集，得到待检测页面图像；

对所述待检测页面图像进行文字识别，得到待检测页面图像的实际文本内容；

将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到与所述实际文本内容对应的目标页码文本内容；其中，所述页码数据库保存有多个书籍的页码文本内容，所述页码文本内容包括对应书籍的各个页面的预存页码和预存文本文字；

根据所述目标页码文本内容得到所述待检测页面对应的页码数值。

相对于现有技术，本发明的基于页面文本的页码识别方法，通过对待检测页面图像进行文字识别，得到实际文本内容，再将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到目标页码文本内容，最后根据所述目标页码文本内容得到所述待检测页面对应的页码数值，可以高效地识别出待检测页面对应的页码数值，并且简化了用户使用时的操作。

进一步，所述页码数据库录入所述页码文本内容时，将同一书籍的所述页码文本内容保存到同一文档中。有利于根据不同的书籍对所述页码文本内容进行保存。

进一步，所述将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到与所述实际文本内容对应的目标页码文本内容的步骤，包括：

将所述实际文本内容的文本内容与所述页码文本内容的文本内容进行比对，得到比对校验值，若所述比对校验值大于预设的第一阈值，将所述页码文本内容确定为所述目标页码文本内容。利用比对校验值判断所述页码文本内容是否所述目标页码文本内容，提高识别的准确性。

进一步，所述页码数据库录入所述页码文本内容时，根据所述页码文本内容的语言种类将所述文档分种类保存。有利于将不同语言种类的书籍分类存档。

进一步，在所述将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到与所述实际文本内容对应的目标页码文本内容的步骤之前，还包括：

对所述文本文字进行语种识别，得到对应的实际文字语种；

根据所述实际文字语种，获取的对应种类的所述文档的页码文本内容。

通过所述实际文字语种选择对应种类的所述文档，可以提高识别效率。

进一步，所述对所述待检测页面图像进行文字识别，得到待检测页面图像的实际文本内容的步骤，包括：

获取所述待检测页面图像的文本坐标范围；

将所述待检测页面图像输入到OCR识别软件，得到所述OCR识别软件输出的实际文本文字；

根据所述文本坐标范围和所述实际文本文字得到所述实际文本内容。

通过所述OCR识别软件可以准确地识别出实际文本文字，并结合对应的文本坐标范围得到所述实际文本内容。

进一步，所述页码文本内容还包括预存文本文字的文本坐标范围；

所述将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到与所述实际文本内容对应的目标页码文本内容的步骤，包括：

获取所述文档的当前所述页码文本内容；

将所述实际文本文字对应的文本坐标范围与当时所述页码文本内容中的预存文本文字对应的文本坐标范围进行比对，得到坐标对比值，若所述坐标对比值大于预设的第二阈值，将所述实际文本文字和所述预存文本文字进行比对；否则，获取下一所述页码文本内容。

通过所述坐标对比值的大小进行初步判断，以排除坐标对比值过小的所述页码文本内容，提高识别效率，当所述坐标对比值大于预设的第二阈值时，再所述实际文本文字和所述预存文本文字进行比对，以保持识别的准确性。

本发明还提供一种计算机设备，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于页面文本的页码识别方法的步骤。

相对于现有技术，本发明的基于页面文本的页码识别方法具有以下优点：

1、通过对待检测页面图像进行文字识别，得到实际文本内容，再将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到目标页码文本内容，最后根据所述目标页码文本内容得到所述待检测页面对应的页码数值，可以高效地识别出待检测页面对应的页码数值，并且简化了用户使用时的操作。

2、通过将不同语言种类的书籍分类存档，然后根据所述实际文字语种选择对应种类的所述文档，可以大量减少需要对比的所述文档的页码文本内容的数量，避免浪费时间调用不同语言种类的所述文档的页码文本内容进行对比，大大提高了识别效率。

3、通过所述坐标对比值的大小进行初步判断，以排除坐标对比值过小的所述页码文本内容，提高识别效率，当所述坐标对比值大于预设的第二阈值时，再所述实际文本文字和所述预存文本文字进行比对，以保持识别的准确性。

为了能更清晰的理解本发明，以下将结合附图说明阐述本发明的具体实施方式。

附图说明

图1为本发明一个实施例的基于页面文本的页码识别方法的流程图。

图2为本发明一个实施例的基于页面文本的页码识别方法的步骤S2的流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，其是本发明一个实施例的基于页面文本的页码识别方法的流程图，包括：

S1：对目标书籍的待检测页面进行图像采集，得到待检测页面图像。

其中，所述图像采集可以通过扫描、拍照等方式获取，其中，扫描方式可以通过扫描机、扫描笔或具有扫描功能的移动终端设备等实现，拍照方式可以通过照相机、具有拍照功能的移动终端设备等实现。

优选地，在得到所述待检测页面图像后，还对所述待检测页面图像进行图像预处理，其中，所述图像预处理包括但不限于图像矫正、重置图像大小等操作，可选地，还可以包括更改对比度、亮度，以及进行滤波、二值化等操作。

S2：对所述待检测页面图像进行文字识别，得到待检测页面图像的实际文本内容。

优选地，所述文字识别可以采用OCR识别软件实现，所述OCR识别软件可以是内置的软件功能，也可以是外接的软件功能，例如通过软件接口进行数据传输，以实现调用外接的OCR识别软件。

S3：将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到与所述实际文本内容对应的目标页码文本内容；其中，所述页码数据库保存有多个书籍的页码文本内容，所述页码文本内容包括对应书籍的各个页面的预存页码和预存文本文字。

S4：根据所述目标页码文本内容得到所述待检测页面对应的页码数值。

在一个可行的实施例中，所述页码数据库录入所述页码文本内容时，将同一书籍的所述页码文本内容保存到同一文档中。

在本实施例中，优选地，所述文档的命名包括对应的书籍名称，甚至还包括对应的作者、出版社。有利于根据不同的书籍对所述页码文本内容进行保存，方便在得到所述待检测页面对应的页码数值后，还可以将所述文档的命名显示给用户，方便用户核对或查阅。

在一个可行的实施例中，所述将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到与所述实际文本内容对应的目标页码文本内容的步骤，包括：

将所述实际文本内容的文本内容与所述页码文本内容的文本内容进行比对，得到比对校验值，若所述比对校验值大于预设的第一阈值，将所述页码文本内容确定为所述目标页码文本内容。

在本实施例中，利用比对校验值判断所述页码文本内容是否所述目标页码文本内容，提高识别的准确性。

在一个可行的实施例中，所述页码数据库录入所述页码文本内容时，根据所述页码文本内容的语言种类将所述文档分种类保存。有利于将不同语言种类的书籍分类存档。

优选地，在所述将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到与所述实际文本内容对应的目标页码文本内容的步骤之前，还包括：

对所述文本文字进行语种识别，得到对应的实际文字语种；

在本实施例中，通过将不同语言种类的书籍分类存档，然后根据所述实际文字语种选择对应种类的所述文档，可以大量减少需要对比的所述文档的页码文本内容的数量，避免浪费时间调用不同语言种类的所述文档的页码文本内容进行对比，大大提高了识别效率。

请参阅图2，在一个可行的实施例中，所述对所述待检测页面图像进行文字识别，得到待检测页面图像的实际文本内容的步骤，包括：

S21：获取所述待检测页面图像的文本坐标范围。

S22：将所述待检测页面图像输入到OCR识别软件，得到所述OCR识别软件输出的实际文本文字。

其中，所述步骤S21和所述步骤S22的执行顺序并不限定。

S23：根据所述文本坐标范围和所述实际文本文字得到所述实际文本内容。

优选地，所述页码文本内容还包括预存文本文字的文本坐标范围；

获取所述文档的当前所述页码文本内容；

在本实施例中，通过所述坐标对比值的大小进行初步判断，以排除坐标对比值过小的所述页码文本内容，提高识别效率，当所述坐标对比值大于预设的第二阈值时，再所述实际文本文字和所述预存文本文字进行比对，以保持识别的准确性。

其中，所述实际文本文字对应的文本坐标范围是属于同一自然段的所述实际文本文字的坐标范围。所述预存文本文字对应的文本坐标范围是属于同一自然段的所述预存文本文字的坐标范围。这是因为对于大部分书籍，大部分的页面都是存在多个自然段的，此时通过根据自然段划分对应的文本坐标范围，可以在一个页面得到多个文本坐标范围，从而有效提高通过所述坐标对比值的大小进行初步判断时的准确性。

以上所描述的设备实施例仅仅是示意性的，其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中选定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中选定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中选定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于页面文本的页码识别方法，其特征在于，包括：

根据所述目标页码文本内容得到所述待检测页面对应的页码数值；

其中，所述页码文本内容还包括预存文本文字的文本坐标范围；

获取文档的当前所述页码文本内容；

2.根据权利要求1所述的基于页面文本的页码识别方法，其特征在于：所述页码数据库录入所述页码文本内容时，将同一书籍的所述页码文本内容保存到同一文档中。

3.根据权利要求2所述的基于页面文本的页码识别方法，其特征在于，所述将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到与所述实际文本内容对应的目标页码文本内容的步骤，包括：

4.根据权利要求3所述的基于页面文本的页码识别方法，其特征在于：所述页码数据库录入所述页码文本内容时，根据所述页码文本内容的语言种类将所述文档分种类保存。

5.根据权利要求4所述的基于页面文本的页码识别方法，其特征在于，在所述将所述实际文本内容与预构建的页码数据库的页码文本内容进行比对，得到与所述实际文本内容对应的目标页码文本内容的步骤之前，还包括：

对所述文本文字进行语种识别，得到对应的实际文字语种；

6.根据权利要求1所述的基于页面文本的页码识别方法，其特征在于，所述对所述待检测页面图像进行文字识别，得到待检测页面图像的实际文本内容的步骤，包括：

获取所述待检测页面图像的文本坐标范围；

7.根据权利要求6所述的基于页面文本的页码识别方法，其特征在于，所述实际文本文字对应的文本坐标范围是属于同一自然段的所述实际文本文字的坐标范围。

8.根据权利要求6所述的基于页面文本的页码识别方法，其特征在于，所述预存文本文字对应的文本坐标范围是属于同一自然段的所述预存文本文字的坐标范围。

9.一种计算机设备，其特征在于：包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的基于页面文本的页码识别方法的步骤。