CN114299524A - 基于页面图像的页码识别方法、存储介质和计算机设备 - Google Patents
基于页面图像的页码识别方法、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN114299524A CN114299524A CN202111370553.2A CN202111370553A CN114299524A CN 114299524 A CN114299524 A CN 114299524A CN 202111370553 A CN202111370553 A CN 202111370553A CN 114299524 A CN114299524 A CN 114299524A
- Authority
- CN
- China
- Prior art keywords
- page
- page number
- data
- detected
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000000463 material Substances 0.000 claims abstract description 30
- 238000003909 pattern recognition Methods 0.000 claims abstract description 4
- 238000004590 computer program Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000049 pigment Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种基于页面图像的页码识别方法、存储介质和计算机设备,所述基于页面图像的页码识别方法包括:对目标读物的待检测页面进行图像采集,得到待检测页面图像;对所述待检测页面图像进行图形识别,得到待检测页面图像的实际图形数据;将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,得到与所述实际图形数据对应的目标页码图形数据;其中,所述页码数据库保存有多个读物的页码图形数据,所述页码图形数据包括对应读物的各个页面的页码数值;根据所述目标页码图形数据得到所述待检测页面对应的页码数值。本发明的基于页面图像的页码识别方法、存储介质和计算机设备可以高效快速地识别出孩童领域的读物的页码。
Description
技术领域
本发明涉及页码识别的技术领域,具体涉及一种基于页面图像的页码识别方法、存储介质和计算机设备。
背景技术
读物是指用于阅读的物品,人们可以通过阅读读物知悉读物上记载的内容,而读物的不同页面都会记载不同的内容和对应的页码。其中,读物中常出现的内容包括字符、图形中的至少一种。然而,教材、儿童读物、漫画等针对孩童领域的读物,为了吸引孩童的阅读兴趣,多数采用字符加图形的搭配,因此针对孩童领域的读物在一个页面上字符内容可能会比较少,因此当这类型的读物的页面页码出现被颜料掩盖、撕毁缺失等情况时,根据页面的字符内容识别页码的准确性很低,无法准确获取对应的页码。
发明内容
本发明的目的在于克服现有技术中的缺点与不足,提供一种基于页面图像的页码识别方法、存储介质和计算机设备,可以高效快速地识别出孩童领域的读物的页码。
本发明的一个实施例提供一种基于页面图像的页码识别方法,包括:
对目标读物的待检测页面进行图像采集,得到待检测页面图像;
对所述待检测页面图像进行图形识别,得到待检测页面图像的实际图形数据;
将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,得到与所述实际图形数据对应的目标页码图形数据;其中,所述页码数据库保存有多个读物的页码图形数据,所述页码图形数据包括对应读物的各个页面的页码数值;
根据所述目标页码图形数据得到所述待检测页面对应的页码数值。
相对于现有技术,本发明的基于页面图像的页码识别方法通过获取待检测页面的实际图形数据,然后将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,从而得到所述待检测页面对应的页码数值,可以高效快速地识别出孩童领域的读物的页码。
进一步,所述页码数据库录入所述页码图形数据时,将同一读物的所述页码图形数据保存到同一文档中。有利于根据不同的读物对所述页码文本内容进行保存。
进一步,所述将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,得到与所述实际图形数据对应的目标页码图形数据,包括:
将所述实际图形数据与所述页码图形数据的预存图形数据进行比对,得到图形数据比对值,若所述图形数据比对值大于预设的阈值,将所述页码图形数据确定为所述目标页码图形数据;其中,同一读物的一个所述页码数值对应一个所述预存图形数据。利用所述图形数据对比值判断所述页码图形数据是否所述目标页码图形数据,提高识别的准确性。
进一步,所述页码数据库录入所述页码图形数据时,将同一所述文档的各个所述页码图形数据进行图形特征提取,得到对应多个所述页码图形数据的共同图形特征,将具有同一共同图形特征的所述页码图形数据进行特征标记,且一个共同图形特征对应一个标记;
所述将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,得到与所述实际图形数据对应的目标页码图形数据的步骤之前,包括:
根据所述共同图形特征对所述实际图形数据进行识别,若所述实际图形数据具有所述共同图形特征,获取所述文档中与所述共同图形特征对应的页码图形数据,将所述实际图形数据与获取的所述页码图形数据进行比对;否则,获取所述文档中没有进行特征标记的页码图形数据,将所述实际图形数据与获取的所述页码图形数据进行比对。
通过所述共同图形特征将同一文档内的各个页码图形数据进行区分,并且先根据所述共同图形特征对所述实际图形数据进行识别,可以达到快速初步比对的效果,可以有效提高整体的识别效率。
进一步,包括:
将所述待检测页面和所述目标读物的所有未阅读页面的厚度之和确定为第一总厚度;
将所述第一总厚度与所述页码数据库的第一厚度数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第一厚度数据包括所述页码数值,以及同一读物中,大于或等于所述页码数值的所有页面的厚度之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
根据所述待检测页面和所述目标读物的所有未阅读页面的厚度之和获取对应的页码范围,再将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对,减少了需要对比的所述页码图形数据的量,可以大幅度提高识别效率。
进一步,包括:
将所述待检测页面和所述目标读物的所有已阅读页面的厚度之和确定为第二总厚度;
将所述第二总厚度与所述页码数据库的第二厚度数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第二厚度数据包括所述页码数值,以及同一读物中,小于或等于所述页码数值的所有页面的厚度之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
根据所述待检测页面和所述目标读物的所有已阅读页面的厚度之和获取对应的页码范围,再将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对,减少了需要对比的所述页码图形数据的量,可以大幅度提高识别效率。
进一步,包括:
将所述待检测页面和所述目标读物的所有未阅读页面的重量之和确定为第一总重量;
将所述第一总重量与所述页码数据库的第一重量数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第一重量数据包括所述页码数值,以及同一读物中,大于或等于所述页码数值的所有页面的重量之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
根据所述待检测页面和所述目标读物的所有未阅读页面的重量之和获取对应的页码范围,再将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对,减少了需要对比的所述页码图形数据的量,可以大幅度提高识别效率。
进一步,包括:
将所述待检测页面和所述目标读物的所有已阅读页面的重量之和确定为第二总重量;
将所述第二总重量与所述页码数据库的第二重量数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第二重量数据包括所述页码数值,以及同一读物中,小于或等于所述页码数值的所有页面的重量之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
根据所述待检测页面和所述目标读物的所有已阅读页面的重量之和获取对应的页码范围,再将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对,减少了需要对比的所述页码图形数据的量,可以大幅度提高识别效率。
本发明的一个实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于页面图像的页码识别方法的步骤。
本发明的一个实施例还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于页面图像的页码识别方法的步骤。
本发明的基于页面图像的页码识别方法、存储介质和计算机设备具有以下优点:
1、通过获取待检测页面的实际图形数据,然后将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,从而得到所述待检测页面对应的页码数值,可以高效快速地识别出孩童领域的读物的页码。
2、根据不同的读物对所述页码文本内容进行保存,方便在得到所述待检测页面对应的页码数值后,还可以将所述文档的命名显示给用户,方便用户核对或查阅。
3、通过所述共同图形特征将同一文档内的各个页码图形数据进行区分,并且先根据所述共同图形特征对所述实际图形数据进行识别,可以达到快速初步比对的效果,可以有效提高整体的识别效率。
4、根据重量或厚度等信息,获得对应的页码范围,再将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对,减少了需要对比的所述页码图形数据的量,从而大幅度提高识别效率。
为了能更清晰的理解本发明,以下将结合附图说明阐述本发明的具体实施方式。
附图说明
图1为本发明一个实施例的基于页面图像的页码识别方法的流程图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,其是本发明一个实施例的基于页面图像的页码识别方法的流程图,包括:
S1:对目标读物的待检测页面进行图像采集,得到待检测页面图像。
其中,所述图像采集可以通过扫描、拍照等方式获取,其中,扫描方式可以通过扫描机、高拍仪、具有扫描功能的移动终端设备等实现,拍照方式可以通过照相机、具有拍照功能的移动终端设备等实现。所述移动终端设备可以是智能手机、平板电脑等。
优选地,在得到所述待检测页面图像后,还对所述待检测页面图像进行图像预处理,其中,所述图像预处理包括但不限于图像矫正、重置图像大小等操作,可选地,还可以包括更改对比度、亮度,以及进行滤波、二值化等操作。
S2:对所述待检测页面图像进行图形识别,得到待检测页面图像的实际图形数据。
S3:将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,得到与所述实际图形数据对应的目标页码图形数据;其中,所述页码数据库保存有多个读物的页码图形数据,所述页码图形数据包括对应读物的各个页面的页码数值。
S4:根据所述目标页码图形数据得到所述待检测页面对应的页码数值。
相对于现有技术,本发明的基于页面图像的页码识别方法通过获取待检测页面的实际图形数据,然后将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,从而得到所述待检测页面对应的页码数值,可以高效快速地识别出孩童领域的读物的页码。
在一个可行的实施例中,所述页码数据库录入所述页码图形数据时,将同一读物的所述页码图形数据保存到同一文档中。
在本实施例中,优选地,所述文档的命名包括对应的书籍名称,甚至还包括对应的作者、出版社。有利于根据不同的读物对所述页码文本内容进行保存,方便在得到所述待检测页面对应的页码数值后,还可以将所述文档的命名显示给用户,方便用户核对或查阅。并且若从当前所述文档中,获取不到目标页码图形数据时,将下一所述文档的页码图形数据与所述实际图形数据进行比对。并且若从当前所述文档中,获取不到目标页码图形数据时,将下一所述文档的页码图形数据与所述实际图形数据进行比对。
在一个可行的实施例中,所述将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,得到与所述实际图形数据对应的目标页码图形数据,包括:
将所述实际图形数据与所述页码图形数据的预存图形数据进行比对,得到图形数据比对值,若所述图形数据比对值大于预设的阈值,将所述页码图形数据确定为所述目标页码图形数据;其中,同一读物的一个所述页码数值对应一个所述预存图形数据。
优选地,还根据所述图形数据比对值,将对应的所述页码图形数据按从大到小顺序的排列,并将所述图形数据比对值最大的所述页码图形数据确定为所述目标页码图形数据。
在本实施例中,所述阈值可以表现为百分比数值,如90%、80%、75%、66%、50%等。利用所述图形数据对比值判断所述页码图形数据是否所述目标页码图形数据,提高识别的准确性。
在一个可行的实施例中,所述页码数据库录入所述页码图形数据时,将同一所述文档的各个所述页码图形数据进行图形特征提取,得到对应多个所述页码图形数据的共同图形特征,将具有同一共同图形特征的所述页码图形数据进行特征标记,且一个共同图形特征对应一个标记;
所述将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,得到与所述实际图形数据对应的目标页码图形数据的步骤之前,包括:
根据所述共同图形特征对所述实际图形数据进行识别,若所述实际图形数据具有所述共同图形特征,获取所述文档中与所述共同图形特征对应的页码图形数据,将所述实际图形数据与获取的所述页码图形数据进行比对;否则,获取所述文档中没有进行特征标记的页码图形数据,将所述实际图形数据与获取的所述页码图形数据进行比对。
其中,一个所述共同图形特征至少对应5个不同的页码图形数据,因此,同一所述文档中的一个页码图形数据,可能存在一个所述共同图形特征,也可能存在多个所述共同图形特征,甚至可能不存在所述共同图形特征。所述共同图形特征可以是人物图形特征、环境图形特征等。
在本实施例中,通过所述共同图形特征将同一文档内的各个页码图形数据进行区分,并且先根据所述共同图形特征对所述实际图形数据进行识别,可以达到快速初步比对的效果,可以有效提高整体的识别效率。
在一个可行的实施例中,在所述步骤S2之前,还包括:
将所述待检测页面和所述目标读物的所有未阅读页面的厚度之和确定为第一总厚度;
将所述第一总厚度与所述页码数据库的第一厚度数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第一厚度数据包括所述页码数值,以及同一读物中,大于或等于所述页码数值的所有页面的厚度之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
其中,本实施例的所述预设的范围值为偶数值,如10、12、16、18、20等;所述页码范围的最大值为所述页码数值加上二分之一的所述范围值的和,所述页码范围的最小值为所述页码数值减去二分之一的所述范围值的差,且所述页码范围的最小值大于0。例如,得到的所述页码数值为30,所述预设的范围值为20,将所述页码范围的最大值为40,最小值为20,此时所述页码范围为所述文档中第20页到第40页的页码图形数据。
在本实施例中,为了进一步提高识别效率,根据所述待检测页面和所述目标读物的所有未阅读页面的厚度之和获取对应的页码范围,再将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对,减少了需要对比的所述页码图形数据的量,从而大幅度提高识别效率。
在一个可行的实施例中,在所述步骤S2之前,还包括:
将所述待检测页面和所述目标读物的所有已阅读页面的厚度之和确定为第二总厚度;
将所述第二总厚度与所述页码数据库的第二厚度数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第二厚度数据包括所述页码数值,以及同一读物中,小于或等于所述页码数值的所有页面的厚度之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
其中,本实施例的所述预设的范围值与上文所述的原理相同,因此不再缀述。
在本实施例中,为了进一步提高识别效率,根据所述待检测页面和所述目标读物的所有已阅读页面的厚度之和获取对应的页码范围,再将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对,减少了需要对比的所述页码图形数据的量,从而大幅度提高识别效率。
在一个可行的实施例中,在所述步骤S2之前,还包括:
将所述待检测页面和所述目标读物的所有未阅读页面的重量之和确定为第一总重量;
将所述第一总重量与所述页码数据库的第一重量数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第一重量数据包括所述页码数值,以及同一读物中,大于或等于所述页码数值的所有页面的重量之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
其中,本实施例的所述预设的范围值与上文所述的原理相同,因此不再缀述。
在本实施例中,为了进一步提高识别效率,根据所述待检测页面和所述目标读物的所有未阅读页面的重量之和获取对应的页码范围,再将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对,减少了需要对比的所述页码图形数据的量,从而大幅度提高识别效率。
在一个可行的实施例中,在所述步骤S2之前,还包括:
将所述待检测页面和所述目标读物的所有已阅读页面的重量之和确定为第二总重量;
将所述第二总重量与所述页码数据库的第二重量数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第二重量数据包括所述页码数值,以及同一读物中,小于或等于所述页码数值的所有页面的重量之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
其中,本实施例的所述预设的范围值与上文所述的原理相同,因此不再缀述。
在本实施例中,为了进一步提高识别效率,根据所述待检测页面和所述目标读物的所有已阅读页面的重量之和获取对应的页码范围,再将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对,减少了需要对比的所述页码图形数据的量,从而大幅度提高识别效率。
本发明的一个实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于页面图像的页码识别方法的步骤。
本发明的一个实施例还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于页面图像的页码识别方法的步骤。
以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中选定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中选定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中选定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于页面图像的页码识别方法,其特征在于,包括:
对目标读物的待检测页面进行图像采集,得到待检测页面图像;
对所述待检测页面图像进行图形识别,得到待检测页面图像的实际图形数据;
将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,得到与所述实际图形数据对应的目标页码图形数据;其中,所述页码数据库保存有多个读物的页码图形数据,所述页码图形数据包括对应读物的各个页面的页码数值;
根据所述目标页码图形数据得到所述待检测页面对应的页码数值。
2.根据权利要求1所述的基于页面图像的页码识别方法,其特征在于:所述页码数据库录入所述页码图形数据时,将同一读物的所述页码图形数据保存到同一文档中。
3.根据权利要求2所述的基于页面图像的页码识别方法,其特征在于:所述将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,得到与所述实际图形数据对应的目标页码图形数据,包括:
将所述实际图形数据与所述页码图形数据的预存图形数据进行比对,得到图形数据比对值,若所述图形数据比对值大于预设的阈值,将所述页码图形数据确定为所述目标页码图形数据;其中,同一读物的一个所述页码数值对应一个所述预存图形数据。
4.根据权利要求3所述的基于页面图像的页码识别方法,其特征在于,所述页码数据库录入所述页码图形数据时,将同一所述文档的各个所述页码图形数据进行图形特征提取,得到对应多个所述页码图形数据的共同图形特征,将具有同一共同图形特征的所述页码图形数据进行特征标记,且一个共同图形特征对应一个标记;
所述将所述实际图形数据与预构建的页码数据库的页码图形数据进行比对,得到与所述实际图形数据对应的目标页码图形数据的步骤之前,包括:
根据所述共同图形特征对所述实际图形数据进行识别,若所述实际图形数据具有所述共同图形特征,获取所述文档中与所述共同图形特征对应的页码图形数据,将所述实际图形数据与获取的所述页码图形数据进行比对;否则,获取所述文档中没有进行特征标记的页码图形数据,将所述实际图形数据与获取的所述页码图形数据进行比对。
5.根据权利要求3所述的基于页面图像的页码识别方法,其特征在于,包括:
将所述待检测页面和所述目标读物的所有未阅读页面的厚度之和确定为第一总厚度;
将所述第一总厚度与所述页码数据库的第一厚度数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第一厚度数据包括所述页码数值,以及同一读物中,大于或等于所述页码数值的所有页面的厚度之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
6.根据权利要求3所述的基于页面图像的页码识别方法,其特征在于,包括:
将所述待检测页面和所述目标读物的所有已阅读页面的厚度之和确定为第二总厚度;
将所述第二总厚度与所述页码数据库的第二厚度数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第二厚度数据包括所述页码数值,以及同一读物中,小于或等于所述页码数值的所有页面的厚度之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
7.根据权利要求3所述的基于页面图像的页码识别方法,其特征在于,包括:
将所述待检测页面和所述目标读物的所有未阅读页面的重量之和确定为第一总重量;
将所述第一总重量与所述页码数据库的第一重量数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第一重量数据包括所述页码数值,以及同一读物中,大于或等于所述页码数值的所有页面的重量之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
8.根据权利要求3所述的基于页面图像的页码识别方法,其特征在于,包括:
将所述待检测页面和所述目标读物的所有已阅读页面的重量之和确定为第二总重量;
将所述第二总重量与所述页码数据库的第二重量数据进行比对,得到所述待检测页面对应的页码数值;其中,所述第二重量数据包括所述页码数值,以及同一读物中,小于或等于所述页码数值的所有页面的重量之和;
以得到的所述页码数值为中间值,获取预设的范围值得到页码范围;
将所述待检测页面的实际图形数据与所述页码范围对应的页码图形数据进行比对。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的基于页面图像的页码识别方法的步骤。
10.一种计算机设备,其特征在于:包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的基于页面图像的页码识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111370553.2A CN114299524A (zh) | 2021-11-18 | 2021-11-18 | 基于页面图像的页码识别方法、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111370553.2A CN114299524A (zh) | 2021-11-18 | 2021-11-18 | 基于页面图像的页码识别方法、存储介质和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114299524A true CN114299524A (zh) | 2022-04-08 |
Family
ID=80965846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111370553.2A Pending CN114299524A (zh) | 2021-11-18 | 2021-11-18 | 基于页面图像的页码识别方法、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114299524A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116563864A (zh) * | 2023-07-07 | 2023-08-08 | 深圳创维智慧科技有限公司 | 页码识别方法、装置、电子设备及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000137569A (ja) * | 1998-10-30 | 2000-05-16 | Sega Enterp Ltd | ページ検出方法及びそれを適用した装置 |
CN201097383Y (zh) * | 2007-01-12 | 2008-08-06 | 林良锐 | 听书机 |
CN104679433A (zh) * | 2015-03-10 | 2015-06-03 | 中国联合网络通信集团有限公司 | 一种实现电子书阅读的方法和电子书阅读装置 |
CN107766854A (zh) * | 2017-09-28 | 2018-03-06 | 电子科技大学 | 一种基于模板匹配实现快速页码识别的方法 |
CN108536638A (zh) * | 2018-03-27 | 2018-09-14 | 努比亚技术有限公司 | 智能书签的设置方法、移动终端、系统及可读存储介质 |
CN109300343A (zh) * | 2013-01-25 | 2019-02-01 | 陈旭 | 一种图文识别装置 |
CN110532964A (zh) * | 2019-08-30 | 2019-12-03 | 广东小天才科技有限公司 | 页码识别方法及装置、阅读机器人、计算机可读存储介质 |
CN110647648A (zh) * | 2019-09-19 | 2020-01-03 | 广东小天才科技有限公司 | 纸质书本的页码识别方法、装置、家教机及存储介质 |
-
2021
- 2021-11-18 CN CN202111370553.2A patent/CN114299524A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000137569A (ja) * | 1998-10-30 | 2000-05-16 | Sega Enterp Ltd | ページ検出方法及びそれを適用した装置 |
CN201097383Y (zh) * | 2007-01-12 | 2008-08-06 | 林良锐 | 听书机 |
CN109300343A (zh) * | 2013-01-25 | 2019-02-01 | 陈旭 | 一种图文识别装置 |
CN104679433A (zh) * | 2015-03-10 | 2015-06-03 | 中国联合网络通信集团有限公司 | 一种实现电子书阅读的方法和电子书阅读装置 |
CN107766854A (zh) * | 2017-09-28 | 2018-03-06 | 电子科技大学 | 一种基于模板匹配实现快速页码识别的方法 |
CN108536638A (zh) * | 2018-03-27 | 2018-09-14 | 努比亚技术有限公司 | 智能书签的设置方法、移动终端、系统及可读存储介质 |
CN110532964A (zh) * | 2019-08-30 | 2019-12-03 | 广东小天才科技有限公司 | 页码识别方法及装置、阅读机器人、计算机可读存储介质 |
CN110647648A (zh) * | 2019-09-19 | 2020-01-03 | 广东小天才科技有限公司 | 纸质书本的页码识别方法、装置、家教机及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116563864A (zh) * | 2023-07-07 | 2023-08-08 | 深圳创维智慧科技有限公司 | 页码识别方法、装置、电子设备及可读存储介质 |
CN116563864B (zh) * | 2023-07-07 | 2023-10-24 | 深圳创维智慧科技有限公司 | 页码识别方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CN110533018B (zh) | 一种图像的分类方法及装置 | |
CN105912227A (zh) | 一种文本信息的显示方法、装置和移动设备 | |
CN110705559A (zh) | 基于钢材标签图像识别的钢材信息记录方法、装置及设备 | |
CN114359533B (zh) | 一种基于页面文本的页码识别方法和计算机设备 | |
CN112990792B (zh) | 一种侵权风险自动化检测方法、装置和电子设备 | |
CN111652144B (zh) | 基于目标区域融合的题目分割方法、装置、设备和介质 | |
JP2019079347A (ja) | 文字種推定システム、文字種推定方法、および文字種推定プログラム | |
CN113591746B (zh) | 一种文档表格结构检测方法及装置 | |
CN112861656A (zh) | 商标相似性检测方法、装置、电子设备和存储介质 | |
CN113961794A (zh) | 一种书籍推荐方法、装置、计算机设备及存储介质 | |
CN112434555A (zh) | 键值对区域识别方法、装置、存储介质和电子设备 | |
CN114299524A (zh) | 基于页面图像的页码识别方法、存储介质和计算机设备 | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
CN110992300A (zh) | 图像检测方法及装置 | |
CN111178365A (zh) | 图片文字的识别方法、装置、电子设备及存储介质 | |
WO2017069741A1 (en) | Digitized document classification | |
CN111078915A (zh) | 一种点读模式下的点读内容获取方法及电子设备 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN116050379A (zh) | 文档对比方法及存储介质 | |
CN113627415A (zh) | 确定目标对象摆放信息的方法及装置 | |
CN114003873A (zh) | 一种私人收藏品图集目录的处理方法、设备及存储介质 | |
CN113343663A (zh) | 一种票据结构化方法及装置 | |
CN109800385B (zh) | 对象标记方法、电子设备、单据及计算机可读存储介质 | |
CN110020284B (zh) | 图表显示方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220408 |
|
RJ01 | Rejection of invention patent application after publication |