CN110765994B - 一种书本内容定位方法、装置、电子设备及存储介质 - Google Patents

一种书本内容定位方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110765994B
CN110765994B CN201910957127.5A CN201910957127A CN110765994B CN 110765994 B CN110765994 B CN 110765994B CN 201910957127 A CN201910957127 A CN 201910957127A CN 110765994 B CN110765994 B CN 110765994B
Authority
CN
China
Prior art keywords
content
waveform
book
page
positioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910957127.5A
Other languages
English (en)
Other versions
CN110765994A (zh
Inventor
钟宇文
朱向军
姚旭新
陆开中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201910957127.5A priority Critical patent/CN110765994B/zh
Publication of CN110765994A publication Critical patent/CN110765994A/zh
Application granted granted Critical
Publication of CN110765994B publication Critical patent/CN110765994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了一种书本内容定位方法、装置、电子设备及存储介质。所述方法包括:在书本内容定位时,获取拍摄页图片,确定所述拍摄页图片中的内容指向区域,所述内容指向区域通过识别用户在当前书本页的指示位置得到;提取当前书本页原图,将所述内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图;将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对,确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域,根据所述定位区域定位当前书本页原图的书本内容。采用上述技术手段,可以提高书本内容的定位精度,并提供更稳定的书本内容定位效果,优化用户的书本内容定位体验。

Description

一种书本内容定位方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及图像识别技术领域,尤其涉及一种书本内容定位方法、装置、电子设备及存储介质。
背景技术
目前,市面上越来越多的智能学习设备具备了点读识别或指示识别功能,用户通过点击或指示书本上的文本内容,即可通过智能学习设备或者该文本内容的相关学习信息,如点读发音、习题搜索解答、知识点解析等。而这些智能学习设备基本上都是通过摄像头来识别检测书本页面以及手指指尖的位置,从而获取手指指尖附近的内容进行解析。又或是通过对手指图片的手指指示位置进行坐标转换,得到书本页原图上对应定位点的位置,对定位点位置上的内容进行解析。
但是,由于用于书本内容识别的摄像头大都选用鱼眼镜头(大广角)并采用斜向下的方式安装,其拍摄输出的图像都会产生一定程度的畸变和透视误差。因此,对拍摄输出的图像进行检测识别之前都要进行反畸变和透视变换处理。当是,由于反畸变和透视变换处理,会导致图像中的书本页中间位置识别精准度较高,书本页上下及边缘部分识别精准度较低。而且在书本打开的自然状态下,书本在装订线处会拱起,更容易造成定位不准确。由此可知,现有的书本内容定位精度相对较低,定位效果不稳定,容易出现书本内容定位误差甚至导致定位失败的情况。
发明内容
本申请实施例提供一种书本内容定位方法、装置、电子设备及存储介质,能够解决现有书本内容定位误差的问题,提供较高的定位精度。
在第一方面,本申请实施例提供了一种书本内容定位方法,包括:
在书本内容定位时,获取拍摄页图片,确定所述拍摄页图片中的内容指向区域,所述内容指向区域通过识别用户在当前书本页的指示位置得到;
提取当前书本页原图,将所述内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图;
将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对,确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域,根据所述定位区域定位当前书本页原图的书本内容。
进一步的,所述将所述内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图,包括:
对当前书本页原图进行切片,对切片后的当前书本页原图进行灰度能量积分,得到对应的波形集合;
对所述内容指向区域对应的行和列进行灰度能量积分,得到指向区域波形;
对应的,所述将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对,包括:
将所述指向区域波形与所述波形集合进行波形匹配,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
进一步的,所述将所述指向区域波形与所述波形集合进行波形匹配,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形,包括:
对所述指向区域波形的波峰和波谷进行计数;
对所述波形集中各波形的波峰和波谷进行计数;
通过比对所述指向区域波形与所述波形集中各波形的波峰和波谷数量,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
进一步的,所述将所述指向区域波形与所述波形集合进行波形匹配,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形,包括:
对所述指向区域波形进行频域变换;
将频域变换后的所述指向区域波形与所述波形集中的各个波形进行波形比对;
根据频谱相似度匹配确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
进一步的,所述确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域中,根据所述匹配波形在当前书本页原图上的对应位置,确定与所述内容指向区域存在对应关系的定位区域。
进一步的,在所述提取当前书本页原图中,对所述拍摄页图片进行特征点匹配识别或OCR识别,确定所述拍摄页图片对应的书本页,根据所述拍摄页图片对应的书本页提取当前书本页原图。
进一步的,在所述确定所述拍摄页图片中的内容指向区域中,通过图像识别确定所述拍摄页图片中用户手指指尖在所述拍摄页图片上的指示位置,根据所述指示位置确定所述拍摄页图片中的内容指向区域。
在第二方面,本申请实施例提供了一种书本内容定位装置,包括:
识别模块,用于在书本内容定位时,获取拍摄页图片,确定所述拍摄页图片中的内容指向区域,所述内容指向区域通过识别用户在当前书本页的指示位置得到;
积分模块,用于提取当前书本页原图,将所述内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图;
比对模块,用于将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对,确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域,根据所述定位区域定位当前书本页原图的书本内容。
在第三方面,本申请实施例提供了一种电子设备,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的书本内容定位方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的书本内容定位方法。
本申请实施例通过识别内容指向区域并提取拍摄页图片对应的当前书本页原图,将内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图,并通过灰度能量积分图比对,确定在当前书本页原图上的定位区域,根据该定位区域定位当前书本页原图的书本内容。采用上述技术手段,可以解决拍摄页图片不清晰而导致书本内容定位误差的问题,提高书本内容的定位精度,并提供更稳定的书本内容定位效果,进而优化用户的书本内容定位体验。
附图说明
图1是本申请实施例一提供的一种书本内容定位方法的流程图;
图2是本申请实施例一中的内容指向区域对应列的灰度能量积分图;
图3是本申请实施例一中的内容指向区域对应行的灰度能量积分图;
图4是本申请实施例一中的灰度能量积分流程图;
图5是本申请实施例一中的指向区域波形图;
图6是本申请实施例一中的一种波形匹配流程图;
图7是本申请实施例一中的另一种波形匹配流程图;
图8是本申请实施例二提供的一种书本内容定位装置的结构示意图;
图9是本申请实施例三提供的电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请提供的一种书本内容定位方法,旨在通过对图片进行灰度能量积分,以灰度能量积分图的形式进行拍摄页图片中的内容指向区域与书本页原图的比对,以确定内容指向区域在书本页原图上对应的定位区域,认为该定位区域即为用户实际指示的位置,通过对定位区域上的文本内容进行提取,即可实现书本内容的定位。进一步根据书本内容定位提取到的文本内容,执行点读发音、习题搜索解答、知识点解析等操作,以实现用户在不同使用场景下的使用需求。相对于现有的书本内容定位方式,其通过坐标转换来确定内容指向区域在书本页原图上对应的定位区域,进而实现书本内容定位。由于书本内容定位场景中,通常使用鱼眼镜头(大广角)并采用斜向下的方式安装摄像头进行用户指示书本内容的图片拍摄,因此拍摄到的图片一般都会产生一定程度的畸变和透视误差。因此在将图片输出作为拍摄页图片时,通常会对图像进行反畸变和透视变换处理,以解决上述畸变和透视误差。但是,图片在根据摄像头焦距特性进行反畸变运算之后,图片的边缘部分相比中间地带会变得相对模糊不清晰,并且对应书本中间拱起的区域也会变得不清晰,导致图片各区域的识别精度会随着模糊程度的增加而降低。另一方面,图片的透视变换也会使图片变得模糊,并且输出的图片越往下会被压缩得越严重。因此,对应反畸变和透视变换处理的拍摄页图片,如果直接通过识别拍摄页图片上的内容指向区域,进行坐标转换确定书本页原图上对应的定位区域,会由于拍摄页图片部分区域模糊不清的情况导致识别误差,进一步导致书本内容的定位误差。基于此,提供本申请实施例的书本内容定位方法,以解决上述书本内容定位方式存在定位误差的问题。
实施例一:
图1给出了本申请实施例一提供的一种书本内容定位方法的流程图,本实施例中提供的书本内容定位方法可以由书本内容定位设备执行,该书本内容定位设备可以通过软件和/或硬件的方式实现,该书本内容定位设备需配置有摄像头,摄像头用户获取用户指示书本内容的拍摄页图片。该书本内容定位设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。一般而言,该书本内容定位设备可以是智能学习机、电脑,手机,平板等终端设备。
需要说明的是,本申请实施例的书本内容定位方法,可以应用于用户多种学习场景中,通过对书本页上用户指示位置处的文本内容进行识别定位,进一步实现诸如点读发音、习题搜索解答、知识点解析等功能。
下述以书本内容定位设备为执行书本内容定位方法的主体为例,进行描述。参照图1,该书本内容定位方法具体包括:
S110、在书本内容定位时,获取拍摄页图片,确定所述拍摄页图片中的内容指向区域,所述内容指向区域通过识别用户在当前书本页的指示位置得到。
示例性的,在用户学习场景中,使用书本内容定位设备进行辅助学习。书本内容定位设备配置有摄像头,摄像头用于拍摄当前用户指示书本页上相关内容的图片,通过对图片进行处理后,作为拍摄页图片输出至书本内容定位设备。摄像头可实时获取用户指示书本页的图片,当用户通过手指指示书本上某一书本页的内容时,对当前用户这一操作进行拍摄,并通过图片预处理(反畸变、透视变换)得到对应的拍摄页图片。可以理解的是,书本内容定位设备获取到的拍摄页图片,需包含有用户指示书本页内容的动作信息,以便于根据这一动作定位拍摄页图片上的内容指向区域。
具体的,在进行内容指向区域的确定时,需对应用户指示书本页内容的动作进行识别。通常,用户会使用手指或笔进行相关内容的指示,因此,在确定内容指向区域时,需对拍摄页图片中的用户手指或笔进行识别。通过预先设置手指或笔的图像识别模型,识别出用户的手指指尖或笔尖在拍摄页图片上的位置,以这一位置作为用户在当前书本页上的指示位置。并将这一指示位置作为拍摄页图片中的内容指向区域。通过图像识别用户手指的方式有很多,本申请实施例不做固定限制。
S120、提取当前书本页原图,将所述内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图。
由于要进行内容指向区域与书本页原图的灰度能量积分图比较,所以需要提取当前的书本页原图。在进行当前书本页原图进行提取时,由于书本内容定位设备无法获知当前用户指示操作的是哪一个书本页,因此需要根据获取到的拍摄页图片确定当前书本页。通过对拍摄页图片进行特征点匹配识别或OCR识别,与预先存储的各个书本页的特征点信息或文本内容信息进行比对,进而确定拍摄页图片对应的书本页,并根据拍摄页图片对应的书本页提取当前书本页原图。可以理解的是,书本内容定位设备可预先存储相关书本的各个书本页信息,书本页信息具体可包括特征点信息(用于特征点匹配)、文本内容信息(用于OCR识别及内容定位反馈)以及书本页原图。
基于提取到的书本页原图,以及上述步骤S110确定的拍摄页图片的内容指向区域。将内容指向区域及当前书本页原图进行灰度能量积分,以得到对应的灰度能量积分图。其中,为了方便后续的灰度能量积分图的比对,会将当前书本页原图进行切片,得到多个分片,再进行灰度能量积分。采用分片的方式是为了方便书本页原图的灰度能量积分图能够与拍摄页图片切片下来的内容指向区域的灰度能量积分图进行比对。其中,对应内容指向区域的行和列进行灰度能量积分,得到如图2-图3所示的灰度能量积分图。同理对书本页原图进行灰度能量积分,得到对应的灰度能量积分图。
具体的,参照图4,灰度能量积分的流程包括:
S1201、对当前书本页原图进行切片,对切片后的当前书本页原图进行灰度能量积分,得到对应的波形集合;
S1202、对所述内容指向区域对应的行和列进行灰度能量积分,得到指向区域波形。
本申请实施例基于切片后的当前书本页原图进行灰度能量积分得到相应灰度能量积分图,通过内容指向区域对应的行和列进行灰度能量积分,得到相应的灰度能量积分图。并为了方便比对,基于灰度能量积分计算得到对应的波形。则对于书本页原图,对应各个分片的灰度能量积分图得到相应的波形集合f(x)。对应内容指向区域的灰度能量积分图,计算得到指向区域波形p(x),指向区域波形如图5所示。
S130、将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对,确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域,根据所述定位区域定位当前书本页原图的书本内容。
具体的,基于上述灰度能量积分图计算得到对应书本页原图的波形集合f(x),以及内容指向区域波形p(x)。则在进行灰度能量积分比较时,实际上是将对应的内容指向区域波形p(x)与波形集合f(x)中的各个波形进行比对,确定相匹配的波形。
其中,参照图6,波形匹配流程包括:
S1301、对所述指向区域波形的波峰和波谷进行计数;
S1302、对所述波形集中各波形的波峰和波谷进行计数;
S1303、通过比对所述指向区域波形与所述波形集中各波形的波峰和波谷数量,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
具体的,由于摄像头使用的镜头通常都是斜向下拍摄,因此获取到的拍摄页图片通常为上宽下窄的梯形状,而书本页原图则为规则的矩形状。相对于书本页原图,拍摄页图片实际上出现了部分压缩。因此指向区域的波形,实际上相对于书本页原图上对应的定位区域,其波形的X轴相应地被压缩。但是由于两张灰度积分能量图相似的特性,两者的波峰和波谷数量是不变的。因此,本申请实施例利用灰度能量积分的这一特性,将需要比对的波形,进行波峰和波谷的计算。其中,对指向区域波形的波峰和波谷进行计数,得到指向区域波峰、波谷数量,对波形集中各波形的波峰和波谷进行计数,得到波形集合中各个波形的波峰和波谷数量。最终,通过波峰和波谷的数量比对,找到波形集合中波峰、波谷数量与指向区域波形最接近的波形。定义这一波形为匹配波形,通过匹配波形找到对应的灰度能量积分图切片,并找到该切片在书本页原图上的对应位置。可以理解的是,在对书本页原图进行切片时,可预先记录各切片在书本页原图上的位置,以便于后续进行位置查找。
此外,本申请实施例还提供了另一种波形匹配方式,参照图7,波形匹配流程包括:
S1304、对所述指向区域波形进行频域变换;
S1305、将频域变换后的所述指向区域波形与所述波形集中的各个波形进行波形比对;
S1306、根据频谱相似度匹配确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
相对于上述通过波峰和波谷计数的方式确定匹配波形的方式,本申请利用内容指示区域与书本页原图在灰度能量积分后,其波形图的频谱特征存在相似性。因此,本申请实施例通过对指向区域波形进行频域变换,使指向区域波形的频域与波形集中的各个波形的频域匹配。在频域变换之后,进一步通过波形比对,将指向区域波形逐一与波形集中的各个波形进行比对。在比对过程中,通过比对两者的频谱相似度来确定匹配波形,最终确定波形集中与指向区域波形的频谱相似度最高的波形,作为匹配波形。进一步通过匹配波形找到对应的灰度能量积分图切片,并找到该切片在书本页原图上的对应位置。
需要说明的是,本申请实施例采用波峰、波谷计数方式或者频谱比对的方式,进行匹配波形的查找。在实际应用中,可根据实际需要结合两张匹配波形确定方式来确定匹配波形,也可以选择任意一种进行匹配波形查找。
最终,根据匹配波形在当前书本页原图上的对应位置,即可确定这一位置为当前书本页原图上,与拍摄页图片上的内容指向区域存在对应关系的定位区域,定位区域即为用户实际指示操作的对应位置。根据确定的定位区域,按照用户的内容指示习惯,通常在内容指示时,会指示对应内容的下方。因此,根据确定的定位区域,最终提取定位区域上方最接近的文本内容,作为用户实际指示的书本内容,以此完成书本内容定位。进一步的,根据提取到的书本内容,即可执行相应的功能需求。例如习题搜索解答,则根据提取到的书本内容,于电子题库中查询相应的习题答案,将其反馈给用户,通过书本内容定位设备显示给用户,以此来利用书本内容定位实现相应的功能。
上述,通过识别内容指向区域并提取拍摄页图片对应的当前书本页原图,将内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图,并通过灰度能量积分图比对,确定在当前书本页原图上的定位区域,根据该定位区域定位当前书本页原图的书本内容。采用上述技术手段,可以解决拍摄页图片不清晰而导致书本内容定位误差的问题,提高书本内容的定位精度,并提供更稳定的书本内容定位效果,进而优化用户的书本内容定位体验。
并且,相对于现有书本内容点位方式,需要清晰的文字或者特征识别以实现高精度的书本内容定位。本申请实施例利用拍摄页图片与书本页原图的灰度能量积分图特征相似的特性,避免了拍摄页图片模糊对书本内容定位的影响。进一步的,相对于现有书本内容点位方式,其对拍摄页图片较模糊的区域进行识别时,其书本内容定位效果相对较不稳定。而本申请实施例结合书本页原图和拍摄页图片的灰度能量积分对比,可以准确获知拍摄页图片各区域对应书本页原图定位区域的行和列,以此来实现较为稳定的书本页内容定位效果,避免因为拍摄页图片部分区域不清晰而出现部分区域书本页内容定位误差的情况。
实施例二:
在上述实施例的基础上,图8为本申请实施例二提供的一种书本内容定位装置的结构示意图。参考图8,本实施例提供的书本内容定位装置具体包括:识别模块21、积分模块22和比对模块23。
其中,识别模块21用于在书本内容定位时,获取拍摄页图片,确定所述拍摄页图片中的内容指向区域,所述内容指向区域通过识别用户在当前书本页的指示位置得到;
积分模块22用于提取当前书本页原图,将所述内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图;
比对模块23用于将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对,确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域,根据所述定位区域定位当前书本页原图的书本内容。
具体的,所述积分模块22包括:
第一积分单元,用于对当前书本页原图进行切片,对切片后的当前书本页原图进行灰度能量积分,得到对应的波形集合;
第二积分单元,用于对所述内容指向区域对应的行和列进行灰度能量积分,得到指向区域波形;
对应的,所述比对模块23将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对时,将所述指向区域波形与所述波形集合进行波形匹配,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
具体的,所述比对模块23包括:
第一计数单元,用于对所述指向区域波形的波峰和波谷进行计数;
第二计数单元,用于对所述波形集中各波形的波峰和波谷进行计数;
第一匹配单元,用于通过比对所述指向区域波形与所述波形集中各波形的波峰和波谷数量,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
具体的,所述比对模块23包括:
变换单元,用于对所述指向区域波形进行频域变换;
波形比对单元,用于将频域变换后的所述指向区域波形与所述波形集中的各个波形进行波形比对;
第二匹配单元,用于根据频谱相似度匹配确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
具体的,所述比对模块23在确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域中,根据所述匹配波形在当前书本页原图上的对应位置,确定与所述内容指向区域存在对应关系的定位区域。
具体的,所述积分模块22在提取当前书本页原图中,对所述拍摄页图片进行特征点匹配识别或OCR识别,确定所述拍摄页图片对应的书本页,根据所述拍摄页图片对应的书本页提取当前书本页原图。
具体的,所述识别模块在确定所述拍摄页图片中的内容指向区域中,通过图像识别确定所述拍摄页图片中用户手指指尖在所述拍摄页图片上的指示位置,根据所述指示位置确定所述拍摄页图片中的内容指向区域。
上述,通过识别内容指向区域并提取拍摄页图片对应的当前书本页原图,将内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图,并通过灰度能量积分图比对,确定在当前书本页原图上的定位区域,根据该定位区域定位当前书本页原图的书本内容。采用上述技术手段,可以解决拍摄页图片不清晰而导致书本内容定位误差的问题,提高书本内容的定位精度,并提供更稳定的书本内容定位效果,进而优化用户的书本内容定位体验。
并且,相对于现有书本内容点位方式,需要清晰的文字或者特征识别以实现高精度的书本内容定位。本申请实施例利用拍摄页图片与书本页原图的灰度能量积分图特征相似的特性,避免了拍摄页图片模糊对书本内容定位的影响。进一步的,相对于现有书本内容点位方式,其对拍摄页图片较模糊的区域进行识别时,其书本内容定位效果相对较不稳定。而本申请实施例结合书本页原图和拍摄页图片的灰度能量积分对比,可以准确获知拍摄页图片各区域对应书本页原图定位区域的行和列,以此来实现较为稳定的书本页内容定位效果,避免因为拍摄页部分区域不清晰而出现部分区域书本页内容定位误差的情况。
本申请实施例二提供的书本内容定位装置可以用于执行上述实施例一提供的书本内容定位方法,具备相应的功能和有益效果。
实施例三:
本申请实施例四提供了一种电子设备,参照图9,该电子设备包括:处理器31、存储器32、通信模块33、输入装置34及输出装置35。该电子设备中处理器的数量可以是一个或者多个,该电子设备中的存储器的数量可以是一个或者多个。该电子设备的处理器31、存储器32、通信模块33、输入装置34及输出装置35可以通过总线或者其他方式连接。
存储器32作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的书本内容定位方法对应的程序指令/模块(例如,书本内容定位装置中的识别模块、积分模块和比对模块)。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块33用于进行数据传输。
处理器31通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的书本内容定位方法。
输入装置34可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。
上述提供的电子设备可用于执行上述实施例一提供的书本内容定位方法,具备相应的功能和有益效果。
实施例四:
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种书本内容定位方法,该书本内容定位方法包括:在书本内容定位时,获取拍摄页图片,确定所述拍摄页图片中的内容指向区域,所述内容指向区域通过识别用户在当前书本页的指示位置得到;提取当前书本页原图,将所述内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图;将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对,确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域,根据所述定位区域定位当前书本页原图的书本内容。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的书本内容定位方法,还可以执行本申请任意实施例所提供的书本内容定位方法中的相关操作。
上述实施例中提供的书本内容定位装置、存储介质及电子设备可执行本申请任意实施例所提供的书本内容定位方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的书本内容定位方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

Claims (10)

1.一种书本内容定位方法,其特征在于,包括:
在书本内容定位时,获取拍摄页图片,确定所述拍摄页图片中的内容指向区域,所述内容指向区域通过识别用户在当前书本页的指示位置得到;
提取当前书本页原图,将所述内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图;
将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对,确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域,根据所述定位区域定位当前书本页原图的书本内容。
2.根据权利要求1所述的书本内容定位方法,其特征在于,所述将所述内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图,包括:
对当前书本页原图进行切片,对切片后的当前书本页原图进行灰度能量积分,得到对应的波形集合;
对所述内容指向区域对应的行和列进行灰度能量积分,得到指向区域波形;
对应的,所述将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对,包括:
将所述指向区域波形与所述波形集合进行波形匹配,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
3.根据权利要求2所述书本内容定位方法,其特征在于,所述将所述指向区域波形与所述波形集合进行波形匹配,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形,包括:
对所述指向区域波形的波峰和波谷进行计数;
对所述波形集合中各波形的波峰和波谷进行计数;
通过比对所述指向区域波形与所述波形集合中各波形的波峰和波谷数量,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
4.根据权利要求2所述书本内容定位方法,其特征在于,所述将所述指向区域波形与所述波形集合进行波形匹配,确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形,包括:
对所述指向区域波形进行频域变换;
将频域变换后的所述指向区域波形与所述波形集合中的各个波形进行波形比对;
根据频谱相似度匹配确定所述波形集合中与所述指向区域波形存在匹配关系的匹配波形。
5.根据权利要求2所述书本内容定位方法,其特征在于,所述确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域中,根据所述匹配波形在当前书本页原图上的对应位置,确定与所述内容指向区域存在对应关系的定位区域。
6.根据权利要求1所述的书本内容定位方法,其特征在于,在所述提取当前书本页原图中,对所述拍摄页图片进行特征点匹配识别或OCR识别,确定所述拍摄页图片对应的书本页,根据所述拍摄页图片对应的书本页提取当前书本页原图。
7.根据权利要求1所述的书本内容定位方法,其特征在于,在所述确定所述拍摄页图片中的内容指向区域中,通过图像识别确定所述拍摄页图片中用户手指指尖在所述拍摄页图片上的指示位置,根据所述指示位置确定所述拍摄页图片中的内容指向区域。
8.一种书本内容定位装置,其特征在于,包括:
识别模块,用于在书本内容定位时,获取拍摄页图片,确定所述拍摄页图片中的内容指向区域,所述内容指向区域通过识别用户在当前书本页的指示位置得到;
积分模块,用于提取当前书本页原图,将所述内容指向区域及当前书本页原图进行灰度能量积分,得到相应的灰度能量积分图;
比对模块,用于将所述内容指向区域的灰度能量积分图与当前书本页原图的灰度能量积分图进行比对,确定在当前书本页原图上与所述内容指向区域存在对应关系的定位区域,根据所述定位区域定位当前书本页原图的书本内容。
9.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一所述的书本内容定位方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的书本内容定位方法。
CN201910957127.5A 2019-10-10 2019-10-10 一种书本内容定位方法、装置、电子设备及存储介质 Active CN110765994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910957127.5A CN110765994B (zh) 2019-10-10 2019-10-10 一种书本内容定位方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910957127.5A CN110765994B (zh) 2019-10-10 2019-10-10 一种书本内容定位方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110765994A CN110765994A (zh) 2020-02-07
CN110765994B true CN110765994B (zh) 2023-05-26

Family

ID=69331633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910957127.5A Active CN110765994B (zh) 2019-10-10 2019-10-10 一种书本内容定位方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110765994B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962145A (ja) * 1995-08-23 1997-03-07 Fuji Xerox Co Ltd 画像形成装置
CN103136519A (zh) * 2013-03-22 2013-06-05 中国移动通信集团江苏有限公司南京分公司 一种基于虹膜识别的视线跟踪定位方法
CN103544491A (zh) * 2013-11-08 2014-01-29 广州广电运通金融电子股份有限公司 一种面向复杂背景的光学字符识别方法及装置
CN105320919A (zh) * 2014-07-28 2016-02-10 中兴通讯股份有限公司 人眼定位方法及装置
CN106627529A (zh) * 2016-12-06 2017-05-10 广州市科恩电脑有限公司 一种汽车智能监控方法和装置
CN107256379A (zh) * 2017-05-05 2017-10-17 深圳市科迈爱康科技有限公司 基于图像识别的信息采集方法、移动终端及存储介质
CN108765303A (zh) * 2018-04-08 2018-11-06 东南大学 一种数字减影血管成像图像的积分增强方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962145A (ja) * 1995-08-23 1997-03-07 Fuji Xerox Co Ltd 画像形成装置
CN103136519A (zh) * 2013-03-22 2013-06-05 中国移动通信集团江苏有限公司南京分公司 一种基于虹膜识别的视线跟踪定位方法
CN103544491A (zh) * 2013-11-08 2014-01-29 广州广电运通金融电子股份有限公司 一种面向复杂背景的光学字符识别方法及装置
CN105320919A (zh) * 2014-07-28 2016-02-10 中兴通讯股份有限公司 人眼定位方法及装置
CN106627529A (zh) * 2016-12-06 2017-05-10 广州市科恩电脑有限公司 一种汽车智能监控方法和装置
CN107256379A (zh) * 2017-05-05 2017-10-17 深圳市科迈爱康科技有限公司 基于图像识别的信息采集方法、移动终端及存储介质
CN108765303A (zh) * 2018-04-08 2018-11-06 东南大学 一种数字减影血管成像图像的积分增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗元等.基于人眼信息特征的人体疲劳检测.《计算机应用》.2019,第39卷(第7期),第2098-2102页. *

Also Published As

Publication number Publication date
CN110765994A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
US10902056B2 (en) Method and apparatus for processing image
CN107885430B (zh) 一种音频播放方法、装置、存储介质及电子设备
US7684621B2 (en) Method and system for identifying multiple questionnaire pages
WO2020043155A1 (zh) 图像的多尺度融合方法、装置、存储介质及终端
KR101050866B1 (ko) 문자 인식 장치, 문자 인식 프로그램, 및 문자 인식 방법
CN104281847A (zh) 一种点读方法、装置及设备
CN111160288A (zh) 手势关键点检测方法、装置、计算机设备和存储介质
JP7429307B2 (ja) コンピュータビジョンに基づく文字列認識方法、装置、機器及び媒体
CN111104813A (zh) 二维码图像关键点检测方法、装置、电子设备及存储介质
CN111077992B (zh) 一种点读方法、电子设备及存储介质
KR102440198B1 (ko) 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium)
CN110751004A (zh) 二维码检测方法、装置、设备及存储介质
US6618040B1 (en) Apparatus and method for indexing into an electronic document to locate a page or a graphical image
CN111027533B (zh) 一种点读坐标的变换方法、系统、终端设备及存储介质
CN115131693A (zh) 文本内容识别方法、装置、计算机设备和存储介质
CN110765994B (zh) 一种书本内容定位方法、装置、电子设备及存储介质
CN114223021A (zh) 电子装置及其处理手写输入的方法
CN111079777B (zh) 一种基于书页定位的点读方法及电子设备
US20050089225A1 (en) Method for aligning gesture features of image
CN111695372B (zh) 点读方法及点读数据处理方法
CN113850239B (zh) 多文档检测方法、装置、电子设备及存储介质
CN109213515A (zh) 多平台下埋点归一方法及装置和电子设备
CN110766996B (zh) 一种点读内容定位方法、装置、电子设备及存储介质
CN113449652A (zh) 基于生物特征识别的定位方法及装置
CN112965602A (zh) 一种基于手势的人机交互方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant