CN111027533A - 一种点读坐标的变换方法、系统、终端设备及存储介质 - Google Patents
一种点读坐标的变换方法、系统、终端设备及存储介质 Download PDFInfo
- Publication number
- CN111027533A CN111027533A CN201911275567.9A CN201911275567A CN111027533A CN 111027533 A CN111027533 A CN 111027533A CN 201911275567 A CN201911275567 A CN 201911275567A CN 111027533 A CN111027533 A CN 111027533A
- Authority
- CN
- China
- Prior art keywords
- reading
- image
- point
- coordinates
- target page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 87
- 238000013135 deep learning Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000001131 transforming effect Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 abstract description 10
- 230000007613 environmental effect Effects 0.000 abstract description 4
- 238000003384 imaging method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明属于智能设备领域,公开了一种点读坐标的变换方法、系统、终端设备及存储介质,其方法包括获取点读书本图像;识别所述点读书本图像中的指示体对应的点读坐标;在数据库中查找与所述点读书本图像匹配的目标页面图像;将所述点读坐标、所述点读书本图像和所述目标页面图像输入预先训练好的深度学习坐标变换模型中,得到所述指示体在所述目标页面图像中的点读变换坐标。本发明无需进行三个阶段的任务计算,减少计算任务,且不需要进行手动提取特征,也不用手动进行参数调整,特别是在点读书本存在环境影响与书本成像问题上,具有抗干扰性,鲁棒性强,可提高点读的成功率。
Description
技术领域
本发明涉及智能设备计算领域,尤其涉及一种点读坐标的变换方法、系统、终端设备及存储介质。
背景技术
目前基于纸质书本图像的点读坐标变换方案主要分为三个阶段,第一个阶段是利用各种特征对拍摄获取的点读书本图像进行特征点提取;第二个阶段是利用提取好的特征点在数据库中进行图像匹配、筛选,得到与点读书本图像匹配的图像;第三个阶段计算点读书本图像与匹配的图像的对应关系的矩阵,根据对应关系的矩阵在匹配的图像中确定点读内容。
由于点读书本拍摄得到的图像存在变形,手指点读遮挡,不同光照,信息不全等情况,使得特征点的提取过程中,容易出现特征点数量不够,最后导致矩阵求取失败,进而导致点读失败。
发明内容
本发明的目的是提供一种点读坐标的变换方法、系统、终端设备及存储介质,可减少任务计算量,提高点读成功率。
本发明提供的技术方案如下:
一方面,提供一种点读坐标的变换方法,包括:
获取点读书本图像;
识别所述点读书本图像中的指示体对应的点读坐标;
在数据库中查找与所述点读书本图像匹配的目标页面图像;
将所述点读坐标、所述点读书本图像和所述目标页面图像输入预先训练好的深度学习坐标变换模型中,得到所述指示体在所述目标页面图像中的点读变换坐标。
进一步地,所述获取点读书本图像之前还包括:
获取大量点读图像,所述点读图像中标注有第一坐标;
获取与所述点读图像相匹配的电子图像,所述电子图像中标注有与所述第一坐标相对应的第二坐标;
将所述点读图像和所述电子图像输入初始深度学习坐标变换模型中进行训练,得到训练好的深度学习坐标变换模型。
进一步地,所述在数据库中查找与所述点读书本图像匹配的目标页面图像具体包括:
根据所述点读书本图像在数据库中查找与所述点读书本图像的相似度大于预设值的页面图像;
当所述页面图像为多个时,分别提取所述点读书本图像与所述页面图像中预先标记的特定区域的特征信息;
根据所述特征信息在多个所述页面图像中确定出与所述点读书本图像匹配的目标页面图像。
进一步地,所述将所述点读坐标、所述点读书本图像和所述目标页面图像输入预先训练好的深度学习坐标变换模型中,得到所述指示体在所述目标页面图像的点读变换坐标之后还包括:
判断所述点读变换坐标是否在所述目标页面图像的有效区域内;
若是,则根据所述点读变换坐标获取点读内容;
若否,则在数据库中重新查找与所述点读书本图像匹配的目标页面图像。
另一方面,还提供一种点读坐标的变换系统,包括:
书本图像获取模块,用于获取点读书本图像;
点读坐标识别模块,用于识别所述点读书本图像中的指示体对应的点读坐标;
图像匹配模块,用于在数据库中查找与所述点读书本图像匹配的目标页面图像;
坐标转换模块,用于将所述点读坐标、所述点读书本图像和所述目标页面图像输入预先训练好的深度学习坐标变换模型中,得到所述指示体在所述目标页面图像中的点读变换坐标。
进一步地,还包括:
点读图像获取模块,用于获取大量点读图像,所述点读图像中标注有第一坐标;
电子图像获取模块,用于获取与所述点读图像相匹配的电子图像,所述电子图像中标注有与所述第一坐标相对应的第二坐标;
模型训练模块,用于将所述点读图像和所述电子图像输入初始深度学习坐标变换模型中进行训练,得到训练好的深度学习坐标变换模型。
进一步地,所述图像匹配模块包括:
查找单元,用于根据所述点读书本图像在数据库中查找与所述点读书本图像的相似度大于预设值的页面图像;
提取单元,用于当所述页面图像为多个时,分别提取所述点读书本图像与所述页面图像中预先标记的特定区域的特征信息;
确定单元,用于根据所述特征信息在多个所述页面图像中确定出与所述点读书本图像匹配的目标页面图像。
进一步地,还包括:
判断模块,用于判断所述点读变换坐标是否在所述目标页面图像的有效区域内;
点读内容获取模块,用于当所述点读变换坐标在所述目标页面图像的有效区域内时,根据所述点读变换坐标获取点读内容;
所述图像匹配模块,还用于当所述点读变换坐标不在所述目标页面图像的有效区域内时,在数据库中重新查找与所述点读书本图像匹配的目标页面图像。
又一方面,还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现如上述任一所述的点读坐标的变换方法的步骤。
再一方面,还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述的点读坐标的变换方法的步骤。
与现有技术相比,本发明的有益效果在于:本发明先通过图搜技术在数据库中查找到对应的目标页面图像,然后通过深度学习模型将点读书本图像中的指示体的坐标转换到目标页面图像中得到点读变换坐标,以获取点读内容;无需进行三个阶段的任务计算,减少计算任务,且不需要进行手动提取特征,也不用手动进行参数调整,特别是在点读书本存在环境影响与书本成像问题上,具有抗干扰性,鲁棒性强,可提高点读的成功率。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种点读坐标的变换方法、系统、终端设备及存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种点读坐标的变换方法的一个实施例的流程示意图;
图2是本发明一种点读坐标的变换方法的另一个实施例的流程示意图;
图3是本发明一种点读坐标的变换方法的又一个实施例的流程示意图;
图4是本发明一种点读坐标的变换方法的再一个实施例的流程示意图;
图5是本发明一种点读坐标的变换系统的一个实施例的结构示意图;
图6是本发明一种点读坐标的变换系统的另一个实施例的结构示意图;
图7是本发明一种点读坐标的变换系统的又一个实施例的结构示意图;
图8是本发明终端设备一个实施例的结构示意图。
附图标号说明:
10、书本图像获取模块; 20、点读坐标识别模块;
30、图像匹配模块; 31、查找单元;
32、提取单元; 33、确定单元;
40、坐标转换模块; 50、点读图像获取模块;
60、电子图像获取模块; 70、模型训练模块;
80、判断模块; 90、点读内容获取模块;
210、存储器; 211、计算机程序;
220、处理器。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
具体实现中,本申请实施例中描述的移动客户端包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其他便携式设备。
移动客户端支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄像机应用程序、Web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明实施例提供一种点读坐标的变换方法,如图1所示,包括:
S100获取点读书本图像;
具体地,学生在学习时,可开启家教机的点读模式,当遇到不会的内容时,可通过家教机上的摄像头以拍照或摄像方式获取纸质书本上用户正在点读的书本的图像,即获取点读书本图像,点读书本图像中包括在书本上的指示体,指示体可以是用户的手指、指示笔等。
S200识别所述点读书本图像中的指示体对应的点读坐标;
具体地,预先获取摄像头的内参矩阵,将摄像头的中点转换为世界坐标系中的原点,并构建世界坐标系,然后获取点读书本图像中的指示体在世界坐标系中的像素坐标,指示体在世界坐标系中的像素坐标即为指示体对应的点读坐标。
S300在数据库中查找与所述点读书本图像匹配的目标页面图像;
具体地,可根据点读书本图像中的文字和图形信息在数据库中查找到匹配的目标页面图像。例如,可在数据库中查找与点读书本图像中的文字重复率大于第一预设阈值,且图形位置和图形轮廓的相似度大于第二预设阈值的页面图像,作为目标页面图像。在数据库中匹配出的目标页面图像认为与点读书本图像为同一本书的同一页面。数据库中的页面图像是预先存入数据库中的每本图书的单个页面的电子图像。
在检测文字重复率之前,需要先识别点读书本图像中的文字信息,然后根据识别出的文字信息计算点读书本图像与数据库中存储的页面图像的文字重复率,再筛选出文字重复率大于第一预设阈值的存储页面。由于学生在点读时,部分文字可能会被学生的手指或指示笔等遮挡,使得获取的点读书本图像中的文字可能存在不全的情况,因此,设置的第一预设阈值和第二预设阈值应低于100%,如可设置为75%、80%等。当在数据库中匹配到的页面图像为多个时,可选取相似度最高的页面图像作为目标页面图像。
S400将所述点读坐标、所述点读书本图像和所述目标页面图像输入预先训练好的深度学习坐标变换模型中,得到所述指示体在所述目标页面图像中的点读变换坐标。
具体地,将从点读书本图像中识别出的指示体的点读坐标、点读书本图像和在数据库中查找出的目标页面图像一起输入预先训练好的深度学习坐标变换模型中,即可得到指示体在目标页面图像中的点读变换坐标,指示体在点读书本图像中的点读坐标对应的区域与指示体在目标页面图像中的点读变换坐标对应的区域相同。
得到指示体在目标页面图像中的点读变换坐标后,即可获取点读变换坐标对应区域内的内容,该内容即为用户需要的点读内容,然后根据点读内容及用户点读时输入的语音信息在数据库中搜索对应的答案,并返回给用户。在根据点读变换坐标获取点读内容时,可以点读变换坐标所在位置为中心构建一个矩形框,将矩形框内的内容作为点读内容。
本发明中,先通过图搜技术在数据库中查找到对应的目标页面图像,然后通过深度学习模型将点读书本图像中的指示体的坐标转换到目标页面图像中得到点读变换坐标,以获取点读内容;本发明的点读坐标变换方法无需进行三个阶段的任务计算,减少计算任务,且不需要进行手动提取特征,也不用手动进行参数调整,特别是在点读书本存在环境影响与书本成像问题上,具有抗干扰性,鲁棒性强,提高点读的成功率。
其中,如图2所示,深度学习坐标变换模型的训练方法为:
S010获取大量点读图像,所述点读图像中标注有第一坐标;
S020获取与所述点读图像相匹配的电子图像,所述电子图像中标注有与所述第一坐标相对应的第二坐标;
S030将所述点读图像和所述电子图像输入初始深度学习坐标变换模型中进行训练,得到训练好的深度学习坐标变换模型。
具体地,先获取大量的点读图像,可以通过摄像头拍摄获取各种应用场景下的点读图像,或者从网络上获取他人上传的点读图像,然后在点读图像中标注出指示体的第一坐标。
获取与点读图像相匹配的电子图像,电子图像与点读图像为同一本书中的同一页面,然后在电子图像中标注出点读图像中的指示体在电子图像中对应的第二坐标,即将点读图像的指示体在点读图像中的坐标转换为在电子图像中的坐标,且点读图像中的第一坐标对应的区域与电子图像中的第二坐标对应的区域相同。
将标注了第一坐标的点读图像与匹配的电子图像作为坐标变换数据样本集,将样本集输入部署好环境的服务器端或智能终端进行模型训练,得到训练好的深度学习坐标变换模型,该训练的过程只需要进行一次。
在一种实施方式中,如图3所示,步骤S300所述在数据库中查找与所述点读书本图像匹配的目标页面图像具体包括:
S310根据所述点读书本图像在数据库中查找与所述点读书本图像的相似度大于预设值的页面图像;
S320当所述页面图像为多个时,分别提取所述点读书本图像与所述页面图像中预先标记的特定区域的特征信息;
S330根据所述特征信息在多个所述页面图像中确定出与所述点读书本图像匹配的目标页面图像。
具体地,可先根据点读书本图像中的文字和图形信息在数据库中查找到匹配的页面图像。例如,可在数据库中查找与点读书本图像中的文字重复率大于第一预设阈值,且图形位置和图形轮廓的相似度大于第二预设阈值的页面图像。由于实际应用过程中,第一预设阈值与第二预设阈值小于100%,且数据库中可能存在多个与点读书本图像相似度大于预设值的页面图像,因此,当查找到的页面图像为多个时,分别提取点读书本图像与页面图像中预先标记的特定区域的特征信息。例如,预先标记的特定区域为左上角,特征信息为文字内容不同,即说明两个页面图像的左上角的文字内容不同,此时可分别提取出点读书本图像的左上角的文字内容,以及两个页面图像的左上角的文字内容,然后根据文字内容来确定哪个页面图像为目标页面图像。当在数据库中查找到的页面图像只有一个时,则该页面图像为目标页面图像。
在数据库中每存入书本中的一个页面的图像时,都需要在数据库中查找相似度大于预设值的已存储页面,若查找不到,则直接将该页面存入数据库中;若能查找到,则在该页面和已存储页面中标记同一特定区域的特征信息。特定区域是指该页面与已存储页面具有区别特征的区域,如该页面与已存储页面的相似度为85%,则该特定区域是指不相似的15%中的某一区域。标记的特定区域的特征信息可以是内容不同、颜色不同或字体大小不同等区别信息。在数据库中对相似度大于预设值的两个页面图像进行标记,可在搜图时,减少相似页面的干扰,提高搜索准确率。
在一种实施方式中,如图4所示,S400所述将所述点读坐标、所述点读书本图像和所述目标页面图像输入预先训练好的深度学习坐标变换模型中,得到所述指示体在所述目标页面图像的点读变换坐标之后还包括:
S500判断所述点读变换坐标是否在所述目标页面图像的有效区域内;
S600若是,则根据所述点读变换坐标获取点读内容;
S700若否,则在数据库中重新查找与所述点读书本图像匹配的目标页面图像。
具体地,得到点读书本图像中的指示体在目标页面图像中的点读变换坐标后,判断该点读变换坐标是否在目标页面图像的有效区域内,目标页面图像的有效区域可指目标页面图像中有内容的区域,即页面图像中除去页边距的部分,有效区域可预先进行勾勒设置。若点读变换坐标在有效区域内,则根据点读变换坐标获取指示体指示的点读内容;若点读变换坐标不在有效区域内,则说明查找到的目标页面图像可能存在错误,或是用户点读错误,此时可重新在数据库中查找与点读书本图像匹配的目标页面图像,或显示提示信息提示用户重新点读。
示例性的,假设在数据库中匹配到的页面图像为多个,选取相似度最高的页面图像为目标页面图像,若点读变换坐标在该目标页面图像的有效区域外时,可再次在数据库中选取相似度排第二的页面图像作为目标页面图像,并通过深度学习坐标变换模型得到点读变换坐标。
可选地,当判断出点读变换坐标在目标页面图像的有效区域外时,还可进一步判断指示体是否在点读书本图像的有效区域内,若否,则显示提示信息重新进行点读,若是,则在数据库中重新查找与点读书本图像匹配的目标页面图像。
应理解,在上述实施例中,各步骤序号的大小并不意味着执行顺序的先后,各步骤的执行顺序应以功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明实施例还提供一种点读坐标的变换系统,如图5所示,包括:
书本图像获取模块10,用于获取点读书本图像;
具体地,书本图像获取模块为摄像头模块,学生在学习时,可开启家教机的点读模式,当遇到不会的内容时,可通过家教机上的摄像头以拍照或摄像方式获取纸质书本上用户正在点读的书本的图像,即获取点读书本图像。点读书本图像中包括在书本上的指示体,指示体可以是用户的手指、指示笔等。
点读坐标识别模块20,用于识别所述点读书本图像中的指示体对应的点读坐标;
具体地,预先获取摄像头的内参矩阵,将摄像头的中点转换为世界坐标系中的原点,并构建世界坐标系,然后获取点读书本图像中的指示体在世界坐标系中的像素坐标,指示体在世界坐标系中的像素坐标即为指示体对应的点读坐标。
图像匹配模块30,用于在数据库中查找与所述点读书本图像匹配的目标页面图像;
具体地,可根据点读书本图像中的文字和图形信息在数据库中查找到匹配的目标页面图像。例如,可在数据库中查找与点读书本图像中的文字重复率大于第一预设阈值,且图形位置和图形轮廓的相似度大于第二预设阈值的页面图像,作为目标页面图像。在数据库中匹配出的目标页面图像认为与点读书本图像为同一本书的同一页面。数据库中的页面图像是预先存入数据库中的每本图书的单个页面的电子图像。
在检测文字重复率之前,需要先识别点读书本图像中的文字信息,然后根据识别出的文字信息计算点读书本图像与数据库中存储的页面图像的文字重复率,再筛选出文字重复率大于第一预设阈值的存储页面。由于学生在点读时,部分文字可能会被学生的手指或指示笔等遮挡,使得获取的点读书本图像中的文字可能存在不全的情况,因此,设置的第一预设阈值和第二预设阈值应低于100%,如可设置为75%、80%等。当在数据库中匹配到的页面图像为多个时,可选取相似度最高的页面图像作为目标页面图像。
坐标转换模块40,用于将所述点读坐标、所述点读书本图像和所述目标页面图像输入预先训练好的深度学习坐标变换模型中,得到所述指示体在所述目标页面图像中的点读变换坐标。
具体地,将从点读书本图像中识别出的指示体的点读坐标、点读书本图像和在数据库中查找出的目标页面图像一起输入预先训练好的深度学习坐标变换模型中,即可得到指示体在目标页面图像中的点读变换坐标,指示体在点读书本图像中的点读坐标对应的区域与指示体在目标页面图像中的点读变换坐标对应的区域相同。
得到指示体在目标页面图像中的点读变换坐标后,即可获取点读变换坐标对应区域内的内容,该内容即为用户需要的点读内容,然后根据点读内容及用户点读时输入的语音信息在数据库中搜索对应的答案,并返回给用户。在根据点读变换坐标获取点读内容时,可以点读变换坐标所在位置为中心构建一个矩形框,将矩形框内的内容作为点读内容。
本发明中,先通过图搜技术在数据库中查找到对应的目标页面图像,然后通过深度学习模型将点读书本图像中的指示体的坐标转换到目标页面图像中得到点读变换坐标,以获取点读内容;本发明的点读坐标变换方法无需进行三个阶段的任务计算,减少计算任务,且不需要进行手动提取特征,也不用手动进行参数调整,特别是在点读书本存在环境影响与书本成像问题上,具有抗干扰性,鲁棒性强,提高点读的成功率。
作为一种实施方式,如图7所示,还包括:
点读图像获取模块50,用于获取大量点读图像,所述点读图像中标注有第一坐标;
电子图像获取模块60,用于获取与所述点读图像相匹配的电子图像,所述电子图像中标注有与所述第一坐标相对应的第二坐标;
模型训练模块70,用于将所述点读图像和所述电子图像输入初始深度学习坐标变换模型中进行训练,得到训练好的深度学习坐标变换模型。
具体地,先获取大量的点读图像,可以通过摄像头拍摄获取各种应用场景下的点读图像,或者从网络上获取他人上传的点读图像,然后在点读图像中标注出指示体的第一坐标。
获取与点读图像相匹配的电子图像,电子图像与点读图像为同一本书中的同一页面,然后在电子图像中标注出点读图像中的指示体在电子图像中对应的第二坐标,即将点读图像的指示体在点读图像中的坐标转换为在电子图像中的坐标,且点读图像中的第一坐标对应的区域与电子图像中的第二坐标对应的区域相同。
将标注了第一坐标的点读图像与匹配的电子图像作为坐标变换数据样本集,将样本集输入部署好环境的服务器端或智能终端进行模型训练,得到训练好的深度学习坐标变换模型,该训练的过程只需要进行一次。
作为另一种实施方式,如图6所示,图像匹配模块30包括:
查找单元31,用于根据所述点读书本图像在数据库中查找与所述点读书本图像的相似度大于预设值的页面图像;
提取单元32,用于当所述页面图像为多个时,分别提取所述点读书本图像与所述页面图像中预先标记的特定区域的特征信息;
确定单元33,用于根据所述特征信息在多个所述页面图像中确定出与所述点读书本图像匹配的目标页面图像。
具体地,可先根据点读书本图像中的文字和图形信息在数据库中查找到匹配的页面图像。例如,可在数据库中查找与点读书本图像中的文字重复率大于第一预设阈值,且图形位置和图形轮廓的相似度大于第二预设阈值的页面图像。由于实际应用过程中,第一预设阈值与第二预设阈值小于100%,且数据库中可能存在多个与点读书本图像相似度大于预设值的页面图像,因此,当查找到的页面图像为多个时,分别提取点读书本图像与页面图像中预先标记的特定区域的特征信息。例如,预先标记的特定区域为左上角,特征信息为文字内容不同,即说明两个页面图像的左上角的文字内容不同,此时可分别提取出点读书本图像的左上角的文字内容,以及两个页面图像的左上角的文字内容,然后根据文字内容来确定哪个页面图像为目标页面图像。当在数据库中查找到的页面图像只有一个时,则该页面图像为目标页面图像。
在数据库中每存入书本中的一个页面的图像时,都需要在数据库中查找相似度大于预设值的已存储页面,若查找不到,则直接将该页面存入数据库中;若能查找到,则在该页面和已存储页面中标记同一特定区域的特征信息。特定区域是指该页面与已存储页面具有区别特征的区域,如该页面与已存储页面的相似度为85%,则该特定区域是指不相似的15%中的某一区域。标记的特定区域的特征信息可以是内容不同、颜色不同或字体大小不同等区别信息。在数据库中对相似度大于预设值的两个页面图像进行标记,可在搜图时,减少相似页面的干扰,提高搜索准确率。
作为又一种实施方式,如图7所示,还包括:
判断模块80,用于判断所述点读变换坐标是否在所述目标页面图像的有效区域内;
点读内容获取模块90,用于当所述点读变换坐标在所述目标页面图像的有效区域内时,根据所述点读变换坐标获取点读内容;
图像匹配模块30,还用于当所述点读变换坐标不在所述目标页面图像的有效区域内时,在数据库中重新查找与所述点读书本图像匹配的目标页面图像。
具体地,得到点读书本图像中的指示体在目标页面图像中的点读变换坐标后,判断该点读变换坐标是否在目标页面图像的有效区域内,目标页面图像的有效区域可指目标页面图像中有内容的区域,即页面图像中除去页边距的部分,有效区域可预先进行勾勒设置。若点读变换坐标在有效区域内,则根据点读变换坐标获取指示体指示的点读内容;若点读变换坐标不在有效区域内,则说明查找到的目标页面图像可能存在错误,或是用户点读错误,此时可重新在数据库中查找与点读书本图像匹配的目标页面图像,或显示提示信息提示用户重新点读。
示例性的,假设在数据库中匹配到的页面图像为多个,选取相似度最高的页面图像为目标页面图像,若点读变换坐标在该目标页面图像的有效区域外时,可再次在数据库中选取相似度排第二的页面图像作为目标页面图像,并通过深度学习坐标变换模型得到点读变换坐标。
可选地,当判断出点读变换坐标在目标页面图像的有效区域外时,还可进一步判断指示体是否在点读书本图像的有效区域内,若否,则显示提示信息重新进行点读,若是,则在数据库中重新查找与点读书本图像匹配的目标页面图像。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将所述装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
图8是本发明一个实施例中提供的终端设备的结构示意图。如图8所示,本实施例的终端设备包括:处理器220、存储器210以及存储在所述存储器210中并可在所述处理器220上运行的计算机程序211。所述处理器220执行所述计算机程序211时实现上述各个点读坐标的变换方法实施例中的步骤,或者,所述处理器220执行所述计算机程序211时实现上述各点读坐标的变换系统实施例中各模块的功能。
所述终端设备可以为桌上型计算机、笔记本、掌上电脑、平板型计算机、手机、人机交互屏等设备。所述终端设备可包括,但不仅限于,处理器220、存储器210。本领域技术人员可以理解,图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:终端设备还可以包括输入输出设备、显示设备、网络接入设备、总线等。
所述处理器220可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器210可以是所述终端设备的内部存储单元,例如:终端设备的硬盘或内存。所述存储器也可以是所述终端设备的外部存储设备,例如:所述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器210还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器210用于存储所述计算机程序211以及所述终端设备所需要的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序发送指令给相关的硬件完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括:计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种点读坐标的变换方法,其特征在于,包括:
获取点读书本图像;
识别所述点读书本图像中的指示体对应的点读坐标;
在数据库中查找与所述点读书本图像匹配的目标页面图像;
将所述点读坐标、所述点读书本图像和所述目标页面图像输入预先训练好的深度学习坐标变换模型中,得到所述指示体在所述目标页面图像中的点读变换坐标。
2.如权利要求1所述的一种点读坐标的变换方法,其特征在于,所述获取点读书本图像之前还包括:
获取大量点读图像,所述点读图像中标注有第一坐标;
获取与所述点读图像相匹配的电子图像,所述电子图像中标注有与所述第一坐标相对应的第二坐标;
将所述点读图像和所述电子图像输入初始深度学习坐标变换模型中进行训练,得到训练好的深度学习坐标变换模型。
3.如权利要求1所述的一种点读坐标的变换方法,其特征在于,所述在数据库中查找与所述点读书本图像匹配的目标页面图像具体包括:
根据所述点读书本图像在数据库中查找与所述点读书本图像的相似度大于预设值的页面图像;
当所述页面图像为多个时,分别提取所述点读书本图像与所述页面图像中预先标记的特定区域的特征信息;
根据所述特征信息在多个所述页面图像中确定出与所述点读书本图像匹配的目标页面图像。
4.如权利要求1所述的一种点读坐标的变换方法,其特征在于,所述将所述点读坐标、所述点读书本图像和所述目标页面图像输入预先训练好的深度学习坐标变换模型中,得到所述指示体在所述目标页面图像的点读变换坐标之后还包括:
判断所述点读变换坐标是否在所述目标页面图像的有效区域内;
若是,则根据所述点读变换坐标获取点读内容;
若否,则在数据库中重新查找与所述点读书本图像匹配的目标页面图像。
5.一种点读坐标的变换系统,其特征在于,包括:
书本图像获取模块,用于获取点读书本图像;
点读坐标识别模块,用于识别所述点读书本图像中的指示体对应的点读坐标;
图像匹配模块,用于在数据库中查找与所述点读书本图像匹配的目标页面图像;
坐标转换模块,用于将所述点读坐标、所述点读书本图像和所述目标页面图像输入预先训练好的深度学习坐标变换模型中,得到所述指示体在所述目标页面图像中的点读变换坐标。
6.如权利要求5所述的一种点读坐标的变换系统,其特征在于,还包括:
点读图像获取模块,用于获取大量点读图像,所述点读图像中标注有第一坐标;
电子图像获取模块,用于获取与所述点读图像相匹配的电子图像,所述电子图像中标注有与所述第一坐标相对应的第二坐标;
模型训练模块,用于将所述点读图像和所述电子图像输入初始深度学习坐标变换模型中进行训练,得到训练好的深度学习坐标变换模型。
7.如权利要求5所述的一种点读坐标的变换系统,其特征在于,所述图像匹配模块包括:
查找单元,用于根据所述点读书本图像在数据库中查找与所述点读书本图像的相似度大于预设值的页面图像;
提取单元,用于当所述页面图像为多个时,分别提取所述点读书本图像与所述页面图像中预先标记的特定区域的特征信息;
确定单元,用于根据所述特征信息在多个所述页面图像中确定出与所述点读书本图像匹配的目标页面图像。
8.如权利要求5所述的一种点读坐标的变换系统,其特征在于,还包括:
判断模块,用于判断所述点读变换坐标是否在所述目标页面图像的有效区域内;
点读内容获取模块,用于当所述点读变换坐标在所述目标页面图像的有效区域内时,根据所述点读变换坐标获取点读内容;
所述图像匹配模块,还用于当所述点读变换坐标不在所述目标页面图像的有效区域内时,在数据库中重新查找与所述点读书本图像匹配的目标页面图像。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时实现如权利要求1-4中任一项所述的点读坐标的变换方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的点读坐标的变换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911275567.9A CN111027533B (zh) | 2019-12-12 | 2019-12-12 | 一种点读坐标的变换方法、系统、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911275567.9A CN111027533B (zh) | 2019-12-12 | 2019-12-12 | 一种点读坐标的变换方法、系统、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111027533A true CN111027533A (zh) | 2020-04-17 |
CN111027533B CN111027533B (zh) | 2024-02-23 |
Family
ID=70206513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911275567.9A Active CN111027533B (zh) | 2019-12-12 | 2019-12-12 | 一种点读坐标的变换方法、系统、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111027533B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652182A (zh) * | 2020-06-17 | 2020-09-11 | 广东小天才科技有限公司 | 一种悬空手势识别的方法、装置、电子设备和存储介质 |
CN112201117A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034706A (ja) * | 1999-07-21 | 2001-02-09 | Ricoh Co Ltd | 点字読取装置 |
CN106548174A (zh) * | 2016-09-30 | 2017-03-29 | 深圳市天朗时代科技有限公司 | 通过智能终端阅读点读印刷读物的系统及方法 |
CN109189879A (zh) * | 2018-09-14 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 电子书籍显示方法及装置 |
CN109325464A (zh) * | 2018-10-16 | 2019-02-12 | 上海翎腾智能科技有限公司 | 一种基于人工智能的手指点读文字识别方法及翻译方法 |
CN109656465A (zh) * | 2019-02-26 | 2019-04-19 | 广东小天才科技有限公司 | 一种应用于家教设备的内容获取方法及家教设备 |
CN110111612A (zh) * | 2019-04-11 | 2019-08-09 | 深圳市学之友科技有限公司 | 一种拍照式点读方法、系统及点读设备 |
CN110414393A (zh) * | 2019-07-15 | 2019-11-05 | 福州瑞芯微电子股份有限公司 | 一种基于深度学习的自然交互方法及终端 |
CN110517312A (zh) * | 2019-07-05 | 2019-11-29 | 银河水滴科技(北京)有限公司 | 基于深度学习的缝隙定位方法、装置和存储介质 |
CN110532964A (zh) * | 2019-08-30 | 2019-12-03 | 广东小天才科技有限公司 | 页码识别方法及装置、阅读机器人、计算机可读存储介质 |
-
2019
- 2019-12-12 CN CN201911275567.9A patent/CN111027533B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034706A (ja) * | 1999-07-21 | 2001-02-09 | Ricoh Co Ltd | 点字読取装置 |
CN106548174A (zh) * | 2016-09-30 | 2017-03-29 | 深圳市天朗时代科技有限公司 | 通过智能终端阅读点读印刷读物的系统及方法 |
CN109189879A (zh) * | 2018-09-14 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 电子书籍显示方法及装置 |
CN109325464A (zh) * | 2018-10-16 | 2019-02-12 | 上海翎腾智能科技有限公司 | 一种基于人工智能的手指点读文字识别方法及翻译方法 |
CN109656465A (zh) * | 2019-02-26 | 2019-04-19 | 广东小天才科技有限公司 | 一种应用于家教设备的内容获取方法及家教设备 |
CN110111612A (zh) * | 2019-04-11 | 2019-08-09 | 深圳市学之友科技有限公司 | 一种拍照式点读方法、系统及点读设备 |
CN110517312A (zh) * | 2019-07-05 | 2019-11-29 | 银河水滴科技(北京)有限公司 | 基于深度学习的缝隙定位方法、装置和存储介质 |
CN110414393A (zh) * | 2019-07-15 | 2019-11-05 | 福州瑞芯微电子股份有限公司 | 一种基于深度学习的自然交互方法及终端 |
CN110532964A (zh) * | 2019-08-30 | 2019-12-03 | 广东小天才科技有限公司 | 页码识别方法及装置、阅读机器人、计算机可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652182A (zh) * | 2020-06-17 | 2020-09-11 | 广东小天才科技有限公司 | 一种悬空手势识别的方法、装置、电子设备和存储介质 |
CN111652182B (zh) * | 2020-06-17 | 2023-09-19 | 广东小天才科技有限公司 | 一种悬空手势识别的方法、装置、电子设备和存储介质 |
CN112201117A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111027533B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109345553B (zh) | 一种手掌及其关键点检测方法、装置和终端设备 | |
CN110009027B (zh) | 图像的比对方法、装置、存储介质及电子装置 | |
CN108319592B (zh) | 一种翻译的方法、装置及智能终端 | |
CN109325414A (zh) | 证件信息的提取方法、装置和文本信息的提取方法 | |
CN110647648B (zh) | 纸质书本的页码识别方法、装置、家教机及存储介质 | |
CN110119733B (zh) | 书页识别方法及装置、终端设备、计算机可读存储介质 | |
US9298685B2 (en) | Automatic creation of multiple rows in a table | |
CN111061933A (zh) | 图片样本库构建方法、装置、可读存储介质及终端设备 | |
WO2022126917A1 (zh) | 基于深度学习的人脸图像评估方法、装置、设备及介质 | |
CN111027533B (zh) | 一种点读坐标的变换方法、系统、终端设备及存储介质 | |
CN111290684A (zh) | 图像显示方法、图像显示装置及终端设备 | |
CN113391779A (zh) | 类纸屏幕的参数调节方法、装置及设备 | |
CN110889406A (zh) | 一种习题数据卡的信息采集方法、系统及终端 | |
CN114495146A (zh) | 图像文本检测方法、装置、计算机设备及存储介质 | |
CN112329409B (zh) | 一种单元格颜色转换方法、装置及电子设备 | |
CN111695372B (zh) | 点读方法及点读数据处理方法 | |
CN111079771B (zh) | 点读图像的特征提取方法、系统、终端设备及存储介质 | |
CN111062377B (zh) | 一种题号检测方法、系统、存储介质及电子设备 | |
JP2014078168A (ja) | 文字認識装置及びプログラム | |
CN110119743B (zh) | 一种图片识别方法、服务器及计算机可读存储介质 | |
CN108021648B (zh) | 一种搜题的方法、装置及智能终端 | |
CN108052525B (zh) | 获取音频信息的方法、装置、存储介质及电子设备 | |
CN111986332A (zh) | 展示留言板的方法、装置、电子设备及存储介质 | |
CN113093967A (zh) | 数据生成方法、装置、计算机装置及存储介质 | |
CN110941728A (zh) | 一种电子文件的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |