CN110532964A - 页码识别方法及装置、阅读机器人、计算机可读存储介质 - Google Patents
页码识别方法及装置、阅读机器人、计算机可读存储介质 Download PDFInfo
- Publication number
- CN110532964A CN110532964A CN201910818181.1A CN201910818181A CN110532964A CN 110532964 A CN110532964 A CN 110532964A CN 201910818181 A CN201910818181 A CN 201910818181A CN 110532964 A CN110532964 A CN 110532964A
- Authority
- CN
- China
- Prior art keywords
- page
- memory page
- image
- module
- books
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种页码识别方法及装置、阅读机器人、计算机可读存储介质,其中,页码识别方法中包括:获取指读图像;根据所述指读图像在数据库中查找对应的存储页面;判断是否查找到多个存储页面;若是,分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息;根据所述特征信息确定所述指读图像对应的存储页面,进而确定对应的页码。当在数据库中查找到多个相似的存储页面时,通过预先标记的特定坐标对应区域的特征信息进行进一步的确认,大大提升了页码识别的精确度,解决现有技术中页码识别不精确的技术问题。
Description
技术领域
本发明涉及机器人技术领域,尤指一种页码识别方法及装置、阅读机器人、计算机可读存储介质。
背景技术
目前,小朋友在学习成长过程中接触到的多为纸质书本,而学习是一个缓慢的过程,尤其在识字的过程中经常会遇到困难,需要借助外力,如家长、字典等的帮助。但是,一旦小朋友遇到书本中不认识的字词就请教家长或查阅字典,会大大降低小朋友阅读的连贯性,分散注意力。阅读机器人能够很好的帮助家长解决这一问题。
在使用阅读机器人帮助小朋友阅读时,将阅读的书本放置好后,阅读机器人识别书本中对应的页码,进而定位手指或笔指定的需要辅助阅读位置的坐标并播放对应的语音。但是,由各种因素的干扰,尤其是相似度高的页面的干扰,点读模式下通过图片搜索的方式对书本页码进行识别精度不够,常常会出现页码识别不准的问题。
发明内容
本发明的目的是提供一种页码识别方法及装置、阅读机器人、计算机可读存储介质,有效解决现有阅读机器人页码识别不精确的技术问题。
本发明提供的技术方案如下:
一种页码识别方法,包括:
获取指读图像;
根据所述指读图像在数据库中查找对应的存储页面;
判断是否查找到多个存储页面;
若是,分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息;
根据所述特征信息确定所述指读图像对应的存储页面,进而确定对应的页码。
在上述技术方案中,当在数据库中查找到多个相似的存储页面时,通过预先标记的特定坐标对应区域的特征信息进行进一步的确认,大大提升了页码识别的精确度,解决现有技术中页码识别不精确的技术问题。
进一步,在确定目标书本之前,还包括将书本存入数据库的步骤:
获取待存储书本中的一待存储页面;
针对所述待存储页面在数据库中查找到相似度大于第一预设值的存储页面;
针对所述待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域;
获取所述至少一个代表区域在存储页面/待存储页面中的特定坐标;
将所述待存储页面、所属书本、页面中的代表区域、代表区域的特定坐标及相似度大于第一预设值的存储页面关联存储于数据库中。
在上述技术方案中,在将书本存入数据库中,针对书本的每一个待存储页面在数据库中查找相似页面,并提取相似度小且具有标志性的区域作为标识,便于后续识别中根据该标识对页面进行区分,提高页码识别的精度。
进一步,在分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息中,包括:
判断数据库中是否存储有存储页面和指读图像之间的关联关系;
若有,根据关联关系中存储的至少一个特定坐标分别提取存储页面和指读图像中对应的区域,并使用预设算法分别计算各区域的特征信息;
若没有,获取存储页面和指读图像的至少一个显著区域,并使用预设算法分别获取各显著区域的特征信息。
在上述技术方案中,针对存储过程中没有存储关联页面的指读图像,根据图片相似度确认页码。
进一步,在获取指读图像之前还包括确定阅读书本的步骤:
获取用户阅读的书本的封面图像和背面图像;
根据所述封面图像和背面图像得到书本的名称及版本号;
根据所述书本的名称及版本号在数据库中查找到对应的阅读书本;
在步骤根据所述指读图像在数据库中查找对应的存储页面中:根据所述指读图像对应的阅读书本中查找存储页面;
在步骤针对所述待存储页面在数据库中查找,并判断是否存在相似度大于第一预设值的存储页面中:针对待存储页面在待存储书本已存储页面中查找,并判断是否存在相似度大于第一预设值的存储页面。
在上述技术方案中,在获取指读图像之前确认用户阅读的书本,后续仅在该书本中查找对应的页面,进一步提高了页码识别的精确度。
本发明还提供了一种页码识别装置,包括:
图像获取模块,用于获取指读图像;
与所述图像获取模块连接的查找模块,用于根据所述指读图像在数据库中查找对应的存储页面;
与所述查找模块连接的判断模块,用于判断查找模块是否查找到多个存储页面;
分别与所述查找模块和判断模块连接的特征提取模块,用于分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息;
与所述特征提取模块连接的页码确定模块,用于根据所述特征信息确定所述指读图像对应的存储页面,进而确定对应的页码。
在上述技术方案中,当在数据库中查找到多个相似的存储页面时,通过预先标记的特定坐标对应区域的特征信息进行进一步的确认,大大提升了页码识别的精确度,解决现有技术中页码识别不精确的技术问题。
进一步,所述图像获取模块还用于获取待存储书本中的一待存储页面;
所述查找模块还用于针对所述待存储页面在数据库中查找到相似度大于第一预设值的存储页面;
所页码识别装置中还包括:
分别与所述图像获取模块和查找模块连接的代表区域提取模块,用于针对所述待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域;
与所述代表区域提取模块连接的坐标确定模块,用于获取所述至少一个代表区域在存储页面/待存储页面中的特定坐标;
分别与所述图像获取模块、查找模块、代表区域提取模块及坐标确定模块连接的存储模块,用于将所述待存储页面、所属书本、页面中的代表区域、代表区域的特定坐标及相似度大于第一预设值的存储页面关联存储于数据库中。
在上述技术方案中,在将书本存入数据库中,针对书本的每一个待存储页面在数据库中查找相似页面,并提取相似度小且具有标志性的区域作为标识,便于后续识别中根据该标识对页面进行区分,提高页码识别的精度。
进一步,所述特征提取模块中包括:
判断单元,用于判断数据库中是否存储有存储页面和指读图像之间的关联关系;
与所述判断单元连接的特征计算单元,当判断单元判断数据库中存储有存储页面和指读图像之间的关联关系,根据关联关系中存储的至少一个特定坐标分别提取存储页面和指读图像中对应的区域,并使用预设算法分别计算各区域的特征信息;当判断单元判断数据库中没有存储页面和指读图像之间的关联关系,获取存储页面和指读图像的至少一个显著区域,并使用预设算法分别获取各显著区域的特征信息。
在上述技术方案中,针对存储过程中没有存储关联页面的指读图像,根据图片相似度确认页码。
进一步,所述页码识别装置中还包括与所述图像获取模块连接的书本确定模块,用于根据所述封面图像和背面图像得到书本的名称及版本号,及根据所述书本的名称及版本号在数据库中查找到对应的阅读书本;
所述图像获取模块还用于获取用户阅读的书本的封面图像和背面图像;
所述查找模块根据所述指读图像对应的阅读书本中查找存储页面,及针对所述待存储页面在待存储书本已存储页面中查找到相似度大于第一预设值的存储页面。
在上述技术方案中,在获取指读图像之前确认用户阅读的书本,后续仅在该书本中查找对应的页面,进一步提高了页码识别的精确度。
本发明还提供了一种阅读机器人,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现上述任一项页码识别方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述页码识别方法的步骤。
本发明提供的页码识别方法及装置、阅读机器人、计算机可读存储介质,在根据指读图像查找到多个存储页面时,通过对比相似页和标记关键信息的方式提高页码识别的准确度,解决现有技术中因出现相似页面而识别不准的问题。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施例,对上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明中页码识别方法第一实施例的流程图;
图2是本发明中页码识别方法第二实施例的流程图;
图3是本发明中页码识别装置第六实施例的结构示意图;
图4是本发明中页码识别装置第七实施例的结构示意图;
图5为本发明中阅读机器人一实施例的结构示意图。
附图标号说明:
100-页码识别装置,110-图像获取模块,120-查找模块,130-判断模块,140- 特征提取模块,150-页码确定模块,160-代表区域提取模块,170-坐标确定模块,180-存储模块。
具体实施例
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施例。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施例。
本发明的第一实施例,一种页码识别方法,如图1所示,包括:S10获取指读图像;S20根据指读图像在数据库中查找对应的存储页面;S30判断是否查找到多个存储页面;S40若是,分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息;S50根据特征信息确定指读图像对应的存储页面,进而确定对应的页码。
在本实例中,通过摄像等方式获取的用户当前阅读的书页图像(指读图像) 后,进入点读模式,并根据该指读图像在数据库中查找匹配的存储页面,当只查找到一个匹配的存储页面,则根据该存储页面确定页码;当查找到多个匹配的存储页面,进一步针对存储页面和指读图像预先标记的特定坐标提取对应区域的特征信息,以此根据该特征信息确定指读图像对应的存储页面,精确识别出用户当前阅读书页的页码。
在根据指读图像查找对应的存储页面中,首先判断指读图像对应的页面是否由文字组成,若是,则直接在数据库中查找与指读页面中文字重复率大于一预设阈值的存储页面即可;若指读图像中包括了文字及图片,则除了判断文字的重复率,还需判断图片的相似度(包括图片的位置和图片内容的相似度),若文字的重复率和图片的相似度均大于预设阈值,判断为相似的存储页面。这里要指出,当指读图像对应的页面是否由文字组成时,若查找到了文字重复率达100%的页面,则直接根据该存储页面确定页码;当指读图像对应的页面有文字和图像组成时,文字的重复率和图片的相似度都接近100%时,同样直接根据该存储页面确定页码。
在检测文字重复率之前,识别指读图像中的文字信息,进而根据该文字信息识别与数据库中页面的重复率,由于指读图像中的文字可能会出现遮挡等情况,以此重复率的阈值根据实际情况限定,如将重复率的阈值设定为70%、80%等。当指读图像均由文字组成时,只要数据库一页面中的文字与指读图像中的文字重复率大于该阈值,判断该页面为指读图像的相似存储页面。当指读图像中包括图片,则提取该图像中的图片,根据图片的所在位置、图片在页面中的面积比、图片轮廓等信息判断相似度。在实际应用中,还可以限定多个相似度判定因素,并通过限定每个因素权重的方式计算相似度。这里对判断图片相似度的方法不做限定,能够实现这一目的的手段均包括在本实例中。
预先标记的特定坐标可以为页面中一坐标位置,也可以为页面中一坐标区域,根据实际情况进行设定。为了进一步提高页面识别的精确度,可预先设定多个特定坐标;在页码识别时,根据该多个特定坐标对应的区域分别进行相似度判断即可,若多个特定坐标对应区域的特征信息均满足条件,判断对应存储页面为指读图像对应的页面。一般来说,针对每个页面设定的特定坐标为区别于其他页面的位置。在计算特定坐标对应区域的特征信息时,可以采用现有的任意能够实现特征提取这一目的的算法,如使用CNN卷积神经网络提取其CNN 特征,进而根据特征向量计算相似度。在根据特征信息确定指读图像对应的存储页面中,原则上选定相似性最高的页面作为指读图像对应的存储页面。但是为了进一步提高精确度,这里可以设定一相似性阈值,如95%、98%等,将特定坐标对应区域相似度大于该阈值的存储图像作为备选,当备选中只有一个页面,则直接确定为指读图像对应的存储页面;当备选中有多个页面,将相似性最高的页面作为指读图像对应的存储页面。若在多个存储页面中没有相似性大于该阈值的存储页面,则将相似度最高的页面确定为指读图像对应的存储页面,并提示用户可能存在误差。
在实际应用中,确定了页码之后,还包括识别用户指令、识别用户手指/ 笔等工具在指读页面中的位置及根据用户指令和指读位置播放语音的步骤。用户指令可以通过手动的方式进行输入、也可以通过语音的方式进行输入,如,在一实例中,通过麦克风采集用户的语音信息之后对其进行解析,进而识别出用户指令(阅读某一个字词、阅读某一个段落等)。当用户指令为阅读用户手指指向的字词,则在判断出用户手指指读位置之后进行语音播放。
本发明的第二实施例,是上述第一实施例的优化实施例,如图2所示,该页码识别方法中包括:S01获取待存储书本中的一待存储页面;S02针对待存储页面在数据库中查找到相似度大于第一预设值的存储页面;S03针对待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域;S04获取至少一个代表区域在存储页面/待存储页面中的特定坐标;S05将待存储页面、所属书本、页面中的代表区域、代表区域的特定坐标及相似度大于第一预设值的存储页面关联存储于数据库中;S10获取指读图像;S20根据指读图像在数据库中查找对应的存储页面;S30判断是否查找到多个存储页面;S40若是,分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息; S50根据特征信息确定指读图像对应的存储页面,进而确定对应的页码。
在本实例中,在将书本存入数据库时,每存入书本中一个页面,在数据库中查找相似度大于第一预设值的存储页面,若找不到,直接将该页面存储入数据库中;若能找到,则针对该待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域,并根据选定的代表区域得到其对应的特定坐标进行存储。
第一预设值和第二预设值根据实际情况进行设定,如,将第一预设值设定为80%、85%、90%等,将第二预设值设定为10%、15%、20%等。由于这里是将待存储页面和数据库中的存储页面进行比对(整个页面比对),第一预设值应该设定的高一些,至少不能低于步骤S20中查找存储页面(可能出现遮挡等) 的阈值。另外,在查找相似页面之前,首先判断待存储页面是否由文字组成,若是,直接在数据库中查找与待存储页面中文字重复率第一预设值的存储页面即可;若待存储页面中包括了文字及图片,则除了判断文字部分的重复率,还需判断图片的相似度(包括图片的位置和图片内容的相似度),若文字的重复率和图片的相似度均大于预设阈值(如均设定为80%、85%等),判断为相似的存储页面。在实际应用中,还可以限定多个相似度判定因素,并通过限定每个因素权重的方式计算相似度。这里对判断图片相似度的方法不做限定,能够实现这一目的的手段均包括在本实例中。
在选定具体标志性的代表区域时,对于由文字组成的待存储页面,选定至少一个非重复区域作为代表区域;对于由文字和图片组成的待存储页面中,可以选定至少一个非重复区域作为代表区域,也可以选定至少一个相似度小于第二预设值的图片所在区域作为代表区域,还可以以文字非重复区域和相似度小于第二预设值的图片所在区域结合作为代表区域的方式实现目的。另外,为了后续能够更加精确的识别出正确的页码,选定多个代表区域时,多个代表区域所在的位置应该间隔一定距离,避免集中在一个区域出现遮挡等无法识别的情况出现,如将一个代表区域选定在页面的上半页,将另一代表区域选定在页面的下半页等。
完成书本的存储,进入点读识别页码中:通过摄像等方式获取的用户当前阅读的书页图像(指读图像)后,进入点读模式,并根据该指读图像在数据库中查找匹配的存储页面,当只查找到一个匹配的存储页面,则根据该存储页面确定页码;当查找到多个匹配的存储页面,进一步针对存储页面和指读图像预先标记的特定坐标提取对应区域的特征信息,以此根据该特征信息确定指读图像对应的存储页面,精确识别出用户当前阅读书页的页码。
在根据指读图像查找对应的存储页面中,首先判断指读图像对应的页面是否由文字组成,若是,则直接在数据库中查找与指读页面中文字重复率大于一预设阈值的存储页面即可;若指读图像中包括了文字及图片,则除了判断文字的重复率,还需判断图片的相似度(包括图片的位置和图片内容的相似度),若文字的重复率和图片的相似度均大于预设阈值,判断为相似的存储页面。这里要指出,当指读图像对应的页面是否由文字组成时,若查找到了文字重复率达100%的页面,则直接根据该存储页面确定页码;当指读图像对应的页面有文字和图像组成时,文字的重复率和图片的相似度都接近100%时,同样直接根据该存储页面确定页码。
在检测文字重复率之前,识别指读图像中的文字信息,进而根据该文字信息识别与数据库中页面的重复率,由于指读图像中的文字可能会出现遮挡等情况,以此重复率的阈值根据实际情况限定,如将重复率的阈值设定为70%、80%等。当指读图像均由文字组成时,只要数据库一页面中的文字与指读图像中的文字重复率大于该阈值,判断该页面为指读图像的相似存储页面。当指读图像中包括图片,则提取该图像中的图片,根据图片的所在位置、图片在页面中的面积比、图片轮廓等信息判断相似度。在实际应用中,还可以限定多个相似度判定因素,并通过限定每个因素权重的方式计算相似度。这里对判断图片相似度的方法不做限定,能够实现这一目的的手段均包括在本实例中。
预先标记的特定坐标可以为页面中一坐标位置,也可以为页面中一坐标区域,根据实际情况进行设定。在计算特定坐标对应区域的特征信息时,可以采用现有的任意能够实现特征提取这一目的的算法,如使用CNN卷积神经网络提取其CNN特征,进而根据特征向量计算相似度。在根据特征信息确定指读图像对应的存储页面中,原则上选定相似性最高的页面作为指读图像对应的存储页面。但是为了进一步提高精确度,这里可以设定一相似性阈值,如95%、98%等,将特定坐标对应区域相似度大于该阈值的存储图像作为备选,当备选中只有一个页面,则直接确定为指读图像对应的存储页面;当备选中有多个页面,将相似性最高的页面作为指读图像对应的存储页面。
本发明的第三实施例,是上述第二实施例的优化实施例,该页码识别方法中包括:S01获取待存储书本中的一待存储页面;S02针对待存储页面在数据库中查找到相似度大于第一预设值的存储页面;S03针对待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域;S04获取至少一个代表区域在存储页面/待存储页面中的特定坐标;S05将待存储页面、所属书本、页面中的代表区域、代表区域的特定坐标及相似度大于第一预设值的存储页面关联存储于数据库中;S10获取指读图像;S20根据指读图像在数据库中查找对应的存储页面;S30判断是否查找到多个存储页面;S41判断数据库中是否存储有存储页面和指读图像之间的关联关系;S42若有,根据关联关系中存储的至少一个特定坐标分别提取存储页面和指读图像中对应的区域,并使用预设算法分别计算各区域的特征信息;S43若没有,获取存储页面和指读图像的至少一个显著区域,并使用预设算法分别获取各显著区域的特征信息;S50根据特征信息确定指读图像对应的存储页面,进而确定对应的页码。
在本实例中,在将书本存入数据库时,每存入书本中一个页面,在数据库中查找相似度大于第一预设值的存储页面,若找不到,直接将该页面存储入数据库中;若能找到,则针对该待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域,并根据选定的代表区域得到其对应的特定坐标进行存储。
完成书本的存储,进入点读识别页码中:通过摄像等方式获取的用户当前阅读的书页图像(指读图像)后,进入点读模式,并根据该指读图像在数据库中查找匹配的存储页面,当只查找到一个匹配的存储页面,则根据该存储页面确定页码;当查找到多个匹配的存储页面,随即判断数据库中是否存储有存储页面和指读图像之间的关联关系;若有,则根据关联关系中存储的至少一个特定坐标分别提取存储页面和指读图像中对应的区域,并使用预设算法分别计算各区域的特征信息;若没有,获取存储页面和指读图像的至少一个显著区域,并使用预设算法分别获取各显著区域的特征信息。
预先标记的特定坐标可以为页面中一坐标位置,也可以为页面中一坐标区域,根据实际情况进行设定。在计算特定坐标对应区域的特征信息时,可以采用现有的任意能够实现特征提取这一目的的算法,如使用CNN卷积神经网络提取其CNN特征,进而根据特征向量计算相似度。类似地,在数据库中没有存储指读页面与查找到的存储页面之间的关联关系时,直接通过提取整个页面特征信息计算相似度的方式进行判断。在根据特征信息确定指读图像对应的存储页面中,原则上选定相似性最高的页面作为指读图像对应的存储页面。但是为了进一步提高精确度,这里可以设定一相似性阈值(对于存储有关联关系的情况,相似度阈值可以设定的大一些,如95%、98%等;对于没有存储关联关系的情况,相似度阈值可以设定的小一些,如80%、85%等),将特定坐标对应区域相似度大于该阈值的存储图像作为备选,当备选中只有一个页面,则直接确定为指读图像对应的存储页面;当备选中有多个页面,将相似性最高的页面作为指读图像对应的存储页面。
本发明的第四实施例,是上述第二实施例的优化实施例,该页码识别方法中包括:S01获取待存储书本中的一待存储页面;S02针对待存储页面在待存储书本已存储页面中查找,并判断是否存在相似度大于第一预设值的存储页面; S03针对待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域;S04获取至少一个代表区域在存储页面/待存储页面中的特定坐标;S05将待存储页面、所属书本、页面中的代表区域、代表区域的特定坐标及相似度大于第一预设值的存储页面关联存储于数据库中;S06获取用户阅读的书本的封面图像和背面图像;S07根据封面图像和背面图像得到书本的名称及版本号;S08根据书本的名称及版本号在数据库中查找到对应的阅读书本;S10获取指读图像;S20根据指读图像对应的阅读书本中查找存储页面;S30判断是否查找到多个存储页面;S40若是,分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息;S50根据特征信息确定指读图像对应的存储页面,进而确定对应的页码。
在本实例中,在将书本存入数据库时,每存入书本中一个页面,在该书本已存储页面中查找相似度大于第一预设值的存储页面,若找不到,直接将该页面存储入数据库中;若能找到,则针对该待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域,并根据选定的代表区域得到其对应的特定坐标进行存储。
完成书本的存储,进入点读识别页码中:通过摄像等方式获取用户阅读的书本的封面图像和背面图像,并根据封面图像和背面图像得到书本的名称及版本号,进而根据书本的名称及版本号在数据库中查找到对应的阅读书本。接着,通过摄像等方式获取的用户当前阅读的书页图像(指读图像)后,进入点读模式,并根据该指读图像在阅读书本中查找匹配的存储页面,当只查找到一个匹配的存储页面,则根据该存储页面确定页码;当查找到多个匹配的存储页面,进一步针对存储页面和指读图像预先标记的特定坐标提取对应区域的特征信息,以此根据该特征信息确定指读图像对应的存储页面,精确识别出用户当前阅读书页的页码。
由于在实际使用过程中,书籍,特别是教材因为版权及改版等问题,导致出现大量封面基本相同但书的内容出现少量更改(版本不一样)的问题,因此,除了获得书本名称外,还需要进一步获取版本号,以便确定具体是哪本书。具体,用户在开始阅读之前,先通过摄像等方式采集书本的封面图像和背面图像,进行预处理操作(如滤波、透视变换等)之后,根据封面图像获取书本的名称、根据背面图像中的条形码,获取书本的版本号;获取到书名和版本号后,以此在数据库中查找到的对应的书本即为用户当前阅读的书本。
在检测文字重复率之前,识别指读图像中的文字信息,进而根据该文字信息识别与阅读书本中页面的重复率,由于指读图像中的文字可能会出现遮挡等情况,以此重复率的阈值根据实际情况限定,如将重复率的阈值设定为70%、 80%等。当指读图像均由文字组成时,只要阅读书本一页面中的文字与指读图像中的文字重复率大于该阈值,判断该页面为指读图像的相似存储页面。当指读图像中包括图片,则提取该图像中的图片,根据图片的所在位置、图片在页面中的面积比、图片轮廓等信息判断相似度。在实际应用中,还可以限定多个相似度判定因素,并通过限定每个因素权重的方式计算相似度。这里对判断图片相似度的方法不做限定,能够实现这一目的的手段均包括在本实例中。
预先标记的特定坐标可以为页面中一坐标位置,也可以为页面中一坐标区域,根据实际情况进行设定。在计算特定坐标对应区域的特征信息时,可以采用现有的任意能够实现特征提取这一目的的算法,如使用CNN卷积神经网络提取其CNN特征,进而根据特征向量计算相似度。在根据特征信息确定指读图像对应的存储页面中,原则上选定相似性最高的页面作为指读图像对应的存储页面。但是为了进一步提高精确度,这里可以设定一相似性阈值,如95%、98%等,将特定坐标对应区域相似度大于该阈值的存储图像作为备选,当备选中只有一个页面,则直接确定为指读图像对应的存储页面;当备选中有多个页面,将相似性最高的页面作为指读图像对应的存储页面。
本发明的第五实施例,是上述第三实施例的优化实施例,该页码识别方法中:在将书本存入数据库时,每存入书本中一个页面,在数据库中查找相似度大于第一预设值的存储页面,若找不到,直接将该页面存储入数据库中;若能找到,则针对该待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域,并根据选定的代表区域得到其对应的特定坐标进行存储。
完成书本的存储,进入点读识别页码中:通过摄像等方式获取的用户当前阅读的书页图像(指读图像)后,进入点读模式,并根据该指读图像在数据库中查找匹配的存储页面,当只查找到一个匹配的存储页面,则根据该存储页面确定页码;当查找到多个匹配的存储页面,随即判断数据库中是否存储有存储页面和指读图像之间的关联关系;若有,则根据关联关系中存储的至少一个特定坐标分别提取存储页面和指读图像中对应的区域,并使用预设算法分别计算各区域的特征信息;若没有,获取存储页面和指读图像的至少一个显著区域,并使用预设算法分别获取各显著区域的特征信息。
预先标记的特定坐标可以为页面中一坐标位置,也可以为页面中一坐标区域,根据实际情况进行设定。在计算特定坐标对应区域的特征信息时,可以采用现有的任意能够实现特征提取这一目的的算法,如使用CNN卷积神经网络提取其CNN特征,进而根据特征向量计算相似度。类似地,在数据库中没有存储指读页面与查找到的存储页面之间的关联关系时,直接通过提取整个页面特征信息计算相似度的方式进行判断。在根据特征信息确定指读图像对应的存储页面中,原则上选定相似性最高的页面作为指读图像对应的存储页面。但是为了进一步提高精确度,这里可以设定一相似性阈值(对于存储有关联关系的情况,相似度阈值可以设定的大一些,如95%、98%等;对于没有存储关联关系的情况,相似度阈值可以设定的小一些,如80%、85%等),将特定坐标对应区域相似度大于该阈值的存储图像作为备选,当备选中只有一个页面,则直接确定为指读图像对应的存储页面;当备选中有多个页面,将相似性最高的页面作为指读图像对应的存储页面。
本发明的第六实施例,一种页码识别装置100,如图3所示,包括:图像获取模块110,用于获取指读图像;与图像获取模块110连接的查找模块110,用于根据指读图像在数据库中查找对应的存储页面;与查找模块110连接的判断模块120,用于判断查找模块110是否查找到多个存储页面;分别与查找模块110和判断模块120连接的特征提取模块140,用于分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息;与特征提取模块140 连接的页码确定模块150,用于根据特征信息确定指读图像对应的存储页面,进而确定对应的页码。
在本实例中,图像获取模块110通过摄像等方式获取的用户当前阅读的书页图像(指读图像)后,进入点读模式,查找模块110根据该指读图像在数据库中查找匹配的存储页面,并通过判断模块120判断是否查找到多个存储页面,当只查找到一个匹配的存储页面,则根据该存储页面确定页码;当查找到多个匹配的存储页面,特征提取模块140针对存储页面和指读图像预先标记的特定坐标提取对应区域的特征信息,以此页码确定模块150根据该特征信息确定指读图像对应的存储页面,精确识别出用户当前阅读书页的页码。
在查找模块110根据指读图像查找对应的存储页面中,首先判断指读图像对应的页面是否由文字组成,若是,则直接在数据库中查找与指读页面中文字重复率大于一预设阈值(如85%、90%等)的存储页面即可;若指读图像中包括了文字及图片,则除了判断文字的重复率,还需判断图片的相似度(包括图片的位置和图片内容的相似度),若文字的重复率和图片的相似度均大于预设阈值(如85%、90%等),判断为相似的存储页面。这里要指出,当指读图像对应的页面是否由文字组成时,若查找到了文字重复率达100%的页面,则直接根据该存储页面确定页码;当指读图像对应的页面有文字和图像组成时,文字的重复率和图片的相似度都接近100%时,同样直接根据该存储页面确定页码。
在检测文字重复率之前,识别指读图像中的文字信息,进而根据该文字信息识别与数据库中页面的重复率,由于指读图像中的文字可能会出现遮挡等情况,以此重复率的阈值根据实际情况限定,如将重复率的阈值设定为70%、80%等。当指读图像均由文字组成时,只要数据库一页面中的文字与指读图像中的文字重复率大于该阈值,判断该页面为指读图像的相似存储页面。当指读图像中包括图片,则提取该图像中的图片,根据图片的所在位置、图片在页面中的面积比、图片轮廓等信息判断相似度。在实际应用中,还可以限定多个相似度判定因素,并通过限定每个因素权重的方式计算相似度。这里对判断图片相似度的方法不做限定,能够实现这一目的的手段均包括在本实例中。
当通过上述方法在数据库中查找到多个相似的存储页面时,特征提取模块 140进一步提取指读页面预先标记的特定坐标对应区域的特征信息,及相似存储页面相应区域的特征信息;进而页码确定模块150根据特征信息确定指读图像对应的存储页面,确定对应的页码。
预先标记的特定坐标可以为页面中一坐标位置,也可以为页面中一坐标区域,根据实际情况进行设定。为了进一步提高页面识别的精确度,可预先设定多个特定坐标;在页码识别时,根据该多个特定坐标对应的区域分别进行相似度判断即可,若多个特定坐标对应区域的特征信息均满足条件,判断对应存储页面为指读图像对应的页面。一般来说,针对每个页面设定的特定坐标为区别于其他页面的位置。在特征提取模块140计算特定坐标对应区域的特征信息时,可以采用现有的任意能够实现特征提取这一目的的算法,如使用CNN卷积神经网络提取其CNN特征,进而根据特征向量计算相似度。在根据特征信息确定指读图像对应的存储页面中,原则上选定相似性最高的页面作为指读图像对应的存储页面。但是为了进一步提高精确度,这里可以设定一相似性阈值,如95%、 98%等,将特定坐标对应区域相似度大于该阈值的存储图像作为备选,当备选中只有一个页面,则直接确定为指读图像对应的存储页面;当备选中有多个页面,将相似性最高的页面作为指读图像对应的存储页面。
在实际应用中,确定了页码之后,还包括识别用户指令、识别用户手指/ 笔等工具在指读页面中的位置及根据用户指令和指读位置播放语音的步骤。用户指令可以通过手动的方式进行输入、也可以通过语音的方式进行输入,如,在一实例中,通过麦克风采集用户的语音信息之后对其进行解析,进而识别出用户指令(阅读某一个字词、阅读某一个段落等)。当用户指令为阅读用户手指指向的字词,则在判断出用户手指指读位置之后进行语音播放。
本发明第七实施例,是上述第六实施例的优化实施例,如图4所示,该页码识别装置100中包括:图像获取模块110,用于获取指读图像,用于获取待存储书本中的一待存储页面;及用于针对待存储页面在数据库中查找到相似度大于第一预设值的存储页面;与图像获取模块110连接的查找模块110,用于根据指读图像在数据库中查找对应的存储页面;与查找模块110连接的判断模块120,用于判断查找模块110是否查找到多个存储页面;分别与查找模块110 和判断模块120连接的特征提取模块140,用于分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息;与特征提取模块140连接的页码确定模块150,用于根据特征信息确定指读图像对应的存储页面,进而确定对应的页码;分别与图像获取模块110和查找模块110连接的代表区域提取模块160,用于针对待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域;与代表区域提取模块160连接的坐标确定模块170,用于获取至少一个代表区域在存储页面/待存储页面中的特定坐标;分别与图像获取模块 110、查找模块110、代表区域提取模块160及坐标确定模块170连接的存储模块180,用于将待存储页面、所属书本、页面中的代表区域、代表区域的特定坐标及相似度大于第一预设值的存储页面关联存储于数据库中。
在本实例中,在将书本存入数据库中,图像获取模块110每存入书本中一个页面,查找模块110在数据库中查找相似度大于第一预设值的存储页面,若找不到,直接将该页面存储入数据库中;若能找到,则代表区域提取模块160 针对该待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域,坐标确定模块170根据选定的代表区域得到其对应的特定坐标并进行存储。
第一预设值和第二预设值根据实际情况进行设定,如,将第一预设值设定为80%、85%、90%等,将第二预设值设定为10%、15%、20%等。由于这里是将待存储页面和数据库中的存储页面进行比对,第一预设值应该设定的高一些,至少不能低于后续页码识别中根据指读图像查找存储页面的阈值。另外,在查找相似页面之前,首先判断待存储页面是否由文字组成,若是,直接在数据库中查找与待存储页面中文字重复率第一预设值的存储页面即可;若待存储页面中包括了文字及图片,则除了判断文字部分的重复率,还需判断图片的相似度 (包括图片的位置和图片内容的相似度),若文字的重复率和图片的相似度均大于预设阈值(如均设定为80%、85%等),判断为相似的存储页面。在实际应用中,还可以限定多个相似度判定因素,并通过限定每个因素权重的方式计算相似度。这里对判断图片相似度的方法不做限定,能够实现这一目的的手段均包括在本实例中。
在代表区域提取模块160选定具体标志性的代表区域时,对于由文字组成的待存储页面,选定至少一个非重复区域作为代表区域;对于由文字和图片组成的待存储页面中,可以选定至少一个非重复区域作为代表区域,也可以选定至少一个相似度小于第二预设值的图片所在区域作为代表区域,还可以以文字非重复区域和相似度小于第二预设值的图片所在区域结合作为代表区域的方式实现目的。另外,为了后续能够更加精确的识别出正确的页码,选定多个代表区域时,多个代表区域所在的位置应该间隔一定距离,避免集中在一个区域出现遮挡等无法识别的情况出现,如将一个代表区域选定在页面的上半页,将另一代表区域选定在页面的下半页等。
完成书本的存储,进入点读识别页码中:图像获取模块110通过摄像等方式获取的用户当前阅读的书页图像(指读图像)后,进入点读模式,查找模块 110根据该指读图像在数据库中查找匹配的存储页面,并通过判断模块120判断是否查找到多个存储页面,当只查找到一个匹配的存储页面,则根据该存储页面确定页码;当查找到多个匹配的存储页面,特征提取模块140针对存储页面和指读图像预先标记的特定坐标提取对应区域的特征信息,以此页码确定模块 150根据该特征信息确定指读图像对应的存储页面,精确识别出用户当前阅读书页的页码。
本发明第八实施例,是上述第七实施例的优化实施例,如图4所示,该页码识别装置100中包括:图像获取模块110,用于获取指读图像,用于获取待存储书本中的一待存储页面;及用于针对待存储页面在数据库中查找到相似度大于第一预设值的存储页面;与图像获取模块110连接的查找模块110,用于根据指读图像在数据库中查找对应的存储页面;与查找模块110连接的判断模块120,用于判断查找模块110是否查找到多个存储页面;分别与查找模块110 和判断模块120连接的特征提取模块140,用于分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息。进一步来说,该特征提取模块140中包括:判断单元,用于判断数据库中是否存储有存储页面和指读图像之间的关联关系;与判断单元连接的特征计算单元,当判断单元判断数据库中存储有存储页面和指读图像之间的关联关系,根据关联关系中存储的至少一个特定坐标分别提取存储页面和指读图像中对应的区域,并使用预设算法分别计算各区域的特征信息;当判断单元判断数据库中没有存储页面和指读图像之间的关联关系,获取存储页面和指读图像的至少一个显著区域,并使用预设算法分别获取各显著区域的特征信息;与特征提取模块140连接的页码确定模块150,用于根据特征信息确定指读图像对应的存储页面,进而确定对应的页码;分别与图像获取模块110和查找模块110连接的代表区域提取模块160,用于针对待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域;与代表区域提取模块160连接的坐标确定模块170,用于获取至少一个代表区域在存储页面/待存储页面中的特定坐标;分别与图像获取模块110、查找模块110、代表区域提取模块160及坐标确定模块170连接的存储模块180,用于将待存储页面、所属书本、页面中的代表区域、代表区域的特定坐标及相似度大于第一预设值的存储页面关联存储于数据库中。
在本实例中,在将书本存入数据库中,图像获取模块110每存入书本中一个页面,查找模块110在数据库中查找相似度大于第一预设值的存储页面,若找不到,直接将该页面存储入数据库中;若能找到,则代表区域提取模块160 针对该待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域,坐标确定模块170根据选定的代表区域得到其对应的特定坐标并进行存储。
完成书本的存储,进入点读识别页码中:图像获取模块110通过摄像等方式获取的用户当前阅读的书页图像(指读图像)后,进入点读模式,查找模块 110根据该指读图像在数据库中查找匹配的存储页面,并通过判断模块120判断是否查找到多个存储页面,当只查找到一个匹配的存储页面,则根据该存储页面确定页码;当查找到多个匹配的存储页面,随即判断单元判断数据库中是否存储有存储页面和指读图像之间的关联关系;若有,则特征计算单元根据关联关系中存储的至少一个特定坐标分别提取存储页面和指读图像中对应的区域,并使用预设算法分别计算各区域的特征信息;若没有,获取存储页面和指读图像的至少一个显著区域,并使用预设算法分别获取各显著区域的特征信息。
预先标记的特定坐标可以为页面中一坐标位置,也可以为页面中一坐标区域,根据实际情况进行设定。在特征计算单元计算特定坐标对应区域的特征信息时,可以采用现有的任意能够实现特征提取这一目的的算法,如使用CNN卷积神经网络提取其CNN特征,进而根据特征向量计算相似度。类似地,在数据库中没有存储指读页面与查找到的存储页面之间的关联关系时,直接通过提取整个页面特征信息计算相似度的方式进行判断。在根据特征信息确定指读图像对应的存储页面中,原则上选定相似性最高的页面作为指读图像对应的存储页面。但是为了进一步提高精确度,这里可以设定一相似性阈值(对于存储有关联关系的情况,相似度阈值可以设定的大一些,如95%、98%等;对于没有存储关联关系的情况,相似度阈值可以设定的小一些,如80%、85%等),将特定坐标对应区域相似度大于该阈值的存储图像作为备选,当备选中只有一个页面,则直接确定为指读图像对应的存储页面;当备选中有多个页面,将相似性最高的页面作为指读图像对应的存储页面。
本发明第九实施例,是上述第七实施例的优化实施例,该页码识别装置100 中包括:图像获取模块110,用于获取指读图像,用于获取待存储书本中的一待存储页面;用于针对待存储页面在数据库中查找到相似度大于第一预设值的存储页面;及用于获取用户阅读的书本的封面图像和背面图像;与图像获取模块110连接的书本确定模块,用于根据封面图像和背面图像得到书本的名称及版本号,及根据书本的名称及版本号在数据库中查找到对应的阅读书本;与图像获取模块110连接的查找模块110,用于根据指读图像对应的阅读书本中查找存储页面,及针对待存储页面在待存储书本已存储页面中查找到相似度大于第一预设值的存储页面。与查找模块110连接的判断模块120,用于判断查找模块110是否查找到多个存储页面;分别与查找模块110和判断模块120连接的特征提取模块140,用于分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息;与特征提取模块140连接的页码确定模块150,用于根据特征信息确定指读图像对应的存储页面,进而确定对应的页码;分别与图像获取模块110和查找模块110连接的代表区域提取模块160,用于针对待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域;与代表区域提取模块160连接的坐标确定模块170,用于获取至少一个代表区域在存储页面/待存储页面中的特定坐标;分别与图像获取模块110、查找模块110、代表区域提取模块160及坐标确定模块170连接的存储模块180,用于将待存储页面、所属书本、页面中的代表区域、代表区域的特定坐标及相似度大于第一预设值的存储页面关联存储于数据库中。
在本实例中,在将书本存入数据库中,图像获取模块110每存入书本中一个页面,查找模块110在数据库中查找相似度大于第一预设值的存储页面,若找不到,直接将该页面存储入数据库中;若能找到,则代表区域提取模块160 针对该待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域,坐标确定模块170根据选定的代表区域得到其对应的特定坐标并进行存储。
完成书本的存储,进入点读识别页码中:图像获取模块110通过摄像等方式获取用户阅读的书本的封面图像和背面图像,以此书本确定模块根据封面图像和背面图像得到书本的名称及版本号,进而根据书本的名称及版本号在数据库中查找到对应的阅读书本。接着,图像获取模块110通过摄像等方式获取的用户当前阅读的书页图像(指读图像)后,进入点读模式,查找模块110根据该指读图像在数据库中查找匹配的存储页面,并通过判断模块120判断是否查找到多个存储页面,当只查找到一个匹配的存储页面,则根据该存储页面确定页码;当查找到多个匹配的存储页面,特征提取模块140针对存储页面和指读图像预先标记的特定坐标提取对应区域的特征信息,以此页码确定模块150根据该特征信息确定指读图像对应的存储页面,精确识别出用户当前阅读书页的页码。
由于在实际使用过程中,书籍,特别是教材因为版权及改版等问题,导致出现大量封面基本相同但书的内容出现少量更改(版本不一样)的问题,因此,除了获得书本名称外,还需要进一步获取版本号,以便确定具体是哪本书。具体,用户在开始阅读之前,先通过摄像等方式采集书本的封面图像和背面图像,进行预处理操作(如滤波、透视变换等)之后,根据封面图像获取书本的名称、根据背面图像中的条形码,获取书本的版本号;获取到书名和版本号后,以此在数据库中查找到的对应的书本即为用户当前阅读的书本。
本发明第十实施例,是上述第八实施例的优化实施例,该页码识别装置100 中:在将书本存入数据库中,图像获取模块110每存入书本中一个页面,查找模块110在数据库中查找相似度大于第一预设值的存储页面,若找不到,直接将该页面存储入数据库中;若能找到,则代表区域提取模块160针对该待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域,坐标确定模块 170根据选定的代表区域得到其对应的特定坐标并进行存储。
完成书本的存储,进入点读识别页码中:图像获取模块110通过摄像等方式获取用户阅读的书本的封面图像和背面图像,以此书本确定模块根据封面图像和背面图像得到书本的名称及版本号,进而根据书本的名称及版本号在数据库中查找到对应的阅读书本。接着,图像获取模块110通过摄像等方式获取的用户当前阅读的书页图像(指读图像)后,进入点读模式,查找模块110根据该指读图像在数据库中查找匹配的存储页面,并通过判断模块120判断是否查找到多个存储页面,当只查找到一个匹配的存储页面,则根据该存储页面确定页码;当查找到多个匹配的存储页面,特征提取模块140针对存储页面和指读图像预先标记的特定坐标提取对应区域的特征信息,以此页码确定模块150根据该特征信息确定指读图像对应的存储页面,精确识别出用户当前阅读书页的页码。
当通过上述方法在数据库中查找到多个相似的存储页面时,判断单元判断数据库中是否存储有存储页面和指读图像之间的关联关系;若有,则特征计算单元根据关联关系中存储的至少一个特定坐标分别提取存储页面和指读图像中对应的区域,并使用预设算法分别计算各区域的特征信息;若没有,获取存储页面和指读图像的至少一个显著区域,并使用预设算法分别获取各显著区域的特征信息,进而页码确定模块150根据特征信息确定指读图像对应的存储页面,确定对应的页码。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
图5是本发明一个实施例中提供的阅读机器人的结构示意图,如所示,该阅读机器人200包括:处理器220、存储器210以及存储在存储器210中并可在处理器220上运行的计算机程序211,例如:页码识别程序。处理器220执行计算机程序211时实现上述各个页码识别方法实施例中的步骤,或者,处理器220执行计算机程序211时实现上述各页码识别装置实施例中各模块的功能。
阅读机器人200可以为笔记本、掌上电脑、平板型计算机、手机等设备。阅读机器人200可包括,但不仅限于处理器220、存储器210。本领域技术人员可以理解,图5仅仅是阅读机器人200的示例,并不构成对阅读机器人200 的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:阅读机器人200还可以包括输入输出设备、显示设备、网络接入设备、总线等。
处理器220可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器210可以是阅读机器人200的内部存储单元,例如:阅读机器人200 的硬盘或内存。存储器210也可以是阅读机器人200的外部存储设备,例如:阅读机器人200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器210 还可以既包括阅读机器人200的内部存储单元也包括外部存储设备。存储器210 用于存储计算机程序211以及阅读机器人200所需要的其他程序和数据。存储器210还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/阅读机器人和方法,可以通过其他的方式实现。例如,以上所描述的装置/阅读机器人实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序211发送指令给相关的硬件完成,的计算机程序211可存储于一计算机可读存储介质中,该计算机程序211在被处理器220执行时,可实现上述各个方法实施例的步骤。其中,计算机程序211包括:计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施例,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种页码识别方法,其特征在于,包括:
获取指读图像;
根据所述指读图像在数据库中查找对应的存储页面;
判断是否查找到多个存储页面;
若是,分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息;
根据所述特征信息确定所述指读图像对应的存储页面,进而确定对应的页码。
2.如权利要求1所述的页码识别方法,其特征在于,在确定目标书本之前,还包括将书本存入数据库的步骤:
获取待存储书本中的一待存储页面;
针对所述待存储页面在数据库中查找到相似度大于第一预设值的存储页面;
针对所述待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域;
获取所述至少一个代表区域在存储页面/待存储页面中的特定坐标;
将所述待存储页面、所属书本、页面中的代表区域、代表区域的特定坐标及相似度大于第一预设值的存储页面关联存储于数据库中。
3.如权利要求2所述的页码识别方法,其特征在于,在分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息中,包括:
判断数据库中是否存储有存储页面和指读图像之间的关联关系;
若有,根据关联关系中存储的至少一个特定坐标分别提取存储页面和指读图像中对应的区域,并使用预设算法分别计算各区域的特征信息;
若没有,获取存储页面和指读图像的至少一个显著区域,并使用预设算法分别获取各显著区域的特征信息。
4.如权利要求2或3所述的页码识别方法,其特征在于,在获取指读图像之前还包括确定阅读书本的步骤:
获取用户阅读的书本的封面图像和背面图像;
根据所述封面图像和背面图像得到书本的名称及版本号;
根据所述书本的名称及版本号在数据库中查找到对应的阅读书本;
在步骤根据所述指读图像在数据库中查找对应的存储页面中:根据所述指读图像对应的阅读书本中查找存储页面;
在步骤针对所述待存储页面在数据库中查找,并判断是否存在相似度大于第一预设值的存储页面中:针对待存储页面在待存储书本已存储页面中查找,并判断是否存在相似度大于第一预设值的存储页面。
5.一种页码识别装置,其特征在于,包括:
图像获取模块,用于获取指读图像;
与所述图像获取模块连接的查找模块,用于根据所述指读图像在数据库中查找对应的存储页面;
与所述查找模块连接的判断模块,用于判断查找模块是否查找到多个存储页面;
分别与所述查找模块和判断模块连接的特征提取模块,用于分别提取针对存储页面和指读图像中预先标记的特定坐标对应区域的特征信息;
与所述特征提取模块连接的页码确定模块,用于根据所述特征信息确定所述指读图像对应的存储页面,进而确定对应的页码。
6.如权利要求5所述的页码识别装置,其特征在于,
所述图像获取模块还用于获取待存储书本中的一待存储页面;
所述查找模块还用于针对所述待存储页面在数据库中查找到相似度大于第一预设值的存储页面;
所页码识别装置中还包括:
分别与所述图像获取模块和查找模块连接的代表区域提取模块,用于针对所述待存储页面提取出与每个相似度大于第一预设值的存储页面中相似度小于第二预设值且在存储页面/待存储页面中具有标志性的至少一个代表区域;
与所述代表区域提取模块连接的坐标确定模块,用于获取所述至少一个代表区域在存储页面/待存储页面中的特定坐标;
分别与所述图像获取模块、查找模块、代表区域提取模块及坐标确定模块连接的存储模块,用于将所述待存储页面、所属书本、页面中的代表区域、代表区域的特定坐标及相似度大于第一预设值的存储页面关联存储于数据库中。
7.如权利要求6所述的页码识别装置,其特征在于,所述特征提取模块中包括:
判断单元,用于判断数据库中是否存储有存储页面和指读图像之间的关联关系;
与所述判断单元连接的特征计算单元,当判断单元判断数据库中存储有存储页面和指读图像之间的关联关系,根据关联关系中存储的至少一个特定坐标分别提取存储页面和指读图像中对应的区域,并使用预设算法分别计算各区域的特征信息;当判断单元判断数据库中没有存储页面和指读图像之间的关联关系,获取存储页面和指读图像的至少一个显著区域,并使用预设算法分别获取各显著区域的特征信息。
8.如权利要求6或7所述的页码识别装置,其特征在于,所述页码识别装置中还包括与所述图像获取模块连接的书本确定模块,用于根据所述封面图像和背面图像得到书本的名称及版本号,及根据所述书本的名称及版本号在数据库中查找到对应的阅读书本;
所述图像获取模块还用于获取用户阅读的书本的封面图像和背面图像;
所述查找模块根据所述指读图像对应的阅读书本中查找存储页面,及针对所述待存储页面在待存储书本已存储页面中查找到相似度大于第一预设值的存储页面。
9.一种阅读机器人,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时实现如权利要求1-4中任一项所述页码识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述页码识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818181.1A CN110532964A (zh) | 2019-08-30 | 2019-08-30 | 页码识别方法及装置、阅读机器人、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818181.1A CN110532964A (zh) | 2019-08-30 | 2019-08-30 | 页码识别方法及装置、阅读机器人、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110532964A true CN110532964A (zh) | 2019-12-03 |
Family
ID=68665780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910818181.1A Pending CN110532964A (zh) | 2019-08-30 | 2019-08-30 | 页码识别方法及装置、阅读机器人、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532964A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027533A (zh) * | 2019-12-12 | 2020-04-17 | 广东小天才科技有限公司 | 一种点读坐标的变换方法、系统、终端设备及存储介质 |
CN111079403A (zh) * | 2019-12-10 | 2020-04-28 | 深圳市兴之佳科技有限公司 | 一种页面对比方法及装置 |
CN113449655A (zh) * | 2021-06-30 | 2021-09-28 | 东莞市小精灵教育软件有限公司 | 封面图像的识别方法、装置、存储介质及识别设备 |
CN114299524A (zh) * | 2021-11-18 | 2022-04-08 | 珠海读书郎软件科技有限公司 | 基于页面图像的页码识别方法、存储介质和计算机设备 |
CN114359933A (zh) * | 2021-11-18 | 2022-04-15 | 珠海读书郎软件科技有限公司 | 一种封面图像的识别方法 |
CN114359533A (zh) * | 2021-11-18 | 2022-04-15 | 珠海读书郎软件科技有限公司 | 一种基于页面文本的页码识别方法和计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464951A (zh) * | 2007-12-21 | 2009-06-24 | 北大方正集团有限公司 | 图像识别方法及系统 |
CN106126572A (zh) * | 2016-06-17 | 2016-11-16 | 中国科学院自动化研究所 | 基于区域验证的图像检索方法 |
CN106708405A (zh) * | 2016-12-07 | 2017-05-24 | 广东小天才科技有限公司 | 一种图形轨迹与位置组合的内容定位方法及设备、系统 |
CN108228761A (zh) * | 2017-12-21 | 2018-06-29 | 深圳市商汤科技有限公司 | 支持区域自定义的图像检索方法和装置、设备、介质 |
CN109255346A (zh) * | 2018-08-31 | 2019-01-22 | 深圳闳宸科技有限公司 | 点读方法、装置及电子设备 |
CN110060524A (zh) * | 2019-04-30 | 2019-07-26 | 广东小天才科技有限公司 | 一种机器人辅助阅读的方法及阅读机器人 |
-
2019
- 2019-08-30 CN CN201910818181.1A patent/CN110532964A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464951A (zh) * | 2007-12-21 | 2009-06-24 | 北大方正集团有限公司 | 图像识别方法及系统 |
CN106126572A (zh) * | 2016-06-17 | 2016-11-16 | 中国科学院自动化研究所 | 基于区域验证的图像检索方法 |
CN106708405A (zh) * | 2016-12-07 | 2017-05-24 | 广东小天才科技有限公司 | 一种图形轨迹与位置组合的内容定位方法及设备、系统 |
CN108228761A (zh) * | 2017-12-21 | 2018-06-29 | 深圳市商汤科技有限公司 | 支持区域自定义的图像检索方法和装置、设备、介质 |
CN109255346A (zh) * | 2018-08-31 | 2019-01-22 | 深圳闳宸科技有限公司 | 点读方法、装置及电子设备 |
CN110060524A (zh) * | 2019-04-30 | 2019-07-26 | 广东小天才科技有限公司 | 一种机器人辅助阅读的方法及阅读机器人 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079403A (zh) * | 2019-12-10 | 2020-04-28 | 深圳市兴之佳科技有限公司 | 一种页面对比方法及装置 |
CN111079403B (zh) * | 2019-12-10 | 2023-08-08 | 深圳市兴之佳科技有限公司 | 一种页面对比方法及装置 |
CN111027533A (zh) * | 2019-12-12 | 2020-04-17 | 广东小天才科技有限公司 | 一种点读坐标的变换方法、系统、终端设备及存储介质 |
CN111027533B (zh) * | 2019-12-12 | 2024-02-23 | 广东小天才科技有限公司 | 一种点读坐标的变换方法、系统、终端设备及存储介质 |
CN113449655A (zh) * | 2021-06-30 | 2021-09-28 | 东莞市小精灵教育软件有限公司 | 封面图像的识别方法、装置、存储介质及识别设备 |
CN114299524A (zh) * | 2021-11-18 | 2022-04-08 | 珠海读书郎软件科技有限公司 | 基于页面图像的页码识别方法、存储介质和计算机设备 |
CN114359933A (zh) * | 2021-11-18 | 2022-04-15 | 珠海读书郎软件科技有限公司 | 一种封面图像的识别方法 |
CN114359533A (zh) * | 2021-11-18 | 2022-04-15 | 珠海读书郎软件科技有限公司 | 一种基于页面文本的页码识别方法和计算机设备 |
CN114359533B (zh) * | 2021-11-18 | 2022-11-04 | 珠海读书郎软件科技有限公司 | 一种基于页面文本的页码识别方法和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532964A (zh) | 页码识别方法及装置、阅读机器人、计算机可读存储介质 | |
CN106815192B (zh) | 模型训练方法及装置和语句情感识别方法及装置 | |
CN109034159A (zh) | 图像信息提取方法和装置 | |
CN108616491B (zh) | 一种恶意用户的识别方法和系统 | |
CN109948542A (zh) | 手势识别方法、装置、电子设备和存储介质 | |
CN109241528A (zh) | 一种量刑结果预测方法、装置、设备及存储介质 | |
CN111008272A (zh) | 基于知识图谱的问答方法、装置、计算机设备及存储介质 | |
US7031520B2 (en) | Method and system for identifying multiple questionnaire pages | |
CN107958230A (zh) | 人脸表情识别方法及装置 | |
TW201546636A (zh) | 註解顯示器輔助裝置及輔助方法 | |
CN111666905B (zh) | 模型训练方法、行人属性识别方法和相关装置 | |
CN111695453A (zh) | 绘本识别方法、装置及机器人 | |
CN107491729A (zh) | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 | |
CN111340020A (zh) | 一种公式识别方法、装置、设备及存储介质 | |
CN100481115C (zh) | 字符检索装置 | |
CN109753517A (zh) | 一种信息查询的方法、装置、计算机存储介质及终端 | |
CN109583389A (zh) | 绘本识别方法及装置 | |
CN110647648B (zh) | 纸质书本的页码识别方法、装置、家教机及存储介质 | |
CN109637529A (zh) | 基于语音的功能定位方法、装置、计算机设备及存储介质 | |
JP6541226B2 (ja) | 情報端末装置及びプログラム | |
CN111309926B (zh) | 一种实体链接方法、装置及电子设备 | |
Liu et al. | Circuit sketch recognition | |
JP2006260311A (ja) | マッチング方法およびマッチング装置ならびにプログラム | |
CN111027533B (zh) | 一种点读坐标的变换方法、系统、终端设备及存储介质 | |
CN113688263B (zh) | 用于搜索图像的方法、计算设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |
|
RJ01 | Rejection of invention patent application after publication |