CN112989073A - 一种课本扫读及查询匹配的方法 - Google Patents

一种课本扫读及查询匹配的方法 Download PDF

Info

Publication number
CN112989073A
CN112989073A CN202110264610.2A CN202110264610A CN112989073A CN 112989073 A CN112989073 A CN 112989073A CN 202110264610 A CN202110264610 A CN 202110264610A CN 112989073 A CN112989073 A CN 112989073A
Authority
CN
China
Prior art keywords
text
content
target
scanning
text content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110264610.2A
Other languages
English (en)
Inventor
叶发明
李书兵
谢重任
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Readboy Education Technology Co Ltd
Original Assignee
Readboy Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Readboy Education Technology Co Ltd filed Critical Readboy Education Technology Co Ltd
Priority to CN202110264610.2A priority Critical patent/CN112989073A/zh
Publication of CN112989073A publication Critical patent/CN112989073A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/062Combinations of audio and printed presentations, e.g. magnetically striped cards, talking books, magnetic tapes with printed texts thereon
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种课本扫读及查询匹配的方法,先选定目标课本,然后利用扫描笔扫描待读区域内容的图像,扫描笔通过OCR识别后得到识别文本后和目标课本的全文内容进行查询匹配,获得相似度最大的文本内容作为目标内容并播放其音频。本发明方法可以对任意课本进行扫读,适用范围广,而且只要选定目标课本后,就可以在课本任意地方进行扫读,不需要再格外设置页码等参数。本发明方法大大提高了用户使用的便捷性。

Description

一种课本扫读及查询匹配的方法
技术领域
本发明涉及辅助教学技术领域,具体涉及一种课本扫读及查询匹配的方法。
背景技术
传统的纸质课本阅读比较舒适,使用也比较方便,但内容不够丰富,孩子兴趣不大。为使孩子阅读过程中能和课本有更多的交互,目前在市面上让文字课本进行任意发声的产品主要有点读笔和点读机,能够极大地丰富课本交互,激发孩子的学习兴趣,是比较广泛使用的一种教育电子产品。
点读笔一般做法是通过扫描特制课本上的内容识别码进行相应信息的查询进行发音。这就局限于只能在特制的课本才能使用,而多数的教科书是不具备这种条件的。而且,由于没有统一规范,普遍来说这种内容识别码的识别方式也不同,所以只能课本和点读笔配套使用,更加缩减了点读笔使用场景。例如,CN210573935U公开了一种含扫码识别器的云端音视频播放系统,能够通过扫描课本上的扫描码定位到相应的音频位置,但是其能够扫读的只有印有对应扫描码的特定书籍,使用受限。
点读机是一种把课本放在点读机上,通过配套的笔在书本上进行点击,根据按压产生的坐标进行查询发声。点读机一般体积比较大,不易携带。而且操作也比较麻烦,需要精确的选择到相应课本的相应页码,并且需要平稳的放好书本才能进行识别发声,这无疑给用户操作带来了较多的麻烦。
发明内容
针对现有技术的不足,本发明旨在提供一种课本扫读及查询匹配的方法。
为了实现上述目的,本发明采用如下技术方案:
一种课本扫读及查询匹配的方法,具体过程如下:
S1、在扫描笔内预存一个或多个课本的全文文本内容;
S2、用户从预存的课本中选定目标课本,利用扫描笔扫描得到待读区域内容的图像,扫描笔对图像进行OCR文字识别处理后获得识别文本,并对识别文本进行预处理;
S3、将经过预处理的识别文本和目标课本的全文文本内容进行查询匹配,获得相似度大于或等于预设阈值的预选文本内容集合,如果预选文本内容集合不为空,跳转至步骤S4;
S4、从预选文本内容集合中选定相似度最大的文本内容为目标内容,扫描笔播放目标内容音频,供用户跟读。
进一步地,步骤S2中,对识别文本进行预处理的过程包括文字清洗,仅保留中文、英文和数字。
更进一步地,步骤S2中,用户选择目标课本后,扫描笔记录该目标课本的全文文本内容为全文内容集合,并对全文内容集合进行预处理,所述预处理包括文字清洗,仅保留中文、英文和数字;步骤S3中将经过预处理的识别文本和经过预处理的全文内容集合进行查询匹配。
进一步地,步骤S4中,如果预选文本内容集合中相似度最大的文本内容的文本内容不唯一,按照在课本中出现的位置,选取最先出现的相似度最大的文本内容作为目标内容。
进一步地,步骤S3中,如果预选文本内容集合为空,通过扫描笔的显示屏向用户发出提示。
进一步地,上述方法还包括有步骤S5:
使用扫描笔再次扫描时,首先判断本次扫描距离上一次扫描的时长是否小于或等于设定的时长,如果不是,返回步骤S2;如果是,将本次的识别文本进行预处理后与上一次扫描的预选文本内容集合进行查询匹配,获得新的相似度大于或等于预设阈值的预选文本内容集合,并在新的预选文本内容集合中选定相似度最大的文本内容作为目标内容,然后播放目标内容音频,供用户跟读。
更进一步地,在步骤S5中,如果新的预选文本内容集合为空,则返回至步骤S3。
更进一步地,步骤S5中,如果新的预选文本内容集合中相似度最大的文本内容不唯一,按照在课本出现的位置先判断所有相似度最大的文本内容在上一次扫描的目标内容的前面还是后面;如果有位于上一次扫描的目标内容后面的相似度最大的文本内容,则选择在上一次扫描的目标内容后面最先出现的相似度最大的文本内容作为本次扫描的目标内容,否则选择出现在上一次扫描的目标内容前面并距离其最近的相似度最大的文本内容作为本次扫描的目标内容。
本发明的有益效果在于:本发明方法可以对任意课本进行扫读,适用范围广,而且只要选定目标课本后,就可以在课本任意地方进行扫读,不需要再格外设置页码等参数。本发明方法大大提高了用户使用的便捷性。
具体实施方式
以下将对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种课本扫读及查询匹配的方法,具体过程如下:
S1、在扫描笔内预存一个或多个课本的全文文本内容;
S2、用户从预存的课本中选定目标课本,利用扫描笔扫描得到待读区域内容的图像,扫描笔对图像进行OCR文字识别处理后获得识别文本,并对识别文本进行预处理;
S3、将经过预处理的识别文本和目标课本的全文文本内容进行查询匹配,获得相似度大于或等于预设阈值的预选文本内容集合,如果预选文本内容集合不为空,跳转至步骤S4;
S4、从预选文本内容集合中选定相似度最大的文本内容为目标内容,扫描笔播放目标内容音频,供用户跟读。
需要说明的是,扫描笔能够将用户连续扫描获得的帧图像,使用帧拼接技术把图像拼成一条完整的扫描图,通过OCR文字识别处理识别出扫描图区域内的文字信息,获得识别文本。
进一步地,步骤S2中,对识别文本进行预处理的过程包括文字清洗,仅保留中文、英文和数字。
需要说明的是,本实施例的方法采用的是全书查询匹配的方法,待用户选择了目标课本后,不需要再进一步选择页码,而是可以对课本任意扫读,不受书页的限制,用户只需专注于扫描,极大地简化了用户操作。
进一步地,本实施例中,步骤S2中,用户选择目标课本后,扫描笔记录该目标课本的全文文本内容为全文内容集合,并对全文内容集合进行预处理,所述预处理包括文字清洗,仅保留中文、英文和数字;步骤S3中将经过预处理的识别文本和经过预处理的全文内容集合进行查询匹配。
进一步地,在本实施例中,步骤S4中,如果预选文本内容集合中相似度最大的文本内容的文本内容不唯一,按照在课本中出现的位置,选取最先出现的相似度最大的文本内容作为目标内容。
进一步地,本实施例中,步骤S3中,如果预选文本内容集合为空,通过扫描笔的显示屏向用户发出提示。
需要说明的是,上述方法还包括有步骤S5:
使用扫描笔再次扫描时,首先判断本次扫描距离上一次扫描的时长是否小于或等于设定的时长,如果不是,返回步骤S2;如果是,将本次的识别文本进行预处理后与上一次扫描的预选文本内容集合进行查询匹配,获得新的相似度大于或等于预设阈值的预选文本内容集合,并在新的预选文本内容集合中选定相似度最大的文本内容作为目标内容,然后播放目标内容音频,供用户跟读。
更进一步地,在步骤S5中,如果新的预选文本内容集合为空,则返回至步骤S3。
更进一步地,步骤S5中,如果新的预选文本内容集合中相似度最大的文本内容不唯一,按照在课本出现的位置先判断所有相似度最大的文本内容在上一次扫描的目标内容的前面还是后面;如果有位于上一次扫描的目标内容后面的相似度最大的文本内容,则选择在上一次扫描的目标内容后面最先出现的相似度最大的文本内容作为本次扫描的目标内容,否则选择出现在上一次扫描的目标内容前面并距离其最近的相似度最大的文本内容作为本次扫描的目标内容。
需要说明的是,本实施例中,相似度具体为识别文本和待匹配内容(全文内容集合或上一次扫描的预选文本内容集合)的最长公共子序列串的长度占识别文本长度的百分比。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (8)

1.一种课本扫读及查询匹配的方法,其特征在于,具体过程如下:
S1、在扫描笔内预存一个或多个课本的全文文本内容;
S2、用户从预存的课本中选定目标课本,利用扫描笔扫描得到待读区域内容的图像,扫描笔对图像进行OCR文字识别处理后获得识别文本,并对识别文本进行预处理;
S3、将经过预处理的识别文本和目标课本的全文文本内容进行查询匹配,获得相似度大于或等于预设阈值的预选文本内容集合,如果预选文本内容集合不为空,跳转至步骤S4;
S4、从预选文本内容集合中选定相似度最大的文本内容为目标内容,扫描笔播放目标内容音频,供用户跟读。
2.根据权利要求1所述的方法,其特征在于,步骤S2中,对识别文本进行预处理的过程包括文字清洗,仅保留中文、英文和数字。
3.根据权利要求1或2所述的方法,其特征在于,步骤S2中,用户选择目标课本后,扫描笔记录该目标课本的全文文本内容为全文内容集合,并对全文内容集合进行预处理,所述预处理包括文字清洗,仅保留中文、英文和数字;步骤S3中将经过预处理的识别文本和经过预处理的全文内容集合进行查询匹配。
4.根据权利要求1所述的方法,其特征在于,步骤S4中,如果预选文本内容集合中相似度最大的文本内容的文本内容不唯一,按照在课本中出现的位置,选取最先出现的相似度最大的文本内容作为目标内容。
5.根据权利要求1所述的方法,其特征在于,步骤S3中,如果预选文本内容集合为空,通过扫描笔的显示屏向用户发出提示。
6.根据权利要求1所述的方法,其特征在于,还包括有步骤S5:
使用扫描笔再次扫描时,首先判断本次扫描距离上一次扫描的时长是否小于或等于设定的时长,如果不是,返回步骤S2;如果是,将本次的识别文本进行预处理后与上一次扫描的预选文本内容集合进行查询匹配,获得新的相似度大于或等于预设阈值的预选文本内容集合,并在新的预选文本内容集合中选定相似度最大的文本内容作为目标内容,然后播放目标内容音频,供用户跟读。
7.根据权利要求6所述的方法,其特征在于,在步骤S5中,如果新的预选文本内容集合为空,则返回至步骤S3。
8.根据权利要求6所述的方法,其特征在于,步骤S5中,如果新的预选文本内容集合中相似度最大的文本内容不唯一,按照在课本出现的位置先判断所有相似度最大的文本内容在上一次扫描的目标内容的前面还是后面;如果有位于上一次扫描的目标内容后面的相似度最大的文本内容,则选择在上一次扫描的目标内容后面最先出现的相似度最大的文本内容作为本次扫描的目标内容,否则选择出现在上一次扫描的目标内容前面并距离其最近的相似度最大的文本内容作为本次扫描的目标内容。
CN202110264610.2A 2021-03-11 2021-03-11 一种课本扫读及查询匹配的方法 Pending CN112989073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110264610.2A CN112989073A (zh) 2021-03-11 2021-03-11 一种课本扫读及查询匹配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110264610.2A CN112989073A (zh) 2021-03-11 2021-03-11 一种课本扫读及查询匹配的方法

Publications (1)

Publication Number Publication Date
CN112989073A true CN112989073A (zh) 2021-06-18

Family

ID=76335011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110264610.2A Pending CN112989073A (zh) 2021-03-11 2021-03-11 一种课本扫读及查询匹配的方法

Country Status (1)

Country Link
CN (1) CN112989073A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449720A (zh) * 2021-06-30 2021-09-28 东莞市小精灵教育软件有限公司 一种准确定位课本页码的方法
CN114220305A (zh) * 2021-12-08 2022-03-22 安徽新华传媒股份有限公司 一种基于人工智能图像识别技术的教学系统
CN116580402A (zh) * 2023-05-26 2023-08-11 读书郎教育科技有限公司 一种词典笔的文本识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937467A (zh) * 2010-09-17 2011-01-05 北京开心人信息技术有限公司 一种服务器的高效缓存方法与系统
JP2012128188A (ja) * 2010-12-15 2012-07-05 Nippon Hoso Kyokai <Nhk> テキスト修正装置およびプログラム
CN105956111A (zh) * 2016-05-03 2016-09-21 中山市奥创通风设备有限公司 空气净化器的云服务智能控制系统
CN110489447A (zh) * 2019-07-16 2019-11-22 招联消费金融有限公司 数据查询方法、装置、计算机设备和存储介质
CN111613244A (zh) * 2020-05-20 2020-09-01 北京搜狗科技发展有限公司 一种扫描跟读处理的方法及相关装置
CN111950542A (zh) * 2020-08-17 2020-11-17 湖南纽思曼存储科技有限公司 基于ocr识别算法的学习扫描笔

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937467A (zh) * 2010-09-17 2011-01-05 北京开心人信息技术有限公司 一种服务器的高效缓存方法与系统
JP2012128188A (ja) * 2010-12-15 2012-07-05 Nippon Hoso Kyokai <Nhk> テキスト修正装置およびプログラム
CN105956111A (zh) * 2016-05-03 2016-09-21 中山市奥创通风设备有限公司 空气净化器的云服务智能控制系统
CN110489447A (zh) * 2019-07-16 2019-11-22 招联消费金融有限公司 数据查询方法、装置、计算机设备和存储介质
CN111613244A (zh) * 2020-05-20 2020-09-01 北京搜狗科技发展有限公司 一种扫描跟读处理的方法及相关装置
CN111950542A (zh) * 2020-08-17 2020-11-17 湖南纽思曼存储科技有限公司 基于ocr识别算法的学习扫描笔

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
潘孟春等: "一种便携式扫描学习装置", 《自动化仪表》 *
潘孟春等: "一种便携式扫描学习装置", 《自动化仪表》, vol. 2008, no. 08, 20 August 2008 (2008-08-20), pages 62 - 64 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449720A (zh) * 2021-06-30 2021-09-28 东莞市小精灵教育软件有限公司 一种准确定位课本页码的方法
CN114220305A (zh) * 2021-12-08 2022-03-22 安徽新华传媒股份有限公司 一种基于人工智能图像识别技术的教学系统
CN114220305B (zh) * 2021-12-08 2024-04-02 安徽新华传媒股份有限公司 一种基于人工智能图像识别技术的教学系统
CN116580402A (zh) * 2023-05-26 2023-08-11 读书郎教育科技有限公司 一种词典笔的文本识别方法及装置

Similar Documents

Publication Publication Date Title
CN112989073A (zh) 一种课本扫读及查询匹配的方法
US10741167B2 (en) Document mode processing for portable reading machine enabling document navigation
US9626000B2 (en) Image resizing for optical character recognition in portable reading machine
US20160344860A1 (en) Document and image processing
US5350303A (en) Method for accessing information in a computer
US8150107B2 (en) Gesture processing with low resolution images with high resolution processing for optical character recognition for a reading machine
US7505056B2 (en) Mode processing in portable reading machine
US8284999B2 (en) Text stitching from multiple images
US8626512B2 (en) Cooperative processing for portable reading machine
US7641108B2 (en) Device and method to assist user in conducting a transaction with a machine
US8249309B2 (en) Image evaluation for reading mode in a reading machine
CN111753767A (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
US20060071950A1 (en) Tilt adjustment for optical character recognition in portable reading machine
US20150043822A1 (en) Machine And Method To Assist User In Selecting Clothing
US20020156866A1 (en) Method, product, and apparatus for requesting a resource from an identifier having a character image
US20050288932A1 (en) Reducing processing latency in optical character recognition for portable reading machine
US20060006235A1 (en) Directed reading mode for portable reading machine
CN101044494A (zh) 用于可视文本解释的电子装置和方法
JPH03161891A (ja) 表形式文書読取装置
CN103607524A (zh) 一种条烟32位码图像采集处理装置及条烟32位码识别方法
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
CN110705521A (zh) 一种查字及笔顺教学方法及教学互动终端
CN111552830A (zh) 一种用户自选乐谱练习方法和系统
CN111078982A (zh) 一种电子页面的检索方法、电子设备及存储介质
CN113936186A (zh) 一种内容识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210618