CN111353501A - 一种基于深度学习的书本点读方法及系统 - Google Patents
一种基于深度学习的书本点读方法及系统 Download PDFInfo
- Publication number
- CN111353501A CN111353501A CN202010116650.8A CN202010116650A CN111353501A CN 111353501 A CN111353501 A CN 111353501A CN 202010116650 A CN202010116650 A CN 202010116650A CN 111353501 A CN111353501 A CN 111353501A
- Authority
- CN
- China
- Prior art keywords
- character
- reading
- point
- finger
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013135 deep learning Methods 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 96
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 11
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 7
- 230000009466 transformation Effects 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000013016 learning Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000031836 visual learning Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/062—Combinations of audio and printed presentations, e.g. magnetically striped cards, talking books, magnetic tapes with printed texts thereon
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种基于深度学习的书本点读方法及系统,方法包括:将获取的图像采集装置拍摄的手指点读图像同时输入手指检测模型及文字检测模型,分别检测指尖位置及图像中所有的文字区域;结合检测的指尖位置和文字区域,对文字区域进行仿射变换及切割;将切割后的文字区域输入文字识别模型识别文字信息;利用标点或分段符信息对文字信息进行断句或分段处理;根据预设点读需求语音输出单字、单词、句子或文本段。本发明通过图像采集装置拍摄手指点读图像,提高了点读内容的扩展性;训练手指检测模型、文本检测模型及文本识别模型,实现了针对于单个汉字、单词、句子及文本段的点读,简化了传统点读检测与识别方法,提高了文字检测与识别的精准度。
Description
技术领域
本发明涉及书本点读技术领域,具体涉及一种基于深度学习的书本点读方法及系统。
背景技术
近年来,随着计算机视觉和深度学习的迅速发展,拍照识字、拍照搜题、点读辅学等技术广泛应用在了智能教育当中。其中,点读机是一种流行的助学工具,其利用手指检测功能及文字检测功能,感知使用者手指所指向内容所在的位置,便可根据该位置识别出位置所在区域的文字信息内容,从而完成人机交互的过程。而现有技术中的点读机具有以下缺点:第一,需要用手势对文字区域划矩形确定点读区域,操作繁琐;第二,对于手势划出来的矩形区域的识别是基于肤色分割算法等传统的图像处理算法来做的,易受环境干扰,且在具有相对复杂内容场景下的图像识别局限性太大;第三,对于基于点读笔结合电子设备来进行点读的方法,该类方法必须要将先点读的书本录入进电子设备,且其通过颜色空间的变化,二值化、边缘检测、角点检测等算法,确定点读笔和书本边缘的位置,再匹配录入好的书本内容进行点读,从而导致学习内容固定,扩展性小,图像文字识别准确性差。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的操作繁琐、图像文字识别固定及准确性差的缺陷,从而提供一种基于深度学习的书本点读方法及系统。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种基于深度学习的书本点读方法,包括:获取图像采集装置拍摄的手指点读图像;将手指点读图像同时输入手指检测模型及文字检测模型,分别检测指尖位置及图像中所有的文字区域;结合检测的指尖位置和文字区域,对文字区域进行仿射变换,将文字区域进行切割;将切割后的文字区域输入文字识别模型,识别出文字信息;利用标点或分段符信息对文字信息进行断句或分段处理;根据用户预设的点读需求,语音输出单个汉字、单词、句子或文本段。
在一实施例中,获取图像采集装置拍摄的手指点读图像的步骤之前,还包括:预先获取图像采集装置拍摄的需要识别的书本图像;将拍摄的手指点读图像与预先获取的需要识别的书本图像进行比对,获取手部遮盖的书本图像的内容。
在一实施例中,将手指点读图像输入手指检测模型进行检测指尖位置的步骤,包括:采集手指在书本上点读的图像数据,对指尖区域进行标注,用标注后的数据集训练手指检测模型;将手指点读图像输入训练好的手指检测模型,输出置信度最高的预测框,根据该预测框四个点的坐标,计算出手指指向的位置坐标。
在一实施例中,将手指点读图像输入文字检测模型进行检测文字区域的步骤,包括:采集书本的图像数据,对图像中文字区域的位置和内容进行标注,将标注后的数据集训练文字检测模型;将手指点读图像输入训练好的文字检测模型,输出多个倾斜框和对应的置信度,每一个倾斜框代表一个文字区域。
在一实施例中,当用户的点读需求为读字时,将距离手指指向坐标点最近的字或单词,确认为目标点读的内容。
在一实施例中,当用户的点读需求为读句时,从上到下组合多个文字框的文字内容,根据标点符号确定句子的开始和结束位置,确定读句的点读内容。
在一实施例中,当用户的点读需求为读段时,从上到下组合多个文字框的文字内容,根据分段符号确定句子的开始和结束位置,确定文本段的点读内容。
第二方面,本发明实施例提供一种基于深度学习的书本点读系统,包括:图像获取模块,获取图像采集装置拍摄的手指点读图像;指尖位置及文字检测模块,将手指点读图像同时输入手指检测模型及文字检测模型,分别检测指尖位置及图像中所有的文字区域;文字区域切割模块,结合检测的指尖位置和文字区域,对文字区域进行仿射变换,将文字区域进行切割;文字识别模块,切割后的文字区域输入文字识别模型,识别出文字信息;文字信息处理模块,利用标点或分段符信息对文字信息进行断句或分段处理;语音输出模块,根据用户预设的点读需求,语音输出单个汉字、单词、句子或文本段。
第三方面,本发明实施例提供一种计算机设备,包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行本发明实施例第一方面的基于深度学习的书本点读方法。
第四方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行本发明实施例第一方面的基于深度学习的书本点读方法。
本发明技术方案,具有如下优点:
本发明实施例提供的基于深度学习的书本点读方法及系统,通过图像采集装置拍摄的手指点读图像,无需预先录入点读文本,提高了点读内容的扩展性;训练手指点读图像的手指检测模型、文本检测模型及文本识别模型,实现了针对于单个汉字、单词、句子及文本段的点读,简化了传统点读检测与识别方法,提高了文字检测与识别的精准度;获取预先手指点读图像,避免由于手部遮盖造成的点读错误。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于深度学习的书本点读方法的一个具体示例的流程图;
图2为本发明实施例提供的基于深度学习的书本点读方法的另一个具体示例的流程图;
图3为本发明实施例提供的点读手部遮盖处的文字内容的一个具体示例的流程图;
图4为本发明实施例提供的手指指向检测的一个具体示例的流程图;
图5为本发明实施例提供的文字检测的一个具体示例的流程图;
图6为本发明实施例提供的基于深度学习的书本点读系统的一个具体示例的示意图;
图7为本发明实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供的基于深度学习的书本点读方法,可应用于文字检测与识别领域,如图1所示,包括如下步骤:
步骤S11:获取图像采集装置拍摄的手指点读图像。
手指点读识别分为手指检测及文字检测,传统手指检测需要用手势对文字区域划矩形确定点读区域,并基于肤色分割等算法识别矩形区域,最后对矩形区域中的文字进行检测。而本发明实施例对需要点读的文本应用图像采集装置拍摄,无需借助点读笔,只需要用手指指向需要点读的区域即可,并且相对于传统的手指划区域检测更加简单。
步骤S12:将手指点读图像同时输入手指检测模型及文字检测模型,分别检测指尖位置及图像中所有的文字区域。
如图2所示,在获取手指点读图像之后,本发明实施例利用深度视觉训练好的手指检测模型定位出手指指尖位置,同时利用训练好的文字检测模型对手指指向区域的文字区域定位,以便对文字进行字、句、段的识别。训练好的手指检测模型及文字检测模型并行实现其对应的识别功能,提高提别效率。
步骤S13:结合检测的指尖位置和文字区域,对文字区域进行仿射变换,将文字区域进行切割。
在手机、数码相机等图像采集装置拍取的图像,易受到拍摄角度的影响,存在透视扭曲,导致文字图片产生形变,如果采用传统的文本印刷体识别工具对这些图像进行文字识别会降低识别效率,无法正确切割出图像中单个字符,从而导致单个字符产生形变,因此本发明实施例在对文字区域进行切割前,需要先对文字区域进行仿射变换,校正文字出现形变的文字,然后将校正后的文字区域切割成单个字符。
步骤S14:将切割后的文字区域输入文字识别模型,识别出文字信息。
本发明实施例对图像中文字区域的位置和内容进行标注,并利用标注后的文字区域中的文字数据训练文字识别模型,将切割后的文字区域输入文字识别模型,识别出文字信息。具体识别方法为首先根据预设文字识别数据集训练文字识别模块,将卷积循环神经网络算法作为文字识别的算法,其中,采用ResNet50的残差模块来作为提取特征的基础网络,将双向长短时期记忆网络,输出端采用CTC loss作为文字分类的损失函数,从而训练文字识别模型,结合检测的文字区域和指甲位置,将切割后的文字区域输入文字识别模型,识别出文字信息。
步骤S15:利用标点或分段符信息对文字信息进行断句或分段处理。
步骤S16:根据用户预设的点读需求,语音输出单个汉字、单词、句子或文本段。
为了满足用户对于文字识别的多种需要,本发明实施例利用标点或分段符信息对文字信息进行断句或分段处理,将切割成单个字符的文字处理成单词、桔子及文本段模式,并根据用户预设的点读需求,将相应的识别出的文字进行语音合成并播出,从而实现人机互动模式。例如:当本发明实施例提出的基于深度学习的书本点读方法应用于辅助教育机器人中时,机器人保持开机运行的状态,辅学教育机器人配备高清摄像头,摄像头对准学生正在学习使用的书本,当学生需要点读文字时,选择读字或者读句模式,此时机器人每隔几秒会拍照一次。若学生用手指指向书本中的文本内容,机器人拍下学生点读时候的照片,会执行一次手指指尖检测、文字检测、文字识别及语音合成,完成点读任务。
需要说明的是,文字检测和文字识别这两个阶段现在是分别基于自然场景文本检测和CRNN两个算法进行改进的,可以用其他的文字检测算法替换自然场景文本检测,或者用其他的文字识别算法替换CRNN;也可以将这两阶段替换为一个阶段,用一个端到端的文字识别算法(比如文字检测和识别算法FOTS)直接完成检测与识别。
本发明实施例提供的基于深度学习的书本点读方法,通过图像采集装置拍摄的手指点读图像,无需预先录入点读文本,提高了点读内容的扩展性;训练手指点读图像的手指检测模型、文本检测模型及文本识别模型,实现了针对于单个汉字、单词、句子及文本段的点读,简化了传统点读检测与识别方法,提高了文字检测与识别的精准度;获取预先手指点读图像,避免由于手部遮盖造成的点读错误。
在一具体实施例中,如图3所示,获取图像采集装置拍摄的手指点读图像的步骤之前,还包括:
步骤S21:预先获取图像采集装置拍摄的需要识别的书本图像。
当用户需要进行文本段点读,且用户的手指遮挡住需要被点读的文本段时,如果仅仅获取手指指向文本的书本图像,则该文本段中的文字确实,以造成文本段点读不准确现象,因此本发明实施例在获取手指点读图像的步骤之前,预先获取需要识别的书本图像,即无任何遮挡的书本图像。
步骤S22:将拍摄的手指点读图像与预先获取的需要识别的书本图像进行比对,获取手部遮盖的书本图像的内容。
当手部遮盖住书本图像时,本发明实施例利用无任何遮挡的书本图像与手指点读图像进行比对,获取被遮盖住的文本信息,从而提高点读准确性。
在一具体实施例中,如图4所示,将手指点读图像输入手指检测模型进行检测指尖位置的步骤,包括:
步骤S31:采集手指在书本上点读的图像数据,对指尖区域进行标注,用标注后的数据集训练手指检测模型。
本发明实施例利用深度视觉学习方法根据采集手指在书本上点读的图像数据,对指尖区域进行标注,并利用标注后的数据集训练手指检测模型,生成指尖区域对应的手指检测模型,以便检测出用户手指指尖指向区域。
步骤S32:将手指点读图像输入训练好的手指检测模型,输出置信度最高的预测框,根据该预测框四个点的坐标,计算出手指指向的位置坐标。
本发明实施例中将物体检测算法作为手指检测模型的预设手指校测算法,将MobileNet v2作为物体检测提取特征的基础网络,将手指点读图像输入训练好的手指检测模型,在手指指向区域设置不同的预测框,将全部预测框的置信度相比较,获取置信度最高的预测框的四个点的坐标,从而计算出手指指向的位置坐标p,手指指向的位置坐标P通过式(1)计算得到,式中D1为手指检测模型函数,i为手指点读图像。
p=D1(i) (1)
在一具体实施例中,如图5所示,将手指点读图像输入文字检测模型进行检测文字区域的步骤,包括:
步骤S41:采集书本的图像数据,对图像中文字区域的位置和内容进行标注,将标注后的数据集训练文字检测模型。
本发明实施例利用深度视觉学习方法对采集的图像中文字区域的位置和内容进行标注,将标注后的数据集训练文字检测模型。采用场景文本检测算法作为文字检测模型的预设文字检测算法,将ResNet50作为文字特征提取的基础网络,利用双向门控循环单元获取文字上下文关系,将Focal loss函数作为文字分类的损失函数,将Smooth L1 loss作为文字位置回归的损失函数,需要说明的是,上述文字检测模型仅作为一具体实施的进行举例,不以此为限,也可以利用其他检查算法或函数作为文字检测模型。
步骤S42:将手指点读图像输入训练好的文字检测模型,输出多个倾斜框和对应的置信度,每一个倾斜框代表一个文字区域。
本发明实施例将采集的手指点读图像输入到训练好的文字检测模型中,为了实现单个文字、单词、句子及文本段的点读功能,得到多个倾斜框和对应的置信度,每一个倾斜框代表一个文字区域。倾斜框和对应的置信度由式(2)得到,R代表ResNet50,G代表双向双向门控循环单元,D2代表文字检测模型函数,b和c分别代表预测的倾斜框和置信度。
b,c=D2(G(R(i))) (2)
在一具体实施例中,当用户的点读需求为读字时,将距离手指指向坐标点最近的字或单词,确认为目标点读的内容;当用户的点读需求为读句时,从上到下组合多个文字框的文字内容,根据标点符号确定句子的开始和结束位置,确定读句的点读内容;当用户的点读需求为读段时,从上到下组合多个文字框的文字内容,根据分段符号确定句子的开始和结束位置,确定文本段的点读内容。
当用户的点读需求为读字时,将文字检测模型获取的距离手指指向坐标点最近的预测框中的字或单词,确认为目标点读的内容;当用户的点读需求为读句时,将文字检测模型获取的多个预测框(即文字框)中的内容,根据标点符号确定句子的开始和结束位置,确定读句的点读内容;当用户的点读需求为读段时,从上到下组合文字检测模型获取的多个预测框中的内容,根据分段符号确定句子的开始和结束位置,确定文本段的点读内容。
为了验证基于深度学习的书本点读方法的准确性,本发明实施例对中小学生的练习册和绘本上进行了实际的点读实验,手指检测部分实验结果如表1所示,文字检测部分的实验结果如表2所示,文字识别部分的实验结果如表3所示,其中表1-表2中交并比(Intersection Over Union,IOU)阈值设为0.5。
表1
精确率 | 0.87 |
耗时 | 60-100毫秒/一张图 |
表2
精确率 | 0.72 |
召回率 | 0.54 |
调和平均 | 0.62 |
耗时 | 300-500毫秒/一张图 |
表3
字符准确率 | 0.92 |
文本行准确率 | 0.99 |
推理耗时 | 50-80毫秒/一个文本框 |
由表1-表3可知,相比较与传统图像算法的点读方法,基于深度学习的检测和识别效果比较好,且三个模型的耗时均在0.5s之内,可以保证比较快的执行点读功能。
本发明实施例提供的基于深度学习的书本点读方法,通过图像采集装置拍摄的手指点读图像,无需预先录入点读文本,提高了点读内容的扩展性;训练手指点读图像的手指检测模型、文本检测模型及文本识别模型,实现了针对于单个汉字、单词、句子及文本段的点读,简化了传统点读检测与识别方法,提高了文字检测与识别的精准度;获取预先手指点读图像,避免由于手部遮盖造成的点读错误。
实施例2
本发明实施例提供一种基于深度学习的书本点读系统,如图6所示,包括:
图像获取模块1,获取图像采集装置拍摄的手指点读图像;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
指尖位置及文字检测模块2,将手指点读图像同时输入手指检测模型及文字检测模型,分别检测指尖位置及图像中所有的文字区域;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
文字区域切割模块3,结合检测的指尖位置和文字区域,对文字区域进行仿射变换,将文字区域进行切割;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
文字识别模块4,切割后的文字区域输入文字识别模型,识别出文字信息;此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
文字信息处理模块5,利用标点或分段符信息对文字信息进行断句或分段处理;此模块执行实施例1中的步骤S5所描述的方法,在此不再赘述。
语音输出模块6,根据用户预设的点读需求,语音输出单个汉字、单词、句子或文本段;此模块执行实施例1中的步骤S6所描述的方法,在此不再赘述。
本发明实施例提供的基于深度学习的书本点读系统,通过图像采集装置拍摄的手指点读图像,无需预先录入点读文本,提高了点读内容的扩展性;训练手指点读图像的手指检测模型、文本检测模型及文本识别模型,实现了针对于单个汉字、单词、句子及文本段的点读,简化了传统点读检测与识别方法,提高了文字检测与识别的精准度;获取预先手指点读图像,避免由于手部遮盖造成的点读错误。
实施例3
本发明实施例提供一种计算机设备,如图7所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1的基于深度学习的书本点读方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1的基于深度学习的书本点读方法。
其中,通信总线402可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmablegate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的基于深度学习的书本点读方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1的基于深度学习的书本点读方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固降硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种基于深度学习的书本点读方法,其特征在于,包括:
获取图像采集装置拍摄的手指点读图像;
将所述手指点读图像同时输入手指检测模型及文字检测模型,分别检测指尖位置及图像中所有的文字区域;
结合检测的指尖位置和文字区域,对文字区域进行仿射变换,将文字区域进行切割;
将切割后的文字区域输入文字识别模型,识别出文字信息;
利用标点或分段符信息对所述文字信息进行断句或分段处理;
根据用户预设的点读需求,语音输出单个汉字、单词、句子或文本段。
2.根据权利要求1所述的基于深度学习的书本点读方法,其特征在于,所述获取图像采集装置拍摄的手指点读图像的步骤之前,还包括:
预先获取图像采集装置拍摄的需要识别的书本图像;
将拍摄的手指点读图像与预先获取的需要识别的书本图像进行比对,获取手部遮盖的书本图像的内容。
3.根据权利要求1或2所述的基于深度学习的书本点读方法,其特征在于,将所述手指点读图像输入手指检测模型进行检测指尖位置的步骤,包括:
采集手指在书本上点读的图像数据,对指尖区域进行标注,用标注后的数据集训练手指检测模型;
将手指点读图像输入训练好的手指检测模型,输出置信度最高的预测框,根据该预测框四个点的坐标,计算出手指指向的位置坐标。
4.根据权利要求1或2所述的基于深度学习的书本点读方法,其特征在于,将所述手指点读图像输入文字检测模型进行检测文字区域的步骤,包括:
采集书本的图像数据,对图像中文字区域的位置和内容进行标注,将标注后的数据集训练文字检测模型;
将手指点读图像输入训练好的文字检测模型,输出多个倾斜框和对应的置信度,每一个倾斜框代表一个文字区域。
5.根据权利要求1或2所述的基于深度学习的书本点读方法,其特征在于,当用户的点读需求为读字时,将距离手指指向坐标点最近的字或单词,确认为目标点读的内容。
6.根据权利要求1或2所述的基于深度学习的书本点读方法,其特征在于,当用户的点读需求为读句时,从上到下组合多个文字框的文字内容,根据标点符号确定句子的开始和结束位置,确定读句的点读内容。
7.根据权利要求1或2所述的基于深度学习的书本点读方法,其特征在于,当用户的点读需求为读段时,从上到下组合多个文字框的文字内容,根据分段符号确定句子的开始和结束位置,确定文本段的点读内容。
8.一种基于深度学习的书本点读系统,其特征在于,包括:
图像获取模块,获取图像采集装置拍摄的手指点读图像;
指尖位置及文字检测模块,将所述手指点读图像同时输入手指检测模型及文字检测模型,分别检测指尖位置及图像中所有的文字区域;
文字区域切割模块,结合检测的指尖位置和文字区域,对文字区域进行仿射变换,将文字区域进行切割;
文字识别模块,切割后的文字区域输入文字识别模型,识别出文字信息;
文字信息处理模块,利用标点或分段符信息对所述文字信息进行断句或分段处理;
语音输出模块,根据用户预设的点读需求,语音输出单个汉字、单词、句子或文本段。
9.一种计算机设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任一所述的基于深度学习的书本点读方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任一所述的基于深度学习的书本点读方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116650.8A CN111353501A (zh) | 2020-02-25 | 2020-02-25 | 一种基于深度学习的书本点读方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116650.8A CN111353501A (zh) | 2020-02-25 | 2020-02-25 | 一种基于深度学习的书本点读方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111353501A true CN111353501A (zh) | 2020-06-30 |
Family
ID=71197233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010116650.8A Pending CN111353501A (zh) | 2020-02-25 | 2020-02-25 | 一种基于深度学习的书本点读方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353501A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001394A (zh) * | 2020-07-13 | 2020-11-27 | 上海翎腾智能科技有限公司 | 基于ai视觉下的听写交互方法、系统、装置 |
CN112001380A (zh) * | 2020-07-13 | 2020-11-27 | 上海翎腾智能科技有限公司 | 基于人工智能现实场景下的中文意义词组的识别方法和系统 |
CN112230876A (zh) * | 2020-10-13 | 2021-01-15 | 华南师范大学 | 人工智能伴读方法和伴读机器人 |
CN112287930A (zh) * | 2020-11-02 | 2021-01-29 | 深圳市童书王国际文化传媒有限公司 | 一种智能点读文本系统及其使用方法 |
CN112749646A (zh) * | 2020-12-30 | 2021-05-04 | 北京航空航天大学 | 一种基于手势识别的交互式点读系统 |
CN112817445A (zh) * | 2021-01-25 | 2021-05-18 | 暗物智能科技(广州)有限公司 | 一种信息采集方法、装置、电子设备及存储介质 |
CN113486718A (zh) * | 2021-06-08 | 2021-10-08 | 天津大学 | 一种基于深度多任务学习的指尖检测方法 |
CN113642619A (zh) * | 2021-07-29 | 2021-11-12 | 华侨大学 | 文字识别模型的训练方法、装置、设备及可读存储介质 |
CN114429632A (zh) * | 2020-10-15 | 2022-05-03 | 腾讯科技(深圳)有限公司 | 识别点读内容的方法、装置、电子设备及计算机存储介质 |
CN114648756A (zh) * | 2022-05-24 | 2022-06-21 | 之江实验室 | 一种基于指向向量的书本文字识别指读方法和系统 |
CN115131693A (zh) * | 2021-03-29 | 2022-09-30 | 广州视源电子科技股份有限公司 | 文本内容识别方法、装置、计算机设备和存储介质 |
CN115909342A (zh) * | 2023-01-03 | 2023-04-04 | 湖北瑞云智联科技有限公司 | 基于触点运动轨迹的图像标记识别系统及方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157171A (zh) * | 2014-08-13 | 2014-11-19 | 三星电子(中国)研发中心 | 一种点读系统及其方法 |
CN104217197A (zh) * | 2014-08-27 | 2014-12-17 | 华南理工大学 | 一种基于视觉手势的点读方法和装置 |
CN105224073A (zh) * | 2015-08-27 | 2016-01-06 | 华南理工大学 | 一种基于语音控制的点读手表及其点读方法 |
CN105590486A (zh) * | 2014-10-21 | 2016-05-18 | 黄小曼 | 一种基于机器视觉的座台式点读机及相关系统装置与方法 |
CN107393356A (zh) * | 2017-04-07 | 2017-11-24 | 深圳市友悦机器人科技有限公司 | 控制方法、控制装置和早教机 |
CN107835366A (zh) * | 2017-11-07 | 2018-03-23 | 广东欧珀移动通信有限公司 | 多媒体播放方法、装置、存储介质及电子设备 |
CN109240582A (zh) * | 2018-08-30 | 2019-01-18 | 广东小天才科技有限公司 | 一种点读控制方法及智能设备 |
CN109325464A (zh) * | 2018-10-16 | 2019-02-12 | 上海翎腾智能科技有限公司 | 一种基于人工智能的手指点读文字识别方法及翻译方法 |
CN208834516U (zh) * | 2017-11-29 | 2019-05-07 | 刘红 | 一种方便使用的点读系统 |
CN110060524A (zh) * | 2019-04-30 | 2019-07-26 | 广东小天才科技有限公司 | 一种机器人辅助阅读的方法及阅读机器人 |
CN110443231A (zh) * | 2019-09-05 | 2019-11-12 | 湖南神通智能股份有限公司 | 一种基于人工智能的单手手指点读文字识别方法和系统 |
CN110569818A (zh) * | 2019-09-13 | 2019-12-13 | 深圳一块互动网络技术有限公司 | 一种智能阅读学习方法 |
CN110633027A (zh) * | 2019-09-16 | 2019-12-31 | 广东小天才科技有限公司 | 一种点读实现方法、系统、计算机设备和存储介质 |
-
2020
- 2020-02-25 CN CN202010116650.8A patent/CN111353501A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157171A (zh) * | 2014-08-13 | 2014-11-19 | 三星电子(中国)研发中心 | 一种点读系统及其方法 |
CN104217197A (zh) * | 2014-08-27 | 2014-12-17 | 华南理工大学 | 一种基于视觉手势的点读方法和装置 |
CN105590486A (zh) * | 2014-10-21 | 2016-05-18 | 黄小曼 | 一种基于机器视觉的座台式点读机及相关系统装置与方法 |
CN105224073A (zh) * | 2015-08-27 | 2016-01-06 | 华南理工大学 | 一种基于语音控制的点读手表及其点读方法 |
CN107393356A (zh) * | 2017-04-07 | 2017-11-24 | 深圳市友悦机器人科技有限公司 | 控制方法、控制装置和早教机 |
CN107835366A (zh) * | 2017-11-07 | 2018-03-23 | 广东欧珀移动通信有限公司 | 多媒体播放方法、装置、存储介质及电子设备 |
CN208834516U (zh) * | 2017-11-29 | 2019-05-07 | 刘红 | 一种方便使用的点读系统 |
CN109240582A (zh) * | 2018-08-30 | 2019-01-18 | 广东小天才科技有限公司 | 一种点读控制方法及智能设备 |
CN109325464A (zh) * | 2018-10-16 | 2019-02-12 | 上海翎腾智能科技有限公司 | 一种基于人工智能的手指点读文字识别方法及翻译方法 |
CN110060524A (zh) * | 2019-04-30 | 2019-07-26 | 广东小天才科技有限公司 | 一种机器人辅助阅读的方法及阅读机器人 |
CN110443231A (zh) * | 2019-09-05 | 2019-11-12 | 湖南神通智能股份有限公司 | 一种基于人工智能的单手手指点读文字识别方法和系统 |
CN110569818A (zh) * | 2019-09-13 | 2019-12-13 | 深圳一块互动网络技术有限公司 | 一种智能阅读学习方法 |
CN110633027A (zh) * | 2019-09-16 | 2019-12-31 | 广东小天才科技有限公司 | 一种点读实现方法、系统、计算机设备和存储介质 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001380A (zh) * | 2020-07-13 | 2020-11-27 | 上海翎腾智能科技有限公司 | 基于人工智能现实场景下的中文意义词组的识别方法和系统 |
CN112001394A (zh) * | 2020-07-13 | 2020-11-27 | 上海翎腾智能科技有限公司 | 基于ai视觉下的听写交互方法、系统、装置 |
CN112001380B (zh) * | 2020-07-13 | 2024-03-26 | 上海翎腾智能科技有限公司 | 基于人工智能现实场景下的中文意义词组的识别方法和系统 |
CN112230876A (zh) * | 2020-10-13 | 2021-01-15 | 华南师范大学 | 人工智能伴读方法和伴读机器人 |
CN114429632A (zh) * | 2020-10-15 | 2022-05-03 | 腾讯科技(深圳)有限公司 | 识别点读内容的方法、装置、电子设备及计算机存储介质 |
CN114429632B (zh) * | 2020-10-15 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 识别点读内容的方法、装置、电子设备及计算机存储介质 |
CN112287930A (zh) * | 2020-11-02 | 2021-01-29 | 深圳市童书王国际文化传媒有限公司 | 一种智能点读文本系统及其使用方法 |
CN112749646A (zh) * | 2020-12-30 | 2021-05-04 | 北京航空航天大学 | 一种基于手势识别的交互式点读系统 |
CN112817445A (zh) * | 2021-01-25 | 2021-05-18 | 暗物智能科技(广州)有限公司 | 一种信息采集方法、装置、电子设备及存储介质 |
CN115131693A (zh) * | 2021-03-29 | 2022-09-30 | 广州视源电子科技股份有限公司 | 文本内容识别方法、装置、计算机设备和存储介质 |
CN113486718B (zh) * | 2021-06-08 | 2023-04-07 | 天津大学 | 一种基于深度多任务学习的指尖检测方法 |
CN113486718A (zh) * | 2021-06-08 | 2021-10-08 | 天津大学 | 一种基于深度多任务学习的指尖检测方法 |
CN113642619A (zh) * | 2021-07-29 | 2021-11-12 | 华侨大学 | 文字识别模型的训练方法、装置、设备及可读存储介质 |
CN113642619B (zh) * | 2021-07-29 | 2023-12-26 | 华侨大学 | 文字识别模型的训练方法、装置、设备及可读存储介质 |
CN114648756A (zh) * | 2022-05-24 | 2022-06-21 | 之江实验室 | 一种基于指向向量的书本文字识别指读方法和系统 |
CN115909342A (zh) * | 2023-01-03 | 2023-04-04 | 湖北瑞云智联科技有限公司 | 基于触点运动轨迹的图像标记识别系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353501A (zh) | 一种基于深度学习的书本点读方法及系统 | |
CN107656922B (zh) | 一种翻译方法、装置、终端及存储介质 | |
JP6244892B2 (ja) | 文書内の文字の局所的な拡大縮小、回転および表示位置に対して不変である光学的文字認識のためのワード検出 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
EP3940589B1 (en) | Layout analysis method, electronic device and computer program product | |
CN112949649B (zh) | 一种文本图像的识别方法、装置及计算设备 | |
CN111680177A (zh) | 数据搜索方法及电子设备、计算机可读存储介质 | |
CN111985469A (zh) | 一种图像中文字的识别方法、装置及电子设备 | |
CN112926421A (zh) | 图像处理方法和装置、电子设备和存储介质 | |
CN112149680A (zh) | 错字检测识别方法、装置、电子设备及存储介质 | |
US20150139547A1 (en) | Feature calculation device and method and computer program product | |
CN113220125A (zh) | 手指交互方法、装置、电子设备及计算机存储介质 | |
CN110795918A (zh) | 确定阅读位置的方法、装置及设备 | |
CN115131693A (zh) | 文本内容识别方法、装置、计算机设备和存储介质 | |
CN111079736B (zh) | 一种听写内容识别方法及电子设备 | |
CN112163513A (zh) | 信息选取方法、系统、装置、电子设备及存储介质 | |
CN112396057A (zh) | 一种字符识别方法、装置及电子设备 | |
US11367296B2 (en) | Layout analysis | |
US20130330005A1 (en) | Electronic device and character recognition method for recognizing sequential code | |
CN111711758B (zh) | 多指定位的试题拍摄方法、装置、电子设备和存储介质 | |
CN111563511B (zh) | 一种智能框题的方法、装置、电子设备及存储介质 | |
CN110543238A (zh) | 基于人工智能的桌面交互方法 | |
US20230350499A1 (en) | Devices and methods for gesture-based selection | |
CN111652182B (zh) | 一种悬空手势识别的方法、装置、电子设备和存储介质 | |
KR100983779B1 (ko) | 도서 정보 서비스 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200630 |