CN111723811A

CN111723811A - 文字识别及处理的方法、装置、介质以及电子设备

Info

Publication number: CN111723811A
Application number: CN202010426896.5A
Authority: CN
Inventors: 潘永锋
Original assignee: Shanghai Jixiao Education Technology Co ltd
Current assignee: Shanghai Jixiao Education Technology Co ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-29

Abstract

本发明涉及一种文字识别及处理的方法包括录像设备传递识别图帧，通过图帧识别出手部或点读笔位置不变时针对手部或点读笔位置处的文本信息进行处理并将指尖或笔尖位置处文本信息朗读或翻译出来。此外本发明还提供了一种文字识别及处理装置、介质以及电子设备，可以实现VR点读和/或翻译功能。

Description

文字识别及处理的方法、装置、介质以及电子设备

技术领域

本发明属于计算机技术领域，特别涉及一种文字识别及处理的方法、装置、介质以及电子设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

传统的点读或翻译技术是通过特殊的智能笔或拍照选择与阅读或翻译软件相匹配，通过智能笔内部的信息或所拍照片传递至阅读或翻译软件中进行识别从而实现点读或翻译。拍照点读和翻译耗时长，运用点读笔技术复杂需要购买与阅读文本相匹配的点读笔。

发明内容

为解决目前拍照点读和翻译耗时长，运用点读笔技术复杂需要购买与阅读文本相匹配的点读笔的问题，本发明提供一种能实现VR点读或翻译的技术和设备，包括文字识别及处理的方法、装置、介质以及电子设备。

本发明所采取的技术方案为：一种文字识别和处理的方法，其特征在于，所述方法包括如下步骤：S1通过录像设备将录制的图像逐帧传递至第一处理单元；S2所述第一处理单元在接收所述每一帧图像后进行手部或阅读笔识别并记录当前所述手部或阅读笔的位置，同时与上一帧中的所述手部或阅读笔位置进行比较，当连续至少3帧所述手部或阅读笔位置与上一帧重叠面积大于90％时启动第二处理单元；S3所述第二处理单元启动后，将启动所述第二处理时所识别的这一帧图像传递给第二处理单元，基于所述这一帧图像，所述第二处理单元检测并定位手部或阅读笔的指尖或笔尖位置；所述第二处理单元以所述指尖或笔尖顶部为底部中点在所述这一帧图像中截取256x256至640x640大小的文本分析图像；S4将所述文本分析图像传递至OCR识别模块进行文字识别，所述OCR识别模块识别文字的同时识别文字的位置，所述识别文字的位置与所述指尖或笔尖的位置相匹配，将与所述指尖或笔尖的位置最近的识别文字信息传入文字匹配模块得出最接近的字典信息；S5将所述最接近字典信息转换为信号通过发声设备发出相应语音信息。

优选的，所述S2步骤中识别出所述手部或阅读笔的位置的同时将基于所述手部或阅读笔位置，截取手部或阅读笔图像片段，在所述第二处理单元启动时，代替S3步骤中所述启动所述第二处理时所识别的这一帧图像传递给第二处理单元。

优选的，将所述文本分析图像传递至OCR识别模块进行文字识别时，将所述文本分析图像中的文本信息采取了分块识别文本信息策略，即先将所述文本分析图像中的文本信息如英文字母或汉字或其他任意语言文字信息以最小可识别单元识别成独立的小矩形块，然后将所述独立小矩形块横向连接起来进行文字识别。

优选的，所述文字匹配模块可根据不同语言文字信息和语言文字难度等级录入相应的字典信息，所述字典信息包括该语言文字的拼写、发音，释义，例句，或其他可以录入的信息中的一种或几种。

一种文字识别和处理装置，其特征在于所述装置包括：录像设备：用以将录制的图像逐帧传递至第一处理单元；第一处理单元：接收所述每一帧图像后进行手部或阅读笔识别并记录当前所述手部或阅读笔的位置，同时与上一帧中的所述手部或阅读笔位置进行比较，当连续至少3帧所述手部或阅读笔位置与上一帧重叠面积大于90％时启动第二处理单元；第二处理单元：接收启动所述第二处理时所识别的这一帧图像并基于所述这一帧图像检测并定位手部或阅读笔的指尖或笔尖位置；所述第二处理单元以所述指尖或笔尖顶部为底部中点在所述这一帧图像中截取256x256至640x640大小的文本分析图像；OCR识别模块：接收所述文本分析图像并识别文字的，在识别文字的同时识别文字的位置，将所述识别文字的位置与所述指尖或笔尖的位置相匹配，将与所述指尖或笔尖的位置最近的识别文字信息传入文字匹配模块；文字匹配模块：接收所述最近的识别文字信息与内部字典信息匹配得出最接近的字典信息并将所述字典信息转换为信号传递至发音设备；和发音设备：接收所述文字匹配模块传递的信号并发出相应的语音信息。

优选的，所述第一处理单元中识别出所述手部或阅读笔的位置的同时将基于所述手部或阅读笔位置，截取手部或阅读笔图像片段，在所述第二处理单元启动时，代替所述启动所述第二处理时所识别的这一帧图像传递给第二处理单元。

优选的，所述OCR识别模块进行文字识别时，将所述文本分析图像中的文本信息采取了分块识别文本信息策略，即先将所述文本分析图像中的文本信息如英文字母或汉字或其他任意语言文字信息以最小可识别单元识别成独立的小矩形块，然后将所述独立小矩形块横向连接起来进行文字识别。

一种介质，存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1至4任一项所述的一种文字识别和处理方法。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令，所述处理器执行所述指令时实现如权利要求1至4任一项所述的一种文字识别和处理方法。

与现有技术相比，本发明取得的有益效果为：

第一，本发明可实现VR点读或翻译。

第二，本发明文本处理效率高。

附图说明

图1本发明文字识别和处理方法流程图；

图2本发明手部或阅读笔的位置识别示意图；

图3本发明手部或阅读笔的指尖或笔尖位置识别示意图；

图4本发明文本分析图像截取示意图；

图5本发明OCR文字识别匹配示意图。

具体实施方式

下面将结合说明书附图对本发明进行进一步详细的说明。

实施例一

如图1至5所示，一种文字识别和处理的方法，所述方法包括如下步骤：S1通过录像设备将录制的图像逐帧传递至第一处理单元；S2所述第一处理单元在接收所述每一帧图像后进行手部或阅读笔识别并记录当前所述手部或阅读笔的位置，所述位置记录方式为图像中当前手部或阅读笔的左上和右下坐标值或右上和左下的坐标值，同时与上一帧中的所述手部或阅读笔位置进行比较，当连续至少3帧所述手部或阅读笔位置与上一帧重叠面积大于90％时启动第二处理单元；S3所述第二处理单元启动后，将启动所述第二处理时所识别的这一帧图像传递给第二处理单元，基于所述这一帧图像，所述第二处理单元检测并定位手部或阅读笔的指尖或笔尖位置；所述第二处理单元以所述指尖或笔尖顶部为底部中点在所述这一帧图像中截取256x256至640x640大小的文本分析图像，优选的可以选择截取416x416大小的文本分析图像；S4将所述文本分析图像传递至OCR识别模块进行文字识别，所述OCR识别模块识别文字的同时识别文字的位置，所述识别文字的位置与所述指尖或笔尖的位置相匹配，将与所述指尖或笔尖的位置最近的识别文字信息传入文字匹配模块得出最接近的字典信息；S5将所述最接近字典信息转换为信号通过发声设备发出相应语音信息。

优选的，所述S2步骤中识别出所述手部或阅读笔的位置的同时将基于所述手部或阅读笔位置，截取手部或阅读笔图像片段，在所述第二处理单元启动时，代替S3步骤中所述启动所述第二处理时所识别的这一帧图像传递给第二处理单元，为了提升容错性，在截取手部或阅读笔图像片段时需要将手部或阅读笔图像坐标范围延伸15％，另外每一帧图像中手部或阅读笔的大小和摄像头与手部或阅读笔的距离有关，需要根据手部或阅读笔的坐标值对原图进行等比例缩放至10000平方像素左右。此步骤可以减少第二处理单元的分析量，减少设备功耗，并提升识别效率。

优选的，将所述文本分析图像传递至OCR识别模块进行文字识别时，将所述文本分析图像中的文本信息采取了分块识别文本信息策略，即先将所述文本分析图像中的文本信息如英文字母或汉字或其他任意语言文字信息以最小可识别单元识别成独立的小矩形块，然后将所述独立小矩形块横向连接起来进行文字识别。分块识别文字信息可以减少设备信息处理量，进而减少功耗提升处理速度。

实施例二

一种文字识别和处理装置，其特征在于所述装置包括：录像设备：用以将录制的图像逐帧传递至第一处理单元；第一处理单元：接收所述每一帧图像后进行手部或阅读笔识别并记录当前所述手部或阅读笔的位置，所述位置记录方式为图像中当前手部或阅读笔的左上和右下坐标值或右上和左下的坐标值，同时与上一帧中的所述手部或阅读笔位置进行比较，当连续至少3帧所述手部或阅读笔位置与上一帧重叠面积大于90％时启动第二处理单元；第二处理单元：接收启动所述第二处理时所识别的这一帧图像并基于所述这一帧图像检测并定位手部或阅读笔的指尖或笔尖位置；所述第二处理单元以所述指尖或笔尖顶部为底部中点在所述这一帧图像中截取256x256至640x640大小的文本分析图像，优选的可以选择截取416x416大小的文本分析图像；OCR识别模块：接收所述文本分析图像并识别文字的，在识别文字的同时识别文字的位置，将所述识别文字的位置与所述指尖或笔尖的位置相匹配，将与所述指尖或笔尖的位置最近的识别文字信息传入文字匹配模块；文字匹配模块：接收所述最近的识别文字信息与内部字典信息匹配得出最接近的字典信息并将所述字典信息转换为信号传递至发音设备；和发音设备：接收所述文字匹配模块传递的信号并发出相应的语音信息。

优选的，所述第一处理单元中识别出所述手部或阅读笔的位置的同时将基于所述手部或阅读笔位置，截取手部或阅读笔图像片段，为了提升容错性，在截取手部图像片段时需要将手部图像坐标范围延伸15％；由于视频帧中手部大小和摄像头和手部的距离有关，需要根据手部的坐标值对原图进行等比例缩放至10000平方像素左右，在所述第二处理单元启动时，代替所述启动所述第二处理单元时所识别的这一帧图像传递给第二处理单元。此步骤可以减少第二处理单元的分析量，减少设备功耗，并提升识别效率。

优选的，所述OCR识别模块进行文字识别时，将所述文本分析图像中的文本信息采取了分块识别文本信息策略，即先将所述文本分析图像中的文本信息如英文字母或汉字或其他任意语言文字信息以最小可识别单元识别成独立的小矩形块，然后将所述独立小矩形块横向连接起来进行文字识别。分块识别文字信息可以减少设备信息处理量，进而减少功耗提升处理速度。

实施例三

一种介质，存储有计算机可执行指令，所述指令在被处理器执行时用于实现实施例一中所述的一种文字识别和处理方法。

实施例四

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令，所述处理器执行所述指令时实现实施例一中所述的一种文字识别和处理方法。

综上所述，本发明提供一种能实现VR点读或翻译的技术和设备，包括文字识别及处理的方法、装置、介质以及电子设备，本发明所述识别方法具有处理速度快，使设备功耗低的优点。

以上所述实施方式仅为本发明的优选实施例，而并非本发明可行实施的穷举。对于本领域一般技术人员而言，在不背离本发明原理和精神的前提下对其所作出的任何显而易见的改动，都应当被认为包含在本发明的权利要求保护范围之内。

Claims

1.一种文字识别和处理的方法，其特征在于，所述方法包括如下步骤：

S1通过录像设备将录制的图像逐帧传递至第一处理单元；

S2所述第一处理单元在接收所述每一帧图像后进行手部或阅读笔识别并记录当前所述手部或阅读笔的位置，同时与上一帧中的所述手部或阅读笔位置进行比较，当连续至少3帧所述手部或阅读笔位置与上一帧重叠面积大于90％时启动第二处理单元；

S3所述第二处理单元启动后，将启动所述第二处理时所识别的这一帧图像传递给第二处理单元，基于所述这一帧图像，所述第二处理单元检测并定位手部或阅读笔的指尖或笔尖位置；所述第二处理单元以所述指尖或笔尖顶部为底部中点在所述这一帧图像中截取256x256至640x640大小的文本分析图像；

S4将所述文本分析图像传递至OCR识别模块进行文字识别，所述OCR识别模块识别文字的同时识别文字的位置，所述识别文字的位置与所述指尖或笔尖的位置相匹配，将与所述指尖或笔尖的位置最近的识别文字信息传入文字匹配模块得出最接近的字典信息；

S5将所述最接近字典信息转换为信号通过发声设备发出相应语音信息。

2.如权利要求1所述的一种文字识别和处理的方法，其特征在于在所述S2步骤中识别出所述手部或阅读笔的位置的同时将基于所述手部或阅读笔位置，截取手部或阅读笔图像片段，在所述第二处理单元启动时，代替S3步骤中所述启动所述第二处理时所识别的这一帧图像传递给第二处理单元。

3.如权利要求1所述的一种文字识别和处理的方法，其特征在于将所述文本分析图像传递至OCR识别模块进行文字识别时，将所述文本分析图像中的文本信息采取了分块识别文本信息策略，即先将所述文本分析图像中的文本信息如英文字母或汉字或其他任意语言文字信息以最小可识别单元识别成独立的小矩形块，然后将所述独立小矩形块横向连接起来进行文字识别。

4.如权利要求1所述的一种文字识别和处理方法，其特征在于所述文字匹配模块可根据不同语言文字信息和语言文字难度等级录入相应的字典信息，所述字典信息包括该语言文字的拼写、发音，释义，例句，或其他可以录入的信息中的一种或几种。

5.一种文字识别和处理装置，其特征在于所述装置包括：

录像设备：用以将录制的图像逐帧传递至第一处理单元；

第一处理单元：接收所述每一帧图像后进行手部或阅读笔识别并记录当前所述手部或阅读笔的位置，同时与上一帧中的所述手部或阅读笔位置进行比较，当连续至少3帧所述手部或阅读笔位置与上一帧重叠面积大于90％时启动第二处理单元；

第二处理单元：接收启动所述第二处理时所识别的这一帧图像并基于所述这一帧图像检测并定位手部或阅读笔的指尖或笔尖位置；所述第二处理单元以所述指尖或笔尖顶部为底部中点在所述这一帧图像中截取256x256至640x640大小的文本分析图像；

OCR识别模块：接收所述文本分析图像并识别文字的，在识别文字的同时识别文字的位置，将所述识别文字的位置与所述指尖或笔尖的位置相匹配，将与所述指尖或笔尖的位置最近的识别文字信息传入文字匹配模块；

文字匹配模块：接收所述最近的识别文字信息与内部字典信息匹配得出最接近的字典信息并将所述字典信息转换为信号传递至发音设备；

和发音设备：接收所述文字匹配模块传递的信号并发出相应的语音信息。

6.如权利要求5所述的一种文字识别和处理装置，其特征在于在所述第一处理单元中识别出所述手部或阅读笔的位置的同时将基于所述手部或阅读笔位置，截取手部或阅读笔图像片段，在所述第二处理单元启动时，代替所述启动所述第二处理时所识别的这一帧图像传递给第二处理单元。

7.如权利要求5所述的一种文字识别和处理装置，其特征在于所述OCR识别模块进行文字识别时，将所述文本分析图像中的文本信息采取了分块识别文本信息策略，即先将所述文本分析图像中的文本信息如英文字母或汉字或其他任意语言文字信息以最小可识别单元识别成独立的小矩形块，然后将所述独立小矩形块横向连接起来进行文字识别。

8.如权利要求5所述的一种文字识别和处理装置，其特征在于所述文字匹配模块可根据不同语言文字信息和语言文字难度等级录入相应的字典信息，所述字典信息包括该语言文字的拼写、发音，释义，例句，或其他可以录入的信息中的一种或几种。

9.一种介质，存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1至4任一项所述的一种文字识别和处理方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令，所述处理器执行所述指令时实现如权利要求1至4任一项所述的一种文字识别和处理方法。