CN111553356B

CN111553356B - 字符识别方法及装置、学习设备、计算机可读存储介质

Info

Publication number: CN111553356B
Application number: CN202010454365.7A
Authority: CN
Inventors: 祁健升
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2023-12-26
Anticipated expiration: 2040-05-26
Also published as: CN111553356A

Abstract

本申请实施例涉及图像识别技术领域，公开了一种字符识别方法及装置、学习设备、计算机可读存储介质。该方法包括：获取物理页面的预览图像；根据物理页面上被指定位置的位置信息，确定目标图像尺寸；将预览图像的尺寸调大至目标图像尺寸，以获得目标图像；其中，目标图像尺寸大于预览图像的尺寸；对目标图像进行字符识别。实施本申请实施例，能够提高字符识别的准确率。

Description

字符识别方法及装置、学习设备、计算机可读存储介质

技术领域

本申请涉及图像识别技术领域，具体涉及一种字符识别方法及装置、学习设备、计算机可读存储介质。

背景技术

如今，市面上出现越来越多的可辅导学生用户学习的学习机、家教机等学习设备，这些学习设备可以实现搜题、点读、智能问答或查词等功能。一般这些学习设备都配置有摄像头，学生用户在学习过程中遇到不懂的字、词或题目时，可以在书本、纸张等物理页面上选择字、词或题目，学习设备会对用户选择的字、词或题目进行识别，再推荐该字、词或题目对应的学习内容给用户。可是在实践中发现，很多时候学习设备对在物理页面上选择的字符的识别的准确率比较低。

发明内容

本申请实施例公开了一种字符识别方法及装置、学习设备、计算机可读存储介质，可以提高字符识别的准确率。

本申请实施例第一方面公开一种字符识别方法，包括：

获取物理页面的预览图像；

根据所述物理页面上被指定位置的位置信息，确定目标图像尺寸；

将所述预览图像的尺寸调大至所述目标图像尺寸，以获得目标图像；其中，所述目标图像尺寸大于所述预览图像的尺寸；

对所述目标图像进行字符识别。

本申请实施例第二方面公开一种字符识别装置，包括：

图像获取单元，用于获取物理页面的预览图像；

尺寸确定单元，用于根据所述物理页面上被指定位置的位置信息，确定目标图像尺寸；

尺寸调整单元，用于将所述预览图像的尺寸调大至所述目标图像尺寸，以获得目标图像；其中，所述目标图像尺寸大于所述预览图像的尺寸；

字符识别单元，用于对所述目标图像进行字符识别。

本申请实施例第三方面公开一种学习设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本申请实施例第一方面公开的一种字符识别方法。

本申请实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本申请实施例第一方面公开的一种字符识别方法。所述计算机可读存储介质包括ROM/RAM、磁盘或光盘等。

本申请实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

本申请实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

与现有技术相比，本申请实施例具有以下有益效果：

本申请实施例中，通过获取物理页面的预览图像，然后根据该物理页面上被指定位置的位置信息，确定出比预览图像的尺寸较大的目标图像尺寸，然后将该预览图像的尺寸调大至目标图像尺寸以获得目标图像，最后对该目标图像进行字符识别。可见，实施本申请实施例，可以自适应根据物理页面上被指定位置的位置信息，确定出目标图像尺寸，并将预览图像的尺寸调大至目标图像尺寸再进行字符识别，能够提高字符识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种字符识别方法的应用场景图；

图2是本申请实施例公开的一种字符识别方法的流程示意图；

图3是本申请实施例公开的另一种字符识别方法的流程示意图；

图4是本申请实施例公开的又一种字符识别方法的流程示意图；

图5是本申请实施例公开的一种字符识别装置的结构示意图；

图6是本申请实施例公开的另一种字符识别装置的结构示意图；

图7是本申请实施例公开的一种学习设备的结构示意图；

图8是本申请实施例公开的一种物理页面划分示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别不同的对象，而不是用于描述特定顺序。本申请实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

其中，本申请实施例所示的方法适用于字符识别装置，该字符识别装置应用于学习机、点读机、家教机等学习设备。其中，各类学习设备的操作系统包括但不限于Android操作系统、IOS操作系统、Symbian(塞班)操作系统、Windows操作系统等等，本申请实施例不做限定。本申请实施例的执行主体以学习设备为例结合附图进行详细描述，应理解不应对本申请构成任何限定。

为了更好的理解本申请实施例公开的字符识别方法，下面先对字符识别方法的应用场景进行描述。请参阅图1，图1是本申请实施例公开的一种字符识别方法的应用场景图。可以理解的是，图1仅为本申请实施例公开的字符识别方法的一示例性应用场景图，其它任何在图1所示的基础上进行优化或者变形得到的，且能够实现本申请技术方案的应用场景均属于本申请保护范围，对此不作具体限定。

在图1所示的应用场景下，用户可以通过使用学习设备10进行学习，并将物理页面40放置于学习设备10所放置的桌面上，当用户在学习过程中遇到不懂的字、词或题目时，可以在物理页面40上指定该字、词或题目，并启动学习设备10拍摄物理页面40获得预览图像，对预览图像进行字符识别，从字符识别结果中确定出用户指定的字、词或题目，输出相应的学习内容给用户。

如图1所示，学习设备10可以设置有拍摄模组20，拍摄模组20可设置于学习设备10配有电子屏幕的一面，摄像模组20用于拍摄物理页面40以获得预览图像；在拍摄模组20正前方还可以设置有反光装置30(例如，反光镜、棱镜或凸透镜等)，反光装置30的镜面与拍摄模组20的镜头面成预设的角度，反光装置30用于改变拍摄模组20的光路，进而使得拍摄模组20拍摄到物理页面40获得预览图像。通过使用学习设备10的拍摄模组20拍摄得到的物理页面40在反光装置30中的成像，而不用手动改变学习设备10的放置方式，能够简化拍摄过程，提高拍摄效率。可选地，物理页面40可以是放置在桌面上且处于学习设备的拍摄范围内的书本页面、纸张页面等，也可以是显示于移动终端(如手机或平板电脑等)的电子页面，该移动终端为不同于学习设备的终端设备，该移动终端可以是放置于学习设备被放置的桌面上且处于学习设备的拍摄范围内的终端设备。进一步可选地，当物理页面40为书本页面、纸张页面时，物理页面40具体可以为教科书、著名文学小说、笔记、报纸或教材练习册等，本申请实施例不作具体限定。

请参阅图2，图2是本申请实施例公开的一种字符识别方法的流程示意图。如图2所示，该字符识别方法可以包括以下步骤：

201、学习设备获取物理页面的预览图像。

本申请实施例中，用户可以通过用于指定的物体(比如手指、笔、尺子或木枝等)在物理页面上指定字、词或题目，并触发学习设备进行拍摄，学习设备可以在接收到预设的第一触发指令时，启动设置于学习设备的摄像模组对物理页面进行拍摄，以获得预览图像。其中，预设的第一触发指令用于触发学习设备进行拍摄，其可以是预先设置的任意一种用户交互指令，用户交互指令可以包括但不限于用户在语音交互、遥控器交互、手势交互、图像交互、声纹交互、体感交互等任意一种交互模式下所输入的指令。具体采用何种交互模式进行输入的，本申请实施例不作具体限定。

作为一种可选的实施方式，学习设备还可以在接收到预设的第二触发指令时，控制学习设备从当前的学习模式切换至查词模式，并实时检测物理页面上是否存在用于指定的物体，若检测到物理页面上存在用于指定的物体，且用于指定的物体稳定指定在物理页面上，学习设备控制摄像模组拍摄物理页面以获得预览图像，其中，当前的学习模式包括但不限于听写模式、点读模式、智能问答模式等；预设的第二触发指令也可以是如第一触发指令的任意一种用户交互指令，其可以与预设的第一触发指令相同，也可以不同，在此不再赘述。

实施该实施方式，通过以预设的触发指令控制学习设备从当前的学习模式切换至查词模式，能够使得学习设备的学习模式切换更加灵活，使得学习设备更加智能。

进一步可选地，学习设备的摄像模组中可以内置有传感装置，该传感装置可以包括但不限于图像传感装置、距离传感装置和/或红外传感装置等装置，那么，学习设备实时检测物理页面上是否存在用于指定的物体的方式具体可以是获取传感装置实时检测到的传感信息，根据该传感信息检测物理页面上是否存在用于指定的物体，以及，在检测出物理页面上存在用于指定的物体时，根据该传感信息判断用于指定的物理是否在预设时长内没有移动，若没有移动，判定用于指定的物体稳定指定在物理页面上。

如此，能够提高判断用于指定的物体是否稳定指定在物理页面上的准确率，进而减少学习设备获取物理页面的预览图像的误触发率。

202、学习设备根据物理页面上被指定位置的位置信息，确定目标图像尺寸。

本申请实施例中，被指定位置的位置信息可以是被指定位置在物理页面上的位置信息，也可以是被指定位置在电子屏幕上的位置信息，其中，被指定位置可指的是用于指定的物体在物理页面上稳定停留的位置。位置信息可以包括但不限于被指定位置在物理页面的坐标系上的坐标信息(包括横坐标及纵坐标；或者仅包括纵坐标)、被指定位置与摄像模组的距离、被指定位置在物理页面上的坐标信息映射到在电子屏幕的坐标系上的坐标信息(包括横坐标及纵坐标；或者仅包括纵坐标)、或者被指定位置在预览图像上的坐标系的坐标信息等。可选地，电子屏幕的坐标系具体可以是以学习设备放置使用时相对用户的左下角为原点、以水平方向为横坐标、以竖直方向方向为纵坐标的坐标系。

在一些实施例中，学习设备可以存储有多个位置信息，不同的位置信息对应存储的图像尺寸可以不同，每一位置信息对应存储有多个图像尺寸，每一图像尺寸均大于预览图像的尺寸，且每一图像尺寸均不大于指定尺寸阈值，每一图像尺寸对应的字符准确率可预先测试得到，其中指定尺寸阈值对应的字符识别准确率最高。进一步可选地，每一位置信息对应的多个图像尺寸中每一图像尺寸与预览图像的尺寸差值也不同，按照尺寸差值越大的图像尺寸对预览图像进行尺寸调大后再进行字符识别，相应的字符识别准确率也越大。

如此，目标图像尺寸具体可以是任意一个与位置信息对应的图像尺寸，其具体可以包括目标宽度和/或目标高度，目标宽度和目标高度的单位均为像素。可选地，学习设备根据物理页面上被指定位置的位置信息，确定目标图像尺寸的方式具体可以是学习设备根据物理页面上被指定位置的位置信息，确定出与位置信息对应的多个图像尺寸，从多个图像尺寸中确定任意一个图像尺寸作为目标图像尺寸，其中，每一图像尺寸均大于预览图像的尺寸，且每一图像尺寸均不大于指定尺寸阈值，每一图像尺寸对应的字符准确率可预先测试得到，其中指定尺寸阈值对应的字符识别准确率最高。

进一步可选地，学习设备存储多个位置信息的方式可以是按照设定的一个或多个数值范围对存储的多个位置信息进行区分，每个数值范围可对应多个图像尺寸。从而能够降低数据的存储空间，提高运行效率。

那么，学习设备根据物理页面上被指定位置的位置信息，确定目标图像尺寸的方式具体可以是确定出物理页面上被指定位置的位置信息所属的目标数值范围，并获取该目标数值范围对应的多个图像尺寸中任意一个图像尺寸作为目标图像尺寸。从而能够提高确定目标图像尺寸的效率。

203、学习设备将预览图像的尺寸调大至目标图像尺寸，以获得目标图像。

其中，目标图像尺寸大于预览图像的尺寸。

本申请实施例中，学习设备将预览图像的尺寸调大至目标图像尺寸的方式具体可以是保持预览图像的分辨率不变，将预览图像的尺寸调大至目标图像尺寸。进一步具体地，若目标图像尺寸包括目标宽度，学习设备保持预览图像的分辨率不变，并将预览图像的尺寸所包括的宽度调大至目标宽度；若目标图像尺寸包括目标高度，学习设备保持预览图像的分辨率不变，并将预览图像的尺寸所包括的高度调大至目标高度；若目标图像尺寸包括目标宽度和目标高度，学习设备保持预览图像的分辨率不变，并将预览图像的尺寸所包括的宽度和高度分别调大至目标宽度和目标高度。

举例来说，假设预览图像的分辨率为A，尺寸为(X1，Y1)，目标图像尺寸为X2，其中，X2大于X1；那么可以保持分辨率A不变，将X1调大至X2，并计算X1与X2的比值，再将该比值的倒数乘以Y1得出Y2，最后将Y1调大至Y2，以完成预览图像的尺寸调大。

204、学习设备对目标图像进行字符识别。

作为一种可选的实施方式，学习设备对目标图像进行字符识别之后，可以根据被指定位置的位置信息，从字符识别结果中确定出被指定字符，并根据被指定字符进行内容搜索，以获得与该被指定字符相匹配的学习内容，最后学习设备输出该学习内容。可选地，学习内容可以包括但不限于被指定字符的发音内容、注释内容、相关的音频内容和/或相关的视频资料等。

可见，实施上述实施例中提供的方法，可以自适应根据物理页面上被指定位置的位置信息，确定出目标图像尺寸，并将预览图像的尺寸调大至目标图像尺寸再进行字符识别，能够提高字符识别的准确率。

为了进一步提高字符识别的准确率，本申请实施例还可以对图2所示的一种字符识别方法进行优化，公开了另外一种字符识别方法。请参阅图3，图3是本申请实施例公开的另一种字符识别方法的流程示意图。如图3所示，该字符识别方法可以包括以下步骤：

301、学习设备获取物理页面的预览图像。

302、学习设备对预览图像进行特征提取，以获得图像特征信息。

本申请实施例中，学习设备对预览图像进行特征提取之前，还可以对预览图像进行预处理，以获得处理后图像。其中，预处理包括但不限于模数转换(Analog to DigitalConverter，A/D)、二值化、图象的平滑、变换、增强、恢复及滤波等操作；然后学习设备再对处理后图像进行行特征提取，以获得图像特征信息，从而能够将预览图像数字化，提高针对图像中包含的字符类型的识别准确率。

303、学习设备根据图像特征信息，识别出预览图像中包含的字符类型。

其中，图像特征信息可以包括字符特征信息，该字符特征信息用于表征字符所属于的字符类型，因此学习设备可以根据该字符特征信息识别出预览图像中包含的字符类型，字符类型可以包括但不限于中文、英文、阿拉伯语、维吾尔语、泰语或新加坡语等不同语种的字符类型，本申请对此不作限定。

304、学习设备获取字符类型对应的关系式。

考虑到仅仅从与位置信息对应的多个图像尺寸中确定任意一个图像尺寸作为目标图像尺寸的实施方式中，存在图像尺寸不一，其对应的字符识别准确率也不一的情况，因此，为了字符识别准确率的最高化，可以确定出在该字符类型的字符识别场景下，该位置信息所对应的可达到最高字符识别准确率的目标图像尺寸，并构建位置信息与目标图像尺寸的关系式，这样通过关系式就可以确定出与位置信息对应的字符识别准确率峰值的目标图像尺寸，从而能够实现字符识别的准确率最高化。

具体地，可以预先采集样本数据，并通过测试脚本对样本数据进行测试。在该测试过程中，可以采集若干样本数据，每一样本数据包括被指定位置样本数据及其对应的预览图像样本数据，对每一样本数据进行测试，测试的过程具体是针对每一份样本数据，保持其包括的被指定位置样本数据不变，对预览图像样本数据进行不同程度的尺寸调大，以获得多个待识别图像，通过对每一待识别图像进行字符识别，可以获得每一待识别图像对应的字符识别准确率，并且可以从多个字符识别准确率中确定出最高的字符识别准确率峰值，最后根据该字符识别准确率峰值可以确定出对应的目标图像尺寸。

在遍历若干样本数据进行上述测试过程后，可以获得若干被指定位置样本数据及每一被指定位置样本数据对应的字符识别准确率峰值及该字符识别准确率峰值对应的目标图像尺寸。基于此，可以对每一被指定位置及其对应的目标图像尺寸进行分析，构建出被指定位置及目标图像尺寸的关系式，针对不同字符类型的字符识别场景进行测试后，可以获得各个字符类型对应的关系式，然后将各个字符类型对应的关系式存储在学习设备中，每一个关系式用于表征在对其对应的字符类型的字符识别场景中，被指定位置的位置信息与目标图像尺寸之间的关系，其中，根据目标图像尺寸对预览图像进行尺寸调整后所获得的目标图像的字符识别准确率最高。

作为另外一种可选的实施方式，在遍历若干样本数据进行上述测试过程后，还可以将每一被指定位置作为输入数据，将该被指定位置对应的目标图像尺寸作为输出数据，对深度学习网络进行训练，以训练获得尺寸模型，进而可以根据学习设备可以将物理页面上被指定位置的位置信息输入该尺寸模式，以获得尺寸模型的结果作为目标图像尺寸，按照该目标图像尺寸对预览图像进行尺寸调大，可以获得最高的字符识别准确率。

305、若物理页面上被指定位置的位置信息满足预设条件，学习设备将物理页面上被指定位置的位置信息输入关系式，计算得到目标图像尺寸。

其中，预设条件包括被指定位置位于物理页面上预设区域范围内的部分页面，部分页面与摄像模组的距离比剩余页面与摄像模组的距离较大，剩余页面为物理页面上除该部分页面之外的页面。

在一些实施例，若不论被指定位置位于物理页面上的哪一区域范围，都对预览图像进行尺寸调大后再进行字符识别，对字符识别准确率的提高效果并不明显，因此，开发人员可以根据实际需求预先设置区域范围，并根据区域范围在物理页面上确定出部分页面，仅在被指定位置位于该部分页面上时才对预览图像进行尺寸调大，可以进一步提高字符识别的准确率。

请参阅图8，图8是本申请实施例公开的一种物理页面划分示意图。如图8所示，根据预设区域范围对物理页面40进行划分，可以获得部分页面50及剩余页面60，其中，部分页面50距离摄像模组比剩余页面60距离摄像模组较远。因此，当被指定位置位于部分页面50时，学习设备才确定目标图像尺寸并对预览图像进行尺寸调大，而当被指定位置不位于部分页面50时，学习设备可以直接对预览图像进行字符识别，无需进行尺寸调大，从而能够有针对性地进行尺寸调大，进一步提高字符识别的准确率。

可选地，在一些实施例中，位置信息为被指定位置在物理页面上的位置信息；位置信息可以包括被指定位置在物理页面的竖直方向上的纵坐标和被指定位置与摄像模组的距离中的至少一种。

作为一种可选的实施方式，当位置信息包括被指定位置与摄像模组的距离时，学习设备可以根据被指定位置与摄像模组的距离来判断位置信息是否满足预设条件，具体地，学习设备的摄像模组中可以内置有测距感应装置，该测距感应装置用于检测被指定物体与物理页面的接触点与摄像模组的距离，那么学习设备就可以将被指定物体与物理页面的接触点与摄像模组的距离作为被指定位置与摄像模组的距离，并进一步判断其是否达到指定距离阈值，若达到，判定位置信息满足预设条件，其中指定距离阈值可以根据预设区域范围内的部分页面与摄像模组的距离来确定，学习设备可以从预设区域范围内的部分页面上距离摄像模组最近的点，并以该点与摄像模组的距离作为指定距离阈值，从而可以快速检测到被指定位置与摄像模组的距离，进而提高确定目标图像尺寸的效率。

306～307。其中，针对步骤306～307的描述，请参照上述实施例中针对步骤103～104的详细描述，本申请在此不再赘述。

除此之外，还可以根据区域范围在物理页面上确定出部分页面，仅在被指定位置位于该部分页面上时才对预览图像进行尺寸调大，可以进一步提高字符识别的准确率。此外，还可以识别预览图像中的字符类型，并根据该字符类型对应的关系式来获得与被指定位置的位置信息对应的目标图像尺寸，能够提高目标图像尺寸的确定效率，还能够使得字符识别方法更加智能。

为了降低物体遮挡对字符识别准确率的影响，本申请实施例还可以对图2所示的一种字符识别方法进行优化，公开了又一种字符识别方法。请参阅图4，图4是本申请实施例公开的又一种字符识别方法的流程示意图。如图4所示，该字符识别方法可以包括以下步骤：

401、当接收到用于启动查词的用户操作指令时，学习设备获取以预设频率采集的针对物理页面的至少一帧预览帧数据。

其中，用户操作指令用于启动查词，其可以是预先设置的任意一种用户交互指令，用户交互指令可以包括但不限于用户在语音交互、遥控器交互、手势交互、图像交互、声纹交互、体感交互等任意一种交互模式下所输入的指令。具体采用何种交互模式进行输入的，本申请实施例不作具体限定。

可选地，学习设备在接收到该用户操作指令时，可以启动指尖查词模式，并控制设置于学习设备的摄像模组以预设频率采集针对物理页面的至少一帧预览帧数据，然后学习设备可以获取摄像模组采集到的至少一帧预览帧数据，该预览帧数据具体可以是yuv格式的图像，其中，预设频率可以是开发人员预先设置的时间段，然后以该时间段为间隔地采集预览帧数据。

402、学习设备根据至少一帧预览帧数据，检测用于指定的物体在物理页面上任一位置的指定动作。

其中，学习设备可以对至少一帧预览帧数据进行识别，根据识别结果，检测用于指定的物体在物理页面上的指定动作。

403、当检测到指定动作稳定时，学习设备确定物理页面上与指定动作对应的位置为被指定位置。

通过对至少一帧预览帧数据的识别结果，可以确定出指定动作稳定的预览帧数据，并且判定物理页面被指定，然后可以从确定的预览帧数据中可以确定与指定动作对应的位置，即被指定位置。

404、当根据至少一帧预览帧数据检测到物理页面上任一位置被指定时，学习设备确定检测到被指定位置的预览帧数据，并获取确定的预览帧数据的上一帧预览帧数据。

需要说明的是，考虑到确定的预览帧数据中存在用于指定的物体，可能会对被指定字符造成遮挡问题，进而影响字符识别准确率。因此，可以在确定检测到被指定位置的预览帧数据之后，获取确定的预览帧数据的上一帧预览帧数据，利用该上一帧预览帧数据进行字符识别，可以通过对尚未被指定的物理页面进行字符识别，进而降低字符遮挡所造成的影响。

405、学习设备对上一帧预览帧数据进行格式转换，以获得物理页面的预览图像。

其中，学习设备可将yuv格式的上一帧预览帧数据转换成JPEG格式的预览图像。

406、学习设备获取被指定位置位于物理页面上的坐标信息。

407、学习设备将坐标信息转换成被指定位置在电子屏幕上的位置信息。

在一些实施例中，学习设备获取物理页面上被指定位置的位置信息的方式具体可以是先获取被指定位置位于物理页面上的坐标信息，该坐标信息具体指的可以是被指定位置在物理页面的坐标系上的坐标信息(包括横坐标及纵坐标；或者仅包括纵坐标)，然后学习设备再将其转换成被指定位置在电子屏幕上的位置信息，转换后的位置信息具体可以是在电子屏幕的坐标系上的坐标信息，该电子屏幕上的坐标信息包括横坐标及纵坐标，或者仅包括纵坐标，本申请对此不作限定。

在另外一些可能的实施例中，学习设备在获取被指定位置位于物理页面上的坐标信息之后，也可以不对其进行转换，而是直接根据坐标信息确定目标图像尺寸。可选地，学习设备也可以存储有多个坐标信息，不同的坐标信息对应存储的图像尺寸可以不同，每一坐标信息对应存储有多个图像尺寸，每一图像尺寸均大于预览图像的尺寸，且每一图像尺寸均不大于指定尺寸阈值，每一图像尺寸对应的字符准确率可预先测试得到，其中指定尺寸阈值对应的字符识别准确率最高。从而无需对其进行坐标转换，能够加快学习设备的字符识别效率。

进一步可选地，学习设备在对上一帧预览帧数据进行格式转换，以获得物理页面的预览图像之后，还可以对预览图像进行特征提取，以获得图像特征信息，并根据图像特征信息，识别出预览图像中包含的字符类型，以及获取字符类型对应的关系式，该关系式用于表征坐标信息与目标图像尺寸之间的关系，其中，根据目标图像尺寸对预览图像进行尺寸调整后所述获得的目标图像的字符识别准确率最高，该目标图像尺寸可以是坐标信息对应的多个图像尺寸中最大的一个图像尺寸，其可以等于上述的指定尺寸阈值。因此，即便学习设备不对在物理页面的坐标系上的坐标信息进行转换，也可以根据坐标信息获取到相应的可达到最高字符识别准确率的目标图像尺寸，使得字符识别方法更加智能，并进一步提高字符识别准确率。

408、学习设备根据物理页面上被指定位置的位置信息，确定目标图像尺寸。

其中，学习设备根据根据物理页面上被指定位置的位置信息，确定目标图像尺寸可以参照上述实施例中针对步骤202的详细描述，本申请在此不再赘述。

409～410。其中，针对步骤409～410的描述，请参照上述实施例中针对步骤104～104的详细描述，本申请在此不再赘述。

除此之外，还可以对至少一帧预览帧数据进行检测，当检测到用于指定的物体在物理页面上任一位置的指定动作稳定时，确定物理页面上与指定动作对应的位置为被指定位置，能够提高被指定位置的确定准确率；以及，在确定出在检测到被指定位置的预览帧数据之后，获取确定的预览帧数据的上一帧预览帧数据，利用该上一帧预览帧数据进行字符识别，可以通过对尚未被指定的物理页面进行字符识别，进而降低字符遮挡所造成的影响。

请参阅图5，图5是本申请实施例公开的一种字符识别装置的结构示意图。如图5所示，该字符识别装置可以包括图像获取单元501、尺寸确定单元502、尺寸调整单元503及字符识别单元504；其中，

图像获取单元501，用于获取物理页面的预览图像。

尺寸确定单元502，用于根据物理页面上被指定位置的位置信息，确定目标图像尺寸。

尺寸调整单元503，用于将预览图像的尺寸调大至目标图像尺寸，以获得目标图像。其中，目标图像尺寸大于预览图像的尺寸。

字符识别单元504，用于对目标图像进行字符识别。

在一些实施例中，上述的图像获取单元501，具体可以用于在接收到预设的第一触发指令时，启动摄像模组对物理页面进行拍摄，以获得预览图像。

或者可选地，上述的图像获取单元501，具体可以用于在接收到预设的第二触发指令时，控制学习设备从当前的学习模式切换至查词模式，并实时检测物理页面上是否存在用于指定的物体，若检测到物理页面上存在用于指定的物体且用于指定的物体稳定指定在物理页面上，控制摄像模组拍摄物理页面以获得预览图像。

进一步可选地，上述的图像获取单元501用于实时检测物理页面上是否存在用于指定的物体的方式具体可以是获取传感装置实时检测到的传感信息，根据该传感信息检测物理页面上是否存在用于指定的物体，以及，在检测出物理页面上存在用于指定的物体时，根据该传感信息判断用于指定的物理是否在预设时长内没有移动，若没有移动，判定用于指定的物体稳定指定在物理页面上，其中，传感装置可以包括但不限于图像传感装置、距离传感装置和/或红外传感装置等装置。

在一些实施例中，上述的尺寸确定单元502，具体可以用于根据物理页面上被指定位置的位置信息，确定出与位置信息对应的多个图像尺寸，从多个图像尺寸中确定任意一个图像尺寸作为目标图像尺寸。

进一步地，上述的尺寸确定单元502，具体还可以用于识别出物理页面上被指定位置的位置信息所属于的目标数值范围，并获取该目标数值范围对应的多个图像尺寸，从多个图像尺寸中确定任意一个图像尺寸作为目标图像尺寸。

可选地，上述的尺寸调整单元503，具体可以用于保持预览图像的分辨率不变，将预览图像的尺寸调大至目标图像尺寸以获得目标图像。进一步可选地目标图像尺寸具体可以包括目标宽度和/或目标高度，目标宽度和目标高度的单位均为像素；那么，上述的尺寸调整单元503，具体可以用于在目标图像尺寸包括目标宽度时，保持预览图像的分辨率不变，并将预览图像的尺寸所包括的宽度调大至目标宽度；以及，在目标图像尺寸包括目标高度时，保持预览图像的分辨率不变，并将预览图像的尺寸所包括的高度调大至目标高度；以及，在目标图像尺寸包括目标宽度和目标高度时，保持预览图像的分辨率不变，并将预览图像的尺寸所包括的宽度和高度分别调大至目标宽度和目标高度。

在一些实施例中，图5所示的字符识别装置还可以包括未图示的输出单元，用于在字符识别单元504对目标图像进行字符识别之后，根据被指定位置的位置信息，从字符识别结果中确定出被指定字符，并根据被指定字符进行内容搜索，以获得与该被指定字符相匹配的学习内容并输出。

可见，实施上述实施例中提供的装置，可以自适应根据物理页面上被指定位置的位置信息，确定出目标图像尺寸，并将预览图像的尺寸调大至目标图像尺寸再进行字符识别，能够提高字符识别的准确率。

请参阅图6，图6是本申请实施例公开的另一种字符识别装置的结构示意图。其中，图6所示的字符识别装置是由图5所示的字符识别装置进行优化得到的，与图5相比较，图6所示的字符识别装置还可以包括特征提取单元506、类型识别单元507、关系获取单元508、检测单元509、位置确定单元510、信息获取单元511及信息转换单元512；其中，

特征提取单元506，用于在获取单元501获取物理页面的预览图像之后，对预览图像进行特征提取，以获得图像特征信息。

类型识别单元507，用于根据图像特征信息，识别出预览图像中包含的字符类型。

关系获取单元508，用于获取字符类型对应的关系式。其中关系式用于表征被指定位置的位置信息与目标图像尺寸之间的关系，根据目标图像尺寸对预览图像进行尺寸调整后所获得的目标图像的字符识别准确率最高。

相应地，上述的尺寸确定单元502，具体可以用于将物理页面上被指定位置的位置信息输入关系式，计算得到目标图像尺寸。

在一些实施例中，上述的尺寸确定单元502，具体可以用于在物理页面上被指定位置的位置信息满足预设条件时，根据位置信息确定目标图像尺寸；其中，预设条件包括被指定位置位于物理页面上预设区域范围内的部分页面，部分页面与摄像模组的距离比剩余页面与摄像模组的距离较大，剩余页面为物理页面上除该部分页面之外的页面。

可选地，位置信息为被指定位置在物理页面上的位置信息；位置信息可以包括被指定位置在物理页面的竖直方向上的纵坐标或和指定位置与摄像模组的距离中的至少一种。

在一些实施例中，位置信息包括被指定位置与摄像模组的距离，那么图6所示的字符识别装置还可以包括未图示的条件判决单元，用于根据位置信息包括的被指定位置与摄像模组的距离，判断位置信息是否满足预设条件，若满足预设条件，则触发上述的尺寸确定单元502执行根据位置信息确定目标图像尺寸的操作。

具体地，上述的条件判决单元，具体可以用于获取内置于摄像模组的测距感应装置检测到的被指定物体与物理页面的接触点与摄像模组的距离，将该被指定物体与物理页面的接触点与摄像模组的距离作为被指定位置与摄像模组的距离，然后判断该距离是否达到指定距离阈值，若达到，判定位置信息满足预设条件。

在一些实施例中，上述的图像获取单元501可以包括以下子单元：

数据获取子单元5011，用于在接收到用于启动查词的用户操作指令时，获取以预设频率采集的针对物理页面的至少一帧预览帧数据。

数据确定子单元5012，用于在根据至少一帧预览帧数据检测到物理页面上任一位置被指定时，确定检测到被指定位置的预览帧数据，并获取确定的预览帧数据的上一帧预览帧数据。

格式转换子单元5013，用于对上一帧预览帧数据进行格式转换，以获得物理页面的预览图像。

在一些实施例中，上述的数据获取子单元5011，具体可以用于在接收到用于启动查词的用户操作指令时，控制设置于学习设备的摄像模组以预设频率采集针对物理页面的至少一帧预览帧数据，并获取摄像模组采集到的至少一帧预览帧数据。

在一些实施例中，图6所示的字符识别装置还可以包括以下单元：

检测单元509，用于在数据获取子单元5011获取以预设频率采集的针对物理页面的至少一帧预览帧数据之后，根据至少一帧预览帧数据，检测用于指定的物体在物理页面上任一位置的指定动作。

位置确定单元510，用于在检测到指定动作稳定时，确定物理页面上与指定动作对应的位置为被指定位置。

在一些实施例中，位置信息为被指定位置在电子屏幕上的位置信息；那么图6所示的字符识别装置还可以包括以下单元：

信息获取单元511，用于在位置确定单元509确定物理页面上与指定动作对应的位置为被指定位置之后，获取被指定位置位于物理页面上的坐标信息。

信息转换单元512，用于将坐标信息转换成被指定位置在电子屏幕上的位置信息。

在一些实施例中，图6所示的字符识别装置还可以包括未图示的预处理单元，用于在获取单元501获取物理页面的预览图像之后，以及特征提取单元506对预览图像进行特征提取以获得图像特征信息之前，对预览图像进行预处理，以获得处理后图像。相应地，上述的特征提取单元506，具体用于对处理后图像进行行特征提取，以获得图像特征信息。

此外，还可以根据区域范围在物理页面上确定出部分页面，仅在被指定位置位于该部分页面上时才对预览图像进行尺寸调大，可以进一步提高字符识别的准确率；以及，还可以识别预览图像中的字符类型，并根据该字符类型对应的关系式来获得与被指定位置的位置信息对应的目标图像尺寸，能够提高目标图像尺寸的确定效率，还能够使得字符识别方法更加智能。

请参阅图7，图7是本申请实施例公开的一种学习设备的结构示意图。如图7所示，该学习设备可以包括：

存储有可执行程序代码的存储器701；

与存储器701耦合的处理器702；

其中，处理器702调用存储器601中存储的可执行程序代码，执行上述各实施例中描述的字符识别方法。

需要说明的是，图7所示的学习设备还可以包括电源、输入按键、扬声器、麦克风、屏幕、RF电路、Wi-Fi模块、蓝牙模块、传感器等未显示的组件，本实施例不作赘述。还可以包括扬声器模组、摄像模组、显示屏、光投射模组、电池模组、无线通信模组(如移动通信模块、WIFI模块、蓝牙模块等)、传感器模组(如接近传感器、压力传感器等)、输入模组(如麦克风、按键)以及用户接口模组(如充电接口、对外供电接口、卡槽、有线耳机接口等)等未显示的部件。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行上述各实施例中描述的字符识别方法。

本申请实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。

本申请实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。

应理解，说明书通篇中提到的“一个实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一些实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。

在本申请所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解上述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本申请实施例公开的一种字符识别方法及装置、学习设备、计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种字符识别方法，其特征在于，包括：

获取物理页面的预览图像；

若所述物理页面上被指定位置的位置信息满足预设条件，根据所述位置信息确定目标图像尺寸；其中，所述预设条件包括所述被指定位置位于所述物理页面上预设区域范围内的部分页面，所述部分页面与摄像模组的距离比剩余页面与所述摄像模组的距离大，所述剩余页面为所述物理页面上除所述部分页面之外的页面；

保持所述预览图像的分辨率不变，将所述预览图像的尺寸调大至所述目标图像尺寸，以获得目标图像；其中，所述目标图像尺寸大于所述预览图像的尺寸；

对所述目标图像进行字符识别。

2.根据权利要求1所述的方法，其特征在于，所述位置信息为所述被指定位置在所述物理页面上的位置信息，所述位置信息包括所述被指定位置在所述物理页面的竖直方向上的纵坐标和所述被指定位置与所述摄像模组的距离中的至少一种。

3.根据权利要求1至2任一项所述的方法，其特征在于，所述获取物理页面的预览图像之后，所述方法还包括：

对所述预览图像进行特征提取，以获得图像特征信息；

根据所述图像特征信息，识别出所述预览图像中包含的字符类型；

获取所述字符类型对应的关系式；所述关系式用于表征所述被指定位置的位置信息与目标图像尺寸之间的关系，根据所述目标图像尺寸对所述预览图像进行尺寸调整后所获得的所述目标图像的字符识别准确率最高；

所述根据所述物理页面上被指定位置的位置信息，确定目标图像尺寸，包括：

将所述物理页面上被指定位置的位置信息输入所述关系式，计算得到目标图像尺寸。

4.根据权利要求1所述的方法，其特征在于，所述获取物理页面的预览图像，包括：

当接收到用于启动查词的用户操作指令时，获取以预设频率采集的针对物理页面的至少一帧预览帧数据；

当根据所述至少一帧预览帧数据检测到所述物理页面上任一位置被指定时，确定检测到所述被指定位置的预览帧数据，并获取确定的预览帧数据的上一帧预览帧数据；

对所述上一帧预览帧数据进行格式转换，以获得所述物理页面的预览图像。

5.根据权利要求4所述的方法，其特征在于，在所述获取以预设频率采集的针对物理页面的至少一帧预览帧数据之后，所述方法还包括：

根据所述至少一帧预览帧数据，检测用于指定的物体在所述物理页面上任一位置的指定动作；

当检测到所述指定动作稳定时，确定所述物理页面上与所述指定动作对应的位置为被指定位置。

6.根据权利要求5所述的方法，其特征在于，所述位置信息为所述被指定位置在电子屏幕上的位置信息，所述确定所述物理页面上与所述指定动作对应的位置为被指定位置之后，所述方法还包括：

获取所述被指定位置位于所述物理页面上的坐标信息；

将所述坐标信息转换成所述被指定位置在电子屏幕上的位置信息。

7.一种字符识别装置，其特征在于，包括：

图像获取单元，用于获取物理页面的预览图像；

尺寸确定单元，用于若所述物理页面上被指定位置的位置信息满足预设条件，根据所述位置信息确定目标图像尺寸；其中，所述预设条件包括所述被指定位置位于所述物理页面上预设区域范围内的部分页面，所述部分页面与摄像模组的距离比剩余页面与所述摄像模组的距离大，所述剩余页面为所述物理页面上除所述部分页面之外的页面；

尺寸调整单元，用于保持所述预览图像的分辨率不变，将所述预览图像的尺寸调大至所述目标图像尺寸，以获得目标图像；其中，所述目标图像尺寸大于所述预览图像的尺寸；

字符识别单元，用于对所述目标图像进行字符识别。

8.一种学习设备，其特征在于，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至6任一项所述的一种字符识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至6任一项所述的一种字符识别方法。