CN111027556A

CN111027556A - 一种基于图像预处理的搜题方法及学习设备

Info

Publication number: CN111027556A
Application number: CN201910178750.0A
Authority: CN
Inventors: 徐杨
Original assignee: Shenzhen China Star Optoelectronics Technology Co Ltd
Current assignee: TCL China Star Optoelectronics Technology Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2020-04-17
Anticipated expiration: 2039-03-11
Also published as: CN111027556B

Abstract

一种基于图像预处理的搜题方法及学习设备，该方法包括：识别第一图像中指定物的颜色；识别所述第一图像中字符的颜色；将所述第一图像中所述指定物的颜色调整为与所述字符的颜色相反的颜色，以得到第二图像；对所述第二图像进行字符识别，以得到待搜索的题目内容，并搜索与所述待搜索的题目内容相对应的学习内容。实施本发明实施例，能够提高图像中字符识别的准确率，从而可以更加准确地识别出用户可能需要搜索的题目，可以提高搜题的准确率，为用户反馈更加符合期望的学习内容。

Description

一种基于图像预处理的搜题方法及学习设备

技术领域

本发明涉及教育技术领域，具体涉及一种基于图像预处理的搜题方法及学习设备。

背景技术

目前，越来越多的学习设备(如家教机、学习平板等)具备搜题功能。大部分的学习设备支持图像搜题：用户使用学习设备拍摄待搜索的题目，而学习设备可以从拍摄图像中识别出相应的题目内容，并根据识别出的题目内容搜索对应的答案或者解题思路等学习内容。

然而，在实践中发现，当拍摄图像中存在与字符颜色相似或者相近的物体时，从拍摄图像中识别出的题目内容存在较多错误，从而导致搜索出的学习内容不符合用户的要求，搜题的准确率较低。

发明内容

本发明实施例公开了一种基于图像预处理的搜题方法及学习设备，能够提高图像中字符识别的准确率，提高搜题的准确率。

本发明实施例第一方面公开一种基于图像预处理的搜题方法，所述方法包括：

识别第一图像中指定物的颜色；

识别所述第一图像中字符的颜色；

将所述第一图像中所述指定物的颜色调整为与所述字符的颜色相反的颜色，以得到第二图像；

对所述第二图像进行字符识别，以得到待搜索的题目内容，并搜索与所述待搜索的题目内容相对应的学习内容。

作为一种可选的实施方式，在本发明实施例第一方面中，所述方法还包括：

从输入的语音信息中识别提问关键词；

识别所述指定物在所述第一图像中指定的第一位置坐标；

以及，所述对所述第二图像进行字符识别，以得到待搜索的题目内容，包括：

根据所述第一坐标位置确定所述指定物在所述第二图像中指定的第二坐标位置；

根据所述提问关键词以及所述第二位置坐标确定所述第二图像中的第二搜索区域的范围；所述第二搜索区域的范围为部分或者全部所述第二图像；

对所述第二搜索区域进行字符识别，以识别结果为待搜索的题目内容。

作为一种可选的实施方式，在本发明实施例第一方面中，所述识别字符的颜色，包括：

根据预设的区域高度确定以所述第一位置坐标为中心的颜色识别区域的范围；所述区域高度用于指示所述颜色识别区域包含的字符行数；

识别所述颜色识别区域内字符的颜色；

以及，所述将所述第一图像中所述指定物的颜色调整为与所述字符的颜色相反的颜色，以得到第二图像，包括：

判断所述指定物的颜色以及所述颜色识别区域内字符的颜色的色差是否低于预设的阈值；

如果所述色差低于所述阈值，将所述第一图像中所述指定物的颜色调整为与所述颜色识别区域内字符的颜色相反的颜色，以得到第二图像。

如果所述色差不低于所述阈值，根据所述提问关键词以及所述第一位置坐标确定所述第一图像中的第一搜索区域的范围；所述第一搜索区域的范围为部分或者全部所述第一图像；

对所述第一搜索区域进行字符识别，以识别结果为待搜索的题目内容，并执行所述搜索与所述待搜索的题目内容相对应的学习内容的步骤。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述识别第一图像中指定物的颜色之前，所述方法还包括：

在检测到预设的语音唤醒词时，控制学习设备的拍摄模组拍摄反光装置中的镜像作为第一图像；其中，所述反光装置装设在所述学习设备上，并且所述反光装置的镜面与所述拍摄模组的镜头面成预设的角度。

本发明实施例第二方面公开一种学习设备，包括：

第一识别单元，用于识别第一图像中指定物的颜色；

第二识别单元，用于识别所述第一图像中字符的颜色；

调整单元，用于将所述第一图像中所述指定物的颜色调整为与所述字符的颜色相反的颜色，以得到第二图像；

第三识别单元，用于对所述第二图像进行字符识别，以得到待搜索的题目内容；

搜索单元，用于搜索与所述待搜索的题目内容相对应的学习内容。

作为一种可选的实施方式，在本发明实施例第二方面中，还包括：

第四识别单元，用于从输入的语音信息中识别提问关键词；

第五识别单元，用于识别所述指定物在所述第一图像中指定的第一位置坐标；

以及，所述第三识别单元，包括：

位置确定子单元，用于根据所述第一坐标位置确定所述指定物在所述第二图像中指定的第二坐标位置；

范围确定子单元，用于根据所述提问关键词以及所述第二位置坐标确定所述第二图像中的第二搜索区域的范围；所述第二搜索区域的范围为部分或者全部所述第二图像；

字符识别子单元，用于对所述第二搜索区域进行字符识别，以识别结果为待搜索的题目内容。

作为一种可选的实施方式，在本发明实施例第二方面中，所述第二识别单元，包括：

区域确定子单元，用于根据预设的区域高度确定以所述第一位置坐标为中心的颜色识别区域的范围；所述区域高度用于指示所述颜色识别区域包含的字符行数；

颜色识别子单元，用于识别所述颜色识别区域内字符的颜色；

以及，所述调整单元，包括：

判断子单元，用于判断所述指定物的颜色以及所述颜色识别区域内字符的颜色的色差是否低于预设的阈值；

调整子单元，用于在所述判断子单元判断出所述色差低于所述阈值时，将所述第一图像中所述指定物的颜色调整为与所述颜色识别区域内字符的颜色相反的颜色，以得到第二图像。

作为一种可选的实施方式，在本发明实施例第二方面中：

所述范围确定子单元，还用于在所述判断子单元判断出所述色差不低于所述阈值时，根据所述提问关键词以及所述第一位置坐标确定所述第一图像中的第一搜索区域的范围；所述第一搜索区域的范围为部分或者全部所述第一图像；

所述字符识别子单元，还用于对所述第一搜索区域进行字符识别，以识别结果为待搜索的题目内容。

控制单元，用于在检测到预设的语音唤醒词时，控制所述学习设备的拍摄模组拍摄反光装置中的镜像作为第一图像；其中，所述反光装置装设在所述学习设备上，并且所述反光装置的镜面与所述拍摄模组的镜头面成预设的角度。

本发明实施例第三方面公开一种学习设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的任一项方法。

本发明第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的任一项方法。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的任一项方法。

与现有技术相比，本发明实施例具有以下有益效果：

在识别出第一图像中指定物的颜色以及字符的颜色之后，先将图像中指定物的颜色调整为与字符的颜色相反，得到第二图像；颜色调整之后第二图像中字符的颜色与指定物的颜色差距较大，因此在对第二图像进行字符识别时，指定物对字符识别的影响较小，从而可以提高图像中字符识别的准确率，更加准确地识别出用户可能需要搜索的题目，进而可以提高搜题的准确率，为用户反馈更加符合期望的学习内容。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于图像预处理的搜题方法的流程示意图；

图2是本发明实施例公开的一种对图像进行二值化之后得到的示例图；

图3是本发明实施例公开的另一种对图像进行二值化之后得到的示例图；

图4是本发明实施例公开的一种将字符投影至Y轴后得到的直方图的示例图；

图5是本发明实施例公开的另一种基于图像预处理的搜题方法的流程示意图；

图6是本发明实施例公开的又一种基于图像预处理的搜题方法的流程示意图；

图7是本发明实施例公开的一种学习设备拍摄图像的拍摄过程示例图；

图8是本发明实施例公开的一种学习设备的结构示意图；

图9是本发明实施例公开的另一种学习设备的结构示意图；

图10是本发明实施例公开的又一种学习设备的结构示意图；

图11是本发明实施例公开的再一种学习设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种基于图像预处理的搜题方法及学习设备，提高图像中字符识别的准确率，提高搜题的准确率。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于图像预处理的搜题方法的流程示意图。其中，图1所描述的基于图像预处理的搜题方法适用于家教机、学习机、学习平板等学习设备，本发明实施例不做限定。其中，上述的学习设备的操作系统可包括但不限于Android操作系统、IOS操作系统、Symbian(塞班)操作系统、Black Berry(黑莓)操作系统、Windows Phone8操作系统等等，本发明实施例不做限定。如图1所示，该基于图像预处理的搜题方法可以包括以下步骤：

101、学习设备识别第一图像中指定物的颜色。

本发明实施例中，第一图像可以为学习设备的拍摄模组拍摄到的图像，也可以为与学习设备存在通信连接的电子设备的拍摄模组拍摄到的图像。举例来说，与学习设备存在通信连接的电子设备可以为智能台灯，该智能台灯装设有摄像头；当智能台灯放置在桌面上时，智能台灯的摄像头的镜头面朝向桌面，可以拍摄到桌面及放置在桌面上的物体的图像。因此，智能台灯可以在拍摄到第一图像之后，通过Wi-Fi、蓝牙、4G、5G或者有线数据传输方式将第一图像发送至学习设备。

此外，指定物为用户用于指定某个内容时所使用的物体，可以为预设的特定物体，比如人类的手部或者笔、尺子等文具。

作为一种可选的实施方式，学习设备具体可以通过指定物的定位以及指定物定位区域的颜色统计两个步骤进行指定物颜色的识别。其中，指定物的定位可以通过特征匹配、卷积神经网络(Convolutional Neural Networks,CNN)等方式在第一图像中识别出指定物，并且确定指定物在第一图像中的位置，从而可以在第一图像中确定指定物的图像区域作为上述的定位区域；通过统计定位区域中的像素颜色，可以识别出指定物的颜色。优选的，当指定物为人类的手部时，可以直接通过基于RGB的皮肤检测、基于椭圆皮肤模型的皮肤检测等肤色识别模型从第一图像中识别出手部所处的图像区域作为上述地定位区域；通过统计定位区域中地像素颜色，识别出手部的颜色。

作为另一种可选的实施方式，如果指定物为人类的手部，第一图像中手部的颜色也可以直接设定为预设的肤色，本发明是实施例不做限定。

102、学习设备识别第一图像中字符的颜色。

本发明实施例中，字符可以包括中文文字、英文文字等各个国家的文字、标点符号、图形符号、数字等，本发明实施例不做限定。

作为一种可选的实施方式，学习设备具体可以通过深度学习等方式在第一图像中定位出文本区域(即包含字符的区域)，通过分析文本区域中不同颜色的占比，确定出文本区域中的前景部分(字符)以及后景部分(背景)，从而识别出字符的颜色。在搜题的场景下，大部分的字符来源于书本、试卷、练习册等学习资料，这些学习资料上的字符颜色大部分为黑色；可选的，可以将第一图像中的字符颜色直接设定为黑色。

103、学习设备将第一图像中指定物的颜色调整为与字符的颜色相反的颜色，以得到第二图像。

本发明实施例中，可以理解的是，在RGB、HSV等颜色空间中，可以通过一个唯一的数值表示某一种颜色；学习设备在识别出字符的颜色之后，通过对字符的颜色取反，即可得到与字符的颜色相反的颜色；或者，基于预先设定的互补色之间的对应关系，查找出与字符的颜色互补的颜色作为与字符的颜色相反的颜色。

基于上述的步骤101中识别出的指定物的定位区域，进一步还可以通过边缘检测等方式修正指定物的轮廓，从而较为准确地选定图像中的指定物；将选定区域中的像素颜色修改为与字符颜色相反的颜色，可以完成指定物的颜色调整。

104、学习设备对第二图像进行字符识别，以得到待搜索的题目内容，并搜索与待搜索的题目内容相对应的学习内容。

本发明实施例中，具体可以通过OCR进行字符识别。OCR一般包括图像预处理、文字识别、识别结果优化等操作；其中，图像预处理通常包括以下几个步骤：灰度化、二值化、降噪、倾斜校正、字符切分等。

二值化的原理为通过选取适当的灰度阈值，将位于灰度阈值一侧的像素设置为黑色，将位于灰度阈值另一侧的像素设置为白色。当指定物与字符的颜色相近时，指定物与字符可能同时位于灰度阈值的同一侧，在二值化时被设定为相同的颜色；当指定物与字符的颜色相反时，指定物与字符很可能分别位于灰度阈值的两侧，在二值化时被设定为相反的颜色。请一并参阅图2及图3，图2是本发明实施例公开的一种对图像进行二值化之后得到的示例图，图3是本发明实施例公开的另一种对图像进行二值化之后得到的示例图。在图2及图3中，指定物为人类的手部，图2为手的颜色与字符的颜色相近时，可能得到的二值化结果；图3为手的颜色与字符的颜色相反时，可能得到的二值化结果，其中，图3中虚线方框用于示出手的位置，可以理解的是，在实际的二值化结果中不存在虚线方框。

进一步地，上述的字符切分包括行切分和字符切分。行切分具体为将字符投影至Y轴，并累加投影值，得到Y轴上的直方图(如图4所示)；直方图的谷底为背景，直方图的峰值为字符所在区域，从而可以识别出每一字符行。继续以图2及图3为例，可以理解的是，如果二值化结果为如图2所示的图像，指定物(如手)会影响字符行的划分，可能会导致指定的单词“FASHION”所在的字符行无法与其下方的字符行划分开；如果二值化结果为如图3所示的图像，可以正常进行字符行的划分。可见，将指定物的颜色调整为与字符的颜色相反的颜色，可以减少指定物对字符识别的影响，尤其是减少指定物对字符切分的影响，从而可以使得学习设备可以更加准确地识别出待搜索的题目内容。

此外，在本发明实施例中，待搜索的题目内容为字符识别后的识别结果，可以包括但不限于问答题的题目、选择题的题目、作文题的题目、独立的单词、字、词组、句子等。

可见，在图1所描述的方法中，将拍摄图像中指定物的颜色调整为与字符颜色相反的颜色，可以提高从图像中识别出待搜索的题目内容的准确率，从而提高搜题的准确率，为用户反馈更加符合期望的学习内容。

实施例二

请参阅图5，图5是本发明实施例公开的另一种基于图像预处理的搜题方法的流程示意图。如图5所示，该基于图像预处理的搜题方法包括以下步骤：

501、学习设备识别第一图像中指定物的颜色，指定物在第一图像中指定的第一位置坐标，以及第一图像中字符的颜色。

本发明实施例中，在识别出指定物在第一图像中的定位区域之后，还可以进一步识别指定物的特定部位在第一图像中的位置。举例来说，可以识别手指的指尖或者笔的笔尖在第一图像中的位置，以得到指尖或者笔尖在第一图像中指定的第一位置坐标。

502、学习设备从输入的语音信息中识别提问关键词。

本发明实施例中，学习设备还可以具有语音输入功能，语音信息可以由用户输入，通过语音识别技术可以从语音信息中识别出预设的提问关键词。其中，提问关键词可以包括但不限于以下单词及词组：“字”、“字母”、“词”、“句”、“题”、“怎么做”、“怎么读”、“什么意思”、“怎么写”。

503、学习设备将第一图像中指定物的颜色调整为与字符的颜色相反的颜色，以得到第二图像。

504、学习设备根据第一坐标位置确定指定物在第二图像中指定的第二坐标位置。

本发明实施例中，第一图像中的部分像素色彩调整之后可以得到第二图像，作为一种可选的实施方式，可以将第一坐标位置的值直接确定为第二坐标位置的值，即第一坐标位置与第二坐标位置相同。

505、学习设备根据提问关键词以及第二位置坐标确定第二图像中的第二搜索区域的范围。

本发明实施例中，不同的提问关键词可以对应不同的搜索区域范围，进一步地，考虑到第二位置坐标为指定物在图像中指定的位置，可以对第二位置坐标上方的图像区域进行搜索。

举例来说，如果用户输入的语音信息为“这道题怎么做”，可以识别出提问关键词为“题”，那么对应的第二搜索区域的范围可以如下：以经过第二位置坐标的线段为第二搜索区域的下方边界，包括属于同一道题目的字符行；其中，下方边界平行于字符行，并且可以通过字符行之间的间距识别两个字符行是否属于同一道题目；如果两个相邻的字符行之间的间距小于预设的行间距，可以认为这两个相邻的字符行属于同一道题目；否则，可以认为这两个相邻的字符行属于不同的题目；

又比如说，如果用户输入的语音信息为“这个单词怎么读”，可以识别出提问关键词为“单词”，那么对应的第二搜索区域的范围可以如下：以经过第二位置坐标的线段为第二搜索区域的下方边界，包括属于同一个单词的字符；其中，下方边界平行于与下方边界最接近的字符；以及，可以通过字符之间的间距识别两个字符是否属于同一个单词；如果两个相邻的字符之间的间距小于预设的字间距，可以认为这两个相邻的字符属于同一个单词；否则，可以认为这两个相邻的字符属于不同的单词；

此外，如果用户输入的语音信息为“这个字什么意思”，可以识别出提问关键词为“字”，那么对应的第二搜索区域的范围可以如下：以经过第二位置坐标的线段为第二搜索区域的下方边界，包括最接近第二位置坐标的一个字符；其中，通过字符切分可以将字符行中的字符切分为单独的字符，从而可以基于第二位置坐标确定出最接近第二位置坐标的一个字符。

可以理解的是，针对“字母”、“词”、“句”等提问关键词，对应的第二搜索区域的范围包含与“字母”、“词”、“句”等语言结构相对应的字符数量。可见，第二搜索区域的范围可以为部分或者全部的第二图像。通过实施步骤505，可以减少需要进行字符识别的区域范围，从而减少字符识别的计算量，可以提高字符识别的速度；并且，可以使得字符识别的对象准确地包含用户指定的内容，尽可能减少对用户不关心的内容进行字符识别，可以在搜索时减少不必要的干扰因素，提高搜索的准确率。

此外，在另一些可能的实施方式中，第二位置坐标限定的还可以是第二搜索区域的上方边界或者两侧边界中的任意一侧；具体地，可以通过用户输入的指定方向确定第二位置坐标限定的是第二搜索区域的下方边界、上方边界、左侧边界、右侧边界中的哪一条边界。进一步地，用户可以通过语音输入指定方向。比如说，用户输入的语音信息可以为“下面这个词什么意思”，可以识别出指定方向为下，那么第二位置坐标限定的是第二搜索区域的上方边界；如果用户输入的语音信息为“左边这个单词怎么读”，可以识别出指定方向为左，那么第二位置坐标限定的是第二搜索区域的右侧边界。通过识别用户输入的指定方向，可以更准确地确定第二搜索区域的范围，从而更准确地识别出用户所指定的内容。

506、学习设备对第二搜索区域进行字符识别，以识别结果为待搜索的题目内容。

507、学习设备搜索与待搜索的题目内容相对应的学习内容。

本发明实施例中，学习设备将搜索到的与待搜索的题目内容相关的所有内容作为相对应的学习内容。

作为另一种可选的实施方式，学习设备还可以识别语音信息包含的提问关键词中与用户意图相关的关键词，比如“怎么做”、“怎么读”、“什么意思”、“怎么写”等。如果语音信息包含的提问关键词中包括“怎么做”，那么可以将与待搜索的题目内容对应的题目答案和/或解题思路作为学习内容；如果语音信息包含的提问关键词中包括“怎么读”，那么可以将与待搜索的题目内容对应的读音作为学习内容；如果语音信息包含的提问关键词中包括“什么意思”，那么可以将与待搜索的题目内容对应的字词释义作为学习内容；如果语音信息包括的提问关键词中包括“怎么写”，那么可以将与待搜索的题目内容对应的笔顺作为学习内容。也就是说，学习设备可以搜索与待搜索的题目内容相关并且与用户意图相对应的内容作为学习内容。

可见，在图5所示的方法中，基于字符的颜色调整指定物的颜色，可以减少指定物的颜色对字符识别的影响，从而提高字符识别的准确率，提高搜题的准确率；此外，通过识别语音信息中的提问关键词，并根据不同的提问关键词确定不同的第二搜索区域范围，可以尽可能减少对用户不关心的内容进行字符识别，可以在搜索时减少不必要的干扰因素，进一步提高搜题的准确率，还可以减少字符识别的计算量，提高字符识别的速度。

实施例三

请参阅图6，图6是本发明实施例公开的又一种基于图像预处理的搜题方法的流程示意图。如图6所示，该基于图像预处理的搜题方法包括以下步骤：

601、学习设备在检测到预设的语音唤醒词时，控制其拍摄模组拍摄反光装置中的镜像作为第一图像。

本发明实施例中，反光装置装设在学习设备上，并且反光装置的镜面与拍摄模组的镜头面成预设的角度。请一并参阅图7，图7是一种学习设备拍摄图像的拍摄过程示例图。如图7所示，学习设备控制拍摄模组拍摄反光装置中的镜像作为第一图像的方式可以为：图中学习设备10可以设置有拍摄模组20，拍摄模组20用于拍摄以获得图像；在拍摄模组20正前方还可以设置有反光装置30(例如，反光镜、棱镜或凸透镜等)，反光装置30用于改变拍摄模组的光路，进而使得拍摄模组20拍摄到载体图40。通过使学习设备10的拍摄模组20拍摄到载体图40在反光装置30中的成像，而不用手动改变学习设备10的放置方式，能够简化拍摄过程，提高拍摄效率。其中，载体图40具体可以为放置在桌面上的书本、练习册、绘本、试卷等，本发明实施例不做限定。

此外，语音唤醒词可以设定为日常对话中使用频率较低的词语，从而可以减少拍摄功能的误触发；以及，在检测到语音唤醒词之后，再启动拍摄模组进行拍摄，使得拍摄模组无需保持常开的状态，可以减少功耗。

602、学习设备从输入的语音信息中识别提问关键词。

603、学习设备识别第一图像中指定物的颜色，以及指定物在第一图像中指定的第一位置坐标。

604、学习设备根据预设的区域高度确定以第一位置坐标为中心的颜色识别区域的范围，并识别颜色识别区域内字符的颜色。

本发明实施例中，上述的区域高度用于指示颜色识别区域包含的字符行数。假设区域高度指示颜色识别区域包含N个字符行(N为正整数，可以基于经验人为设定)，那么可以选取第一位置坐标上方最接近第一位置坐标的N/2个字符行以及第一位置坐标下方最接近第一位置坐标的N/2个字符行作为颜色识别区域；或者，如果第一位置坐标下方的字符行被指定物遮挡，可以认为一般不需要对第一位置坐标下方的字符行进行字符识别，那么可以选取第一位置坐标下方最接近第一位置坐标的1个字符行以及第一位置坐标上方最接近第一位置坐标的N-1个字符行作为颜色识别区域；其中，识别下方最接近第一位置坐标的1个字符行中字符的颜色，可以判断指定物的颜色与下方最接近第一位置坐标的1个字符行中字符的颜色是否较为相近时，从而可以在相近时调整指定物的颜色，进而在对第一位置坐标上方及下方最接近第一位置坐标的相邻两个字符行进行分割时，减少指定物的颜色对分割的影响。

实施上述的实施方式，只需对指定物附近一定范围内的字符进行颜色识别，缩小对字符进行颜色识别的范围，可以缩短字符识别所需的时间。

605、学习设备判断指定物的颜色以及颜色识别区域内字符的颜色的色差是否低于预设的阈值，如果是，执行步骤606～步骤608，如果否，执行步骤609～步骤610。

本发明实施例中，如果色差低于阈值，可以认为指定物的颜色与字符的颜色相近，那么执行步骤606～608对指定物的颜色进行调整，并且对调整后生成的图像进行字符识别；否则，可以认为指定物的颜色与字符的颜色相差较多，那么可以对指定物的颜色不进行调整，直接对第一图像进行字符识别，从而可以减少操作步骤，进一步缩短字符识别所需的时间。其中，预设的阈值可以根据二值化时的灰度阈值进行设置。

606、学习设备将第一图像中指定物的颜色调整为与颜色识别区域内字符的颜色相反的颜色，以得到第二图像。

607、学习设备根据第一坐标位置确定指定物在第二图像中指定的第二坐标位置，根据识别出的提问关键词以及第二位置坐标确定第二图像中的第二搜索区域的范围。

608、学习设备对第二搜索区域进行字符识别，以识别结果为待搜索的题目内容，并直接执行步骤611。

609、学习设备根据是被出的提问关键词以及第一位置坐标确定第一图像中的第一搜索区域的范围。

本发明实施例中，步骤609的具体实施方式与实施例二中步骤505相同，学习设备基于不同的提问关键词对应不同的搜索区域范围，以下内容不再赘述。

610、学习设备对第一搜索区域进行字符识别，以识别结果为待搜索的题目内容，并执行步骤611。

611、学习设备搜索与待搜索的题目内容相对应的学习内容。

可见，在图6所描述的方法中，基于字符的颜色调整指定物的颜色，可以减少指定物的颜色对字符识别的影响，从而提高字符识别的准确率；还可以基于不同的提问关键词对应不同的搜索区域范围，可以减少不必要的干扰因素，进一步提高搜题的准确率，还可以减少字符识别的计算量，提高字符识别的速度。此外，图6所描述的方法还可以在检测到语音唤醒词之后，再启动拍摄模组进行拍摄，使得拍摄模组无需保持常开的状态，可以减少功耗；进一步地，通过拍摄模组拍摄反光装置中的成像，而不用手动改变学习设备的放置方式，能够简化拍摄过程，提高拍摄效率。更进一步地，还可以通过设定颜色识别区域，缩小对字符进行颜色识别的范围，以及在指定物与字符颜色相差较大时，直接对第一图像进行字符识别，从而可以缩短字符识别所需的时间，提高学习设备的响应速度，改善用户体验。

实施例四

请参阅图8，图8是本发明实施例公开的一种学习设备的结构示意图。如图8所示，该学习设备可以包括：

第一识别单元801，用于识别第一图像中指定物的颜色；

本发明实施例中，第一识别单元801可以获取学习设备的拍摄模组拍摄到的图像作为第一图像，也可以获取与学习设备存在通信连接的电子设备拍摄到的图像作为第一图像；指定物为用户用于指定某个内容时所使用的物体，可以为预设的特定物体，比如人类的手部或者笔、尺子等文具；具体地，第一识别单元801可以通过指定物的定位以及指定物定位区域的颜色统计两个步骤进行指定物颜色的识别。可选的，如果指定物为人类的手部，第一识别单元801也可以将第一图像中手部的颜色直接设定为预设的肤色；

第二识别单元802，用于识别第一图像中字符的颜色；

本发明实施例中，第二识别单元802具体可以通过深度学习等方式在第一图像中定位出文本区域(即包含字符的区域)，通过分析文本区域中不同颜色的占比，确定出文本区域中的前景部分(字符)以及后景部分(背景)，从而识别出字符的颜色；可选的，第二识别单元802也可以将第一图像中的字符颜色直接设定为黑色；

调整单元803，用于将第一识别单元801识别出的第一图像中指定物的颜色调整为与第二识别单元802识别出的字符的颜色相反的颜色，以得到第二图像；

本发明实施例中，调整单元803可以通过对字符的颜色取反，即可得到与字符的颜色相反的颜色；或者，基于预先设定的互补色之间的对应关系，查找出与字符的颜色互补的颜色作为与字符的颜色相反的颜色；

第三识别单元804，用于对第二图像进行字符识别，以得到待搜索的题目内容；

搜索单元805，用于搜索与待搜索的题目内容相对应的学习内容。

可见，实施如图8所示的学习设备，可以将拍摄图像中指定物的颜色调整为与字符颜色相反的颜色，可以提高从图像中识别出待搜索的题目内容的准确率，从而提高搜题的准确率，为用户反馈更加符合期望的学习内容。

实施例五

请参阅图9，图9是本发明实施例公开的另一种学习设备的结构示意图。其中，图9所示的学习设备是由图8所示的学习设备进行优化得到的。如图9所示，该学习设备还可以包括：

第四识别单元806，用于从输入的语音信息中识别提问关键词；其中，提问关键词可以包括但不限于以下单词及词组：“字”、“字母”、“词”、“句”、“题”、“怎么做”、“怎么读”、“什么意思”、“怎么写”；

第五识别单元807，用于识别指定物在第一图像中指定的第一位置坐标；其中，可以通过识别指定物的特定部位在第一图像中的位置作为第一位置坐标；

相应地，上述的第三识别单元804，具体可以包括：

位置确定子单元8041，用于根据第一坐标位置确定指定物在第二图像中指定的第二坐标位置；其中，可以将第一坐标位置的值直接确定为第二坐标位置的值，即第一坐标位置与第二坐标位置相同；

范围确定子单元8042，用于根据第四识别单元806识别出的提问关键词以及位置确定子单元8041确定出的第二位置坐标确定第二图像中的第二搜索区域的范围；

本发明实施例中，不同的提问关键词可以对应不同的搜索区域范围，每个提问关键词对应的第二搜索区域的范围包含与该提问关键词相对应的字符数量；比如说，提问关键词“题”对应的第二搜索区域的范围以经过第二位置坐标的线段为第二搜索区域的下方边界，包括属于同一道题目的字符行；可见，第二搜索区域的范围可以为部分或者全部第二图像；

可选的，范围确定子单元8042还可以识别第四识别单元806识别出的提问关键词中包含的指定方向，并根据指定方向确定第二位置坐标限定的是第二搜索区域的下方边界、上方边界、左侧边界、右侧边界中的哪一条边界；

字符识别子单元8043，用于对第二搜索区域进行字符识别，以识别结果为待搜索的题目内容；

可选的，在图9所示的学习设备中，搜索单元用于805搜索与待搜索的题目内容相对应的学习内容的方式具体可以为：

搜索单元805，用于识别语音信息包含的提问关键词中与用户意图相关的关键词；搜索与待搜索的题目内容相关并且与用户意图相对应的内容作为学习内容。

可见，实施如图9所示的学习设备，基于字符的颜色调整指定物的颜色，可以减少指定物的颜色对字符识别的影响，从而提高字符识别的准确率，提高搜题的准确率；此外，通过识别语音信息中的提问关键词，并根据不同的提问关键词确定不同的第二搜索区域范围，可以尽可能减少对用户不关心的内容进行字符识别，可以在搜索时减少不必要的干扰因素，进一步提高搜题的准确率，还可以减少字符识别的计算量，提高字符识别的速度。

实施例六

请参阅图10，图10是本发明实施例公开的又一种学习设备的结构示意图。其中，图10所示的学习设备是由图9所示的学习设备进行优化得到的。如图10所示，在该学习设备中：

上述的第二识别单元802，具体可以包括：

区域确定子单元8021，用于根据预设的区域高度确定以第五识别单元807识别出的第一位置坐标为中心的颜色识别区域的范围；上述的区域高度用于指示颜色识别区域包含的字符行数；假设区域高度指示颜色识别区域包含N个字符行(N为正整数，可以基于经验人为设定)，那么区域确定子单元8021，具体可以选取第一位置坐标上方最接近第一位置坐标的N/2个字符行以及第一位置坐标下方最接近第一位置坐标的N/2个字符行作为颜色识别区域；或者，在第一位置坐标下方的字符行被指定物遮挡时，选取第一位置坐标下方最接近第一位置坐标的1个字符行以及第一位置坐标上方最接近第一位置坐标的N-1个字符行作为颜色识别区域；

颜色识别子单元8022，用于识别颜色识别区域内字符的颜色；

相应地，上述的调整单元803，具体可以包括：

判断子单元8031，用于判断指定物的颜色以及颜色识别区域内字符的颜色的色差是否低于预设的阈值；

调整子单元8032，用于在判断子单元8031判断出色差低于阈值时，将第一图像中指定物的颜色调整为与颜色识别区域内字符的颜色相反的颜色，以得到第二图像。

可以理解的是，上述的调整子单元8032对第一图像进行颜色调整，得到第二图像之后，可以触发位置确定子单元8041执行根据第一坐标位置确定指定物在第二图像中指定的第二坐标位置的操作，以使范围确定子单元8042根据第四识别单元806识别出的提问关键词以及位置确定子单元8041确定出的第二位置坐标确定第二图像中的第二搜索区域的范围，并触发字符识别子单元8043对第二搜索区域进行字符识别，以识别结果为待搜索的题目内容。

此外，上述的范围确定子单元8042，还用于在判断子单元8031判断出色差不低于阈值时，根据第四识别单元806提问关键词以及第五识别单元807识别出的第一位置坐标确定第一图像中的第一搜索区域的范围；其中，第一搜索区域的范围为部分或者全部第一图像；

上述的字符识别子单元8043，还用于对第一搜索区域进行字符识别，以识别结果为待搜索的题目内容。

可选的，图10所示的学习设备还可以包括：

控制单元808，用于在检测到预设的语音唤醒词时，控制学习设备的拍摄模组拍摄反光装置中的镜像作为第一图像，以触发第一识别单元801识别第一图像中指定物的颜色、触发第二识别单元802识别第一图像中字符的颜色、触发第五识别单元807识别指定物在第一图像中指定的第一位置坐标；

其中，反光装置装设在学习设备上，并且反光装置的镜面与拍摄模组的镜头面成预设的角度。通过拍摄模组拍摄反光装置中的成像，而不用手动改变学习设备的放置方式，能够简化拍摄过程，提高拍摄效率。

可见，实施如图10所示的学习设备，可以基于字符的颜色调整指定物的颜色，减少指定物的颜色对字符识别的影响，从而提高字符识别的准确率；还可以基于不同的提问关键词对应不同的搜索区域范围，可以减少不必要的干扰因素，进一步提高搜题的准确率，并且减少字符识别的计算量，提高字符识别的速度。进一步地，还可以在检测到语音唤醒词之后，再启动拍摄模组进行拍摄，以减少功耗；通过拍摄模组拍摄反光装置中的成像，而不用手动改变学习设备的放置方式，能够简化拍摄过程，提高拍摄效率；更进一步地，还可以通过设定颜色识别区域，缩小对字符进行颜色识别的范围，以及在指定物与字符颜色相差较大时，直接对第一图像进行字符识别，从而可以缩短字符识别所需的时间，提高学习设备的响应速度，改善用户体验

实施例七

请参阅图11，图11是本发明实施例公开的另一种学习设备的结构示意图。如图11所示，该学习设备可以包括：

存储有可执行程序代码的存储器901；

与存储器901耦合的处理器902；

其中，处理器902调用存储器901中存储的可执行程序代码，执行图1、图5及图6所示的任一种基于图像预处理的搜题方法。

需要说明的是，图11所示的学习设备还可以包括电源、输入按键、扬声器、麦克风、屏幕、RF电路、Wi-Fi模块、蓝牙模块、传感器等未显示的组件，本实施例不作赘述。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行图1、图5及图6所示的任一种基于图像预处理的搜题方法。

本发明实施例公开一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行图1、图5及图6所示的任一种基于图像预处理的搜题方法。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种基于图像预处理的搜题方法及学习设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于图像预处理的搜题方法，其特征在于，包括：

识别第一图像中指定物的颜色；

识别所述第一图像中字符的颜色；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从输入的语音信息中识别提问关键词；

识别所述指定物在所述第一图像中指定的第一位置坐标；

3.根据权利要求2所述的方法，其特征在于，所述识别字符的颜色，包括：

识别所述颜色识别区域内字符的颜色；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1～4任一项所述的方法，其特征在于，在所述识别第一图像中指定物的颜色之前，所述方法还包括：

6.一种学习设备，其特征在于，包括：

第一识别单元，用于识别第一图像中指定物的颜色；

第二识别单元，用于识别所述第一图像中字符的颜色；

7.根据权利要求6所述的学习设备，其特征在于，还包括：

第四识别单元，用于从输入的语音信息中识别提问关键词；

以及，所述第三识别单元，包括：

8.根据权利要求7所述的学习设备，其特征在于，所述第二识别单元，包括：

以及，所述调整单元，包括：

9.根据权利要求8所述的学习设备，其特征在于：

10.根据权利要求6～9任一项所述的学习设备，其特征在于，还包括：