CN110060524A

CN110060524A - 一种机器人辅助阅读的方法及阅读机器人

Info

Publication number: CN110060524A
Application number: CN201910365285.1A
Authority: CN
Inventors: 李飞行; 朱向军; 钟宇文; 刘火根; 陈泽伟
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-07-26

Abstract

本发明公开了一种机器人辅助阅读的方法，包括：获取用户阅读的书本的名称和版本号；根据书本的名称和版本号，查找到对应的点读目标书本；获取用户当前阅读的书页图像，识别当前阅读的书页在点读目标书本中的目标点读页的页码；采集用户的语音信息，获取相应的阅读指令；获取用户的指读图像，定位用户手指在目标点读页中的位置；根据阅读指令及用户手指在目标点读页中的位置，获取相应的语音内容进行播放。此外，本发明还公开了一种阅读机器人，小朋友可以通过阅读机器人辅助阅读，通过手指在书本的点击操作和对内容的直接询问，可以帮助小朋友快速学习到读书过程中遇到的生、字词，以帮助培养他的阅读习惯。

Description

一种机器人辅助阅读的方法及阅读机器人

技术领域

本发明涉及机器人领域，尤其涉及一种机器人辅助阅读的方法及阅读机器人。

背景技术

小朋友在成长中会接触许多纸质书本，包括课本也依然以纸质的形式存在，许多课本都会涉及知识点的认知，尤其是英语课本。但是小朋友的认字、识字是一个比较漫长的过程，常常需要借助一些阅读，在阅读过程中掌握对生字、词的用法。

现在的图像识别技术能支持整本书的内容识别，但是对书的版本识别和小孩手指点读功能都没有很好地解决。有的应用甚至需要配备特殊的垫子或者标记。

而小朋友在遇到书本中的不认识的字词时，请教家长或者查字典都会影响他读书的连贯性。因此如何帮助小朋友直接的学会这些生字非常对他们培养阅读习惯非常有帮助。而传统的方式可以帮助小朋友对生字词的理解，但是操作、或者使用条件比较复杂。

发明内容

本发明提供一种机器人辅助阅读的方法及阅读机器人，用以帮助小朋友快速学习到读书过程中遇到的生、字词，帮助培养他的阅读习惯。具体的，本发明的技术方案如下：

一方面，本发明公开了一种机器人辅助阅读的方法，包括：

获取用户阅读的书本的名称和版本号；

根据所述书本的名称和版本号，查找到对应的点读目标书本；

获取所述用户当前阅读的书页图像，识别当前阅读的书页在所述点读目标书本中的目标点读页的页码；

采集所述用户的语音信息，获取相应的阅读指令；

获取所述用户的指读图像，定位所述用户手指在所述目标点读页中的位置；

根据所述阅读指令及所述用户手指在所述目标点读页中的位置，获取相应的语音内容进行播放。

优选地，所述获取所述用户阅读的书本的名称和版本号包括：

获取所述用户阅读的书本的封面图像和背面图像；

对所述封面图像及背面图像进行图像预处理；

识别所述封面图像中的文字信息，获取所述书本的名称；

识别所述书本的背面图像中的条形码，获取所述书本的版本号。

优选地，所述识别所述书本的背面图像中的条形码，获取所述书本的版本号包括：

根据预置的条形码的位置区域信息，从所述书本的背面图像中截取条形码区域图像；

对所述条形码区域图像进行二值化处理；

获取所述条形码区域图像中黑条和白条的宽度信息；

根据所述黑条和白条的宽度信息，结合预设的解码规则进行解码，获取条形码编码。

优选地，所述获取所述用户的指读图像，定位所述用户手指在所述点读页码中的位置包括：

实时采集所述用户的指读图像；

识别所述指读图像中所述用户的手指；

从所述指读图像中获取所述用户的手指的像素坐标，以及当前阅读的书页的边框的像素位置坐标，结合所述当前阅读的书页的边框的实际坐标位置，定位所述用户的手指相对所述目标点读页的边框的实际位置。

优选地，所述采集所述用户的语音信息，获取相应的阅读指令包括：

实时采集所述用户的语音信息；

解析所述语音信息，获取所述语音信息对应的语义；

根据所述语音信息对应的语义，选取对应的阅读指令。

优选地，所述根据所述阅读指令及所述用户手指在所述目标点读页码中的位置，获取相应的语音内容进行播放包括：

当所述阅读指令为阅读用户手指指向的字词时：

根据所述用户手指在所述目标点读页中的位置，获取所述用户手指指向的目标字词；

将所述目标字词合成为目标字词语音；

播放所述目标字词语音，并显示所述目标字词的拼音及汉字；

当所述阅读指令为从用户手指指向的地方开始阅读时：

根据所述用户手指在所述目标点读页中的位置，获取在所述目标点读页中阅读的起始位置；

根据所述起始位置与所述目标点读页的末尾位置之间的文字信息，生成对应的阅读语音；

播放所述阅读语音。

另一方面，本发明还公开了一种阅读机器人，包括：

信息获取模块，用于获取用户阅读的书本的名称和版本号；

查找模块，用于根据所述书本的名称和版本号，查找到对应的点读目标书本；

图像获取模块，用于获取所述用户当前阅读的书页图像；还用于获取所述用户的指读图像；

页码识别模块，用于识别用户当前阅读的书页在所述点读目标书本中的目标点读页的页码；

语音采集模块，用于采集所述用户的语音信息；

指令获取模块，用于根据所述语音信息，获取相应的阅读指令；

指读定位模块，用于根据所述用户的指读图像，定位所述用户手指在所述目标点读页中的位置；

语音生成模块，用于根据所述阅读指令及所述用户手指在所述目标点读页中的位置，获取相应的语音内容；

语音播放模块，用于将获取的相应的语音内容进行播放。

优选地，所述图像获取模块，还用于拍摄所述用户阅读的书本的封面图像和背面图像；

所述信息获取模块包括：

图像预处理子模块，用于对所述封面图像及背面图像进行图像预处理；

书名识别子模块，用于识别所述封面图像中的文字信息，获取所述书本的名称；

版本识别子模块，用于识别所述书本的背面图像中的条形码，获取所述书本的版本号。

优选地，所述图像获取模块，还用于实时采集所述用户的指读图像；

所述指读定位模块包括：

手指识别子模块，用于识别所述指读图像中所述用户的手指；

手指定位子模块，用于从所述指读图像中获取所述用户的手指的像素坐标，以及当前阅读的书页的边框的像素位置坐标，结合所述当前阅读的书页的边框的实际坐标位置，定位所述用户的手指相对所述目标点读页的边框的实际位置。

优选地，所述语音生成模块包括：

指令解析子模块，用于解析所述阅读指令；

目标字词获取子模块，用于当所述阅读指令为阅读用户手指指向的字词时，根据所述用户手指在所述目标点读页中的位置，获取所述用户手指指向的目标字词；

语音合成子模块，用于将所述目标字词合成为目标字词语音，并通过所述语音播放模块播放所述目标字词语音；

目标字词显示子模块，用于显示所述目标字词的拼音及汉字；

起始位置获取子模块，用于当所述阅读指令为从用户手指指向的地方开始阅读时，根据所述用户手指在所述目标点读页中的位置，获取在所述目标点读页中阅读的起始位置；

所述语音合成子模块，还用于根据所述起始位置与所述目标点读页的末尾位置之间的文字信息，生成对应的阅读语音，并通过所述语音播放模块播放所述阅读语音。

本发明至少具备以下一项技术效果：

(1)通过本发明，用户可以通过阅读机器人辅助阅读，只需用户手指在书本的点击操作和对内容的直接询问便可获得阅读机器人的阅读辅助，帮助小朋友快速学习到读书过程中遇到的生、字词，以帮助培养良好的阅读习惯。

(2)本发明的阅读机器人会获取到书本的名称和版本号，以便可以唯一确定点读目标书本，即使同一名称书本，版本号不同对应的书本内容也可能会略有不同。因此，本发明除了识别书名外，还识别版本号，从而可以快速查找到对应的点读目标书本。

(3)本发明在采集到用户语音信息后，会对语音信息进行解析获取语义，如果解析到用户有阅读需求，则会根据语义内容选取对应的阅读指令，从而满足不同用户的阅读需求。

(4)本发明通过采集用户的指读图像获取需要帮助阅读的内容，用户无需过多语言描述，只需手指指点相应位置即可，大大提高了用户体验，该阅读机器人的智能程度也更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种机器人辅助阅读的方法的实施例的流程图；

图2为本发明一种机器人辅助阅读的方法的另一实施例的流程图；

图3为本发明中条形码识别流程图；

图4为本发明一种机器人辅助阅读的方法的另一实施例的流程图；

图5为本发明一种机器人辅助阅读的方法的另一实施例的流程图；

图6为本发明一种阅读机器人的实施例的框图；

图7为本发明一种阅读机器人的另一实施例的框图；

图8为本发明一种阅读机器人的另一实施例的框图。

附图标记：

100--信息获取模块；200--查找模块；300--图像获取模块；400--页码识别模块；500--语音采集模块；600--指令获取模块；700--指读定位模块；800--语音生成模块；900--语音播放模块；110--图像预处理子模块；120--书名识别子模块；130--版本识别子模块；131--截取单元；132--二值化处理单元；133--信息提取单元；134--解码单元；710--手指识别子模块；720--手指定位子模块；810--指令解析子模块；820--目标字词获取子模块；830--语音合成子模块；840--目标字词显示子模块；850--起始位置获取子模块。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种机器人辅助阅读的方法，实施例如图1所示，包括：

S101，获取用户阅读的书本的名称和版本号；

具体的，由于在实际使用过程中，书籍，特别是教材因为版权及改版等问题，会存在大量封面基本相同，但是版本不一样的问题，这时书的内容会有少量更改。因此，除了获得书本名称外，还需要进一步获取版本号，以便确定具体是哪本书。

S102，根据所述书本的名称和版本号，查找到对应的点读目标书本；

确定好了书名和版本号后，便可据此查找到对应的点读目标书本了。

S103，获取所述用户当前阅读的书页图像，识别当前阅读的书页在所述点读目标书本中的目标点读页的页码；

具体的，确定好了用户当前阅读的是哪一本书后，则进一步需要确定用户当前是看的是哪一页了。首先，获取的用户当前阅读的书页图像，比如可以通过摄像头拍摄获取用户当前阅读的书页图像，然后对该图像进行图像处理与匹配，从而识别出用户当前阅读的书页的页码。

S104，采集所述用户的语音信息，获取相应的阅读指令；

具体的，比如通过麦克风采集用户的语音信息，然后对该语音信息进行解析，了解用户需求，然后据此获取相应的阅读指令。比如，用户说：“这两个字不认识”，并用手指着书本上的两个生字。采集到这一语音信息后，分析得到用户有生字阅读需求，进而获得相应的阅读指令：阅读用户手指指向的字词。

S105，获取所述用户的指读图像，定位所述用户手指在所述目标点读页中的位置；

具体的，获取到用户的阅读指令后，由于不确定用户具体想要阅读哪个地方，或者从哪个地方开始阅读，那么就需要进一步获取到用户的指读图像，这里的指读图像即用户用手指指向当前阅读书页中某位置的图像，然后再根据该指读图像来定位该用户手指在目标点读页中的位置。

S106，根据所述阅读指令及所述用户手指在所述目标点读页中的位置，获取相应的语音内容进行播放。

具体的，获取到用户指向的具体位置后，结合相应的阅读指令，便可获取到相应的语音内容，然后通过广播或其它语音设备进行播放，帮助该用户进行阅读。

本实施例实现了帮助小朋友完成阅读，通过手指在书本的点击操作和对内容的直接询问，可以帮助小朋友快速学习到读书过程中遇到的生、字词，以帮助培养他的阅读习惯。

本发明方法的另一实施例，如图2所示，包括：

S201，获取所述用户阅读的书本的封面图像和背面图像；

具体的，用户在开始阅读之前，可先通过摄像头采集书本的封面和背面图像，便于后续查找到对应的点读目标书本。

S202，对所述封面图像及背面图像进行图像预处理；

具体的，获取到封面图像、背面图像后，还需进一步对其进行预处理，比如，对获取的封面图像和背面图像进行滤波、透视变换等，方便后续的图像识别。

S203，识别所述封面图像中的文字信息，获取所述书本的名称；

获取到封面图像后，再对其进行图像识别，获取书本的名称。这里图像识别的技术可采用现有的技术，此处不再赘述。

S204，识别所述书本的背面图像中的条形码，获取所述书本的版本号；

具体的，比如教材因为版权及改版等问题，会存在大量封面基本相同，但是版本不一样的问题，这时书的内容会有少量更改，但是目前的技术很难通过技术直接由封面得到书本版本，所以本实施例的通过条形码识别获得版本号可以很好的解决这个问题。

S205，根据所述书本的名称和版本号，查找到对应的点读目标书本；

获取到书名和版本号后，便可据此在预存的点读书本中查找到对应的书本了，查找到的对应的点读书本即为点读目标书本。

S206，获取所述用户当前阅读的书页图像，识别当前阅读的书页在所述点读目标书本中的目标点读页的页码；

S207，采集所述用户的语音信息，获取相应的阅读指令；

S208，获取所述用户的指读图像，定位所述用户手指在所述目标点读页中的位置；

S209，根据所述阅读指令及所述用户手指在所述目标点读页中的位置，获取相应的语音内容进行播放。

本实施例在前一实施例的基础上，对如何获取书本的书名和版本号进行了详细的阐述，具体的，其中的获取书本的版本号采用了条形码识别技术。一般的，在获取到书本的封面图像和背面图像后，如何区分封面图像和背面图像呢，一种方案可以在扫描时便要求先扫描书本的封面图片，再扫描书本的背面图片。另一种方案则不限定扫描的先后顺序，而是在获取到封面图片和背面图片后再从中自行识别。具体的，比如选取其中一张扫描的图片中进行特征点提取，将提取的特征点与预存的背面图像的特征点进行匹配，分析选取的这张扫描图片是否为背面图像。虽然每本书的背面图像可能不同，但是其还是会存在共同点的，比如书本的背面一般都有条形码，有定价等信息，那么可以根据这些共同点来提取特征点来进行预存，便于后续的匹配识别。

获取到了背面图像后，则进一步从该背面图像中识别出条形码。具体的，条形码识别流程如图3所示，包括：

S301，根据预置的条形码的位置区域信息，从所述书本的背面图像中截取条形码区域图像；

S302，对所述条形码区域图像进行二值化处理；

S303，获取所述条形码区域图像中黑条和白条的宽度信息；

S304，根据所述黑条和白条的宽度信息，结合预设的解码规则进行解码，获取条形码编码。

除了上述的条形码识别方法外，还可以采用其它的条形码识别方案。比如，可以采用检测直线且计算直线倾斜角度的条形码定位识别方法。首先通过边缘检测器去除大部分图像背景，保留条形码区域；然后将图像等分为条，针对每条内的边缘点进行角度计算，考虑条形码是由平行的黑白条相间组成的结构特点，利用边缘点像素之间的连续性，求得由转折点拟合的直线角度，即为条形码倾斜的角度。将具有相同或近似相同的角度值的条所在的区域提取出来，组成条码区域。若条码不在垂直角度，则利用双线性插值进行相应的矫正，然后调用利用相似边理论的译码程序对提取出的条形码进行译码识别。

本实施例实现了通过机器人进行辅助阅读的方法，用户在机器人前通过扫描封面获得书本名称，扫描背面的图像进行条形码识别获得对应的版本号，打开书本后，可以被机器人识别到书本的书页信息。通过机器人上的AI算法可以识别手指位置，即可进行无辅助的点读操作，通过语音识别可以对点击位置进行查询和反馈。即通过对书本进行点击并向机器人询问，完成与机器人的互动，可以大大增加孩子的阅读兴趣，培养好的阅读习惯。

本发明方法的另一实施例，如图4所示，包括：

S401，获取用户阅读的书本的名称和版本号；

S402，根据所述书本的名称和版本号，查找到对应的点读目标书本；

S403，获取所述用户当前阅读的书页图像，识别当前阅读的书页在所述点读目标书本中的目标点读页的页码；

S404，采集所述用户的语音信息，获取相应的阅读指令；

S405，实时采集所述用户的指读图像；

具体的，可以通过摄像头实时采集用户手指指向当前阅读页面某位置的图片。

S406，识别所述指读图像中所述用户的手指；

具体的，手指识别可以采用多种方案。比如，可以通过特征点提取与匹配来进行识别，先从指读图像中提取特征点，然后将该特征点与预存的手指特征点进行匹配，从而识别出用户手指。另外，还可以通过预先建立手指识别模型，利用机器学习训练出手指识别模型，从而只需要将指读图像输入进去，便可识别出所述指读图像中用户的手指。

S407，从所述指读图像中获取所述用户的手指的像素坐标，以及当前阅读的书页的边框的像素位置坐标，结合所述当前阅读的书页的边框的实际坐标位置，定位所述用户的手指相对所述目标点读页的边框的实际位置。

识别到用户的手指后，便可从指读图像中获取该手指的像素坐标，以及作为参照物的书页边框的像素坐标。一般的，手指的像素坐标可选取指尖的像素坐标作为手指的像素坐标，由于像素坐标均可以从指读图像中获得，那么就可以获得指读图像中手指相对于书页边框的相对位置，再结合目标点读页上书页边框的实际位置，便可计算获得用户手指相对目标点读页的边框的实际位置。

S408，根据所述阅读指令及所述用户手指在所述目标点读页中的位置，获取相应的语音内容进行播放。

定位了用户手指相对边框的实际位置后，则可据此获取到相应的语音内容进行播放。具体的，定位了手指的相对位置后，也就锁定了手指指向的位置，那么指向的内容便可锁定了，获取到指向的内容后，再结合阅读指令，便可合成对应的语音内容进行播放，从而辅助用户阅读。比如，阅读指令是阅读用户指向的字词，那么就可以根据用户指向的位置获取到指向的字词，进而将该字词信息进行声音合成，生成对应的语音内容进行播放，辅助用户进行阅读。如此，可以帮助用户快速学习到阅读过程中遇到的生字、生词，且阅读的过程不会被打断，帮助用户培养良好的阅读习惯。

当然，用户也可以让机器人根据自己的手指移动进行相应的指读，也就是说通过监测用户的手指移动位置，获取到对应的文本内容，进而将获取到的文本内容进行语音合成，生成对应的阅读语音进行播放。比如，比较小的幼儿在阅读故事绘本的时候，可能自己还不认识字，那么就可以让机器人跟随自己的手指移动进行指读，从而听到完整的故事。遇到自己没有听清楚的地方，还可以再重新指读该部分内容，让机器人再次播放该部分内容。

较佳的，检测到用户的手指移动后，进一步检测用户手指移动的速度，根据用户手指移动的速度进行相应速度的语音播报。这样如果用户想快速阅读，那么便可通过快速移动手指进行点读，如果想慢速阅读，则可以慢速移动手指进行指读。

本发明方法的另一实施例，如图5所示，包括：

S501，获取用户阅读的书本的名称和版本号；

S502，根据所述书本的名称和版本号，查找到对应的点读目标书本；

S503，获取所述用户当前阅读的书页图像，识别当前阅读的书页在所述点读目标书本中的目标点读页的页码；

S504，实时采集所述用户的语音信息；

S505，解析所述语音信息，获取所述语音信息对应的语义；

S506，根据所述语音信息对应的语义，选取对应的阅读指令；

S507，获取所述用户的指读图像，定位所述用户手指在所述目标点读页中的位置；

S508，根据所述阅读指令及所述用户手指在所述目标点读页中的位置，获取相应的语音内容进行播放。

本实施例中，通过实时采集用户的语音，并对其进行解析进而获得其语义，获得语义后便可知晓该用户是否有让机器人进行阅读的需求，再根据该需求进一步选取对应的阅读指令。由于该用于阅读的机器人普遍用于帮助低龄儿童进行阅读，而儿童的说话不一定按照标准的阅读指令来说，因此，儿童可能按照自己的方式表达阅读的需求，因此，在获取到语音信息后，并不是直接和阅读指令进行匹配，而需要先进行语义解析，获得用户该语音的真实意图，确定用户需要进行阅读辅助的情况下，再根据具体需求选取对应的阅读指令。比如，有的用户只需要帮助阅读指定的生字、生词；有的用户需要机器人根据手指移动进行指读；有的用户要求机器人阅读指定的段落或句子等。

较佳的，上述实施例中，根据阅读指令的不同，相应语音内容的获取也会不同。具体的，所述根据所述阅读指令及所述用户手指在所述目标点读页码中的位置，获取相应的语音内容进行播放包括：

当所述阅读指令为阅读用户手指指向的字词时：

将所述目标字词合成为目标字词语音；

当所述阅读指令为从用户手指指向的地方开始阅读时：

播放所述阅读语音。

本实施例中，当阅读指令为阅读用户手指指向的字词时，则根据之前定位的用户手指在点读页的位置，在预存的目标点读页中查找到相应位置对应的文本内容，然后再将该位置的文本内容(目标字词)进行语音合成，生成对应的语音信息进行播报。同时，还会在屏幕上显示该目标字词，为了让用户更加熟悉掌握该字词，还可以同步显示其拼音。如果阅读指令为从用户手指指向的地方开始阅读，由于未指定阅读终止的地方，因此默认为阅读到该目标点读页末尾位置的内容。阅读终止位置为默认位置的话，则只需确定好阅读起始位置即可，因此，根据之前识别到的用户手指在目标点读页中的位置，进而获取到该目标点读页中阅读起始位置，然后获取从该位置开始到末尾位置的文本信息，进而生成对应的阅读语音。

较佳的，机器人在阅读过程中，一旦监测到用户发出停止阅读的语音，则会立即停止阅读，等待用户下一次用户开启阅读指令。如此，机器人可根据用户意愿灵活进行阅读，满足了用户不同情况下的阅读需求。

基于相同的技术构思，本发明还公开了一种阅读机器人，如图6所示，包括：

信息获取模块100，用于获取用户阅读的书本的名称和版本号；由于在实际使用过程中，书籍，特别是教材因为版权及改版等问题，会存在大量封面基本相同，但是版本不一样的问题，这时书的内容会有少量更改。因此，除了获得书本名称外，还需要进一步获取版本号，以便确定具体是哪本书。

查找模块200，用于根据所述书本的名称和版本号，查找到对应的点读目标书本；

图像获取模块300，用于获取所述用户当前阅读的书页图像；还用于获取所述用户的指读图像；具体的，可通过机器人上设置的摄像头进行图像的拍摄获取。

页码识别模块400，用于识别用户当前阅读的书页在所述点读目标书本中的目标点读页的页码；具体的，机器人内部预存了该目标书本的页索引文件，该页索引文件中存储有各页码对应的页面特征点，只需根据特征点便可索引到对应的页码。因此，在获取到用户当前阅读的书页图像后，可在该图像上提取特征点，进而根据这些特征点进行索引匹配，找到对应的页码。

语音采集模块500，用于采集所述用户的语音信息；具体的，比如通过机器人上设置的麦克风设备可以采集到用户的语音信息。

指令获取模块600，用于根据所述语音信息，获取相应的阅读指令；

指读定位模块700，用于根据所述用户的指读图像，定位所述用户手指在所述目标点读页中的位置；具体的，获取到用户的阅读指令后，由于不确定用户具体想要阅读哪个地方，或者从哪个地方开始阅读，那么就需要进一步获取到用户的指读图像，这里的指读图像即用户用手指指向当前阅读书页中某位置的图像，然后再根据该指读图像来定位该用户手指在目标点读页中的位置。

语音生成模块800，用于根据所述阅读指令及所述用户手指在所述目标点读页中的位置，获取相应的语音内容；具体的，获取到用户指向的具体位置后，结合相应的阅读指令，便可获取到相应的语音内容，然后通过广播或其它语音设备进行播放，帮助该用户进行阅读。

语音播放模块900，用于将获取的相应的语音内容进行播放。具体的，比如可以通过机器人上设置的喇叭完成语音的播放。

本实施例的阅读机器人实现了帮助小朋友完成阅读，通过手指在书本的点击操作和对内容的直接询问，可以帮助小朋友快速学习到读书过程中遇到的生、字词，以帮助培养他的阅读习惯。

本发明阅读机器人的另一实施例，如图7所示，在上述实施例的基础上，所述图像获取模块300，还用于拍摄所述用户阅读的书本的封面图像和背面图像；

所述信息获取模块100包括：

图像预处理子模块110，用于对所述封面图像及背面图像进行图像预处理；比如对获取的图像进行滤波、透视变换等，以获得高质量合格的图像，方便后续的图像识别。

书名识别子模块120，用于识别所述封面图像中的文字信息，获取所述书本的名称；

版本识别子模块130，用于识别所述书本的背面图像中的条形码，获取所述书本的版本号。具体的，版本识别子模块通过识别背面图像中的条形码，进而获得书本的版本号。具体的，版本识别子模块130还包括：

截取单元131，用于根据预置的条形码的位置区域信息，从所述书本的背面图像中截取条形码区域图像；

二值化处理单元132，用于对所述条形码区域图像进行二值化处理；

信息提取单元133，用于获取所述条形码区域图像中黑条和白条的宽度信息；

解码单元134，用于根据所述黑条和白条的宽度信息，结合预设的解码规则进行解码，获取条形码编码。

当然，该版本识别子模块130还可以采用其它的技术方案实现。比如，该版本识别子模块通过采用检测直线且计算直线倾斜角度的条形码定位识别方法来进行版本识别。具体的，此方案的版本识别子模块包括：

图像提取单元，用于通过边缘检测器去除大部分图像背景，保留条形码区域；

分条单元，用于将条形码区域图像等分为条，

计算单元，用于针对每条内的边缘点进行角度计算，利用边缘点像素之间的连续性，求得由转折点拟合的直线角度，即为条形码倾斜的角度；

区域提取单元，用于将具有相同或近似相同的角度值的条所在的区域提取出来，组成条码区域；

矫正单元，用于当条形码不在垂直角度时，利用双线性插值进行相应的矫正；

译码识别单元，通过调用利用相似边理论的译码程序对提取出的条形码进行译码识别。

本发明的另一实施例，如图8所示，在上述实施例的基础上，所述图像获取模块300，还用于实时采集所述用户的指读图像；所述指读定位模块700包括：

手指识别子模块710，用于识别所述指读图像中所述用户的手指；

手指定位子模块720，用于从所述指读图像中获取所述用户的手指的像素坐标，以及当前阅读的书页的边框的像素位置坐标，结合所述当前阅读的书页的边框的实际坐标位置，定位所述用户的手指相对所述目标点读页的边框的实际位置。

本实施例中，手指识别模块可以采用多种方案实现。比如，可以通过特征点提取与匹配来进行识别，先从指读图像中提取特征点，然后将该特征点与预存的手指特征点进行匹配，从而识别出用户手指。另外，还可以通过预先建立手指识别模型，利用机器学习训练出手指识别模型，从而只需要将指读图像输入进去，便可识别出所述指读图像中用户的手指。

手指定位模块，则在手指识别模块识别到用户的手指后，从指读图像中获取该手指的像素坐标，以及作为参照物的书页边框的像素坐标。一般的，手指的像素坐标可选取指尖的像素坐标作为手指的像素坐标，由于像素坐标均可以从指读图像中获得，那么就可以获得指读图像中手指相对于书页边框的相对位置，再结合目标点读页上书页边框的实际位置，便可计算获得用户手指相对目标点读页的边框的实际位置。

较佳的，在上述任一阅读机器人的实施例基础上，所述语音生成模块800包括：

指令解析子模块810，用于解析所述阅读指令；

目标字词获取子模块820，用于当所述阅读指令为阅读用户手指指向的字词时，根据所述用户手指在所述目标点读页中的位置，获取所述用户手指指向的目标字词；

语音合成子模块830，用于将所述目标字词合成为目标字词语音，并通过所述语音播放模块900播放所述目标字词语音；

目标字词显示子模块840，用于显示所述目标字词的拼音及汉字；

起始位置获取子模块850，用于当所述阅读指令为从用户手指指向的地方开始阅读时，根据所述用户手指在所述目标点读页中的位置，获取在所述目标点读页中阅读的起始位置；

所述语音合成子模块830，还用于根据所述起始位置与所述目标点读页的末尾位置之间的文字信息，生成对应的阅读语音，并通过所述语音播放模块900播放所述阅读语音。

本实施例中，阅读机器人接收到阅读指令后，便通过指令解析子模块810进行阅读指令的解析，当解析出的阅读指令为阅读用户手指指向的字词时，则目标字词获取子模块820根据之前定位的用户手指在点读页的位置，在预存的目标点读页中查找到相应位置对应的文本内容，然后语音合成子模块830再将该位置的文本内容(目标字词)进行语音合成，生成对应的语音信息并通过语音播放模块900进行播报。同时，还会通过目标字词显示子模块840在屏幕上显示该目标字词，为了让用户更加熟悉掌握该字词，还可以同步显示其拼音。如果指令解析子模块810解析出的阅读指令为从用户手指指向的地方开始阅读，由于未指定阅读终止的地方，因此默认为阅读到该目标点读页末尾位置的内容。阅读终止位置为默认位置的话，则只需确定好阅读起始位置即可，因此，起始位置获取子模块850根据之前识别到的用户手指在目标点读页中的位置，进而获取到该目标点读页中阅读起始位置，然后语音合成子模块830获取从该位置开始到末尾位置的文本信息，进而生成对应的阅读语音。

较佳的，阅读机器人在阅读过程中，一旦指令解析子模块810解析阅读指令为停止阅读时，则该阅读机器人的语音播放模块900则会立即停止阅读播放，等待用户下一次用户开启阅读指令。如此，机器人可根据用户意愿灵活进行阅读，满足了用户不同情况下的阅读需求。

当然，用户也可以让阅读机器人根据自己的手指移动进行相应的指读，也就是说通过监测用户的手指移动位置，获取到对应的文本内容，进而将获取到的文本内容进行语音合成，生成对应的阅读语音进行播放。比如，比较小的幼儿在阅读故事绘本的时候，可能自己还不认识字，那么就可以让机器人跟随自己的手指移动进行指读，从而听到完整的故事。遇到自己没有听清楚的地方，还可以再重新指读该部分内容，让机器人再次播放该部分内容。

较佳的，该阅读机器人还包括：速度检测模块，用于检测用户的手指移动速度，所述语音播报模块根据用户手指移动的速度进行相应速度的语音播报。这样如果用户想快速阅读，那么便可通过快速移动手指进行点读，如果想慢速阅读，则可以慢速移动手指进行指读。

本发明的阅读机器人实施例与本发明的机器人辅助阅读的方法的实施例相对应，本发明的机器人辅助阅读的方法的技术细节同样适用于本发明的阅读机器人，为减少重复，不再赘述。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种机器人辅助阅读的方法，其特征在于，包括：

获取用户阅读的书本的名称和版本号；

采集所述用户的语音信息，获取相应的阅读指令；

2.根据权利要求1所述的一种机器人辅助阅读的方法，其特征在于，所述获取所述用户阅读的书本的名称和版本号包括：

获取所述用户阅读的书本的封面图像和背面图像；

对所述封面图像及背面图像进行图像预处理；

识别所述封面图像中的文字信息，获取所述书本的名称；

3.根据权利要求2所述的一种机器人辅助阅读的方法，其特征在于，所述识别所述书本的背面图像中的条形码，获取所述书本的版本号包括：

对所述条形码区域图像进行二值化处理；

获取所述条形码区域图像中黑条和白条的宽度信息；

4.根据权利要求1所述的一种机器人辅助阅读的方法，其特征在于，所述获取所述用户的指读图像，定位所述用户手指在所述点读页码中的位置包括：

实时采集所述用户的指读图像；

识别所述指读图像中所述用户的手指；

5.根据权利要求1-4任一项所述的一种机器人辅助阅读的方法，其特征在于，所述采集所述用户的语音信息，获取相应的阅读指令包括：

实时采集所述用户的语音信息；

解析所述语音信息，获取所述语音信息对应的语义；

根据所述语音信息对应的语义，选取对应的阅读指令。

6.根据权利要求5所述的一种机器人辅助阅读的方法，其特征在于，所述根据所述阅读指令及所述用户手指在所述目标点读页码中的位置，获取相应的语音内容进行播放包括：

当所述阅读指令为阅读用户手指指向的字词时：

将所述目标字词合成为目标字词语音；

当所述阅读指令为从用户手指指向的地方开始阅读时：

播放所述阅读语音。

7.一种阅读机器人，其特征在于，包括：

信息获取模块，用于获取用户阅读的书本的名称和版本号；

语音采集模块，用于采集所述用户的语音信息；

语音播放模块，用于将获取的相应的语音内容进行播放。

8.根据权利要求7所述的一种阅读机器人，其特征在于，

所述图像获取模块，还用于拍摄所述用户阅读的书本的封面图像和背面图像；

所述信息获取模块包括：

9.根据权利要求7所述的阅读机器人，其特征在于，所述图像获取模块，还用于实时采集所述用户的指读图像；

所述指读定位模块包括：

10.根据权利要求7-9任一项所述的一种阅读机器人，其特征在于，所述语音生成模块包括：

指令解析子模块，用于解析所述阅读指令；