CN110569818A

CN110569818A - 一种智能阅读学习方法

Info

Publication number: CN110569818A
Application number: CN201910867554.4A
Authority: CN
Inventors: 江周平; 杨锐
Original assignee: Shenzhen Yikuai Interactive Network Technology Co Ltd
Current assignee: Shenzhen Yikuai Interactive Network Technology Co Ltd
Priority date: 2019-09-13
Filing date: 2019-09-13
Publication date: 2019-12-13

Abstract

本发明公开了一种智能阅读学习方法，包括以下步骤：预先获取印刷品的原始页面图像并进行特征点提取，从而获得页面特征库；预先在印刷品的原始页面形成多媒体内容库；获得待学习页面图像并进行特征点提取，通过页面特征库进行检索及页面特征匹配，获得其在页面特征库中的原始页面信息；获得包含选取参照物的参照页面图像，从参照页面图像上进行选取参照物识别及点触动作识别；通过坐标映射获得选取参照物在原始印刷品中的位置信息；基于获得的位置信息，获取对应位置预置的多媒体文件并进行播放。本发明无需在书本上预制编码，摆脱了因编码局限性对点读内容的限制，同时能够确保内容播报的准确性。

Description

一种智能阅读学习方法

技术领域

本发明涉及多媒体教育技术领域，特别涉及一种智能阅读学习方法。

背景技术

点读是利用光学图像识别技术和数码语音技术实现的智能阅读和学习方式，它体现了电子多媒体技术与教育行业的完美融合，实现了科技以人为本的理念。就现有的点读设备而言，通常需要置需要对书本做预先处理，在书本上印制或黏贴特定的编码，否则将无法识别书本内容。另外，市场上也出现了直接采用OCR文字识别技术进行识别然后读出内容的阅读设备，但由于印刷品种类复杂，OCR识别方式容易出现误读情况，并且OCR识别方式的数据处理计算量也比较大。

发明内容

本发明的目的在于提供一种智能阅读学习方法，其无需在书本上预制编码，摆脱了因编码局限性对点读内容的限制，同时能够确保内容播报的准确性。

为实现上述目的，本发明采用以下技术方案：

一种智能阅读学习方法，其基于硬件学习棒实现，所述学习棒上设有摄像头，该方法包括以下步骤：

S1、预先获取印刷品的原始页面图像并进行特征点提取，从而获得页面特征库；

S2、预先在印刷品的原始页面以某些特定区域对应某些多媒体文件的方式形成对应区域播放多媒体内容库；

S3、利用学习棒的摄像头连续拍摄待学习的印刷品页面，获得待学习页面图像并进行特征点提取，基于提取到的特征点将待学习页面在S1所获得的页面特征库进行检索及页面特征匹配，获得待学习页面在页面特征库中的原始页面信息；

S4、利用选取参照物点触待学习的印刷品页面上的感兴趣区域，学习棒的摄像头通过连续拍摄获得包含选取参照物的参照页面图像，从参照页面图像上进行选取参照物识别及点触动作识别；

S5、基于步骤S4中识别出的选取参照物、S4中包含选取参照物的参照页面图像及S3中获得的原始页面信息，进行坐标映射，获得选取参照物在原始印刷品中的位置信息；

S6、基于S5的位置信息、S4中获取的点触动作，获取S2中对应位置预置的多媒体文件，并对多媒体文件进行播放。

优选地，所述选取参照物采用人手手指、笔、笔型物体或尖端有发光装置的物体。

优选地，所述步骤S1、S3中的特征点提取通过特征提取SIFT、SURF算法实现。

优选地，所述步骤S1、S3中的特征点提取通过以下方法实现：

图像灰度化处理；

利用关键点检测算法提取特征点；

基于直方图统计进行特征点方向识别；

对特征点进行描述，获得特征描述子。

优选地，所述步骤S3中的页面特征匹配通过特征值欧式距离、特征向量的余弦相似度和相关系数算法实现。

优选地，所述步骤S3中的页面特征匹配通过以下方法实现：

将所述学习页面图像上提取到的特征点对应的特征描述子进行降维、哈希变换、排序处理，然后将其哈希值与页面特征库中所存储特征点的哈希值进行比对，若距离小于预先设定的第一阈值，则认定该对特征点匹配；

统计匹配的特征点数量，若大于预先设定的第二阈值，则认定该学习页面图像与相应的原始页面图像匹配。

优选地，所述步骤S1中的页面特征库存储在学习棒内置的存储设备中，或存储在外部存储设备。

优选地，步骤S2、S6中的所述的多媒体文件存储在学习棒内置的存储设备中，或存储在外部存储设备中。

优选地，步骤S6中的所述对多媒体文件进行播放利用集成在学习棒的显示屏或扬声器进行播放，或通过学习棒具有的WIFI或者蓝牙功能，连接外部智能终端并利用外部智能终端的屏幕、扬声器进行播放，或利用集成在学习棒上的投影装置进行播放。显示屏、WIFI、蓝牙、投影装置并非必备组件，外部智能终端也并非必备组件。

优选地，步骤S4中的所述选取参照物的点触动作包括单击、双击或其他有明显特征的动作。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明基于图像特征点提取与匹配的方式来实现对点读内容的识别，无需在书本上预制编码，摆脱了因编码局限性对点读内容的限制，同时能够确保内容播报的准确性。

附图说明

图1为本发明的工作流程示意图；

图2为本发明页面匹配的流程示意图；

图3为本发明针对双页图像分页划分的示意图；

图4为本发明指尖识别的示意图；

图5为本发明坐标映射的示意图；

图6为本发明摄像头高度确定方法的示意图；

图7为本发明利用卷积神经网络识别定位指尖的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本发明公开了的一种智能阅读学习实现方法是其基于硬件学习棒实现。为便于更好的理解本发明，在对实现方法进行详细描述之前，先对学习棒的结构进行阐述。

配合图1-7所示，一种智能阅读学习方法，其基于硬件学习棒实现，所述学习棒上设有摄像头，该方法包括以下步骤：

S1、预先获取印刷品的原始页面图像并进行特征点提取，并进行降维、哈希变换、排序处理，从而获得页面特征库。特征点提取方法可采用任何特征点提取算法包括但是不限于SIFT、SURF及其算法变形，本发明不做具体限制。在本实施例中，特征点提取可以通过以下方法实现：

a.图像灰度化处理。由此采集到图像为彩色图像(以RGB三通道彩色图像为例)，需要先进行灰度化处理，以便于后续步骤的执行。在本实施例中，灰度化的计算公式采用：

Gray＝(R*30+G*59+B*11+50)/100

其中，Gray为灰度值。

b.利用关键点检测算法提取特征点。将原始图像不断降阶采样，得到一系列大小不一的图像，并进一步对这些图像进行不同尺度的高斯滤波，同一图像的相近尺度高斯滤波后两个图像相减，得到高斯差分图像，进行极值检测，满足曲率条件的极值点即为特征点。高斯差分图像D(x，y，σ)操作如下，G(x，y，σ)为高斯滤波函数，I(x，y)对应原始图像，L(x，y，σ)表示经过尺度σ的高斯滤波后图像：

D(x，y，σ)＝(G(x，y，σ(s+1))-G(x，y，σ(s)))*I(x，y)

＝L(x，y，σ(s+1))-L(x，y，σ(s))

c.基于直方图统计进行特征点方向识别。在完成特征点的梯度计算后，使用直方图统计邻域内像素的梯度和方向。梯度直方图将0～360度的方向范围分为18个柱(bins)，其中每柱20度。直方图的峰值方向代表了特征点的主方向。L为关键点所在的尺度空间值，每个像素点的梯度m和方向θ计算公式如下：

θ(x，y)＝tan^-1((L(x，y+1)-L(x，y-1))/L(x+1，y)-L(x-1，y)))

对特征点进行描述，获得特征描述子。对特征点确定一个大小为21×21的邻域，旋转这个邻域到主方向；计算邻域内像素点的水平梯度与垂直梯度，这样每个特征点确定了一个大小为19×19×2＝722维的特征描述子；特征点的描述包括坐标、尺度、方向。在此要说明的是，由于获得特征描述子是高维的(本实施例中是722维)，为便于后续处理所以要做降维和哈希变换，本实施例中，采用主成分分析降维方法进行降维处理，即图2中的PCA，降维处理后为20维，通过局部敏感哈希变换后，即图2中的LSH，将20维的特征描述子映射为1个32位浮点值。PCA的具体操作如下：

先使用大量采集图像的特征数据构造特征矩阵X，求得矩阵X的特征值，特征值按大小排序，并求得特征值对应的特征向量构成变换矩阵W。已有变换矩阵W情况下，对于任意一幅采集图像的特征数据Y，使得Z＝YW^T，原特征矩阵Y通过投影到矩阵Z，高维度的特征矩阵Y缩减为低维度新特征矩阵Z，且新特征是线性无关的。

LSH的具体操作如下：

(1)选取满足(d1，d2，p1，p2)敏感的局部敏感哈希函数；

(2)根据对查找结果的准确率确定哈希表的个数L，每个表内的哈希函数的个数K，以及跟敏感哈希自身有关的参数；

(3)将所有数据经过局部敏感哈希函数哈希到相应的桶内，构成了一个或多个哈希表。

S2、预先在印刷品的原始页面以某些特定区域对应某些多媒体文件的方式形成对应区域播放多媒体内容库。

S3、利用学习棒的摄像头连续拍摄待学习的印刷品页面，获得待学习页面图像并进行特征点提取，基于提取到的特征点将待学习页面在S1所获得的页面特征库进行检索及页面特征匹配，获得待学习页面在页面特征库中的原始页面信息。页面特征匹配所采用算法包括但不限于特征值欧式距离、特征向量的余弦相似度、相关系数等，本发明不做具体限制。参考图2所示，在本实施例中，页面特征匹配可以通过以下方法实现：

S31、将所述待学习页面图像上提取到的特征点对应的特征描述子进行降维、哈希变换、排序处理，然后将其哈希值与页面特征库中所存储特征点的哈希值进行比对，若距离小于预先设定的第一阈值，则认定该对特征点匹配。匹配计算距离过程为，计算特征点的哈希值与页面特征库中2L个数据之间的距离，距离定义为但不限于两数差的绝对值，小于设定的第一阈值则判定为该特征点对匹配。

S32、统计匹配的特征点数量，若大于预先设定的第二阈值，则认定该学习页面图像与相应的原始页面图像匹配。

针对待学习页面为双页情形(即开合页)，在特征点提取之前，对摄像头拍摄到的双页图像进行页面划分再识别，以选取参照物为人手指为例，所述双页面识别可通过以下方法实现：

颜色空间转换，将双页图像颜色空间转换为YCbCr颜色空间。针对原始的双页图像如为RGB格式，颜色空间转换通过以下公式实现：

Y＝0.257*R+0.564*G+0.098*B+16

Cb＝-0.148*R-0.291*G+0.439*B+128

Cr＝0.439*R-0.368*G-0.071*B+128

肤色分割，基于直方图统计获得候选手区域。分别对Y、Cb、Cr建立直方图，根据直方图的峰值选定下限Y1，Cb1，Cr1，选定上限Y2，Cb2，Cr2，同时满足Y1<Y<Y2,Cb1<Cb<Cb2,Cr1<Cr<Cr2的像素点判定为候选肤色点；图像二值化，非候选肤色点置为0，候选肤色点置为1；对二值图像膨胀连通，保留值为1的最大连通区域，计算连通区域面积S0，图像总面积S，若S0/S>Th1，Th1为预设阈值，则判定该区域为候选手区域。

手轮廓识别，判断候选手区域是否为点读状态的真实手区域。对候选手区域进行纵向投影，以平均高度将投影图划分为左右两部分，计算投影图较低部分区域的长l和高h，采集图像宽度w，若同时满足h/w>Th2,h/l<Th3(Th2、Th3为预先设定的阈值)，则判定该区域为真实手区域。

图像分页划分。将双页图像划分为两个子图像，利用霍夫变换提取双页图像最左侧和最右侧直线。霍夫变换具体操作：把边缘每个像素坐标(xi,yi)转换为一个离散化的(r,θ)曲线，并且沿着这条曲线的累加器单元被递增，累加器阵列中产生的峰值大于设定阈值T表示图像中存在相应的直线。两线段长度分别为l1，l2，距离为d，如图4所示。若同时满足l1/w>Th4,l2/w>Th4,d>l1，则判断边缘识别成功。若边缘识别成功，则在最左侧直线的右侧d/2位置将图像划分；若边缘识别不成功，则从图像中间划分。最后，选取包含真实手区域的子图像作为待学习页面图像(如图3所示)。

S4、利用选取参照物点触待学习的印刷品页面上的感兴趣区域，学习棒的摄像头通过连续拍摄获得包含选取参照物的参照页面图像，从参照页面图像上进行选取参照物识别及点触动作识别。

在本实施例中，选取参照物采用人手手指。当然，选取参照物并不限于人手手指，也可以是笔，笔形物体，尖端有发光装置的物体等，本发明对选取参照物不做具体限制。本步骤涉及的点触动作包括但不限于单击、双击或其他有明显特征的动作。通过不同的点触动作可以代表不同的手势指令，例如单击是点读，双击是调出多媒体显示。

人手手指识别可通过以下方法实现：

S41、颜色空间转换，将双页图像颜色空间转换为YCbCr颜色空间。针对原始的双页图像为RGB格式，颜色空间转换通过以下公式实现：

Y＝0.257*R+0.564*G+0.098*B+16

Cb＝-0.148*R-0.291*G+0.439*B+128

Cr＝0.439*R-0.368*G-0.071*B+128。

S42、肤色分割，基于直方图统计获得候选手区域。分别对Y、Cb、Cr建立直方图，根据直方图的峰值选定下限Y1，Cb1，Cr1，选定上限Y2，Cb2，Cr2，同时满足Y1<Y<Y2,Cb1<Cb<Cb2,Cr1<Cr<Cr2的像素点判定为候选肤色点；图像二值化，非候选肤色点置为0，候选肤色点置为1；对二值图像膨胀连通，保留值为1的最大连通区域，计算连通区域面积S0，图像总面积S，若S0/S>Th1，Th1为预设阈值，则判定该区域为候选手区域。

S43、手轮廓识别，判断候选手区域是否为点读状态的真实手区域。对候选手区域进行纵向投影，以平均高度将投影图划分为左右两部分，计算投影图较低部分区域的长l和高h，采集图像宽度w，若同时满足h/w>Th2,h/l<Th3(Th2、Th3为预先设定的阈值)，则判定该区域为真实手区域。

S44、计算区域重心。假设共有N个手区域的像素点，在图像中坐标为(xi,yi),i＝1…N,区域重心坐标xc＝sum(xi)/N,yc＝sum(yi)/N。

S45、基于区域重心，识别指尖位置。提取手区域的轮廓，计算真实手区域的轮廓像素点与区域重心的位置之间的距离，距离最大的像素点判定为指尖位置。(xp,yp)＝argmax((xi-xc)*(xi-xc)+(yi-yc)*(yi-yc)),i＝1…M,其中，(xp,yp)为指尖位置坐标，M为轮廓像素点数(如图4所示)。

本发明手指指尖识别也可以通过以下方法实现，如图7所示：

a.先进行肤色分割，然后进行候选区域划分。将候选手区域像素点的坐标中找出最大值最小值xmin,ymin,xmax,ymax,获取矩形区域(xmin,xmax,ymin,ymax)的图像送进卷积神经网络，在识别出的手指区域进行指尖定位。

卷积神经网络识别手指具体过程如下：

1、采集训练样本：采集大量包含手指点读的图像，将手指图像进行标记，并对手指图像作预处理，构建训练样本集；

2、构建网络模型：构建CNN特征提取网络和判别网络，其中CNN特征提取网络由卷积层、激励函数层和池化层构成，判别网络由兴趣区域池化层、全连接层、激励函数层和Softmax层构成；

3、训练网络模型：初始化CNN特征提取网络和判别网络，通过输入带标记的手指图像对CNN特征提取网络进行训练，得到CNN特征提取网络模型；判别网络根据CNN特征提取网络提供的特征图对候选区域进行训练，得到判别网络模型；

4、构建检测模型：将CNN特征提取网络模型和判别网络组合成一个检测网络，利用手指图像训练数据对网络进行训练，得到手指检测与关键点定位网络模型；

5、手指检测：利用得到的检测网络模型进行手指轮廓检测与关键点定位，得到手指图像候选框与定位到手指关键点图像。

指尖定位过程如下：

识别出手指后，根据肤色分割得到的手指区域，提取手指的轮廓，指尖位置取(xp,yp)＝argmin(yi),i＝1…M,M为轮廓像素点数。

S5、基于步骤S4中识别出的选取参照物、S4中包含选取参照物的参照页面图像及S3中获得的原始页面信息，进行坐标映射，获得选取参照物在原始印刷品中的位置信息。参考图5所示，该步骤通过以下分步骤实现：

S51、基于欧氏距离最短优先原则，选取3个距离指尖位置坐标最近的特征点，并获取该这3个特征点的坐标值。

S52、建立仿射对应。假设指尖坐标(xp,yp)＝a*(x1,y1)+b*(x2,y2)+c*(x3,y3),a+b+c＝1,(x1,y1)，(x2,y2)，(x3,y3)为最接近指尖的3个匹配点的坐标，对应(x1’,y1’)，(x2’,y2’)，(x3’,y3’)为匹配点在原始页面图像中的坐标。求解得到a，b，c的值。

S53、基于仿射对应，计算步骤S51中选取的3个特征点在原始页面图像上对应的坐标值，计算得到选取位置在原始页面图像的坐标信息。通过公式(xp’,yp’)＝a*(x1’,y1’)+b*(x2’,y2’)+c*(x3’,y3’)，得到指尖位置在原始页面图像上对应的坐标值。

另外，指尖定位可通过如下方法实现：

识别页面边缘：利用霍夫变换提取图像最左侧、最右侧和最下方直线，霍夫变换具体操作：把边缘每个像素坐标(xi,yi)转换为一个离散化的(r,θ)曲线，并且沿着这条曲线的累加器单元被递增，累加器阵列中产生的峰值大于设定阈值T表示图像中存在相应的直线。三线段长度分别为l1，l2，d。

获取指尖位置：按步骤S43-S45的方式获取指尖位置。(xp,yp)＝argmax((xi-xc)*(xi-xc)+(yi-yc)*(yi-yc)),i＝1…M,M为轮廓像素点数。页面左下角在图像中坐标为(xl,yl)，右下角在图像中坐标为(xr,yr)。

建立映射：记参考图的长为L，宽为W，假设指尖在原始页面图像的坐标为(xp’,yp’)。若手区域出现在左侧页面，则xp’＝(xp-xl)*d/(2*W),yp’＝(yp-yl)*l1/(2*L)；若手区域出现在右侧页面，则xp’＝(xp-xr)*d/(2*W),yp’＝(yp-yr)*l2/(2*L)。

S6、基于S5的位置信息、S4中获取的点触动作，获取S2中对应位置预置的多媒体文件，并进行播放。多媒体文件可以是音频文件，也可以是图像或视频，本发明不做具体限定。对多媒体播放可以利用集成在学习棒的显示屏(显示屏为可选组件)或扬声器，也可以通过学习棒具有的WIFI或者蓝牙功能，连接外部智能终端并利用外部智能终端的屏幕、扬声器进行播放，WIFI、蓝牙及外部智能终端为可选组件。学习棒上可集成投影装置，用于播放多媒体文件，投影装置为可选组件。步骤S1涉及的原始页面图像库、页面特征库以及印刷品对应的多媒体文件可以存储在学习棒内，也可以存储在外部服务器的存储空间中。学习棒上可以集成投影装置，投影装置为可选组件。

本发明的智能阅读学习方法需要借助学习棒实现，为便于更好的理解本发明，对学习棒做进一步说明。本发明主要利用学习棒的拍摄功能(即利用学习棒的摄像头)，当然为实现图像采集，学习棒内设置有处理器和存储器。对本发明而言，摄像头的拍摄视野直接影响到对印刷品页面图像的采集，拍摄视野与摄像头的高度直接相关。摄像头在的高度h和角度确定办法如下：当选用视角β为的常见镜头时，要拍完整页面宽度，必须满足h>w*tan(90°-β/2)；要拍完整页面长边，镜头与垂直成角度必须满足

以A4大小页面为例，如图6所示，w对应A4的宽度等于21cm，l对应A4的长度等于29cm，当选用视角为β＝100度的标准镜头时，h>w*tan(90°-β/2)＝21*0.84＝17.5cm按h最小值17.5cm代入得度；考虑到一定冗余量，本实施例取h＝18cm，度。当然，在具体实施过程中h和可以采用其他合理的值。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种智能阅读学习方法，其特征在于，其基于硬件学习棒实现，所述学习棒上设有摄像头，该方法包括以下步骤：

2.如权利要求1所述的一种智能阅读学习方法，其特征在于：所述选取参照物采用人手手指、笔、笔型物体或尖端有发光装置的物体。

3.如权利要求1或2所述的一种智能阅读学习方法，其特征在于：所述步骤S1、S3中的特征点提取通过特征提取SIFT、SURF算法实现。

4.如权利要求1或2所述的一种智能阅读学习方法，其特征在于：所述步骤S1、S3中的特征点提取通过以下方法实现：

图像灰度化处理；

利用关键点检测算法提取特征点；

基于直方图统计进行特征点方向识别；

对特征点进行描述，获得特征描述子。

5.如权利要求1所述的一种智能阅读学习方法，其特征在于：所述步骤S3中的页面特征匹配通过特征值欧式距离、特征向量的余弦相似度和相关系数算法实现。

6.如权利要求1所述的一种智能阅读学习方法，其特征在于：所述步骤S3中的页面特征匹配通过以下方法实现：

7.如权利要求1所述的一种智能阅读学习方法，其特征在于：所述步骤S1中的页面特征库存储在学习棒内置的存储设备中，或存储在外部存储设备。

8.如权利要求1所述的一种智能阅读学习方法，其特征在于：步骤S2、S6中的所述的多媒体文件存储在学习棒内置的存储设备中，或存储在外部存储设备中。

9.如权利要求1所述的一种智能阅读学习方法，其特征在于：步骤S6中的所述对多媒体文件进行播放利用集成在学习棒的显示屏或扬声器进行播放，或通过学习棒具有的WIFI或者蓝牙功能，连接外部智能终端并利用外部智能终端的屏幕、扬声器进行播放，或利用集成在学习棒上的投影装置进行播放。

10.如权利要求1所述的一种智能阅读学习方法，其特征在于：步骤S4中的所述选取参照物的点触动作包括单击、双击。