CN110516582A

CN110516582A - 一种图书点读方法和系统

Info

Publication number: CN110516582A
Application number: CN201910776745.XA
Authority: CN
Inventors: 肖东晋; 张立群; 刘顺宗
Original assignee: Aeva (beijing) Technology Co Ltd
Current assignee: Aeva (beijing) Technology Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-11-29

Abstract

本发明公开了一种图书点读系统，包括：图像采集单元，所述图像采集单元拍摄图书书页图像；模板集存储单元，用于存储图书的书页图像集和与书页图像的编辑区域关联的音频文件集，所述书页图像包括一个或多个编辑区域；匹配单元，所述匹配单元接收拍摄的图书书页，并在模板集存储单元中查找与当前拍摄图像匹配的模板书页图像；位姿确定单元，所述位姿确定单元确定当前拍摄图像的位姿，从而确定当前拍摄图像中各编辑区域的位姿；以及指尖检测单元，所述指尖检测单元遍历当前拍摄图像的所有编辑区域，检测当前拍摄图像各编辑区域是否有手指指尖。

Description

一种图书点读方法和系统

技术领域

本发明涉及图像处理技术领域。具体而言，本发明涉及一种智能的图书点读方法和系统。

背景技术

图书点读是一种新兴的学习辅助技术。当使用者用一支特殊的笔点击书本特定位置时，就可以听到或看到与该位置相对应的语音或画面。图书点读最重要的环节就是识别与匹配。识别指的是识别到图书的特定位置，能对笔所在的位置进行确认；匹配指的是能够快速检索并输出与该特定位置关联的语音或视频。

目前已有的点读技术主要包括以下三种：

第一种是卡片式。在卡片周围位置打孔，然后插入特殊的读取设备中，读取设备根据打孔的不同，确认是不同的卡片，配合所点击的位置，查找到语音并输出。

第二种是点读板式。点读板是一块可以感应用户点击位置坐标的平板，用户需要预先在点读板上选择好相应的图书、图书的页码，然后对图书的点击转换为坐标后，点读板就可以检索出该图书、该页、该坐标位置相应的语音。这种方案里对点读的图书有尺寸要求，且必须预先指定图书与页码，因此处理的图书量有限。

第三种是点读笔。在印刷时将一些特殊代码加入到书页里，让点读笔的镜头可以识别出来并朗读相应的内容。这种技术最大的优势就是抛弃了大面积的平板，直接对书本进行处理，减小了体积。

因此，现有的图书点读产品主要是以点读笔和点读机为主的专用电子设备。点读操作受到特定图书的限制。

发明内容

针对现有图书点读方案中存在的问题，本发明提供一种智能的图书点读方法和系统，不需要使用专用的设备，只需要现有的带有摄像头的设备(如手机，平板、学习机、计算机等)，摄像头对着书本，手可以随意点击图书任意区域，即可使用本系统对图书进行任意点读，不受限制，且不需要盯着电子屏幕，操作简单，使用方便。

根据本发明的一个实施例，提供一种图书点读系统，包括：

图像采集单元，所述图像采集单元拍摄图书书页图像；

模板集存储单元，用于存储图书的书页图像集和与书页图像的编辑区域关联的音频文件集，所述书页图像包括一个或多个编辑区域；

匹配单元，所述匹配单元接收拍摄的图书书页，并在模板集存储单元中查找与当前拍摄图像匹配的模板书页图像；

位姿确定单元，所述位姿确定单元确定当前拍摄图像的位姿，从而确定当前拍摄图像中各编辑区域的位姿；以及

指尖检测单元，所述指尖检测单元遍历当前拍摄图像的所有编辑区域，检测当前拍摄图像各编辑区域是否有手指指尖。

在本发明的一个实施例中，该图书点读系统还包括输出单元，当指尖检测单元检测到当前拍摄图像的编辑区域内有手指指尖，则播放与编辑区域关联的音频文件。

在本发明的一个实施例中，匹配单元是便携式计算单元。

根据本发明的另一个实施例，提供一种图书点读方法，包括：

通过图像采集单元拍摄图书书页图像；

在模板集中查找与当前拍摄图像匹配的模板书页图像；

确定当前拍摄图像的位姿，从而确定当前拍摄图像中各编辑区域的位姿；以及

遍历当前拍摄图像的所有编辑区域，检测当前拍摄图像各编辑区域是否有手指指尖。

在本发明的另一个实施例中，如果检测到当前拍摄图像的编辑区域有手指指尖，表示此区域为点读区域，播放其所关联的音频文件；如果在当前拍摄图像的编辑区域未检测到手指指尖，表示此区域为非点读区域。

在本发明的另一个实施例中，图书点读方法还包括：

编辑图书的每一页中的各点读区域；

将编辑好的区域分别与其对应的音频文件进行关联；以及

将这些编辑过的书页图像集和音频文件集打包成所述模板集。

在本发明的另一个实施例中，使用图像特征点匹配方法在模板集中查找与当前拍摄图像匹配的模板书页图像包括：

提取模板图像和目标图像中的特征点；

用高维向量描述每个特征点；

计算目标图像特征点与模板图像所有特征点的最小欧式距离和次小欧式距离，

其中计算目标图像特征点与模板图像所有特征点的最小欧式距离和次小欧式距离包括：

步骤110，计算目标图像的所述特征点与模板图像中的第一特征点的第一欧式距离，计算目标图像的所述特征点与模板图像中的第二特征点的第二欧式距离，将第一欧式距离和第二欧式距离作为最小欧氏距离和次小欧氏距离，

步骤120，将目标图像的所述特征点与模板图像中的下一特征点的高维向量描述中的元素划分成N个组，N为大于或等于2的整数，

步骤130，将一组元素加入欧式距离计算，获得当前欧式距离，

步骤140，将当前欧式距离与所述次小欧氏距离进行比较，

如果当前欧式距离大于或等于次小欧氏距离，提前结束模板图像当前特征点的欧式距离计算，

如果当前欧式距离小于次小欧氏距离，步骤150，判断目标图像的所述特征点与模板图像中的当前特征点的高维向量描述中的元素是否已经全部加入欧式距离计算，

如果元素没有全部加入欧式距离计算，则返回步骤130，

如果所有元素已经全部加入欧式距离计算，步骤160，更新最小欧氏距离和次小欧氏距离，将当前欧式距离与最小欧式距离作为更新的最小欧氏距离和次小欧氏距离，

步骤170，判断模板图像中是否存在未计算的特征点，如果模板图像中不存在未计算的特征点，则将最小欧氏距离和次小欧氏距离作为最终的最小欧氏距离和次小欧氏距离，如果模板图像中存在未计算的特征点，则返回步骤120。

在本发明的另一个实施例中，多次重复计算目标图像特征点与模板图像所有特征点的最小欧式距离和次小欧式距离的步骤，从而获取目标图像的多个特征点分别与模板图像所有特征点的最小欧式距离和次小欧式距离。

在本发明的另一个实施例中，当最小欧氏距离和次小欧氏距离的比值小于设定的阈值时，目标图像的特征点与对应最小欧氏距离的特征点匹配。

在本发明的另一个实施例中，当最小欧氏距离和次小欧氏距离的比值大于或等于设定的阈值时，目标图像的特征点没有匹配的特征点。

附图说明

为了进一步阐明本发明的各实施例的以上和其它优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1示出根据本发明的一个实施例的智能的图书点读系统100的示意框图。

图2示出根据本发明的一个实施例的将图书的书页进行编辑、并与音频文件进行关联和打包的过程的流程图。

图3示出根据本发明的一个实施例的图像特征点匹配方法的流程图。

图4示出根据本发明的一个实施例的目标图像每个特征点与模板图像中所有特征点的最小欧氏距离和次小欧氏距离确定方法的流程图。

图5示出根据本发明的一个实施例的智能的图书点读方法的流程图。

具体实施方式

在以下的描述中，参考各实施例对本发明进行描述。然而，本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法、材料或组件一起实施各实施例。在其它情形中，未示出或未详细描述公知的结构、材料或操作以免使本发明的各实施例的诸方面晦涩。类似地，为了解释的目的，阐述了特定数量、材料和配置，以便提供对本发明的实施例的全面理解。然而，本发明可在没有特定细节的情况下实施。此外，应理解附图中示出的各实施例是说明性表示且不一定按比例绘制。

在本说明书中，对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。

如图1所示，图书点读系统100包括图像采集单元110、模板集存储单元120、匹配单元130、位姿确定单元140、指尖检测单元150以及输出单元160。

图像采集单元110拍摄图书书页，手指点击书页中的任意区域时，系统100将会播放此区域关联的音频内容，在书页上点击不同区域，播放不同音频。

在本发明的具体实施例中，图像采集单元110可以是智能手机、平板、学习机、计算机等的摄像单元。图像采集单元110还可以是单独的摄像单元或设置在其他装置上的摄像单元。图像采集单元110将采集到的图像发送给匹配单元130。

模板集存储单元120用于存储图书的书页图像集和关联的音频文件集。

首先，编辑图书的每一页中的各点读区域，此区域可以是图像、文字、数字等。将编辑好的区域分别与其对应的音频文件进行关联。然后，将这些编辑过的书页图像集和音频文件集打包成模板集。

匹配单元130查找模板集中与当前书页图像匹配的模板图像。在本发明的具体实施例中，可通过Surf算法在打包好的模板集中查找与当前书页图像匹配的模板图像。

现有的Surf算法的基本思路主要分为三部分：局部特征点的检测、特征点的描述、特征点的匹配。Surf算法先提取出模板图像和目标图像中健壮的特征点，生成特征点高维向量描述子，通过高维向量计算特征点的欧氏距离，得到目标图像上的特征点到模板图像上所有特征点的欧氏距离，组成一个距离集合，通过对距离集合进行比较运算得到最小欧氏距离和次小欧氏距离，设置一个阈值，当最小欧氏距离和次小欧氏距离的比值小于该阈值时，认为特征点与对应最小欧氏距离的特征点是匹配的。

本发明对现有的Surf算法特征点匹配计算过程进行了优化，从第三个欧氏距离计算开始，不需要将两特征点高维向量全部加入计算，而是逐步将高维向量固定数量的元素加入计算并与现有的次小欧氏距离比较，符合条件，可提前结束互不匹配的两个特征点之间的计算，大大减少特征点匹配的计算量，提高匹配速度。因此，在本发明的实施例中，匹配单元130可以是智能手机、平板、学习机、计算机或专用的逻辑电路。

首先，在步骤110，提取模板图像和目标图像中健壮的特征点。

将经过Hessian矩阵处理的每个像素点与二维图像空间和尺度空间邻域内的26个点进行比较，初步定位出关键点，再经过滤除能量比较弱的关键点以及错误定位的关键点，筛选出最终的稳定的特征点。

在步骤120，用高维向量描述每个特征点。

在本发明的一个实施例中，可首先确定特征点的主方向。可采用统计特征点圆形邻域内的Harr小波特征的方式，获得特征点的主方向。接下来，生成特征点描述子。生成特征点描述子可包括将坐标轴旋转为关键点的主方向，以确保旋转不变性，以特征点为中心，沿主方向将图像划分成4*4个小块，每个子块利用Harr小波模板进行响应计算，然后对响应值进行统计∑dx、∑|dx|、∑dy、和∑|dy|，分别表示水平方向值之和、水平方向绝对值之和、垂直方向值之和、垂直方向绝对值之和，形成4*4*4高维向量描述，每一维度的值作为高维向量描述的一个元素。

在本发明的其它实施例中，高维向量也可以是其它的维数，例如，32维，16维，128维等。

在步骤130，计算目标图像特征点与模板图像所有特征点的最小欧式距离和次小欧式距离。

在本发明的一个实施例中，对于两个特征点的相似性度量，采用欧式距离进行计算：

其中，X_ik表示目标图像中第i个特征点描述的第k个元素，X_jk表示模板图像中第j个特征点描述的第k个元素，n表示特征向量的维数。

特征点匹配需要通过高维向量，找出目标图像每个特征点与模板图像中所有特征点的最小欧氏距离和次小欧氏距离，当最小欧氏距离和次小欧氏距离的比值小于设定的阈值时，特征点与对应最小欧氏距离的特征点匹配。

在本发明的具体实施例中，可将设定的阈值设定为0.8。当最小欧氏距离和次小欧氏距离的比值小于该阈值时，认为特征点与对应最小欧氏距离的特征点匹配，否则没有点与该特征点相匹配。阈值越小，匹配越稳定，但极值点越少。

在步骤210，计算目标图像的一个特征点与模板图像中的第一特征点的第一欧式距离，计算目标图像的该特征点与模板图像中的第二特征点的第二欧式距离，将这两个值作为最小欧氏距离和次小欧氏距离。

在步骤220，将目标图像的该特征点与模板图像中的下一特征点的高维向量描述中的元素划分成N个组，N为大于或等于2的整数，每组元素可包含了m个元素。在本发明的其它实施例中，每组元素可包含不同数量的元素。下文中，以每组包含相同数量的元素为例进行说明，但本发明的保护范围不限于此。

在步骤230，将一组元素加入欧式距离计算，获得当前欧式距离。此时，当前欧式距离为在欧式距离中加入了一组元素的值。

在步骤240，将当前欧式距离与次小欧氏距离进行比较。

如果当前欧式距离大于或等于次小欧氏距离，则说明这两个特征点不匹配，提前结束模板图像当前特征点的欧式距离计算，转向步骤270。

如果当前欧式距离小于次小欧氏距离，则在步骤250，判断目标图像的该特征点与模板图像中的当前特征点的高维向量描述中的元素是否已经全部加入欧式距离计算。

如果元素没有全部加入欧式距离计算，则返回230。将下一组元素加入欧式距离计算，获得当前欧式距离，此时，当前欧式距离为l表示已加入欧式距离计算的元素的数量。接下来进行步骤240，将当前欧式距离与当前的次小欧氏距离进行比较。

如果所有元素已经全部加入欧式距离计算，则在步骤260更新最小欧氏距离和次小欧氏距离，将当前欧式距离与最小欧式距离作为新的最小欧氏距离和次小欧氏距离。可多次重复步骤230至260，直至提前结束模板图像当前特征点的欧式距离计算或将N组元素全部加入欧式距离计算进而得到更新的最小欧氏距离和次小欧氏距离。

在步骤270，判断模板图像中是否存在未计算的特征点。

如果模板图像中不存在未计算的特征点，则将最小欧氏距离和次小欧氏距离作为最终的最小欧氏距离和次小欧氏距离。

如果模板图像中存在未计算的特征点，则返回步骤220。重复步骤220至步骤270，直到目标图像特征点与模板图像所有特征点匹配计算完成，获得最终的最小欧氏距离和次小欧氏距离。

当最小欧氏距离和次小欧氏距离的比值小于设定的阈值时，特征点与对应最小欧氏距离的特征点匹配。

上文结合图3和图4介绍了匹配单元130的具体的匹配方法，通过该方法可有效减少高维向量最小距离计算的计算量，提高Surf算法速度，因此匹配单元130的计算量小，便携设备就可以完成匹配过程，不需要专用的计算设备。

返回图1，位姿确定单元140确定当前书页图像的位姿，从而确定当前书页图像中各编辑区域的位姿。

指尖检测单元150遍历当前书页图像的所有编辑区域，检测当前书页图像各编辑区域是否有手指指尖。如果未检测到手指指尖，表示此区域为非点读区域；如果检测到有手指指尖，表示此区域为点读区域，同时输出单元160播放其所关联的音频文件，从而实现任意位置的点读。

在步骤510，将图书的书页进行编辑、并与音频文件进行关联和打包。首先，编辑图书的每一页中的各点读区域，此区域可以是图像、文字、数字等。将编辑好的区域分别与其对应的音频文件进行关联。然后，将这些编辑过的书页图像集和音频文件集打包成模板集。

在步骤520，通过图像采集单元拍摄图书书页。图像采集单元可以是智能手机、平板、学习机、计算机等的摄像单元。图像采集单元还可以是单独的摄像单元或设置在其他装置上的摄像单元。

在步骤530，通过匹配单元查找模板集中与当前书页图像匹配的模板图像。在本发明的具体实施例中，可通过Surf算法在打包好的模板集中查找与当前书页图像匹配的模板图像。在上文中结合图3和图4描述了具体的Surf算法，为了简化本发明的描述，此处不再重复描述具体的Surf算法。

在步骤540，确定当前书页图像的位姿，并且确定当前书页图像中各编辑区域的位姿。

在步骤550，遍历当前书页图像的所有编辑区域，检测当前书页图像各编辑区域是否有手指指尖。

在步骤560，如果检测到有手指指尖，表示此区域为点读区域，播放其所关联的音频文件。

在步骤570，如果未检测到手指指尖，表示此区域为非点读区域。

本发明公开的智能图书点读方法和系统可实现任意位置的点读，而不需要专用的设备，只需要现有的带有摄像头的设备(如手机，平板、学习机、计算机等)，摄像头对着书本，手可以随意点击图书任意区域，即可使用本系统对图书进行任意点读，不受限制，且不需要盯着电子屏幕，操作简单，使用方便。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种图书点读系统，包括：

图像采集单元，所述图像采集单元拍摄图书书页图像；

2.如权利要求1所述的图书点读系统，其特征在于，还包括输出单元，当指尖检测单元检测到当前拍摄图像的编辑区域内有手指指尖，则播放与编辑区域关联的音频文件。

3.如权利要求1所述的图书点读系统，其特征在于，所述匹配单元是便携式计算单元。

4.一种图书点读方法，包括：

通过图像采集单元拍摄图书书页图像；

在模板集中查找与当前拍摄图像匹配的模板书页图像；

5.如权利要求4所述的图书点读方法，其特征在于，如果检测到当前拍摄图像的编辑区域有手指指尖，表示此区域为点读区域，播放其所关联的音频文件；如果在当前拍摄图像的编辑区域未检测到手指指尖，表示此区域为非点读区域。

6.如权利要求4所述的图书点读方法，其特征在于，还包括：

编辑图书的每一页中的各点读区域；

将编辑好的区域分别与其对应的音频文件进行关联；以及

7.如权利要求4所述的图书点读方法，其特征在于，使用图像特征点匹配方法在模板集中查找与当前拍摄图像匹配的模板书页图像包括：

提取模板图像和目标图像中的特征点；

用高维向量描述每个特征点；

步骤140，将当前欧式距离与所述次小欧氏距离进行比较，

如果元素没有全部加入欧式距离计算，则返回步骤130，

8.如权利要求7所述的图像特征点匹配方法，其特征在于，多次重复计算目标图像特征点与模板图像所有特征点的最小欧式距离和次小欧式距离的步骤，从而获取目标图像的多个特征点分别与模板图像所有特征点的最小欧式距离和次小欧式距离。

9.如权利要求7所述的图像特征点匹配方法，其特征在于，当最小欧氏距离和次小欧氏距离的比值小于设定的阈值时，目标图像的特征点与对应最小欧氏距离的特征点匹配。

10.如权利要求7所述的图像特征点匹配方法，其特征在于，当最小欧氏距离和次小欧氏距离的比值大于或等于设定的阈值时，目标图像的特征点没有匹配的特征点。