CN109448453B

CN109448453B - 基于图像识别追踪技术的点读问答方法与系统

Info

Publication number: CN109448453B
Application number: CN201811239487.3A
Authority: CN
Inventors: 刘博�; 许炯; 俞竣腾; 柳清; 侬继泽
Original assignee: Kunming Micro Chi Sen Polytron Technologies Inc
Current assignee: Kunming micro Chi Sen Polytron Technologies Inc.
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2021-10-12
Anticipated expiration: 2038-10-23
Also published as: CN109448453A

Abstract

本发明公开了一种基于图像识别追踪技术的点读问答方法与系统，该方法包括点读模式和问答模式；当设置为点读模式时，若用户通过点读指点件点击了页面上的触发区域，则播放预先录制的与该触发区域相对应的点读音频；当设置为问答模式时，播放预先录制的与当前页面对应的问题音频，并判断用户是否通过点读指点件点击了该触发区域，返回判断结果语音。该系统包括摄像装置、点读问答装置、存储装置和音频播放装置。本发明能够帮助图书阅读者获得更好的阅读体验，并能通过问答检验其掌握知识的程度。

Description

基于图像识别追踪技术的点读问答方法与系统

技术领域

本发明涉及一种点读方法与系统，特别是指一种基于图像识别追踪技术的点读问答方法与系统。

背景技术

点读笔是采用光学编码识别技术和数码语音技术开发而成的新一代智能阅读和学习工具，能同时实现点读、复读、跟读、录音、娱乐等诸多功能。其技术原理是先将图书上的内容通过OID进行编码，并用特殊的印刷技术将编码印刷到特制图书上，然后用户用点读笔扫描图书编码就可以进行识别并播放相应语音。用户在使用点读笔扫描图书内容时，点读笔发出的声音内容和被扫描书本上的内容相结合，通过这一过程实现增强现实。这种点读笔必须配合印刷有特殊编码的图书才能实现点读功能，图书制作成本高，而且不能利用市场上广泛存在的已有图文出版物。

申请号为201410398737.3的中国专利公开了一种点读系统及其方法，该系统包括摄像装置，位于台灯正上方，用于对台灯下的书本及用户在书本上的手势进行实时扫描；点读装置，用于识别书页距离摄像头的深度，并根据用户在书本上的手势和手指距离书本的深度信息确定点击事件；将点击事件预定区域内的文字图像，进行图像到文字的识别转换；将识别转换后的文字进行语音合成，并输出到扬声器装置中；扬声器装置，用于进行语音播放。

该系统和方法结合OCR技术，使得点读系统可应用于普通图书的点读，适用面得到大幅提升，但其存在下述问题：1)需要识别书页和摄像头的深度，以及手指距离书页的深度，单目摄像头对深度的识别误差很大，识别准确度不理想；双目摄像头对深度的识别准确度会高一些，但识别成本较高；2)点读播放的语音是通过OCR技术提取页面图像中的文字后，再由机器合成得到的语音，OCR技术不能识别图像，其文字识别准确率最高只能达到95％左右；机器合成得到的语音起承转合不自然，亲和度较差；3)由于手对书本有遮挡，致使实时采集到的图像不全，图像到文字的识别转换会有误差。

发明内容

本发明的目的在于提供一种包含点读和问答两种功能的基于图像识别追踪技术的点读问答方法与系统。

为实现上述目的，本发明所设计的基于图像识别追踪技术的点读问答方法，包括点读模式和问答模式；当设置为点读模式时，点读问答装置对摄像装置采集的页面和点读指点件的图像进行识别，判断用户是否通过点读指点件点击了当前页面上预设的触发区域，若判断结果为真，则播放预先录制的与该触发区域相对应的点读音频；当设置为问答模式时，点读问答装置对摄像装置采集的页面图像进行识别，播放预先录制的与当前页面对应的问题音频，提示用户点击当前页面上预设的与问题答案相对应的触发区域，并通过图像识别判断用户是否通过点读指点件点击了该触发区域，返回判断结果语音。

优选地，该方法通过如下步骤判断点读指点件是否进入触发区域：追踪点读指点件在页面坐标系上的坐标，当点读指点件前端一个点或多个点进入触发区域的坐标范围时，判断点读指点件进入了该触发区域。

优选地，该方法通过如下步骤判断点读指点件是否进行了点击动作：计算点读指点件的识别区域与页面在摄像装置实时获得的图像上的实时面积比z，并与刚好触发点击时的临界面积比z₁进行比较，若z≤z₁，则判断点读指点件进行了点击动作。所述临界面积比z₁可以设置为点读指点件的识别区域与页面的物理面积比z₀的1～1.8倍。不同于申请号为201410398737.3的中国专利，该方案通过摄像装置下点读指点件图像和页面图像的面积比例变化来判断点读图像相对于页面的高度，不需要识别深度信息，可实施性大幅提高，同时成本大幅降低。

优选地，该方法通过摄像装置实时采集当前页面和点读指点件的图像，通过图像识别模块识别当前所在页面，通过位置追踪模块获得点读指点件在当前页面上的相对位置并判断点读指点件是否对页面上预设的触发区域进行了点击动作。所述图像识别模块优选采用OpenCV的图像特征提取算法提取图像特征。

优选地，所述点读模式和问答模式通过如下方法进行自动切换：当检测到特定页面时，点读问答装置自动切换为点读模式或问答模式。例如，所述特定页面为封面和封底，当检测到封面时，点读问答装置自动切换为点读模式，检测到封底时则自动切换为问答模式。此种方式利用封面封底切换模式，无需对图书进行特殊处理，可适用于普通出版物。

可选地，所述点读模式和问答模式还可以通过如下方法进行自动切换：在特定页面上设置用于自动切换点读模式或问答模式的模式切换图形，当点读问答装置识别到模式切换图形或者检测到用户点击模式切换图形时，自动切换为与该模式切换图形对应的点读模式或问答模式。此种切换方式更为灵活，但需要在图书上印刷模式切换图形，适应性较差。

优选地，所述点读模式在页面打开后等待用户动作的过程中播放预先录制的与该页面关联的默认音频。默认音频可以是操作提示、故事梗概或全文朗读，设置默认音频一方面增加了点读问答系统的功能，另一方面还使得用户体验更为流畅自然。

优选地，该方法还包括为出版物制作点读问答数据包的过程，其步骤为：

1)采集点读问答系统所需页面的电子图片；

2)通过图像识别模块提取页面的图像特征；

3)在页面的电子图片上设定闭合区域作为触发区域；

4)录制与触发区域对应的点读音频和问题音频，并建立音频与触发区域之间的关联。

优选地，所述点读问答数据包的制作过程还包括：录制页面在打开后等待用户动作时的默认音频，并建立默认音频与页面之间的关联。

优选地，当点读指点件经过触发区域上方，且未下降到触发点击动作的临界高度以下时，播放用于表明点读指点件经过触发区域的提示音(悬停音效)，便于用户快速发现页面上的触发区域。

本发明同时提供了一种基于图像识别追踪技术的点读问答系统，包括如下组成部分：

摄像装置，用于采集出版物页面和点读指点件的实时图像；

点读问答装置，用于识别并提取图像特征，追踪点读指点件的位置并判断点击事件；当设置为点读模式时，若点击事件发生则播放点读音频；当设置为问答模式时，首先播放问题音频，再判断用户是否点击了正确的触发区域；

存储装置，用于存储图像数据、音频数据和触发条件；

音频播放装置，用于播放音频和语音。

优选地，该点读问答系统还包括用于对出版物页面进行点击的点读指点件，所述点读指点件为可通过图像识别进行点击的物体。

优选地，所述点读问答装置包括：

图像识别模块，用于识别摄像装置采集图像中的页面和点读指点件，并提取它们的图像特征；

模式切换模块，用于将系统切换为点读模式或问答模式；

位置追踪模块，用于对点读指点件在页面上的位置和点击动作进行追踪；

事件触发模块，用于判断事件触发条件是否满足，并执行后续动作；所述事件触发条件包括检测到页面上的触发区域被用户点击，所述后续动作包括播放点读音频或播放问题音频。

优选地，所述点读问答装置还包括数据包制作模块，用于为出版物制作点读问答数据包。点读问答数据包中的音频可以由专业播音员进行录制，以获得读音标准、质量高的专业音频内容；也可以由普通用户录制并分享，作为专业音频内容的补充，提供尽可能多的音频内容。

优选地，所述存储装置中存储的图像数据包括页面的图像及其图像特征、点读指点件的图像及其图像特征，以及点读指点件与页面的物理面积比z₀、临界面积比z₁。

可选地，该点读问答系统部署为软硬件集成系统，包括集成有摄像装置与音频播放装置的移动智能设备系统、设置有摄像装置的智能音箱系统，以及独立摄像装置、独立音频播放装置与移动智能设备结合的系统；或者部署为前述软硬件集成系统与服务器相结合的系统。

与现有技术相比，本发明的有益效果在于：

1)将AR技术与点读技术结合起来，实现任意出版物的点读，无需专用编码解码，通用性强。

2)点读问答音频可以由专业播音员或普通用户提前录制，语音的准确性和亲和度好，特别对于儿童阅读，专业播音员的声音能更好的帮助孩子进行语言和文字学习，家长自录的声音可以增进家长和孩子的情感交流。

3)本发明同时包括点读模式和问答模式两种模式，能够帮助图书阅读者获得更好的阅读体验，并能通过问答检验其掌握知识的程度。

附图说明

图1为实施例1提供的点读问答系统的结构示意图。

图2(a)、2(b)分别为实施例3所提供的双功能点读指点件的正反面的结构示意图。

图3为各实施例中摄像装置、点读指点件及书页的位置示意图。

图4为实施例4中在页面上设置触发区域的示意图。

图5为实施例4中获得物理面积比的示意图。

其中：点读指点件1、手持部1.1、识别部1.2、第一识别面1.3、第二识别面1.4、点击锚区1.5、摄像装置2、点读问答装置3、图像识别模块3.1、模式切换模块3.2、位置追踪模块3.3、事件触发模块3.4、数据包制作模块3.5、存储装置4、音频播放装置5、页面6、触发区域6.1

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

实施例1

如图1所示，本实施例公开了一种基于图像识别追踪技术的点读问答系统，包括如下组成部分：

1)点读指点件1，用于对出版物页面进行点击，可采用各种便于图像识别和点击的物体，例如手指，预制的点读棒，用户自制的点读魔棒等。

2)摄像装置2，设置在出版物页面的正上方或斜上方，用于采集页面和点读指点件1的实时图像。

3)点读问答装置3，用于识别并提取图像特征，追踪点读指点件1的位置并判断点击事件；当设置为点读模式时，若点击事件发生则播放点读音频；当设置为问答模式时，首先播放问题音频，再判断用户是否点击了正确的触发区域。

该点读问答装置3具体包括下述软件模块：

3.1)图像识别模块3.1，用于识别摄像装置2采集图像中的页面和点读指点件1，提取它们的图像特征，并通过当前页面与预先拍摄的出版物页面的图像特征进行对比确定当前所处页面。

本实施例中，图像识别模块3.1采用OpenCV的图像特征提取算法提取图像特征。和指纹类似，每一页面和点读指点件图像，都有区别于其它图像的唯一特征，同一图像无论发生角度、位移、明暗变化，所提取的特征都是相同的。开源项目OpenCV的图像特征提取算法，详细可见https://github.com/MasteringOpenCV/code/tree/master/Chapter3_MarkerlessAR中的PatternDetector模块的操作逻辑。

3.2)模式切换模块3.2，用于将系统切换为点读模式或问答模式，模式切换可以由用户手动设置，也可以在满足切换条件后自动切换。

3.3)位置追踪模块3.3，判断点读指点件1是否对页面上的触发区域进行了点击，返回被点击的触发区域。

3.4)事件触发模块3.4，用于判断事件触发条件是否满足，并执行后续动作；事件触发条件包括翻页、点击触发区域、点读指点件1朝上画面、点读指点件1悬停在触发区域上方；后续动作包括播放默认音频、问题音频、点读音频或悬停音效，部分条件及动作详见后文。

3.5)数据包制作模块3.5，预先采集图像数据，录制音频数据，设置触发条件，并打包成点读问答数据包，以便分发；点读问答数据包既可以由专业机构编辑录制，也可以由普通用户自行编辑录制。

4)存储装置4，用于存储图像数据、音频数据和触发条件，其中存储的图像数据为出版物页面图像及其图像特征、点读指点件图像及其图像特征，以及点读指点件与页面的物理面积比z₀、临界面积比z₁。

5)音频播放装置5，用于播放音频，包括点读音频、问题音频，以及起交互作用的指令或提示音。

本实施例同时提供了一种采用上述点读问答系统的点读问答方法，该方法通过模式切换模块3.2设置为点读模式或问答模式。

当设置为点读模式时，摄像装置2采集页面和点读指点件1的图像，图像识别模块3.1对页面和点读指点件图像进行识别，提取二者的图像特征，通过对比点读问答数据包中的页面图像特征确定当前所处的页面；位置追踪模块3.3对点读指点件1在页面上的位置和点击动作进行追踪，本实施例采用现有技术中的常规方法对点读指点件1的位置和点击进行判断。

事件触发模块3.4检测到某一页面后，在等待用户动作的过程中，播放预先录制的与该页面关联的默认音频，一旦检测到点读指点件1移动(或点击)后就中断默认音频的播放，待用户点击到页面上的触发区域后，调取与之对应的点读音频文件，交由音频播放装置5进行播放。

当设置为问答模式时，图像识别模块3.1首先对当前页面进行识别，事件触发模块3.4调取预先录制的与当前页面对应的问题音频交由音频播放装置5进行播放，提示用户点击当前页面上预设的与问题答案相对应的触发区域，并判断用户是否通过点读指点件1点击了该触发区域，返回判断结果语音。

点读模式和问答模式两种模式即可设置为手动切换，也可以由模式切换模块3.2自动切换。自动切换可以根据特定页面进行切换，例如当摄像装置2检测到封面时，点读问答装置3切换为点读模式，检测到封底时则切换为问答模式；也可以根据特定图形进行切换，例如在某些页面(例如单元自测页面)印上与点读模式或问答模式对应的模式切换图形，系统识别到模式切换图形或者检测到用户点击模式切换图形时，自动切换为与该模式切换图形对应的模式。

专业机构和普通用户均可以通过数据包制作模块3.5制作点读问答数据包，其步骤为：

1)用户取出一本图书，用相机或扫描仪采集点读问答系统所需页面的电子图片(封面为必拍项)，与点读问答系统无关的页面可以不采集。

2)用户在“录入系统”(数据包制作模块)中新建一个数据包，对包进行命名，命名可以是图书名称或其他特定人群能辨别的名称，并设定封面、封底对应的电子图片。“录入系统”会为数据包生成唯一的数据包id。“录入系统”可以是手机或平板电脑APP，也可以是网站或软件系统。

2)通过图像识别模块3.1提取页面的图像特征，图像识别模块3.1是现有的成熟技术，可以将其部署到APP或网站里。

3)在页面的电子图片上设定闭合区域作为触发区域，存储各页面上的触发区域坐标。

5)录制页面在打开还未点击时的默认音频，并建立默认音频与页面之间的关联。

通过数据包制作模块3.5，普通用户也可以为图书、画册、台历、相册等印刷品自定义语音，例如父亲为绘本录制音频后，孩子翻开绘本并进行点击时，与点击区域关联的音频就会自动播放，辅助孩子阅读识字；老师可以为教材的每一页或某几页录制教学音频，学生翻开那些页时，教学音频就自动播放，辅助学生学习。

考虑到目前市场上的普通出版物未对可点读区域作任何标记，读者可能无法快速找到触发区域，本实施例还为触发区域增加了悬停音效，即当点读指点件1经过触发区域上方，且未下降到触发点击动作的临界高度以下时，播放用于表明点读指点件1经过触发区域的提示音，便于用户快速找到页面上存在的触发区域，提高了用户体验。

该点读问答系统可以部署为一个独立的软硬件集成系统，例如集成有摄像装置与音频播放装置的移动智能设备系统，独立摄像装置与智能音箱结合的系统，独立摄像装置、独立音频播放装置与移动智能设备结合的系统，也可部署为前述软硬件与服务器结合的系统。

实施例2

本实施例在实施例1的基础上，提供了一种可提高点击精准度、简便易行的点读指点件点击判断方法，包括水平追踪和高度追踪，其中：

1)水平追踪

追踪点读指点件1在页面坐标系上的坐标，当点读指点件1前端一个点或多个点进入触发区域的坐标范围时，判断点读指点件1进入了该触发区域。

2)高度追踪

2.1)如图3所示，在点读过程中，固定于出版物上方的摄像装置2实时拍摄点读指点件1与出版物页面，点读问答系统的位置追踪模块3.3实时计算点读指点件1识别区域(供图像识别的区域)与出版物页面在拍摄图像中的面积之比，记为实时面积比z。

作为一种简化方案，出版物页面在拍摄图像中的实时面积也可以采用出版物封面(或封底)在拍摄图像中的面积进行替代，在计算实时画面比z时，无需再计算其他页面在拍摄图像中的实时面积。其缺点是受出版物和摄像装置的摆放位置影响较大，为提高准确度，最好在每次点读前都拍摄封面(或封底)与点读指点件在同一平面上的图像并获得二者的大小比例，同时在阅读过程中尽量避免大幅度移动书本。

2.2)设置点读指点件1接近出版物到刚好触发点击的位置时，点读指点件1识别区域与出版物页面在拍摄图像中的面积之比为临界面积比z₁；临界面积比z₁可以实际测试得到，也可以预设为点读指点件1识别区域与出版物页面的实际物理面积比z₀的1～1.8倍，具体比例数值以便于用户操作为宜。而实际物理面积比z₀可以根据出版物尺寸(扉页一般有记载)、点读指点件1识别区域面积计算得到；也可以按如下方式得到：将点读指点件1与出版物平放在同一平面上，通过摄像装置2获取同一画面下点读指点件1的识别区域图像与出版物的页面图像，由用户框选出二者的范围，系统根据用户的框选计算二者的图像面积之比，其值与实际物理面积比z₀相等，后一种方法主要用于出版物或点读指点件1尺寸未知的情形。

2.3)若实时画面比z＞z₁，则点读问答系统判定当前点读指点件1处于未点击状态；若z≤z₁，则点读问答系统判定当前点读指点件1处于点击状态。

3)当点读指点件1进行了点击动作，且其点击区域上的一个或多个点进入触发区域的坐标范围内时，判断点读指示件对触发区域进行了点击。

4)多页识别与处理

对于展开后为多页的出版物，当摄像机范围内出现多张“可识别”页面时，系统可以根据点读件与多张页面的相对位置判断目前所在页面，激活相应页面，再按照单页进行处理。计算实时面积比时，当前页面面积可以通过图像识别模块3.1识别单页后进行计算，或者取拍摄图像中整体面积除以页面数。

本实施例通过摄像装置下点读指点件图像和页面图像的大小关系来判断点读图像相对于页面的高度，不需要识别深度信息，可实施性大幅提高，同时成本大幅降低。

实施例3

如图2所示，本实施例在实施例2的基础上，提供了一种基于图像识别追踪技术的双功能点读指点件，包括供用户握持的手持部1.1和供图像识别的识别部1.2(即前文中的识别区域)。

识别部1.2的正反面分别设置为第一识别面1.3和第二识别面1.4，第一识别面1.3、第二识别面1.4分别设置有能够彼此区分开并且便于图像识别的特征图像，第一识别面1.3、第二识别面1.4分别对应不同的功能，可以用于切换不同的点读音频或点读/问答模式。为避免混淆，第一识别面1.3、第二识别面1.4上设置有对应功能的提示词。第一识别面和第二识别面对应不同的功能或音频，可以方便地进行翻转切换，提高了点读问答系统的功能性和趣味性。若需实现三种及以上的点读功能，可以采用多根点读指点件的组合。

识别部1.2的前端设置有用于精确定位的点击锚区1.5，点击锚区1.5的正反面均设置有便于图像识别并且可与第一识别面1.3、第二识别面1.4的主体图像区分开的特征图像；点击锚区1.5单面面积为识别部1.2单面面积的1/1000～1/10，点击锚区1.5的正反面图像可以相同，也可以不同。

本实施例同时提供了应用前述双功能点读指点件进行点读的方法，其在实施例1中点读问答方法的基础上，增加了识别部1.2正反面的检测，具体为：在点读模式下，当点读问答系统的位置追踪模块3.3检测到点击锚区1.5点击到页面上的触发区域，若当前拍摄到的识别面为第一识别面1.3，则事件触发模块3.4调取与触发区域对应的第一点读音频交由音频播放装置5播放；若当前拍摄到的识别面为第二识别面1.4，则事件触发模块3.4调取与触发区域对应的第二点读音频交由音频播放装置5播放。两识别面对应的音频可以根据需要设置，例如第一点读音频为中文语音，第二点读音频为英文语音；又如第一点读音频为单词语音，第二点读音频为例句语音；再如第一点读音频为字词读音，第二点读音频为字词解释。第一点读音频、第二点读音频均由专业机构或用户在制作点读问答数据包时录制，并与触发区域进行关联。

上述双功能点读指点件可以随系统硬件一同销售，也可以由用户按照前述结构自行设计，满足个性化需求。设计完成后需要录入点读问答系统中，其步骤如下：

1)平放点读指点件，使第一识别面1.3朝上；通过摄像装置2对点读指点件进行拍摄，对拍摄的照片进行边缘识别或者由用户框选获得第一识别面1.3的特征图像，通过用户框选获得位于第一识别面1.3上的点击锚区1.5的特征图像。

2)翻转点读指点件，使第二识别面1.4朝上；通过摄像装置2对点读指点件进行拍摄，对拍摄的照片进行边缘识别或者由用户框选获得第二识别面1.4的特征图像，通过用户框选获得位于第二识别面1.4上的点击锚区1.5的特征图像。

本实施例采用面积较小的点击锚区进行水平定位，可以定位到面积较小的触发区域，提高了水平定位精度；采用面积较大的识别面进行高度定位，能够获得更高的面积比例计算精度，使得通过面积比例判定点击动作的过程更为稳定可靠；采用较大的识别面还有助于图像识别模块更快地捕捉到点击锚区1。

实施例4

本实施例以儿童绘本《大画云南》为例，给出以上各实施例中装置和方法的具体应用。

1)制作点读问答数据包

1.1)选取儿童绘本《大画云南》，用户通过摄像装置2或扫描仪采集页面图像(包括封面封底)，点读问答系统(以下简称系统)自动识别图像特征。

1.2)如图4所示，用户在页面6的图像上设置触发区域6.1，并录入第一点读音频(中文)、第二点读音频(英文)、问题音频、默认音频，以及音频与与页面、触发区域的对应关系；触发区域6.1是一个由几个顶点连接线段组成的闭合规则或不规则图形，用户在页面图像上绘制触发区域6.1后，系统自动采集其外围顶点相对于页面坐标系的坐标，从而得出触发区域的坐标范围。

2)数据配置

2.1)用户用摄像装置2拍摄点读指点件1各个面录入系统。

2.2)把点读指点件1和绘本封面并排放置于同一平面上(不重叠)，用摄像装置2将点读指点件1和绘本画面拍摄在同一图片中。

2.3)根据前述图片，在系统中由用户自行绘制矩形框，框选包围绘本封面和点读指点件1轮廓，如图5所示。系统根据设定的两个矩形框区域，自动计算出点读指点件1识别部1.2的面积和绘本封面面积比例值关系，作为“物理面积比z₀”，比如图5中z₀＝1/10＝0.1。

2.4)设置点读指点件1的点击锚区1.5：点读指点件1的识别部1.2画面较大，一是为了提示用户该面的作用，二也是为了让点读指点件1更容易被摄像装置2捕捉，但点击锚区1.5可以设置为较小的区域，实现更精确的点读。

2.5)设置点击事件触发的临界面积比z₁＝物理面积比z₀×1.5，当摄像装置2识别到点读指点件1识别面的面积与页面面积(以封面面积进行计算)的比值即实时面积比z≤临界面积比z₁，即z≤0.15时，达到触发点击的高度条件，判断用户进行了点击。

3)点读操作

3.1)用户准备好绘本，打开系统，输入数据包id或名称关键字，或扫描封面搜索数据包；如果关键字匹配多个公开的数据包，系统会返回多个包让用户选择其一；如果用户扫描绘本封面来搜索数据包，系统将识别封面图像特征，在数据库中查询该封面对应的数据包返回给用户，如果该封面匹配多个公开的数据包，系统会返回多个包让用户选择其一。

3.2)用户将点读问答系统(本实施例中采用智能手机)固定于绘本斜上方台灯上，系统检测到绘本封面或者根据用户操作进入点读模式。

3.3)系统识别到某一页面6时，若该页面设置有默认音频，则自动调取默认音频进行播放，检测到用户点击动作时自动中断；当点读指点件1经过触发区域6.1上方，且未下降到触发点击动作的临界高度以下时，播放用于表明点读指点件1经过触发区域的悬停音效。

3.4)用户将点读指点件1的点击锚区1.5指向页面6上的触发区域6.1并进行点击，系统根据点读指点件1朝上画面播放对应音频，当朝上画面为第一识别面1.3时播放中文音频，当朝上画面为第二识别面1.4时播放英文音频。

4)问答操作

4.1)系统检测到绘本封底或者根据用户操作进入问答模式。

4.2)当系统检测到设置有问答音频的页面6时，自动播放该页面对应的问题音频，比如针对儿童的问题：“请指出页面上的大象”。

4.3)用户用点读指点件1指向页面上答案的触发区域6.1，比如此处指向页面上有大象画面的区域。

4.4)当系统检测到点读指点件1的点击锚区1.5与页面图像中事件触发区交叉且高度满足点击条件时，触发执行判断答案对错的业务逻辑，并通过手机扬声器以声音形式反馈给用户。

5)触发区域点击判断

点读问答过程中，在用户将点读指点件1移动到目标的过程中，为了不让移动过程误触发，系统每隔一定时间(如0.2秒)计算实时面积比z：当z>临界面积比z₁时，可以理解为还未进行点击；点读指点件1贴合或接近页面，z在物理面积比z₀和临界面积比z₁之间，即z₀≤z≤z₁时，则判断为高度已符合点击条件。

系统再判断点击锚区1.5是否在水平方向上接触到页面上的触发区域，其判断方式为：系统实时采集点击锚区1.5各顶点在页面坐标系的坐标，判断该坐标是否在触发区域的坐标区域内，例如：某三角形点击锚区1.5各顶点相对页面坐标系的实时坐标为(X₁,Y₁)、(X₂,Y₂)、(X₃,Y₃)，某矩形触发区域左上、右上、左下、右下各顶点相对页面坐标系的的坐标为(x₁,y₁)、(x₂,y₂)、(x₃,y₃)、(x4,y4)，当点击锚区1.5任一顶点如(X_i,Y_i)(i＝1,2,3)在触发区域内，即x₁≤X_i≤x₂且y₃≤Y_i≤y₁时，判断点击锚区1.5在水平方向上接触到了触发区域。

Claims

1.一种基于图像识别追踪技术的点读问答方法，其特征在于：

该方法包括点读模式和问答模式；

当设置为点读模式时，点读问答装置（3）对摄像装置（2）采集的页面（6）和点读指点件（1）的图像进行识别，判断用户是否通过点读指点件（1）点击了当前页面（6）上预设的触发区域（6.1），若判断结果为真，则播放预先录制的与该触发区域（6.1）相对应的点读音频；

当设置为问答模式时，点读问答装置（3）对摄像装置（2）采集的页面图像进行识别，播放预先录制的与当前页面（6）对应的问题音频，提示用户点击当前页面（6）上预设的与问题答案相对应的触发区域（6.1），并通过图像识别判断用户是否通过点读指点件（1）点击了该触发区域（6.1），返回判断结果语音；

所述点读指点件（1）包括供用户握持的手持部（1.1）和作为识别区域供图像识别的识别部（1.2）；

该方法通过如下步骤判断点读指点件（1）是否进行了点击动作：计算点读指点件（1）的识别区域与页面（6）在摄像装置（2）实时获得的图像上的实时面积比z，并与刚好触发点击时的临界面积比z₁进行比较，若z≤z₁，则判断点读指点件（1）进行了点击动作。

2.根据权利要求1所述的基于图像识别追踪技术的点读问答方法，其特征在于：该方法通过如下步骤判断点读指点件（1）是否进入触发区域（6.1）：追踪点读指点件（1）在页面坐标系上的坐标，当点读指点件（1）前端一个点或多个点进入触发区域（6.1）的坐标范围时，判断点读指点件（1）进入了该触发区域（6.1）。

3.根据权利要求1所述的基于图像识别追踪技术的点读问答方法，其特征在于：所述临界面积比z₁设置为点读指点件（1）的识别区域与页面（6）的物理面积比z₀的1~1.8倍。

4.根据权利要求1所述的基于图像识别追踪技术的点读问答方法，其特征在于：该方法通过摄像装置（2）实时采集当前页面（6）和点读指点件（1）的图像，通过图像识别模块（3.1）识别当前所在页面（6），通过位置追踪模块（3.3）获得点读指点件（1）在当前页面（6）上的相对位置并判断点读指点件（1）是否对页面（6）上预设的触发区域（6.1）进行了点击动作。

5.根据权利要求1~4中任一项所述的基于图像识别追踪技术的点读问答方法，其特征在于：所述点读模式和问答模式通过如下方法进行自动切换：当检测到特定页面（6）时，点读问答装置（3）自动切换为点读模式或问答模式。

6.根据权利要求5所述的基于图像识别追踪技术的点读问答方法，其特征在于：所述特定页面（6）为封面和封底，当检测到封面时，点读问答装置（3）自动切换为点读模式，检测到封底时则自动切换为问答模式。

7.根据权利要求1~4中任一项所述的基于图像识别追踪技术的点读问答方法，其特征在于：所述点读模式和问答模式通过如下方法进行自动切换：在特定页面（6）上设置用于自动切换点读模式或问答模式的模式切换图形，当点读问答装置（3）识别到模式切换图形或者检测到用户点击模式切换图形时，自动切换为与该模式切换图形对应的点读模式或问答模式。

8.根据权利要求1~4中任一项所述的基于图像识别追踪技术的点读问答方法，其特征在于：所述点读模式在页面（6）打开后等待用户动作的过程中播放预先录制的与该页面（6）关联的默认音频。

9.根据权利要求1~4中任一项所述的基于图像识别追踪技术的点读问答方法，其特征在于：该方法还包括为出版物制作点读问答数据包的过程，其步骤为：

1）采集点读问答系统所需页面（6）的电子图片；

2）通过图像识别模块（3.1）提取页面（6）的图像特征；

3）在页面（6）的电子图片上设定闭合区域作为触发区域（6.1）；

4）录制与触发区域（6.1）对应的点读音频和问题音频，并建立音频与触发区域（6.1）之间的关联。

10.根据权利要求9所述的基于图像识别追踪技术的点读问答方法，其特征在于：所述点读问答数据包的制作过程还包括：录制页面（6）在打开后等待用户动作时的默认音频，并建立默认音频与页面（6）之间的关联。

11.根据权利要求1~4中任一项所述的基于图像识别追踪技术的点读问答方法，其特征在于：当点读指点件（1）经过触发区域（6.1）上方，且未下降到触发点击动作的临界高度以下时，播放用于表明点读指点件（1）经过触发区域（6.1）的提示音。

12.一种专为实施如权利要求1~11中任一项所述点读问答方法而设计的基于图像识别追踪技术的点读问答系统，其特征在于：

该系统包括如下组成部分：

摄像装置（2），用于采集出版物页面（6）和点读指点件（1）的实时图像；

点读问答装置（3），用于识别并提取图像特征，追踪点读指点件（1）的位置并判断点击事件；当设置为点读模式时，若点击事件发生则播放点读音频；当设置为问答模式时，首先播放问题音频，再判断用户是否点击了正确的触发区域（6.1）；

存储装置（4），用于存储图像数据、音频数据和触发条件；

音频播放装置（5），用于播放音频和语音；

还包括用于对出版物页面（6）进行点击的点读指点件（1），所述点读指点件（1）包括供用户握持的手持部（1.1）和作为识别区域供图像识别的识别部（1.2）。

13.根据权利要求12所述的基于图像识别追踪技术的点读问答系统，其特征在于：所述点读问答装置（3）包括：

图像识别模块（3.1），用于识别摄像装置（2）采集图像中的页面（6）和点读指点件（1），并提取它们的图像特征；

模式切换模块（3.2），用于将系统切换为点读模式或问答模式；

位置追踪模块（3.3），用于对点读指点件（1）在页面（6）上的位置和点击动作进行追踪；

事件触发模块（3.4），用于判断事件触发条件是否满足，并执行后续动作；所述事件触发条件包括检测到页面（6）上的触发区域（6.1）被用户点击，所述后续动作包括播放点读音频或播放问题音频。

14.根据权利要求13所述的基于图像识别追踪技术的点读问答系统，其特征在于：所述点读问答装置（3）还包括数据包制作模块（3.5），用于为出版物制作点读问答数据包。

15.根据权利要求12~14中任一项所述的基于图像识别追踪技术的点读问答系统，其特征在于：所述存储装置（4）中存储的图像数据包括页面（6）的图像及其图像特征、点读指点件（1）的图像及其图像特征，以及点读指点件（1）与页面（6）的物理面积比z₀、临界面积比z₁。

16.根据权利要求12~14中任一项所述的基于图像识别追踪技术的点读问答系统，其特征在于：该点读问答系统部署为软硬件集成系统，包括集成有摄像装置（2）与音频播放装置（5）的移动智能设备系统、设置有摄像装置（2）的智能音箱系统，以及独立摄像装置（2）、独立音频播放装置（5）与移动智能设备结合的系统；或者部署为前述软硬件集成系统与服务器相结合的系统。