CN108665742A

CN108665742A - 一种通过阅读设备进行阅读的方法与设备

Info

Publication number: CN108665742A
Application number: CN201810451016.2A
Authority: CN
Inventors: 廖春元
Original assignee: Bright Wind Taiwan (shanghai) Mdt Infotech Ltd
Current assignee: Bright Wind Taiwan (shanghai) Mdt Infotech Ltd
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-10-16
Anticipated expiration: 2038-05-11
Also published as: CN108665742B

Abstract

本申请的目的是提供一种通过阅读设备进行阅读的方法，其中，所述阅读设备包括摄像装置，该方法包括：通过所述摄像装置拍摄用户阅读书籍过程中的指读操作；根据所述指读操作在所拍摄图像信息中的指示位置信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页与所述指读操作所处的在读书页相对应；确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息；在所述用户的阅读过程中呈现所述虚拟AR信息。本申请通过摄像装置识别和匹配拍摄到的书籍，进一步识别用户的指读操作，对当前指读操作位置的文字进行朗读或者呈现相关视频等，将虚拟的电子信息显示在书籍上或者书籍周边，给用户提供了更加真实、自然的阅读体验等。

Description

一种通过阅读设备进行阅读的方法与设备

技术领域

本申请涉及通信领域，尤其涉及一种用于通过阅读设备进行阅读的技术。

背景技术

学龄儿童的阅读、识字是小孩成长过程中不可忽视的环节。一直以来，这些活动都是通过传统的书籍、纸张以及父母老师的口口相传来实现。然而，读音和字形的一一对应对儿童识字具有极重要的作用，而父母可能因为忙碌的工作等生活因素，不一定有时间或耐心在家里对儿童进行辅导。另外，普通父母的朗读水平可能也不是很专业，感情色彩、语音语调、语速等掌握不是很好。

发明内容

本申请的一个目的是提供一种通过阅读设备进行阅读的方法和设备。

根据本申请的一个方面，提供了一种通过阅读设备进行阅读的方法，其中，所述阅读设备包括摄像装置，该方法包括：

通过所述摄像装置拍摄用户阅读书籍过程中的指读操作；

根据所述指读操作在所拍摄图像信息中的指示位置信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页与所述指读操作所处的在读书页相对应；

确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息；

在所述用户的阅读过程中呈现所述虚拟AR信息。

根据本申请的又一个方面，提供了一种通过阅读设备进行阅读的方法，其中，所述阅读设备包括摄像装置，该方法包括：

所述阅读设备通过所述摄像装置拍摄第一用户阅读书籍过程中的指读操作；

所述阅读设备将所拍摄图像信息发送至对应第二用户的用户设备；

所述用户设备接收并呈现所述图像信息，获取所述第二用户对所述指读操作在所述图像信息中对应文字信息的朗读音频信息，并将所述朗读音频信息发送至所述阅读设备；

所述阅读设备在所述第一用户的阅读过程中播放所述朗读音频信息。

根据本申请的一个方面，提供了一种阅读设备，其中，所述阅读设备包括摄像装置，该设备包括：

第一模块，用于通过所述摄像装置拍摄用户阅读书籍过程中的指读操作；

第二模块，用于根据所述指读操作在所拍摄图像信息中的指示位置信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页与所述指读操作所处的在读书页相对应；

第三模块，用于确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息；

第四模块，用于在所述用户的阅读过程中呈现所述虚拟AR信息。

根据本申请另一个方面，提供了一种通过阅读设备进行阅读的系统，其中，所述阅读设备包括摄像装置，该系统包括所述阅读设备和用户设备：

其中，所述阅读设备还包括：拍摄模块，用于通过所述摄像装置拍摄第一用户阅读书籍过程中的指读操作；发送模块，用于将所拍摄图像信息发送至对应第二用户的用户设备；播放模块，用于在所述第一用户的阅读过程中播放所述朗读音频信息；

其中，所述用户设备包括：获取模块，用于接收并呈现所述图像信息，获取所述第二用户对所述指读操作在所述图像信息中对应文字信息的朗读音频信息，并将所述朗读音频信息发送至所述阅读设备。

根据本申请的一个方面，提供了一种通过阅读设备进行阅读的设备，其中，该设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行：

通过所述摄像装置拍摄用户阅读书籍过程中的指读操作；

在所述用户的阅读过程中呈现所述虚拟AR信息。

根据本申请的一个方面，提供了一种包括指令的计算机可读介质，所述指令在被执行时使得系统进行：

通过所述摄像装置拍摄用户阅读书籍过程中的指读操作；

在所述用户的阅读过程中呈现所述虚拟AR信息。

与现有技术相比，本申请通过摄像装置识别和匹配拍摄到的书籍，进一步识别用户的指读操作，并根据指读操作的位置与数据库中与书籍对应的训练书页的坐标映射关系，对当前指读操作位置的文字进行朗读或者呈现相关视频等，将虚拟的电子信息显示在书籍上或者书籍周边，给用户提供了更加真实、自然的阅读体验等。进一步地，该阅读设备包括投影设备，通过投影设备对当前呈现相关信息的位置进行高亮提醒等，实现更加方便、精细的朗读，有助于用户的阅读或识字效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个实施例的一种通过阅读设备进行阅读的示例图；

图2示出根据本申请一个实施例的一种通过阅读设备进行阅读的方法流程图；

图3示出本申请中相关坐标系间的坐标转换相关示意图；图4示出根据本申请另一个实施例的一种通过阅读设备进行阅读的系统方法图；

图5示出根据本申请一个实施例的一种阅读设备的设备结构图；

图6示出根据本申请一个实施例的一种通过阅读设备进行阅读的系统示意图；

图7示出可被用于实施本申请中所述的各个实施例的示例性系统。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作系统，如android操作系统、iOS操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地，所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。

当然，本领域技术人员应能理解上述设备仅为举例，其他现有的或今后可能出现的设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在本申请的描述中，“多个”的含义是两个或者更多，除非另有明确具体的限定。

图1示出了本申请的一个典型应用场景，用户通过阅读设备进行阅读或者识字，阅读设备根据用户的指读操作对用户指读位置的词汇进行朗读或高亮标注或者呈现相关虚拟信息等，其中，阅读设备包括但不限于摄像装置，其中，阅读设备还可以包括投影装置。阅读设备通过摄像装置采集阅读书籍及用户指读操作等图像信息，通过投影装置进行高亮标注或呈现相关虚拟信息等。其中，此处用户阅读的书籍包括但不限于实体书籍、移动设备呈现的电子书等，如用户用手机、电纸书等呈现的电子书等，此处以实体书籍为例阐述以下实施例，本领域技术人员应能理解以下实施例同样适用于其他书籍如移动设备呈现的电子书等。

图2示出根据本申请的一种通过阅读设备进行阅读的方法，其中，所述阅读设备包括摄像装置，该方法包括步骤S11、步骤S12、步骤S13和步骤S14。在步骤S11中，阅读设备通过所述摄像装置拍摄用户阅读书籍过程中的指读操作；在步骤S12中，阅读设备根据所述指读操作在所拍摄图像信息中的指示位置信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页与所述指读操作所处的在读书页相对应；在步骤S13中，阅读设备确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息；在步骤S14中，阅读设备在所述用户的阅读过程中呈现所述虚拟AR信息。

具体而言，在步骤S11中，阅读设备通过所述摄像装置拍摄用户阅读书籍过程中的指读操作。其中，摄像装置包括但不限于摄像头等。例如，用户持有阅读设备，通过阅读设备阅读放置在阅读设备拍摄范围内的当前书籍，用户用手指指着当前书籍当前页面中某词汇的位置，阅读设备通过摄像装置拍摄该指读操作的图像信息，其中，指读操作包括但不限于用户通过手指或笔等在书籍上指着某位置的操作等。

在步骤S12中，阅读设备根据所述指读操作在所拍摄图像信息中的指示位置信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页与所述指读操作所处的在读书页相对应。其中，指示位置信息包括阅读设备通过识别图像信息获取的用户在在读书籍上指读操作在图像信息中的位置，训练书页包括存储于数据库中与在读书籍匹配的电子书籍对应的当前在读页面。例如，阅读设备通过摄像头获取图像信息后，对该图像信息进行图像识别在本地或云端数据库中匹配对应的训练书页，并根据当前指读位置信息在图像信息中的位置，确定训练书页中对应的当前阅读位置。其中，阅读设备存储有各在读书籍对应的书籍相关信息：

对每一本书，假设有n页，基本输入数据包括：

(1)书的朗读音频，假设是连续的；

(2)书页的每一页的扫描图像，也是用于识别的数据库图片。

输出数据包括:

1)图书的文本流T，按每页文字串联起来。T＝{P₁,P₂,...,P_n},P_i＝{t_i1,t_i2,...,t_im}，i＝1,...,n，im是第i页的文字数。

2)图书的所有文本在图书页上的对应矩形外框流B(bounding box)。B＝{Pb₁,Pb₂,...,Pb_n}，Pb_i＝{b_i1,b_i2,...,b_im}，i＝1,...,n,im是第i页的文字数，其中b_ij(j＝1,...,im)＝(top-left,bottom-right)是文字t_ij在所在页中的包络矩形的左上角和右下角坐标，单位为像素。

3)图书的所有文本的读音在音频流中对应的时间戳流S。S＝{Ps₁,Ps₂,...,Ps_n}，Ps_i＝{s_i1,s_i2,...,s_im}，im是第i页的文字数，其中s_ij(j＝1,...,im)＝(start,end)是字t_ij在音频流中的起始和结束时间。

基本生成流程：

(1)用语音识别相关算法(比如：HMM(隐式马尔科夫)模型、DTW(动态时间规整)模型和深度学习相关模型)识别朗读音频，得到来自语音的文本流T-speech和时间戳流Stamp。

(2)用文字识别算法(比如：OCR(Optical Character Recognition，光学字符识别)、MSER(最大稳定极值区域)、SWT(笔画宽度变换)算法和基于深度学习的模型)，得到来自图像的文本流T-image和文本位置流B。

(3)考虑到语音和图像识别的错误率，系统还需对T-speech和T-image进行交叉验证，我们可以用“最长公共子序列”算法。同一个文字，只有语音和图像识别结果完全一致才确认成功。一般而言，T-image是基于每一页的，所以我们只需对每一页进行匹配，然后把所有页内容顺序串联即可。

“最长公共子序列”是最终的文本流T的基础。我们会以朗读的音频信息作为播放基准，特别对交叉验证失败的部分，进行人工处理：

a)T-speech中有语音识别错误的字，导致交叉验证失败，人工改正T-speech中该文字，以通过交叉验证；

b)因为朗读者漏读，T-speech中有文字缺失，T-image中文字因此没有对应，对缺失的音节或者用语音合成补上，或者直接跳过；

c)因为朗读者多读，或者口头禅等，T-speech中有多出来的文字，在最后结果T中，这部分文字可以被替换为空格，对应矩形外框流(bounding box)为空(也就是不在书面上显示)；

d)T-speech中语音识别正确，但T-image图像识别失败，导致交叉验证失败手动修改T-image识别结果，包括修改文字和矩形外框流(bounding box)，然后再次进行交叉验证。

最后，得到结果三元组(T、B、S)。

此处，阅读设备通过匹配图像信息中提取的当前阅读书籍的书页与训练库中训练书籍的书页中进行匹配，如通过对当前阅读书页文本流单元P_i与文本位置流单元Pb_i与训练库中训练书页进行匹配；若匹配到一致的书页，阅读设备确定当前匹配到的书页为当前阅读书页对应的训练书页，进一步地，阅读设备确定该训练书页对应的训练书籍与当前在读书籍相对应。

当然，本领域技术人员应能理解上述训练书页仅为举例，其他现有的或今后可能出现的训练书页如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在步骤S13中，阅读设备确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息。其中，虚拟AR信息包括但不限于与用户当前阅读位置信息相对应的高亮标注、音频信息、视频信息等。例如，阅读设备确定训练书页中当前阅读位置后，根据当前阅读位置确定对应的虚拟AR信息，如用户设置当前模式为朗读模式，则阅读设备根据当前阅读位置在数据库的训练书页中当前阅读位置，确定该位置的词汇对应的包络信息等，并基于该包络信息确定其朗读音频信息等。

在步骤S14中，阅读设备在所述用户的阅读过程中呈现所述虚拟AR信息。例如，阅读设备确定对应的虚拟AR信息(如音频信息)后，在用户指读过程中播放对应的音频信息，辅助用户进行阅读或识字等。

例如，用户持有阅读设备，阅读设备安装有摄像头，阅读设备摄像装置范围内放置有用户当前阅读的书籍。用户用手指着当前在读书籍中某位置(如“河”的文字处)，阅读设备通过摄像头拍摄当前用户的指读操作对应的图像，并根据色调直方图反向映射方法检测手指从而确定图像中指读操作手指所指的位置，并根据当前图像中指读操作的指示位置信息，将该位置通过坐标转换获取对应的训练书页中阅读位置，其中，训练书页通过阅读设备识别图像中书页匹配得到，阅读设备通过在图像中识别出当前书页，并采用视觉跟踪算法跟踪该书页，根据该书页的视觉特征和训练库中的视觉特征进行匹配，根据匹配的特征点，识别匹配本地或云端数据库中的训练书页；如图3所示，假设摄像头图像信息有一个图像坐标系，训练书页有一个二维的训练书页坐标系，图像坐标系与训练书页坐标系的最优变换矩阵H_in，阅读设备根据该最优变换矩阵H_in将图像坐标系下的指示位置信息变换到训练书页坐标系中，得到该训练书页的当前阅读信息，如在图像坐标系中所指的“河”文字位置转换至训练书页中“河”文字位置。阅读设备根据训练书页中“河”文字的当前阅读位置信息，在数据库中进行匹配，获取对应的虚拟AR信息，如“河”对应的音频信息“he”，“河”相关的视频信息等，其中，对应的虚拟AR信息可以是根据用户预先设置的类型确定对应的内容，如用户预先设置当前阅读设备的模式为听读模式，阅读设备根据当前阅读位置的内容确定对应的音频信息，若用户预先设置当前阅读设备模式为视频播放模式，阅读设备根据当前阅读位置的内容确定对应的视频信息。随后，阅读设备呈现该虚拟AR信息，如通过麦克风等音频播放装置朗读对应的音频信息“he”，或者通过显示屏等视频播放装置播放河相关的视频信息等。

当然，本领域技术人员应能理解上述虚拟AR信息仅为举例，其他现有的或今后可能出现的虚拟AR信息如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在一些实施例中，在步骤S12中，阅读设备根据所述指读操作在所拍摄图像信息中的指示位置信息，以及所述摄像装置所拍摄图像与训练书籍的坐标映射信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页为所述训练书籍中与所述指读操作所处的在读书页相对应的书页。在一些实施例中，所述摄像装置所拍摄图像与训练书籍的坐标映射信息包括但不限于：所述摄像装置所拍摄的在读书籍的图像与训练书籍的坐标映射信息，其中，所述在读书籍与所述训练书籍相对应；所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息，其中，所述其它在读书页与所述其它训练书页相对应，所述其它在读书页与所述在读书页属于同一本书；所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息，其中，所述其它在读书页与所述其它训练书页相对应，所述其它在读书页与所述在读书页属于同一本书且两者页码间隔小于或等于预定的页码间距阈值信息；所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息，其中，所述其它在读书页与所述其它训练书页相对应，所述其它在读书页与所述在读书页属于同一本书且两者阅读时间间隔小于或等于预定的阅读时间间隔阈值信息。其中，所述训练书籍包括阅读设备根据拍摄到的用户当前在读书籍的页面在本地或云端数据库中匹配确定的具有相同文本流单元P_i与文本位置流单元Pb_i的训练书籍，还包括阅读书籍根据用户的操作预设的训练书籍，其中，该训练书籍与在读书籍为同一本书。

例如，阅读设备根据拍摄到的当前在读页面的图像，根据该在读页面中指读操作的指示位置信息确定对应的在训练书页中的在读位置信息。假设摄像头图像信息有一个图像坐标系，训练书页有一个二维的训练书页坐标系，其中，所拍摄图片与训练书页的坐标映射关系包括图像坐标系与训练书页坐标系的最优变换矩阵H_in，阅读设备根据该最优变换矩阵H_in将图像坐标系下的指示位置信息变换到训练书页坐标系中，得到该训练书页的当前阅读信息。

又如，用户通过阅读设备对当前页面进行指读操作，阅读设备确定对应的训练书页并呈现相关虚拟AR信息后，用户将当前在读书籍在读页面翻至其他页面，则阅读设备根据确定的训练书籍中其他的训练书页，与当前的其他在读页面进行匹配，确定当前其他在读页面对应的其他训练书页，根据用户在其他在读页面的指读操作相关的图像信息以及之前确定的图像坐标系与训练书页坐标系间最优变换矩阵H_in确定其他训练书页中的当前在读位置信息。

在一些实施例中，该其他在读书页与前述在读书页间两者页码间隔小于或等于预定的页码间距阈值信息，如，阅读设备预设的页码间距阈值信息为10页，阅读设备根据当前图像信息变化确定当前在读书页为其他在读书页，将其他在读书页与训练书籍中的其他训练书页进行匹配，并确定对应的其他训练书页为之前训练书页的后5页，阅读设备根据用户在其他在读页面的指读操作相关的图像信息以及之前确定的图像坐标系与训练书页坐标系间最优变换矩阵H_in确定其他训练书页中的当前在读位置信息；若确定对应的其他训练书页为之前训练书页后的15页，阅读设备根据其他在读页面相关的图像信息与其他训练书页计算其坐标映射信息，并基于该坐标映射信息确定对应的其他训练书页的当前在读位置。

另一些实施例中，其他在读书页与前述在读书页间两者阅读时间间隔小于或等于阅读时间间隔阈值信息，阅读设备预设的时间间隔阈值信息为10分钟，阅读设备根据当前图像信息变化确定当前在读书页为其他在读书页，并确定当前时间与之前在读书页指读操作时间差为5分钟，阅读设备根据用户在其他在读页面的指读操作相关的图像信息以及之前确定的图像坐标系与训练书页坐标系间最优变换矩阵H_in确定其他训练书页中的当前在读位置信息；若确定当前时间与之前在读书页指读操作时间差为15分钟，阅读设备根据其他在读页面相关的图像信息与其他训练书页计算其坐标映射信息，并基于该坐标映射信息确定对应的其他训练书页的当前在读位置。

当然，本领域技术人员应能理解上述坐标映射信息仅为举例，其他现有的或今后可能出现的坐标映射信息如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在一些实施例中，该方法还包括步骤S15(未示出)。在步骤S15中，阅读设备通过所述摄像装置拍摄用户阅读书籍过程中的在读书页，根据所述在读书页的图像信息在训练库中确定对应的训练书页，其中，所述在读书页与所述训练书页具有相匹配的视觉特征信息，确定所述图像信息与所述训练书页的坐标映射信息；在步骤S12中，阅读设备根据所述指读操作在所拍摄图像信息中的指示位置信息，以及所述图像信息与所述训练书页的坐标映射信息，确定训练书页中的当前阅读位置信息。其中，视觉特征信息包括但不限于图像、文字、图像对应的文本流单元P_i以及文本位置流单元Pb_i等信息。

例如，阅读设备通过摄像装置拍摄用户指读操作相关的图像信息，其中，该图像信息包括用户当前在读书页，阅读设备根据该在读书页的图像信息通过计算机视觉算法得到在读书页相关的图像信息，并通过该图像信息计算当前在读书页中的文本流单元P_i以及文本位置流单元Pb_i，并与数据库中训练书页进行匹配识别，确定与其一致的在读书页对应的训练书页；随后，通过建立图像信息相关的图像坐标系和训练书页相关的训练书页坐标系，并通过图像信息中在读书页与训练书页的特征点计算两坐标系间的最优转换矩阵H_in得到该图像信息与训练书页的坐标映射关系。

当然，本领域技术人员应能理解上述视觉特征信息仅为举例，其他现有的或今后可能出现的视觉特征信息如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在一些实施例中，所述虚拟AR信息包括音频信息；其中，在步骤S14中，阅读设备在所述用户的阅读过程中播放所述音频信息。例如，阅读设备确定对应的虚拟AR信息为在读位置信息的词汇相关音频信息(如词汇朗读、注释讲解等)，阅读设备在用户指读操作时播放该对应的音频信息。

例如，训练书页对应的当前阅读位置为“家”文字的位置，阅读设备确定对应的“jia”的朗读音频信息或者“屋内，住所；引申出家庭、家养、学派、群落等义”的注释讲解音频信息，在一些实施例中，用户可以根据自己不同需求设置不同的模式，如识字模式对应朗读音频信息，讲解模式对应注释讲解音频信息等。随后，阅读设备播放该“jia”的朗读音频信息或者“屋内，住所；引申出家庭、家养、学派、群落等义”的注释讲解音频信息。

当然，本领域技术人员应能理解上述音频信息仅为举例，其他现有的或今后可能出现的音频信息如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在一些实施例中，在步骤S13中，阅读设备确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息，其中，所述虚拟AR信息包括朗读所述训练书页的音频信息，所述音频信息的起始位置与所述训练书页中的当前阅读位置信息相对应；其中，在步骤S14中，阅读设备在所述用户的阅读过程中从所述起始位置播放所述音频信息。例如，阅读设备根据当前阅读位置信息确定相对应的虚拟AR信息(如音频信息)，其中，该虚拟AR信息起始位置为当前阅读位置，该音频信息包括一个或多个包络信息，其结束位置可以是阅读设备识别的用户的下一个指读操作对应的位置信息。

例如，阅读设备确定训练书页对应的当前阅读位置为“我”文字的位置，根据训练书页中文字内容确定对应的“wo”为朗读音频信息的起始位置，并从该处开始朗读依次朗读每个字的包络信息对应的音频信息。随后，阅读设备再次拍摄用户的指读操作相关的图像信息，并基于该图像信息确定指读操作对应的阅读位置信息在前一次阅读位置信息之后，处于“树”的位置，阅读设备确定该阅读位置为此次朗读音频信息的结束位置，阅读设备在用户阅读过程中播放“wo jia…zao shu”的音频信息。

例如，阅读设备确定训练书页对应的当前阅读位置为“我家”词汇的位置，阅读设备确定对应的“wo jia”为朗读音频信息的起始位置，并从该处开始朗读依次朗读每个字对应的包络信息。随后，阅读设备再次拍摄用户的指读操作相关的图像信息，并基于该图像信息确定指读操作对应的阅读位置信息在前一次阅读位置信息之后，处于“枣树”的位置，阅读设备确定该阅读位置为此次朗读音频信息的结束位置，阅读设备在用户阅读过程中播放“wo jia…zao shu”的音频信息。

在一些实施例中，在步骤S13中，阅读设备根据所述训练书页中的当前阅读位置信息，确定所述用户当前指向的文字内容信息，并根据所述文字内容信息确定，所述训练书页的朗读音频信息中确定音频信息的起始位置，并将所述音频信息作为与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息。例如，阅读设备根据当前阅读位置，以及当前阅读位置对应的文字内容信息，结合句子或段落等划分，确定该句子或段落开头处为对应的音频信息的起始位置。

例如，阅读设备确定训练书页对应的当前阅读位置为“后园”词汇的位置，根据训练书页中文字内容信息如“在我的后园…枣树”，确定当前对应的阅读位置所在句子中句首“在”为本次朗读音频信息的起始位置，并从该处开始朗读依次朗读每个字对应的包络信息。在一些实施例中，阅读设备再次拍摄用户的指读操作相关的图像信息，并基于该图像信息确定指读操作对应的阅读位置信息在前一次阅读位置信息之后，处于“枣树”的位置，阅读设备确定该阅读位置为此次朗读音频信息的结束位置，阅读设备在用户阅读过程中播放“zai wo…zao shu”的音频信息。在另一些实施例中，阅读设备根据该句子或段落确定句尾或段落结尾处为此次音频播放的结束位置，如此句末尾为“树”，对应的朗读音频信息为“zai wo…zao shu”的音频信息。其中，用户可以根据自己不同需求设置不同的模式，如读句模式对应句子朗读音频信息，读段模式对应段落音频信息等。

当然，本领域技术人员应能理解上述文字内容信息仅为举例，其他现有的或今后可能出现的文字内容信息如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在一些实施例中，在步骤S13中，阅读设备根据所述训练书页中的当前阅读位置信息，确定所述用户当前指向的文字内容信息，并根据所述文字内容信息确定，在所述训练书页的朗读音频信息中确定音频信息的起止位置，并将所述音频信息作为与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息；其中，在步骤S14中，阅读设备在所述用户的阅读过程中按所述起止位置播放所述音频信息。例如，阅读设备根据当前阅读位置信息确定训练书页中当前所指的文字内容信息，并根据该文字内容信息确定当前词汇、句子或段落对应的音频信息的起止位置，根据该音频信息的起止位置播放对应的音频信息，其中，该音频信息包含一个或多个包络信息。

例如，阅读设备确定训练书页对应的当前阅读位置为“后”文字的位置，根据训练书页中文字内容确定当前文字为包含“hou”对应的音频信息，其中，该音频信息包含对应的包络信息。随后阅读设备在用户阅读过程中播放“hou”相关的音频信息。

例如，阅读设备确定训练书页对应的当前阅读位置为“后园”词汇的位置，根据训练书页中文字内容确定当前词汇为包含“hou yuan”对应的音频信息，其中，该音频信息分别包含两个字对应的包络信息。随后阅读设备在用户阅读过程中播放“hou yuan”相关的音频信息。

又如，阅读设备确定训练书页对应的当前阅读位置为“后园”词汇的位置，根据训练书页中文字内容信息如“在我的后园…枣树”，确定当前对应的阅读位置所在句子中句首“在”为本次朗读音频信息的起始位置，并根据该句子或段落确定句尾或段落结尾处为此次音频播放的结束位置，如此句末尾为“树”，对应的朗读音频信息为“zai wo…zao shu”的音频信息。随后阅读设备在用户阅读过程中播放“zai wo…zao shu”相关的音频信息。其中，用户可以根据自己不同需求设置不同的模式，如读句模式对应句子朗读音频信息，读段模式对应段落音频信息等。

当然，本领域技术人员应能理解上述音频信息的起止位置仅为举例，其他现有的或今后可能出现的音频信息的起止位置如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在一些实施例中，在步骤S131中，所述根据所述训练书页中的当前阅读位置信息，确定所述用户当前指向的文字内容信息，包括：根据所述训练书页中的当前阅读位置信息，以及所述训练书页中文字包络信息，确定所述用户当前指向的文字内容信息，其中，所述文字内容信息中文字的文字包络信息与所述当前阅读位置信息至少部分重叠。例如，包络信息包括每个文字单元或词汇单元对应的文本位置信息，阅读设备根据确定的当前阅读位置信息，以及该位置在训练书页中对应的文字包络信息，并基于该文字包络信息确定当前指向的文字内容信息，如确定当前指向的一个或多个文字单元或词汇单元组成当前文字的位置，进而确定文字内容信息，又如确定当前指向的一个或多个文字单元或词汇单元所在句子的多个包络信息组成文字内容信息，又如确定当前指向的一个或多个文字单元或词汇单元所在段落的多个包络信息组成文字内容信息。

例如，阅读设备确定训练书页对应的当前阅读位置为“后园”词汇的位置，以及当前阅读位置对应的文字包络信息，确定训练书页中对应的文字内容为“后园”。又如，阅读设备根据阅读位置对应的文字包络信息确定其所在的句子文字内容，如“在我的后园，可以看见墙外有两株树，一株是枣树，另一株也是枣树”。又如，阅读设备根据阅读位置对应的文字包络信息确定其所在的段落文字内容，如“在我的后园，可以看见墙外有两株树，一株是枣树，还有一株也是枣树”。

当然，本领域技术人员应能理解上述文字包络信息的起止位置仅为举例，其他现有的或今后可能出现的文字包络信息的起止位置如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在一些实施例中，在步骤S13中，阅读设备根据所述训练书页中的当前阅读位置信息，结合音频文字同步映射关系，确定所述训练书页中的当前阅读位置信息相对应的音频信息，其中，所述音频文字同步映射关系包括书页中文字、该文字的朗读音频及该文字在该书页中位置的映射关系。其中，音频文字同步映射关系包括书页对应的文字单元P_i、文字包络信息(每个文字对应的左上角和右下角坐标位置，单位为像素)Pb_i以及文本音频单元流Ps_i间的对应关系。

例如，阅读设备确定训练书页中的阅读位置信息，如“后”字在训练书页的第二排第四个字；阅读设备数据库中存储有音频文字同步映射关系，如文字“后”、文字在训练书页中第二排第四个字的位置信息以及“hou”的音频信息的对应关系，阅读设备根据该文字的位置，确定其朗读音频为“hou”。阅读设备随后播放该“hou”音频信息。

当然，本领域技术人员应能理解上述音频文字同步映射关系仅为举例，其他现有的或今后可能出现的音频文字同步映射关系如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在一些实施例中，所述阅读设备还包括投影装置，所述虚拟AR信息包括投影信息；其中，在步骤S14中，阅读设备在所述用户的阅读过程中通过所述投影装置投影呈现所述虚拟AR信息。例如，阅读设备包括投影装置，阅读设备根据当前阅读位置确定对应的虚拟AR信息，其中，该虚拟AR信息但不限于音频信息、视频信息以及投影信息等。阅读设备通过该投影装置可以将虚拟AR信息投影呈现于用户当前阅读的书籍旁边或书籍中当前阅读位置。

例如，阅读设备包括投影装置，可以投影呈现相关投影信息，如当前确定的文字内容信息相关的内容，例如，阅读设备确定当前用户所指的文字内容信息为“《秋夜》”，根据训练书页中相关内容确定当前所指的文字内容信息对应的虚拟AR信息包括“《秋夜》是现代文学家鲁迅于1942年创作的一首叙事兼抒情的散文诗”对应的投影信息，以及该文字信息对应的音频信息等。阅读设备通过麦克风等音频播放器播放对应的音频信息，并通过投影装置将该注释文字信息投影在当前阅读书籍旁空白处。

当然，本领域技术人员应能理解上述投影信息的起止位置仅为举例，其他现有的或今后可能出现的投影信息的起止位置如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在一些实施例中，该方法还包括步骤S16(未示出)。在步骤S16中，阅读设备根据所述投影装置至所述摄像装置的坐标映射信息，以及所述图像信息至所述训练书页的坐标映射信息，确定所述训练书页至所述投影装置的坐标映射信息；其中，在步骤S14中，阅读设备在所述用户阅读过程中，基于所述训练书页至所述投影装置的坐标映射信息通过所述投影装置投影呈现所述虚拟AR信息。例如，如图3所示，图像信息对应的有一个坐标系为图像坐标系，训练书页有一个对应的训练书页坐标系，根据投影装置有一个对应的投影坐标系，我们可以通过图像信息的视觉特征和训练库中训练书页的视觉特征进行匹配，根据匹配的特征点，通过最小二乘法计算摄像头图像坐标系T₁和训练库书页坐标系T₂的最优变换矩阵H_in，当然，此过程中我们可以用RANSAC(Random Sample Consensus，随机抽样一致性)或类似算法去除异常值来提高映射精度。随后，由于摄像装置和投影装置的相对位置是固定的，我们可以得到摄像图像坐标系T₁和投影坐标系T₃之间的变换H_p。基于摄像头图像坐标系T₁和训练库书页坐标系T₂的最优变换矩阵H_in以及摄像图像坐标系T₁和投影坐标系T₃之间的变换H_p得到训练书页坐标系T₂和投影坐标系T₃的变换H_out＝H_p ^-1*H_in ^-1。

在一些实施例中，前述投影信息还可以包括对于当前所指内容的高亮标注等投影，如向当前用户所指位置投影黄色背景颜色。根据上述坐标变换，阅读设备可以确定用户当前所指的文字包络信息在投影坐标系中对应的位置，并通过投影装置向该位置投影黄色背景灯光，呈现高亮背景色，使用户能够轻易跟踪朗读的音频信息。

图3示出本申请的一种通过阅读设备进行阅读的方法，其中，所述阅读设备包括摄像装置，该方法包括：所述阅读设备通过所述摄像装置拍摄第一用户阅读书籍过程中的指读操作；所述阅读设备将所拍摄图像信息发送至对应第二用户的用户设备；所述用户设备接收并呈现所述图像信息，获取所述第二用户对所述指读操作在所述图像信息中对应文字信息的朗读音频信息，并将所述朗读音频信息发送至所述阅读设备；所述阅读设备在所述第一用户的阅读过程中播放所述朗读音频信息。

例如，第一用户持有阅读设备，阅读设备与第二用户的用户设备通过云端进行交互。该阅读设备通过拍摄装置拍摄到当前用户的指读操作，如第一用户手指内容为“在我的后园，可以看见墙外有两株树，一株是枣树，另一株也是枣树”中的“后园”。阅读设备将拍摄到的图像信息发送至第二用户的用户设备，第二用户接收并呈现该图像信息，第二用户基于该图像信息朗读“hou yuan”，第二用户的用户设备获取该“hou yuan”音频信息，并将该音频信息发送至阅读设备。阅读设备接收并播放该“hou yuan”音频信息。

在一些实施例中，所述用户设备接收并呈现所述图像信息包括：所述用户设备接收所述图像信息，根据所述指读操作在所拍摄图像信息中的指示位置信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页与所述指读操作所处的在读书页相对应；所述用户设备根据所述训练书页中的当前阅读位置信息，确定所述第一用户当前指向的文字内容信息，并呈现所述文字内容信息及所述图像信息。例如，第二用户的用户设备接收包含指读操作的图像信息后，在云端数据库中查询匹配该图像信息中在读书籍对应的训练书页，并基于指读操作的指读位置信息确定对应的训练书页中对应的当前阅读位置信息，并根据当前阅读位置信息以及训练书页的文字包络信息，确定当前第一用户所指的文字内容信息，随后，第二用户的用户设备呈现该文字内容信息。

例如，第一用户所指的内容为在读页面的第二排第四和第五个字“后园”所在位置，阅读设备将该图像信息发送至第二用户的用户设备。第二用户接收该图像信息，并在云端数据库中匹配确定该图像信息对应的训练书页，随后，基于该图像坐标系与训练书页坐标系间的坐标变换，确定第一用户当前正在阅读位置为训练书页的第二排第四和第五个字。训练书页中第二排第四和第五个文字包络信息分别为包括两个字的左上角和右下角坐标，确定当前第一用户所指向的文字内容信息为“后园”，第二用户的用户设备呈现“后园”的文字内容信息以及图像信息。在一些实施例中，第二用户的用户设备呈现“在我的后园，可以看见墙外有两株树，一株是枣树，另一株也是枣树”对应的文字内容信息，并在其中将“后园”文字以高亮形式标出。

图5示出根据本申请的一种阅读设备，其中，所述阅读设备包括摄像装置，该设备包括第一模块、第二模块、第三模块和第四模块。第一模块，用于通过所述摄像装置拍摄用户阅读书籍过程中的指读操作；第二模块，用于根据所述指读操作在所拍摄图像信息中的指示位置信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页与所述指读操作所处的在读书页相对应；第三模块，用于确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息；第四模块，用于在所述用户的阅读过程中呈现所述虚拟AR信息。

具体而言，第一模块，用于通过所述摄像装置拍摄用户阅读书籍过程中的指读操作。其中，摄像装置包括但不限于摄像头等。例如，用户持有阅读设备，通过阅读设备阅读放置在阅读设备拍摄范围内的当前书籍，用户用手指指着当前书籍当前页面中某词汇的位置，阅读设备通过摄像装置拍摄该指读操作的图像信息，其中，指读操作包括但不限于用户通过手指或笔等在书籍上指着某位置的操作等。

第二模块，用于根据所述指读操作在所拍摄图像信息中的指示位置信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页与所述指读操作所处的在读书页相对应。其中，指示位置信息包括阅读设备通过识别图像信息获取的用户在在读书籍上指读操作在图像信息中的位置，训练书页包括存储于数据库中与在读书籍匹配的电子书籍对应的当前在读页面。例如，阅读设备通过摄像头获取图像信息后，对该图像信息进行图像识别在本地或云端数据库中匹配对应的训练书页，并根据当前指读位置信息在图像信息中的位置，确定训练书页中对应的当前阅读位置。其中，阅读设备存储有各在读书籍对应的书籍相关信息：

对每一本书，假设有n页，基本输入数据包括：

(1)书的朗读音频，假设是连续的；

(2)书页的每一页的扫描图像，也是用于识别的数据库图片。

输出数据包括:

基本生成流程：

最后，得到结果三元组(T、B、S)。

第三模块，用于确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息。其中，虚拟AR信息包括但不限于与用户当前阅读位置信息相对应的高亮标注、音频信息、视频信息等。例如，阅读设备确定训练书页中当前阅读位置后，根据当前阅读位置确定对应的虚拟AR信息，如用户设置当前模式为朗读模式，则阅读设备根据当前阅读位置在数据库的训练书页中当前阅读位置，确定该位置的词汇对应的包络信息等，并基于该包络信息确定其朗读音频信息等。

第四模块，用于在所述用户的阅读过程中呈现所述虚拟AR信息。例如，阅读设备确定对应的虚拟AR信息(如音频信息)后，在用户指读过程中播放对应的音频信息，辅助用户进行阅读或识字等。

例如，用户持有阅读设备，阅读设备安装有摄像头，阅读设备摄像装置范围内放置有用户当前阅读的书籍。用户用手指着当前在读书籍中某位置(如“河”的文字处)，阅读设备通过摄像头拍摄当前用户的指读操作对应的图像，并根据色调直方图反向映射方法检测手指从而确定图像中指读操作手指所指的位置，并根据当前图像中指读操作的指示位置信息，将该位置通过坐标转换获取对应的训练书页中阅读位置，其中，训练书页通过阅读设备识别图像中书页匹配得到，阅读设备通过在图像中识别出当前书页，并采用视觉跟踪算法跟踪该书页，根据该书页的视觉特征和训练库中的视觉特征进行匹配，根据匹配的特征点，识别匹配本地或云端数据库中的训练书页；如图3所示，假设摄像头图像信息有一个图像坐标系，训练书页有一个二维的训练书页坐标系，图像坐标系与训练书页坐标系的最优变换矩阵H_in，阅读设备根据该最优变换矩阵H_in将图像坐标系下的指示位置信息变换到训练书页坐标系中，得到该训练书页的当前阅读信息，如在图像坐标系中所指的“河”文字位置转换至训练书页中“河”文字位置。阅读设备根据训练书页中“河”词汇的当前阅读位置信息，在数据库中进行匹配，获取对应的虚拟AR信息，如“河”对应的音频信息“he”，“河”相关的视频信息等，其中，对应的虚拟AR信息可以是根据用户预先设置的类型确定对应的内容，如用户预先设置当前阅读设备的模式为听读模式，阅读设备根据当前阅读位置的内容确定对应的音频信息，若用户预先设置当前阅读设备模式为视频播放模式，阅读设备根据当前阅读位置的内容确定对应的视频信息。随后，阅读设备呈现该虚拟AR信息，如通过麦克风等音频播放装置朗读对应的音频信息“he”，或者通过显示屏等视频播放装置播放河相关的视频信息等。

在一些实施例中，第二模块，用于根据所述指读操作在所拍摄图像信息中的指示位置信息，以及所述摄像装置所拍摄图像与训练书籍的坐标映射信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页为所述训练书籍中与所述指读操作所处的在读书页相对应的书页。在一些实施例中，所述摄像装置所拍摄图像与训练书籍的坐标映射信息包括但不限于：所述摄像装置所拍摄的在读书籍的图像与训练书籍的坐标映射信息，其中，所述在读书籍与所述训练书籍相对应；所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息，其中，所述其它在读书页与所述其它训练书页相对应，所述其它在读书页与所述在读书页属于同一本书；所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息，其中，所述其它在读书页与所述其它训练书页相对应，所述其它在读书页与所述在读书页属于同一本书且两者页码间隔小于或等于预定的页码间距阈值信息；所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息，其中，所述其它在读书页与所述其它训练书页相对应，所述其它在读书页与所述在读书页属于同一本书且两者阅读时间间隔小于或等于预定的阅读时间间隔阈值信息。其中，所述训练书籍包括阅读设备根据拍摄到的用户当前在读书籍的页面在本地或云端数据库中匹配确定的具有相同文本流单元P_i与文本位置流单元Pb_i的训练书籍，还包括阅读书籍根据用户的操作预设的训练书籍，其中，该训练书籍与在读书籍为同一本书。

在一些实施例中，该设备还包括第五模块(未示出)。第五模块，用于通过所述摄像装置拍摄用户阅读书籍过程中的在读书页，根据所述在读书页的图像信息在训练库中确定对应的训练书页，其中，所述在读书页与所述训练书页具有相匹配的视觉特征信息，确定所述图像信息与所述训练书页的坐标映射信息；其中，第二模块，用于根据所述指读操作在所拍摄图像信息中的指示位置信息，以及所述图像信息与所述训练书页的坐标映射信息，确定训练书页中的当前阅读位置信息。其中，视觉特征信息包括但不限于图像、文字、图像对应的文本流单元P_i以及文本位置流单元Pb_i等信息。

在一些实施例中，所述虚拟AR信息包括音频信息；其中，第四模块，用于在所述用户的阅读过程中播放所述音频信息。例如，阅读设备确定对应的虚拟AR信息为在读位置信息的词汇相关音频信息(如词汇朗读、注释讲解等)，阅读设备在用户指读操作时播放该对应的音频信息。

在一些实施例中，第三模块，用于确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息，其中，所述虚拟AR信息包括朗读所述训练书页的音频信息，所述音频信息的起始位置与所述训练书页中的当前阅读位置信息相对应；其中，第四模块，用于在所述用户的阅读过程中从所述起始位置播放所述音频信息。例如，阅读设备根据当前阅读位置信息确定相对应的虚拟AR信息(如音频信息)，其中，该虚拟AR信息起始位置为当前阅读位置，该音频信息包括一个或多个包络信息，其结束位置可以是阅读设备识别的用户的下一个指读操作对应的位置信息。

在一些实施例中，第三模块，用于根据所述训练书页中的当前阅读位置信息，确定所述用户当前指向的文字内容信息，并根据所述文字内容信息确定，所述训练书页的朗读音频信息中确定音频信息的起始位置，并将所述音频信息作为与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息。例如，阅读设备根据当前阅读位置，以及当前阅读位置对应的文字内容信息，结合句子或段落等划分，确定该句子或段落开头处为对应的音频信息的起始位置。

在一些实施例中，第三模块，用于根据所述训练书页中的当前阅读位置信息，确定所述用户当前指向的文字内容信息，并根据所述文字内容信息确定，在所述训练书页的朗读音频信息中确定音频信息的起止位置，并将所述音频信息作为与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息；其中，第四模块，用于在所述用户的阅读过程中按所述起止位置播放所述音频信息。例如，阅读设备根据当前阅读位置信息确定训练书页中当前所指的文字内容信息，并根据该文字内容信息确定当前词汇、句子或段落对应的音频信息的起止位置，根据该音频信息的起止位置播放对应的音频信息，其中，该音频信息包含一个或多个包络信息。

在一些实施例中，所述根据所述训练书页中的当前阅读位置信息，确定所述用户当前指向的文字内容信息，包括：根据所述训练书页中的当前阅读位置信息，以及所述训练书页中文字包络信息，确定所述用户当前指向的文字内容信息，其中，所述文字内容信息中文字的文字包络信息与所述当前阅读位置信息至少部分重叠。例如，包络信息包括每个文字单元或词汇单元对应的文本位置信息，阅读设备根据确定的当前阅读位置信息，以及该位置在训练书页中对应的文字包络信息，并基于该文字包络信息确定当前指向的文字的位置，进而确定文字内容信息，如确定当前指向的一个或多个文字单元或词汇单元组成当前文字内容信息，又如确定当前指向的一个或多个文字单元或词汇单元所在句子的多个包络信息组成文字内容信息，又如确定当前指向的一个或多个文字单元或词汇单元所在段落的多个包络信息组成文字内容信息。

例如，阅读设备确定训练书页对应的当前阅读位置为“后园”词汇的位置，以及当前阅读位置对应的文字包络信息，确定训练书页中对应的文字内容为“后园”。又如，阅读设备根据阅读位置对应的对应的文字包络信息确定其所在的句子文字内容，如“在我的后园，可以看见墙外有两株树，一株是枣树，另一株也是枣树”。又如，阅读设备根据阅读位置对应的文字包络信息确定其所在的段落文字内容，如“在我的后园，可以看见墙外有两株树，一株是枣树，还有一株也是枣树”。

在一些实施例中，第三模块，用于根据所述训练书页中的当前阅读位置信息，结合音频文字同步映射关系，确定所述训练书页中的当前阅读位置信息相对应的音频信息，其中，所述音频文字同步映射关系包括书页中文字、该文字的朗读音频及该文字在该书页中位置的映射关系。其中，音频文字同步映射关系包括书页对应的文字单元P_i、文字包络信息(每个文字对应的左上角和右下角坐标位置，单位为像素)Pb_i以及文本音频单元流Ps_i间的对应关系。

在一些实施例中，所述阅读设备还包括投影装置，所述虚拟AR信息包括投影信息；其中，第四模块，用于在所述用户的阅读过程中通过所述投影装置投影呈现所述虚拟AR信息。例如，阅读设备包括投影装置，阅读设备根据当前阅读位置确定对应的虚拟AR信息，其中，该虚拟AR信息但不限于音频信息、视频信息以及投影信息等。阅读设备通过该投影装置可以将虚拟AR信息投影呈现于用户当前阅读的书籍旁边或书籍中当前阅读位置。

在一些实施例中，该设备还包括第六模块(未示出)。第六模块，用于根据所述投影装置至所述摄像装置的坐标映射信息，以及所述图像信息至所述训练书页的坐标映射信息，确定所述训练书页至所述投影装置的坐标映射信息；其中，第四模块，用于在所述用户阅读过程中，基于所述训练书页至所述投影装置的坐标映射信息通过所述投影装置投影呈现所述虚拟AR信息。例如，如图3所示，图像信息对应的有一个坐标系为图像坐标系，训练书页有一个对应的训练书页坐标系，根据投影装置有一个对应的投影坐标系，我们可以通过图像信息的视觉特征和训练库中训练书页的视觉特征进行匹配，根据匹配的特征点，通过最小二乘法计算摄像头图像坐标系T₁和训练库书页坐标系T₂的最优变换矩阵H_in，当然，此过程中我们可以用RANSAC(Random Sample Consensus，随机抽样一致性)或类似算法去除异常值来提高映射精度。随后，由于摄像装置和投影装置的相对位置是固定的，我们可以得到摄像图像坐标系T₁和投影坐标系T₃之间的变换H_p。基于摄像头图像坐标系T₁和训练库书页坐标系T₂的最优变换矩阵H_in以及摄像图像坐标系T₁和投影坐标系T₃之间的变换H_p得到训练书页坐标系T₂和投影坐标系T₃的变换H_out＝H_p ^-1*H_in ^-1。

图6示出本申请的一种通过阅读设备进行阅读的系统，其中，所述阅读设备包括摄像装置，该系统包括所述阅读设备和用户设备：

其中，所述阅读设备还包括：拍摄模块：用于通过所述摄像装置拍摄第一用户阅读书籍过程中的指读操作；发送模块，用于将所拍摄图像信息发送至对应第二用户的用户设备；播放模块，用于在所述第一用户的阅读过程中播放所述朗读音频信息；

例如，第一用户所指的内容为在读页面的第二排第四和第五个字“后园”所在位置，阅读设备将该图像信息发送至第二用户的用户设备。第二用户接收该图像信息，并在云端数据库中匹配确定该图像信息对应的训练书页，随后，基于该图像坐标系与训练书页坐标系间的坐标变换，确定第一用户当前正在阅读位置为训练书页的第二排第四和第五个字。训练书页中第二排第四和第五个文字包络信息分别包括两个字的左上角和右下角坐标，确定当前第一用户所指向的文字内容信息为“后园”，第二用户的用户设备呈现“后园”的文字内容信息以及图像信息。在一些实施例中，第二用户的用户设备呈现“在我的后园，可以看见墙外有两株树，一株是枣树，另一株也是枣树”对应的文字内容信息，并在其中将“后园”文字以高亮形式标出。本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前任一项所述的方法。

图7示出了可被用于实施本申请中所述的各个实施例的示例性系统；

如图7所示在一些实施例中，系统300能够作为各所述实施例中的任意一个阅读设备。在一些实施例中，系统300可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或NVM/存储设备320)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如，(一个或多个)处理器305)。

对于一个实施例，系统控制模块310可包括任意适当的接口控制器，以向(一个或多个)处理器305中的至少一个和/或与系统控制模块310通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块310可包括存储器控制器模块330，以向系统存储器315提供接口。存储器控制器模块330可以是硬件模块、软件模块和/或固件模块。

系统存储器315可被用于例如为系统300加载和存储数据和/或指令。对于一个实施例，系统存储器315可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，系统存储器315可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，系统控制模块310可包括一个或多个输入/输出(I/O)控制器，以向NVM/存储设备320及(一个或多个)通信接口325提供接口。

例如，NVM/存储设备320可被用于存储数据和/或指令。NVM/存储设备320可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备320可包括在物理上作为系统300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备320可通过网络经由(一个或多个)通信接口325进行访问。

(一个或多个)通信接口325可为系统300提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。

对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器(例如，存储器控制器模块330)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，系统300可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。

作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随机存储器(RAM,DRAM,SRAM)；以及非易失性存储器，诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM)；以及磁性和光学存储设备(硬盘、磁带、CD、DVD)；或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。

在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种通过阅读设备进行阅读的方法，其中，所述阅读设备包括摄像装置，该方法包括：

通过所述摄像装置拍摄用户阅读书籍过程中的指读操作；

在所述用户的阅读过程中呈现所述虚拟AR信息。

2.根据权利要求1所述的方法，其中，所述根据所述指读操作在所拍摄图像信息中的指示位置信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页与所述指读操作所处的在读书页相对应，包括：

根据所述指读操作在所拍摄图像信息中的指示位置信息，以及所述摄像装置所拍摄图像与训练书籍的坐标映射信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页为所述训练书籍中与所述指读操作所处的在读书页相对应的书页。

3.根据权利要求2所述的方法，其中，所述摄像装置所拍摄图像与训练书籍的坐标映射信息包括以下任一项：

所述摄像装置所拍摄的在读书籍的图像与训练书籍的坐标映射信息，其中，所述在读书籍与所述训练书籍相对应；

所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息，其中，所述其它在读书页与所述其它训练书页相对应，所述其它在读书页与所述在读书页属于同一本书；

所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息，其中，所述其它在读书页与所述其它训练书页相对应，所述其它在读书页与所述在读书页属于同一本书且两者页码间隔小于或等于预定的页码间距阈值信息；

所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息，其中，所述其它在读书页与所述其它训练书页相对应，所述其它在读书页与所述在读书页属于同一本书且两者阅读时间间隔小于或等于预定的阅读时间间隔阈值信息。

4.根据权利要求1所述的方法，其中，所述方法还包括：

通过所述摄像装置拍摄用户阅读书籍过程中的在读书页；

根据所述在读书页的图像信息在训练库中确定对应的训练书页，其中，所述在读书页与所述训练书页具有相匹配的视觉特征信息；

确定所述图像信息与所述训练书页的坐标映射信息；

其中，所述根据所述指读操作在所拍摄图像信息中的指示位置信息，确定训练书页中的当前阅读位置信息，其中，所述训练书页与所述指读操作所处的在读书页相对应，包括：

根据所述指读操作在所拍摄图像信息中的指示位置信息，以及所述图像信息与所述训练书页的坐标映射信息，确定训练书页中的当前阅读位置信息。

5.根据权利要求1至4中任一项所述的方法，其中，所述虚拟AR信息包括音频信息；其中，所述在所述用户的阅读过程中呈现所述虚拟AR信息，包括：

在所述用户的阅读过程中播放所述音频信息。

6.根据权利要求5所述的方法，其中，所述确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息，包括：

确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息，其中，所述虚拟AR信息包括朗读所述训练书页的音频信息，所述音频信息的起始位置与所述训练书页中的当前阅读位置信息相对应；

其中，所述在所述用户的阅读过程中播放所述音频信息，包括：

在所述用户的阅读过程中从所述起始位置播放所述音频信息。

7.根据权利要求6所述的方法，其中，所述确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息，其中，所述虚拟AR信息包括朗读所述训练书页的音频信息，所述音频信息的起始位置与所述训练书页中的当前阅读位置信息相对应，包括：

根据所述训练书页中的当前阅读位置信息，确定所述用户当前指向的文字内容信息；

根据所述文字内容信息确定，所述训练书页的朗读音频信息中确定音频信息的起始位置，并将所述音频信息作为与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息。

8.根据权利要求6所述的方法，其中，所述确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息，其中，所述虚拟AR信息包括朗读所述训练书页的音频信息，所述音频信息的起始位置与所述训练书页中的当前阅读位置信息相对应，包括：

根据所述文字内容信息确定，在所述训练书页的朗读音频信息中确定音频信息的起止位置，并将所述音频信息作为与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息；

其中，所述在所述用户的阅读过程中从所述起始位置播放所述音频信息，包括：

在所述用户的阅读过程中按所述起止位置播放所述音频信息。

9.根据权利要求7或8所述的方法，其中，所述根据所述训练书页中的当前阅读位置信息，确定所述用户当前指向的文字内容信息，包括：

根据所述训练书页中的当前阅读位置信息，以及所述训练书页中文字包络信息，确定所述用户当前指向的文字内容信息，其中，所述文字内容信息中文字的文字包络信息与所述当前阅读位置信息至少部分重叠。

10.根据权利要求5所述的方法，其中，所述确定与所述训练书页中的当前阅读位置信息相对应的虚拟AR信息，包括：

根据所述训练书页中的当前阅读位置信息，结合音频文字同步映射关系，确定所述训练书页中的当前阅读位置信息相对应的音频信息，其中，所述音频文字同步映射关系包括书页中文字、该文字的朗读音频及该文字在该书页中位置的映射关系。

11.根据权利要求1至10中任一项所述的方法，其中，所述阅读设备还包括投影装置，所述虚拟AR信息包括投影信息；

其中，所述在所述用户的阅读过程中呈现所述虚拟AR信息，包括：

在所述用户的阅读过程中通过所述投影装置投影呈现所述虚拟AR信息。

12.根据权利要求11所述的方法，其中，所述方法还包括：

根据所述投影装置至所述摄像装置的坐标映射信息，以及所述图像信息至所述训练书页的坐标映射信息，确定所述训练书页至所述投影装置的坐标映射信息；

其中，所述在所述用户的阅读过程中通过所述投影装置投影呈现所述虚拟AR信息，包括：

在所述用户的阅读过程中，基于所述训练书页至所述投影装置的坐标映射信息通过所述投影装置投影呈现所述虚拟AR信息。

13.一种通过阅读设备进行阅读的方法，其中，所述阅读设备包括摄像装置，该方法包括：

14.根据权利要求13所述的方法，其中，所述用户设备接收并呈现所述图像信息包括：

所述用户设备接收所述图像信息；

根据所述训练书页中的当前阅读位置信息，确定所述第一用户当前指向的文字内容信息；

呈现所述文字内容信息及所述图像信息。

15.一种阅读设备，其中，所述阅读设备包括摄像装置，该设备包括：

16.根据权利要求15所述的设备，其中，所述第二模块用于：

17.根据权利要求16所述的设备，其中，所述摄像装置所拍摄图像与训练书籍的坐标映射信息包括以下任一项：

18.根据权利要求15所述的设备，其中，所述设备还包括第五模块，该第五模块用于：

通过所述摄像装置拍摄用户阅读书籍过程中的在读书页；

确定所述图像信息与所述训练书页的坐标映射信息；

其中，所述第二模块，用于：

19.根据权利要求15至18中任一项所述的设备，其中，所述虚拟AR信息包括音频信息；

其中，所述第四模块用于：

在所述用户的阅读过程中播放所述音频信息。

20.根据权利要求19所述的设备，其中，所述第三模块用于：

其中，所述第四模块用于：

21.根据权利要求20所述的设备，其中，所述第三模块用于：

22.根据权利要求20所述的设备，其中，所述第三模块用于：

其中，所述第四模块用于：

23.根据权利要求21或22所述的设备，其中，所述根据所述训练书页中的当前阅读位置信息，确定所述用户当前指向的文字内容信息，包括：

24.根据权利要求19所述的设备，其中，所述第三模块用于：

25.根据权利要求15至24中任一项所述的设备，其中，所述阅读设备还包括投影装置，所述虚拟AR信息包括投影信息；

其中，所述第四模块用于：

26.根据权利要求25所述的设备，其中，所述设备还包括：

第六模块，用于根据所述投影装置至所述摄像装置的坐标映射信息，以及所述图像信息至所述训练书页的坐标映射信息，确定所述训练书页至所述投影装置的坐标映射信息；

其中，所述第四模块用于：

27.一种通过阅读设备进行阅读的系统，其中，所述阅读设备包括摄像装置，该系统包括所述阅读设备和用户设备：

28.根据权利要求27所述的系统，其中，所述接收并呈现所述图像信息包括：

所述用户设备接收所述图像信息；

呈现所述文字内容信息及所述图像信息。

29.一种阅读设备，其中，该设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至12中任一项所述方法的操作。

30.一种包括指令的计算机可读介质，所述指令在被执行时使得系统进行如权利要求1至12中任一项所述方法的操作。