CN111324201A

CN111324201A - 基于体感交互的阅读方法以及装置、系统

Info

Publication number: CN111324201A
Application number: CN202010073607.8A
Authority: CN
Inventors: 谈丹
Original assignee: Shanghai Paper Juechi Intelligent Technology Co ltd
Current assignee: Shanghai Paper Juechi Intelligent Technology Co ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-23

Abstract

本申请公开了一种基于体感交互的阅读方法以及装置、系统。该方法包括当进入阅读模式后，基于手势交互获得用户意图；其中所述阅读模式是指通过预设指令进入到的交互模式；基于用户意图，识别出手势所指位置；其中所述用户意图是指用户在阅读过程中拟进行的阅读操作；根据所述手势所指位置，反馈对应的交互结果。本申请解决了阅读方法单一，用户体验不佳的技术问题。通过本申请让使用者在真实世界中翻阅纸质书籍的同时又能获得数字世界即时反馈的阅读辅助信息。

Description

基于体感交互的阅读方法以及装置、系统

技术领域

本申请涉及智能阅读领域，具体而言，涉及一种基于体感交互的阅读方法以及装置、系统。

背景技术

阅读，是每个年龄段的人群都会进行的一项活动，阅读的内容也因人群的不同有很多的种类。如适合儿童阅读的绘本、故事书等，学生则会阅读教材、课本等；成年人阅读小说或是报纸、期刊杂志等。

缺点在于：对于不同年龄阶段，如何将原本纸质的阅读内容以文本、图片、语音、动画等丰富有趣的媒体形式反馈给用户；从而相较于电子书，更好地提供真实世界中的视觉和触觉体验。

针对相关技术中阅读方法单一，用户体验不佳的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种用于体感交互的阅读方法以及装置、系统，以解决阅读方法单一，用户体验不佳的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种基于体感交互的阅读方法。

根据本申请的基于体感交互的阅读方法包括：当进入阅读模式后，基于手势交互获得用户意图；其中所述阅读模式是指通过预设指令进入到的交互模式；基于用户意图，识别出手势所指位置；其中所述用户意图是指用户在阅读过程中拟进行的阅读操作；根据所述手势所指位置，反馈对应的交互结果。

进一步地，当进入阅读模式后，基于手势交互获得用户意图包括：

当进入阅读模式后，采用多模态动作识别技术识别出手势交互对应的第一手势交互指令；其中所述第一手势交互指令包括至少：播放所点区域视频、播放所点区域音频、播放所划线区域音频或者播放所画圈区域音频。

基于第一手势交互指令，获得用户意图。

当进入阅读模式后，采用多模态动作识别技术识别出手势交互对应的第二手势交互指令；其中所述第二手势交互指令包括至少：暂停播放、播放下一段或者调节音量。

基于第二手势交互指令，获得用户意图。

进一步地，当进入阅读模式后，基于手势交互获得用户意图包括：采用多模态动作识别技术进行手势识别：

检测手势所指位置；

通过连续帧进行手指检测得到手指划过的轨迹；

根据所述手指划过的轨迹，识别出所述手势是否为单手指单点、单手指画圈或者单手指划线中的任一一种。

进一步地，基于用户意图，识别出手势所指位置包括：

基于在阅读绘本或者教材伴读时想要翻页的用户意图，识别出手势所指位置是否位于绘本或者教材上。

进一步地，当进入阅读模式后，基于手势交互获得用户意图之前还包括：

通过接收语音数据输入得到语音指令，进入阅读模式。

进一步地，基于用户意图，识别出手势所指位置包括：

基于用户意图识别出手势所指位置处的图像数据，利用大规模图像检索技术与图片库中的图片数据进行匹配。

为了实现上述目的，根据本申请的另一方面，提供了一种基于体感交互的阅读装置。

根据本申请的基于体感交互的阅读装置包括：意图获取模块，用于当进入阅读模式后，基于手势交互获得用户意图；其中所述阅读模式是指通过预设指令进入到的交互模式；识别模块，用于基于用户意图，识别出手势所指位置；其中所述用户意图是指用户在阅读过程中拟进行的阅读操作；反馈模块，用于根据所述手势所指位置，反馈对应的交互结果。

进一步地，所述意图获取模块包括：识别单元，用于当进入阅读模式后，采用多模态动作识别技术识别出手势交互对应的第一手势交互指令；其中所述第一手势交互指令包括至少：播放所点区域视频、播放所点区域音频、播放所划线区域音频或者播放所画圈区域音频；获取单元，用于基于第一手势交互指令，获得用户意图。

为了实现上述目的，根据本申请的又一方面，提供了一种基于体感交互的阅读系统，包括：智能终端和体感交互设备，以使用户在真实场景中，通过所述体感交互设备与所述智能终端进行体感交互，所述体感交互设备，用于提供可进行体感交互的一个或多个互动道具。所述智能终端设备，包括：图像采集装置、语音采集装置、显示装置以及语音播报装置。所述图像采集装置，用于监控桌面范围内的手势交互图像信息以及手势所指位置处的图像数据；所述语音采集装置，用于监听桌面场景中用于触发的语音信息；所述显示装置，用于将视觉信息进行显示并输出视频信息；所述语音播报装置，用于输出音频信息。

在本申请实施例中基于体感交互的阅读方法以及装置、系统，采用当进入阅读模式后，基于手势交互获得用户意图的方式，通过基于用户意图，识别出手势所指位置，达到了根据所述手势所指位置，反馈对应的交互结果的目的，从而实现了新的阅读方式，让使用者在真实世界中翻阅纸质书籍的同时又能获得数字世界即时反馈的阅读辅助信息的技术效果，进而解决了阅读过程中方法单一，用户体验不佳的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于体感交互的阅读方法流程示意图；

图2是根据本申请实施例的基于体感交互的阅读方法流程示意图；

图3是根据本申请实施例的基于体感交互的阅读方法流程示意图；

图4是根据本申请实施例的基于体感交互的阅读方法流程示意图；

图5是根据本申请实施例的基于体感交互的阅读装置结构示意图；

图6是根据本申请实施例的基于体感交互的阅读系统实体图；

图7是根据本申请实施例的手势1操作方式示意图；

图8是根据本申请实施例的手势2操作方式示意图；

图9是根据本申请实施例的手势3操作方式示意图；

图10是根据本申请实施例的手势4操作方式示意图；

图11是根据本申请实施例的手势5操作方式示意图；

图12是根据本申请实施例的手势6操作方式示意图；

图13是根据本申请实施例的手势7操作方式示意图；

图14是根据本申请实施例的手势7另一种操作示意图；

图15是根据本申请实施例的多模态手势识别处理过程中检测手势所指位置示意图；

图16是根据本申请实施例的多模态手势识别处理过程中检测得到手指划过的轨迹示意图；

图17是根据本申请实施例的多模态手势识别处理中拟合直线过程原理示意图；

图18是根据本申请实施例的多模态手势识别处理过程中数据抽取原理示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S101至步骤S103：

步骤S101，当进入阅读模式后，基于手势交互获得用户意图；

其中所述阅读模式是指通过预设指令进入到的交互模式。

当进入到阅读模式之后，开始基于手势交互获得相应的所述用户意图。

所述手势交互可以与多个手势指令对应，并且根据手势指令获得用户意图。

步骤S102，基于用户意图，识别出手势所指位置；

其中所述用户意图是指用户在阅读过程中拟进行的阅读操作。

基于已经获得的用户意图，基于手势交互的结果进行手势所指位置的识别。比如，用户用手指点击绘本中的某个图标，通过多模态动作识别技术理解用户意图是希望播放该图标对应的音频即用户意图；接着分析手势所指位置，进而提取该图标的图像数据，利用大规模图像检索技术与图片库中所有图片数据进行匹配。当匹配成功后，即开始播放该图标对应的音频。

步骤S103，根据所述手势所指位置，反馈对应的交互结果。

根据所述手势所指位置，可以结合用户意图进行对应交互结果的反馈。

需要注意的是，手势交互的多模态动作识别技术、图像检索技术以及混合多语言文字识别技术可以自由组合或者单独进行使用，在本申请的实施例中并不进行具体限定。

具体地，当相应的桌面体感交互系统开启后，开始进入第一步。用户可以通过输入阅读的语音指令告知体感交互系统。在体感交互系统中通过分析采集得到的音频数据得到操作指令。

比如，输入“我要阅读”的指令，从而进入阅读功能后，用户翻开书开始阅读。

具体地，在用户的阅读过程中，用户可以使用手势交互。桌面体感交互系统利用多模态动作识别技术分析出采集到图像中的手势视频数据，从而确定用户具体意图。

比如，当用户将手掌放在桌面上，即告知体感交互系统希望暂停正在播放的内容；当用户在教材中某句文本下方做出划线的手势，即告知体感交互系统希望播放划线所指句子音频的意图。

具体地，当体感交互系统分析图像中的手势数据获取用户意图后，进入第三步，系统继续通过分析图像数据来获取区域定位，并且提取区域中的有效信息，结合大规模图像检索技术和混合多语言文字识别技术完成信息检索和反馈。

从以上的描述中，可以看出，本申请实现了如下技术效果：

根据本申请实施例，作为本实施例中的优选，如图2所示，当进入阅读模式后，基于手势交互获得用户意图包括：

步骤S201，当进入阅读模式后，采用多模态动作识别技术识别出手势交互对应的第一手势交互指令；其中所述第一手势交互指令包括至少：播放所点区域视频、播放所点区域音频、播放所划线区域音频或者播放所画圈区域音频。

步骤S202，基于第一手势交互指令，获得用户意图。

基于多模态动作识别技术可以识别出手势交互对应手势交互指令，通过所述第一手势交互指令可以获得用户意图。

具体地，在不同的阅读场景下为了丰富阅读体验，需要发出不同的指令以获得不同的反馈。比如，播放所点区域视频、播放所点区域音频、播放所划线区域音频或者播放所画圈区域音频等。在阅读纸质书的过程中，手是辅助阅读的工具，手部的动作符合人类的使用习惯，所以基于基于多模态动作识别技术，可以在不触碰屏幕的前提下完美的满足上述应用需求。

根据本申请实施例，作为本实施例中的优选，如图3所示，当进入阅读模式后，基于手势交互获得用户意图包括：

步骤S301，当进入阅读模式后，采用多模态动作识别技术识别出手势交互对应的第二手势交互指令；其中所述第二手势交互指令包括至少：暂停播放、播放下一段或者调节音量。

步骤S302，基于第二手势交互指令，获得用户意图。

基于多模态动作识别技术可以识别出手势交互对应的手势交互指令，通过所述第二手势交互指令可以获得用户意图。所述第二手势交互指令主要用于阅读辅助。

比如，可以只基于多模态动作识别技术进行简单的手势交互指令的识别从而获得用户意图。当用户希望给出一些关于阅读辅助功能的指令时，比如，暂停朗读、播放下一段、调节音量等时，这些指令与阅读的内容无关，所以系统不需要对页面内容进行图像检索，只需识别手势即可做出反馈。

根据本申请实施例，作为本实施例中的优选，如图4所示，当进入阅读模式后，基于手势交互获得用户意图包括：采用多模态动作识别技术进行手势识别：

步骤S401，检测手势所指位置；

步骤S402，通过连续帧进行手指检测得到手指划过的轨迹；

步骤S403，根据所述手指划过的轨迹，识别出所述手势是否为单手指单点、单手指画圈或者单手指划线中的任一一种。

通过上述手势所指位置和手指划过的轨迹，可以识别出手势是否为单手指单点、单手指画圈或者单手指划线，从而获取对应的用户用途。在本申请中通过对伴随阅读的指令预先设置相应的手势动作，可以将所有的手势都设计为单手可以完成的，使得手势的操作成本降低。

在本申请的实施例中，通过设置了七种手势来完成上述常用的指令，根据需求也可能会有更多新的手势出现，在本申请的实施例中并不进行具体限定。

如图7所示，是对手势1进行识别得到的用户意图，通过单手指单击301操作，会触发开始朗读指定区域音频311。

如图8所示，是对手势2进行识别得到的用户意图，通过单手指划线302操作，触发开始朗读所划线区域音频312。

如图9所示，是对手势3进行识别得到的用户意图，通过单手指画圈303操作，触发开始朗读所画圈区域音频313。

如图10所示，是对手势4进行识别得到的用户意图，通过双手指单点304操作触发开始播放所指区域视频314。

如图11所示，是对手势5进行识别得到的用户意图，通过单手指连续单击两次305操作，触发播放下一段媒体资源315。

如图12所示，是对手势6进行识别得到的用户意图，通过手掌置于桌面306操作，触发暂停播放媒体资源316。

如图13和图14所示，是对手势7进行识别得到的用户意图，通过单手旋转手势触发音量调节功能317，顺时针旋转调高音量319，逆时针旋转调低音量318。

在一些手势指令的应用场景的实施例中，当阅读语文课本时，翻到一个页面，识别页面图像后开始朗读整页的课文。如果此时对朗读的内容不感兴趣，可以做出单手指连续单击两次的手势，便会朗读下一段的内容；当然也可以用单手指直接指向想要听的内容，在识别手势后分析所指区域的图像即可朗读此区域的课文。采用最常见的阅读手势单手指单点来传达使用最频繁的指令。该实施例用到了手势1和手势5。

在一些手势指令的应用场景的实施例中，当在阅读绘本时，如果希望观看一个动画图像对应的视频，可以用两个手指去点这个图片，这个手势与单手指单点的逻辑类似，不过因为资源库中的视频资源远少于音频资源，其触发的频率也就随之降低，所以用不太长用的手势即两个手指点来触发视频资源。此时如果视频的音量过高或过低，可以做图13所示预备旋转按钮的动作，当智能设备识别到此动作后，表示想要调节音量，并显示反馈，即音量大小的界面图像。然后顺时针旋转手，即可将音量调高。该实施例用到了手势4和手势7。

在一些手势指令的应用场景的实施例中，当阅读图文相间的故事书、教辅书或其他文本时，若想听其中指定一句话的朗读，可用单手指在这句话的下方划一条线；若是想听其中某个图片加文本区域的朗读，便可用单手指在这个区域画一个圈，划线和画圈都是辅助单手指单点的手势，为了给出范围更加精确和多样的指令。当播放的某部分音频或视频太过冗长，想终止音频播放，却又不想触发一段新的内容时，可将手掌放在桌面上代表暂停、安静；另一方面，如果手掌置于书上，就会阻碍了图像视频的输入，即告知设备要中止活动。这些手势适用于所有媒体素材，包括音频、视频等。该实施例用到了手势2、手势3和手势6。

根据本申请实施例，作为本实施例中的优选，基于用户意图，识别出手势所指位置包括：基于在阅读绘本或者教材伴读时想要翻页的用户意图，识别出手势所指位置是否位于绘本或者教材上。

作为一种手势识别的特例，当在阅读绘本或是教材伴读时，不需要通过手势动作给予指令，通过识别当前页面的图像进行检索，然后给出反馈。通过识别出手势所指位置是否位于绘本或者教材上，即代表翻页则就触发了朗读的指令，所以不需要做出手势指令。

根据本申请实施例，作为本实施例中的优选，当进入阅读模式后，基于手势交互获得用户意图之前还包括：通过接收语音数据输入得到语音指令，进入阅读模式。

根据本申请实施例，作为本实施例中的优选，基于用户意图，识别出手势所指位置包括：基于用户意图识别出手势所指位置处的图像数据，利用大规模图像检索技术与图片库中的图片数据进行匹配。

请参考图15-图18，进行对多模态手势识别的详细说明。

步骤一，检测手势所指位置。在图像上随机n个方形窗口，如图15中1，2，3，…n所指。可以使用SVM算法对候选框进行训练和判断，在本申请的实施例中并不进行具体限定。如果候选框为手指位置，即正样本，如候选框3，其余候选框均为负样本，如候选框1、2。找到正样本后，根据检测方框的位置[P₁,P₂,P₃,P₄]计算手指指尖位置，指尖位置P’＝1/2×(P₁+P₂)

步骤二，通过连续帧进行手指检测得到手指划过的轨迹，即点t₁，t₂，…t_n组成的轨迹。如图16所示，单个指尖点的坐标是t_k＝(x_k,y_k)，{t_k}k∈[1，n]则代表点t₁，t₂，…t_n的集合。

步骤三，根据集合{t_k}k∈[1，n]，拟合直线y＝b₀+b₁x，使用最小二乘法拟合。如图17所示，将数集{t_k}带入公式，最小二乘法使用的方法是尽量使等号两边的方差最小，即找出这个函数的最小值min_b，即可推出直线L的轨迹。如果最小值min_b小于设定阈值λ₁，则识别出上述手势2：单手指划线。

步骤四，根据集合{t_k}k∈[1，n]，拟合椭圆(x-h)²/a²+(y-k)²/b²＝1，使用霍夫变换(HoughTransform)。如图18，随机抽取h，k，a，b数值，(h₁，k₁，a₁，b₁)，(h₂，k₂，a₂，b₂)…(h_n，k_n，a_n，b_n)，拟合成椭圆，圆心坐标为C(h，k)，椭圆轴长为(a，b)。计算在每组参数下，voting数量(即落在椭圆上)的点的数量，取voting最多的一组参数，即可推出椭圆轨迹。如果voting数量超过设定阈值λ₂，则识别出上述手势3：单手指画圈。

步骤五，如果在步骤三中使用最小二乘法算出的最小函数值min_b，大于设定阈值λ₁，并且步骤4中的number{voting}小于设定阈值λ₂，那么判断用户行为不是划线也不是画圈，而为点击，点击所在位置为最后落点t_n。则识别出上述手势1：单手指单点。

最小函数计算方法如下：

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述基于体感交互的阅读方法的装置，如图5所示，该装置包括：意图获取模块100，用于当进入阅读模式后，基于手势交互获得用户意图；其中所述阅读模式是指通过预设指令进入到的交互模式；识别模块110，用于基于用户意图，识别出手势所指位置；其中所述用户意图是指用户在阅读过程中拟进行的阅读操作；反馈模块120，用于根据所述手势所指位置，反馈对应的交互结果。

在本申请的实施例的意图获取模块100中当进入到阅读模式之后，开始基于手势交互获得相应的所述用户意图。

在本申请的实施例的识别模块110中基于已经获得的用户意图，基于手势交互的结果进行手势所指位置的识别。比如，用户用手指点击绘本中的某个图标，通过多模态动作识别技术理解用户意图是希望播放该图标对应的音频即用户意图；接着分析手势所指位置，进而提取该图标的图像数据，利用大规模图像检索技术与图片库中所有图片数据进行匹配。当匹配成功后，即开始播放该图标对应的音频。

在本申请的实施例的反馈模块120中根据所述手势所指位置，可以结合用户意图进行对应交互结果的反馈。

具体地，当相应的桌面体感交互系统开启后，开始进入第一步。用户可以通过输入阅读的语音指令告知体感交互系统。在体感交互系统中通过分析采集得到音频数据得到操作指令。

在本申请的另一实施例中，还提供了基于体感交互的阅读系统，如图6所示，包括：智能终端10和体感交互设备20，以使用户在真实场景中，通过所述体感交互设备与所述智能终端进行体感交互，所述体感交互设备20，用于提供可进行体感交互的一个或多个互动道具，所述智能终端设备，包括：图像采集装置102、语音采集装置103、显示装置104以及语音播报装置105，所述图像采集装置102，用于监控桌面范围内的手势交互图像信息以及手势所指位置处的图像数据；所述语音采集装置103，用于监听桌面场景中用于触发的语音信息；所述显示装置104，用于将视觉信息进行显示并输出视频信息；所述语音播报装置105，用于输出音频信息。

具体地，所述图像采集装置102设置于所述智能终端10中，用于监控桌面范围内的图像信息。桌面范围是指用于实施体感交互的载体，在本申请的实施例中并不进行具体限定。所述语音采集装置103设置于所述智能终端10中，用于监听桌面场景中用于触发的语音信息。而所触发的语音信息主要是指在环境中的人的声音，去除相应的噪声干扰。所述显示装置104用于将视觉信息进行显示并输出视频信息，并且可以通过显示屏或者投影的方式进行呈现。所述语音播报装置105，用于输出音频信息，从而与用户进行交互或者应答。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于体感交互的阅读方法，其特征在于，包括：

当进入阅读模式后，基于手势交互获得用户意图；其中所述阅读模式是指通过预设指令进入到的交互模式；

基于用户意图，识别出手势所指位置；其中所述用户意图是指用户在阅读过程中拟进行的阅读操作；

根据所述手势所指位置，反馈对应的交互结果。

2.根据权利要求1所述的基于体感交互的阅读方法，其特征在于，当进入阅读模式后，基于手势交互获得用户意图包括：

当进入阅读模式后，采用多模态动作识别技术识别出手势交互对应的第一手势交互指令；其中所述第一手势交互指令包括至少：播放所点区域视频、播放所点区域音频、播放所划线区域音频或者播放所画圈区域音频；

基于第一手势交互指令，获得用户意图。

3.根据权利要求1所述的基于体感交互的阅读方法，其特征在于，当进入阅读模式后，基于手势交互获得用户意图包括：

当进入阅读模式后，采用多模态动作识别技术识别出手势交互对应的第二手势交互指令；其中所述第二手势交互指令包括至少：暂停播放、播放下一段或者调节音量；

基于第二手势交互指令，获得用户意图。

4.根据权利要求1所述的基于体感交互的阅读方法，其特征在于，当进入阅读模式后，基于手势交互获得用户意图包括：采用多模态动作识别技术进行手势识别：

检测手势所指位置；

通过连续帧进行手指检测得到手指划过的轨迹；

5.根据权利要求1所述的基于体感交互的阅读方法，其特征在于，基于用户意图，识别出手势所指位置包括：

6.根据权利要求1所述的基于体感交互的阅读方法，其特征在于，当进入阅读模式后，基于手势交互获得用户意图之前还包括：

通过接收语音数据输入得到语音指令，进入阅读模式。

7.根据权利要求1所述的基于体感交互的阅读方法，其特征在于，基于用户意图，识别出手势所指位置包括：

8.一种基于体感交互的阅读装置，其特征在于，包括：

意图获取模块，用于当进入阅读模式后，基于手势交互获得用户意图；其中所述阅读模式是指通过预设指令进入到的交互模式；

识别模块，用于基于用户意图，识别出手势所指位置；其中所述用户意图是指用户在阅读过程中拟进行的阅读操作；

反馈模块，用于根据所述手势所指位置，反馈对应的交互结果。

9.根据权利要求8所述的基于体感交互的阅读装置，其特征在于，所述意图获取模块包括：

识别单元，用于当进入阅读模式后，采用多模态动作识别技术识别出手势交互对应的第一手势交互指令；其中所述第一手势交互指令包括至少：播放所点区域视频、播放所点区域音频、播放所划线区域音频或者播放所画圈区域音频；

获取单元，用于基于第一手势交互指令，获得用户意图。

10.一种基于体感交互的阅读系统，其特征在于，包括：智能终端和体感交互设备，以使用户在真实场景中，通过所述体感交互设备与所述智能终端进行体感交互，所述体感交互设备，用于提供可进行体感交互的一个或多个互动道具，所述智能终端设备，包括：图像采集装置、语音采集装置、显示装置以及语音播报装置，

所述图像采集装置，用于监控桌面范围内的手势交互图像信息以及手势所指位置处的图像数据；

所述语音采集装置，用于监听桌面场景中用于触发的语音信息；

所述显示装置，用于将视觉信息进行显示并输出视频信息；

所述语音播报装置，用于输出音频信息。