CN108806360A

CN108806360A - 伴读方法、装置、设备和存储介质

Info

Publication number: CN108806360A
Application number: CN201810549551.1A
Authority: CN
Inventors: 汤炜; 张晓雪
Original assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Current assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-13

Abstract

本发明实施例公开了一种伴读方法、装置、设备和存储介质。所述方法包括：在播放与获取的书籍页面的图像匹配的语音的过程中，获取用户的交互状态信息，交互状态信息包括：语音信息，和/或图像信息；向用户提供与交互状态信息匹配的交互反馈信息。本发明实施例的技术方案解决了现有技术中设备的伴读过程单调、死板以及缺少与用户之间的互动的技术缺陷，实现了与用户之间的语音互动，以及依据用户的当前阅读状态进行相应提醒，大大提高了用户的阅读效率和阅读兴趣。

Description

伴读方法、装置、设备和存储介质

技术领域

本发明实施例涉及伴读技术领域，尤其涉及一种伴读方法、装置、设备和存储介质。

背景技术

近年来，在社会背景、国家政策与市场现状的多重因素影响下，机器人行业发展迅速，教育领域与机器人产业的结合正日渐深入。如今，在市场上，智能教育陪伴机器人开始掀起新热潮，以其丰富实用的功能迅速得到人们的认可。

现有的智能教育陪伴机器人的主要功能就是对儿童的伴读功能，一般来说，智能教育陪伴机器人都是通过朗读儿童展示的绘本等书籍，以及朗读自身存储的唐诗、童话故事等内容来实现伴读功能。

发明人在实现本发明的过程中，发现现有技术存在如下缺陷：现有的智能教育陪伴机器人在伴读过程中仅是单纯的播放语音，缺少与儿童之间的互动，难以很好地调动儿童阅读的积极性。

发明内容

有鉴于此，本发明实施例提供了一种伴读方法、装置、设备和存储介质，以优化现有伴读方式，提高儿童的阅读兴趣。

在第一方面，本发明实施例提供了一种伴读方法，包括：

在播放与获取的书籍页面的图像匹配的语音的过程中，获取用户的交互状态信息，所述交互状态信息包括：语音信息，和/或图像信息；

向所述用户提供与所述交互状态信息匹配的交互反馈信息。

在上述方法中，可选的是，所述向所述用户提供与所述交互状态信息匹配的交互反馈信息，包括：

确定所述语音信息的语义；

查找并播放与所述语义对应的应答语音。

在上述方法中，可选的是，还包括：

如果查找不到与所述语义对应的应答语音，则将所述语音信息和所述书籍页面的图像发送至设定终端，以获取并播放所述设定终端的使用者针对所述语音信息的答复语音。

根据所述图像信息确定所述用户的表情类型；

播放与所述表情类型匹配的语音，和/或图像。

在上述方法中，可选的是，所述表情类型包括厌倦类和兴奋类；

所述播放与所述表情类型匹配的语音，和/或图像，包括：

播放与所述厌倦类表情匹配的语音，和/或图像，以使所述用户专注听取所述与获取的书籍页面的图像匹配的语音；

播放与所述兴奋类表情匹配的语音，和/或图像，以使所述用户专注听取所述与获取的书籍页面的图像匹配的语音。

根据所述图像信息获取所述用户的姿态信息；

根据所述姿态信息确定所述用户是否精力集中以及是否坐姿正确；

如果所述用户精力不集中或坐姿不正确，则播放姿势提醒语音，和/或姿势提醒图像。

根据所述图像信息确定所述用户的手指指向所述书籍页面的内容；

播放与所述内容对应的点读语音。

在第二方面，本发明实施例提供了一种伴读装置，包括：

交互状态信息获取模块，用于在播放与获取的书籍页面的图像匹配的语音的过程中，获取用户的交互状态信息，所述交互状态信息包括：语音信息，和/或图像信息；

交互反馈信息提供模块，用于向所述用户提供与所述交互状态信息匹配的交互反馈信息。

在第三方面，本发明实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

摄像头，用于采集图像；

麦克风，用于采集音频；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任一实施例所述的伴读方法。

在第四方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明任一实施例所述的伴读方法。

本发明实施例提供了一种伴读方法、装置、设备和存储介质，通过先在播放与获取的书籍页面的图像匹配的语音的过程中，获取用户的交互状态信息，然后向用户提供与交互状态信息匹配的交互反馈信息，解决了现有技术中设备的伴读过程单调、死板以及缺少与用户之间的互动的技术缺陷，实现了与用户之间的语音互动，以及依据用户的当前阅读状态进行相应提醒，大大提高了用户的阅读效率和阅读兴趣。

附图说明

图1是本发明实施例一提供的一种伴读方法的流程图；

图2是本发明实施例二提供的一种伴读方法的流程图；

图3是本发明实施例三提供的一种伴读方法的流程图；

图4是本发明实施例四提供的一种伴读装置的结构图；

图5是本发明实施例五提供的一种设备的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种伴读方法的流程图，本实施例的方法可以由伴读装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于伴读机器人或移动终端中。本实施例的方法具体包括：

S110、在播放与获取的书籍页面的图像匹配的语音的过程中，获取用户的交互状态信息，交互状态信息包括：语音信息和图像信息。

一般来说，伴读机器人等伴读类设备的伴读功能主要是对用户选取的自身存储的书籍对应的文字内容进行机械式朗读，或用户展现的印刷有匹配标识的书籍对应的文字内容进行机械式地朗读，在朗读的过程中与用户之间没有任何语言、图像等方面的互动。

但是，在本实施例，伴读装置在播放与获取的书籍页面的图像匹配的语音的过程中，还会同时获取用户的交互状态信息。其中，交互状态信息具体是指可用于用户与伴读装置之间进行交流的信息，具体可以是语音信息、图像信息或语音信息和图像信息等。本实施例中，以交互状态信息具体为语音信息和图像信息为例进行说明。

其中，语音信息具体可以是用户发出的语音信息，典型的可以是用户针对当前朗读内容提出的疑问、针对当前朗读内容抒发的情感语言等语音信息。

其中，图像信息具体可以是用户的身体图像信息、或用户某一特定身体部位的图像信息(例如脸部图像信息或手指图像信息)等。

另外，在本实施例中，所播放的语音是与获取的书籍页面的图像相匹配的，也就是说，首先需要获取书籍页面的图像才能确定所需播放的语音。在本实施例中，书籍页面的获取方法具体可以是通过伴读装置自身配置的摄像头获取书籍页面的图像，还可以是通过伴读装置自身配置的扫描部件获取书籍页面的图像，本实施例对此不进行限制。

进一步地，语音与获取的书籍页面的图像相匹配具体是指语音对应的图像数据与获取的书籍页面的图像数据相匹配。其中，图像数据具体可以是图像的灰度平均值、图像的灰度均方差、二值化图的整体数据以及灰度图的整体数据等。

进一步地，所播放的与获取的书籍页面的图像匹配的语音具体可以是事先存储在伴读装置中的音频，也可以是事先存储在与伴读装置关联的服务器中的音频，本实施例对此不进行限制。

S120、向用户提供与交互状态信息匹配的交互反馈信息。

在本实施例中，在获取用户的交互状态信息之后，会根据交互状态信息的内容生成对应的交互反馈信息，并向用户提供该交互反馈信息。其中，交互反馈信息具体可以用于对交互状态信息进行应答、改变等。

示例性的，当获取的用户的交互状态信息为用户针对当前朗读内容提出的疑问，那么对应的交互反馈信息可以是对上述疑问的解答；当获取的用户的交互状态信息是用户的身体图像信息，且该身体图像信息显示用户未专心听取播放的语音，那么对应的交互反馈信息可以是提醒用户专心听取语音的信息；当获取的用户的交互状态信息是用户的手指图像信息，该手指图像信息显示用户的手指指向书籍页面中的文字或图画，那么对应的交互反馈信息可以是播放上述文字所在的语句的语音，或是播放上述图画中人物或动物的姓名的语音等。

进一步地，在播放与获取的书籍页面的图像匹配的语音之前，可以先播放用于介绍该书籍的内容梗概或作者的语音。在播放完与获取的书籍页面的图像匹配的语音之后，还可以播放语音用于对与该书籍相关的书籍进行介绍，例如介绍同一作者撰写的其他书籍，或介绍内容相似的其他书籍等，还可以播放语音用于对该书籍的内容进行提问。另外，在播放完与获取的书籍页面的图像匹配的语音之后，还可以将在播放上述语音过程中获取的用户的图像以及语音等数据发送至关联服务器，服务器可以将接收到的信息直接发送至与用户关联的移动终端(例如该用户父母的手机等)，服务器还可以对接收到的图像以及语音等数据进行统计分析，得到对用户阅读情况的评测结果，将该评测结果发送至该用户的父母手机，以便用户的父母及时掌握用户的阅读状态。

本发明实施例提供了一种伴读方法，通过先在播放与获取的书籍页面的图像匹配的语音的过程中，获取用户的交互状态信息，然后向用户提供与交互状态信息匹配的交互反馈信息，解决了现有技术中设备的伴读过程单调、死板以及缺少与用户之间的互动的技术缺陷，实现了与用户之间的语音互动，以及依据用户的当前阅读状态进行相应提醒，大大提高了用户的阅读效率和阅读兴趣。

实施例二

图2是本发明实施例二提供的一种伴读方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，给出了一种将交互反馈信息具体化为与语音信息对应的应答语音或答复语音的具体实施方式。

相应的，本实施例的方法具体包括：

S210、在播放与获取的书籍页面的图像匹配的语音的过程中，获取用户的语音信息。

在本实施例中，交互状态信息具体为语音信息，该语音信息具体可以是通过单个麦克风获取，也可以是通过一组麦克风获取。当然，通过一组麦克风获取的语音较通过单个麦克风获取的语音的清晰度更高，且在之后的语音处理中更容易去除杂音。其中，一组麦克风具体可以是以阵列形式排列分布。

S220、确定语音信息的语义。

在本实施例中，在获取语音信息之后，首先需要确定该语音信息的语义。确定语音信息的语义的方法具体可以是首先将语音信息输入事先训练好的神经网络进行语句识别，得到语音信息对应的文字信息，然后通过自然语言处理技术对上述文字信息进行语义分析，得到语音信息的语义。上述语句识别和语义分析技术均属于现有技术，在此不再进行详细阐述。

S230、查找是否存储有与语义对应的应答语音，若存储有与语义对应的应答语音，则执行步骤240，若没有存储与语义对应的应答语音，则执行步骤250。

在本实施例中，与语义对应的应答语音具体可以是存储在伴读装置中，也可以是存储在与伴读装置关联的服务器中。

进一步地，如果未存储有与语义对应的应答语音，还可以通过网络连接查找其他服务器(不包括与伴读装置关联的服务器)中是否存储有与语音对应的应答语音，如果有，也可以播放其他服务器中存储的应答语音。

S240、播放与语义对应的应答语音。

在本实施例中，查找到与语义对应的应答语音之后，即会播放该应答语音。当该应答语音播放完毕之后，可以立即继续播放与获取的书籍页面的图像匹配的语音，也可以通过语音询问用户是否还有其他疑问，如接收到用户表示没有其他疑问的语音信息之后继续播放与获取的书籍页面的图像匹配的语音，还可以停顿设定时间(例如十秒钟)之后，如果未接收到用户的其他语音信息，则继续播放与获取的书籍页面的图像匹配的语音。

S250、将语音信息和书籍页面的图像发送至设定终端，以获取并播放设定终端的使用者针对语音信息的答复语音。

在本实施例中，如果查找不到与语义对应的应答语音，则会将语音信息和书籍页面的图像发送至设定终端(包括通过与伴读设备关联的服务器发送至设定终端)，其中，设定终端具体可以是用户的父母的手机等终端。设定终端的使用者在接收到语音信息和书籍页面的图像，并对语音信息进行应答之后，会通过设定终端将应答的语音、图像等信息发送至伴读装置(包括发送至与伴读设备关联的服务器，服务器将接收到的应答信息发送至伴读装置)。

在本实施例中，伴读装置在将语音信息和书籍页面的图像发送至设定终端之后，可以首先播放语音告知用户已将语音信息发送至设定终端，然后继续播放与获取的书籍页面的图像匹配的语音，待接收到设定终端返回的应答信息之后，立即将应答信息进行播放。

进一步地，如果长时间(例如一个小时)未接收到设定终端返回的应答信息，那么可以将语音信息和书籍页面的图像再次发送至设定终端。

本发明实施例提供了一种伴读方法，该伴读方法将交互状态信息具体化为语音信息，同时具体化了针对语音信息的交互反馈信息的提供方法，根据语音信息的语义获取应答语音，实现了在伴读过程中，及时与用户进行语音交互，可以对用户提出的问题进行快速、准确的回答，还可以对用户的情感表达给与及时回应，进而提升了用户的使用体验，提高了用户的阅读兴趣。

实施例三

图3是本发明实施例三提供的一种伴读方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，给出了一种将交互反馈信息具体化为与由图像信息所确定的用户的表情类型匹配的语音和图像，还具体化为与由图像信息获取的姿态信息所确定的精力集中以及坐姿情况对应的姿势提醒语音和图像，还具体化为与由图像信息所确定的手指指向内容对应的点读语音的具体实施方式。

相应的，本实施例的方法具体包括：

S310、在播放与获取的书籍页面的图像匹配的语音的过程中，获取用户的图像信息。

在本实施例中，交互状态信息具体为图像信息。其中，图像信息具体可以是通过一个摄像头获取的，也可以是通过多个摄像头获取的。当图像信息是通过多个摄像头获取的，那么步骤320、步骤340和步骤370中的图像信息可以是分别通过三个不同的摄像头获取的，也可以是步骤320、步骤340和步骤370中的图像信息中的任意两个图像信息通过一个摄像头获取，其余一个图像信息通过另外一个摄像头获取。

S320、根据图像信息确定用户的表情类型。

在本实施例中，伴读装置在播放与获取的书籍页面的图像匹配的语音的过程中，还会同时获取用户的图像信息，以通过获取的图像信息确定用户的表情类型。其中，图像信息具体可以是用户的人脸图像信息，也可以是用户的全身或上半身图像信息，本实施例对此不进行限制。

进一步地，通过图像信息确定用户的表情类型的方法具体可以是将图像信息输入事先训练好的用于表情类型确定的神经网络，得到用户的表情类型。当图像信息为用户的全身或上半身图像信息时，神经网络可以先将图像信息中的人脸图像信息进行提取，然后再对提取的人脸图像信息进行处理，得到用户的表情类型。上述通过神经网络对图像信息进行处理的技术属于现有技术，在此不再进行详细阐述。

S330、播放与表情类型匹配的语音和图像。

在本实施例中，会依据步骤320所确定用户的表情类型，播放匹配的语音和图像。当然，依据表情类型的不同，在实际操作中，与表情类型匹配的可能只有语音，或只有图像，那么此时，只能单独播放语音或单独播放图像。

示例性的，当所确定的用户的表情类型为厌倦类时，可以播放鼓励型的语音，鼓励用户继续专心听取与获取的书籍页面的图像匹配的语音，同时播放与书籍相关的图像，吸引用户的注意力，提高用户的阅读兴趣。

示例性的，当所确定的用户的表情类型为兴奋类时，可以播放镇静类的音乐，以使用户的兴奋状态得到平复，使用户继续专心听取与获取的书籍页面的图像匹配的语音。

示例性的，当所确定的用户的表情类型为疑惑时，可以暂停播放与获取的书籍页面的图像匹配的语音，转而播放设定语音以询问用户有何疑问，同时播放具有疑惑表情的卡通人物图像。

S340、根据图像信息获取用户的姿态信息。

在本实施例中，伴读装置在播放与获取的书籍页面的图像匹配的语音的过程中，还会同时获取用户的图像信息，以通过获取的图像信息获取用户的姿态信息。其中，图像信息具体可以是用户的全身图像，也可以是用户的上半身图像信息，本实施例对此不进行限制。

进一步地，通过图像信息获取用户的姿态信息的方法具体可以是将图像信息输入事先训练好的用于确定姿态信息的神经网络，得到用户的姿态信息。该方法属于现有技术，在此不再进行详细阐述。

S350、根据姿态信息确定用户是否精力集中以及是否坐姿正确。

在本实施例中，在获取用户的姿态信息之后，会根据姿态信息确定用户是否精力集中以及是否坐姿正确，具体可以是将步骤340获取的姿态信息输入事先训练好的用于确定专心程度的神经网络，得到用户当前是否精力集中以及是否坐姿正确，即是否专心听取所播放的语音。

S360、如果用户精力不集中或坐姿不正确，则播放姿势提醒语音和姿势提醒图像。

在本实施例中，如果确定用户精力不集中或坐姿不正确，则播放姿势提醒语音和姿势提醒图像，以使用户专心听取所播放的语音。其中，姿势提醒语音具体可以是“请做正，不要倾斜身体”等。其中，姿势提醒图像具体可以是用于展示常人或卡通人物正确坐姿的图像等。

S370、根据图像信息确定用户的手指指向书籍页面的内容。

在本实施例中，伴读装置在播放与获取的书籍页面的图像匹配的语音的过程中，还会同时获取用户的图像信息，以通过获取的图像信息确定用户的手指指向书籍页面的内容。其中，图像信息具体可以是用户的手部图像信息，也可以是用户的全身或上半身图像信息，本实施例对此不进行限制。

进一步地，通过图像信息确定用户的手指指向书籍页面的内容的方法具体可以是将图像信息输入事先训练好的用于物体分割的神经网络，得到用户的手指指向区域图像。当图像信息为用户的全身或上半身图像信息时，神经网络可以先将图像信息中的手部图像信息进行提取，然后再对提取的手部图像信息进行处理，得到用户的手指指向区域图像。

在得到手指指向区域图像之后，如果图像中包括中英文文字，可以利用OCR(Optical Character Recognition，光学字符识别)技术识别手指指向的中英文文字内容。

进一步地，在本实施例中，可以根据已获取的书籍页面的图像确定该页面的页号，根据页号可以获取该页面对应的文字信息和图像信息。因此，在通过OCR技术得到手指指向的中英文文字内容之后，可以根据该页面对饮的文字信息确定包含手指指向的中英文文字内容的语句。在得到用户的手指指向区域图像之后，可以根据该页面中的图像信息，确定手指指向区域图像中的非文字内容。

S380、播放与内容对应的点读语音。

在本实施例中，在确定用户的手指指向书籍页面的内容之后，即会播放与内容对应的点读语音。当用户的手指指向书籍页面的内容为文字时，点读语音可以是包含该文字的整句语句；当用户的手指指向书籍页面的内容为图画(非文字)时，点读语音可以是该图画中的人物姓名，或该图画中人物的活动内容，或该图画中风景的地名等。

本发明实施例提供了一种伴读方法，该伴读方法将交互反馈信息具体化为与由图像信息所确定的用户的表情类型匹配的语音和图像，还具体化为与由图像信息获取的姿态信息所确定的精力集中以及坐姿情况对应的姿势提醒语音和图像，还具体化为与由图像信息所确定的手指指向内容对应的点读语音的具体实施方式，实现了在伴读过程中，根据获取的用户图像与用户进行交互，可以对用户的不良阅读状态及时进行提醒，还可以准确、快速地播放与用户感兴趣的文字和图画对应的语音，大大提升了用户的使用体验，同时还可以提高用户的阅读兴趣。

在上述各实施例的基础上，将表情类型具体化为厌倦类和兴奋类；将播放与表情类型匹配的语音，和/或图像，具体化为：播放与厌倦类表情匹配的语音，和/或图像，以使用户专注听取与获取的书籍页面的图像匹配的语音；播放与所述兴奋类表情匹配的语音，和/或图像，以使所述用户专注听取所述与获取的书籍页面的图像匹配的语音。

这样设置的好处是：可以及时调整用户的不良状态，使用户专心听取阅读语音。

实施例四

图4是本发明实施例四提供的一种伴读装置的结构图。如图4所示，所述装置包括：交互状态信息获取模块401以及交互反馈信息提供模块402，其中：

交互状态信息获取模块401，用于在播放与获取的书籍页面的图像匹配的语音的过程中，获取用户的交互状态信息，交互状态信息包括：语音信息，和/或图像信息；

交互反馈信息提供模块402，用于向用户提供与交互状态信息匹配的交互反馈信息。

本发明实施例提供了一种伴读装置，该装置首先通过交互状态信息获取模块401在播放与获取的书籍页面的图像匹配的语音过程中，获取用户的交互状态信息，交互状态信息包括语音信息，和/或图像信息，然后通过交互反馈信息提供模块402向用户提供与交互状态信息匹配的交互反馈信息。

该装置解决了现有技术中设备的伴读过程单调、死板以及缺少与用户之间的互动的技术缺陷，实现了与用户之间的语音互动，以及依据用户的当前阅读状态进行相应提醒，大大提高了用户的阅读效率和阅读兴趣。

在上述各实施例的基础上，交互反馈信息提供模块402可以包括：

语义确定单元，用于确定语音信息的语义；

应答语音播放单元，用于查找并播放与语义对应的应答语音。

在上述各实施例的基础上，还可以包括：

答复语音播放单元，用于如果查找不到与语义对应的应答语音，则将语音信息和书籍页面的图像发送至设定终端，以获取设定终端的使用者针对语音信息的答复语音。

表情类型确定单元，用于根据图像信息确定用户的表情类型；

图像语音播放单元，用于播放与表情类型匹配的语音，和/或图像。

在上述各实施例的基础上，表情类型可以包括厌倦类和兴奋类；

图像语音播放单元具体可以用于：

播放与厌倦类表情匹配的语音，和/或图像，以使用户专注听取与获取的书籍页面的图像匹配的语音；

姿态信息获取单元，用于根据图像信息获取用户的姿态信息；

精力集中确定单元，用于根据姿态信息确定用户是否精力集中以及是否坐姿正确；

姿势提醒单元，用于如果用户精力不集中或坐姿不正确，则播放姿势提醒语音，和/或姿势提醒图像。

指向内容确定单元，用于根据图像信息确定用户的手指指向书籍页面的内容；

点读语音播放单元，用于播放与内容对应的点读语音。

本发明实施例所提供的伴读装置可用于执行本发明任意实施例提供的伴读方法，具备相应的功能模块，实现相同的有益效果。

实施例五

图5为本发明实施例五提供的一种设备的结构示意图，如图5所示，该设备包括处理器50、存储器51、输入装置52、输出装置53、摄像头54和麦克风55；设备5中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；设备中的处理器50、存储器51、输入装置52、输出装置53、摄像头54和麦克风55可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的伴读方法对应的模块(例如，伴读装置中的交互状态信息获取模块401以及交互反馈信息提供模块402)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的伴读方法。

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。摄像头54用于采集图像。麦克风55用于采集音频。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种伴读方法，该方法包括：

在播放与获取的书籍页面的图像匹配的语音过程中，获取用户的交互状态信息，所述交互状态信息包括：语音信息，和/或图像信息；

向所述用户提供与所述交互状态信息匹配的交互反馈信息。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的伴读方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述伴读装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种伴读方法，其特征在于，包括：

向所述用户提供与所述交互状态信息匹配的交互反馈信息。

2.根据权利要求1所述的方法，其特征在于，所述向所述用户提供与所述交互状态信息匹配的交互反馈信息，包括：

确定所述语音信息的语义；

查找并播放与所述语义对应的应答语音。

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，所述向所述用户提供与所述交互状态信息匹配的交互反馈信息，包括：

根据所述图像信息确定所述用户的表情类型；

播放与所述表情类型匹配的语音，和/或图像。

5.根据权利要求4所述的方法，其特征在于，所述表情类型包括厌倦类和兴奋类；

所述播放与所述表情类型匹配的语音，和/或图像，包括：

6.根据权利要求1所述的方法，其特征在于，所述向所述用户提供与所述交互状态信息匹配的交互反馈信息，包括：

根据所述图像信息获取所述用户的姿态信息；

7.根据权利要求1所述的方法，其特征在于，所述向所述用户提供与所述交互状态信息匹配的交互反馈信息，包括：

播放与所述内容对应的点读语音。

8.一种伴读装置，其特征在于，包括：

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

摄像头，用于采集图像；

麦克风，用于采集音频；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的伴读方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一项所述的伴读方法。