CN110299036A

CN110299036A - 交互阅读方法、装置、系统及存储介质

Info

Publication number: CN110299036A
Application number: CN201910557458.XA
Authority: CN
Inventors: 于德鸿
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-10-01

Abstract

本发明提供一种交互阅读方法、装置、系统及存储介质，该方法，包括：采集包含书本内容的视频图像；将所述视频图像发送给服务器；接收所述服务器反馈的文本信息；若满足预设的触发条件，则播报所述文本信息。本发明可以通过智能音箱实现任意书本的点读功能，实现过程简单，无需制作专门的点读书本，扩展性强，使得点读的书本内容更加丰富，用户体验佳。

Description

交互阅读方法、装置、系统及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种交互阅读方法、装置、系统及存储介质。

背景技术

随着多媒体技术的发展，具备语音问答功能的电子产品受到了越来越多儿童的喜爱。

目前，家长可以购买整套的点读书和点读笔来辅助儿童阅读绘本。

但是，上述方式只能通过点读笔和点读书来实现辅助阅读，而制作专门的点读书，过程复杂，成本高；这也使得点读书的内容有限，无法满足用户的需求，用户体验不佳。

发明内容

本发明提供一种交互阅读方法、装置、系统及存储介质，可以通过智能音箱实现任意书本的点读功能，实现过程简单，无需制作专门的点读书本，扩展性强，使得点读的书本内容更加丰富，用户体验佳。

第一方面，本发明实施例提供一种交互阅读方法，包括：

采集包含书本内容的视频图像；

将所述视频图像发送给服务器；

接收所述服务器反馈的文本信息；

若满足预设的触发条件，则播报所述文本信息。

在一种可能的设计中，在采集包含书本内容的视频图像之前，还包括：

接收用户输入的控制信息；

根据所述控制信息，开启阅读模式；所述阅读模式是指开启图像采集器采集视频图像的模式。

在一种可能的设计中，若满足预设的触发条件，则播报所述文本信息，包括：

若在预设的时间段内接收到目标语音信息，或者目标按键信息，则播报所述预设时间段内接收到的所述文本信息。

在一种可能的设计中，还包括：

若在预设的时间段内未接收到目标语音信息，则清除所述预设时间段内接收到的所述文本信息。

第二方面，本发明实施例提供一种交互阅读方法，包括：

接收语音装置发送的视频图像；

通过预先加载的图像识别模型识别所述视频图像，得到文本信息；

将所述文本信息反馈给所述语音装置。

在一种可能的设计中，通过预先加载的图像识别模型识别所述视频图像，得到文本信息，包括：

从所述视频图像中选取任一满足清晰度要求的视频帧；

从所述视频帧中提取图像特征，并将所述图像特征输入第一图像识别模型；

若所述第一图像识别模型输出书名，则将所述图像特征输入第二图像识别模型；

若所述第一图像识别模型识别失败，则重新接收视频图像；

若所述第二图像识别模型输出书本页码，则将所述图像特征输入第三图像识别模型；

若所述第二图像识别模型识别失败，则重新接收视频图像；

若所述第三图像识别模型输出单根手指的位置，则将所述图像特征输入第四图像识别模型；

若所述第三图像识别模型识别失败，则重新接收视频图像；

若所述第四图像识别模型输出手指指示位置，则获取所述手指指示位置对应行的文本信息；

若所述第四图像识别模型识别失败，则重新接收视频图像。

第三方面，本发明实施例提供一种交互阅读装置，包括：

采集模块，用于采集包含书本内容的视频图像；

发送模块，用于将所述视频图像发送给服务器；

接收模块，用于接收所述服务器反馈的文本信息；

播报模块，用于在满足预设的触发条件时，则播报所述文本信息。

在一种可能的设计中，还包括：处理模块，用于：

在采集包含书本内容的视频图像之前，接收用户输入的控制信息；

在一种可能的设计中，所述播报模块，具体用于：

在一种可能的设计中，处理模块，还用于：

第四方面，本发明实施例提供一种交互阅读装置，包括：

接收模块，用于接收语音装置发送的视频图像；

识别模块，用于通过预先加载的图像识别模型识别所述视频图像，得到文本信息；

反馈模块，用于将所述文本信息反馈给所述语音装置。

在一种可能的设计中，所述识别模块，具体用于：

从所述视频图像中选取任一满足清晰度要求的视频帧；

若所述第一图像识别模型识别失败，则重新接收视频图像；

若所述第二图像识别模型识别失败，则重新接收视频图像；

若所述第三图像识别模型识别失败，则重新接收视频图像；

若所述第四图像识别模型识别失败，则重新接收视频图像。

第五方面，本发明实施例提供一种交互阅读系统，包括：包括语音装置和服务器，所述语音装置和所述服务器通信连接；其中：

所述语音装置包括存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的交互阅读方法；

所述服务器包括存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第二方面中任一项所述的交互阅读方法。

第六方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述的交互阅读方法。

第七方面，本发明实施例提供一种程序产品，所述程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得服务器执行第一方面中任一所述的交互阅读方法。

本发明提供一种交互阅读方法、装置、系统及存储介质，通过采集包含书本内容的视频图像；将所述视频图像发送给服务器；接收所述服务器反馈的文本信息；若满足预设的触发条件，则播报所述文本信息。本发明可以通过智能音箱实现任意书本的点读功能，实现过程简单，无需制作专门的点读书本，扩展性强，使得点读的书本内容更加丰富，用户体验佳。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一应用场景的原理示意图；

图2为本发明实施例一提供的交互阅读方法的流程图；

图3为本发明实施例二提供的交互阅读方法的流程图；

图4为本发明实施例三提供的交互阅读方法的流程图；

图5为本发明实施例四提供的交互阅读装置的结构示意图；

图6为本发明实施例五提供的交互阅读装置的结构示意图；

图7为本发明实施例六提供的交互阅读系统的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

随着多媒体技术的发展，具备语音问答功能的电子产品受到了越来越多儿童的喜爱。目前，家长可以购买整套的点读书和点读笔来辅助儿童阅读绘本。但是，上述方式只能通过点读笔和点读书来实现辅助阅读，而制作专门的点读书，过程复杂，成本高；这也使得点读书的内容有限，无法满足用户的需求，用户体验不佳。

针对上述技术问题，本发明提供一种交互阅读方法，可以通过智能音箱实现任意书本的点读功能，实现过程简单，无需制作专门的点读书本，扩展性强，使得点读的书本内容更加丰富，用户体验佳。本发明提供的方法，可以应用于智能音箱、或者是其他具备摄像头和语音功能的设备。具备摄像头的音箱，可以赋予更多的AI能力，将儿童读绘本这件事，做的体验更好，帮助儿童更好的阅读，也解放家长，最终提高产品销量，品牌和口碑。图1为本发明一应用场景的原理示意图，如图1所示，语音装置10可以通过自带的摄像头采集包含书本内容的视频。例如，采用拍照或者录像等模式，采集书本上的内容。可选地，在采集包含书本内容的视频图像之前，还包括：接收用户输入的控制信息；根据控制信息，开启阅读模式；阅读模式是指开启图像采集器采集视频图像的模式。输入的控制信息可以是用户通过按键或者语音命令等形式生成的。例如，儿童在读绘本时，手指点到的位置，说一句“小度小度，进入阅读模式”，智能音箱进行语音识别，进入阅读模式。然后，语音装置10将视频图像发送给后台服务器20。后台服务器20在接收语音装置10发送的视频图像之后，通过预先加载的图像识别模型识别视频图像，得到文本信息。后台服务器20可以过预先加载的图像识别模型直接识别视频图像上的文字或者图案，得到对应的文本信息。例如，将视频图像上的文字进行逐个识别，得到文本信息。可选地，后台服务器20可以从视频图像中选取任一满足清晰度要求的视频帧；从视频帧中提取图像特征，并将图像特征输入第一图像识别模型；若第一图像识别模型输出书名，则将图像特征输入第二图像识别模型；若第一图像识别模型识别失败，则重新接收视频图像；若第二图像识别模型输出书本页码，则将图像特征输入第三图像识别模型；若第二图像识别模型识别失败，则重新接收视频图像；若第三图像识别模型输出单根手指的位置，则将图像特征输入第四图像识别模型；若第三图像识别模型识别失败，则重新接收视频图像；若第四图像识别模型输出手指指示位置，则获取手指指甲对应行的文本信息；若第四图像识别模型识别失败，则重新接收视频图像。然后，后台服务器20将文本信息反馈给语音装置10。语音装置10在接收后台服务器20反馈的文本信息之后，若满足预设的触发条件，则播报文本信息。

需要说明的是，本实施例中后台服务器可以接收多个语音装置上传的视频图像，并将识别后的文本信息反馈给对应的语音装置。

应用上述方法通过智能音箱实现任意书本的点读功能，实现过程简单，无需制作专门的点读书本，扩展性强，使得点读的书本内容更加丰富，用户体验佳。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例一提供的交互阅读方法的流程图，如图2所示，本实施例中的方法可以包括：

S101、采集包含书本内容的视频图像。

本实施例中，随着多媒体技术的发展，具备语音问答功能的电子产品受到了越来越多儿童的喜爱。智能音箱、或者是其他具备摄像头和语音功能的设备通过本发明提供的方法，可以赋予更多的AI能力，实现任意书本的点读功能，实现过程简单，无需制作专门的点读书本，扩展性强，使得点读的书本内容更加丰富，从而将儿童读绘本这件事做的体验更好，帮助儿童更好的阅读，也解放家长。本实施例，以智能音箱为例进行具体说明，其他设备同样适用。首先，通过智能音箱自带的摄像头采集包含书本内容的视频。例如，采用拍照或者录像等模式，采集书本上的内容。

可选地，在采集包含书本内容的视频图像之前，还包括：接收用户输入的控制信息；根据控制信息，开启阅读模式；阅读模式是指开启图像采集器采集视频图像的模式。

具体地，智能音箱可以接收用户输入的控制信息，进入阅读模式。输入的控制信息可以是用户通过按键或者语音命令等形式生成的。例如，儿童在读绘本时，手指点到的位置，说一句“小度小度，进入阅读模式”，智能音箱进行语音识别，进入阅读模式。

S102、将视频图像发送给服务器。

本实施例中，在采集到视频图像之后，将视频图像发送给服务器，由服务器对视频图像进行识别。

S103、接收服务器反馈的文本信息。

本实施例中，可以接收服务器反馈文本信息。反馈的文本信息就是服务器识别出的视频图像上的内容。

S104、若满足预设的触发条件，则播报文本信息。

本实施例中，若在预设的时间段内接收到目标语音信息，或者目标按键信息，则播报预设时间段内接收到的文本信息。可选地，若在预设的时间段内未接收到目标语音信息，则清除预设时间段内接收到的文本信息。例如，智能音箱接收到反馈文本信息后，通过语音“已成功识别文本，是否阅读”提醒用户做出触发。儿童可以回答“小度小度，阅读文本”，从而触发智能音箱播报文本信息。

本实施例，通过采集包含书本内容的视频图像；将视频图像发送给服务器；接收服务器反馈的文本信息；若满足预设的触发条件，则播报文本信息。本发明可以通过智能音箱实现任意书本的点读功能，实现过程简单，无需制作专门的点读书本，扩展性强，使得点读的书本内容更加丰富，用户体验佳。

图3为本发明实施例二提供的交互阅读方法的流程图，如图3所示，本实施例中的方法可以包括：

S201、接收语音装置发送的视频图像。

本实施例中，服务器可以接收语音装置发送的视频图像。然后，通过对视频图像进行处理，识别出对应的文本信息。

S202、通过预先加载的图像识别模型识别视频图像，得到文本信息。

本实施例中，服务器可以过预先加载的图像识别模型直接识别视频图像上的文字或者图案，得到对应的文本信息。例如，将视频图像上的文字进行逐个识别，得到文本信息。

可选地，服务器从视频图像中选取任一满足清晰度要求的视频帧；从视频帧中提取图像特征，并将图像特征输入第一图像识别模型；若第一图像识别模型输出书名，则将图像特征输入第二图像识别模型；若第一图像识别模型识别失败，则重新接收视频图像；若第二图像识别模型输出书本页码，则将图像特征输入第三图像识别模型；若第二图像识别模型识别失败，则重新接收视频图像；若第三图像识别模型输出单根手指的位置，则将图像特征输入第四图像识别模型；若第三图像识别模型识别失败，则重新接收视频图像；若第四图像识别模型输出手指指示位置，则获取手指指示位置对应行的文本信息；若第四图像识别模型识别失败，则重新接收视频图像。

需要说明的是，本实施例不限定手指指示位置的判定方法。例如可以通过确定手指指甲的位置来确定手指指示位置，或者是通过确定手指末端的位置来确定手指指示的位置。

具体地，服务器通过视频图像的图像识别模型，依次识别出书名、书本当前页码、用户手指，以及用户手指甲位置对应的文本信息；若上述任何一步识别失败，则继续接收AI音箱上传的视频图像；直到成功识别出用户手指甲位置对应的文本信息。本实施例中的图像识别模型包括：第一图像识别模型、第二图像识别模型、第三图像识别模型、第四图像识别模型。其中，第一图像识别模型用于识别书名，第二图像识别模型用于识别书本页码，第三图像识别模型用于识别手指的位置，第四图像识别模型用于识别手指指示位置。从而可以在视频图像上进行精确地定位，提高识别精度，提升用户体验。可以将识别的结果与后台数据库比对，查找对应的内容。

S203、将文本信息反馈给语音装置。

本实施例中，在得到文本信息之后，服务器可以将文本信息反馈给语音装置。

本实施例，通过接收语音装置发送的视频图像；通过预先加载的图像识别模型识别视频图像，得到文本信息；将文本信息反馈给语音装置。本发明可以通过智能音箱实现任意书本的点读功能，实现过程简单，无需制作专门的点读书本，扩展性强，使得点读的书本内容更加丰富，用户体验佳。

图4为本发明实施例三提供的交互阅读方法的流程图，如图4所示，本实施例中的方法可以包括：

S301、采集包含书本内容的视频图像。

S302、将视频图像发送给服务器。

S303、接收语音装置发送的视频图像。

S304、通过预先加载的图像识别模型识别视频图像，得到文本信息。

S305、将文本信息反馈给语音装置。

S306、接收服务器反馈的文本信息。

S307、若满足预设的触发条件，则播报文本信息。

本实施例中，步骤S301～步骤S302的具体实现过程和技术原理请参见图2所示的方法中步骤S101～步骤S102中的相关描述，此处不再赘述。

本实施例中，步骤S303～步骤S305的具体实现过程和技术原理请参见图3所示的方法中步骤S201～步骤S203中的相关描述，此处不再赘述。

本实施例中，步骤S306～步骤S307的具体实现过程和技术原理请参见图2所示的方法中步骤S103～步骤S104中的相关描述，此处不再赘述。

图5为本发明实施例四提供的交互阅读装置的结构示意图，如图5所示，本实施例的交互阅读装置可以包括：

采集模块31，用于采集包含书本内容的视频图像；

发送模块32，用于将视频图像发送给服务器；

接收模块33，用于接收服务器反馈的文本信息；

播报模块34，用于在满足预设的触发条件时，则播报文本信息。

在一种可能的设计中，还包括：处理模块35，用于：

根据控制信息，开启阅读模式；阅读模式是指开启图像采集器采集视频图像的模式。

在一种可能的设计中，播报模块34，具体用于：

若在预设的时间段内接收到目标语音信息，或者目标按键信息，则播报预设时间段内接收到的文本信息。

在一种可能的设计中，处理模块35，还用于：

若在预设的时间段内未接收到目标语音信息，则清除预设时间段内接收到的文本信息。

本实施例的交互阅读装置，可以执行图2所示方法中的技术方案，其具体实现过程和技术原理参见图2所示方法中的相关描述，此处不再赘述。

图6为本发明实施例五提供的交互阅读装置的结构示意图，如图6所示，本实施例的交互阅读装置可以包括：

接收模块41，用于接收语音装置发送的视频图像；

识别模块42，用于通过预先加载的图像识别模型识别视频图像，得到文本信息；

反馈模块43，用于将文本信息反馈给语音装置。

在一种可能的设计中，识别模块42，具体用于：

从视频图像中选取任一满足清晰度要求的视频帧；

从视频帧中提取图像特征，并将图像特征输入第一图像识别模型；

若第一图像识别模型输出书名，则将图像特征输入第二图像识别模型；

若第一图像识别模型识别失败，则重新接收视频图像；

若第二图像识别模型输出书本页码，则将图像特征输入第三图像识别模型；

若第二图像识别模型识别失败，则重新接收视频图像；

若第三图像识别模型输出单根手指的位置，则将图像特征输入第四图像识别模型；

若第三图像识别模型识别失败，则重新接收视频图像；

若第四图像识别模型输出手指指示位置，则获取手指指示位置对应行的文本信息；

若第四图像识别模型识别失败，则重新接收视频图像。

本实施例的交互阅读装置，可以执行图3所示方法中的技术方案，其具体实现过程和技术原理参见图3所示方法中的相关描述，此处不再赘述。

图7为本发明实施例六提供的交互阅读系统的结构示意图，如图7所示，本实施例的交互阅读系统可以包括：语音装置50和服务器60，语音装置50和服务器60通信连接；其中：

语音装置50可以包括：处理器51和存储器52。

存储器52，用于存储程序；存储器52，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器52用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器52中。并且上述的计算机程序、计算机指令、数据等可以被处理器51调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器52中。并且上述的计算机程序、计算机指令、数据等可以被处理器51调用。

处理器51，用于执行存储器52存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器51和存储器52可以是独立结构，也可以是集成在一起的集成结构。当处理器51和存储器52是独立结构时，存储器52、处理器51可以通过总线53耦合连接。

本实施例的语音装置50可以执行图2所示方法中的技术方案，其具体实现过程和技术原理参见图2所示方法中的相关描述，此处不再赘述。

本实施例的语音装置50，通过采集包含书本内容的视频图像；将视频图像发送给服务器；接收服务器反馈的文本信息；若满足预设的触发条件，则播报文本信息。本发明可以通过智能音箱实现任意书本的点读功能，实现过程简单，无需制作专门的点读书本，扩展性强，使得点读的书本内容更加丰富，用户体验佳。

服务器60可以包括：处理器61和存储器62。

存储器62，用于存储程序；存储器62，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器62中。并且上述的计算机程序、计算机指令、数据等可以被处理器61调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器62中。并且上述的计算机程序、计算机指令、数据等可以被处理器61调用。

处理器61，用于执行存储器62存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器61和存储器62可以是独立结构，也可以是集成在一起的集成结构。当处理器61和存储器62是独立结构时，存储器62、处理器61可以通过总线63耦合连接。

本实施例的服务器60可以执行图3所示方法中的技术方案，其具体实现过程和技术原理参见图3所示方法中的相关描述，此处不再赘述。

本实施例的服务器60，通过接收语音装置发送的视频图像；通过预先加载的图像识别模型识别视频图像，得到文本信息；将文本信息反馈给语音装置。本发明可以通过智能音箱实现任意书本的点读功能，实现过程简单，无需制作专门的点读书本，扩展性强，使得点读的书本内容更加丰富，用户体验佳。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本申请还提供一种程序产品，程序产品包括计算机程序，计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得服务器实施上述本发明实施例任一的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种交互阅读方法，其特征在于，包括：

采集包含书本内容的视频图像；

将所述视频图像发送给服务器；

接收所述服务器反馈的文本信息；

若满足预设的触发条件，则播报所述文本信息。

2.根据权利要求1所述的方法，其特征在于，在采集包含书本内容的视频图像之前，还包括：

接收用户输入的控制信息；

3.根据权利要求1所述的方法，其特征在于，若满足预设的触发条件，则播报所述文本信息，包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，还包括：

5.一种阅读交互方法，其特征在于，包括：

接收语音装置发送的视频图像；

将所述文本信息反馈给所述语音装置。

6.根据权利要求5所述的方法，其特征在于，通过预先加载的图像识别模型识别所述视频图像，得到文本信息，包括：

从所述视频图像中选取任一满足清晰度要求的视频帧；

若所述第一图像识别模型识别失败，则重新接收视频图像；

若所述第二图像识别模型识别失败，则重新接收视频图像；

若所述第三图像识别模型识别失败，则重新接收视频图像；

若所述第四图像识别模型识别失败，则重新接收视频图像。

7.一种交互阅读装置，其特征在于，包括：

采集模块，用于采集包含书本内容的视频图像；

发送模块，用于将所述视频图像发送给服务器；

接收模块，用于接收所述服务器反馈的文本信息；

8.一种交互阅读装置，其特征在于，包括：

接收模块，用于接收语音装置发送的视频图像；

反馈模块，用于将所述文本信息反馈给所述语音装置。

9.一种交互阅读系统，其特征在于，包括语音装置和服务器，所述语音装置和所述服务器通信连接；其中：

所述语音装置包括存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-4所述的交互阅读方法；

所述服务器包括存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求5或6所述的交互阅读方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述的交互阅读方法。