CN110299036A - 交互阅读方法、装置、系统及存储介质 - Google Patents

交互阅读方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN110299036A
CN110299036A CN201910557458.XA CN201910557458A CN110299036A CN 110299036 A CN110299036 A CN 110299036A CN 201910557458 A CN201910557458 A CN 201910557458A CN 110299036 A CN110299036 A CN 110299036A
Authority
CN
China
Prior art keywords
image
video image
text information
recognition model
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910557458.XA
Other languages
English (en)
Inventor
于德鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910557458.XA priority Critical patent/CN110299036A/zh
Publication of CN110299036A publication Critical patent/CN110299036A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/062Combinations of audio and printed presentations, e.g. magnetically striped cards, talking books, magnetic tapes with printed texts thereon
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种交互阅读方法、装置、系统及存储介质,该方法,包括:采集包含书本内容的视频图像;将所述视频图像发送给服务器;接收所述服务器反馈的文本信息;若满足预设的触发条件,则播报所述文本信息。本发明可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。

Description

交互阅读方法、装置、系统及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种交互阅读方法、装置、系统及存储介质。
背景技术
随着多媒体技术的发展,具备语音问答功能的电子产品受到了越来越多儿童的喜爱。
目前,家长可以购买整套的点读书和点读笔来辅助儿童阅读绘本。
但是,上述方式只能通过点读笔和点读书来实现辅助阅读,而制作专门的点读书,过程复杂,成本高;这也使得点读书的内容有限,无法满足用户的需求,用户体验不佳。
发明内容
本发明提供一种交互阅读方法、装置、系统及存储介质,可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
第一方面,本发明实施例提供一种交互阅读方法,包括:
采集包含书本内容的视频图像;
将所述视频图像发送给服务器;
接收所述服务器反馈的文本信息;
若满足预设的触发条件,则播报所述文本信息。
在一种可能的设计中,在采集包含书本内容的视频图像之前,还包括:
接收用户输入的控制信息;
根据所述控制信息,开启阅读模式;所述阅读模式是指开启图像采集器采集视频图像的模式。
在一种可能的设计中,若满足预设的触发条件,则播报所述文本信息,包括:
若在预设的时间段内接收到目标语音信息,或者目标按键信息,则播报所述预设时间段内接收到的所述文本信息。
在一种可能的设计中,还包括:
若在预设的时间段内未接收到目标语音信息,则清除所述预设时间段内接收到的所述文本信息。
第二方面,本发明实施例提供一种交互阅读方法,包括:
接收语音装置发送的视频图像;
通过预先加载的图像识别模型识别所述视频图像,得到文本信息;
将所述文本信息反馈给所述语音装置。
在一种可能的设计中,通过预先加载的图像识别模型识别所述视频图像,得到文本信息,包括:
从所述视频图像中选取任一满足清晰度要求的视频帧;
从所述视频帧中提取图像特征,并将所述图像特征输入第一图像识别模型;
若所述第一图像识别模型输出书名,则将所述图像特征输入第二图像识别模型;
若所述第一图像识别模型识别失败,则重新接收视频图像;
若所述第二图像识别模型输出书本页码,则将所述图像特征输入第三图像识别模型;
若所述第二图像识别模型识别失败,则重新接收视频图像;
若所述第三图像识别模型输出单根手指的位置,则将所述图像特征输入第四图像识别模型;
若所述第三图像识别模型识别失败,则重新接收视频图像;
若所述第四图像识别模型输出手指指示位置,则获取所述手指指示位置对应行的文本信息;
若所述第四图像识别模型识别失败,则重新接收视频图像。
第三方面,本发明实施例提供一种交互阅读装置,包括:
采集模块,用于采集包含书本内容的视频图像;
发送模块,用于将所述视频图像发送给服务器;
接收模块,用于接收所述服务器反馈的文本信息;
播报模块,用于在满足预设的触发条件时,则播报所述文本信息。
在一种可能的设计中,还包括:处理模块,用于:
在采集包含书本内容的视频图像之前,接收用户输入的控制信息;
根据所述控制信息,开启阅读模式;所述阅读模式是指开启图像采集器采集视频图像的模式。
在一种可能的设计中,所述播报模块,具体用于:
若在预设的时间段内接收到目标语音信息,或者目标按键信息,则播报所述预设时间段内接收到的所述文本信息。
在一种可能的设计中,处理模块,还用于:
若在预设的时间段内未接收到目标语音信息,则清除所述预设时间段内接收到的所述文本信息。
第四方面,本发明实施例提供一种交互阅读装置,包括:
接收模块,用于接收语音装置发送的视频图像;
识别模块,用于通过预先加载的图像识别模型识别所述视频图像,得到文本信息;
反馈模块,用于将所述文本信息反馈给所述语音装置。
在一种可能的设计中,所述识别模块,具体用于:
从所述视频图像中选取任一满足清晰度要求的视频帧;
从所述视频帧中提取图像特征,并将所述图像特征输入第一图像识别模型;
若所述第一图像识别模型输出书名,则将所述图像特征输入第二图像识别模型;
若所述第一图像识别模型识别失败,则重新接收视频图像;
若所述第二图像识别模型输出书本页码,则将所述图像特征输入第三图像识别模型;
若所述第二图像识别模型识别失败,则重新接收视频图像;
若所述第三图像识别模型输出单根手指的位置,则将所述图像特征输入第四图像识别模型;
若所述第三图像识别模型识别失败,则重新接收视频图像;
若所述第四图像识别模型输出手指指示位置,则获取所述手指指示位置对应行的文本信息;
若所述第四图像识别模型识别失败,则重新接收视频图像。
第五方面,本发明实施例提供一种交互阅读系统,包括:包括语音装置和服务器,所述语音装置和所述服务器通信连接;其中:
所述语音装置包括存储器和处理器,存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的交互阅读方法;
所述服务器包括存储器和处理器,存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第二方面中任一项所述的交互阅读方法。
第六方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述的交互阅读方法。
第七方面,本发明实施例提供一种程序产品,所述程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,服务器的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得服务器执行第一方面中任一所述的交互阅读方法。
本发明提供一种交互阅读方法、装置、系统及存储介质,通过采集包含书本内容的视频图像;将所述视频图像发送给服务器;接收所述服务器反馈的文本信息;若满足预设的触发条件,则播报所述文本信息。本发明可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一应用场景的原理示意图;
图2为本发明实施例一提供的交互阅读方法的流程图;
图3为本发明实施例二提供的交互阅读方法的流程图;
图4为本发明实施例三提供的交互阅读方法的流程图;
图5为本发明实施例四提供的交互阅读装置的结构示意图;
图6为本发明实施例五提供的交互阅读装置的结构示意图;
图7为本发明实施例六提供的交互阅读系统的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
随着多媒体技术的发展,具备语音问答功能的电子产品受到了越来越多儿童的喜爱。目前,家长可以购买整套的点读书和点读笔来辅助儿童阅读绘本。但是,上述方式只能通过点读笔和点读书来实现辅助阅读,而制作专门的点读书,过程复杂,成本高;这也使得点读书的内容有限,无法满足用户的需求,用户体验不佳。
针对上述技术问题,本发明提供一种交互阅读方法,可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。本发明提供的方法,可以应用于智能音箱、或者是其他具备摄像头和语音功能的设备。具备摄像头的音箱,可以赋予更多的AI能力,将儿童读绘本这件事,做的体验更好,帮助儿童更好的阅读,也解放家长,最终提高产品销量,品牌和口碑。图1为本发明一应用场景的原理示意图,如图1所示,语音装置10可以通过自带的摄像头采集包含书本内容的视频。例如,采用拍照或者录像等模式,采集书本上的内容。可选地,在采集包含书本内容的视频图像之前,还包括:接收用户输入的控制信息;根据控制信息,开启阅读模式;阅读模式是指开启图像采集器采集视频图像的模式。输入的控制信息可以是用户通过按键或者语音命令等形式生成的。例如,儿童在读绘本时,手指点到的位置,说一句“小度小度,进入阅读模式”,智能音箱进行语音识别,进入阅读模式。然后,语音装置10将视频图像发送给后台服务器20。后台服务器20在接收语音装置10发送的视频图像之后,通过预先加载的图像识别模型识别视频图像,得到文本信息。后台服务器20可以过预先加载的图像识别模型直接识别视频图像上的文字或者图案,得到对应的文本信息。例如,将视频图像上的文字进行逐个识别,得到文本信息。可选地,后台服务器20可以从视频图像中选取任一满足清晰度要求的视频帧;从视频帧中提取图像特征,并将图像特征输入第一图像识别模型;若第一图像识别模型输出书名,则将图像特征输入第二图像识别模型;若第一图像识别模型识别失败,则重新接收视频图像;若第二图像识别模型输出书本页码,则将图像特征输入第三图像识别模型;若第二图像识别模型识别失败,则重新接收视频图像;若第三图像识别模型输出单根手指的位置,则将图像特征输入第四图像识别模型;若第三图像识别模型识别失败,则重新接收视频图像;若第四图像识别模型输出手指指示位置,则获取手指指甲对应行的文本信息;若第四图像识别模型识别失败,则重新接收视频图像。然后,后台服务器20将文本信息反馈给语音装置10。语音装置10在接收后台服务器20反馈的文本信息之后,若满足预设的触发条件,则播报文本信息。
需要说明的是,本实施例中后台服务器可以接收多个语音装置上传的视频图像,并将识别后的文本信息反馈给对应的语音装置。
应用上述方法通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图2为本发明实施例一提供的交互阅读方法的流程图,如图2所示,本实施例中的方法可以包括:
S101、采集包含书本内容的视频图像。
本实施例中,随着多媒体技术的发展,具备语音问答功能的电子产品受到了越来越多儿童的喜爱。智能音箱、或者是其他具备摄像头和语音功能的设备通过本发明提供的方法,可以赋予更多的AI能力,实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,从而将儿童读绘本这件事做的体验更好,帮助儿童更好的阅读,也解放家长。本实施例,以智能音箱为例进行具体说明,其他设备同样适用。首先,通过智能音箱自带的摄像头采集包含书本内容的视频。例如,采用拍照或者录像等模式,采集书本上的内容。
可选地,在采集包含书本内容的视频图像之前,还包括:接收用户输入的控制信息;根据控制信息,开启阅读模式;阅读模式是指开启图像采集器采集视频图像的模式。
具体地,智能音箱可以接收用户输入的控制信息,进入阅读模式。输入的控制信息可以是用户通过按键或者语音命令等形式生成的。例如,儿童在读绘本时,手指点到的位置,说一句“小度小度,进入阅读模式”,智能音箱进行语音识别,进入阅读模式。
S102、将视频图像发送给服务器。
本实施例中,在采集到视频图像之后,将视频图像发送给服务器,由服务器对视频图像进行识别。
S103、接收服务器反馈的文本信息。
本实施例中,可以接收服务器反馈文本信息。反馈的文本信息就是服务器识别出的视频图像上的内容。
S104、若满足预设的触发条件,则播报文本信息。
本实施例中,若在预设的时间段内接收到目标语音信息,或者目标按键信息,则播报预设时间段内接收到的文本信息。可选地,若在预设的时间段内未接收到目标语音信息,则清除预设时间段内接收到的文本信息。例如,智能音箱接收到反馈文本信息后,通过语音“已成功识别文本,是否阅读”提醒用户做出触发。儿童可以回答“小度小度,阅读文本”,从而触发智能音箱播报文本信息。
本实施例,通过采集包含书本内容的视频图像;将视频图像发送给服务器;接收服务器反馈的文本信息;若满足预设的触发条件,则播报文本信息。本发明可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
图3为本发明实施例二提供的交互阅读方法的流程图,如图3所示,本实施例中的方法可以包括:
S201、接收语音装置发送的视频图像。
本实施例中,服务器可以接收语音装置发送的视频图像。然后,通过对视频图像进行处理,识别出对应的文本信息。
S202、通过预先加载的图像识别模型识别视频图像,得到文本信息。
本实施例中,服务器可以过预先加载的图像识别模型直接识别视频图像上的文字或者图案,得到对应的文本信息。例如,将视频图像上的文字进行逐个识别,得到文本信息。
可选地,服务器从视频图像中选取任一满足清晰度要求的视频帧;从视频帧中提取图像特征,并将图像特征输入第一图像识别模型;若第一图像识别模型输出书名,则将图像特征输入第二图像识别模型;若第一图像识别模型识别失败,则重新接收视频图像;若第二图像识别模型输出书本页码,则将图像特征输入第三图像识别模型;若第二图像识别模型识别失败,则重新接收视频图像;若第三图像识别模型输出单根手指的位置,则将图像特征输入第四图像识别模型;若第三图像识别模型识别失败,则重新接收视频图像;若第四图像识别模型输出手指指示位置,则获取手指指示位置对应行的文本信息;若第四图像识别模型识别失败,则重新接收视频图像。
需要说明的是,本实施例不限定手指指示位置的判定方法。例如可以通过确定手指指甲的位置来确定手指指示位置,或者是通过确定手指末端的位置来确定手指指示的位置。
具体地,服务器通过视频图像的图像识别模型,依次识别出书名、书本当前页码、用户手指,以及用户手指甲位置对应的文本信息;若上述任何一步识别失败,则继续接收AI音箱上传的视频图像;直到成功识别出用户手指甲位置对应的文本信息。本实施例中的图像识别模型包括:第一图像识别模型、第二图像识别模型、第三图像识别模型、第四图像识别模型。其中,第一图像识别模型用于识别书名,第二图像识别模型用于识别书本页码,第三图像识别模型用于识别手指的位置,第四图像识别模型用于识别手指指示位置。从而可以在视频图像上进行精确地定位,提高识别精度,提升用户体验。可以将识别的结果与后台数据库比对,查找对应的内容。
S203、将文本信息反馈给语音装置。
本实施例中,在得到文本信息之后,服务器可以将文本信息反馈给语音装置。
本实施例,通过接收语音装置发送的视频图像;通过预先加载的图像识别模型识别视频图像,得到文本信息;将文本信息反馈给语音装置。本发明可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
图4为本发明实施例三提供的交互阅读方法的流程图,如图4所示,本实施例中的方法可以包括:
S301、采集包含书本内容的视频图像。
S302、将视频图像发送给服务器。
S303、接收语音装置发送的视频图像。
S304、通过预先加载的图像识别模型识别视频图像,得到文本信息。
S305、将文本信息反馈给语音装置。
S306、接收服务器反馈的文本信息。
S307、若满足预设的触发条件,则播报文本信息。
本实施例中,步骤S301~步骤S302的具体实现过程和技术原理请参见图2所示的方法中步骤S101~步骤S102中的相关描述,此处不再赘述。
本实施例中,步骤S303~步骤S305的具体实现过程和技术原理请参见图3所示的方法中步骤S201~步骤S203中的相关描述,此处不再赘述。
本实施例中,步骤S306~步骤S307的具体实现过程和技术原理请参见图2所示的方法中步骤S103~步骤S104中的相关描述,此处不再赘述。
本实施例,通过采集包含书本内容的视频图像;将视频图像发送给服务器;接收服务器反馈的文本信息;若满足预设的触发条件,则播报文本信息。本发明可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
图5为本发明实施例四提供的交互阅读装置的结构示意图,如图5所示,本实施例的交互阅读装置可以包括:
采集模块31,用于采集包含书本内容的视频图像;
发送模块32,用于将视频图像发送给服务器;
接收模块33,用于接收服务器反馈的文本信息;
播报模块34,用于在满足预设的触发条件时,则播报文本信息。
在一种可能的设计中,还包括:处理模块35,用于:
在采集包含书本内容的视频图像之前,接收用户输入的控制信息;
根据控制信息,开启阅读模式;阅读模式是指开启图像采集器采集视频图像的模式。
在一种可能的设计中,播报模块34,具体用于:
若在预设的时间段内接收到目标语音信息,或者目标按键信息,则播报预设时间段内接收到的文本信息。
在一种可能的设计中,处理模块35,还用于:
若在预设的时间段内未接收到目标语音信息,则清除预设时间段内接收到的文本信息。
本实施例的交互阅读装置,可以执行图2所示方法中的技术方案,其具体实现过程和技术原理参见图2所示方法中的相关描述,此处不再赘述。
本实施例,通过采集包含书本内容的视频图像;将视频图像发送给服务器;接收服务器反馈的文本信息;若满足预设的触发条件,则播报文本信息。本发明可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
图6为本发明实施例五提供的交互阅读装置的结构示意图,如图6所示,本实施例的交互阅读装置可以包括:
接收模块41,用于接收语音装置发送的视频图像;
识别模块42,用于通过预先加载的图像识别模型识别视频图像,得到文本信息;
反馈模块43,用于将文本信息反馈给语音装置。
在一种可能的设计中,识别模块42,具体用于:
从视频图像中选取任一满足清晰度要求的视频帧;
从视频帧中提取图像特征,并将图像特征输入第一图像识别模型;
若第一图像识别模型输出书名,则将图像特征输入第二图像识别模型;
若第一图像识别模型识别失败,则重新接收视频图像;
若第二图像识别模型输出书本页码,则将图像特征输入第三图像识别模型;
若第二图像识别模型识别失败,则重新接收视频图像;
若第三图像识别模型输出单根手指的位置,则将图像特征输入第四图像识别模型;
若第三图像识别模型识别失败,则重新接收视频图像;
若第四图像识别模型输出手指指示位置,则获取手指指示位置对应行的文本信息;
若第四图像识别模型识别失败,则重新接收视频图像。
本实施例的交互阅读装置,可以执行图3所示方法中的技术方案,其具体实现过程和技术原理参见图3所示方法中的相关描述,此处不再赘述。
本实施例,通过接收语音装置发送的视频图像;通过预先加载的图像识别模型识别视频图像,得到文本信息;将文本信息反馈给语音装置。本发明可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
图7为本发明实施例六提供的交互阅读系统的结构示意图,如图7所示,本实施例的交互阅读系统可以包括:语音装置50和服务器60,语音装置50和服务器60通信连接;其中:
语音装置50可以包括:处理器51和存储器52。
存储器52,用于存储程序;存储器52,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器52用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器52中。并且上述的计算机程序、计算机指令、数据等可以被处理器51调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器52中。并且上述的计算机程序、计算机指令、数据等可以被处理器51调用。
处理器51,用于执行存储器52存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
具体可以参见前面方法实施例中的相关描述。
处理器51和存储器52可以是独立结构,也可以是集成在一起的集成结构。当处理器51和存储器52是独立结构时,存储器52、处理器51可以通过总线53耦合连接。
本实施例的语音装置50可以执行图2所示方法中的技术方案,其具体实现过程和技术原理参见图2所示方法中的相关描述,此处不再赘述。
本实施例的语音装置50,通过采集包含书本内容的视频图像;将视频图像发送给服务器;接收服务器反馈的文本信息;若满足预设的触发条件,则播报文本信息。本发明可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
服务器60可以包括:处理器61和存储器62。
存储器62,用于存储程序;存储器62,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器62中。并且上述的计算机程序、计算机指令、数据等可以被处理器61调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器62中。并且上述的计算机程序、计算机指令、数据等可以被处理器61调用。
处理器61,用于执行存储器62存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
具体可以参见前面方法实施例中的相关描述。
处理器61和存储器62可以是独立结构,也可以是集成在一起的集成结构。当处理器61和存储器62是独立结构时,存储器62、处理器61可以通过总线63耦合连接。
本实施例的服务器60可以执行图3所示方法中的技术方案,其具体实现过程和技术原理参见图3所示方法中的相关描述,此处不再赘述。
本实施例的服务器60,通过接收语音装置发送的视频图像;通过预先加载的图像识别模型识别视频图像,得到文本信息;将文本信息反馈给语音装置。本发明可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当用户设备的至少一个处理器执行该计算机执行指令时,用户设备执行上述各种可能的方法。
本实施例,通过采集包含书本内容的视频图像;将视频图像发送给服务器;接收服务器反馈的文本信息;若满足预设的触发条件,则播报文本信息。本发明可以通过智能音箱实现任意书本的点读功能,实现过程简单,无需制作专门的点读书本,扩展性强,使得点读的书本内容更加丰富,用户体验佳。
其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
本申请还提供一种程序产品,程序产品包括计算机程序,计算机程序存储在可读存储介质中,服务器的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得服务器实施上述本发明实施例任一的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种交互阅读方法,其特征在于,包括:
采集包含书本内容的视频图像;
将所述视频图像发送给服务器;
接收所述服务器反馈的文本信息;
若满足预设的触发条件,则播报所述文本信息。
2.根据权利要求1所述的方法,其特征在于,在采集包含书本内容的视频图像之前,还包括:
接收用户输入的控制信息;
根据所述控制信息,开启阅读模式;所述阅读模式是指开启图像采集器采集视频图像的模式。
3.根据权利要求1所述的方法,其特征在于,若满足预设的触发条件,则播报所述文本信息,包括:
若在预设的时间段内接收到目标语音信息,或者目标按键信息,则播报所述预设时间段内接收到的所述文本信息。
4.根据权利要求1-3中任一项所述的方法,其特征在于,还包括:
若在预设的时间段内未接收到目标语音信息,则清除所述预设时间段内接收到的所述文本信息。
5.一种阅读交互方法,其特征在于,包括:
接收语音装置发送的视频图像;
通过预先加载的图像识别模型识别所述视频图像,得到文本信息;
将所述文本信息反馈给所述语音装置。
6.根据权利要求5所述的方法,其特征在于,通过预先加载的图像识别模型识别所述视频图像,得到文本信息,包括:
从所述视频图像中选取任一满足清晰度要求的视频帧;
从所述视频帧中提取图像特征,并将所述图像特征输入第一图像识别模型;
若所述第一图像识别模型输出书名,则将所述图像特征输入第二图像识别模型;
若所述第一图像识别模型识别失败,则重新接收视频图像;
若所述第二图像识别模型输出书本页码,则将所述图像特征输入第三图像识别模型;
若所述第二图像识别模型识别失败,则重新接收视频图像;
若所述第三图像识别模型输出单根手指的位置,则将所述图像特征输入第四图像识别模型;
若所述第三图像识别模型识别失败,则重新接收视频图像;
若所述第四图像识别模型输出手指指示位置,则获取所述手指指示位置对应行的文本信息;
若所述第四图像识别模型识别失败,则重新接收视频图像。
7.一种交互阅读装置,其特征在于,包括:
采集模块,用于采集包含书本内容的视频图像;
发送模块,用于将所述视频图像发送给服务器;
接收模块,用于接收所述服务器反馈的文本信息;
播报模块,用于在满足预设的触发条件时,则播报所述文本信息。
8.一种交互阅读装置,其特征在于,包括:
接收模块,用于接收语音装置发送的视频图像;
识别模块,用于通过预先加载的图像识别模型识别所述视频图像,得到文本信息;
反馈模块,用于将所述文本信息反馈给所述语音装置。
9.一种交互阅读系统,其特征在于,包括语音装置和服务器,所述语音装置和所述服务器通信连接;其中:
所述语音装置包括存储器和处理器,存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-4所述的交互阅读方法;
所述服务器包括存储器和处理器,存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求5或6所述的交互阅读方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的交互阅读方法。
CN201910557458.XA 2019-06-25 2019-06-25 交互阅读方法、装置、系统及存储介质 Pending CN110299036A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910557458.XA CN110299036A (zh) 2019-06-25 2019-06-25 交互阅读方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910557458.XA CN110299036A (zh) 2019-06-25 2019-06-25 交互阅读方法、装置、系统及存储介质

Publications (1)

Publication Number Publication Date
CN110299036A true CN110299036A (zh) 2019-10-01

Family

ID=68028765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910557458.XA Pending CN110299036A (zh) 2019-06-25 2019-06-25 交互阅读方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN110299036A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179128A (zh) * 2019-10-29 2020-05-19 广东小天才科技有限公司 一种信息播放方法、音箱设备及存储介质
CN111182407A (zh) * 2019-10-18 2020-05-19 广东小天才科技有限公司 一种智能音箱的送风控制方法、智能音箱及存储介质
CN112306449A (zh) * 2020-03-02 2021-02-02 北京字节跳动网络技术有限公司 用于输出信息的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578004A (zh) * 2017-08-30 2018-01-12 苏州清睿教育科技股份有限公司 基于图像识别和语音交互的学习方法及系统
CN107748645A (zh) * 2017-09-27 2018-03-02 努比亚技术有限公司 点读方法、移动终端及计算机可读存储介质
CN108037882A (zh) * 2017-11-29 2018-05-15 佛山市因诺威特科技有限公司 一种点读方法及系统
CN109166367A (zh) * 2018-09-30 2019-01-08 与德科技有限公司 一种点读笔
CN109255346A (zh) * 2018-08-31 2019-01-22 深圳闳宸科技有限公司 点读方法、装置及电子设备
CN109710748A (zh) * 2019-01-17 2019-05-03 北京光年无限科技有限公司 一种面向智能机器人的绘本阅读交互方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578004A (zh) * 2017-08-30 2018-01-12 苏州清睿教育科技股份有限公司 基于图像识别和语音交互的学习方法及系统
CN107748645A (zh) * 2017-09-27 2018-03-02 努比亚技术有限公司 点读方法、移动终端及计算机可读存储介质
CN108037882A (zh) * 2017-11-29 2018-05-15 佛山市因诺威特科技有限公司 一种点读方法及系统
CN109255346A (zh) * 2018-08-31 2019-01-22 深圳闳宸科技有限公司 点读方法、装置及电子设备
CN109166367A (zh) * 2018-09-30 2019-01-08 与德科技有限公司 一种点读笔
CN109710748A (zh) * 2019-01-17 2019-05-03 北京光年无限科技有限公司 一种面向智能机器人的绘本阅读交互方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182407A (zh) * 2019-10-18 2020-05-19 广东小天才科技有限公司 一种智能音箱的送风控制方法、智能音箱及存储介质
CN111182407B (zh) * 2019-10-18 2021-12-21 广东小天才科技有限公司 一种智能音箱的送风控制方法、智能音箱及存储介质
CN111179128A (zh) * 2019-10-29 2020-05-19 广东小天才科技有限公司 一种信息播放方法、音箱设备及存储介质
CN112306449A (zh) * 2020-03-02 2021-02-02 北京字节跳动网络技术有限公司 用于输出信息的方法和装置

Similar Documents

Publication Publication Date Title
JP6799574B2 (ja) 音声対話の満足度の確定方法及び装置
US11151892B2 (en) Internet teaching platform-based following teaching system
US9396758B2 (en) Semi-automatic generation of multimedia content
CN110299036A (zh) 交互阅读方法、装置、系统及存储介质
CN110377716A (zh) 对话的交互方法、装置及计算机可读存储介质
CN107316521A (zh) 一种智能型英语教学系统
CN111161739B (zh) 语音识别方法及相关产品
CN110085261A (zh) 一种发音纠正方法、装置、设备以及计算机可读存储介质
CN104980790A (zh) 语音字幕的生成和装置、播放方法和装置
CN108460124A (zh) 基于图形识别的交互方法及电子设备
CN109979450A (zh) 信息处理方法、装置及电子设备
CN108470188A (zh) 基于图像分析的交互方法及电子设备
CN105354285B (zh) 嵌入搜索引擎中的知识搜索方法、装置以及搜索引擎
CN113779345B (zh) 一种教学材料生成方法、装置、计算机设备和存储介质
CN109815311A (zh) 一种可识别普通书籍的点读方法及系统
CN110222282A (zh) 数据处理方法、装置、服务器及存储介质
CN112055257B (zh) 视频课堂的互动方法、装置、设备及存储介质
CN110347379B (zh) 组合型众包题目的处理方法、装置及存储介质
CN113099267B (zh) 视频生成方法、装置、电子设备及存储介质
KR101705228B1 (ko) 전자문서생성장치 및 그 동작 방법
JP3930402B2 (ja) オンライン教育システム、情報処理装置、情報提供方法及びプログラム
KR20190070682A (ko) 강의 콘텐츠 구성 및 제공을 위한 시스템 및 방법
Cox et al. Archiving the Databody: Human and Nonhuman Agency in the Documents of Erkki Kurenniemi
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210518

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191001