CN113486893A - 一种智能语音伴读方法、装置以及伴读盒 - Google Patents
一种智能语音伴读方法、装置以及伴读盒 Download PDFInfo
- Publication number
- CN113486893A CN113486893A CN202110768009.7A CN202110768009A CN113486893A CN 113486893 A CN113486893 A CN 113486893A CN 202110768009 A CN202110768009 A CN 202110768009A CN 113486893 A CN113486893 A CN 113486893A
- Authority
- CN
- China
- Prior art keywords
- character
- accompanying
- reading
- text
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及计算机技术领域,尤其涉及一种智能语音伴读方法、装置以及伴读盒。所述方法包括:接收伴读开始指令,所述伴读开始指令用于指示伴读者;在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象;获取匹配所述文字对象的所述伴读者的声音信息;根据所述文字指示对象输出所述声音信息。本方案的伴读盒可以实现根据倾听者的时间灵活伴读,且可以自由录入伴读者的声音以供所述倾听者选择,还可以实现根据伴读者指向文字的速度实时伴读。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种智能语音伴读方法、装置以及伴读盒。
背景技术
陪伴式阅读本应是日常生活中孩子教育不可缺失的一个重要阶段,通过父母在孩子身边的陪伴,一字一句的阅读一些有意义的儿童书籍,可以使得孩子们得到心灵的启迪,以及获取亲近的感受体验。同时,对于一些老年人,由于一些身体,视力等原因,无法集中注意力阅读感兴趣的书籍,常常需要家人为其读书,看报等。
随着手机等移动终端的普及以及电子书阅读器的发展,电子书有声伴读越来越受到用户的青睐,电子书可以以一种语音形式转换为有声读物,为用户带来不一样的阅读体验。
然而,现有的方式仅仅是单纯的播放语音,缺少与用户之间的互动,特别用户是儿童时,上述伴读方式难以很好地调动儿童阅读的积极性。
发明内容
本发明实施方式主要解决的技术问题是提供一种智能语音伴读方法、装置以及伴读盒,以提高用户使用体验以及提高儿童的阅读兴趣。
为了解决上述技术问题,本发明实施例提供以下技术方案:
第一方面,本发明实施例提供一种智能语音伴读方法,所述方法包括:
接收伴读开始指令,所述伴读开始指令用于指示伴读者;
在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象;
获取匹配所述文字对象的所述伴读者的声音信息;
根据所述文字指示对象输出所述声音信息。
可选的,所述在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象,包括:
搜索文字指示对象;
在搜索到所述文字指示对象后,获取所述文字指示对象所指示的文字对象。
可选的,所述在搜索到所述文字指示对象后,获取所述文字指示对象所指示的文字对象,包括:
获取所述文字指示对象的目标特征参数;
获取在采集所述文字对象时所述文字指示对象的指示对象特征参数;
根据所述目标特征参数和所述指示对象特征参数,计算偏离度;
获取小于预设阈值的所述偏离度对应的文字指示对象,并获取所述文字指示对象所指示的文字对象。
可选的,所述获取匹配所述文字对象的所述伴读者的声音信息,包括:
检测预设的声音数据库中是否包括与所述文字对象的匹配的所述伴读者的文字声音;
若不包括,则根据所述文字对象查询预设的口音拼音特征库,以判断是否包括完整的拼音;
若包括完整的拼音,则拼读出所述文字对象对应的文字特征口音,并更新文字声音状态。
可选的,所述根据所述文字指示对象输出所述声音信息,包括:
确定摄像单元组的拍摄时序;
根据所述拍摄时序输出所述文字指示对象当前指示的文字的声音信息。
第二方面,本发明实施例还提供一种智能语音伴读装置,所述装置包括:
伴读开始单元,用于接收伴读开始指令,所述伴读开始指令用于指示伴读者;
文字获取单元,用于在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象;
文字-声音匹配单元,用于获取匹配所述文字对象的所述伴读者的声音信息;
声音输出单元,用于根据所述文字指示对象输出所述声音信息。
可选的,所述文字获取单元包括:
文字指示对象锁定子单元,用于搜索文字指示对象;
文字识别子单元,用于在搜索到所述文字指示对象后,获取所述文字指示对象所指示的文字对象。
可选的,所述文字识别子单元具体用于:
获取所述文字指示对象的目标特征参数;
获取在采集所述文字对象时所述文字指示对象的指示对象特征参数;
根据所述目标特征参数和所述指示对象特征参数,计算偏离度;
获取小于预设阈值的所述偏离度对应的文字指示对象,并获取所述文字指示对象所指示的文字对象。
可选的,所述文字-声音匹配单元具体用于:
检测预设的声音数据库中是否包括与所述文字对象的匹配的所述伴读者的文字声音;
若不包括,则根据所述文字对象查询预设的口音拼音特征库,以判断是否包括完整的拼音;
若包括完整的拼音,则拼读出所述文字对象对应的文字特征口音,并更新文字声音状态。
第三方面,本发明实施例还提供一种伴读盒,所述伴读盒包括:
至少一个处理器;以及,
与所述至少一个处理器耦合的摄像单元组;
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够基于所述摄像单元组执行如第一方面所述的方法。
本发明实施方式的有益效果是:
区别于相关技术的情况,本发明实施例提供了一种智能语音伴读方法、装置以及伴读盒。接收伴读开始指令,所述伴读开始指令用于指示伴读者;在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象;获取匹配所述文字对象的所述伴读者的声音信息;根据所述文字指示对象输出所述声音信息。其中,所述在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象,包括:搜索文字指示对象;在搜索到所述文字指示对象后,获取所述文字指示对象所指示的文字对象。可以实现根据倾听者的时间灵活伴读,且可以自由录入伴读者的声音以供所述倾听者选择,还可以实现根据伴读者指向文字的速度实时伴读。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明实施例提供的智能语音伴读方法的流程示意图;
图2是图1中S2的流程示意图;
图3是图2中S22的流程示意图;
图4是本发明实施例提供的智能语音伴读装置的结构示意图;
图5是本发明实施例提供的智能语音伴读盒的结构示意图;
图6是本发明实施例提供的伴读盒的硬件结构示意图;
图7是本发明实施例提供的智能语音伴读系统的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互组合,均在本发明的保护范围之内。另外,虽然在装置示意图中进行了功能模块的划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置示意图中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
本发明实施例提供了一种智能语音伴读系统100,请参阅图7,所述智能语音伴读系统100包括:云服务器10、客户端20以及伴读盒30。以下所述的系统等同于智能语音伴读系统100。
所述伴读盒30用于接收伴读开始指令,所述伴读开始指令用于指示伴读者,在检测到所述倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象,获取匹配所述文字对象的所述伴读者的声音信息,根据所述文字指示对象输出所述声音信息。
请参考图5,所述伴读盒30具体包括控制器301、指纹识别单元302、声音接收单元303、存储单元304、摄像单元305、声音输出单元306、显示单元307、无线连接单元308、电源309以及开关单元3010。
所述控制器301分别与所述伴读盒30中各单元电性连接,用于管理和协调所述伴读盒30的所有单元,使各单元间能够互相配合完成指定的任务,例如可以选用CPU(CentralProcessing Unit中央处理器)、MCU(Microcontroller Unit微控制器,即单片机)或其他具有管理和协调各单元工作的控制器等,其中MCU的成本低、功耗低且功能强大,较为适合所述智能语音伴读系统。所述开关单元3010可以用于开启和关闭本系统,也可以用于切换伴读盒的工作状态,包括录入文字图片状态,显示信息状态,锁定文字指向对象状态或者显示客户端APP下达的交互信息状态等。所述开关单元3010可以是按键开关等各种开关元件,通常与电源309电性连接,配合电源309为整个系统供电,所述电源309可以是指家里的配电箱或者各种电池等。
所述指纹识别单元302用于验证用户信息,所述伴读者或所述倾听者在登陆系统时录入自己的指纹,确认身份信息后登陆系统,系统根据身份信息确定该用户,并将该用户的登陆信息发送至客户端20。在其他一些实施例中可以不是指纹识别单元302,其他能够检验用户身份的单元都可以代替所述指纹识别单元302,包括但不限于人脸识别单元、声音识别单元、身份证识别单元或学生证识别单元等,例如通过人脸识别单元检验用户的身份,用户在登陆系统时进行人脸识别,通过人脸识别单元确认用户的身份,继而进行后续操作。本系统中可以选用指纹识别单元302,是因为指纹识别的操作过程比较简单,相较于身份证识别单元或学生证识别单元来说不需要借助额外证件,相较于人脸识别单元来说不需要进行拍照动作,只需要在指纹识别按钮上录入指纹即可,操作方便,更适合使用。
所述声音接收单元303用于接收用户声音,并识别、验证及分析所述声音。所述声音接收单元303,例如可以是话筒,当倾听者根据范文或者伴读者提供的文字图片来朗读时,所述伴读盒30会通过控制器301控制所述声音接受单元303接收所述倾听者的声音,并将该伴读者的不同文字最新的声音保存覆盖。并且所述声音接收单元303也可用于验证用户身份,同时接收伴读开始指令。
所述摄像单元305用于拍摄伴读者需要倾听者伴读的文字图片,由无线连接单元308连接服务器,以此提取出所述文字图片中的文字。并且,所述摄像单元305还可用于锁定倾听者的文字指向对象,根据所述文字指向对象指向文字的速度确定伴读者声音缓冲区的大小,使得所述倾听者指向文字的速度与所述伴读盒中所述声音输出单元306读出相应文字的速度一致。所述文字指向对象可以是手指、笔或其它可被识别的指向文字的东西。
所述显示单元307用于显示信息,例如显示伴读进程等。所述无线连接单元308用于在伴读盒30和所述智能语音伴读系统的其他模块间建立通信联系,例如可以在伴读盒30与客户端20间建立通信联系,将存储单元304中存储的伴读者声音发送至客户端20等。
所述云服务器10用于根据所述伴读开始指令发送所述伴读任务,并且还用于转发所述伴读任务至所述客户端20。所述云服务器10可以传递和储存所述客户端20和所述伴读盒30发送的信息。例如所述云服务器10接收到倾听者的登录信息后会向客户端20用户反馈所述倾听者的登陆状态,可以通过短信或者APP提示信息告知客户端20用户倾听者准备开始伴读的消息,同时会从伴读盒获取伴读情况并发送到客户端APP,客户端20用户只需要利用客户端APP就能远程掌握倾听者伴读的情况。并且若倾听者在伴读过程中有一些字是伴读者没有读过的,也可通过短信或者APP提示信息告知客户端20用户,请用户读出来补充进声音存储库中。
所述客户端20用于接收并显示伴读过程信息,通过所述云服务器10将所述伴读过程信息反馈至所述伴读盒。所述客户端可以是手机或者电脑等设备,包括设备上安装的APP。客户端20的用户可以接收到倾听者准备开始伴读的消息,可以通过客户端APP获取所述倾听者的伴读过程信息。所述伴读过程信息包括倾听者倾听的时长以及倾听者倾听的文字等信息,所述客户端20和所述伴读盒30之间通过云服务器10建立通信联系。
请参考图1,本发明实施例提供了一种智能语音伴读方法的流程示意图,所述方法包括:
S1、接收伴读开始指令,所述伴读开始指令用于指示伴读者。
在本发明实施例中,接收伴读开始指令之前,还包括:采集所述伴读者的身份特征信息,所述身份特征信息包括头像图片信息、指纹信息以及声音信息,所述头像图片信息、指纹信息以及声音信息与所述伴读者相匹配。其中,所述声音信息由所述伴读者根据提供的范文读出其中的文字得到,所述声音信息包括所述伴读者音色、音量、声调等属性,在伴读过程中,不断更新补充所述伴读者对不同文字读出的声音。需要注意的是,所述伴读者可以有多个,比如有爸爸、妈妈、女儿以及儿子等,倾听者可以通过所述伴读者的头像图片信息指定伴读者。采集所述倾听者的身份特征信息,所述身份特征信息包括头像图片信息、指纹信息以及声音信息,所述头像图片信息、指纹信息以及声音信息与所述倾听者相匹配。其中,所述声音信息是所述倾听者录入的声音口令,用于开始伴读。伴读开始指令可以是所述倾听者发出的声音口令,也可以是所述倾听者输入的伴读开始指令。需要注意的是,所述倾听者也可以有多个。
S2、在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象。
本发明实施例中,所述在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象之前,还包括:获取文字图片,选择对应伴读对象,录入所述文字图片对应文字的所述伴读者的声音。
S3、获取匹配所述文字对象的所述伴读者的声音信息。
获取倾听者的所述文字指向对象所指示的所述文字对象后,伴读盒找到倾听者指定伴读者的对应文字的声音。可选的,所述获取匹配所述文字对象的所述伴读者的声音信息,包括:检测预设的声音数据库中是否包括与所述文字对象的匹配的所述伴读者的文字声音;若不包括,则根据所述文字对象查询预设的口音拼音特征库,以判断是否包括完整的拼音;若包括完整的拼音,则拼读出所述文字对象对应的文字特征口音,并更新文字声音状态。例如,所述倾听者提供的文字对象中有一个字“蕊”,伴读者没有在伴读盒以及云服务器中读出并保存过这个字的声音,那么伴读盒会先使用语音库中的原始声音读出“蕊”字,以完成此次伴读。同时,伴读盒会向伴读者发出提示,并且通过云服务器向客户端发出提示和要求伴读者补充“蕊”字的声音说明,伴读者补充了以后同步更新保存在云服务器和伴读盒中。
S4、根据所述文字指示对象输出所述声音信息。
根据倾听者的所述文字指示对象指向文字对象的情况输出声音,并能够与文字指示对象指向文字的速率保持一致。可选的,所述根据所述文字指示对象输出所述声音信息,包括:确定摄像单元组的拍摄时序;根据所述拍摄时序输出所述文字指示对象当前指示的文字的声音信息。采用错序拍摄方法,例如,若N为3,则第一个摄像头对准所指文字,第二个摄像头对准下一个文字,第三个摄像头对准第三个文字所指范围。当伴读盒读出第一个文字时,则第一个摄像头调整对准范围,指向第四个文字块周围,依次类推。一般地,以文字块矩阵作为摄像头对准范围,该矩阵最小为一行一列,即一个文字大小,最大为整篇文字,即多行多列。一般该矩阵大小由文字拍摄清晰度所决定。由于书本与伴读盒均有可能因外部因素导致倾斜,使得拍摄角度不一定会垂直于文字,因此,采用上述方式,适时调整摄像头的对准方向,并能实时同步获取文字指示对象所指向文字对象的读音。
可选的,请参阅图2,所述在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象,包括:
S21、搜索文字指示对象。
所述伴读盒30的所述摄像单元305捕捉所述倾听者的所述文字指示对象。具体的,摄像单元305拍摄所述文字指示对象,同时获取所述文字指示对象的特征参数、欧式距离、曲率、宽度、高度等参数。有多个疑似文字指示对象时,摄像单元305的多个摄像机得到每个疑似文字指示对象得一组参数,计算与前述采集到的文字指示对象实例的偏离度,设置总体特征参数相似度偏离门限。若门限偏离度总和大于一个特定的值时,则该摄像单元305确认该文字指示对象无法识别,定义为输出为0,若小于总体门限,则输出为1。以此类推,计算每个文字指示单元的识别结果,最终基于投票多数优先原则,得到指示文字对象。
S22、在搜索到所述文字指示对象后,获取所述文字指示对象所指示的文字对象。
锁定所述文字指示对象和所述文字对象能够为后续实时跟读做准备,确保跟读的准确和速度一致。
可选的,请参阅图3,所述在搜索到所述文字指示对象后,获取所述文字指示对象所指示的文字对象,包括:
S221、获取所述文字指示对象的目标特征参数。
具体的,摄像单元305拍摄所述文字指示对象,同时获取所述文字指示对象的特征参数、欧式距离、曲率、宽度、高度等参数。
S222、获取在采集所述文字对象时所述文字指示对象的指示对象特征参数。
S223、根据所述目标特征参数和所述指示对象特征参数,计算偏离度。
有多个疑似文字指示对象时,摄像单元305的多个摄像机得到每个疑似文字指示对象得一组参数,计算与前述采集到的文字指示对象实例的偏离度。
S224、获取小于预设阈值的所述偏离度对应的文字指示对象,并获取所述文字指示对象所指示的文字对象。
设置总体特征参数相似度偏离门限。若门限偏离度总和大于一个特定的值时,则该摄像单元305确认该文字指示对象无法识别,定义为输出为0,若小于总体门限,则输出为1。以此类推,计算每个文字指示单元的识别结果,最终基于投票多数优先原则,得到指示文字对象。
获取并分析文字指示对象以及文字对象的参数信息,实时准确地得到的文字指示对象指向的文字对象,是实时跟读不可缺少的一步。
本发明实施例提供了一种智能语音伴读装置40,可以应用于伴读盒,请参阅图4,所述智能语音伴读装置40包括:
伴读开始单元401,所述伴读开始单元401用于接收伴读开始指令,所述伴读开始指令用于指示伴读者。伴读开始指令可以是所述倾听者发出的声音口令,也可以是所述倾听者输入的伴读开始指令。例如,所述倾听者对伴读盒读出“开始伴读,选择妈妈读书”这样的语句。
文字获取单元402,所述文字获取单元402用于在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象。主要通过伴读盒的摄像单元获取文字。获取的文字也可通过客户端APP呈现给家长或其它伴读者。
文字-声音匹配单元403,所述文字-声音匹配单元403用于获取匹配所述文字对象的所述伴读者的声音信息。取倾听者的所述文字指向对象所指示的所述文字对象后,伴读盒找到倾听者指定伴读者的对应文字的声音。可选的,所述获取匹配所述文字对象的所述伴读者的声音信息,包括:检测预设的声音数据库中是否包括与所述文字对象的匹配的所述伴读者的文字声音;若不包括,则根据所述文字对象查询预设的口音拼音特征库,以判断是否包括完整的拼音;若包括完整的拼音,则拼读出所述文字对象对应的文字特征口音,并更新文字声音状态。例如,所述倾听者提供的文字对象中有一个“蕊”字,伴读者没有在伴读盒以及云服务器中读出并保存过这个字的声音,那么伴读盒会先使用语音库中预存的原始声音读出“蕊”字,以完成此次伴读。同时,伴读盒会向伴读者发出提示,并且通过云服务器向客户端发出提示并要求伴读者补充“蕊”字声音的说明,伴读者补充了以后同步更新保存在云服务器和伴读盒中。
声音输出单元404,所述声音输出单元404用于根据所述文字指示对象输出所述声音信息。根据倾听者的所述文字指示对象指向文字对象的情况输出声音,并能够与文字指示对象指向文字的速率保持一致。可选的,所述根据所述文字指示对象输出所述声音信息,包括:确定摄像单元组的拍摄时序;根据所述拍摄时序输出所述文字指示对象当前指示的文字的声音信息。采用错序拍摄方法,例如,若N为3,则第一个摄像头对准所指文字,第二个摄像头对准下一个文字,第三个摄像头对准第三个文字所指范围。当伴读盒读出第一个文字时,则第一个摄像头调整对准范围,指向第四个文字块周围,依次类推。一般地,以文字块矩阵作为摄像头对准范围,该矩阵最小为一行一列,即一个文字大小,最大为整篇文字,即多行多列。一般该矩阵大小由文字拍摄清晰度所决定。由于书本与伴读盒均有可能因外部因素导致倾斜,使得拍摄角度不一定会垂直于文字,因此,采用上述方式,适时调整摄像头的对准方向,并能实时同步获取文字指示对象所指向文字对象的读音。
可选的,所述文字获取单元包括:文字指示对象锁定子单元,用于搜索文字指示对象,文字识别子单元,用于在搜索到所述文字指示对象后,获取所述文字指示对象所指示的文字对象。摄像单元305拍摄所述文字指示对象,同时获取所述文字指示对象的特征参数、欧式距离、曲率、宽度、高度等参数。有多个疑似文字指示对象时,摄像单元305的多个摄像机得到每个疑似文字指示对象得一组参数,计算与前述采集到的文字指示对象实例的偏离度,设置总体特征参数相似度偏离门限。若门限偏离度总和大于一个特定的值时,则该摄像单元305确认该文字指示对象无法识别,定义为输出为0,若小于总体门限,则输出为1。以此类推,计算每个文字指示单元的识别结果,最终基于投票多数优先原则,得到指示文字对象。
具体的,所述文字识别子单元用于:获取所述文字指示对象的目标特征参数,获取在采集所述文字对象时所述文字指示对象的指示对象特征参数,根据所述目标特征参数和所述指示对象特征参数,计算偏离度,获取小于预设阈值的所述偏离度对应的文字指示对象,并获取所述文字指示对象所指示的文字对象。
具体的,所述文字-声音匹配单元用于:检测预设的声音数据库中是否包括与所述文字对象的匹配的所述伴读者的文字声音;若不包括,则根据所述文字对象查询预设的口音拼音特征库,以判断是否包括完整的拼音;若包括完整的拼音,则拼读出所述文字对象对应的文字特征口音,并更新文字声音状态。
需要说明的是,上述智能语音伴读装置40可执行本发明实施例所提供的智能语音伴读方法,具备执行方法相应的功能模块。未在本智能语音伴读装置实施例中详尽描述的技术细节,可参见本发明实施例所提供的智能语音伴读方法。
本发明实施例提供了一种伴读盒60。请参阅图6,所述伴读盒60包括:至少一个处理器602,图5中以一个处理器602为例;以及,与所述至少一个处理器602耦合的摄像单元组601;与所述至少一个处理器602通信连接的存储器603;
其中,所述存储器603存储有可被所述至少一个处理器602执行的指令,所述指令被所述至少一个处理器602执行,以使所述至少一个处理器602能够基于所述摄像单元组601执行上述实施例中所述的任一方法。
摄像单元组601、处理器602和存储器603可以通过总线或其他方式连接,图6中以通过总线连接为例,存储器603作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的智能语音伴读系统对应的程序指令/模块(例如图5中的模块和单元)。处理器602通过运行存储在存储器603中的非易失性软件程序、指令以及模块,从而执行各种功能应用以及数据处理,即实现上述系统实施例智能语音伴读方法。
存储器603可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据智能语音伴读装置40的使用所创建的数据等。此外,存储器603可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器603可选包括相对于处理器602远程设置的存储器603。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器603中,当被所述一个或者多个处理器602执行时,执行上述任意实施例中的智能语音伴读方法,例如,执行图1、图2和图3中的方法步骤。
上述产品可执行本发明实施例所提供的智能语音伴读方法,具备执行所述智能语音伴读方法相应的功能模块。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的智能语音伴读方法。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种智能语音伴读方法,其特征在于,所述方法包括:
接收伴读开始指令,所述伴读开始指令用于指示伴读者;
在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象;
获取匹配所述文字对象的所述伴读者的声音信息;
根据所述文字指示对象输出所述声音信息。
2.根据权利要求1所述的方法,其特征在于,所述在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象,包括:
搜索文字指示对象;
在搜索到所述文字指示对象后,获取所述文字指示对象所指示的文字对象。
3.根据权利要求2所述的方法,其特征在于,所述在搜索到所述文字指示对象后,获取所述文字指示对象所指示的文字对象,包括:
获取所述文字指示对象的目标特征参数;
获取在采集所述文字对象时所述文字指示对象的指示对象特征参数;
根据所述目标特征参数和所述指示对象特征参数,计算偏离度;
获取小于预设阈值的所述偏离度对应的文字指示对象,并获取所述文字指示对象所指示的文字对象。
4.根据权利要求1所述的方法,其特征在于,所述获取匹配所述文字对象的所述伴读者的声音信息,包括:
检测预设的声音数据库中是否包括与所述文字对象的匹配的所述伴读者的文字声音;
若不包括,则根据所述文字对象查询预设的口音拼音特征库,以判断是否包括完整的拼音;
若包括完整的拼音,则拼读出所述文字对象对应的文字特征口音,并更新文字声音状态。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述文字指示对象输出所述声音信息,包括:
确定摄像单元组的拍摄时序;
根据所述拍摄时序输出所述文字指示对象当前指示的文字的声音信息。
6.一种智能语音伴读装置,其特征在于,所述装置包括:
伴读开始单元,用于接收伴读开始指令,所述伴读开始指令用于指示伴读者;
文字获取单元,用于在检测到倾听者的文字指示对象时,获取所述文字指示对象所指示的文字对象;
文字-声音匹配单元,用于获取匹配所述文字对象的所述伴读者的声音信息;
声音输出单元,用于根据所述文字指示对象输出所述声音信息。
7.根据权利要求6所述的装置,其特征在于,所述文字获取单元包括:
文字指示对象锁定子单元,用于搜索文字指示对象;
文字识别子单元,用于在搜索到所述文字指示对象后,获取所述文字指示对象所指示的文字对象。
8.根据权利要求7所述的装置,其特征在于,所述文字识别子单元具体用于:
获取所述文字指示对象的目标特征参数;
获取在采集所述文字对象时所述文字指示对象的指示对象特征参数;
根据所述目标特征参数和所述指示对象特征参数,计算偏离度;
获取小于预设阈值的所述偏离度对应的文字指示对象,并获取所述文字指示对象所指示的文字对象。
9.根据权利要求6所述的装置,其特征在于,所述文字-声音匹配单元具体用于:
检测预设的声音数据库中是否包括与所述文字对象的匹配的所述伴读者的文字声音;
若不包括,则根据所述文字对象查询预设的口音拼音特征库,以判断是否包括完整的拼音;
若包括完整的拼音,则拼读出所述文字对象对应的文字特征口音,并更新文字声音状态。
10.一种伴读盒,其特征在于,所述伴读盒包括:
至少一个处理器;以及,
与所述至少一个处理器耦合的摄像单元组;
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够基于所述摄像单元组执行权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768009.7A CN113486893A (zh) | 2021-07-07 | 2021-07-07 | 一种智能语音伴读方法、装置以及伴读盒 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768009.7A CN113486893A (zh) | 2021-07-07 | 2021-07-07 | 一种智能语音伴读方法、装置以及伴读盒 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486893A true CN113486893A (zh) | 2021-10-08 |
Family
ID=77941848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110768009.7A Withdrawn CN113486893A (zh) | 2021-07-07 | 2021-07-07 | 一种智能语音伴读方法、装置以及伴读盒 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486893A (zh) |
-
2021
- 2021-07-07 CN CN202110768009.7A patent/CN113486893A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11321583B2 (en) | Image annotating method and electronic device | |
KR102063037B1 (ko) | 신원 인증 방법, 단말기 장치 및 컴퓨터 판독 가능한 저장 매체 | |
CN106971009B (zh) | 语音数据库生成方法及装置、存储介质、电子设备 | |
CN111191067A (zh) | 绘本识别方法、终端设备及计算机可读存储介质 | |
WO2020019591A1 (zh) | 用于生成信息的方法和装置 | |
CN107622246B (zh) | 人脸识别方法及相关产品 | |
CN111143925B (zh) | 图纸标注方法及相关产品 | |
CN107977394B (zh) | 绘本识别方法及电子设备 | |
CN112101123B (zh) | 一种注意力检测方法及装置 | |
CN112132030B (zh) | 视频处理方法及装置、存储介质及电子设备 | |
CN106156794B (zh) | 基于文字风格识别的文字识别方法及装置 | |
CN109583389A (zh) | 绘本识别方法及装置 | |
CN111191207A (zh) | 电子文件的控制方法、装置、计算机设备及存储介质 | |
CN111951629A (zh) | 一种发音纠正系统、方法、介质和计算设备 | |
CN110929555B (zh) | 脸部识别方法与使用此方法的电子装置 | |
CN112612690A (zh) | 一种用户界面信息处理方法、装置、电子设备及存储介质 | |
CN111077992B (zh) | 一种点读方法、电子设备及存储介质 | |
CN109829431B (zh) | 用于生成信息的方法和装置 | |
CN111613100A (zh) | 一种解读绘本方法、装置、电子设备和智能机器人 | |
CN112569591B (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
CN114386013A (zh) | 学籍自动认证方法、装置、计算机设备及存储介质 | |
CN111079501B (zh) | 一种文字识别方法及电子设备 | |
CN113486893A (zh) | 一种智能语音伴读方法、装置以及伴读盒 | |
CN112309389A (zh) | 信息交互方法和装置 | |
CN112560728B (zh) | 目标对象识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211008 |
|
WW01 | Invention patent application withdrawn after publication |