CN109634416A - 一种听写报读的智能控制方法及终端设备 - Google Patents
一种听写报读的智能控制方法及终端设备 Download PDFInfo
- Publication number
- CN109634416A CN109634416A CN201811514996.2A CN201811514996A CN109634416A CN 109634416 A CN109634416 A CN 109634416A CN 201811514996 A CN201811514996 A CN 201811514996A CN 109634416 A CN109634416 A CN 109634416A
- Authority
- CN
- China
- Prior art keywords
- cell
- terminal device
- enter
- user
- focus position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 105
- 210000001508 eye Anatomy 0.000 claims abstract description 91
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 claims abstract description 67
- 210000003128 head Anatomy 0.000 claims description 72
- 230000004438 eyesight Effects 0.000 claims description 38
- 210000005252 bulbus oculi Anatomy 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 2
- 230000036544 posture Effects 0.000 description 28
- 230000015654 memory Effects 0.000 description 21
- 230000033001 locomotion Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 244000078534 Vaccinium myrtillus Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 235000017848 Rubus fruticosus Nutrition 0.000 description 1
- 235000003095 Vaccinium corymbosum Nutrition 0.000 description 1
- 235000017537 Vaccinium myrtillus Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 235000021029 blackberry Nutrition 0.000 description 1
- 235000021014 blueberries Nutrition 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/065—Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例涉及终端设备技术领域,公开了一种听写报读的智能控制方法及终端设备,该方法包括:在终端设备报读完当前听写单元后,控制内置于所述终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置;当所述聚焦点位置位于所述终端设备的屏幕上时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元;当所述聚焦点位置没有位于所述终端设备的屏幕上时,控制重复报读所述当前听写单元;实施本发明实施例,用于实现智能化的听写报读功能,提高听写效率,带来更好的听写使用体验。
Description
技术领域
本发明涉及终端设备技术领域,具体涉及一种听写报读的智能控制方法及终端设备。
背景技术
市面上的听写类应用程序(Application,APP)能够辅助学生完成听写练习,其中听写APP主要完成听写内容的报读。在实际使用听写APP进行听写报读时发现,如果学生提前完成了当前听写单元的听写,需要手动点击听写APP上的“下一个”按钮,以切换到下一个听写单元,这种需要手动的操作方式比较繁琐,直接影响听写效率。
发明内容
本发明实施例公开了一种听写报读的智能控制方法及终端设备,用于提供智能的听写报读,提高学生的听写效率。
本发明第一方面公开了一种听写报读的智能控制方法,可包括:
在终端设备报读完当前听写单元后,控制内置于所述终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置;
当所述聚焦点位置位于所述终端设备的屏幕上时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元;
当所述聚焦点位置没有位于所述终端设备的屏幕上时,控制重复报读所述当前听写单元。
作为一种可选的实施方式,在本发明第一方面中,当所述聚焦点位置没有位于所述终端设备的屏幕上时,以及所述控制重复报读所述当前听写单元之前,所述方法还包括:
控制内置于所述终端设备的摄像头拍摄用户的坐姿视频图像;
通过图像识别技术识别所述坐姿视频图像中用户头部是否处于用于表示用户在书写所述当前听写单元的低垂状态;
当识别到所述坐姿视频图像中用户头部处于所述低垂状态时,基于所述坐姿视频图像检测所述用户头部处于所述低垂状态的持续时长;
当所述聚焦点位置没有位于所述终端设备的屏幕上且所述持续时长大于或等于第一预设时长时,执行所述控制重复报读所述当前听写单元的步骤。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
当所述聚焦点位置没有位于所述终端设备的屏幕上时,检测用户手持的书写笔的顶部发光体发射的光线,并根据所述光线识别所述终端设备与所述书写笔的空间距离;
根据所述空间距离判断所述书写笔是否处于移动状态;
当判断出所述书写笔处于移动状态时,确定用户手持所述书写笔处于书写所述当前听写单元的书写状态;
所述当所述聚焦点位置没有位于所述终端设备的屏幕上且所述持续时长大于或等于第一预设时长时,控制重复报读所述当前听写单元,包括:
当所述聚焦点位置没有位于所述终端设备的屏幕上、所述持续时长大于或等于第一预设时长且所述书写笔处于移动状态时,控制重复报读所述当前听写单元。
作为一种可选的实施方式,在本发明第一方面中,当所述聚焦点位置位于所述终端设备的屏幕上时,以及所述获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元之前,所述方法还包括:
检测用户眼睛在所述聚焦点位置上的停留时长是否大于或等于第二预设时长;
当所述聚焦点位置位于所述终端设备的屏幕上且所述停留时长大于或者等于所述第二预设时长时,执行所述获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元的步骤。
作为一种可选的实施方式,在本发明第一方面中,所述在终端设备报读完当前听写单元后,控制内置于所述终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置,包括:
在终端设备报读完当前听写单元后,控制内置于所述终端设备的摄像头采集用户的头部图像,利用预设的人眼视线估计模型分析所述头部图像,以获得用户眼睛的聚焦点位置;
所述方法还包括:
在终端设备报读所述当前听写单元之前,采集海量终端设备样本拍摄的人体头部图像样本;
基于人脸关键点定位算法确定所述人体头部图像样本中的关键点位置,其中,所述关键点位置包括左眼睛中心点、右眼睛中心点、鼻尖、嘴巴左角点以及嘴巴右角点;
以所述关键点位置为依据,对所述人体头部图像样本进行剪裁得到左眼图像、右眼图像、脸部图像,并确定所述脸部图像在所述人体头部图像样本中的位置信息;
根据所述左眼图像、所述右眼图像、所述位置信息与人眼视线方向之间的映射关系,得到人眼视线聚焦点的位置坐标;
以所述左眼图像、所述右眼图像、所述脸部图像、所述位置信息以及所述位置信息相对于所述终端设备样本前置摄像头位置的物理坐标作为输入量,以所述人眼视线聚焦点的位置坐标作为输出量,采用卷积神经网络对所述输入量与所述输出量进行训练,得到所述人眼视线估计模型。
本发明第二方面公开了一种终端设备,可包括:聚焦检测单元和报读单元;
所述聚焦检测单元,用于在所述报读单元报读完当前听写单元后,控制内置于所述终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置;
所述报读单元,用于当所述聚焦检测单元检测到所述聚焦点位置位于所述终端设备的屏幕上时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元;
所述报读单元,还用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上时,控制重复报读所述当前听写单元。
作为一种可选的实施方式,在本发明第二方面中,所述终端设备还包括:
姿态检测单元,用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上时,以及所述报读单元控制重复报读所述当前听写单元之前,控制内置于所述终端设备的摄像头拍摄用户的坐姿视频图像;以及,通过图像识别技术识别所述坐姿视频图像中用户头部是否处于用于表示用户在书写听写单元的低垂状态;以及,当识别到所述坐姿视频图像中用户头部处于所述低垂状态时,基于所述坐姿视频图像检测所述用户头部处于所述低垂状态的持续时长;
所述报读单元用于当所述聚焦点位置没有位于所述终端设备的屏幕上时,控制重复报读所述当前听写单元的方式具体为:
所述报读单元,用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上且所述持续时长大于或等于第一预设时长时,控制重复报读所述当前听写单元。
作为一种可选的实施方式,在本发明第二方面中,所述终端设备还包括:
状态检测单元,用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上时,检测用户手持的书写笔的顶部发光体发射的光线,并根据所述光线识别所述终端设备与所述书写笔的空间距离;以及,根据所述空间距离判断所述书写笔是否处于移动状态;以及,当判断出所述书写笔处于移动状态时,确定用户手持所述书写笔处于书写所述当前听写单元的书写状态;
所述报读单元用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上且所述持续时长大于或等于第一预设时长时,控制重复报读所述当前听写单元的方式具体为:
所述报读单元,用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上、所述持续时长大于或等于第一预设时长且所述书写笔处于移动状态时,控制重复报读所述当前听写单元。
作为一种可选的实施方式,在本发明第二方面中,所述终端设备还包括:
停留检测单元,用于当所述聚焦检测单元检测到所述聚焦点位置位于所述终端设备的屏幕上时,以及所述报读单元获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元之前,检测用户眼睛在所述聚焦点位置上的停留时长是否大于或等于第二预设时长;
所述报读单元用于当所述聚焦检测单元检测到所述聚焦点位置位于所述终端设备的屏幕上时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元的方式具体为:
所述报读单元,用于当所述聚焦检测单元检测到所述聚焦点位置位于所述终端设备的屏幕且所述停留检测单元检测到所述停留时长大于或者等于所述第二预设时长时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元。
作为一种可选的实施方式,在本发明第二方面中,所述聚焦检测单元用于在所述报读单元报读完当前听写单元后,控制内置于所述终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置的方式具体为:
所述聚焦检测单元,用于在所述报读单元报读完当前听写单元后,控制内置于所述终端设备的摄像头采集用户的头部图像,利用预设的人眼视线估计模型分析所述头部图像,以获得用户眼睛的聚焦点位置;
所述终端设备还包括:
训练单元,用于在所述报读单元报读所述当前听写单元之前,采集海量终端设备样本拍摄的人体头部图像样本;以及,基于人脸关键点定位算法确定所述人体头部图像样本中的关键点位置,其中,所述关键点位置包括左眼睛中心点、右眼睛中心点、鼻尖、嘴巴左角点以及嘴巴右角点;以及,以所述关键点位置为依据,对所述人体头部图像样本进行剪裁得到左眼图像、右眼图像、脸部图像,并确定所述脸部图像在所述人体头部图像样本中的位置信息;以及,根据所述左眼图像、所述右眼图像、所述位置信息与人眼视线方向之间的映射关系,得到人眼视线聚焦点的位置坐标;以及,以所述左眼图像、所述右眼图像、所述脸部图像、所述位置信息以及所述位置信息相对于所述终端设备样本前置摄像头位置的物理坐标作为输入量,以所述人眼视线聚焦点的位置坐标作为输出量,采用卷积神经网络对所述输入量与所述输出量进行训练,得到所述人眼视线估计模型。
本发明实施例第三方面公开了一种终端设备,可包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的一种听写报读的智能控制方法。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种听写报读的智能控制方法。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
在本发明实施例中,通过终端设备报读听写单元,而在终端设备报读完当前听写单元之后,通过内置的眼睛聚焦检测装置检测用户眼睛的聚焦点位置,在聚焦点位置位于终端设备的屏幕上时,说明用户已经书写完当前听写单元,然后获取当前听写单元的下一个听写单元,控制该下一个听写单元,而在聚焦点位置没有位于终端设备的屏幕上时,说明用户还在书写当前听写单元,重复报读当前听写单元;可以看出,实施本发明实施例,可以实现终端设备听写报读的智能控制,摒弃传统技术中需要手动操作终端设备完成听写报读而存在的操作繁琐且听写效率低下的问题,提高用户的听写效率,为用户在听写时带来更加舒适的使用体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例公开的听写报读的智能控制方法的流程示意图;
图2为本发明另一实施例公开的听写报读的智能控制方法的流程示意图;
图3为本发明一实施例公开的终端设备的结构示意图;
图4为本发明另一实施例公开的终端设备的结构示意图;
图5为本发明又一实施例公开的终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”及“第二”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种听写报读的智能控制方法,用于实现智能化的听写报读功能,提高听写效率,带来更好的听写使用体验。
本发明实施例涉及的终端设备包括但不仅限于家教机、智能手机、平板电脑等,本发明实施例不做限定。其中,终端设备的操作系统可包括但不限于Android操作系统、IOS操作系统、Symbian(塞班)操作系统、Black Berry(黑莓)操作系统、Windows Phone8操作系统等等,本发明实施例不做限定。下面将从终端设备的角度出发,结合具体实施例对本发明技术方案进行详细介绍。
实施例一
请参阅图1,图1为本发明一实施例公开的听写报读的智能控制方法的流程示意图;如图1所示,该听写报读的智能控制方法可包括:
101、终端设备在报读完当前听写单元后,控制内置的眼睛聚焦检测装置检测用户眼睛的聚焦点位置。
其中,听写单元可以是单字、词语、成语或句子等,即被作为一个可以单独进行听写且具有完整意思的单元。
可以理解,在用户需要进行听写练习时,可以采用终端设备进行听写辅助,通过终端设备完成对听写单元的报读,然后用户利用书写笔(铅笔、钢笔、圆珠笔等)在作业本或者纸张上将终端设备报读的听写单元书写下来。
进一步可以理解,在终端设备中内置有眼睛聚焦检测装置,眼睛聚焦检测装置在硬件上可包括摄像头,在软件上还可以包括终端设备预先存储的人眼视线估计模型,能够用于检测用户眼睛的聚焦点位置。
进一步可以理解,终端设备在检测到用户输入的报读开始指令后,开始进入报读流程,获取首个需要报读的听写单元,作为当前听写单元并开始报读,在报读的过程中,在报读完当前听写单元之后,获取下一个听写单元,下一个听写单元作为当前听写单元。
102、当上述聚焦点位置位于终端设备的屏幕上时,终端设备获取当前听写单元的下一个听写单元,并控制报读该下一个听写单元。
其中,根据实际听写应用场景,用户在书写听写单元时,会低头进行书写,在书写出来该听写单元之后,会下意识地抬头看向报读者(在本发明实施例中报读者为终端设备),以便听清下一个听写单元,进而在本发明实施例中利用用户在看向终端设备,将视线聚焦在终端设备的屏幕上时,作为触发获取下一个听写单元并控制报读下一个听写单元的触发条件,并且所获取的下一个听写单元将作为当前听写单元。
作为一种可选的实施方式,在聚焦点位置位于终端设备的屏幕上时,终端设备控制摄像头采集用户的手部动作,当该手部动作为预设动作时,比如双指比出数字“2”,则确定接收到用户输入的用于重复报读第二个听写单元,则标记当前听写单元,并获取第二个听写单元并再次报读该第二个听写单元,并在报读第二听写单元之后定位回到当前听写单元,并获取该当前听写单元的下一个听写单元作为当前听写单元并报读。通过该实施方式,用户可以通过手部动作控制终端设备重新报读已经报读过的某一个听写单元。
可选地,终端设备获取当前听写单元的下一个听写单元,并控制报读该下一个听写单元之前还可以包括:终端设备判断当前听写单元是否为所要听写的所有听写单元中的最后一个听写单元,如果是最后一个听写单元,则输出听写结束的提示信息;如果不是最后一个听写单元,则执行获取当前听写单元的下一个听写单元,并控制报读该下一个听写单元的步骤。
103、当上述聚焦点位置没有位于终端设备的屏幕上时,终端设备控制重复报读上述当前听写单元。
当用户的视线没有聚焦在终端设备的屏幕上时,可以默认为用户还没有书写完当前听写单元,可以重复报读当前听写单元,以便用户能够再次确认听写单元。
作为一种可选的实施方式,上述步骤101中在终端设备报读完当前听写单元后,控制内置于终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置可以包括:
在终端设备报读完当前听写单元后,控制内置于终端设备的摄像头采集用户的头部图像,利用预设的人眼视线估计模型分析头部图像,以获得用户眼睛的聚焦点位置。在该实施方式中,可以利用深度学习算法建立人眼视线估计模型,基于在听写过程中所拍摄得到的用户的头部图像进行分析,来获得准确的用户眼睛的聚焦点位置。
进一步可选地,上述人眼视线估计模型可以通过以下方式获取得到:
在终端设备报读当前听写单元之前,采集海量终端设备样本拍摄的人体头部图像样本;
基于人脸关键点定位算法确定人体头部图像样本中的关键点位置,其中,上述关键点位置包括左眼睛中心点、右眼睛中心点、鼻尖、嘴巴左角点以及嘴巴右角点;
以上述关键点位置为依据,对人体头部图像样本进行剪裁得到左眼图像、右眼图像及脸部图像,并确定脸部图像在人体头部图像样本中的位置信息;
根据左眼图像、右眼图像、位置信息与人眼视线方向之间的映射关系,得到人眼视线聚焦点的位置坐标;
以左眼图像、右眼图像、脸部图像、位置信息以及位置信息相对于终端设备样本前置摄像头位置的物理坐标作为输入量,以人眼视线聚焦点的位置坐标作为输出量,采用卷积神经网络对输入量与输出量进行训练,得到上述人眼视线估计模型。
在上述人眼视线估计模型的训练中,利用深度学习算法,能够建立比较有价值的人眼视线估计模型,以用于准确检测用户眼睛的聚焦点位置,以进行终端设备听写报读的智能控制。
作为一种可选的实施方式,当上述聚焦点位置没有位于终端设备的屏幕上时,终端设备接收与其绑定且被佩戴于用户用于手持书写笔的手部的手环发送的手臂动作,当该手臂动作表示该书写笔处于移动状态时,控制重复报读上述当前听写单元。
在本发明实施例中,通过终端设备报读听写单元,而在终端设备报读完当前听写单元之后,通过内置的眼睛聚焦检测装置检测用户眼睛的聚焦点位置,在聚焦点位置位于终端设备的屏幕上时,说明用户已经书写完当前听写单元,然后获取当前听写单元的下一个听写单元,控制该下一个听写单元,而在聚焦点位置没有位于终端设备的屏幕上时,说明用户还在书写当前听写单元,重复报读当前听写单元;可以看出,实施本发明实施例,可以实现终端设备听写报读的智能控制,摒弃传统技术中需要手动操作终端设备完成听写报读而存在的操作繁琐且听写效率低下的问题,提高用户的听写效率,为用户在听写时带来更加舒适的使用体验。
实施例二
请参阅图2,图2为本发明另一实施例公开的听写报读的智能控制方法的流程示意图;如图2所示,该听写报读的智能控制方法可包括:
201、终端设备在报读完当前听写单元后,控制内置的眼睛聚焦检测装置检测用户眼睛的聚焦点位置。
其中,当上述聚焦点位置位于终端设备的屏幕上时,转向执行步骤202至203;当上述聚焦点位置没有位于终端设备的屏幕上时,转向执行步骤204-208。
202、当上述聚焦点位置位于终端设备的屏幕上时,终端设备检测用户眼睛在聚焦点位置上的停留时长是否大于或等于第二预设时长。
其中,当停留时长大于或者等于第二预设时长时,转向步骤203;当停留时长小于第二预设时长时,可以是用户视线暂时扫过终端设备的屏幕,或者用户还未听清楚当前听写单元,习惯性地看向终端设备以期待获得再次的报读,因此,在本发明实施例中,在停留时长小于第二预设时长时,可以转向步骤208。
作为一种可选的实施方式,当停留时长大于或者等于第二预设时长时,进一步控制摄像头采集用户的头部动作,当用户的头部动作表示点头时,确定用户已经完成当前听写单元的书写,希望进入下一个听写单元的听写,进而终端设备获取下一个听写单元作为当前听写单元,并进行报读。
更进一步地,当用户的头部动作指示出用户连续发生N次表示点头的动作时,确定出用户已经完成当前听写单元的书写,希望进入下一个听写单元的听写,进而终端设备获取下一个听写单元作为当前听写单元,并进行报读。
通过上述实施方式,能够通过用户眼睛在聚焦点位置上的停留时长及用户的头部动作来准确确定出用户希望进入下一个听写单元的听写,以便终端设备实现根据用户的一些神态及动作来智能控制听写报读,提高听写效率。
作为另一种可选的实施方式,当停留时长大于或者等于第二预设时长时,进一步控制摄像头采集用户的头部动作,当用户的头部动作表示摇头时,转向步骤208。
203、终端设备获取当前听写单元的下一个听写单元,并控制报读该下一个听写单元。
204、当聚焦点位置没有位于终端设备的屏幕上时,终端设备控制内置于终端设备的摄像头拍摄用户的坐姿视频图像。
205、终端设备通过图像识别技术识别该坐姿视频图像中用户头部是否处于用于表示用户在书写当前听写单元的低垂状态。
其中,在用户眼睛的聚焦点位置不在终端设备的屏幕上时,进一步拍摄用户的坐姿视频图像,通过坐姿视频图像确定用户头部是否处于书写的低垂状态。可以理解,用户在书写时,头部都会稍微低垂,此时一般而言,无法采集到用户眼睛的聚集点位置,由于用户眼睛未注视在终端设备的屏幕上,此时聚焦点位置可以默认定义为默认值,即表示用户眼睛的聚焦点不在屏幕上,即终端设备无法获取到用户眼睛的聚焦点时,默认将用户眼睛的聚焦点位置设置为默认值。
在本发明实施例中,通过采集用户的坐姿视频图像,根据坐姿视频图像对用户的坐姿进行检测,即对头部姿态进行检测,当处于低垂状态时,表示用户还在书写当前听写单元,转向步骤206。
因此可以理解,当识别到坐姿视频图像中用户头部处于低垂状态时,转向步骤206;当识别到坐姿视频图像中用户头部未处于低垂状态时,在本发明实施例中,可能是用户看向终端设备屏幕、作业本或者纸张之外的地方,此时默认认为用户在思考,可以转向执行步骤208。
206、终端设备基于坐姿视频图像检测用户头部处于低垂状态的持续时长。
在本发明实施例中,可以进一步通过用户头部处于低垂状态的持续时长来判断是否需要重复报读当前听写单元。
207、终端设备判断持续时长是否大于或等于第一预设时长。其中,在持续时长大于或等于第一预设时长时,转向步骤208,在持续时长小于第一预设时长时,可以转向步骤201,进一步检测用户眼睛的聚焦点位置,在本发明实施例对应的图2中未示出该分支。
208、终端设备控制重复报读当前听写单元。
作为一种可选的实施方式,当聚焦点位置没有位于终端设备的屏幕上时,本发明实施例中的终端设备还可以检测用户手持的书写笔的顶部发光体发射的光线,并根据光线识别终端设备与书写笔的空间距离;以及,根据该空间距离判断书写笔是否处于移动状态;以及,当判断出书写笔处于移动状态时,确定用户手持书写笔处于书写当前听写单元的书写状态。在该实施方式中,可以在用户的书写笔的顶部套上用于发射光线的发光体,用户在书写的过程中,由于书写笔按压在作业本或者纸张上,触发该发光体发射出光线,然后终端设备可以检测该光线,以基于该光线来识别终端设备与书写笔的空间距离,通过空间距离来判断书写笔是否处于移动状态。
进一步地,为了不分散用户的注意力,在本发明实施例中,书写笔顶部发光体发射的光线可以是用户肉眼无法识别的颜色。在一些可选的实施方式中,书写笔顶部的发光体中还可以内置有光线检测装置,通过该光线检测装置检测外部环境光线,以获得外部环境光线的亮度值,并控制发光体中的发射装置发射出与该亮度值相同亮度的光线。
可选地,终端设备检测用户手持的书写笔的顶部发光体发射的光线,并根据光线识别终端设备与书写笔的空间距离可以通过以下方式实现:终端设备检测用户手持的书写笔的顶部发光体发射的光线,在检测到该光线时,以发射出该光线的位置为依据,向该书写笔发射超声波信号,并接收到该书写笔返回的响应信号,根据发射超声波信号的时间点以及接收到该响应信号的时间点,计算信号传输时间,然后根据超声波信号的传输速度计算得到终端设备与书写笔之间的空间距离。
根据上述分析,当聚焦点位置没有位于终端设备的屏幕上且持续时长大于或等于第一预设时长时,控制重复报读所述当前听写单元可以包括:
当聚焦点位置没有位于终端设备的屏幕上、持续时长大于或等于第一预设时长且书写笔处于移动状态时,控制重复报读当前听写单元。通过该实施方式,可以进一步判断用户是否处于书写状态来重复报读,以提高听写效果。
在上述实施例中,在用户眼睛的聚焦点位置不在终端设备的屏幕上时,可以进一步判断用户头部的状态,在处于用户表示在书写中的低垂状态时,重复报读,以提高听写效果,而且终端设备可以根据用户的一些姿态来实现报读的智能控制,提高听写效率。
实施例三
请参阅图3,图3为本发明一实施例公开的终端设备的结构示意图;如图3所示,该终端设备可包括:聚焦检测单元310和报读单元320。
其中,上述聚焦检测单元310,用于在报读单元320报读完当前听写单元后,控制内置于终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置;
上述报读单元320,用于当聚焦检测单元310检测到聚焦点位置位于终端设备的屏幕上时,获取当前听写单元的下一个听写单元,并控制报读下一个听写单元;
上述报读单元320,还用于当聚焦检测单元310检测到聚焦点位置没有位于终端设备的屏幕上时,控制重复报读当前听写单元。
作为一种可选的实施方式,在聚焦点位置位于终端设备的屏幕上时,上述报读单元320控制摄像头采集用户的手部动作,当该手部动作为预设动作时,比如双指比出数字“2”,则确定接收到用户输入的用于重复报读第二个听写单元,则标记当前听写单元,并获取第二个听写单元并再次报读该第二个听写单元,并在报读第二听写单元之后定位回到当前听写单元,并获取该当前听写单元的下一个听写单元作为当前听写单元并报读。通过该实施方式,用户可以通过手部动作控制终端设备重新报读已经报读过的某一个听写单元。
可选地,上述报读单元320用于获取当前听写单元的下一个听写单元,并控制报读该下一个听写单元之前还可以包括:报读单元320用于判断当前听写单元是否为所要听写的所有听写单元中的最后一个听写单元,如果是最后一个听写单元,则输出听写结束的提示信息;如果不是最后一个听写单元,则执行获取当前听写单元的下一个听写单元,并控制报读该下一个听写单元的步骤。
作为一种可选的实施方式,当上述聚焦点位置没有位于终端设备的屏幕上时,上述报读单元320接收与终端设备绑定且被佩戴于用户用于手持书写笔的手部的手环发送的手臂动作,当该手臂动作表示该书写笔处于移动状态时,控制重复报读上述当前听写单元。
在本发明实施例中,通过终端设备报读听写单元,而在终端设备报读完当前听写单元之后,通过内置的眼睛聚焦检测装置检测用户眼睛的聚焦点位置,在聚焦点位置位于终端设备的屏幕上时,说明用户已经书写完当前听写单元,然后获取当前听写单元的下一个听写单元,控制该下一个听写单元,而在聚焦点位置没有位于终端设备的屏幕上时,说明用户还在书写当前听写单元,重复报读当前听写单元;可以看出,实施本发明实施例,可以实现终端设备听写报读的智能控制,摒弃传统技术中需要手动操作终端设备完成听写报读而存在的操作繁琐且听写效率低下的问题,提高用户的听写效率,为用户在听写时带来更加舒适的使用体验。
实施例四
请参阅图4,图4为本发明另一实施例公开的终端设备的结构示意图;图4所示的终端设备是在图3所示的终端设备的基础上进行优化得到的,在图4所示的终端设备中,还包括:
姿态检测单元410,用于当聚焦检测单元310检测到聚焦点位置没有位于终端设备的屏幕上时,以及上述报读单元320控制重复报读当前听写单元之前,控制内置于终端设备的摄像头拍摄用户的坐姿视频图像;以及,通过图像识别技术识别坐姿视频图像中用户头部是否处于用于表示用户在书写听写单元的低垂状态;以及,当识别到坐姿视频图像中用户头部处于低垂状态时,基于坐姿视频图像检测用户头部处于所述低垂状态的持续时长;
进而,上述报读单元320用于当聚焦点位置没有位于终端设备的屏幕上时,控制重复报读当前听写单元的方式具体为:
上述报读单元320,用于当聚焦检测单元310检测到聚焦点位置没有位于终端设备的屏幕上且持续时长大于或等于第一预设时长时,控制重复报读当前听写单元。
进一步可选地,结合图4,该终端设备还包括:
状态检测单元420,用于当上述聚焦检测单元310检测到聚焦点位置没有位于终端设备的屏幕上时,检测用户手持的书写笔的顶部发光体发射的光线,并根据光线识别终端设备与书写笔的空间距离;以及,根据空间距离判断书写笔是否处于移动状态;以及,当判断出书写笔处于移动状态时,确定用户手持书写笔处于书写当前听写单元的书写状态;
上述报读单元320用于当聚焦检测单元310检测到聚焦点位置没有位于终端设备的屏幕上且持续时长大于或等于第一预设时长时,控制重复报读所述当前听写单元的方式具体为:
上述报读单元320,用于当聚焦检测单元310检测到聚焦点位置没有位于终端设备的屏幕上、该持续时长大于或等于第一预设时长且书写笔处于移动状态时,控制重复报读当前听写单元。在该实施方式中,可以在用户的书写笔的顶部套上用于发射光线的发光体,用户在书写的过程中,由于书写笔按压在作业本或者纸张上,触发该发光体发射出光线,然后终端设备可以检测该光线,以基于该光线来识别终端设备与书写笔的空间距离,通过空间距离来判断书写笔是否处于移动状态。
进一步地,为了不分散用户的注意力,在本发明实施例中,书写笔顶部发光体发射的光线可以是用户肉眼无法识别的颜色。在一些可选的实施方式中,书写笔顶部的发光体中还可以内置有光线检测装置,通过该光线检测装置检测外部环境光线,以获得外部环境光线的亮度值,并控制发光体中的发射装置发射出与该亮度值相同亮度的光线。
可选地,状态检测单元420检测用户手持的书写笔的顶部发光体发射的光线,并根据光线识别终端设备与书写笔的空间距离可以通过以下方式实现:状态检测单元420检测用户手持的书写笔的顶部发光体发射的光线,在检测到该光线时,以发射出该光线的位置为依据,向该书写笔发射超声波信号,并接收到该书写笔返回的响应信号,根据发射超声波信号的时间点以及接收到该响应信号的时间点,计算时间,然后超声波信号的传输速度计算得到终端设备与书写笔之间的空间距离。
再进一步可选地,结合图4,上述终端设备还包括:
停留检测单元430,用于当聚焦检测单元310检测到聚焦点位置位于终端设备的屏幕上时,以及报读单元320获取当前听写单元的下一个听写单元,并控制报读下一个听写单元之前,检测用户眼睛在聚焦点位置上的停留时长是否大于或等于第二预设时长;
上述报读单元320用于当聚焦检测单元310检测到聚焦点位置位于终端设备的屏幕上时,获取当前听写单元的下一个听写单元,并控制报读下一个听写单元的方式具体为:
上述报读单元320,用于当聚焦检测单元310检测到聚焦点位置位于终端设备的屏幕且停留检测单元430检测到停留时长大于或者等于第二预设时长时,获取当前听写单元的下一个听写单元,并控制报读下一个听写单元。
作为一种可选的实施方式,当停留时长大于或者等于第二预设时长时,聚焦检测单元310进一步控制摄像头采集用户的头部动作,当用户的头部动作表示点头时,确定用户已经完成当前听写单元的书写,希望进入下一个听写单元的听写,进而报读单元320获取下一个听写单元作为当前听写单元,并进行报读。
更进一步地,当用户的头部动作指示出用户连续发生N次表示点头的动作时,确定出用户已经完成当前听写单元的书写,希望进入下一个听写单元的听写,进而报读单元320获取下一个听写单元作为当前听写单元,并进行报读。
通过上述实施方式,能够通过用户眼睛在聚焦点位置上的停留时长及用户的头部动作来准确确定出用户希望进入下一个听写单元的听写,以便终端设备实现根据用户的一些神态及动作来智能控制听写报读,提高听写效率。
作为另一种可选的实施方式,当停留时长大于或者等于第二预设时长时,聚焦检测单元310进一步控制摄像头采集用户的头部动作,当用户的头部动作表示摇头时,报读单元320重复报读当前听写单元。
作为一种可选的实施方式,上述终端设备还可以包括:聚焦检测单元310用于在报读单元320报读完当前听写单元后,控制内置于终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置的方式具体为:
上述聚焦检测单元310,用于在报读单元320报读完当前听写单元后,控制内置于终端设备的摄像头采集用户的头部图像,利用预设的人眼视线估计模型分析头部图像,以获得用户眼睛的聚焦点位置;
进而,进一步结合图4,上述终端设备还包括:
训练单元440,用于在报读单元320报读当前听写单元之前,采集海量终端设备样本拍摄的人体头部图像样本;以及,基于人脸关键点定位算法确定人体头部图像样本中的关键点位置,其中,该关键点位置包括左眼睛中心点、右眼睛中心点、鼻尖、嘴巴左角点以及嘴巴右角点;以及,以关键点位置为依据,对人体头部图像样本进行剪裁得到左眼图像、右眼图像、脸部图像,并确定脸部图像在人体头部图像样本中的位置信息;以及,根据左眼图像、右眼图像、位置信息与人眼视线方向之间的映射关系,得到人眼视线聚焦点的位置坐标;以及,以左眼图像、右眼图像、脸部图像、位置信息以及位置信息相对于终端设备样本前置摄像头位置的物理坐标作为输入量,以人眼视线聚焦点的位置坐标作为输出量,采用卷积神经网络对输入量与所述输出量进行训练,得到所述人眼视线估计模型。
实施例五
请参阅图5,图5为本发明又一实施例公开的终端设备的结构示意图;图5所示的终端设备可包括:至少一个处理器510,例如CPU,通信总线530用于实现这些组件之间的通信连接。存储器520可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器520可选的还可以是至少一个位于远离前述处理器510的存储装置。其中,处理器510可以结合图3至图4所描述的终端设备,存储器510中存储一组程序代码,且处理器510调用存储器520中存储的程序代码,用于执行以下操作:
在终端设备报读完当前听写单元后,控制内置于所述终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置;
当所述聚焦点位置位于所述终端设备的屏幕上时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元;
当所述聚焦点位置没有位于所述终端设备的屏幕上时,控制重复报读所述当前听写单元。
可选地,上述处理器510还用于执行以下操作:
当所述聚焦点位置没有位于所述终端设备的屏幕上时,控制内置于所述终端设备的摄像头拍摄用户的坐姿视频图像;
通过图像识别技术识别所述坐姿视频图像中用户头部是否处于用于表示用户在书写所述当前听写单元的低垂状态;
当识别到所述坐姿视频图像中用户头部处于所述低垂状态时,基于所述坐姿视频图像检测所述用户头部处于所述低垂状态的持续时长;
当所述持续时长大于或等于第一预设时长时,控制重复报读所述当前听写单元。
可选地,上述处理器510还用于执行以下操作:
当所述聚焦点位置没有位于所述终端设备的屏幕上时,检测用户手持的书写笔的顶部发光体发射的光线,并根据所述光线识别所述终端设备与所述书写笔的空间距离;
根据所述空间距离判断所述书写笔是否处于移动状态;
当判断出所述书写笔处于移动状态时,确定用户手持所述书写笔处于书写所述当前听写单元的书写状态;
当所述持续时长大于或等于第一预设时长且所述书写笔处于移动状态时,控制重复报读所述当前听写单元。
可选地,上述处理器510还用于执行以下操作:
当所述聚焦点位置位于所述终端设备的屏幕上时,检测用户眼睛在所述聚焦点位置上的停留时长是否大于或等于第二预设时长;
当所述停留时长大于或者等于所述第二预设时长时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元。
可选地,上述处理器510还用于执行以下操作:
在终端设备报读完当前听写单元后,控制内置于所述终端设备的摄像头采集用户的头部图像,利用预设的人眼视线估计模型分析所述头部图像,以获得用户眼睛的聚焦点位置;
进而,在终端设备报读所述当前听写单元之前,采集海量终端设备样本拍摄的人体头部图像样本;
基于人脸关键点定位算法确定所述人体头部图像样本中的关键点位置,其中,所述关键点位置包括左眼睛中心点、右眼睛中心点、鼻尖、嘴巴左角点以及嘴巴右角点;
以所述关键点位置为依据,对所述人体头部图像样本进行剪裁得到左眼图像、右眼图像、脸部图像,并确定所述脸部图像在所述人体头部图像样本中的位置信息;
根据所述左眼图像、所述右眼图像、所述位置信息与人眼视线方向之间的映射关系,得到人眼视线聚焦点的位置坐标;
以所述左眼图像、所述右眼图像、所述脸部图像、所述位置信息以及所述位置信息相对于所述终端设备样本前置摄像头位置的物理坐标作为输入量,以所述人眼视线聚焦点的位置坐标作为输出量,采用卷积神经网络对所述输入量与所述输出量进行训练,得到所述人眼视线估计模型。
本发明实施例还公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行图1至图2公开的一种听写报读的智能控制方法。
本发明实施例还公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行图1至图2公开的任意一种方法的部分或全部步骤。
本发明实施例还公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行图1至图2公开的任意一种方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种听写报读的智能控制方法及终端设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种听写报读的智能控制方法,其特征在于,包括:
在终端设备报读完当前听写单元后,控制内置于所述终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置;
当所述聚焦点位置位于所述终端设备的屏幕上时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元;
当所述聚焦点位置没有位于所述终端设备的屏幕上时,控制重复报读所述当前听写单元。
2.根据权利要求1所述的方法,其特征在于,当所述聚焦点位置没有位于所述终端设备的屏幕上时,以及所述控制重复报读所述当前听写单元之前,所述方法还包括:
控制内置于所述终端设备的摄像头拍摄用户的坐姿视频图像;
通过图像识别技术识别所述坐姿视频图像中用户头部是否处于用于表示用户在书写所述当前听写单元的低垂状态;
当识别到所述坐姿视频图像中用户头部处于所述低垂状态时,基于所述坐姿视频图像检测所述用户头部处于所述低垂状态的持续时长;
当所述聚焦点位置没有位于所述终端设备的屏幕上且所述持续时长大于或等于第一预设时长时,执行所述控制重复报读所述当前听写单元的步骤。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述聚焦点位置没有位于所述终端设备的屏幕上时,检测用户手持的书写笔的顶部发光体发射的光线,并根据所述光线识别所述终端设备与所述书写笔的空间距离;
根据所述空间距离判断所述书写笔是否处于移动状态;
当判断出所述书写笔处于移动状态时,确定用户手持所述书写笔处于书写所述当前听写单元的书写状态;
所述当所述聚焦点位置没有位于所述终端设备的屏幕上且所述持续时长大于或等于第一预设时长时,控制重复报读所述当前听写单元,包括:
当所述聚焦点位置没有位于所述终端设备的屏幕上、所述持续时长大于或等于第一预设时长且所述书写笔处于移动状态时,控制重复报读所述当前听写单元。
4.根据权利要求1至3任一项所述的方法,其特征在于,当所述聚焦点位置位于所述终端设备的屏幕上时,以及所述获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元之前,所述方法还包括:
检测用户眼睛在所述聚焦点位置上的停留时长是否大于或等于第二预设时长;
当所述聚焦点位置位于所述终端设备的屏幕上且所述停留时长大于或者等于所述第二预设时长时,执行所述获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元的步骤。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述在终端设备报读完当前听写单元后,控制内置于所述终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置,包括:
在终端设备报读完当前听写单元后,控制内置于所述终端设备的摄像头采集用户的头部图像,利用预设的人眼视线估计模型分析所述头部图像,以获得用户眼睛的聚焦点位置;
所述方法还包括:
在终端设备报读所述当前听写单元之前,采集海量终端设备样本拍摄的人体头部图像样本;
基于人脸关键点定位算法确定所述人体头部图像样本中的关键点位置,其中,所述关键点位置包括左眼睛中心点、右眼睛中心点、鼻尖、嘴巴左角点以及嘴巴右角点;
以所述关键点位置为依据,对所述人体头部图像样本进行剪裁得到左眼图像、右眼图像、脸部图像,并确定所述脸部图像在所述人体头部图像样本中的位置信息;
根据所述左眼图像、所述右眼图像、所述位置信息与人眼视线方向之间的映射关系,得到人眼视线聚焦点的位置坐标;
以所述左眼图像、所述右眼图像、所述脸部图像、所述位置信息以及所述位置信息相对于所述终端设备样本前置摄像头位置的物理坐标作为输入量,以所述人眼视线聚焦点的位置坐标作为输出量,采用卷积神经网络对所述输入量与所述输出量进行训练,得到所述人眼视线估计模型。
6.一种终端设备,其特征在于,包括:聚焦检测单元和报读单元;
所述聚焦检测单元,用于在所述报读单元报读完当前听写单元后,控制内置于所述终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置;
所述报读单元,用于当所述聚焦检测单元检测到所述聚焦点位置位于所述终端设备的屏幕上时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元;
所述报读单元,还用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上时,控制重复报读所述当前听写单元。
7.根据权利要求6所述的终端设备,其特征在于,所述终端设备还包括:
姿态检测单元,用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上时,以及所述报读单元控制重复报读所述当前听写单元之前,控制内置于所述终端设备的摄像头拍摄用户的坐姿视频图像;以及,通过图像识别技术识别所述坐姿视频图像中用户头部是否处于用于表示用户在书写听写单元的低垂状态;以及,当识别到所述坐姿视频图像中用户头部处于所述低垂状态时,基于所述坐姿视频图像检测所述用户头部处于所述低垂状态的持续时长;
所述报读单元用于当所述聚焦点位置没有位于所述终端设备的屏幕上时,控制重复报读所述当前听写单元的方式具体为:
所述报读单元,用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上且所述持续时长大于或等于第一预设时长时,控制重复报读所述当前听写单元。
8.根据权利要求7所述的终端设备,其特征在于,所述终端设备还包括:
状态检测单元,用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上时,检测用户手持的书写笔的顶部发光体发射的光线,并根据所述光线识别所述终端设备与所述书写笔的空间距离;以及,根据所述空间距离判断所述书写笔是否处于移动状态;以及,当判断出所述书写笔处于移动状态时,确定用户手持所述书写笔处于书写所述当前听写单元的书写状态;
所述报读单元用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上且所述持续时长大于或等于第一预设时长时,控制重复报读所述当前听写单元的方式具体为:
所述报读单元,用于当所述聚焦检测单元检测到所述聚焦点位置没有位于所述终端设备的屏幕上、所述持续时长大于或等于第一预设时长且所述书写笔处于移动状态时,控制重复报读所述当前听写单元。
9.根据权利要求6至8任一项所述的终端设备,其特征在于,所述终端设备还包括:
停留检测单元,用于当所述聚焦检测单元检测到所述聚焦点位置位于所述终端设备的屏幕上时,以及所述报读单元获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元之前,检测用户眼睛在所述聚焦点位置上的停留时长是否大于或等于第二预设时长;
所述报读单元用于当所述聚焦检测单元检测到所述聚焦点位置位于所述终端设备的屏幕上时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元的方式具体为:
所述报读单元,用于当所述聚焦检测单元检测到所述聚焦点位置位于所述终端设备的屏幕且所述停留检测单元检测到所述停留时长大于或者等于所述第二预设时长时,获取所述当前听写单元的下一个听写单元,并控制报读所述下一个听写单元。
10.根据权利要求6至9任一项所述的终端设备,其特征在于,所述聚焦检测单元用于在所述报读单元报读完当前听写单元后,控制内置于所述终端设备的眼睛聚焦检测装置检测用户眼睛的聚焦点位置的方式具体为:
所述聚焦检测单元,用于在所述报读单元报读完当前听写单元后,控制内置于所述终端设备的摄像头采集用户的头部图像,利用预设的人眼视线估计模型分析所述头部图像,以获得用户眼睛的聚焦点位置;
所述终端设备还包括:
训练单元,用于在所述报读单元报读所述当前听写单元之前,采集海量终端设备样本拍摄的人体头部图像样本;以及,基于人脸关键点定位算法确定所述人体头部图像样本中的关键点位置,其中,所述关键点位置包括左眼睛中心点、右眼睛中心点、鼻尖、嘴巴左角点以及嘴巴右角点;以及,以所述关键点位置为依据,对所述人体头部图像样本进行剪裁得到左眼图像、右眼图像、脸部图像,并确定所述脸部图像在所述人体头部图像样本中的位置信息;以及,根据所述左眼图像、所述右眼图像、所述位置信息与人眼视线方向之间的映射关系,得到人眼视线聚焦点的位置坐标;以及,以所述左眼图像、所述右眼图像、所述脸部图像、所述位置信息以及所述位置信息相对于所述终端设备样本前置摄像头位置的物理坐标作为输入量,以所述人眼视线聚焦点的位置坐标作为输出量,采用卷积神经网络对所述输入量与所述输出量进行训练,得到所述人眼视线估计模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811514996.2A CN109634416A (zh) | 2018-12-12 | 2018-12-12 | 一种听写报读的智能控制方法及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811514996.2A CN109634416A (zh) | 2018-12-12 | 2018-12-12 | 一种听写报读的智能控制方法及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109634416A true CN109634416A (zh) | 2019-04-16 |
Family
ID=66072940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811514996.2A Pending CN109634416A (zh) | 2018-12-12 | 2018-12-12 | 一种听写报读的智能控制方法及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109634416A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027317A (zh) * | 2019-04-28 | 2020-04-17 | 广东小天才科技有限公司 | 一种听写报读进度的控制方法及电子设备 |
CN111046220A (zh) * | 2019-04-29 | 2020-04-21 | 广东小天才科技有限公司 | 一种听写过程中的报读语音的重播方法及电子设备 |
CN111078098A (zh) * | 2019-05-10 | 2020-04-28 | 广东小天才科技有限公司 | 一种听写控制方法及装置 |
CN111081082A (zh) * | 2019-07-11 | 2020-04-28 | 广东小天才科技有限公司 | 一种基于用户意图的听写智能控制方法及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831372A (zh) * | 2011-03-03 | 2012-12-19 | 手持产品公司 | 具有手势接口的成像器读取器 |
CN104765441A (zh) * | 2014-01-07 | 2015-07-08 | 腾讯科技(深圳)有限公司 | 一种基于眼动实现页面更新的方法和装置 |
CN104866082A (zh) * | 2014-02-25 | 2015-08-26 | 北京三星通信技术研究有限公司 | 基于用户行为进行阅览的方法和装置 |
CN106125905A (zh) * | 2016-06-13 | 2016-11-16 | 广东小天才科技有限公司 | 一种听写控制方法及设备、系统 |
CN106445461A (zh) * | 2016-10-25 | 2017-02-22 | 北京小米移动软件有限公司 | 文字信息处理方法及装置 |
CN106973222A (zh) * | 2017-02-28 | 2017-07-21 | 维沃移动通信有限公司 | 一种数码变焦的控制方法和移动终端 |
CN107181974A (zh) * | 2017-07-18 | 2017-09-19 | 无锡路通视信网络股份有限公司 | 一种机顶盒的手势控制装置及控制方法 |
CN108089801A (zh) * | 2017-12-14 | 2018-05-29 | 维沃移动通信有限公司 | 一种信息显示方法及移动终端 |
CN108171152A (zh) * | 2017-12-26 | 2018-06-15 | 深圳大学 | 深度学习人眼视线估计方法、设备、系统及可读存储介质 |
CN108241430A (zh) * | 2016-12-23 | 2018-07-03 | 航天信息股份有限公司 | 税务自助终端机输入数字的方法及税务自助终端机 |
CN108762497A (zh) * | 2018-05-18 | 2018-11-06 | 深圳壹账通智能科技有限公司 | 体感交互方法、装置、设备及可读存储介质 |
-
2018
- 2018-12-12 CN CN201811514996.2A patent/CN109634416A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831372A (zh) * | 2011-03-03 | 2012-12-19 | 手持产品公司 | 具有手势接口的成像器读取器 |
CN104765441A (zh) * | 2014-01-07 | 2015-07-08 | 腾讯科技(深圳)有限公司 | 一种基于眼动实现页面更新的方法和装置 |
CN104866082A (zh) * | 2014-02-25 | 2015-08-26 | 北京三星通信技术研究有限公司 | 基于用户行为进行阅览的方法和装置 |
CN106125905A (zh) * | 2016-06-13 | 2016-11-16 | 广东小天才科技有限公司 | 一种听写控制方法及设备、系统 |
CN106445461A (zh) * | 2016-10-25 | 2017-02-22 | 北京小米移动软件有限公司 | 文字信息处理方法及装置 |
CN108241430A (zh) * | 2016-12-23 | 2018-07-03 | 航天信息股份有限公司 | 税务自助终端机输入数字的方法及税务自助终端机 |
CN106973222A (zh) * | 2017-02-28 | 2017-07-21 | 维沃移动通信有限公司 | 一种数码变焦的控制方法和移动终端 |
CN107181974A (zh) * | 2017-07-18 | 2017-09-19 | 无锡路通视信网络股份有限公司 | 一种机顶盒的手势控制装置及控制方法 |
CN108089801A (zh) * | 2017-12-14 | 2018-05-29 | 维沃移动通信有限公司 | 一种信息显示方法及移动终端 |
CN108171152A (zh) * | 2017-12-26 | 2018-06-15 | 深圳大学 | 深度学习人眼视线估计方法、设备、系统及可读存储介质 |
CN108762497A (zh) * | 2018-05-18 | 2018-11-06 | 深圳壹账通智能科技有限公司 | 体感交互方法、装置、设备及可读存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027317A (zh) * | 2019-04-28 | 2020-04-17 | 广东小天才科技有限公司 | 一种听写报读进度的控制方法及电子设备 |
CN111046220A (zh) * | 2019-04-29 | 2020-04-21 | 广东小天才科技有限公司 | 一种听写过程中的报读语音的重播方法及电子设备 |
CN111078098A (zh) * | 2019-05-10 | 2020-04-28 | 广东小天才科技有限公司 | 一种听写控制方法及装置 |
CN111078098B (zh) * | 2019-05-10 | 2021-11-05 | 广东小天才科技有限公司 | 一种听写控制方法及装置 |
CN111081082A (zh) * | 2019-07-11 | 2020-04-28 | 广东小天才科技有限公司 | 一种基于用户意图的听写智能控制方法及电子设备 |
CN111081082B (zh) * | 2019-07-11 | 2022-04-29 | 广东小天才科技有限公司 | 一种基于用户意图的听写智能控制方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109634416A (zh) | 一种听写报读的智能控制方法及终端设备 | |
JP4481663B2 (ja) | 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム | |
CN106599881A (zh) | 学生状态的确定方法、装置及系统 | |
CN109635772A (zh) | 一种听写内容的批改方法及电子设备 | |
CN105516280B (zh) | 一种多模态学习过程状态信息压缩记录方法 | |
CN109240582A (zh) | 一种点读控制方法及智能设备 | |
CN106791262A (zh) | 图文采集识别装置 | |
CN107728482A (zh) | 控制系统、控制处理方法及装置 | |
CN109634552A (zh) | 一种应用于听写的报读控制方法及终端设备 | |
KR102377561B1 (ko) | 미러 디스플레이를 이용하여 태권도 동작 코칭 서비스를 제공하는 장치 및 방법 | |
CN106897658A (zh) | 人脸活体的鉴别方法和装置 | |
CN108230293A (zh) | 确定人脸图像质量的方法和装置、电子设备和计算机存储介质 | |
CN113568506A (zh) | 用于显示器控制和定制姿势解释的动态用户交互 | |
CN110353622A (zh) | 一种视力检测方法及视力检测器 | |
CN109597943A (zh) | 一种基于场景的学习内容推荐方法及学习设备 | |
CN110547756A (zh) | 一种视力测试方法、装置和系统 | |
CN204759784U (zh) | 一种具有双显示屏的多媒体教学终端 | |
CN108804971A (zh) | 一种图像识别系统、增强现实显示设备和图像识别方法 | |
CN109087225A (zh) | 一种基于家教设备的学习控制方法及家教设备 | |
US10877647B2 (en) | Estimations within displays | |
CN111507246A (zh) | 通过手势选定标记对象的方法、装置、系统及存储介质 | |
CN108875468A (zh) | 活体检测方法、活体检测系统以及存储介质 | |
CN109783613A (zh) | 一种搜题方法及系统 | |
CN109190478A (zh) | 焦点跟随过程中目标对象的切换方法、装置及电子设备 | |
CN106778454B (zh) | 人脸识别的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |