CN114842846A - 头戴设备的控制方法、装置及计算机可读存储介质 - Google Patents
头戴设备的控制方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114842846A CN114842846A CN202210422839.9A CN202210422839A CN114842846A CN 114842846 A CN114842846 A CN 114842846A CN 202210422839 A CN202210422839 A CN 202210422839A CN 114842846 A CN114842846 A CN 114842846A
- Authority
- CN
- China
- Prior art keywords
- detection
- human body
- head
- voice
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000001514 detection method Methods 0.000 claims abstract description 231
- 239000011159 matrix material Substances 0.000 claims description 48
- 239000000178 monomer Substances 0.000 claims description 15
- 210000000746 body region Anatomy 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 description 5
- 239000011521 glass Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000002105 tongue Anatomy 0.000 description 2
- 235000013311 vegetables Nutrition 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种头戴设备的控制方法、装置及计算机可读存储介质,其中,所述头戴设备的控制方法包括:当检测到目标区域内存在人体时,确定所述人体对应的人体区域;确定所述人体区域对应的语音检测区域;获取所述语音检测区域对应的检测信息;根据所述检测信息确定唇语信息,所述唇语信息包括唇语图像、唇语文字和/或语音,本发明旨在提高头戴设备采集语音的效率。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种头戴设备的控制方法、装置及计算机可读存储介质。
背景技术
随着互联网时代的发展,头戴设备被广泛应用于人们的生活中,例如AR眼镜,一般情况下头戴设备通过MIC(microphone麦克风)采集用户的声音进行传递,或者进行语音转文字的操作,但是通过MIC传递声音无法采集有语言障碍人员的语音,且通过MIC采集用户声音时,很容易采集到环境噪音,不利于后续操作,需要重新采集用户语音,因此,传统技术中,头戴设备采集语音的效率太低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种头戴设备的控制方法、装置及计算机可读存储介质,旨在达成提高头戴设备采集语音效率的效果。
为实现上述目的,本发明提供一种头戴设备的控制方法,所述头戴设备的控制方法包括:
当检测到目标区域内存在人体时,确定所述人体对应的人体区域;
确定所述人体区域对应的语音检测区域;
获取所述语音检测区域对应的检测信息;
根据所述检测信息确定唇语信息,所述唇语信息包括唇语图像、唇语文字和/或语音。
可选地,所述获取所述语音检测区域对应的检测信息的步骤之前,还包括:
根据所述语音检测区域的位置信息,调整超声波阵列的检测位置;
所述获取所述语音检测区域对应的检测信息的步骤包括:
控制所述超声波阵列对应的各个超声波单体向所述语音检测区域发射检测超声信号;
接收所述检测超声信号对应的回波信号,根据所述回波信号确定所述检测信息。
可选地,所述检测信息为距离矩阵,所述根据所述检测信息确定唇语信息的步骤包括:
获取与所述距离矩阵匹配的预存矩阵的关联数据;
根据所述关联数据确定所述唇语信息。
可选地,所述获取与所述距离矩阵匹配的预存矩阵的关联数据的步骤之前,还包括:
获取多个唇语信息,以及所述唇语信息对应的距离矩阵;
对所述唇语信息和所述距离矩阵进行算法处理和学习模型推理,建立预存矩阵库。
可选地,所述确定所述人体区域对应的语音检测区域的步骤包括:
获取所述人体区域对应的各个子区域的超声检测结果,将与唇部超声模型匹配的所述超声检测结果对应的所述子区域,作为所述语音检测区域;和/或
获取所述人体区域对应的图像信息,根据所述图像信息在所述人体区域中,选定所述语音检测区域。
可选地,所述根据所述回波信号确定所述检测信息的步骤包括:
根据所述检测超声信号和所述回波信号确定语音检测区域内的预设检测点对应的位置信息;
根据所述位置信息确定所述检测信息。
可选地,所述语音检测区域包括人体面部,所述获取所述语音检测区域对应的检测信息的步骤之后,还包括:
根据所述检测信息确定表情信息。
可选地,所述确定所述人体对应的人体区域的步骤之前,还包括:
在满足预设条件时,获取所述头戴设备对应的目标区域内的超声扫描数据和/或图像数据;
根据所述超声扫描数据和/或图像数据确定所述目标区域内是否存在人体;
当不存在人体时,输出未检测到用户的提示;
当存在人体时,执行所述确定所述人体对应的人体区域的步骤。
此外,为实现上述目的,本发明还提供一种头戴设备的控制方法,所述头戴设备的控制方法包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的头戴设备的控制程序,所述头戴设备的控制程序被所述处理器执行时实现如上所述的头戴设备的控制方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有头戴设备的控制程序,所述头戴设备的控制程序被处理器执行时实现如上所述的头戴设备的控制方法的步骤。
本发明实施例提出的一种头戴设备的控制方法、装置及计算机可读存储介质,当检测到目标区域内存在人体时,确定所述人体对应的人体区域;确定所述人体区域对应的语音检测区域;获取所述语音检测区域对应的检测信息;根据所述检测信息确定唇语信息,所述唇语信息包括唇语图像、唇语文字和/或语音,这样在目标区域中确认了人体区域的对应的语音检测区域后,获取语音检测区域对应的检测信息,根据检测信息确定唇语信息,不需要用户实际发出声音,也不会采集环境噪音,通过唇语信息可以了解用户想要表达的语音,因此可以提高头戴设备采集语音的效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明头戴设备的控制方法的一实施例的流程示意图;
图3为本发明头戴设备的控制方法的另一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
由于在相关技术中,头戴设备一般通过MIC来采集用户语音,但是通过这种方式采集不了有言语障碍的人员的语音,以及会采集到环境噪声,采集语音的效率太低。
为了提高头戴设备采集声音的效率,本发明实施例提出一种头戴设备的控制方法、装置及计算机可读存储介质,其中,所述方法的主要步骤包括:
当检测到目标区域内存在人体时,确定所述人体对应的人体区域;
确定所述人体区域对应的语音检测区域;
获取所述语音检测区域对应的检测信息;
根据所述检测信息确定唇语信息,所述唇语信息包括唇语图像、唇语文字和/或语音。
这样通过目标区域中检测到人体时,确认人体对应的人体区域,并在人体区域中确定语音检测区域,获取语音检测区域的检测信息,根据检测信息确认唇语信息,不需要依靠采集声音来确定用户想要表达的语音。因此可以提高头戴设备采集语音的效率。
以下结合附图对本发明权利要求要求保护的内容进行详细说明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是头戴设备的控制方法。
如图1所示,该终端可以包括:处理器1001,例如CPU,存储器1003,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。存储器1003可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1003中可以包括操作系统以及头戴设备的控制程序。
在图1所示的终端中,处理器1001可以用于调用存储器1003中存储的头戴设备的控制程序,并执行以下操作:
当检测到目标区域内存在人体时,确定所述人体对应的人体区域;
确定所述人体区域对应的语音检测区域;
获取所述语音检测区域对应的检测信息;
根据所述检测信息确定唇语信息,所述唇语信息包括唇语图像、唇语文字和/或语音。
进一步地,处理器1001可以调用存储器1003中存储的头戴设备的控制程序,还执行以下操作:
根据所述语音检测区域的位置信息,调整超声波阵列的检测位置;
所述获取所述语音检测区域对应的检测信息的步骤包括:
控制所述超声波阵列对应的各个超声波单体向所述语音检测区域发射检测超声信号;
接收所述检测超声信号对应的回波信号,根据所述回波信号确定所述检测信息。
进一步地,处理器1001可以调用存储器1003中存储的头戴设备的控制程序,还执行以下操作:
获取与所述距离矩阵匹配的预存矩阵的关联数据;
根据所述关联数据确定所述唇语信息。
进一步地,处理器1001可以调用存储器1003中存储的头戴设备的控制程序,还执行以下操作:
获取多个唇语信息,以及所述唇语信息对应的距离矩阵;
对所述唇语信息和所述距离矩阵进行算法处理和学习模型推理,建立预存矩阵库。
进一步地,处理器1001可以调用存储器1003中存储的头戴设备的控制程序,还执行以下操作:
获取所述人体区域对应的各个子区域的超声检测结果,将与唇部超声模型匹配的所述超声检测结果对应的所述子区域,作为所述语音检测区域;和/或
获取所述人体区域对应的图像信息,根据所述图像信息在所述人体区域中,选定所述语音检测区域。
进一步地,处理器1001可以调用存储器1003中存储的头戴设备的控制程序,还执行以下操作:
根据所述检测超声信号和所述回波信号确定语音检测区域内的预设检测点对应的位置信息;
根据所述位置信息确定所述检测信息。
进一步地,处理器1001可以调用存储器1003中存储的头戴设备的控制程序,还执行以下操作:
根据所述检测信息确定表情信息。
进一步地,处理器1001可以调用存储器1003中存储的头戴设备的控制程序,还执行以下操作:
在满足预设条件时,获取所述头戴设备对应的目标区域内的超声扫描数据和/或图像数据;
根据所述超声扫描数据和/或图像数据确定所述目标区域内是否存在人体;
当不存在人体时,输出未检测到用户的提示。
随着互联网时代的发展,头戴设备被广泛应用于人们的生活中,例如AR眼镜,在一些应用场景中,头戴设备有采集用户语音的需求。通过采集到的用户语音,实现语音传输和/或语音控制等。或者,在多人游戏场景中,将采集的语音数据,发送给其它玩家。一般情况下头戴设备通过MIC(microphone麦克风)采集用户的语音进行传递,或者进行语音转文字的操作,但是通过MIC传递声音无法采集有语言障碍人员的语音,且通过MIC采集目标语音时,也就采集到环境语音,环境中的噪音也会被采集,影响目标语音,不利于语音识别、语音控制等后续操作,导致最终的识别结果错误,例如在菜市场玩游戏时,在游戏界面中点击语音转文字功能后,用户对着麦克风说出进攻的语音时,麦克风除了采集到进攻的语音,还会采集到菜市场的语音,导致与识别结果不是进攻的文字,或者四周噪音持续且大声,导致语音持续识别,无法给出识别结果,需要重新采集用户语音,因此,在传统技术中,头戴设备采集语音的效率太低。
由此可见,在头戴设备的控制方法中,存在上述缺陷。本发明实施例为解决上述缺陷,提出一种头戴设备的控制方法,旨在达成通过获取人体区域的语音检测区域的检测信息来确定唇语信息,提高头戴设备采集语音的效率。
以下,通过具体示例性方案对本发明权利要求要求保护的内容,进行解释说明,以便本领域技术人员更好地理解本发明权利要求的保护范围。可以理解的是,以下示例性方案不对本发明的保护范围进行限定,仅用于解释本发明。
示例性地,参照图2,在本发明头戴设备的控制方法的一实施例中,所述头戴设备的控制方法包括以下步骤:
步骤S10、当检测到目标区域内存在人体时,确定所述人体对应的人体区域;
在本实施例中,头戴设备可以是如头盔、帽子、VR眼镜、AR眼镜等智能头戴设备。头戴设备设置有检测单元,所述检测单元可以是超声波阵列、红外检测装置和/或拍摄装置温感装置。检测单元用于检测目标区域内是否存在人体。其中,检测单元对应的检测区域包括目标区域。
在一些可选实施方案中,可以设置为佩戴头戴设备的用户的前方一定角度范围内的区域,作为目标区域。当在目标区域内检测到人体时,确定所述目标区域中,人体所在位置对应的人体区域。这样在佩戴者前方出现人体时,可以识别对方的人体区域,并获取对方的唇语信息。
在一些可选实施方案中,可以设置为朝向佩戴者的方向一定角度范围内的区域,作为目标区域,这样在佩戴者使用头戴设备时,可以识别佩戴者的人体区域,并获取佩戴者的唇语信息。这样便于聋哑人等残疾人士的使用和交流。
需要注意的是,当佩戴者使用头戴设备时,头戴设备可以开始对目标区域内人体的进行检测,可以在检测到人体局部位置后就确认目标区域存在人体,比如在目标区域内检测到人体脸部时,包括五官等,确定目标区域存在人体,对应地确认的人体区域为人体脸部,也可以在检测到全部人体后确认到存在人体,对应的人体区域可以是全部人体区域。
可选地,在满足预设条件时,获取所述头戴设备对应的目标区域内的超声扫描数据和/或图像数据;根据所述超声扫描数据和/或图像数据确定所述目标区域内是否存在人体;当不存在人体时,输出未检测到人体的提示。
在满足预设条件时,获取头戴设备检测的目标区域内的超声扫描数据、图像数据、红外扫描数据、和/或温度数据,根据上述数据确定目标区域内是否存在人体,预设条件可以是接收到唇语信息采集指令,或者设备开机,若检测到在目标区域内未存在人体,则输入未检测到人体的提示,若检测到在目标区域内存在人体后,则执行确定所述人体对应的人体区域,进一步地确定语音检测区域。
步骤S20、确定所述人体区域对应的语音检测区域;
在本实施例中,在检测到目标区域中存在人体,并确定人体区域后,确定人体区域中的语音检测区域,语音检测区域至少包括人体的唇部区域,进一步地,还可以包括唇部周围区域或人体面部区域。确定语音检测区域的方式可以是通过对图像数据进行图像识别,确定唇部轮廓,进而确定语音检测区域,也可以将人体区域分为若干个子区域,通过超声波阵列或红外检测装置对人体子区域进行检测,将子区域的检测结果与预设唇部距离矩阵进行匹配,进而确定语音检测区域,也可以通过预设人体模板对人体区域进行匹配,根据预设人体模板中语音检测区域的位置对应的确定当前的人体区域中的语音检测区域。
可选地,获取所述人体区域对应的各个子区域的超声检测结果,将与唇部超声模型匹配的所述超声检测结果对应的所述子区域,作为所述语音检测区域;和/或获取所述人体区域对应的图像信息,根据所述图像信息在所述人体区域中,选定所述语音检测区域。
超声波阵列对人体区域进行检测后,确定各个子区域的超声检测结果,将唇部超声模型与各个子区域的超声检测结果进行匹配,将匹配值最优的子区域作为语音检测区域,超声检测装置可以是超声波阵列,唇部超声模型可以是超声检测装置对唇部位置进行超声检测时对应生成的距离矩阵,同样地,超声检测结果也可以是距离矩阵。
步骤S30、获取所述语音检测区域对应的检测信息;
在本实施例中,在用户进行说话吐字时,口型会有不同的改变,唇部轮廓也会进行改变,对语音检测区域进行检测,检测到语音检测区域的不同口型对应的检测信息是不同的。
可选地,可以通过拍摄装置对语音检测区域进行拍摄,可以是拍摄唇部视频,对该视频的每帧图像或者抽取部分图像帧进行图像识别处理,识别出唇部轮廓线(可以包括人体嘴唇、牙齿、舌部等),并与预设唇部轮廓线进行比对,确定与之匹配的预设轮廓线关联数据,作为语音检测区域的检测信息,也可以是在预设时段拍摄唇语图像,进行识别,进而确定检测信息。
可选地,控制所述超声波阵列对应的各个超声波单体向所述语音检测区域发射检测超声信号;接收所述检测超声信号对应的回波信号,根据所述回波信号确定所述检测信息。
步骤S40、根据所述检测信息确定唇语信息,所述唇语信息包括唇语图像、唇语文字和/或语音。
在本实施例中,语音检测区域至少包括人体区域的唇部区域,不同的唇语对应了不同的口型,与之对应的检测信息也会不同,因此可以根据检测信息确定唇语信息,唇语信息可以是唇语图像、唇语文字和/或语音,其中,唇语图像可以是直接通过拍摄装置拍摄得到,也可以是通过根据检测信息与预设的信息进行匹配后确定的关联数据得到,同样的,语音也可以是通过根据检测信息与预设的信息进行匹配后确定的关联数据得到。
可选地,在确定了唇语信息后,可以将语音作为语音识别的基础,转换为对应的唇语文字,也可以将唇语图像、唇语文字和/或语音发送给其他设备,也可以通过头戴设备的交互装置展示给佩戴者或他人。
可选地,根据所述检测信息确定表情信息。
语音检测区域是人体面部,人体面部包括人体唇部,除了可以检测到人体唇部的检测信息,并根据检测信息确定唇语信息外,还能检测到人体面部的检测信息,并根据检测信息确定表情信息,具体地,通过超声波阵列检测到的人体面部的距离矩阵与预存矩阵进行匹配,得到与距离矩阵匹配的预存矩阵的关联数据,根据这个关联数据确定表情信息。
为了更好的理解,本实施提供一具体应用场景,A有聋哑人,不可辨声,不可发出声音,但可以识字,A佩戴头戴设备与B进行交流,若要采集B的表达,则目标区域朝向前方,也即B的位置,可以在目标区域内检测到B的人体,确定B人体区域的唇部区域为语音检测区域,确定语音检测区域内的检测信息,根据该检测信息确定B的唇语文字,通过头戴设备的交互装置将唇语文字展示给佩戴者A;A虽不能发出声音,但是可以用唇语交流,若要采集A的表达,则目标区域朝向佩戴者A的方向,可以在目标区域内采集到A的人体,可以仅仅检测到局部人体,例如A的嘴巴或A的脸部,即保障目标区域内包括人体唇部即可,认定A人体区域的唇部区域为语音检测区域,确定语音检测区域内的检测信息,根据该检测信息确定B的唇语信息,包括唇语图像、语音和唇部文字,可以将通过头戴设备的扬声器将语音播报给B,也通过头戴设备的交互装置将唇语文字展示给B,也可以将唇语文字、语音和/或唇语文字发送给其他装置,头戴设备也可以基于唇语文字、语音和/或唇语文字识别操作指令,头戴设备根据操作指令进行对应操作。
在本实施例公开的技术方案中,当检测到目标区域内存在人体时,确定所述人体对应的人体区域;确定所述人体区域对应的语音检测区域;获取所述语音检测区域对应的检测信息;根据所述检测信息确定唇语信息,所述唇语信息包括唇语图像、唇语文字和/或语音,这样在目标区域中确认了人体区域的对应的语音检测区域后,获取语音检测区域对应的检测信息,根据检测信息确定唇语信息,通过获取用户的唇语信息确定用户的表达,从而代替了语音,不需要被检测者实际发出声音,也不会采集环境噪音,影响后续的语音识别等操作,通过唇语信息可以了解被检测者想要表达的意思,对于视、听、说残疾人士也同样适用,扩大了头戴设备的受众面,头戴设备更方便的采集唇语信息,因此,基于上述实施例,可以提高头戴设备采集语音的效率。
可选地,参照图3,基于上述任一实施例,在本发明头戴设备的控制方法的另一实施例中,所述头戴设备的控制方法还方法包括:
在确定获取所述语音检测区域对应的检测信息之前,还包括:
步骤S50、根据所述语音检测区域的位置信息,调整超声波阵列的检测位置。
在本实施例中,根据语音检测区域的位置信息调整超声波阵列的检测位置,以使语音检测区域完全位于超声波阵列的检测区域中,获取语音检测区域的位置信息具有多种方式,位置信息用于调整超声波阵列,超声波阵列用于获取语音检测区域的信息。
可选地,获取语音检测区域的位置信息的方式包括通过拍摄目标区域,根据拍摄的图像在人体区域中选定语音检测区域,并确定语音检测区域的位置信息,然后调整超声波阵列的检测位置。
可选地,获取语音检测区域的位置信息的方式包括通过超声波阵列向人体区域的各个子区域发射超声波进行检测,获取所述人体区域对应的各个子区域的超声检测结果,将与唇部超声模型匹配的所述超声检测结果对应的子区域,作为所述语音检测区域,该子区域的位置信息则为语音检测区域的位置信息。
步骤S31、控制所述超声波阵列对应的各个超声波单体向所述语音检测区域发射检测超声信号;
步骤S32、接收所述检测超声信号对应的回波信号,根据所述回波信号确定所述检测信息。
在本实施例中,头戴设备上设置有超声波阵列,超声波阵列包括若干个超声波单体,在确定人体区域后,确定人体区域中的语音检测区域,进而确定语音检测区域的检测信息,获取检测信息的方式可以是通过超声波阵列检测。
可选地,控制超声波阵列对应的各个超声波单体向语音检测区域的发射检测超声信号,并接收检测超声信号对应的回拨信号,根据回波信号确定检测信息,回波信号的接收时间、信号强度等都可以作为判断检测信息的依据,接收时间的不同意味着被检测点与超声波单体的距离差异,而信号强度的不同意味着反射位置的材质不同,例如嘴唇、牙齿、舌头对超声波的反射各不相同,进而根据回波信号确定的检测信息,可以进一步确认语音检测区域的唇部轮廓。
可选地,获取与所述距离矩阵匹配的预存矩阵的关联数据;根据所述关联数据确定所述唇语信息。
检测信息可以是距离矩阵,在确定了距离矩阵后,将该距离矩阵与预存矩阵库进行匹配,确定与距离矩阵匹配的预存矩阵的关联数据,并根据该关联数据确定唇语信息,可以理解的是,预存矩阵是预存的距离矩阵。
进一步地,获取多个唇语信息,以及所述唇语信息对应的距离矩阵;对所述唇语信息和所述距离矩阵进行算法处理和学习模型推理,建立预存矩阵库。
预先建立预存矩阵库,先获取多个唇语信息,和该唇语信息对应的距离矩阵,唇语信息是通过预设动作确定的,在做出该预设动作时可以通过超声波阵列确定距离矩阵,不同的唇语信息,可以对应不同的距离矩阵,可以将距离矩阵直接作为预设矩阵,与唇语信息关联保存建立预存矩阵库。为了获取更标准的预存矩阵,可以选取不同人体做出同一唇语信息,并通过超声波阵列确定距离矩阵,对这些距离矩阵进行算法处理和学习模型推理,根据这些距离矩阵确定唯一的预存矩阵,将这个预存矩阵与该唇语信息关联保存在预存矩阵库,即预存矩阵的关联数据包括唇语信息。
可选地,根据所述检测超声信号和所述回波信号确定语音检测区域内的预设检测点对应的位置信息;
根据所述位置信息确定所述检测信息。
语音检测区域上包括多个预设检测点,一个超声波单体可以对应有一个预设检测点,即一个超声波单体向一个目标预设检测点发送超声波信号,一个超声波单体也可以对应多个预设检测点,即一个超声波单体向多个目标检测点发送超声波信号。每个超声波单体至少包括一个超声波发送器,超声波信号由超声波单体发送,统一由一个接收器接收回波信号,每个超声波单体也可以包括一个超声波发射器和一个超声波接收器,由超声波单体的超声波发射器发送的超声波信号,其回波信号也由该超声波单体的超声波接收器接收,根据检测超声信号和回波信号确定各个预设检测点的位置信息,根据检测信息确定检测信息。
可选地,确定每个超声波单体与预设检测点之间的距离,根据该距离确定各个预设检测点的位置信息,进而可以确定各个预设检测点之间的相对距离,根据相对距离建立语音检测区域的距离矩阵,距离矩阵为检测信息。
在本实施例公开的技术方案中,根据语音检测区域的位置信息,调整超声波阵列的检测位置,通过超声波阵列的各个超声波单体向语音检测区域发射检测超声信号,并接收检测超声信号对应的回波信号,并根据回波信号确定检测信息,通过超声波检测的方式提高了获取检测信息的速度和正确性,进一步地提高了头戴设备采集语音信息的效率。
此外,本发明实施例还提出一种头戴设备的控制方法,所述头戴设备的控制方法包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的头戴设备的控制程序,所述头戴设备的控制程序被所述处理器执行时实现如上各个实施例所述的头戴设备的控制方法的步骤。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有头戴设备的控制程序,所述头戴设备的控制程序被处理器执行时实现如上各个实施例所述的头戴设备的控制方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得头戴设备的控制装置执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种头戴设备的控制方法,其特征在于,所述头戴设备的控制方法包括:
当检测到目标区域内存在人体时,确定所述人体对应的人体区域;
确定所述人体区域对应的语音检测区域;
获取所述语音检测区域对应的检测信息;
根据所述检测信息确定唇语信息,所述唇语信息包括唇语图像、唇语文字和/或语音。
2.如权利要求1所述的头戴设备的控制方法,所述获取所述语音检测区域对应的检测信息的步骤之前,还包括:
根据所述语音检测区域的位置信息,调整超声波阵列的检测位置;
所述获取所述语音检测区域对应的检测信息的步骤包括:
控制所述超声波阵列对应的各个超声波单体向所述语音检测区域发射检测超声信号;
接收所述检测超声信号对应的回波信号,根据所述回波信号确定所述检测信息。
3.如权利要求1-2中任一项所述的头戴设备的控制方法,其特征在于,所述检测信息为距离矩阵,所述根据所述检测信息确定唇语信息的步骤包括:
获取与所述距离矩阵匹配的预存矩阵的关联数据;
根据所述关联数据确定所述唇语信息。
4.如权利要求3所述的头戴设备的控制方法,其特征在于,所述获取与所述距离矩阵匹配的预存矩阵的关联数据的步骤之前,还包括:
获取多个唇语信息,以及所述唇语信息对应的距离矩阵;
对所述唇语信息和所述距离矩阵进行算法处理和学习模型推理,建立预存矩阵库。
5.如权利要求2所述的头戴设备的控制方法,其特征在于,所述根据所述回波信号确定所述检测信息的步骤包括:
根据所述检测超声信号和所述回波信号确定语音检测区域内的预设检测点对应的位置信息;
根据所述位置信息确定所述检测信息。
6.如权利要求1所述的头戴设备的控制方法,其特征在于,所述确定所述人体区域对应的语音检测区域的步骤包括:
获取所述人体区域对应的各个子区域的超声检测结果,将与唇部超声模型匹配的所述超声检测结果对应的所述子区域,作为所述语音检测区域;和/或
获取所述人体区域对应的图像信息,根据所述图像信息在所述人体区域中,选定所述语音检测区域。
7.如权利要求1所述的头戴设备的控制方法,其特征在于,所述语音检测区域包括人体面部,所述获取所述语音检测区域对应的检测信息的步骤之后,还包括:
根据所述检测信息确定表情信息。
8.如权利要求1所述的头戴设备的控制方法,其特征在于,所述确定所述人体对应的人体区域的步骤之前,还包括:
在满足预设条件时,获取所述头戴设备对应的目标区域内的超声扫描数据和/或图像数据;
根据所述超声扫描数据和/或图像数据确定所述目标区域内是否存在人体;
当不存在人体时,输出未检测到人体的提示。
9.一种头戴设备的控制方法装置,其特征在于,所述头戴设备的控制方法包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的头戴设备的控制程序,所述头戴设备的控制程序被所述处理器执行时实现如权利要求1至8中任一项所述的头戴设备的控制方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有头戴设备的控制程序,所述头戴设备的控制程序被处理器执行时实现如权利要求1至8中任一项所述的头戴设备的控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210422839.9A CN114842846A (zh) | 2022-04-21 | 2022-04-21 | 头戴设备的控制方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210422839.9A CN114842846A (zh) | 2022-04-21 | 2022-04-21 | 头戴设备的控制方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842846A true CN114842846A (zh) | 2022-08-02 |
Family
ID=82566500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210422839.9A Pending CN114842846A (zh) | 2022-04-21 | 2022-04-21 | 头戴设备的控制方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842846A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020126879A1 (en) * | 1998-01-30 | 2002-09-12 | Isao Mihara | Image recognition apparatus and method |
US20020194005A1 (en) * | 2001-03-27 | 2002-12-19 | Lahr Roy J. | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
JP2005135432A (ja) * | 2004-12-13 | 2005-05-26 | Toshiba Corp | 画像認識装置及び画像認識装置方法 |
JP2008310382A (ja) * | 2007-06-12 | 2008-12-25 | Omron Corp | 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体 |
CN106328141A (zh) * | 2016-09-05 | 2017-01-11 | 南京大学 | 一种面向移动终端的超声波唇读识别装置及方法 |
CN107045385A (zh) * | 2016-08-01 | 2017-08-15 | 深圳奥比中光科技有限公司 | 基于深度图像的唇语交互方法以及唇语交互装置 |
US20170352178A1 (en) * | 2016-06-03 | 2017-12-07 | Oculus Vr, Llc | Facial animation using facial sensors within a head-mounted display |
CN108537207A (zh) * | 2018-04-24 | 2018-09-14 | Oppo广东移动通信有限公司 | 唇语识别方法、装置、存储介质及移动终端 |
CN108596107A (zh) * | 2018-04-26 | 2018-09-28 | 京东方科技集团股份有限公司 | 基于ar设备的唇语识别方法及其装置、ar设备 |
KR20190096305A (ko) * | 2019-07-29 | 2019-08-19 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
CN111179927A (zh) * | 2019-12-20 | 2020-05-19 | 恒银金融科技股份有限公司 | 一种金融设备语音交互方法以及系统 |
CN112084927A (zh) * | 2020-09-02 | 2020-12-15 | 中国人民解放军军事科学院国防科技创新研究院 | 一种融合多种视觉信息的唇语识别方法 |
CN112784696A (zh) * | 2020-12-31 | 2021-05-11 | 平安科技(深圳)有限公司 | 基于图像识别的唇语识别方法、装置、设备及存储介质 |
-
2022
- 2022-04-21 CN CN202210422839.9A patent/CN114842846A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020126879A1 (en) * | 1998-01-30 | 2002-09-12 | Isao Mihara | Image recognition apparatus and method |
US20020194005A1 (en) * | 2001-03-27 | 2002-12-19 | Lahr Roy J. | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
JP2005135432A (ja) * | 2004-12-13 | 2005-05-26 | Toshiba Corp | 画像認識装置及び画像認識装置方法 |
JP2008310382A (ja) * | 2007-06-12 | 2008-12-25 | Omron Corp | 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体 |
US20170352178A1 (en) * | 2016-06-03 | 2017-12-07 | Oculus Vr, Llc | Facial animation using facial sensors within a head-mounted display |
CN107045385A (zh) * | 2016-08-01 | 2017-08-15 | 深圳奥比中光科技有限公司 | 基于深度图像的唇语交互方法以及唇语交互装置 |
CN106328141A (zh) * | 2016-09-05 | 2017-01-11 | 南京大学 | 一种面向移动终端的超声波唇读识别装置及方法 |
CN108537207A (zh) * | 2018-04-24 | 2018-09-14 | Oppo广东移动通信有限公司 | 唇语识别方法、装置、存储介质及移动终端 |
CN108596107A (zh) * | 2018-04-26 | 2018-09-28 | 京东方科技集团股份有限公司 | 基于ar设备的唇语识别方法及其装置、ar设备 |
US20200058302A1 (en) * | 2018-04-26 | 2020-02-20 | Boe Technology Group Co., Ltd. | Lip-language identification method and apparatus, and augmented reality device and storage medium |
KR20190096305A (ko) * | 2019-07-29 | 2019-08-19 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
CN111179927A (zh) * | 2019-12-20 | 2020-05-19 | 恒银金融科技股份有限公司 | 一种金融设备语音交互方法以及系统 |
CN112084927A (zh) * | 2020-09-02 | 2020-12-15 | 中国人民解放军军事科学院国防科技创新研究院 | 一种融合多种视觉信息的唇语识别方法 |
CN112784696A (zh) * | 2020-12-31 | 2021-05-11 | 平安科技(深圳)有限公司 | 基于图像识别的唇语识别方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
谭佳瑶: ""基于超声波的唇读内容识别与身份认证研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 07, 15 July 2019 (2019-07-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111432303B (zh) | 单耳耳机、智能电子设备、方法和计算机可读介质 | |
US20190200158A1 (en) | Dynamic augmentation of real-world sounds into a virtual reality sound mix | |
CN108881544B (zh) | 一种拍照的方法及移动终端 | |
CN111243105B (zh) | 增强现实处理方法及装置、存储介质和电子设备 | |
CN110673819A (zh) | 信息处理方法及电子设备 | |
CN111583937A (zh) | 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 | |
CN111741394A (zh) | 一种数据处理方法、装置及可读介质 | |
CN112532911A (zh) | 图像数据处理方法、装置、设备及存储介质 | |
CN111435574A (zh) | 用于重度听障者的沟通辅具系统 | |
CN111447365A (zh) | 一种拍摄方法及电子设备 | |
US10225670B2 (en) | Method for operating a hearing system as well as a hearing system | |
KR101976937B1 (ko) | 마이크로폰 어레이를 이용한 회의록 자동작성장치 | |
CN111862932B (zh) | 一种将图像转化为声音的可穿戴助盲系统及方法 | |
CN114842846A (zh) | 头戴设备的控制方法、装置及计算机可读存储介质 | |
CN110491384B (zh) | 一种语音数据处理方法及装置 | |
JP6543891B2 (ja) | コミュニケーション補助装置、コミュニケーション補助システム、コミュニケーション補助方法及びプログラム | |
Srinivasan et al. | Internet of Things (IoT) based object recognition technologies | |
WO2020043007A1 (en) | Method, system, and computer-readable medium for purifying voice using depth information | |
CN112863511B (zh) | 信号处理方法、装置以及存储介质 | |
CN112104964B (zh) | 一种跟随式扩声机器人的控制方法及控制系统 | |
CN113343788A (zh) | 图像采集方法及装置 | |
CN110730378A (zh) | 一种信息处理方法及系统 | |
JP6586617B2 (ja) | 音声認識装置、方法、及びコンピュータプログラム | |
KR20160090781A (ko) | 영상의 음향 변환 장치 및 그에 의한 시각 장애인용 음향 변환 방법 | |
CN113220912A (zh) | 一种交互辅助方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |