CN111583937A - 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 - Google Patents
一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 Download PDFInfo
- Publication number
- CN111583937A CN111583937A CN202010363370.7A CN202010363370A CN111583937A CN 111583937 A CN111583937 A CN 111583937A CN 202010363370 A CN202010363370 A CN 202010363370A CN 111583937 A CN111583937 A CN 111583937A
- Authority
- CN
- China
- Prior art keywords
- voice
- person
- face
- equipment
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 230000008859 change Effects 0.000 claims abstract description 14
- 230000002452 interceptive effect Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 18
- 230000033001 locomotion Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 230000004807 localization Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 abstract description 16
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电,通过获取语音设备图像识别范围内的图像数据;根据图像数据判断图像识别范围内是否有人,若有,则对其进行人脸追踪并获取脸部朝向信息;根据脸部朝向信息判断人物与语音设备是否有交互倾向;当人物与语音设备有交互倾向时,获取人物的脸部区域位置,再根据脸部区域位置获取嘴部区域位置;根据人物的嘴部区域位置探测其嘴部是否发生动作变化,若发生动作变化,则使语音设备开启语音识别功能,解决现有技术中语音设备使用者控制语音设备还需要对其进行主动唤醒的问题,提升了语音设备的使用体验感。
Description
技术领域
本发明涉及一种控制唤醒方法及存储介质、处理器、语音设备、智能家电,尤其涉及一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电。
背景技术
随着科学技术的发展,人机语音交互技术的应用领域越来越宽广,比如智能音箱、语音空调、智能电视等,但现有技术中语音远场控制的设备都需要用户语音唤醒后才能进行控制,如传统按键方式;或特定语音词激活方式,例如在对话前先说“小度你好”,设备才识别后面所听到的语音,并且说下一个语音命令时,还需要重复唤醒;或通过手势动作识别,即先用一个特定手势动作来让设备启动语音识别,用户体验较差,不利于语音技术的普及。
发明内容
鉴于此,本发明提供一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电,至少用于解决现有技术中语音设备使用者控制语音设备还需要对其进行主动唤醒的问题,具体的,
一种语音控制唤醒方法,用于对语音设备进行控制,语音设备可自动实施如下操作:
S1:获取语音设备图像识别范围内的图像数据;
S2:根据图像数据判断图像识别范围内是否有人,若有,则对其进行人脸追踪并获取脸部朝向信息;
S3:根据脸部朝向信息判断人物与语音设备是否有交互倾向;
S4:当人物与语音设备有交互倾向时,获取人物的脸部区域位置,再根据脸部区域位置获取嘴部区域位置;
S5:根据人物的嘴部区域位置探测其嘴部是否发生动作变化,若发生动作变化,则使语音设备开启语音识别功能。
进一步可选地,操作S2中还包括S21,
S21:根据图像识别结果判断人物数量,若人物数量为单个,则对单个人物进行人脸追踪并获取脸部朝向信息;
若人物数量为多个,则进一步判断多个人物中是否有人已备案,并获取备案人物数量,若有人已备案且备案人物数量为单个,则对已备案的单个人物进行人脸追踪并获取脸部朝向信息。
进一步可选地,操作S21中还包括S211,
S211:若备案人物数量为多个,则获取多个备案人物与语音设备之间的距离,再对距离语音设备最近的已备案人物进行人脸追踪并获取脸部朝向信息。
进一步可选地,操作S21中还包括S212,
S212:若多个人物均没有备案,则获取多个人物各自与语音设备之间的距离,再对距离语音设备最近的人进行人脸追踪并获取脸部朝向信息。
进一步可选地,操作S3还包括操作S31,
S31:根据脸部朝向信息判断人物脸部是否朝向语音设备,若为是,则获取人物脸部朝向语音设备持续时间T’,并判断T’是否大于等于预设时间T,若为是,则认为人物与语音设备有交互倾向。
进一步可选地,操作S31中,若判断出人物脸部没有朝向语音设备,或人物脸部朝向语音设备持续时间T’小于预设时间T,则认为人物与语音设备没有交互倾向。
进一步可选地,操作S31中,判断人物脸部是否朝向语音设备的方式为:获取人物脸部图像并对其进行处理,判断处理后的脸部图像偏置角度是否在预设偏置角度范围内,若为是,则认为人物脸部是朝向语音设备,否则认为人物脸部没有朝向语音设备。
进一步可选地,操作S5中,探测人物嘴部是否发生动作变化的方式为毫米波雷达探测技术、声源定位技术或TOF中的至少一种。
本发明还提供一种存储介质,存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在设备执行本发明提供的语音控制唤醒方法。
本发明还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行本发明提供的语音控制唤醒方法。
本发明还提供一种语音设备,采用本发明提供的语音控制唤醒方法,或具有本发明提供的存储介质,或具有本发明提供的处理器。
本发明提供的语音设备包括摄像头单元、图像识别单元、雷达探测单元、语音识别单元以及控制单元,其中,
摄像头单元,用于采集语音设备图像识别范围内的图像数据;
图像识别单元,用于对所采集的图像数据进行识别;
雷达探测单元,用于探测人物嘴部是否发生动作变化;
语音识别单元,用于对人物的语音进行识别;
控制单元,包括处理器,处理器执行程序使摄像头单元、图像识别单元、雷达探测单元以及语音识别单元实现各自功能。
本发明还提供一种智能家电,采用本发明提供的语音控制唤醒方法,或本发明提供的存储介质,或本发明提供的处理器,或本发明提供的语音设备。
本发明提供一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电,通过获取语音设备图像识别范围内的图像数据;判断图像识别范围内是否有人;判断人物与语音设备是否有交互倾向;当人物与语音设备有交互倾向时,获取人物的脸部区域位置,再根据脸部区域位置获取嘴部区域位置;探测其嘴部是否发生动作变化,若发生动作变化,则使语音设备开启语音识别功能,无需人物按键、说特定语音词、或做特定手势激活语音设备,或在下次控制前对其重复进行主动唤醒,提高了语音设备的使用体验感。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例1中语音设备组成示意图;
图2本发明实施例2中控制流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。
虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员以使得本发明所属技术领域的技术人员能够容易实施。正如本发明所属技术领域的技术人员能够容易理解,将在后面描述的实施例在不脱离本发明的概念和范围的基础上可变形为多种形式。在附图中尽量将相同或相似的部分用相同的附图标记表示。
在此使用的专业术语只是用来说明特定实施例而提供的,并不是用来限制本发明。在此使用的单数形式在没有表示明确的相反含义的情况下也包含复数形式。在说明书中使用的“包含”的具体化了特定的特性、领域、常数、步骤、动作、要素及/或成分,并不排除其他特定的特性、领域、常数、步骤、动作、要素、成分及/或组的存在或附加。
将下面使用的技术用语及科学用语包括在内的所有用语具有与本发明所属技术领域的技术人员一般理解的含义相同的含义。在词典中所定义的用语被补充解释为与相关技术文献和当前公开的内容相符的含义,在没有定义的情况下,不能被解释为具有非常正式的含义。
本发明通过获取语音设备图像识别范围内的图像数据;判断图像识别范围内是否有人;判断人物与语音设备是否有交互倾向;当人物与语音设备有交互倾向时,获取人物的脸部区域位置,再根据脸部区域位置获取嘴部区域位置,利用声音传播和视觉传播的时间差,使用图像识别技术和雷达探测技术在人物说话前提前探测到人物的嘴部发生动作,并控制开启语音识别功能,避免语音设备使用者控制语音设备还需要对其进行主动唤醒,控制简单,实用性强。
实施例1:
如图1所示,本实施例提供一种语音设备,包括摄像头单元、图像识别单元、雷达探测单元、显示单元、语音识别单元以及控制单元,其中,
摄像头单元,用于采集语音设备图像识别范围内的图像数据,本实施例中的摄像头单元采用双目摄像头,能有效避免静态图片,且能实时检测图像采集范围内人物脸和头部的动作,有助于提高图像识别的准确度。优选的,摄像头单元可独立设置或与语音设备集成为一体。
图像识别单元,用于对所采集的图像数据进行人脸识别。图像识别单元通过分析、计算双目摄像头所采集两张图像的视差,可获取人物相对语音设备的位置、距离;还可通过人物位置锁定人物的脸部区域;再由人物的脸部区域进一步锁定嘴部区域位置,并将嘴部区域位置传送给雷达探测单元。
雷达探测单元,用于探测人物嘴部是否发生动作变化,雷达探测单元包括毫米波雷达、声波雷达或TOF模块中的至少一种,本实施例中雷达探测单元优选为毫米波雷达,灵敏度高、定位更精准,提高了人物嘴部动作探测精度。优选的,雷达探测单元可独立设置或与语音设备集成为一体。
语音识别单元,用于采集声音并识别人物的声音内容,该语音识别单元包括语音采集模块、语音处理模块以及语音播报模块,其中,语音采集模块用于对语音设备所处环境中的声音进行采集,本实施例中的语音采集模块为至少有2个麦克风组成的矩阵麦克风;语音处理模块用于对所采集的声音处理以提取纯净的人声,再对纯净的人声进行识别和语义解析,其中,语音处理的内容包括声源定位、自动增益、去混响以及回声消除;语音播报模块用于对处理、识别后的声音内容进行语音播报。
优选的,本实施例中的语音设备还包括显示单元,用于对人物进行命令提示,或向人物显示语音识别结果,进一步可优选的,本实施例中的显示单元为显示屏幕。
优选的,本实施例中的语音设备还包括存储单元,用于预先存储人物图像,存储摄像单元采集的图像数据,以及存储图像处理单元分析、处理、识别后的结果。
控制单元,包括处理器,处理器执行程序使摄像头单元、图像识别单元、雷达探测单元、显示单元、存储单元以及语音识别单元实现各自功能。
本实施例中的语音设备可单独设置,或将其与空调、电视、冰箱、音箱、洗衣机等其它家电集成为一体形成智能家电,使得智能家电可通过语音设备识别使用对象口述的控制指令实现对应控制,而无需再使用遥控器发送控制指令,使得家电的控制更加快捷、简便,提升了智能家电的使用体验感以及使用对象的舒适感。
本实施例提供一种语音设备,能够通过图像识别单元对采集的图像进行识别,可获取人物相对语音设备的位置、距离;还可通过人物的位置锁定人物的脸部区域并对脸部进行识别;还可由人物的脸部区域进一步锁定嘴部区域位置,并将嘴部区域位置传送给雷达探测单元使其探测人物嘴部是否发生动作变化,若有变化则在人物说话前开启语音识别单元对人物的声音内容进行识别,人物按键、说特定语音词、或做特定手势激活语音设备,或在下次控制前对其重复进行主动唤醒,提高了语音设备的使用体验感。
实施例2:
如图2所示,本实施例提供一种语音控制唤醒方法,用于对实施例1中提供的一种语音设备进行控制,语音设备可自动实施如下操作:
S1:获取语音设备图像识别范围内的图像数据。
语音设备中设置有摄像单元用于采集语音设备图像识别范围内的图像数据,即可采集摄像单元可视范围内的图像,并将所采集的图像传送给图像处理单元进行处理。本实施例中的摄像单元为双目摄像头,能有效避免静态图片,且能实时检测图像采集范围内人物脸和头部的动作。
S2:根据图像数据判断图像识别范围内是否有人,若有,则对其进行人脸追踪并获取脸部朝向信息。
语音设备中设置有图像识别单元,可依据双目摄像头所采集的两张不同角度的图像进行处理、识别,其处理、识别的结果相对于由单目摄像头采集的图像更精确,能够提高图像识别的准确度。
图像识别单元识别的内容包括识别人脸,若在所采集的图像中采用识别出人脸,则认为所采集的图像中有语音设备的人物,且该人物在图像识别范围内,其中,图像识别单元采用人脸检测算法对所采集的图像进行人脸图像识别。
优选的,操作S2中还包括S21,
S21:根据图像识别结果判断人物数量,若人物数量为单个,则对单个人物进行人脸追踪并获取脸部朝向信息;
若人物数量为多个,则进一步判断多个人物中是否有人已备案,并获取备案人物数量,若有人已备案且备案人物数量为单个,则对已备案的单个人物进行人脸追踪并获取脸部朝向信息。
图像识别单元识别的内容还包括识别人物数量,图像识别单元在成功进行人脸识别的基础上进一步识别出人脸的数量,进而核算出所采集的图像中包含的人物数量,并由此判断人物数量是单个还是多个。若判断出人物数量是单个,控制单元控制双目摄像头锁定单个人物并持续进行图像采集,即对其进行人脸追踪,通过对持续采集的图像进行分析处理获取人物脸部朝向,便于后续操作步骤的顺利实施。
若判断出人物数量是多个,则将采集的多个人物图像与存储单元中预存的人物图像进行逐一匹配,若匹配成功,则说明所采集图像中的多个人中有人已备案,在此基础上进一步判断匹配成功的人物数量,若是单人,则控制单元控制双目摄像头锁定已备案的单个人物并持续进行图像采集,通过对持续采集的图像进行分析处理获取人物脸部朝向。
优选的,操作S21中还包括S211,
S211:若备案人物数量为多个,则获取多个备案人物与语音设备之间的距离,再对距离语音设备最近的已备案人物进行人脸追踪并获取脸部朝向信息。
若图像处理单元将采集的多个人物图像与存储单元中预存的人物图像进行逐一匹配后,判断出匹配成功的人物是多个,则进一步获取多个已备案的人物与语音设备之间的距离并对距离的长短进行判断,控制单元再控制双目摄像头锁定距离语音设备最近的已备案人物并持续进行图像采集,获取人物脸部朝向,其中,图像识别单元根据双目摄像头所采集图像的数据视差计算出人物与语音设备之间的距离。
优选的,操作S21中还包括S212,
S212:若多个人物均没有备案,则获取多个人物各自与语音设备之间的距离,再对距离语音设备最近的人进行人脸追踪并获取脸部朝向信息。
若图像识别单元识别出所采集的图像中人物为多个,且通过与存储单元中预存的人物图像进行逐一匹配均没有匹配成功,表明所采集图像中的多个人物均没有备案,则进一步获取所采集图像中的多个人物与语音设备之间的距离并对距离长短进行判断,控制单元再控制双目摄像头锁定距离语音设备最近的人物并持续进行图像采集,获取人物脸部朝向。
S3:根据脸部朝向信息判断人物与语音设备是否有交互倾向。
优选的,操作S3还包括操作S31,
S31:根据脸部朝向信息判断人物脸部是否朝向语音设备,若为是,则获取人物脸部朝向语音设备持续时间T’,并判断T’是否大于等于预设时间T,若为是,则认为人物与语音设备有交互倾向。
优选的,操作S31中,若判断出人物脸部没有朝向语音设备,或人物脸部朝向语音设备持续时间T’小于预设时间T,则认为人物与语音设备没有交互倾向。
优选的,操作S31中,判断人物脸部是否朝向语音设备的方式为:获取人物脸部图像并对其进行处理,判断处理后的脸部图像偏置角度是否在预设偏置角度范围内,若为是,则认为人物脸部是朝向语音设备,否则认为人物脸部没有朝向语音设备。
图像识别单元在对人物进行人脸追踪的过程中持续获取人物人脸图像,再对其进行处理获取人物正脸图像。具体的,图像识别单元先对人物的脸部图像进行平滑去噪预处理,再提取人脸图像特征信息并采用模板分类器对其进行处理获取人物正脸图像,其中,人脸图像特征信息包括人物头部方向、脸部方向、脸部仰角以及瞳孔眼珠占位比。图像识别单元再将处理后的人物正脸图像与预设正脸图像进行比对处理获取人脸图像偏置角度,其中,预设正脸图像是存储单元中预存储的人物正脸图像;人脸图像偏置角度包括上偏置角度、下偏置角度、左偏置角度以及右偏置角度,再通过深度学习循环神经网络算法模型匹配判断所获取的人脸图像偏置角度是否均在预设上偏置角度、预设下偏置角度、预设左偏置角度以及预设右偏置角度范围内,若均在范围内,则认为人物脸部是朝向语音设备,即认为图像采集范围内的人物正注视着语音设备,此时该人物可能与语音设备有交互倾向;若图像识别单元判断出人物的脸部没有朝向语音设备,即认为图像采集范围内的人物没有注视语音设备,也认为图像采集范围内的人物与语音设备没有交互倾向。
在判断出人物的脸部是朝向语音设备的情况下,即认为该人物可能与语音设备有交互倾向的情况下,图像识别单元对人物脸部朝向语音设备持续的时间T’开始计时,并判断T’是否大于等于预设时间T,若T’大于等于预设时间T,则认为人物与语音设备有交互倾向;若T’小于预设时间T,则认为该人物与语音设备没有交互倾向,其中,预设时间T的范围为0s-5s,本实施例中预设时间T优选为1s,提高了语音设备反应速度,减少了人物等待时间。
优选的,控制单元控制显示单元在人物与语音设备有交互倾向情况下对人物进行命令提示,即控制显示单元屏幕亮起并显示服务内容词条或语音命令词对人物进行提醒。进一步可选的,控制单元可控制语音识别单元的语音播放模块播放服务内容词条或语音命令词对人物进行提醒或引导。服务内容词条如“天气预报”、“播放新闻”等;语音命令词如“打开音乐播放器”、“播放音乐”等。
S4:当人物与语音设备有交互倾向时,获取人物的脸部区域位置,再根据脸部区域位置获取嘴部区域位置。
由于图像识别单元可根据双目摄像头采集的两张图片的视差分析、获取人物的位置、方向信息,并进一步锁定人物脸部区域,再将人物脸部区域的位置信息传送给雷达探测单元,使其能方便、快速地探测人物嘴部是否发生动作变化。
S5:根据人物的嘴部区域位置探测其嘴部是否发生动作变化,若发生动作变化,则使语音设备开启语音识别功能。
雷达探测单元针对脸部区域中的嘴部是否因说话发生动作做进一步探测,若发生动作,则认为人物有说话倾向,控制单元应该控制语音识别单元开启语音识别功能对人物即将可能说出的语音命令进行识别;若没有发生动作,则认为人物没有说话倾向,则无需控制语音识别单元开启语音识别功能。
优选的,操作S5中,探测人物嘴部是否发生动作变化的方式为毫米波雷达探测技术、声源定位技术或TOF中的至少一种,其中,TOF为飞行时间技术。
本实施例中,雷达探测单元为毫米波雷达,其采用毫米波雷达成像技术对人物的嘴部动作进行探测,其中,毫米波雷达成像技术是基于人物嘴部动态图像对嘴部说话时的运动特点进行捕捉和识别,具体的,首先通过使用基本训练数据进行嘴部检测、特征提取和训练以获取嘴部动作识别的通用模型,再采用所采集的人物嘴部动态图像获取人物嘴部特征对通用模型进行自适应调整,得到语音设备前的人物嘴部识别模型,最后采用嘴部活体深度识别算法对该人物嘴部识别模型进行识别,若识别到该人物序列帧图像中嘴唇发生变化则认为嘴部发生了动作,进而认为该人物有说话倾向,即认为该人物即将说话。
在判断出该人物有说话倾向的前提下,控制单元控制语音设备的语音单元开启并执行语音识别功能,对人物说话的内容进行识别,并在识别完成后向其反馈识别结果。具体的,语音识别单元先采集语音设备所处环境中的声音,再对其进行语音处理以提取纯净的人声,之后对纯净的人声进行识别和语义解析,最后采用语音播报或屏幕显示的方式将语音识别的结果向人物反馈,本实施例中采用语音播报的方式向人物反馈语音识别的结果,其中,语音处理的内容包括声源定位、自动增益、去混响以及回声消除。
本实施例提供一种语音控制唤醒方法,获取语音设备图像识别范围内的图像数据;判断图像识别范围内是否有人;判断人物与语音设备是否有交互倾向;当人物与语音设备有交互倾向时,获取人物的脸部区域位置,再根据脸部区域位置获取嘴部区域位置,在人物说话前探测到人物的嘴部发生动作,判断出人物有说话倾向,再利用声音传播和视觉传播的时间差快速唤醒语音识别单元的语音识别功能,无需人物通过按键、说特定语音词、或做特定手势激活、唤醒语音设备,或在下次控制前对其重复进行主动唤醒,控制简单,识别精度高。
实施例3:
本实施例提供一种存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在设备执行实施例2提供的语音控制唤醒方法。
实施例4:
本实施例提供一种处理器,处理器用于运行程序,其中,程序运行时执行实施例2提供的语音控制唤醒方法。
综上,本发明提供一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电,通过获取语音设备图像识别范围内的图像数据;根据图像数据判断图像识别范围内是否有人,若有,则对其进行人脸追踪并获取脸部朝向信息;根据脸部朝向信息判断人物与语音设备是否有交互倾向;当人物与语音设备有交互倾向时,获取人物的脸部区域位置,再根据脸部区域位置获取嘴部区域位置;根据人物的嘴部区域位置探测其嘴部是否发生动作变化,若发生动作变化,则使语音设备开启语音识别功能,解决现有技术中语音设备使用者控制语音设备还需要对其进行主动唤醒的问题,提升了语音设备的使用体验感。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
Claims (13)
1.一种语音控制唤醒方法,用于对语音设备进行控制,其特征在于,所述语音设备可自动实施如下操作:
S1:获取所述语音设备图像识别范围内的图像数据;
S2:根据所述图像数据判断图像识别范围内是否有人,若有,则对其进行人脸追踪并获取脸部朝向信息;
S3:根据所述脸部朝向信息判断人物与所述语音设备是否有交互倾向;
S4:当所述人物与所述语音设备有交互倾向时,获取所述人物的脸部区域位置,再根据所述脸部区域位置获取嘴部区域位置;
S5:根据所述人物的嘴部区域位置探测其嘴部是否发生动作变化,若发生动作变化,则使所述语音设备开启语音识别功能。
2.如权利要求1所述的语音控制唤醒方法,其特征在于,所述操作S2中还包括S21,
S21:根据所述图像识别结果判断人物数量,若所述人物数量为单个,则对单个人物进行人脸追踪并获取脸部朝向信息;
若所述人物数量为多个,则进一步判断所述多个人物中是否有人已备案,并获取备案人物数量,若有人已备案且备案人物数量为单个,则对已备案的单个人物进行人脸追踪并获取脸部朝向信息。
3.如权利要求2所述的语音控制唤醒方法,其特征在于,所述操作S21中还包括S211,
S211:若所述备案人物数量为多个,则获取多个备案人物与所述语音设备之间的距离,再对距离所述语音设备最近的已备案人物进行人脸追踪并获取脸部朝向信息。
4.如权利要求2或3所述的语音控制唤醒方法,其特征在于,所述操作S21中还包括S212,
S212:若所述多个人物均没有备案,则获取所述多个人物各自与所述语音设备之间的距离,再对距离所述语音设备最近的人进行人脸追踪并获取脸部朝向信息。
5.如权利要求1所述的语音控制唤醒方法,其特征在于,所述操作S3还包括操作S31,
S31:根据所述脸部朝向信息判断所述人物脸部是否朝向所述语音设备,若为是,则获取所述人物脸部朝向所述语音设备持续时间T’,并判断所述T’是否大于等于预设时间T,若为是,则认为所述人物与所述语音设备有交互倾向。
6.如权利要求5所述的语音控制唤醒方法,其特征在于,所述操作S31中,若判断出所述人物脸部没有朝向所述语音设备,或所述人物脸部朝向所述语音设备持续时间T’小于预设时间T,则认为所述人物与所述语音设备没有交互倾向。
7.如权利要求5或6所述的语音控制唤醒方法,其特征在于,所述操作S31中,判断所述人物脸部是否朝向所述语音设备的方式为:获取所述人物脸部图像并对其进行处理,判断处理后的所述脸部图像偏置角度是否在预设偏置角度范围内,若为是,则认为所述人物脸部是朝向所述语音设备,否则认为所述人物脸部没有朝向所述语音设备。
8.如权利要求1所述的语音控制唤醒方法,其特征在于,所述操作S5中,探测所述人物嘴部是否发生动作变化的方式为毫米波雷达探测技术、声源定位技术或TOF中的至少一种。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1-8任一所述的语音控制唤醒方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-8任一所述的语音控制唤醒方法。
11.一种语音设备,其特征在于,采用权利要求1-8任一所述的语音控制唤醒方法,或具有权利要求9所述的存储介质,或具有权利要求10所述的处理器。
12.如权利要求11所述的语音设备,其特征在于,包括摄像头单元、图像识别单元、雷达探测单元、语音识别单元以及控制单元,其中,
所述摄像头单元,用于采集所述语音设备图像识别范围内的图像数据;
所述图像识别单元,用于对所采集的图像数据进行识别;
所述雷达探测单元,用于探测所述人物嘴部是否发生动作变化;
所述语音识别单元,用于对所述人物的语音进行识别;
所述控制单元,包括处理器,所述处理器执行程序使所述摄像头单元、所述图像识别单元、所述雷达探测单元以及所述语音识别单元实现各自功能。
13.一种智能家电,其特征在于,采用权利要求1-8任一所述的语音控制唤醒方法,或具有权利要求9所述的存储介质,或具有权利要求10所述的处理器,或采用权利要求11-12任一所述的语音设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010363370.7A CN111583937A (zh) | 2020-04-30 | 2020-04-30 | 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010363370.7A CN111583937A (zh) | 2020-04-30 | 2020-04-30 | 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111583937A true CN111583937A (zh) | 2020-08-25 |
Family
ID=72117184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010363370.7A Pending CN111583937A (zh) | 2020-04-30 | 2020-04-30 | 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583937A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927691A (zh) * | 2021-02-23 | 2021-06-08 | 中国人民解放军陆军装甲兵学院 | 一种语音识别控制装置和方法 |
CN113035196A (zh) * | 2021-03-09 | 2021-06-25 | 思必驰科技股份有限公司 | 用于自助一体机的无接触操控方法和装置 |
CN113113009A (zh) * | 2021-04-08 | 2021-07-13 | 思必驰科技股份有限公司 | 多模态语音唤醒和打断方法及装置 |
WO2022188552A1 (zh) * | 2021-03-10 | 2022-09-15 | Oppo广东移动通信有限公司 | 设备控制方法及相关装置 |
WO2023097951A1 (zh) * | 2021-11-30 | 2023-06-08 | 歌尔股份有限公司 | 智能安防控制方法、智能安防设备及控制器 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000347692A (ja) * | 1999-06-07 | 2000-12-15 | Sanyo Electric Co Ltd | 人物検出方法、人物検出装置及びそれを用いた制御システム |
CN105116994A (zh) * | 2015-07-07 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能机器人追踪方法和追踪装置 |
CN106096373A (zh) * | 2016-06-27 | 2016-11-09 | 旗瀚科技股份有限公司 | 机器人与用户的交互方法及装置 |
CN107679506A (zh) * | 2017-10-12 | 2018-02-09 | Tcl通力电子(惠州)有限公司 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
CN108733420A (zh) * | 2018-03-21 | 2018-11-02 | 北京猎户星空科技有限公司 | 智能设备的唤醒方法、装置、智能设备和存储介质 |
CN109767774A (zh) * | 2017-11-08 | 2019-05-17 | 阿里巴巴集团控股有限公司 | 一种交互方法和设备 |
CN109977811A (zh) * | 2019-03-12 | 2019-07-05 | 四川长虹电器股份有限公司 | 基于嘴部关键位置特征检测实现免语音唤醒的系统及方法 |
CN110335603A (zh) * | 2019-07-12 | 2019-10-15 | 四川长虹电器股份有限公司 | 应用于电视场景的多模态交互方法 |
-
2020
- 2020-04-30 CN CN202010363370.7A patent/CN111583937A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000347692A (ja) * | 1999-06-07 | 2000-12-15 | Sanyo Electric Co Ltd | 人物検出方法、人物検出装置及びそれを用いた制御システム |
CN105116994A (zh) * | 2015-07-07 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能机器人追踪方法和追踪装置 |
CN106096373A (zh) * | 2016-06-27 | 2016-11-09 | 旗瀚科技股份有限公司 | 机器人与用户的交互方法及装置 |
CN107679506A (zh) * | 2017-10-12 | 2018-02-09 | Tcl通力电子(惠州)有限公司 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
CN109767774A (zh) * | 2017-11-08 | 2019-05-17 | 阿里巴巴集团控股有限公司 | 一种交互方法和设备 |
CN108733420A (zh) * | 2018-03-21 | 2018-11-02 | 北京猎户星空科技有限公司 | 智能设备的唤醒方法、装置、智能设备和存储介质 |
CN109977811A (zh) * | 2019-03-12 | 2019-07-05 | 四川长虹电器股份有限公司 | 基于嘴部关键位置特征检测实现免语音唤醒的系统及方法 |
CN110335603A (zh) * | 2019-07-12 | 2019-10-15 | 四川长虹电器股份有限公司 | 应用于电视场景的多模态交互方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927691A (zh) * | 2021-02-23 | 2021-06-08 | 中国人民解放军陆军装甲兵学院 | 一种语音识别控制装置和方法 |
CN113035196A (zh) * | 2021-03-09 | 2021-06-25 | 思必驰科技股份有限公司 | 用于自助一体机的无接触操控方法和装置 |
WO2022188552A1 (zh) * | 2021-03-10 | 2022-09-15 | Oppo广东移动通信有限公司 | 设备控制方法及相关装置 |
CN113113009A (zh) * | 2021-04-08 | 2021-07-13 | 思必驰科技股份有限公司 | 多模态语音唤醒和打断方法及装置 |
WO2023097951A1 (zh) * | 2021-11-30 | 2023-06-08 | 歌尔股份有限公司 | 智能安防控制方法、智能安防设备及控制器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583937A (zh) | 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 | |
CN110047487B (zh) | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 | |
US10013977B2 (en) | Smart home control method based on emotion recognition and the system thereof | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
US10733987B1 (en) | System and methods for providing unplayed content | |
US11854550B2 (en) | Determining input for speech processing engine | |
US9899025B2 (en) | Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities | |
WO2018018906A1 (zh) | 一种语音门禁和安静环境监控方法及系统 | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
US8793134B2 (en) | System and method for integrating gesture and sound for controlling device | |
EP2595031A2 (en) | Display apparatus and control method thereof | |
CN109448705B (zh) | 一种语音切分方法及装置、计算机装置和可读存储介质 | |
CN111724780B (zh) | 设备的唤醒方法及装置、电子设备、存储介质 | |
Ivanko et al. | Multimodal speech recognition: increasing accuracy using high speed video data | |
CN109255064A (zh) | 信息搜索方法、装置、智能眼镜及存储介质 | |
CN111326152A (zh) | 语音控制方法及装置 | |
CN109841221A (zh) | 基于语音识别的参数调节方法、装置及健身设备 | |
CN115988164A (zh) | 一种会议室多媒体控制方法、系统及计算机设备 | |
KR20210066774A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
CN115206306A (zh) | 语音交互方法、装置、设备及系统 | |
CN106971715A (zh) | 一种应用于机器人的语音识别装置 | |
KR20130054131A (ko) | 디스플레이장치 및 그 제어방법 | |
CN114571473A (zh) | 足式机器人的控制方法、装置及足式机器人 | |
CN206133569U (zh) | 智能led交互装置 | |
Yin et al. | Acoustic-based Lip Reading for Mobile Devices: Dataset, Benchmark and A Self Distillation-based Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200825 |