CN109582139A - 一种机器交互启动触发方法及系统 - Google Patents
一种机器交互启动触发方法及系统 Download PDFInfo
- Publication number
- CN109582139A CN109582139A CN201811388163.6A CN201811388163A CN109582139A CN 109582139 A CN109582139 A CN 109582139A CN 201811388163 A CN201811388163 A CN 201811388163A CN 109582139 A CN109582139 A CN 109582139A
- Authority
- CN
- China
- Prior art keywords
- image
- user images
- machine interaction
- key point
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种机器交互启动触发方法及系统,所述方法包括如下步骤:步骤S1,获取多张用户图像;步骤S2,基于人脸识别技术,获取所述多张用户图像中眼睛处于注视状态且嘴巴说话的用户图像作为目标图像;步骤S3,根据所述目标图像触发启动所述机器交互逻辑,本发明可基于眼睛和嘴巴变化实现自动触发机器交互的目的,使人机交互效果更满足用户需求。
Description
技术领域
本发明涉及图象识别处理技术领域,特别是涉及一种机器交互启动触发方法及系统。
背景技术
随着社会经济和计算机技术的不断发展,人类生活水平不断提高。为了提高生活娱乐性以及满足人类需求,各种智能产品应运而生。
智能产品,利用计算机、网络通信、自动控制、感知识别等技术,把相关各种应用子系统有机结合,通过综合管理,提供全方位的信息交换,实现人机自然交互,优化人类生活,如:智能手机、智能音箱、智能家居等。目前,这些智能产品较为普遍的触发方式有震动、光感、声音、手势,而声音触发基于自身便利性,受到普遍大众青睐。
然而,根据调查研究,市面流行的声音触发智能产品,普遍存在以下不足:1)实现人机交互的前提是接收特定的语音唤醒词指令,即:没有特定的唤醒词指令,交互无法启动进行;2)不同产品的语音唤醒词指令不同,约束产品通用性,用户需要提前获悉并记忆唤醒词,使用门槛高;3)部分产品具有休眠状态,需要通过触摸等物理方式唤醒语音接收功能,用户需要具备专业知识。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种机器交互启动触发方法及系统,以基于眼睛和嘴巴变化实现自动触发机器交互的目的,使人机交互效果更满足用户需求。
为达上述及其它目的,本发明提出一种机器交互启动触发方法,包括如下步骤:
步骤S1,获取多张用户图像;
步骤S2,基于人脸识别技术,获取所述多张用户图像中眼睛处于注视状态且嘴巴说话的用户图像作为目标图像;
步骤S3,根据所述目标图像触发启动所述机器交互逻辑。
优选地,于步骤S1中,利用摄像头实时抓拍现场用户视频,并利用视频处理技术提取视频,从中提取多张静态图像,并基于抽取的多张静态图像,从中选取图像中头部面积与整体图像面积占比大于一预设阈值的图像,作为用户图像。
优选地,于步骤S1中,所述预设阈值大于或等于十分之一。
优选地,步骤S2进一步包括:
步骤S200,对获得的用户图像,基于人脸识别技术,获得图像中人脸区域以及对应的人脸特征图;
步骤S201,根据人脸特征图及其对应的双眼位置不同、嘴巴关键点是否发生位移获得所述目标图像。
优选地,步骤S201进一步包括:
步骤S201a,基于人脸识别技术,分别获得用户图像中包括左/右眼关键点的矩形框宽度;
步骤S201b,根据左右眼关键点的矩形框宽度确定该用户图像的头部转向,获得处于注视状态的用户图像;
步骤S201c,基于眼睛处于注视状态的用户图像,跟踪连续视频帧的图像中嘴巴的关键点,确定嘴巴关键点是否发生位移;
步骤S201d,将眼睛处于注视状态且嘴巴关键点发生位移的用户图像作为目标图像。
优选地,于步骤S201b中,若当前图像的包括左/右眼关键点的矩形框宽度的差值小于预设阈值,则判定当前图像处于注视状态。
优选地,于步骤S201b中,若当前图像的包括左眼关键点的矩形框宽度小于右眼关键点的矩形框宽度,且差值超过预设阈值时,则判定当前图像中用户头部转向左边。
优选地,于步骤S201b中,若当前图像的包括右眼关键点的矩形框宽度小于包括左眼关键点的矩形框宽度,且差值超过预设阈值时,则判定当前图像中用户头部转向右边。
为达到上述目的,本发明还提供一种机器交互启动触发系统,包括:
用户图像获取单元,用于获取多张用户图像;
目标图像获取单元,用于基于人脸识别技术,获取眼睛处于注视状态且嘴巴说话的用户图像作为目标图像;
机器交互触发单元,用于根据获得的目标图像触发启动所述机器交互逻辑。
优选地,所述目标图像获取单元包括:
人脸识别单元,用于对获得的用户图像,并基于人脸识别技术,获得用户图像中人脸区域以及对应的人脸特征图;
目标图像筛选单元,用于根据人脸特征图及其对应的双眼位置不同、嘴巴关键点是否发生位移获得目标图像。
与现有技术相比,本发明一种机器交互启动触发方法及系统通过利用人脸识别技术识别图像中人脸的左右眼位置,并通过对比以及追踪连续视频帧图像嘴巴的关键点是否发生相对位移,获得眼睛处于注视且嘴巴处于说话状态的目标图像,并根据其自动触发机器与用户进行交互,从而达到自动触发机器交互逻辑的目的,提高了智能产品通用性,降低了用户使用门槛,使人机交互效果更满足用户需求。
附图说明
图1为本发明一种机器交互启动触发方法的步骤流程图;
图2为本发明一种机器交互启动触发系统的系统架构图;
图3为本发明具体实施例中机器交互启动触发流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种机器交互启动触发方法的步骤流程图。如图1所示,本发明一种机器交互启动触发方法,包括如下步骤:
步骤S1,获取多张用户图像。在本发明具体实施例中,可利用机器(以智能手机为例)自身包含的摄像头,实时抓拍现场用户视频,并利用视频处理技术提取视频,以抽帧形式,例如抽取30帧,从中提取多张静态图像,并基于抽取的多张静态图像,从中选取图像中头部面积与整体图像面积占比大于一预设阈值的图像,作为用户图像,在本发明具体实施例中,该预设阈值最好大于或等于1/10,例如,提取图像中头部面积至少大于整体图像面积1/10的图像,作为用户图像。
步骤S2,基于人脸识别技术,获取眼睛处于注视状态且嘴巴说话的用户图像作为目标图像。
本发明中采用的人脸识别技术,是基于人的脸部特征信息进行身份识别的一种生物识别技术,其一般包括四个部分,分别是:人脸图像采集及检测、人脸图像预处理、人脸图像特征提取以及人脸图像匹配与识别。由于人脸识别技术已为现有的成熟技术,在此不予赘述。
具体地说,步骤S2进一步包括:
步骤S200,对获得的用户图像,基于人脸识别技术,获得图像中人脸区域以及对应的人脸特征图。所述人脸特征图,是基于人脸识别技术,对人的脸部特征信息,如:眼睛、鼻子、嘴巴等,用若干(一般采用68个)特征关键点组成的图像。
步骤S201,根据人脸特征图及其对应的双眼位置不同、嘴巴关键点是否发生位移获得目标图像。
具体地说,步骤S201进一步包括:
步骤S201a,基于人脸识别技术,分别得出包括左右眼关键点的矩形框宽度;
步骤S201b,根据左右眼关键点的矩形框宽度确定相应的用户图像的头部转向。具体地说,若包括左眼关键点的矩形框宽度大于右眼关键点的矩形框宽度且差值超过一预设阈值时,则代表用户图像中用户的头部正转向右边,判定此时用户图像中用户头部转向右边;若包括左眼关键点的矩形框宽度小于右眼关键点的矩形框宽度,且差值超过一预设阈值时,则代表用户图像中用户的头部正转向左边,判定用户图像中用户头部转向左边;若发现分别包括左右眼关键点的矩形框宽度接近,例如其差值绝对值小于一预设阈值,则代表用户图像头部正对机器摄像头,则判定该用户图像中用户处于注视状态;
步骤S201c,基于眼睛处于注视状态的用户图像,跟踪连续视频帧的图像中嘴巴的关键点,确定嘴巴关键点是否发生位移;
步骤S201d,将眼睛处于注视状态且嘴巴关键点发生位移的用户图像作为目标图像。
举例来说,当对某一张用户图像进行人脸识别处理后,可获得该图像中的人脸区域以及该图像中包括左右眼关键点的矩形框宽度,根据该矩形框宽度确定该图像中用户是否处于注视机器状态,若判断当前用户图像中的用户不处于注视状态,即左右眼关键点的矩形框宽度差值绝对值大于预设阈值时,则继续下一张用户图像进行上述判断;若判断当前用户图像中的用户正处于注视状态(即左右眼关键点的矩形框宽度差值绝对值小于预设阈值),则跟踪该图像的连续帧的图像中的嘴巴的关键点,根据连续帧图像中的嘴巴关键点的位置确定嘴巴关键点是否发生位移,若发生了位移,则说明该用户图像中的用户既注视机器又处于说话状态,则将其作为目标图像,而若嘴巴关键点未发生位移,则继续下一张用户图像以进行上述流程。
步骤S3,根据获得的目标图像触发启动机器交互逻辑。也就是说,当获得用户的目标图像时,说明用户当前已处于注视机器且嘴巴说话的状态,则触发机器交互逻辑,允许用户与机器进行交互。
图2为本发明一种机器交互启动触发系统的系统架构图。如图2所示,本发明一种机器交互启动触发系统,包括:
用户图像获取单元201,用于获取多张用户图像。在本发明具体实施例中,用户图像获取单元201可利用机器自身包含的摄像头,实时抓拍现场用户视频,并利用视频处理技术提取视频,以抽帧形式,例如抽取30帧,从中提取多张静态图像,并基于抽取的多张静态图像,从中选取图像中头部面积与整体图像面积占比大于一预设阈值的图像,作为用户图像,例如,提取图像中头部面积大于整体图像面积1/10的图像,作为用户图像。
目标图像获取单元202,基于人脸识别技术,获取眼睛处于注视状态且嘴巴说话的用户图像作为目标图像。
具体地说,目标图像获取单元202进一步包括:
人脸识别单元,用于对获得的用户图像,基于人脸识别技术,获得图像中人脸区域以及对应的人脸特征图。所述人脸特征图,是基于人脸识别技术,对人的脸部特征信息,如:眼睛、鼻子、嘴巴等,用若干(一般采用68个)特征关键点组成的图像。
目标图像筛选单元,根据人脸特征图及其对应的双眼位置不同、嘴巴关键点是否发生位移获得目标图像。
在本发明具体实施例中,目标图像筛选单元具体用于:
基于人脸识别技术,分别获得包括左右眼关键点的矩形框宽度;
根据左右眼关键点的矩形框宽度确定相应的用户图像的头部转向。具体地说,若包括左眼关键点的矩形框宽度大于右眼关键点的矩形框宽度且差值超过一预设阈值时,则代表用户图像中用户的头部正转向右边,判定此时用户图像中用户头部转向右边;若包括左眼关键点的矩形框宽度小于右眼关键点的矩形框宽度,且差值超过一预设阈值时,则代表用户图像中用户的头部正转向左边,判定用户图像中用户头部转向左边;若发现分别包括左右眼关键点的矩形框宽度接近,例如其差值绝对值小于一预设阈值,则代表用户图像头部正对机器摄像头,则判定该用户图像中用户处于注视状态;
基于眼睛处于注视状态的用户图像,跟踪连续视频帧的图像中嘴巴的关键点,确定嘴巴关键点是否发生位移;
将眼睛处于注视状态且嘴巴关键点发生位移的用户图像作为目标图像。
机器交互触发单元203,用于根据获得的目标图像触发机器交互逻辑。也就是说,当获得用户的目标图像时,说明用户当前已处于注视机器且嘴巴说话的状态,则由机器交互触发单元203触发机器交互逻辑,即允许用户与机器进行交互。
图3为本发明具体实施例之机器交互启动触发流程图。在本发明具体实施例中,机器以智能手机为例,其机器交互启动触发流程如下:
步骤1,通过智能手机的摄像头实时抓怕用户视频,以抽帧形式提取多张静态图像,在本实施例中,通过机器摄像头实时抓怕用户视频,以抽帧形式提取多张静态图像;
步骤2,基于抽取的多张静态图像,从中提取出用户头部面积大于整体图像1/10的图像作为用户图像;
步骤3,对获得的用户图像基于人脸识别技术,得出各图像中分别包括左右眼关键点的矩形框宽度;
步骤4,对某一用户图像,判断左右眼矩形框宽度接近;
步骤5,若是,则判断当前用户处于注视状态,并跟踪当前图像连续视频帧的图像中嘴巴的关键点;若不是,用户处于非注视状态,则返回步骤3,继续下一用户图像的判断;
步骤6,判断当前图像的嘴巴关键点是否产生相对位移;
步骤7,若是,则当前图像作为目标图像,并触发机器交互逻辑,启动机器交互;若不是,则触发机器交互逻辑失败,返回步骤3,继续下一用户图像的判断。
综上所述,本发明一种机器交互启动触发方法及系统通过利用人脸识别技术识别图像中人脸的左右眼位置,并通过对比以及追踪连续视频帧图像嘴巴的关键点是否发生相对位移,获得眼睛处于注视且嘴巴处于说话状态的目标图像,并根据其自动触发机器与用户进行交互,从而达到自动触发机器交互逻辑的目的,提高了智能产品通用性,降低了用户使用门槛,使人机交互效果更满足用户需求。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种机器交互启动触发方法,包括如下步骤:
步骤S1,获取多张用户图像;
步骤S2,基于人脸识别技术,获取所述多张用户图像中眼睛处于注视状态且嘴巴说话的用户图像作为目标图像;
步骤S3,根据所述目标图像触发启动所述机器交互逻辑。
2.如权利要求1所述的一种机器交互启动触发方法,其特征在于:于步骤S1中,利用摄像头实时抓拍现场用户视频,并利用视频处理技术提取视频,从中提取多张静态图像,并基于抽取的多张静态图像,从中选取图像中头部面积与整体图像面积占比大于一预设阈值的图像,作为用户图像。
3.如权利要求2所述的一种机器交互启动触发方法,其特征在于:于步骤S1中,所述预设阈值大于或等于十分之一。
4.如权利要求1所述的一种机器交互启动触发方法,其特征在于,步骤S2进一步包括:
步骤S200,对获得的用户图像,基于人脸识别技术,获得图像中人脸区域以及对应的人脸特征图;
步骤S201,根据人脸特征图及其对应的双眼位置不同、嘴巴关键点是否发生位移获得所述目标图像。
5.如权利要求4所述的一种机器交互启动触发方法,其特征在于,步骤S201进一步包括:
步骤S201a,基于人脸识别技术,分别获得用户图像中包括左/右眼关键点的矩形框宽度;
步骤S201b,根据左右眼关键点的矩形框宽度确定该用户图像的头部转向,获得处于注视状态的用户图像;
步骤S201c,基于眼睛处于注视状态的用户图像,跟踪连续视频帧的图像中嘴巴的关键点,确定嘴巴关键点是否发生位移;
步骤S201d,将眼睛处于注视状态且嘴巴关键点发生位移的用户图像作为目标图像。
6.如权利要求5所述的一种机器交互启动触发方法,其特征在于:于步骤S201b中,若当前图像的包括左/右眼关键点的矩形框宽度的差值小于预设阈值,则判定当前图像处于注视状态。
7.如权利要求5所述的一种机器交互启动触发方法,其特征在于:于步骤S201b中,若当前图像的包括左眼关键点的矩形框宽度小于右眼关键点的矩形框宽度,且差值超过预设阈值时,则判定当前图像中用户头部转向左边。
8.如权利要求5所述的一种机器交互启动触发方法,其特征在于:于步骤S201b中,若当前图像的包括右眼关键点的矩形框宽度小于包括左眼关键点的矩形框宽度,且差值超过预设阈值时,则判定当前图像中用户头部转向右边。
9.一种机器交互启动触发系统,包括:
用户图像获取单元,用于获取多张用户图像;
目标图像获取单元,用于基于人脸识别技术,获取眼睛处于注视状态且嘴巴说话的用户图像作为目标图像;
机器交互触发单元,用于根据获得的目标图像触发启动所述机器交互逻辑。
10.如权利要求9所述的机器交互启动触发系统,其特征在于,所述目标图像获取单元包括:
人脸识别单元,用于对获得的用户图像,并基于人脸识别技术,获得用户图像中人脸区域以及对应的人脸特征图;
目标图像筛选单元,用于根据人脸特征图及其对应的双眼位置不同、嘴巴关键点是否发生位移获得目标图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811388163.6A CN109582139A (zh) | 2018-11-21 | 2018-11-21 | 一种机器交互启动触发方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811388163.6A CN109582139A (zh) | 2018-11-21 | 2018-11-21 | 一种机器交互启动触发方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109582139A true CN109582139A (zh) | 2019-04-05 |
Family
ID=65923186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811388163.6A Pending CN109582139A (zh) | 2018-11-21 | 2018-11-21 | 一种机器交互启动触发方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582139A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112688841A (zh) * | 2020-12-18 | 2021-04-20 | 宁波向往智汇科技有限公司 | 智能家居背景音乐控制系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358152A (zh) * | 2017-06-02 | 2017-11-17 | 广州视源电子科技股份有限公司 | 一种活体识别方法和系统 |
CN107491751A (zh) * | 2017-08-14 | 2017-12-19 | 成都伞森科技有限公司 | 坐姿分析方法及装置 |
CN107679506A (zh) * | 2017-10-12 | 2018-02-09 | Tcl通力电子(惠州)有限公司 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
-
2018
- 2018-11-21 CN CN201811388163.6A patent/CN109582139A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358152A (zh) * | 2017-06-02 | 2017-11-17 | 广州视源电子科技股份有限公司 | 一种活体识别方法和系统 |
CN107491751A (zh) * | 2017-08-14 | 2017-12-19 | 成都伞森科技有限公司 | 坐姿分析方法及装置 |
CN107679506A (zh) * | 2017-10-12 | 2018-02-09 | Tcl通力电子(惠州)有限公司 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112688841A (zh) * | 2020-12-18 | 2021-04-20 | 宁波向往智汇科技有限公司 | 智能家居背景音乐控制系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105700363B (zh) | 一种智能家居设备语音控制装置的唤醒方法及系统 | |
TWI646444B (zh) | 一種喚醒智慧機器人的方法及智慧機器人 | |
CN104159032B (zh) | 一种实时调整相机拍照美颜效果的方法及装置 | |
Tong et al. | A unified probabilistic framework for spontaneous facial action modeling and understanding | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
KR100948600B1 (ko) | 제스처/음성 융합 인식 시스템 및 방법 | |
CN102567716B (zh) | 一种人脸合成系统及实现方法 | |
CN103412643B (zh) | 终端及其遥控的方法 | |
CN107606512A (zh) | 一种智能台灯、基于智能台灯提醒用户坐姿的方法及装置 | |
CN103220583A (zh) | 基于智能电视的检测用户疲劳度的系统及方法 | |
CN102932212A (zh) | 一种基于多通道交互方式的智能家居控制系统 | |
CN111128157B (zh) | 一种智能家电的免唤醒语音识别控制方法、计算机可读存储介质及空调 | |
CN103713732A (zh) | 一种个人随身装置 | |
CN202815718U (zh) | 一种个人随身装置 | |
TWI621999B (zh) | 一種人臉檢測方法 | |
US20220084529A1 (en) | Method and apparatus for awakening wearable device | |
CN109101663A (zh) | 一种基于互联网的机器人对话系统 | |
CN109241924A (zh) | 基于互联网的多平台信息交互系统 | |
CN115909015B (zh) | 一种可形变神经辐射场网络的构建方法和装置 | |
CN108595012A (zh) | 基于虚拟人的视觉交互方法及系统 | |
CN107452381B (zh) | 一种多媒体语音识别装置及方法 | |
CN102737152A (zh) | 化妆比对方法 | |
CN110309693A (zh) | 多层次状态侦测系统与方法 | |
CN112149599B (zh) | 表情追踪方法、装置、存储介质和电子设备 | |
CN109582139A (zh) | 一种机器交互启动触发方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190405 |
|
RJ01 | Rejection of invention patent application after publication |