CN113705280A - 一种基于面部特征的人机交互方法及装置 - Google Patents

一种基于面部特征的人机交互方法及装置 Download PDF

Info

Publication number
CN113705280A
CN113705280A CN202010436211.5A CN202010436211A CN113705280A CN 113705280 A CN113705280 A CN 113705280A CN 202010436211 A CN202010436211 A CN 202010436211A CN 113705280 A CN113705280 A CN 113705280A
Authority
CN
China
Prior art keywords
user
face image
angle
image
value delta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010436211.5A
Other languages
English (en)
Other versions
CN113705280B (zh
Inventor
李华栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jujiangyi Media Co ltd
Original Assignee
Beijing Jujiangyi Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jujiangyi Media Co ltd filed Critical Beijing Jujiangyi Media Co ltd
Priority to CN202010436211.5A priority Critical patent/CN113705280B/zh
Priority claimed from CN202010436211.5A external-priority patent/CN113705280B/zh
Publication of CN113705280A publication Critical patent/CN113705280A/zh
Application granted granted Critical
Publication of CN113705280B publication Critical patent/CN113705280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于面部特征的人机交互方法及装置,其中,该方法包括:在播放预设视频时,连续获取多个用户图像,并分别提取出每个用户图像中的用户人脸图像;提取每个用户人脸图像中的面部特征信息;根据多个用户人脸图像的面部特征信息的变化值以及采集到用户人脸图像之间的时间间隔确定用户的位姿变化信息,位姿变化信息包括角度变化值和角速度变化值;根据位姿变化信息生成相应的控制指令,基于控制指令对预设视频执行相应的控制操作。通过本发明实施例提供的基于面部特征的人机交互方法及装置,通过检测人体面部生物特征和其运动姿态,判断用户人脸当前的运动状态,进而可以发出暂停或播放等控制信号,实现通过人脸运动对视频播放控制。

Description

一种基于面部特征的人机交互方法及装置
技术领域
本发明涉及人机交互技术领域,具体而言,涉及一种基于面部特征的人机交互方法及装置。
背景技术
在书法教育过程中,身体状态包括持笔姿势,手部动作,身体姿态等。心理状态变化有注意力焦点转移,学习兴趣波动,学习节奏打断等。传统书法信息化教学过程中,学员可以一边看教学视频一边练习书法,而在观看教学视频时,可能需要学员操作播放教学视频的设备,从而可能改变学员的身体状态或心理状态,身体和心理变化构成了学生学习过程中的重大障碍。
现有控制播放设备的方法有手动点击和语音控制两种方法。手动点击是指用手指点击移动端界面上的按钮来控制播放、暂停、快进和后退等。语音控制方法是用语音识别系统,将语音信号变成控制信号,控制视频播放、暂停、快进和后退等。
手动点击控制方法,需要学习者放下笔,改变写字姿态,并且导致写字心态波动。语音进行控制播放暂停,需要学习者从静态转到说话的动态,会对心理状态有影响,且语音识别容易产生歧义,且不适用于多人同时学习场景。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种基于面部特征的人机交互方法及装置。
第一方面,本发明实施例提供了一种基于面部特征的人机交互方法,包括:
在播放预设视频时,连续获取多个用户图像,并分别提取出每个所述用户图像中的用户人脸图像;
提取每个所述用户人脸图像中的面部特征信息;
根据多个所述用户人脸图像的面部特征信息的变化值以及采集到所述用户人脸图像之间的时间间隔确定用户的位姿变化信息,所述位姿变化信息包括角度变化值和角速度变化值;
根据所述位姿变化信息生成相应的控制指令,基于所述控制指令对所述预设视频执行相应的控制操作。
第二方面,本发明实施例还提供了一种基于面部特征的人机交互装置,包括:
图像获取模块,用于在播放预设视频时,连续获取多个用户图像,并分别提取出每个所述用户图像中的用户人脸图像;
特征提取模块,用于提取每个所述用户人脸图像中的面部特征信息;
位姿确定模块,用于根据多个所述用户人脸图像的面部特征信息的变化值以及采集到所述用户人脸图像之间的时间间隔确定用户的位姿变化信息,所述位姿变化信息包括角度变化值和角速度变化值;
控制模块,用于根据所述位姿变化信息生成相应的控制指令,基于所述控制指令对所述预设视频执行相应的控制操作。
本发明实施例上述第一方面提供的方案中,基于面部特征的人机交互方法,通过检测人体面部生物特征和其运动姿态,判断用户人脸当前的运动状态,进而可以发出暂停或播放等控制信号,实现通过人脸运动对视频播放控制。该交互方式简答,不需要用户大幅度移动身体,可以避免传统方法对书写状态的破坏,并且容易使学生保持学习心态的连续性。本申请提供的交互方式对于书法教育的信息化过程提供基础性的促进作用,具有重要的现实价值。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种基于面部特征的人机交互方法的流程图;
图2示出了本发明实施例所提供的基于面部特征的人机交互方法中,提取出的人脸特征点的示意图;
图3示出了本发明实施例所提供的一种基于面部特征的人机交互方法中,提取每个用户人脸图像中的面部特征信息的方法流程图;
图4示出了本发明实施例所提供的基于面部特征的人机交互方法中,人脸特征点的主视示意图;
图5示出了本发明实施例所提供的基于面部特征的人机交互方法中,人脸特征点的俯视示意图;
图6示出了本发明实施例所提供的基于面部特征的人机交互方法中,头部运动姿态的示意图;
图7示出了本发明实施例所提供的一种基于面部特征的人机交互装置的结构示意图;
图8示出了本发明实施例所提供的用于执行基于面部特征的人机交互方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种基于面部特征的人机交互方法,参见图1所示,包括:
步骤101:在播放预设视频时,连续获取多个用户图像,并分别提取出每个用户图像中的用户人脸图像。
本发明实施例中,预设视频指的是用户当前需要观看的视频,比如用户在练习书法时所需要观看的教学视频等。在通过某个设备播放该预设视频时,可以通过摄像头等器件采集设备前方用户的用户图像。该设备具体可以为智能手机、平板电脑、计算机等,本实施例对此不做限定。在获取到用户图像后,通过人脸检测技术即可提取出用户图像中的用户人脸图像。
一般来说,由于光照、拍摄角度等原因,会使用户图像存在过度曝光、不合理的对比度及扭曲等现象,同时由摄像头或者相机获得的图像背景还有可能具有很严重的污染噪声,因此存在失真、污染、断裂、模糊、扭曲等各种不利因素,而这些因素会影响后续特征提取的正确率。可选的,本实施例还包括对用户图像进行预处理的过程,通过预处理去除背景干扰和噪声以获得良好的识别率,可以提高后续特征提取的准确性。用户图像的预处理主要采用以下几个环节:图像的灰度增强、滤波、形态学处理及自适应二值化等。在对用户图像进行预处理后即可提取出预处理后的用户图像中的用户人脸图像。
此外,本实施例中可通过人脸检测网络提取用户图像中的用户人脸图像。具体的,该人脸检测网络是一个总计16层的卷积神经网络,由1个卷积层、12个Inception层、3个池化层和1个全连接层组成。网络输入为256×256像素大小的用户图像,输出是一个256维的特征向量,其中包含已提取的人脸特征信息。
网络的前端部分由卷积层和池化层组成,这部分结构的功能用以提取用户图像最基本的点、线、交点等低级特征。网络的主体部分由12个Inception层和2个池化层组成。从网络设计的角度分析,这14层结构负责从简单到复杂对前端输入进行排列组合,在网络训练的过程中学习能描述人脸差异的结构化特征,最终压缩至1024维特征向量。网络的输出端由全连接层构成,该层结构将输入的1024维特征向量压缩到256维进行输出。这种设计能随机屏蔽1024维向量到256维向量之间的连接,减轻网络训练时产生的过拟合现象,并最终提取出用户人脸图像。
步骤102:提取每个用户人脸图像中的面部特征信息。
本发明实施例中,面部特征信息包括从用户人脸图像中提取的特征点,或者与特征点相关的信息,比如特征点的坐标值等。其中,人脸的特征点指的是人脸的外轮廓以及五官附近的关键点,包括眉毛的外轮廓,眼睛的上下轮廓,鼻子的中线,嘴唇的上下轮廓等。如图2所示。使用人脸特征识别算法能够从用户人脸图像中定位出多个特征点,并可确定每个特征点的坐标,该坐标包含了整个人脸的姿态信息。图2中以定位出68个特征点(从0~67)为例说明。
步骤103:根据多个用户人脸图像的面部特征信息的变化值以及采集到用户人脸图像之间的时间间隔确定用户的位姿变化信息,位姿变化信息包括角度变化值和角速度变化值。
本发明实施例中会连续采集多个用户图像,即可以连续获取到多个用户人脸图像,通过不同用户人脸图像的不同的面部特征信息,可以确定面部特征信息之间的变化值;同时,获取到不同用户图像之间存在时间间隔,基于该变化值以及时间间隔即可确定速度变化值。同时,本实施例中将与角度相关的信息作为位姿变化信息,以该位姿变化信息来描述用户的头部转动情况。
步骤104:根据位姿变化信息生成相应的控制指令,基于控制指令对预设视频执行相应的控制操作。
本发明实施例中,通过位姿变化信息来表征用户头部的转动情况,进而可以生产与该位姿变化信息相对应的控制指令。例如,用户头部左转则生成快退指令,用户头部右转则生成快进指令,用户头部向上转动则生成暂停指令等。在声称该控制指令后即可控制该预设视频的播放情况,比如快进播放等。
本发明实施例提供的一种基于面部特征的人机交互方法,通过检测人体面部生物特征和其运动姿态,判断用户人脸当前的运动状态,进而可以发出暂停或播放等控制信号,实现通过人脸运动对视频播放控制。该交互方式简答,不需要用户大幅度移动身体,可以避免传统方法对书写状态的破坏,并且容易使学生保持学习心态的连续性。本申请提供的交互方式对于书法教育的信息化过程提供基础性的促进作用,具有重要的现实价值。
在上述实施例的基础上,参见图3所示,步骤102“提取每个用户人脸图像中的面部特征信息”包括:
步骤1021:提取用户人脸图像中的特征点,依次将特征点邻域内预设大小的图片与训练好的人脸五官滤波器进行相似性检测。
步骤1022:基于相机内参设置统一的坐标系,确定通过相似性检测的特征点在坐标系下的坐标值,坐标值为面部特征信息中的一项信息。
本发明实施例中,预先使用带标注的人脸五官样本集进行训练,训练完成后每一组参数都代表一个特定的小片滤波器,即人脸五官滤波器,比如眼睛滤波器、嘴巴滤波器等。通过训练好人脸五官滤波器,能对某特征点坐标邻域内的一小块图片进行相似性检测。例如,眼睛特征点附近采样的图片使用眼睛的小片模型进行检测,嘴巴特征点附近采样的图片使用嘴巴的小片模型进行检测。其中,可采用asm算法得到用户人脸图像中的特征点。
同时,用户采集用户图像的相机具有特定的相机内参,该相机内参是固定的,基于该相机内参可以设置坐标系,比如世界坐标系。在特征点通过相似性检测时,说明该特征点是有效的特征点,可以作为后续处理过程的参考,故此时可以确定该特征点的坐标值,以方便后续位姿参数的计算。
在上述实施例的基础上,若相机可以采集三维的人脸图像,则根据人脸特征点的三维坐标的变化可以方便确定头部转动情况。但是由于一般设备的相机只能采集二维的平面图像,即相机采集的用户人脸图像不具有深度信息,此时利用二维的平面图像来确定头部转动时需要大量处理过程,会降低处理效率。本实施例中通过选取部分特征点的方式来确定用户头部转动情况,具体的,面部特征信息包括特征点的坐标值,上述步骤103“确定用户的位姿变化信息”包括:
步骤A1:预先从用户的特征点中选取至少四个标准特征点Sa,Sb,Sc,Sd;其中,在标准人脸图像中,标准特征点Sa与Sb之间的线段与标准特征点Sc与Sd之间的线段之间的夹角与90度之间的差值小于预设值。
本发明实施例中,预先确定至少四个特征点,即四个标准特征点,该四个特征点中两个特征点Sa与Sb之间的线段与特征点Sc与Sd之间的线段之间的夹角与90度之间的差值小于预设值,即两个线段之间的夹角近似为90度。
具体的,人脸中某些特征点的位置是基本固定的,例如眼睛的位置等;同时,若平面内存在相互垂直的两条线段,在三维空间中,该两条线段围绕某些特定的轴旋转才可以使得该两条线段投影到该平面上的线段仍然是垂直的。用户人脸图像是二维图像,通过选取垂直的四个特征点可以正确识别出用户头部围绕某些特定的轴旋转的位姿变化。例如,如图2所示,四个标准特征点依次是左眼最左侧的特征点36、右眼最右侧的特征点45、鼻尖的特征点33、下巴的特征点8。图4示出了四个标准特征点的位置示意图,四个标准特征点Sa,Sb,Sc,Sd分别为图4中的A、B、C、D,AB与CD之间的夹角θ大约为90度。
需要说明的是,步骤A1中确定四个标准特征点的过程为预先执行的过程,即不需要在采集到用户人脸图像后才确定该四个标准特征点。
步骤A2:确定面部特征信息中与四个标准特征点分别对应的四个特征点fa,fb,fc,fd,依次确定每个用户人脸图像中特征点fa与fb之间的距离、特征点fc与fd之间的距离,并确定特征点fa与fb之间的最大距离值
Figure BDA0002502372950000081
特征点fc与fd之间的最大距离值
Figure BDA0002502372950000082
本发明实施例中,为了统一确定角度的基准,将特征点之间最大距离值作为基准。具体的,在不考虑用户人脸与相机之间的距离时,当用户人脸所在平面与相机所采集的平面平行时,特征点之间的距离最大;当用户人脸发生偏移时,则特征点之间的距离会减小,通过特征点之间距离以及最大距离值即可确定可以表征头部姿态的角度。
步骤A3:确定用户人脸图像对应的第一角度和第二角度:
Figure BDA0002502372950000083
其中,i∈[1,n],n为用户人脸图像的数量,Yi表示第i个用户人脸图像的第一角度,Pi表示第i个用户人脸图像的第二角度,
Figure BDA0002502372950000084
表示在第i个用户人脸图像中特征点fa与fb之间的距离,
Figure BDA0002502372950000085
表示在第i个用户人脸图像中特征点fc与fd之间的距离。
本发明实施例中,用户人脸图像两个特征点之间的线段可以认为是最大距离线段所在平面的投影,故第一角度为
Figure BDA0002502372950000086
具体的,为了方便说明,图4表示人脸的正视图,图4中的四个特征点A、B、C、D(对应用户人脸图像中的四个特征点fa,fb,fc,fd)处于同一个平面,且图4中的人脸对应特征点之间距离最大的情况,即图4中AB之间的距离为
Figure BDA0002502372950000091
CD之间的距离为
Figure BDA0002502372950000092
此外,参见图5所示,图5表示人脸的俯视图,图5中的线段AB表示图4中四个特征点A、B、C、D所在的平面,且在图5中AB的距离仍为
Figure BDA0002502372950000093
在实际情况下,以相机作为参考物,若用户的头部在左右方向上发生了偏转(即用户向左或向右摇头),即在真实的世界坐标系下,用户头部的特征点A和B此时位于A1位置和B1位置,在不考虑用户头部上下方向旋转(即用户没有点头或抬头)的情况下,图5中线段A1B1的距离仍然是
Figure BDA0002502372950000094
但是由于相机只能采集到二维的图像,即相机采集到的用户人脸图像中,特征点A和B映射到了Ai和Bi处,对于采集的第i个用户人脸图像来说,Ai和Bi是该用户人脸图像中特征点的位置,即线段AiBi之间的距离即为特征点fa与fb之间的距离
Figure BDA0002502372950000095
故此时用户在左右方向上所偏转的角度为
Figure BDA0002502372950000096
同理,可以确定用户在上下方向上偏转的角度为
Figure BDA0002502372950000097
步骤A4:确定第i个与第j个用户人脸图像之间的第一角度变化值ΔY、第二角度变化值ΔP、第一角速度变化值ΔωY、第二角速度变化值ΔωP
ΔY=Yi-Yj,ΔP=Pi-Pj
Figure BDA0002502372950000098
其中,Δtij表示采集到第i个用户人脸图像与第j个用户人脸图像之间的时间间隔。
本发明实施例中,每个用户人脸图像均可以确定其本本身的角度,即第j个用户人脸图像的第一角度为Yj,第二角度为Pj;通过两个用户人脸图像(比如相邻的两帧用户人脸图像)的角度值确定角度变化值,并根据时间间隔可以确定角速度变化值。
步骤A5:确定第i个与第j个用户人脸图像之间的第一角度变化方向
Figure BDA0002502372950000101
和第二角度变化方向
Figure BDA0002502372950000102
Figure BDA0002502372950000103
Figure BDA0002502372950000104
其中,四个特征点fa,fb,fc,fd在第i个用户人脸图像中的坐标分别为(xia,yia)、(xib,yib)、(xic,yic)、(xid,yid);特征点fa,fb,fc,fd在第j个用户人脸图像中的坐标分别为(xja,yja)、(xjb,jb)、(xjc,yjc)、(xjd,yjd)。
本发明实施例中,在上述步骤A4中可以确定角度变化值,即可以确定用户头部发生了左右旋转或上下旋转,但是不能区分是向左旋转还是向右旋转,本实施例中利用特征点的坐标值的变化来确定旋转方向。具体的,如图6所示,人体头部旋转时,头部运动姿态可以看做头部在三维空间中的六个方向的运动,包括头部上、下、左、右、前、后六个方向以及上下左右四个方向和前后两个方向间的各种组合姿态。欧拉角在一个固定的坐标系下描述刚体运动的三个角度取向,任意方向都可以通过偏航角(Yaw)、俯仰角(Pitch)、滚转角(Roll)三个角度的组合来表达,它能精确表达头部旋转角度。如图6所示,偏航角是指头部的左右旋转产生的角度;俯仰角是指头部的上下旋转产生的角度;滚转角是指在平面内旋转产生的角度。基于人体的特点,头部在发生偏转时是基于颈部运动的,即头部旋转时的旋转轴位于颈部处,故当头部旋转时,人脸的特征点整体也会发生位移。例如,在颈部作用下头部向右转动时,用户人脸图像中的四个特征点fa,fb,fc,fd整体也会向右移动,本实施例中基于该特点确定头部的旋转方向。
具体的,先采集到第j个用户人脸图像,后采集到第i个用户人脸图像,即采集到第j个用户人脸图像的时间先于采集到第i个用户人脸图像的时间。在确定第一角度变化方向时,第j个用户人脸图像中特征点fa和fb的坐标分别为(xja,yja)、(xjb,jb);之后,在第i个用户人脸图像中,特征点fa和fb的坐标分别为(xia,yia)、(xib,yib),即特征点fa从(xja,yja)移动到了(xia,yia),其移动向量为
Figure BDA0002502372950000111
同理,特征点fb从(xjb,jb)移动到了(xib,yib),同样的,其移动向量为
Figure BDA0002502372950000112
则特征点fa和fb整体的移动向量
Figure BDA0002502372950000113
即:
Figure BDA0002502372950000114
同理,在发生上下旋转时,对于特征点fc,fd,第二角度变化方向
Figure BDA0002502372950000115
为:
Figure BDA0002502372950000116
本发明实施例中,基于头部旋转的特点,利用二维的用户人脸图像即可确定两个用户人脸图像之间的角度变化值、角速度变化值以及角度变化方向等位姿变化信息,从而可以确定用户头部的旋转位移、旋转速度、旋转方向,进而方便后续生成与用户旋转姿态相一致的控制指令。
在上述实施例的基础上,上述确定位姿变化信息的过程需要用户人脸与相机之间的距离基本保持一致,若用户人脸与相机之间的距离发生变化,则可能导致确定的位姿变化信息不准确。故本实施例中,上述步骤104“根据位姿变化信息生成相应的控制指令”包括:
步骤B1:在第二角度变化值ΔP小于第一预设阈值且第一角度变化值ΔY大于第二预设阈值时,根据第一角度变化值ΔY、第一角速度变化值ΔωY和第一角度变化方向
Figure BDA0002502372950000117
生成相应的控制指令。
步骤B2:在第一角度变化值ΔY小于第一预设阈值且第二角度变化值ΔP大于第二预设阈值时,根据第二角度变化值ΔP、第二角速度变化值ΔωP和第二角度变化方向
Figure BDA0002502372950000118
生成相应的控制指令。
本发明实施例中,当第二角度变化值ΔP小于第一预设阈值时,由于在当前时间段最大距离值
Figure BDA0002502372950000119
是固定的,故说明两个用户人脸图像之间特征点fc与fd之间的距离变化不大,此时基本可以认为用户人脸与相机之间的距离基本保持一致,且用户头部在特征点fc与fd方向(比如上下旋转方向)上几乎没有旋转。同时,若第一角度变化值ΔY大于第二预设阈值,则说明用户头部在特征点fa与fb方向(比如左右旋转方向)上有较大的旋转,此时即可确定用户头部在fa与fb方向上发生了旋转,之后即可根据第一角度变化值ΔY、第一角速度变化值ΔωY和第一角度变化方向
Figure BDA0002502372950000121
生成相应的控制指令。例如,根据第一角度变化方向
Figure BDA0002502372950000122
可以确定用户头部为向右旋转,根据第一角度变化值ΔY以及第一角速度变化值ΔωY的大小可以确定用户头部旋转的幅度足够大,此时则可生成与用户头部向右旋转对应的控制指令,比如快进指令。
同理,在步骤B2中,当第一角度变化值ΔY小于第一预设阈值且第二角度变化值ΔP大于第二预设阈值时,也可生成其他相应的控制指令,比如用户头部向下旋转(即点头时)生成用于播放视频的控制指令。
本发明实施例提供的一种基于面部特征的人机交互方法,通过检测人体面部生物特征和其运动姿态,判断用户人脸当前的运动状态,进而可以发出暂停或播放等控制信号,实现通过人脸运动对视频播放控制。该交互方式简答,不需要用户大幅度移动身体,可以避免传统方法对书写状态的破坏,并且容易使学生保持学习心态的连续性。本申请提供的交互方式对于书法教育的信息化过程提供基础性的促进作用,具有重要的现实价值。同时,利用二维的用户人脸图像即可确定两个用户人脸图像之间的角度变化值、角速度变化值以及角度变化方向等位姿变化信息,从而可以确定用户头部的旋转位移、旋转速度、旋转方向,进而方便后续生成与用户旋转姿态相一致的控制指令。
以上详细介绍了基于面部特征的人机交互方法流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供了一种基于面部特征的人机交互装置,参见图7所示,该装置包括:
图像获取模块71,用于在播放预设视频时,连续获取多个用户图像,并分别提取出每个所述用户图像中的用户人脸图像;
特征提取模块72,用于提取每个所述用户人脸图像中的面部特征信息;
位姿确定模块73,用于根据多个所述用户人脸图像的面部特征信息的变化值以及采集到所述用户人脸图像之间的时间间隔确定用户的位姿变化信息,所述位姿变化信息包括角度变化值和角速度变化值;
控制模块74,用于根据所述位姿变化信息生成相应的控制指令,基于所述控制指令对所述预设视频执行相应的控制操作。
在上述实施例的基础上,所述特征提取模块72包括:
提取单元,用于提取所述用户人脸图像中的特征点,依次将所述特征点邻域内预设大小的图片与训练好的人脸五官滤波器进行相似性检测;
坐标确定单元,用于基于相机内参设置统一的坐标系,确定通过相似性检测的特征点在所述坐标系下的坐标值,所述坐标值为所述面部特征信息中的一项信息。
在上述实施例的基础上,所述面部特征信息包括特征点的坐标值,所述位姿确定模块73确定用户的位姿变化信息包括:
预先从用户的特征点中选取至少四个标准特征点Sa,Sb,Sc,Sd;其中,在标准人脸图像中,所述标准特征点Sa与Sb之间的线段与所述标准特征点Sc与Sd之间的线段之间的夹角与90度之间的差值小于预设值;
确定所述面部特征信息中与四个所述标准特征点分别对应的四个特征点fa,fb,fc,fd,依次确定每个所述用户人脸图像中特征点fa与fb之间的距离、特征点fc与fd之间的距离,并确定特征点fa与fb之间的最大距离值
Figure BDA0002502372950000131
特征点fc与fd之间的最大距离值
Figure BDA0002502372950000132
确定所述用户人脸图像对应的第一角度和第二角度:
Figure BDA0002502372950000133
其中,i∈[1,n],n为所述用户人脸图像的数量,Yi表示第i个用户人脸图像的第一角度,Pi表示第i个用户人脸图像的第二角度,
Figure BDA0002502372950000134
表示在第i个用户人脸图像中特征点fa与fb之间的距离,
Figure BDA0002502372950000135
表示在第i个用户人脸图像中特征点fc与fd之间的距离;
确定第i个与第j个用户人脸图像之间的第一角度变化值ΔY、第二角度变化值ΔP、第一角速度变化值ΔωY、第二角速度变化值ΔωP
ΔY=Yi-Yj,ΔP=Pi-Pj
Figure BDA0002502372950000141
其中,Δtij表示采集到第i个用户人脸图像与第j个用户人脸图像之间的时间间隔;
确定第i个与第j个用户人脸图像之间的第一角度变化方向
Figure BDA0002502372950000142
和第二角度变化方向
Figure BDA0002502372950000143
Figure BDA0002502372950000144
Figure BDA0002502372950000145
其中,四个特征点fa,fb,fc,fd在第i个用户人脸图像中的坐标分别为(xia,yia)、(xib,yib)、(xic,yic)、(xid,yid);特征点fa,fb,fc,fd在第j个用户人脸图像中的坐标分别为(xja,yja)、(xjb,jb)、(xjc,yjc)、(xjd,yjd)。
在上述实施例的基础上,所述控制模块74用于:
在所述第二角度变化值ΔP小于第一预设阈值且所述第一角度变化值ΔY大于第二预设阈值时,根据所述第一角度变化值ΔY、第一角速度变化值ΔωY和第一角度变化方向
Figure BDA0002502372950000146
生成相应的控制指令;
在所述第一角度变化值ΔY小于第一预设阈值且所述第二角度变化值ΔP大于第二预设阈值时,根据所述第二角度变化值ΔP、第二角速度变化值ΔωP和第二角度变化方向
Figure BDA0002502372950000147
生成相应的控制指令。
在上述实施例的基础上,所述图像获取模块71用于:
对所述用户图像进行预处理,所述预处理包括灰度增强、滤波、二值化中的一项或多项;
提取出每个预处理后的所述用户图像中的用户人脸图像。
本发明实施例提供的一种基于面部特征的人机交互装置,通过检测人体面部生物特征和其运动姿态,判断用户人脸当前的运动状态,进而可以发出暂停或播放等控制信号,实现通过人脸运动对视频播放控制。该交互方式简答,不需要用户大幅度移动身体,可以避免传统方法对书写状态的破坏,并且容易使学生保持学习心态的连续性。本申请提供的交互方式对于书法教育的信息化过程提供基础性的促进作用,具有重要的现实价值。同时,利用二维的用户人脸图像即可确定两个用户人脸图像之间的角度变化值、角速度变化值以及角度变化方向等位姿变化信息,从而可以确定用户头部的旋转位移、旋转速度、旋转方向,进而方便后续生成与用户旋转姿态相一致的控制指令。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的基于面部特征的人机交互方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图8示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的基于面部特征的人机交互方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于面部特征的人机交互方法,其特征在于,包括:
在播放预设视频时,连续获取多个用户图像,并分别提取出每个所述用户图像中的用户人脸图像;
提取每个所述用户人脸图像中的面部特征信息;
根据多个所述用户人脸图像的面部特征信息的变化值以及采集到所述用户人脸图像之间的时间间隔确定用户的位姿变化信息,所述位姿变化信息包括角度变化值和角速度变化值;
根据所述位姿变化信息生成相应的控制指令,基于所述控制指令对所述预设视频执行相应的控制操作。
2.根据权利要求1所述的方法,其特征在于,所述提取每个所述用户人脸图像中的面部特征信息,包括:
提取所述用户人脸图像中的特征点,依次将所述特征点邻域内预设大小的图片与训练好的人脸五官滤波器进行相似性检测;
基于相机内参设置统一的坐标系,确定通过相似性检测的特征点在所述坐标系下的坐标值,所述坐标值为所述面部特征信息中的一项信息。
3.根据权利要求1所述的方法,其特征在于,所述面部特征信息包括特征点的坐标值,所述确定用户的位姿变化信息包括:
预先从用户的特征点中选取至少四个标准特征点Sa,Sb,Sc,Sd;其中,在标准人脸图像中,所述标准特征点Sa与Sb之间的线段与所述标准特征点Sc与Sd之间的线段之间的夹角与90度之间的差值小于预设值;
确定所述面部特征信息中与四个所述标准特征点分别对应的四个特征点fa,fb,fc,fd,依次确定每个所述用户人脸图像中特征点fa与fb之间的距离、特征点fc与fd之间的距离,并确定特征点fa与fb之间的最大距离值
Figure FDA0002502372940000011
特征点fc与fd之间的最大距离值
Figure FDA0002502372940000012
确定所述用户人脸图像对应的第一角度和第二角度:
Figure FDA0002502372940000021
其中,i∈[1,n],n为所述用户人脸图像的数量,Yi表示第i个用户人脸图像的第一角度,Pi表示第i个用户人脸图像的第二角度,
Figure FDA0002502372940000022
表示在第i个用户人脸图像中特征点fa与fb之间的距离,
Figure FDA0002502372940000023
表示在第i个用户人脸图像中特征点fc与fd之间的距离;
确定第i个与第j个用户人脸图像之间的第一角度变化值ΔY、第二角度变化值ΔP、第一角速度变化值ΔωY、第二角速度变化值ΔωP
ΔY=Yi-Yj,ΔP=Pi-Pj
Figure FDA0002502372940000024
其中,Δtij表示采集到第i个用户人脸图像与第j个用户人脸图像之间的时间间隔;
确定第i个与第j个用户人脸图像之间的第一角度变化方向
Figure FDA0002502372940000025
和第二角度变化方向
Figure FDA0002502372940000026
Figure FDA0002502372940000027
Figure FDA0002502372940000028
其中,四个特征点fa,fb,fc,fd在第i个用户人脸图像中的坐标分别为(xia,yia)、(xib,yib)、(xic,yic)、(xid,yid);特征点fa,fb,fc,fd在第j个用户人脸图像中的坐标分别为(xja,yja)、(xjb,jb)、(xjc,yjc)、(xjd,yjd)。
4.根据权利要求3所述的方法,其特征在于,所述根据所述位姿变化信息生成相应的控制指令包括:
在所述第二角度变化值ΔP小于第一预设阈值且所述第一角度变化值ΔY大于第二预设阈值时,根据所述第一角度变化值ΔY、第一角速度变化值ΔωY和第一角度变化方向
Figure FDA0002502372940000029
生成相应的控制指令;
在所述第一角度变化值ΔY小于第一预设阈值且所述第二角度变化值ΔP大于第二预设阈值时,根据所述第二角度变化值ΔP、第二角速度变化值ΔωP和第二角度变化方向
Figure FDA00025023729400000210
生成相应的控制指令。
5.根据权利要求1-4任一所述的方法,其特征在于,所述提取出每个所述用户图像中的用户人脸图像包括:
对所述用户图像进行预处理,所述预处理包括灰度增强、滤波、二值化中的一项或多项;
提取出每个预处理后的所述用户图像中的用户人脸图像。
6.一种基于面部特征的人机交互装置,其特征在于,包括:
图像获取模块,用于在播放预设视频时,连续获取多个用户图像,并分别提取出每个所述用户图像中的用户人脸图像;
特征提取模块,用于提取每个所述用户人脸图像中的面部特征信息;
位姿确定模块,用于根据多个所述用户人脸图像的面部特征信息的变化值以及采集到所述用户人脸图像之间的时间间隔确定用户的位姿变化信息,所述位姿变化信息包括角度变化值和角速度变化值;
控制模块,用于根据所述位姿变化信息生成相应的控制指令,基于所述控制指令对所述预设视频执行相应的控制操作。
7.根据权利要求6所述的装置,其特征在于,所述特征提取模块包括:
提取单元,用于提取所述用户人脸图像中的特征点,依次将所述特征点邻域内预设大小的图片与训练好的人脸五官滤波器进行相似性检测;
坐标确定单元,用于基于相机内参设置统一的坐标系,确定通过相似性检测的特征点在所述坐标系下的坐标值,所述坐标值为所述面部特征信息中的一项信息。
8.根据权利要求6所述的装置,其特征在于,所述面部特征信息包括特征点的坐标值,所述位姿确定模块确定用户的位姿变化信息包括:
预先从用户的特征点中选取至少四个标准特征点Sa,Sb,Sc,Sd;其中,在标准人脸图像中,所述标准特征点Sa与Sb之间的线段与所述标准特征点Sc与Sd之间的线段之间的夹角与90度之间的差值小于预设值;
确定所述面部特征信息中与四个所述标准特征点分别对应的四个特征点fa,fb,fc,fd,依次确定每个所述用户人脸图像中特征点fa与fb之间的距离、特征点fc与fd之间的距离,并确定特征点fa与fb之间的最大距离值
Figure FDA0002502372940000041
特征点fc与fd之间的最大距离值
Figure FDA0002502372940000042
确定所述用户人脸图像对应的第一角度和第二角度:
Figure FDA0002502372940000043
其中,i∈[1,n],n为所述用户人脸图像的数量,Yi表示第i个用户人脸图像的第一角度,Pi表示第i个用户人脸图像的第二角度,
Figure FDA0002502372940000044
表示在第i个用户人脸图像中特征点fa与fb之间的距离,
Figure FDA0002502372940000045
表示在第i个用户人脸图像中特征点fc与fd之间的距离;
确定第i个与第j个用户人脸图像之间的第一角度变化值ΔY、第二角度变化值ΔP、第一角速度变化值ΔωY、第二角速度变化值ΔωP
ΔY=Yi-Yj,ΔP=Pi-Pj
Figure FDA0002502372940000046
其中,Δtij表示采集到第i个用户人脸图像与第j个用户人脸图像之间的时间间隔;
确定第i个与第j个用户人脸图像之间的第一角度变化方向
Figure FDA0002502372940000047
和第二角度变化方向
Figure FDA0002502372940000048
Figure FDA0002502372940000049
Figure FDA00025023729400000410
其中,四个特征点fa,fb,fc,fd在第i个用户人脸图像中的坐标分别为(xia,yia)、(xib,yib)、(xic,yic)、(xid,yid);特征点fa,fb,fc,fd在第j个用户人脸图像中的坐标分别为(xja,yja)、(xjb,jb)、(xjc,yjc)、(xjd,yjd)。
9.根据权利要求8所述的装置,其特征在于,所述控制模块用于:
在所述第二角度变化值ΔP小于第一预设阈值且所述第一角度变化值ΔY大于第二预设阈值时,根据所述第一角度变化值ΔY、第一角速度变化值ΔωY和第一角度变化方向
Figure FDA0002502372940000051
生成相应的控制指令;
在所述第一角度变化值ΔY小于第一预设阈值且所述第二角度变化值ΔP大于第二预设阈值时,根据所述第二角度变化值ΔP、第二角速度变化值ΔωP和第二角度变化方向
Figure FDA0002502372940000052
生成相应的控制指令。
10.根据权利要求6-9任一所述的装置,其特征在于,所述图像获取模块用于:
对所述用户图像进行预处理,所述预处理包括灰度增强、滤波、二值化中的一项或多项;
提取出每个预处理后的所述用户图像中的用户人脸图像。
CN202010436211.5A 2020-05-21 一种基于面部特征的人机交互方法及装置 Active CN113705280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010436211.5A CN113705280B (zh) 2020-05-21 一种基于面部特征的人机交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010436211.5A CN113705280B (zh) 2020-05-21 一种基于面部特征的人机交互方法及装置

Publications (2)

Publication Number Publication Date
CN113705280A true CN113705280A (zh) 2021-11-26
CN113705280B CN113705280B (zh) 2024-05-10

Family

ID=

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054291A (zh) * 2009-11-04 2011-05-11 厦门市美亚柏科信息股份有限公司 一种基于单幅人脸图像实现三维人脸重建的方法及其装置
CN103324283A (zh) * 2013-05-23 2013-09-25 广东欧珀移动通信有限公司 基于人脸识别控制视频播放的方法及其终端
CN103605466A (zh) * 2013-10-29 2014-02-26 四川长虹电器股份有限公司 一种基于面部识别操控终端的方法
US20150038222A1 (en) * 2012-04-06 2015-02-05 Tencent Technology (Shenzhen) Company Limited Method and device for automatically playing expression on virtual image
CN106991367A (zh) * 2016-01-21 2017-07-28 腾讯科技(深圳)有限公司 确定人脸转动角度的方法和装置
CN108197534A (zh) * 2017-12-19 2018-06-22 迈巨(深圳)科技有限公司 一种人头部姿态检测方法、电子设备及存储介质
CN108537143A (zh) * 2018-03-21 2018-09-14 特斯联(北京)科技有限公司 一种基于重点区域特征比对的人脸识别方法与系统
CN109151540A (zh) * 2017-06-28 2019-01-04 武汉斗鱼网络科技有限公司 视频图像的交互处理方法及装置
CN110378994A (zh) * 2018-04-12 2019-10-25 Oppo广东移动通信有限公司 人脸建模方法及相关产品
CN111091031A (zh) * 2018-10-24 2020-05-01 北京旷视科技有限公司 目标对象选取方法和人脸解锁方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054291A (zh) * 2009-11-04 2011-05-11 厦门市美亚柏科信息股份有限公司 一种基于单幅人脸图像实现三维人脸重建的方法及其装置
US20150038222A1 (en) * 2012-04-06 2015-02-05 Tencent Technology (Shenzhen) Company Limited Method and device for automatically playing expression on virtual image
CN103324283A (zh) * 2013-05-23 2013-09-25 广东欧珀移动通信有限公司 基于人脸识别控制视频播放的方法及其终端
CN103605466A (zh) * 2013-10-29 2014-02-26 四川长虹电器股份有限公司 一种基于面部识别操控终端的方法
CN106991367A (zh) * 2016-01-21 2017-07-28 腾讯科技(深圳)有限公司 确定人脸转动角度的方法和装置
CN109151540A (zh) * 2017-06-28 2019-01-04 武汉斗鱼网络科技有限公司 视频图像的交互处理方法及装置
CN108197534A (zh) * 2017-12-19 2018-06-22 迈巨(深圳)科技有限公司 一种人头部姿态检测方法、电子设备及存储介质
CN108537143A (zh) * 2018-03-21 2018-09-14 特斯联(北京)科技有限公司 一种基于重点区域特征比对的人脸识别方法与系统
CN110378994A (zh) * 2018-04-12 2019-10-25 Oppo广东移动通信有限公司 人脸建模方法及相关产品
CN111091031A (zh) * 2018-10-24 2020-05-01 北京旷视科技有限公司 目标对象选取方法和人脸解锁方法

Similar Documents

Publication Publication Date Title
CN111652121B (zh) 一种表情迁移模型的训练方法、表情迁移的方法及装置
US10832039B2 (en) Facial expression detection method, device and system, facial expression driving method, device and system, and storage medium
US9690982B2 (en) Identifying gestures or movements using a feature matrix that was compressed/collapsed using principal joint variable analysis and thresholds
CN111243093B (zh) 三维人脸网格的生成方法、装置、设备及存储介质
Sharp et al. Accurate, robust, and flexible real-time hand tracking
US20180088663A1 (en) Method and system for gesture-based interactions
CN112926423B (zh) 捏合手势检测识别方法、装置及系统
CN112614213B (zh) 人脸表情确定方法、表情参数确定模型、介质及设备
Feng et al. Depth-projection-map-based bag of contour fragments for robust hand gesture recognition
JP2020155129A (ja) ジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体
CN110363133B (zh) 一种视线检测和视频处理的方法、装置、设备和存储介质
Cheng et al. Image-to-class dynamic time warping for 3D hand gesture recognition
US11398044B2 (en) Method for face modeling and related products
CN107102723A (zh) 超出词汇的词的增强的拒绝
CN106687989A (zh) 使用标志子集内的线性关系进行面部表情识别的方法和系统
CN109993073A (zh) 一种基于Leap Motion的复杂动态手势识别方法
Dardas et al. Hand gesture interaction with a 3D virtual environment
Neverova Deep learning for human motion analysis
WO2024055957A1 (zh) 拍摄参数的调整方法、装置、电子设备和可读存储介质
CN113703564A (zh) 一种基于面部特征的人机交互设备及系统
CN113705280B (zh) 一种基于面部特征的人机交互方法及装置
Liu et al. Ultrasonic positioning and IMU data fusion for pen-based 3D hand gesture recognition
CN113705280A (zh) 一种基于面部特征的人机交互方法及装置
Huang et al. Real-time precise human-computer interaction system based on gaze estimation and tracking
Dhamanskar et al. Human computer interaction using hand gestures and voice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant