CN117724609A - 基于面部信息追踪的交互方法及系统 - Google Patents
基于面部信息追踪的交互方法及系统 Download PDFInfo
- Publication number
- CN117724609A CN117724609A CN202311629222.5A CN202311629222A CN117724609A CN 117724609 A CN117724609 A CN 117724609A CN 202311629222 A CN202311629222 A CN 202311629222A CN 117724609 A CN117724609 A CN 117724609A
- Authority
- CN
- China
- Prior art keywords
- facial
- information
- eye
- facial behavior
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001815 facial effect Effects 0.000 title claims abstract description 201
- 230000003993 interaction Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000006399 behavior Effects 0.000 claims abstract description 149
- 230000033001 locomotion Effects 0.000 claims abstract description 109
- 239000013598 vector Substances 0.000 claims abstract description 68
- 230000009471 action Effects 0.000 claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 31
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 210000001508 eye Anatomy 0.000 claims description 104
- 210000003128 head Anatomy 0.000 claims description 75
- 230000002452 interceptive effect Effects 0.000 claims description 70
- 210000001747 pupil Anatomy 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 8
- 230000000875 corresponding effect Effects 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 210000000214 mouth Anatomy 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 230000001276 controlling effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004424 eye movement Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001125929 Trisopterus luscus Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明提供一种基于面部信息追踪的交互方法及系统,属于人工智能技术领域,实时采集交互对象的面部行为图像;通过预设的面部信息检测模型识别面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;按照预先设置的面部行为信息与控制指令之间的映射关系,获取面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互。本发明实现了仅需单目的面部特征信息,无需失能老年人记忆复杂的动作,无需佩戴任何额外的设备即可实现隔空的智能屏幕交互的技术效果;且适用场景较多,适合大范围推广。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种基于面部信息追踪的交互方法、系统、电子设备以及存储介质。
背景技术
目前智能设备的交互方式有语音交互和身体动作交互。但是,对于丧失语言功能或者四肢活动不便的人群而言,无法利用语言或四肢大动作完成身体动作交互。
在现有技术中公开了利用脑电波实现人体与智能设备的交互的技术,但是存在造价过高,程序复杂不利于大范围推广的弊端;另外,还存在虚拟现实(Virtual Reality,VR)设备对眼球追踪实现人体与智能设备的交互的技术,因为需要额外佩戴VR设备,可能会造成交互对象的不适感;另外,VR设备还具有使用场景受限的弊端。
因此,亟需一种无需额外佩戴设备的交互方法。
发明内容
本发明提供一种基于面部信息追踪的交互方法、系统、电子设备以及存储介质,用以克服现有技术中存在的至少一个技术问题。
为实现上述目的,本发明提供一种基于面部信息追踪的交互方法,方法包括,实时采集交互对象的面部行为图像;通过预设的面部信息检测模型,识别在预定的时间范围内,面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,所述目标部位包括眼睛、嘴部以及头部;所述面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;
按照预先设置的面部行为信息与控制指令之间的映射关系,获取所述面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互。
进一步,优选的,通过预设的面部信息检测模型,识别在预定的时间范围内,面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息的方法,包括,
根据预定的时间范围和目标区域,利用所述面部信息检测模型对所述面部行为图像的面部图像帧序列中各图像帧进行获取各个目标部位的关键点信息;其中,所述各个目标部位的关键点信息包括所述嘴部关键点信息、眼部关键点信息和头部朝向信息;
根据所述各个目标部位的关键点信息分别确定嘴部运动轨迹向量、眼部运动轨迹向量和头部朝向运动轨迹向量;将所述嘴部运动轨迹向量、眼部运动轨迹向量和头部朝向运动轨迹向量输入面部信息检测模型并按照特征权重进行特征融合,获得嘴部、眼部和头部的增强型特征;
将嘴部、眼部和头部的增强型特征送入分类器,并将分类结果进行融合,得到各动作对应的分数,从而获得最终面部行为信息。
进一步,优选的,在实时采集交互对象的面部行为图像的步骤之后,还包括,检测是否存在交互对象的预设面部行为信息;基于所述预设面部行为信息关闭/开启所述面部行为信息交互模式。
进一步,优选的,在实时采集交互对象的面部行为图像之前,还包括,判定所述交互对象的头部是否位于预设的动作采集区域中;若是,则开始采集所述交互对象的面部行为图像。
进一步,优选的,在开始采集所述交互对象的面部行为图像之后,还包括,采集所述交互对象的面部行为图像;判定所述面部行为图像的面部行为信息与预设的标定面部行为信息是否一致;若是,则继续根据所述交互对象的后续面部行为信息对所述动作采集区域的四个角的位置进行标定。
进一步,优选的,所述面部信息检测模型根据所述眼部关键点信息获取眼睛朝向运动轨迹向量的方法包括:基于所述面部行为图像的面部图像帧序列中各图像帧,获取眼部中心的3D坐标;根据所述眼部中心的3D坐标对所述面部行为图像进行点云分割,得到眼部3D点云;在所述眼部3D点云中提取眼部轮廓质心以及瞳孔的3D点;其中,所述眼部轮廓质心通过眼部轮廓关键点确定;针对所述面部行为图像的面部RGB图像中所有像素点分别与所述眼部轮廓质心以及瞳孔3D点的权重和偏置量,确定眼部轮廓质心以及瞳孔的初始3D坐标;以眼部轮廓质心的3D坐标指向瞳孔的3D坐标的方向为朝向,根据所述眼部轮廓质心以及瞳孔的初始3D坐标确定眼睛朝向运动轨迹向量。
进一步,优选的,所述面部信息检测模型根据所述头部朝向信息关键点获取头部朝向运动轨迹向量的方法,包括:基于所述面部行为图像的面部图像帧序列中各图像帧获取面部轮廓关键点的3D坐标;根据所述面部轮廓关键点的3D坐标对所述面部行为图像进行点云分割,得到面部轮廓的3D点云;利用空间平面拟合原则,根据所述面部轮廓3D点云获取面部轮廓3D点的集合的空间平面方程;基于所述面部轮廓3D点的集合的空间平面方程获取面部曲面的法向量;并根据面部曲面的法向量获得头部朝向运动轨迹向量。
为了解决上述问题,本发明还提供一种基于面部信息追踪的交互系统,包括:采集单元,用于实时采集交互对象的面部行为图像;动作确定单元,用于实时采集交互对象的面部行为图像;通过预设的面部信息检测模型,识别在预定的时间范围内,面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,所述目标部位包括眼睛、嘴部以及头部;所述面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;交互指令执行单元,用于按照预先设置的面部行为信息与控制指令之间的映射关系,获取所述面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互。
为了解决上述问题,本发明还提供一种电子设备,电子设备包括:
存储器,存储至少一个指令;及
处理器,执行存储器中存储的指令以实现上述的基于面部信息追踪的交互方法中的步骤。
为了解决上述问题,本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储有至少一个指令,至少一个指令被电子设备中的处理器执行以实现上述的基于面部信息追踪的交互方法。
本发明的一种基于面部信息追踪的交互方法、系统、电子设备以及存储介质,实时采集交互对象的面部行为图像;通过预设的面部信息检测模型识别面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;按照预先设置的面部行为信息与控制指令之间的映射关系,获取面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互。实现了仅需单目的面部特征信息,无需失能老年人记忆复杂的动作,无需佩戴任何额外的设备即可实现隔空的智能屏幕交互的技术效果;并且大大提高智能交互的准确性和可靠性;适用场景较多,适合大范围推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的基于面部信息追踪的交互方法的流程示意图;
图2为本发明一实施例提供的基于面部信息追踪的交互方法的交互对象的脸部动作图像示意图;
图3为本发明一实施例提供的基于面部信息追踪的交互方法的脸部3D信息点图;
图4为本发明一实施例提供的基于面部信息追踪的交互方法的嘴巴关键点信息图;
图5为本发明一实施例提供的基于面部信息追踪的交互系统的模块示意图;
图6为本发明一实施例提供的实现基于面部信息追踪的交互方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明一实施例提供的基于面部信息追踪的交互方法的流程示意图。该方法可以由一个系统执行,该系统可以由软件和/或硬件实现。
本发明的基于面部信息追踪的交互方法,主要适用于失能老人的智能设备交互场景中。
人工智能(Artificial Intelligence,AI):利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉(Computer Vision,CV):是一门研究如何使机器“看”的科学,更进一步地说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
很多老年人的执行功能和注意力退化,通常在来自家庭成员、朋友或护理提供者的帮助下,他们才能够完成其日常动作,往往不能像一般健康成年人一样通过双手灵活地操作智能设备。对于目前的交互设备,由于很多老年人使用方言甚至丧失语言功能,导致语音交互无法准确识别;另外,很多失能老人丧失四肢的活动功能,导致无法完成身体动作交互。
基于计算机视觉和人工智能技术,本发明的一种基于面部信息追踪的交互方法、系统、电子设备以及存储介质,实时采集交互对象的面部行为图像;利用预设的面部信息检测模型,根据所述面部行为图像确定面部行为图像对应的面部行为信息;获取所述面部行为信息对应的控制指令;其中,所述控制指令用于执行与所述面部行为信息关联的预设动作;执行所述控制指令,完成当前轮次的交互;实现了仅需单目的面部特征信息,无需失能老年人记忆复杂的动作,无需佩戴任何额外的设备即可实现隔空的智能屏幕交互的技术效果;并且大大提高智能交互的准确性和可靠性;适用场景较多,适合大范围推广。
如图1所示,在本实施例中,基于面部信息追踪的交互方法包括步骤S110~S140。
S110、实时采集交互对象的面部行为图像。
需要说明的是,智能交互设备可以是手机、iPad或者电脑。以手机为例,手机中可以预先部署有实现本方案的SDK、APP或者网页应用等程序,在手机展示文字或图片的同时,手机中上述程序可以处于前台或后台运行状态,进而该程序可以调用手机装配的RGB摄像头(如手机的前置摄像头)采集包括交互对象的头部、眼睛以及嘴巴的动作图像。
手机中可以预先部署有实现本方案的SDK、APP或者网页应用等程序,在手机展示文字或图片的同时,手机中上述程序可以处于前台或后台运行状态,进而该程序可以调用手机装配的RGB摄像头(如手机的前置摄像头)交互对象的头部、眼睛以及嘴巴的动作图像。
面部行为信息是对目标对象在乘车过程中自身活动的描述,可以是头部以及面部做出的具体行为动作的描述,比如,张嘴、闭嘴、眨眼、微笑、点头、摇头等行为动作。
在一个具体地实施中,进一步,优选的,还包括,检测是否存在交互对象的预设面部行为信息;基于所述预设面部行为信息关闭/开启所述面部行为信息交互模式。也就是说,在根据预设的头部朝向、眼睛朝向以及嘴巴动作定位确定所采集的动作图像中的交互对象的动作之前,还包括,判定所采集的交互对象的头部、眼睛以及嘴巴的动作图像是否为预设的唤醒控制动作;若是,继续采集交互对象的头部、眼睛以及嘴巴的动作图像,根据预设的头部、眼睛以及嘴巴动作定位确定所采集的动作图像中的交互对象的动作。
在一个具体地实施中,在实时采集交互对象的面部行为图像之前,还包括,判定所述交互对象的头部是否位于预设的动作采集区域中;若是,则开始采集所述交互对象的面部行为图像。也就是说,在实时采集交互对象的头部、眼睛以及嘴巴的动作图像之前,还包括,检测交互对象与采集设备之间的距离,并判定所述距离是否符合预设的规范距离;若符合,则实时采集交互对象的头部、眼睛以及嘴巴的动作图像。在具体的实施过程,为了保证交互效果,预设的距离范围为0.25米到0.6米之间。
在开始采集所述交互对象的面部行为图像之后,还包括,采集所述交互对象的面部行为图像;判定所述面部行为图像的面部行为信息与预设的标定面部行为信息是否一致;若是,则继续根据所述交互对象的后续面部行为信息对所述动作采集区域的四个角的位置进行标定。在具体的实施过程中,可以但不限制于包括以下步骤,S1、交互对象保持眼睛与嘴巴不动,移动头部的朝向直至眼睛依次看到预设的头部定位点组,完成头部的动作定位;具体地说,可以根据所在位置,眼睛看向正前方,头部微微移动直至看到屏幕正中央的指定图案,停顿3~5秒;根据所在位置,眼睛看向正前方,头部微微移动直至看到屏幕四个角的指定图案,每个停顿3~5秒。即可完成头部限位标定。S2、交互对象保持头部与嘴巴不动,改变眼睛的朝向依次看到预设的眼睛定位点组,完成眼睛的动作定位;根据所在位置,眼睛看向正前方,头部微微移动直至看到屏幕正中央的指定图案,停顿3~5秒;头部保持上一步的姿势不动,眼部分别看向屏幕中小区域的四个角点,每个角点停留3~5秒;即可完成对眼部限位标定的完成。S3、交互对象保持头部与眼睛不动,嘴巴依次执行开合、撇嘴和微笑三个动作,完成嘴巴的动作定位。具体地说,按照屏幕提示,分别执行嘴巴的开合、撅嘴、微笑这三个动作,每个动作执行3次。
S120、通过预设的面部信息检测模型识别在预定的时间范围内,面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,所述目标部位包括眼睛、嘴部以及头部;所述面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;。
通过预设的面部信息检测模型识别在预定的时间范围内,面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;的方法,包括,
S121、根据预定的时间范围和目标区域,利用所述面部信息检测模型对所述面部行为图像的面部图像帧序列中各图像帧进行获取各个目标部位的关键点信息;其中,所述各个目标部位的关键点信息包括所述嘴部关键点信息、眼部关键点信息和头部朝向信息;S122、根据所述各个目标部位的关键点信息分别确定嘴部运动轨迹向量、眼部运动轨迹向量和头部朝向运动轨迹向量;将所述嘴部运动轨迹向量、眼部运动轨迹向量和头部朝向运动轨迹向量输入面部信息检测模型并按照特征权重进行特征融合,获得嘴部、眼部和头部的增强型特征。图2-图4对交互对象的动作的获取进行了整体的描述;其中,图2为交互对象的头部、眼睛以及嘴巴的动作图像;图3为交互对象脸部3D点信息;图4为交互对象嘴巴关键点信息图像。
所述面部信息检测模型根据所述眼部关键点信息获取眼睛朝向运动轨迹向量的方法包括:基于所述面部行为图像的面部图像帧序列中各图像帧,获取眼部中心的3D坐标;根据所述眼部中心的3D坐标对所述面部行为图像进行点云分割,得到眼部3D点云;在所述眼部3D点云中提取眼部轮廓质心以及瞳孔的3D点;其中,所述眼部轮廓质心通过眼部轮廓关键点确定;针对所述面部行为图像的面部RGB图像中所有像素点分别与所述眼部轮廓质心以及瞳孔3D点的权重和偏置量,确定眼部轮廓质心以及瞳孔的初始3D坐标;以眼部轮廓质心的3D坐标指向瞳孔的3D坐标的方向为朝向,根据所述眼部轮廓质心以及瞳孔的初始3D坐标确定眼睛朝向运动轨迹向量。
Mediapipe面部特征点定位模型中眼部朝向的估计方式与头部有所区别,先算出眼部轮廓的质心坐标,再以质心坐标指向红点坐标(瞳孔坐标)的方向为朝向,左右眼方向取平均值(一般默认用户左右眼的朝向平行),即可获得眼睛的朝向。
具体地说,基于所述面部行为图像的面部图像帧序列中各图像帧,获取眼部中心的3D坐标,是依靠特征点提取模型实现的,在本实施例中,特征点提取模型为Mediapipe面部特征点定位模型,对图片中的面部进行裁剪,将面部从背景图片中分割出来并完成面部校准、对齐、补光等一系列操作,得到高清面部图像集;具体地说,Mediapipe中face模型共有478个3D关键点,并对眼睛、嘴唇、眉毛、全脸都做了聚类。因此,可以比较方面得获取到左右点、嘴部的关键点信息。需要说明的是,虽然每个点的坐标有x,y,z三个坐标,但这并不是实际物理空间的三维位置坐标,x,y是根据屏幕大小归一化过的像素坐标,z为透视视角下的估计量。虽然x,y,z不能直接和物理空间关联,但对于2D位置和3D朝向的粗略估计已经足够。
所述面部信息检测模型利用Mediapipe根据所述头部朝向信息关键点获取头部朝向运动轨迹向量的方法,包括:基于所述面部行为图像的面部图像帧序列中各图像帧获取面部轮廓关键点的3D坐标;根据所述面部轮廓关键点的3D坐标对所述面部行为图像进行点云分割,得到面部轮廓的3D点云;利用空间平面拟合原则,根据所述面部轮廓3D点云获取面部轮廓3D点的集合的空间平面方程;基于所述面部轮廓3D点的集合的空间平面方程获取面部曲面的法向量;并根据面部曲面的法向量获得头部朝向运动轨迹向量。具体地说,针对头部朝向,可转化为面部3D点的集合的曲面的法向量的相反数,考虑这么多点拟合计算量会很大的问题,本发明通过采用近似估计的方式,假定面部检测最外围的一圈点所形成的为基准平面,法向量近似和此平面垂直并指向外侧,具体的空间平面拟合过程的计算过程参见现有的空间平面拟合公式;在算得系数后,法向量也可由空间平面的方程直接得到,从而得到面部的朝向。
具体的空间平面拟合过程如下:
已知若干三维点坐标(xi,yi,zi),拟合出平面方程ax+by+ca=d; (式1)
约束条件为a2+b2+c2=1; (式2)
其中,使得该平面到所有点的距离之和最小。
具体的推导过程如下:
所有点的平均坐标为则/>
式(1)与式(3)相减,得
假设矩阵
列矩阵/>则式(4)等价于AX=0(式5)。
理想情况下所有点都在平面上,式(5)成立;实际情况下有部分点在平面外,拟合的目的为平面距离所有点的距离之和尽量小,所以目标函数为min||AX||(式6)约束条件为||X||=1(式7);若A可做奇异值分解:A=UDVT(式8);其中,D是对角矩阵,U和V均为酉矩阵。则,||AX||=||UDVTX||=||DVTX||(式9)。
其中,VTX为列矩阵;并且||VTX||=||X||=1
因为D的对角元素为奇异值,假设最后一个对角元素为最小奇异值,则当且仅当式(9)可以取得最小值,即式(6)成立。
此时,
所以,目标函数(式6)在约束条件(式7)下的最优解为
X=(a,b,c)=(vn,1,vn,2,vn,3)(式13);算得系数后,法向量可有空间平面的方程直接得到,从而得到朝向。即头部朝向为为面部3D点的集合的曲面的法向量的相反数。
对于嘴巴而言,嘴部的开合由规则确定,取内部轮廓的关键点计算面积,根据实际使用情况设定阈值即可;微笑由关键点的角度确定,微笑时外部轮廓角度会上扬,根据实际情况设定阈值,即可获得嘴巴的动作。总的来说,为要实现头部朝向、眼部朝向以及嘴巴开、合以及微笑的检测,头、眼、嘴的识别均利用mediapipe中的face的检测来实现。
S123、将嘴部、眼部和头部的增强型特征送入分类器,并将分类结果进行融合,得到各动作对应的分数,从而获得最终面部行为信息。
S130、按照预先设置的面部行为信息与控制指令之间的映射关系,获取所述面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互。
在执行所述控制指令,完成当前轮次的交互之后,还包括,判定所采集的交互对象的头部、眼睛以及嘴巴的动作图像是否为预设的关闭控制动作;若是,则根据预设的关闭控制动作和关闭控制指令的关联关系,获取关闭控制指令;执行关闭控制指令。
在一个具体的实施例中,考虑失能老人躺在床上或者坐在沙发上的场景。小型的带屏设备在视野的前方,一般距离在25cm~60cm左右。所述预设的动作和控制指令的关联关系包括,嘴巴动作与唤醒控制指令、关闭控制指令相关联;眼睛动作与子区域的快速移动控制指令相关联;头部动作与主区域的移动控制指令相关联。具体地说,由于人眼部的运动的灵活度与频率远大于头部,因此眼部移动适合比较精细的控制,限制在小区域内的快速移动;面部的朝向适合粗糙的大区域定位。嘴部的动作实现的是对选择的确认、交互方式的唤醒与关闭等。因此,整体大致的交互流程为:嘴巴的动作唤醒交互模式→头部朝向微调确定大块控制区域→眼动快速移动子区域→嘴巴的动作实现选择v完成交互后嘴巴的动作实现交互模式关闭,此时用户的面部行为信息不会对系统产生影响,再次需要交互选择时用嘴巴的动作唤醒即可。除了交互的过程,在交互之前还需要进行面部、眼部、嘴部的位置标定与动作预录入,从而更好地服务于后续的交互流程。
互动流程举例如下,实时检测用户面部信息检测到嘴巴连续开合2次,唤醒面部控制。根据标定信息与用户的头部与眼部运动与位置信息,在显示屏幕上实时移动至相应位置,“微笑"表示选择并点击该信息,“噘嘴”表示撤销上一步的选择;播放相应的娱乐资源、音乐等;再次检测到嘴巴连续两次开合,关闭面部控制,用户可安心移动面部任何部位,不会产生影响。
综上,本发明的基于面部信息追踪的交互方法,实时采集交互对象的面部行为图像;通过预设的面部信息检测模型识别面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;按照预先设置的面部行为信息与控制指令之间的映射关系,获取面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互;实现了仅需单目的面部特征信息,无需失能老年人记忆复杂的动作,无需佩戴任何额外的设备即可实现隔空的智能屏幕交互的技术效果;并且大大提高智能交互的准确性和可靠性;适用场景较多,适合大范围推广。
如图5所示,本发明提供一种基于面部信息追踪的交互系统500,本发明可以安装于电子设备中。根据实现的功能,该基于面部信息追踪的交互系统500可以包括采集单元510、动作确定单元520和交互指令执行单元530。本发明所述单元也可以称之为模块,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
采集单元510,用于实时采集交互对象的面部行为图像;
动作确定单元520,用于实时采集交互对象的面部行为图像;通过预设的面部信息检测模型,识别在预定的时间范围内,面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,所述目标部位包括眼睛、嘴部以及头部;所述面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;
交互指令执行单元530,用于按照预先设置的面部行为信息与控制指令之间的映射关系,获取所述面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互。
本发明的基于面部信息追踪的交互系统500,通过实时采集交互对象的面部行为图像;利用预设的面部信息检测模型,根据所述面部行为图像确定面部行为图像对应的面部行为信息;其中,所述面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;获取所述面部行为信息对应的控制指令;其中,所述控制指令用于执行与所述面部行为信息关联的预设动作;执行所述控制指令,完成当前轮次的交互;实现了仅需单目的面部特征信息,无需失能老年人记忆复杂的动作,无需佩戴任何额外的设备即可实现隔空的智能屏幕交互的技术效果;并且大大提高智能交互的准确性和可靠性;适用场景较多,适合大范围推广。
如图6所示,本发明提供一种基于面部信息追踪的交互方法的电子设备6。
该电子设备6可以包括处理器60、存储器61和总线,还可以包括存储在存储器61中并可在所述处理器60上运行的计算机程序,如基于面部信息追踪的交互程序62。存储器61还可以既包括基于面部信息追踪的交互系统的内部存储单元也包括外部存储设备。存储器61不仅可以用于存储安装于应用软件及各类数据,例如基于面部信息追踪的交互程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
其中,所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器61在一些实施例中可以是电子设备6的内部存储单元,例如该电子设备6的移动硬盘。所述存储器61在另一些实施例中也可以是电子设备6的外部存储设备,例如电子设备6上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括电子设备6的内部存储单元也包括外部存储设备。所述存储器61不仅可以用于存储安装于电子设备6的应用软件及各类数据,例如基于面部信息追踪的交互程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器60在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器60是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器61内的程序或者模块(例如基于面部信息追踪的交互程序等),以及调用存储在所述存储器61内的数据,以执行电子设备6的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器61以及至少一个处理器60等之间的连接通信。
图6仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图6示出的结构并不构成对所述电子设备6的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备6还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理系统与所述至少一个处理器60逻辑相连,从而通过电源管理系统实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备6还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备6还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备6与其他电子设备之间建立通信连接。
可选地,该电子设备6还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备6中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备6中的所述存储器61存储的基于面部信息追踪的交互程序62是多个指令的组合,在所述处理器60中运行时,可以实现:实时采集交互对象的面部行为图像;通过预设的面部信息检测模型识别面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;按照预先设置的面部行为信息与控制指令之间的映射关系,获取面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互。
具体地,所述处理器60对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述基于面部信息追踪的交互程序的私密和安全性,上述数据库高可用处理数据存储于本服务器集群所处区块链的节点中。
进一步地,所述电子设备6集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还提供一种计算机可读存储介质,所述存储介质可以是非易失性的,也可以是易失性的,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:实时采集交互对象的面部行为图像;通过预设的面部信息检测模型识别面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;按照预先设置的面部行为信息与控制指令之间的映射关系,获取面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互。
具体地,所述计算机程序被处理器执行时具体实现方法可参考实施例基于面部信息追踪的交互方法中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于面部信息追踪的交互方法,其特征在于,包括:
实时采集交互对象的面部行为图像;
通过预设的面部信息检测模型识别在预定的时间范围内,面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,所述目标部位包括眼睛、嘴部以及头部;所述面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;
按照预先设置的面部行为信息与控制指令之间的映射关系,获取所述面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互。
2.根据权利要求1所述的基于面部信息追踪的交互方法,其特征在于,通过预设的面部信息检测模型识别在预定的时间范围内,面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息的方法,包括,
根据预定的时间范围和目标区域,利用所述面部信息检测模型对所述面部行为图像的面部图像帧序列中各图像帧进行获取各个目标部位的关键点信息;其中,所述各个目标部位的关键点信息包括所述嘴部关键点信息、眼部关键点信息和头部朝向信息;
根据所述各个目标部位的关键点信息分别确定嘴部运动轨迹向量、眼部运动轨迹向量和头部朝向运动轨迹向量;将所述嘴部运动轨迹向量、眼部运动轨迹向量和头部朝向运动轨迹向量输入面部信息检测模型并按照特征权重进行特征融合,获得嘴部、眼部和头部的增强型特征;
将嘴部、眼部和头部的增强型特征送入分类器,并将分类结果进行融合,得到各动作对应的分数,从而获得最终面部行为信息。
3.根据权利要求2所述的基于面部信息追踪的交互方法,其特征在于,在实时采集交互对象的面部行为图像的步骤之后,还包括,
检测是否存在交互对象的预设面部行为信息;
基于所述预设面部行为信息关闭/开启所述面部行为信息交互模式。
4.根据权利要求1所述的基于面部信息追踪的交互方法,其特征在于,在实时采集交互对象的面部行为图像之前,还包括,
判定所述交互对象的头部是否位于预设的动作采集区域中;
若是,则开始采集所述交互对象的面部行为图像。
5.根据权利要求4所述的基于面部信息追踪的交互方法,其特征在于,
在开始采集所述交互对象的面部行为图像之后,还包括,
采集所述交互对象的面部行为图像;
判定所述面部行为图像的面部行为信息与预设的标定面部行为信息是否一致;
若是,则继续根据所述交互对象的后续面部行为信息对所述动作采集区域的四个角的位置进行标定。
6.根据权利要求2所述的基于面部信息追踪的交互方法,其特征在于,
面部信息检测模型根据所述眼部关键点信息获取眼睛朝向运动轨迹向量的方法包括:
基于所述面部行为图像的面部图像帧序列中各图像帧,获取眼部中心的3D坐标;
根据所述眼部中心的3D坐标对所述面部行为图像进行点云分割,得到眼部3D点云;在所述眼部3D点云中提取眼部轮廓质心以及瞳孔的3D点;其中,所述眼部轮廓质心通过眼部轮廓关键点确定;
针对所述面部行为图像的面部RGB图像中所有像素点分别与所述眼部轮廓质心以及瞳孔3D点的权重和偏置量,确定眼部轮廓质心以及瞳孔的初始3D坐标;
以眼部轮廓质心的3D坐标指向瞳孔的3D坐标的方向为朝向,根据所述眼部轮廓质心以及瞳孔的初始3D坐标确定眼睛朝向运动轨迹向量。
7.根据权利要求1所述的基于面部信息追踪的交互方法,其特征在于,
面部信息检测模型根据所述头部朝向信息关键点获取头部朝向运动轨迹向量的方法,包括:
基于所述面部行为图像的面部图像帧序列中各图像帧获取面部轮廓关键点的3D坐标;
根据所述面部轮廓关键点的3D坐标对所述面部行为图像进行点云分割,得到面部轮廓的3D点云;
利用空间平面拟合原则,根据所述面部轮廓3D点云获取面部轮廓3D点的集合的空间平面方程;基于所述面部轮廓3D点的集合的空间平面方程获取面部曲面的法向量;并根据面部曲面的法向量获得头部朝向运动轨迹向量。
8.一种基于面部信息追踪的交互系统,其特征在于,包括:
采集单元,用于实时采集交互对象的面部行为图像;
动作确定单元,用于实时采集交互对象的面部行为图像;通过预设的面部信息检测模型,识别在预定的时间范围内,面部行为图像的目标区域中各个目标部位的运动轨迹向量,根据各个目标部位的运动轨迹向量识别出对应的面部行为信息;其中,所述目标部位包括眼睛、嘴部以及头部;所述面部行为信息包括眼睛朝向动作、嘴部动作以及和头部朝向动作;
交互指令执行单元,用于按照预先设置的面部行为信息与控制指令之间的映射关系,获取所述面部行为信息对应的控制指令;识别控制指令,并按照指令控制设备进行交互。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于面部信息追踪的交互方法中的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于面部信息追踪的交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311629222.5A CN117724609A (zh) | 2023-11-30 | 2023-11-30 | 基于面部信息追踪的交互方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311629222.5A CN117724609A (zh) | 2023-11-30 | 2023-11-30 | 基于面部信息追踪的交互方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117724609A true CN117724609A (zh) | 2024-03-19 |
Family
ID=90204346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311629222.5A Pending CN117724609A (zh) | 2023-11-30 | 2023-11-30 | 基于面部信息追踪的交互方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117724609A (zh) |
-
2023
- 2023-11-30 CN CN202311629222.5A patent/CN117724609A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021129064A1 (zh) | 姿态获取方法、关键点坐标定位模型的训练方法和装置 | |
Lou et al. | Realistic facial expression reconstruction for VR HMD users | |
Al-Rahayfeh et al. | Eye tracking and head movement detection: A state-of-art survey | |
Yu et al. | A study on gait-based gender classification | |
Kurakin et al. | A real time system for dynamic hand gesture recognition with a depth sensor | |
CN105138954B (zh) | 一种图像自动筛选查询识别系统 | |
JP4692526B2 (ja) | 視線方向の推定装置、視線方向の推定方法およびコンピュータに当該視線方向の推定方法を実行させるためのプログラム | |
McColl et al. | Human body pose interpretation and classification for social human-robot interaction | |
CN110472582B (zh) | 基于眼部识别的3d人脸识别方法、装置和终端 | |
Nagalakshmi Vallabhaneni | The analysis of the impact of yoga on healthcare and conventional strategies for human pose recognition | |
CN113033369B (zh) | 动作捕捉方法、装置、电子设备及计算机可读存储介质 | |
Zhao et al. | Automatic 2.5-D facial landmarking and emotion annotation for social interaction assistance | |
Yu et al. | A video-based facial motion tracking and expression recognition system | |
Li et al. | Posture recognition technology based on kinect | |
CN116129473B (zh) | 基于身份引导的联合学习换衣行人重识别方法及系统 | |
Khraief et al. | Convolutional neural network based on dynamic motion and shape variations for elderly fall detection | |
Akashi et al. | Using genetic algorithm for eye detection and tracking in video sequence | |
Teng et al. | Facial expressions recognition based on convolutional neural networks for mobile virtual reality | |
Taher et al. | An extended eye movement tracker system for an electric wheelchair movement control | |
Jian-Nan et al. | Key techniques of eye gaze tracking based on pupil corneal reflection | |
CN117724609A (zh) | 基于面部信息追踪的交互方法及系统 | |
CN111274854B (zh) | 一种人体动作识别方法和视觉增强处理系统 | |
Datta et al. | Eye gaze detection based on computational visual perception and facial landmarks | |
Abdelrazik et al. | Efficient Deep Learning Algorithm for Egyptian Sign Language Recognition | |
Przybyło | Vision based facial action recognition system for people with disabilities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |