CN114220153A

CN114220153A - 一种基于人脸识别的软件交互方法与装置

Info

Publication number: CN114220153A
Application number: CN202111554018.2A
Authority: CN
Inventors: 曹伟伟; 陈庆展; 孙宏岩; 申霞
Original assignee: Guangzhou Qingyou Information Technology Co ltd
Current assignee: Guangzhou Qingyou Information Technology Co ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-22

Abstract

本发明公开一种基于人脸识别的软件交互方法与装置，该方法包括：客户端获取包含人脸的视频和音频数据；提取视频数据中人脸关键部位的动作特征信息和音频数据中音量大小信息；通过肢体动作算法和音量判断算法将人脸动作特征信息和音量大小信息转化为软件中虚拟物体的动作指令。本发明的软件程序对人脸动作的识别精度高，反馈速度快且集成了体积小、接口丰富的SDK，可供软件工程师们做后续的优化，不断提升用户体验；另一方面，用户可以通过本软件应用随时随地方便快捷地锻炼眼睛，面部肌肉还有颈椎，有效地防治坐办公室的电脑族的职业病。

Description

一种基于人脸识别的软件交互方法与装置

技术领域

本发明涉及智能终端技术领域，具体涉及一种基于人脸识别的软件交互方法与装置。

背景技术

近年来大众对健康的关注空前提升，尤其是对于在职场中挣扎奋斗的“打工人”来说，为了幸福，很多人不惜拿命去拼，频发的健康问题也让打工人的健康意识不断深化。

职业病一词由来已久，快节奏职场白领的健康问题，藏在那些加过的班，熬过的夜和点过的外卖里；“逐渐后移的发际线”、“没有富贵的富贵包“、“握不住鼠标的鼠标手”、“日渐深邃的黑眼圈”、“常伴左右的焦虑与压力”和“不知何时凸起的肚腩”都是努力工作的证明。另外根据中国医疗保健国际交流促进会颈椎疾病防治专业委员会调查显示，我国近1.5亿人有颈椎问题；对于80后与85后的职场白领来说，颈腰椎问题尤其明显，特别是法务和财务人员。

对于绝大多数白领来说，每天大部分的时间都被工作所占据，不太可能有额外的时间去健身房和户外锻炼，因此急需一种便捷的锻炼方式和装置来解决上述问题。

目前市面上针对一个人的简易锻炼装置和方式大多需要活动空间或者额外的装备，本发明仅需当今社会人人必备的手机，不需额外的活动空间，可随时随地进行，且因为是游戏互动的方式，极具趣味性。

综上所述，本发明能够满足上班族乃至时间，场地条件不够的人群的锻炼需求，在给用户带来欢乐的同时有效地防治职业病，具有广阔的应用前景。

发明内容

本发明公开了一种基于人脸识别的软件交互方法与装置，其包括下列步骤：

提取单元获取包含人脸的视频和音频数据；

该视频为包含全部人脸的完整动作视频，音频数据可以为有意义的语句，也可以为无意义的音节。

筛查单元通过人脸识别方法获得视频数据中人脸关键部位的动作特征信息；

人脸关键部位为完成人脸动作具体的五官或面部区域，例如眼睛，鼻子，嘴巴，腮帮等。上述人脸识别方法包括以下步骤：

获取视频数据中人脸各个面部区域图像的平均饱和度值；

对面部区域图像的平均饱和度值进行指数函数处理，得到人脸关键部位的平均饱和度值；

比较人脸动作前后的人脸关键部位的平均饱和度值的差异并得到差异度，该差异度为人脸关键部位的动作特征信息。

色彩的饱和度指色彩的鲜艳程度，也称作纯度。在色彩模型下，饱和度是色彩的3个属性之一，另外两个属性为色相和明度；在此模型下色相的取值范围为0°到360°，饱和度和明度取值范围为0到100％。在色彩学中，原色饱和度最高，随着饱和度降低，色彩变得暗淡直至成为无彩色，即失去色相的色彩。作为信息的载体，色彩不仅依附于设计形式，还作为一个主体来完成信息传达的过程。对于图像处理来说，饱和度的运用与计算是其重要的部分，在实际应用中，依据饱和度高低值将色彩分为低饱和度对比、中饱和度对比和高饱和度对比3个基本种类以及饱和度组合对比一个衍生种类。

用户的客户端应带有图像处理程序，可对目标图像的饱和度进行读取和变换，并可获得人脸图像任一区域各个像素的饱和度值并根据各个像素的饱和度值计算出人脸区域图像的平均饱和度值。

此时获得的区域图像平均饱和度值虽然已含有人脸关键部分的特征信息在内，但所涵盖的区域范围过大，因此该平均饱和度值往往不准确，需要进一步处理以获得更准确的结果。

通过对初步获得的人脸区域图像平均饱和度值进行指数函数处理，可得到想要的仅涉及人脸关键部位的平均饱和度值的结果。

该指数函数采用数学模型表示为：y＝k(3^x+7)

得到人脸关键部位图像的平均饱和度值后，将人脸动作后图像的平均饱和度值除以人脸动作前图像的平均饱和度值，即可得到两者的差异度，也就是人脸关键部位的动作特征信息。

计算单元通过肢体动作算法和音量判断算法将人脸动作特征信息和音频数据转化为软件中虚拟物体的动作指令。

进一步地，为了实现通过人脸的动作来操控软件中虚拟物体的目的，需要建立一种人脸关键部位的动作特征信息和软件中虚拟物体的移动间的一种映射关系，此时通过肢体动作算法实现。该算法包括以下步骤：

将人脸动作特征信息分为头部动作特征信息，眼部动作特征信息，嘴部动作特征信息；

在软件环境中按照预设的比例构建人脸3D模型；

将头部动作特征信息，眼部动作特征信息和嘴部特征信息分别转化为人脸虚拟3D五官中头部关键点，眼部关键点和嘴部关键点的坐标偏移量；

将头部和眼部关键点的坐标偏移量作为软件中虚拟物体的动画位移量使用，将嘴部关键点的坐标偏移量作为输出结果发送至音量判断算法。

人脸3D模型在服务器端的3D软件中进行搭建，该预设的比例根据交互软件开发时的实际需求决定，而非根据计算机屏幕的比例。若需要客户端视频动画中的虚拟物体产生更大的位移量，则将该比例调高；若希望客户端视频动画中的虚拟物体产生相对较小的位移量，则将该比例降低。

为了实现通过人声发出的音量大小控制虚拟物体大小变换的目的，需要在人脸识别的基础上嵌入另一种算法，即音量判断算法。

更进一步地，该算法包括以下步骤：

预设最小时间间隔；

将实时的嘴部关键点的坐标偏移量和音量大小作与运算，若结果为1，则继续以下步骤，否则终止；

将预设最小时间间隔内的音量变化作为软件环境中虚拟物体大小的变化量。

该算法在实际编程实现时，需要在代码中加入应用程序接口访问功能，以便能访问本地环境的API组件。

API，即应用程序接口，是一些预先定义的接口(如函数、HTTP接口)，或指软件系统不同组成部分衔接的约定。用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程，而又无需访问源码，或理解内部工作机制的细节。

音量判断算法加入API接口访问功能后，可以便捷地调用用户本地设备中的音频设备执行音量输入和处理的功能。

另一面，本发明采用的另一个技术方案是：提供一种基于人脸识别的软件交互装置，该装置包括：

提取单元：通过客户端程序提取包含人脸动作的视频和音频数据；

筛查单元：将提取到的包括人脸动作的视频分解为不同表情的图像并比较，获得不同表情下面部图像关键部位的色彩饱和度的差异信息；

计算单元：通过人脸动作特征信息和音量变化信息计算出交互动画中虚拟物体的位移和变换量；

环境检测单元：用于当客户端用户所在背景环境的亮度不足以支持提取单元进行工作时，对背景环境进行补救措施使所述背景环境能够支持提取单元进行工作。

进一步地，环境检测单元的补救措施具体为：外置一组显色指数大于95％的柔光灯，使所述柔光灯覆盖整个人脸区域。

由上述技术方案可知，本发明与现有技术相比至少具备以下优点和积极效果：

1.本发明基于大量人脸数据模型训练，结合AI算法，实现关键点精准定位，识别精度高，从而达到完美贴合人脸，识别各种姿态表情。

2.本发明可根据应用场景的需求，提供不同数量关键点的采集方案(5点，43点，81点，106点，300点)，并可结合运动趋势预判，快速乃至超实时反馈关键点数据。

3.本发明封装了接口丰富的SDK，且该SDK具有安装包体小，占用存储空间小的特点。

4.本发明相对于传统的锻炼方式，具有成本低，时间条件和场地条件要求低的特点。用户可以随时随地拿出自己的手机，开启程序即可进行锻炼。

5.本发明相对于传统的锻炼方式，更具有趣味性。本发明通过小游戏的方式，让用户与游戏中的视频动画产生交互，由于游戏中的场景时刻在变化，用户在把自己代入游戏中虚拟人物的同时，也可领略到丰富绚丽的动画效果，不会感到枯燥，从而帮助用户养成长期锻炼的习惯。

6.有别于传统的人脸识别互动程序，本发明采用的是基于人脸关键点图像特征变化识别的算法，可以有效地消除面部装饰物或遮挡物对人脸精准识别的影响，也可在后续的软件拓展包中加入脸部贴合物展示脚本使用户与软件进行交互时看到的动画效果更加丰富。

7.有别于传统的人脸识别互动程序，本发明表情检测功能更加强大，除了一般的眨眼，嘟嘴表情，由于采用的是基于高像素的图像细节检测的人脸识别算法，本发明可以识别更多更加复杂和细微的表情变化，例如抿嘴，咬嘴唇，鼓腮帮，眯眼睛或增大眼睛等。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本发明一实施例提供的一种基于人脸识别的软件交互方法的流程示意图；

图2是本发明另一实施例提供的肢体动作算法的流程示意图；

图3是本发明另一实施例提供的音量判断算法的流程示意图；

图4是本发明另一实施例提供的一种基于人脸识别的软件交互装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明一实施例提供的一种基于人脸识别的软件交互方法的流程示意图。该方法包括下述步骤：

S1:提取单元获取包含人脸的视频和音频数据；

S2:筛查单元通过人脸识别方法获得视频数据中人脸关键部位的动作特征信息；

S3:计算单元通过肢体动作算法和音量判断算法将人脸动作特征信息和音频数据转化为软件中虚拟物体的动作指令

实施例二

图2为本发明另一实施例提供的肢体动作算法的流程示意图，该方法包括下列步骤：

S30：将人脸动作特征信息分为头部动作特征信息，眼部动作特征信息，嘴部动作特征信息；

办公保健小程序开启客户端的拍摄设备，监测用户的头部及人脸动作情况，并拍摄得到基于人脸的原始视频。因为拍摄到的原始视频是关于人脸整体的视频，而用户可能只是人脸的局部区域在动作，所以需要对人脸进行区域检测。进行区域检测的前提是对人脸做一个初步的区域划分，本程序通过人脸样本库里的样本模型首先初步划分为包括各个五官在内的六大区域。定位到区域中心点后，以区域中心点为圆心，设定一个检测半径；例如，当获得的原始人脸图像为100x100像素时，按照样本模型划分出一个眼部区域,以该区域的中心为圆心，设定检测半径为5像素，通过判断人脸特征的判别方法判断该检测圆区域内是否含有高辨别度的关键特征点，即人脸关键部位的特征。若判断后无法发现高辨别度的关键特征点，则将检测半径按照一定的递进距离逐步扩大，例如递进距离为1像素，则按照检测半径为6像素，7像素，8像素等依次加大的顺序进行检测，直至检测到关键特征点，则检测成功。原则上递进距离越小越好，因为距离越小检测精度越高，该距离可由用户自行设定。判断人脸是否有特征点的方法有很多，例如马赛克方法、特征脸方法、纹理图方法、连续对称方法、肤色区域判定方法等。在确定了最小检测区域后，截取含有该区域人脸动作的视频，即人脸关键部位的动作视频，将该视频分为头部动作特征信息视频，眼部动作特征信息视频和嘴部动作特征信息视频。

S31：在软件环境中按照预设的比例构建人脸3D模型；

办公保健小程序的服务器端根据客户端捕获的人脸图像信息，按照一定的比例构建虚拟人脸三维模型，该比例不按照用户的客户端的显示屏幕大小构建，而是办公保健小程序中虚拟物体移动的视觉位移量与图像中人脸的比例的比值。若想单位时间内虚拟物体的的移动距离加大，则将该比例相应加大；若想单位时间内虚拟物体的移动距离变小，则将该比例相应减小。

S32：将头部动作特征信息，眼部动作特征信息和嘴部特征信息分别作为人脸虚拟3D五官中头部关键点，眼部关键点和嘴部关键点的坐标偏移量；

当搭建好虚拟人脸3D模型后，服务器首先接收客户端传来的头部动作特征信息视频，眼部动作特征信息视频和嘴部动作特征信息视频；接着从头部动作特征信息视频中提取头部关键点动作变化视频；从眼部动作特征信息视频中提取眼部关键点动作变化视频；从嘴部动作特征信息视频中提取嘴部关键点动作变化视频。然后将上述三个视频应用到搭建好的虚拟人脸模型中，可以由服务器自身的三维动画生成功能实现，也可以由服务器调动外源三维动画软件实现。服务器端记录上述这些关键点在三维人脸模型中的坐标值的变化，得到具体的坐标位移量。眼部关键点可以是上眼皮中心点，下眼皮中心点，眼睑的中心点，眼球的中心点等；头部关键点是形成头部轮廓边界线的一系列的特征点；嘴部关键点可以是上嘴唇的中心点，下嘴唇的中心点等。

S33:将头部关键点，眼部关键点的坐标偏移量作为软件中虚拟物体的动画位移量使用，将嘴部关键点的坐标偏移量作为输出结果发送至音量判断算法。

服务器端得到头部关键点和眼部关键点的坐标偏移量后，将该偏移量发送至客户端动画的生成程序的用于与用户交互的虚拟物体的位移变量中，当动画脚本调用该虚拟物体并输出至用户处的显示屏时，虚拟物体的位置会随着位移变量的实时变化而变化。

当用户选择保健程序中的眼部保健选项时，程序开始后，随着用户的眨眼动作，动画中的虚拟小人会在用户眨眼的同时作出弹跳动作，从而避开动画中地面上的路障。因为路障是连续不断的，所以用户需要不断地进行眨眼动作，否则撞上路障则动画终止，无法观看后续动画中的路障两侧的风景。当用户因为长时间注视电脑感到眼睛疲劳时，可以在办公的间歇时间拿起自己的手机开始保健程序，缓解眼部疲劳。

当用户选择保健程序中的头部保健选项时，程序开始后，屏幕会由左至右水平地飞出一个个方向箭头，当方向箭头到达屏幕右侧的虚拟框中时，用户需要根据方向箭头指示的方向作出相应的向上，向下，向左，向右的扭头动作，若及时作出了正确方向的扭头动作，则记一分；若未能及时作出正确方向的动作，则不得分。动画结束后，用户将得到本轮的总分，用户可通过多次使用该程序提高分数，刷新自己的分数记录，取得成就感的同时也便捷地达到了颈椎保健的目的。

实施例三

图3为本发明另一个实施例提供的音量判断算法的流程示意图，该方法包括下列步骤：

S34：预设最小时间间隔；

吹气球小游戏首先提示用户设定吹气检测的最小检测时间间隔，游戏程序可根据检测的时间间隔范围划分游戏的难度，可划分为初级，中级，高级等，随后游戏程序通过调动用户端的音频输入设备获取预设时间间隔内的音量数据。

S35：将实时的嘴部关键点的坐标偏移量和音量大小作与运算，若结果为1，则继续以下步骤，否则终止；

游戏程序通过获取服务器端肢体动作算法得到实时的嘴部关键点坐标偏移量，若该偏移量大于零，则证明此时用户的嘴部正在发生动作，再判断此时音量是否大于零，若音量大于零且嘴部关键点的坐标偏移量也大于零，则证明此时用户在吹气发声，而不是背景的杂音；上述判断方式在逻辑运算中采用与运算即可，只有嘴部关键点的坐标偏移量大于零，此时在逻辑运算中坐标偏移量的值为1，且音量也大于0，此时在逻辑运算中音量大小的值也为1时，嘴部关键点的坐标偏移量和音量大小的逻辑与运算的结果才为1，否则不能判断是否为人在发声，从而影响游戏的进程。

S36：将预设最小时间间隔内的音量变化作为软件环境中虚拟物体大小的变化量。

在吹气球小游戏中，用户通过不断加大吹气量和发声量，来影响游戏动画中气球的膨胀程度，持续吹气的时间越长，音量越大，则气球的膨胀程度越大。为了让用户体会到玩游戏的乐趣，在游戏中加入不同的阶段性目标，可分设不同的关卡，每个关卡的气球设定一个最大膨胀度，当用户发声量超过该膨胀度时，该虚拟气球将破裂，同时附加破裂后的动画，加入奖励提示，激励用户挑战更大的吹气量，不停地闯关。用户在玩吹气球小游戏中的同时，锻炼了自己的肺活量，也达到了身心愉悦的目的，可谓一举两得。

实施例四

图4为本发明另一实施例提供的一种基于人脸识别的软件交互装置的结构示意图。该装置包括提取单元100，筛查单元200，计算单元300和环境检测单元400。其中提取单元100获取含有人脸动作的视频和音频数据，可以通过手机的摄像头，电脑的摄像头或其他视频拍摄和监控设备；

筛查单元200用于接收提取单元100获得的人脸视频，从中筛选出人脸关键部位的动作特征信息并发送给计算单元300；计算单元300将人脸关键部位的动作特征信息转化为用户客户端侧的虚拟物体的移动和变换量；上述过程为背景光源充足的情况，当背景光源的数量不足以让提取单元对待检测人脸的拍摄视频进行人脸动作或表情变化的提取时，环境检测单元400应当及时通知用户添加外置光源，且该光源的显色指数应在95％以上，以便不丢失人脸特征任一一处必要细节，若添加的外置光源满足要求，则通过客户端提示用户“环境光修复成功”，否则提示“显色指数未达标”或“环境光照度不达标”。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于人脸识别的软件交互方法，其特征在于，包括以下步骤：

S1:提取单元获取包含人脸的视频和音频数据；

S3:计算单元通过肢体动作算法和音量判断算法将人脸动作特征信息和音频数据转化为软件中虚拟物体的动作指令。

2.根据权利要求1所述的方法，步骤S2中所述的人脸识别方法，其特征在于，包括以下步骤：

S20:获取视频数据中人脸各个面部区域图像的平均饱和度值；

S21：对面部区域图像的平均饱和度值进行指数函数处理，得到人脸关键部位的平均饱和度值；

S22：比较人脸动作前后的人脸关键部位的平均饱和度值的差异并得到差异度，该差异度为人脸关键部位的动作特征信息。

3.根据权利要求1所述的方法，步骤S3中所述的肢体动作算法，其特征在于,包括以下步骤：

S31：在软件环境中按照预设的比例构建人脸3D模型；

S32：将头部动作特征信息，眼部动作特征信息和嘴部动作特征信息分别转化为人脸虚拟3D五官中头部关键点，眼部关键点和嘴部关键点的坐标偏移量；

S33:将头部关键点和眼部关键点的坐标偏移量作为软件中虚拟物体的动画位移量使用，将嘴部关键点的坐标偏移量作为输出结果发送至音量判断算法。

4.根据权利要求1所述的方法，步骤S3中所述的音量判断算法，其特征在于，包括以下步骤：

S34：预设最小时间间隔；

5.根据权利要求2所述的方法，步骤S21中所述的指数函数，其特征在于，采用式1表示为：

y＝k(3^x+7)

其中，k为需要系数，k取值为(0,0.8)之间的数；x为采集到的人脸各个面部区域图像中的平均饱和度值，y为人脸关键部位图像的平均饱和度值。

6.根据权利要求2所述的方法，步骤S22中所述的差异度，其特征在于,该差异度为人脸动作后的关键部位图像的平均饱和度值与人脸动作前的关键部位图像的平均饱和度值的比值。

7.一种基于人脸识别的软件交互装置，其特征在于，包括：

8.根据权利要求7所述的装置，所述环境检测单元的补救措施，其特征在于，外置一组显色指数大于95％的柔光灯，使所述柔光灯覆盖整个人脸区域。

9.一种客户端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序且应用于客户端，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。