CN110738126A - 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质 - Google Patents

基于坐标变换的嘴唇剪切方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110738126A
CN110738126A CN201910885928.5A CN201910885928A CN110738126A CN 110738126 A CN110738126 A CN 110738126A CN 201910885928 A CN201910885928 A CN 201910885928A CN 110738126 A CN110738126 A CN 110738126A
Authority
CN
China
Prior art keywords
face
lip
coordinate
information
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910885928.5A
Other languages
English (en)
Inventor
王进
陈令刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910885928.5A priority Critical patent/CN110738126A/zh
Priority to PCT/CN2019/118283 priority patent/WO2021051603A1/zh
Publication of CN110738126A publication Critical patent/CN110738126A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及生物识别技术领域,提出一种基于坐标变换的嘴唇剪切方法、装置、电子设备及存储介质,其中的方法包括通过人脸识别引擎采集视频帧中的人脸信息;基于人脸信息获取人脸的所有特征点,并确定人脸中嘴唇的嘴角坐标信息及嘴唇的中心点坐标信息;对人脸矩形框标定的人脸进行归一化处理,获取符合预设标准人脸尺寸的人脸及对应的人脸转换比例系数;基于转换比例系数对嘴唇的中心点坐标进行转换,并获取转换后的新中心点坐标;根据新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域;根据矩形区域剪切出人脸的嘴唇区域。本发明通过先识别视频中的人脸,然后对人脸进行归一化及坐标转换处理,可提高嘴唇剪切精度。

Description

基于坐标变换的嘴唇剪切方法、装置、设备及存储介质
技术领域
本发明涉及生物识别技术领域,尤其涉及一种基于坐标变换的嘴唇检测方法、装置、电子设备及计算机可读存储介质。
背景技术
唇读是指通过观察说话人在发音过程中唇部的变化,读出或者部分读出其所说的内容。而计算机唇读是指通过建立唇读模型和分析发音过程中唇部运动参数,定量地处理唇动信息从而对视频中的序列图像进行分类和识别,或者辅助语音识别来提高语音识别率。对唇读的研究将对耳聋患者、执法机构及嘈杂环境中的工作者具有实际应用意义。
目前,剪切人脸的唇部信息是唇读识别的基本准备工作之一,目前人脸唇部剪切的常用步骤包括:首先利用Dlib得到人脸的68个特征点(包含嘴唇的特征点),然后根据嘴唇的特征点分布,直接进行嘴唇剪切。这种方式虽然简单快速,但是存在明显的缺陷,比如个体与镜头之间的距离是随时变化的,二者可远和近,在不进行处理的情况下,对应剪切出来的矩形区域中的嘴唇就会有大有小,从而影响唇语识别算法识别精度的提高。
发明内容
本发明提供一种基于坐标变换的嘴唇剪切方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决目前采集视频中人脸的唇部信息,剪切出的嘴唇会有大有小,影响唇语识别精度的问题。
为实现上述目的,本发明提供一种基于坐标变换的嘴唇剪切方法,应用于装置,所述方法包括:
通过人脸识别引擎采集视频帧中的人脸信息,所述人脸信息包括人脸矩形框的基础坐标和尺寸信息;
基于所述人脸信息获取所述人脸的所有特征点,并确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息;
对所述人脸矩形框标定的人脸进行归一化处理,并获取符合预设标准人脸尺寸的人脸及对应的人脸转换比例系数;
基于所述转换比例系数对所述嘴唇的中心点坐标进行转换,并获取转换后的新中心点坐标;
根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域;
根据所述矩形区域剪切出所述人脸的嘴唇区域。
优选地,所述人脸矩形框的基础坐标为所述人脸矩形框的左上角的坐标信息、右上角的坐标信息、左下角的坐标信息或者右下角的坐标信息;所述人脸矩形框的尺寸信息为所述人脸矩形框的宽度和高度(w,h)。
优选地,所述确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息的步骤包括:
通过所述所有特征点信息,确定人脸中嘴唇的嘴角坐标信息,所述嘴角坐标信息包括左嘴角坐标(x,y)和右嘴角坐标(x,y);
根据所述左嘴角坐标和所述右嘴角坐标确出定嘴唇的中心点坐标为((x+x)/2,(y+y)/2)。
优选地,所述预设标准人脸尺寸为(facew,faceh),获取对应的人脸转换比例系数的步骤包括:
根据所述人脸矩形框的宽度和高度(w,h),确定所述人脸转换比例系数为(facew/w,faceh/h)。
优选地,通过公式:
(centerx,centery)=((x-x+x-x)*(facew/w)/2,(x–y+y-y)*(faceh/h)/2)获取准换后的新中心点坐标,
其中,(centerx,centery)为新中心点坐标,(x,y)为所述人脸矩形框的基础坐标。
优选地,所述根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域的步骤包括:
根据所述新中心点坐标,确定所述矩形区域的左上角坐标点;
根据所述左上角坐标点及预设的嘴唇剪切宽度和高度(m,n)确定所述矩形区域;
其中,所述左上角坐标点的公式为:
(int(centerx)-m/2,int(centery)-n/2)
m表示所述矩形区域的宽度,n表示所述矩形区域的长度;
并且,m和n的取值满足以下条件:
(0<m≤facew-centerx)
(0<m≤faceh-centery)。
优选地,所述人脸的所有特征点为根据预设规则选取的预设数目个特征点。
为实现上述目的,本发明还提供一种基于坐标变换的嘴唇剪切装置,该装置包括:
采集模块,用于通过人脸识别引擎采集视频帧中的人脸信息,所述人脸信息包括人脸矩形框的基础坐标和尺寸信息;
获取确定模块,用于基于所述人脸信息获取所述人脸的所有特征点,并确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息;
处理获取模块,用于对所述人脸矩形框标定的人脸进行归一化处理,并获取符合预设标准人脸尺寸的人脸及对应的人脸转换比例系数;
转换获取模块,用于基于所述转换比例系数对所述嘴唇的中心点坐标进行转换,并获取转换后的新中心点坐标;
确定模块,用于根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域;
剪切模块,用于根据所述矩形区域剪切出所述人脸的嘴唇区域。
为实现上述目的,本发明还提供一种电子设备,,该电子设备包括:存储器及处理器,所述存储器中包括基于坐标变换的嘴唇剪切程序,所述基于坐标变换的嘴唇剪切程序被所述处理器执行如上所述的基于坐标变换的嘴唇区域剪切方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于坐标变换的嘴唇剪切程序,所述基于坐标变换的嘴唇剪切程序被处理器执行时,实现如上所述的基于坐标变换的嘴唇剪切方法中的任意步骤。
本发明提出的基于坐标变换的嘴唇剪切方法、装置、电子设备及计算机可读存储介质,通过先归一化人脸,再剪切嘴唇的方式,能够改善仅根据人脸特征点得到的嘴唇有大有小的情况;另外,通过在原视频帧中直接识别人脸特征点,而不是剪切人脸之后再提取特征值,能够避免由于剪切人脸导致头部信息丢失,从而影响特征点提取精度的问题。
附图说明
图1为根据本发明基于坐标变换的嘴唇剪切方法具体实施例的应用环境示意图;
图2为图1中基于坐标变换的嘴唇剪切程序具体实施例的模块示意图;
图3为本发明基于坐标变换的嘴唇剪切方法具体实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于坐标变换的嘴唇剪切方法,应用于一种电子设备1。参照图1所示,为本发明基于坐标变换的嘴唇剪切方法较佳实施例的应用环境示意图。
在本实施例中,电子设备1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子设备1包括:处理器12、存储器11、网络接口14及通信总线15。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子设备1的外部存储器11,例如所述电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子设备1的基于坐标变换的嘴唇剪切程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于坐标变换的嘴唇剪切程序10等。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子设备1与其他电子设备之间建立通信连接。
通信总线15用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-15的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子设备1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子设备1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子设备1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子设备1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子设备1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统、以及基于坐标变换的嘴唇剪切程序10;处理器12执行存储器11中存储的基于坐标变换的嘴唇剪切程序10时实现如下步骤:
通过人脸识别引擎采集视频帧中的人脸信息,所述人脸信息包括人脸矩形框的基础坐标和尺寸信息;
基于所述人脸信息获取所述人脸的所有特征点,并确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息;
对所述人脸矩形框标定的人脸进行归一化处理,并获取符合预设标准人脸尺寸的人脸及对应的人脸转换比例系数;
基于所述转换比例系数对所述嘴唇的中心点坐标进行转换,并获取转换后的新中心点坐标;
根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域;
根据所述矩形区域剪切出所述人脸的嘴唇区域。
优选地,所述人脸矩形框的基础坐标为所述人脸矩形框的左上角的坐标信息、右上角的坐标信息、左下角的坐标信息或者右下角的坐标信息;所述人脸矩形框的尺寸信息为所述人脸矩形框的宽度和高度(w,h)。
优选地,所述确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息的步骤包括:
通过所述所有特征点信息,确定人脸中嘴唇的嘴角坐标信息,所述嘴角坐标信息包括左嘴角坐标(x,y)和右嘴角坐标(x,y);
根据所述左嘴角坐标和所述右嘴角坐标确定出嘴唇的中心点坐标为((x+x)/2,(y+y)/2)。
优选地,所述预设标准人脸尺寸为(facew,faceh),获取对应的人脸转换比例系数的步骤包括:
根据所述人脸矩形框的宽度和高度(w,h),确定所述人脸转换比例系数为(facew/w,faceh/h)。
优选地,通过公式:
(centerx,centery)=((x-x+x-x)*(facew/w)/2,(x–y+y-y)*(faceh/h)/2)获取转换后的新中心点坐标,
其中,(centerx,centery)为新中心点坐标,(x,y)为所述人脸矩形框的基础坐标。
优选地,
所述根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域的步骤包括:
根据所述新中心点坐标,确定所述矩形区域的左上角坐标点;
根据所述左上角坐标点及预设的嘴唇剪切宽度和高度(m,n)确定所述矩形区域;
其中,所述左上角坐标点的公式为:
(int(centerx)-m/2,int(centery)-n/2)
m表示所述矩形区域的宽度,n表示所述矩形区域的长度;
并且,m和n的取值满足以下条件:
(0<m≤facew-centerx)
(0<n≤faceh-centery)。
优选地,所述人脸的所有特征点为根据预设规则选取的预设数目个特征点。
在其他实施例中,基于坐标变换的嘴唇剪切程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中基于坐标变换的嘴唇剪切程序10较佳实施例的程序模块图。所述基于坐标变换的嘴唇剪切程序10可以被分割为:人脸获取单元11、嘴唇坐标确定单元12、归一化处理单元13、坐标转换单元14、剪切区域确定单元15和剪切单元16。所述模块11-15所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
人脸获取单元11,用于通过人脸识别引擎采集视频帧中的人脸信息,所述人脸信息包括人脸矩形框的基础坐标和尺寸信息;
嘴唇坐标确定单元12,用于基于所述人脸信息获取所述人脸的全部特征点,并确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息;
归一化处理单元13,用于对所述人脸矩形框标定的人脸进行归一化处理,并获取符合预设标准人脸尺寸的人脸及对应的人脸转换比例系数;
坐标转换单元14,用于基于所述转换比例系数对所述嘴唇的中心点坐标进行转换,并获取转换后的新中心点坐标;
剪切区域确定单元15,用于根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域;
剪切单元16,用于根据所述矩形区域剪切出所述人脸的嘴唇区域。
换言之,本发明还提供过一种基于坐标变换的嘴唇剪切装置,所述装置包括:
采集模块,用于通过人脸识别引擎采集视频帧中的人脸信息,所述人脸信息包括人脸矩形框的基础坐标和尺寸信息;
获取确定模块,用于基于所述人脸信息获取所述人脸的所有特征点,并确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息;
处理获取模块,用于对所述人脸矩形框标定的人脸进行归一化处理,并获取符合预设标准人脸尺寸的人脸及对应的人脸转换比例系数;
转换获取模块,用于基于所述转换比例系数对所述嘴唇的中心点坐标进行转换,并获取转换后的新中心点坐标;
确定模块,用于根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域;
剪切模块,用于根据所述矩形区域剪切出所述人脸的嘴唇区域。
此外,本发明还提供一种基于坐标变换的嘴唇剪切方法。参照图3所示,为本发明基于坐标变换的嘴唇剪切方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于坐标变换的嘴唇剪切方法包括:步骤S110-步骤S160。
S110:通过人脸识别引擎采集视频帧中的人脸信息,所述人脸信息包括人脸矩形框的基础坐标和尺寸信息。
其中,人脸识别引擎主要指SeetaFaceEngine,其包括搭建全自动人脸识别系统所需的三个核心模块,即:人脸检测模块(SeetaFace Detection)、面部特征点定位模块(SeetaFace Alignment)以及人脸特征提取与比对模块(SeetaFace Identification)。其中,人脸检测模块是基于结合经典级联结构和多层神经网络的人脸检测方法来实现的,主要采用专门针对多姿态人脸检测涉及的漏斗型级联结构(Funnel-Structured Cascade,FuSt)。
具体地,通过人脸识别引擎采集视频帧中的人脸信息,获取人脸矩形框的基础坐标和尺寸信息,所述人脸矩形框的基础坐标为所述人脸矩形框的左上角的坐标信息、右上角的坐标信息、左下角的坐标信息或者右下角的坐标信息;所述人脸矩形框的尺寸信息为所述人脸矩形框的宽度和高度(w,h);为方便表述,以下基础坐标可选用人脸矩形框的左上角的坐标点(x,y),人脸矩形框的尺寸包括其宽度及高度(w,h)。
S120:基于所述人脸信息获取所述人脸的所有特征点,并确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息。
优选地,所述人脸的所有特征点为根据预设规则选取的预设数目个特征点,所述确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息的步骤包括:
首先,通过所述所有特征点信息,确定人脸中嘴唇的嘴角坐标信息,所述嘴角坐标信息包括左嘴角坐标(x,y)和右嘴角坐标(x,y);
然后,根据所述左嘴角坐标和所述右嘴角坐标确定出嘴唇的中心点坐标为((x+x)/2,(y+y)/2)。
具体地,可通过Dlib人脸检测,OpenCV人脸检测,或者libfacedetection等多种检测方式,采集所述人脸信息的全部特征点,根据人脸信息的所有特征点可确定对应的嘴角坐标位置,包括左嘴角坐标和右嘴角坐标,例如左嘴角“特征点48”的坐标位置为(x_48,y_48),右嘴角“特征点54”的坐标位置为(x_54,y_54),根据左嘴角和右嘴角坐标计算得到嘴唇中心点坐标位置为((x_48+x_54)/2,(y_48+y_54)/2)。
在本发明中具体采用Dlib来实现人脸识别,由于Dlib里面有人脸检测器,有训练好的人脸关键点检测器,也有训练好的人脸识别模型。Dlib是基于现代C++的一个跨平台通用的框架,Dlib内容涵盖机器学习、图像处理、数值算法、数据压缩等等,涉猎甚广。更重要的是,Dlib的文档非常完善,例子非常丰富,与很多库相类似,Dlib也提供了Python的接口,安装及使用非常简单。
S130:对所述人脸矩形框标定的人脸进行归一化处理,并获取符合预设标准人脸尺寸的人脸及对应的人脸转换比例系数。
其中,预设标准人脸尺寸为(facew,faceh),获取对应的人脸转换比例系数的步骤包括:
根据所述人脸矩形框的宽度和高度(w,h),确定所述人脸转换比例系数为(facew/w,faceh/h)。
具体地,在对人脸矩形框进行归一化处理的过程中,将人脸归一化到设定值大小(facew,faceh),可知,当待处理的人脸归一化到上述预设值大小时,其人脸的变换比例(或转换比例系数)为(facew/w,faceh/h),即将目前的人脸信息与变换比例相乘即可得到统一的人脸大小,获取标准人脸信,从而在唇语识别过程中,输入的均是大小相等的图片,能够提高唇语识别算法的识别精度。
S140:基于所述转换比例系数对所述嘴唇的中心点坐标进行转换,并获取转换后的新中心点坐标。
其中,待嘴唇的中心点坐标确定后,可以根据转换比例系数对嘴唇的中心点坐标进行相应比例的转换,并计算中心变换后的嘴唇中心点坐标,所述获取转换后的新中心点坐标的公式为,或者通过公式:
(centerx,centery)=((x-x+x-x)*(facew/w)/2,(x–y+y-y)*(faceh/h)/2)获取转换后的新中心点坐标;
其中,(centerx,centery)为新中心点坐标,(x,y)为所述人脸矩形框的基础坐标。
S150:根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域。
S160:根据所述矩形区域剪切出所述人脸的嘴唇区域。
其中(m,n)为需要剪切嘴唇的宽度和高度且(m,n)取值范围为{0<m≤facew-centerx,0<n≤faceh-centery};需要剪切嘴唇矩形区域左上角坐标点(int(centerx)–m/2,int(centery)–n/2),确定嘴唇剪切矩形框后,使用opencv等工具便可以剪切出嘴唇信息。
所述根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域的步骤包括:
根据所述新中心点坐标,确定所述矩形区域的左上角坐标点;
根据所述左上角坐标点及预设的嘴唇剪切宽度和高度(m,n)确定所述矩形区域;
其中,所述左上角坐标点的公式为:
(int(centerx)-m/2,int(centery)-n/2)
m表示所述矩形区域的宽度,n表示所述矩形区域的长度;并且,m和n的取值满足以下条件:
(0<m≤facew-centerx)
(0<n≤faceh-centery)。
此外,需要说明的是,在对人脸进行归一化处理之前,还可以先将矩形框标定的人脸剪切出来,然后再确定剪切出的人脸的嘴唇的中心点坐标位置。
作为具体示例,以下将结合实施例对本发明的基于坐标变换的嘴唇剪切方法进行详细表述。
具体地,基于坐标变换的嘴唇剪切方法包括:
1、利用SeetaFaceEngine2工具识别出视频帧中的人脸,并得到人脸矩形框左上角坐标点(x,y),以及人脸矩形框的宽度w及高度h。
2、基于上述人脸信息,利用Dlib标定人脸的68个特征点,这68个特征点中包括人脸的嘴唇坐标信息,包括嘴左角“特征点48”的坐标位置为(x_48,y_48),嘴右角“特征点54”的坐标位置为(x_54,y_54)。
3、确定嘴唇中心点坐标位置为(center_x1,center_y1)=((x_48+x_54)/2,(y_48+y_54)/2);然后,基于人脸矩形框剪切出人脸,此时嘴唇中心点坐标位置变为(center_x2,center_y2)=(center_x1-x,center_y1-y)。
4、将上述人脸归一化到某一固定大小(face_w,face_h),其中face_w/face_h要与w/h基本一致,则人脸归一化的转换比例系数为(face_w/w,face_h/h)。
5、计算嘴唇归一化之后或者基于转换比例系数转化后的嘴唇中心坐标点为:(center_x,center_y)=(center_x2*(face_w/w),center_y2*(face_h/h)。
6、根据转换后的嘴唇中心点坐标(center_x,center_y),得到需要剪切嘴唇矩形区域左上角坐标点为:(int(center_x)–m/2,int(center_y)–n/2),其中(m,n)为需要剪切嘴唇的宽度和高度;且(m,n)取值范围为{0<m<=face_w-center_x,<0n<=face_w-center_y};确定(m,n)的值之后,使用opencv等工具便可以剪切出嘴唇信息。
利用上述根据本发明的基于坐标变换的嘴唇剪切方法,通过先归一化人脸,再剪切嘴唇的方式,能够改善仅根据人脸特征点得到的嘴唇有大有小的情况,确保剪切的嘴唇大小均匀、有效且完整;另外,通过在原视频帧中直接识别人脸特征点,而不是剪切人脸之后再提取特征值,能够避免由于剪切人脸导致头部信息丢失,从而影响特征点提取精度的问题。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括基于坐标变换的嘴唇剪切程序,所述基于坐标变换的嘴唇剪切程序被处理器执行时实现如下操作:
通过人脸识别引擎采集视频帧中的人脸信息,所述人脸信息包括人脸矩形框的基础坐标和尺寸信息;
基于所述人脸信息获取所述人脸的所有特征点,并确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息;
对所述人脸矩形框标定的人脸进行归一化处理,并获取符合预设标准人脸尺寸的人脸及对应的人脸转换比例系数;
基于所述转换比例系数对所述嘴唇的中心点坐标进行转换,并获取转换后的新中心点坐标;
根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域;
根据所述矩形区域剪切出所述人脸的嘴唇区域。
本发明之计算机可读存储介质的具体实施方式与上述基于坐标变换的嘴唇剪切方法、装置、电子设备的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于坐标变换的嘴唇剪切方法,应用于电子设备,其特征在于,所述方法包括:
通过人脸识别引擎采集视频帧中的人脸信息,所述人脸信息包括人脸矩形框的基础坐标和尺寸信息;
基于所述人脸信息获取所述人脸的所有特征点,并确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息;
对所述人脸矩形框标定的人脸进行归一化处理,并获取符合预设标准人脸尺寸的人脸及对应的人脸转换比例系数;
基于所述转换比例系数对所述嘴唇的中心点坐标进行转换,并获取转换后的新中心点坐标;
根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域;
根据所述矩形区域剪切出所述人脸的嘴唇区域。
2.根据权利要求1所述的基于坐标变换的嘴唇剪切方法,其特征在于,
所述人脸矩形框的基础坐标为所述人脸矩形框的左上角的坐标信息、右上角的坐标信息、左下角的坐标信息或者右下角的坐标信息;
所述人脸矩形框的尺寸信息为所述人脸矩形框的宽度和高度(w,h)。
3.根据权利要求2所述的基于坐标变换的嘴唇剪切方法,其特征在于,所述确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息的步骤包括:
通过所述所有特征点信息,确定人脸中嘴唇的嘴角坐标信息,所述嘴角坐标信息包括左嘴角坐标(x,y)和右嘴角坐标(x,y);
根据所述左嘴角坐标和所述右嘴角坐标确定出嘴唇的中心点坐标为((x+x)/2,(y+y)/2)。
4.根据权利要求3所述的基于坐标变换的嘴唇剪切方法,其特征在于,所述预设标准人脸尺寸为(facew,faceh),获取对应的人脸转换比例系数的步骤包括:
根据所述人脸矩形框的宽度和高度(w,h),确定所述人脸转换比例系数为(facew/w,faceh/h)。
5.根据权利要求4所述的基于坐标变换的嘴唇剪切方法,其特征在于,通过公式:
(centerx,centery)=((x-x+x-x)*(facew/w)/2,(x–y+y-y)*(faceh/h)/2)获取转换后的新中心点坐标,其中,(centerx,centery)为新中心点坐标,(x,y)为所述人脸矩形框的基础坐标。
6.根据权利要求5所述的基于坐标变换的嘴唇剪切方法,其特征在于,
所述根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域的步骤包括:
根据所述新中心点坐标,确定所述矩形区域的左上角坐标点;
根据所述左上角坐标点及预设的嘴唇剪切宽度和高度(m,n)确定所述矩形区域;
其中,所述左上角坐标点的公式为:
(int(centerx)-m/2,int(centery)-n/2)
m表示所述矩形区域的宽度,n表示所述矩形区域的长度;
并且,m和n的取值满足以下条件:
(0<m≤facew-centerx)
(0<n≤faceh-centery)。
7.根据权利要求1-6任一项所述的基于坐标变换的嘴唇剪切方法,其特征在于,所述人脸的所有特征点为根据预设规则选取的预设数目个特征点。
8.一种基于坐标变换的嘴唇剪切装置,其特征在于,所述装置包括:
采集模块,用于通过人脸识别引擎采集视频帧中的人脸信息,所述人脸信息包括人脸矩形框的基础坐标和尺寸信息;
获取确定模块,用于基于所述人脸信息获取所述人脸的所有特征点,并确定所述人脸中嘴唇的嘴角坐标信息及所述嘴唇的中心点坐标信息;
处理获取模块,用于对所述人脸矩形框标定的人脸进行归一化处理,并获取符合预设标准人脸尺寸的人脸及对应的人脸转换比例系数;
转换获取模块,用于基于所述转换比例系数对所述嘴唇的中心点坐标进行转换,并获取转换后的新中心点坐标;
确定模块,用于根据所述新中心点坐标及预设的嘴唇剪切宽度和高度,确定出矩形区域;
剪切模块,用于根据所述矩形区域剪切出所述人脸的嘴唇区域。
9.一种电子设备,其特征在于,该电子设备包括:存储器及处理器,所述存储器中包括基于坐标变换的嘴唇剪切程序,所述基于坐标变换的嘴唇剪切程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于坐标变换的嘴唇区域剪切方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于坐标变换的嘴唇剪切程序,所述基于坐标变换的嘴唇剪切程序被处理器执行时,实现如权利要求1至7中任一项所述的基于坐标变换的嘴唇剪切方法的步骤。
CN201910885928.5A 2019-09-19 2019-09-19 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质 Pending CN110738126A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910885928.5A CN110738126A (zh) 2019-09-19 2019-09-19 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质
PCT/CN2019/118283 WO2021051603A1 (zh) 2019-09-19 2019-11-14 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910885928.5A CN110738126A (zh) 2019-09-19 2019-09-19 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110738126A true CN110738126A (zh) 2020-01-31

Family

ID=69268840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910885928.5A Pending CN110738126A (zh) 2019-09-19 2019-09-19 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110738126A (zh)
WO (1) WO2021051603A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860366A (zh) * 2020-07-24 2020-10-30 兰州理工大学白银新材料研究院 一种远程控制的智能人脸识别防疫门禁系统
CN115294641A (zh) * 2021-05-02 2022-11-04 南通智行未来车联网创新中心有限公司 一种基于时间卷积网络的端到端唇读视频识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100680278B1 (ko) * 2005-12-28 2007-02-07 고려대학교 산학협력단 입술모양 추출방법 및 그 장치
CN108205795A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 一种直播过程中人脸图像处理方法及系统
CN109344693A (zh) * 2018-08-13 2019-02-15 华南理工大学 一种基于深度学习的人脸多区域融合表情识别方法
WO2019033570A1 (zh) * 2017-08-17 2019-02-21 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
CN110110603A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于面部生理信息的多模态唇读方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040042643A1 (en) * 2002-08-28 2004-03-04 Symtron Technology, Inc. Instant face recognition system
CN102004549B (zh) * 2010-11-22 2012-05-09 北京理工大学 一种适用于中文的自动唇语识别系统
CN102622613B (zh) * 2011-12-16 2013-11-06 彭强 一种基于双眼定位和脸型识别的发型设计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100680278B1 (ko) * 2005-12-28 2007-02-07 고려대학교 산학협력단 입술모양 추출방법 및 그 장치
CN108205795A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 一种直播过程中人脸图像处理方法及系统
WO2019033570A1 (zh) * 2017-08-17 2019-02-21 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
CN109344693A (zh) * 2018-08-13 2019-02-15 华南理工大学 一种基于深度学习的人脸多区域融合表情识别方法
CN110110603A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于面部生理信息的多模态唇读方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860366A (zh) * 2020-07-24 2020-10-30 兰州理工大学白银新材料研究院 一种远程控制的智能人脸识别防疫门禁系统
CN115294641A (zh) * 2021-05-02 2022-11-04 南通智行未来车联网创新中心有限公司 一种基于时间卷积网络的端到端唇读视频识别方法

Also Published As

Publication number Publication date
WO2021051603A1 (zh) 2021-03-25

Similar Documents

Publication Publication Date Title
WO2019169772A1 (zh) 图片处理方法、电子装置及存储介质
US11062124B2 (en) Face pose detection method, device and storage medium
US10534957B2 (en) Eyeball movement analysis method and device, and storage medium
US7949157B2 (en) Interpreting sign language gestures
CN109214385B (zh) 数据采集方法、数据采集装置及存储介质
EP3153943A1 (en) Air gesture input method and apparatus
CN110675940A (zh) 病理图像标注方法、装置、计算机设备及存储介质
CN110197238B (zh) 一种字体类别的识别方法、系统及终端设备
US10650234B2 (en) Eyeball movement capturing method and device, and storage medium
WO2020082731A1 (zh) 电子装置、证件识别方法及存储介质
WO2019033570A1 (zh) 嘴唇动作分析方法、装置及存储介质
CN111462381A (zh) 基于人脸温度识别的门禁控制方法、电子装置及存储介质
WO2019033568A1 (zh) 嘴唇动作捕捉方法、装置及存储介质
CN110738126A (zh) 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质
CN111553251A (zh) 证件四角残缺检测方法、装置、设备及存储介质
CN110717060B (zh) 图像mask的过滤方法、装置及存储介质
CN111582134A (zh) 证件边沿检测方法、装置、设备和介质
CN113158974A (zh) 姿态估计方法、装置、计算机设备和存储介质
WO2021012513A1 (zh) 手势操作方法、装置以及计算机设备
JP2006227768A (ja) 携帯端末における文字認識のための方法およびプログラム
WO2021051580A1 (zh) 基于分组批量的图片检测方法、装置及存储介质
JPH11312243A (ja) 顔領域検出装置
CN110610178A (zh) 图像识别方法、装置、终端及计算机可读存储介质
CN113642428B (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN113392820B (zh) 动态手势识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination