CN117636437A - 人脸关键点检测模型的训练方法、装置及网络直播系统 - Google Patents
人脸关键点检测模型的训练方法、装置及网络直播系统 Download PDFInfo
- Publication number
- CN117636437A CN117636437A CN202311680648.3A CN202311680648A CN117636437A CN 117636437 A CN117636437 A CN 117636437A CN 202311680648 A CN202311680648 A CN 202311680648A CN 117636437 A CN117636437 A CN 117636437A
- Authority
- CN
- China
- Prior art keywords
- face key
- key point
- loss function
- sample image
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 238000012549 training Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000006870 function Effects 0.000 claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000000694 effects Effects 0.000 claims description 17
- 238000005286 illumination Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 230000003796 beauty Effects 0.000 abstract description 10
- 238000007493 shaping process Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请涉及一种人脸关键点检测模型的训练方法和装置、网络直播系统、电子设备以及计算机可读存储介质,所述方法包括:从样本集中选取第一样本图像并进行数据增强处理得到第二样本图像;对第一样本图像和第二样本图像进行关键点预测得到第一人脸关键点和第二人脸关键点;根据第一人脸关键点计算第一损失函数,以及根据第一人脸关键点和第二人脸关键点计算图像数据增强后的一致性约束损失函数;根据第一损失函数与一致性约束损失函数确定人脸关键点检测模型的模型损失函数,根据模型损失函数对人脸关键点检测模型的参数进行学习更新。该技术方案,提升了视频直播场景下识别的稳定性,改善帧间抖动现象,满足直播业务中美颜、美妆和整形等使用需求。
Description
技术领域
本申请涉及网络直播技术领域,特别是涉及一种人脸关键点检测模型的训练方法和装置、网络直播系统、电子设备以及计算机可读存储介质。
背景技术
随着网络直播技术的发展,各种美颜、美妆和整形等特效被广泛应用于网络直播当中,美颜、美妆是主播开播的强需求,可以提高网络直播中分享的优质内容的传播效果;美颜、美妆和整形一般依赖于人脸关键点检测算法,在直播过程中对人脸关键点进行准确的检测,然后根据人脸关键点来定位人脸的眼睛、嘴唇等五官区域,并在此基础上设计和应用美颜、美妆的特效。
人脸关键点检测算法通常是通过训练人脸关键点检测模型来实现,主流的人脸关键点检测模型主要是基于深度学习人工标注的人脸图像样本得到,在一个标注好的训练样本集上训练人脸关键点检测模型。在人脸关键点检测模型训练过程中,由于人工标注一个视频序列(如一个视频可以解析为500帧图像)成本较高,因此目前的训练样本集一般采用单张图像的样本集合,其中各个图像之间并无任何关联,在这种训练集上训练得到的人脸关键点检测模型,由于其训练过程只关注单张图像,导致在直播等视频应用场景下,对于人脸关键点的预测结果不稳定,容易出现明显的帧间抖动现象,影响了后续的美颜、美妆和整形等特效效果,难以满足直播业务中对人脸关键点的检测及美颜、美妆和整形等使用需求。
发明内容
基于此,有必要针对上述技术问题,提供一种人脸关键点检测模型的训练方法和装置、网络直播系统、电子设备以及计算机可读存储介质,以提高人脸关键点的预测结果的稳定性。
第一方面,本申请提供一种人脸关键点检测模型的训练方法,所述方法包括:
从样本集中选取第一样本图像,对所述第一样本图像进行数据增强处理得到第二样本图像;
将第一样本图像和第二样本图像分别输入人脸关键点检测模型进行预测得到第一人脸关键点和第二人脸关键点;
根据所述第一人脸关键点计算第一损失函数,以及根据所述第一人脸关键点和第二人脸关键点计算图像数据增强后的一致性约束损失函数;
根据所述第一损失函数与一致性约束损失函数确定人脸关键点检测模型的模型损失函数,根据所述模型损失函数对人脸关键点检测模型的参数进行学习更新。
在一个实施例中,所述对所述第一样本图像进行数据增强处理得到第二样本图像,包括:
从预设的数据增强方式集合中选择目标数据增强方式;
根据所述目标数据增强方式预设的参数及第一样本图像的图像数据计算得到第二样本图像。
在一个实施例中,所述目标数据增强方式为随机光照增强方式;
所述根据所述目标数据增强方式预设的参数及第一样本图像的图像数据计算得到第二样本图像,包括:
y=f(x)+b
式中,y表示第二样本图像的像素亮度值,f(x)是第一样本图像的像素亮度值的计算函数,x是第一样本图像的像素亮度值,b为设定的亮度调整值。
在一个实施例中,所述目标数据增强方式为随机遮挡方式;
所述根据所述目标数据增强方式预设的参数及第一样本图像的图像数据计算得到第二样本图像,包括:
在第一样本图像中随机取一个像素点作为遮挡区域的中心点;
根据设定的宽度参数和高度参数确定以所述中心点为中心的遮挡区域;
对所述遮挡区域中的各个像素进行赋值。
在一个实施例中,根据所述第一人脸关键点计算第一损失函数,包括:
根据所述第一人脸关键点与第一样本图像中人工标注的关键点之间的误差来计算第一损失函数;其中,所述第一损失函数表示为:
式中,losspts表示第一损失函数,n表示人脸关键点数量,表示第i个第一人脸关键点坐标,/>表示第i个人工标注的关键点坐标。
在一个实施例中,根据所述第一人脸关键点和第二人脸关键点计算图像数据增强后的一致性约束损失函数,包括:
式中,losselt表示一致性约束损失函数,n表示人脸关键点数量,表示第i个第一人脸关键点坐标,/>表示第i个第二人脸关键点坐标。
在一个实施例中,根据所述第一损失函数与一致性约束损失函数确定人脸关键点检测模型的模型损失函数,包括:
loss=ωptslosspts+ωeltlosselt
式中,loss表示模型损失函数,losspts表示第一损失函数,losselt表示一致性约束损失函数,ωpts、ωelt分别是设定的权重值。
第二方面,本申请提供一种人脸关键点检测模型的训练装置,包括:
数据增强模块,用于从样本集中选取第一样本图像,对所述第一样本图像进行数据增强处理得到第二样本图像;
关键点预测模块,用于将第一样本图像和第二样本图像分别输入人脸关键点检测模型进行预测得到第一人脸关键点和第二人脸关键点;
损失函数计算模块,用于根据所述第一人脸关键点计算第一损失函数,以及根据所述第一人脸关键点和第二人脸关键点计算图像数据增强后的一致性约束损失函数;
监督学习模块,用于根据所述第一损失函数与一致性约束损失函数确定人脸关键点检测模型的模型损失函数,根据所述模型损失函数对人脸关键点检测模型的参数进行学习更新。
第三方面,本申请提供一种网络直播系统,包括:主播端、观众端以及直播服务器;其中,所述主播端和观众端分别通过通信网络连接至所述直播服务器;
所述直播服务器,用于进行主播端与观众端之间的直播转发;利用人脸关键点检测模型对主播视频的人脸关键点进行识别并添加特效;其中,所述人脸关键点检测模型采用所述的人脸关键点检测模型的训练方法得到;
所述主播端,用于接入直播间的主播以及采集主播直播视频流上传至直播服务器;
所述观众端,用于接入直播间的观众用户以及接收所述直播视频进行播放。
第四方面,本申请提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的人脸关键点检测模型的训练方法的步骤。
第五方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的人脸关键点检测模型的训练方法的步骤。
上述人脸关键点检测模型的训练方法、装置、网络直播系统、电子设备以及计算机可读存储介质,首先对第一样本图像进行数据增强处理得到第二样本图像,然后分别输入人脸关键点检测模型进行预测得到第一人脸关键点和第二人脸关键点,利用第一人脸关键点计算第一损失函数以及根据第一人脸关键点和第二人脸关键点计算图像数据增强后一致性约束损失函数;结合第一损失函数与一致性约束损失函数得到人脸关键点检测模型的模型损失函数,并以此对人脸关键点检测模型的参数进行学习更新。该技术方案,在人脸关键点检测算法的基础上,利用数据增强处理后图像数据增强后的一致性约束损失函数进行监督训练,提升了人脸关键点模型在视频直播场景下的稳定性,可以改善直播视频的帧间抖动现象,满足直播业务中对人脸关键点的检测及美颜、美妆和整形等使用需求。
附图说明
图1是一个示例的直播业务应用场景示意图;
图2是一个实施例的人脸关键点检测模型的训练方法流程图;
图3是一个示例的随机光照增强示意图;
图4是另一个示例的随机光照增强示意图;
图5是一个实施例的计算第二样本图像流程图;
图6是一个示例的随机遮挡增强示意图;
图7是一个实施例的人脸关键点检测模型的训练装置结构示意图;
图8是一个示例的网络直播系统结构示意图;
图9是一个实施例的电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的技术方案,可以应用于如图1所示的本申请相关方法的应用场景中,图1是一个示例的直播业务应用场景示意图,该网络直播系统可以包括直播服务器、主播端和观众端,主播端和观众端通过通信网络与直播服务器进行数据通信,从而使得主播端的主播和观众端的观众用户能够进行实时网络直播。其中,对于主播端和观众端,其终端设备可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,直播服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
以下对本申请的人脸关键点检测模型的训练方法的实施例进行说明,本申请可以是应用基于卷积神经网络的人脸关键点检测模型,用于在网络直播中对人脸关键点进行预测定位;参考图2所示,图2是一个实施例的人脸关键点检测模型的训练方法流程图,可以包括以下步骤:
步骤S10,从样本集中选取第一样本图像,对所述第一样本图像进行数据增强处理得到第二样本图像。
此步骤中,从采用单张图像的样本集合中,在人脸关键点模型训练过程中,从训练集中随机采样一张样本图像作为第一样本图像img1,对第一样本图像的图像数据进行数据增强处理得到变换后的第二样本图像img2,构造训练样本对用于模型训练。
在一个实施例中,对第一样本图像进行数据增强处理得到第二样本图像的方法,可以包括如下:
从预设的数据增强方式集合中选择目标数据增强方式;根据所述目标数据增强方式预设的参数及第一样本图像的图像数据计算得到第二样本图像。
具体的,可以根据人脸关键点识别场景中可能遇到的各种图像变化情况,如颜色变化、光照增强、光照变暗和图像被遮挡等等预设图像数据增强方式集合,在人脸关键点模型训练过程中可以选择一个目标数据增强方式来进行学习,为了获得图像变化之后相应样本图像数据,可以针对于目标数据增强方式设定相应的参数,通过该参数结合第一样本图像img1的图像数据进行变化计算得到第二样本图像img2。
在一个实施例中,当目标数据增强方式为随机光照增强方式时,对应的步骤S10中计算得到第二样本图像的方法,可以包括如下:
y=f(x)+b
式中,y表示第二样本图像的像素亮度值,f(x)是第一样本图像的像素亮度值的计算函数,x是第一样本图像的像素亮度值,b为设定的亮度调整值。
示例性的,在随机光照增强下改变了图像的亮度,比如对亮度线性调整时,计算公式可以为y=x+b,其中x是原图像素值,b是亮度调整值,y是调整后的像素值,例如b可以在[-80,+80]数值区间内随机取值,实现对图像亮度的随机调整,当b取正值时对应为亮度变亮,如图3所示,图3是一个示例的随机光照增强示意图,由于b取正值,因此实际显示效果为将图像变亮了,整个图像光照更加强烈;当b取负值时对应为亮度变暗,即随机黑暗增强,如图4所示,图4是另一个示例的随机光照增强示意图,由于b取负值,因此实际显示效果为将图像亮度进行减弱,从而变得更加黑暗。
在一个实施例中,当目标数据增强方式为随机遮挡方式时;对第一样本图像进行数据增强处理得到第二样本图像的方法,参考图5所示,图5是一个实施例的计算第二样本图像流程图,可以包括如下:
S101,在第一样本图像中随机取一个像素点作为遮挡区域的中心点;具体的,可以在设置矩形遮挡区域,在第一样本图像img1中随机取一个像素点作为矩形遮挡区域的中心点,从而围绕该中心点生成遮挡人脸图像的区域。
S102,根据设定的宽度参数和高度参数确定以所述中心点为中心的遮挡区域;具体的,本实施例设定宽度参数和高度参数与人脸图像相关,在随机生成遮挡区域时根据人脸图像宽高参数计算得到。
S103,对所述遮挡区域中的各个像素进行赋值;具体的,将第一样本图像的一个遮挡区域内的像素点赋值为0,从而显示为对人脸某个区域的遮挡效果。
示例性的,参考图6所示,图6是一个示例的随机遮挡增强示意图,可以在第一样本图像img1中随机取一个像素点c(xc,yc)作为遮挡区域的中心点;例如遮挡区域的宽度w可以在[0.05×iw,0.2×iw]的数值区间内随机取值,其中,iw为第一样本图像的人脸图像的宽度,遮挡区域的高度h=radio×w,radio是随机数,例如radio可以在[0.3,0.7,1.0,1.5,2.0,3.0]等六个常数中随机取一个,最后对遮挡区域中的各个像素进行赋值0从而得到第二样本图像img2。
如上述实施例的方案,通过数据增强方式集合可以设置各种图像变化对应的数据增强方式,从而在人脸关键点模型训练过程中加入到学习过程中,从而可以在后续进行人脸关键点识别时,在这些图像变化场景下也能够正确地识别出人脸关键点,提高人脸关键点的预测结果的稳定性。
步骤S20,将第一样本图像和第二样本图像分别输入人脸关键点检测模型进行预测得到第一人脸关键点和第二人脸关键点。
此步骤中,对于训练的人脸关键点检测模型,将第一样本图像和第二样本图像分别输入人脸关键点检测模型进行预测,根据预测结果可以得到第一人脸关键点和第二人脸关键点。
示例性的,人脸关键点检测模型可以使用CNN(Convolutional Neural Networks,卷积神经网络)模型,CNN模型的具体结构和人脸关键点数量n可以根据需要进行设定;以ResNet-18 CNN模型和300人脸关键点为例,该模型结构可以是ResNet-18 CNN后再接一个全连接层(linear layer)构成,n=300,模型回归出600个值,对应300个人脸关键点在样本图像中的坐标。
在一个实施例中,将第一样本图像img1和第二样本图像img2分别经过CNN模型预测后,对应得到CNN模型输出的和第二人脸关键点/>
如上述实施例的方案中,相对于常规的人脸关键点模型训练方法只关注第一样本图像img1,并通过模型预测的第一人脸关键点与人工标注的人脸关键点的误差来训练模型,本实施例中还增加了一维增强数据处理后的第二样本图像img2预测的第二人脸关键点与第一人脸关键点的误差来训练模型,从而可以提升模型识别准确性。
步骤S30,根据所述第一人脸关键点计算第一损失函数,以及根据所述第一人脸关键点和第二人脸关键点计算图像数据增强后的一致性约束损失函数。
具体的,根据第一人脸关键点与第一样本图像中人工标注的关键点之间的误差来计算第一损失函数,第一损失函数可以表示为:
式中,losspts表示第一损失函数,n表示人脸关键点数量,表示第i个第一人脸关键点坐标,/>表示第i个人工标注的关键点坐标。
如前述示例中,设置人脸关键点数量n=300,则第一损失函数表示为:
其中,是第一样本图像中第i个人工标注的人脸关键点坐标。
同时,由于第一样本图像img1和第二样本图像img2所表示的图像内容是同一个人脸图像中同一个位置的同一个表情,只是经过了数据增强处理(光照或者遮挡等数据增强)产生的不一致,因此,其对应的第一人脸关键点和第二人脸关键点应当完全一致,即理论上/>而实际情况是第一人脸关键点与第二人脸关键点之间存在差异,为了体现出这种差异并用于训练模型,本实施例计算了图像数据增强变换处理之后的一致性约束损失函数,即根据第一人脸关键点和第二人脸关键点计算样本图像数据增强变换之后得到的第一样本图像img1与第二样本图像img2之间的一致性约束损失函数,其可以表示为:
式中,losselt表示一致性约束损失函数,n表示人脸关键点数量,表示第i个第一人脸关键点坐标,/>表示第i个第二人脸关键点坐标。
如前述示例中,设置人脸关键点数量n=300,则一致性约束损失函数表示为:
其中,表示第i个第一人脸关键点坐标,/>表示第i个第二人脸关键点坐标。
如上述实施例的方案,在模型训练过程中计算损失函数时,不仅仅只关注了第一样本图像所识别的第一人脸关键点,同时还计算了一致性约束损失函数,从而可以将数据增强变换之后,两个相同内容的样本图像所产生的一致性损失函数,从而可以作用于模型训练过程,提升人脸关键点模型的稳定系。
步骤S40,根据所述第一损失函数与一致性约束损失函数确定人脸关键点检测模型的模型损失函数,根据所述模型损失函数对人脸关键点检测模型的参数进行学习更新。
此步骤中,利用第一损失函数和一致性约束损失函数来计算模型最终的损失函数,并以此作为模型训练中所使用的模型损失函数,通过对模型损失函数的反向传播来实现人脸关键点模型参数的学习更新,从而得到最终使用的人脸关键点模型。
在一个实施例中,模型损失函数可以表示为:
loss=ωptslosspts+ωeltlosselt
式中,loss表示模型损失函数,losspts表示第一损失函数,losselt表示一致性约束损失函数,ωpts、ωelt分别是设定的权重值;对于权重值ωpts和ωtlt,可以根据随机数据增强处理后对于一致性约束的实际需求进行设定。
如上述实施例的方案,可以在原有人脸关键点识别算法的基础上,增加一致性约束损失函数来得到最终的模型损失函数,由此在模型训练过程中,显式地对同一人脸图像对做了学习监督,从而可以提高模型在光照变化、遮挡变化等场景下的预测结果一致性,即使在直播过程中出现图像变换(光照变化、遮挡变化)等情况,也能够得到一致的帧间人脸关键点的预测结果,从而提高预测人脸关键点的帧间稳定性,改善直播视频的帧间抖动现象等,从而更好的服务于直播业务中的美颜、美妆等特效技术。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请还提供了一种用于实现上述所涉及的相关方法的装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个相关装置实施例中的具体限定可以参见上文中对于相关方法的限定,在此不再赘述。
参考图7所示,图7是一个实施例的人脸关键点检测模型的训练装置结构示意图,该装置包括:
数据增强模块10,用于从样本集中选取第一样本图像,对所述第一样本图像进行数据增强处理得到第二样本图像;
关键点预测模块20,用于将第一样本图像和第二样本图像分别输入人脸关键点检测模型进行预测得到第一人脸关键点和第二人脸关键点;
损失函数计算模块30,用于根据所述第一人脸关键点计算第一损失函数,以及根据所述第一人脸关键点和第二人脸关键点计算图像数据增强后的一致性约束损失函数;
监督学习模块40,用于根据所述第一损失函数与一致性约束损失函数确定人脸关键点检测模型的模型损失函数,根据所述模型损失函数对人脸关键点检测模型的参数进行学习更新。
上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本实施例的人脸关键点检测模型的训练装置可执行本申请的实施例所提供的一种人脸关键点检测模型的训练方法,其实现原理相类似,本申请各实施例中的人脸关键点检测模型的训练装置中的各模块所执行的动作是与本申请各实施例中的人脸关键点检测模型的训练方法中的步骤相对应的,对于人脸关键点检测模型的训练装置的各模块的详细功能描述具体可以参见前文中所示的对应的人脸关键点检测模型的训练方法中的描述,此处不再赘述。
下面阐述网络直播系统的实施例。
本实施例提供的网络直播系统,参考图8所示,图8是一个示例的网络直播系统结构示意图,该网络直播系统包括:主播端、观众端以及直播服务器;其中主播端和观众端分别通过通信网络连接至直播服务器。
对于直播服务器,其是用于进行主播端与观众端之间的直播转发,利用本申请所提供的训练方法得到人脸关键点检测模型对主播视频的人脸关键点进行识别并添加美颜、美妆等特效。
对于主播端,其是用于接入直播间的主播以及采集主播直播视频流上传至直播服务器。
对于观众端,其是用于接入直播间的观众用户以及接收所述直播视频进行播放。
如图7所示,假设观众用户A、B、C……通过App客户端访问直播间观看主播的直播画面,当主播用户需要使用美颜、美妆等特效时,需要调用人脸关键点检测模型来对其人脸关键点进行定位,此时,主播用户可以通过其客户端将视频流上传到直播服务器之后,由直播服务器对人脸关键点进行定位,并添加相应的美颜、美妆特效效果;然后直播服务器可以将添加了特效效果之后的视频画面生成直播视频流下发到各个观众用户A、B、C……的客户端上进行播放。另外,在主播用户的客户端上,也可以利用人脸关键点检测模型来对其人脸关键点进行定位,并在在客户端上添加相应的美颜、美妆特效效果。而且,直播服务器还可以将所检测的人脸关键点定位数据及主播视频下发至各个观众用户A、B、C……的客户端上,由其客户端来根据定位数据添加相应的美颜、美妆特效效果。
由于上述网络直播系统采用了本申请技术方案所训练的人脸关键点检测模型,在进行人脸关键点定位时,具有更高的识别准确性和稳定性,能够更好的服务于网络直播业务中的美颜、美妆等特效技术使用。
下面阐述本申请的电子设备及计算机可读存储介质的实施例。
参考图9所示,图9是一个示例的电子设备结构示意图,该电子设备可以是直播服务器应用的设备,也可以是观众端和主播端应用的设备,该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储人脸图像数据集等数据。该电子设备的网络接口用于与外部的设备通过通信网络连接。该计算机程序被处理器执行时以实现本申请实施例所提供的相关方法。
本领域技术人员可以理解,上述实施例提供的电子设备结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例的方法中的步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive RandomAccess Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种人脸关键点检测模型的训练方法,其特征在于,所述方法包括:
从样本集中选取第一样本图像,对所述第一样本图像进行数据增强处理得到第二样本图像;
将第一样本图像和第二样本图像分别输入人脸关键点检测模型进行预测得到第一人脸关键点和第二人脸关键点;
根据所述第一人脸关键点计算第一损失函数,以及根据所述第一人脸关键点和第二人脸关键点计算图像数据增强后的一致性约束损失函数;
根据所述第一损失函数与一致性约束损失函数确定人脸关键点检测模型的模型损失函数,根据所述模型损失函数对人脸关键点检测模型的参数进行学习更新。
2.根据权利要求1所述的人脸关键点检测模型的训练方法,其特征在于,所述对所述第一样本图像进行数据增强处理得到第二样本图像,包括:
从预设的数据增强方式集合中选择目标数据增强方式;
根据所述目标数据增强方式预设的参数及第一样本图像的图像数据计算得到第二样本图像。
3.根据权利要求2所述的人脸关键点检测模型的训练方法,其特征在于,所述目标数据增强方式为随机光照增强方式;
所述根据所述目标数据增强方式预设的参数及第一样本图像的图像数据计算得到第二样本图像,包括:
y=f(x)+b
式中,y表示第二样本图像的像素亮度值,f(x)是第一样本图像的像素亮度值的计算函数,x是第一样本图像的像素亮度值,b为设定的亮度调整值。
4.根据权利要求2所述的人脸关键点检测模型的训练方法,其特征在于,所述目标数据增强方式为随机遮挡方式;
所述根据所述目标数据增强方式预设的参数及第一样本图像的图像数据计算得到第二样本图像,包括:
在第一样本图像中随机取一个像素点作为遮挡区域的中心点;
根据设定的宽度参数和高度参数确定以所述中心点为中心的遮挡区域;
对所述遮挡区域中的各个像素进行赋值。
5.根据权利要求1所述的人脸关键点检测模型的训练方法,其特征在于,根据所述第一人脸关键点计算第一损失函数,包括:
根据所述第一人脸关键点与第一样本图像中人工标注的关键点之间的误差来计算第一损失函数;其中,所述第一损失函数表示为:
式中,losspts表示第一损失函数,n表示人脸关键点数量,表示第i个第一人脸关键点坐标,/>表示第i个人工标注的关键点坐标。
6.根据权利要求5所述的人脸关键点检测模型的训练方法,其特征在于,根据所述第一人脸关键点和第二人脸关键点计算图像数据增强后的一致性约束损失函数,包括:
式中,losselt表示一致性约束损失函数,n表示人脸关键点数量,表示第i个第一人脸关键点坐标,/>表示第i个第二人脸关键点坐标。
7.根据权利要求6所述的人脸关键点检测模型的训练方法,其特征在于,根据所述第一损失函数与一致性约束损失函数确定人脸关键点检测模型的模型损失函数,包括:
loss=ωptslosspts+ωeltlosselt
式中,loss表示模型损失函数,losspts表示第一损失函数,losselt表示一致性约束损失函数,ωpts、ωelt分别是设定的权重值。
8.一种人脸关键点检测模型的训练装置,其特征在于,包括:
数据增强模块,用于从样本集中选取第一样本图像,对所述第一样本图像进行数据增强处理得到第二样本图像;
关键点预测模块,用于将第一样本图像和第二样本图像分别输入人脸关键点检测模型进行预测得到第一人脸关键点和第二人脸关键点;
损失函数计算模块,用于根据所述第一人脸关键点计算第一损失函数,以及根据所述第一人脸关键点和第二人脸关键点计算图像数据增强后的一致性约束损失函数;
监督学习模块,用于根据所述第一损失函数与一致性约束损失函数确定人脸关键点检测模型的模型损失函数,根据所述模型损失函数对人脸关键点检测模型的参数进行学习更新。
9.一种网络直播系统,其特征在于,包括:主播端、观众端以及直播服务器;其中,所述主播端和观众端分别通过通信网络连接至所述直播服务器;
所述直播服务器,用于进行主播端与观众端之间的直播转发;利用人脸关键点检测模型对主播视频的人脸关键点进行识别并添加特效;其中,所述人脸关键点检测模型采用权利要求1至7任一项所述的人脸关键点检测模型的训练方法得到;
所述主播端,用于接入直播间的主播以及采集主播直播视频流上传至直播服务器;
所述观众端,用于接入直播间的观众用户以及接收所述直播视频进行播放。
10.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的人脸关键点检测模型的训练方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的人脸关键点检测模型的训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311680648.3A CN117636437A (zh) | 2023-12-07 | 2023-12-07 | 人脸关键点检测模型的训练方法、装置及网络直播系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311680648.3A CN117636437A (zh) | 2023-12-07 | 2023-12-07 | 人脸关键点检测模型的训练方法、装置及网络直播系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117636437A true CN117636437A (zh) | 2024-03-01 |
Family
ID=90021522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311680648.3A Pending CN117636437A (zh) | 2023-12-07 | 2023-12-07 | 人脸关键点检测模型的训练方法、装置及网络直播系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117636437A (zh) |
-
2023
- 2023-12-07 CN CN202311680648.3A patent/CN117636437A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10867416B2 (en) | Harmonizing composite images using deep learning | |
Sun et al. | Blind quality assessment for in-the-wild images via hierarchical feature fusion and iterative mixed database training | |
CN111464834B (zh) | 一种视频帧处理方法、装置、计算设备及存储介质 | |
WO2020056903A1 (zh) | 用于生成信息的方法和装置 | |
JP7451716B2 (ja) | 予測される視覚的品質に基づくビデオプレーヤのための最適なフォーマット選択 | |
CN113763296A (zh) | 图像处理方法、设备以及介质 | |
WO2021184754A1 (zh) | 视频对比方法、装置、计算机设备和存储介质 | |
CN112001274A (zh) | 人群密度确定方法、装置、存储介质和处理器 | |
CN112906721B (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN112102364A (zh) | 目标物跟踪方法、装置、电子设备及存储介质 | |
Yan et al. | PCNet: Partial convolution attention mechanism for image inpainting | |
Fujii et al. | RGB-D image inpainting using generative adversarial network with a late fusion approach | |
WO2024067461A1 (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN112291634A (zh) | 视频处理方法及装置 | |
WO2024041108A1 (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
CN115953330B (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 | |
CN114998814B (zh) | 目标视频生成方法、装置、计算机设备和存储介质 | |
US20230409582A1 (en) | Precision of content matching systems at a platform | |
CN117636437A (zh) | 人脸关键点检测模型的训练方法、装置及网络直播系统 | |
CN116403142A (zh) | 视频处理方法、装置、电子设备及介质 | |
CN116012841A (zh) | 一种基于深度学习的开集图像场景匹配方法及装置 | |
CN110493609B (zh) | 直播方法、终端及计算机可读存储介质 | |
Gao et al. | Real-time image enhancement with attention aggregation | |
CN116630629B (zh) | 基于域适应的语义分割方法、装置、设备及存储介质 | |
JPWO2019224947A1 (ja) | 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |