CN113780099A - 一种基于对抗学习的半监督面部运动单元检测方法和系统 - Google Patents
一种基于对抗学习的半监督面部运动单元检测方法和系统 Download PDFInfo
- Publication number
- CN113780099A CN113780099A CN202110947948.8A CN202110947948A CN113780099A CN 113780099 A CN113780099 A CN 113780099A CN 202110947948 A CN202110947948 A CN 202110947948A CN 113780099 A CN113780099 A CN 113780099A
- Authority
- CN
- China
- Prior art keywords
- frame
- target frame
- optical flow
- target
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于对抗学习的半监督面部运动单元检测方法和系统,充分运用光流可以有效地捕捉到微弱的运动位移,即可以捕捉到由面部表情引起的AUs变化的特点,构建基于光流融合的生成对抗网络模型用于实现对面部运动单元的精确检测;并且考虑到顶点帧的选取存在一定难度,将顶点帧及其附近的帧设置为顶点阶段,在顶点阶段内随机选择第一目标帧和第二目标帧,并将第一目标帧、源帧的光流矢量与源帧相结合得到运动图像作为生成器的输入,以第二目标帧作为标签对生成器进行训练,从而增强模型的鲁棒性,进一步提高检测效果。
Description
技术领域
本发明属于图像识别领域,更具体地,涉及一种基于对抗学习的半监督面部运动单元检测方法和系统。
背景技术
在实时视频中,人脸表情往往与头部姿态同时发生,面部运动单元(ActionUnits,AUs)是人脸表情检测的关键因素,现有的面部运动单元检测方法的检测精度有待提高。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种面部运动单元检测方法和系统,由此解决现有的检测方法精度不高的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于对抗学习的半监督面部运动单元检测方法,包括:
S1,从训练视频中随机选取源帧、第一目标帧和第二目标帧,将源帧和第一目标帧的光流向量与源帧结合得到运动图像,输入生成对抗网络模型;
S2,所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像并输入判别器,以合成图像与所述第二目标帧相似度最高为目标,训练所述生成器;
S3,采用训练后的生成对抗网络模型对待测视频进行面部运动单元检测。
优选地,所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像,具体为:
分别对所述源帧及第一目标帧的光流向量进行编码,得到源帧编码和表征面部表情运动变化量的光流向量编码;
对所述源帧编码和所述光流向量编码进行融合解码,得到合成图像。
优选地,从训练视频的起点阶段随机选取源帧,从训练视频顶点阶段随机选取第一目标帧和第二目标帧。
优选地,以起点阶段第一帧至顶点阶段第一帧为第一窗口W1,以起点阶段最后一帧至顶点阶段最后一帧为第二窗口W2,按照预设距离相向滑动W1和W2;
所述第一目标帧、第二目标帧分别为滑动后的W1、W2一端的端点;
所述源帧为滑动后的W1、W2的另一端的端点之一。
优选地,所述预设距离为L,其中,L=[0,min(lo,la)], lo为所述起点阶段的长度为,la为所述顶点阶段的长度。
优选地,所述训练中损失函数为:
按照本发明的另一方面,提供了一种基于对抗学习的半监督面部运动单元检测系统,包括:
随机选择模块,从训练视频中随机选取源帧、第一目标帧和第二目标帧,将源帧和第一目标帧的光流向量与源帧结合得到运动图像,输入生成对抗网络模型;
训练模块,所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像并输入判别器,以合成图像与所述第二目标帧相似度最高为目标,训练所述生成器;
处理模块,采用训练后的生成对抗网络模型对待测视频进行面部运动单元检测。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明提供的基于对抗学习的半监督面部运动单元检测方法和系统,充分运用光流可以有效地捕捉到微弱的运动位移,即可以捕捉到由面部表情引起的AUs变化的特点,构建基于光流融合的生成对抗网络模型用于实现对面部运动单元的精确检测;并且考虑到顶点帧的选取存在一定难度,将顶点帧及其附近的帧设置为顶点阶段,在顶点阶段内随机选择第一目标帧和第二目标帧,并将第一目标帧、源帧的光流矢量与源帧相结合得到运动图像作为生成器的输入,以第二目标帧作为标签对生成器进行训练,从而增强模型的鲁棒性,进一步提高检测效果。
2、本发明提供的基于对抗学习的半监督面部运动单元检测方法和系统,构建基于光流融合的生成对抗网络模型时,考虑到光流可能同时产生大量的噪声,例如头部姿态变化信息,这些噪声将对面部表情的检测造成影响;对此,在生成器对源帧和光流矢量进行编码时,将头部姿态变化信息这一影响因素剔除,仅提取了光流矢量中面部表情的变化情况,从而在编解码器中进行了去噪,编码时仅采用表情的变化量,并通过解码进行进一步放大,在解码还原过程中生成合成图像,最后由判别器根据AUs标签对合成图像进行分类,得到检测结果,实现对面部运动单元的精确检测。
3、本发明提供的基于对抗学习的半监督面部运动单元检测方法和系统,构建的基于光流融合的生成对抗网络模型,遵循对抗学习的原理,学习具有强鉴别能力和鲁棒性的人脸动作特征,能够从人脸视频中分离出表情变化和头部姿态变化,从而实现对AUs的检测。
附图说明
图1为本发明提供的基于对抗学习的半监督面部运动单元检测方法的流程示意图之一;
图2为本发明提供的基于对抗学习的半监督面部运动单元检测方法的流程示意图之二;
图3为本发明提供的随机选择结果示意图;
图4为本发明提供的基于对抗学习的半监督面部运动单元检测方法与现有的检测方法所用信息对比示意图;
图5为本发明提供的基于对抗学习的半监督面部运动单元检测方法与现有的检测方法的仿真结果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提供一种基于对抗学习的半监督面部运动单元检测方法,如图1所示,包括:
S1,从训练视频中随机选取源帧、第一目标帧和第二目标帧,将源帧和第一目标帧的光流向量与所述源帧结合得到运动图像,输入生成对抗网络模型。
具体地,从进行模型训练的面部表情视频的起点阶段随机采样源帧source、第一目标帧target(s)和第二目标帧target(e);同时对源帧和第一目标帧进行光流处理,分别获取所述源帧和第一目标帧的光流向量,将所述光流向量与源帧结合得到运动图像,输入生成对抗网络模型的生成器中。
第一目标帧的光流矢量混合了头部姿态的刚性运动信息和面部表情变化的局部运动信息,通过将所述光流矢量与源帧结合,能够弱化头部姿态的变化,强化面部表情局部运动的变化。
如图2所示,所述生成对抗网络模型包括生成器和判别器。
S2,所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像并输入判别器,以合成图像与所述第二目标帧相似度最高为目标,训练所述生成器。
具体地,所述生成器是以合成图像为样本,以第二目标帧为标签进行监督训练得到的。
进一步地,从训练视频的起点阶段随机选取源帧,从训练视频顶点阶段随机选取第一目标帧和第二目标帧。
进一步地,以起点阶段第一帧至顶点阶段第一帧为第一窗口W1,以起点阶段最后一帧至顶点阶段最后一帧为第二窗口W2,按照预设距离相向滑动W1和W2;
所述第一目标帧、第二目标帧分别为滑动后的W1、W2一端的端点;
所述源帧为滑动后的W1、W2的另一端的端点之一。
进一步地,所述预设距离为L,其中,L=[0,min(lo,la)], lo为所述起点阶段的长度为,la为所述顶点阶段的长度。
具体地,为了增强OFS-GAN的鲁棒性和提高模型泛化能力,从起点阶段的候选帧中随机选取1帧作为源帧,从顶点阶段的候选帧中随机选取2帧分别第一目标帧和第二目标帧,随机选择的结果如图3所示,其中,左侧图像被选择的源帧,中间图像为第一目标帧,右侧人脸为第二目标帧。
以起点阶段第一帧至顶点阶段第一帧为第一窗口W1,以起点阶段最后一帧至顶点阶段最后一帧为第二窗口W2;起点阶段的长度为lo,顶点阶段的长度为la。
按照预设距离L向右滑动W1,向左滑动W2。滑动完成后,两个窗口的两个端点就是随机选择的帧对,其中,两个窗口的一端对应两个源帧候选帧,另一端对应的两个目标帧则分别为第一目标帧和第二目标帧;从两个源帧候选帧中随机选择一个作为源帧。
通过训练生成器,不断提升内嵌编码的表征能力,内嵌编码通过判别器完成表情和AU的多标签分类任务。
S3,采用训练后的生成对抗网络模型对待测视频进行面部运动单元检测。
进一步地,所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像,具体为:
分别对所述源帧及第一目标帧的光流向量进行编码,得到源帧编码和表征面部表情运动变化量的光流向量编码;
对所述源帧编码和所述光流向量编码进行融合解码,得到合成图像。
具体地,所述生成器编码生成特征映射,再解码生成合成图像,所述合成图像包含了虚假的真实人脸表情;将合成图像与随机选择的第二目标帧进行对比,用于训练生成器。对源帧和第一目标帧、第二目标帧的随机选择算法,提高了模型的鲁棒性,增强了模型的泛化能力,有助于得到发生器变化的面部表情分布。
同时,将假真实感表情编码输入到判别器中,判别器对编码合成的表情进行分类,并根据AUs标签进行分类。最后,通过对OFS-GAN进行迭代训练,得到只关注面部表情随AUs变化而忽略其他面部属性的模型。
OFS-GAN(Optical Flow Synthesis-Generative Adversarial Networks,光流合成生成对抗式网络)基于GAN的原理,包括生成器和判别器。 为了通过最小化二人博弈得到鲁棒模型,模型可在目标函数中定义为:
OFS-GAN中的生成器决定了框架的效果,判别器利用编码器的特征获取模型。 给定一个输入元组,其中是第二目标帧的one-hot编码标签,是源帧的输入,是光流向量,将分别输入到人脸编码器和表情编码器,以获得相应的图像表示。将表示为源帧编码器,表示为光流编码器。因此,两个输入的编码表示可以表示为:
然后,通过嵌入模块将这两种表示进行融合:
我们利用光流向量在图像生成中的小的变化作为模型的噪声随机量,
通过生成器和判别器的对抗训练,生成器合成出符合AUs数据集数据分布的图像,即生成与目标帧一致的面部表情。 因此,损失函数可以表示为:
将本发明提出的方法与多种现有的检测方法基于DAFSA+和CK+融合数据集进行仿真,各检测方法所采用的信息如图4所示,图4中,RGB表示使用 RGB 信息,OF表示使用光流信息,GAN: 表示基于GAN的模型,VIDEO表示需要视频的上下文信息;上述各方法的仿真结果评分如图5所示,可见本发明提出的方法与其他方法相比,评分最高,为59.43。由此可见,本发明提出的方法具有较好的检测性能。
下面对本发明提供的基于对抗学习的半监督面部运动单元检测系统进行描述,下文描述的基于对抗学习的半监督面部运动单元检测系统与上文描述的基于对抗学习的半监督面部运动单元检测方法可相互对应参照。
本发明实施例提供一种基于对抗学习的半监督面部运动单元检测系统,包括:
随机选择模块,从训练视频中随机选取源帧、第一目标帧和第二目标帧,将源帧和第一目标帧的光流向量与源帧结合得到运动图像,输入生成对抗网络模型;
训练模块,所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像并输入判别器,以合成图像与所述第二目标帧相似度最高为目标,训练所述生成器;
处理模块,采用训练后的生成对抗网络模型对待测视频进行面部运动单元检测。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于对抗学习的半监督面部运动单元检测方法,其特征在于,包括:
S1,从训练视频中随机选取源帧、第一目标帧和第二目标帧,将源帧和第一目标帧的光流向量与源帧结合得到运动图像,输入生成对抗网络模型;
S2,所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像并输入判别器,以合成图像与所述第二目标帧相似度最高为目标,训练所述生成器;
S3,采用训练后的生成对抗网络模型对待测视频进行面部运动单元检测。
2.如权利要求1所述的基于对抗学习的半监督面部运动单元检测方法,其特征在于,所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像,具体为:
分别对所述源帧及第一目标帧的光流向量进行编码,得到源帧编码和表征面部表情运动变化量的光流向量编码;
对所述源帧编码和所述光流向量编码进行融合解码,得到合成图像。
3.如权利要求1或2所述的基于对抗学习的半监督面部运动单元检测方法,其特征在于,从训练视频的起点阶段随机选取源帧,从训练视频顶点阶段随机选取第一目标帧和第二目标帧。
4.如权利要求3所述的基于对抗学习的半监督面部运动单元检测方法,其特征在于,以起点阶段第一帧至顶点阶段第一帧为第一窗口W1,以起点阶段最后一帧至顶点阶段最后一帧为第二窗口W2,按照预设距离相向滑动W1和W2;
所述第一目标帧、第二目标帧分别为滑动后的W1、W2一端的端点;
所述源帧为滑动后的W1、W2的另一端的端点之一。
5.如权利要求4所述的基于对抗学习的半监督面部运动单元检测方法,其特征在于,所述预设距离为L,其中,L=[0,min(lo,la)], lo为所述起点阶段的长度,la为所述顶点阶段的长度。
7.一种基于对抗学习的半监督面部运动单元检测系统,其特征在于,包括:
随机选择模块,从训练视频中随机选取源帧、第一目标帧和第二目标帧,将源帧和第一目标帧的光流向量与源帧结合得到运动图像,输入生成对抗网络模型;
训练模块,所述生成对抗网络模型的生成器对所述运动图像进行编解码得到合成图像并输入判别器,以合成图像与所述第二目标帧相似度最高为目标,训练所述生成器;
处理模块,采用训练后的生成对抗网络模型对待测视频进行面部运动单元检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947948.8A CN113780099B (zh) | 2021-08-18 | 2021-08-18 | 一种基于对抗学习的半监督面部运动单元检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947948.8A CN113780099B (zh) | 2021-08-18 | 2021-08-18 | 一种基于对抗学习的半监督面部运动单元检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780099A true CN113780099A (zh) | 2021-12-10 |
CN113780099B CN113780099B (zh) | 2022-07-05 |
Family
ID=78838123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110947948.8A Active CN113780099B (zh) | 2021-08-18 | 2021-08-18 | 一种基于对抗学习的半监督面部运动单元检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780099B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311477A (zh) * | 2023-05-15 | 2023-06-23 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210429A (zh) * | 2019-06-06 | 2019-09-06 | 山东大学 | 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 |
US20190356842A1 (en) * | 2018-05-15 | 2019-11-21 | Sony Corporation | Camera depth prediction using generative adversarial network |
CN112990078A (zh) * | 2021-04-02 | 2021-06-18 | 深圳先进技术研究院 | 一种基于生成式对抗网络的人脸表情生成方法 |
-
2021
- 2021-08-18 CN CN202110947948.8A patent/CN113780099B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190356842A1 (en) * | 2018-05-15 | 2019-11-21 | Sony Corporation | Camera depth prediction using generative adversarial network |
CN110210429A (zh) * | 2019-06-06 | 2019-09-06 | 山东大学 | 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 |
CN112990078A (zh) * | 2021-04-02 | 2021-06-18 | 深圳先进技术研究院 | 一种基于生成式对抗网络的人脸表情生成方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311477A (zh) * | 2023-05-15 | 2023-06-23 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113780099B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abu Farha et al. | When will you do what?-anticipating temporal occurrences of activities | |
Wang et al. | Imaginator: Conditional spatio-temporal gan for video generation | |
Choi et al. | Facial micro-expression recognition using two-dimensional landmark feature maps | |
Peng et al. | Two-stream collaborative learning with spatial-temporal attention for video classification | |
CN108962216B (zh) | 一种说话视频的处理方法及装置、设备和存储介质 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
Nasfi et al. | A novel approach for modeling positive vectors with inverted dirichlet-based hidden markov models | |
CN112016500A (zh) | 基于多尺度时间信息融合的群体异常行为识别方法及系统 | |
CN112418095A (zh) | 一种结合注意力机制的面部表情识别方法及系统 | |
CN115471851A (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
Qiao et al. | Hidden markov model based dynamic texture classification | |
CN112801068B (zh) | 一种视频多目标跟踪与分割系统和方法 | |
CN113392822B (zh) | 基于特征分离表征学习的面部运动单元检测方法及系统 | |
CN113435421B (zh) | 一种基于跨模态注意力增强的唇语识别方法及系统 | |
CN111401259A (zh) | 模型训练方法、系统、计算机可读介质和电子设备 | |
Huang et al. | Self-supervised representation learning for videos by segmenting via sampling rate order prediction | |
CN113780099B (zh) | 一种基于对抗学习的半监督面部运动单元检测方法和系统 | |
CN116129013A (zh) | 一种生成虚拟人动画视频的方法、装置及存储介质 | |
CN113378949A (zh) | 一种基于胶囊网络和混合注意力的双重生成对抗学习方法 | |
Gafni et al. | Single-shot freestyle dance reenactment | |
Nickabadi et al. | A comprehensive survey on semantic facial attribute editing using generative adversarial networks | |
Wang et al. | An audio-visual attention based multimodal network for fake talking face videos detection | |
Zeng et al. | Video‐driven state‐aware facial animation | |
CN111414959A (zh) | 图像识别方法、装置、计算机可读介质和电子设备 | |
CN116233567A (zh) | 一种基于音频情感感知的说话人脸视频生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |