CN113239902B - 一种基于双判别器生成对抗网络的唇语识别方法及装置 - Google Patents

一种基于双判别器生成对抗网络的唇语识别方法及装置 Download PDF

Info

Publication number
CN113239902B
CN113239902B CN202110772322.8A CN202110772322A CN113239902B CN 113239902 B CN113239902 B CN 113239902B CN 202110772322 A CN202110772322 A CN 202110772322A CN 113239902 B CN113239902 B CN 113239902B
Authority
CN
China
Prior art keywords
angle
lip
data set
discriminator
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110772322.8A
Other languages
English (en)
Other versions
CN113239902A (zh
Inventor
刘丽
张成伟
张雪毅
薛桂香
赵雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110772322.8A priority Critical patent/CN113239902B/zh
Publication of CN113239902A publication Critical patent/CN113239902A/zh
Application granted granted Critical
Publication of CN113239902B publication Critical patent/CN113239902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于双判别器生成对抗网络的唇语识别方法及装置,该方法包括:从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集;并根据唇部多角度数据集得到的生成器数据集、身份判别器数据集、角度判别器数据集,再生成对抗网络数据模型;利用所述对抗网络数据模型对待识别的视频进行唇语识别,转换得到0°唇部图像;从所述0°唇部图像提取唇部特征向量,对所述唇部特征向量进行建模分类,得到唇部分类结果,根据所述唇部分类结果导出识别语言。本发明实施例具有和真实环境相似的视觉效果,可以很好的指导模型适应实际应用环境,进一步提升唇语识别模型的准确率。

Description

一种基于双判别器生成对抗网络的唇语识别方法及装置
技术领域
本申请涉及人工智能领域,特别是涉及一种基于双判别器生成对抗网络的唇语识别方法及装置。
背景技术
唇语识别是一项结合计算机视觉和自然语言处理的复杂任务,可以用来自动推断视觉和听觉信息包含的文字内容,具有很广的应用价值,如从无声监控视频或电影中恢复语音。最近几年,唇语识别的发展主要受以下两方面的推动:首先是深度学习技术的快速发展,这是一种源于神经科学的技术,在图像处理,语言模型等领域都取得了巨大的成功。其次是大型数据集的提出,他们为唇语识别提供了大量的训练数据和复杂的环境变化,极大地促进了唇语识别的发展。
大多数的唇语识别模型包含前端特征提取模型和后端分类模型。前端特征提取模型主要负责提取序列的每一帧的特征和每帧之间的变化特征。后端分类模型主要负责从前端模型输出的特征向量中学习整个序列的模式变化。但在特征提取阶段,大部分方法只采用简单的数据预处理,如随机裁切,水平翻转,增加对比度等,这些预处理方法只能一定程度上缓解过拟合问题,并不能很好的解决说话者状态如面部偏转等对特征提取的影响。
发明内容
基于此,有必要针对上述技术问题,提供一种基于双判别器生成对抗网络的唇语识别方法及装置。
第一方面,本发明实施例提供了一种基于双判别器生成对抗网络的唇语识别方法,包括以下步骤:
从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集;
根据所述唇部多角度数据集得到生成器数据集,并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集;
训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型,训练所述角度分类数据集得到角度分类器;
利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像;
从所述0°唇部图像提取唇部特征向量,对所述唇部特征向量进行建模分类,得到唇部分类结果,根据所述唇部分类结果导出识别语言。
进一步的,所述从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集,包括:
将视频中人脸图片按照不同角度进行的每一帧拆分,得到每一帧的正视图,左视图,右视图组成的三视图图片;
使用人脸建模工具和所述三视图图片对每一帧面部图像进行人脸建模,导出人脸模型;
对所述人脸模型的不同角度对应的视图,使用标注工具标注特征点,定位唇部区域,裁切出唇部区域,得到唇部多角度数据集。
进一步的,所述根据所述人脸图片得到生成器数据集,从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集,包括:
使用头部姿态估计算法对所述唇部多角度数据集的人脸进行处理,得到人脸的偏转角度;
根据所述唇部多角度数据集中的随机选取不同的人脸图片,并标记每张人脸图片的说话者身份和偏转角度;
从所述唇部多角度数据集的人脸身份提取身份判别器数据集,从所述唇部多角度数据集中头部偏转角度提取角度判别器数据集,从所述唇部多角度数据集的人脸角度提取角度分类数据集。
进一步的,所述利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像,包括:
待识别的视频分离出人脸的图片输入到角度分类器,得到第一唇部图像,并对所述第一唇部图像进行估算,得到待识别人脸偏转的角度;
通过所述对抗网络数据模型构建6个一级转换器,利用所述一级转换器对所述待识别人脸偏转的角度进行一级转换,得到0°唇部图像、±20°唇部图像、±40°唇部图像;
利用所述角度判别器数据集、身份判别器数据集、生成器数据集构建二级转换器,将±20°唇部图像、±40°唇部图像转换为0°唇部图像。
另一方面,本发明实施例还提供了一种基于双判别器生成对抗网络的唇语识别装置,包括:
多角度数据集模块,从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集;
数据集分类模块,用于根据所述唇部多角度数据集得到生成器数据集,并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集;
判别器训练模块,用于训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型,训练所述角度分类数据集得到角度分类器;
唇部图像转换模块,用于利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像;
唇语识别模块,用于从所述0°唇部图像提取唇部特征向量,对所述唇部特征向量进行建模分类,得到唇部分类结果,根据所述唇部分类结果导出识别语言。
进一步的,所述多角度数据集模块包括人脸模型识别单元,所述人脸模型识别单元用于:
将视频中人脸图片按照不同角度进行的每一帧拆分,得到每一帧的正视图,左视图,右视图组成的三视图图片;
使用人脸建模工具和所述三视图图片对每一帧面部图像进行人脸建模,导出人脸模型;
对所述人脸模型的不同角度对应的视图,使用标注工具标注特征点,定位唇部区域,裁切出唇部区域,得到唇部多角度数据集。
进一步的,所述数据集分类模块包括偏转角度定位单元,所述偏转角度定位单元用于:
使用头部姿态估计算法对所述唇部多角度数据集的人脸进行处理,得到人脸的偏转角度;
根据所述唇部多角度数据集中的随机选取不同的人脸图片,并标记每张人脸图片的说话者身份和偏转角度;
从所述唇部多角度数据集的人脸身份提取身份判别器数据集,从所述唇部多角度数据集中头部偏转角度提取角度判别器数据集,从所述唇部多角度数据集的人脸角度提取角度分类数据集。
进一步的,所述唇部图像转换模块包括角度转换单元,所述角度转换单元用于:
待识别的视频分离出人脸的图片输入到角度分类器,得到第一唇部图像,并对所述第一唇部图像进行估算,得到待识别人脸偏转的角度;
通过所述对抗网络数据模型构建6个一级转换器,利用所述一级转换器对所述待识别人脸偏转的角度进行一级转换,得到0°唇部图像、±20°唇部图像、±40°唇部图像;
利用所述角度判别器数据集、身份判别器数据集、生成器数据集构建二级转换器,将±20°唇部图像、±40°唇部图像转换为0°唇部图像。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集;
根据所述唇部多角度数据集得到生成器数据集,并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集;
训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型,训练所述角度分类数据集得到角度分类器;
利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像;
从所述0°唇部图像提取唇部特征向量,对所述唇部特征向量进行建模分类,得到唇部分类结果,根据所述唇部分类结果导出识别语言。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集;
根据所述唇部多角度数据集得到生成器数据集,并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集;
训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型,训练所述角度分类数据集得到角度分类器;
利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像;
从所述0°唇部图像提取唇部特征向量,对所述唇部特征向量进行建模分类,得到唇部分类结果,根据所述唇部分类结果导出识别语言。
本申请的有益效果是:本发明实施例公开了一种基于双判别器生成对抗网络的唇语识别方法及装置,本发明实施例制作的数据集具有更密集的唇部变化角度,数据更加贴近真实环境中的数据分布,具有和真实环境相似的视觉效果,可以很好的指导模型适应实际应用环境。此外,本发明实施例设计的双判别器可以同时计算生成图片与目标图片的人脸身份评分和转动角度评分,较传统的基于像素差异的单判别器模型,本发明设计的身份角度双判别器可以更好地指导模型生成质量更高,更真实的唇部图像。本发明实施例设计的转换器模型将大角度范围分成两个较小角度的阶段,减小了单个模型训练数据包含的角度范围,很好的提升了模型的转换质量和模型的训练速度,进一步提升唇语识别模型的准确率。
附图说明
图1为一个实施例中公开的一种基于双判别器生成对抗网络的唇语识别方法的流程示意图;
图2为一个实施例中公开的人脸模型识别过程的流程示意图;
图3为一个实施例中人脸偏转角度定位的流程示意图;
图4为一个实施例中通过转换器将人脸角度转换的流程示意图;
图5为一个实施例中一种基于双判别器生成对抗网络的唇语识别装置的结构框图。
具体实施方式
在一个实施例中,如图1所示,提供了一种基于双判别器生成对抗网络的唇语识别方法,包括以下步骤:
步骤101,从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集;
步骤102,根据所述唇部多角度数据集得到生成器数据集,并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集;
步骤103,训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型,训练所述角度分类数据集得到角度分类器;
步骤104,利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像;
步骤105,从所述0°唇部图像提取唇部特征向量,对所述唇部特征向量进行建模分类,得到唇部分类结果,根据所述唇部分类结果导出识别语言。
具体地,首先本实施例首先使用3D人脸重建技术,对多位具有不同人脸属性的测试者进行人脸3D建模,生成更真实的,可控的人脸模型,并控制模型的光照条件,旋转角度等属性,制作了唇部多角度数据集,与现有的多角度数据集的实验室环境相比,本发明制作的数据集具有更密集的唇部变化角度,数据更加贴近真实环境中的数据分布,具有和真实环境相似的视觉效果,可以很好的指导模型适应实际应用环境。其次,本实施例设计的双判别器生成对抗网络模型较传统的单判别器生成对抗网络模型具有更好的实验效果。本实施例设计的双判别器可以同时计算生成图片与目标图片的人脸身份评分和转动角度评分,较传统的基于像素差异的单判别器模型,本发明设计的身份角度双判别器可以更好地指导模型生成质量更高,更真实的唇部图像。另一方面,本实施例设计的基于双判别器生成对抗网络模型和角度分类器模型的转换器模型较传统的一步转换模型有更好地效果,传统转换器模型训练时会输入很大角度范围的唇部图像,并由一个生成对抗网路模型进行转正,而本发明设计的转换器模型将大角度范围分成两个较小角度的阶段,减小了单个模型训练数据包含的角度范围,很好的提升了模型的转换质量和模型的训练速度,进一步提升唇语识别模型的准确率。
在一个实施例中,如图2所示,通过人脸模型识别得到唇部多角度数据集的流程包括:
步骤201,将视频中人脸图片按照不同角度进行的每一帧拆分,得到每一帧的正视图,左视图,右视图组成的三视图图片;
步骤202,使用人脸建模工具和所述三视图图片对每一帧面部图像进行人脸建模,导出人脸模型;
步骤203,对所述人脸模型的不同角度对应的视图,使用标注工具标注特征点,定位唇部区域,裁切出唇部区域,得到唇部多角度数据集。
具体地,使用每一帧的三视图图片和FaceGen 3D人脸建模软件对测试者的每一帧面部图像进行人脸建模,每一帧对应一个人脸模型,一个视频长为N帧,故一个视频得到N个人脸模型,每个人脸模型都导出±60°范围内121个角度的121张图片,即121个头部偏转角度的图片,一个视频导出N×121张图片,再使用dlib工具标注特征点,定位唇部区域,裁切出唇部区域,得到唇部多角度数据集。
在一个实施例中,如图3所示,人脸偏转角度定位的流程包括以下步骤:
步骤301,使用头部姿态估计算法对所述唇部多角度数据集的人脸进行处理,得到人脸的偏转角度;
步骤302,根据所述唇部多角度数据集中的随机选取不同的人脸图片,并标记每张人脸图片的说话者身份和偏转角度;
步骤303,从所述唇部多角度数据集的人脸身份提取身份判别器数据集,从所述唇部多角度数据集中头部偏转角度提取角度判别器数据集,从所述唇部多角度数据集的人脸角度提取角度分类数据集。
具体地,在本实施例中数据集的头部姿态包含±30°以内的偏航角,使用头部姿态估计算法计算唇部多角度数据集每一帧的头部姿态即每一帧的俯仰角、偏航角和滚转角,并由此提取每一帧的偏航角即偏转角度,并将此数值扩大为原来的2倍,得到更大范围的偏转角度,并以每一帧的偏转角度为y,帧数为x,其中,y的范围为±60°,x的范围为1-29,得到头部偏转变化折线。根据头部偏转程度计算公式,计算每一个头部偏转变化折线的头部偏转程度评分,数值越大,变化越快,偏转程度越严重,偏转程度评分越高。选出头部偏转程度计算公式计算得到的头部偏转评分最高的50个头部偏转变化折线,根据头部偏转变化折线,使用曲线拟合方法,得到平滑的头部偏转变化曲线,并将头部偏转变化曲线根据延长公式,延长至长度为40,得到最终的头部偏转变化曲线。根据50个最终的头部偏转变化曲线,随机与多角度数据集的1560个视频名匹配,并根据角度选取公式,从在同一视频名下的每一帧文件中选取对应的角度的图片,组成识别网络数据集的一个样本,每一个视频名随机和10个头部偏转变化曲线组合,共得到15600个样本(视频),组成识别网络数据集。
其中,生成器数据集由多角度数据集中的所有图片随机选取50000张图片组成,并标记每张图片的说话者身份和偏转角度。身份判别器数据集由多角度数据集按说话者身份进行随机选择,共选取50000张图片,包含52位说话者,并标注说话者身份。角度判别器数据集由多角度数据集按头部偏转角度分类,每一类包含多个说话者的同一角度的图片,一个角度选取360张图片,包含52位说话者,每个角度每位说话者选取6张图片,并标记角度。角度分类数据集:从多角度数据集选取121×52×6=37752张图片,并按121个角度分类,一个角度包含52位说话者,每位说话者选取6张图片。
在一个实施例中,如图4所示,依据数据对象属性进行数据操作的流程包括:
步骤401,待识别的视频分离出人脸的图片输入到角度分类器,得到第一唇部图像,并对所述第一唇部图像进行估算,得到待识别人脸偏转的角度;
步骤402,通过所述对抗网络数据模型构建6个一级转换器,利用所述一级转换器对所述待识别人脸偏转的角度进行一级转换,得到0°唇部图像、±20°唇部图像、±40°唇部图像;
步骤403,利用所述角度判别器数据集、身份判别器数据集、生成器数据集构建二级转换器,将±20°唇部图像、±40°唇部图像转换为0°唇部图像。
具体地,本实施例设计的生成对抗网络模型包含一个生成器,一个身份判别器,一个角度判别器。生成器是以带有偏转的唇部图像为输入,输出转换后的唇部图像的网络模型,以U-Net为基础结构。身份判别器和角度判别器均以深度卷积网络SE-ResNet为基础结构。身份判别器以身份判别器数据集的成对的两张身份相同或身份不同的图片为输入,经两个SE-ResNet卷积后,分别得到两张图片的身份特征向量,尺寸均为1024,并将两个身份特征向量拼接在一起,得到尺寸为2048的张量,经过2层全连接网络计算后得到一个数值,表示身份判别器对两张图片的身份属性差异的评分。相同身份标签的两张图片经身份判别器计算得到的评分应趋近于1,不同身份标签的两张图片经身份判别器计算得到的评分应趋近于0。
角度判别器以角度判别器数据集的成对的两张身份相同,角度不同的图片为输入,经两个SE-ResNet卷积后,分别得到两张图片的角度特征向量,尺寸均为1024,并将两个角度特征向量拼接在一起,得到尺寸为2048的张量,经过2层全连接网络计算后得到一个数值,表示角度判别器对两张图片的角度属性差异的评分。两张图片计算的角度差异与标签的角度差异越小,角度属性差异的评分应趋近于1,两张图片计算的角度差异与标签的角度差异越大,角度属性差异的评分应趋近于0。
本实施例主要是通过0°唇部图像来实现唇部的矫正,设计的唇部矫正主要包含三个阶段。第一阶段为角度分类阶段,使用角度分类器进行角度分类,输入图片,输出角度估计结果。第二阶段包括6个一级转换器,将6个小角度区域,一个角度区域范围为20°的唇部图像经一级转换器转换为区间最靠近0°的转换点,即-3号一级转换器负责将-60°~-40°的唇部图像转换为-40°,-2号一级转换器负责将-40°~-20°的唇部图像转换为-20°,-1号一级转换器负责将-20°~0°的唇部图像转换为0°,1号一级转换器负责将0°~-20°的唇部图像转换为0°,2号一级转换器负责将20°~40°的唇部图像转换为20°,3号一级转换器负责将40°~60°的唇部图像转换为40°。第三阶段包括1个二级转换器,将所有转换点的图像转换为0°,即将±40°,±20°的唇部图像转换为0°。对于1个角度分类器,本实施例使用角度分类器数据集训练角度分类器,得到可以估计输入图片偏转角度的角度分类器。对于6个一级转换器,本实施例将使用训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型作为每一个一级转换器。之后使用角度判别器数据集和身份判别器数据集和生成器数据集的不同角度范围的图像继续训练生成器,即-3号一级转换器使用-60°~-40°的生成器数据集,-2号一级转换器使用-40°~-20°的生成器数据集,-1号一级转换器使用-20°~0°的生成器数据集,1号一级转换器使用0°~20°的生成器数据集,2号一级转换器使用20°~40°的生成器数据集,3号一级转换器使用40°~60°的生成器数据集。对于1个二级转换器,本实施例将使用使用角度判别器数据集和身份判别器数据集和生成器数据集的几个转换点角度的图像,即±40和±20°的生成器数据集图像继续训练生成器,得到在保证身份不变的情况下,可以将具有±40°和±20°的唇部偏转图像转换为0°唇部偏转的唇部图像的1个二级转换器。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,公开了一种基于双判别器生成对抗网络的唇语识别装置,包括:
多角度数据集模块501,从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集;
数据集分类模块502,用于根据所述唇部多角度数据集得到生成器数据集,并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集;
判别器训练模块503,用于训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型,训练所述角度分类数据集得到角度分类器;
唇部图像转换模块504,用于利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像;
唇语识别模块505,用于从所述0°唇部图像提取唇部特征向量,对所述唇部特征向量进行建模分类,得到唇部分类结果,根据所述唇部分类结果导出识别语言。
在一个实施例中,所述多角度数据集模块501包括人脸模型识别单元,所述人脸模型识别单元用于:
将视频中人脸图片按照不同角度进行的每一帧拆分,得到每一帧的正视图,左视图,右视图组成的三视图图片;
使用人脸建模工具和所述三视图图片对每一帧面部图像进行人脸建模,导出人脸模型;
对所述人脸模型的不同角度对应的视图,使用标注工具标注特征点,定位唇部区域,裁切出唇部区域,得到唇部多角度数据集。
在一个实施例中,所述数据集分类模块502包括偏转角度定位单元,所述偏转角度定位单元用于:
使用头部姿态估计算法对所述唇部多角度数据集的人脸进行处理,得到人脸的偏转角度;
根据所述唇部多角度数据集中的随机选取不同的人脸图片,并标记每张人脸图片的说话者身份和偏转角度;
从所述唇部多角度数据集的人脸身份提取身份判别器数据集,从所述唇部多角度数据集中头部偏转角度提取角度判别器数据集,从所述唇部多角度数据集的人脸角度提取角度分类数据集。
在一个实施例中,所述唇部图像转换模块504包括角度转换单元,所述角度转换单元用于:
待识别的视频分离出人脸的图片输入到角度分类器,得到第一唇部图像,并对所述第一唇部图像进行估算,得到待识别人脸偏转的角度;
通过所述对抗网络数据模型构建6个一级转换器,利用所述一级转换器对所述待识别人脸偏转的角度进行一级转换,得到0°唇部图像、±20°唇部图像、±40°唇部图像;
利用所述角度判别器数据集、身份判别器数据集、生成器数据集构建二级转换器,将±20°唇部图像、±40°唇部图像转换为0°唇部图像。
关于基于双判别器生成对抗网络的唇语识别装置的具体限定可以参见上文中对于基于双判别器的唇语方法的限定,在此不再赘述。上述基于双判别器生成对抗网络的唇语识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于双判别器生成对抗网络的唇语识别方法,其特征在于,包括以下步骤:
从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集;
根据所述唇部多角度数据集得到生成器数据集,并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集;
训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型,训练所述角度分类数据集得到角度分类器;
利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像;
从所述0°唇部图像提取唇部特征向量,对所述唇部特征向量进行建模分类,得到唇部分类结果,根据所述唇部分类结果导出识别语言;
生成对抗网络模型包含一个生成器,一个身份判别器,一个角度判别器;
生成器是以带有偏转的唇部图像为输入,输出转换后的唇部图像的网络模型;
身份判别器以身份判别器数据集的成对的两张身份相同或身份不同的图片为输入,经卷积后得到身份特征向量,再将所述身份特征向量拼接在一起,经过全连接网络计算后得到一个身份数值,所述身份数值表示身份判别器对身份属性差异的评分;
角度判别器以角度判别器数据集的成对的两张身份相同,角度不同的图片为输入,经卷积后得到角度特征向量,将所述角度特征向量拼接在一起,经过全连接网络计算后得到一个角度数值,所述角度数值表示角度判别器对角度属性差异的评分。
2.根据权利要求1所述的基于双判别器生成对抗网络的唇语识别方法,其特征在于,所述从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集,包括:
将视频中人脸图片按照不同角度进行的每一帧拆分,得到每一帧的正视图,左视图,右视图组成的三视图图片;
使用人脸建模工具和所述三视图图片对每一帧面部图像进行人脸建模,导出人脸模型;
对所述人脸模型的不同角度对应的视图,使用标注工具标注特征点,定位唇部区域,裁切出唇部区域,得到唇部多角度数据集。
3.根据权利要求1所述的基于双判别器生成对抗网络的唇语识别方法,其特征在于,所述根据所述人脸图片得到生成器数据集,从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集,包括:
使用头部姿态估计算法对所述唇部多角度数据集的人脸进行处理,得到人脸的偏转角度;
根据所述唇部多角度数据集中的随机选取不同的人脸图片,并标记每张人脸图片的说话者身份和偏转角度;
从所述唇部多角度数据集的人脸身份提取身份判别器数据集,从所述唇部多角度数据集中头部偏转角度提取角度判别器数据集,从所述唇部多角度数据集的人脸角度提取角度分类数据集。
4.根据权利要求1所述的基于双判别器生成对抗网络的唇语识别方法,其特征在于,所述利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像,包括:
待识别的视频分离出人脸的图片输入到角度分类器,得到第一唇部图像,并对所述第一唇部图像进行估算,得到待识别人脸偏转的角度;
通过所述对抗网络数据模型构建6个一级转换器,利用所述一级转换器对所述待识别人脸偏转的角度进行一级转换,得到0°唇部图像、±20°唇部图像、±40°唇部图像;
利用所述角度判别器数据集、身份判别器数据集、生成器数据集构建二级转换器,将±20°唇部图像、±40°唇部图像转换为0°唇部图像。
5.一种基于双判别器生成对抗网络的唇语识别装置,其特征在于,包括:
多角度数据集模块,从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集;
数据集分类模块,用于根据所述唇部多角度数据集得到生成器数据集,并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集;
判别器训练模块,用于训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型,训练所述角度分类数据集得到角度分类器;
唇部图像转换模块,用于利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像;
唇语识别模块,用于从所述0°唇部图像提取唇部特征向量,对所述唇部特征向量进行建模分类,得到唇部分类结果,根据所述唇部分类结果导出识别语言;
生成对抗网络模型包含一个生成器,一个身份判别器,一个角度判别器;
生成器是以带有偏转的唇部图像为输入,输出转换后的唇部图像的网络模型;
身份判别器以身份判别器数据集的成对的两张身份相同或身份不同的图片为输入,经卷积后得到身份特征向量,再将所述身份特征向量拼接在一起,经过全连接网络计算后得到一个身份数值,所述身份数值表示身份判别器对身份属性差异的评分;
角度判别器以角度判别器数据集的成对的两张身份相同,角度不同的图片为输入,经卷积后得到角度特征向量,将所述角度特征向量拼接在一起,经过全连接网络计算后得到一个角度数值,所述角度数值表示角度判别器对角度属性差异的评分。
6.根据权利要求5所述的基于双判别器生成对抗网络的唇语识别装置,其特征在于,所述多角度数据集模块包括人脸模型识别单元,所述人脸模型识别单元用于:
将视频中人脸图片按照不同角度进行的每一帧拆分,得到每一帧的正视图,左视图,右视图组成的三视图图片;
使用人脸建模工具和所述三视图图片对每一帧面部图像进行人脸建模,导出人脸模型;
对所述人脸模型的不同角度对应的视图,使用标注工具标注特征点,定位唇部区域,裁切出唇部区域,得到唇部多角度数据集。
7.根据权利要求5所述的基于双判别器生成对抗网络的唇语识别装置,其特征在于,所述数据集分类模块包括偏转角度定位单元,所述偏转角度定位单元用于:
使用头部姿态估计算法对所述唇部多角度数据集的人脸进行处理,得到人脸的偏转角度;
根据所述唇部多角度数据集中的随机选取不同的人脸图片,并标记每张人脸图片的说话者身份和偏转角度;
从所述唇部多角度数据集的人脸身份提取身份判别器数据集,从所述唇部多角度数据集中头部偏转角度提取角度判别器数据集,从所述唇部多角度数据集的人脸角度提取角度分类数据集。
8.根据权利要求5所述的基于双判别器生成对抗网络的唇语识别装置,其特征在于,所述唇部图像转换模块包括角度转换单元,所述角度转换单元用于:
待识别的视频分离出人脸的图片输入到角度分类器,得到第一唇部图像,并对所述第一唇部图像进行估算,得到待识别人脸偏转的角度;
通过所述对抗网络数据模型构建6个一级转换器,利用所述一级转换器对所述待识别人脸偏转的角度进行一级转换,得到0°唇部图像、±20°唇部图像、±40°唇部图像;
利用所述角度判别器数据集、身份判别器数据集、生成器数据集构建二级转换器,将±20°唇部图像、±40°唇部图像转换为0°唇部图像。
CN202110772322.8A 2021-07-08 2021-07-08 一种基于双判别器生成对抗网络的唇语识别方法及装置 Active CN113239902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110772322.8A CN113239902B (zh) 2021-07-08 2021-07-08 一种基于双判别器生成对抗网络的唇语识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110772322.8A CN113239902B (zh) 2021-07-08 2021-07-08 一种基于双判别器生成对抗网络的唇语识别方法及装置

Publications (2)

Publication Number Publication Date
CN113239902A CN113239902A (zh) 2021-08-10
CN113239902B true CN113239902B (zh) 2021-09-28

Family

ID=77141351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110772322.8A Active CN113239902B (zh) 2021-07-08 2021-07-08 一种基于双判别器生成对抗网络的唇语识别方法及装置

Country Status (1)

Country Link
CN (1) CN113239902B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171148A (zh) * 2017-12-26 2018-06-15 上海斐讯数据通信技术有限公司 一种唇语学习云平台建立的方法和系统
CN108491808A (zh) * 2018-03-28 2018-09-04 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN109858381A (zh) * 2019-01-04 2019-06-07 深圳壹账通智能科技有限公司 活体检测方法、装置、计算机设备和存储介质
CN110110603A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于面部生理信息的多模态唇读方法
CN111191490A (zh) * 2018-11-15 2020-05-22 天津大学青岛海洋技术研究院 一种基于Kinect视觉的唇读研究的方法
CN111259875A (zh) * 2020-05-06 2020-06-09 中国人民解放军国防科技大学 一种基于自适应语义时空图卷积网络的唇读方法
CN111340708A (zh) * 2020-03-02 2020-06-26 北京理工大学 一种根据先验信息快速生成高分辨率完整人脸图像的方法
CN111783566A (zh) * 2020-06-15 2020-10-16 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
US10937428B2 (en) * 2019-03-11 2021-03-02 Adobe Inc. Pose-invariant visual speech recognition using a single view input
CN112818950A (zh) * 2021-03-11 2021-05-18 河北工业大学 一种基于生成对抗网络和时间卷积网络的唇语识别方法
CN113011564A (zh) * 2021-03-22 2021-06-22 广东技术师范大学 一种基于对抗生成网络的唇形转正方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8154644B2 (en) * 2008-10-08 2012-04-10 Sony Ericsson Mobile Communications Ab System and method for manipulation of a digital image

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171148A (zh) * 2017-12-26 2018-06-15 上海斐讯数据通信技术有限公司 一种唇语学习云平台建立的方法和系统
CN108491808A (zh) * 2018-03-28 2018-09-04 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN111191490A (zh) * 2018-11-15 2020-05-22 天津大学青岛海洋技术研究院 一种基于Kinect视觉的唇读研究的方法
CN109858381A (zh) * 2019-01-04 2019-06-07 深圳壹账通智能科技有限公司 活体检测方法、装置、计算机设备和存储介质
US10937428B2 (en) * 2019-03-11 2021-03-02 Adobe Inc. Pose-invariant visual speech recognition using a single view input
CN110110603A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于面部生理信息的多模态唇读方法
CN111340708A (zh) * 2020-03-02 2020-06-26 北京理工大学 一种根据先验信息快速生成高分辨率完整人脸图像的方法
CN111259875A (zh) * 2020-05-06 2020-06-09 中国人民解放军国防科技大学 一种基于自适应语义时空图卷积网络的唇读方法
CN111783566A (zh) * 2020-06-15 2020-10-16 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN112818950A (zh) * 2021-03-11 2021-05-18 河北工业大学 一种基于生成对抗网络和时间卷积网络的唇语识别方法
CN113011564A (zh) * 2021-03-22 2021-06-22 广东技术师范大学 一种基于对抗生成网络的唇形转正方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Harnessing GANs for Zero-Shot Learning of New Classes in Visual Speech Recognition;Yaman Kumar 等;《arXiv:1901.10139v4 [cs.LG]》;20200102;第1-9页 *
Lip Reading using CNN Lip Deflection Classifier and GAN Two-Stage Lip Corrector;Chengwei Zhang 等;《Journal of Physics: Conference Series》;20210328;第1883卷;第1-6页 *
Lip Reading using Local-Adjacent Feature Extractor and Multi-Level Feature Fusion;Chengwei Zhang 等;《ournal of Physics: Conference Series》;20210328;第1883卷;第1-6页 *
唇读研究进展与展望;陈小鼎 等;《自动化学报》;20201130;第46卷(第11期);第2275-2301页 *

Also Published As

Publication number Publication date
CN113239902A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
Zhang et al. Facial: Synthesizing dynamic talking face with implicit attribute learning
Lewis et al. Lip feature extraction using red exclusion
CN109858392B (zh) 一种用于化妆前后人脸图像自动识别方法
Dabre et al. Machine learning model for sign language interpretation using webcam images
CN109034099B (zh) 一种表情识别方法及装置
Wimmer et al. Low-level fusion of audio and video feature for multi-modal emotion recognition
Hassanat Visual speech recognition
Ashwin et al. An e-learning system with multifacial emotion recognition using supervised machine learning
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
Kalbande et al. Lip reading using neural networks
CN111626113A (zh) 一种基于面部动作单元的面部表情识别方法和装置
Abdulsalam et al. Emotion recognition system based on hybrid techniques
CN114973383A (zh) 一种微表情识别方法、装置、电子设备及存储介质
CN107895154B (zh) 面部表情强度计算模型的形成方法及系统
Kumar et al. Facial emotion recognition and detection using cnn
Nagaral et al. Hybrid approach for facial expression recognition using HJDLBP and LBP histogram in video sequences
CN113239902B (zh) 一种基于双判别器生成对抗网络的唇语识别方法及装置
Al-agha et al. Geometric-based feature extraction and classification for emotion expressions of 3D video film
Aitpayev et al. Semi-automatic annotation tool for sign languages
Rathee et al. Adaptive system to learn and recognize emotional state of mind
Narwekar et al. PRAV: A Phonetically Rich Audio Visual Corpus.
Cygert et al. Vocalic segments classification assisted by mouth motion capture
Praneel et al. Malayalam Sign Language Character Recognition System
CN117153195B (zh) 基于自适应区域遮挡的说话人脸视频生成方法及系统
Kumar et al. Multi modal adaptive normalization for audio to video generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant