CN111310648B - 基于解纠缠表达学习的跨模态生物特征匹配方法及系统 - Google Patents

基于解纠缠表达学习的跨模态生物特征匹配方法及系统 Download PDF

Info

Publication number
CN111310648B
CN111310648B CN202010089856.6A CN202010089856A CN111310648B CN 111310648 B CN111310648 B CN 111310648B CN 202010089856 A CN202010089856 A CN 202010089856A CN 111310648 B CN111310648 B CN 111310648B
Authority
CN
China
Prior art keywords
face
sound
modal
embedding
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010089856.6A
Other languages
English (en)
Other versions
CN111310648A (zh
Inventor
卢孝强
宁海龙
郑向涛
刘康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XiAn Institute of Optics and Precision Mechanics of CAS
Original Assignee
XiAn Institute of Optics and Precision Mechanics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XiAn Institute of Optics and Precision Mechanics of CAS filed Critical XiAn Institute of Optics and Precision Mechanics of CAS
Priority to CN202010089856.6A priority Critical patent/CN111310648B/zh
Publication of CN111310648A publication Critical patent/CN111310648A/zh
Application granted granted Critical
Publication of CN111310648B publication Critical patent/CN111310648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明涉及一种基于解纠缠表达学习的跨模态生物特征匹配方法及系统,解决由于不同模态数据(人脸和声音)的类内差异较大而带来的匹配精度低的问题。其实现步骤为:(1)划分训练集,验证集和测试集;(2)提取训练集和验证集中人脸嵌入和声音嵌入;(3)通过保留人脸和声音之间的相同身份信息来学习身份因子;(4)通过最小化模态内的差异来获得模态依赖因子;(5)对验证集计算性能验证指标,判断模型是否训练完成;(6)统计实验结果,在测试集上进行跨模态认证、跨模态匹配和跨模态检索,计算相关指标分数。本发明极大程度地提高了人脸和声音跨模态生物特征匹配的精度,可用于人脸和声音的跨模态认证、跨模态匹配和跨模态检索等任务。

Description

基于解纠缠表达学习的跨模态生物特征匹配方法及系统
技术领域
本发明属于人工智能技术领域,特别涉及一种基于解纠缠表达学习的身份信息挖掘技术,可用于人脸和声音的跨模态认证、跨模态匹配和跨模态检索等任务。
背景技术
人脸和声音的跨模态生物特征匹配旨在确定现有声音数据库中哪些声音与哪些人脸匹配。该任务基于以下事实:人类将其身份信息内部化为其独特的人脸和声音,这已经在神经认知和计算机视觉领域得到了广泛研究。有关人脸和声音的跨模态生物特征匹配相关子任务包括:1)人脸和声音的跨模态认证,2)人脸和声音的跨模态匹配,3)人脸和声音的跨模态检索。人脸和声音的跨模态认证子任务是用于确定一个图像和一条声音片段是否来自同一个人。人脸和声音的跨模态匹配子任务是在给定声音(或图像)时从N个人脸(或声音)中找到对应的人脸(或声音)。人脸和声音的跨模态检索子任务是在给定一个声音(或人脸)时,对已有的人脸(或声音)集合进行排名,让与给定声音(或人脸)匹配的人脸(或声音)排名靠前。这三个相关的子任务有望应用在许多情况下,例如在恐怖袭击和反动游行的活动中,识别说话的蒙面人和未说话的露脸的人。
目前,已有的人脸和声音的跨模态生物特征匹配主要有两类:
一是基于硬性匹配的方法。这种方法的网络通路数目随着需要匹配的人脸(或声音)的数目变化而变化。A.Nagrani等人在文献“Arsha Nagrani,Samuel Albanie,andAndrew Zisserman.Seeing voices and hearing faces:Cross-modalbiometricmatching,in Proceedings ofthe IEEE Conference on Computer Vision andPattern Recognition,pages 8427–8436,2018”中提出了一种基于硬性匹配的人脸和声音的跨模态生物特征匹配方法。该方法设计了N+1个网络通路用于学习给定的一个声音(或图像)和N个人脸(或声音)的特征,最终将学习到的特征进行拼接融合进行N分类任务,从而挑选出与给定的声音(或图像)相匹配的人脸(或声音)。这种基于硬性匹配的人脸和声音的跨模态生物特征匹配方法虽然具有很强的可解释性,但是一旦需要匹配的人脸(或声音)的数目发生变化,网络结构也需要随之变化,并进行重新训练,因此具可拓展性比较差。
二是基于度量匹配的方法。这种方法通过输入直接缩短两种模态数据中相匹配的样本之间的距离,从而学习得到人联合声音的联合嵌入,用于人脸和声音的跨模态生物特征匹配。A.Nagrani等人在文献“ArshaNagrani,SamuelAlbanie,and AndrewZisserman.Learnable pins:Cross-modal embeddings for person identity,inProceedings ofthe European Conference on ComputerVision,pages 71–88,2018”中提出了一种基于度量匹配人脸和声音的跨模态生物特征匹配方法。该方法首先构建了多个正样本对(来自同一人的人脸和声音)和负样本对(来自不同人的人脸和声音),然后将构建的正负样本对输入到设计的人脸特征提取子网络和声音特征提取子网络,分别学习人脸和声音的特征表达,然后通过判断输入的人脸和声音匹配与否约束匹配样本之间的距离不断靠近,而让不匹配样本之间的距离远离。这种方法实施相对简单,也取得了不错的效果。然而,该类方法并没有从人类将其身份信息内部化为其独特的人脸和声音这一本质的事实出发,忽略了对包含在人脸和声音中的身份信息进行挖掘,因此制约了该类方法对人脸和声音的跨模态生物特征匹配精度的进一步提高。
发明内容
本发明的目的在于针对上述现有方法中存在的拓展性比较差、匹配精度较低的不足,提出一种基于解纠缠表达学习的跨模态生物特征匹配方法。该方法首次考虑了对不同模态数据(人脸和声音)中的身份信息的挖掘,通过探索潜在的解纠缠变量,将包含在不同模态数据(人脸和声音)中的身份因子和模态依赖因子分离开来,最终将解纠缠出的身份因子用于跨模态生物特征匹配。
实现本发明目的的技术方案包括如下步骤:
步骤一、构建原始数据集;
所述原始数据集包括多张人脸图像及多条声音片段;
步骤二、划分原始数据集;
将原始数据集划分成训练样本集Dtr、验证样本集Dval和测试样本集Dte,其中训练样本集Dtr和验证样本集Dval中的样本与测试样本集Dte中的样本不重叠;
步骤三、提取人脸嵌入和声音嵌入;
通过预训练的VGG-face模型,对于训练集和验证集中的每个人脸xf提取对应的人脸嵌入ef;通过预训练的VGGish模型,对于训练集和验证集中的每个声音xv提取对应的声音嵌入ev
步骤四、得到人脸的身份因子μf和声音的身份因子μv
步骤4.1、将步骤三提取到的人脸嵌入ef和声音嵌入ev输入到2层全连接层网络中,得到初步的人脸的身份因子和声音的身份因子;
步骤4.2、比较初步的人脸的身份因子和声音的身份因子,如果输入的人脸嵌入ef和声音嵌入ev来自同一个人,则让初步的人脸的身份因子和声音的身份因子之间的差异尽可能小,否则让二者之间的差异尽可能的大,不断迭代;当达到指定迭代次数之后,得到最终的训练集与验证集中人脸的身份因子μf和声音的身份因子μv
步骤五、获得人脸的模态依赖因子σf和声音的模态依赖因子σv
步骤5.1、将步骤三提取到的人脸嵌入ef和声音嵌入ev输入到2层全连接层网络中,得到初步的人脸的模态依赖因子和声音的模态依赖因子;
步骤5.2、比较初步的人脸的模态依赖因子和声音的模态依赖因子,让二者之间的差异尽可能小,不断迭代;当达到指定迭代次数之后,得到最终的训练集与验证集中人脸的模态依赖因子σf和声音的模态依赖因子σv
步骤六、重建人脸嵌入和声音嵌入;
通过步骤四学习到的人脸的身份因子μf和声音的身份因子μv与步骤五学习到的人脸的模态依赖因子σf和声音的模态依赖因子σv重建人脸嵌入和声音嵌入;
步骤七、通过将重建的人脸嵌入和声音嵌入输入到一层softmax层(识别层),进行身份识别;
步骤八、构建损失函数,优化整个网络参数,训练网络;
构建损失函数:
(8a)构建近似后验概率估计器的损失函数:
Figure BDA0002383304200000041
其中
Figure BDA0002383304200000042
为第n个人脸的模态依赖因子中的第k个元素,
Figure BDA0002383304200000043
为第n个人脸的身份因子中的第k个元素,
Figure BDA0002383304200000044
为第n个声音的模态依赖因子中的第k个元素,
Figure BDA0002383304200000045
为第n个声音的身份因子中的第k个元素;zf和zv分别为人脸和声音的潜在解纠缠变量,φf和φv为近似后验概率估计器中的参数;
Figure BDA0002383304200000046
Figure BDA0002383304200000047
分别为第n个人脸嵌入ef和第n个声音嵌入ev
(8b)构建身份一致性损失:
Figure BDA0002383304200000048
其中ln=±1;当
Figure BDA0002383304200000049
Figure BDA00023833042000000410
来自同一个人,ln=1,反之ln=-1;ξ为预先定义的边界阈值;
(8c)构建模态不一致性损失:
Figure BDA00023833042000000411
其中A为正交矩阵用于人脸的模态依赖因子σf和声音的模态依赖因子σv之间的相互映射,λ1和λ2为折中系数,||·||F表示弗罗贝尼乌斯范数,I为单位矩阵;
(8d)构建身份识别损失:
Figure BDA00023833042000000412
其中ef和ev为提取的人脸嵌入和声音嵌入,
Figure BDA00023833042000000413
Figure BDA00023833042000000414
为重建的人脸嵌入和声音嵌入,θf和θv为人脸特征提取网络VGG-face模型中的参数和声音特征提取网络VGGish模型中的参数,Wf1,Wv1,Wf2和Wv2为步骤七中识别层的参数;
优化网络参数,训练网络:
利用RMSprop优化器优化网络参数,通过使步骤(8a)-(8d)中定义的损失函数最小来迭代训练参数;同时,计算验证集关于步骤七中的识别精度作为性能验证指标,当性能验证指标开始下降时停止训练,保存训练好的网络;
所述网络参数包:θf、θv、φf、φv、Wf1,Wv1,Wf2及A;
步骤九、测试网络;
将测试数据集的人脸和声音输入到训练好的网络,得到解纠缠的身份因子,通过得到的身份因子进行人脸和声音的跨模态认证、跨模态匹配和跨模态检索任务,并统计实验结果,计算相关指标分数。
进一步地,步骤六具体为:
步骤6.1)、以学习到的人脸的身份因子μf和声音的身份因子μv作为正态分布的均值参数,以学习到的人脸的模态依赖因子σf和声音的模态依赖因子σv为方差参数,得到一个正态分布;
步骤6.2)、从正态分布采样得到人脸和声音的潜在解纠缠变量zf和zv
步骤6.3)、将zf和zv分别输入到2层全连接层网络中,得到初步重建的人脸嵌入和声音嵌入;比较初步重建的人脸嵌入和真实的人脸嵌入之间的差异,以及初步重建的声音嵌入和真实的声音嵌入之间的差异,让差异尽可能小,不断迭代;当达到指定迭代次数之后,得到最终的重建人脸嵌入和声音嵌入。
本发明还提供一种基于解纠缠表达学习的跨模态生物特征匹配系统,包括处理器及存储器,其特殊之处在于,上述存储器中存储计算机程序,计算机程序在处理器中运行时,执行上述的方法。
本发明还提供一种计算机可读存储介质,其特殊之处在于,储存有计算机程序,计算机程序被执行时实现上述的方法。
本发明的有益效果是:
本发明通过探索潜在的解纠缠变量,将包含在不同模态数据(人脸和声音)中的身份因子和模态依赖因子分离开来,最终将解纠缠出的身份因子用于跨模态生物特征匹配。通过本发明能够将影响身份判别的模态依赖因子和身份因子剥离开来,最终使用身份因子进行识别,避免了模态依赖因子的干扰,因此具有很好的身份判别性,因此可以极大程度地提高了人脸和声音跨模态生物特征匹配的精度。
附图说明
图1为本发明的流程图;
图2为本发明实验中用到的VoxCeleb1数据集处理得到的人脸及声音样例图;
图3为本发明实验中人脸和声音的跨模态匹配结果可视化样例图。
具体实施方式
为了更清楚地说明本发明实施的技术方案,下面将对实施例描述中所需要的各个模块作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的流程图,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这个附图进行扩展,并获得其他的附图。
参照图1,本发明实现的步骤如下:
步骤1,构建原始数据集。
根据“Arsha Nagrani,Samuel Albanie,andAndrew Zisserman.Learnable pins:Cross-modal embeddings for person identity,in Proceedings of the EuropeanConference on ComputerVision,pages 71–88,2018”中的方法将VoxCeleb1数据集中的视频处理为1217558张人脸图像和153516条声音片段。
步骤2,划分训练样本集、验证样本集和测试样本集。
(2a)选取其中942个人的1131210张人脸图像和120256条声音片段作为训练样本集Dtr
(2b)选取和训练集相同的942个人的其他45482张人脸图像和12734条声音片段作为验证样本集Dval
(2c)选取和训练集以及验证集不同的309个人的其他40866张人脸图像和20496条声音片段作为测试样本集Dte
步骤3,提取人脸嵌入和声音嵌入。
(3a)通过预训练的VGG-face模型对输入的训练(验证)图片提取人脸嵌入ef
(3b)通过预训练的VGGish模型对输入的训练(验证)声音提取声音嵌入ev。
步骤4,获得人脸的身份因子μf和声音的身份因子μv
将步骤3提取到的人脸嵌入ef和声音嵌入ev输入到2层全连接层网络中,通过最小化训练(验证)集中人脸之间的相同身份信息来学习人脸的身份因子μf,通过最小化声音之间的相同身份信息来学习声音的身份因子μv
具体包括:
步骤4.1、将步骤三提取到的人脸嵌入ef和声音嵌入ev输入到2层全连接层网络中,得到初步的人脸的身份因子和声音的身份因子;
步骤4.2、比较初步的人脸的身份因子和声音的身份因子,如果输入的人脸嵌入ef和声音嵌入ev来自同一个人,则让初步的人脸的身份因子和声音的身份因子之间的差异尽可能小,否则让二者之间的差异尽可能的大,不断迭代;当达到指定迭代次数之后,得到最终的训练集与验证集中人脸的身份因子μf和声音的身份因子μv
步骤5,获得人脸的模态依赖因子σf和声音的模态依赖因子σv
将步骤3提取到的人脸嵌入ef和声音嵌入ev输入到2层全连接层网络,通过最小化模态内的差异得到训练集与验证集中人脸的模态依赖因子σf和声音的模态依赖因子σv
具体包括:
步骤5.1、将步骤三提取到的人脸嵌入ef和声音嵌入ev输入到2层全连接层网络中,得到初步的人脸的模态依赖因子和声音的模态依赖因子;
步骤5.2、比较初步的人脸的模态依赖因子和声音的模态依赖因子,让二者之间的差异尽可能小,不断迭代;当达到指定迭代次数之后,得到最终的训练集与验证集中人脸的模态依赖因子σf和声音的模态依赖因子σv
步骤6,通过学习到的人脸和声音的身份因子和模态依赖因子重建人脸和声音嵌入。
步骤6.1)、以学习到的人脸的身份因子μf和声音的身份因子μv作为正态分布的均值参数,以学习到的人脸的模态依赖因子σf和声音的模态依赖因子σv为方差参数,得到一个正态分布;
步骤6.2)、从正态分布采样得到人脸和声音的潜在解纠缠变量zf和zv
步骤6.3)、将zf和zv分别输入到2层全连接层网络中,得到初步重建的人脸嵌入和声音嵌入。比较初步重建的人脸嵌入和真实的人脸嵌入之间的差异,以及初步重建的声音嵌入和真实的声音嵌入之间的差异,让差异尽可能小,不断迭代。当达到指定迭代次数之后,得到最终的重建人脸嵌入和声音嵌入。
步骤7,通过重建的人脸和声音嵌入进行身份识别。
步骤8,构建损失函数,优化网络参数。
(8a)构建近似后验概率估计器的损失函数,用于优化步骤4和步骤5解纠缠表达学习中的参数,损失函数如下:
Figure BDA0002383304200000081
其中
Figure BDA0002383304200000082
为第n个人脸的模态依赖因子中的第k个元素,
Figure BDA00023833042000000816
为第n个人脸的身份因子中的第k个元素,
Figure BDA0002383304200000083
为第n个声音的模态依赖因子中的第k个元素,
Figure BDA0002383304200000084
为第n个声音的身份因子中的第k个元素;zf和zv分别为人脸和声音的潜在解纠缠变量,φf和φv为近似后验概率估计器中的参数;
Figure BDA0002383304200000085
Figure BDA0002383304200000086
分别为第n个人脸嵌入ef和第n个声音嵌入ev
(8b)构建身份一致性损失,约束同一人的人脸和声音的身份信息尽可能相似,身份一致性损失函数如下:
Figure BDA0002383304200000087
其中ln=±1;当
Figure BDA0002383304200000088
Figure BDA0002383304200000089
来自同一个人,ln=1,反之ln=-1;ξ为预先定义的边界阈值;
(8c)构建模态不一致性损失,用于约束人脸和声音的模态内一致性,损失函数如下:
Figure BDA00023833042000000810
其中A为正交矩阵用于人脸的模态依赖因子σf和声音的模态依赖因子σv之间的相互映射,λ1和λ2为折中系数,||·||F表示弗罗贝尼乌斯范数,I为单位矩阵;
(8d)构建身份识别损失,用于微调人脸特征提取网络VGG-face模型中的参数和声音特征提取网络VGGish模型中的参数,同时促进身份因子的进一步学习,身份识别损失函数如下:
Figure BDA00023833042000000811
其中ef和ev为提取的人脸嵌入和声音嵌入,
Figure BDA0002383304200000091
Figure BDA0002383304200000092
为重建的人脸嵌入和声音嵌入,θf和θv为人脸特征提取网络VGG-face模型中的参数和声音特征提取网络VGGish模型中的参数,Wf1,Wv1,Wf2和Wv2为步骤7中识别层的参数;
(8e)利用RMSprop优化器优化网络参数,通过使步骤(8a)-(8d)中定义的损失函数最小来迭代训练参数。所述网络参数包:θf、θv、φf、φv、Wf1,Wv1,Wf2及A。同时,计算验证集关于步骤7中的识别精度作为性能验证指标,当性能验证指标开始下降时停止训练,保存训练好的网络。
步骤9,测试网络。
输入测试人脸图片及声音片段,得到对应的身份因子,利用得到的身份因子进行人脸和声音的跨模态认证、跨模态匹配和跨模态检索任务,并统计实验结果,计算AUC,EER,i-ACC和mAP等相关指标分数。
本发明的效果可以通过以下实验做进一步的说明。
1.仿真条件
本发明是在中央处理器为Intel(R)Xeon(R)CPU E5-2650 V4@2.20GHz、内存500G、Ubuntu 14操作系统上,运用Python及其他相关工具包进行的仿真。
实验中使用的训练和测试的数据库为VoxCeleb1数据集。其样例如图2所示。
2.仿真内容
在划分的训练样本集和验证样本集上,进行模型的训练和验证;在测试样本集上完成测试。为了证明本发明算法(基于解纠缠表达学习的跨模态生物特征匹配方法)的有效性,我们选取了现有的4个人脸和声音的跨模态生物特征匹配方法SVHF-Net、FVCE-Net、PINs-Net和DIMNet进行比较。其中SVHF-Net是Nagrani等人在其文献“Arsha Nagrani,Samuel Albanie,and Andrew Zisserman.Seeing voices and hearing faces:Cross-modal biometricmatching,in Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,pages 8427–8436,2018”中提出来的。FVCE-Net是Horiguchi等人在其文献“Shota Horiguchi,Naoyuki Kanda,and Kenji Nagamatsu.Face-voice matching using cross-modal embeddings,in2018 ACM Multimedia Conferenceon Multimedia Conference,pages 1011–1019,2018”中提出来的。PINs-Net是Nagrani等人在其文献“Arsha Nagrani,Samuel Albanie,and Andrew Zisserman.Learnable pins:Cross-modal embeddings for person identity,in Proceedings of the EuropeanConference on ComputerVision,pages 71–88,2018”中提出来的。DIMNet是Wen等人在其文献“Yandong Wen,MahmoudAl Ismail,Weiyang Liu,BhikshaRaj,and RitaSingh.Disjoint mapping network for crossmodal matching ofvoices and faces,inInternational Conference on Learning Representations,2019”中提出来的。
计算本发明在测试集上进行人脸和声音的跨模态认证任务关于AUC和EER等指标分数,其结果如表1所示。
表1在测试集上进行人脸和声音的跨模态认证的指标分数
Figure BDA0002383304200000101
计算本发明在测试集上进行人脸和声音的跨模态匹配任务关于i-ACC等指标分数,其结果如表2所示。
表2在测试集上进行人脸和声音的跨模态匹配的指标分数
Figure BDA0002383304200000102
计算本发明在测试集上进行人脸和声音的跨模态检索任务关于mAP等指标分数,其结果如表3所示。
表3在测试集上进行人脸和声音的跨模态检索的指标分数
Figure BDA0002383304200000103
Figure BDA0002383304200000111
根据表1-3和图3的结果可以看出,相比与其他方法,本发明在测试集上关于人脸和声音的跨模态认证、跨模态匹配和跨模态检索都取得了最先进的结果,因此本方法比其他方法更有效,更鲁棒。

Claims (4)

1.基于解纠缠表达学习的跨模态生物特征匹配方法,其特征在于,包括以下步骤:
步骤一、构建原始数据集;
所述原始数据集包括多张人脸图像及多条声音片段;
步骤二、划分原始数据集;
将原始数据集划分成训练样本集Dtr、验证样本集Dval和测试样本集Dte,其中训练样本集Dtr和验证样本集Dval中的样本与测试样本集Dte中的样本不重叠;
步骤三、提取人脸嵌入和声音嵌入;
通过预训练的VGG-face模型,对于训练集和验证集中的每个人脸xf提取对应的人脸嵌入ef;通过预训练的VGGish模型,对于训练集和验证集中的每个声音xv提取对应的声音嵌入ev
步骤四、得到人脸的身份因子μf和声音的身份因子μv
步骤4.1、将步骤三提取到的人脸嵌入ef和声音嵌入ev输入到2层全连接层网络中,得到初步的人脸的身份因子和声音的身份因子;
步骤4.2、比较初步的人脸的身份因子和声音的身份因子,如果输入的人脸嵌入ef和声音嵌入ev来自同一个人,则让初步的人脸的身份因子和声音的身份因子之间的差异尽可能小,否则让二者之间的差异尽可能的大,不断迭代;当达到指定迭代次数之后,得到最终的训练集与验证集中人脸的身份因子μf和声音的身份因子μv
步骤五、获得人脸的模态依赖因子σf和声音的模态依赖因子σv
步骤5.1、将步骤三提取到的人脸嵌入ef和声音嵌入ev输入到2层全连接层网络中,得到初步的人脸的模态依赖因子和声音的模态依赖因子;
步骤5.2、比较初步的人脸的模态依赖因子和声音的模态依赖因子,让二者之间的差异尽可能小,不断迭代;当达到指定迭代次数之后,得到最终的训练集与验证集中人脸的模态依赖因子σf和声音的模态依赖因子σv
步骤六、重建人脸嵌入和声音嵌入;
通过步骤四学习到的人脸的身份因子μf和声音的身份因子μv与步骤五学习到的人脸的模态依赖因子σf和声音的模态依赖因子σv重建人脸嵌入和声音嵌入;
步骤七、通过将重建的人脸嵌入和声音嵌入输入到识别层,进行身份识别;
步骤八、构建损失函数,优化整个网络参数,训练网络;
构建损失函数:
(8a)构建近似后验概率估计器的损失函数:
Figure FDA0002383304190000021
其中
Figure FDA0002383304190000022
为第n个人脸的模态依赖因子中的第k个元素,
Figure FDA0002383304190000023
为第n个人脸的身份因子中的第k个元素,
Figure FDA0002383304190000024
为第n个声音的模态依赖因子中的第k个元素,
Figure FDA0002383304190000025
为第n个声音的身份因子中的第k个元素;zf和zv分别为人脸和声音的潜在解纠缠变量,φf和φv为近似后验概率估计器中的参数;
Figure FDA0002383304190000026
Figure FDA0002383304190000027
分别为第n个人脸嵌入ef和第n个声音嵌入ev
(8b)构建身份一致性损失:
Figure FDA0002383304190000028
其中
Figure FDA00023833041900000213
Figure FDA0002383304190000029
Figure FDA00023833041900000210
来自同一个人,
Figure FDA00023833041900000214
反之
Figure FDA00023833041900000215
ξ为预先定义的边界阈值;
(8c)构建模态不一致性损失:
Figure FDA00023833041900000211
其中A为正交矩阵用于人脸的模态依赖因子σf和声音的模态依赖因子σv之间的相互映射,λ1和λ2为折中系数,||·||F表示弗罗贝尼乌斯范数,I为单位矩阵;
(8d)构建身份识别损失:
Figure FDA00023833041900000212
其中ef和ev为提取的人脸嵌入和声音嵌入,
Figure FDA0002383304190000031
Figure FDA0002383304190000032
为重建的人脸嵌入和声音嵌入,θf和θv为人脸特征提取网络VGG-face模型中的参数和声音特征提取网络VGGish模型中的参数,Wf1,Wv1,Wf2和Wv2为步骤七中识别层的参数;
优化网络参数,训练网络:
利用RMSprop优化器优化网络参数,通过使步骤(8a)-(8d)中定义的损失函数最小来迭代训练参数;同时,计算验证集关于步骤七中的识别精度作为性能验证指标,当性能验证指标开始下降时停止训练,保存训练好的网络;
所述网络参数包:θf、θv、φf、φv、Wf1,Wv1,Wf2及A;
步骤九、测试网络;
将测试数据集的人脸和声音输入到训练好的网络,得到解纠缠的身份因子,通过得到的身份因子进行人脸和声音的跨模态认证、跨模态匹配和跨模态检索任务,并统计实验结果,计算相关指标分数。
2.根据权利要求1所述的基于解纠缠表达学习的跨模态生物特征匹配方法,其特征在于,步骤六具体为:
步骤6.1)、以学习到的人脸的身份因子μf和声音的身份因子μv作为正态分布的均值参数,以学习到的人脸的模态依赖因子σf和声音的模态依赖因子σv为方差参数,得到一个正态分布;
步骤6.2)、从正态分布采样得到人脸和声音的潜在解纠缠变量zf和zv
步骤6.3)、将zf和zv分别输入到2层全连接层网络中,得到初步重建的人脸嵌入和声音嵌入;比较初步重建的人脸嵌入和真实的人脸嵌入之间的差异,以及初步重建的声音嵌入和真实的声音嵌入之间的差异,让差异尽可能小,不断迭代;当达到指定迭代次数之后,得到最终的重建人脸嵌入和声音嵌入。
3.基于解纠缠表达学习的跨模态生物特征匹配系统,包括处理器及存储器,其特征在于,所述存储器中存储计算机程序,计算机程序在处理器中运行时,执行权利要求1或2所述的方法。
4.一种计算机可读存储介质,其特征在于:储存有计算机程序,计算机程序被执行时实现权利要求1或2所述的方法。
CN202010089856.6A 2020-02-13 2020-02-13 基于解纠缠表达学习的跨模态生物特征匹配方法及系统 Active CN111310648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010089856.6A CN111310648B (zh) 2020-02-13 2020-02-13 基于解纠缠表达学习的跨模态生物特征匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010089856.6A CN111310648B (zh) 2020-02-13 2020-02-13 基于解纠缠表达学习的跨模态生物特征匹配方法及系统

Publications (2)

Publication Number Publication Date
CN111310648A CN111310648A (zh) 2020-06-19
CN111310648B true CN111310648B (zh) 2023-04-11

Family

ID=71159377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010089856.6A Active CN111310648B (zh) 2020-02-13 2020-02-13 基于解纠缠表达学习的跨模态生物特征匹配方法及系统

Country Status (1)

Country Link
CN (1) CN111310648B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111862990B (zh) * 2020-07-21 2022-11-11 思必驰科技股份有限公司 说话者身份验证方法及系统
CN111914950B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112766157B (zh) * 2021-01-20 2022-08-30 乐山师范学院 一种基于解纠缠表示学习的跨年龄人脸图像识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203533A (zh) * 2016-07-26 2016-12-07 厦门大学 基于混合训练的深度学习人脸验证方法
WO2018220368A1 (en) * 2017-05-30 2018-12-06 Gtn Ltd Tensor network machine learning system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203533A (zh) * 2016-07-26 2016-12-07 厦门大学 基于混合训练的深度学习人脸验证方法
WO2018220368A1 (en) * 2017-05-30 2018-12-06 Gtn Ltd Tensor network machine learning system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度迁移学习的人脸识别方法研究;余化鹏等;《成都大学学报(自然科学版)》;20170630(第02期);全文 *
结合有监督联合一致性自编码器的跨音视频说话人标注;柳欣等;《电子与信息学报》;20180509(第07期);全文 *

Also Published As

Publication number Publication date
CN111310648A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111310648B (zh) 基于解纠缠表达学习的跨模态生物特征匹配方法及系统
Soltane et al. Face and speech based multi-modal biometric authentication
Zhao et al. Fingerprint image synthesis based on statistical feature models
CN106446754A (zh) 图像识别方法、度量学习方法、图像来源识别方法及装置
US20110213737A1 (en) Training and verification using a correlated boosted entity model
Woźniak et al. Voice recognition through the use of Gabor transform and heuristic algorithm
JPH09134432A (ja) パターン認識方法
CN113094566A (zh) 一种深度对抗多模态数据聚类方法
Haji et al. Real time face recognition system (RTFRS)
CN112560710B (zh) 一种用于构建指静脉识别系统的方法及指静脉识别系统
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
CN115115969A (zh) 视频检测方法、装置、设备、存储介质和程序产品
Singh et al. Efficient face identification and authentication tool for biometric attendance system
Thompson et al. finFindR: Computer-assisted recognition and identification of bottlenose dolphin photos in r
Maddumala A Weight Based Feature Extraction Model on Multifaceted Multimedia Bigdata Using Convolutional Neural Network.
Su et al. Evaluation of rarity of fingerprints in forensics
CN112329698A (zh) 一种基于智慧黑板的人脸识别方法和系统
KR20200084816A (ko) 콜드 스타트를 해결하기 위한 신규 컨텐츠 분석 분석 방법, 장치 및 컴퓨터 프로그램
Akinyemi et al. An individualized face pairing model for age-invariant face recognition
Baruni et al. Age invariant face recognition methods: A review
Kandasamy Multimodal biometric crypto system for human authentication using ear and palm print
CN115497564A (zh) 一种鉴定抗原模型建立方法及鉴定抗原方法
Aljuboori et al. Finger knuckle pattern person identification system based on LDP-NPE and machine learning methods
Lin et al. Defaek: Domain effective fast adaptive network for face anti-spoofing
Goranin et al. Evolutionary Algorithms Application Analysis in Biometric Systems.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant