CN110348409A - 一种基于声纹生成人脸图像的方法和装置 - Google Patents
一种基于声纹生成人脸图像的方法和装置 Download PDFInfo
- Publication number
- CN110348409A CN110348409A CN201910641455.4A CN201910641455A CN110348409A CN 110348409 A CN110348409 A CN 110348409A CN 201910641455 A CN201910641455 A CN 201910641455A CN 110348409 A CN110348409 A CN 110348409A
- Authority
- CN
- China
- Prior art keywords
- vocal print
- face
- network model
- speaker
- print feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001815 facial effect Effects 0.000 title claims abstract description 165
- 230000001755 vocal effect Effects 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013507 mapping Methods 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims description 70
- 239000000284 extract Substances 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 61
- 238000012549 training Methods 0.000 claims description 45
- 238000003062 neural network model Methods 0.000 claims description 25
- 230000035045 associative learning Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000011840 criminal investigation Methods 0.000 abstract description 9
- 238000011835 investigation Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000013016 learning Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000001847 jaw Anatomy 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于声纹生成人脸图像的方法和装置,通过提取说话人的面部特征信息和音频的声纹特征信息,学习说话人面部特征信息和声纹特征信息之间的自然映射关系,根据待测说话人的语音数据推测待测说话人的面部特征,解码生成待测说话人的人脸图像,从而实现了根据说话人的语音线索生成人脸图像的效果,有利于帮助快速锁定可疑嫌疑人、缩小刑侦范围,为刑侦部门提供高效的线索排查手段。
Description
技术领域
本申请涉及生物识别技术领域,尤其涉及一种基于声纹生成人脸图像的方法和装置。
背景技术
随着生物识别技术作为新一代人工智能的重要领域,借助人体生理特征或行为特征进行身份识别成为重要的研究方向。
声纹,一般指语音中所蕴含的能够表征说话人的语音特性以及基于语音特征建立的语音模型,每个人在说话过程中所蕴含的语音特征、声道特征和发音习惯几乎是独一无二的。从发声生理特征上来说,声道起始于声带的开口即声门处而终止于嘴唇,包括延后和口腔,且声道的截面积取决于舌、唇、颌及软腭的位置,声音就是振动产生的,并在空气或其他介质中借助介质质点的振动传播。
近年来,电信诈骗、绑架、敲诈勒索等涉及语音案件数量呈快速上升的趋势,随着电信网络、互联网语音的飞速发展,可预见未来涉及语音的案件数量以及案件中的语音线索及证据将不断增加,因此,通过案件中的语音线索生成案件可疑嫌疑人的人脸图像,快速锁定可疑嫌疑人、缩小刑侦范围,为公安干警提供高效的线索排查手段,是本领域技术人员亟待解决的技术问题。
发明内容
本申请提供了一种基于声纹生成人脸图像的方法和装置,用于根据语音声纹信息生成对应的人脸图像,帮助快速锁定可疑嫌疑人、缩小刑侦范围,为刑侦部门提供高效的线索排查手段。
有鉴于此,本申请第一方面提供了一种基于声纹生成人脸图像的方法,包括以下步骤:
101、将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到所述测试说话人的面部特征;
102、将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征,调整所述声纹特征提取网络模型的模型参数,保留所述声纹特征与所述面部特征达到最佳映射时的所述声纹特征提取网络模型,同时保留所述最佳映射时所述声纹特征与所述面部特征的映射关系;
103、根据保留的所述声纹特征提取网络模型和所述映射关系构建表征人脸特征的音频-面部联想学习神经网络模型;
104、将获取到的待测说话人的音频输入所述音频-面部联想学习神经网络模型,得到所述待测说话人的面部特征,将所述待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成所述待测说话人的人脸图像。
优选地,步骤102具体包括:
1021、将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征;
1022、调整所述声纹特征提取网络模型的模型参数,使得第一预置Loss函数的函数值最小,所述第一预置Loss函数为F(vf-vs),其中,vf为面部特征,vs为声纹特征;
1023、保留所述第一预置Loss函数的函数值最小时对应的所述声纹特征提取网络模型,同时保留所述第一预置Loss函数的函数值最小时的所述声纹特征与所述面部特征的映射关系。
优选地,步骤101之后且步骤104之前还包括:
1014、根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对所述人脸解码网络模型进行训练。
优选地,步骤101之前还包括:
100、构建训练数据集,所述训练数据集包括测试说话人的语音样本和人脸图像样本。
优选地,所述人脸特征提取网络模型和/或所述音频-面部联想学习神经网络模型具体为CNN+全连层神经网络模型。
优选地,所述人脸特征提取网络模型为ResNet网络模型。
优选地,步骤100之后且步骤101之前,还包括:
1001、所述对人脸特征提取网络模型进行训练,根据第二预置Loss函数调整所述人脸特征提取网络模型的模型参数,所述第二预置Loss函数为:
Lface_encoder=F(fcnn(vf),target);
其中,fcnn为人脸特征提取网络在训练时的分类层的输入到输出的映射关系,target为标准输出。
优选地,步骤1014具体包括:
根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对人脸解码网络模型进行训练,根据第三预置Loss函数调整所述人脸解码网络模型的模型参数,所述第三预置Loss函数为:
Lface_decoder=F(fface_decoder(vf),target);
其中,Lface_decoder为人脸解码网络模型的输入到输出的映射关系。
本申请第二方面提供了一种基于声纹生成人脸图像的装置,包括以下模块:
面部特征提取模块,用于将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到所述测试说话人的面部特征;
声纹特征调整模块,用于将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征,调整所述声纹特征提取网络模型的模型参数,保留所述声纹特征与所述面部特征达到最佳映射时的所述声纹特征提取网络模型,同时保留所述最佳映射时所述声纹特征与所述面部特征的映射关系;
音频人脸模型构建模块,用于根据保留的所述声纹特征提取网络模型和所述映射关系构建表征人脸特征的音频-面部联想学习神经网络模型;
人脸图像生成模块,用于将获取到的待测说话人的音频输入所述音频-面部联想学习神经网络模型,得到所述待测说话人的面部特征,将所述待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成所述待测说话人的人脸图像。
优选地,还包括:
解码模型训练模块,用于根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对人脸解码网络模型进行训练;
数据集模块,用于构建训练数据集,所述训练数据集包括测试说话人的语音样本和人脸图像样本;
面部特征训练模块,用于对人脸特征提取网络模型进行训练,根据第二预置Loss函数调整所述人脸特征提取网络模型的模型参数,所述第二预置Loss函数为:
Lface_encoder=F(fcnn(vf),target);
其中,fcnn为人脸特征提取网络在训练时的分类层的输入到输出的映射关系,target为标准输出;
所述解码模型训练模块,具体用于根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对人脸解码网络模型进行训练,根据第三预置Loss函数调整所述人脸解码网络模型的模型参数,所述第三预置Loss函数为:
Lface_decoder=F(fface_decoder(vf),target);
其中,Lface_decoder为人脸解码网络模型的输入到输出的映射关系;
所述声纹特征调整模块具体包括:
第一子模块,用于将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征;
第二子模块,用于调整所述声纹特征提取网络模型的模型参数,使得第一预置Loss函数的函数值最小,所述第一预置Loss函数为F(vf-vs),其中,vf为面部特征,vs为声纹特征;
第三子模块,用于保留所述第一预置Loss函数的函数值最小时对应的所述声纹特征提取网络模型,同时保留所述第一预置Loss函数的函数值最小时的所述声纹特征与所述面部特征的映射关系。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种基于声纹生成人脸图像的方法,包括以下步骤:101、将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到测试说话人的面部特征;102、将获取到的测试说话人的语音样本输入声纹特征提取网络模型,得到测试说话人的声纹特征,调整声纹特征提取网络模型的模型参数,保留声纹特征与面部特征达到最佳映射时的声纹特征提取网络模型,同时保留最佳映射时声纹特征与面部特征的映射关系;103、根据保留的声纹特征提取网络模型和映射关系构建表征人脸特征的音频-面部联想学习神经网络模型;104、将获取到的待测说话人的音频输入音频-面部联想学习神经网络模型,得到待测说话人的面部特征,将待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成待测说话人的人脸图像。
本申请中提供的基于声纹生成人脸图像的方法,通过提取说话人的面部特征信息和音频的声纹特征信息,学习说话人面部特征信息和声纹特征信息之间的自然映射关系,根据待测说话人的语音数据推测待测说话人的面部特征,解码生成待测说话人的人脸图像,从而实现了根据说话人的语音线索生成人脸图像的效果,有利于帮助快速锁定可疑嫌疑人、缩小刑侦范围,为刑侦部门提供高效的线索排查手段。
附图说明
图1为本申请提供的一种基于声纹生成人脸图像的方法的一个实施例的流程示意图;
图2为本申请提供的一种基于声纹生成人脸图像的方法的另一个实施例的流程示意图;
图3为本申请提供的一种基于声纹生成人脸图像的装置的一个实施例的结构示意图;
图4为本申请实施例中提供的声纹生成人脸图像模型训练过程的示意图;
图5为本申请实施例中提供的CNN分类模型网络结构示意图;
图6为本申请实施例中提供的声纹生成人脸图像过程的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种基于声纹生成人脸图像的方法的一个实施例,包括:
步骤101、将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到测试说话人的面部特征。
需要说明的是,人脸由眼睛、鼻子、嘴、下巴等局部构成,对这些局部和它们之间结构关系的几何描述,可作为识别人脸的重要特征。本申请实施例中,首先获取到一定数量的测试说话人的人脸图像样本,对人脸图像样本进行面部特征提取,得到对应测试说话人的面部特征。
步骤102、将获取到的测试说话人的语音样本输入声纹特征提取网络模型,得到测试说话人的声纹特征,调整声纹特征提取网络模型的模型参数,保留声纹特征与面部特征达到最佳映射时的声纹特征提取网络模型,同时保留最佳映射时声纹特征与面部特征的映射关系。
每个人在说话过程中所蕴含的语音特征、声道特征和发音习惯几乎是独一无二的,可以根据声纹特征来对说话人进行识别。语音中蕴含着能够标注说话人生理结构的特征参数,为通过说话人的语音刻画出说话人的人脸图像奠定了理论基础。本申请实施例中,获取与步骤101中的人脸图像样本对应的测试说话人的语音样本,对语音样本进行声纹特征提取,得到测试说话人的声纹特征。
在对声纹特征提取网络模型进行训练时,首先将人脸特征提取网络模型的模型参数固定,向人脸特征提取网络模型中输入说话人的人脸图像样本,向声纹特征提取网络模型中输入与人脸图像样本对应的说话人的语音样本,不断更新声纹特征提取网络模型的模型参数,使得声纹特征提取网络模型的输出最大限度贴近人脸特征提取网络模型的输出,保存此时两个模型的输出映射关系,从而使得声纹特征提取网络模型具备音频-面部联想的能力。
步骤103、根据保留的声纹特征提取网络模型和映射关系构建表征人脸特征的音频-面部联想学习神经网络模型。
神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,能够依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,具有学习训练能力、自适应能力和自组织能力。本申请实施例中,通过音频-面部联想学习神经网络模型实现输入音频输出面部特征的作用,根据声纹特征提取网络模型和声纹特征与面部特征的映射关系,可以构建出输入为语音数据输出为面部特征的音频-面部联想学习神经网络模型。
步骤104、将获取到的待测说话人的音频输入音频-面部联想学习神经网络模型,得到待测说话人的面部特征,将待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成待测说话人的人脸图像。
需要说明的是,在得到音频-面部联想学习神经网络模型之后,当需要对说话人进行根据语音数据线索刻画人脸时,获取待测说话人的音频信息,将待测说话人的音频信息输入音频-面部联想学习神经网络模型,音频-面部联想学习神经网络模型根据声纹与面部特征之间的映射关系,输出与说话人对应的面部特征,得到说话人的面部特征之后,对面部特征进行解码,生成说话人的人脸图像。本申请实施例中通过声纹生成人脸图像模型训练的过程如图4所示
本申请实施例中提供的基于声纹生成人脸图像的方法,通过提取说话人的面部特征信息和音频的声纹特征信息,学习说话人面部特征信息和声纹特征信息之间的自然映射关系,根据待测说话人的语音数据推测待测说话人的面部特征,解码生成待测说话人的人脸图像,从而实现了根据说话人的语音线索生成人脸图像的效果,有利于帮助快速锁定可疑嫌疑人、缩小刑侦范围,为刑侦部门提供高效的线索排查手段。
为了便于理解,请参阅图2,本申请中还提供了一种基于声纹生成人脸图像的方法第另一个实施例,包括:
步骤201、构建训练数据集,训练数据集包括说话人的音频样本和人脸图像样本。
需要说明的是,可以从互联网网站收集视频,处理后作为模型训练集,或者自建训练数据集,数据集需含有说话人的语音音频数据和音频对应的说话人人脸照片,为了人脸网络模型的准确性,需人工标注数据进行训练。
步骤202、对人脸特征提取网络模型进行训练,根据第二预置Loss函数调整人脸特征提取网络模型的模型参数,第二预置Loss函数为:
Lface_encoder=F(fcnn(vf),target);
其中,fcnn为人脸特征提取网络在训练时的分类层的输入到输出的映射关系,target为标准输出。
步骤203、将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到测试说话人的面部特征。
需要说明的是,本申请实施例中通过训练人脸特征提取网络模型,深度挖掘人脸特征,将说话人的面容信息切换至低维特征信息。人脸特征提取网络模型可以通过训练CNN(Convolutional Neural Networks,卷积神经网络)分类模型来得到,其网络结构图如图5所示,图5中的网络结构主要分为三个部分:卷积神经网络层(Convolution Layer),全连接层(Fully Connected Layer)和分类层(Classification Layer)。卷积神经网络层的功能主要是提取人脸图像中的全局特征,全连接层的功能是将卷积神经网络层产生的特征图像压缩为一个一维特征向量(长度为4096),分类层的功能是对前面从图像中提取出的向量进行分类,在训练的过程中要求分类结果尽可能的准确。在整个网络结构中,使用CNN+全连接层部分作为人脸的特征提取网络。
作为改进,为了能更好的提取图像的全局特征,可使用ResNet网络来进行图像特征提取,在ResNet网络的基本单元结构中先输入的图像通过三层卷积层得到输出,同时输入会直接累加到输出,以ResNet50为例在网络当中会有16个这样的基本单元。
步骤204、将获取到的测试说话人的语音样本输入声纹特征提取网络模型,得到测试说话人的声纹特征。
步骤205、调整声纹特征提取网络模型的模型参数,使得第一预置Loss函数的函数值最小,第一预置Loss函数为F(vf-vs),其中,vf为面部特征,vs为声纹特征。
步骤206、保留第一预置Loss函数的函数值最小时对应的声纹特征提取网络模型,同时保留第一预置Loss函数的函数值最小时的声纹特征与面部特征的映射关系。
需要说明的是,本申请实施例中,在音频刻画人物画像神经网络模型训练时,针对不同的使用场景选择合适的Loss函数模型,利用大量的训练数据修正Loss函数,实现说话人人物画像准确还原。为了更好地定义Loss函数,本申请实施例对以下几个映射关系及变量进行定义:
1)规定人像解码网络的第一层输入到输出的映射为fdec;
2)规定人脸特征提取网络在训练时的分类层的输入到输出的映射关系为fcnn;
3)规定声纹特征提取网络的输出特征向量为vs;
4)规定人脸特征提取网络的输出特征向量为vf;
5)规定人脸解码网络的输入到输出映射关系为fface_decoder;
在训练人脸特征提取网络时,损失函数Lface_encoder=F(fnn(vf),target),其中target为标准输出,损失函数fface_encoder可根据模型和应用场景自定义。
在训练人脸解码网络时,损失函数fface_decoder=F(fface_decoder(vf),target),其中target为人脸解码网络的标准输出,损失函数fface_decoder可根据模型和应用场景自定义。
在训练完人脸特征提取网络和人脸解码网络后固定这两个网络的参数训练声纹特征提取网络,训练声纹特征提取网络时损失函数L=F1(fdec(vf),fdec(vs))+λ1F2(fcnn(vf),fcnn(vs))+λ2F3(vf,vs),损失函数L可根据模型和应用场景自定义,λ1和λ2为两个超参数。
模型训练时,还可以在海量数据的基础上,捕捉与年龄、性别等特征相关的视觉特点,提取说话人的共性特征,建立说话人人物画像的普遍模型,并在此基础上,提取说话人的个体特征,对人物画像进行调整和完善。
步骤207、根据保留的声纹特征提取网络模型和映射关系构建表征人脸特征的音频-面部联想学习神经网络模型。
需要说明的是,本申请实施例中的步骤208与上一实施例中的步骤103一致,在此不再进行赘述。
步骤208、根据测试说话人的面部特征和测试说话人的人脸图像,对人脸解码网络模型进行训练,根据第三预置Loss函数调整人脸解码网络模型的模型参数,第三预置Loss函数为:
Lface_decoder=F(fface_decoder(vf),target);
其中,Lface_decoder为人脸解码网络模型的输入到输出的映射关系。
步骤209、将获取到的待测说话人的音频输入音频-面部联想学习神经网络模型,得到待测说话人的面部特征,将待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成待测说话人的人脸图像。
本申请实施例中的根据音频线索生成人脸图像模型的测试过程如图6所示,图6中,输入为说话人语音(Speak Voice),对说话人语音进行编码(Voice Encoder),通过人脸解码网络模型进行面部特征解码(FaceDecoder),重建待测说话人的人脸图像(Reconstruction Face)。本申请实施例中通过音频刻画说话人的人脸图像,主要是利用声音与面部特征的自然映射关系,基于深度学习的方法,在大规模音视频数据的基础上,采用神经网络学习训练,实现从声纹特征到人脸图像基本模式的直接映射,不仅回避了语音识别鲁棒性不高的缺陷,同时学习的结果还可以直接地重建说话人人物图像。
为了便于理解,请参阅图3,本申请还提供了一种基于声纹生成人脸图像的装置的实施例,包括:
面部特征提取模块301,用于将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到测试说话人的面部特征。
声纹特征调整模块302,用于将获取到的测试说话人的语音样本输入声纹特征提取网络模型,得到测试说话人的声纹特征,调整声纹特征提取网络模型的模型参数,保留声纹特征与面部特征达到最佳映射时的声纹特征提取网络模型,同时保留最佳映射时声纹特征与面部特征的映射关系。
音频人脸模型构建模块303,用于根据保留的声纹特征提取网络模型和映射关系构建表征人脸特征的音频-面部联想学习神经网络模型。
人脸图像生成模块304,用于将获取到的待测说话人的音频输入音频-面部联想学习神经网络模型,得到待测说话人的面部特征,将待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成待测说话人的人脸图像。
进一步的,本申请实施例中的基于声纹生成人脸图像的装置还包括:
解码模型训练模块305,用于根据测试说话人的面部特征和测试说话人的人脸图像,对人脸解码网络模型进行训练。
数据集模块300,用于构建训练数据集,训练数据集包括测试说话人的语音样本和人脸图像样本。
面部特征训练模块306,用于对人脸特征提取网络模型进行训练,根据第二预置Loss函数调整人脸特征提取网络模型的模型参数,第二预置Loss函数为:
Lface_encoder=F(fcnn(vf),target);
其中,fcnn为人脸特征提取网络在训练时的分类层的输入到输出的映射关系,target为标准输出。
解码模型训练模块305,具体用于根据测试说话人的面部特征和测试说话人的人脸图像,对人脸解码网络模型进行训练,根据第三预置Loss函数调整人脸解码网络模型的模型参数,第三预置Loss函数为:
Lface_decoder=F(fface_decoder(vf),target);
其中,fface_decoder为人脸解码网络模型的输入到输出的映射关系。
声纹特征调整模块302具体包括:
第一子模块3021,用于将获取到的测试说话人的语音样本输入声纹特征提取网络模型,得到测试说话人的声纹特征。
第二子模块3022,用于调整声纹特征提取网络模型的模型参数,使得第一预置Loss函数的函数值最小,第一预置Loss函数为F(vf-vs),其中,vf为面部特征,vs为声纹特征。
第三子模块3023,用于保留第一预置Loss函数的函数值最小时对应的声纹特征提取网络模型,同时保留第一预置Loss函数的函数值最小时的声纹特征与面部特征的映射关系。
本申请中还提供了一种基于声纹生成人脸图像的设备,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述的基于声纹生成人脸图像的方法实施例中的基于声纹生成人脸图像的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于声纹生成人脸图像的方法,其特征在于,包括以下步骤:
101、将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到所述测试说话人的面部特征;
102、将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征,调整所述声纹特征提取网络模型的模型参数,保留所述声纹特征与所述面部特征达到最佳映射时的所述声纹特征提取网络模型,同时保留所述最佳映射时所述声纹特征与所述面部特征的映射关系;
103、根据保留的所述声纹特征提取网络模型和所述映射关系构建表征人脸特征的音频-面部联想学习神经网络模型;
104、将获取到的待测说话人的音频输入所述音频-面部联想学习神经网络模型,得到所述待测说话人的面部特征,将所述待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成所述待测说话人的人脸图像。
2.根据权利要求1所述的基于声纹生成人脸图像的方法,其特征在于,步骤102具体包括:
1021、将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征;
1022、调整所述声纹特征提取网络模型的模型参数,使得第一预置Loss函数的函数值最小,所述第一预置Loss函数为F(vf-vs),其中,vf为面部特征,vs为声纹特征;
1023、保留所述第一预置Loss函数的函数值最小时对应的所述声纹特征提取网络模型,同时保留所述第一预置Loss函数的函数值最小时的所述声纹特征与所述面部特征的映射关系。
3.根据权利要求2所述的基于声纹生成人脸图像的方法,其特征在于,步骤101之后且步骤104之前还包括:
1014、根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对所述人脸解码网络模型进行训练。
4.根据权利要求1所述的基于声纹生成人脸图像的方法,其特征在于,步骤101之前还包括:
100、构建训练数据集,所述训练数据集包括测试说话人的语音样本和人脸图像样本。
5.根据权利要求4所述的基于声纹生成人脸图像的方法,其特征在于,所述人脸特征提取网络模型和/或所述音频-面部联想学习神经网络模型具体为CNN+全连层神经网络模型。
6.根据权利要求1所述的基于声纹生成人脸图像的方法,其特征在于,所述人脸特征提取网络模型为ResNet网络模型。
7.根据权利要求5所述的基于声纹生成人脸图像的方法,其特征在于,步骤100之后且步骤101之前,还包括:
1001、对所述人脸特征提取网络模型进行训练,根据第二预置Loss函数调整所述人脸特征提取网络模型的模型参数,所述第二预置Loss函数为:
Lface_encoder=F(fcnn(vf),target);
其中,fcnn为人脸特征提取网络在训练时的分类层的输入到输出的映射关系,target为标准输出。
8.根据权利要求3所述的基于声纹生成人脸图像的方法,其特征在于,步骤1014具体包括:
根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对人脸解码网络模型进行训练,根据第三预置Loss函数调整所述人脸解码网络模型的模型参数,所述第三预置Loss函数为:
Lface_decoder=F(fface_decoder(vf),target);
其中,Lface_decoder为人脸解码网络模型的输入到输出的映射关系。
9.一种基于声纹生成人脸图像的装置,其特征在于,包括以下步骤:
面部特征提取模块,用于将获取到的测试说话人的人脸图像样本输入训练好的人脸特征提取网络模型,得到所述测试说话人的面部特征;
声纹特征调整模块,用于将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征,调整所述声纹特征提取网络模型的模型参数,保留所述声纹特征与所述面部特征达到最佳映射时的所述声纹特征提取网络模型,同时保留所述最佳映射时所述声纹特征与所述面部特征的映射关系;
音频人脸模型构建模块,用于根据保留的所述声纹特征提取网络模型和所述映射关系构建表征人脸特征的音频-面部联想学习神经网络模型;
人脸图像生成模块,用于将获取到的待测说话人的音频输入所述音频-面部联想学习神经网络模型,得到所述待测说话人的面部特征,将所述待测说话人的面部特征输入训练好的人脸解码网络模型进行面部特征解码,生成所述待测说话人的人脸图像。
10.根据权利要求9所述的基于声纹生成人脸图像的装置,其特征在于,还包括:
解码模型训练模块,用于根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对人脸解码网络模型进行训练;
数据集模块,用于构建训练数据集,所述训练数据集包括测试说话人的语音样本和人脸图像样本;
面部特征训练模块,用于对人脸特征提取网络模型进行训练,根据第二预置Loss函数调整所述人脸特征提取网络模型的模型参数,所述第二预置Loss函数为:
Lface_encoder=F(fcnn(vf),target);
其中,fcnn为人脸特征提取网络在训练时的分类层的输入到输出的映射关系,target为标准输出;
所述解码模型训练模块,具体用于根据所述测试说话人的面部特征和所述测试说话人的人脸图像,对人脸解码网络模型进行训练,根据第三预置Loss函数调整所述人脸解码网络模型的模型参数,所述第三预置Loss函数为:
Lface_decoder=F(fface_decoder(vf),target);
其中,Lface_decoder为人脸解码网络模型的输入到输出的映射关系;
所述声纹特征调整模块具体包括:
第一子模块,用于将获取到的所述测试说话人的语音样本输入声纹特征提取网络模型,得到所述测试说话人的声纹特征;
第二子模块,用于调整所述声纹特征提取网络模型的模型参数,使得第一预置Loss函数的函数值最小,所述第一预置Loss函数为F(vf-vs),其中,Vf为面部特征,Vs为声纹特征;
第三子模块,用于保留所述第一预置Loss函数的函数值最小时对应的所述声纹特征提取网络模型,同时保留所述第一预置Loss函数的函数值最小时的所述声纹特征与所述面部特征的映射关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910641455.4A CN110348409A (zh) | 2019-07-16 | 2019-07-16 | 一种基于声纹生成人脸图像的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910641455.4A CN110348409A (zh) | 2019-07-16 | 2019-07-16 | 一种基于声纹生成人脸图像的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110348409A true CN110348409A (zh) | 2019-10-18 |
Family
ID=68176531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910641455.4A Pending CN110348409A (zh) | 2019-07-16 | 2019-07-16 | 一种基于声纹生成人脸图像的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348409A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706713A (zh) * | 2019-10-28 | 2020-01-17 | 维沃移动通信有限公司 | 一种人脸图像生成方法及电子设备 |
CN111078932A (zh) * | 2019-12-18 | 2020-04-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种根据人声匹配相似人脸的方法 |
CN111860350A (zh) * | 2020-07-23 | 2020-10-30 | 深圳小辣椒科技有限责任公司 | 一种综合人脸识别和语音识别的防诈骗装置及方法 |
CN112381040A (zh) * | 2020-11-27 | 2021-02-19 | 天津大学 | 一种基于语音和人脸图像的跨膜态生成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9547819B1 (en) * | 2015-11-23 | 2017-01-17 | International Business Machines Corporation | Phase-change material time-delay element for neuromorphic networks |
CN108460334A (zh) * | 2018-01-23 | 2018-08-28 | 北京易智能科技有限公司 | 一种基于声纹和人脸图像特征融合的年龄预测系统及方法 |
-
2019
- 2019-07-16 CN CN201910641455.4A patent/CN110348409A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9547819B1 (en) * | 2015-11-23 | 2017-01-17 | International Business Machines Corporation | Phase-change material time-delay element for neuromorphic networks |
CN108460334A (zh) * | 2018-01-23 | 2018-08-28 | 北京易智能科技有限公司 | 一种基于声纹和人脸图像特征融合的年龄预测系统及方法 |
Non-Patent Citations (2)
Title |
---|
TAE-HYUN OH等: "Speech2Face: Learning the Face Behind a Voice", 《CONFERENCE ON COMPUTER VISION & PATTERN RECOGNITION. IEEE, 2019》 * |
刘扬 等: "高分辨率遥感影像目标分类与识别研究进展", 《地球信息科学学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706713A (zh) * | 2019-10-28 | 2020-01-17 | 维沃移动通信有限公司 | 一种人脸图像生成方法及电子设备 |
CN111078932A (zh) * | 2019-12-18 | 2020-04-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种根据人声匹配相似人脸的方法 |
CN111860350A (zh) * | 2020-07-23 | 2020-10-30 | 深圳小辣椒科技有限责任公司 | 一种综合人脸识别和语音识别的防诈骗装置及方法 |
CN112381040A (zh) * | 2020-11-27 | 2021-02-19 | 天津大学 | 一种基于语音和人脸图像的跨膜态生成方法 |
CN112381040B (zh) * | 2020-11-27 | 2022-09-27 | 天津大学 | 一种基于语音和人脸图像的跨模态生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching | |
CN110348409A (zh) | 一种基于声纹生成人脸图像的方法和装置 | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN106056207B (zh) | 一种基于自然语言的机器人深度交互与推理方法与装置 | |
CN105206258B (zh) | 声学模型的生成方法和装置及语音合成方法和装置 | |
CN106575500B (zh) | 基于面部结构合成话音的方法和装置 | |
CN108922518A (zh) | 语音数据扩增方法和系统 | |
CN113516990B (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
CN109523616A (zh) | 一种面部动画生成方法、装置、设备及可读存储介质 | |
CN103996155A (zh) | 智能交互及心理慰藉机器人服务系统 | |
JP2003255993A (ja) | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム | |
Jaumard-Hakoun et al. | An articulatory-based singing voice synthesis using tongue and lips imaging | |
CN107039036A (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN108256513A (zh) | 一种智能视频分析方法及智能视频记录系统 | |
CN108198265A (zh) | 基于语音和人脸复合识别的考勤系统 | |
KR102319753B1 (ko) | 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치 | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
CN108665901A (zh) | 一种音素/音节提取方法及装置 | |
CN110956949B (zh) | 一种口含式缄默通信方法与系统 | |
CN115985310A (zh) | 一种基于多级视听融合的构音障碍语音识别方法 | |
Pillai et al. | A deep learning based evaluation of articulation disorder and learning assistive system for autistic children | |
Lewis et al. | Audio-visual speech recognition using red exclusion and neural networks | |
Verma et al. | Animating expressive faces across languages | |
Gao | Audio deepfake detection based on differences in human and machine generated speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |
|
RJ01 | Rejection of invention patent application after publication |