CN111507218A

CN111507218A - 语音与人脸图像的匹配方法、装置、存储介质及电子设备

Info

Publication number: CN111507218A
Application number: CN202010269227.1A
Authority: CN
Inventors: 刘桃; 张德园; 杜小勇; 熊楚原
Original assignee: Renmin University of China; Shenyang Aerospace University
Current assignee: Renmin University of China; Shenyang Aerospace University
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-08-07

Abstract

本发明公开了一种语音与人脸图像的匹配方法、装置、存储介质及电子设备，方法包括：获取待匹配的语音和多个人脸图像；根据跨模态特征提取网络，对所述语音以及多个所述人脸图像进行特征提取，获得语音特征向量以及多个人脸特征向量；计算所述语音特征向量与多个所述人脸特征向量之间的距离；将距离最小的人脸特征向量对应的人脸图像作为与所述语音的匹配结果。本发明提供的语音与人脸图像的匹配方法、装置、存储介质及电子设备，可以实现跨模态的检索匹配。

Description

语音与人脸图像的匹配方法、装置、存储介质及电子设备

技术领域

本发明是关于跨模态的匹配方法，特别是关于一种语音与人脸图像的匹配方法、装置、存储介质及电子设备。

背景技术

现有的人脸识别技术和声纹识别技术均可被应用于各个领域的身份认证和验证的问题，如金融、公安司法、安全保卫等领域。基于人脸识别的身份验证要求系统数据库中已经存有目标对象的人脸，且在应用中可以获取到目标对象的人脸。基于声纹识别的身份验证要求系统数据库中已经存有目标对象的声纹，且在应用中可以获取到目标对象的声纹。也就是不论是人脸识别还是声纹识别，都要求待验证的内容和系统已有的内容是相同模态的，即同为人脸或同为声音。

而一些特定应用场景中，系统库中存储的和应用现场获取的内容并不是相同模态的。特定应用情景下，仅能得到未在说话人识别中注册过的音频，希望能够得到其人脸的相关信息，例如警方探案时有时只能得到嫌疑人音频，和多个嫌疑人的人脸或者公民的人脸数据库时，如何进行匹配和检索，这是一个较为空缺的领域，没有相关的较高精度的实现。

基于此，本申请的发明人发现，虽然单独的人脸识别和说话人识别都达到了很高的精度，但没有技术中并不存在通过说话人声音匹配和检索人脸的方法。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种语音与人脸图像的匹配方法、装置、存储介质及电子设备，其能够实现跨模态的检索。

为实现上述目的，本发明提供了一种语音与人脸图像的匹配方法，包括：获取待匹配的语音和多个人脸图像；根据跨模态特征提取网络，对所述语音以及多个所述人脸图像进行特征提取，获得语音特征向量以及多个人脸特征向量；计算所述语音特征向量与多个所述人脸特征向量之间的距离；将距离最小的人脸特征向量对应的人脸作为与所述语音的匹配结果。

在一优选的实施方式中，所述跨模态特征提取网络通过以下方式获得：构建基于深度神经网络的说话人识别预训练模型以及基于深度神经网络的人脸识别预训练模型，并准备音频、人脸数据集；获取说话人识别预训练模型去除最后一层分类层的剩余网络，并附加零个或若干个全连接层来构成跨模态特征提取网络的第一路网络；获取人脸识别预训练模型去除最后一层分类层的剩余网络，并附加若干个全连接层来构成跨模态特征提取网络的第二路网络；复制所述第二路网络构成跨模态特征提取网络的第三路网络；设置网络初始参数，所有从所述说话人识别预训练模型或从所述人脸识别预训练模型迁移过来的网络层，均采用所述预训练模型的参数，所有新增的所述附加全连接层，均对其参数进行随机初始化；对音频、人脸数据集进行采样，生成所述三路神经网络的输入三元组，将所述三元组输入三路神经网络，根据三元组损失函数计算损失，并利用误差反向传播算法对各层的参数进行更新。

在一优选的实施方式中，所述跨模态特征提取网络的输入三元组和三元组损失函数包括:所述三元组<vⁱ,fⁱ,f^j>包括语音输入vⁱ，第一人脸输入fⁱ以及第二人脸输入f^j，所述第一人脸输入fⁱ为与语音输入vⁱ匹配的人脸，即该人脸图像对应的人说了该段语音，所述第二人脸输入f^j为与语音输入vⁱ不匹配的人脸，即该人脸图像对应的人不是说了该段语音的人；

所述三元组损失函数为：

其中，v_emb表示语音特征向量，f_emb表示人脸特征向量，d(x,y)表示距离度量函数，m是距离阈值。

本发明还提供了一种语音与人脸图像的匹配方法，包括：获取待匹配的人脸图像和多个语音；根据跨模态特征提取网络，对所述人脸图像以及多个所述语音进行特征提取，获得人脸特征向量以及多个语音特征向量；计算所述人脸特征向量与多个所述语音特征向量之间的距离；将距离最小的语音特征向量对应的语音作为与所述人脸的匹配结果。

本发明还提供了一种语音与人脸图像的匹配装置，包括：获取模块，用于获取待匹配的语音和多个人脸图像；特征向量提取模块，用于根据跨模态特征提取网络，对所述语音以及多个所述人脸图像进行特征提取，获得语音特征向量以及多个人脸特征向量；距离计算模块，用于计算所述语音特征向量与多个所述人脸特征向量之间的距离；匹配模块，用于将距离最小的人脸特征向量对应的人脸图像作为与所述语音的匹配结果。

本发明还提供了一种语音与人脸图像的匹配装置，包括：获取模块，用于获取待匹配的人脸图像和多个语音；特征向量提取模块，用于根据跨模态特征提取网络，对所述人脸图像以及多个所述语音进行特征提取，获得人脸特征向量以及多个语音特征向量；距离计算模块，用于计算所述人脸特征向量与多个所述语音特征向量之间的距离；匹配模块，用于将距离最小的语音特征向量对应的语音作为与所述人脸图像的匹配结果。

本发明还提供一种存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行上述的语音与人脸图像的匹配方法。

本发明还提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的语音与人脸图像的匹配方法。

与现有技术相比，根据本发明的语音与人脸图像的匹配方法、装置、存储介质，通过跨模态语义表示网络，对所述语音以及多个人脸图像进行特征提取，以及计算语音特征向量与多个所述人脸特征向量之间的距离，可以获取待匹配的语音最匹配的人脸图像，实现跨模态的检索匹配。

附图说明

图1是根据本发明一实施方式的语音与人脸图像的匹配方法的流程图。

图2是根据本发明一实施方式的步骤102的流程图。

图3是根据本发明一实施方式的跨模态特征提取网络的结构搭建示意图。

图4是根据本发明一实施方式的跨模态特征提取网络示意图。

图5是根据本发明另一实施方式的语音与人脸图像的匹配方法的流程图。

图6是根据本发明一实施方式的语音与人脸图像的匹配装置的结构示意图。

图7是根据本发明实施例所提供的用于执行语音与人脸图像的匹配方法的电子设备的结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

如图1所示，其为根据本发明优选实施方式的一种语音与人脸图像的匹配方法的流程图，包括步骤101-步骤104。

在步骤101中，获取待匹配的语音和多张人脸图像。

其中，待匹配的语音以及人脸图像可以是预先存储的文件，也可以是实时获取的文件。

在步骤102中，根据跨模态特征提取网络，对所述语音以及多个所述人脸图像进行特征提取，获得语音特征向量以及多个人脸特征向量。

在步骤103中，计算所述语音特征向量与多个所述人脸特征向量之间的距离。

在步骤104中，将距离最小的人脸特征向量对应的人脸作为与语音的匹配结果。

由此，通过跨模态特征提取网络，对所述语音以及多个所述人脸图像进行特征提取，以及计算语音特征向量与多个所述人脸特征向量之间的距离，可以获取待匹配的语音最匹配的人脸图像，实现跨模态的检索匹配。

在一种实现方式中，如图2所示，步骤102中的跨模态特征提取网络通过以下方式获得，包括步骤1021-步骤1026。

在步骤1021中，构建基于深度神经网络的说话人识别预训练模型以及基于深度神经网络的人脸识别预训练模型，并准备音频、人脸数据集；

在步骤1022中，获取说话人识别预训练模型去除最后一层分类层的剩余网络，并附加零个或若干个全连接层来构成跨模态特征提取网络的第一路网络；

在步骤1023中，获取人脸识别预训练模型去除最后一层分类层的剩余网络，并附加若干个全连接层来构成跨模态特征提取网络的第二路网络；

在步骤1024中，复制所述第二路网络构成跨模态特征提取网络的第三路网络；

在步骤1025中，设置网络初始参数，所有从所述说话人识别预训练模型或从所述人脸识别预训练模型迁移过来的网络层，均采用所述预训练模型的参数，所有新增的所述附加全连接层，均对其参数进行随机初始化；

在步骤1026中，对音频、人脸数据集进行采样，生成所述三路神经网络的输入三元组，将所述三元组输入三路神经网络，根据三元组损失函数计算损失，并利用误差反向传播算法对各层的参数进行更新。

在一种实现方式中，通过以下实施例对1021-1026中的利用一条音频、两张人脸来训练声音-人脸的跨模态特征提取方案进行详细说明。

本实施例基于说话人识别预训练模型和人脸识别预训练模型，构造三路的深度神经网络，通过三元组损失函数和误差反向传播算法进行优化，将来自同一个人的音频和人脸映射到同一语义区域后，进行度量学习，并实现根据声音匹配或检索人脸。

步骤1021中构建或下载基于深度神经网络的说话人识别预训练模型可以通过以下方式实现。优选当前效果最好的说话人识别模型，比如在2019年SE-ResNet50,ThinResNet34,VGG-VOX,VGG这些模型是当前效果最好的，随着技术的进一步发展,可以使用新推出的性能更好的模型。可以下载互联网上已公开的所述预训练模型，也可自行搭建，并基于大规模说话人识别语料库进行预训练。

步骤1021中构建或下载基于深度神经网络的人脸识别预训练模型可以通过以下方式实现。优选当前效果最好的人脸识别模型，比如在2019年ResNet101，ResNet50这些模型是当前效果最好的，随着技术的进一步发展,可以使用新推出的性能更好的模型。可以下载互联网上已公开的所述预训练模型，也可自行搭建，并基于大规模人脸识别语料库进行预训练。

步骤1021中准备语音-人脸数据集可以通过以下方式实现。音频-人脸数据集里的音频和人脸要求是来自同一个集合的人的音频和人脸。可以自行按照此要求构建，或者利用互联网已公开的音频-人脸数据集。并将数据集划分为训练集和验证集两部分。

步骤1022-1024可以通过以下方式实现，如图3所示，其为跨模态特征提取网络的结构搭建示意图。第一路网络是提取基于深度神经网络的说话人识别预训练模型的主体网络结构，并附加零个或若干个全连接层来构成，所述主体网络结构即说话人识别网络去除最后一层分类层的剩余网络；第二路网络是提取基于深度神经网络的人脸识别模型的主体网络结构并附加若干个全连接层来构成，所述主体网络结构即人脸识别网络去除最后一层分类层的剩余网络；第三路网络和第二路网络完全一样。即也是提取基于深度神经网络的人脸识别预训练模型的主体网络结构，并附加若干个全连接层来构成。由于人脸识别模型和说话人识别模型单独训练时得到的人脸特征空间和声音特征空间是独立的。因此增加全连接层的目的是让人脸的特征空间向声音的特征空间对齐，将人脸的语义空间映射到声音的语义空间中。两个人脸特征提取网络是相同且共享参数的。

步骤1025-1026可以包括：

设置网络初始化参数：所有从所述说话人识别预训练模型或从所述人脸识别预训练模型迁移过来的网络层，均采用所述预训练模型的参数。所有新增的所述附加全连接层，均对其参数进行随机初始化。

数据采样方式设定：设定数据采样方式可以通过以下方式实现。对音频-人脸数据集进行采样，生成跨模态特征提取网络的输入三元组。跨模态特征提取网络的所述输入三元组包括<vⁱ,fⁱ,f^j>，其中，vⁱ表示语音输入，fⁱ表示第一人脸输入，f^j表示第二人脸输入，即一个音频vⁱ，一张来自于输入音频的说话人的人脸照片fⁱ，另一张来自非输入音频说话人的人脸照片f^j。推荐选用以人为单位的离线挖掘采样方式。例如：从训练集中每次随机选取n个人，每个人取m份音频和2*m张人脸图像，该批人可形成n*m*(2*m)*(n-1)*(2*m)＝n*(n-1)*m3*4个三元组。

损失函数设定：设定所述损失函数为三元组损失函数(triplet loss)。若用v_emb表示声音特征向量，用f_emb表示人脸特征向量，用d(x,y)表示距离度量函数如欧式距离。所述三元组损失函数loss包括：

其中，v_emb表示语音特征向量，f_emb表示人脸特征向量，d(x,y)表示距离度量函数如欧式距离，m是距离阈值，用来控制正例人脸和反例人脸拉开距离大小。构建三元组损失函数的目的是拉近来自相同人的人脸和音频的距离，拉远来自不同人的人脸和音频的距离。如图4所示，其为跨模态特征提取网络示意图。

网络参数更新：第一阶段冻结所有来自预训练模型的参数，仅更新在预训练模型上新增的全连接层的参数。当训练数据集规模不是很大时，第二阶段参数更新优选更新人脸网络全部参数。即仅冻结声音网络参数，仅更新人脸网络参数。否则，当训练数据集规模很大时，可直接更新整个网络全部参数。直至训练过程收敛。

具体的，利用误差反向传播算法对各层的参数以及连接权重进行更新包括：

若当前阶段为第一阶段，则当前阶段待更新网络层集合D为全连接层的数量。

若当前阶段为第二阶段，且训练数据规模小于预设值，则当前阶段待更新网络层集合D为第二模型的剩余网络结构的总层数。若当前阶段为第二阶段，且训练数据规模大于等于预设值，当前阶段待更新网络层集合D为跨模态特征提取网络的网络架构的总层数。

在训练之前，需要对网络参数进行初始化。具体包括：声音特征提取网络的预训练部分直接保留说话人识别网络训练后得到的参数。人脸特征提取网络的预训练部分直接保留人脸识别网络训练后得到的参数。对人脸特征提取网络追加的全连接层的参数进行随机初始化。如果声音特征提取网络也追加了全连接层，那么将其参数也进行随机初始化。

在获取当前阶段待更新网络层集合D之后，获取当前批次的样本集合。其中，所述样本集合包括多个待学习样本，每个待学习的样本为一个三元组；在当前批次的样本集合中取出一个待学习样本，输入至跨模态特征提取网络的网络架构中，依次计算跨模态特征提取网络的网络架构中各层的神经元的输出值；反向依次计算每层输出值之间的误差，直至当前批次中样本集合全部处理完成；利用当前批次样本得到的误差，对当前阶段待更新网络层D中的各层的参数进行更新；根据更新后的参数进行正向计算，若对当前批次的所有样本在输出层的输出均满足损失函数的精度要求，则网络学习完成，进行当前阶段待更新网络层集合中下一层的学习；否则获取当前批次的样本集合，并执行上述步骤直至当前批次的所有样本在输出层的输出均满足损失函数的精度要求为止。

1021-1026之后，还可以包括测试跨模态特征提取网络。具体是，利用验证样本集来测试跨模态特征提取网络在语音人脸的1:2匹配问题上的准确率。所述语音人脸的1:2匹配问题是指给定一段语音以及两张人脸照片，判断哪张照片是说话人人脸的照片。利用跨模态特征提取网络提取语音特征向量和人脸特征向量，并计算所述语音特征向量与两个所述语音特征向量之间的距离。如果测试效果不是很理想，可以进一步对训练过程进行优化。具体的，给定一个音频以及两张人脸照片，判断哪张照片是说话人人脸的照片，若准确率大于百分之80，则可认为训练成功。

本实施例可以实现语音匹配人脸图像的方案以及根据语音检索人脸图像的方案。人脸图像可以以照片的形式存在。

语音匹配人脸的方案的实现方式如下，给定一段语音vⁱ和若干张人脸照片f¹,f²,…,fⁿ(n＝2或n>2)，判断哪张照片是说话人人脸的照片。利用已经训练好的跨模态表示网络，音频v通过三路神经网络中的声音特征提取网络获得语音特征向量vⁱ _emb，人脸照片fⁱ通过三路神经网络中的人脸特征提取网络获得人脸特征向量fⁱ _emb。然后计算每个人脸特征向量到语音特征向量的距离即d(vⁱ _emb,f¹ _emb),d(vⁱ _emb,f² _emb),…,d(vⁱ _emb,fⁿ _emb)，选取距离较近的人脸作为该语音的说话人人脸。

语音检索人脸的方案的实现方式如下，给定一段语音v和一个包含许多人脸照片的数据库，按照照片是该段语音的说话人的人脸照片的可能性大小对数据库中的照片进行排序。利用已经训练好的跨模态表示网络获取输入语音的特征向量，并获取人脸数据库的每张人脸的人脸特征向量。然后计算每个人脸特征向量到声音特征向量的距离，按照距离由小到大对数据库中的照片进行排序，输出排序序列即为检索结果。

本实施例还提供一种语音与人脸图像的匹配方法，用于实现人脸图像与语音的匹配及检索，如图5所示，包括：步骤201-步骤204。

在步骤201中，获取待匹配的人脸图像和多个语音。

在步骤202中，根据跨模态特征提取网络，对所述人脸图像以及多个所述语音进行特征提取，获得人脸特征向量以及多个语音特征向量。

在步骤203中，计算所述人脸特征向量与多个所述语音特征向量之间的距离。

在步骤204中，将距离最小的语音特征向量对应的语音作为与所述人脸的匹配结果。

本实施例还提供一种语音与人脸图像的匹配装置，如图6所示，包括：获取模块1、特征向量提取模块2、距离计算模块3、匹配模块4。

获取模块1，用于获取待匹配的语音和多个人脸图像。

特征向量提取模块2，用于根据跨模态特征提取网络，对所述语音以及多个所述人脸图像进行特征提取，获得语音特征向量以及多个人脸特征向量。

距离计算模块3，用于计算所述语音特征向量与多个所述人脸特征向量之间的距离。

匹配模块4，用于将距离最小的人脸特征向量对应的人脸图像作为与所述语音的匹配结果。

本实施例的一种语音与人脸图像的匹配装置，还可以用于实现图4中所示的方法。

获取模块1，用于获取待匹配的人脸图像和多个语音。

特征向量提取模块2，用于根据跨模态特征提取网络，对所述人脸图像以及多个所述语音进行特征提取，获得人脸特征向量以及多个语音特征向量。

距离计算模块3，用于计算所述人脸特征向量与多个所述语音特征向量之间的距离。

匹配模块4，用于将距离最小的语音特征向量对应的语音作为与所述人脸图像的匹配结果。

由此，本实施例提供的语音与人脸图像的匹配方法、装置、储介质及存储器，可以建立声音到人脸的跨模态的关联，可以仅仅利用说话人的声音，判断说话人的面相。该发明可以被直接应用于安防保卫领域。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

本发明实施例还提供了一种存储介质，所述存储介质存储有计算机可执行指令，其包含用于执行上述语音与人脸图像的匹配方法的程序，该计算机可执行指令可执行上述任意方法实施例中的方法。

其中，所述存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

图7示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。

该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中，处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

通信接口1120用于与网元通信，其中网元包括例如虚拟机管理中心、共享存储等。

处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU，或者是专用集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块，并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行，以使处理器1110能够执行上述任意方法实施例中的语音与人脸图像的匹配方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种语音与人脸图像的匹配方法，其特征在于，包括：

获取待匹配的语音和多个人脸图像；

根据跨模态特征提取网络，对所述语音以及多个所述人脸图像进行特征提取，获得语音特征向量以及多个人脸特征向量；

计算所述语音特征向量与多个所述人脸特征向量之间的距离；

将距离最小的人脸特征向量对应的人脸作为与所述语音的匹配结果。

2.如权利要求1所述的匹配方法，其特征在于，所述跨模态特征提取网络通过以下方式获得：

构建基于深度神经网络的说话人识别预训练模型以及基于深度神经网络的人脸识别预训练模型，并准备音频、人脸数据集；

获取说话人识别预训练模型去除最后一层分类层的剩余网络，并附加零个或若干个全连接层来构成跨模态特征提取网络的第一路网络；

获取人脸识别预训练模型去除最后一层分类层的剩余网络，并附加若干个全连接层来构成跨模态特征提取网络的第二路网络；

复制所述第二路网络构成跨模态特征提取网络的第三路网络；

设置网络初始参数，所有从所述说话人识别预训练模型或从所述人脸识别预训练模型迁移过来的网络层，均采用所述预训练模型的参数，所有新增的所述附加全连接层，均对其参数进行随机初始化；

对音频、人脸数据集进行采样，生成所述三路神经网络的输入三元组，将所述三元组输入三路神经网络，根据三元组损失函数计算损失，并利用误差反向传播算法对各层的参数进行更新。

3.如权利要求2所述的匹配方法，其特征在于，所述跨模态特征提取网络的输入三元组和三元组损失函数包括:

所述三元组<vⁱ,fⁱ,f^j>包括语音输入vⁱ，第一人脸输入fⁱ以及第二人脸输入f^j，所述第一人脸输入fⁱ为与语音输入vⁱ匹配的人脸，即该人脸图像对应的人说了该段语音，所述第二人脸输入f^j为与语音输入vⁱ不匹配的人脸，即该人脸图像对应的人不是说了该段语音的人；

所述三元组损失函数为：

4.一种语音与人脸图像的匹配方法，其特征在于，包括：

获取待匹配的人脸图像和多个语音；

根据跨模态特征提取网络，对所述人脸图像以及多个所述语音进行特征提取，获得人脸特征向量以及多个语音特征向量；

计算所述人脸特征向量与多个所述语音特征向量之间的距离；

将距离最小的语音特征向量对应的语音作为与所述人脸的匹配结果。

5.一种语音与人脸图像的匹配装置，其特征在于，包括：

获取模块，用于获取待匹配的语音和多个人脸图像；

特征向量提取模块，用于根据跨模态特征提取网络，对所述语音以及多个所述人脸图像进行特征提取，获得语音特征向量以及多个人脸特征向量；

距离计算模块，用于计算所述语音特征向量与多个所述人脸特征向量之间的距离；

匹配模块，用于将距离最小的人脸特征向量对应的人脸图像作为与所述语音的匹配结果。

6.一种语音与人脸图像的匹配装置，其特征在于，包括：

获取模块，用于获取待匹配的人脸图像和多个语音；

特征向量提取模块，用于根据跨模态特征提取网络，对所述人脸图像以及多个所述语音进行特征提取，获得人脸特征向量以及多个语音特征向量；

距离计算模块，用于计算所述人脸特征向量与多个所述语音特征向量之间的距离；

匹配模块，用于将距离最小的语音特征向量对应的语音作为与所述人脸图像的匹配结果。

7.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-4任意一项所述的语音与人脸图像的匹配方法。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4任意一项所述的语音与人脸图像的匹配方法。