CN108364346B

CN108364346B - 构建三维人脸模型的方法、装置和计算机可读存储介质

Info

Publication number: CN108364346B
Application number: CN201810189748.9A
Authority: CN
Inventors: 潘伟洲
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2018-03-08
Filing date: 2018-03-08
Publication date: 2023-05-12
Anticipated expiration: 2038-03-08
Also published as: CN108364346A

Abstract

本发明属于图像处理领域，公开了一种构建三维人脸模型的方法、装置和计算机可读存储介质，以根据人体生物特征快速、便捷地构建人脸三维模型。所述方法包括：提取目标人物的声纹特征；将目标人物的声纹特征输入已训练神经网络模型，以输出目标人物的人脸特征点距离信息；根据目标人物的人脸特征点距离信息，调整通用人脸模型以构建目标人物的三维人脸模型。本发明提供的技术方案一方面构建三维人脸模型的方法相比于现有技术要快捷、方便；另一方面，通过提取目标人物的声纹特征来构建三维人脸模型，有利于以声辨人，可以应用在军事、刑侦等特殊场合。

Description

构建三维人脸模型的方法、装置和计算机可读存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种构建三维人脸模型的方法、装置和计算机可读存储介质。

背景技术

人脸是一个人外貌特征最显著的标志，是辨认人的身份的重要根据。近几年来，随着技术的发展，社会上越来越多的行业、领域，都对于人脸相关的处理有了很多的需求。人脸建模技术作为计算机图形学的一个分支也越来越受到人们的重视，人脸建模技术的研究也成为了近年来的热点方向。

现有的一种人脸建模技术是基于特征的建模技术，这种方法一般是从照片或视频中的人脸提取特征点，将不同角度提取的相同特征点进行对应计算，算出特征点的空间坐标，然后用这些特征点坐标构建出一张中型人脸网格，重构出三维人脸模型。

然而，上述构建人脸三维模型的方式是基于照片或视频的，一方面，照片或视频的获取有时会有一定难度(例如，可能涉及肖像侵权风险等)；另一方面，基于照片或视频的人脸三维模型的构建在计算成本方面稍高，对于一些需要快速建模的场景可能不适合。

发明内容

本发明实施例的主要目的在于提供一种构建三维人脸模型的方法、装置和计算机可读存储介质，以根据人体生物特征快速、便捷地构建人脸三维模型。

为实现上述目的，本发明实施例第一方面提供构建三维人脸模型的方法，所述方法包括：

提取目标人物的声纹特征；

将所述目标人物的声纹特征输入已训练神经网络模型，以输出所述目标人物的人脸特征点距离信息；

根据所述目标人物的人脸特征点距离信息，调整通用人脸模型以构建所述目标人物的三维人脸模型。

为实现上述目的，本发明实施例第二方面提供一种构建三维人脸模型的装置，所述装置包括：

第一特征提取模块，用于提取目标人物的声纹特征；

输出模块，用于将所述目标人物的声纹特征输入已训练神经网络模型，以输出所述目标人物的人脸特征点距离信息；

调整模块，用于根据所述目标人物的人脸特征点距离信息，调整通用人脸模型以构建所述目标人物的三维人脸模型。

为实现上述目的，本发明实施例第三方面提供一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下方法的步骤：

提取目标人物的声纹特征；

结合本发明第三方面，在第三方面的第一种实施方式中，所述将所述目标人物的声纹特征输入已训练神经网络模型，以输出所述目标人物的人脸特征点距离信息，包括：

将所述目标人物的声纹特征作为所述已训练神经网络模型的输入参数输入所述已训练神经网络模型对应的函数；

根据所述已训练神经网络模型隐节点和输出节点之间的权重系数，计算所述函数以所述输入参数为变量的输出值。

结合本发明第三方面，在第三方面的第二种实施方式中，所述根据所述目标人物的人脸特征点距离信息，调整通用人脸模型以构建所述目标人物的三维人脸模型，包括：

根据所述目标人物的任意两个人脸特征点之间距离与所述通用人脸模型中相应两个特征点之间距离的差值，对所述通用人脸模型中相应两个特征点之间距离进行增加或减小。

结合本发明第三方面，在第三方面的第三种实施方式中，所述将目标人物的声纹特征输入已训练神经网络模型，以输出所述目标人物的人脸特征点距离信息之前，所述方法还包括：

将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对所述神经网络进行训练，得到所述已训练神经网络模型。

结合本发明第三方面的第三种实施方式，在第三方面的第四种实施方式中，所述将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对所述神经网络进行训练，得到所述已训练神经网络模型，包括：

预设所述神经网络节点之间权重系数的初始值；

以所述样本人物的声纹特征作为所述神经网络的输入参数，以所述预处理人脸特征点距离信息作为所述神经网络的输出参数，采用所述初始值训练所述神经网络；

调整所述权重系数以重复所述神经网络的训练过程，直至所述神经网络输出的结果与实际值小于预设阈值时调整所得的权重系数作为所述已训练神经网络模型节点之间的权重系数。

结合本发明第三方面的第四种实施方式，在第三方面的第五种实施方式中，所述将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对所述神经网络进行训练，得到所述已训练神经网络模型之前，所述方法还包括：

提取所述样本人物的声纹特征；

获取所述样本人物的人脸特征点距离信息；

对所述获取的样本人物的人脸特征点距离信息进行预处理，以得到所述样本人物的预处理人脸特征点距离信息。

结合本发明第三方面的第五种实施方式，在第三方面的第六种实施方式中，所述提取所述样本人物的声纹特征，包括：计算所述样本人物的Mel频率倒谱系数，将所述样本人物的Mel频率倒谱系数作为所述样本人物的声纹特征；

所述对所述获取的样本人物的人脸特征点距离信息进行预处理以得到所述样本人物的预处理人脸特征点距离信息，包括：对所述获取的样本人物的人脸特征点距离信息中超过预设阈值的距离信息剔除，剔除后剩下的人脸特征点距离信息作为所述样本人物的预处理人脸特征点距离信息。

为实现上述目的，本发明实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下方法的步骤：

提取目标人物的声纹特征；

第一特征提取模块，用于提取目标人物的声纹特征；

提取目标人物的声纹特征；

结合本发明第四方面，在第四方面的第一种实施方式中，所述将所述目标人物的声纹特征输入已训练神经网络模型，以输出所述目标人物的人脸特征点距离信息，包括：

结合本发明第四方面，在第四方面的第二种实施方式中，所述根据所述目标人物的人脸特征点距离信息，调整通用人脸模型以构建所述目标人物的三维人脸模型，包括：

结合本发明第四方面，在第四方面的第三种实施方式中，所述将目标人物的声纹特征输入已训练神经网络模型，以输出所述目标人物的人脸特征点距离信息之前，所述方法还包括：

结合本发明第四方面的第三种实施方式，在第四方面的第四种实施方式中，所述将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对所述神经网络进行训练，得到所述已训练神经网络模型，包括：

预设所述神经网络节点之间权重系数的初始值；

结合本发明第四方面的第四种实施方式，在第四方面的第五种实施方式中，所述将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对所述神经网络进行训练，得到所述已训练神经网络模型之前，所述方法还包括：

提取所述样本人物的声纹特征；

获取所述样本人物的人脸特征点距离信息；

结合本发明第四方面的第五种实施方式，在第四方面的第六种实施方式中，所述提取所述样本人物的声纹特征，包括：计算所述样本人物的Mel频率倒谱系数，将所述样本人物的Mel频率倒谱系数作为所述样本人物的声纹特征；

从上述本发明实施例提供的技术方案可知，一方面，由于人物的声纹特征提取要远方便于从图像、视频中提取人物的脸部特征，因此，本发明构建三维人脸模型的方法相比于现有技术要快捷、方便；另一方面，通过目标人物的声纹特征来构建三维人脸模型，有利于以声辨人，可以应用在军事、刑侦等特殊场合。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的计算设备的结构框图；

图2为本发明实施例提供的构建三维人脸模型的方法流程示意图；

图3为本发明实施例提供的正脸照和侧脸照中特征点的示意图；

图4-a为本发明实施例提供的正脸照的33个特征点之间的44组距离信息；

图4-b为本发明实施例提供的侧脸照的19个特征点之间的21组距离信息；

图5为本发明实施例提供的构建三维人脸模型的装置的结构框图；

图6为本发明另一实施例提供的构建三维人脸模型的装置的结构框图；

图7为本发明另一实施例提供的构建三维人脸模型的装置的结构框图；

图8为本发明另一实施例提供的构建三维人脸模型的装置的结构框图；

图9为本发明另一实施例提供的构建三维人脸模型的装置的结构框图；

图10为本发明另一实施例提供的构建三维人脸模型的装置的结构框图；

图11为本发明另一实施例提供的构建三维人脸模型的装置的结构框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了一种计算设备的结构框图。本发明实施例提供的构建三维人脸模型的方法可应用于如图1所示的计算设备10中，计算设备10可以但不限于包括：需依靠电池维持正常运行且支持网络及下载功能的智能手机、笔记本、平板电脑、穿戴智能设备、个人电脑、服务器等。

如图1所示，计算设备10包括存储器101、存储控制器102，一个或多个(图中仅示出一个)处理器103、外设接口104、射频模块105、按键模块106、音频模块107以及触控屏幕108。这些组件通过一条或多条通讯总线/信号线109相互通讯。

可以理解，图1所示的结构仅为示意，其并不对计算设备的结构造成限定。计算设备10还可包括比图1所示更多或者更少的组件，或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或其组合实现。

存储器101可用于存储软件程序以及模块，如本发明实施例中的构建三维人脸模型的方法及计算设备对应的程序指令/模块，处理器103通过运行存储在存储器101内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的构建三维人脸模型的方法。

存储器101可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器101可进一步包括相对于处理器103远程设置的存储器，这些远程存储器可以通过网络连接至计算设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器103以及其他可能的组件对存储器101的访问可在存储控制器102的控制下进行。

外设接口104将各种输入/输入装置耦合至CPU以及存储器101。处理器103运行存储器101内的各种软件、指令以执行计算设备10的各种功能以及进行数据处理。

在一些实施例中，外设接口104，处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，它们可以分别由独立的芯片实现。

射频模块105用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。射频模块105可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。射频模块105可与各种网络如互联网、企业内部网、预置类型的无线网络进行通讯或者通过预置类型的无线网络与其他设备进行通讯。上述的预置类型的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的预置类型的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for MobileCommunication，GSM)，增强型移动通信技术(Enhanced Data GSM Environment，EDGE)，宽带码分多址技术(Wideband Code Division Multiple Access，W-CDMA)，码分多址技术(Code Division Access，CDMA)，时分多址技术(Time Division Multiple Access，TDMA)，蓝牙，无线保真技术(Wireless-Fidelity，WiFi)(如美国电气和电子工程师协会标准IEEE802.11a、IEEE 802.11b、IEEE802.11g和/或IEEE 802.11n)，网络电话(Voice overInternet Protocal，VoIP)，全球微波互联接入(Worldwide Interoperability forMicrowave Access，Wi-Max)，其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议。

按键模块106提供用户向计算设备进行输入的接口，用户可以通过按下不同的按键以使计算设备10执行不同的功能。

音频模块107向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。音频电路从外设接口104处接收声音数据，将声音数据转换为电信息，将电信息传输至扬声器。扬声器将电信息转换为人耳能听到的声波。音频电路还从麦克风处接收电信息，将电信号转换为声音数据，并将声音数据传输至外设接口104中以进行进一步的处理。音频数据可以从存储器101处或者通过射频模块105获取。此外，音频数据也可以存储至存储器101中或者通过射频模块105进行发送。在一些实例中，音频模块107还可包括一个耳机播孔，用于向耳机或者其他设备提供音频接口。

触控屏幕108在计算设备与用户之间同时提供一个输出及输入界面。具体地，触控屏幕108向用户显示视频输出，这些视频输出的内容可包括文字、图形、视频、及其任意组合。一些输出结果是对应于一些用户界面对象。触控屏幕108还接收用户的输入，例如用户的点击、滑动等手势操作，以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。触控屏幕108显示单元的具体实例包括但并不限于液晶显示器或发光聚合物显示器。

基于上述计算设备，本发明实施例提供的一种构建三维人脸模型的方法的流程图如附图2所示，主要包括如下步骤S201至S203，详细说明如下：

S201，提取目标人物的声纹特征。

在本发明实施例中，目标人物是指待构建三维人脸模型的人脸对应的人物。例如，要对人物A构建其三维人脸模型，则人物A就是目标人物。作为本发明一个实施例，Mel频率倒谱系数可以作为目标人物的声纹特征，提取目标人物的声纹特征可以是计算目标人物的Mel频率倒谱系数。

S202，将目标人物的声纹特征输入已训练神经网络模型，以输出人脸特征点距离信息。

在目标人物的声纹特征输入已训练神经网络模型，以输出目标人物的人脸特征点距离信息之前，可以将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对神经网络进行训练，得到已训练神经网络模型。所谓样本人物，是指其声纹特征和预处理人脸特征点距离信息作为神经网络的训练样本的人物。需要说明的是，样本人物和目标人物可能是同一人物。

作为本发明一实施例，将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对神经网络进行训练，得到已训练神经网络模型可以通过如下步骤实现：预设神经网络节点之间权重系数的初始值；以样本人物的声纹特征作为神经网络的输入参数，以预处理人脸特征点距离信息作为神经网络的输出参数，采用权重系数的初始值训练神经网络；调整权重系数以重复神经网络的训练过程，直至神经网络输出的结果与实际值小于预设阈值时调整所得的权重系数作为已训练神经网络模型节点之间的权重系数。具体地，在开始训练时，可以是将样本人物的声纹特征作为输入，每一人脸特征点之间的信息作为输出，使用权重系数的初始值来训练神经网络，训练过程中或者每一轮训练结束时，比较神经网络输出的结果与实际值，即比较神经网络输出的人脸特征点距离信息与实际给出的人脸特征点距离信息之间的误差，若该误差不小于预设阈值，则调整神经网络输入节点和输出节点之间的权重系数；上述过程在所述误差不小于预设阈值之前持续进行，在误差小于预设阈值时可以停止神经网络的训练，停止时调整所得的权重系数就是神经网络输入节点和输出节点之间的权重系数，以这个权重系数建立的神经网络模型就是声纹特征与一对人脸特征点之间的距离信息能够一一对应的神经网络模型，即已训练神经网络模型。例如，对于附图4-a的正脸照的33个特征点之间的44组距离信息，可以上述方式训练出正脸照的44个神经网络模型，即声纹特征对应于正脸照44组距离信息中每一对特征点的距离信息，以同样的方式训练出侧脸照的21个神经网络模型，即声纹特征对应于侧脸照21组距离信息中每一对特征点的距离信息。

需要说明的是，在本发明实施例中，用于训练的神经网络的函数模型可以是多变量插值的径向基函数(Radial Basis Function，RBF)，该径向基函数具体如下：

其中，x_p为输入，c_i为隐含层的任意隐节点，w_ij为隐节点c_i与输出y_j之间的权重系数。为了后续的描述方便，在本发明实施例中将函数模型为RBF的神经网络简称为RBF神经网络。

RBF神经网络是Moody和Darken提出的一种神经网络结构，属于前向神经网络类型，它能够以任意精度逼近任意连续函数。RBF网络的结构与多层前向网络类似，它是一种三层前向网络。输入层由信号源节点组成；第二层为隐含层，隐单元数视所描述问题的需要而定，隐单元的变换函数是RBF径向基函数，它是对中心点径向对称且衰减的非负非线性函数；第三层为输出层，它对输入模式的作用作出响应。从输人空间到隐含层空间的变换是非线性的，而从隐含层空间到输出层空间变换是线性的。

为了训练神经网络模型，在本发明实施例中，可以在将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对神经网络进行训练，得到已训练神经网络模型之前，执行如下步骤S1至S3的操作：

S1，提取样本人物的声纹特征。

具体地，考虑到Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)可以作为声纹识别的重要特征参数之一，在本发明实施例中，提取样本人物的声纹特征可以是计算样本人物的Mel频率倒谱系数，将样本人物的Mel频率倒谱系数作为样本人物的声纹特征。

S2，获取样本人物的人脸特征点距离信息。

其中，人脸特征点包括正脸照的特征点和侧脸照的特征点，如附图3的左边部分和右边部分所示，分别是正脸照的特征点和侧脸照的特征点，例如，正脸照的33个特征点和侧脸照的19个特征点。具体地，可以通过测量各个特征点的坐标，计算出正脸照的特征点之间的距离数据和侧脸照的特征点之间的距离信息，如附图4-a所示，是附图3的正脸照的33个特征点之间的44组距离信息，其中，27组是每一对特征点之间的水平距离，17组是每一对特征点之间的垂直距离，附图4-b所示，是附图3的侧脸照的19个特征点之间的21组距离信息，其中，11组是每一对特征点之间的水平距离，10组是每一对特征点之间的垂直距离。

S3，对经步骤S2获取的样本人物的人脸特征点距离信息进行预处理，以得到样本人物的预处理人脸特征点距离信息。

需要说明的是，经步骤S2获取的样本人物的人脸特征点距离信息中，有些距离信息可能明显不合理，若作为样本直接对神经网络模型训练，预测阶段的输出可能难以达到预期的效果。因此，在本发明实施例中，可以对经步骤S2获取的样本人物的人脸特征点距离信息进行预处理，以得到样本人物的预处理人脸特征点距离信息。具体地，可以对经步骤S2获取的样本人物的人脸特征点距离信息中超过预设阈值的距离信息剔除，剔除后剩下的人脸特征点距离信息作为样本人物的预处理人脸特征点距离信息。

这些预处理人脸特征点距离信息作为神经网络模型的样本参数，对神经网络模型进行训练。

作为本发明一个实施例，将目标人物的声纹特征输入已训练神经网络模型，以输出目标人物的人脸特征点距离信息可以是：将目标人物的声纹特征作为已训练神经网络模型的输入参数输入已训练神经网络模型对应的函数；根据已训练神经网络模型隐节点和输出节点之间的权重系数，计算已训练神经网络模型对应的函数以输入参数为变量的输出值即目标人物的人脸特征点距离信息。以前述已训练神经网络模型对应的函数是RBF为例，x_p就是目标人物的声纹特征即RBF的输入参数，由于神经网络模型已经训练好，换言之，c_i(即隐含层的任意隐节点)和w_ij(即隐节点c_i与输出节点y_j之间的权重系数)都是已知量，因此，根据这些已知量和目标人物的声纹特征，可以计算出已训练神经网络模型对应的函数以目标人物的声纹特征为变量的输出值即目标人物的人脸特征点距离信息。

S203，根据目标人物的人脸特征点距离信息，调整通用人脸模型以构建目标人物的三维人脸模型。

在本发明一个实施例中，根据目标人物的人脸特征点距离信息，调整通用人脸模型以构建目标人物的三维人脸模型可以是：根据目标人物的任意两个人脸特征点之间距离与通用人脸模型中相应两个特征点之间距离的差值，对通用人脸模型中相应两个特征点之间距离进行增加或减小，具体地，若目标人物的任意两个人脸特征点之间距离与通用人脸模型中相应两个特征点之间距离的差值为负值，即目标人物的任意两个人脸特征点之间距离小于通用人脸模型中相应两个特征点之间距离，则减小通用人脸模型中该两个特征点之间距离，反之，若目标人物的任意两个人脸特征点之间距离与通用人脸模型中相应两个特征点之间距离的差值为正值，即目标人物的任意两个人脸特征点之间距离大于通用人脸模型中相应两个特征点之间距离，则增加通用人脸模型中该两个特征点之间距离。通过对通用人脸模型中两个特征点之间距离的减小或增大，使通用人脸模型中任意两个特征点之间距离与目标人物的相应两个人脸特征点之间距离相等。例如，若已训练神经网络模型输出的目标人物的人脸特征点距离信息中，某一对特征点(e1，f2)之间的距离小于通用人脸模型中一对特征点(e1，f2)之间的距离，则可以将通用人脸模型中该特征点(e1，f2)之间的距离调小，使之与已训练神经网络模型输出的目标人物的特征点(e1，f2)之间的距离相等；反之，若已训练神经网络模型输出的目标人物的人脸特征点距离信息中，某一对特征点(e2，f2)之间的距离大于通用人脸模型中一对特征点(e2，f2)之间的距离，则可以将通用人脸模型中该特征点(e2，f2)之间的距离调大，使之与已训练神经网络模型输出的目标人物的特征点(e2，f2)之间的距离相等，等等。

以下以一宗电信诈骗案的刑侦过程为例，说明本发明的技术方案：

某公安机关为了破获各种案件，通过某种方式，例如，通过与一些掌握了大数据资源的公司合作，提取了大量样本人物{P₁，P₂，…，P_n}的声纹特征(例如，样本人物的Mel频率倒谱系数等)以及获取了该大量样本人物{P₁，P₂，…，P_n}的人脸特征点距离信息。进一步地，为了增强模型训练的效果，可以对获取的样本人物{P₁，P₂，…，P_n}的人脸特征点距离信息进行预处理，以得到样本人物的预处理人脸特征点距离信息，例如，将那些获取的样本人物的人脸特征点距离信息中超过预设阈值的距离信息剔除，剔除后剩下的人脸特征点距离信息作为样本人物{P₁，P₂，…，P_n}的预处理人脸特征点距离信息。然后，将样本人物{P₁，P₂，…，P_n}的声纹特征和预处理人脸特征点距离信息作为样本数据，采用有监督学习方式训练神经网络，其中，样本人物{P₁，P₂，…，P_n}的声纹特征作为输入，样本人物{P₁，P₂，…，P_n}的预处理人脸特征点距离信息作为输出。经过训练且结果达到预期的神经网络即已训练神经网络模型就可以用于该公安机关的各种刑侦案件，例如，电信诈骗类案件。在侦破这类案件过程中，若能获取到嫌犯的声音，则会是案件侦破的重要线索，而在电信诈骗中，通常会以打电话的方式与受害人交互。该公安机关可以根据嫌犯打电话给受害人时暴露的声音，提取该嫌犯的声纹特征。然后，将嫌犯的声纹特征输入到已训练神经网络模型，已训练神经网络模型就会输出该嫌犯的人脸特征点距离信息。在得到该嫌犯的人脸特征点距离信息后，根据该嫌犯的人脸特征点距离信息，调整通用人脸模型，就可以构建该嫌犯的三维人脸模型。得到该嫌犯的三维人脸模型后，可以对三维人脸模型做进一步的处理，例如，纹理的处理、表情的柔滑等。将这些经过处理的三维人脸模型与给定的若干人脸照片匹配，若该人脸照片中有一张人脸照片与该三维人脸模型最匹配，则该嫌犯的长相极有可能就是这张人脸照片中的人脸模样，这就为公安机关侦破电信诈骗类案件提供了重要线索，这就归功于已训练神经网络能够根据目标人物的声纹特征预测出该目标人物的人脸特征点距离信息，从而构建其三维人脸模型，最终得到目标人物的相貌。

从上述附图2示例的构建三维人脸模型的方法可知，一方面，由于人物的声纹特征提取要远方便于从图像、视频中提取人物的脸部特征，因此，本发明构建三维人脸模型的方法相比于现有技术要快捷、方便；另一方面，通过提取目标人物的声纹特征来构建三维人脸模型，有利于以声辨人，可以应用在军事、刑侦等特殊场合。

请参阅图5，为本发明实施例提供的构建三维人脸模型的装置。为了便于说明，仅示出了与本发明实施例相关的部分。图5提供的构建三维人脸模型的装置主要包括第一特征提取模块503、输出模块501和调整模块502，详细说明如下：

第一特征提取模块503，用于提取目标人物的声纹特征；

输出模块501，用于将目标人物的声纹特征输入已训练神经网络模型，以输出人脸特征点距离信息；

调整模块502，用于根据目标人物的人脸特征点距离信息，调整通用人脸模型以构建目标人物的三维人脸模型。

需要说明的是，本发明实施例提供的装置，由于与本发明方法实施例基于同一构思，其带来的技术效果与本发明方法实施例相同，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

附图5示例的构建三维人脸模型的装置还可以包括训练模块601，如附图6示例构建三维人脸模型的装置。训练模块601用于在输出模块501将目标人物的声纹特征输入已训练神经网络模型，以输出目标人物的人脸特征点距离信息之前，将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对神经网络进行训练，得到已训练神经网络模型。

附图6示例的训练模块601可以包括预设单元901、初始训练单元902和权重系数调整单元903，如附图9示例构建三维人脸模型的装置，其中：

预设单元901，用于预设神经网络节点之间权重系数的初始值；

初始训练单元902，用于以样本人物的声纹特征作为神经网络的输入参数，以预处理人脸特征点距离信息作为神经网络的输出参数，采用初始值训练神经网络；

权重系数调整单元903，调整神经网络节点之间权重系数以重复神经网络的训练过程，直至神经网络输出的结果与实际值小于预设阈值时调整所得的权重系数作为已训练神经网络模型节点之间的权重系数。

附图6示例的构建三维人脸模型的装置还可以包括第二特征提取模块701、获取模块702和预处理模块703，如附图7示例构建三维人脸模型的装置，其中：

第二特征提取模块701，用于提取样本人物的声纹特征；

获取模块702，用于获取样本人物的人脸特征点距离信息；

预处理模块703，用于对获取的样本人物的人脸特征点距离信息进行预处理，以得到样本人物的预处理人脸特征点距离信息。

附图7示例的第二特征提取模块701可以包括计算单元801，预处理模块703包括信息剔除单元802，如附图8示例构建三维人脸模型的装置，其中：

计算单元801，用于计算样本人物的Mel频率倒谱系数，将样本人物的Mel频率倒谱系数作为样本人物的声纹特征；

信息剔除单元802，用于对获取的样本人物的人脸特征点距离信息中超过预设阈值的距离信息剔除，剔除后剩下的人脸特征点距离信息作为样本人物的预处理人脸特征点距离信息。

附图5示例的输出模块501可以包括输入单元1001和第二计算单元1002，如附图10示例构建三维人脸模型的装置，其中：

输入单元1001，用于将目标人物的声纹特征作为已训练神经网络模型的输入参数输入已训练神经网络模型对应的函数；

第二计算单元1002，用于根据已训练神经网络模型隐节点和输出节点之间的权重系数，计算已训练神经网络模型对应的函数以输入参数为变量的输出值。

附图5示例的调整模块502可以包括距离增减单元1101，如附图11示例构建三维人脸模型的装置。距离增减单元1101用于根据目标人物的任意两个人脸特征点之间距离与通用人脸模型中相应两个特征点之间距离的差值，对通用人脸模型中相应两个特征点之间距离进行增加或减小。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的构建三维人脸模型的方法、装置、计算设备和计算机可读存储介质的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种构建三维人脸模型的方法，其特征在于，所述方法包括：

提取目标人物的声纹特征；

2.如权利要求1所述构建三维人脸模型的方法，其特征在于，所述将所述目标人物的声纹特征输入已训练神经网络模型，以输出所述目标人物的人脸特征点距离信息，包括：

3.如权利要求1所述构建三维人脸模型的方法，其特征在于，所述根据所述目标人物的人脸特征点距离信息，调整通用人脸模型以构建所述目标人物的三维人脸模型，包括：

4.如权利要求1所述构建三维人脸模型的方法，其特征在于，所述将所述目标人物的声纹特征输入已训练神经网络模型，以输出所述目标人物的人脸特征点距离信息之前，所述方法还包括：

5.如权利要求4所述构建三维人脸模型的方法，其特征在于，所述将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对所述神经网络进行训练，得到所述已训练神经网络模型，包括：

预设所述神经网络节点之间权重系数的初始值；

6.如权利要求4所述构建三维人脸模型的方法，其特征在于，所述将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对所述神经网络进行训练，得到所述已训练神经网络模型之前，所述方法还包括：

提取所述样本人物的声纹特征；

获取所述样本人物的人脸特征点距离信息；

7.如权利要求6所述构建三维人脸模型的方法，其特征在于，所述提取所述样本人物的声纹特征，包括：计算所述样本人物的Mel频率倒谱系数，将所述样本人物的Mel频率倒谱系数作为所述样本人物的声纹特征；

8.一种构建三维人脸模型的装置，其特征在于，所述装置包括：

第一特征提取模块，用于提取目标人物的声纹特征；

9.如权利要求8所述构建三维人脸模型的装置，其特征在于，所述输出模块包括：

输入单元，用于将所述目标人物的声纹特征作为所述已训练神经网络模型的输入参数输入所述已训练神经网络模型对应的函数；

第二计算单元，用于根据所述已训练神经网络模型隐节点和输出节点之间的权重系数，计算所述函数以所述输入参数为变量的输出值。

10.如权利要求8所述构建三维人脸模型的装置，其特征在于，所述调整模块包括：

距离增减单元，用于根据所述目标人物的任意两个人脸特征点之间距离与所述通用人脸模型中相应两个特征点之间距离的差值，对所述通用人脸模型中相应两个特征点之间距离进行增加或减小。

11.如权利要求8所述构建三维人脸模型的装置，其特征在于，所述装置还包括：

训练模块，用于在所述输出模块将目标人物的声纹特征输入已训练神经网络模型，以输出所述目标人物的人脸特征点距离信息之前，将样本人物的声纹特征和预处理人脸特征点距离信息分别作为神经网络的输入参数和输出参数，采用有监督学习方式对所述神经网络进行训练，得到所述已训练神经网络模型。

12.如权利要求11所述构建三维人脸模型的装置，其特征在于，所述训练模块包括：

预设单元，用于预设所述神经网络节点之间权重系数的初始值；

初始训练单元，用于以所述样本人物的声纹特征作为所述神经网络的输入参数，以所述预处理人脸特征点距离信息作为所述神经网络的输出参数，采用所述初始值训练所述神经网络；

权重系数调整单元，调整所述权重系数以重复所述神经网络的训练过程，直至所述神经网络输出的结果与实际值小于预设阈值时调整所得的权重系数作为所述已训练神经网络模型节点之间的权重系数。

13.如权利要求8所述构建三维人脸模型的装置，其特征在于，所述装置还包括：

第二特征提取模块，用于提取样本人物的声纹特征；

获取模块，用于获取所述样本人物的人脸特征点距离信息；

预处理模块，用于对所述获取的样本人物的人脸特征点距离信息进行预处理，以得到所述样本人物的预处理人脸特征点距离信息。

14.如权利要求13所述构建三维人脸模型的装置，其特征在于，所述第二特征提取模块包括第二计算单元，所述预处理模块包括信息剔除单元；

所述第二计算单元，用于计算所述样本人物的Mel频率倒谱系数，将所述样本人物的Mel频率倒谱系数作为所述样本人物的声纹特征；

所述信息剔除单元，用于对所述获取的样本人物的人脸特征点距离信息中超过预设阈值的距离信息剔除，剔除后剩下的人脸特征点距离信息作为所述样本人物的预处理人脸特征点距离信息。

15.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述方法的步骤。

16.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述方法的步骤。