CN111078932A - 一种根据人声匹配相似人脸的方法 - Google Patents

一种根据人声匹配相似人脸的方法 Download PDF

Info

Publication number
CN111078932A
CN111078932A CN201911315203.9A CN201911315203A CN111078932A CN 111078932 A CN111078932 A CN 111078932A CN 201911315203 A CN201911315203 A CN 201911315203A CN 111078932 A CN111078932 A CN 111078932A
Authority
CN
China
Prior art keywords
facial
feature vector
audio
facial feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911315203.9A
Other languages
English (en)
Inventor
鲁霄
顾旻玮
赵伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201911315203.9A priority Critical patent/CN111078932A/zh
Publication of CN111078932A publication Critical patent/CN111078932A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种根据人声匹配相似人脸的方法,该方法包括:获取音频信息;提取所述音频信息中的音频特征向量;通过预测面部特征模型对所述音频特征向量进行面部特征转化,得到预测面部特征向量;根据所述预测面部特征向量,从面部图像数据库中确定出面部图像;其中,所述面部图像数据库中包括有一个或多个面部图像和所述一个或多个面部图像各自对应的面部特征向量。该方法将人的声音与面部长相做联结,根据人声特征预测面部特征,进而匹配相似人脸,克服了现有技术中噪声等各种环境影响导致声音‑声音匹配相似艺人人脸图像会出现错误的问题。

Description

一种根据人声匹配相似人脸的方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种根据人声匹配相似人脸的方法。
背景技术
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、人声识别、图像识别、自然语言处理和专家系统等。
随着人工智能的不断发展,人声识别技术已得到广泛应用,例如K歌系统中的人声识别,K歌系统可以识别歌唱者声音,在歌手的声音数据库中匹配最相似的歌手声音,并推荐此歌手的歌单列表。
但是当前歌手数量众多,许多歌手的声音极其相似,并且在建立歌手的声音数据库时,由于采集歌手声音时受噪声等环境的影响,导致采集的歌手声音与实际的歌手声音有很大偏差,匹配不准确,进而在根据声音-声音匹配相似歌手推荐歌单列表时会出现错误。
发明内容
本发明的发明目的是为了解决现有技术中存在的以上问题,提出了一种根据人声匹配相似人脸的方法,该方法将人的声音与面部长相做联结,根据人声特征预测面部特征,进而匹配相似人脸,根据相似人脸确认艺人名称并进一步推荐艺人歌单列表,克服了现有技术中噪声等各种环境影响导致声音-声音匹配相似艺人推荐歌单列表会出现错误的问题。
第一方面,本申请提供一种根据人声匹配相似人脸的方法,包括:
获取音频信息;
提取所述音频信息中的音频特征向量;
通过预测面部特征模型对所述音频特征向量进行面部特征转化,得到预测面部特征向量;
根据所述预测面部特征向量,从面部图像数据库中确定出与所述预测面部特征向量的向量距离最小的面部特征向量;
根据所述面部特征向量,从所述面部图像数据库中确定出与所述面部特征向量对应的面部图像;其中,所述面部图像数据库中包括有一个或多个面部图像和所述一个或多个面部图像各自对应的面部特征向量。
在一种可能的实现方式中,所述提取音频信息中的音频特征向量,具体包括:
将所述音频信息转换为语谱图;
通过音频特征提取模型对所述语谱图进行特征提取,得到所述音频特征向量。
在一种可能的实现方式中,在所述根据所述面部特征向量,从所述面部图像数据库中确定出与所述面部特征向量对应的面部图像之后,所述方法还包括:
根据所述面部图像,确定出所述面部图像的艺人名称;
获取所述艺人名称的歌单列表;其中,所述歌单列表包括有一个或多个歌曲链接和/或视频链接;
显示所述歌单列表。
在一种可能的实现方式中,所述方法还包括:
通过人脸合成模型对所述预测面部特征向量进行人脸合成,得到合成面部图像。
在一种可能的实现方式中,在所述通过预测面部特征模型对所述音频特征向量进行面部特征转化,得到预测面部特征向量之前,所述方法还包括:
获取视频数据,所述视频数据中包括有人物的声音和人物的面部图像;
从所述视频数据中分离出音频数据和图像数据;
提取所述音频数据中的音频特征,得到样本音频特征向量;
提取所属图像数据中的面部特征,得到样本面部特征向量;
根据所述样本音频特征向量和所述样本面部特征向量,通过深度学习算法训练出所述预测面部特征模型。
第二方面,本申请提供一种根据人声匹配相似人脸的装置,包括:
第一获取单元,用于获取音频信息;
第一提取单元,用于提取所述音频信息中的音频特征向量;
第一特征转化单元,用于通过预测面部特征模型对所述音频特征向量进行面部特征转化,得到预测面部特征向量;
第一确定单元,用于根据所述预测面部特征向量,从面部图像数据库中确定出与所述预测面部特征向量的向量距离最小的面部特征向量;
第二确定单元,用于根据所述面部特征向量,从所述面部图像数据库中确定出与所述面部特征向量对应的面部图像;其中,所述面部图像数据库中包括有一个或多个面部图像和所述一个或多个面部图像各自对应的面部特征向量。
在一种可能的实现方式中,所述装置还包括:
转换单元,用于将所述音频信息转换为语谱图;
生成单元,用于通过音频特征提取模型对所述语谱图进行特征提取,得到所述音频特征向量。
在一种可能的实现方式中,所述装置还包括:
第三确定单元,用于根据所述面部图像,确定出所述面部图像的艺人名称;
第二获取单元,用于获取所述艺人名称的歌单列表;其中,所述歌单列表包括有一个或多个歌曲链接和/或视频链接;
显示单元,用于显示所述歌单列表。
在一种可能的实现方式中,所述装置还包括:
合成单元,用于通过人脸合成模型对所述预测面部特征向量进行人脸合成,得到合成面部图像。
在一种可能的实现方式中,所述装置还包括:
第三获取单元,用于获取视频数据,所述视频数据中包括有人物的声音和人物的面部图像;
处理单元,用于从所述视频数据中分离出音频数据和图像数据;
第二提取单元,用于提取所述音频数据中的音频特征,得到样本音频特征向量;
第三提取单元,用于提取所述图像数据中的面部特征,得到样本面部特征向量;
训练单元,用于根据所述样本音频特征向量和所述样本面部特征向量,通过深度学习算法训练出所述预测面部特征模型。
第三方面,本申请提供一种匹配相似人脸装置,其特征在于,包括:一个或多个处理器、一个或多个存储器、收发器;所述一个或多个存储器与所述一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,执行上述任一方面任一可能的实现方式中的一种根据人声匹配相似人脸的方法。
第四方面,本申请提供一种计算机存储介质,包括计算机指令,当所述计算机指令运行时,所述计算机指令执行上述任一方面任一可能的实现方式中的一种根据人声匹配相似人脸的方法。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种卷积神经网络(CNN)的结构示意图;
图2是本申请提供的一种多个卷积层/池化层并行的卷积神经网络(CNN)的结构示意图;
图3是本申请实施例提供的一种三维卷积核降维的示意图;
图4是本申请实施例提供的一种面部图像的面部特征参考图;
图5是本申请实施例提供的一种根据人声匹配相似人脸的系统图;
图6是本申请实施例提供的一种根据人声匹配相似人脸的方法流程图;
图7是本申请实施例提供的一种系统图;
图8是本申请实施例提供的一种音乐平台和/或K歌平台的用户界面;
图9-图10是本申请实施例提供的一种人机交互图;
图11是本申请实施例提供的一种根据人声匹配相似人脸的装置图;
图12是本申请实施例提供的一种训练设备的结构示意图;
图13是本申请实施例提供的一种匹配面部图像/合成面部图像的执行装置图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
本申请提供了一种根据人声匹配相似人脸的方法,包括:
获取音频信息;提取所述音频信息中的音频特征向量;通过预测面部特征模型对所述音频特征向量进行面部特征转化,得到预测面部特征向量;根据所述预测面部特征向量,从面部图像数据库中确定出相似面部图像;其中,所述面部图像数据库中包括有一个或多个面部图像和所述一个或多个面部图像各自对应的面部特征向量。
该方法将人的声音与面部长相做联结,根据人声特征预测面部特征,进而匹配相似人脸,根据相似人脸确认艺人名称并进一步推荐艺人歌单列表,克服了现有技术中噪声等各种环境影响导致声音-声音匹配相似艺人推荐歌单列表会出现错误的问题。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面介绍本申请涉及的相关术语及神经网络等相关概念进行介绍。
(1)、深度神经网络
深度神经网络(Deep Neural Network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:
Figure BDA0002324772080000061
其中,
Figure BDA0002324772080000062
是输入向量,
Figure BDA0002324772080000063
是输出向量,
Figure BDA0002324772080000064
是偏移向量,W是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量
Figure BDA0002324772080000065
经过如此简单的操作得到输出向量
Figure BDA0002324772080000066
由于DNN层数多,则系数W和偏移向量
Figure BDA0002324772080000067
的数量也就很多了。这些参数在DNN中的定义如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为
Figure BDA0002324772080000068
上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是:第L-1层的第k个神经元到第L层的第j个神经元的系数定义为
Figure BDA0002324772080000069
需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(2)、卷积神经网络
卷积神经网络(CNN,Convolutional Neuron Network)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,都能使用同样的学习得到的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。
卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
如图1,卷积神经网络(CNN)100可以包括输入层110,卷积层/池化层120,其中池化层为可选的,以及神经网络层130。下面对其进行详细介绍:
卷积层/池化层120:
卷积层:
如图1所示卷积层/池化层120可以包括如示例121-126层,在一种实现中,121层为卷积层,122层为池化层,123层为卷积层,124层为池化层,125为卷积层,126为池化层;在另一种实现方式中,121、122为卷积层,123为池化层,124、125为卷积层,126为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
以卷积层121为例,卷积层121可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depthdimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同,经过该多个维度相同的权重矩阵提取后的特征图维度也相同,再将提取到的多个维度相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息,从而帮助卷积神经网络100进行正确的预测。
当卷积神经网络100有多个卷积层的时候,初始的卷积层(例如121)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络100深度的加深,越往后的卷积层(例如126)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
池化层:
由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,即如图1中120所示例的121-126各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中,池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子,以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,就像卷积层中用权重矩阵的大小应该与图像大小相关一样,池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸,池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。
神经网络层130:
在经过卷积层/池化层120的处理后,卷积神经网络100还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层120只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息),卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此,在神经网络层130中可以包括多层隐含层(如图1所示的131、132至13n)以及输出层140,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到。
在神经网络层130中的多层隐含层之后,也就是整个卷积神经网络100的最后层为输出层140,该输出层140具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络100的前向传播(如图3由110至140的传播为前向传播)完成,反向传播(如图3由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。
需要说明的是,如图1所示的卷积神经网络100仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在,例如,如图2所示的多个卷积层/池化层并行,将分别提取的特征均输入给神经网络层130进行处理。
具体地,可以参见图3,是本申请实施例提供的一种三维卷积核降维的示意图。如前所述,在卷积神经网络中通常会有多个卷积核,而这多个卷积核往往是三维的,包含三个维度的数据,x、y方向为数据的长和宽,z方向可以认为是数据的深度。在实际应用中,可以通过矩阵-矩阵乘(General Matrix-matrix Multiplication,GEMM)将三维的卷积核转化为二维的卷积核。
(3)、损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
下面介绍本申请实施例中训练音频特征提取模型的过程,音频特征提取模型可以是上述的卷积神经网络和/或深度神经网络。
本申请实施例训练音频特征提取模型可以包括以下步骤:
1、获取训练数据A。
其中,训练数据A可以包括多个语谱图-音频特征向量组(ai,bi),i为语谱图-音频特征向量组的组数,i为正整数,ai为训练数据A中的第i个语谱图,bi为训练数据A中的第i个音频特征向量。
2、利用训练数据A对音频特征提取模型进行训练。
音频特征提取模型可以将训练数据A中的ai当作输入,音频特征提取模型将输出ai对应的预测音频特征向量ci。然后,音频特征提取模型比较预测的音频特征向量ci和训练数据A中的音频特征向量bi之间的误差值,当误差值大于阈值时,将误差值传回音频特征提取模型中,修改音频特征提取模型的参数,然后继续通过训练数据A对音频特征提取模型进行训练,直至误差值小于等于阈值,结束训练。
通过上述训练好的音频特征提取模型,可以通过音频特征提取模型将语谱图转换为音频特征向量。
上述训练过程只是本申请的一种实现方式,不应构成限定。
下面介绍本申请实施例中训练提取面部特征模型的过程,提取面部特征模型可以是上述的深度神经网络和/或卷积神经网络。
本申请实施例训练提取面部特征模型可以包括以下步骤:
1、获取训练数据B。
其中,训练数据B可以包括多个人脸图像-面部特征向量组(ei,di),i为人脸图像-面部特征向量组的组数,i为正整数。
2、利用训练数据B对提取面部特征模型进行训练。
提取面部特征模型可以将训练数据B中的人脸图像ei当作输入,提取面部特征模型将输出人脸图像ei对应的预测面部特征向量gi。然后,提取面部特征模型比较预测面部特征向量gi和训练数据B中的面部特征向量di之间的误差值,当误差值大于阈值时,将误差值传回提取面部特征模型中,修改提取面部特征模型的参数,然后继续通过训练数据B对提取面部特征模型进行训练,直至误差值小于等于阈值,结束训练。
为了理解所述的面部特征,表1示例性地列出了面部特征参数和参数值:
Figure BDA0002324772080000101
Figure BDA0002324772080000111
表1示出了部分面部特征参数,这些面部特征参数可以很好的描述人脸面部特征,参数值表示人脸面部特征参数的测量值,例如,面部特征参数为上唇高度,参数值0.16表示识别的上唇的高度值。
如表1,面部特征参数包括上唇高度,参数值是0.16;下唇高度,参数值是0.26;下颌宽度,参数值是0.11;鼻子高度,参数值是0.24;鼻子宽度,参数值是0.17;唇口区,参数值是0.20;下颌区,参数值是0.21;鼻指数,参数值是0.29。
如图4所示,图4中的a为输入的一个面部图像,图3中的b为面部图像的面部特征参考图。
上述实施例只是本申请的一种实现方式,不应构成限定。
通过上述训练好的提取面部特征模型,可以通过提取面部特征模型提取人脸图像中的面部特征向量。
下面介绍本申请实施例中训练人脸合成模型的过程,人脸合成模型可以是上述的深度神经网络和/或卷积神经网络。
本申请实施例训练人脸合成模型可以包括以下步骤:
1、获取训练数据C。
其中,训练数据C可以包括多个面部特征向量-人脸图像组(si,ti),i为面部特征向量-人脸图像组的组数,i为正整数。
2、利用训练数据C对人脸合成模型进行训练。
人脸合成模型可以将训练数据C中的面部特征向量si当作输入,人脸合成模型将输出面部特征向量si对应的预测人脸图像ui。然后,人脸合成模型比较预测人脸图像ui和训练数据C中的人脸图像ti之间的误差值,当误差值大于阈值时,将误差值传回人脸合成模型中,修改人脸合成模型的参数,然后继续通过训练数据C对人脸合成模型进行训练,直至误差值小于等于阈值,结束训练。
通过上述训练好的人脸合成模型,可以通过人脸合成模型将面部特征向量合成人脸图像。
上述训练过程只是本申请的一种实现方式,不应构成限定。
下面介绍本申请实施例中训练预测面部特征模型的过程,预测面部特征模型可以是上述的深度神经网络和/或卷积神经网络。
在训练预测面部特征模型之前,包括以下步骤:
1、建立音频-面部图像数据集。
本申请实施例中的训练数据可以来自大量的不同的人的讲话影像,为了便于处理,在本实施例中,讲话影像仅包括一个人的音频信息,例如采访、脱口秀、影视等,提取采访、脱口秀、影视等视频数据。
示例性的,采集n段视频数据,这里,n段视频数据指的是n个不同的人的视频数据,可以提取出每段视频数据中前N秒音频数据,将采集的n段视频数据中的音频数据记为x=(x1,x2,…xi…xn),共有n个不同的人讲话的音频数据,xi为采集的第i个音频数据。
示例性的,可以在指定时间内(例如2秒)的每段视频数据中采集面部图像,记为f=(face1,face2,…facei…facen),一共有n个不同的人面部图像,facei为采集的第i个面部图像。
如上所述采集的音频数据x=(x1,x2,…xi…xn)和面部图像f=(face1,face2,…facei…facen),x1和face1来自同一个人的视频数据中的音频数据和面部图像,以此类推,xi和facei来自同一个人的视频数据中的音频数据和面部图像,以此将视频数据中的音频数据xi和音频数据xi对应的面部图像facei配对,以此建立音频-面部图像数据集V,音频-面部图像数据集中共包含n对音频-面部图像数据,即n个不同的人的音频-面部图像数据。
在一种可能的实现方式中,训练数据集可以来自已建立好的音频-面部图像数据集。例如,AVSpeech数据集,其包含几百万个YouTube视频,超过一百万个人物的音频-面部图像数据。
2、将音频-面部图像数据集中的音频数据x转换为语谱图,语谱图的横坐标是音频帧对应的时间,语谱图的纵坐标是音频帧所含的频率分量,语谱图的坐标点值是音频帧对应的频谱值,即能量。
在一种可能的实现方式中,通过对音频数据x中的各音频帧进行短时傅里叶变换得到音频数据x的语谱图。其中,
短时傅里叶变换公式可以如下公式(1)所示:
Figure BDA0002324772080000121
其中,在上述公示(1)中,F(w,t)表示不同时刻t的各音频帧经过短时傅里叶变换得到的各音频帧的频谱值,f(τ)表示输入的音频数据的时域信号,τ表示积分变量,t表示不同的时刻。
3、将步骤2中的语谱图输入音频特征提取模型,音频特征提取模型将输出音频特征向量X=(X1、X2、X3…Xn),共有n个音频特征向量X。
4、将音频-面部图像数据集V中的面部图像f输入提取面部特征模型,提取面部特征模型将输出面部特征向量F,共有n个面部特征向量F。
5、共有n对音频特征-面部图像特征向量集,称为训练数据D。
将n对音频特征-面部图像特征向量集输入预测面部特征模型进行训练。
具体地,预测面部特征模型可以将音频特征向量X当作输入,预测面部特征模型将输出音频特征向量X对应的预测面部特征向量。预测面部特征模型比较预测面部特征向量和面部特征向量F之间的误差值,当误差值大于阈值时,将误差值传回预测面部特征模型中,修改预测面部特征模型的参数,然后继续通过音频特征-面部图像特征向量集对预测面部特征模型进行训练,直至误差值小于等于阈值,结束训练。
通过上述训练好的预测面部特征模型,可以通过预测面部特征模型根据音频特征向量生成预测的面部特征向量。
上述训练过程只是本申请的一种实现方式,不应构成限定。
如图5,为本申请实施例提供的一种根据人声匹配相似人脸的系统图,该系统包括:频谱转换501、训练设备502、音频特征提取模型503、预测面部特征模型504、人脸合成模型506、面部特征向量-面部图像数据库505、训练数据A、训练数据C、训练数据D。
具体的,接收用户输入的一段音频信息,通过频谱转换501将音频信息转换为语谱图,训练设备502基于训练数据A得到音频特征提取模型503,语谱图通过音频特征提取模型503输出音频特征向量,训练设备502基于训练数据D得到预测面部特征模型504,音频特征向量通过预测面部特征模型504输出预测的面部特征向量。
在一种可能的实现方式中,将预测的面部特征向量输入面部特征向量-面部图像数据库505,计算预测的面部特征向量与面部特征向量-面部图像数据库505里的面部特征向量的最小向量距离,找到与预测的面部特征向量最相似的面部特征向量数据库里面部特征向量,该面部特征向量对应的人脸图像为找到的预测的面部特征向量的相似人脸图像。
在另一种可能的实现方式中,训练设备502基于训练数据C得到人脸合成模型506,将预测的面部特征向量输入人脸合成模型506,输出为合成的面部图像。
如图6,为本申请实施例提供的一种根据人声匹配相似人脸的方法流程图。该方法可以应用于带有触屏操作显示屏的终端终端设备,所述设备可以是手机、平板、可触屏的电脑等其他可触屏操作的终端设备。图6,该方法包括:
S601、接收用户输入的音频信息。
S602、将音频信息转换为语谱图。
这里,可以采用上述的短时傅里叶变换将音频信息转换为语谱图
S603、将语谱图输入音频特征提取模型,音频特征提取模型输出音频特征向量。
S604、将音频特征向量输入预测面部特征模型,预测面部特征模型输出预测的面部特征向量。
S605、将预测的面部特征向量输入面部特征向量-面部图像数据库。
具体的,将预测的面部特征向量与面部特征向量-面部图像数据库里的面部特征向量进行对比,找到与预测的面部特征向量最相似的面部特征向量数据库里面部特征向量。
在一种可能的实现方式中,通过计算找到预测的面部特征向量与面部特征向量-面部图像数据库里的面部特征向量之间的最小向量距离来确认最相似的面部特征向量。
向量距离算法可以包括余弦距离算法、欧式距离算法、曼哈顿距离算法、切比雪夫距离算法、马氏距离算法等等。其中,每两个特征向量之间的距离越大,则表明这两个特征向量之间的差异较大,即两个特征向量的相似度较低;每两个特征向量之间的距离越小,则表明这两个特征向量之间的差异较小,即两个特征向量的相似度较高。当计算找到预测的面部特征向量与面部特征向量-面部图像数据库里的面部特征向量之间的最小向量距离,则该面部特征向量为最相似的面部特征向量。
在一种可能的实现方式中,通过计算预测的面部特征向量和面部特征向量-面部图像数据库里的面部特征向量之间的欧式距离来找到最相似的面部特征向量。
该欧式距离可以采用以下公式来表示:
Figure BDA0002324772080000141
其中,Yi表示预测的面部特征向量,Zi表示面部特征向量-面部图像数据库里的面部特征向量,n表示预测的面部特征向量和面部特征向量-面部图像数据库里的面部特征向量的维数,dist(Y,Z)表示预测的面部特征向量和面部特征向量-面部图像数据库里的面部特征向量之间的欧式距离。
通过计算dist(Y,Z),找到最小的dist(Y,Z),则此时的面部特征向量-面部图像数据库里的该面部特征向量为最相似的面部特征向量。
上述计算过程只是本申请的一种实现方式,不应构成限定。
S606、输出相似的面部图像。
根据上述计算得到最相似的面部特征向量,在面部特征向量-面部图像数据库中找到最相似的面部特征向量对应的面部图像,则该面部图像为根据用户声音匹配的最相似的面部图像。
在另一种可选的实施例中,接收用户输入的音频信息、将音频信息转换为语谱图、将语谱图输入音频特征提取模型,音频特征提取模型输出音频特征向量、将音频特征向量输入预测面部特征模型,预测面部特征模型输出预测的面部特征向量与上述实施例相同,在此不在赘述,不同之处在于,这里是将预测的面部特征向量输入人脸合成模型,人脸合成模型将根据预测的面部特征向量合成面部图像。
为了更好的理解本申请实施例,下面介绍本申请中提供的一种根据人声匹配相似人脸的方法在音乐平台和/或K歌平台方面的的应用,具体的,当用户作出请求时,音乐平台和/或K歌平台可以根据用户唱歌的音频信息找到相似的艺人人脸图像,并推荐该艺人歌单列表。
本方法在音乐平台和/或K歌平台方面的应用可以应用于计算机系统/服务器。参见图7,本发明系统701包括终端700、服务器710和艺人面部特征向量-艺人面部图像数据库720,终端可700以由诸如智能手机、电脑、个人数字助理(Personal Digital Assistant,PDA)之类的来实现。服务器是提供计算服务的设备。终端可以通过有线网络或者无线网络的方式与服务器相连。本实施例中,终端上安装有音乐平台和/或K歌平台软件。
该方法将将人的声音与面部长相做联结,根据人声特征预测面部特征,进而匹配相似的艺人人脸面部图像,确定艺人名称并推荐艺人歌单列表,克服了现有技术中噪声等各种环境影响导致声音-声音匹配相似艺人推荐歌单列表会出现错误的问题。
如图8所示,为终端700上的音乐平台和/或K歌平台的用户界面100,用户界面100包括搜素图标1001、我的控件1002、音乐控件1003、发现控件1004、热播电台控件1005、收藏控件1007、话筒控件1008;热播电台控件1005下方会呈现该音乐平台和/或K歌平台最受欢迎的歌单列表1006,如图8所示,歌单列表第一名歌曲名是模特,演唱者是李荣浩;第二名歌曲名是告白气球,演唱者是周杰伦;第三名歌曲名是消愁,演唱者是毛不易;第四名歌曲名是平凡之路,演唱者是朴树。
收藏控件1007可以接收并响应用户的点击操作,收藏该歌曲。
话筒控件1008可以接收并响应用户长按话筒控件1008的操作,采集用户的的音频信息,推荐与用户的音频信息相似的艺人的歌单列表。
如图9所示,话筒控件1008接收并响应用户长按话筒控件1008的操作,终端700采集用户输入的语音1009,终端700将语音1009发送给服务器710,服务器710对语音1009进行处理,服务器710可以包括已训练好的音频特征提取模型和预测面部特征模型,服务器710首先将语音1009转化为语谱图,再将语谱图输入音频特征提取模型,音频特征提取模型将输出音频特征向量,将音频特征向量输入预测面部特征模型,预测面部特征模型将输出预测的面部特征向量,计算预测的面部特征向量与艺人面部特征向量-艺人面部图像数据库720里的艺人面部特征向量之间的最小向量距离,找到与预测的面部特征向量最小的向量距离的数据库里的艺人面部特征向量对应的艺人面部图像,服务器710向终端700发送该艺人面部图像。
终端接收服务器710发送的该艺人面部图像,终端用户界面100会显示该艺人面部图像,进而会呈现如图10所示的推荐歌单列表1010。推荐歌单列表1010包括推荐的与用户的音频信息最相似的艺人面部图像1011、艺人姓名1013、以及艺人的歌曲链接和/或视频链接1012、收藏控件1007。
示例性地,若服务器710找到与用户音频信息最接近的艺人面部图像是邓紫棋,如图10,用户界面100会显示艺人面部图像1011是邓紫棋的头像、艺人姓名1013是邓紫棋、歌曲链接和/或视频链接控件1012是邓紫棋的歌曲和/或视频,例如泡沫、光年之外、再见等。
歌曲链接和/或视频链接控件1012可以接收并响应用户的点击,播放该歌曲和/或视频。
收藏控件1007可以接收用户的点击操作,收藏该歌曲。
上述实施例只是本申请的一种实现方式,不应构成限定。
下面介绍本申请实施例提供的一种根据人声匹配相似人脸的装置。
如图11,示出了本申请实施例提供的一种根据人声匹配相似人脸的装置,包括:
第一获取单元110,用于获取音频信息;
第一提取单元111,用于提取所述音频信息中的音频特征向量;
第一特征转化单元112,用于通过预测面部特征模型对所述音频特征向量进行面部特征转化,得到预测面部特征向量;
第一确定单元113,用于根据所述预测面部特征向量,从面部图像数据库中确定出与所述预测面部特征向量的向量距离最小的面部特征向量;
第二确定单元114,用于根据所述面部特征向量,从所述面部图像数据库中确定出与所述面部特征向量对应的面部图像;其中,所述面部图像数据库中包括有一个或多个面部图像和所述一个或多个面部图像各自对应的面部特征向量。在一种可能的实现方式中,所述装置还包括:
第三确定单元,用于根据所述面部图像,确定出所述面部图像的艺人名称;
第二获取单元,用于获取所述艺人名称的歌单列表;其中,所述歌单列表包括有一个或多个歌曲链接和/或视频链接;
显示单元,用于显示所述歌单列表。
在一种可能的实现方式中,所述装置还包括:
合成单元,用于通过人脸合成模型对所述预测面部特征向量进行人脸合成,得到合成面部图像。
在一种可能的实现方式中,所述装置还包括:
第三获取单元,用于获取视频数据,所述视频数据中包括有人物的声音和人物的面部图像;
处理单元,用于从所述视频数据中分离出音频数据和图像数据;
第二提取单元,用于提取所述音频数据中的音频特征,得到样本音频特征向量;
第三提取单元,用于提取所属图像数据中的面部特征,得到样本面部特征向量;
训练单元,用于根据所述样本音频特征向量和所述样本面部特征向量,通过深度学习算法训练出所述预测面部特征模型。
本申请提出了一种根据人声匹配相似人脸的方法,该方法将人的声音与面部长相做联结,根据人声特征预测面部特征,进而匹配相似人脸,根据相似人脸确认艺人名称并进一步推荐艺人歌单列表,克服了现有技术中噪声等各种环境影响导致声音-声音匹配相似艺人推荐歌单列表会出现错误的问题。
图12是本申请实施例提供的一种训练设备的结构示意图。图12所示的训练装置1200(该装置1200具体可以是一种计算机设备)包括存储器1201、处理器1202、通信接口1203以及总线1204。其中,存储器1201、处理器1202、通信接口1203通过总线1204实现彼此之间的通信连接。
存储器1201可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器1201可以存储程序,当存储器1201中存储的程序被处理器1202执行时,处理器1202和通信接口1203用于执行本申请实施例训练方法的各个步骤。
处理器1202可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序。
处理器1202还可以是一种集成电路芯片,具有信号的处理能力。上述的处理器1202还可以是通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1201,处理器1202读取存储器1201中的信息,结合其硬件完成本申请实施例的训练装置中包括的单元所需执行的功能。
通信接口1203使用例如但不限于收发器一类的收发装置,来实现装置1200与其他设备或通信网络之间的通信。例如,可以通过通信接口1203获取训练数据。
总线1204可包括在装置1200各个部件(例如,存储器1201、处理器1202、通信接口1203)之间传送信息的通路。
图13所示的匹配面部图像/合成面部图像的执行装置1300(该装置1300具体可以是一种计算机设备)包括存储器1301、处理器1302、通信接口1303以及总线1304。其中,存储器1301、处理器1302、通信接口1303通过总线1304实现彼此之间的通信连接。
存储器1301可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器1301可以存储程序,当存储器1301中存储的程序被处理器1302执行时,处理器1302和通信接口1303用于执行本申请实施例的匹配面部图像/合成面部图像的各个步骤。
处理器1302可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序。
处理器1302还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的匹配面部图像的生成方法的各个步骤可以通过处理器1302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1302还可以是通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1301,处理器1302读取存储器1301中的信息,结合其硬件完成本申请实施例中包括的单元所需执行的功能。
通信接口1303使用例如但不限于收发器一类的收发装置,来实现装置1300与其他设备或通信网络之间的通信。例如,可以通过通信接口1303获取训练数据。
总线1304可包括在装置1300各个部件(例如,存储器1301、处理器1302、通信接口1303)之间传送信息的通路。
在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图6方法。
所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的服务器、终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、服务器和终端,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种根据人声匹配相似人脸的方法,其特征在于,包括:
获取音频信息;
提取所述音频信息中的音频特征向量;
通过预测面部特征模型对所述音频特征向量进行面部特征转化,得到预测面部特征向量;
根据所述预测面部特征向量,从面部图像数据库中确定出与所述预测面部特征向量的向量距离最小的面部特征向量;
根据所述面部特征向量,从所述面部图像数据库中确定出与所述面部特征向量对应的面部图像;其中,所述面部图像数据库中包括有一个或多个面部图像和所述一个或多个面部图像各自对应的面部特征向量。
2.根据权利要求1所述的方法,其特征在于,所述提取音频信息中的音频特征向量,具体包括:
将所述音频信息转换为语谱图;
通过音频特征提取模型对所述语谱图进行特征提取,得到所述音频特征向量。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述面部特征向量,从所述面部图像数据库中确定出与所述面部特征向量对应的面部图像之后,所述方法还包括:
根据所述面部图像,确定出所述面部图像的艺人名称;
获取所述艺人名称的歌单列表;其中,所述歌单列表包括有一个或多个歌曲链接和/或视频链接;
显示所述歌单列表。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过人脸合成模型对所述预测面部特征向量进行人脸合成,得到合成面部图像。
5.根据权利要求1所述的方法,其特征在于,在所述通过预测面部特征模型对所述音频特征向量进行面部特征转化,得到预测面部特征向量之前,所述方法还包括:
获取视频数据,所述视频数据中包括有人物的声音和人物的面部图像;
从所述视频数据中分离出音频数据和图像数据;
提取所述音频数据中的音频特征,得到样本音频特征向量;
提取所属图像数据中的面部特征,得到样本面部特征向量;
根据所述样本音频特征向量和所述样本面部特征向量,通过深度学习算法训练出所述预测面部特征模型。
6.一种根据人声匹配相似人脸的装置,其特征在于,包括:
第一获取单元,用于获取音频信息;
第一提取单元,用于提取所述音频信息中的音频特征向量;
第一特征转化单元,用于通过预测面部特征模型对所述音频特征向量进行面部特征转化,得到预测面部特征向量;
第一确定单元,用于根据所述预测面部特征向量,从面部图像数据库中确定出与所述预测面部特征向量的向量距离最小的面部特征向量;
第二确定单元,用于根据所述面部特征向量,从所述面部图像数据库中确定出与所述面部特征向量对应的面部图像;其中,所述面部图像数据库中包括有一个或多个面部图像和所述一个或多个面部图像各自对应的面部特征向量。
7.根据权利要求6所述的装置,其特征在于,所述第一提取单元,包括:
转换单元,用于将所述音频信息转换为语谱图;
生成单元,用于通过音频特征提取模型对所述语谱图进行特征提取,得到所述音频特征向量。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三确定单元,用于根据所述面部图像,确定出所述面部图像的艺人名称;
第二获取单元,用于获取所述艺人名称的歌单列表;其中,所述歌单列表包括有一个或多个歌曲链接和/或视频链接;
显示单元,用于显示所述歌单列表。
9.根据权利要6所述的装置,其特征在于,所述装置还包括:
合成单元,用于通过人脸合成模型对所述预测面部特征向量进行人脸合成,得到合成面部图像。
10.根据权利要求6所述的装置,其特征不在于,所述装置还包括:
第三获取单元,用于获取视频数据,所述视频数据中包括有人物的声音和人物的面部图像;
处理单元,用于从所述视频数据中分离出音频数据和图像数据;
第二提取单元,用于提取所述音频数据中的音频特征,得到样本音频特征向量;
第三提取单元,用于提取所属图像数据中的面部特征,得到样本面部特征向量;
训练单元,用于根据所述样本音频特征向量和所述样本面部特征向量,通过深度学习算法训练出所述预测面部特征模型。
11.一种匹配相似人脸装置,其特征在于,包括:一个或多个处理器、一个或多个存储器、收发器;所述一个或多个存储器与所述一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,执行如权利要求1-5任一项所述的方法。
12.一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令运行时,所述计算机指令执行如权利要求1-5任一项所述的方法。
CN201911315203.9A 2019-12-18 2019-12-18 一种根据人声匹配相似人脸的方法 Pending CN111078932A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911315203.9A CN111078932A (zh) 2019-12-18 2019-12-18 一种根据人声匹配相似人脸的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911315203.9A CN111078932A (zh) 2019-12-18 2019-12-18 一种根据人声匹配相似人脸的方法

Publications (1)

Publication Number Publication Date
CN111078932A true CN111078932A (zh) 2020-04-28

Family

ID=70316223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911315203.9A Pending CN111078932A (zh) 2019-12-18 2019-12-18 一种根据人声匹配相似人脸的方法

Country Status (1)

Country Link
CN (1) CN111078932A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132396A (zh) * 2020-08-27 2020-12-25 中信银行股份有限公司 一种基于智能匹配的客户关系分配方法及系统
CN113992972A (zh) * 2021-10-28 2022-01-28 维沃移动通信有限公司 一种字幕显示方法、装置、电子设备和可读存储介质
CN114025235A (zh) * 2021-11-12 2022-02-08 北京捷通华声科技股份有限公司 视频生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930457A (zh) * 2012-10-24 2013-02-13 深圳市万凯达科技有限公司 一种基于面部图像特征实现应用推荐的方法和系统
KR20140040582A (ko) * 2012-09-26 2014-04-03 한국과학기술연구원 몽타주 추론 방법 및 장치
CN108848419A (zh) * 2018-06-07 2018-11-20 康佳集团股份有限公司 基于生物特征识别的电视互动方法、智能电视及存储介质
CN110348409A (zh) * 2019-07-16 2019-10-18 广州国音智能科技有限公司 一种基于声纹生成人脸图像的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140040582A (ko) * 2012-09-26 2014-04-03 한국과학기술연구원 몽타주 추론 방법 및 장치
CN102930457A (zh) * 2012-10-24 2013-02-13 深圳市万凯达科技有限公司 一种基于面部图像特征实现应用推荐的方法和系统
CN108848419A (zh) * 2018-06-07 2018-11-20 康佳集团股份有限公司 基于生物特征识别的电视互动方法、智能电视及存储介质
CN110348409A (zh) * 2019-07-16 2019-10-18 广州国音智能科技有限公司 一种基于声纹生成人脸图像的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAE-HYUN OH等: "Speech2Face: Learning the Face Behind a Voice", SPEECH2FACE: LEARNING THE FACE BEHIND A VOICE, vol. 2019, pages 1 - 11 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132396A (zh) * 2020-08-27 2020-12-25 中信银行股份有限公司 一种基于智能匹配的客户关系分配方法及系统
CN113992972A (zh) * 2021-10-28 2022-01-28 维沃移动通信有限公司 一种字幕显示方法、装置、电子设备和可读存储介质
CN114025235A (zh) * 2021-11-12 2022-02-08 北京捷通华声科技股份有限公司 视频生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
EP4047598B1 (en) Voice matching method and related device
CN111325155B (zh) 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法
CN110473141B (zh) 图像处理方法、装置、存储介质及电子设备
CN109949255B (zh) 图像重建方法及设备
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN111667399B (zh) 风格迁移模型的训练方法、视频风格迁移的方法以及装置
CN112418392A (zh) 一种神经网络构建方法以及装置
CN111179419B (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN110069985B (zh) 基于图像的目标点位置检测方法、装置、电子设备
CN111078932A (zh) 一种根据人声匹配相似人脸的方法
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN113326930A (zh) 数据处理方法、神经网络的训练方法及相关装置、设备
CN112818764A (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN113516990A (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
KR101910089B1 (ko) 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
CN112562728B (zh) 生成对抗网络训练方法、音频风格迁移方法及装置
CN111785286A (zh) 面向家居cnn分类与特征匹配联合的声纹识别方法
CN112949506A (zh) 一种低成本实时骨骼关键点识别方法和装置
KR20220018633A (ko) 이미지 검색 방법 및 장치
CN117115312B (zh) 一种语音驱动面部动画方法、装置、设备及介质
CN114758636A (zh) 一种舞曲生成方法、装置、终端和可读存储介质
Lin et al. Domestic activities clustering from audio recordings using convolutional capsule autoencoder network
CN113792537A (zh) 一种动作生成方法以及装置
CN117409459A (zh) 一种图像生成方法及相关装置
CN113593537B (zh) 基于互补特征学习框架的语音情感识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination