CN111160110A

CN111160110A - 基于人脸特征和声纹特征识别主播的方法及装置

Info

Publication number: CN111160110A
Application number: CN201911244819.1A
Authority: CN
Inventors: 张菁; 姚嘉诚; 卓力; 李晨豪; 王立元
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-15

Abstract

本发明实施例提供一种基于人脸特征和声纹特征识别主播的方法及装置，其中方法包括：根据预先训练的神经网络模型，从直播视频中提取待识别主播的身份特征，根据局部敏感哈希方法将所述身份特征存储至预先生成的哈希桶中，将与所述身份特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的身份特征；计算所述样本主播的身份特征与所述待识别主播的身份特征间的相似度，将相似度最高的样本主播作为所述待识别主播。本发明实施例适应直播条件下识别主播的要求。

Description

基于人脸特征和声纹特征识别主播的方法及装置

技术领域

本发明涉及视频监控技术领域，更具体地，涉及基于人脸特征和声纹特征识别主播的方法及装置。

背景技术

网络直播，即互联网直播服务，是一种主播主导、全新的互联网视听节目，通常采用视频、音频、图文等形式，实时向公众播送各种咨询或节目等。截至2019年6月，我国网络直播用户规模达4.33亿，占网民整体的50.7％，其中真人秀直播的用户规模为2.05亿，占网民整体的24.0％。

网络直播吸引着越来越多的用户，而经济利益的诱惑和监管上的疏漏等也导致了直播行业的各种乱象。部分主播为了自身利益，不择手段的吸引观众眼球，其手法主要分为两类。一类是涉嫌违法犯罪的行为，如淫秽色情表演、侵犯隐私、侵犯版权、虚假炒作、寻衅滋事、亵渎国家象征等；另一类是虽不触犯法律，但其行为影响恶劣，败坏社会风气的行为，如言语暴力低俗、攀比炫富、违规广告、虐杀动物，不尊重民族历史文化的内容等。这些主播并非不知道其直播内容不符合规章制度，更多的是抱有即使被所在平台封杀也可以换一个平台、账号继续直播的侥幸心理，导致此类行为屡禁不止。

为了减少此类网络不良内容在互联网上的传播，需要对不良主播进行跨平台关联识别，从而净化互联网环境。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于人脸特征和声纹特征识别主播的方法及装置。

第一个方面，本发明实施例提供一种基于人脸特征和声纹特征识别主播的方法，包括：

根据预先训练的神经网络模型，从直播视频中提取待识别主播的身份特征，所述身份特征包括人脸特征和声纹特征；

根据局部敏感哈希方法将所述身份特征存储至预先生成的哈希桶中，将与所述身份特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的身份特征；

计算所述样本主播的身份特征与所述待识别主播的身份特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

进一步地，所述神经网络模型包括检测网络模型和识别网络模型；

相应地，所述根据预先训练的神经网络模型，从直播视频中提取待识别主播的身份特征，包括：

从所述直播视频中截取视频图像，将所述视频图像输入所述检测网络模型，获得识别框向量，所述识别框向量用于表征视频图像中的识别框位置以及识别框内图案识别为人脸的概率；

根据所述识别框向量从视频图像中截取人脸图像，并输入至所述识别网络模型，输出人脸特征。

进一步地，所述检测网络模型为多任务卷积神经网络；相应地，所述将所述视频图像输入所述检测网络模型，获得识别框向量，具体为：

将所述视频图像缩放为若干张不同缩放比例的图像；

将所述若干张不同缩放比例的图像输入至多任务卷积神经网络，获得每张图像的识别框向量。

进一步地，所述根据所述识别框向量从视频图像中截取人脸图像，并输入至所述识别网络模型，输出人脸特征，具体为：

根据识别为人脸的概率最高的识别框向量从视频图像中截取人脸图像，并输入至所述识别网络模型，输出人脸特征。

进一步地，所述神经网络模型包括深度卷积神经网络；

将所述直播视频中的至少一帧音频信息转换为Fbank特征；

将获得的至少一个Fbank特征输入至预先训练的深度卷积神经网络中，输出声纹特征。

进一步地，所述从直播视频中提取待识别主播的身份特征，具体为：

从直播视频中提取待识别主播的人脸特征和声纹特征，并将所述人脸特征和声纹特征进行拼接，将拼接后的特征作为所述身份特征。

进一步地，所述计算所述样本主播的身份特征与所述待识别主播的身份特征间的相似度，具体为：

将所述样本主播的身份特征还原为样本主播的人脸特征和声纹特征；

将所述样本主播的人脸特征与待识别主播的人脸特征进行余弦相似度度量，将所述样本主播的声纹特征与待识别主播的声纹特征进行余弦相似度度量；

将两个度量结果分别乘以预设权重再相加，获得所述样本主播的身份特征与所述待识别主播的身份特征间的相似度。

第二个方面，本发明实施例提供一种基于人脸特征和声纹特征识别主播的装置，包括：

身份特征提取模块，用于根据预先训练的神经网络模型，从直播视频中提取待识别主播的身份特征，所述身份特征包括人脸特征和声纹特征；

映射模块，用于根据局部敏感哈希方法将所述身份特征存储至预先生成的哈希桶中，将与所述身份特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的身份特征；

相似度计算模块，计算所述样本主播的身份特征与所述待识别主播的身份特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的基于人脸特征和声纹特征识别主播的方法及装置，通过获取不容易随直播环境变化而变化的人脸特征和声纹特征作为身份特征，通过局部敏感哈希方法先找出与待识别主播相似的少量样本主播，然后从少量样本主播中根据相似度大小确定真正的主播，提高了识别效率，适应直播条件下识别主播的要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于人脸特征和声纹特征识别主播的方法的流程示意图；

图2为本发明实施例的检测网络模型在训练时的架构图；

图3为本发明实施例的Fbank特征的提取方法的流程示意图；

图4为本发明另一个实施例的基于人脸特征和声纹特征识别主播的方法的流程示意图；

图5为本发明实施例提供的基于人脸特征和声纹特征识别主播的装置的结构示意图；

图6为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例的基于人脸特征和声纹特征识别主播的方法的流程示意图，如图1所示，该方法包括：

S101、根据预先训练的神经网络模型，从直播视频中提取待识别主播的身份特征，所述身份特征包括人脸特征和声纹特征。

需要说明的，考虑到主播在直播过程中可能穿着不同的服装，本发明实施例将变化较小的人脸特征和声纹特征作为主播的身份特征。本发明实施例中主播的身份特征是通过预先训练的神经网络模型获取的，可以理解的是，预习训练的神经网络模型以样本直播视频为样本，以样本直播视频中主播的人脸特征和声纹特征为标签训练而成。具体训练过程可以为，将样本直播视频输入至神经网络模型中，输出识别出的主播的人脸特征和声纹特征，将识别出的人脸特征和声纹特征与标签间的相似度作为损失，根据损失调整神经网络模型中需要更新的量，直至损失小于预设阈值或者训练测试达到预设数目。

S102、根据局部敏感哈希方法将所述身份特征存储至预先生成的哈希桶中，将与所述身份特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的身份特征。

针对主播直播视频信息数据量大，关联检索时计算复杂度高的特点，本发明实施例以局部敏感哈希方法将采用同一神经网络模型计算的样本主播的身份特征映射为哈希值，然后根据同样的局部敏感哈希方法将待识别主播的身份特征进行映射，基于哈希映射后相似特征分配至同一哈希桶内概率更大的准则，将处于同一哈希桶内的特征作为待匹配的样本主播的身份特征，这样在后续进行相似度计算时能够极大地减少运算量，从而适应直播条件下识别主播的要求。

S103、计算所述特征向量与所述身份特征间的相似度，将相似度最高的特征向量对应的样本主播作为所述待识别主播。

需要说明的是，本发明实施通过计算向量直接的相似度，找出相似度最高的特征向量对应的样本主播作为待识别主播。本发明实施例对相似度的具体算法不做具体限定，例如以欧式距离、余弦距离等等表征相似度。

需要说明的是，本发明实施例通过获取不容易随直播环境变化而变化的人脸特征和声纹特征作为身份特征，通过局部敏感哈希方法先找出与待识别主播相似的少量样本主播，然后从少量样本主播中根据相似度大小确定真正的主播，提高了识别效率，适应直播条件下识别主播的要求。

作为一种可选实施例，本发明实施例还包括：将各平台上违禁、封杀的主播的身份特征构建违禁主播数据库，当识别出的主播的身份是违禁主播数据库中的主播时，则向该待识别主播所在的直播平台发送告警信息。

需要说明的是，本发明实施例通过构建违禁主播数据库，将每次进行识别的主播与违禁主播数据库中的样本主播的身份特征进行比对，如果比对成功，则说明进行识别的主播是违禁主播，需要由平台进行封杀，从而实现跨平台的关联识别主播，净化互联网环境。

在上述各实施例的基础上，作为一种可选实施例，所述神经网络模型包括检测网络模型和识别网络模型；

需要说明的是，如果对图像中所有像素进行特征提取，提取出的特征向量受到主播着装、直播背景的影响，很难提取出可以用于主播身份识别的有效信息。本发明实施例通过先确定视频图像中的包含人脸的识别框，然后根据识别框中的图案获得人脸特征，只需要对包含人脸的少部分像素进行特征提取，高效获得主播面部的准确信息。

可以理解的是，本发明实施例的检测网络模型是以样本图像(该图像不一定为视频每一帧的图像，可以是任何包含有人脸图案的图像)为样本，以样本图像中人脸的识别框位置以及识别框中图案识别为人脸的概率为样本标签训练而成。

具体地，训练检测网络模型模型采用的数据集是由wider数据库提供的人脸检测数据，该数据集有32203张图片，共有93,703张脸被标记。利用数据集中的样本训练检测网络，具体训练过程如下：

(1)为了统一标准，将所有训练样本图像归一化到[-1,1]之间，计算公式如下：

其中，x表示图像中的任意一个像素的像素值；

(2)检测网络权重值从方差为0.02，符合正态分布的数据中随机选取，同时批处理大小设置为128；

(3)将训练图像输入检测网络中，输出识别框向量，标识框向量用于表征输入样本为人脸的概率和识别框位置，在本发明实施例中识别框向量为6维特征，其中前两位表示为人脸的概率，后4位表示识别框位置；

(4)计算图像G在检测网络中的损失和需要更新的量。

(5)对于检测是否有人脸存在的问题，即检测网络输出的6维特征向量的前2位(即表示识别为人脸的概率的部分向量)使用交叉熵损失函数：

其中，

表示样本的真实标签，p_i表示网络输出为人脸的概率。

对于图像中人脸边界框位置的判定，即6维特征向量的后4位使用欧氏距离作为损失函数：

其中，

代表网络预测的边界框坐标，而

代表真实边界框坐标。

图2为本发明实施例的检测网络模型在训练时的架构图，如图2所示，输入图像大小上限为2000×1100像素，下限为250×130，输出的是一组特征向量，也可理解是一幅6通道的特征图，把特征图中的一个像素(普通的RGB图像有三个颜色通道，每个像素由3个值表示，对于这幅特征图可以理解为每个像素由6个值表示)摘取出来是一个6维向量，内含识别框坐标信息和人脸概率。由于检测网络的结构是已知的，所以可以倒推出这个像素点对应原图中的哪一个56*56的区域。对于整个特征图只需要遍历第5第6通道就可以找出人脸存在概率高于某个阈值的位置，第1至4通道就是识别框的坐标。

在上述各实施例的基础上，作为一种可选实施例，本发明实施例的识别网络模型以样本图像的人脸图像为样本，以样本图像的人脸特征为样本标签训练而成。

需要说明的是，本发明实施例的识别网络模型主要用于提取主播脸部图像的深度特征(即人脸特征)。识别网络基于ResNet-50提取人脸图像深度特征。ResNet(ResidualNeural Network)，即残差网络，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。ResNet-50即具有50层卷积层的残差网络。

作为一种可选实施例，识别网络模型的训练过程为：

1)、将训练样本的每个像素归一化至[-1,1]之间；

2)、从符合正态分布的数据中随机选取权重值，并把批处理大小设置为128；

3)、在识别网络模型的末端添加全连接层和softmax层，以单张归一化处理后的样本作为输入，以交叉熵损失作为损失函数，计算样本在识别网络模型中的损失和需要更新的参数；

4)、在步骤3)多次迭代后，删除全连接层和softmax层，保留训练好的卷积层参数，并将有三张图像样本组成的三元组(P,A,N)输入至识别网络中；

5)、计算三元组(P,A,N)在识别网络模型中的损失和需要更新的参数，若损失大于预设阈值，则重复执行步骤4)，若损失小于预设阈值获知步骤4)的迭代次数达到预设次数，则停止训练。

可以理解的是，三元组中的其中一幅作为基准(anchor)，另外两幅图分别是同一人的人脸图像(positive)和不同的人的人脸图像(negative)，每个通道输出一个特征向量，分别计算出基准图与另外两幅图被神经网络提取出的特征向量的余弦相似度(cosinesimilarity)，通过三元组损失(triplet loss)对识别网络进行优化。

在上述各实施例的基础上，作为一种可选实施例，本发明实施例的检测网络模型为多任务卷积神经网络(Multi-Task Convolutional Neural Networks)，大部分的机器学习任务属于单任务学习，即一次只学习一个任务，而多任务卷积神经网络能够一次学习多个任务，利用多任务卷积神经网络把寻找框的位置和检测人脸存在概率两个任务集成到了一个网络中去完成。

在上述实施例的基础上，作为一种可选实施例，所述将所述视频图像输入所述检测网络模型，获得识别框向量，具体为：

将所述视频图像缩放为若干张不同缩放比例的图像；

需要说明的是，为了解决主播脸部图像尺度不一的问题，本发明先对原始进行尺度变换生成图像金字塔，图像金字塔是由若干张不同缩放比例的图像构成的，比如对原始的视频图像以

为比例的缩放，再设定图像大小上限为2000×1100像素，下限为250×130，当图像经过缩放后的长和宽均处于限制范围内时，就按照比例继续进行缩小或放大，生成数张不同尺度的图像。

之后，利用多任务卷积神经网络能够处理多个任务的特性，将生成的图像金字塔输入至多任务卷积神经网络中，通过连续的多次卷积和池化操作，即可得到H×W×6维特征图，其中H为特征图长度，W为特征图宽度，由输入图像的大小决定，每一组1×1×6的特征向量对应输入图像上的一个区域，该特征向量的前几位表示识别为人脸的概率，后几位表示边界框位置。

在上述各实施例的基础上，作为一种可选实施例，根据所述识别框向量从视频图像中截取人脸图像，并输入至所述识别网络模型，输出人脸特征，具体为：

需要说明的是，由于多任务卷积神经网络能够针对每个图像示出一个识别框向量，因此本发明实施例将识别为人脸的概率最高的识别框向量，从对应的图像中截取出人脸图像，并输入至识别网络中，输出人脸特征。

在上述各实施例的基础上，作为一种可选实施例，本发明实施例的神经网络模型包括深度卷积神经网络。

将所述直播视频中的至少一帧音频信息转换为Fbank特征；

需要说明的是，尽管目前大部分语音识别过程中通常基于MFCC(Mel FrequencyCepstral Coefficents)特征作为语音特征，但是考虑到Fbank特征的计算量相比MFCC更小，同时Fbank特征保留的信息更多，因此本发明选择从音频信息中提取Fbank特征。本发明实施例的深度卷积神经网络是以样本主播的Fbank特征为样本，以样本主播的声纹特征为样本标签训练而成。

本发明实施例为了获取主播语音深度特征，对主播的声纹进行表征，对主播身份识别进行辅助。

图3为本发明实施例的Fbank特征的提取方法的流程示意图，如图3所示，该方法包括：

S301、对音频进行分帧处理，即将音频切分成固定长度的小段。例如取25ms为一帧，帧迭10ms。

S302、对分帧后的语音信号s(n)进行预加重，n＝1,2,….,N，N代表每一帧的长度，计算公式如下：

S303、用汉明窗对音频信号加窗，消除各个帧两端可能会造成的信号不连续性，计算公式如下：

S304、对音频信号做快速傅里叶变换得到频谱，并对频谱求模平方计算能量谱，计算公式如下：

ε(ω)＝|F(jω)|²

式中，N为傅里叶变换的点数，取128。ε(ω)和F(jω)分别代表能量谱值和频谱值；

S305、用一组Mel频标上线性分布的三角窗滤波器(共64个)，对信号的功率谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应，并对滤波结果求对数，得到64维Fbank特征，计算公式为：

M_log(b)＝log(M(b))

其中，m(j)代表频谱上不同位置的能量，b为滤波器个数，决定最终提取到的Fbank特征维度，取64，M_log(b)即为最终提取到的Fbank特征。

深度卷积神经网络主要由28层连续卷积层构成，输入为形如F×64×1的张量，F代表帧数，即输入数据是F个64维Fbank特征向量。经过连续卷积提取深度特征后，在帧维度上对得到的特征向量取均值，最后得到一个512维特征向量。训练时，通过孪生网络结构以三个形如F×64×1的张量组成的三元组作为输入，其中两个张量是由同一个人的语音提取出的Fbank特征组成，第三个张量由另一个人的语音提取出的Fbank特征组成。深度卷积神经网络提取出三个张量的深度特征，计算出特征向量间的余弦相似度，通过Triplet loss损失函数对网络进行优化。深度卷积神经网络模型参数训练过程如下：

1)对有样本提取Fbank特征并归一化，公式如下：

Fbank特征向量为V＝(v₁,v₂,...,v_n)，i∈[1,n]，v_i表示向量V中的某个维度，

表示向量V所有维度的算术平均值，std(v)表示向量V中所有维度的标准差，epsilon＝1×10^-12，防止std(v)＝0。

2)检测网络权重值从方差为0.02，符合正态分布的数据中随机选取，同时批处理大小设置为128；

3)在深度卷积神经网络末端添加全连接层和softmax层，以单组Fbank特征向量组为输入，以交叉熵损失作为损失函数计算在网络中的损失和需要更新的参数；

4)在步骤3)迭代次数达到预设次数后，删除全连接层和softmax层，保留训练好的卷积层参数，将由Fbank特征向量组构成的三元组(P，A，N)输入深度卷积神经网络，输出positive pair和negative pair之间深度特征的余弦相似度；

5)计算三元组(P，A，N)在神经网络中的损失和需要更新的变量，损失函数为triplet loss，公式如下：

L＝max(d(a,n)-d(a,p)+margin,0)

其中，d(a,p)与d(a,n)分别表示positive pair和negative pair的余弦相似度，margin取0.2。

需要说明的，通过上述各实施例的说明可知，本发明实施例的识别网络模型和深度卷积神经网络模型的训练都是通过孪生网络(Siamese Network)的方式进行训练的，并且在通过孪生网络训练前，先通过引入全连接层和softmax层对卷积层的参数进行预训练，预训练后再通过孪生网络进行训练，这样能够使得孪生网络的训练次数尽可能减少。

本发明实施例中的各神经网络模型(包括检测网络模型、识别网络模型、深度卷积神经网络)的参数均采用自适应矩估计(Adaptive Moment Estimation,Adam)算法进行优化，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，具体步骤如下：

f_t(θ_t)表示在t时刻的随机噪声函数，优化的目标是求当f_t(θ_t)最小时，模型参数θ_t的取值更新。为此，首先计算其t时刻的梯度值g_t，利用优化前的噪声函数f_t(θ_t-1)对θ求导，公式为：

其中，g_t的期望值和方差可以分别通过计算其t时刻的一阶矩m_t和二阶矩v_t获得，计算公式如下所示：

m_t＝β₁.m_t-1+(1-β₁)g_t (5)

其中，β₁,β₂∈[0,1]，表示m_t和v_t的指数衰减率，取β₁＝0.9，β₂＝0.999，m_t-1和v_t-1分别表示t-1时刻g_t的一阶矩和二阶矩，

表示g_t的平方。为了估计下一时刻的参数，需要对m_t和v_t进行校正，校正公式如下：

上式中，

和

分别表示t时刻的β₁和β₂的值。

根据校正后的噪声梯度的期望和方差

和

对t时刻的模型参数θ_t利用下述公式进行更新，最终实现对参数θ_t的优化。

其中，α和ε为缺省值，通常默认取值为α＝0.001，ε＝10^-8。

在上述各实施例的基础上，作为一种可选实施例，所述从直播视频中提取待识别主播的身份特征，具体为：

从直播视频中提取待识别主播的人脸特征和声纹特征，并将所述人脸特征和声纹特征进行拼接，将拼接后的特征作为所述身份特征。例如，若人脸特征为384维的特征向量，声纹特征为512维的特征向量，拼接后将生成896维的特征向量。

在上述各实施例的基础上，作为一种可选实施例，根据局部敏感哈希方法将所述身份特征存储至预先生成的哈希桶中，具体为：

选择一定数量的随机映射哈希函数对所述身份特征进行映射；

其中，映射函数的个数为哈希值的维度；映射函数满足以下条件：

如果两个向量间的距离d(x,y)小于d₁，则f(x)＝f(y)的概率至少为p₁；

如果两个向量间的距离d(x,y)大于d₂，则f(x)＝f(y)的概率至多为p₂；

d₁＜＜d₂，p₁＞＞p₂，x和y分别表示两个向量。

需要说明的是，针对主播直播图像、语音信息数据量大，关联检索时计算复杂度高的特点，考虑到图像检索的实际应用，本发明实施例选取的哈希方法必须满足相似性距离不变的要求。采用局部敏感哈希方法对主播的视觉-听觉融合特征即身份特征进行映射。

首先，对于身份特征H＝(H₁,H₂,...,H_N)，N表示特征向量的维度，选定N′个随机映射函数f＝(f₁,f₂,...,f_N′)对H进行映射。函数公式如下：

H(V)＝sign(V·R)

上式中，R为随机向量，映射函数f的个数N′代表映射后融合特征的维度，可以通过设定N′的取值进行调整。同时映射函数f满足一下两点要求：

d₁＜＜d₂，p₁＞＞p₂，x和y分别表示两个向量。

对于该映射函数，

即两个向量间的夹角大小，

经过函数映射后向量间余弦距离相对大小不变，公式为：

在上述各实施例的基础上，作为一种可选实施例，所述计算所述样本主播的身份特征与所述待识别主播的身份特征间的相似度，具体为：

需要说明的是，样本主播的身份特征预先通过相同的局部敏感哈希方法存储至各个哈希桶中，所以在对待识别主播的身份特征进行哈希运算后，将处于同一个哈希桶在的其他样本主播的身份特征作为待匹配的身份特征。由于身份特征是通过拼接而成的，而人脸特征和声纹特征的维度都是固定的，因此可以轻易地将身份特征进一步还原为人脸特征和声纹特征。通过将样本主播和待识别主播的人脸特征和声纹特征分别进行余弦相似度度量，根据两个度量结果分别乘以预设权重再相加，获得所述样本主播的身份特征与所述待识别主播的身份特征间的相似度。

图4为本发明另一个实施例的基于人脸特征和声纹特征识别主播的方法的流程示意图，如图4所示，该方法包括：

获取一定数量的样本主播，样本主播可以是被各个平台封禁的主播，称之为不良主播，对每个不良主播，提取不良主播的直播图像和音频信息，确定音频信息中的Fbank特征以及图像中的脸部位置；将Fbank特征通过预先训练的深度卷积神经网络提取声纹特征；根据图像中的脸部位置截取指标的脸部图像，根据脸部图像通过识别网络模型提取人脸特征，将声纹特征和人脸特征进行拼接，获得身份特征，将身份特征通过局部敏感哈希方法进行存储，从而得到若干个哈希桶，每个哈希桶中至少有一个样本主播的身份特征；

对于待识别的主播，提取主播的直播图像和音频信息，确定音频信息中的Fbank特征以及图像中的脸部位置；将Fbank特征通过预先训练的深度卷积神经网络提取声纹特征；根据图像中的脸部位置截取指标的脸部图像，根据脸部图像通过识别网络模型提取人脸特征，将声纹特征和人脸特征进行拼接，获得身份特征，将身份特征通过局部敏感哈希方法进行存储；

查询待识别的主播的哈希值所处的哈希桶，将处于同一个哈希桶中的样本主播作为待匹配的主播，将待匹配的样本主播的身份特征拆分成人脸特征和声纹特征，再将待匹配的主播人脸特征和声纹特征分别与待识别主播的人脸特征和声纹特征进行余弦相似度的计算，将两个计算结果分别乘以预设权重再相加，获得所述样本主播的身份特征与所述待识别主播的身份特征间的相似度，将相似度最高的样本主播作为待识别主播。

图5为本发明实施例提供的基于人脸特征和声纹特征识别主播的装置的结构示意图，如图5所示，该基于人脸特征和声纹特征识别主播的装置包括：身份特征提取模块501、映射模块502和相似度计算模块503，其中：

身份特征提取模块501，用于根据预先训练的神经网络模型，从直播视频中提取待识别主播的身份特征，所述身份特征包括人脸特征和声纹特征；

映射模块502，用于根据局部敏感哈希方法将所述身份特征存储至预先生成的哈希桶中，将与所述身份特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的身份特征；

相似度计算模块503，计算所述样本主播的身份特征与所述待识别主播的身份特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

本发明实施例提供的基于人脸特征和声纹特征识别主播的装置，具体执行上述各基于人脸特征和声纹特征识别主播的方法实施例流程，具体请详见上述各基于人脸特征和声纹特征识别主播的方法实施例的内容，在此不再赘述。本发明实施例提供的基于人脸特征和声纹特征识别主播的装置通过获取不容易随直播环境变化而变化的人脸特征和声纹特征作为身份特征，通过局部敏感哈希方法先找出与待识别主播相似的少量样本主播，然后从少量样本主播中根据相似度大小确定真正的主播，提高了识别效率，适应直播条件下识别主播的要求。

图6为本发明实施例提供的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储在存储器630上并可在处理器610上运行的计算机程序，以执行上述各实施例提供的基于人脸特征和声纹特征识别主播的方法及装置，例如包括：根据预先训练的神经网络模型，从直播视频中提取待识别主播的身份特征，所述身份特征包括人脸特征和声纹特征；根据局部敏感哈希方法将所述身份特征存储至预先生成的哈希桶中，将与所述身份特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的身份特征；计算所述样本主播的身份特征与所述待识别主播的身份特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于人脸特征和声纹特征识别主播的方法，例如包括：根据预先训练的神经网络模型，从直播视频中提取待识别主播的身份特征，所述身份特征包括人脸特征和声纹特征；根据局部敏感哈希方法将所述身份特征存储至预先生成的哈希桶中，将与所述身份特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的身份特征；计算所述样本主播的身份特征与所述待识别主播的身份特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于人脸特征和声纹特征识别主播的方法，其特征在于，包括：

2.根据权利要求1所述的基于人脸特征和声纹特征识别主播的方法，其特征在于，所述神经网络模型包括检测网络模型和识别网络模型；

3.根据权利要求2所述的基于人脸特征和声纹特征识别主播的方法，其特征在于，所述检测网络模型为多任务卷积神经网络；相应地，所述将所述视频图像输入所述检测网络模型，获得识别框向量，具体为：

将所述视频图像缩放为若干张不同缩放比例的图像；

4.根据权利要求3所述的基于人脸特征和声纹特征识别主播的方法，其特征在于，所述根据所述识别框向量从视频图像中截取人脸图像，并输入至所述识别网络模型，输出人脸特征，具体为：

5.根据权利要求1所述的基于人脸特征和声纹特征识别主播的方法，其特征在于，所述神经网络模型包括深度卷积神经网络；

将所述直播视频中的至少一帧音频信息转换为Fbank特征；

6.根据权利要求1-5任意一项所述的基于人脸特征和声纹特征识别主播的方法，其特征在于，所述从直播视频中提取待识别主播的身份特征，具体为：

7.根据权利要求6所述的基于人脸特征和声纹特征识别主播的方法，其特征在于，所述计算所述样本主播的身份特征与所述待识别主播的身份特征间的相似度，具体为：

8.一种基于人脸特征和声纹特征识别主播的装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于人脸特征和声纹特征识别主播的方法的步骤。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的基于人脸特征和声纹特征识别主播的方法。