CN111128196A

CN111128196A - 基于声纹特征识别主播的方法及装置

Info

Publication number: CN111128196A
Application number: CN201911243498.3A
Authority: CN
Inventors: 张菁; 姚嘉诚; 卓力; 李晨豪; 王立元
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-08
Anticipated expiration: 2039-12-06
Also published as: CN111128196B

Abstract

本发明实施例提供一种基于声纹特征识别主播的方法及装置，其中方法包括：从待识别主播的直播视频中截取若干帧音频信息，根据预先训练的神经网络模型，从所述若干帧音频信息中提取待识别主播的声纹特征；根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中，将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征；计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度，将相似度最高的样本主播作为所述待识别主播。本发明实施例适应直播条件下识别主播的要求。

Description

基于声纹特征识别主播的方法及装置

技术领域

本发明涉及视频监控技术领域，更具体地，涉及基于声纹特征识别主播的方法及装置。

背景技术

网络直播，即互联网直播服务，是一种主播主导、全新的互联网视听节目，通常采用视频、音频、图文等形式，实时向公众播送各种咨询或节目等。截至2019年6月，我国网络直播用户规模达4.33亿，占网民整体的50.7％，其中真人秀直播的用户规模为2.05亿，占网民整体的24.0％。

网络直播吸引着越来越多的用户，而经济利益的诱惑和监管上的疏漏等也导致了直播行业的各种乱象。部分主播为了自身利益，不择手段的吸引观众眼球，其手法主要分为两类。一类是涉嫌违法犯罪的行为，如淫秽色情表演、侵犯隐私、侵犯版权、虚假炒作、寻衅滋事、亵渎国家象征等；另一类是虽不触犯法律，但其行为影响恶劣，败坏社会风气的行为，如言语暴力低俗、攀比炫富、违规广告、虐杀动物，不尊重民族历史文化的内容等。这些主播并非不知道其直播内容不符合规章制度，更多的是抱有即使被所在平台封杀也可以换一个平台、账号继续直播的侥幸心理，导致此类行为屡禁不止。

为了减少此类网络不良内容在互联网上的传播，需要对不良主播进行跨平台关联识别，从而净化互联网环境。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于声纹特征识别主播的方法及装置。

第一个方面，本发明实施例提供一种基于声纹特征识别主播的方法，包括：

从待识别主播的直播视频中截取若干帧音频信息，根据预先训练的神经网络模型，从所述若干帧音频信息中提取待识别主播的声纹特征；

根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中，将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征；

计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

进一步地，所述根据预先训练的神经网络模型，从所述若干帧音频信息中提取待识别主播的声纹特征，具体为：

将每一帧音频信息转换为Fbank特征；

将获得的所有Fbank特征输入至预先训练的神经网络模型中，输出声纹特征。

进一步地，所述神经网络模型的训练方法为：

构建若干个三元组，所述三元组包括基准、正样本和负样本，所述基准和正样本为由一个人的不同样本语音提取出的Fbank特征，所述负样本为另一个人的样本语音提取出的Fbank特征；

将所述三元组输入至所述神经网络模型，输出三元组中基准、正样本和负样本的特征向量；

计算所述基准的特征向量与正样本的特征向量间的余弦相似度以及所述基准的特征向量与负样本的特征向量间的余弦相似度；

根据两种余弦相似度确定三元组损失，根据所述三元组损失对所述神经网络模型进行优化。

进一步地，所述将所述三元组输入至所述神经网络模型，之前还包括：

在所述神经网络模型的末端添加全连接层和softmax层；

每次选择单个样本Fbank特征对所述神经网络模型进行训练，当训练次数达到预设阈值或者所述神经网络模型的损失小于预设要求时，删除所述全连接层和softmax层；

其中，所述每次选择单个样本Fbank特征对所述神经网络进行训练，具体为：

以单个样本Fbank特征为所述神经网络模型的输入，以交叉熵函数作为损失函数，计算单张人脸图像在所述神经网络模型中的损失和需要更新的参数。

进一步地，所述神经网络模型为深度卷积神经网络模型。

进一步地，将每一帧音频信息转换为Fbank特征，具体为：

根据汉明窗对所述音频信息加窗，对加窗后的音频信息做快速傅里叶变换，获得频谱；

对所述频谱求模平方，获得能量谱；

根据若干个在Mel频标上线性分布的三角窗滤波器，对信号的能量谱进行滤波，对滤波结果求对数，获得每一帧音频信息的Fbank特征。

第二个方面，本发明实施例提供一种基于声纹特征识别主播的装置，包括：

声纹特征提取模块，用于从待识别主播的直播视频中截取若干帧音频信息，根据预先训练的神经网络模型，从所述若干帧音频信息中提取待识别主播的声纹特征；

映射模块，用于根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中，将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征；

相似度计算模块，用于计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的基于声纹特征识别主播的方法及装置，通过获取不容易随直播环境变化而变化的声纹特征作为识别信息，通过局部敏感哈希方法先找出与待识别主播相似的少量样本主播，然后从少量样本主播中根据相似度大小确定真正的主播，提高了识别效率，适应直播条件下识别主播的要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于声纹特征识别主播的方法的流程示意图

图2为本发明实施例的Fbank特征的提取方法的流程示意图；

图3为本发明另一个实施例的基于声纹特征别主播的方法的流程示意图；

图4为本发明实施例提供的基于声纹特征识别主播的装置的结构示意图；

图5为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例的基于声纹特征识别主播的方法的流程示意图，如图1所示，该方法包括：

S101、从待识别主播的直播视频中截取若干帧音频信息，根据预先训练的神经网络模型，从所述若干帧音频信息中提取待识别主播的声纹特征。

需要说明的，考虑到主播在直播过程中可能穿着不同的服装，本发明实施例将变化较小的声纹特征作为主播的特征。本发明实施例中主播的声纹特征是通过预先训练的神经网络模型获取的，可以理解的是，预习训练的神经网络模型以样本直播视频为样本，以样本直播视频中主播的声纹特征为标签训练而成。具体训练过程可以为，将样本直播视频输入至神经网络模型中，输出识别出的主播的声纹特征，将识别出的声纹特征与标签间的相似度作为损失，根据损失调整神经网络模型中需要更新的量，直至损失小于预设阈值或者训练测试达到预设数目。

S102、根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中，将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征。

针对主播直播视频信息数据量大，关联检索时计算复杂度高的特点，本发明实施例以局部敏感哈希方法将采用同一神经网络模型计算的样本主播的声纹特征映射为哈希值，然后根据同样的局部敏感哈希方法将待识别主播的声纹特征进行映射，基于哈希映射后相似特征分配至同一哈希桶内概率更大的准则，将处于同一哈希桶内的特征作为待匹配特征，这样在后续进行相似度计算时能够极大地减少运算量，从而适应直播条件下识别主播的要求。

S103、计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

需要说明的是，本发明实施通过计算向量直接的相似度，找出相似度最高的特征向量对应的样本主播作为待识别主播。本发明实施例对相似度的具体算法不做具体限定，例如以欧式距离、余弦距离等等表征相似度。

需要说明的是，本发明实施例通过获取不容易随直播环境变化而变化的声纹特征作为识别信息，通过局部敏感哈希方法先找出与待识别主播相似的少量样本主播，然后从少量样本主播中根据相似度大小确定真正的主播，提高了识别效率，适应直播条件下识别主播的要求。

作为一种可选实施例，本发明实施例还包括：将各平台上违禁、封杀的主播的声纹特征构建违禁主播数据库，当识别出的主播的身份是违禁主播数据库中的主播时，则向该待识别主播所在的直播平台发送告警信息。

需要说明的是，本发明实施例通过构建违禁主播数据库，将每次进行识别的主播与违禁主播数据库中的样本主播的声纹特征进行比对，如果比对成功，则说明进行识别的主播是违禁主播，需要由平台进行封杀，从而实现跨平台的关联识别主播，净化互联网环境。

在上述各实施例的基础上，作为一种可选实施例，所述根据预先训练的神经网络模型，从所述若干帧音频信息中提取待识别主播的声纹特征，具体为：

将每一帧音频信息转换为Fbank特征；

需要说明的是，尽管目前大部分语音识别过程中通常基于MFCC(Mel FrequencyCepstral Coefficents)特征作为语音特征，但是考虑到Fbank特征的计算量相比MFCC更小，同时Fbank特征保留的信息更多，因此本发明选择从音频信息中提取Fbank特征。本发明实施例的深度卷积神经网络是以样本主播的Fbank特征为样本，以样本主播的声纹特征为样本标签训练而成。

所述神经网络模型的训练方法为：

需要说明的是，本发明实施例的神经网络模型的训练方法基于孪生网络的思想进行训练。通过向神经网络模型中输入三元组，目的是通过计算同一个人的不同样本语音的相似度和不同人的语音间的差异度，实现更好地定义声纹特征的目的。

在上述各实施例的基础上，作为一种可选实施例，所述将所述三元组输入至所述神经网络模型，之前还包括：

在所述神经网络模型的末端添加全连接层和softmax层；

本发明实施例在使用三元组训练神经网络模型前，还通过单个样本Fbank特征进行训练，训练难度更低，同时能够较好地优化神经网络网络模型的参数。这样在利用三元组进行训练时，只需要少了三元组即可训练出识别率更高的神经网络模型。

训练时，通过孪生网络结构以三个形如F×64×1的张量组成的三元组作为输入，其中两个张量是由同一个人的语音提取出的Fbank特征组成，第三个张量由另一个人的语音提取出的Fbank特征组成。深度卷积神经网络提取出三个张量的深度特征，计算出特征向量间的余弦相似度，通过Triplet loss损失函数对网络进行优化。深度卷积神经网络模型参数训练过程如下：

1)对有样本提取Fbank特征并归一化，公式如下：

Fbank特征向量为V＝(v₁,v₂,...,v_n)，i∈[1,n]，v_i表示向量V中的某个维度，

表示向量V所有维度的算术平均值，std(v)表示向量V中所有维度的标准差，epsilon＝1×10^-12，防止std(v)＝0。

2)检测网络权重值从方差为0.02，符合正态分布的数据中随机选取，同时批处理大小设置为128；

3)在深度卷积神经网络末端添加全连接层和softmax层，以单组Fbank特征向量组为输入，以交叉熵损失作为损失函数计算在网络中的损失和需要更新的参数；

4)在步骤3)迭代次数达到预设次数后，删除全连接层和softmax层，保留训练好的卷积层参数，将由Fbank特征向量组构成的三元组(P，A，N)输入深度卷积神经网络，输出positive pair和negative pair之间深度特征的余弦相似度；

5)计算三元组(P，A，N)在神经网络中的损失和需要更新的变量，损失函数为triplet loss，公式如下：

L＝max(d(a,n)-d(a,p)+margin,0)

其中，d(a,p)与d(a,n)分别表示positive pair和negative pair的余弦相似度，margin取0.2。

在上述各实施例的基础上，作为一种可选实施例，所述神经网络模型为深度卷积神经网络模型。深度卷积神经网络模型是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)。在一个可选实施例中，深度卷积神经网络主要由28层连续卷积层构成，输入为形如F×64×1的张量，F代表帧数，即输入数据是F个64维Fbank特征向量。经过连续卷积提取深度特征后，在帧维度上对得到的特征向量取均值，最后得到一个512维特征向量。

在上述各实施例的基础上，作为一种可选实施例，将每一帧音频信息转换为Fbank特征，具体为：

对所述频谱求模平方，获得能量谱；

图2为本发明实施例的Fbank特征的提取方法的流程示意图，如图2所示，该方法包括：

S201、对待识别主播的直播视频的音频进行分帧处理，即将音频切分成固定长度的小段。例如取25ms为一帧，帧迭10ms。

S202、对分帧后的语音信号s(n)进行预加重，n＝1,2,….,N，N代表每一帧的长度，计算公式如下：

S203、用汉明窗对音频信息加窗，消除各个帧两端可能会造成的信号不连续性，计算公式如下：

S204、对音频信息做快速傅里叶变换得到频谱，并对频谱求模平方计算能量谱，计算公式如下：

ε(ω)＝|F(jω)|²

式中，N为傅里叶变换的点数，取128。ε(ω)和F(jω)分别代表能量谱值和频谱值；

S205、用一组Mel频标上线性分布的三角窗滤波器(共64个)，对信号的能量谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应，并对滤波结果求对数，得到64维Fbank特征，计算公式为：

M_log(b)＝log(M(b))

其中，m(j)代表频谱上不同位置的能量，b为滤波器个数，决定最终提取到的Fbank特征维度，取64，M_log(b)即为最终提取到的Fbank特征。

在上述各实施例的基础上，作为一种可选实施例，根据局部敏感哈希方法将所述声纹特征映射至预先生成的哈希桶中，具体为：

选择一定数量的随机映射哈希函数对所述声纹特征进行映射；

其中，映射函数的个数为哈希值的维度；映射函数满足以下条件：

如果两个向量间的距离d(x,y)小于d₁，则f(x)＝f(y)的概率至少为p₁；

如果两个向量间的距离d(x,y)大于d₂，则f(x)＝f(y)的概率至多为p₂；

d₁＜＜d₂，p₁＞＞p₂，x和y分别表示两个向量。

需要说明的是，针对主播直播图像、语音信息数据量大，关联检索时计算复杂度高的特点，考虑到图像检索的实际应用，本发明实施例选取的哈希方法必须满足相似性距离不变的要求。采用局部敏感哈希方法对声纹特征进行映射。

首先，对于声纹特征H＝(H₁,H₂,...,H_N)，N表示特征向量的维度，选定N′个随机映射函数f＝(f₁,f₂,...,f_N′)对H进行映射。函数公式如下：

H(V)＝sign(V·R)

上式中，R为随机向量，映射函数f的个数N′代表映射后融合特征的维度，可以通过设定N′的取值进行调整。同时映射函数f满足一下两点要求：

d₁＜＜d₂，p₁＞＞p₂，x和y分别表示两个向量。

对于该映射函数，

即两个向量间的夹角大小，

经过函数映射后向量间余弦距离相对大小不变，公式为：

本发明实施例中的各神经网络模型(包括检测网络模型、识别网络模型、深度卷积神经网络)的参数均采用自适应矩估计(Adaptive Moment Estimation,Adam)算法进行优化，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，具体步骤如下：

f_t(θ_t)表示在t时刻的随机噪声函数，优化的目标是求当f_t(θ_t)最小时，模型参数θ_t的取值更新。为此，首先计算其t时刻的梯度值g_t，利用优化前的噪声函数f_t(θ_t-1)对θ求导，公式为：

其中，g_t的期望值和方差可以分别通过计算其t时刻的一阶矩m_t和二阶矩v_t获得，计算公式如下所示：

m_t＝β₁·m_t-1+(1-β₁)g_t (5)

其中，β₁,β₂∈[0,1]，表示m_t和v_t的指数衰减率，取β₁＝0.9，β₂＝0.999，m_t-1和v_t-1分别表示t-1时刻g_t的一阶矩和二阶矩，

表示g_t的平方。为了估计下一时刻的参数，需要对m_t和v_t进行校正，校正公式如下：

上式中，

和

分别表示t时刻的β₁和β₂的值。

根据校正后的噪声梯度的期望和方差

和

对t时刻的模型参数θ_t利用下述公式进行更新，最终实现对参数θ_t的优化。

其中，α和ε为缺省值，通常默认取值为α＝0.001，ε＝10^-8。

在上述各实施例的基础上，作为一种可选实施例，所述计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度，具体为：

将所述样本主播的声纹特征与待识别主播的声纹特征进行余弦相似度度量，获得所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度。

需要说明的是，样本主播的声纹特征预先通过相同的局部哈希敏感方法映射至各个哈希桶中，所以在对待识别主播的声纹特征进行哈希运算后，对处于同一个哈希桶中的样本主播和待识别主播的声纹特征分别进行余弦相似度度量，即可作为获得所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度。

图3为本发明另一个实施例的基于声纹特征别主播的方法的流程示意图，如图3所示，该方法包括：

获取一定数量的样本主播，样本主播可以是被各个平台封禁的主播，称之为不良主播，对每个不良主播，提取不良主播的音频信息，确定音频信息中的Fbank特征；将Fbank特征通过预先训练的深度卷积神经网络提取声纹特征；将声纹特征通过局部敏感哈希方法进行存储，从而得到若干个哈希桶，每个哈希桶中至少有一个样本主播的声纹特征；

对于待识别的主播，提取不良主播的音频信息，确定音频信息中的Fbank特征以，将Fbank特征通过预先训练的深度卷积神经网络提取声纹特征；将声纹特征通过局部敏感哈希方法进行存储；

查询待识别的主播的哈希值所处的哈希桶，将处于同一个哈希桶中的样本主播作为待匹配的主播，将待匹配的主播声纹特征与待识别主播的声纹特征进行余弦相似度的计算，获得所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度，将相似度最高的样本主播作为待识别主播。

图4为本发明实施例提供的基于声纹特征识别主播的装置的结构示意图，如图4所示，该基于声纹特征识别主播的装置包括：声纹特征提取模块401、映射模块402和相似度计算模块403，其中：

声纹特征提取模块401，用于从待识别主播的直播视频中截取若干帧音频信息，根据预先训练的神经网络模型，从所述若干帧音频信息中提取待识别主播的声纹特征；

映射模块402，用于根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中，将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征；

相似度计算模块403，用于计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

本发明实施例提供的基于声纹特征识别主播的装置，具体执行上述各基于声纹特征识别主播的方法实施例流程，具体请详见上述各基于声纹特征识别主播的方法实施例的内容，在此不再赘述。本发明实施例提供的基于声纹特征识别主播的装置通过获取不容易随直播环境变化而变化的声纹特征作为识别信息，通过局部敏感哈希方法先找出与待识别主播相似的少量样本主播，然后从少量样本主播中根据相似度大小确定真正的主播，提高了识别效率，适应直播条件下识别主播的要求。

图5为本发明实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序，以执行上述各实施例提供的基于声纹特征识别主播的方法及装置，例如包括：从待识别主播的直播视频中截取若干帧音频信息，根据预先训练的神经网络模型，从所述若干帧音频信息中提取待识别主播的声纹特征；根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中，将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征；计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于声纹特征识别主播的方法，例如包括：从待识别主播的直播视频中截取若干帧音频信息，根据预先训练的神经网络模型，从所述若干帧音频信息中提取待识别主播的声纹特征；根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中，将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征；计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度，将相似度最高的样本主播作为所述待识别主播。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于声纹特征识别主播的方法，其特征在于，包括：

2.根据权利要求1所述的基于声纹特征识别主播的方法，其特征在于，所述根据预先训练的神经网络模型，从所述若干帧音频信息中提取待识别主播的声纹特征，具体为：

将每一帧音频信息转换为Fbank特征；

3.根据权利要求2所述的基于声纹特征识别主播的方法，其特征在于，所述神经网络模型的训练方法为：

4.根据权利要求3所述的基于声纹特征识别主播的方法，其特征在于，所述将所述三元组输入至所述神经网络模型，之前还包括：

在所述神经网络模型的末端添加全连接层和softmax层；

5.根据权利要求1-4任意一项所述的基于声纹特征识别主播的方法，其特征在于，所述神经网络模型为深度卷积神经网络模型。

6.根据权利要求2所述的基于声纹特征识别主播的方法，其特征在于，将每一帧音频信息转换为Fbank特征，具体为：

对所述频谱求模平方，获得能量谱；

7.根据权利要求6所述的基于声纹特征识别主播的方法，其特征在于，所述计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度，具体为：

8.一种基于声纹特征识别主播的装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于声纹特征识别主播的方法的步骤。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的基于声纹特征识别主播的方法。