CN111128196A - 基于声纹特征识别主播的方法及装置 - Google Patents

基于声纹特征识别主播的方法及装置 Download PDF

Info

Publication number
CN111128196A
CN111128196A CN201911243498.3A CN201911243498A CN111128196A CN 111128196 A CN111128196 A CN 111128196A CN 201911243498 A CN201911243498 A CN 201911243498A CN 111128196 A CN111128196 A CN 111128196A
Authority
CN
China
Prior art keywords
anchor
sample
voiceprint features
neural network
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911243498.3A
Other languages
English (en)
Other versions
CN111128196B (zh
Inventor
张菁
姚嘉诚
卓力
李晨豪
王立元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911243498.3A priority Critical patent/CN111128196B/zh
Publication of CN111128196A publication Critical patent/CN111128196A/zh
Application granted granted Critical
Publication of CN111128196B publication Critical patent/CN111128196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种基于声纹特征识别主播的方法及装置,其中方法包括:从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。本发明实施例适应直播条件下识别主播的要求。

Description

基于声纹特征识别主播的方法及装置
技术领域
本发明涉及视频监控技术领域,更具体地,涉及基于声纹特征识别主播的方法及装置。
背景技术
网络直播,即互联网直播服务,是一种主播主导、全新的互联网视听节目,通常采用视频、音频、图文等形式,实时向公众播送各种咨询或节目等。截至2019年6月,我国网络直播用户规模达4.33亿,占网民整体的50.7%,其中真人秀直播的用户规模为2.05亿,占网民整体的24.0%。
网络直播吸引着越来越多的用户,而经济利益的诱惑和监管上的疏漏等也导致了直播行业的各种乱象。部分主播为了自身利益,不择手段的吸引观众眼球,其手法主要分为两类。一类是涉嫌违法犯罪的行为,如淫秽色情表演、侵犯隐私、侵犯版权、虚假炒作、寻衅滋事、亵渎国家象征等;另一类是虽不触犯法律,但其行为影响恶劣,败坏社会风气的行为,如言语暴力低俗、攀比炫富、违规广告、虐杀动物,不尊重民族历史文化的内容等。这些主播并非不知道其直播内容不符合规章制度,更多的是抱有即使被所在平台封杀也可以换一个平台、账号继续直播的侥幸心理,导致此类行为屡禁不止。
为了减少此类网络不良内容在互联网上的传播,需要对不良主播进行跨平台关联识别,从而净化互联网环境。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于声纹特征识别主播的方法及装置。
第一个方面,本发明实施例提供一种基于声纹特征识别主播的方法,包括:
从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;
根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;
计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。
进一步地,所述根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征,具体为:
将每一帧音频信息转换为Fbank特征;
将获得的所有Fbank特征输入至预先训练的神经网络模型中,输出声纹特征。
进一步地,所述神经网络模型的训练方法为:
构建若干个三元组,所述三元组包括基准、正样本和负样本,所述基准和正样本为由一个人的不同样本语音提取出的Fbank特征,所述负样本为另一个人的样本语音提取出的Fbank特征;
将所述三元组输入至所述神经网络模型,输出三元组中基准、正样本和负样本的特征向量;
计算所述基准的特征向量与正样本的特征向量间的余弦相似度以及所述基准的特征向量与负样本的特征向量间的余弦相似度;
根据两种余弦相似度确定三元组损失,根据所述三元组损失对所述神经网络模型进行优化。
进一步地,所述将所述三元组输入至所述神经网络模型,之前还包括:
在所述神经网络模型的末端添加全连接层和softmax层;
每次选择单个样本Fbank特征对所述神经网络模型进行训练,当训练次数达到预设阈值或者所述神经网络模型的损失小于预设要求时,删除所述全连接层和softmax层;
其中,所述每次选择单个样本Fbank特征对所述神经网络进行训练,具体为:
以单个样本Fbank特征为所述神经网络模型的输入,以交叉熵函数作为损失函数,计算单张人脸图像在所述神经网络模型中的损失和需要更新的参数。
进一步地,所述神经网络模型为深度卷积神经网络模型。
进一步地,将每一帧音频信息转换为Fbank特征,具体为:
根据汉明窗对所述音频信息加窗,对加窗后的音频信息做快速傅里叶变换,获得频谱;
对所述频谱求模平方,获得能量谱;
根据若干个在Mel频标上线性分布的三角窗滤波器,对信号的能量谱进行滤波,对滤波结果求对数,获得每一帧音频信息的Fbank特征。
第二个方面,本发明实施例提供一种基于声纹特征识别主播的装置,包括:
声纹特征提取模块,用于从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;
映射模块,用于根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;
相似度计算模块,用于计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的基于声纹特征识别主播的方法及装置,通过获取不容易随直播环境变化而变化的声纹特征作为识别信息,通过局部敏感哈希方法先找出与待识别主播相似的少量样本主播,然后从少量样本主播中根据相似度大小确定真正的主播,提高了识别效率,适应直播条件下识别主播的要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于声纹特征识别主播的方法的流程示意图
图2为本发明实施例的Fbank特征的提取方法的流程示意图;
图3为本发明另一个实施例的基于声纹特征别主播的方法的流程示意图;
图4为本发明实施例提供的基于声纹特征识别主播的装置的结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的基于声纹特征识别主播的方法的流程示意图,如图1所示,该方法包括:
S101、从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征。
需要说明的,考虑到主播在直播过程中可能穿着不同的服装,本发明实施例将变化较小的声纹特征作为主播的特征。本发明实施例中主播的声纹特征是通过预先训练的神经网络模型获取的,可以理解的是,预习训练的神经网络模型以样本直播视频为样本,以样本直播视频中主播的声纹特征为标签训练而成。具体训练过程可以为,将样本直播视频输入至神经网络模型中,输出识别出的主播的声纹特征,将识别出的声纹特征与标签间的相似度作为损失,根据损失调整神经网络模型中需要更新的量,直至损失小于预设阈值或者训练测试达到预设数目。
S102、根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征。
针对主播直播视频信息数据量大,关联检索时计算复杂度高的特点,本发明实施例以局部敏感哈希方法将采用同一神经网络模型计算的样本主播的声纹特征映射为哈希值,然后根据同样的局部敏感哈希方法将待识别主播的声纹特征进行映射,基于哈希映射后相似特征分配至同一哈希桶内概率更大的准则,将处于同一哈希桶内的特征作为待匹配特征,这样在后续进行相似度计算时能够极大地减少运算量,从而适应直播条件下识别主播的要求。
S103、计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。
需要说明的是,本发明实施通过计算向量直接的相似度,找出相似度最高的特征向量对应的样本主播作为待识别主播。本发明实施例对相似度的具体算法不做具体限定,例如以欧式距离、余弦距离等等表征相似度。
需要说明的是,本发明实施例通过获取不容易随直播环境变化而变化的声纹特征作为识别信息,通过局部敏感哈希方法先找出与待识别主播相似的少量样本主播,然后从少量样本主播中根据相似度大小确定真正的主播,提高了识别效率,适应直播条件下识别主播的要求。
作为一种可选实施例,本发明实施例还包括:将各平台上违禁、封杀的主播的声纹特征构建违禁主播数据库,当识别出的主播的身份是违禁主播数据库中的主播时,则向该待识别主播所在的直播平台发送告警信息。
需要说明的是,本发明实施例通过构建违禁主播数据库,将每次进行识别的主播与违禁主播数据库中的样本主播的声纹特征进行比对,如果比对成功,则说明进行识别的主播是违禁主播,需要由平台进行封杀,从而实现跨平台的关联识别主播,净化互联网环境。
在上述各实施例的基础上,作为一种可选实施例,所述根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征,具体为:
将每一帧音频信息转换为Fbank特征;
将获得的所有Fbank特征输入至预先训练的神经网络模型中,输出声纹特征。
需要说明的是,尽管目前大部分语音识别过程中通常基于MFCC(Mel FrequencyCepstral Coefficents)特征作为语音特征,但是考虑到Fbank特征的计算量相比MFCC更小,同时Fbank特征保留的信息更多,因此本发明选择从音频信息中提取Fbank特征。本发明实施例的深度卷积神经网络是以样本主播的Fbank特征为样本,以样本主播的声纹特征为样本标签训练而成。
所述神经网络模型的训练方法为:
构建若干个三元组,所述三元组包括基准、正样本和负样本,所述基准和正样本为由一个人的不同样本语音提取出的Fbank特征,所述负样本为另一个人的样本语音提取出的Fbank特征;
将所述三元组输入至所述神经网络模型,输出三元组中基准、正样本和负样本的特征向量;
计算所述基准的特征向量与正样本的特征向量间的余弦相似度以及所述基准的特征向量与负样本的特征向量间的余弦相似度;
根据两种余弦相似度确定三元组损失,根据所述三元组损失对所述神经网络模型进行优化。
需要说明的是,本发明实施例的神经网络模型的训练方法基于孪生网络的思想进行训练。通过向神经网络模型中输入三元组,目的是通过计算同一个人的不同样本语音的相似度和不同人的语音间的差异度,实现更好地定义声纹特征的目的。
在上述各实施例的基础上,作为一种可选实施例,所述将所述三元组输入至所述神经网络模型,之前还包括:
在所述神经网络模型的末端添加全连接层和softmax层;
每次选择单个样本Fbank特征对所述神经网络模型进行训练,当训练次数达到预设阈值或者所述神经网络模型的损失小于预设要求时,删除所述全连接层和softmax层;
其中,所述每次选择单个样本Fbank特征对所述神经网络进行训练,具体为:
以单个样本Fbank特征为所述神经网络模型的输入,以交叉熵函数作为损失函数,计算单张人脸图像在所述神经网络模型中的损失和需要更新的参数。
本发明实施例在使用三元组训练神经网络模型前,还通过单个样本Fbank特征进行训练,训练难度更低,同时能够较好地优化神经网络网络模型的参数。这样在利用三元组进行训练时,只需要少了三元组即可训练出识别率更高的神经网络模型。
训练时,通过孪生网络结构以三个形如F×64×1的张量组成的三元组作为输入,其中两个张量是由同一个人的语音提取出的Fbank特征组成,第三个张量由另一个人的语音提取出的Fbank特征组成。深度卷积神经网络提取出三个张量的深度特征,计算出特征向量间的余弦相似度,通过Triplet loss损失函数对网络进行优化。深度卷积神经网络模型参数训练过程如下:
1)对有样本提取Fbank特征并归一化,公式如下:
Figure BDA0002306891540000081
Fbank特征向量为V=(v1,v2,...,vn),i∈[1,n],vi表示向量V中的某个维度,
Figure BDA0002306891540000082
表示向量V所有维度的算术平均值,std(v)表示向量V中所有维度的标准差,epsilon=1×10-12,防止std(v)=0。
2)检测网络权重值从方差为0.02,符合正态分布的数据中随机选取,同时批处理大小设置为128;
3)在深度卷积神经网络末端添加全连接层和softmax层,以单组Fbank特征向量组为输入,以交叉熵损失作为损失函数计算在网络中的损失和需要更新的参数;
4)在步骤3)迭代次数达到预设次数后,删除全连接层和softmax层,保留训练好的卷积层参数,将由Fbank特征向量组构成的三元组(P,A,N)输入深度卷积神经网络,输出positive pair和negative pair之间深度特征的余弦相似度;
5)计算三元组(P,A,N)在神经网络中的损失和需要更新的变量,损失函数为triplet loss,公式如下:
L=max(d(a,n)-d(a,p)+margin,0)
其中,d(a,p)与d(a,n)分别表示positive pair和negative pair的余弦相似度,margin取0.2。
在上述各实施例的基础上,作为一种可选实施例,所述神经网络模型为深度卷积神经网络模型。深度卷积神经网络模型是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)。在一个可选实施例中,深度卷积神经网络主要由28层连续卷积层构成,输入为形如F×64×1的张量,F代表帧数,即输入数据是F个64维Fbank特征向量。经过连续卷积提取深度特征后,在帧维度上对得到的特征向量取均值,最后得到一个512维特征向量。
在上述各实施例的基础上,作为一种可选实施例,将每一帧音频信息转换为Fbank特征,具体为:
根据汉明窗对所述音频信息加窗,对加窗后的音频信息做快速傅里叶变换,获得频谱;
对所述频谱求模平方,获得能量谱;
根据若干个在Mel频标上线性分布的三角窗滤波器,对信号的能量谱进行滤波,对滤波结果求对数,获得每一帧音频信息的Fbank特征。
图2为本发明实施例的Fbank特征的提取方法的流程示意图,如图2所示,该方法包括:
S201、对待识别主播的直播视频的音频进行分帧处理,即将音频切分成固定长度的小段。例如取25ms为一帧,帧迭10ms。
S202、对分帧后的语音信号s(n)进行预加重,n=1,2,….,N,N代表每一帧的长度,计算公式如下:
Figure BDA0002306891540000091
S203、用汉明窗对音频信息加窗,消除各个帧两端可能会造成的信号不连续性,计算公式如下:
Figure BDA0002306891540000092
S204、对音频信息做快速傅里叶变换得到频谱,并对频谱求模平方计算能量谱,计算公式如下:
Figure BDA0002306891540000093
ε(ω)=|F(jω)|2
式中,N为傅里叶变换的点数,取128。ε(ω)和F(jω)分别代表能量谱值和频谱值;
S205、用一组Mel频标上线性分布的三角窗滤波器(共64个),对信号的能量谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应,并对滤波结果求对数,得到64维Fbank特征,计算公式为:
Figure BDA0002306891540000094
Mlog(b)=log(M(b))
其中,m(j)代表频谱上不同位置的能量,b为滤波器个数,决定最终提取到的Fbank特征维度,取64,Mlog(b)即为最终提取到的Fbank特征。
在上述各实施例的基础上,作为一种可选实施例,根据局部敏感哈希方法将所述声纹特征映射至预先生成的哈希桶中,具体为:
选择一定数量的随机映射哈希函数对所述声纹特征进行映射;
其中,映射函数的个数为哈希值的维度;映射函数满足以下条件:
如果两个向量间的距离d(x,y)小于d1,则f(x)=f(y)的概率至少为p1
如果两个向量间的距离d(x,y)大于d2,则f(x)=f(y)的概率至多为p2
d1<<d2,p1>>p2,x和y分别表示两个向量。
需要说明的是,针对主播直播图像、语音信息数据量大,关联检索时计算复杂度高的特点,考虑到图像检索的实际应用,本发明实施例选取的哈希方法必须满足相似性距离不变的要求。采用局部敏感哈希方法对声纹特征进行映射。
首先,对于声纹特征H=(H1,H2,...,HN),N表示特征向量的维度,选定N′个随机映射函数f=(f1,f2,...,fN′)对H进行映射。函数公式如下:
H(V)=sign(V·R)
上式中,R为随机向量,映射函数f的个数N′代表映射后融合特征的维度,可以通过设定N′的取值进行调整。同时映射函数f满足一下两点要求:
如果两个向量间的距离d(x,y)小于d1,则f(x)=f(y)的概率至少为p1
如果两个向量间的距离d(x,y)大于d2,则f(x)=f(y)的概率至多为p2
d1<<d2,p1>>p2,x和y分别表示两个向量。
对于该映射函数,
Figure BDA0002306891540000101
即两个向量间的夹角大小,
Figure BDA0002306891540000102
经过函数映射后向量间余弦距离相对大小不变,公式为:
Figure BDA0002306891540000111
本发明实施例中的各神经网络模型(包括检测网络模型、识别网络模型、深度卷积神经网络)的参数均采用自适应矩估计(Adaptive Moment Estimation,Adam)算法进行优化,利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,具体步骤如下:
ftt)表示在t时刻的随机噪声函数,优化的目标是求当ftt)最小时,模型参数θt的取值更新。为此,首先计算其t时刻的梯度值gt,利用优化前的噪声函数ftt-1)对θ求导,公式为:
Figure BDA00023068915400001111
其中,gt的期望值和方差可以分别通过计算其t时刻的一阶矩mt和二阶矩vt获得,计算公式如下所示:
mt=β1·mt-1+(1-β1)gt (5)
Figure BDA0002306891540000112
其中,β12∈[0,1],表示mt和vt的指数衰减率,取β1=0.9,β2=0.999,mt-1和vt-1分别表示t-1时刻gt的一阶矩和二阶矩,
Figure BDA0002306891540000113
表示gt的平方。为了估计下一时刻的参数,需要对mt和vt进行校正,校正公式如下:
Figure BDA0002306891540000114
Figure BDA0002306891540000115
上式中,
Figure BDA0002306891540000116
Figure BDA0002306891540000117
分别表示t时刻的β1和β2的值。
根据校正后的噪声梯度的期望和方差
Figure BDA0002306891540000118
Figure BDA0002306891540000119
对t时刻的模型参数θt利用下述公式进行更新,最终实现对参数θt的优化。
Figure BDA00023068915400001110
其中,α和ε为缺省值,通常默认取值为α=0.001,ε=10-8
在上述各实施例的基础上,作为一种可选实施例,所述计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,具体为:
将所述样本主播的声纹特征与待识别主播的声纹特征进行余弦相似度度量,获得所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度。
需要说明的是,样本主播的声纹特征预先通过相同的局部哈希敏感方法映射至各个哈希桶中,所以在对待识别主播的声纹特征进行哈希运算后,对处于同一个哈希桶中的样本主播和待识别主播的声纹特征分别进行余弦相似度度量,即可作为获得所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度。
图3为本发明另一个实施例的基于声纹特征别主播的方法的流程示意图,如图3所示,该方法包括:
获取一定数量的样本主播,样本主播可以是被各个平台封禁的主播,称之为不良主播,对每个不良主播,提取不良主播的音频信息,确定音频信息中的Fbank特征;将Fbank特征通过预先训练的深度卷积神经网络提取声纹特征;将声纹特征通过局部敏感哈希方法进行存储,从而得到若干个哈希桶,每个哈希桶中至少有一个样本主播的声纹特征;
对于待识别的主播,提取不良主播的音频信息,确定音频信息中的Fbank特征以,将Fbank特征通过预先训练的深度卷积神经网络提取声纹特征;将声纹特征通过局部敏感哈希方法进行存储;
查询待识别的主播的哈希值所处的哈希桶,将处于同一个哈希桶中的样本主播作为待匹配的主播,将待匹配的主播声纹特征与待识别主播的声纹特征进行余弦相似度的计算,获得所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为待识别主播。
图4为本发明实施例提供的基于声纹特征识别主播的装置的结构示意图,如图4所示,该基于声纹特征识别主播的装置包括:声纹特征提取模块401、映射模块402和相似度计算模块403,其中:
声纹特征提取模块401,用于从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;
映射模块402,用于根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;
相似度计算模块403,用于计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。
本发明实施例提供的基于声纹特征识别主播的装置,具体执行上述各基于声纹特征识别主播的方法实施例流程,具体请详见上述各基于声纹特征识别主播的方法实施例的内容,在此不再赘述。本发明实施例提供的基于声纹特征识别主播的装置通过获取不容易随直播环境变化而变化的声纹特征作为识别信息,通过局部敏感哈希方法先找出与待识别主播相似的少量样本主播,然后从少量样本主播中根据相似度大小确定真正的主播,提高了识别效率,适应直播条件下识别主播的要求。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序,以执行上述各实施例提供的基于声纹特征识别主播的方法及装置,例如包括:从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于声纹特征识别主播的方法,例如包括:从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于声纹特征识别主播的方法,其特征在于,包括:
从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;
根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;
计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。
2.根据权利要求1所述的基于声纹特征识别主播的方法,其特征在于,所述根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征,具体为:
将每一帧音频信息转换为Fbank特征;
将获得的所有Fbank特征输入至预先训练的神经网络模型中,输出声纹特征。
3.根据权利要求2所述的基于声纹特征识别主播的方法,其特征在于,所述神经网络模型的训练方法为:
构建若干个三元组,所述三元组包括基准、正样本和负样本,所述基准和正样本为由一个人的不同样本语音提取出的Fbank特征,所述负样本为另一个人的样本语音提取出的Fbank特征;
将所述三元组输入至所述神经网络模型,输出三元组中基准、正样本和负样本的特征向量;
计算所述基准的特征向量与正样本的特征向量间的余弦相似度以及所述基准的特征向量与负样本的特征向量间的余弦相似度;
根据两种余弦相似度确定三元组损失,根据所述三元组损失对所述神经网络模型进行优化。
4.根据权利要求3所述的基于声纹特征识别主播的方法,其特征在于,所述将所述三元组输入至所述神经网络模型,之前还包括:
在所述神经网络模型的末端添加全连接层和softmax层;
每次选择单个样本Fbank特征对所述神经网络模型进行训练,当训练次数达到预设阈值或者所述神经网络模型的损失小于预设要求时,删除所述全连接层和softmax层;
其中,所述每次选择单个样本Fbank特征对所述神经网络进行训练,具体为:
以单个样本Fbank特征为所述神经网络模型的输入,以交叉熵函数作为损失函数,计算单张人脸图像在所述神经网络模型中的损失和需要更新的参数。
5.根据权利要求1-4任意一项所述的基于声纹特征识别主播的方法,其特征在于,所述神经网络模型为深度卷积神经网络模型。
6.根据权利要求2所述的基于声纹特征识别主播的方法,其特征在于,将每一帧音频信息转换为Fbank特征,具体为:
根据汉明窗对所述音频信息加窗,对加窗后的音频信息做快速傅里叶变换,获得频谱;
对所述频谱求模平方,获得能量谱;
根据若干个在Mel频标上线性分布的三角窗滤波器,对信号的能量谱进行滤波,对滤波结果求对数,获得每一帧音频信息的Fbank特征。
7.根据权利要求6所述的基于声纹特征识别主播的方法,其特征在于,所述计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,具体为:
将所述样本主播的声纹特征与待识别主播的声纹特征进行余弦相似度度量,获得所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度。
8.一种基于声纹特征识别主播的装置,其特征在于,包括:
声纹特征提取模块,用于从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;
映射模块,用于根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;
相似度计算模块,用于计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于声纹特征识别主播的方法的步骤。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的基于声纹特征识别主播的方法。
CN201911243498.3A 2019-12-06 2019-12-06 基于声纹特征识别主播的方法及装置 Active CN111128196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911243498.3A CN111128196B (zh) 2019-12-06 2019-12-06 基于声纹特征识别主播的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911243498.3A CN111128196B (zh) 2019-12-06 2019-12-06 基于声纹特征识别主播的方法及装置

Publications (2)

Publication Number Publication Date
CN111128196A true CN111128196A (zh) 2020-05-08
CN111128196B CN111128196B (zh) 2022-08-09

Family

ID=70497717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911243498.3A Active CN111128196B (zh) 2019-12-06 2019-12-06 基于声纹特征识别主播的方法及装置

Country Status (1)

Country Link
CN (1) CN111128196B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017670A (zh) * 2020-08-13 2020-12-01 北京达佳互联信息技术有限公司 一种目标账户音频的识别方法、装置、设备及介质
CN112967718A (zh) * 2021-04-02 2021-06-15 江苏吉祥星智能科技有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN113408412A (zh) * 2021-06-18 2021-09-17 北京工业大学 网络直播主播的行为识别方法、系统、设备及存储介质
CN114125494A (zh) * 2021-09-29 2022-03-01 阿里巴巴(中国)有限公司 内容审核辅助处理方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309343A (zh) * 2019-06-28 2019-10-08 南京大学 一种基于深度哈希的声纹检索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309343A (zh) * 2019-06-28 2019-10-08 南京大学 一种基于深度哈希的声纹检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANDREAS NAUTSCH等: "Preserving privacy in speaker and speech characterisation", 《COMPUTER SPEECH & LANGUAGE》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017670A (zh) * 2020-08-13 2020-12-01 北京达佳互联信息技术有限公司 一种目标账户音频的识别方法、装置、设备及介质
CN112017670B (zh) * 2020-08-13 2021-11-02 北京达佳互联信息技术有限公司 一种目标账户音频的识别方法、装置、设备及介质
CN112967718A (zh) * 2021-04-02 2021-06-15 江苏吉祥星智能科技有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN112967718B (zh) * 2021-04-02 2024-04-12 深圳吉祥星科技股份有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN113408412A (zh) * 2021-06-18 2021-09-17 北京工业大学 网络直播主播的行为识别方法、系统、设备及存储介质
CN113408412B (zh) * 2021-06-18 2024-05-24 北京工业大学 网络直播主播的行为识别方法、系统、设备及存储介质
CN114125494A (zh) * 2021-09-29 2022-03-01 阿里巴巴(中国)有限公司 内容审核辅助处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN111128196B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN111128196B (zh) 基于声纹特征识别主播的方法及装置
CN111160110A (zh) 基于人脸特征和声纹特征识别主播的方法及装置
US8510252B1 (en) Classification of inappropriate video content using multi-scale features
US20200005046A1 (en) Brand safety in video content
CN110851835A (zh) 图像模型检测方法、装置、电子设备及存储介质
CN113779308B (zh) 一种短视频检测和多分类方法、装置及存储介质
CN108595422B (zh) 一种过滤不良彩信的方法
CN111178146A (zh) 基于人脸特征识别主播的方法及装置
CN110188829B (zh) 神经网络的训练方法、目标识别的方法及相关产品
CN112950581A (zh) 质量评估方法、装置和电子设备
CN111814655B (zh) 目标重识别方法及其网络训练方法、相关装置
WO2018068648A1 (zh) 一种信息匹配方法及相关装置
CN111144566A (zh) 神经网络权重参数的训练方法、特征分类方法及对应装置
CN110647916A (zh) 基于卷积神经网络的色情图片识别方法及装置
CN110991246A (zh) 一种视频检测方法及系统
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
CN114973086A (zh) 视频处理方法、装置、电子设备及存储介质
CN111177470A (zh) 视频的处理方法、视频的搜索方法及终端设备
CN111144347B (zh) 一种数据处理方法、装置、平台及存储介质
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
CN109587248B (zh) 用户识别方法、装置、服务器及存储介质
CN115565548A (zh) 异常声音检测方法、装置、存储介质及电子设备
CN116310474A (zh) 端到端关系识别方法、模型训练方法、装置、设备及介质
CN112464916B (zh) 人脸识别方法及其模型训练方法
Mendes et al. Defending against imperceptible audio adversarial examples using proportional additive gaussian noise

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant