CN114974300A - 一种基于神经网络的语音鉴伪的方法、装置及存储介质 - Google Patents

一种基于神经网络的语音鉴伪的方法、装置及存储介质 Download PDF

Info

Publication number
CN114974300A
CN114974300A CN202210363497.8A CN202210363497A CN114974300A CN 114974300 A CN114974300 A CN 114974300A CN 202210363497 A CN202210363497 A CN 202210363497A CN 114974300 A CN114974300 A CN 114974300A
Authority
CN
China
Prior art keywords
layer
voice
neural network
full
connection layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210363497.8A
Other languages
English (en)
Inventor
颜瑞
文成
周舒然
郭庭炜
邹伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shell Housing Network Beijing Information Technology Co Ltd
Original Assignee
Shell Housing Network Beijing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shell Housing Network Beijing Information Technology Co Ltd filed Critical Shell Housing Network Beijing Information Technology Co Ltd
Priority to CN202210363497.8A priority Critical patent/CN114974300A/zh
Publication of CN114974300A publication Critical patent/CN114974300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本申请公开了一种基于神经网络的语音鉴伪的方法、装置及存储介质,包括:利用语音训练样本训练并生成语音神经网络模型,语音训练样本过神经网络层、池化层、第一全连接层、第二全连接层和分类层的处理;利用语音神经网络模型对需要鉴伪的语音信息进行处理,经过神经网络层、池化层和第一全连接层的处理,获得第一全连接层输出特征直接输入分类层获得语音鉴伪结果。本申请方案在利用语音神经网络模型对需要鉴伪的语音信息进行处理时,直接将第一全连接层处理输出的第一全连接层输出特征输入给分类层进行分类,从而弥补语音神经网络模型过拟合缺陷,增强语音信息鉴伪的鲁棒性。

Description

一种基于神经网络的语音鉴伪的方法、装置及存储介质
技术领域
本申请涉及技术领域,尤其涉及一种基于神经网络的语音鉴伪的方法,一种基于神经网络的语音鉴伪的装置,一种计算机可读存储介质,一种电子设备和一种计算机程序产品。
背景技术
随着技术的发展,使用语音合成、语音转换或者语音回放等非真人语音方式可以满足人们的需求,比如应用在商业、艺术和医疗行业中。但非真人语音也可能对社会带来风险和威胁。因此,目前已经出现自动说话人验证系统(ASV,Automatic SpeakerVerification-System)用于鉴别语音真伪。但由于缺乏大规模的语音训练样本,现有的ASV存在鲁棒性不足的缺陷。
发明内容
针对上述现有技术,本发明实施例公开一种基于神经网络的语音鉴伪的方法,可以克服训练样本少产生过拟合的缺陷,达到增强实际鉴伪的鲁棒性目的。
鉴于此,本申请实施例提出一种基于神经网络的语音鉴伪的方法,该方法包括:
利用语音训练样本训练并生成语音神经网络模型,所述语音神经网络模型包括神经网络层、池化层、第一全连接层、第二全连接层和分类层,所述语音训练样本是经过所述神经网络层、所述池化层、所述第一全连接层、所述第二全连接层和所述分类层的处理来训练所述语音神经网络模型的;
利用所述语音神经网络模型对需要鉴伪的语音信息进行处理,所述需要鉴伪的语音信号是先经过所述神经网络层、所述池化层和所述第一全连接层的处理,获得用于判别的第一全连接层输出特征,将所述第一全连接层输出特征直接输入所述分类层获得语音鉴伪结果。
进一步地,
所述利用语音训练样本训练并生成语音神经网络模型的步骤包括:
将所述语音训练样本输入所述神经网络层进行处理,获得所述语音训练样本的第一特征;
将所述语音训练样本的第一特征输入所述池化层进行处理,获得所述语音训练样本的第二特征;
将所述语音训练样本的第二特征输入所述第一全连接层进行处理,获得所述语音训练样本的所述第一全连接层输出特征;
将所述语音训练样本的所述第一全连接层输出特征输入所述第二全连接层进行处理,获得所述语音训练样本的第二全连接层输出特征;
将所述语音训练样本的所述第二全连接层输出特征输入所述分类层进行处理,获得所述语音训练样本的鉴伪结果;
利用预设的损失函数对所述语音训练样本的鉴伪结果进行损失计算,并利用损失计算结果调整所述语音神经网络模型的参数。
进一步地,
所述利用所述语音神经网络模型对需要鉴伪的语音信息进行处理的步骤包括:
将所述需要鉴伪的语音信息输入所述神经网络层进行处理,获得所述需要鉴伪的语音信息的第一特征;
将所述需要鉴伪的语音信息的第一特征输入所述池化层进行处理,获得所述需要鉴伪的语音信息的第二特征;
将所述需要鉴伪的语音信息的第二特征输入所述第一全连接层进行处理,获得所述需要鉴伪的语音信息的所述第一全连接层输出特征;
将所述需要鉴伪的语音信息的所述第一全连接层输出特征直接输入所述分类层进行处理,获得所述需要鉴伪的语音信息的语音鉴伪结果。
进一步地,
所述神经网络层由resnet-34网络构成;
所述池化层为多头注意力池化层;
所述第一全连接层和所述第二全连接层均包括激活函数,所述激活函数为mish激活函数。
本发明实施例公开一种基于神经网络的语音鉴伪的装置,可以克服训练样本少产生过拟合的缺陷,达到增强实际鉴伪的鲁棒性目的。
一种基于神经网络的语音鉴伪的装置,该装置包括:训练模块和语音鉴伪模块;
所述训练模块,利用语音训练样本训练并生成语音神经网络模型,所述语音神经网络模型包括神经网络层、池化层、第一全连接层、第二全连接层和分类层,所述语音训练样本是经过所述神经网络层、所述池化层、所述第一全连接层、所述第二全连接层和所述分类层的处理来训练所述语音神经网络模型的;
所述语音鉴伪模块,利用所述语音神经网络模型对需要鉴伪的语音信息进行处理,所述需要鉴伪的语音信号是先经过所述神经网络层、所述池化层和所述第一全连接层的处理,获得用于判别的所述第一全连接层输出特征,将所述第一全连接层输出特征直接输入所述分类层获得语音鉴伪结果。
进一步地,
所述训练模块包括:训练神经网络层处理模块、训练池化层处理模块、训练第一全连接层处理模块、训练第二全连接层处理模块、训练分类层处理模块和训练损失处理模块;
所述训练神经网络层处理模块,用于将所述语音训练样本输入所述神经网络层进行处理,获得所述语音训练样本的第一特征;
训练池化层处理模块,用于将所述语音训练样本的第一特征输入所述池化层进行处理,获得所述语音训练样本的第二特征;
训练第一全连接层处理模块,用于将所述语音训练样本的第二特征输入所述第一全连接层进行处理,获得所述语音训练样本的所述第一全连接层输出特征;
训练第二全连接层处理模块,用于将所述语音训练样本所述第一全连接层输出特征输入所述第二全连接层进行处理,获得所述语音训练样本的所述第二全连接层输出特征;
训练分类层处理模块,用于将所述语音训练样本的所述第二全连接层输出特征输入所述分类层进行处理,获得所述语音训练样本的鉴伪结果;
训练损失处理模块,用于利用预设的损失函数对所述语音训练样本的鉴伪结果进行损失计算,并利用损失计算结果调整所述语音神经网络模型的参数。
进一步地,
所述语音鉴伪模块包括:鉴伪神经网络层处理模块、鉴伪池化层处理模块、鉴伪第一全连接层处理模块、鉴伪分类层处理模块;
所述鉴伪神经网络层处理模块,用于将所述需要鉴伪的语音信息输入所述神经网络层进行处理,获得所述需要鉴伪的语音信息的第一特征;
所述鉴伪池化层处理模块,用于将所述需要鉴伪的语音信息的第一特征输入所述池化层进行处理,获得所述需要鉴伪的语音信息的第二特征;
所述鉴伪第一全连接层处理模块,用于将所述需要鉴伪的语音信息的第二特征输入所述第一全连接层进行处理,获得所述需要鉴伪的语音信息的所述第一全连接层输出特征;
所述鉴伪分类层处理模块,用于将所述需要鉴伪的语音信息的所述第一全连接层输出特征直接输入所述分类层进行处理,获得所述需要鉴伪的语音信息的语音鉴伪结果。
本申请实施例还公开一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时可实现上述任一项所述的基于神经网络的语音鉴伪的方法。
本申请实施例还公开一种电子设备,该电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一项所述的基于神经网络的语音鉴伪的方法。
本申请实施例还公开一种计算机程序产品,包括计算机指令,所述计算机指令在被处理器执行时实施如上述任一项所述的基于神经网络的语音鉴伪的方法。
综上所述,本申请实施例利用神经网络层、池化层、第一全连接层、第二全连接层和分类层处理语音训练样本,生成语音神经网络模型,但仅利用神经网络层、池化层、第一全连接层和分类层处理实际需要鉴伪的语音信息,利用第一全连接层输出的所述第一全连接层输出特征进行分类处理,更能反映实际场景中的语音信息的分类,鉴别结果更优,弥补语音神经网络模型过拟合缺陷,增强语音信息鉴伪的鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请基于神经网络的语音鉴伪的方法实施例一的流程图。
图2是本申请实施例中利用语音训练样本训练并生成语音神经网络模型的方法流程图。
图3是本申请实施例利用语音神经网络模型对需要鉴伪的语音信息进行处理的方法流程图。
图4是基于神经网络的语音鉴伪的装置实施例一的结构图。
图5是本申请实施例训练和实际使用语音神经网络模型的逻辑示意图。
图6是本申请实施例公开的一种电子设备。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
本申请实施例在利用少量语音训练样本训练并生成语音神经网络模型时,利用神经网络层、池化层、第一全连接层、第二全连接层和分类层进行处理。但在利用训练完成的语音神经网络模型对需要鉴伪的语音信号进行鉴别时,只需要由神经网络层、池化层、第一全连接层和分类层进行处理,即,不再输入到第二全连接层处理,而是将第一全连接层输出特征直接输入给分类层进行鉴别,可以增强语音鉴伪的鲁棒性。
图1是本申请基于神经网络的语音鉴伪的方法实施例一的流程图。如图1所示,该方法包括:
步骤101:利用语音训练样本训练并生成语音神经网络模型,语音神经网络模型包括神经网络层、池化层、第一全连接层、第二全连接层和分类层,语音训练样本是经过神经网络层、池化层、第一全连接层、第二全连接层和分类层的处理来训练语音神经网络模型的。
本步骤是利用语音训练样本对语音神经网络模型进行训练的步骤,所述语音训练样本实际上是将语音的音频特征作为训练样本。实际应用中,语音训练样本缺乏大规模数据集,本步骤就是利用少量语音训练样本训练并生成语音神经网络模型。这里的语音神经网络模型是指基于神经网络的方法构建的用于鉴别语音真伪的分类模型。实际应用中,基于神经网络构建的分类模型通常可以包括神经网络层、池化层、全连接层和分类层。
其中,神经网络层是利用神经网络对输入的语音音频特征进行处理的层次。
池化层是利用下采样降维以简化网络复杂度,减少计算量的层次。
全连接层是将每个神经元与上一层所有神经元进行全连接,达到整合上一层中具有类别区分性的局部信息作用的层次。
分类层是输出各个类别概率的层次。
在本申请实施例中,设置了两个全连接层,即第一全连接层和第二全连接层。其中,第一全连接层与上层的池化层连接,第二全连接层与下层的分类层连接。
步骤102:利用语音神经网络模型对需要鉴伪的语音信息进行处理,需要鉴伪的语音信号是先经过神经网络层、池化层和第一全连接层的处理,获得用于判别的第一全连接层输出特征,将第一全连接层输出特征直接输入分类层获得语音鉴伪结果。
如前所述,语音神经网络模型是在少量语音训练样本的基础上训练并生成的。由于缺少大规模数据集,训练样本不足以覆盖真实场景下的各类语音,训练生成的语音神经网络模型容易对参与训练的样本产生过拟合现象,从而导致对真实场景下需要鉴伪的语音信息的鉴别的鲁棒性不足。
在通常情况下,训练生成的语音神经网络模型和后续用于实际鉴伪的语音神经网络模型应该是一致的。也就是说,训练生成的语音神经网络模型包括神经网络层、池化层、第一全连接层、第二全连接层和分类层,那么需要鉴伪的语音信息也需要经过神经网络层、池化层、第一全连接层、第二全连接层和分类层的处理。但为了克服模型鲁棒性不足的缺陷,本申请发明人创造性地在语音神经网络模型训练过程和语音神经网络模型实际使用过程采用了不同的方式。也就是说,训练过程采用神经网络层、池化层、第一全连接层、第二全连接层和分类层的处理,但在使用过程中,在经过神经网络层、池化层和第一全连接层处理之后,跳过第二全连接层的处理,直接将第一全连接层处理输出的第一全连接层输出特征输入给分类层进行分类。
采用这种方式是因为本申请发明人发现,第一全连接层输出的是第一全连接层输出特征,比第二全连接层输出的第二全连接层输出特征的泛化性更强,对未参加训练的实际场景中下语音信息更能适应。因为第一全连接层输出特征无法表达更为抽象的信息,包含更多冗余信息,为低级(low-level)特征而第二全连接层输出特征表达更为抽象的信息,通常去除了冗余信息,为高级(high-level)特征。对于语音训练样本来说,第二全连接层输出特征更容易进行分类,使得训练的语音神经网络模型能够很好地反映语音训练样本的真实情况。但对于实际场景中的语音信息来说,其类型可能并未涵盖在训练样本中,未得到训练,训练的语音神经网络模型能够很难反映其真实情况。因此,本申请方案在利用训练好的语音神经网络模型对需要鉴伪的语音信息进行处理时,直接将第一全连接层处理输出的第一全连接层输出特征输入给分类层进行分类,其鉴别结果反而更优,从而弥补语音神经网络模型过拟合缺陷,增强语音信息鉴伪的鲁棒性。
图2是本申请实施例中利用语音训练样本训练并生成语音神经网络模型的方法流程图。如图2所示,该方法包括:
步骤201:将语音训练样本输入神经网络层进行处理,获得语音训练样本的第一特征。
这里所述的神经网络层可以是卷积神经网络(CNN,Convolutional NeuralNetworks),比如LeNet网络、AlexNet网络、VggNet网络、ResNet网络等。以ResNet网络中的resnet-34网络为例说明本步骤的实现:resnet-34网络包括4层(layer),layer1、layer2、layer3和layer4。其中,每个layer包含若干残差块(Residual block)。那么,语音训练样本具体可以依次经过layer1、layer2、layer3和layer4的处理,获得输出的特征。为了与其他步骤的特征区分,这里将神经网络层处理输出的特征称为第一特征。由于是在训练过程中得到的第一特征,为了与后续实际鉴伪过程区分,这里称为语音训练样本的第一特征。
另外,对于本领域技术人员来说,可以理解的是,实际应用中通常需要先将语音训练样本进行音频特征提取,将提取出的音频特征输入给神经网络层进行处理,比如提出的梅尔倒谱系数(MFCC,Mel-scale FrequencyCepstral Coefficients)或者LFCC特征等。本申请实施例所述对语音训练样本输入神经网络层进行处理,实际上是将语音训练样本提取出的音频特征输入给神经网络层进行处理。
步骤202:将语音训练样本的第一特征输入池化层进行处理,获得语音训练样本的第二特征。
这里所述的池化层可以采用最大池化方法、平均池化方法、注意力机制池化方法实现。以注意力机制池化方法中的多头注意力池化为例,多头注意力池化层是独立学习得到多组不同的线性投影来变换查询、健和值,然后将多组变换后的查询、键和值并行进行注意力池化,最后将多组注意力池化的输出进行拼接的方法。本步骤经过池化层处理后得到特征,为了与其他特征区分,这里称为第二特征。由于是在训练过程中得到的第二特征,为了与后续实际鉴伪过程区分,这里称为语音训练样本的第二特征。
步骤203:将语音训练样本的第二特征输入第一全连接层进行处理,获得语音训练样本的第一全连接层输出特征。
步骤204:将语音训练样本的第一全连接层输出特征输入第二全连接层进行处理,获得语音训练样本的第二全连接层输出特征。
上述步骤203和步骤204是两层全连接层的处理过程。全连接层(FC,FullyConnected layers)的每一个结点都与上一层的所有节点相连,达到将前边提取到的特征综合起来的作用。其中,第一全连接层输出的特征和第二全连接层输出的特征相比,第一全连接层输出的特征维度更低。为了区分这两者,这里将第一全连接层输出的特征称为第一全连接层输出特征,将第二全连接层输出的特征称为第二全连接层输出特征。由于是在训练过程中得到的第一全连接层输出特征和第二全连接层输出特征,为了与后续实际鉴伪过程区分,因此称为语音训练样本的第一全连接层输出特征和语音训练样本的第二全连接层输出特征。另外,本领域技术人员可以理解的是,实际应用中在第一全连接层和第二连接层中还包括激活函数,比如可以利用Relu激活函数或mish激活函数等。
步骤205:将语音训练样本的第二全连接层输出特征输入分类层进行处理,获得语音训练样本的鉴伪结果。
这里所述的分类层负责输出两个分类任务结果,真人语音的概率以及非真人语音的概率,作为语音训练样本的鉴伪结果。
步骤206:利用预设的损失函数对语音训练样本的鉴伪结果进行损失计算,并利用损失计算结果调整语音神经网络模型的参数。
损失函数可以计算语音训练样本的鉴伪结果和预设的语音训练样本真实结果之间的差距,并将计算结果反馈给语音神经网络模型以修改其参数。实际应用中,本步骤可以选择利用focal loss损失函数计算。
另外,采用多个语音训练样本对语音神经网络模块进行训练时,上述步骤201~步骤206将反复循环执行,直到训练结束,获得训练好的语音神经网络模型。
训练完成之后,就可以用训练好的语音神经网络模块对实际场景中的语音信息进行鉴伪了,鉴别其是真人语音或者非真人语音。
图3是本申请实施例利用语音神经网络模型对需要鉴伪的语音信息进行处理的方法流程图。如图3所述,该方法包括:
步骤301:将需要鉴伪的语音信息输入神经网络层进行处理,获得需要鉴伪的语音信息的第一特征。
本步骤与上述步骤201相似,其区别在于这里输入的是需要鉴伪的语音信息,而不是语音训练样本。同样,实际应用中,通常需要先将需要鉴伪的语音信息进行特征提取,将提取的音频特征输入给神经网络层进行处理,比如MFCC特征或LFCC特征等。
步骤302:将需要鉴伪的语音信息的第一特征输入池化层进行处理,获得需要鉴伪的语音信息的第二特征。
本步骤与上述步骤202相似,其区别在于这里输入的是需要鉴伪的语音信息的第一特征,而不是语音训练样本的第一特征。
步骤303:将需要鉴伪的语音信息的第二特征输入第一全连接层进行处理,获得需要鉴伪的语音信息的第一全连接层输出特征。
本步骤与上述步骤203相似,其区别在于这里输入的是需要鉴伪的语音信息的第二特征,而不是语音训练样本的第二特征。
步骤304:将需要鉴伪的语音信息的第一全连接层输出特征直接输入分类层进行处理,获得需要鉴伪的语音信息的语音鉴伪结果。
需要注意的是,本步骤与上述训练过程中的步骤204和步骤205不同,这里是将需要鉴伪的语音信息的第一全连接层输出特征直接输入分类层。如前所述,需要鉴伪的语音信息的第一全连接层输出特征的泛化性更好,因此直接根据第一全连接层输出特征输入分类层处理,得到的语音鉴伪结果的鲁棒性更好。
本申请还提供一种基于神经网络的语音鉴伪的装置实施例。图4是基于神经网络的语音鉴伪的装置实施例一的结构图。如图4所示,该装置包括:训练模块401和语音鉴伪模块402。
训练模块401,利用语音训练样本训练并生成语音神经网络模型,语音神经网络模型包括神经网络层、池化层、第一全连接层、第二全连接层和分类层,语音训练样本是经过神经网络层、池化层、第一全连接层、第二全连接层和分类层的处理来训练语音神经网络模型的。
语音鉴伪模块402,利用语音神经网络模型对需要鉴伪的语音信息进行处理,需要鉴伪的语音信号是先经过神经网络层、池化层和第一全连接层的处理,获得用于判别的第一全连接层输出特征,将第一全连接层输出特征直接输入分类层获得语音鉴伪结果。
其中,训练模块401可以包括:训练神经网络层处理模块4011、训练池化层处理模块4012、训练第一全连接层处理模块4013、训练第二全连接层处理模块4014、训练分类层处理模块4015和训练损失处理模块4016。其中:
训练神经网络层处理模块4011,用于将语音训练样本输入神经网络层进行处理,获得语音训练样本的第一特征。
训练池化层处理模块4012,用于将语音训练样本的第一特征输入池化层进行处理,获得语音训练样本的第二特征。
训练第一全连接层处理模块4013,用于将语音训练样本的第二特征输入第一全连接层进行处理,获得语音训练样本的第一全连接层输出特征。
训练第二全连接层处理模块4014,用于将语音训练样本的第一全连接层输出特征输入第二全连接层进行处理,获得语音训练样本的第二全连接层输出特征。
训练分类层处理模块4015,用于将语音训练样本的第二全连接层输出特征输入分类层进行处理,获得语音训练样本的鉴伪结果。
训练损失处理模块4016,用于利用预设的损失函数对语音训练样本的鉴伪结果进行损失计算,并利用损失计算结果调整语音神经网络模型的参数。
也就是说,在训练过程中,训练神经网络层处理模块4011将语音训练样本输入神经网络层进行处理,获得语音训练样本的第一特征;训练池化层处理模块4012将语音训练样本的第一特征输入池化层进行处理,获得语音训练样本的第二特征;训练第一全连接层处理模块4013将语音训练样本的第二特征输入第一全连接层进行处理,获得语音训练样本的第一全连接层输出特征;训练第二全连接层处理模块4014将语音训练样本的第一全连接层输出特征输入第二全连接层进行处理,获得语音训练样本的第二全连接层输出特征;训练分类层处理模块4015将语音训练样本的第二全连接层输出特征输入分类层进行处理,获得语音训练样本的鉴伪结果;训练损失处理模块4016利用预设的损失函数对语音训练样本的鉴伪结果进行损失计算,并利用损失计算结果调整语音神经网络模型的参数。
语音鉴伪模块402可以包括:鉴伪神经网络层处理模块4021、鉴伪池化层处理模块4022、鉴伪第一全连接层处理模块4023、鉴伪分类层处理模块4024。其中:
鉴伪神经网络层处理模块4021,用于将需要鉴伪的语音信息输入神经网络层进行处理,获得需要鉴伪的语音信息的第一特征。
鉴伪池化层处理模块4022,用于将需要鉴伪的语音信息的第一特征输入池化层进行处理,获得需要鉴伪的语音信息的第二特征。
鉴伪第一全连接层处理模块4023,用于将需要鉴伪的语音信息的第二特征输入第一全连接层进行处理,获得需要鉴伪的语音信息的第一全连接层输出特征。
鉴伪分类层处理模块4024,用于将需要鉴伪的语音信息的第一全连接层输出特征直接输入分类层进行处理,获得需要鉴伪的语音信息的语音鉴伪结果。
也就是说,鉴伪神经网络层处理模块4021将需要鉴伪的语音信息输入神经网络层进行处理,获得需要鉴伪的语音信息的第一特征;鉴伪池化层处理模块4022将需要鉴伪的语音信息的第一特征输入池化层进行处理,获得需要鉴伪的语音信息的第二特征;鉴伪第一全连接层处理模块4023将需要鉴伪的语音信息的第二特征输入第一全连接层进行处理,获得需要鉴伪的语音信息的第一全连接层输出特征;鉴伪分类层处理模块4024将需要鉴伪的语音信息的第一全连接层输出特征直接输入分类层进行处理,获得需要鉴伪的语音信息的语音鉴伪结果。
图5是本申请实施例训练和实际使用语音神经网络模型的逻辑示意图。如图5所示,该模型包括神经网络层501、池化层502、第一全连接层503、第二全连接层504和分类层505。在训练过程中,利用神经网络层501、池化层502、第一全连接层503、第二全连接层504和分类层505进行处理,但在实际鉴伪过程中利用神经网络层501、池化层502、第一全连接层503和分类层505进行处理。其中,实线表示训练过程,虚线表示实际鉴伪过程。
应用本申请实施例方案,在利用训练好的语音神经网络模型对需要鉴伪的语音信息进行处理时,由于直接将第一全连接层处理输出的第一全连接层输出特征输入给分类层进行分类,其鉴别结果反而更优,从而弥补语音神经网络模型过拟合缺陷,增强语音信息鉴伪的鲁棒性。
如图6所示,本发明实施例还提供一种电子设备,其中可以集成本申请实施例实现方法的装置。如图6所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器602以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器602的程序时,可以实现上述基于神经网络的语音鉴伪的方法。
具体的,实际应用中,该电子设备还可以包括电源603、输入单元604、以及输出单元605等部件。本领域技术人员可以理解,图6中示出的电子设备的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行服务器的各种功能和处理数据,从而对该电子设备进行整体监控。
存储器602可用于存储软件程序以及模块,即上述计算机可读存储介质。处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
该电子设备还包括给各个部件供电的电源503,可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该电子设备还可以包括输出单元605,该输出单元605可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
本申请实施例还提供一种计算机可读介质,所述计算机可读存储介质存储指令,所述指令在由处理器执行时可执行如上所述的基于神经网络的语音鉴伪的方法。实际应用中,所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的,也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或多个程序被执行时,可以实现上述各实施例描述的基于神经网络的语音鉴伪的方法。根据本申请公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本申请保护的范围。在本申请公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令在被处理器执行时实施如上述任一实施例所述的方法。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思路,并不用于限制本申请。对于本领域的技术人员来说,可以依据本发明的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种基于神经网络的语音鉴伪的方法,其特征在于,该方法包括:
利用语音训练样本训练并生成语音神经网络模型,所述语音神经网络模型包括神经网络层、池化层、第一全连接层、第二全连接层和分类层,所述语音训练样本是经过所述神经网络层、所述池化层、所述第一全连接层、所述第二全连接层和所述分类层的处理来训练所述语音神经网络模型的;
利用所述语音神经网络模型对需要鉴伪的语音信息进行处理,所述需要鉴伪的语音信号是先经过所述神经网络层、所述池化层和所述第一全连接层的处理,获得用于判别的第一全连接层输出特征,将所述第一全连接层输出特征直接输入所述分类层获得语音鉴伪结果。
2.根据权利要求1所述的方法,其特征在于,所述利用语音训练样本训练并生成语音神经网络模型的步骤包括:
将所述语音训练样本输入所述神经网络层进行处理,获得所述语音训练样本的第一特征;
将所述语音训练样本的第一特征输入所述池化层进行处理,获得所述语音训练样本的第二特征;
将所述语音训练样本的第二特征输入所述第一全连接层进行处理,获得所述语音训练样本的所述第一全连接层输出特征;
将所述语音训练样本的所述第一全连接层输出特征输入所述第二全连接层进行处理,获得所述语音训练样本的第二全连接层输出特征;
将所述语音训练样本的所述第二全连接层输出特征输入所述分类层进行处理,获得所述语音训练样本的鉴伪结果;
利用预设的损失函数对所述语音训练样本的鉴伪结果进行损失计算,并利用损失计算结果调整所述语音神经网络模型的参数。
3.根据权利要求1所述的方法,其特征在于,所述利用所述语音神经网络模型对需要鉴伪的语音信息进行处理的步骤包括:
将所述需要鉴伪的语音信息输入所述神经网络层进行处理,获得所述需要鉴伪的语音信息的第一特征;
将所述需要鉴伪的语音信息的第一特征输入所述池化层进行处理,获得所述需要鉴伪的语音信息的第二特征;
将所述需要鉴伪的语音信息的第二特征输入所述第一全连接层进行处理,获得所述需要鉴伪的语音信息的所述第一全连接层输出特征;
将所述需要鉴伪的语音信息的所述第一全连接层输出特征直接输入所述分类层进行处理,获得所述需要鉴伪的语音信息的语音鉴伪结果。
4.根据权利要求1~3任一项所述的方法,其特征在于,
所述神经网络层由resnet-34网络构成;
所述池化层为多头注意力池化层;
所述第一全连接层和所述第二全连接层均包括激活函数,所述激活函数为mish激活函数。
5.一种基于神经网络的语音鉴伪的装置,其特征在于,该装置包括:训练模块和语音鉴伪模块;
所述训练模块,利用语音训练样本训练并生成语音神经网络模型,所述语音神经网络模型包括神经网络层、池化层、第一全连接层、第二全连接层和分类层,所述语音训练样本是经过所述神经网络层、所述池化层、所述第一全连接层、所述第二全连接层和所述分类层的处理来训练所述语音神经网络模型的;
所述语音鉴伪模块,利用所述语音神经网络模型对需要鉴伪的语音信息进行处理,所述需要鉴伪的语音信号是先经过所述神经网络层、所述池化层和所述第一全连接层的处理,获得用于判别的所述第一全连接层输出特征,将所述第一全连接层输出特征直接输入所述分类层获得语音鉴伪结果。
6.根据权利要求5所述的装置,其特征在于,所述训练模块包括:训练神经网络层处理模块、训练池化层处理模块、训练第一全连接层处理模块、训练第二全连接层处理模块、训练分类层处理模块和训练损失处理模块;
所述训练神经网络层处理模块,用于将所述语音训练样本输入所述神经网络层进行处理,获得所述语音训练样本的第一特征;
训练池化层处理模块,用于将所述语音训练样本的第一特征输入所述池化层进行处理,获得所述语音训练样本的第二特征;
训练第一全连接层处理模块,用于将所述语音训练样本的第二特征输入所述第一全连接层进行处理,获得所述语音训练样本的所述第一全连接层输出特征;
训练第二全连接层处理模块,用于将所述语音训练样本的所述第一全连接层输出特征输入所述第二全连接层进行处理,获得所述语音训练样本的所述第二全连接层输出特征;
训练分类层处理模块,用于将所述语音训练样本的所述第二全连接层输出特征输入所述分类层进行处理,获得所述语音训练样本的鉴伪结果;
训练损失处理模块,用于利用预设的损失函数对所述语音训练样本的鉴伪结果进行损失计算,并利用损失计算结果调整所述语音神经网络模型的参数。
7.根据权利要求5所述的装置,其特征在于,所述语音鉴伪模块包括:鉴伪神经网络层处理模块、鉴伪池化层处理模块、鉴伪第一全连接层处理模块、鉴伪分类层处理模块;
所述鉴伪神经网络层处理模块,用于将所述需要鉴伪的语音信息输入所述神经网络层进行处理,获得所述需要鉴伪的语音信息的第一特征;
所述鉴伪池化层处理模块,用于将所述需要鉴伪的语音信息的第一特征输入所述池化层进行处理,获得所述需要鉴伪的语音信息的第二特征;
所述鉴伪第一全连接层处理模块,用于将所述需要鉴伪的语音信息的第二特征输入所述第一全连接层进行处理,获得所述需要鉴伪的语音信息的所述第一全连接层输出特征;
所述鉴伪分类层处理模块,用于将所述需要鉴伪的语音信息的所述第一全连接层输出特征直接输入所述分类层进行处理,获得所述需要鉴伪的语音信息的语音鉴伪结果。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时可实现权利要求1~4任一项所述的基于神经网络的语音鉴伪的方法。
9.一种电子设备,其特征在于,该电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1~4任一项所述的基于神经网络的语音鉴伪的方法。
10.一种计算机程序产品,包括计算机指令,所述计算机指令在被处理器执行时实施如上述权利要求1~4任一项所述的基于神经网络的语音鉴伪的方法。
CN202210363497.8A 2022-04-07 2022-04-07 一种基于神经网络的语音鉴伪的方法、装置及存储介质 Pending CN114974300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210363497.8A CN114974300A (zh) 2022-04-07 2022-04-07 一种基于神经网络的语音鉴伪的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210363497.8A CN114974300A (zh) 2022-04-07 2022-04-07 一种基于神经网络的语音鉴伪的方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114974300A true CN114974300A (zh) 2022-08-30

Family

ID=82978056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210363497.8A Pending CN114974300A (zh) 2022-04-07 2022-04-07 一种基于神经网络的语音鉴伪的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114974300A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662441A (zh) * 2022-12-29 2023-01-31 北京远鉴信息技术有限公司 一种基于自监督学习的语音鉴伪方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355248A (zh) * 2016-08-26 2017-01-25 深圳先进技术研究院 一种深度卷积神经网络训练方法及装置
CN108281183A (zh) * 2018-01-30 2018-07-13 重庆大学 基于卷积神经网络和迁移学习的宫颈涂片图像诊断系统
CN109714584A (zh) * 2019-01-11 2019-05-03 杭州电子科技大学 基于深度学习的3d-hevc深度图编码单元快速决策方法
CN111159450A (zh) * 2019-12-30 2020-05-15 上海眼控科技股份有限公司 图片分类方法、装置、计算机设备和存储介质
CN111666984A (zh) * 2020-05-20 2020-09-15 海南电网有限责任公司电力科学研究院 一种基于迁移学习的过电压智能识别方法
CN111783939A (zh) * 2020-05-28 2020-10-16 厦门快商通科技股份有限公司 声纹识别模型训练方法、装置、移动终端及存储介质
CN111832701A (zh) * 2020-06-09 2020-10-27 北京百度网讯科技有限公司 模型的蒸馏方法、装置、电子设备及存储介质
CN111933154A (zh) * 2020-07-16 2020-11-13 平安科技(深圳)有限公司 一种伪冒语音的识别方法、设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355248A (zh) * 2016-08-26 2017-01-25 深圳先进技术研究院 一种深度卷积神经网络训练方法及装置
CN108281183A (zh) * 2018-01-30 2018-07-13 重庆大学 基于卷积神经网络和迁移学习的宫颈涂片图像诊断系统
CN109714584A (zh) * 2019-01-11 2019-05-03 杭州电子科技大学 基于深度学习的3d-hevc深度图编码单元快速决策方法
CN111159450A (zh) * 2019-12-30 2020-05-15 上海眼控科技股份有限公司 图片分类方法、装置、计算机设备和存储介质
CN111666984A (zh) * 2020-05-20 2020-09-15 海南电网有限责任公司电力科学研究院 一种基于迁移学习的过电压智能识别方法
CN111783939A (zh) * 2020-05-28 2020-10-16 厦门快商通科技股份有限公司 声纹识别模型训练方法、装置、移动终端及存储介质
CN111832701A (zh) * 2020-06-09 2020-10-27 北京百度网讯科技有限公司 模型的蒸馏方法、装置、电子设备及存储介质
CN111933154A (zh) * 2020-07-16 2020-11-13 平安科技(深圳)有限公司 一种伪冒语音的识别方法、设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662441A (zh) * 2022-12-29 2023-01-31 北京远鉴信息技术有限公司 一种基于自监督学习的语音鉴伪方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Hu et al. MM-DFN: Multimodal dynamic fusion network for emotion recognition in conversations
Hazarika et al. Icon: Interactive conversational memory network for multimodal emotion detection
Jalal et al. Learning temporal clusters using capsule routing for speech emotion recognition
CN109036405A (zh) 语音交互方法、装置、设备及存储介质
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
CN107015983A (zh) 一种用于智能问答中提供知识信息的方法与设备
JP6732703B2 (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
JP2021165845A (ja) 情報処理装置、情報処理方法、及びプログラム
Li et al. Learning fine-grained cross modality excitement for speech emotion recognition
US20220076674A1 (en) Cross-device voiceprint recognition
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
Salvi et al. TIMIT-TTS: A text-to-speech dataset for multimodal synthetic media detection
Joshi et al. A Study of speech emotion recognition methods
CN108986825A (zh) 基于语音交互的上下文获取方法及设备
CN106302987A (zh) 一种音频推荐方法及设备
Noroozi et al. Speech-based emotion recognition and next reaction prediction
CN103811000A (zh) 语音识别系统及方法
Chen et al. Sequence-to-sequence modelling for categorical speech emotion recognition using recurrent neural network
CN114974300A (zh) 一种基于神经网络的语音鉴伪的方法、装置及存储介质
Dixit et al. Review of audio deepfake detection techniques: Issues and prospects
CN111986653B (zh) 一种语音意图识别方法、装置及设备
Ismaiel et al. Deep Learning, Ensemble and Supervised Machine Learning for Arabic Speech Emotion Recognition
Sabuj et al. A Comparative Study of Machine Learning Classifiers for Speaker’s Accent Recognition
KR102334961B1 (ko) 음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination