CN110796231B - 数据处理方法、装置、计算机设备和存储介质 - Google Patents

数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110796231B
CN110796231B CN201910848490.3A CN201910848490A CN110796231B CN 110796231 B CN110796231 B CN 110796231B CN 201910848490 A CN201910848490 A CN 201910848490A CN 110796231 B CN110796231 B CN 110796231B
Authority
CN
China
Prior art keywords
delay
neural network
parameter
target
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910848490.3A
Other languages
English (en)
Other versions
CN110796231A (zh
Inventor
张洋
邝英兰
马雅奇
刘欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai, Zhuhai Lianyun Technology Co Ltd filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201910848490.3A priority Critical patent/CN110796231B/zh
Publication of CN110796231A publication Critical patent/CN110796231A/zh
Application granted granted Critical
Publication of CN110796231B publication Critical patent/CN110796231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取包含多个训练特征的训练集合,训练特征携带标签;输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征;通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。通过延时参数增加样本的多样性,提升网络的复杂度和信息表征能力,从而提升网络的性能。

Description

数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
脉冲神经网络模拟神经元更加接近实际,除此之外,还可以引入时间信息。动态神经网络中的神经元不是在每一次迭代传播中都被激活(而在典型的多层感知机网络中却是),而是在它的膜电位达到某一个特定值才会被激活。当一个神经元被激活,它会产生一个信号传递给其他神经元,提高或降低其膜电位。
由于脉冲神经网络模拟的神经元更为接近实际,故采用脉冲神经网络来解决现实问题成为研究趋势。由于脉冲神经网络引入了时间信息,而常见的脉冲神经网络的对采样数据处理过程中,由于采样数据有限,导致训练得到的脉冲神经网络的网络性能低。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种数据处理方法,包括:
获取包含多个训练特征的训练集合,训练特征携带标签;
输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征;
通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。
第二方面,本申请提供了一种数据处理装置,包括:
数据获取模块,用于获取包含多个训练特征的训练集合,训练特征携带标签;
数据延时模块,用于输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征;
模型生成模块,用于通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取包含多个训练特征的训练集合,训练特征携带标签;
输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征;
通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取包含多个训练特征的训练集合,训练特征携带标签;
输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征;
通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。
上述数据处理方法、装置、计算机设备和存储介质,所述方法包括:获取包含多个训练特征的训练集合,训练特征携带标签;输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征;通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。通过延时参数增加样本的多样性,即增加输入的训练特征,通过增加样本的多样性,提升脉冲神经网络的复杂度和信息表征能力,从而提升脉冲神经网络的性能。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中数据处理方法的应用环境图;
图2为一个实施例中数据处理方法的流程示意图;
图3为一个实施例中数据处理方法的框架示意图;
图4为一个实施例中数据处理方法的框架示意图;
图5为一个实施例中数据处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为一个实施例中数据处理方法的应用环境图。参照图1,该数据处理方法应用于数据处理系统。该数据处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。服务器120或终端110获取包含多个训练特征的训练集合,训练特征携带标签;输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征;通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。
终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种数据处理方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2,该数据处理方法具体包括如下步骤:
步骤S201,获取包含多个训练特征的训练集合。
在本具体实施例中,训练特征携带标签。
具体地,训练特征是用于训练脉冲神经网络的特征,各个训练特征之间存在时序关系,训练特征包括但不限于存在时序关系的声纹特征、语音特征和图像特征等等。各个训练特征为包含多个训练数值的特征向量。标签是用于唯一标识训练特征的标签数据,如身份标识、图像类型标识等等。
在一个实施例中,声纹特征为MFCC(Mel Frequency Cepstral Coefficients,梅尔频率倒谱系数)或LPCC(Linear Predictive Cepstral coefficients,线性预测倒谱系数)。获取音频数据,提取音频数据的特征,计算梅尔频谱系数,得到音频数据的MFCC或LPCC。声纹特征对应的标识为说话人的身份标识。
步骤S202,输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征。
步骤S203,通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络。
在本具体实施例中,目标脉冲神经网络包括目标权重参数和目标延时参数。
具体地,初始脉冲神经网络包含输入层、至少一个特征提取层和输出层,其中输入层与特征提取层连接,特征提取层与输出层连接。输入层是用于输入训练特征的网络层,特征提取层是用于对训练特性进行特征提取的网络层,输出层是用于输出根据特征提取识别的结果。输入层包括多个输入神经元,各个特征提取包括多个特征提取神经元,输出层包括至少一个输出神经元。权重参数包括初始脉冲神经网络中的神经元之间的权重参数,通过时延参数对训练特征进行延时处理,即更新训练特征中的各个训练数值,得到延时特征。其中在构建初始脉冲神经网络时,可以自定义设置的权重参数和延时参数。如在t i采样时刻得到的训练特征为x i,设x i=f(t i),假设延时参数为Δt,则延时特征为x i=f(t i+Δt)。
预设学习规则为预先定义的用于更新初始脉冲神经网络的权重参数和延时参数的学习规则,常见的脉冲神经网络的学习规则包括STDP(Spike TimeDependentPlasticity,脉冲时间相关的突触可塑性)、IP rule(基于脉冲神经元内部特性的学习规则),SpikeProp rule(基于BP的有监督脉冲学习算法),ReSuMe rule(远程监督学习规则)等等。其中STDP是一种指导权值系数迭代的规则,简单来讲就是对一种输入(刺激),在初始状态下,神经元产生脉冲响应,就认为它与这种输入相关度高,则提高产生响应的神经元与前一级神经元之间的权值系数。反之,减小权值系数。预设收敛条件是用于判断初始脉冲神经网络模型是否收敛的条件,收敛条件可以为训练次数和/或识别准确率等等。其中评估模型的识别准确率的指标是识别结果的等错误率(EER,Equal Error Rate):错分正负样本概率相等的点,即错误接受率(FAR,False Acceptance Rate)和错误拒绝率(FRR,FalseRejection Rate,)相等时的错误率。目标脉冲神经网络是指满足预设收敛条件的脉冲神经网络模型,满足预设收敛条件的脉冲神经网络模型中包含的权重参数和延时参数分别为目标权重参数和目标延时参数。
在一个实施例中,步骤S202包括:根据各个输入神经元的预设延时规则和初始延时参数,计算各个输入神经元的延时参数,按照各个输入神经元的延时参数对输入的训练特征进行延时处理,得到延时特征。
具体地,预设延时规则是用于延时参数进行处理的规则,其中延时规则可以自定义,如可以仅包括高斯分布生成规则或指数分布规则等等,还可以是包括高斯分布生成规则和随机数生成规则等等。高斯分布生成规则是用于对延时参数进行处理的规则,得到服从高斯分布的延时参数。每次对脉冲神经网络的参数进行迭代更新时,各个输入神经元按照延时规则对延时参数进行延时处理,得到当次迭代的延时参数,按照该延时参数更新训练特征,得到对应的延时特征。
在一个实施例中,根据各个输入神经元对应的高斯分布生成规则和初始延时参数,生成各个输入神经元对应的符合高斯分布的多个候选延时参数;根据随机数生成规则生成对应的随机数组;按照随机数组,从各个所述输入神经元的候选延时参数中依次获取一个候选延时参数,作为各个输入神经元的延时参数。
具体地,使得延时参数按照高斯分布生成规则,生成服从高斯分布的延时参数,根据随机数生成规则,生成对应的随机数组,按照当次迭代对应的随机数从服从高斯分布的延时参数选取一个延时参数作为输入神经元的延时参数。
在本实施例中,步骤S203包括:输入延时特征至特征提取层,得到目标训练特征;输入目标训练特征至输出层,输出识别结果;根据识别结果、标签和预设学习规则,更新初始脉冲神经网络的权重参数和初始延时参数,得到更新后的权重参数和更新后的延时参数,直至初始脉冲神经网络满足预设收敛条件,将更新后的权重参数作为目标权重参数,将更新后的延时参数作为目标延时参数,将包含目标权重参数和目标延时参数的初始脉冲神经网络,作为目标脉冲神经网络。
具体地,特征提取层包括至少一个网络层,特征提取层中的第一个网络层中的各个特征提取神经元,与输入层的输入层神经元采用全连接权重参数进行初始化,或采用随机连接权重参数进行初始化。根据初始化的权重参数,将输入神经元的输出的延时特征输入至特征提取层中的各个特征提取神经元,根据各个特征提取神经元的响应状态和权重参数,得到目标训练特征,通过输出层输出目标训练特征对应的识别结果,根据识别结果、标签和预设学习规则,更新整个初始脉冲神经网络的权重参数和初始延时参数,得到更新后的权重参数和更新后的延时参数,采用更新后的权重参数和更新后的延时参数对训练特征进行再次训练,直至初始脉冲神经网络满足预设收敛条件,得到训练好的脉冲神经网络模型,即目标脉冲神经网络模型,目标脉冲神经网络模型对应的权重参数为目标权重参数,目标脉冲神经网络模型对应的延时参数为目标延时参数。
在一个实施例中,预设学习规则为突触可塑性学习规则,根据识别结果、标签和预设学习规则,更新初始脉冲神经网络的权重参数和初始延时参数,得到更新后的权重参数和更新后的初始延时参数,包括:当识别结果和标签匹配时,增加存在响应的各个神经元之间的权重参数,得到更新后的权重参数,根据训练特征对应的放电簇更新初始延时参数,得到更新后的延时参数;当识别结果和标签未匹配时,减小存在响应的各个神经元之间的权重参数,得到更新后的权重参数,根据训练特征对应的放电簇更新初始延时参数,得到更新后的延时参数。
具体地,初始脉冲神经网络输出的结果与标签一致,表示识别结果和标签匹配。若匹配,则表示输出结果为正确的结果,采用当前的权重系数能够学习到正确的特征时,则提高初始脉冲神经网络中存在响应关系的神经元的权重参数的参数值,得到更新后的权重参数,并根据初始脉冲神经网络的放电簇更新初始延时参数,得到更新后的延时参数。初始脉冲神经网络输出的结果与标签不一致,则表示识别结果和标签不匹配。不匹配无法学习到正确的特征,则降低初始脉冲神经网络中存在响应关系的神经元的权重参数的参数值,得到更新后的权重参数,并根据初始脉冲神经网络的放电簇更新初始延时参数,得到更新后的延时参数。
在一个实施例中,根据训练特征对应的放电簇更新初始延时参数,得到更新后的延时参数,包括:计算训练特征对应的放电簇对应的时间长度,将时间长度作为更新后的延时参数。
具体地,对于进行存在一个放电簇的训练特征,根据放电簇对应的时间长度作为更新后的延时参数。放电簇的时间长度是根据训练特征中的各个训练数值对应的时间参数计算得到的。
在一个实施例中,根据训练特征对应的放电簇更新初始延时参数,得到更新后的延时参数,包括:计算训练特征对应的放电簇对应的时间长度,选取放电簇的时间长度中最小的时间长度作为更新后的延时参数。
具体地,当存在多个放电簇时,计算各个放电簇对应的时间长度,从各个放电簇对应的时间长度中,选取时间长度中的最小值作为更新后的延时参数。
在一个实施例中,在步骤S203之后,还包括:获取待处理特征,输入各个待处理特征至目标脉冲神经网络,通过目标延时参数对待处理特征进行延时处理,得到待处理特征的待处理延时特征;通过目标权重参数对待处理延时特征进行特征提取,得到目标特征,识别目标特征得到目标识别结果。
具体地,待处理特征与训练特征为相同类型的特征,如训练特征为声纹特征,则待处理特征为声纹特征,或训练特征为图像特征,则待处理特征为图像特征。输入待处理特征至目标脉冲神经网络,通过目标脉冲神经网络中的目标延时参数对待处理特征进行延时处理,得到对应的待处理延时特征,通过目标脉冲神经网络中的目标权重参数对待处理延时特征进行特征提取,得到目标特征,识别目标特征得到目标识别结果。若待处理特征为声纹特征,则识别出该声纹对应的说话人身份标识。
上述数据处理方法,包括:获取包含多个训练特征的训练集合,训练特征携带标签;输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征;通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。通过延时参数增加样本的多样性,提升网络的复杂度和信息表征能力,从而提升网络的性能。
在一个具体的实施例中,参考图3,以声纹识别为例,上述数据处理方法,包括:
通过声音采集设备采集声音信号,存储为数字音频数据,作为声纹识别的初始数据,即为模型训练数据集。
对数字音频数据进行特征提取(语音检测),计算梅尔频谱系数,利用梅尔滤波器组提取MFCC特征作为声纹特征。
将有说话人标签的MFCC特征作为输入,训练脉冲神经网络的权值系数和延时参数。学习规则为STDP,由于STDP的学习规则容易让网络中的权值趋于两极化,会使放电复杂度降低,此时根据权值的大小增加一个时延参数μ,μ为系数为a的高斯分布,a受脉冲神经网络在STDP作用下产生的放电簇现象影响。通过增加的时延参数提高网络的信息表征能力,使得网络能够精确的表征说话人的声纹特征信息。
对脉冲神经元构成的深度网络进行提取声纹特征向量D-vector。网络结构重点在于神经元模型是脉冲神经元,每次迭代计算时仅需计算有放电现象的神经元信息。网络结构如图4所示。
使用声纹语音测试集数据进行测试。将声纹语音测试集数据分为两部分:声纹注册数据集和声纹验证数据集。最终评估声纹识别准确率的指标是识别结果的等错误率(EER):错分正负样本概率相等的点,即错误接受率(FAR)和错误拒绝率(FRR)相等时的错误率。
脉冲神经元的时延特性是指生物神经元之间是存在信息传输延迟的,当前神经元接收多个上级神经元的信号经过时域上的叠加是会受到时延的影响的。不同时刻的脉冲响应经过时延会影响当前神经元的脉冲响应状态。在脉冲神经网络中,利用时延能够提升网络的复杂度,信息表征能力,进而提升网络的性能,大幅提高声纹识别的准确度与计算性能。
声纹识别的实现主要是通过设备采集语音信号后,通过降噪处理,以MFCC为主要方法进行特征提取,再将提取的MFCC特征作为脉冲神经元组成的深度网络的输入神经元的输入信号,在输出层提取出基于脉冲神经元的DNN的声纹特征向量D-vector。D-vector经过解码后即构成说话人身份信息。脉冲神经网络的时延特性使得网络的表征能力更强,对声纹的特征能够表征的更加准确,且网络模型能够适应更加庞大的声纹信息数据集。
在一个实施例中,采集5s的语音数据,对语音数据进行分帧,提取梅尔倒谱系数,对提取的MFC0C进行滤波。即将wav等格式的音频文件转化为每帧20ms,假如每帧计算后得到一个16维数据的向量。将16维的数据对应16个输入神经元。所有的帧的特征向量依次输入。一句话切割成100帧,每帧得到一个16维特征向量。那就将100个向量按照前后顺序依次输入给输入神经元,每个向量的16维数据一一对应传输给16个输入神经元。
100帧数据,每输入一帧数据,网络层就进行一次迭代计算,主要计算的是神经元的权重参数。其中更新规则采用STDP和时延参数。由于STDP长期训练下会产生过拟合的情况,使的生成脉冲神经网络应对的输入变得单一,无法表征更多的信息。
时延特性就是按照一定规则增加神经元之间的信息传输延迟,弱化同步现象,通过该方法降低网络的过拟合问题。时延参数是基于高斯分布的时延噪声信号,时延信号的参数主要由脉冲神经网络在训练过程中产生的放电簇的宽度来决定。在每一次迭代计算中,STDP给定一个计算规则,增加一个服从高斯分布的随机变化的时延参数,共同影响神经网络的权值系数更新。在经过训练数据集的训练后,脉冲神经网络的权值参数和延时参数便已确定,即为训练好的网络模型(目标脉冲神经网络)。由于训练过程中对每一个输入都有对应的输出标签。在后续测试的时候,给定一个待处理特征,目标脉冲神经网络产生一个输出,对输出进行比对,便可以确定输入的待处理特征的类型。
在声纹识别任务中,一般是预设一段音域较广的文字供使用者阅读,将采集到的阅读语音信号进行语音特征处理,处理后的数据在计算机中是以文本或二进制文件的形式存储的,这个特征数据是送由脉冲神经网络按照迭代次序逐步输入。脉冲神经网络在使用之前是经过训练与测试两个过程的。训练过程:即使用提前准备好的音频数据作为输入,训练脉冲神经网络的权值参数和延时参数,在输出端对输入音频数据做标准输出(即训练特征对应的身份标识)。测试过程:测试过程分两部分,将测试的说话人音频数据分为注册集与测试集,先将说话人的信息通过脉冲神经网络建立一个特征空间(网络的表征信息message1),再将测试集的音频信息输入到网络模型中,得到一个网络的输出message2。message1与message2计算相似性,按照提前给定的阈值,判断是否属于某说话人的音频。
图2为一个实施例中数据处理方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种数据处理装置200,包括:
数据获取模块201,用于获取包含多个训练特征的训练集合,训练特征携带标签。
数据延时模块202,用于输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征。
模型生成模块203,用于通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。
在一个实施例中,数据延时模块202具体用于根据各个输入神经元的预设延时规则和初始延时参数,计算各个输入神经元的延时参数,按照各个输入神经元的延时参数对输入的训练特征进行延时处理,得到延时特征,脉冲神经网络包括输入层、特征提取层和输出层,输入层包括多个输入神经元,特征提取层包括多个特征提取神经元,输出层包括至少一个输出神经元。
模型生成模块203具体用于输入延时特征至特征提取层,得到目标训练特征;输入目标训练特征至输出层,输出识别结果;根据识别结果、标签和预设学习规则,更新初始脉冲神经网络的权重参数和初始延时参数,得到更新后的权重参数和更新后的延时参数,直至初始脉冲神经网络满足预设收敛条件,将更新后的权重参数作为目标权重参数,将更新后的延时参数作为目标延时参数,将包含目标权重参数和目标延时参数的初始脉冲神经网络,作为目标脉冲神经网络。
在一个实施例中,模型生成模块203具体用于当识别结果和标签匹配时,增加存在响应的各个神经元之间的权重参数,得到更新后的权重参数,根据训练特征对应的放电簇更新初始延时参数,得到更新后的延时参数;当识别结果和标签未匹配时,减小存在响应的各个神经元之间的权重参数,得到更新后的权重参数,根据训练特征对应的放电簇更新初始延时参数,得到更新后的延时参数。
在一个实施例中,模型生成模块203具体用于计算训练特征对应的放电簇对应的时间长度,将时间长度作为更新后的延时参数。
在一个实施例中,模型生成模块203还用于计算各个放电簇的时间长度;选取放电簇的时间长度中最小的时间长度作为更新后的延时参数。
在一个实施例中,数据延时模块202具体用于根据各个输入神经元对应的高斯分布生成规则和初始延时参数,生成各个输入神经元对应的符合高斯分布的多个候选延时参数;根据随机数生成规则生成对应的随机数组;按照随机数组,从各个输入神经元的候选延时参数中依次获取一个候选延时参数,作为各个输入神经元的延时参数。
在一个实施例中,上述数据处理装置,还包括:
数据识别模块,用于获取待处理特征;输入各个待处理特征至目标脉冲神经网络,通过目标延时参数对待处理特征进行延时处理,得到待处理特征的待处理延时特征;通过目标权重参数对待处理延时特征进行特征提取,得到目标特征,识别目标特征得到目标识别结果。
在一个实施例中,数据获取模块201中的训练特征为声纹特征,模型生成模块203生成的目标脉冲神经网络用于识别声纹特征。
图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图6所示,该计算机设备通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现数据处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行数据处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的数据处理装置可以实现为一种计算机程序的形式,计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据处理装置的各个程序模块,比如,图5所示的数据获取模块201、数据延时模块202和模型生成模块203。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据处理方法中的步骤。
例如,图6所示的计算机设备可以通过如图5所示的数据处理装置中的数据获取模块201执行获取包含多个训练特征的训练集合,训练特征携带标签。计算机设备可以通过数据延时模块202执行输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征。计算机设备可以通过模型生成模块203执行通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取包含多个训练特征的训练集合,训练特征携带标签;数据延时模块,用于输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征;通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。
在一个实施例中,脉冲神经网络包括输入层、特征提取层和输出层,输入层包括多个输入神经元,特征提取层包括多个特征提取神经元,输出层包括至少一个输出神经元;输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征,包括:根据各个输入神经元的预设延时规则和初始延时参数,计算各个输入神经元的延时参数,按照各个输入神经元的延时参数对输入的训练特征进行延时处理,得到延时特征;通过初始脉冲神经网络的预设学习规则对延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,包括:输入延时特征至特征提取层,得到目标训练特征;输入目标训练特征至输出层,输出识别结果;根据识别结果、标签和预设学习规则,更新初始脉冲神经网络的权重参数和初始延时参数,得到更新后的权重参数和更新后的延时参数,直至初始脉冲神经网络满足预设收敛条件,将更新后的权重参数作为目标权重参数,将更新后的延时参数作为目标延时参数,将包含目标权重参数和目标延时参数的初始脉冲神经网络,作为目标脉冲神经网络。
在一个实施例中,预设学习规则为突触可塑性学习规则,根据识别结果、标签和预设学习规则,更新初始脉冲神经网络的权重参数和初始延时参数,得到更新后的权重参数和更新后的初始延时参数,包括:当识别结果和标签匹配时,增加存在响应的各个神经元之间的权重参数,得到更新后的权重参数,根据训练特征对应的放电簇更新初始延时参数,得到更新后的延时参数;当识别结果和标签未匹配时,减小存在响应的各个神经元之间的权重参数,得到更新后的权重参数,根据训练特征对应的放电簇更新初始延时参数,得到更新后的延时参数。
在一个实施例中,根据训练特征对应的放电簇更新初始延时参数,包括计算训练特征对应的放电簇对应的时间长度;将时间长度作为更新后的延时参数;
在一个实施例中,训练特征对应多个放电簇,根据训练特征对应的放电簇更新初始延时参数,包括:计算各个放电簇的时间长度;选取放电簇的时间长度中最小的时间长度作为更新后的延时参数。
在一个实施例中,预设延时规则包括高斯分布生成规则和随机数生成规则,根据各个输入神经元的预设延时规则和初始延时参数,计算各个输入神经元的延时参数,包括:根据各个输入神经元对应的高斯分布生成规则和初始延时参数,生成各个输入神经元对应的符合高斯分布的多个候选延时参数;根据随机数生成规则生成对应的随机数组;按照随机数组,从各个输入神经元的候选延时参数中依次获取一个候选延时参数,作为各个输入神经元的延时参数。
在一个实施例中,生成目标脉冲神经网络之后,处理器执行计算机程序时还实现以下步骤:获取待处理特征;输入各个待处理特征至目标脉冲神经网络,通过目标延时参数对待处理特征进行延时处理,得到待处理特征的待处理延时特征;通过目标权重参数对待处理延时特征进行特征提取,得到目标特征,识别目标特征得到目标识别结果。
在一个实施例中,训练特征为声纹特征,目标脉冲神经网络用于识别声纹特征。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取包含多个训练特征的训练集合,训练特征携带标签;数据延时模块,用于输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征;通过初始脉冲神经网络的预设学习规则、标签和延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,目标脉冲神经网络包括目标权重参数和目标延时参数。
在一个实施例中,脉冲神经网络包括输入层、特征提取层和输出层,输入层包括多个输入神经元,特征提取层包括多个特征提取神经元,输出层包括至少一个输出神经元;输入各个训练特征至初始脉冲神经网络,通过初始脉冲神经网络的初始延时参数对各个训练特征进行延时处理,得到各个训练特征的延时特征,包括:根据各个输入神经元的预设延时规则和初始延时参数,计算各个输入神经元的延时参数,按照各个输入神经元的延时参数对输入的训练特征进行延时处理,得到延时特征;通过初始脉冲神经网络的预设学习规则对延时特征对初始脉冲神经网络的权重参数和延时参数进行学习,直至初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,包括:输入延时特征至特征提取层,得到目标训练特征;输入目标训练特征至输出层,输出识别结果;根据识别结果、标签和预设学习规则,更新初始脉冲神经网络的权重参数和初始延时参数,得到更新后的权重参数和更新后的延时参数,直至初始脉冲神经网络满足预设收敛条件,将更新后的权重参数作为目标权重参数,将更新后的延时参数作为目标延时参数,将包含目标权重参数和目标延时参数的初始脉冲神经网络,作为目标脉冲神经网络。
在一个实施例中,预设学习规则为突触可塑性学习规则,根据识别结果、标签和预设学习规则,更新初始脉冲神经网络的权重参数和初始延时参数,得到更新后的权重参数和更新后的初始延时参数,包括:当识别结果和标签匹配时,增加存在响应的各个神经元之间的权重参数,得到更新后的权重参数,根据训练特征对应的放电簇更新初始延时参数,得到更新后的延时参数;当识别结果和标签未匹配时,减小存在响应的各个神经元之间的权重参数,得到更新后的权重参数,根据训练特征对应的放电簇更新初始延时参数,得到更新后的延时参数。
在一个实施例中,根据训练特征对应的放电簇更新初始延时参数,包括计算训练特征对应的放电簇对应的时间长度;将时间长度作为更新后的延时参数;
在一个实施例中,训练特征对应多个放电簇,根据训练特征对应的放电簇更新初始延时参数,包括:计算各个放电簇的时间长度;选取放电簇的时间长度中最小的时间长度作为更新后的延时参数。
在一个实施例中,预设延时规则包括高斯分布生成规则和随机数生成规则,根据各个输入神经元的预设延时规则和初始延时参数,计算各个输入神经元的延时参数,包括:根据各个输入神经元对应的高斯分布生成规则和初始延时参数,生成各个输入神经元对应的符合高斯分布的多个候选延时参数;根据随机数生成规则生成对应的随机数组;按照随机数组,从各个输入神经元的候选延时参数中依次获取一个候选延时参数,作为各个输入神经元的延时参数。
在一个实施例中,生成目标脉冲神经网络之后,计算机程序被处理器执行时还实现以下步骤:获取待处理特征;输入各个待处理特征至目标脉冲神经网络,通过目标延时参数对待处理特征进行延时处理,得到待处理特征的待处理延时特征;通过目标权重参数对待处理延时特征进行特征提取,得到目标特征,识别目标特征得到目标识别结果。
在一个实施例中,训练特征为声纹特征,目标脉冲神经网络用于识别声纹特征。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种数据处理方法,其特征在于,所述方法包括:
获取包含多个训练特征为声纹特征的训练集合,所述声纹特征携带含有说话人的身份信息的标签;
输入各个所述声纹特征至初始脉冲神经网络,通过所述初始脉冲神经网络的初始延时参数对各个所述声纹特征进行延时处理,得到各个所述声纹特征的延时特征;
通过所述初始脉冲神经网络的预设学习规则、所述含有说话人的身份信息的标签和所述延时特征对所述初始脉冲神经网络的权重参数和所述延时参数进行学习,直至所述初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,所述目标脉冲神经网络包括目标权重参数和目标延时参数;
所述脉冲神经网络包括输入层、特征提取层和输出层,所述输入层包括多个输入神经元,所述特征提取层包括多个特征提取神经元,所述输出层包括至少一个输出神经元;
所述输入各个所述声纹特征至初始脉冲神经网络,通过所述初始脉冲神经网络的初始延时参数对各个所述声纹特征进行延时处理,得到各个所述声纹特征的延时特征,包括:根据各个所述输入神经元的预设延时规则和所述初始延时参数,计算各个所述输入神经元的延时参数,按照各个所述输入神经元的延时参数对输入的所述声纹特征进行延时处理,得到所述延时特征;
所述通过所述初始脉冲神经网络的预设学习规则和所述延时特征对所述初始脉冲神经网络的权重参数和所述延时参数进行学习,直至所述初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,包括:输入所述延时特征至所述特征提取层,得到目标声纹特征;输入所述目标声纹特征至输出层,输出为识别结果的声纹特征向量,对所述声纹特征向量进行解码得到含说话人的身份信息的输出标签;根据所述为识别结果的声纹特征向量、所述含有说话人的身份信息的标签和所述预设学习规则,更新所述初始脉冲神经网络的权重参数和所述初始延时参数,得到更新后的权重参数和更新后的延时参数,直至所述初始脉冲神经网络满足预设收敛条件,将所述更新后的权重参数作为所述目标权重参数,将所述更新后的延时参数作为所述目标延时参数,将包含所述目标权重参数和所述目标延时参数的初始脉冲神经网络,作为所述目标脉冲神经网络;
所述预设延时规则包括高斯分布生成规则和随机数生成规则,所述根据各个所述输入神经元的预设延时规则和所述初始延时参数,计算各个所述输入神经元的延时参数,包括:
根据各个所述输入神经元对应的所述高斯分布生成规则和所述初始延时参数,生成各个所述输入神经元对应的符合高斯分布的多个候选延时参数;
根据所述随机数生成规则生成对应的随机数组;
按照所述随机数组,从所述各个所述输入神经元的候选延时参数中依次获取一个候选延时参数,作为各个所述输入神经元的延时参数。
2.根据权利要求1所述的方法,其特征在于,所述预设学习规则为突触可塑性学习规则,所述根据所述为识别结果的声纹特征向量、所述含有说话人的身份信息的标签和所述预设学习规则,更新所述初始脉冲神经网络的权重参数和所述初始延时参数,得到更新后的权重参数和更新后的初始延时参数,包括:
对所述为识别结果的声纹特征向量进行解码得到含说话人的身份信息的输出标签;
当所述含说话人的身份信息的输出标签和所述含有说话人的身份信息的标签匹配时,增加存在响应的各个神经元之间的权重参数,得到所述更新后的权重参数,根据所述声纹特征对应的放电簇更新所述初始延时参数,得到所述更新后的延时参数;
当所述含说话人的身份信息的输出标签和所述含有说话人的身份信息的标签未匹配时,减小存在响应的各个神经元之间的权重参数,得到所述更新后的权重参数,根据所述声纹特征对应的放电簇更新所述初始延时参数,得到所述更新后的延时参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述声纹特征对应的放电簇更新所述初始延时参数,包括:
计算所述声纹特征对应的放电簇对应的时间长度;
将所述时间长度作为所述更新后的延时参数。
4.根据权利要求2所述的方法,其特征在于,所述声纹特征对应多个放电簇,所述根据所述声纹特征对应的放电簇更新所述初始延时参数,包括:
计算各个所述放电簇的时间长度;
选取所述放电簇的时间长度中最小的时间长度作为所述更新后的延时参数。
5.根据权利要求1所述的方法,其特征在于,所述生成目标脉冲神经网络之后,所述方法还包括:
获取待处理的声纹特征;
输入各个所述待处理的声纹特征至所述目标脉冲神经网络,通过所述目标延时参数对所述待处理的声纹特征进行延时处理,得到所述待处理的声纹特征的待处理延时特征;
通过所述目标权重参数对所述待处理延时特征进行特征提取,得到目标声纹特征,识别所述目标声纹特征得到为目标识别结果的声纹特征向量,对为目标识别结果的声纹特征向量进行解码得到含说话人的身份信息的输出标签。
6.一种数据处理装置,其特征在于,所述装置包括:
数据获取模块,用于获取包含多个训练特征为声纹特征的训练集合,所述声纹特征携带含有说话人的身份信息的标签;
数据延时模块,用于输入各个所述声纹特征至初始脉冲神经网络,通过所述初始脉冲神经网络的初始延时参数对各个所述声纹特征进行延时处理,得到各个所述声纹特征的延时特征;
模型生成模块,用于通过所述初始脉冲神经网络的预设学习规则和所述含有说话人的身份信息的标签对所述延时特征对所述初始脉冲神经网络的权重参数和所述延时参数进行学习,直至所述初始脉冲神经网络满足预设收敛条件,生成目标脉冲神经网络,所述目标脉冲神经网络包括目标权重参数和目标延时参数;所述脉冲神经网络包括输入层、特征提取层和输出层,所述输入层包括多个输入神经元,所述特征提取层包括多个特征提取神经元,所述输出层包括至少一个输出神经元;
数据延时子模块,用于根据各个所述输入神经元的预设延时规则和所述初始延时参数,计算各个所述输入神经元的延时参数,按照各个所述输入神经元的延时参数对输入的所述声纹特征进行延时处理,得到所述延时特征;所述预设延时规则包括高斯分布生成规则和随机数生成规则;
模型生成子模块,用于输入所述延时特征至所述特征提取层,得到目标声纹特征;输入所述目标声纹特征至输出层,输出为识别结果的声纹特征向量,对所述声纹特征向量进行解码得到含说话人的身份信息的输出标签;根据所述为识别结果的声纹特征向量、所述含有说话人的身份信息的标签和所述预设学习规则,更新所述初始脉冲神经网络的权重参数和所述初始延时参数,得到更新后的权重参数和更新后的延时参数,直至所述初始脉冲神经网络满足预设收敛条件,将所述更新后的权重参数作为所述目标权重参数,将所述更新后的延时参数作为所述目标延时参数,将包含所述目标权重参数和所述目标延时参数的初始脉冲神经网络,作为所述目标脉冲神经网络;
延时参数生成模块,用于根据各个所述输入神经元对应的所述高斯分布生成规则和所述初始延时参数,生成各个所述输入神经元对应的符合高斯分布的多个候选延时参数;根据所述随机数生成规则生成对应的随机数组;按照所述随机数组,从所述各个所述输入神经元的候选延时参数中依次获取一个候选延时参数,作为各个所述输入神经元的延时参数。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项的方法的步骤。
CN201910848490.3A 2019-09-09 2019-09-09 数据处理方法、装置、计算机设备和存储介质 Active CN110796231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910848490.3A CN110796231B (zh) 2019-09-09 2019-09-09 数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910848490.3A CN110796231B (zh) 2019-09-09 2019-09-09 数据处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110796231A CN110796231A (zh) 2020-02-14
CN110796231B true CN110796231B (zh) 2022-05-17

Family

ID=69427148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910848490.3A Active CN110796231B (zh) 2019-09-09 2019-09-09 数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110796231B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582482B (zh) * 2020-05-11 2023-12-15 抖音视界有限公司 用于生成网络模型信息的方法、装置、设备和介质
CN112561166A (zh) * 2020-12-16 2021-03-26 珠海格力电器股份有限公司 车辆的调度方法和装置、存储介质、电子装置
CN112749637B (zh) * 2020-12-29 2023-09-08 电子科技大学 一种基于snn的分布式光纤传感信号识别方法
CN113974607B (zh) * 2021-11-17 2024-04-26 杭州电子科技大学 一种基于脉冲神经网络的睡眠鼾声检测系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875846B (zh) * 2018-05-08 2021-12-10 河海大学常州校区 一种基于改进的脉冲神经网络的手写数字识别方法
CN108717570A (zh) * 2018-05-23 2018-10-30 电子科技大学 一种脉冲神经网络参数量化方法
CN109117884A (zh) * 2018-08-16 2019-01-01 电子科技大学 一种基于改进监督学习算法的图像识别方法

Also Published As

Publication number Publication date
CN110796231A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN110796231B (zh) 数据处理方法、装置、计算机设备和存储介质
US11158305B2 (en) Online verification of custom wake word
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
CN111311327A (zh) 基于人工智能的服务评价方法、装置、设备及存储介质
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
KR102198273B1 (ko) 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램
JP6967197B2 (ja) 異常検出装置、異常検出方法及びプログラム
CN111613231A (zh) 语音数据处理方法、装置、计算机设备和存储介质
CN112233651A (zh) 方言类型的确定方法、装置、设备及存储介质
CN113205820A (zh) 一种用于声音事件检测的声音编码器的生成方法
CN113990352A (zh) 用户情绪识别与预测方法、装置、设备及存储介质
Trivedi Introduction to various algorithms of speech recognition: hidden Markov model, dynamic time warping and artificial neural networks
CN111292851A (zh) 数据分类方法、装置、计算机设备和存储介质
Honnavalli et al. Supervised machine learning model for accent recognition in English speech using sequential MFCC features
CN114360552A (zh) 用于说话人识别的网络模型训练方法、装置及存储介质
CN110956981A (zh) 语音情感识别方法、装置、设备及存储介质
CN113111855B (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN113284501B (zh) 歌手识别方法、装置、设备及存储介质
Hanifa et al. Comparative Analysis on Different Cepstral Features for Speaker Identification Recognition
Namburi Speaker Recognition Based on Mutated Monarch Butterfly Optimization Configured Artificial Neural Network
CN113555005A (zh) 模型训练、置信度确定方法及装置、电子设备、存储介质
CN113035238A (zh) 音频评测方法、装置、电子设备和介质
CN113593525A (zh) 口音分类模型训练和口音分类方法、装置和存储介质
CN112037772A (zh) 基于多模态的响应义务检测方法、系统及装置
CN112951270A (zh) 语音流利度检测的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant