CN113780408A - 一种基于音频特征的生猪状态识别方法 - Google Patents

一种基于音频特征的生猪状态识别方法 Download PDF

Info

Publication number
CN113780408A
CN113780408A CN202111057226.1A CN202111057226A CN113780408A CN 113780408 A CN113780408 A CN 113780408A CN 202111057226 A CN202111057226 A CN 202111057226A CN 113780408 A CN113780408 A CN 113780408A
Authority
CN
China
Prior art keywords
probability
dnn
audio
hmm
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111057226.1A
Other languages
English (en)
Inventor
彭硕
刘东阳
焦俊
辜丽川
慕京生
时国龙
李广博
马慧敏
徐浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mengcheng County Jinghuimeng Agriculture Technology Development Co ltd
Anhui Agricultural University AHAU
Original Assignee
Mengcheng County Jinghuimeng Agriculture Technology Development Co ltd
Anhui Agricultural University AHAU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mengcheng County Jinghuimeng Agriculture Technology Development Co ltd, Anhui Agricultural University AHAU filed Critical Mengcheng County Jinghuimeng Agriculture Technology Development Co ltd
Priority to CN202111057226.1A priority Critical patent/CN113780408A/zh
Publication of CN113780408A publication Critical patent/CN113780408A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于音频特征的生猪状态识别方法,包括:采集待识别猪声音频,将待识别猪声音频经过数据处理后进行音频数据的预增强及特征提取;将提取到的音频特征作为观测序列输入到训练后的DNN‑HMM生猪状态音频识别模型中,获取某个音素的某个状态对某一帧声学特征的观察值概率。本发明有效提高了对生猪音频识别的效率和准确率,对于生猪音频识别和行为状态的判定具有较高的实用价值。

Description

一种基于音频特征的生猪状态识别方法
技术领域
本发明涉及音频识别技术领域,更具体的说是涉及一种基于音频特征的生猪状态识别方法。
背景技术
生猪音频是行为状态体现的关键特征之一,包含大量语义,识别出生猪音频信号中的信息对生猪的养殖至关重要。早期的生猪音频主要靠技术人员人工识别,这不仅成本较高,而且效率低下。随着现代信息技术、人工智能、信号处理等技术的快速发展,将音频的特征分析与计算机技术相结合能提高效率,有助于养猪业的发展。
然而目前的生猪音频识别主要采用隐马尔可夫模型来进行声学模型的构建,其中主要使用的是高斯混合模型GMM来估计观测概率,然而GMM是拟合观测序列的概率分布,相邻GMM之间相关性并不强,对非线性数据统计率很低,使得音频观测序列的建模能力有限,音频识别的效率较低。
因此,如何提出一种识别效率高的基于音频特征的生猪状态识别方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于音频特征的生猪状态识别方法,目的在于提高生猪状态音频识别的效率。
为了实现上述目的,本发明采用如下技术方案:
一种基于音频特征的生猪状态识别方法,包括以下步骤:
采集待识别猪声音频,将所述待识别猪声音频经过数据处理后进行音频数据的预增强及特征提取;
将提取到的音频特征作为观测序列输入到训练后的DNN-HMM生猪状态音频识别模型中,获取某个音素的某个状态对某一帧声学特征的观察值概率;具体包括以下内容:
S1.通过训练后的GMM-HMM获得DNN训练标注;
S2.对观测序列进行帧与状态的对齐处理,将已经对齐的标注和数据特征输入到DNN中;DNN通过前向传播计算网络输出值,运用误差反向传播算法更新网络参数,完成DNN的有监督训练;
S3.通过训练后的DNN重新估计初始状态概率和隐状态转移概率,利用重新估计后的估计初始状态概率和隐状态转移概率通过HMM完成解码,获得最优HMM状态序列,并进一步计算观察值概率。
优选的,将所述待识别猪声音频经过数据处理后进行音频数据的预增强及特征提取的具体内容包括:
1)将原始猪声音频信号进行预加重、分帧和加汉明窗处理;
2)对每帧生猪音频信号进行傅里叶变换,得到生猪音频信号的频谱Si(k):
Figure BDA0003255138920000021
式中,s(n)为输入的音频信号,N为傅里叶变换的点数;根据Si(k),通过平方运算估计每帧生猪声音信号的功率谱:
Pi(k)=|Si(k)|2
3)将每帧生猪声音信号的功率谱Pi(k)通过Mel滤波器组,计算其功率谱在此滤波器组中的能量:
Figure BDA0003255138920000022
式中,Bi(m)表示Mel滤波器能量;m表示第m个Mel滤波器;Hm(k)表示Mel滤波器,计算方法为:
Figure BDA0003255138920000031
式中:
Figure BDA0003255138920000032
f(.)为中心频率,各f(.)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
4)对每个Mel滤波器输出取对数计算,得到相应频带的对数功率谱:
C(i,m)=ln[Bi(m)]0≤m<M
5)将对数能量代入下式求取离散余弦变换DCT,获得N个MFCC参数:
Figure BDA0003255138920000033
式中:mfcc(i,n)为计算所得的MFCC特征值,表征生猪声音信号的静态特征;i表示第i帧;n表示DCT后的谱线;m表示第m个Mel滤波器;
6)提取差分参数,得到相应的动态特征;差分参数的计算公式如下:
Figure BDA0003255138920000034
上式得到的dt为一阶差分系数,计算第t帧的一阶差分需要t-n到t+n的倒谱系数;对一阶差分系数dt再进行查分参数的计算则获取到二阶差分系数,将一阶二阶与静态的梅尔频率倒谱系数相结合得到39维的MFCC。
优选的,所述GMM-HMM的训练过程为:
设置隐马尔可夫的声音隐状态数量以及初始概率,其中,初始概率长度的给定与状态数相同,首元素为1,其他元素为0;
设置隐状态转移概率矩阵大小;通过均匀分割训练样本,估计全局均值和方差来初始化观测状态转移概率矩阵;
采用Baum-Welch算法进行GMM参数优化重估,通过维特比算法获得对齐信息来更新HMM参数;
在以上过程中,设置迭代次数和阈值,在模型收敛或达到最大迭代次数时,得到训练好的GMM-HMM模型。
优选的,DNN的有监督训练过程为:
将已经对齐的标注和数据特征输入到DNN中,设置全连接神经网络内包括的隐藏层个数,设置softmax层作为输出层,使用整流线性单元作为激活函数:
f=max(0,z)
式中,z为全连接网络的输出;
使用交叉熵损失函数JCE作为损失函数,它定义为:
Figure BDA0003255138920000041
其中i是输出层节点索引,
Figure BDA0003255138920000042
是真实的标签,由GMM-HMM模型生成,yi是其激活函数;
分别设置相关参数,使用自适应矩估计优化算法实现学习率的衰减,并完成对DNN参数的更新;
使用早停法,设置验证集的数据比例,当DNN模型在验证集上的表现开始下降的时候,停止训练。
优选的,S3的具体内容包括:
通过DNN计算后验概率,并将后验概率转换为似然概率,转换方法为:
p(xt|qt)=p(qt|xt)p(xt)/p(qt)
式中,xt为观察值,qt为时刻t下的状态;
使用维特比算法,通过转换后的似然概率获取最优HMM状态序列,最终得到的声学概率表示如下:
Figure BDA0003255138920000051
其中,w为维特比算法可能得到的识别序列,p(qt|xt)由DNN计算得出的后验概率,p(qt)是状态先验概率,π(q0)和aqtqt-1分别为由HMM决定的初始状态概率和状态转移概率。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于音频特征的生猪状态识别方法,本发明使用深度神经网络代替传统音频识别模型中的高斯混合矩阵成分,结合隐马尔可夫模型,提出了一种新的基于音频特征的生猪状态识别方法,将采集到猪声提取特征后利用HMM用来描述音频信号的动态变化,DNN用来估计观察特征的概率,将生猪音频对应的特征参数作为观测序列,决定生猪音频的音素作为隐状态,构建DNN-HMM的猪声识别模型及识别方法。实验表明,本发明在几种猪只声音的识别中效果良好,各方面相对于传统的GMM-HMM模型都有所提升,总的识别率提高了17%,对于生猪音频识别和行为状态的判定具有较高的实用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明实施例中提供的DNN-HMM模型结构图;
图2附图为本发明实施例中提供的MFCC声学特征提取流程图;
图3附图为本发明实施例中提供的S3流程图;
图4附图为本发明实施例中提供的猪场噪声波形图;
图5附图为本发明实施例中提供的滤波前后波形对比图;其中,图(a)为原始吃饭声,图(b)为滤波后的吃饭声,图(c)为原始发情声,图(d)为滤波后的发情声,图(e)为原始病猪喘气声,图(f)为滤波后的病猪喘气声,图(g)为原始嚎叫声,图(h)为滤波后的嚎叫声,图(i)为原始哼叫声,图(j)为滤波后的哼叫声;
图6附图为本发明实施例中提供的验证损失与准确度曲线变化图;
图7附图为本发明实施例中提供的测试结果图,其中,图(a)为GMM-HMM测试结果图,图(b)为DNN-HMM测试结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中公开了一种基于音频特征的生猪状态识别方法,该方法基于DNN-HMM模型进行,DNN-HMM模型结构如图1所示。
音频识别系统一般由特征提取、声学模型、语言模型、解码四个部分构成,然而语言模型部分在音频识别系统中非必须部分。在构建生猪音频识别系统时,虽然生猪的不同行为状态有着不同的叫声,但它并非一种实际的语言,无法和人类语言相提并论,所以本实施例中所构建的生猪音频识别系统不考虑语言模型,仅以生猪的声学特征作为研究对象。
在传统的隐马尔可夫模型(HiddenMarkov Models,HMM)中,一般使用高斯混合模型(Gaussian Mixture Model,GMM)来估计观测概率,然而GMM是拟合观测序列的概率分布,相邻GMM之间相关性并不强,对非线性数据统计率很低,使得音频观测序列的建模能力有限。深度神经网络(Deep Neural Network,DNN)对音频数据建模时,引入了非线性的效果,通过对输入进行拼帧来使得模型可以学习到音频帧之间的联系,构建的模型具有很强的上下文信息。本实施例中选用DNN代替GMM,并构建深度神经网络及隐马尔可夫模型来识别生猪音频,以此预测生猪的状态。
对于隐马尔可夫模型HMM:
隐马尔可夫模型是一种概率统计模型,它描述了两个相互依赖的随机过程,一个是可观察的过程,一个是隐藏的马尔科夫过程,隐马尔可夫模型通过对概率的计算,选择最大可能性估计出来预测音频的输出序列。一个隐马尔可夫模型可以被表示为λ=(A,B,π),其中A是隐藏状态转移概率矩阵,它描述了HMM各个隐藏状态s的转移概率,它的一个组成成分定义ajk为:
ajk=p(qt+1=sk|qt=sj),1≤j,k,≤|Q|
式中t为时刻。B是观测状态转移概率矩阵,表示在某时刻t、第j个状态下,观测到某一状态ot的概率,它的一个组成成分bj(ot)定义为:
Figure BDA0003255138920000071
式中k为第k个概率密度函数,cjk为第k个概率密度函数的权值,G是高斯函数,μjk和∑jk分别表示第k个概率密度函数的均值矩阵和协方差矩阵。由于使用了高斯函数,因此这样的HMM又叫做高斯混合模型-隐马尔可夫模型。π是初始状态概率矩阵,代表在起始时刻下各个隐藏状态的概率,定义为:
πj=p(q1=sj),1≤j≤|Q|
其中sj是隐藏状态,|Q|是隐藏状态的数量。
对于DNN-HMM:
深度神经网络是一种具有多层隐含单元的前馈传统人工神经网络。在DNN-HMM框架中,HMM用来描述音频信号的动态变化,DNN用来估计观察特征的概率[14-16]。图1展示了含有3个隐藏层的的DNN-HMM结构图,图中v0为声学特征MFCC的输入层,v1至v3为3个DNN的隐藏层,每层包括128个隐藏节点,v4为输出层,与HMM相连接,HMM包括若干隐藏状态,每个隐状态可以自循环或指向下一隐藏节点。将原始音频提取的MFCC作为特征数据,作帧与状态的对齐处理,再把已经对齐的数据和标签输入到DNN中,整个DNN通过前向传播计算网络输出值,运用误差反向传播算法更新网络参数,当要计算某个音素的某个状态对某一帧声学特征的观察值概率时,可用该状态对应的DNN输出节点的后验概率表示,使用维特比算法,在给定观察序列的情况下,寻求最优的HMM状态序列,由于HMM的解码需要似然概率,而DNN输出的是后验概率,因此需要将后验概率转化为似然概率。
该基于DNN-HMM的生猪状态音频识别方法,包括以下步骤:
采集待识别猪声音频,将待识别猪声音频经过数据处理后进行音频数据的预增强及特征提取;
将提取到的音频特征作为观测序列输入到训练后的DNN-HMM生猪状态音频识别模型中,获取某个音素的某个状态对某一帧声学特征的观察值概率;具体包括以下内容:
S1.通过训练后的GMM-HMM获得DNN训练标注;
S2.对观测序列进行帧与状态的对齐处理,将已经对齐的标注和数据特征输入到DNN中;DNN通过前向传播计算网络输出值,运用误差反向传播算法更新网络参数,完成DNN的有监督训练;
S3.通过训练后的DNN重新估计初始状态概率和隐状态转移概率,利用重新估计后的估计初始状态概率和隐状态转移概率通过HMM完成解码,获得最优HMM状态序列,并进一步计算观察值概率。
需要说明的是:
为了尽可能减小采集环境中其他噪声对生猪音频信号的影响,提取出较好的音频特征,需要对采集到的音频信号进行预处理,以便获得较为平稳、光滑的音频信号,使后续生成的声音模型具有较高的鲁棒性。
猪场环境较为复杂,有着各种噪音,合理的滤波算法对猪声音频的识别至关重要,本实施例中采用卡尔曼滤波算法对采集到的生猪音频进行滤波降噪,它以最小均方误差为最优估计准则,建立信号与噪声的状态方程,利用前一时刻的估计值与当前时刻的观测值不断更新对状态变量的修正,并进行相应的预估,通过迭代求得动态系统的滤波结果。具体实现过程如下:
1)定义一个可由线性随机微分方程描述的离散控制过程的系统xk以及系统的测量值zk
xk=Axk-1+Buk+wk
zk=Hxk+vk
式中,xk是k时刻的系统状态,uk是k时刻对系统的控制量,A和B是系统参数,对于多模型系统时,这两个参数为矩阵,zk是k时刻的测量值,H是测量系统的参数,wk和vk分别表示过程和测量的噪音,都被假设成高斯白噪声,它们的协方差为Q和R。
2)利用系统的过程模型,基于上一状态预测当前状态x(k|k-1):
x(k|k-1)=Ax(k-1|k-1)+Buk
式中,x(k-1|k-1)是上一状态的最优结果,uk是现状态的控制量,在没有控制量的时候可为0。
3)更新协方差P:
p(k|k-1)=AP(k-1|k-1)A′+Q
其中,p(k|k-1)是x(k|k-1)对应的协方差,P(k-1|k-1)是x(k-1|k-1)对应的协方差,A′为A的转置矩阵,Q为系统过程的协方差。
4)结合预测值和测量值,得到现状态k的最优化估计值x(k|k):
x(k|k)=x(k|k-1)kgk(zk-Hx(k|k-1))
式中,kgk为卡尔曼增益,它的表达式是kgk=P(k|k-1)H′/(HP(k|k-1)H′+R)。
5)为使得卡尔曼滤波器不断运行下去直至系统结束,还需更新k状态下x(k|k)的协方差:
P(k|k)=(I-KgkH)P(k|k-1)
其中,I为1的矩阵,当系统进入到k+1状态时,P(k|k)就变为了P(k-1|k-1)。至此,算法就可以自回归的运行下去。
对于预加重:
音频经发声者的口唇辐射发出,受唇端辐射抑制,高频能量明显下降。在进行音频信号的分析与处理时,可采用预加重的方法补偿音频信号高频部分的振幅。假设输入信号的第n个采样点为S(n),则预加重网络的输出和输入音频信号S(n)之间的关系如下:
S'(n)=S(n)-aS(n-1)
其中,a为预加重系数,可取1或比1较小的数值。
对于分帧加窗:
从整体上看,音频信号是一个非平稳信号,但考虑到基因频率在短时范围内是相对固定的,因此可认为声音信号具有短时平稳性,一般取10ms-30ms为一个准稳态过程。由于分帧过程中两帧之间的基因可能发生变化,为确保声学特征的平滑性,采取重叠取帧的方式,即相邻帧之间存在重叠部分。
分帧方式相当于对音频信号进行了加矩阵窗的处理,但矩阵窗在时域上对信号的有限截断可能会使其对应的频域通带较窄,边界处存在多个旁瓣,出现严重的频谱泄露。为减少频谱泄露,应选取合适的窗函数对每帧信号进行加窗处理,本实施例中选取汉明窗,它的窗函数如下:
Figure BDA0003255138920000101
式中:N是窗的长度。
为了进一步实施上述技术方案,将待识别猪声音频经过数据处理后进行音频数据的预增强及特征提取的具体内容包括:
1)将原始猪声音频信号进行预加重、分帧和加汉明窗处理;
2)对每帧生猪音频信号进行傅里叶变换,得到生猪音频信号的频谱Si(k):
Figure BDA0003255138920000111
式中,s(n)为输入的音频信号,N为傅里叶变换的点数;根据Si(k),通过平方运算估计每帧生猪声音信号的功率谱:
Pi(k)=|Si(k)|2
3)将每帧生猪声音信号的功率谱Pi(k)通过Mel滤波器组,计算其功率谱在此滤波器组中的能量:
Figure BDA0003255138920000112
式中,Bi(m)表示Mel滤波器能量;m表示第m个Mel滤波器;Hm(k)表示Mel滤波器,计算方法为:
Figure BDA0003255138920000113
式中:
Figure BDA0003255138920000114
f(.)为中心频率,各f(.)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
4)对每个Mel滤波器输出取对数计算,得到相应频带的对数功率谱:
C(i,m)=ln[Bi(m)]0≤m<M
5)将对数能量代入下式求取离散余弦变换DCT,获得N个MFCC参数:
Figure BDA0003255138920000115
式中:mfcc(i,n)为计算所得的MFCC特征值,表征生猪声音信号的静态特征;i表示第i帧;n表示DCT后的谱线;m表示第m个Mel滤波器;
6)提取差分参数,得到相应的动态特征;差分参数的计算公式如下:
Figure BDA0003255138920000121
上式得到的dt为一阶差分系数,计算第t帧的一阶差分需要t-n到t+n的倒谱系数;对一阶差分系数dt再进行查分参数的计算则获取到二阶差分系数,将一阶二阶与静态的梅尔频率倒谱系数相结合得到39维的MFCC。
需要说明的是:
从整体上看,音频信号是一个非平稳信号,但考虑到基因频率在短时范围内是相对固定的,因此可认为声音信号具有短时平稳性,一般取10ms-30ms为一个准稳态过程。由于分帧过程中两帧之间的基因可能发生变化,为确保声学特征的平滑性,采取重叠取帧的方式,即相邻帧之间存在重叠部分。
分帧方式相当于对音频信号进行了加矩阵窗的处理,但矩阵窗在时域上对信号的有限截断可能会使其对应的频域通带较窄,边界处存在多个旁瓣,出现严重的频谱泄露。为减少频谱泄露,应选取合适的窗函数对每帧信号进行加窗处理,本实施例中选取汉明窗,它的窗函数如下:
Figure BDA0003255138920000122
式中:N是窗的长度。
对于信号特征提取:
原始信号是不定长的时序信号,在时域上具有较大的冗余度,不利于直接作为学习算法的输入,音频的特征提取将音频信号转换成间接而有逻辑的特征向量,比实际信号更有鉴别性和可靠性。
听觉系统类似于一个滤波器组,对不同频率的声波具有一定的选择性,它们广泛分布于低频信号区,而在高频信号区分布较为稀疏,梅尔频率倒谱系数是通过模仿听觉机理获得的。在对原始猪声信号进行预加重、分帧加窗、快速傅里叶变换(Fast FourierTransform,FFT)后,从Mel滤波得到Mel滤波能量并计算其离散余弦变换(Discrete CosineTransform,DCT),形成了反映猪声静态特征的13维MFCC,通过添加一阶和二阶差分系数,最终得到39维的MFCC。MFCC提取流程如下图2。
为了进一步实施上述技术方案,GMM-HMM的训练过程为:
由于DNN-HMM与GMM-HMM系统共享音素绑定结构,因此在训练DNN-HMM模型前需要训练一个GMM-HMM系统。因为DNN训练标注是由GMM-HMM系统由维特比算法产生,而标注的质量会影响DNN系统的性能,所以GMM-HMM的初始训练模型非常重要。
GMM-HMM的观察值概率用GMM来表示,GMM包含多个高斯函数,即概率密度函数(Probability Density Function,PDF),因此需要对起始概率、转移概率、各状态不同的PDF的权重、各状态中不同PDF的均值和方差进行重估。由于音频识别采用自左向右结构的HMM,因此起始概率设置为:
[1,0,0,....0],即只能从第一个状态开始训练。结合HMM的前向后向算法,定义如下统计量:
Figure BDA0003255138920000131
结合HMM和GMM的重估计公式,基于最大似然(Maximum likelihood,ML)准则,使用Baum-welch算法,GMM-HMM参数的最大期望(Expectation-maximization,EM)重估计公式为:
Figure BDA0003255138920000141
Figure BDA0003255138920000142
Figure BDA0003255138920000143
Figure BDA0003255138920000144
其中,C为训练样本数,αt(j)为前向概率,即在时刻t隐状态qt为下,观察序列为{o1,o2,o3,...ot}的概率;βt(j)为后向概率,即在时刻t隐状态为qt下,从t+1时刻到最后T时刻的观察序列为{ot+1,ot+2,...oT}的概率;cjk表示和状态sj关联的观察值被分配到高斯分量k的比重,G为高斯函数,γt c(j,k)为权重。aij为转移概率,不受GMM影响,ξt c(i,j)表示在t时刻隐藏状态为si而t+1时刻隐藏状态为sj的概率,ot c为观测的特征,每个ot c均参与了每个高斯均值和方差的计算,其比重由γt c(j,k)决定。μjk和∑jk是对应均值和方差的估计。
在此过程,设置合适的迭代次数和阈值,在模型收敛或达到最大迭代次数时,得到一个已经训练好的GMM-HMM模型。
为了进一步实施上述技术方案,DNN的有监督训练过程为:
在DNN-HMM模型中,DNN用于模拟在给定的输入观察状态条件ot下HMM隐藏状态qt的后验概率p(qt/ot)。把GMM-HMM中的HMM提取出来作为DNN-HMM中的HMM部分,GMM用DNN替换,将上一节由训练GMM-HMM模型生成的参数标签作为DNN的输入。通过后验概率似然概率转化公式计算,并选择合适的激活函数来产生输出向量:
vl=f(zl)=f(Wlvl-1+bl),0<l<L
式中,zl=wlvl-1+bl为激励向量,vl,Wl,bl分别为激活向量、权重矩阵、偏差系数矩阵,L为神经层的数目,f(·)是对激励向量进行元素级计算的激活函数。
通过误差反向传播算法,选取合适的损失函数,更新权重wl和偏移量bl。将输入层的误差依次往隐藏层到输入层传播,实现损失代价的逐层传递,并在每层分别调整权重和偏移量参数,直到期望损失函数值几乎不更新,达到最小化的收敛状态为止,权重wl和偏移量bl的更新由如下公式确定:
Figure BDA0003255138920000151
Figure BDA0003255138920000152
其中,η为学习率,wl (t)和bl (t)分别是第t次迭代更新后的l层的权重矩阵和偏置向量,wl (t+1)和bl (t+1)是在t+1次训练中获得的DNN模型参数,
Figure BDA0003255138920000153
为第t次迭代时对第l层的平均权重矩阵梯度和平均偏置向量梯度。
为了进一步实施上述技术方案,S3的具体内容包括:
通过DNN计算后验概率,并将后验概率转换为似然概率,转换方法为:
p(xt|qt)=p(qt|xt)p(xt)/p(qt)
式中,xt为观察值,qt为时刻t下的状态;
使用维特比算法,通过转换后的似然概率获取最优HMM状态序列,最终得到的声学概率表示如下:
Figure BDA0003255138920000154
其中,w为维特比算法可能得到的识别序列,p(qt|xt)由DNN计算得出的后验概率,p(qt)是状态先验概率,π(q0)和aqtqt-1分别为由HMM决定的初始状态概率和状态转移概率。
下面通过具体实验来对本发明进行进一步说明:
1.猪声样本的获取与标注
本实施例中运用NanoPc-T4作为主控制器,外接iTalk-02麦克风、USB接口等资源,自主实现了声音采集传输的硬件系统。麦克风采用audio或者PCM编码,输出WAV音频格式,精度选用16位,采样率设置为44100HZ。实验使用的猪声音频主要源于安徽蒙城京徽蒙养猪场,单独选取较为安静的采样空间,通过声音采集系统,获得10小时的单通道生猪音频。这些生猪音频来自10头长白猪,其中3头患有疾病。本实施例中将采集到的声音划分为5类,包括进食声、哼叫声、发情声、嚎叫声、病猪喘气声,分别命名为eat,oink,estrous,howl,fap,所有叫声均是通过询问兽医和养殖专家后划分的,然后对采集到的声音样本进行相关预处理操作,截取合适的非静音段音频,最终使用每类300个音频样本作为训练集进行实验,按照5:1的关系,选取每类60个样本作为模型测试样本。
2.猪声样本的预增强及特征提取
将已经分好的实验数据进行卡尔曼滤波,为了直观的看出滤波前后的效果,图4展示了猪场环境下的噪声波形图,从图中可知猪场的噪声信号幅值在-0.02-0.02之间,图5展示了5种生猪音频滤波前后的对比图,其中(a)、(c)、(e)、(g)、(i)为采集到的原始吃饭声、发情声、病猪喘气声、嚎叫声、哼叫声,(b)、(d)、(f)、(h)、(j)为经过卡尔曼滤波后对应的音频波形图。从图中可看出,卡尔曼滤波降噪效果明显,且经人工主观试听,去噪效果良好。
对已经经过降噪处理的音频样本进行预加重、分帧加窗,取预加重系数a为0.98,每帧长设置为20ms,帧重叠时间设置为10ms,通过梅尔滤波器组得到13维静态梅尔频率倒谱系数,为了反映猪声在频率动态变化特性,本实施例中结合一阶二阶差分系数,最终得到了39维MFCC。
3.猪声声学模型的构建与测试
将提取生猪音频样本的39维梅尔频率倒谱系数作为音频特征,并利用其构建DNN-HMM模型。图3展示了上述内容中S3的流程图,也即DNN-HMM训练流程,在训练过程中,首先训练一个GMM-HMM模型,然后将已经经维特比算法对齐的数据与标注代入到DNN里进行有监督的训练,重新估计初始概率,隐状态转移概率,最后构建DNN-HMM模型,得到后验概率,具体过程如下:
1)GMM-HMM的训练:根据先验知识,将隐马尔可夫的声音隐状态数量设置为5个,初始概率长度的给定与状态数相同,首元素为1,其他元素为0;将隐状态转移概率矩阵设置为5*5,总值为1;通过均匀分割训练样本,估计其全局均值和方差来初始化观测状态转移概率矩阵。采用Baum-Welch算法进行GMM参数优化重估,通过维特比算法获得对齐信息来更新HMM参数,在此过程中,设置迭代次数为40,收敛阈值为10-6,完成此过程后,得到一个训练好的GMM-HMM模型。
2)有监督的DNN训练:将已经对齐的标注和数据特征输入到DNN中,设置含有3个隐藏层的全连接神经网络,每层128个节点,设置softmax层作为输出层,激活函数使用整流线性单元(ReLU),其表达式为:
f=max(0,z)
式中z为全连接网络的输出。损失函数使用交叉熵损失函数JCE(Cross Entropy,CE),它定义为:
Figure BDA0003255138920000171
其中i是输出层节点索引,
Figure BDA0003255138920000172
是真实的标签,由GMM-HMM模型生成,yi是其激活函数。设置初始学习率为0.003,为了加快训练计算,将epoch设置为10,batch_size设置为100,最大迭代次数设置为200,收敛阈值设置为10-6,使用自适应矩估计(Adaptive momentestimation,Adam)优化算法实现学习率的衰减,并完成对DNN参数的更新;为了防止过拟合,使用早停法(Early Stopping),将验证集的数据的比例为0.1,当模型在验证集上的表现开始下降的时候,停止训练。图6展示了已经对齐的数据在DNN训练过程中的验证准确度以及损失值曲线,DNN的训练损失在多次迭代后不断下降,模型准确度也随着迭代次数的增加而不断增大,最终Loss值在0.04左右,准确率稳定在93.5%左右。
模型测试:在已经训练好DNN-HMM模型后,对几种猪只行为的测试音频样本进行MFCC特征的提取,将提取的特征输入到训练得到的5个声音模型λn=(A,B,π),(n=1,2,3,4,5)中,通过维特比算法搜索测试样本在识别模型中的最佳隐藏状态转移路径并计算累积输出概率,比对在测试样本在5个模型中的输出概率大小,获得声音的识别结果。
4.性能测试指标
音频识别系统的好坏可以用识别率来评价,本实施例中使用正确率、误识率来作为性能测量的指标,正确率相对音频总数而言,误识率相对错误总数而言,即:
Figure BDA0003255138920000181
Figure BDA0003255138920000182
5.结果分析
为了验证DNN-HMM模型在猪声识别方面的可靠度,本实施例中对5种猪声在GMM-HMM和DNN-HMM两种模型下的识别率做了比较,将结果按百分比显示,使用混淆矩阵(Confusion Matrix)展示,如下图7。
由图7可知,GMM-HMM对吃饭声识别率达到65%,误识率为20.6%,对发情识别率达到50%,误识率为29.4%,对病猪喘气声识别率达到65%,误识率为20.6%,对哼叫、嚎叫声的识别率达到60%、90%,误识率分别为23.5%、5.9%;DNN-HMM对吃饭声识别率达到70%,误识率为35.2%,对发情识别率达到80%,误识率为23.5%,对病猪喘气声识别率达到95%,误识率为5.9%,对哼叫、嚎叫声的识别率达到75%、95%,误识率分别为29.4%、5.9%。总体而言,GMM-HMM对几种行为的猪声识别率达到66%,DNN-HMM对几种行为的猪声识别率达到了83%。相比之下,DNN-HMM在吃饭声上识别率提高了5%,在发情声上识别率提高了30%,在嚎叫与哼叫上,识别率分别提高了15%和5%,在病猪喘气声上识别率提高了30%,总体识别率提高了17%。
本发明使用深度神经网络代替传统音频识别模型中的高斯混合矩阵成分,结合隐马尔可夫模型,提出了一种新的猪声识别方法。将采集到猪声用卡尔曼滤波器降噪,提取梅尔频率倒谱系数,利用HMM用来描述音频信号的动态变化,DNN用来估计观察特征的概率,将生猪音频对应的特征参数作为观测序列,决定生猪音频的音素作为隐状态,构建DNN-HMM的猪声识别系统。实验表明,该模型在几种猪只声音的识别中效果良好,各方面相对于传统的GMM-HMM模型都有所提升,总的识别率提高了17%,对于生猪音频识别和行为状态的判定具有较高的实用价值。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本实施例中中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本实施例中所示的这些实施例,而是要符合与本实施例中所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种基于音频特征的生猪状态识别方法,其特征在于,包括以下步骤:
采集待识别猪声音频,将所述待识别猪声音频经过数据处理后进行音频数据的预增强及特征提取;
将提取到的音频特征作为观测序列输入到训练后的DNN-HMM生猪状态音频识别模型中,获取某个音素的某个状态对某一帧声学特征的观察值概率;具体包括以下内容:
S1.通过训练后的GMM-HMM获得DNN训练标注;
S2.对观测序列进行帧与状态的对齐处理,将已经对齐的标注和数据特征输入到DNN中;DNN通过前向传播计算网络输出值,运用误差反向传播算法更新网络参数,完成DNN的有监督训练;
S3.通过训练后的DNN重新估计初始状态概率和隐状态转移概率,利用重新估计后的估计初始状态概率和隐状态转移概率通过HMM完成解码,获得最优HMM状态序列,并进一步计算观察值概率。
2.根据权利要求1所述的一种基于音频识别的生猪状态分析方法,其特征在于,将所述待识别猪声音频经过数据处理后进行音频数据的预增强及特征提取的具体内容包括:
1)将原始猪声音频信号进行预加重、分帧和加汉明窗处理;
2)对每帧生猪音频信号进行傅里叶变换,得到生猪音频信号的频谱Si(k):
Figure FDA0003255138910000011
式中,s(n)为输入的音频信号,N为傅里叶变换的点数;根据Si(k),通过平方运算估计每帧生猪声音信号的功率谱:
Pi(k)=|Si(k)|2
3)将每帧生猪声音信号的功率谱Pi(k)通过Mel滤波器组,计算其功率谱在此滤波器组中的能量:
Figure FDA0003255138910000021
式中,Bi(m)表示Mel滤波器能量;m表示第m个Mel滤波器;Hm(k)表示Mel滤波器,计算方法为:
Figure FDA0003255138910000022
式中:
Figure FDA0003255138910000023
f(.)为中心频率,各f(.)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
4)对每个Mel滤波器输出取对数计算,得到相应频带的对数功率谱:
C(i,m)=ln[Bi(m)]0≤m<M
5)将对数能量代入下式求取离散余弦变换DCT,获得N个MFCC参数:
Figure FDA0003255138910000024
式中:mfcc(i,n)为计算所得的MFCC特征值,表征生猪声音信号的静态特征;i表示第i帧;n表示DCT后的谱线;m表示第m个Mel滤波器;
6)提取差分参数,得到相应的动态特征;差分参数的计算公式如下:
Figure FDA0003255138910000025
上式得到的dt为一阶差分系数,计算第t帧的一阶差分需要t-n到t+n的倒谱系数;对一阶差分系数dt再进行查分参数的计算则获取到二阶差分系数,将一阶二阶与静态的梅尔频率倒谱系数相结合得到39维的MFCC。
3.根据权利要求1所述的一种基于音频识别的生猪状态分析方法,其特征在于,所述GMM-HMM的训练过程为:
设置隐马尔可夫的声音隐状态数量以及初始概率,其中,初始概率长度的给定与状态数相同,首元素为1,其他元素为0;
设置隐状态转移概率矩阵大小;通过均匀分割训练样本,估计全局均值和方差来初始化观测状态转移概率矩阵;
采用Baum-Welch算法进行GMM参数优化重估,通过维特比算法获得对齐信息来更新HMM参数;
在以上过程中,设置迭代次数和阈值,在模型收敛或达到最大迭代次数时,得到训练好的GMM-HMM模型。
4.根据权利要求1所述的一种基于音频识别的生猪状态分析方法,其特征在于,DNN的有监督训练过程为:
将已经对齐的标注和数据特征输入到DNN中,设置全连接神经网络内包括的隐藏层个数,设置softmax层作为输出层,使用整流线性单元作为激活函数:
f=max(0,z)
式中,z为全连接网络的输出;
使用交叉熵损失函数JCE作为损失函数,它定义为:
Figure FDA0003255138910000031
其中i是输出层节点索引,
Figure FDA0003255138910000032
是真实的标签,由GMM-HMM模型生成,yi是其激活函数;
分别设置相关参数,使用自适应矩估计优化算法实现学习率的衰减,并完成对DNN参数的更新;
使用早停法,设置验证集的数据比例,当DNN模型在验证集上的表现开始下降的时候,停止训练。
5.根据权利要求1所述的一种基于音频识别的生猪状态分析方法,其特征在于,S3的具体内容包括:
通过DNN计算后验概率,并将后验概率转换为似然概率,转换方法为:
p(xt|qt)=p(qt|xt)p(xt)/p(qt)
式中,xt为观察值,qt为时刻t下的状态;
使用维特比算法,通过转换后的似然概率获取最优HMM状态序列,最终得到的声学概率表示如下:
Figure FDA0003255138910000041
其中,w为维特比算法可能得到的识别序列,p(qt|xt)由DNN计算得出的后验概率,p(qt)是状态先验概率,π(q0)和aqtqt-1分别为由HMM决定的初始状态概率和状态转移概率。
CN202111057226.1A 2021-09-09 2021-09-09 一种基于音频特征的生猪状态识别方法 Pending CN113780408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111057226.1A CN113780408A (zh) 2021-09-09 2021-09-09 一种基于音频特征的生猪状态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111057226.1A CN113780408A (zh) 2021-09-09 2021-09-09 一种基于音频特征的生猪状态识别方法

Publications (1)

Publication Number Publication Date
CN113780408A true CN113780408A (zh) 2021-12-10

Family

ID=78842080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111057226.1A Pending CN113780408A (zh) 2021-09-09 2021-09-09 一种基于音频特征的生猪状态识别方法

Country Status (1)

Country Link
CN (1) CN113780408A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115413605A (zh) * 2022-09-19 2022-12-02 仲恺农业工程学院 一种综合体重、声音和挣扎力信息判别肉鸽性别的系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
CN105976812A (zh) * 2016-04-28 2016-09-28 腾讯科技(深圳)有限公司 一种语音识别方法及其设备
CN110111783A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于深度神经网络的多模态语音识别方法
US20190266998A1 (en) * 2017-06-12 2019-08-29 Ping An Technology(Shenzhen) Co., Ltd. Speech recognition method and device, computer device and storage medium
CN111508481A (zh) * 2020-04-24 2020-08-07 展讯通信(上海)有限公司 语音唤醒模型的训练方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
CN105976812A (zh) * 2016-04-28 2016-09-28 腾讯科技(深圳)有限公司 一种语音识别方法及其设备
US20190266998A1 (en) * 2017-06-12 2019-08-29 Ping An Technology(Shenzhen) Co., Ltd. Speech recognition method and device, computer device and storage medium
CN110111783A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于深度神经网络的多模态语音识别方法
CN111508481A (zh) * 2020-04-24 2020-08-07 展讯通信(上海)有限公司 语音唤醒模型的训练方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115413605A (zh) * 2022-09-19 2022-12-02 仲恺农业工程学院 一种综合体重、声音和挣扎力信息判别肉鸽性别的系统

Similar Documents

Publication Publication Date Title
CN108447490B (zh) 基于记忆性瓶颈特征的声纹识别的方法及装置
US9536525B2 (en) Speaker indexing device and speaker indexing method
US9020816B2 (en) Hidden markov model for speech processing with training method
US7590526B2 (en) Method for processing speech signal data and finding a filter coefficient
EP1515305B1 (en) Noise adaption for speech recognition
US7856353B2 (en) Method for processing speech signal data with reverberation filtering
EP0387791A2 (en) Method and apparatus for time series signal recognition with signal variation proof learning
JPS62231996A (ja) 音声認識方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN109192200A (zh) 一种语音识别方法
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
Karbasi et al. Twin-HMM-based non-intrusive speech intelligibility prediction
Mallidi et al. Autoencoder based multi-stream combination for noise robust speech recognition
Zhao et al. Speech recognition system based on integrating feature and HMM
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
CN113780408A (zh) 一种基于音频特征的生猪状态识别方法
JP5997114B2 (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
CA2203649A1 (en) Decision tree classifier designed using hidden markov models
Razani et al. A reduced complexity MFCC-based deep neural network approach for speech enhancement
Agrawal et al. Deep variational filter learning models for speech recognition
Daneshvar et al. Persian phoneme recognition using long short-term memory neural network
Shanmugapriya et al. Deep neural network based speaker verification system using features from glottal activity regions
Lilley et al. Unsupervised training of a DNN-based formant tracker
Musaev et al. Advanced feature extraction method for speaker identification using a classification algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination