CN108885133A

CN108885133A - 异常音检测学习装置、声响特征量提取装置、异常音采样装置、其方法以及程序

Info

Publication number: CN108885133A
Application number: CN201780020698.5A
Authority: CN
Inventors: 小泉悠马; 齐藤翔郎; 齐藤翔一郎; 植松尚; 丹羽健太; 伊藤弘章
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-04-01
Filing date: 2017-03-31
Publication date: 2018-11-23
Anticipated expiration: 2037-03-31
Also published as: US11480497B2; JP6709277B2; US20190120719A1; JPWO2017171051A1; EP4113076A3; CN108885133B; EP3438623A4; EP3438623A1; CN112669829A; WO2017171051A1; EP4113076A2

Abstract

异常音检测学习装置包括：使用声响特征量提取函数，根据正常音的学习数据提取正常音的声响特征量的第一声响特征量提取单元；使用所述提取出的声响特征量更新正常音模型的正常音模型更新单元；使用声响特征量提取函数，根据模拟出的异常音提取异常音的声响特征量，根据正常音的学习数据提取正常音的声响特征量的第二声响特征量提取单元；以及使用提取出的所述异常音的声响特征量以及正常音的声响特征量，更新声响特征量提取函数的声响特征量提取函数更新单元，反复进行上述各单元的处理。

Description

异常音检测学习装置、声响特征量提取装置、异常音采样装置、其方法以及程序

技术领域

本发明涉及用于从声响信号检测机械的异常音的技术。例如，涉及生成用于异常音检测的声响特征量提取函数的技术。

背景技术

工厂等中设置的大型的制造机、造型机等业务用设备，仅由于因故障运转停止，对业务带来很大的麻烦。因此，需要日常性地监视其操作状况，在异常发生后马上进行应对。作为解决方案，有业务用设备的管理者定期地向现场派遣保养员确认部件的磨损等方法。但是，因为花费大量的人工费和移动费、劳力，所以难以在全部业务用设备或工厂中实施它。

作为其解决手段，有在机械内部设置麦克风，日常性地监视其动作音的方法。解析该动作音，在发生了被认为异常的声音(例如，异常音)后检测它，通过发出警报而解决它。但是，在对每个机械的种类或个体设定异常音的种类或其检测方法中，既然以人工进行监视就要花费成本。因此，需要自动设计以自动方式检测异常音的规则。

作为解决该问题的方法，已知基于统计的方法的异常音检测(例如，参照非专利文献1。)。基于统计的方法的异常音检测可以大致分为有教师的异常音检测和无教师的异常音检测。相对于在有教师的异常音检测中，从正常音和异常音的学习数据学习识别器，在无教师的异常音检测中，仅从正常音的学习数据学习识别器。在产业的应用中，因为难以收集异常音的学习数据，所以在多数情况下，采用无教师的异常音检测。

无教师的异常音检测的学习、检测流程如图9那样。在学习中，提取从正常操作时的音数据(学习数据)得到的声响特征量。之后，从该声响特征量学习正常音模型(概率密度函数)。然后，在判定中，与新得到的观测有关地提取声响特征量，通过学习完的正常音模型评价负的对数似然(例如异常度)。若该值小于阈值则判断为正常，若大于阈值则判断为异常。这就是在评价观测音与正常音模型的吻合的良好度。这是基于若观测为正常音，则应该发出与正常音的学习数据“相似”的声音，若为异常，则应该发出与正常音的学习数据“不相似”的声音这样的思考方式。

在无教师的异常检测中成为问题的是声响特征量提取函数F(·)的设计。在有教师的异常音检测中通过人工设计判别对象可良好地识别的声响特征量。例如，若已知正常音为1000Hz的正弦波、异常音为2000Hz的正弦波，则因为音色不同，所以对每个帧提取梅尔滤波器组(Mel filter bank)的对数功率(log-MFBO)。如果正常音为不变的发动机音，异常音为设备之间“咔嚓”碰撞那样的声音，则异常音为突发的声音，所以提取梅尔滤波器组的功率的时间差分(ΔMFBO)。而且，在作为有教师的学习之一的“深层学习”中，也称为可以从学习数据自动设计声响特征量。

现有技术文献

非专利文献

非专利文献1：井出剛,杉山将,“異常検知と変化検知,”講談社,pp.6-7,2015.

发明内容

发明要解决的课题

但是，在无教师的异常检测中，不知道发生具有哪样的声音的特性的异常音。所以难以通过人工设计声响特征量提取函数，而且也难以使用深层学习。例如，正常音是1000Hz的正弦波，使用若假定异常音为2000Hz的正弦波，并将log-MFBO作为声响特征量，则不能检测设备之间“咔嚓”碰撞那样的异常音。而且，反之亦然。因此，只能使用作为通用的声响特征量的梅尔滤波器组的倒谱系数(MFCC)等，与有教师的学习相比检测精度变差。

本发明的目的是，提供可以与异常音的学习数据的有无无关地生成用于异常音检测的声响特征量提取函数的异常音检测学习装置以及与该异常音检测学习装置相关联的声响特征量提取装置、异常音采样装置、方法和程序。

用于解决课题的手段

本发明的一个方式的异常音检测学习装置包括：使用声响特征量提取函数，根据正常音的学习数据提取正常音的声响特征量的第一声响特征量提取单元；使用由第一声响特征量提取单元提取的声响特征量更新正常音模型的正常音模型更新单元；使用声响特征量提取函数，根据模拟出的异常音提取异常音的声响特征量，根据正常音的学习数据提取正常音的声响特征量的第二声响特征量提取单元；以及使用由第二声响特征量提取单元提取的异常音的声响特征量以及正常音的声响特征量，更新声响特征量提取函数的声响特征量提取函数更新单元，反复进行第一声响特征量提取单元、正常音模型更新单元、第二声响特征量提取单元以及声响特征量提取函数更新单元的处理。

本发明的一个方式的异常音检测学习装置包括：使用声响特征量提取函数，根据正常音的学习数据提取正常音的声响特征量的第一声响特征量提取单元；使用由第一声响特征量提取单元提取的声响特征量更新正常音模型的正常音模型更新单元；使用声响特征量提取函数，根据异常音的学习数据提取异常音的声响特征量，根据正常音的学习数据提取正常音的声响特征量的第二声响特征量提取单元；以及使用由第二声响特征量提取单元提取的异常音的声响特征量以及正常音的声响特征量，更新声响特征量提取函数的声响特征量提取函数更新单元，反复进行第一声响特征量提取单元、正常音模型更新单元、第二声响特征量提取单元以及声响特征量提取函数更新单元的处理。

发明的效果

可以与异常音的学习数据的有无无关地生成用于异常音检测的声响特征量提取函数。

附图说明

图1是用于说明异常音检测学习装置的例子的方框图。

图2是用于说明异常音检测学习方法的例子的流程图。

图3是用于说明异常音检测装置的例子的方框图。

图4是用于说明异常音检测方法的例子的流程图。

图5是用于说明本发明的结构的例子的图。

图6是用于说明声响特征量函数的例子的图。

图7是表示关于声响信号单音的振幅频谱的频度分布的例子的图。

图8是表示振幅频谱的稀疏性的例子的图。

图9是用于说明以往技术的图。

具体实施方式

[发明内容]

[[关于发明的结构]]

图5表示本发明的分层结构。

(I)与有/无教师无关，从学习数据将“正常音模型”和“声响特征量提取函数同时最佳化。

(II)在无教师的情况下，采样异常音的学习数据。

(III)与有/无教师无关，例如用矩阵积和对数运算、或多层感知器(multilayerperceptron)表现“声响特征量提取函数”。

(IV)提供同时实现(I)～(III)的学习/检测算法。

以下，说明(I)～(III)。而且，说明的方便起见，希望谅解说明的顺序成为(III)、(I)、(II)。之后，对用于执行它们的“异常音检测学习装置以及方法”进行说明。

[[关于(III)声响特征量提取函数的定义]]

对观测信号进行傅里叶变换，将提取了功率频谱或者振幅频谱的序列设为X_ω,t∈R₊ ^Ω×T。这里，ω＝{1,2,...,Ω}和t＝{1,2,...,T}表示频率和时间的索引，Ω表示频率窗口(bin)的数目，T表示观测帧数。R₊表示非负的实数的集合。

声响特征量提取基本上可以作为对该序列进行对数函数和矩阵运算后的结果来表现。例如，log-MFBO可以记述作为对于某帧的全部频率的频谱X_t＝(X_1,t,...,X_Ω,t)^T乘以M个梅尔滤波器组mm，取对数的结果。

这里，T表示转置。而且，若将ΔMFBO定义为梅尔滤波器组的输出的时间差分，则可以使用差分矩阵D，如以下那样记述。

这里，E_M是M维度的单位矩阵。

这里，将该概念扩展，定义声响特征量提取函数。首先，从判别对象帧t取出过去P₁帧至未来P₂帧，将纵向连结了它的结果设为x_t。x_t如图6以及以下的式子那样表示。

其中，Q＝Ω×(P₁+P₂+1)。式(1’)的第1行至第2行的变更，是为了标记的简化的改写，元素的内容以及顺序上不变更。将对该x_t乘以矩阵A∈R^D×Q，取对数的运算设为声响特征量提取函数。即，如以下那样。

因此，可以说声响特征量提取函数的最佳化是矩阵A的最佳化。

[[(I)关于正常音模型和声响特征量提取函数的同时最佳化]]

首先，将正常音模型(从正常音提取的特征量遵从的概率密度函数)设为p(F(A,x)|z＝0)。这样，负的对数似然(异常度)可以如以下那样计算。

g(A,x)＝-lnp(F(A,x)|z＝0) (5)

这里，正常音模型可以使用各种模型，但是若设为例如混合高斯分布，则可以记述为：

这里，K是混合数，k、Σ_k、w_k分别是第k个分布的平均向量、协方差矩阵、权重参数。

在异常音检测中，若g(A,x)的值大于阈值则判定为“异常”，若小于则判定为“正常”。该判定可以记述作为阶跃函数，但是为了以后的计算的简便，以sigmoid函数

来记述。sigmoid函数0≦σ{α}≦1，α越小，输出越接近0的值，α越大，输出越接近1的值。即，若为0.5以上则判定为异常，若为0.5以下则判定为正常。

异常音检测算法的目标是，在观测为异常音时输出大的在为正常音时输出小的即，将以下的式子最小化是异常音检测的最佳化的目标。

L＝-∫σ{g(A,x)-φ}(p(F(A,x)|z＝1)-p(F(A,x)|z＝0))dx (9)

这里，p(F(A,x)|z＝1)是异常音模型(从异常音提取的特征量遵从的概率密度函数)。

由以上，正常音模型和声响特征量提取函数的同时最佳化以同时满足

这两个公式的方式进行即可。可以说，声响特征量提取的最佳化是将式(11)最佳化那样的矩阵A的设计。

式(10)的最佳化可以通过最大似然法等执行。因此，考虑式(11)的最佳化。在计算式(9)上最困难的是积分运算。因此，将该积分置换为学习数据的算术平均。首先，将目标函数设为，

L＝-∫σ{g(A,x)-φ}p(F(A,x)|z＝1)dx+∫σ{g(A,x)-φ}p(F(A,x)|z＝0)dx (12)

。这样，各项被视为的期待值运算，所以可以如以下那样记述。

L＝-E[σ{g(A,x)-φ}]_x|z＝1+E[σ{g(A,x)-φ}]_x|z＝0 (13)

这里，E[·]_x|z＝0是与正常音有关是期待值运算，E[·]_x|z＝1是与异常音有关的期待值运算。

这里，若以算术平均置换期待值运算，则式(11)可以按以下方式近似。

这里，N是异常音的学习数据的时间索引。即，使用正常音的学习数据计算Ψ_1,...,T的算术平均，并使用异常音的学习数据计算Ψ_1,...,T的算术平均，若设计A，使得这两个的算术平均的和最小化，则异常音检测的精度最大化。这里，在得到异常音的学习数据的有教师的异常音检测的情况下，只要原样执行它既可。在无教师的异常音检测的情况下，按照从现在起说明的采样算法，对异常音数据进行N个采样(模拟)既可。这时应设定为N＝T的程度。

目标函数可以通过式(15)设定，所以将其最小化既可。在最小化中可以使用坡度法。若在坡度法中使用最陡下降法，作为

，对于各维度d的每一个，将矩阵最佳化即可。这里，λ是步长(step size)。在该最佳化中当然也可以使用最陡下降法的改善算法即AdaGrad等。

在以混合高斯分布表现了正常音模型的情况下，坡度向量可以使用偏微分的连锁法则，以下那样进行计算。

其中，各分量可以通过

进行计算。

[[(II)关于异常音的学习数据的采样]]

在无教师的异常音检测中，为了计算式(15)，叙述异常音的学习数据的采样的方法。

异常音模型p(F(A,x)|z＝1)中所用的分布是任意的。在无教师学习中，得不到对于异常音的事先知识。为了检测所有异常音，希望以尽可能少的假定构筑异常音模型。即，对于振幅频谱或功率频谱的物理特性或出现频度，希望仅从一般得到的见识对异常音进行采样。

以下，仅对振幅值的频度、稀疏性、向时间频率方向的连续性设置假定，构筑异常音模型。

首先，考虑X_ω,n的大小。图7是对于声响信号单音的振幅频谱的频度分布。横轴是强度，纵轴是出现频度。由图7可知，声响信号的振幅频谱在0附近最容易出现，随着强度变大，其出现频度指数性地降低。X_ω,n应从满足这样的特性的概率分布进行采样。

作为满足该特性的分布，例如有指数分布。指数分布是，成为

的分布，是o的值越大其出现频度越降低的分布。而且，β是平均值。从指数分布对X_ω,n采样的情况，为以下那样。

Β是与观测音的音量有关的参数，所以从正常音的学习数据设定即可。例如，可以通过

等进行设定。

如果有观测信号中包含的稳定杂音等的事先知识，则该采样可以适当变更。例如，若稳定杂音的平均频谱Y_ω为已知，则作为

X_ω,n＝Y_ω+E_ω,n (28)

采样即可。这时的β可以通过

等计算。

而且，在通过式(29)进行采样时，异常音的音量平均β_ω不依赖于时间而是固定的。振幅值因距麦克风的距离或异常音的种类，音量可能变大或变小。因此，希望对于各n的每一个使β_ω,n的值摇摆。为了表现它，例如可以如以下那样变更式(29)。

β_ω,n＝g_ω×b_ω10^θ/20 (32)

b_ω～Uniform(0,1) (34)

这里，θ是校正异常音的最大音量的参数，单位是dB，Uniform(a,b)是最大值a、最小值b的连续一样分布。例如θ可以设定为从0至12的程度。此外，从正规分布等对θ采样，不进行b_ω的采样而始终设定为1等，也可以期待同样的效果。

而且，可以着眼于振幅频谱的稀疏性(大部分的元素为0)。图8是绘制了某帧的X₁,...,_Ω,t的例子。由图8，声响信号在单一帧中，仅具有1个至数个频率分量的情况较多。着眼于此，可以如以下那样变更式(31)的采样。

z_n～Cat(1_Ω/Ω) (37)

这里，Cat(π)是类别分布，1_Ω是元素都为1的长度Ω的向量。这通过z_n对于各时刻的每个时刻将激活的频谱窗口(Spectral bin)设为1个，稀疏地诱导异常音频谱E。

而且，在通过式(35)采样时，E_ω,n生成在时间频率方向上完全独立的值。通常，声响信号随时间平滑地变化，所以其频谱在时间频率方向上光滑地变化。为了实现它，也可以将E_ω,n在时间频率方向上平滑化。

在平滑化中考虑各种方法，但是例如使用高斯滤波器，考虑

X_ω,n＝Y_ω+conv2(E_ω,n,G(F,T)) (38)

等。这里conv2是2维的卷积运算，G(F,T)是尺寸F×T的2维高斯滤波器。各参数应实验性地控制，但例如设定为F＝11，T＝31的程度。

[异常音检测学习装置以及方法]

如图1中例示那样，异常音检测学习装置包括：频谱计算单元1；初始化单元2；第一声响特征量提取单元3；正常音模型更新单元4；异常音采样单元5；第二声响特征量提取单元6；声响特征量提取函数更新单元7；以及控制单元8。异常音检测学习方法通过异常音检测学习装置的各单元执行图2及以下说明的步骤S1至S82的处理来实现。

<频谱计算单元1>

正常音的学习数据被输入到频谱计算单元1。

正常音的学习数据是由接近作为异常音检测的对象的设备(也可以在内部)设置的麦克风所收集的声响信号。收集声响信号时的采样频率应设定为可记录正常音的频率，但可设定为例如16kHz等。

频谱计算单元1将学习数据通过短时傅里叶变换(STFT)等方法变换至频域。

之后，取复数频谱的绝对值，得到振幅频谱X_ω,t(步骤S1)。而且，也可以将取了振幅频谱的平方的功率频谱设为X_ω,t。这里，傅里叶变换长可以设定为32ms，偏移宽度可以设定为16ms等。

以下，将作为振幅频谱或者功率频谱的X_ω,t略记为频谱X_ω,t。频谱X_ω,t被输出到第一声响特征量提取单元3以及第二声响特征量提取单元6。

而且，在异常音的学习数据存在的情况下，换言之，在有教师的学习的情况下，频谱计算单元1根据异常音的学习数据计算异常音的频谱。异常音的频谱例如是异常音的振幅频谱或者功率频谱。计算出的异常音的频谱被输出到第一声响特征量提取单元3以及第二声响特征量提取单元6。

＜初始化单元2＞

预先设定的学习算法的参数以及声响特征量提取函数的参数被输入到初始化单元2。

各种参数例如可以设定为P₁＝3，P₂＝3，ε＝min(X_ω,t)/2，λ＝5.0×10^-3等。

初始化单元2将声响特征量提取函数的矩阵A和正常音模型初始化(步骤S2)。初始化后的矩阵A以及正常音模型被输出到第一声响特征量提取单元3。

矩阵A例如可以通过均匀随机数初始化。正常音模型按照概率密度函数的种类次序而不同，但是在使用混合高斯分布的情况下，例如可以通过k-means算法等进行初始化。

＜第一声响特征量提取单元3＞

在第一声响特征量提取单元3中，输入在初始化单元2中初始化的声响特征量函数以及正常音的学习数据。

第一声响特征量提取单元3使用声响特征量提取函数，根据正常音的学习数据提取正常音的声响特征量(步骤S3)。在该例中，作为正常音的学习数据，第一声响特征量提取单元3使用频谱计算单元1根据正常音的学习数据计算的频谱X_ω,t，提取正常音的声响特征量。提取出的声响特征量被输入到正常音模型更新单元4。

第一声响特征量提取单元3的第1次的处理使用通过初始化单元2初始化的声响特征量提取函数来进行。第一声响特征量提取单元3的第2次以后的处理使用由声响特征量提取函数更新单元7更新的声响特征量提取函数来进行。

在根据频谱计算单元1中异常音的学习数据计算异常音的频谱的情况下，第一声响特征量提取单元3使用声响特征量提取函数，根据该计算出的异常音的频谱提取异常音的声响特征量。

＜正常音模型更新单元4＞

正常音模型更新单元4使用在第一声响特征量提取单元3中提取出的声响特征量更新正常音模型(步骤S4)。

更新法虽然按照正常音模型的概率密度函数的种类次序而不同，但是例如通过极大似然估计进行更新即可。而且，在作为正常音模型使用混合高斯分布的情况下，通过EM算法(例如，参照参考文献1。)更新相当于1步骤至数步骤即可。

〔参考文献1〕小西貞則,“多変量解析入門,付録C EMアルゴリズム”pp.294-298,岩波書店,2010.

＜异常音采样单元5＞

异常音采样单元5对模拟的异常音进行采样(步骤S5)。采样到的异常音被输出到第二声响特征量提取单元6。

异常音采样单元5例如根据式(26)进行模拟的异常音的采样。式(26)中的参数β例如可以根据式(27)来决定。在该情况下，作为式(27)的X_ω,t，可以使用通过频谱计算单元1计算的正常音的频谱X_ω,t。

而且，在异常音的学习数据存在的情况下，换言之，在有教师的学习的情况下，不进行采样。即，将异常音的学习数据作为采样结果进行以后的处理即可。

＜第二声响特征量提取单元6＞

第二声响特征量提取单元6使用声响特征量提取函数，根据模拟的异常音提取异常音的声响特征量，根据正常音的学习数据提取正常音的声响特征量(步骤S6)。提取出的异常音的声响特征量以及正常音的声响特征量被输出到声响特征量提取函数更新单元7。

在该例中，作为正常音的学习数据，第二声响特征量提取单元6使用频谱计算单元1根据正常音的学习数据计算的频谱X_ω,t，提取正常音的声响特征量。

第二声响特征量提取单元6的第1次的处理使用由初始化单元2初始化后的声响特征量提取函数来进行。第二声响特征量提取单元6的第2次以后的处理使用由声响特征量提取函数更新单元7更新后的声响特征量提取函数来进行。

＜声响特征量提取函数更新单元7＞

声响特征量提取函数更新单元7使用在第二声响特征量提取单元6中提取出的异常音的声响特征量以及正常音的声响特征量，更新声响特征量提取函数(步骤S7)。更新后的声响特征量提取函数被输出到第一声响特征量提取单元3以及第二声响特征量提取单元6。而且，输出控制单元8进行反复控制后最后被更新的声响特征量提取函数，作为异常音检测学习装置以及方法的最终的学习结果。

声响特征量提取函数更新单元7例如根据算式(16)等，更新声响特征量提取函数。这时，也可以在执行更新前使用正常音的学习数据x₁,…,x_T和采样的异常音数据x₁,…,x_N，通过以下的式子更新阈值由此，收敛稳定。

＜控制单元8＞

控制单元8进行控制，以反复进行第一声响特征量提取单元3、正常音模型更新单元4、第二声响特征量提取单元6以及声响特征量提取函数更新单元7的处理(步骤S81以及步骤S82)。进行该反复处理，直至声响特征量提取函数以及正常音模型收敛。

例如，控制单元8进行控制，以反复进行第二声响特征量提取单元6以及声响特征量提取函数更新单元7的处理(以下，设为第一反复处理)。将第1收敛判定条件设为进行了处理的次数是否达到一定次数(例如50次)，或者，矩阵A的更新范数(norm)是否为固定以下，控制单元8进行控制，以反复进行第一反复处理，直至满足第1收敛条件，换言之直至判定为已收敛。作为第1收敛判定条件，也可以使用其它条件。

之后，控制单元8进行控制，以反复进行第一声响特征量提取单元3以及正常音模型更新单元4的处理、和第一反复处理(以下，设为第二反复处理。)。将第2收敛条件设为进行了处理的次数是否达到一定次数(例如200次)，控制单元8进行控制，以反复进行第二反复处理，直至满足第2收敛条件，换言之判定为已收敛。作为第2收敛判定条件，也可以使用其它条件。

[异常音检测装置以及方法]

如图3中例示的那样，异常音检测装置包括：频谱计算单元11；声响特征量提取单元12；异常度计算单元13以及判定单元14。异常音检测方法通过异常音检测装置的各单元执行图4以及以下说明的步骤S11至S14的处理来实现。

＜频谱计算单元11＞

通过麦克风收音成为异常音的检测对象的机械的动作音。这时的采样率使用学习时同样的采样率。收音到的声响信号被输入到频谱计算单元11。

频谱计算单元11与频谱计算单元1同样，根据收音到的声响信号获得频谱X_ω,t(步骤S11)。得到的频谱X_ω,t被输出到声响特征量提取单元12。

＜声响特征量提取单元12＞

声响特征量提取单元12使用得到的频谱X_ω,t，根据异常音检测学习装置以及方法作为最终的学习结果被输出的声响特征量提取函数，提取收音到的声响信号的声响特征量(步骤S12)。提取出的声响特征量被输出到异常度计算单元13。

＜异常度计算单元13＞

异常度计算单元13使用提取出的声响特征量、和通过异常音检测学习装置以及方法作为最终的学习结果输出的正常音模型，计算负的对数似然g(A,x)(步骤S13)。以下，将负的对数似然称为异常度。计算出的异常度被输出到判定单元14。

＜判定单元14＞

若当前帧的异常度为阈值以上，则判定单元14输出“异常”(步骤S14)。阈值应与机械或环境相匹配地调整，例如设为1500左右。

而且，与声音区间判别同样，也可以使用以试探的规则抑制判别错误的“残留(hangover)”。适用的残留处理考虑各种情况，应根据异常音的误检测的种类设定残留处理。

作为其一例，有时将杂音抑制时发生的音乐噪音(Musical noise)判定为突发的异常音。突发的碰撞音等大多在100ms以上频谱形状上产生变化，所以(100/STFT的帧偏移宽度)帧连续地异常度为阈值以上。但是，音乐噪音仅在该帧中发生异常的振幅频谱值，所以连续地异常度为阈值以上最高是数帧。因此，可以将异常判定的规则设定为“若连续地F₁帧以上异常度为阈值以上，则输出“异常”。”等。

作为其它的例子，因为异常音的音量小，所以考虑异常度以稍微低于阈值的程度长时间持续的情况。在这样的情况下，作为用于持续的异常音的判定规则，可以追加“如果最近F₂帧的异常度的总和为以上，则检测作为异常音。”等规则。这里应通过调谐决定，但例如可以设定为左右。

使用这样的异常音检测装置以及方法，通过从工厂等中设置的大型制造机、造型机检测异常音，使对故障的应对的迅速化和预知故障成为可能。由此，例如可以对产业，特别制造业的高效化做出贡献。

[程序以及记录介质]

在通过计算机实现异常音检测学习装置或者异常音检测装置中的各处理的情况下，通过程序记述异常音检测学习装置或者异常音检测装置应具有的功能的处理内容。然后，通过由计算机执行该程序，在计算机上实现该各处理。

记述了该处理内容的程序，可以记录在计算机可读取的记录介质中。作为计算机可读取的记录介质，例如可以是磁记录装置、光盘、光磁记录介质、半导体存储器等那样的介质。

而且，也可以设为通过在计算机上执行规定的程序构成各处理单元，这些处理内容的至少一部分也可以作为硬件来实现。

[变形例]

如果使用上述说明的声响特征量的最佳化指标，则可以以无教师方式学习多层感知器。具体地说，对于声响特征量提取函数使用式(3)进行了说明，但是在多层感知器中也可以实际安装。例如，在使用最简单的全结合型多层感知器的情况下，声响特征量提取函数为以下那样。这样，声响特征量提取函数也可以通过多层感知器表现。

F(x_τ)＝W^(L)g_τ ^(L-1)+b^(L) (40)

这里，L、W(k)、b(k)分别表示神经网络的层数、权重矩阵、偏向量。L是2以上的规定的正整数。而且，σ_θ是活性化函数，例如可以在sigmoid函数等中实际安装。对输入层的输入设为g_τ ⁽¹⁾＝x_τ或g_τ ⁽¹⁾＝ln x_τ即可。g_τ ^(k)是对多层感知器的第k层的输入。在该情况下，声响特征量提取函数的最佳化成为Θ＝{W(k),b(k)},(k∈{2,...,L})的最佳化。

该最佳化与式(16)同样，可以使用坡度法。若在坡度法中使用最陡下降法，则设为

即可。在该最佳化中当然可以使用最陡下降法的改善算法即AdaGrad等。目标函数J，通过

被提供，式(42)(43)可以记述为

。各坡度

由式(17)，使用偏微分的连锁法则，可以以下那样计算。

多层感知器中，式(47)(48)的形式的坡度的计算，可以通过使用误差逆传播(例如，参照参考文献2。)高效地计算。

〔参考文献2〕麻生英樹,外7名,“深層学習,”人工知能学会,近代科学社,pp.14,2015.

异常音检测学习装置或者异常音检测装置中说明的处理不仅可以按照记载的顺序时间序列地执行，也可以根据执行处理的装置的处理能力或者需要并行地或者单独地执行。

另外，不言而喻，在不脱离本发明的宗旨的范围内可以进行适当变更。

Claims

1.一种异常音检测学习装置，包括：

第一声响特征量提取单元，使用声响特征量提取函数，根据正常音的学习数据提取正常音的声响特征量；

正常音模型更新单元，使用由所述第一声响特征量提取单元提取的声响特征量更新正常音模型；

第二声响特征量提取单元，使用上述声响特征量提取函数，根据模拟出的异常音提取异常音的声响特征量，根据上述正常音的学习数据提取正常音的声响特征量；以及

声响特征量提取函数更新单元，使用由上述第二声响特征量提取单元提取的所述异常音的声响特征量以及正常音的声响特征量，更新上述声响特征量提取函数，

反复进行所述第一声响特征量提取单元、所述正常音模型更新单元、所述第二声响特征量提取单元以及所述声响特征量提取函数更新单元的处理。

2.一种异常音检测学习装置，包括：

第二声响特征量提取单元，使用所述声响特征量提取函数，根据异常音的学习数据提取异常音的声响特征量，根据所述正常音的学习数据提取正常音的声响特征量；以及

声响特征量提取函数更新单元，使用由所述第二声响特征量提取单元提取的所述异常音的声响特征量以及正常音的声响特征量，更新所述声响特征量提取函数，

3.如权利要求1或者2所述的异常音检测学习装置，

所述声响特征量提取函数包含矩阵的积运算和对数运算。

4.如权利要求1或者2所述的异常音检测学习装置，

所述声响特征量提取函数由多层感知器来表现。

5.如权利要求1所述的异常音检测学习装置，还包括：

异常音采样单元，对所述模拟出的异常音进行采样。

6.如权利要求5所述的异常音检测学习装置，

所述模拟出的异常音是通过对振幅值的频度、稀疏性、向时间频率方向的连续性的任意一个设置假定而模拟出的异常音。

7.如权利要求5的异常音检测学习装置，

将ω设为频率，将n设为帧号，将β设为整数，所述模拟出的异常音是根据以下的分布采样的X_ω,n，

8.一种声响特征量提取装置，包括：使用包含矩阵的积运算和对数运算的声响特征量提取函数，根据正常音的学习数据提取正常音的声响特征量的声响特征量提取单元。

9.一种异常音采样装置，包含对模拟出的异常音进行采样的异常音采样单元。

10.一种异常音检测学习方法，包括：

第一声响特征量提取步骤，第一声响特征量提取单元使用声响特征量提取函数，根据正常音的学习数据提取正常音的声响特征量；

正常音模型更新步骤，正常音模型更新单元使用由所述第一声响特征量提取单元提取的声响特征量，更新正常音模型；

第二声响特征量提取步骤，第二声响特征量提取单元使用所述声响特征量提取函数，根据模拟出的异常音提取异常音的声响特征量，根据所述正常音的学习数据提取正常音的声响特征量；以及

声响特征量提取函数更新步骤，声响特征量提取函数更新单元使用由所述第二声响特征量提取单元提取出的所述异常音的声响特征量以及正常音的声响特征量，更新所述声响特征量提取函数，

反复进行所述第一声响特征量提取步骤、所述正常音模型更新步骤、所述第二声响特征量提取步骤以及所述声响特征量提取函数更新步骤的处理。

11.一种异常音检测学习方法，包括：

正常音模型更新步骤，正常音模型更新单元使用由所述第一声响特征量提取单元提取的声响特征量更新正常音模型；

第二声响特征量提取步骤，第二声响特征量提取单元使用所述声响特征量提取函数，根据异常音的学习数据提取异常音的声响特征量，根据所述正常音的学习数据提取正常音的声响特征量；以及

12.一种声响特征量提取方法，包括：

声响特征量提取单元使用包含矩阵的积运算和对数运算的声响特征量提取函数，根据正常音的学习数据提取正常音的声响特征量的声响特征量提取步骤。

13.一种异常音采样方法，包括：

异常音采样单元对模拟出的异常音进行采样的异常音采样步骤。

14.一种程序，使计算机具有权利要求1至9的任意一个装置的各单元的功能。