CN113269216A - 用于检测声音事件的装置和方法以及存储介质 - Google Patents
用于检测声音事件的装置和方法以及存储介质 Download PDFInfo
- Publication number
- CN113269216A CN113269216A CN202010097053.5A CN202010097053A CN113269216A CN 113269216 A CN113269216 A CN 113269216A CN 202010097053 A CN202010097053 A CN 202010097053A CN 113269216 A CN113269216 A CN 113269216A
- Authority
- CN
- China
- Prior art keywords
- complex
- sound
- unit
- sound event
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 230000003595 spectral effect Effects 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000001131 transforming effect Effects 0.000 claims abstract description 9
- 230000004913 activation Effects 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 56
- 239000013598 vector Substances 0.000 description 21
- 238000001228 spectrum Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 10
- 230000010339 dilation Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开内容涉及用于检测声音事件的装置、用于检测声音事件的方法及其上存储有程序的计算机可读存储介质。根据本公开内容的一个实施例,该用于检测声音事件的装置,包括:变换单元,被配置成通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;以及声音事件分类器,被配置成通过使用神经网络处理复数谱数据来确定声音事件关于多种候选事件类型的概率。本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一:区分更多类型的声音事件,以及改善声音事件检测的准确度。
Description
技术领域
本公开内容涉及事件检测,尤其涉及用于检测声音事件的方法、装置及存储介质。
背景技术
声音携带着大量与日常生活中所接触的环境有关的环境信息,例如环境中发生的各种事件的事件信息。这些事件信息对于环境检测、事件检测是有用的。
随着深度学习的发展,智能系统有能力利用神经网络、人工智能模型、分类器通过对声音数据的处理而识别环境中所发生的事件。例如,使用分类器基于声音数据确定声音数据所对应的事件类型或声音数据所包含的事件类型。事件类型例如包括:玻璃碎裂、金属撞击及机动车驶过等。目前检测声音事件的方法多关注从频域幅度谱获得的信息。
充分利用声音数据,提高用于检测声音事件的分类器的性能是具有挑战的。
发明内容
在下文中将给出关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
发明人对于用于检测声音事件的分类器有以下构思。通过对表征声音事件的波形的声音数据进行变换可以得到信息不仅包括幅度,还具有相位。虽然人类听觉对声音的相位不敏感,但是对于基于神经网络的检测声音事件的分类器来说,更多的类型的数据,意味着可以从更多的维度分析问题、解决问题。因此,使用合适的数据处理方法,将相位也纳入分析范围,有可能改善用于检测声音事件的分类器的性能。
根据本公开内容的一个方面,提供了一种用于检测声音事件的装置,其特征在于,装置包括:变换单元,被配置成通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;以及声音事件分类器,被配置成通过使用神经网络处理复数谱数据来确定声音事件关于多种候选事件类型的概率。
根据本公开内容的一个方面,提供了一种用于检测声音事件的方法,包括:通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;以及通过使用基于神经网络的声音事件分类器处理复数谱数据来确定声音事件关于多种候选事件类型的概率。
根据本公开内容的另一方面,提供了一种其上存储有程序的计算机可读存储介质,在程序由至少一个处理器执行时,程序使得至少一个处理器实现用于检测声音事件的方法,其中,方法包括:通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;以及通过使用基于神经网络的声音事件分类器处理复数谱数据来确定声音事件关于多种候选事件类型的概率。
本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一:区分更多类型的声音事件,以及改善声音事件检测的准确度。
附图说明
参照附图下面说明本公开内容的实施例,这将有助于更加容易地理解本公开内容的以上和其他目的、特点和优点。附图只是为了示出本公开内容的原理。在附图中不必依照比例绘制出单元的尺寸和相对位置。相同的附图标记可以表示相同的特征。在附图中:
图1示出了根据本公开内容的一个实施例的用于检测声音事件的装置;
图2示出了根据本公开内容的一个实施例的声音事件分类器;
图3示出了根据本公开内容的一个实施例的特征提取单元;
图4示出了根据本公开内容的一个实施例的复数卷积单元;
图5示出了根据本公开内容的一个实施例的在时间步方向展开的复数序列网络示意图;
图6示出了根据本公开内容的一个实施例的复数序列网络;
图7示出了根据本公开内容的一个实施例的用于检测声音事件的方法的流程图;
图8示出了根据本公开内容的一个实施例的用于训练基于神经网络的声音事件分类器的方法的流程图;以及
图9示出了根据本公开内容的一个实施例的信息处理设备的示例性框图。
具体实施方式
在下文中将结合附图对本公开内容的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施例的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开内容,在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构,而省略了与本公开内容关系不大的其他细节。
应理解的是,本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。
本公开内容的一个方面提供用于检测声音事件的装置。下面参照图1对该装置进行示例性描述。
图1示出了根据本公开内容的一个实施例的用于检测声音事件的装置10。装置10包括变换单元101和声音事件分类器103。
如图1中所示,变换单元101接收表征声音事件的波形的声音数据Ds并对声音数据进行处理,其中,所述处理包括傅里叶变换。优选的,选择短时傅里叶变换对声音数据进行变换。通过傅里叶变换可以输出多个复数向量,每个复数向量是由波形的幅度信息和相位信息共同确定,因此,复数向量与波形的幅度和相位有关。这些复数向量构成本公开内中的复数谱数据Dc。本公开内容中复数向量用符号V来指示,V可以用式(1)来表示。
V=vR+ivI (1)
其中,vR和vI为实数向量。
声音事件分类器103是基于神经网络的分类器,其接收变换单元101输出的包括复数向量的复数谱数据Dc。在存储Dc时,复数谱数据Dc可以被存储为由Dc中的复数的实部构成的实部矩阵和由Dc中的复数的虚部构成的虚部矩阵。声音事件分类器103可以通过使用神经网络对复数谱数据Dc进行处理来确定声音数据Ds中所包含的事件关于多种候选事件类型的概率p1,p2,……。并且可以将声音事件分类器103进一步被配置成输出声音数据中所包含的事件的标签(即,事件类型)和该标签所对应的概率。例如,声音事件分类器103可以被配置成:输出最大概率所对应的事件类型作为声音数据所表征的事件的事件类型标签。
本公开内容的声音事件分类器使用复合有波形的幅度和相位信息的用复数表示的复数特征以充分使用声音数据来对声音事件进行检测,使得有可能区分更多的声音事件类型和/或提高检测结果的准确度。下面参照图2描述本公开内容的一种示例性的声音事件分类器。该声音事件分类器能够针对包括复数向量的复数谱数据Dc进行处理。
图2示出了根据本公开内容的一个实施例的声音事件分类器23。声音事件分类器23包括特征提取单元201、上下文信息提取单元203和概率确定单元203。
如图2中所示,特征提取单元201接收包含复数向量的复数谱数据Dc。特征提取单元201可以从复数谱数据Dc提取特征,考虑到该特征是通过深度神经网络提取的,所以以下将其称为深度特征,并用符号x指代。
特征提取单元201包括能够对复数进行处理的复数卷积神经网络和堆叠单元。本公开内容的方案不需要特征提取单元或声音事件分类器计算复数的模,并且本公开内容的方案是利用复审谱来检测声音事件的类型,与利用幅度谱检测声音事件的类型的方案不同。该复数卷积神经网络可以包括以层叠式结构连接的多个复数卷积单元(也可以称为“复数卷积层”)。每个复数卷积单元能够对复数数据进行处理。图3示出了根据本公开内容的一个实施例的特征提取单元31。特征提取单元31包括以层叠式结构连接的多个复数卷积单元,这些复数卷积单元构成能够对复数数据进行处理的卷积神经网络,其中,在图3中示出为第1复数卷积单元301至第n复数卷积单元30n。特征提取单元31还包括堆叠单元321,用于将卷积神经网络输出的特征图从三维变为二维并输出深度特征x。
每层复数卷积单元可以采用如图4中所示的结构。在图4中,复数卷积单元41包括卷积计算单元401、归一化单元403、激活单元405和最大池化单元407。
卷积计算单元401能够对复数数据进行二维卷积运算。对于第一层卷积计算单元,其输入为包含复数向量的复数谱数据Dc,其它层卷积计算单元的输入为前一卷积计算单元的输出。为了基于复数二维卷积提取到合适的特征,选择如式(2)所示的合适的复数权重矩阵Q。
Q=QR+iQI (2)
其中,QR和QI均为实数矩阵,且分别称为实部权重矩阵和虚部权重矩阵。QR和QI可以通过对声音事件分类器进行训练来确定。
由此可知,使用权重矩阵Q对复数向量V求卷积可以表示为式(3)。
Q*V=(QR*vR-QI*vI)+i(QI*vR+QR*vI) (3)
参考式(4),可以用矩阵表示上述卷积操作,其中,卷积结果的实部和虚部由矩阵乘法确定。
在实际操作中,可以在计算机中存储矩阵QR和QI,以及实数向量vR和vI,依照式(3)或(4)依次完成乘法与加减法操作,实现复数卷积,输出实部特征数据和虚部特征数据。可见,实部特征数据与实部权重矩阵、虚部权重矩阵、多个复数向量的实部以及多个复数向量的虚部相关;并且虚部特征数据与实部权重矩阵、虚部权重矩阵、多个复数向量的实部以及多个复数向量的虚部相关。
卷积计算单元401输出实部特征数据和虚部特征数据。归一化单元403执行复数批次归一化以将实部特征数据和虚部特征数据中的元素变换到预定范围内,例如零附近,范围例如为[-1.0,1.0]。
激活单元405接收归一化单元403输出的归一化后的实部特征数据和虚部特征数据,并使用预定的激活函数对归一化的实部特征数据和虚部特征数据进行非线性变换以引入非线性因素。
最大池化单元407接收激活单元405输出的非线性变换后的实部特征数据和虚部特征数据,并对激活后的实部特征数据和虚部特征数据进行最大池化操作,其中,仅在频率维度进行最大池化操作以降维,在时间维度不进行最大池化操作。
可以将每层卷积单元的输出通道数量配置成不同。最后一层复数卷积单元的输出为复数三阶张量,记为其每个维度的大小分别为M、F和T,其中,M表示经过卷积后的特征图数量,也就是输出通道数量,F表示经过数次最大池化层操作后的频率维度数量,T表示时间维度数量。最后,利用堆叠单元321在频率维度,将来自各通道的特征依次堆叠,使得特征图从三维变成二维,其中,所得到的二维特征图每个维度的大小分别为M*F、T。包括实部部分和虚部部分。堆叠单元321接收最后一层复数卷积单元30n的输出对其进行特征堆叠处理后,输出对应二维特征图的深度特征x(也可称为二维向量),深度特征x可以表示为矩阵,矩阵的大小为(M*F,T),即矩阵元的行数为M*F,列数为T。深度特征x也包括实部部分和虚部部分。
图2中的上下文信息提取单元203接收从特征提取单元201输出的深度特征x,基于深度特征x进行特征提取,更具体的,通过使用复数卷积网络在时间上整合深度特征来提取表征声音事件的上下文信息的上下文信息特征hcf。上下文信息特征hcf也包括实部部分和虚部部分。上下文信息提取单元203使用复数序列网络实现上述功能。
采用和复数卷积网络的复数卷积运算方式相同的方式,复数序列网络对输入的复数数据进行复数卷积运算。复数序列网络是基于时间卷积网络和长短时记忆神经网络单元的门控激活。图5示出了根据本公开内容的一个实施例的在时间步方向展开的复数序列网络示意图。如图5中所示,复数序列网络包括以层叠式结构连接的输入层、多个隐藏层(图5中示意性的示出为第一隐藏层、第二隐藏层和第三隐藏层)和输出层,各层为门控激活时间卷积单元GC,其中,门控激活时间卷积单元GC执行一维扩张卷积和门控激活。输入层接收深度特征x,并且输入层接收的深度特征x还被输入到复数序列网络的所有其他层。因此,深度特征x也被称为门控激活时间卷积单元的原始输入。深度特征x包括对应多个时间步的特征数据。在图5中,t表示时间步的编号。在图5所示的在时间步方向展开的复数序列网络示意图中,带箭头直线表示节点信息的集中路径以指示扩张卷积期间信息流动走向。如图5所示,在复数序列网络中,卷积的感受野伴随着层数增加而增加,深层节点将获得更多浅层节点的信息,从而获得更大时间尺度的信息,这赋予网络学习与时间相关的上下文信息的能力。
图6示出了根据本公开内容的一个实施例的复数序列网络60。复数序列网络60包括以层叠式结构连接的多层门控激活时间卷积单元GC(图中示出了GC1和GCi,i为神经网络层的层编号)。如图6所示,每层门控激活时间卷积单元GC包括一维扩张卷积单元Conv1D和门控激活单元Gact,其中,一维扩张卷积单元Conv1D通过一维扩张卷积输出中间上下文信息特征一维扩张卷积单元Conv1D包括第一卷积单元Con1、第二卷积单元Con2和求和单元Sum。在本实施例中,复数序列网络60有两个特点,第一是用于卷积的权重是所有层共享的相同权重,在训练过程中所有时间步也共享权重;第二是每一层的输入都包括输入到复数序列网络的原始输入,也就是说网络中的每一层的输入由上一层的输出与复数序列网络原始输入拼接而成,其中第一层输入中的上一层的输出被强制指定为0。
如图6中所示,深度特征x输入到所有门控激活时间卷积单元GC,具体的是输入到所有一维扩张卷积单元Conv1D的第二卷积单元Con2。每层门控激活时间卷积单元的输出由其中的门控激活单元Gact提供,输出包括2个特征,分别用h和c来表示,特征h和c都与上下文信息有关,但是考虑到特征c在复数序列网络内部循环使用,而最后一层复数序列网络的门控激活单元的输出中的特征h会被输出到复数序列网络的外部供概率确定单元使用,将特征h命名为显性上下文信息特征,特征c命名为内循环上下文信息特征。一维扩张卷积单元Conv1D还接收上一层门控激活时间卷积单元的输出——显性上下文信息特征h。最后一层门控激活时间卷积单元输出的显性上下文信息特征h会被提供给概率确定单元205,即,最后一层门控激活时间卷积单元输出的显性上下文信息特征h是被当作上下文信息提取单元203的输出——上下文信息特征hcf,并被概率确定单元205接收。
下面将描述第一卷积单元Con1的细节。对第i层神经网络层,第一卷积单元Con1接收收上一层门控激活时间卷积单元输出的显性上下文信息特征hi-1,基于hi-1和i执行第一一维扩张卷积,结果记为Con(hi-1,W1,i),W1为用于计算卷积的权重矩阵,其通过训练神经网络来确定;其中,当i=1时,设定输入h0是(q,T)大小的矩阵(q根据经验或试验人为设定的预定值,复数序列网络最终输出上下文信息特征hcf的输出通道数量也为q),且矩阵元均为零,考虑到i=1,不对输入hi-1执行补零操作,直接执行关于hi-1的一维扩张卷积,第一卷积单元的输出记为Con(h0,W1,1),其是大小为(4q,T’1)的矩阵(T’1为预定值,对于一维扩张卷积,输出矩阵列数T’i=f(Cin,d(i)),Cin表示输入矩阵列数,d(i)表示i层的扩张率,T’1=f(Cin=T,d(i=1));第一卷积单元的输出通道数量与复数序列网络的输出通道数量的比被设置为4);当i>1时,Con1的输入hi-1是(q,T’1)大小的矩阵,由于扩张率会随着复数序列网络中卷积层编号的增大而增大,根据f()可知若Cin不变,扩张率增大会导致输出矩阵的列数T’减小,即,若不对输入的Cin作调整,T’会随i的增大而减小,因此为了正常进行卷积运算以提取到上下文信息特征,需要输出矩阵的列数仍为T’1,由于T’i=f(Cin,d(i)),所以对hi -1的每个子向量前补零(即,进行补零操作)以使输出矩阵的列数仍为T’1,补零长度与当前层的扩张率有关,扩张率由层编号决定,由此,输出结果Con(hi-1,W1,i)仍为(4q,T’1)大小的矩阵。可见,第一卷积单元Con1在进行扩展卷积时,需要根据层编号i确定是否对输入特征进行补零操作,在确定结果为“否”的情况下,对输入特征进行一维扩张卷积;在确定结果为“是”的情况下,对输入特征进行补零操作作为卷积特征,然后对卷积特征进行一维扩张卷积;并且第一卷积单元的输出通道数量与复数序列网络的输出通道数量的比被设置为4,这可以通过配置第一卷积单元、第二卷积单元及门控激活单元的参数(例如,修改卷积的输出通道的数量)来实现。需要说明的,一维扩张卷积为常规处理,以上仅给出了对本领域技术人员而言与本公开内容相关的主要细节,根据这些细节,本领域技术人员能够推知其余细节,因此对于其余细节不再赘述。
对于第二卷积单Con2,输入为深度特征x,其为(M*F,T)大小的矩阵,第二卷积单Con2被配置成输出为(4q,T’1)大小的矩阵;与第一卷积单Con1类似,在进行一维扩张卷积时,需要根据i判断是否对x进行补零操作以使输出矩阵的列数为预定值T’1;当i=1时,无需补零操作,一维扩张卷积输出结果记为Con(x,W2,1),其是(4q,T’1)大小的矩阵,即,矩阵大小同Con(hi-1,W1,1),W2为用于计算卷积的权重矩阵,其通过训练神经网络来确定;当i>1时,由于扩张率会随着复数序列网络中卷积层编号的增大而增大,在不调整输入矩阵的列数的情况下,输出矩阵列数会减小,为了保证输出矩阵的列数为预定值T’1,需要对x进行补零操作,以使得输出结果Con(x,W2,i)为(4q,T’1)大小的矩阵。其中,对x进行的补零操作同对h的补零操作,都是在每个子向量前根据需要补适当数量的值为零的元素。
在本公开内容中,关于x的一维扩张卷积和关于h的一维扩张卷积的卷积步长、卷积核大小、扩张率被设置为相同,从而两者的输出矩阵的列数相同。
在本公开内容中,为了利用一维扩张卷积得到有关上下文信息的中间结果,需要将基于x的一维扩张卷积和基于h的一维扩张卷积的输出矩阵的列数设置为预定值。考虑到在实施扩张卷积时,扩张率会随着复数序列网络中卷积层编号的增大而增大,这可以导致输出矩阵列数减小,而输出矩阵列还可以随输入矩阵列数的增大而增大,因此,在复数序列网络的层编号大于1(扩张率大于1)时,一维扩张卷积操作包括对输入矩阵补零以使一维扩张卷积的输出矩阵的列数为预定的固定值。
对于第i层的门控激活单元Gact接收中间上下文信息特征和上一层门控激活单元输出的内循环上下文信息特征ci-1,其中,当i=1时,设定c0为(q,T’1)大小,且每个矩阵元等于零。对于第i层的门控激活单元Gact,其基于中间上下文信息特征引入类似于长短时记忆神经网络(LSTM)单元的门控激活。门控激活单元Gact将划分成大小相同的4部分,如公式(6),每部分大小为(q,T’1)。分别类比于LSTM单元中的遗忘门、输入门、状态更新、输出门的作用。
T表示对矩阵进行的转置操作。
门控激活单元Gact按照式(7)和(8)确定第i层的输出:内循环上下文信息特征ci和显性上下文信息特征hi。
其中,σ表示sigmoid,式(7)和(8)表示σ()和tanh()对相应矩阵的矩阵元进行变换,利用变换得到的矩阵元构成的矩阵得到输出矩阵。式(7)表明内循环上下文信息特征ci与及上一层输出的内循环上下文信息特征有关;显性上下文信息特征hi与及ci有关。
返回到图2,概率确定单元205包括降维单元和复数前馈网络。降维单元接收复数序列网络60的最后一层门控激活时间卷积单元(具体是该最后一层门控激活时间卷积单元的门控激活单元)输出的显性上下文信息特征h作为复数序列网络输出的上下文信息特征hcf,并将上下文信息特征hcf从二维降维到一维,其中,上下文信息特征hcf包括由hcf中的复数的实部构成实部特征和由hcf中的复数的虚部构成虚部特征。可以采用全局池化层或拉平操作实现降维。复数前馈网络通过对降维后实部特征和降维后虚部特征分别应用激活函数来确定针对多种候选事件类型的实部概率和虚部概率。复数前馈网络的激活函数包括例如softmax,但本公开内容不限于此激活函数。复数前馈网络通过实部概率和虚部概率求平均(例如,算术平均)确定声音事件关于多种候选事件类型的概率。概率确定单元例如可以将对应最大概率的候选事件类型作为所处理的声音数据的事件类型标签。
本公开内容还提供一种用于检测声音事件的方法。图7示出了根据本公开内容的一个实施例的用于检测声音事件的方法70的流程图。方法70包括:在步骤S701,通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;在步骤S703,通过使用基于神经网络的声音事件分类器处理复数谱数据来确定声音事件关于多种候选事件类型的概率。其中,关于傅里叶变换的进一步描述,可以参考前面对图1中的变换单元101的描述;对声音时间分类器的配置的详细描述可以参考图2-6及前面关于图2-6的描述。
本公开内容还提供一种用于训练基于神经网络的声音事件分类器的方法。图8示出了用于训练基于神经网络的声音事件分类器的方法80的流程图。方法80包括:在步骤S801,通过对表征样本声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;在步骤S803,通过使用声音事件分类器处理复数谱数据来确定声音事件关于多种候选事件类型的概率;在步骤S805,基于样本声音事件的标签和确定的概率优化声音事件分类器。方法80的输入包括训练用样本声音事件集,其包括多个已标注了事件类型的样本。训练时,步骤S805包括调整声音事件分类器的参数以减小损失函数,通过对多个已标注了事件类型的样本执行步骤S801至S805直到损失函数满足预期,例如等于或小于预定阈值。
本公开内容还提供一种其上存储有程序的计算机可读存储介质,在程序由至少一个处理器执行时,程序使得至少一个处理器实现上述方法,包括用于检测声音事件的方法或用于训练基于神经网络的声音事件分类器的方法。
根据本公开内容一个方面,还提供一种信息处理设备。
图9是根据本公开内容的一个实施例的信息处理设备900的示例性框图。在图9中,中央处理单元(CPU)901根据存储在只读存储器(ROM)902中的程序或从存储部分908加载到随机存取存储器(RAM)903的程序来进行各种处理。在RAM 903中,也根据需要来存储在CPU901执行各种处理时所需的数据等。
CPU 901、ROM 902以及RAM 903经由总线904彼此连接。输入/输出接口905也连接至总线904。
下述部件连接至输入/输出接口905:包括软键盘等的输入部分906;包括诸如液晶显示器(LCD)等的显示器以及扬声器等的输出部分907;诸如硬盘的存储部分908;以及包括网络接口卡如LAN卡、调制解调器等的通信部分909。通信部分909经由诸如英特网、局域网、移动网络的网络或其组合执行通信处理。
驱动器910根据需要也连接至输入/输出接口905。可拆卸介质911如半导体存储器等根据需要安装在驱动器910上,使得从其中读取的程序根据需要被安装到存储部分908。
CPU 901可以运行用于实现本公开内容的方法的程序。
本公开内容的方法、装置、信息处理设备和存储介质至少能有助于实现如下效果之一:区分更多类型的声音事件,以及改善声音事件检测的准确度。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改(包括在行的情况下,各实施例之间特征的组合或替换)、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
附记
1.一种用于检测声音事件的装置,其特征在于,所述装置包括:
变换单元,被配置成通过对表征所述声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据;以及
声音事件分类器,被配置成通过使用神经网络处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。
2.根据附记1所述的装置,其中,所述变换单元被配置成通过对所述声音数据进行短时傅里叶变换确定所述复数谱数据。
3.根据附记1所述的装置,其中,所述声音事件分类器包括:
特征提取单元,被配置成通过执行关于所述复数谱数据的二维卷积来从所述复数谱数据提取深度特征;
上下文信息提取单元,被配置成通过使用复数序列网络在时间上整合所述深度特征来提取表征所述声音事件的上下文信息的上下文信息特征;以及
概率确定单元,被配置成基于由所述上下文信息提取单元输出的所述上下文信息特征确定所述声音事件关于所述多种候选事件类型的概率。
4.根据附记3所述的装置,其中,所述特征提取单元包括卷积神经网络和堆叠单元,所述卷积神经网络包括以层叠式结构连接的多个复数卷积单元,所述多个复数卷积单元中的每个被配置成执行复数二维卷积,并且所述堆叠单元被配置成将所述卷积神经网络输出的特征图从三维变为二维以输出所述深度特征。
5.根据附记4所述的装置,其中,所述多个复数卷积单元中的每个包括卷积计算单元、归一化单元、激活单元和最大池化单元。
6.根据附记5所述的装置,其中,所述多个复数卷积单元中的每个通过基于复数权重矩阵和所述复数谱数据中的所述多个复数向量执行所述复数二维卷积来输出实部特征数据和虚部特征数据;
所述复数权重数据包括实部权重矩阵和虚部权重矩阵;
所述实部特征数据与所述实部权重矩阵、所述虚部特征矩阵、所述多个复数向量的实部以及所述多个复数向量的虚部相关;并且
所述虚部特征数据与所述实部权重矩阵、所述虚部权重矩阵、所述多个复数向量的实部以及所述多个复数向量的虚部相关。
7.根据附记5所述的装置,其中,所述最大池化单元仅在频率维度进行最大池化操作。
8.根据附记3所述的装置,其中,所述复数序列网络是基于时间卷积网络和长短时记忆神经网络单元的门控激活。
9.根据附记8所述的装置,其中,所述复数序列网络包括以层叠式结构连接的多个门控激活时间卷积单元,并且所述多个门控激活时间卷积单元中的每个包括一维扩张卷积单元和门控激活单元。
10.根据附记9所述的装置,其中,所述多个门控激活时间卷积单元中的输入层接收所述特征提取单元输出的深度特征,并且所述深度特征还被输入到所述复数序列网络的除所述输入层以外的所有其他层。
11.根据附记10所述的装置,其中,所述复数序列网络的当前网络层的门控激活单元通过以下方式确定由所述当前网络层输出的显性上下文信息特征及内循环上下文信息特征:
接收所述当前网络层的一维扩张卷积单元基于所述深度特征及上一网络层输出的显性上下文信息特征进行一维扩张卷积并求和得到的中间上下文信息特征;以及
通过将所述中间上下文信息特征切分成四部分进行所述长短时记忆神经网络单元的门控激活来得到由所述当前网络层输出的显性上下文信息特征及内循环上下文信息特征;
其中,所述一维扩张卷积单元包括基于所述上一网络层输出的显性上下文信息特征进行第一一维扩张卷积的第一卷积单元和基于所述深度特征进行第二一维扩张卷积的第二卷积单元,并且所述第一卷积单元被配置成所述第一卷积单元的输出通道数量为所述复数序列网络的输出通道数量的四倍。
12.根据附记11所述的装置,其中,所述概率确定单元包括降维单元和复数前馈网络,所述降维单元被配置成将所述复数序列网络的最后一层门控激活时间卷积单元输出的作为所述复数序列网络输出的所述上下文信息特征的显性上下文信息特征降维从二维降维到一维,并且复数前馈网络通过对降维后的上下文信息特征的实部特征和虚部特征分别应用激活函数来确定针对所述多种候选事件类型的实部概率和虚部概率。
13.根据附记12所述的装置,其中,所述激活函数包括softmax。
14.根据附记12所述的装置,其中,所述复数前馈网络被配置成通过对所述实部概率和所述虚部概率求平均来确定所述声音事件关于所述多种候选事件类型的概率。
15.一种用于检测声音事件的方法,其特征在于,所述方法包括:
通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据;以及
通过使用基于神经网络的声音事件分类器处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。
16.一种其上存储有程序的计算机可读存储介质,在所述程序由至少一个处理器执行时,所述程序使得所述至少一个处理器实现用于检测声音事件的方法,其中,所述方法包括:
通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据;以及
通过使用基于神经网络的声音事件分类器处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。
Claims (10)
1.一种用于检测声音事件的装置,其特征在于,所述装置包括:
变换单元,被配置成通过对表征所述声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据;以及
声音事件分类器,被配置成通过使用神经网络处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。
2.根据权利要求1所述的装置,其中,所述声音事件分类器包括:
特征提取单元,被配置成通过执行关于所述复数谱数据的二维卷积来从所述复数谱数据提取深度特征;
上下文信息提取单元,被配置成通过使用复数序列网络在时间上整合所述深度特征来提取表征所述声音事件的上下文信息的上下文信息特征;以及
概率确定单元,被配置成基于由所述上下文信息提取单元输出的所述上下文信息特征确定所述声音事件关于所述多种候选事件类型的概率。
3.根据权利要求2所述的装置,其中,所述特征提取单元包括卷积神经网络和堆叠单元,所述卷积神经网络包括以层叠式结构连接的多个复数卷积单元,所述多个复数卷积单元中的每个被配置成执行复数二维卷积,并且所述堆叠单元被配置成将所述卷积神经网络输出的特征图从三维变为二维以输出所述深度特征。
4.根据权利要求3所述的装置,其中,所述多个复数卷积单元中的每个包括卷积计算单元、归一化单元、激活单元和最大池化单元。
5.根据权利要求3所述的装置,其中,所述复数序列网络包括以层叠式结构连接多个门控激活时间卷积单元,并且所述多个门控激活时间卷积单元中的每个包括一维扩张卷积单元和门控激活单元。
6.根据权利要求5所述的装置,其中,所述多个门控激活时间卷积单元中的输入层接收所述特征提取单元输出的深度特征,并且所述深度特征还被输入到所述复数序列网络的除所述输入层以外的所有其他层。
7.根据权利要求6所述的装置,其中,所述概率确定单元包括降维单元和复数前馈网络,所述降维单元被配置成将所述复数序列网络的最后一层门控激活时间卷积单元输出的作为所述复数序列网络输出的所述上下文信息特征的显性上下文信息特征从二维降维到一维,并且复数前馈网络通过对降维后的上下文信息特征的实部特征和虚部特征分别应用激活函数来确定针对所述多种候选事件类型的实部概率和虚部概率。
8.根据权利要求7所述的装置,其中,所述复数前馈网络被配置成通过对所述实部概率和所述虚部概率求平均来确定所述声音事件关于所述多种候选事件类型的概率。
9.一种用于检测声音事件的方法,其特征在于,所述方法包括:
通过对表征所述声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据;以及
通过使用基于神经网络的声音事件分类器处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。
10.一种其上存储有程序的计算机可读存储介质,在所述程序由至少一个处理器执行时,所述程序使得所述至少一个处理器实现用于检测声音事件的方法,其中,所述方法包括:
通过对表征所述声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据;以及
通过使用基于神经网络的声音事件分类器处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097053.5A CN113269216A (zh) | 2020-02-17 | 2020-02-17 | 用于检测声音事件的装置和方法以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097053.5A CN113269216A (zh) | 2020-02-17 | 2020-02-17 | 用于检测声音事件的装置和方法以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113269216A true CN113269216A (zh) | 2021-08-17 |
Family
ID=77227572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010097053.5A Pending CN113269216A (zh) | 2020-02-17 | 2020-02-17 | 用于检测声音事件的装置和方法以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269216A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210266875A1 (en) * | 2020-02-24 | 2021-08-26 | Qualcomm Incorporated | MACHINE LEARNING FOR ADDRESSING TRANSMIT (Tx) NON-LINEARITY |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014044447A (ja) * | 2013-12-09 | 2014-03-13 | National Institute Of Advanced Industrial & Technology | 信号特徴抽出装置および信号特徴抽出方法 |
US20170328983A1 (en) * | 2015-12-04 | 2017-11-16 | Fazecast, Inc. | Systems and methods for transient acoustic event detection, classification, and localization |
US20180247642A1 (en) * | 2017-02-27 | 2018-08-30 | Electronics And Telecommunications Research Institute | Method and apparatus for improving spontaneous speech recognition performance |
US20190287550A1 (en) * | 2018-03-15 | 2019-09-19 | Electronics And Telecommunications Research Institute | Method and apparatus for sound event detection robust to frequency change |
-
2020
- 2020-02-17 CN CN202010097053.5A patent/CN113269216A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014044447A (ja) * | 2013-12-09 | 2014-03-13 | National Institute Of Advanced Industrial & Technology | 信号特徴抽出装置および信号特徴抽出方法 |
US20170328983A1 (en) * | 2015-12-04 | 2017-11-16 | Fazecast, Inc. | Systems and methods for transient acoustic event detection, classification, and localization |
US20180247642A1 (en) * | 2017-02-27 | 2018-08-30 | Electronics And Telecommunications Research Institute | Method and apparatus for improving spontaneous speech recognition performance |
US20190287550A1 (en) * | 2018-03-15 | 2019-09-19 | Electronics And Telecommunications Research Institute | Method and apparatus for sound event detection robust to frequency change |
Non-Patent Citations (1)
Title |
---|
袁文浩;梁春燕;夏斌;孙文珠;: "一种融合相位估计的深度卷积神经网络语音增强方法", 电子学报, no. 10, 15 October 2018 (2018-10-15), pages 4764 - 4771 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210266875A1 (en) * | 2020-02-24 | 2021-08-26 | Qualcomm Incorporated | MACHINE LEARNING FOR ADDRESSING TRANSMIT (Tx) NON-LINEARITY |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108345939B (zh) | 基于定点运算的神经网络 | |
US7519563B1 (en) | Optimizing subset selection to facilitate parallel training of support vector machines | |
US12039448B2 (en) | Selective neural network pruning by masking filters using scaling factors | |
JP7111671B2 (ja) | 学習装置、学習システム、および学習方法 | |
CN111291165B (zh) | 训练词向量嵌入模型的方法及装置 | |
CN104765728B (zh) | 训练神经网络的方法和装置以及确定稀疏特征向量的方法 | |
US10671697B1 (en) | Iterative and efficient technique for singular value decomposition | |
US20230274150A1 (en) | Performing Inference And Training Using Sparse Neural Network | |
US7970717B2 (en) | Method and apparatus for providing fast kernel learning on sparse data | |
CN108229522A (zh) | 神经网络的训练方法、属性检测方法、装置及电子设备 | |
Ngufor et al. | Extreme logistic regression | |
CN113011532B (zh) | 分类模型训练方法、装置、计算设备及存储介质 | |
CN114861842B (zh) | 少样本目标检测方法、装置和电子设备 | |
US20230185998A1 (en) | System and method for ai-assisted system design | |
CN111223128A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
CN113269216A (zh) | 用于检测声音事件的装置和方法以及存储介质 | |
CN113420870A (zh) | 用于水声目标识别的U-Net结构生成对抗网络及方法 | |
CN117237727A (zh) | 基于生成对抗网络原型修正的少样本图像分类方法及系统 | |
CN116704382A (zh) | 一种无人机影像语义分割方法、装置、设备及存储介质 | |
CN116342868A (zh) | 基于多尺度特征补偿及门控增强的小目标检测方法 | |
CN117033687A (zh) | 一种农作物病虫害图像检索方法及装置 | |
US20230008856A1 (en) | Neural network facilitating fixed-point emulation of floating-point computation | |
CN115952493A (zh) | 一种黑盒模型的逆向攻击方法、攻击装置以及存储介质 | |
CN116092138A (zh) | 基于深度学习的k近邻图迭代静脉识别方法及系统 | |
CN115730312A (zh) | 一种基于深度哈希的家族恶意软件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |