CN110223713A - 声音事件检测模型训练方法及声音事件检测方法 - Google Patents
声音事件检测模型训练方法及声音事件检测方法 Download PDFInfo
- Publication number
- CN110223713A CN110223713A CN201910503277.9A CN201910503277A CN110223713A CN 110223713 A CN110223713 A CN 110223713A CN 201910503277 A CN201910503277 A CN 201910503277A CN 110223713 A CN110223713 A CN 110223713A
- Authority
- CN
- China
- Prior art keywords
- sound event
- sampling
- event detection
- neural networks
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 title claims abstract description 42
- 238000005070 sampling Methods 0.000 claims abstract description 51
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 230000002123 temporal effect Effects 0.000 claims abstract description 12
- 230000000306 recurrent effect Effects 0.000 claims abstract description 11
- 210000002569 neuron Anatomy 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 230000008901 benefit Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000001914 filtration Methods 0.000 description 14
- 230000009977 dual effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 239000008399 tap water Substances 0.000 description 2
- 235000020679 tap water Nutrition 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本申请公开一种声音事件检测模型训练方法,所述声音事件检测模型包括卷积神经网络和循环神经网络,所述方法包括:为所述卷积神经网络的多个卷积层中的至少一个配置下采样层,用于下采样所述卷积神经网络的神经元的时间分辨率;配置所述循环神经网络,用于根据所述卷积神经网络所输出的声音特征信息进行声音事件分类。本申请通过在卷积神经网络进行声音特征信息提取时进行神经元层面的时间分辨率的下采样,从而能够获取事件分界更清晰的声音特征信息,便于后续循环神经网络据此进行声音事件的分类,提高了声音事件分类的准确性,降低了声音事件分类的难度。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种声音事件检测模型训练方法及声音事件检测方法。
背景技术
随着人工智能和深度神经网络在图像,视频,和语音等领域的大火,AI在音频领域,包括场景分类,音频事件检测,网络音视频的应用需求也越来越多。DCASE(Detectionand Classification of Acoustic Scenes and Events)是音频场景和音频事件的分类与检测的简称。DCASE的应用场景十分广泛,如智能家居,无人驾驶,复杂场景中的语音识别等。
SED(声音事件检测)本质上是一个半监督的持续时间估计问题,这意味着在训练期间硬标签(时间戳)不可用。然而,由于缺乏关于事件的先验知识,从弱标签获得合理的持续时间估计是困难的。发明人在实现本申请的过程中发现识别和分析阻碍当前SED的三个关键问题:
1)在训练期间,通过平均池化汇集时间维度来获得弱标签估计。这种方法有利于长事件而忽略了短事件[16];
2)在获得每帧预测之后,使用中值滤波来平滑事件预测,这进一步有益于长事件;
3)神经网络预测是在非常精细的范围内进行的。由于该任务的嘈杂性,后处理是必要的,以便获得连贯的预测。但是,网络无法直接学习后处理。
发明内容
本申请实施例提供一种声音事件检测模型训练方法及声音事件检测方法,用于至少解决上述技术问题之一。
第一方面,本申请实施例提供一种声音事件检测模型训练方法,所述声音事件检测模型包括卷积神经网络和循环神经网络,所述方法包括:
为所述卷积神经网络的多个卷积层中的至少一个配置下采样层,用于下采样所述卷积神经网络的神经元的时间分辨率;
配置所述循环神经网络,用于根据所述卷积神经网络所输出的声音特征信息进行声音事件分类。
第二方面,本申请实施例提供一种声音事件检测方法,其中,包括:
对待检测音频信号进行预处理;
将预处理之后的音频信号输入至本申请任一实施例所述的方法训练得到的声音事件检测模型。
第三方面,本申请实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本申请上述任一项声音事件检测模型训练方法和/或声音事件检测方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请上述任一项声音事件检测模型训练方法和/或声音事件检测方法。
第五方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项声音事件检测模型训练方法和/或声音事件检测方法。
本申请实施例的有益效果在于:现有技术中神经网络预测(例如对于获取的声音特征信息对声音事件的预测)是在非常精细的范围内进行的。而由于现实环境的嘈杂性,导致于声音事件的边界模糊(尤其是对于短时声音事件),本申请通过在卷积神经网络进行声音特征信息提取时进行神经元层面的时间分辨率的下采样,从而能够获取事件分界更清晰的声音特征信息,便于后续循环神经网络据此进行声音事件的分类,提高了声音事件分类的准确性,降低了声音事件分类的难度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的声音事件检测模型训练方法的一实施例的流程图;
图2为本申请的声音事件检测模型的一实施例的结构示意图;
图3为本申请中的开发数据分布的示意图;
图4为本申请的电子设备的一实施例的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本申请中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
SED本质上是一个半监督的持续时间估计问题,这意味着在训练期间硬标签(时间戳)不可用。然而,由于缺乏关于事件的先验知识,从弱标签获得合理的持续时间估计是困难的。在本申请中识别和分析阻碍当前SED的三个关键问题:
1)在训练期间,通过平均池化汇集时间维度来获得弱标签估计。这种方法有利于长事件而忽略了短事件[16];
2)在获得每帧预测之后,使用中值滤波来平滑事件预测,这进一步有益于长事件;
3)神经网络预测是在非常精细的范围内进行的。由于该任务的嘈杂性,后处理是必要的,以便获得连贯的预测。但是,网络无法直接学习后处理。
本申请的目标是通过以下方式缓解上述问题:
1)将linear-softmax作为默认的时间池化方法;
2)使用双阈值作为中值滤波的窗口相关滤波替代方案;
3)子采样我们神经元的时间分辨率网络预测,以便直接了解事件边界。
如图1所示,本申请的实施例提供一种声音事件检测模型训练方法,所述声音事件检测模型包括卷积神经网络和循环神经网络,所述方法包括:
S10、为所述卷积神经网络的多个卷积层中的至少一个配置下采样层,用于下采样所述卷积神经网络的神经元的时间分辨率;
S20、配置所述循环神经网络,用于根据所述卷积神经网络所输出的声音特征信息进行声音事件分类。
现有技术中神经网络预测(例如对于获取的声音特征信息对声音事件的预测)是在非常精细的范围内进行的。而由于现实环境的嘈杂性,导致于声音事件的边界模糊(尤其是对于短时声音事件),本申请通过在卷积神经网络进行声音特征信息提取时进行神经元层面的时间分辨率的下采样,从而能够获取事件分界更清晰的声音特征信息,便于后续循环神经网络据此进行声音事件的分类,提高了声音事件分类的准确性,降低了声音事件分类的难度。
在一些实施例中,为所述循环神经网络配置线性softmax函数对所述循环神经网络进行优化训练。
现有技术中采用的是通过平均池化事件维度来获得弱标签估计,但这种方法仅仅适用于长时声音事件的检测,用于短时声音事件的检测时效果并不理想。本申请实施例采用linear-softmax函数作为时间池化方法,使得对于短时声音事件的检测效率和精度更高。
在一些实施例中,为所述下采样层配置平均采样率阈值和最大采样率阈值,以下采样所述卷积神经网络的神经元的时间分辨率。在一些实施例中,所述平均采样率阈值配置为:0.2;所述最大采样率阈值配置为:0.75。
现有技术中在获得每帧预测之后,使用中值滤波来平滑事件预测,但这种方法仅仅适用于长时声音事件的检测,为了有效提升短时声音事件的检测准确度,本申请实施例提出了采用双阈值进行下采样的方法,即采用平均采样率阈值和最大采样率阈值两个阈值进行下采样,实验表明该方法有效弥补了传统中值滤波方法在短时声音事件检测方面所存在的问题。
在一些实施例中,声音事件检测模型训练方法还包括:对输入至所述卷积神经网络的信号进行如下预处理:对待处理声音信号,每20ms计算一个2048点傅立叶变换,窗口长度为40ms,然后该信号由64个mel滤波器组进一步处理之后输入至所述卷积神经网络。
本申请实施例还提供一种声音事件检测方法,其中,包括:对待检测音频信号进行预处理;将预处理之后的音频信号输入至本申请的声音事件检测模型训练方法任一实施例所述的方法训练得到的声音事件检测模型。
在本申请的声音事件检测方法的一些实施例中,所述对待检测音频信号进行预处理包括:对待检测音频信号,每20ms计算一个2048点傅立叶变换,窗口长度为40ms,然后该信号由64个mel滤波器组进一步处理之后输入至所述卷积神经网络。
本申请是以发明人的实际实验研究为基础所作出的发明创造,是在经过了实验验证的。关于发明人对于本申请的研究与探索具体呈现如下:
关于特征提取,我们每20ms计算一个2048点傅立叶变换,窗口长度为40ms;然后该信号由64个mel滤波器组进一步处理;最后,自然日志取自过滤后的信号,为本申请的卷积神经网络产生输入功能。
由于本申请的卷积神经网络确实以顺序方式处理输入(例如,空间和频率维度上的卷积),因此需要应用填充以确保固定的输入大小。应用批量零填充,其基本上等于将整个数据填充到499帧(10s)的最大长度。由于Speech类占整个训练集的近25%,因此通过为每个类分配与其出现次数成反比的权重来利用随机过采样。请注意,这并不完全平衡训练数据集,因为语音标记的话语不会独立出现,因此平均而言,本申请的方法产生20%的语音发音和≈9%的其他事件。
由于在训练期间硬标签是未知的,因此需要利用最终时间汇集池化函数以便将输入话语的时间维度减少到表示类概率的单个向量。发明人分析了不同的减少函数,并得出结论:线性softmax是一种廉价(无额外参数)和SED的有效方法。
线性softmax在等式(1)中定义,其中yt(c)是在时间步t处的类c的输出概率,通常由sigmoid函数处理。由于线性softmax仅取决于每帧概率而不是帧数,因此它对于长度变化比传统的均值汇集池化更稳健。标准二元交叉熵(BCE)与线性softmax一起用作我们的训练标准。
如图2所示,为本申请的声音事件检测模型的一实施例的结构示意图,其中,BiGRU代表双向GRU递归神经网络。LinSoftmax是先前定义的线性softmax(等式(1))。卷积神经网络的每一个卷积层包含有一个块(块1至块5)和一个下采样层(下采样层1至下采样层4),最后一个卷积层包含一个块和一个Dropout层。请注意,线性softmax仅在训练期间使用,并在推理期间删除。对于每个子采样层,我们使用不同的时间子采样因素P={P1...P4},Pi∈{1,2}。在这里,我们每个层最多只能采样2倍。在每个子采样层中,特征尺寸D总是减半。网络P的总时间池因子可以计算为P=max(P1,...,P4)。提出了五种不同的子采样配置:P∈{0,2,4,8,16}。每一个块指的是初始的规范层,然后是卷积,最后是ReLU激活。所有卷积都使用填充以保持输入大小。
使用adam优化进行训练,初始学习率为0.001。如果该模型没有在10个时期的保持集合上得到改善,则学习率降低。如果学习率低于1e-7,则终止训练。
数据集
实验在DCASE2018任务4数据集上进行,该数据集包括训练,开发,indomain,outdomain和评估子集,本文仅使用训练,开发和评估。该数据集包括1578个具有10个类别标签的训练话语,以及位于家庭环境中的242个发展话语。数据集本身是从audioset语料库中采样的,其源是youtube视频。因此,不控制记录条件,背景噪声以及声音保真度,增加了任务难度。需要估计十个等级:语音,猫,狗,自来水,吸尘器,煎炸,电动剃须刀牙刷,搅拌器和警铃。在数据集的10个类中,最常见的类(语音)不是独立看到的,而是仅与其他类(例如,在背景和语音中煎炸)结合,这意味着不能直接推断其出现。
如图3所示,为本申请中的开发数据分布的示意图,分析图3中的开发数据分布表明,数据集可以有效地分为长时间事件(真空吸尘器,自来水,油炸,电动剃须刀牙刷和搅拌器)和短时间事件(语音,狗,餐具,猫和警钟))。具有白色背景的数字表示该类的平均持续时间,而所有类的宏观平均值用虚线(4.2s)描绘。每个点代表一个单一的话语。每个条形显示相对的类事件占用。
基准:为了证明中值滤波对预测序列的影响,进行了两组平均和最大二次取样的实验。SED中的标准中值滤波首先通过阈值φ预处理模型输出序列。然后,将大小为ω的中值滤波器以滚动窗口的方式应用到序列上,以平滑结果。这里,阈值被设置为φ=0.5,并且研究了两个不同的中值滤波器大小配置ω∈{1,51}。窗口大小为1表示不进行过滤,而51被选为默认值。
表1:针对长(5类)和短(5类)话语的中值滤波器的不同窗口大小ω值的发展F1分数。
正如我们的基线实验(表1)所示,窗口大小为ω=51的过滤会导致平均和最大二次采样网络的整体性能提升。然而,这种增长完全源于将重点从短话语转移到长话语。对于平均子采样,短话语F1分数下降8%,而长话语表现增加10%。因此,我们得出结论,较大的ω与整体性能增加相关,与成本较低的话语成本相关。这可以通过整体F1得分尚未达到50%的事实来解释,因此可以通过消除较难的短语言来改善表现,并且只关注更容易,更长的话语。中值滤波的主要缺点之一是它可以潜在地擦除模型预测,例如,高置信度模型估计,以及移位先前预测的事件边界。在这项工作中,我们提倡使用双阈值以改善中值滤波问题,即使用不会消除高置信度估计或移动事件边界的后处理滤波器。
双阈值
双阈值是一种有效且强大的后处理技术,它对输出概率序列进行后处理,而不完全依赖于窗口大小ω。该技术使用两个阈值φlow,φhi。双阈值首先将大于φhi的所有输出标记为有效输出。然后通过搜索与标记的那些相邻的其他输出以概率>φlow继续扩展。双阈值还可以包含窗口大小ω,但具有与标准中值滤波不同的目的。这里,窗口大小ω表示在阈值处理之后连接的帧的数量。在本文中,我们专门设置φlow=0.2,φhi=0.75。
表2:在开发集上双阈值与φlow=0.2,φhi=0.75和窗口大小ω∈{1,51}的比较。
正如我们在表2中所看到的,双阈值提供了整体更好的性能以及对持续时间变化的稳健性。另外,使用大窗口尺寸(51)具有与标准中值阈值相同的效果,短的话语性能恶化(参见表1)。
在上述实施例中进行实验后,我们注意到即使平均和最大子采样的性能彼此相似,它们的每类结果也不是。具体而言,平均子采样在一些短时间事件(例如猫和语音)上表现更好,而最大子采样在其他短事件(例如餐具和狗)上表现更好。因此,我们建议使用联合平均和最大子采样来提高性能。
子采样
这项工作的一个贡献是调查适当的子采样层。这里我们提出四种子采样方案(表3),其中x表示合并图像的区域。
表3:建议的子采样层。学习α[20]。Lp-norm中的p根据经验设置为4。
α-mean-max(α-MM)子采样最初在中引入,而mean-max(MM)子采样用于LightCNN架构。Lp范数子采样可以看作是均值和最大二次采样的推广,其中p=1等于均值,p=∞等于最大二次采样。与传统的子采样方法相比,跨步卷积可以是一种可行的替代方案,它们在ResNet架构中得到广泛应用。我们研究了使用核尺寸K×K和步长K×K的跨步卷积,导致内核中每个单独值的加权子采样系数。
表4:所有四种提出的子采样类型的结果。融合是通过分别平均2,4,8个子采样的模型输出来完成的。基线系统是融合系统。以粗体突出显示的结果是同类中最好的(单一,融合)。
结果
据我们所知,此任务[17]的先前最佳融合系统与我们提出的关于开发和评估集结果的系统进行了比较。
表4中的结果表明,子采样一致地提高了F1评分的性能,但在16次之后却停止了改进。这种行为是由于时间分辨率达到320毫秒,这比200毫秒的T形环长,导致可能的输出标签跳过。在未来的研究中,我们希望进一步研究动态子采样策略。更重要的是,我们的大多数模型在开发和评估集之间产生稳定的分数,并且在数据集之间绝对仅松散约5%。这主要是由于发展集中代表性不足的一些事件造成的。具体而言,标签狗仅出现在具有五次出现的单个话语中,这意味着一些模型可能在开发时获得高F1分数,但是未能概括于更大的数据集(例如,评估)。最后,此方法不要求提供的indomain数据集有效。
池化类型 | 短 | 长 | 间隔 | 平均 |
基准型 | 23.32 | 40.36 | 17.04 | 32.4 |
Conv | 14.8 | 32.5 | 17.7 | 23.68 |
LP | 30.20 | 34.22 | 4.02 | 32.21 |
MM | 27.92 | 34.14 | 6.22 | 31.03 |
αMM | 29.66 | 35.4 | 5.74 | 32.52 |
表5:评估数据的短和长话语结果。差距是长话和短话F1分数之间的绝对差异。所有显示的结果都是模型融合。
从表6中可以看出,先前表现最好的系统偏向于预测在短和长之间具有17%绝对差距的长话语。此外,我们提出的系统可以将短-长话语差距降低至4.02%,同时在与先前最佳系统相同的水平上执行。
表4中提出的结果似乎表明,跨步卷积在很大程度上优于传统的二次取样方法。在本文的工作中,我们注意到跨步卷积对于浅层体系结构(例如此处使用的体系结构)无效,但对于更深层次的网络则有所改进。
本申请分析了DCASE2018 task4数据集的先前最先进的模型,并表明存在对长事件的偏见。追踪这种偏差的三个潜在原因:1)时间均值池化平均汇集,2)固定大小的中值滤波,3)在精细尺度上训练神经网络。我们通过提倡使用1)线性softmax汇集池化2)双阈值滤波3)时间子采样到较低规模来缓解每个相应问题。作为后处理方法的双阈值在持续时间和整体性能的稳健性方面显示出大大优于中值滤波。标准CRNN模型被修改为对时间分辨率进行二次采样,直到16倍,并显示可以提高性能直到8倍。此外,显示平均和最大子采样的变化以进一步提高开发和评估集的性能,以最先进的表现达到高潮。所提出的模型优于先前的现有技术方法,而不依赖于估计中值滤波的最佳窗口大小。我们最好的单一模型获得了30.8%的F1,而最好的模型融合方法取代了以前最佳模型32.4%和32.5%。可以观察到0.1%的绝对改善,同时在开发设置上优于先前的最佳模型11%绝对值。此外,短话和长话预测之间的差距从17%降低到4%。此外,Lp-norm子采样在短事件和长事件中表现出最可靠的性能,间隙为4%。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一些实施例中,本申请实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本申请上述任一项声音事件检测模型训练方法和/或声音事件检测方法。
在一些实施例中,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项声音事件检测模型训练方法和/或声音事件检测方法。
在一些实施例中,本申请实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行声音事件检测模型训练方法和/或声音事件检测方法。
在一些实施例中,本申请实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现声音事件检测模型训练方法和/或声音事件检测方法。
图4是本申请另一实施例提供的执行声音事件检测模型训练方法和/或声音事件检测方法的电子设备的硬件结构示意图,如图4所示,该设备包括:
一个或多个处理器410以及存储器420,图4中以一个处理器410为例。
执行声音事件检测模型训练方法和/或声音事件检测方法的设备还可以包括:输入装置430和输出装置440。
处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器420作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的声音事件检测模型训练方法和/或声音事件检测方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例声音事件检测模型训练方法和/或声音事件检测方法。
存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据声音事件检测模型训练装置和/或声音事件检测装置的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至声音事件检测模型训练装置和/或声音事件检测装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可接收输入的数字或字符信息,以及产生与声音事件检测模型训练装置和/或声音事件检测装置的用户设置以及功能控制有关的信号。输出装置440可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器420中,当被所述一个或者多个处理器410执行时,执行上述任意方法实施例中的声音事件检测模型训练方法和/或声音事件检测方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种声音事件检测模型训练方法,所述声音事件检测模型包括卷积神经网络和循环神经网络,所述方法包括:
为所述卷积神经网络的多个卷积层中的至少一个配置下采样层,用于下采样所述卷积神经网络的神经元的时间分辨率;
配置所述循环神经网络,用于根据所述卷积神经网络所输出的声音特征信息进行声音事件分类。
2.根据权利要求1所述的方法,其中,为所述循环神经网络配置线性softmax函数对所述循环神经网络进行优化训练。
3.根据权利要求1所述的方法,其中,为所述下采样层配置平均采样率阈值和最大采样率阈值,以下采样所述卷积神经网络的神经元的时间分辨率。
4.根据权利要求3所述的方法,其中,所述平均采样率阈值配置为:0.2;所述最大采样率阈值配置为:0.75。
5.根据权利要求1所述的方法,其中,还包括:对输入至所述卷积神经网络的信号进行如下预处理:对待处理声音信号,每20ms计算一个2048点傅立叶变换,窗口长度为40ms,然后该信号由64个mel滤波器组进一步处理之后输入至所述卷积神经网络。
6.一种声音事件检测方法,其中,包括:
对待检测音频信号进行预处理;
将预处理之后的音频信号输入至权利要求1-5中任一项所述的方法训练得到的声音事件检测模型。
7.根据权利要求6所述的方法,其中,所述对待检测音频信号进行预处理包括:对待检测音频信号,每20ms计算一个2048点傅立叶变换,窗口长度为40ms,然后该信号由64个mel滤波器组进一步处理之后输入至所述卷积神经网络。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任意一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910503277.9A CN110223713A (zh) | 2019-06-11 | 2019-06-11 | 声音事件检测模型训练方法及声音事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910503277.9A CN110223713A (zh) | 2019-06-11 | 2019-06-11 | 声音事件检测模型训练方法及声音事件检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110223713A true CN110223713A (zh) | 2019-09-10 |
Family
ID=67816431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910503277.9A Pending CN110223713A (zh) | 2019-06-11 | 2019-06-11 | 声音事件检测模型训练方法及声音事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110223713A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942766A (zh) * | 2019-11-29 | 2020-03-31 | 厦门快商通科技股份有限公司 | 音频事件检测方法、系统、移动终端及存储介质 |
CN111477213A (zh) * | 2020-03-09 | 2020-07-31 | 重庆邮电大学 | 一种基于机器学习的声事件检测系统及方法 |
CN111816215A (zh) * | 2020-07-24 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 语音端点检测模型训练和使用方法及装置 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112199549A (zh) * | 2020-09-08 | 2021-01-08 | 北京数美时代科技有限公司 | 基于弱标签标注的音频事件监测方法、装置、计算机设备 |
CN112863492A (zh) * | 2020-12-31 | 2021-05-28 | 思必驰科技股份有限公司 | 声音事件定位模型训练方法和装置 |
CN113241091A (zh) * | 2021-05-28 | 2021-08-10 | 思必驰科技股份有限公司 | 声音分离的增强方法及系统 |
CN117316184A (zh) * | 2023-12-01 | 2023-12-29 | 常州分音塔科技有限公司 | 一种基于音频信号的事件检测反馈处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105321525A (zh) * | 2015-09-30 | 2016-02-10 | 北京邮电大学 | 一种降低voip通信资源开销的系统和方法 |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN109346061A (zh) * | 2018-09-28 | 2019-02-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置及存储介质 |
CN109599126A (zh) * | 2018-12-29 | 2019-04-09 | 广州丰石科技有限公司 | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 |
-
2019
- 2019-06-11 CN CN201910503277.9A patent/CN110223713A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105321525A (zh) * | 2015-09-30 | 2016-02-10 | 北京邮电大学 | 一种降低voip通信资源开销的系统和方法 |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN109346061A (zh) * | 2018-09-28 | 2019-02-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置及存储介质 |
CN109599126A (zh) * | 2018-12-29 | 2019-04-09 | 广州丰石科技有限公司 | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 |
Non-Patent Citations (2)
Title |
---|
DINKEL H: ""duration robust sound event detection"", 《HTTPS://ARXIV.ORG/ABS/1904.03841V1》 * |
EMRE C: ""convolutional recurrent neural networks for polyphonic sound event detection"", 《HTTPS://ARXIV.ORG/ABS/1702.06286》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942766A (zh) * | 2019-11-29 | 2020-03-31 | 厦门快商通科技股份有限公司 | 音频事件检测方法、系统、移动终端及存储介质 |
CN111477213A (zh) * | 2020-03-09 | 2020-07-31 | 重庆邮电大学 | 一种基于机器学习的声事件检测系统及方法 |
CN111816215A (zh) * | 2020-07-24 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 语音端点检测模型训练和使用方法及装置 |
CN112199549A (zh) * | 2020-09-08 | 2021-01-08 | 北京数美时代科技有限公司 | 基于弱标签标注的音频事件监测方法、装置、计算机设备 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112863492A (zh) * | 2020-12-31 | 2021-05-28 | 思必驰科技股份有限公司 | 声音事件定位模型训练方法和装置 |
CN113241091A (zh) * | 2021-05-28 | 2021-08-10 | 思必驰科技股份有限公司 | 声音分离的增强方法及系统 |
CN117316184A (zh) * | 2023-12-01 | 2023-12-29 | 常州分音塔科技有限公司 | 一种基于音频信号的事件检测反馈处理系统 |
CN117316184B (zh) * | 2023-12-01 | 2024-02-09 | 常州分音塔科技有限公司 | 一种基于音频信号的事件检测反馈处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223713A (zh) | 声音事件检测模型训练方法及声音事件检测方法 | |
Tian et al. | Unified multisensory perception: Weakly-supervised audio-visual video parsing | |
Stowell | Computational bioacoustics with deep learning: a review and roadmap | |
CN110600017A (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN110232109A (zh) | 一种网络舆情分析方法以及系统 | |
CN110222827A (zh) | 基于文本的抑郁判定网络模型的训练方法 | |
Eskimez et al. | GAN-Based Data Generation for Speech Emotion Recognition. | |
CN109933782B (zh) | 用户情绪预测方法和装置 | |
CN111353804A (zh) | 一种服务评价方法、装置、终端设备和介质 | |
CN111147871A (zh) | 直播间歌唱识别方法、装置及服务器、存储介质 | |
Huang | Seismic signal recognition by unsupervised machine learning | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
Segura et al. | Automatic speech feature learning for continuous prediction of customer satisfaction in contact center phone calls | |
Li et al. | Learning visual styles from audio-visual associations | |
Chauhan et al. | Analysis of Intelligent movie recommender system from facial expression | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN113571063B (zh) | 语音信号的识别方法、装置、电子设备及存储介质 | |
Jannu et al. | Multi-stage progressive learning-based speech enhancement using time–frequency attentive squeezed temporal convolutional networks | |
Kang et al. | Pivot correlational neural network for multimodal video categorization | |
US11836168B1 (en) | Systems and methods for generating dynamic human-like conversational responses using a modular architecture featuring layered data models in non-serial arrangements with gated neural networks | |
CN116662527A (zh) | 用于生成学习资源的方法及相关产品 | |
Dinkel et al. | A lightweight approach for semi-supervised sound event detection with unsupervised data augmentation | |
Lim et al. | Sound event detection in domestic environments using ensemble of convolutional recurrent neural networks | |
Kim et al. | DeepSchema: Automatic Schema Acquisition from Wearable Sensor Data in Restaurant Situations. | |
Sophiya et al. | Large scale data based audio scene classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190910 |