CN117746890A - 报警声识别方法及装置、报警声识别模型的训练方法 - Google Patents
报警声识别方法及装置、报警声识别模型的训练方法 Download PDFInfo
- Publication number
- CN117746890A CN117746890A CN202311790425.2A CN202311790425A CN117746890A CN 117746890 A CN117746890 A CN 117746890A CN 202311790425 A CN202311790425 A CN 202311790425A CN 117746890 A CN117746890 A CN 117746890A
- Authority
- CN
- China
- Prior art keywords
- frequency
- time
- characteristic
- alarm sound
- target time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013527 convolutional neural network Methods 0.000 claims description 57
- 238000011176 pooling Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000010076 replication Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Alarm Systems (AREA)
Abstract
本申请涉及声音识别领域,公开了一种报警声识别方法及装置、报警声识别模型的训练方法、电子设备及计算机可读存储介质。其中,报警声识别方法,包括:获取输入语音的梅尔频率倒谱系数;根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征;根据所述目标时频特征确定所述输入语音中是否包含报警声。与现有技术相比,本申请实施例所提供的警声识别方法及装置、报警声识别模型的训练方法、电子设备及计算机可读存储介质具有能够灵活适应多样的报警场景的优点。
Description
技术领域
本申请涉及声音识别领域,具体而言,涉及一种报警声识别方法及装置、报警声识别模型的训练方法、电子设备及计算机可读存储介质。
背景技术
报警声检测在现代社会中扮演着至关重要的角色,不仅有助于及时察觉突发事件,从而保障人们的生命安全,还在监控系统中发挥关键作用,确保公共安全和社会秩序。此外,在工业领域中,报警声检测可用于监测设备运行状态,预防事故发生。总体而言,报警声检测对各个领域的安全性和监控效率至关重要,有助于保障人们的生命和财产安全。
然而,现有技术中的报警声检测局限于单一类型的报警声检测,无法灵活适应多样的报警场景。
发明内容
本申请的目的在于提供一种报警声识别方法及装置、报警声识别模型的训练方法、电子设备及计算机可读存储介质,能够灵活适应多样的报警场景。
第一方面,本申请实施例提供了一种报警声识别方法,包括:获取输入语音的梅尔频率倒谱系数;根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征;根据所述目标时频特征确定所述输入语音中是否包含报警声。
与现有技术相比,本申请实施例所提供的报警声识别方法中,先获取输入语音的梅尔频率倒谱系数,然后根据梅尔频率倒谱系数获取输入语音的目标时频特征,通过对输入语音的时频特征进行提取和分析,判断输入语音中是否包含报警声,能够实现对各种不同的报警声的识别,从而适应更多样的报警场景。
在可选的实施例中,所述根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征,包括:将所述梅尔频率倒谱系数输入二维深度可分离卷积神经网络,获取所述二维深度可分离卷积神经网络输出的第一时频特征;对所述第一时频特征进行池化处理,得到第一时域特征;将所述第一时域特征输入一维深度可分离卷积神经网络,获取所述一维深度可分离卷积神经网络输出的第二时域特征;根据所述第二时域特征和所述第一时频特征获取所述目标时频特征。使用二维深度可分离卷积神经网络和一维深度可分离卷积神经网络提取目标时频特征,对算力的要求较低,有利于在低算力设备上部署,降低了对硬件算力的要求,从而降低成本。
在可选的实施例中,所述根据所述第二时域特征和所述第一时频特征获取所述目标时频特征,包括:将所述第二时域特征在频域维度复制h次,得到复制特征,h为所述时频特征的频域维度大小;拼接所述复制特征和所述第一时频特征形成拼接特征,根据所述拼接特征确定所述目标时频特征。
在可选的实施例中,所述根据所述拼接特征确定所述目标时频特征包括:将所述拼接特征作为所述目标时频特征;或者,使用所述二维深度可分离卷积神经网络根据所述拼接特征获取所述输入语音的第二时频特征;对所述第三时频特征进行池化处理,得到第三时域特征;使用所述一维深度可分离卷积神经网络根据所述第三时域特征获取第四时域特征;根据所述第四时域特征和所述第二时频特征获取所述目标时频特征。将拼接特征作为新的输入数据重复进行特征提取得到目标时频特征,提升目标时频特征的有效性。
在可选的实施例中,所述拼接所述复制特征和所述时频特征形成拼接特征,包括:将所述复制特征和所述第一时频特征逐像素点相加,形成所述拼接特征。
在可选的实施例中,根据所述目标时频特征确定所述输入语音中是否包含报警声,包括:将所述目标时频特征输入全连接层,获取所述全连接层的输出参数;将所述输出参数输入激活函数,获取所述激活函数输出的概率值,在所述概率值大于或等于预设概率阈值时确定所述输入语音中包含所述报警声,在所述概率值小于所述预设概率阈值时确定所述输入语音中不包含所述报警声。
在可选的实施例中,所述将所述目标时频特征输入全连接层前,所述报警声识别方法还包括:使用预设卷积神经网络压缩所述目标时频特征的通道数量;所述将所述目标时频特征输入全连接层,包括:将通道数量压缩后的所述目标时频特征输入所述全连接层。使用预设卷积神经网络压缩所述目标时频特征的通道数量,可以减少输入全连接层的目标时频特征的参数量,降低算力要求,进而降低成本。
在可选的实施例中,所述获取输入语音的梅尔频率倒谱系数,包括:获取所述输入语音的振幅谱;对所述振幅谱进行幅度平方后通过梅尔滤波器组处理,得到梅尔滤波器组处理参数;对所述梅尔滤波器组处理参数取对数后进行离散余弦变换,得到所述梅尔频率倒谱系数。
第二方面,本申请实施例提供了一种报警声识别装置,包括:梅尔频率倒谱系数获取模块,所述梅尔频率倒谱系数获取模块用于获取输入语音的梅尔频率倒谱系数;报警声识别模块,所述报警声识别模块用于根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征,并根据所述目标时频特征确定所述输入语音中是否包含报警声。
第三方面,本申请实施例提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述的报警声识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行实现前述的报警声识别方法。
与现有技术相比,本申请实施例所提供的报警声识别方法及装置、报警声识别模型的训练方法、电子设备及计算机可读存储介质中,先获取输入语音的梅尔频率倒谱系数,然后根据梅尔频率倒谱系数获取输入语音的目标时频特征,通过对输入语音的时频特征进行提取和分析,判断输入语音中是否包含报警声,能够实现对各种不同的报警声的识别,从而适应更多样的报警场景;其中,使用二维深度可分离卷积神经网络和一维深度可分离卷积神经网络提取目标时频特征,可以降低对硬件算力的要求,从而降低成本;此外,使用预设卷积神经网络压缩目标时频特征的通道数量,可以减少输入全连接层的目标时频特征的参数量,进一步降低算力要求,进而进一步的降低成本。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一所提供的报警声识别方法的流程示意图;
图2为本申请一些实施例所提供的报警声识别方法中获取输入语音的梅尔频率倒谱系数的流程示意图;
图3为本申请一些实施例所提供的报警声识别方法中根据梅尔频率倒谱系数获取输入语音的目标时频特征的流程示意图;
图4为本申请一种具体的实施例所提供的报警声识别方法中根据梅尔频率倒谱系数获取输入语音的目标时频特征的过程示意图;
图5为本申请一些实施例所提供的报警声识别方法中根据目标时频特征确定输入语音中是否包含报警声的流程示意图;
图6为本申请另一些实施例所提供的报警声识别方法中根据目标时频特征确定输入语音中是否包含报警声的流程示意图;
图7为本申请实施例二所提供的报警声识别装置的结构示意图;
图8为本申请一些实施例所提供的报警声识别模型的模型结构示意图;
图9为本申请实施例三所提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
本申请实施例一提供了一种报警声识别方法,如图1所示,包括:
步骤S101:获取输入语音的梅尔频率倒谱系数。
步骤S102:根据梅尔频率倒谱系数获取输入语音的目标时频特征。
步骤S103:根据目标时频特征确定输入语音中是否包含报警声。
与现有技术相比,本申请实施例一所提供的报警声识别方法中,先获取输入语音的梅尔频率倒谱系数,然后根据梅尔频率倒谱系数获取输入语音的目标时频特征,通过对输入语音的时频特征进行提取和分析,判断输入语音中是否包含报警声,能够实现对各种不同的报警声的识别,从而适应更多样的报警场景。
在步骤S101中,输入语音为需要进行报警声识别的语音片段,其具体可以为报警声识别装置采集的环境语音。例如可以是报警声识别装置持续采集环境语音,每间隔预设时间段,将该预设时间段内采集的环境语音片段作为输入语音进行报警声识别。
进一步的,在本申请的一些实施例中,如图2所示,获取输入语音的梅尔频率倒谱系数具体可以包括:
步骤S201:获取输入语音的振幅谱。
在本步骤中,可以对输入语音进行分帧和加窗处理后进行快速傅里叶变换,得到输入语音的振幅谱。
步骤S202:对振幅谱进行幅度平方后通过梅尔滤波器组处理,得到梅尔滤波器组处理参数。
步骤S203:对梅尔滤波器组处理参数取对数后进行离散余弦变换,得到梅尔频率倒谱系数。
在步骤S102中,如图3所示,根据梅尔频率倒谱系数获取输入语音的目标时频特征具体可以包括:
步骤S301:将梅尔频率倒谱系数输入二维深度可分离卷积神经网络,获取二维深度可分离卷积神经网络输出的第一时频特征。
在本步骤中,二维深度可分离卷积神经网络是一种卷积神经网络,二维深度可分离卷积神经网络采用深度可分离卷积作为其基本运算方式。深度可分离卷积将传统卷积分解为逐通道卷积与逐点卷积两部分。在逐通道卷积阶段,对输入的梅尔频率倒谱系数的每个通道分别使用一个卷积核,然后将所有卷积核的输出再进行拼接得到它的最终输出,逐点卷积实际为1×1卷积,它的卷积核的尺寸为1×1×M,M为逐通道卷积输出信息的通道数,所以逐点卷积的每个卷积核会将逐通道卷积输出信息在通道方向上进行加权组合,生成新的输出,在本申请的实施例中,逐点卷积的输出即为输入语音的第一时频特征。
步骤S302:对第一时频特征进行池化处理,得到第一时域特征。
在本步骤中,池化(Pooling)是深度学习中常用的一种操作,它用于减小特征图的尺寸并提取对输入特征具有鲁棒性的相关信息。池化操作是在特征图上进行的,通过将特征图划分为不重叠的区域,然后对每个区域进行汇聚操作来获得池化后的特征值。常见的池化操作有最大池化(Max Pooling)和平均池化(Average Pooling)。最大池化选择每个区域中的最大值作为该区域的池化结果,而平均池化计算每个区域中特征值的平均值作为池化结果。池化操作的主要作用是减小特征图的尺寸,从而减少参数数量和计算量,同时具有平移不变性和部分尺度不变性。在本申请的实施例中,特征图即为第一时频特征,特征值即为第一时域特征。
步骤S303:将第一时域特征输入一维深度可分离卷积神经网络,获取一维深度可分离卷积神经网络输出的第二时域特征。
在本步骤中,一维深度可分离卷积神经网络与前述步骤S301中的二维深度可分离卷积神经网络的结构大致相同,同样包括逐通道卷积与逐点卷积两部分,所不同的是,一维深度可分离卷积神经网络用于处理处理一维数据,其窗口和卷积核是一维的,而二维深度可分离卷积神经网络用于处理处理二维数据,其窗口和卷积核是二维的。
在本申请的实施例中,梅尔频率倒谱系数是二维数据,因此使用二维深度可分离卷积神经网络进行处理,而池化后得到的第一时域特征是一维数据,因此使用一维深度可分离卷积神经网络进行处理。
步骤S304:根据第二时域特征和第一时频特征获取目标时频特征。
在本步骤中,可以是将第二时域特征在频域维度复制h次,得到复制特征,h为时频特征的频域维度大小;拼接复制特征和第一时频特征形成拼接特征,根据拼接特征确定目标时频特征。
在本申请的一些实施例中,拼接复制特征和时频特征形成拼接特征,具体可以为:将复制特征和第一时频特征逐像素点相加,形成拼接特征。
请参照图4,如图4所示为本申请一种具体的实施例中所提供的报警声识别方法中根据梅尔频率倒谱系数获取输入语音的目标时频特征的过程示意图。
如图4所示,梅尔频率倒谱系数输入二维深度可分离卷积神经网络后,二维深度可分离卷积神经网络输出第一时频特征,其中w为第一时频特征的时域维度,h为第一时频特征的频域维度,c为第一时频特征的通道数量。第一时频特征进行池化后得到第一时域特征。将第一时域特征输入一维深度可分离卷积神经网络后,一维深度可分离卷积神经网络输出第二时域特征,将第二时域特征在频域维度复制h次后得到复制特征,复制特征与第一时频特征为一一对应的结构,可以复制特征和第一时频特征逐像素点相加,形成拼接特征。
在本申请的一些实施例中,可以直接将拼接特征作为目标时频特征。而在本申请的一些其它的实施例中,还可以是将拼接特征作为输入数据再次输入二维深度可分离卷积神经网络,使用二维深度可分离卷积神经网络根据拼接特征获取输入语音的第二时频特征;然后再次对第三时频特征进行池化处理,得到第三时域特征;再次将第三时域特征输入一维深度可分离卷积神经网络,使用一维深度可分离卷积神经网络根据第三时域特征获取第四时域特征;将第四时域特征在频域维度复制h次,得到新的复制特征,拼接新的复制特征和第二时频特征形成新的拼接特征。得到新的拼接特征后,可以根据需要将新的拼接特征作为目标时频特征,或者是将新的拼接特征再次输入二维深度可分离卷积神经网络,重复执行设定次数后,将最终得到的拼接特征作为目标时频特征。将拼接特征作为新的输入数据重复进行特征提取得到目标时频特征,可以提升目标时频特征的有效性。
与现有技术相比,本申请实施例中使用二维深度可分离卷积神经网络和一维深度可分离卷积神经网络提取目标时频特征,对算力的要求较低,有利于在低算力设备上部署,降低了对硬件算力的要求,从而降低成本。
可以理解的是,前述使用二维深度可分离卷积神经网络和一维深度可分离卷积神经网络提取目标时频特征仅为本申请的一些实施例中提取目标时频特征的举例说明,并不构成限定,在本申请的一些其它的实施例中,也可以是使用循环神经网络、对抗式神经网络、图神经网络等其它结构的神经网络,具体可以根据实际需要进行灵活的选用。
在本申请的一些实施例中,如图5所示,步骤S103中根据目标时频特征确定输入语音中是否包含报警声,具体可以为:
步骤S501:将目标时频特征输入全连接层,获取全连接层的输出参数。
步骤S502:将输出参数输入激活函数,获取激活函数输出的概率值。
步骤S503:在概率值大于或等于预设概率阈值时确定输入语音中包含报警声,在概率值小于预设概率阈值时确定输入语音中不包含报警声。
进一步的,在本申请的一些实施例中,如图6所示,步骤S103中根据目标时频特征确定输入语音中是否包含报警声,具体可以为:
步骤S601:使用预设卷积神经网络压缩目标时频特征的通道数量。
步骤S602:将通道数量压缩后的目标时频特征输入全连接层,获取全连接层的输出参数。
步骤S603:将输出参数输入激活函数,获取激活函数输出的概率值。
步骤S604:在概率值大于或等于预设概率阈值时确定输入语音中包含报警声,在概率值小于预设概率阈值时确定输入语音中不包含报警声。
与现有技术相比,使用预设卷积神经网络压缩目标时频特征的通道数量,可以减少输入全连接层的目标时频特征的参数量,降低算力要求,进一步的降低成本。
本申请实施例二提供了一种报警声识别装置,如图7所示,包括:梅尔频率倒谱系数获取模块701,梅尔频率倒谱系数获取模块701用于获取输入语音的梅尔频率倒谱系数;报警声识别模块702,报警声识别模块702用于根据梅尔频率倒谱系数获取输入语音的目标时频特征,并根据目标时频特征确定输入语音中是否包含报警声。
与现有技术相比,本申请实施例二所提供的报警声识别装置中,梅尔频率倒谱系数获取模块701先获取输入语音的梅尔频率倒谱系数,然后报警声识别模块702根据梅尔频率倒谱系数获取输入语音的目标时频特征,通过对输入语音的时频特征进行提取和分析,判断输入语音中是否包含报警声,能够实现对各种不同的报警声的识别,从而适应更多样的报警场景。
在本申请的实施例中,报警声识别模块702中可以运行报警声识别模型,如图8所示,报警声识别模型可以包括二维深度可分离卷积神经网络层801、池化层802、一维深度可分离卷积神经网络层803、拼接层804、以及全连接层805。在实际使用过程中,可以使用婴儿哭声、蜂鸣器声、汽车喇叭声、烟雾报警器声、消防车声、救护车声、警车声、爆炸声、火车鸣笛声等多种不同的报警声作为训练数据对报警声识别模型进行模型训练,然后使用训练完成的报警声识别模型进行报警声识别。
在本申请的实施例中,报警声识别模块702还用于将梅尔频率倒谱系数输入二维深度可分离卷积神经网络,获取二维深度可分离卷积神经网络输出的第一时频特征;对第一时频特征进行池化处理,得到第一时域特征;将第一时域特征输入一维深度可分离卷积神经网络,获取一维深度可分离卷积神经网络输出的第二时域特征;根据第二时域特征和第一时频特征获取目标时频特征。
在本申请的实施例中,报警声识别模块702还用于将第二时域特征在频域维度复制N次,得到复制特征,N为时频特征的频域维度大小;拼接复制特征和第一时频特征形成拼接特征,根据拼接特征确定目标时频特征。
在本申请的实施例中,报警声识别模块702还用于将拼接特征作为目标时频特征;或者,使用二维深度可分离卷积神经网络根据拼接特征获取输入语音的第二时频特征;对第三时频特征进行池化处理,得到第三时域特征;使用一维深度可分离卷积神经网络根据第三时域特征获取第四时域特征;根据第四时域特征和第二时频特征获取目标时频特征。
在本申请的实施例中,报警声识别模块702还用于将复制特征和第一时频特征逐像素点相加,形成拼接特征。
在本申请的实施例中,报警声识别模块702还用于将目标时频特征输入全连接层,获取全连接层的输出参数;将输出参数输入激活函数,获取激活函数输出的概率值,在概率值大于或等于预设概率阈值时确定输入语音中包含报警声,在概率值小于预设概率阈值时确定输入语音中不包含报警声。
在本申请的实施例中,报警声识别模块702还用于使用预设卷积神经网络压缩目标时频特征的通道数量,将通道数量压缩后的目标时频特征输入全连接层。
在本申请的实施例中,梅尔频率倒谱系数获取模块701还用于获取输入语音的振幅谱;对振幅谱进行幅度平方后通过梅尔滤波器组处理,得到梅尔滤波器组处理参数;对梅尔滤波器组处理参数取对数后进行离散余弦变换,得到梅尔频率倒谱系数。
本申请实施例三涉及一种电子设备,如图9所示,包括:至少一个处理器901;以及,与至少一个处理器901通信连接的存储器902;其中,存储器902存储有可被至少一个处理器901执行的指令,指令被至少一个处理器901执行,以使至少一个处理器901能够执行上述各实施例中的报警声识别方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本申请实施例四涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (11)
1.一种报警声识别方法,其特征在于,包括:
获取输入语音的梅尔频率倒谱系数;
根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征;
根据所述目标时频特征确定所述输入语音中是否包含报警声。
2.根据权利要求1所述的报警声识别方法,其特征在于,所述根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征,包括:
将所述梅尔频率倒谱系数输入二维深度可分离卷积神经网络,获取所述二维深度可分离卷积神经网络输出的第一时频特征;
对所述第一时频特征进行池化处理,得到第一时域特征;
将所述第一时域特征输入一维深度可分离卷积神经网络,获取所述一维深度可分离卷积神经网络输出的第二时域特征;
根据所述第二时域特征和所述第一时频特征获取所述目标时频特征。
3.根据权利要求2所述的报警声识别方法,其特征在于,所述根据所述第二时域特征和所述第一时频特征获取所述目标时频特征,包括:
将所述第二时域特征在频域维度复制h次,得到复制特征,h为所述时频特征的频域维度大小;
拼接所述复制特征和所述第一时频特征形成拼接特征,根据所述拼接特征确定所述目标时频特征。
4.根据权利要求3所述的报警声识别方法,其特征在于,所述根据所述拼接特征确定所述目标时频特征包括:
将所述拼接特征作为所述目标时频特征;或者,
使用所述二维深度可分离卷积神经网络根据所述拼接特征获取所述输入语音的第二时频特征;
对所述第二时频特征进行池化处理,得到第三时域特征;
使用所述一维深度可分离卷积神经网络根据所述第三时域特征获取第四时域特征;
根据所述第四时域特征和所述第二时频特征获取所述目标时频特征。
5.根据权利要求3所述的报警声识别方法,其特征在于,所述拼接所述复制特征和所述时频特征形成拼接特征,包括:
将所述复制特征和所述第一时频特征逐像素点相加,形成所述拼接特征。
6.根据权利要求1所述的报警声识别方法,其特征在于,根据所述目标时频特征确定所述输入语音中是否包含报警声,包括:
将所述目标时频特征输入全连接层,获取所述全连接层的输出参数;
将所述输出参数输入激活函数,获取所述激活函数输出的概率值,在所述概率值大于或等于预设概率阈值时确定所述输入语音中包含所述报警声,在所述概率值小于所述预设概率阈值时确定所述输入语音中不包含所述报警声。
7.根据权利要求6所述的报警声识别方法,其特征在于,所述将所述目标时频特征输入全连接层前,所述报警声识别方法还包括:
使用预设卷积神经网络压缩所述目标时频特征的通道数量;
所述将所述目标时频特征输入全连接层,包括:
将通道数量压缩后的所述目标时频特征输入所述全连接层。
8.根据权利要求1至7中任一项所述的报警声识别方法,其特征在于,所述获取输入语音的梅尔频率倒谱系数,包括:
获取所述输入语音的振幅谱;
对所述振幅谱进行幅度平方后通过梅尔滤波器组处理,得到梅尔滤波器组处理参数;
对所述梅尔滤波器组处理参数取对数后进行离散余弦变换,得到所述梅尔频率倒谱系数。
9.一种报警声识别装置,其特征在于,包括:
梅尔频率倒谱系数获取模块,所述梅尔频率倒谱系数获取模块用于获取输入语音的梅尔频率倒谱系数;
报警声识别模块,所述报警声识别模块用于根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征,并根据所述目标时频特征确定所述输入语音中是否包含报警声。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任意一项所述的报警声识别方法。
11.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行实现权利要求1至8中任意一项所述的报警声识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311790425.2A CN117746890A (zh) | 2023-12-22 | 2023-12-22 | 报警声识别方法及装置、报警声识别模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311790425.2A CN117746890A (zh) | 2023-12-22 | 2023-12-22 | 报警声识别方法及装置、报警声识别模型的训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117746890A true CN117746890A (zh) | 2024-03-22 |
Family
ID=90257311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311790425.2A Pending CN117746890A (zh) | 2023-12-22 | 2023-12-22 | 报警声识别方法及装置、报警声识别模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117746890A (zh) |
-
2023
- 2023-12-22 CN CN202311790425.2A patent/CN117746890A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991289B (zh) | 异常事件的监测方法、装置、电子设备及存储介质 | |
US9812152B2 (en) | Systems and methods for identifying a sound event | |
KR20200115731A (ko) | 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치 | |
CN113314144B (zh) | 声音识别及电力设备故障预警方法、系统、终端及介质 | |
Fook et al. | Comparison of speech parameterization techniques for the classification of speech disfluencies | |
CN111739542B (zh) | 一种特征声音检测的方法、装置及设备 | |
CN112669820B (zh) | 基于语音识别的考试作弊识别方法、装置及计算机设备 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN114596879B (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
CN115295011A (zh) | 一种声音信号处理方法、装置、设备及存储介质 | |
Mielke et al. | Smartphone application for automatic classification of environmental sound | |
CN112418173A (zh) | 异常声音识别方法、装置及电子设备 | |
CN117746890A (zh) | 报警声识别方法及装置、报警声识别模型的训练方法 | |
CN111552832A (zh) | 基于声纹特征与关联图谱数据的风险用户识别方法、装置 | |
Pastor-Aparicio et al. | Zwicker's Annoyance model implementation in a WASN node | |
CN114863638A (zh) | 基于手表的管控方法、装置、设备及存储介质 | |
CN114242112A (zh) | 一种基于改进深度残差网络的城市声音分类方法 | |
CN113782034A (zh) | 一种音频识别方法、装置及电子设备 | |
KR20210115425A (ko) | 실시간 음향분석에 의한 소음도에 따른 음성 안내시스템의 스마트 볼륨 조절 시스템 | |
Singh et al. | Real-Time Monitoring of Illegal Logging Events Using Intelligent Acoustic Sensors Nodes | |
CN111292767A (zh) | 一种音频事件检测方法和装置以及设备 | |
Alene et al. | Frequency-domain features for environmental accident warning recognition | |
CN111179546B (zh) | 一种自适应分布式音频报警方法及系统 | |
CN117636909B (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 | |
CN117238277B (zh) | 意图识别方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |