CN108922560A - 一种基于混合深度神经网络模型的城市噪声识别方法 - Google Patents

一种基于混合深度神经网络模型的城市噪声识别方法 Download PDF

Info

Publication number
CN108922560A
CN108922560A CN201810409511.7A CN201810409511A CN108922560A CN 108922560 A CN108922560 A CN 108922560A CN 201810409511 A CN201810409511 A CN 201810409511A CN 108922560 A CN108922560 A CN 108922560A
Authority
CN
China
Prior art keywords
model
training
neural network
sound
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810409511.7A
Other languages
English (en)
Other versions
CN108922560B (zh
Inventor
曹九稳
沈叶新
王建中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201810409511.7A priority Critical patent/CN108922560B/zh
Publication of CN108922560A publication Critical patent/CN108922560A/zh
Application granted granted Critical
Publication of CN108922560B publication Critical patent/CN108922560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明公开了一种基于混合深度神经网络模型的城市噪声识别方法。本发明包括如下步骤:步骤1.采集城市噪声,建立声音样本库;步骤2.将声音样本库中的声音信号转换成语谱图;步骤3.将得到的语谱图进行裁剪,然后使用多个预训练好的深度神经网络模型分别进行特征提取;步骤4.将多个模型提取的特征进行拼接;步骤5.将拼接后得到的融合特征作为最后分类器的输入,进行预测模型训练;步骤6.对于未知的声音,首先将其转换成语谱图,使用上述的多个预训练好的深度神经网络模型进行特征提取,提取的特征进行拼接,然后使用训练好的预测模型进行预测,得到最终的声音类型。本发明不需要大量的数据集,且运算速度更快,所需资源更少。

Description

一种基于混合深度神经网络模型的城市噪声识别方法
技术领域
本发明属于机器学习与智能声音信号处理领域,涉及一种基于混合深度神经网络模型的城市噪声识别方法。
背景技术
随着我国经济社会的快速发展,城市化建设进程的不断加快,建筑施工、交通运输、社会生活等活动会产生大量的噪声。城市噪声识别在城市管理和安全运行中起着至关重要的作用,特别是在建设智慧城市工程中。城市噪声的分析和测量在全球引起了广泛的关注和研究,严重的城市噪声会对周围居住居民产生严重的影响。同时,城市噪声识别在城市安全检测中也有很多潜在的应用,有效的特征表示和分类算法是城市噪声识别的关键。当前城市噪声识别研究大都是基于传统声学特征提取方法结合识别算法进行的。然而城市噪声复杂多样,传统的声学特征提取方法并不能完全的对城市噪声信号进行充分的表示,此外传统的分类算法往往由于其浅层结构,缺乏对信号的表征能力。目前流行的深度学习方法,由于其对信号的强大的表示能力。在特征提取阶段更少的人工干预,以及良好的识别性能,因此将其应用于城市噪声识别具有非常好的前景。但是,深度学习方法需要以百万计的城市噪声数据来作为支撑,而获取如此庞大的数据是一个非常损耗时间的过程。同时,深度学习方法在大数据处理过程中,面临着模型训练复杂度高等问题。
发明内容
针对传统的识别方法以及目前流行的深度学习方法中存在的问题,本发明提出了一种基于混合深度神经网络模型的城市噪声识别方法。其主要思想是,将多个深度学习方法在大型图像库上训练得到的模型,将它们的特征表示层抽取出来对城市噪声进行特征提取,将得到的不同的模型提取的特征进行融合,输入给最终分类器进行分类训练。本发明的优势在于模型训练速度快、准确率高。本发明具体采用了三种深度神经网络在大型数据库ImageNet上训练得到的模型,分别是inpection_v3、resnet152、inception_resnet_v2。Inception_v3是改进版的GoogLeNet,它具有很强的图像分类能力,在数据表征能力及计算量等方面都体现出优势。Resnet模型引入了一种称为残差的学习单元,用来减轻深度神经网络的退化问题,它能够在不断增加模型复杂度的情况下产生更好的分类精度。共有152层的深度残差网络resnet_152在图像分类目标检测和语义分割都取得了很好的成绩。Inception_resnet_v2借鉴了resnet的残差网络,将其应用到了inception_v3当中,因此它不仅能避免神经网络中随着层数增加而造成的退化问题,还能减少训练时间。相比于单个深度神经网络模型进行特征提取并训练得到的识别率,本发明采用这三种深度神经网络对声信号语谱图进行特征融合并训练的识别率具有很大的提升。为了更详细的阐述本发明,这里采用实测的11类城市噪声为例来进行说明,但本算法的实际使用不局限于这11类城市噪声。
本发明的技术方案主要包括如下步骤:
步骤1.采集城市噪声,建立声音样本库;
步骤2.将声音样本库中的声音信号转换成语谱图;
步骤3.将得到的语谱图进行裁剪,然后使用多个预训练好的深度神经网络模型分别进行特征提取;
步骤4.将多个模型提取的特征进行拼接;
步骤5.将拼接后得到的融合特征作为最后分类器的输入,进行预测模型训练;
步骤6.对于未知的声音,首先将其转换成语谱图,使用上述的多个预训练好的深度神经网络模型进行特征提取,提取的特征进行拼接,然后使用训练好的预测模型进行预测,得到最终的声音类型。
所述步骤2的具体实现包括以下:
设采集到的声音信号为x(n),采样频率为fs。首先对声音信号进行分帧加窗,然后将各帧信号进行傅里叶变换,将变换后的连续n帧信号进行拼接,最后得到语谱图。
所述步骤5中的分类器,可以采用多种经典的分类器算法,如:
支持向量机,超限学习机,基于反向传播算法的BP神经网络等。
本发明有益效果如下:
本发明使用多个在大型图像数据库上训练后的深度神经网络模型,对转换后的城市噪声信号语谱图进行特征提取,将提取的特征进行融合作为新的特征,将其使用分类器算法进行分类学习。相比于使用传统声学特征或单个深度神经网络模型提取的特征进行识别训练,其正确率有了大幅提升。另外,由于本发明是通过已有的深度神经网络来获得语谱图的特征,相比于直接使用深度神经网络算法来进行识别训练,本发明不需要大量的数据集,且运算速度更快,所需资源更少。
附图说明
图1为本发明所采用的模型基础结构图;
图2(a)为汽车报警声的语谱图;
图2(b)为切割机噪声的语谱图;
图2(c)为发动机噪声的语谱图;
图2(d)为音乐声的语谱图;
图2(e)为风声的语谱图;
图3(a)为inception_v3模型基础结构图;
图3(b)为resnet152模型基础结构图;
图3(c)为inception_resnet_v2模型基础结构图;
图4为本发明具体采用的模型结构图;
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图2-图4所示,本发明是通过对声信号语谱图的差异,采用三种在大型图像库ImageNet上训练好的深度神经网络对声信号语谱图进行特征提取,提出了一种基于混合深度神经网络的城市噪声识别方法。
本发明首先对11类声音信号进行预判,然后将这11类声音信号转换成如图2(a)-图2(e)所显示的声信号语谱图图像。然后将语谱图分别输入到如图3(a)-图3(c)所示的深度神经网络中进行特征提取。然后如图4所示进行特征融合和分类识别。
本发明具体实现包括如下步骤:
训练阶段:
步骤1.采集城市噪声,建立声音样本库;
步骤2.将声音样本库中的声音信号转换成语谱图;
步骤3.将转换完成的语谱图分别使用inception_v3,resnet152,inception_resnet_v2这三种预训练好的深度神经网络模型进行特征提取;
步骤4.将经过步骤3中3种深度神经网络模型提取的特征进行拼接;
步骤5.将拼接后的特征,作为分类器的输入,进行预测模型训练;
测试阶段:对于一个未知的声音信号
步骤1.将声音信号转换成语谱图;
步骤2.如上述训练阶段步骤3、4进行特征提取与拼接;
步骤3.使用预测模型进行分类预测。
所述训练阶段步骤2的具体实现包括以下:
设声音信号为x(n),采样频率为fs。首先对声音信号进行分帧加窗,其帧长为wlen,帧移为inc,窗函数为汉明窗。将各帧信号进行傅里叶变换。我们将变换后的连续n帧信号进行拼接,得到语谱图。
所述训练阶段步骤3的具体实现包括以下:
读取语谱图,由于这三种深度神经网络对语谱图的尺寸有各自的要求,因此首先对语谱图进行裁剪,把裁剪后的图片分别输入到三种预处理模型中,得到各个模型下的特征向量。这里采用三种深度神经网络来对声信号语谱图进行特征提取。
在inception_v3模型中,需要将图片调整为299×299×3,然后使用该模型进行特征提取得到2048维特征向量;
在resnet152模型中,需要将图片调整为224×224×3,然后使用该模型进行特征提取得到2048维特征向量;
在inception_resnet_v2模型中,需要将图片调整为299×299×3,然后使用该模型进行特征提取得到1536维特征向量;
所述训练阶段步骤5的具体实现包括以下:
5.1我们在得到融合特征之后,把特征值输入全连接层,然后采用softmax函数进行分类。softmax的函数为:
其中,表示第L层(通常是最后一层)第j个神经元的输入,表示第L层第j个神经元的输出,e表示自然常数。任意的输入值经过softmax函数后都会变成和为1的概率预测值。
5.2在神经网络反向传播中,要求一个损失函数,损失函数表示的是真实值与网络估计值的误差,然后去修改网络中的权重。损失函数可以有很多形式,这里用的是交叉熵函数,交叉熵能解决某些损失函数学习缓慢的问题。交叉熵函数是这样的:
这里,yi表示期望输出,ai表示神经元实际输出
对于训练集有y(i)∈{1,2,3,...,k}总共有k个分类。对于每个输入x都会有对应每个类的概率,即p(y=j|x),从向量角度来看,有,
其中是模型的参数。
我们将训练模型参数θ,使其能够最小化代价函数:
5.3由于每类的样本个数较少,我们采用4折交叉验证,把输入模型的数据随机的分成5组,其中一组做为测试集,其他四组依次取其中单独的一组样本留做验证集,剩余3组样本留做训练集,来进行模型的训练和验证。交叉验证重复4次,每组样本验证一次,以此来得到一个可靠稳定的模型。
5.4得到训练数据集之后,我们设置训练步数step以及每组训练个数batch。在训练数据集中随机抽取batch个样本的特征值进行分类训练。循环step得到最终训练模型,在训练的过程中,我们每100次用验证集对已训练的模型进行验证。
5.5为了平衡模型的训练速度和模型震荡,我们采用学习率指数衰减的方式来调整学习率。在模型训练开始时设置较大一点的学习率,随着训练的进行,不断的调小学习率。防止震荡的发生。学习率的更新方式如下:
adaptive_learining_rate=learning_rate×decay_ratestep/decay_step

Claims (4)

1.一种基于混合深度神经网络模型的城市噪声识别方法,包括训练阶段和测试阶段,其特征在于,
训练阶段步骤如下:
步骤1.采集城市噪声,建立声音样本库;
步骤2.将声音样本库中的声音信号转换成语谱图;
步骤3.将转换完成的语谱图分别使用inception_v3,resnet152,inception_resnet_v2这三种预训练好的深度神经网络模型进行特征提取;
步骤4.将经过步骤3中3种深度神经网络模型提取的特征进行拼接;
步骤5.将拼接后的特征,作为分类器的输入,进行预测模型训练;
测试阶段:
步骤1.将一个未知的声音信号转换成语谱图;
步骤2.如上述训练阶段步骤3、4进行特征提取与拼接;
步骤3.使用预测模型进行分类预测。
2.根据权利要求1所述的一种基于混合深度神经网络模型的城市噪声识别方法,其特征在于训练阶段步骤2的具体实现包括以下:
设声音信号为x(n),采样频率为fs;首先对声音信号进行分帧加窗,其帧长为wlen,帧移为inc,窗函数为汉明窗;将各帧信号进行傅里叶变换;将变换后的连续n帧信号进行拼接,得到语谱图。
3.根据权利要求2所述的一种基于混合深度神经网络模型的城市噪声识别方法,其特征在于训练阶段步骤3的具体实现包括以下:
读取语谱图,由于这三种深度神经网络对语谱图的尺寸有各自的要求,因此首先对语谱图进行裁剪,把裁剪后的图片分别输入到三种预处理模型中,得到各个模型下的特征向量;采用三种深度神经网络来对声信号语谱图进行特征提取;
在inception_v3模型中,需要将图片调整为299×299×3,然后使用该模型进行特征提取得到2048维特征向量;
在resnet152模型中,需要将图片调整为224×224×3,然后使用该模型进行特征提取得到2048维特征向量;
在inception_resnet_v2模型中,需要将图片调整为299×299×3,然后使用该模型进行特征提取得到1536维特征向量。
4.根据权利要求3所述的一种基于混合深度神经网络模型的城市噪声识别方法,其特征在于所述训练阶段步骤5的具体实现包括以下:
5.1在得到融合特征之后,把特征值输入全连接层,然后采用softmax函数进行分类;softmax的函数为:
其中,表示第L层第j个神经元的输入,表示第L层第j个神经元的输出,e表示自然常数;任意的输入值经过softmax函数后都会变成和为1的概率预测值;
5.2在神经网络反向传播中,要求一个损失函数,损失函数表示的是真实值与网络估计值的误差,然后去修改网络中的权重;使用交叉熵能解决损失函数学习缓慢的问题;交叉熵函数如下:
其中,yi表示期望输出,z表示神经元实际输出;
对于训练集{(x(1),y(1)),...,(x(m),y(m))},有y(i)∈{1,2,3,...,k}总共有k个分类;对于每个输入x都会有对应每个类的概率,即p(y=j|x),从向量角度来看,有,
其中,是模型的参数;
训练模型参数θ,使其能够最小化代价函数:
5.3采用4折交叉验证,把输入模型的数据随机的分成5组,其中一组做为测试集,其他四组依次取其中单独的一组样本留做验证集,剩余3组样本留做训练集,来进行模型的训练和验证;交叉验证重复4次,每组样本验证一次,以此来得到一个可靠稳定的模型;
5.4得到训练数据集之后,设置训练步数step以及每组训练个数batch;在训练数据集中随机抽取batch个样本的特征值进行分类训练;循环step得到最终训练模型,在训练的过程中,每100次用验证集对已训练的模型进行验证;
5.5为了平衡模型的训练速度和模型震荡,采用学习率指数衰减的方式来调整学习率;学习率的更新方式如下:
adaptive_learining_rate=learning_rate×decay_ratestep/decay_step
CN201810409511.7A 2018-05-02 2018-05-02 一种基于混合深度神经网络模型的城市噪声识别方法 Active CN108922560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810409511.7A CN108922560B (zh) 2018-05-02 2018-05-02 一种基于混合深度神经网络模型的城市噪声识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810409511.7A CN108922560B (zh) 2018-05-02 2018-05-02 一种基于混合深度神经网络模型的城市噪声识别方法

Publications (2)

Publication Number Publication Date
CN108922560A true CN108922560A (zh) 2018-11-30
CN108922560B CN108922560B (zh) 2022-12-02

Family

ID=64403892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810409511.7A Active CN108922560B (zh) 2018-05-02 2018-05-02 一种基于混合深度神经网络模型的城市噪声识别方法

Country Status (1)

Country Link
CN (1) CN108922560B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948643A (zh) * 2019-01-21 2019-06-28 东南大学 一种基于深层网络融合模型的车辆类型分类方法
CN110070071A (zh) * 2019-04-30 2019-07-30 重庆文理学院 一种基于图像识别的生姜茎叶病虫害识别方法及系统
CN110236533A (zh) * 2019-05-10 2019-09-17 杭州电子科技大学 基于多深度神经网络迁移特征学习的癫痫发作预测方法
CN110245310A (zh) * 2019-03-06 2019-09-17 腾讯科技(深圳)有限公司 一种对象的行为分析方法、装置及存储介质
CN110610715A (zh) * 2019-07-29 2019-12-24 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN110751044A (zh) * 2019-09-19 2020-02-04 杭州电子科技大学 基于深度网络迁移特征与增广自编码的城市噪声识别方法
CN110956965A (zh) * 2019-12-12 2020-04-03 电子科技大学 一种基于声纹识别的个性化智能家居安全控制系统及方法
CN111124108A (zh) * 2019-11-22 2020-05-08 Oppo广东移动通信有限公司 模型训练方法、手势控制方法、装置、介质及电子设备
CN111354372A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于前后端联合训练的音频场景分类方法及系统
CN111400540A (zh) * 2020-03-11 2020-07-10 金陵科技学院 一种基于挤压和激励残差网络的歌声检测方法
CN111540346A (zh) * 2020-05-13 2020-08-14 慧言科技(天津)有限公司 一种远场声音分类方法和装置
CN111833653A (zh) * 2020-07-13 2020-10-27 江苏理工学院 利用环境噪声的行驶辅助系统、方法、设备、可存储介质
CN111914560A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 文本蕴含关系识别方法、装置、设备及存储介质
CN112146882A (zh) * 2020-10-12 2020-12-29 中国人民解放军海军工程大学 基于迁移学习振动信号图像识别的轴承故障诊断方法
CN112183638A (zh) * 2020-09-29 2021-01-05 广西大学 基于声纹深度特征的硬岩拉剪破裂识别方法及装置
CN112735480A (zh) * 2021-01-25 2021-04-30 杭州电子科技大学 一种基于神经网络的声带病变检测装置
CN113221795A (zh) * 2021-05-24 2021-08-06 大连恒锐科技股份有限公司 用于视频中鞋样检索的特征提取、融合与比对方法及其装置
WO2021159635A1 (zh) * 2020-02-14 2021-08-19 平安科技(深圳)有限公司 语音训练样本的获取方法、装置、计算机设备和存储介质
CN113392853A (zh) * 2021-05-28 2021-09-14 中汽研(天津)汽车工程研究院有限公司 一种基于图像识别的关门声品质测评识别方法
WO2022032608A1 (zh) * 2020-08-11 2022-02-17 南京拓灵智能科技有限公司 一种音频降噪方法和装置
CN114724549A (zh) * 2022-06-09 2022-07-08 广州声博士声学技术有限公司 一种面向环境噪声的智能识别方法、装置、设备及存储介质
CN114882906A (zh) * 2022-06-30 2022-08-09 广州伏羲智能科技有限公司 一种新型环境噪声识别方法及系统
WO2022178970A1 (zh) * 2021-02-26 2022-09-01 平安科技(深圳)有限公司 语音降噪器训练方法、装置、计算机设备和存储介质
CN115288994A (zh) * 2022-08-03 2022-11-04 西安安森智能仪器股份有限公司 一种基于改进dcgan的压缩机异常状态检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078863A1 (en) * 2014-09-16 2016-03-17 Electronics And Telecommunications Research Institute Signal processing algorithm-integrated deep neural network-based speech recognition apparatus and learning method thereof
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN105590625A (zh) * 2016-03-18 2016-05-18 上海语知义信息技术有限公司 声学模型自适应方法及系统
JP2016143043A (ja) * 2015-02-05 2016-08-08 日本電信電話株式会社 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
WO2017165551A1 (en) * 2016-03-22 2017-09-28 Sri International Systems and methods for speech recognition in unseen and noisy channel conditions
CN107610692A (zh) * 2017-09-22 2018-01-19 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078863A1 (en) * 2014-09-16 2016-03-17 Electronics And Telecommunications Research Institute Signal processing algorithm-integrated deep neural network-based speech recognition apparatus and learning method thereof
JP2016143043A (ja) * 2015-02-05 2016-08-08 日本電信電話株式会社 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN105590625A (zh) * 2016-03-18 2016-05-18 上海语知义信息技术有限公司 声学模型自适应方法及系统
WO2017165551A1 (en) * 2016-03-22 2017-09-28 Sri International Systems and methods for speech recognition in unseen and noisy channel conditions
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
CN107610692A (zh) * 2017-09-22 2018-01-19 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晓俊等: "改进脉冲耦合神经网络的语音识别研究", 《计算机工程与应用》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354372A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于前后端联合训练的音频场景分类方法及系统
CN109948643A (zh) * 2019-01-21 2019-06-28 东南大学 一种基于深层网络融合模型的车辆类型分类方法
CN110245310A (zh) * 2019-03-06 2019-09-17 腾讯科技(深圳)有限公司 一种对象的行为分析方法、装置及存储介质
CN110245310B (zh) * 2019-03-06 2023-10-13 腾讯科技(深圳)有限公司 一种对象的行为分析方法、装置及存储介质
CN110070071A (zh) * 2019-04-30 2019-07-30 重庆文理学院 一种基于图像识别的生姜茎叶病虫害识别方法及系统
CN110236533A (zh) * 2019-05-10 2019-09-17 杭州电子科技大学 基于多深度神经网络迁移特征学习的癫痫发作预测方法
CN110610715A (zh) * 2019-07-29 2019-12-24 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN110610715B (zh) * 2019-07-29 2022-02-22 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN110751044A (zh) * 2019-09-19 2020-02-04 杭州电子科技大学 基于深度网络迁移特征与增广自编码的城市噪声识别方法
CN110751044B (zh) * 2019-09-19 2022-07-29 杭州电子科技大学 基于深度网络迁移特征与增广自编码的城市噪声识别方法
CN111124108A (zh) * 2019-11-22 2020-05-08 Oppo广东移动通信有限公司 模型训练方法、手势控制方法、装置、介质及电子设备
CN110956965A (zh) * 2019-12-12 2020-04-03 电子科技大学 一种基于声纹识别的个性化智能家居安全控制系统及方法
WO2021159635A1 (zh) * 2020-02-14 2021-08-19 平安科技(深圳)有限公司 语音训练样本的获取方法、装置、计算机设备和存储介质
CN111400540A (zh) * 2020-03-11 2020-07-10 金陵科技学院 一种基于挤压和激励残差网络的歌声检测方法
CN111400540B (zh) * 2020-03-11 2023-10-17 金陵科技学院 一种基于挤压和激励残差网络的歌声检测方法
CN111540346A (zh) * 2020-05-13 2020-08-14 慧言科技(天津)有限公司 一种远场声音分类方法和装置
CN111833653A (zh) * 2020-07-13 2020-10-27 江苏理工学院 利用环境噪声的行驶辅助系统、方法、设备、可存储介质
CN111914560A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 文本蕴含关系识别方法、装置、设备及存储介质
WO2022032608A1 (zh) * 2020-08-11 2022-02-17 南京拓灵智能科技有限公司 一种音频降噪方法和装置
CN112183638A (zh) * 2020-09-29 2021-01-05 广西大学 基于声纹深度特征的硬岩拉剪破裂识别方法及装置
CN112183638B (zh) * 2020-09-29 2022-05-10 广西大学 基于声纹深度特征的硬岩拉剪破裂识别方法及装置
CN112146882A (zh) * 2020-10-12 2020-12-29 中国人民解放军海军工程大学 基于迁移学习振动信号图像识别的轴承故障诊断方法
CN112735480A (zh) * 2021-01-25 2021-04-30 杭州电子科技大学 一种基于神经网络的声带病变检测装置
WO2022178970A1 (zh) * 2021-02-26 2022-09-01 平安科技(深圳)有限公司 语音降噪器训练方法、装置、计算机设备和存储介质
CN113221795A (zh) * 2021-05-24 2021-08-06 大连恒锐科技股份有限公司 用于视频中鞋样检索的特征提取、融合与比对方法及其装置
CN113392853A (zh) * 2021-05-28 2021-09-14 中汽研(天津)汽车工程研究院有限公司 一种基于图像识别的关门声品质测评识别方法
CN114724549A (zh) * 2022-06-09 2022-07-08 广州声博士声学技术有限公司 一种面向环境噪声的智能识别方法、装置、设备及存储介质
CN114882906A (zh) * 2022-06-30 2022-08-09 广州伏羲智能科技有限公司 一种新型环境噪声识别方法及系统
CN115288994A (zh) * 2022-08-03 2022-11-04 西安安森智能仪器股份有限公司 一种基于改进dcgan的压缩机异常状态检测方法
CN115288994B (zh) * 2022-08-03 2024-01-19 西安安森智能仪器股份有限公司 一种基于改进dcgan的压缩机异常状态检测方法

Also Published As

Publication number Publication date
CN108922560B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN108922560A (zh) 一种基于混合深度神经网络模型的城市噪声识别方法
CN105022835B (zh) 一种群智感知大数据公共安全识别方法及系统
CN112183670B (zh) 一种基于知识蒸馏的少样本虚假新闻检测方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN111754988B (zh) 基于注意力机制和双路径深度残差网络的声场景分类方法
CN112562741B (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
CN107392147A (zh) 一种基于改进的生成式对抗网络的图像语句转换方法
CN109034224A (zh) 基于双分支网络的高光谱分类方法
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN105810191B (zh) 融合韵律信息的汉语方言辨识方法
CN110674483B (zh) 一种基于多模态信息的身份识别方法
CN110853656B (zh) 基于改进神经网络的音频篡改识别方法
CN107180084A (zh) 词库更新方法及装置
CN110188195A (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN112990296A (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN111462761A (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN116230019A (zh) 一种基于半监督语音情感识别框架的深度情感聚类方法
CN111402922A (zh) 基于小样本的音频信号分类方法、装置、设备及存储介质
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
CN111061873A (zh) 一种基于Attention机制的多通道的文本分类方法
CN113628640A (zh) 一种基于样本均衡和最大均值差异的跨库语音情感识别方法
CN112035700B (zh) 一种基于cnn的语音深度哈希学习方法及系统
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN113010705A (zh) 标签预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant