CN112560822B - 一种基于卷积神经网络的道路声信号分类方法 - Google Patents
一种基于卷积神经网络的道路声信号分类方法 Download PDFInfo
- Publication number
- CN112560822B CN112560822B CN202110199215.0A CN202110199215A CN112560822B CN 112560822 B CN112560822 B CN 112560822B CN 202110199215 A CN202110199215 A CN 202110199215A CN 112560822 B CN112560822 B CN 112560822B
- Authority
- CN
- China
- Prior art keywords
- sound
- neural network
- convolutional neural
- training
- motor vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于卷积神经网络的道路声信号分类方法,步骤1、特征提取,步骤2、数据增强,步骤3、模型训练,步骤4、测试阶段,把待测声音样本使用步骤1的特征提取方法,得到待测声音梅尔能量频谱特征集,将待测声音梅尔能量频谱特征集中的测试样本输入到步骤3中训练好的卷积神经网络模型内,如果识别结果为机动车鸣笛声或非机动车鸣笛声,则通过声源定位和异常声发生时那一帧的图像生成声云图,并将声云图送入YOLOv3模型中计算出离声源中心最近的车辆是机动车还是非机动车。
Description
技术领域
本发明属于声音监测与识别技术领域,具体涉及基于卷积神经网络的道路声信号分类方法。
背景技术
异常声是指某种正常环境下不应该产生的声音,道路交通场景的异常声包括警报声、刹车声、急求车声等,交通道路上的异常声音能够反映出交通事故与紧急情况的发生,通过对交通道路声音的监测,可以及时对异常情况进行反应,当发生异常情况时,通过对异常声音的识别,能够分析出该异常情况的性质,还能通过添加鸣笛声分类,对违法鸣笛行为进行检测;
现有的针对道路交通场景的异常声识别方法都是通过音频对异常声进行识别,对从音频信息上难以完全区分的类别时表现一般,比如无法分辨机动车鸣笛和非机动车鸣笛,需要研发一种道路声信号分类方式来解决现有的问题。
发明内容
本发明的目的在于提供一种基于卷积神经网络的道路声信号分类方法,以解决道路上检测到的异常声无法分辨车辆类型的问题。
为实现上述目的,本发明提供如下技术方案:一种基于卷积神经网络的道路声信号分类方法,包括以下步骤:
步骤1、特征提取包括以下步骤:
S1、从原始音频中提取N个采样点集合成一个帧,并把每一帧代入窗函数;
S2、对每一个短时分析窗,通过FFT得到对应的幅度频谱,取平方得到声音的能量频谱;
S3、将能量频谱通过梅尔滤波器组得到梅尔能量频谱;
S4、再把梅尔能量频谱取log非线性变换,得到梅尔能量频谱特征数据集;
步骤2、数据增强:将梅尔能量频谱特征数据集按8:2的比例分为训练集和测试集;对训练集使用Mixup数据增强方法以提升模型的泛化能力;
所述Mixup数据增强的方式:在训练集数据中随机选取两个特征样本按比例混合以线性插值的方式来构建新的训练样本和标签,使用公式对标签处理,所述公式为:
步骤3、模型训练:将训练样本输入卷积神经网络模型中进行监督训练,保存在验证集上表现最好的一个模型;训练时,采用Adam算法进行网络参数的更新,当网络迭代次数达到预设的迭代次数或验证集上的识别精度长时间没有提高时,训练停止把结果保存到训练好的卷积神经网络模型。
步骤4、测试阶段:把待测声音样本使用步骤1的特征提取方法,得到待测声音梅尔能量频谱特征集,将待测声音梅尔能量频谱特征集中的测试样本输入到步骤3中训练好的卷积神经网络模型内,如果识别结果为机动车鸣笛声或非机动车鸣笛声,则通过声源定位和异常声发生时那一帧的图像生成声云图,并将声云图送入YOLOv3模型中计算出离声源中心最近的车辆是机动车还是非机动车。
优选的,所述S1中两相邻帧之间有一段重叠区域,将每一帧代入窗函数以消除各个帧两端可能会造成的信号不连续性;
优选的,所述声源定位技术采用波束形成方法。
优选的,所述波束形成方法中将阵列中各个传感器所采集到的信号进行滤波、加权叠加后形成波束,扫描整个接收空间,对一个平面的声压分布进行成像可视化。
优选的,所述步骤3中,所述卷积神经网络模型中进行监督训练时,卷积核和权重采用均匀初始化,偏置采用全0初始化。
优选的,所述窗函数为Hann窗。
优选的,所述步骤2中训练样本对为训练样本和其对应的标签。
优选的,所述卷积神经网络的包括:六个卷积层、四个最大池化层、一个全局平均池化层和三个全连接层。
优选的,所述六个卷积层中前两个卷积层中每个卷积层后都会接一个最大池化层,后四个卷积层中每两个卷积层后都会接一个最大池化层;所述全局平均池化层在卷积池化层和全连接层之间。
本发明的技术效果和优点:该基于卷积神经网络的道路声信号分类方法,对机动车鸣笛的识别准确度从81.6%(600个样本识别正确490个)提高到了94.0%(600个样本识别正确564个),对非机动车鸣笛的识别准确度从88.3%(443个样本识别正确391个)提高到了95.9%(443个样本识别正确425个)。
附图说明
图1为本发明的识别流程图;
图2为本发明卷积神经网络训练流程图;
图3为本发明YOLOv3输出的机动车鸣笛声云图A;
图4为本发明YOLOv3输出的机动车鸣笛声云图B。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图1至4所示的一种基于卷积神经网络的道路声信号分类方法:从原始音频中提取得到的梅尔频谱特征作为数据集,接着将数据集按8:2的比例分为训练集和测试集,接着对训练数据使用Mixup数据增强进行混合后用于模型训练,保存在测试数据上表现最好的模型。同时针对机动车鸣笛和非机动车鸣笛,通过多摄像头单麦克风阵列汽车鸣笛检测设备和声源定位技术生成鸣笛产生的那一帧视频截图的声云图,接着将声云图输入预训练的YOLOv3模型中,计算距离声源中心点与图像中非机动车和机动车目标框中心点的距离,以距离最近的车辆来判断该次鸣笛是机动车鸣笛还是非机动车鸣笛,上述提取梅尔频谱特征分为以下四个步骤:
1、对原始音频进行分帧和加窗;
2、对每一个短时分析窗,通过FFT得到对应的幅度频谱,经平方处理得到能量频谱;
3、将上面的能量频谱通过Mel滤波器组得到Mel能量频谱,
4、对Mel能量频谱进行取log非线性变换得到对数梅尔能量频谱特征;
上述声源定位技术采用波束形成(Beamforming)方法,Beamforming方法通过将阵列中各个传感器所采集到的信号进行滤波、加权叠加后形成波束,扫描整个接收空间,对一个平面的声压分布进行成像可视化;
波束形成方法鲁棒性较强,不需要先验知识,使用简单直观,因此这类设备也被形象的称为声学照相机;
步骤1)特征提取:为了方便对语音分析,先将N个采样点集合成一个观测单位,称为帧,本实施例中, N的值为256或512,涵盖的时间约为20~30ms左右,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3,本实施例中,语音识别所采用语音信号的采样频率为8KHz或16KHz,本实施例中采用8KHz的频率,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms;将每一帧代入窗函数以消除各个帧两端可能会造成的信号不连续性。对每一个短时分析窗,通过FFT得到对应的幅度频谱,在本实施例中,转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性,每帧再经过快速傅里叶变换以得到在频谱上的能量分布,对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,取平方得到声音的能量频谱,然后利用梅尔滤波器组得到声音的梅尔能量频谱,本实施例中,对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰,接着对梅尔能量频谱取log非线性变换,得到最后的梅尔能量频谱特征;本实施例中,再加上一帧的对数能量,例如:一帧内信号的平方和,再取以10为底的对数值,再乘以10,使得每一帧基本的语音特征就多了一维;
步骤2)数据增强:由于数据集数据量较少,本实施例对特征数据使用了Mixup数据增强方法以提升模型的泛化能力,Mixup数据增强是指随机选取两个特征样本按比例混合以线性插值的方式来构建新的训练样本和标签,最终对标签的处理如下公式所示:
两个数据对是原始数据集中的训练样本对,其中是一个服从B分布的参数,;其中,是一个超参数,随着的增大,网络的训练误差就会增加,而其泛化能力会随之增强;由于取到的数据经过处理已经变成特征矩阵的形式,因此这边第一个式子是对特征矩阵里的值进行线性加权得到新的特征值,而这边的标签是用one-hot向量表示的,因此线性加权后的标签也就是two-hot向量,也就是属于两个类别;标签就是类别,这个公式就是将部分样本线性求特征值然后将新得到的特征值分到两个样本集里面。
步骤3)模型训练:本实施例训练时将混合的训练数据按8:2的比例分为训练集和测试集,将训练集输入卷积神经网络模型中进行监督训练,保存在验证集上表现最好的一个模型,训练时,卷积核和权重采用均匀初始化,偏置采用全0初始化,采用Adam算法进行网络参数的更新,当网络迭代次数达到预设的迭代次数或验证集上的识别精度长时间没有提高时,训练停止并保存训练好的卷积神经网络模型;保存在验证集上正确率最高的模型,验证集不参与训练,用于调整模型超参数,作为初步判断模型的依据,测试集用来评估最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据,Adam算法是深度学习参数更新算法, 此算法通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率;
步骤4)测试阶段:通过对待测声音样本采用和训练阶段同样的特征提取步骤,得到待测声音梅尔能量频谱特征,将测试样本输入到训练好的卷积神经网络模型中,如果识别结果为机动车鸣笛声或非机动车鸣笛声,则通过声源定位和异常声发生时那一帧的图像生成声云图,并将声云图送入YOLOv3模型中计算出离声源中心最近的车辆是机动车还是非机动车;
YOLOv3模型计算的步骤包括:
把声云图用LabelImg进行标注,制作训练数据和测试数据集文件,同时创建类别名文件,创建数据集配置文件,新建模型配置文件,用darknet53 yolo 识别训练自己的数据集,启动YOLOv3模型计算;
具体地,本实施例使用的音视频数据是从道路交通场景的视频监控中截取的,异常声数据集包含6739个异常声片段,每段声音长度为5秒,采样率为44.1kHz。该数据集包括:10个类别,分别为警报声、吹哨声、说话声、洒水车声、急救车声、背景噪声、刹车声、扩音喇叭声、机动车鸣笛声和非机动车鸣笛声,数据集详细信息见表1:
表1 异常声数据集
异常声类别 | 数目 |
警报声 | 80 |
吹哨声 | 57 |
说话声 | 179 |
洒水车声 | 313 |
机动车鸣笛声 | 2999 |
急救车声 | 57 |
背景噪声 | 332 |
刹车声 | 216 |
非机动车鸣笛声 | 2213 |
扩音喇叭声 | 293 |
使用Hann窗对声音信号进行分帧,每帧选取1764个采样点,为了保持相邻帧之间的连续性,帧移选取为882个采样点;利用FFT变换得到声音的幅度频谱,对幅度频谱做平方处理得到声音的能量频谱,然后利用梅尔滤波器组将声音的能量频谱转换到梅尔能量频谱,为了提升声音的低频表示,增强隐藏在低频部分的特征信息,本实施例对梅尔能量频谱取log非线性变换,得到6739个40×251维梅尔能量频谱特征,其中80%为训练集,另外20%为测试集;
上述卷积神经网络的包括:六个卷积层、四个最大池化层、一个全局平均池化层和三个全连接层,其中:前两个卷积层中每个卷积层后都会接一个最大池化层,后四个卷积层中每两个卷积层后都会接一个最大池化层;全局平均池化层在卷积池化层和全连接层之间;六个卷积层的卷积核数量分别为64、128、256、256、512和512,卷积核尺寸为3x3,步长为3,填充方式为补0;四个最大池化层的卷积核尺寸为2x2,填充方式为补0;前两个全连接层都有256个节点;最后一个全连接层的节点数为声音类别数量,异常声数据集有10个声音类别,所以该层节点数为10。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于卷积神经网络的道路声信号分类方法,其特征在于:包括以下步骤:
步骤1、特征提取:从原始音频中提取特征数据,得到梅尔能量频谱特征数据集:
步骤2、数据增强:将梅尔能量频谱特征数据集按8:2的比例分为训练集和测试集;对训练集使用Mixup数据增强方法以提升模型的泛化能力;
步骤4、测试阶段:把待测声音样本使用步骤1的特征提取方法,得到待测声音梅尔能量频谱特征集,将待测声音的梅尔能量频谱特征输入到步骤3中训练好的卷积神经网络模型内,如果识别结果为机动车鸣笛声或非机动车鸣笛声,则通过声源定位和异常声发生时那一帧的图像生成声云图,并将声云图送入YOLOv3模型中进行目标检测,计算出离声源中心最近的车辆是机动车还是非机动车,如果YOLOv3得到的检测结果是机动车则最终该条样本被划分为机动车类别,如果YOLOv3得到的检测结果是非机动车则最终该条样本被划分为非机动车类别,所述步骤1中特征提取的方法为:
S1、从原始音频中提取N个采样点集合成一个帧,并把每一帧代入窗函数;
S2、上述S1中的每一帧带入窗函数后得到短时分析窗,通过FFT得到对应的幅度频谱,取平方得到声音的能量频谱;
S3、将能量频谱通过梅尔滤波器组得到梅尔能量频谱;
S4、再把梅尔能量频谱取log非线性变换,得到梅尔能量频谱特征数据集,步骤4中,所述声源定位采用波束形成方法,所述波束形成方法中将阵列中各个传感器所采集到的信号进行滤波、加权叠加后形成波束,扫描整个接收空间,对一个平面的声压分布进行成像可视化。
2.根据权利要求1所述的一种基于卷积神经网络的道路声信号分类方法,其特征在于:所述步骤3中,所述卷积神经网络模型中进行监督训练时,卷积核和权重采用均匀初始化,偏置采用全0初始化,训练时,采用Adam算法进行网络参数的更新,当网络迭代次数达到预设的迭代次数或验证集上的识别精度长时间没有提高时,训练停止把结果保存到训练好的卷积神经网络模型。
3.根据权利要求1所述的一种基于卷积神经网络的道路声信号分类方法,其特征在于:所述窗函数为Hann窗。
4.根据权利要求1所述的一种基于卷积神经网络的道路声信号分类方法,其特征在于:所述步骤2中训练样本对为训练样本和其对应的标签。
5.根据权利要求1所述的一种基于卷积神经网络的道路声信号分类方法,其特征在于:所述卷积神经网络的包括:六个卷积层、四个最大池化层、一个全局平均池化层和三个全连接层。
6.根据权利要求5所述的一种基于卷积神经网络的道路声信号分类方法,其特征在于:所述六个卷积层中前两个卷积层中每个卷积层后都会接一个最大池化层,后四个卷积层中每两个卷积层后都会接一个最大池化层;所述全局平均池化层在卷积池化层和全连接层之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110199215.0A CN112560822B (zh) | 2021-02-23 | 2021-02-23 | 一种基于卷积神经网络的道路声信号分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110199215.0A CN112560822B (zh) | 2021-02-23 | 2021-02-23 | 一种基于卷积神经网络的道路声信号分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560822A CN112560822A (zh) | 2021-03-26 |
CN112560822B true CN112560822B (zh) | 2021-05-14 |
Family
ID=75034549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110199215.0A Active CN112560822B (zh) | 2021-02-23 | 2021-02-23 | 一种基于卷积神经网络的道路声信号分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560822B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241094B (zh) * | 2021-05-08 | 2024-05-07 | 南京师范大学 | 一种基于子带谱熵法和深度卷积神经网络的汽车鸣笛识别方法 |
CN112985583B (zh) * | 2021-05-20 | 2021-08-03 | 杭州兆华电子有限公司 | 结合短时脉冲检测的声学成像方法和系统 |
CN113065533B (zh) * | 2021-06-01 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 一种特征提取模型生成方法、装置、电子设备和存储介质 |
CN113658608B (zh) * | 2021-08-27 | 2022-03-25 | 中关村科学城城市大脑股份有限公司 | 路面积水监测方法、装置、存储介质及电子设备 |
CN113763986B (zh) * | 2021-09-07 | 2024-02-02 | 山东大学 | 一种基于声音分类模型的空调内机异常声音检测方法 |
CN114132409A (zh) * | 2021-12-08 | 2022-03-04 | 北京理工大学 | 一种鸣笛声识别抓拍无人巡逻车及其控制方法 |
CN114131202B (zh) * | 2021-12-30 | 2022-09-20 | 华中科技大学 | 激光-电弧复合焊时异常声信号的提取方法、系统及装置 |
CN114601455A (zh) * | 2022-05-12 | 2022-06-10 | 电子科技大学 | 基于两级神经网络的运动识别方法 |
CN116559778B (zh) * | 2023-07-11 | 2023-09-29 | 海纳科德(湖北)科技有限公司 | 一种基于深度学习的车辆鸣笛定位方法及系统 |
CN116935278B (zh) * | 2023-07-25 | 2024-02-13 | 广东技术师范大学 | 基于同步信号的车型识别方法、装置、电子设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10614827B1 (en) * | 2017-02-21 | 2020-04-07 | Oben, Inc. | System and method for speech enhancement using dynamic noise profile estimation |
CN111800507A (zh) * | 2020-07-06 | 2020-10-20 | 湖北经济学院 | 一种交通监控方法及交通监控系统 |
CN112216287A (zh) * | 2020-09-25 | 2021-01-12 | 江苏聆世科技有限公司 | 基于集成学习和卷积神经网络的环境声音识别方法 |
-
2021
- 2021-02-23 CN CN202110199215.0A patent/CN112560822B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10614827B1 (en) * | 2017-02-21 | 2020-04-07 | Oben, Inc. | System and method for speech enhancement using dynamic noise profile estimation |
CN111800507A (zh) * | 2020-07-06 | 2020-10-20 | 湖北经济学院 | 一种交通监控方法及交通监控系统 |
CN112216287A (zh) * | 2020-09-25 | 2021-01-12 | 江苏聆世科技有限公司 | 基于集成学习和卷积神经网络的环境声音识别方法 |
Non-Patent Citations (1)
Title |
---|
汽车鸣笛声实时抓拍的理论研究和系统实现;袁芳等;《声电技术》;20181105;第42卷(第11期);第13-15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112560822A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560822B (zh) | 一种基于卷积神经网络的道路声信号分类方法 | |
Zhao et al. | Robust speaker identification in noisy and reverberant conditions | |
JP4912778B2 (ja) | 信号源の軌跡をモデル化する方法及びシステム | |
Stöter et al. | Countnet: Estimating the number of concurrent speakers using supervised learning | |
CN110459241B (zh) | 一种用于语音特征的提取方法和系统 | |
CN111261189B (zh) | 一种车辆声音信号特征提取方法 | |
Wang et al. | ia-PNCC: Noise Processing Method for Underwater Target Recognition Convolutional Neural Network. | |
CN113405825B (zh) | 一种基于声音信号的带式输送机故障诊断方法 | |
KR101720514B1 (ko) | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
Sonmez et al. | New trends in speech emotion recognition | |
Poorjam et al. | Automatic quality control and enhancement for voice-based remote Parkinson’s disease detection | |
Zhang et al. | Weighted magnitude-phase loss for speech dereverberation | |
Götz et al. | Blind reverberation time estimation in dynamic acoustic conditions | |
López-Pacheco et al. | A method for environmental acoustic analysis improvement based on individual evaluation of common sources in urban areas | |
Xiong et al. | Blind estimation of reverberation time based on spectro-temporal modulation filtering | |
CN112735468A (zh) | 一种基于mfcc的汽车座椅电机异常噪声检测方法 | |
CN116929539A (zh) | 一种基于可视化声源技术的电抗器故障诊断方法与系统 | |
Huber et al. | Glottal source shape parameter estimation using phase minimization variants | |
Peer et al. | Reverberation matching for speaker recognition | |
Pirhosseinloo et al. | A new feature set for masking-based monaural speech separation | |
Smaragdis et al. | Learning source trajectories using wrapped-phase hidden Markov models | |
CN111968671B (zh) | 基于多维特征空间的低空声目标综合识别方法及装置 | |
Sinha et al. | A deep autoencoder approach to bird call enhancement | |
CN115267672A (zh) | 声源检测和定位的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |