CN114861835B - 一种基于非对称卷积的噪声性听力损失预测系统 - Google Patents
一种基于非对称卷积的噪声性听力损失预测系统 Download PDFInfo
- Publication number
- CN114861835B CN114861835B CN202210777572.5A CN202210777572A CN114861835B CN 114861835 B CN114861835 B CN 114861835B CN 202210777572 A CN202210777572 A CN 202210777572A CN 114861835 B CN114861835 B CN 114861835B
- Authority
- CN
- China
- Prior art keywords
- noise
- module
- data
- hearing loss
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000016354 hearing loss disease Diseases 0.000 title claims abstract description 85
- 230000010370 hearing loss Effects 0.000 title claims abstract description 80
- 231100000888 hearing loss Toxicity 0.000 title claims abstract description 80
- 206010011878 Deafness Diseases 0.000 title claims abstract description 79
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 26
- 230000008859 change Effects 0.000 claims abstract description 24
- 206010073310 Occupational exposures Diseases 0.000 claims abstract description 6
- 231100000675 occupational exposure Toxicity 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000006378 damage Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002401 inhibitory effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 231100000673 dose–response relationship Toxicity 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 206010011903 Deafness traumatic Diseases 0.000 description 1
- 208000002946 Noise-Induced Hearing Loss Diseases 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/12—Audiometering
- A61B5/121—Audiometering evaluating hearing capacity
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Surgery (AREA)
- Veterinary Medicine (AREA)
- Pathology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Acoustics & Sound (AREA)
- Animal Behavior & Ethology (AREA)
- Multimedia (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Otolaryngology (AREA)
- Fuzzy Systems (AREA)
- Epidemiology (AREA)
Abstract
本发明公开了一种基于非对称卷积的噪声性听力损失预测系统,该系统包括数据采集模块、数据预处理模块、特征提取模块和特征融合与噪声性听力损失预测模块;数据采集模块用于采集工人职业暴露的噪声数据和工人个人信息;数据预处理模块用于对工人个人信息数据进行标准化,并对噪声数据转换为二维噪声时频谱图;特征提取模块用于利用不同形状的卷积核提能量特征与时域变化特征;特征融合与噪声性听力损失预测模块将能量特征与时域变化特征进行融合并降维后,联合工人个人信息输出得到工人是否患有噪声性听力损失的预测结果。本发明使用不对称卷积核对时频谱图进行特征提取,提高噪声性听力损失预测的准确性。
Description
技术领域
本发明涉及医疗信息技术领域,尤其涉及一种基于非对称卷积的噪声性听力损失预测系统。
背景技术
听力损失是全世界所面临的重大公共健康问题,听力的受损会导致语言认知能力、理解能力以及社会适应能力的长期缺陷。复杂噪声职业暴露是引起听力损失的主要原因之一,长时间暴露在危险水平的噪声中会造成永久性的听力损伤。
噪声分为稳态噪声与非稳态噪声,当前评估噪声性听力损失的标准是国际噪声暴
露标准(ISO-1999),该标准是基于上世纪50~60年代的稳态噪声数据而建立的,因此对噪声
暴露的类型不敏感,会低估复杂噪声造成的听力损失。在稳态噪声造成的听力损失评估方
面,A计权等效声压级是唯一公认的指标,A计权等效声压级这一指标基于等能量假设,
主要从能量角度对噪声性听力损失进行评估,认为相同A计权等效声压级即相同能量的噪
声,对听力造成的损失也相同,使用A计权等效声压级和工时调查来评价稳态噪声所致生物
效应也得到了学术界的广泛认可。但日常职业暴露噪声多为非稳态复杂噪声,普遍存在脉
冲性或者冲击性,对于复杂噪声而言,等能量假设并不成立,相比能量相同的稳态噪声,复
杂噪声往往会对听力造成更大的损失,尤其对于峰值和能量都很高的复杂非稳态噪声,现
有的噪声性听力损失评估标准往往造成听力损失的低估,因此构建一种有效的噪声性听力
损失预测系统对于听力健康保护具有重要的意义。
由于职业噪声暴露具有普遍性,许多研究已经针对现有的噪声性听力损失评估标准容易低估复杂噪声性听力损失这一问题开展了一些工作。与本发明所申明最相近的技术方案如下:
①用峰度修正的累计噪声暴露(Kurtosis Adjusted Cumulative NoiseExposure)。基于时域结构的不同,复杂噪声造成的听力损失也不同这一结论,研究者们提出了很多对复杂噪声时域结构评估的指标,包括信号脉冲的峰值、持续时间以及脉冲之间的时间间隔等,但这样描述复杂噪声的方法在实际噪声暴露的环境下并不实用,可操作性也比较差。Qiu等[1]人采用峰度作为复杂噪声性听力损伤评估指标,峰度是信号四阶中心矩和二阶中心矩的比值,可以用来估量一个随机过程相对于高斯分布的脉冲性,高斯噪声的峰度值等于3,复杂噪声的峰度值大于3,峰度值越大表明复杂噪声的脉冲性越强,用峰度作为评估的参量能够将脉冲峰值、持续时间以及脉冲间隔等时域指标归结为一个简单的参数并且易于计算。
Zhao等[2]人在此基础上进行了更加深入的研究,通过对163名纺织厂工人以及32名钢铁厂工人的听力测试数据以及他们所处环境的噪声数据进行分析,建立了听力损伤率与累积噪声暴露之间的剂量-响应曲线,在使用峰度对累计噪声暴露这一指标进行调整以后发现高斯噪声和复杂噪声的剂量响应曲线接近于重合,这意味着经过峰度修正后的累积噪声暴露这一指标对复杂噪声和高斯噪声有着一致的评估,有潜力作为评估噪声性听力损伤的有效指标。
②基于机器学习构建噪声性听力损失预测模型。赵艳霞[3]从机器学习的角度出发,采用支持向量机(SVM)、神经网络多层感知器(MLP)、随机森林和AdaBoost算法作为评估复杂噪声造成的听力损失的备选评估方案,通过t-test单变量特征选择方法进行了特征筛选,最终选取了A计权等效声压级、C计权等效声压级以及峰度值等39个有效噪声特征参量,并从问卷数据中提取了3个个人相关特征构建最终的特征向量输入模型,通过比较得出SVM模型能够在噪声性听力损失预测任务上表现最好,获得了相比于ISO-1999标准更好的预测性能,为准确评估各种复杂噪声引起的听力损伤提供了新的思路。
与①相似的技术是基于分布统计学的,通过调整各类参数以拟合到某些数据集。当样本数量相对于模型的复杂度较大时,该方式效果较为理想,能够取得较好的评估结果,但是如果错误的选择了模型的复杂性,或所研究的系统过于复杂而无法用简单的数学公式描述,这样的方式也会产生较大的误差。同时,峰度极易受背景噪声幅度、脉冲的峰值、持续时间和发生频率以及峰度的计算窗口这四个因素影响,从而在评估噪声性听力损失的准确性上打了折扣。
与②相似的技术基于一定的先验知识,人工选取与噪声性听力损失相关的特征参量来进行输入模型的特征向量构建,其准确度依赖于人工选取的噪声性听力损失相关特征参量,对于噪声音频数据的利用程度不高。
参考文献
[1] Qiu W , Hamernik R P , Davis B . The kurtosis metric as anadjunct to energy in the prediction of trauma from continuous, nonGaussiannoise exposures[J]. Journal of the Acoustical Society of America, 2006, 120(6):3901.
[2] Zhao Y M , Qiu W , Zeng L , et al. Application of the kurtosisstatistic to the evaluation of the risk of hearing loss in workers exposed tohigh-level complex noise.[J]. Ear Hear, 2010, 31(4):527-532.
[3] 赵艳霞. 基于机器学习的复杂噪声所致听力损失预测模型研究[D]。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于非对称卷积的噪声性听力损失预测系统,采用两种不对称的矩形的卷积核分别提取能量信息特征以及时域变化信息特征,融合将能量特征与时域变化信息特征以及工人个人相关特征进行联合,对噪声性听力损失进行预测。
本发明的目的是通过以下技术方案来实现的:一种基于非对称卷积的噪声性听力损失预测系统,该系统包括数据采集模块、数据预处理模块、特征提取模块和特征融合与噪声性听力损失预测模块;
所述数据采集模块用于采集工人职业暴露的噪声数据和工人个人信息;
所述数据预处理模块用于对工人个人信息数据进行标准化后输入特征融合与噪声性听力损失预测模块,并对噪声数据转换为二维噪声时频谱图输入特征提取模块;
所述特征提取模块用于基于非对称卷积核,利用不同形状的卷积核分别提取时频谱图中能量特征与时域变化特征后输入特征融合与噪声性听力损失预测模块;
所述特征融合与噪声性听力损失预测模块用于引入注意力机制模块,有选择性的加强信息量较大的特征,抑制无效特征,再将特征提取模块得到的能量特征与时域变化特征进行融合并降维后,再联合工人个人信息得到最终特征,经过全连接层和Softmax输出层得到工人是否患有噪声性听力损失的预测结果。
进一步地,所述工人个人信息包括年龄、工龄和不同频率的听力阈值信息。
进一步地,所述数据预处理模块将噪声数据矩阵化为原始数据集,并通过离散时间短时傅里叶变换得到噪声数据时频谱图。
进一步地,数据预处理模块将工人个人信息进行标准化具体如下:
进一步地,所述特征提取模块基于噪声对听力造成损伤的特点以及噪声时频谱图像的特征,采用非对称卷积核,分别对能量特征以及时域变化特征进行提取;横向的矩形卷积核,对于同一频率相邻时刻幅值变化更加敏感,用于提取表征时域变化的特征;对于纵向的矩形卷积核,对同一时刻相邻频率的幅值的强弱更加敏感,用于提取表征能量的特征。
进一步地,特征提取模块对输入的时频谱图像分别采用横向以及纵向的卷积核进行特征提取,分别经过两次非对称卷积,三次普通卷积,五次池化后,将得到的时域变化特征与能量特征输入特征融合与噪声性听力损失预测模块。
进一步地,所述特征融合与噪声性听力损失预测模块利用注意力机制模块, 对各个通道的关联性进行建模,首先分别对能量特征及时域变化特征的每个通道进行全局平均池化,压缩全局空间信息作为通道描述符,随后将能量特征通道描述符与时域变化特征通道描述符进行串联拼接,其后连接两个全连接层,最后通过Sigmoid函数,根据输入数据调节各通道特征的权重,从而有选择性的加强信息量较大的特征,抑制无效特征。
进一步地,将经过注意力机制模块处理后的能量特征及时域变化特征分别通过两个Flatten层展平为两个一维向量,再将两个一维向量进行串联拼接,再连接两个全连接层进行特征的降维;将降维后的输出特征与数据预处理模块得到的工人个人信息进行串联拼接,最后再通过两个全连接层和一个Softmax输出层得到工人是否患有噪声性听力损失的预测结果。
本发明的有益效果:
1. 本发明通过卷积神经网络能够对复杂问题进行准确建模,从而提高噪声性听力损失预测的准确性。
2. 本发明使用不对称卷积核对时频谱图进行特征提取,针对时频谱图的特性,采用两种不对称的矩形的卷积核分别提取能量信息特征以及时域变化信息特征,通过特征融合模块将能量特征与时域变化信息特征以及工人个人相关特征进行联合,模型表现不依赖于人工选取的噪声性听力损失相关特征参量,对原始噪声数据的利用程度也更高。
附图说明
图1为本发明提供的一种基于非对称卷积的噪声性听力损失预测系统结构示意图。
图2为本发明特征提取模块结构示意图。
图3为本发明特征融合与噪声性听力损失预测模块结构示意图。
图4为本发明实施例中提供的特征提取模块示意图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供的一种基于非对称卷积的噪声性听力损失预测系统,包括数据采集模块、数据预处理模块、特征提取模块和特征融合与噪声性听力损失预测模块。其中,数据采集模块主要用于采集工人职业暴露的噪声数据以及工人包括年龄、工龄、不同频率的听力阈值在内的个人信息;数据预处理模块用于对工人个人信息数据进行标准化后输入特征融合与噪声性听力损失预测模块,并对工人职业暴露的噪声数据利用短时傅里叶变换,将原始一维噪声数据转换为二维噪声时频谱图输入特征提取模块;特征提取模块用于基于非对称卷积核,利用不同形状的卷积核分别提取时频谱图中能量特征与时域变化特征后输入特征融合与噪声性听力损失预测模块;特征融合与噪声性听力损失预测模块用于将能量特征与时域变化特征进行融合,首先引入注意力机制模块,让网络有选择性的加强信息量大的特征,抑制无效特征,再将特征提取模块得到的能量特征与时域变化特征进行融合,通过两层全连接层进行降维,最后再联合工人个人信息数据得到最终特征,经过两层全连接层和Softmax输出层最终得到输出。下面对每一个模块进行具体说明。
所述数据采集模块用于采集工作时间内的工人职业暴露噪声数据;收集工人的个人信息数据,具体包括:工人的年龄,性别,工龄,所在工厂、工种以及工人双耳的听力阈值。
所述数据预处理模块用于将数据采集模块采集的每个样本的噪声数据矩阵化为
一维噪声数据,其中为噪声数据总点数,,表示噪声数
据的索引,代表噪声记录仪记录到的第h点数据,通过离散时间短时傅里叶变换得到噪声
数据时频谱图。通过短时傅里叶变换得到的噪声数据时频谱图也可以替换为魏纳格-威尔
分布、平滑伪魏纳格-威尔分布、崔-威廉斯分布等其他时频分析技术得到的谱图。本发明仅
以通过离散时间短时傅里叶变换得到噪声数据时频谱图来进行说明。
短时傅里叶变换(Short-Time Fourier Transform, STFT)的基本思想是采用滑动窗口函数对原始的信号进行截取,将信号分为若干子段并对每一个子段进行傅里叶分析,最后得到信号频谱与窗函数时延之间的关系,也就是信号的时间、频率二维联合分布。
对于采集到的噪声数据,离散短时傅里叶变换定义为:
噪声数据时频谱图表示的是频率分布与窗函数时延之间的关系,是原始噪声数据与时间相关的频谱信息的视觉表示。将得到的噪声数据时频谱图作为特征提取模块的输入。
同时,数据预处理模块将工人的个人信息数据进行标准化后作为特征融合与噪声性听力损失预测模块的输入。
所述特征提取模块用于提取能量特征以及时域变化特征;目前已有的研究已经证
明了噪声对人听力造成的损失不仅与噪声的能量有关,与噪声本身的时频域特征也有关,
同样能量的复杂噪声会比稳态噪声对人听力损伤更大。而数据预处理模块得到时频谱图是频率分布与窗函数时延之间的关系,从横向时间维度分析,相邻点可以反应同
一频率分量能量的变化情况,从纵向能量维度分析,相邻点可以反应同一时间窗内,不同频
率分量能量的分布情况。
基于上述噪声对听力造成损伤的特点以及噪声时频谱图像的特征,本发明采用非对称卷积核,分别对能量特征以及时域变化特征进行提取。横向的矩形卷积核,对于同一频率相邻时刻幅值变化更加敏感,可以更有效得提取表征时域变化的特征;对于纵向的矩形卷积核,对同一时刻相邻频率的幅值的强弱更加敏感,可以更加有效得提取表征能量的特征。
特征提取模块对输入的时频谱图像分别采用横向以及纵向的卷积核进行特征提取,分别经过两次非对称卷积,三次普通卷积,五次池化后,将输出的时域变化特征与能量特征输入特征融合与噪声性听力损失预测模块。
如图2所示,具体卷积神经网络结构为:
输入图像-卷积层1-池化层1-卷积层2-池化层2-卷积层3-池化层3-卷积层4-池化层4-卷积层5-池化层5-特征融合与噪声性听力损失预测模块;
输入图像-卷积层1-池化层1-卷积层2-池化层2-卷积层3-池化层3-卷积层4-池化层4-卷积层5-池化层5-特征融合与噪声性听力损失预测模块;
所述特征融合与噪声性听力损失预测模块用于融合能量特征与时域变化特征,首先利用注意力机制模块,对信息量大的特征进行加强,对无效特征进行抑制,再将特征提取模块得到的能量特征与时域变化特征进行融合、降维,最后再与工人个人信息数据进行融合,输入分类器从而得到工人是否患有听力损失的预测。
特征融合与噪声性听力损失预测模块中引入通道注意力机制构建CNN神经网络模型用于特征融合与噪声性听力损失预测:
如图3所示,首先引入通道注意力机制,对各个通道的关联性进行建模。首先分别对能量特征及时域变化特征的每个通道进行全局平均池化,压缩全局空间信息作为通道描述符,随后将能量特征通道描述符与时域变化特征通道描述符进行串联拼接,其后连接两个全连接层,最后通过Sigmoid函数,输出的就是各通道特征的权重,网络会根据输入数据调节各通道特征的权重,从而有选择性的加强信息量大的特征,抑制无效特征。将得到两组输出特征分别通过两个Flatten层展平为两个一维向量,再将两个一维向量进行串联拼接,其后连接两个全连接层进行特征的降维;将降维后的输出特征与数据预处理模块得到的工人年龄、工龄以及性别特征进行串联拼接,最后再通过两个全连接层和一个Softmax输出层得到工人是否患有听力损失的预测。
对于训练样本集,其中代表第i个样本的
时频谱图数据,代表第i个样本的标签,m代表样本数量。CNN神经网络模型的层数为L,对
于卷积层,填充大小为P,步幅为S,对于池化层,池化区域的大小为u,学习率为α,最大迭代
次数为Max,停止阈值为ε,权重矩阵为W,偏置项为b,则整个CNN神经网络的构建过程为:
1. 初始化各隐藏层与输出层的权重矩阵W,偏置项 b的值为一随机值。
最终第L层的输出为:
3. 梯度计算过程:通过损失函数可以对输出层的梯度进行计算:
5. 当所有的W, b的变化都小于阈值ε时跳出迭代循环,否则迭代至最大迭代次数Max。
针对训练集中的单个样本,首先通过数据预处理模块得到噪声时频谱图作为特征提取模块的输入,得到样本个人信息特征作为特征融合与噪声性听力损失预测模块输入,标签为样本是否患有听力损失;训练过程中采取dropout正则化和early stop方法避免数据过拟合。
训练完成后将工人通过数据预处理模块得到的特征输入训练好的模型,即可得到工人是否会患上听力损失的预测结果。
以下给出一个具体的应用场景,对本发明作进一步详细说明:为预测一批工人在工业噪声暴露环境中是否有产生听力损失的风险,使用本系统的数据采集模块通过噪声数字记录仪采集每位暴露在噪声中的工人约8小时的噪声数据和其个人信息数据;所述个人信息数据包括年龄特征、工龄特征和不同频率下(500Hz、1kHz、2kHz、3kHz、4kHz、6kHz、8kHz)的听力阈值。
使用本系统的数据预处理模块将每个样本的噪声数据矩阵化为原始数据集,短时傅里叶变换的时间窗长度设置为0.5秒,相邻两窗重叠0.25s,通过离散时间短时傅里叶变换得到噪声数据时频谱图。图片维度为1207*1207。将工人的个人信息数据进行标准化后作为特征融合与噪声性听力损失预测模块的输入。采用双耳在1kHz、2kHz、3kHz、4kHz处的平均听力阈值是否大于25dB作为是否患有听力损失的衡量标准,对没有听力损失的样本打上正例标签,对于患有听力损失的样本打上反例标签。数据预处理模块同时将数据采集模块得到的工人个人信息数据进行标准化,输入到特征融合与噪声性听力损失预测模块;
使用本系统的特征提取模块采用非对称卷积核,分别对能量特征以及时域变化特征进行提取。网络具体结构为:
输入图像-卷积层1(1*11卷积核)-池化层1-卷积层2(1*9卷积核)-池化层2-卷积层3(3*3卷积核)-池化层3-卷积层4(3*3卷积核)-池化层4-卷积层5(3*3卷积核)-池化层5-特征融合与噪声性听力损失预测模块;
输入图像-卷积层1(11*1卷积核)-池化层1-卷积层2(9*1卷积核)-池化层2-卷积层3(3*3卷积核)-池化层3-卷积层4(3*3卷积核)-池化层4-卷积层5(3*3卷积核)-池化层5-特征融合与噪声性听力损失预测模块;
图片维度变化如图4所示。
使用本系统的特征融合与噪声性听力损失预测模块对信息量大的特征进行加强,对无效特征进行抑制,再将特征提取模块得到的能量特征与时域变化特征进行融合、降维,最后再与工人个人信息数据进行融合,输入分类器从而得到工人是否患有听力损失的预测。
特征融合与噪声性听力损失预测模块中的网络模型的训练过程如下:
首先将特征提取模块提取的时域变化特征和能量特征作为特征融合与噪声性听力损失预测模块的网络模型的输入,将数据预处理模块得到的个人信息特征作为网络深层的输入,标签为样本是否患有听力损失;训练过程中采取dropout正则化和early stop方法避免数据过拟合。
将该批工人通过数据预处理模块得到的特征输入训练好的模型,即可得到工人是否会患上听力损失的预测结果。本系统预测的AUC(Area Under the Curve)可达到0.82以上,可以进行较为精准的听力损失预测。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (6)
1.一种基于非对称卷积的噪声性听力损失预测系统,其特征在于,该系统包括数据采集模块、数据预处理模块、特征提取模块和特征融合与噪声性听力损失预测模块;
所述数据采集模块用于采集工人职业暴露的噪声数据和工人个人信息;
所述数据预处理模块用于对工人个人信息数据进行标准化后输入特征融合与噪声性听力损失预测模块,并对噪声数据转换为二维噪声时频谱图输入特征提取模块;
所述特征提取模块用于基于非对称卷积核,利用不同形状的卷积核分别提取时频谱图中能量特征与时域变化特征后输入特征融合与噪声性听力损失预测模块;
所述特征融合与噪声性听力损失预测模块用于利用注意力机制模块, 对各个通道的关联性进行建模,首先分别对能量特征及时域变化特征的每个通道进行全局平均池化,压缩全局空间信息作为通道描述符,随后将能量特征通道描述符与时域变化特征通道描述符进行串联拼接,其后连接两个全连接层,最后通过Sigmoid函数,根据输入数据调节各通道特征的权重,从而有选择性的加强信息量较大的特征,抑制无效特征;将经过注意力机制模块处理后的能量特征及时域变化特征分别通过两个Flatten层展平为两个一维向量,再将两个一维向量进行串联拼接,再连接两个全连接层进行特征的降维;将降维后的输出特征与数据预处理模块得到的工人个人信息进行串联拼接,最后再通过两个全连接层和一个Softmax输出层得到工人是否患有噪声性听力损失的预测结果。
2.根据权利要求1所述的一种基于非对称卷积的噪声性听力损失预测系统,其特征在于,所述工人个人信息包括年龄、工龄和不同频率的听力阈值信息。
3.根据权利要求1所述的一种基于非对称卷积的噪声性听力损失预测系统,其特征在于,所述数据预处理模块将噪声数据矩阵化为原始数据集,并通过离散时间短时傅里叶变换得到噪声数据时频谱图。
5.根据权利要求1所述的一种基于非对称卷积的噪声性听力损失预测系统,其特征在于,所述特征提取模块基于噪声对听力造成损伤的特点以及噪声时频谱图像的特征,采用非对称卷积核,分别对能量特征以及时域变化特征进行提取;横向的矩形卷积核,对于同一频率相邻时刻幅值变化更加敏感,用于提取表征时域变化的特征;对于纵向的矩形卷积核,对同一时刻相邻频率的幅值的强弱更加敏感,用于提取表征能量的特征。
6.根据权利要求1所述的一种基于非对称卷积的噪声性听力损失预测系统,其特征在于,特征提取模块对输入的时频谱图像分别采用横向以及纵向的卷积核进行特征提取,分别经过两次非对称卷积,三次普通卷积,五次池化后,将得到的时域变化特征与能量特征输入特征融合与噪声性听力损失预测模块。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210777572.5A CN114861835B (zh) | 2022-07-04 | 2022-07-04 | 一种基于非对称卷积的噪声性听力损失预测系统 |
PCT/CN2023/105569 WO2024008045A1 (zh) | 2022-07-04 | 2023-07-03 | 一种基于非对称卷积的噪声性听力损失预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210777572.5A CN114861835B (zh) | 2022-07-04 | 2022-07-04 | 一种基于非对称卷积的噪声性听力损失预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114861835A CN114861835A (zh) | 2022-08-05 |
CN114861835B true CN114861835B (zh) | 2022-09-27 |
Family
ID=82626044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210777572.5A Active CN114861835B (zh) | 2022-07-04 | 2022-07-04 | 一种基于非对称卷积的噪声性听力损失预测系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114861835B (zh) |
WO (1) | WO2024008045A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861835B (zh) * | 2022-07-04 | 2022-09-27 | 浙江大学 | 一种基于非对称卷积的噪声性听力损失预测系统 |
CN116320042B (zh) * | 2023-05-16 | 2023-08-04 | 陕西思极科技有限公司 | 边缘计算的物联终端监测控制系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625763A (zh) * | 2020-05-27 | 2020-09-04 | 郑州航空工业管理学院 | 一种基于数学模型的运行风险预测方法和预测系统 |
CN114445299A (zh) * | 2022-01-28 | 2022-05-06 | 南京邮电大学 | 一种基于注意力分配机制的双残差去噪方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10806405B2 (en) * | 2016-12-13 | 2020-10-20 | Cochlear Limited | Speech production and the management/prediction of hearing loss |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
CN109637545B (zh) * | 2019-01-17 | 2023-05-30 | 哈尔滨工程大学 | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
US20230039728A1 (en) * | 2019-12-31 | 2023-02-09 | Starkey Laboratories, Inc. | Hearing assistance device model prediction |
CN111223564A (zh) * | 2020-01-14 | 2020-06-02 | 浙江大学 | 一种基于卷积神经网络的噪声性听力损失预测系统 |
CN111584065B (zh) * | 2020-04-07 | 2023-09-19 | 上海交通大学医学院附属第九人民医院 | 噪声性听力损失预测及易感人群筛选方法、装置、终端和介质 |
CN112866694B (zh) * | 2020-12-31 | 2023-07-14 | 杭州电子科技大学 | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 |
CN112971776A (zh) * | 2021-04-19 | 2021-06-18 | 中国人民解放军总医院第六医学中心 | 一种确定听力检测波形中特征波形位置的方法及装置 |
CN114861835B (zh) * | 2022-07-04 | 2022-09-27 | 浙江大学 | 一种基于非对称卷积的噪声性听力损失预测系统 |
-
2022
- 2022-07-04 CN CN202210777572.5A patent/CN114861835B/zh active Active
-
2023
- 2023-07-03 WO PCT/CN2023/105569 patent/WO2024008045A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625763A (zh) * | 2020-05-27 | 2020-09-04 | 郑州航空工业管理学院 | 一种基于数学模型的运行风险预测方法和预测系统 |
CN114445299A (zh) * | 2022-01-28 | 2022-05-06 | 南京邮电大学 | 一种基于注意力分配机制的双残差去噪方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2024008045A1 (zh) | 2024-01-11 |
CN114861835A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114861835B (zh) | 一种基于非对称卷积的噪声性听力损失预测系统 | |
CN107657964B (zh) | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 | |
CN108648748B (zh) | 医院噪声环境下的声学事件检测方法 | |
Daqrouq et al. | Speaker identification using vowels features through a combined method of formants, wavelets, and neural network classifiers | |
Narendra et al. | Dysarthric speech classification from coded telephone speech using glottal features | |
CN109285551B (zh) | 基于wmfcc和dnn的帕金森患者声纹识别方法 | |
CN112587153B (zh) | 一种基于vPPG信号的端到端的非接触房颤自动检测系统和方法 | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
Sáenz-Lechón et al. | Automatic assessment of voice quality according to the GRBAS scale | |
CN111128229A (zh) | 语音分类方法、装置及计算机存储介质 | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
CN111223564A (zh) | 一种基于卷积神经网络的噪声性听力损失预测系统 | |
CN113674767A (zh) | 一种基于多模态融合的抑郁状态识别方法 | |
CN115910097A (zh) | 一种高压断路器潜伏性故障可听声信号识别方法及系统 | |
CN113450830A (zh) | 具有多重注意机制的卷积循环神经网络的语音情感识别方法 | |
CN117292494A (zh) | 一种声振融合的信号识别方法、系统、计算机设备及介质 | |
CN115346561A (zh) | 基于语音特征的抑郁情绪评估预测方法及系统 | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN116230017A (zh) | 语音评估方法、装置、计算机设备和存储介质 | |
CN117762372A (zh) | 一种多模态人机交互系统 | |
CN115831352B (zh) | 一种基于动态纹理特征和时间分片权重网络的检测方法 | |
CN114818832A (zh) | 多尺度特征融合的变压器声纹分类方法 | |
Raju et al. | AUTOMATIC SPEECH RECOGNITION SYSTEM USING MFCC-BASED LPC APPROACH WITH BACK PROPAGATED ARTIFICIAL NEURAL NETWORKS. | |
CN113808604B (zh) | 基于伽马通频谱分离的声场景分类方法 | |
CN112735477B (zh) | 语音情感分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |