CN116312635A - 一种融合机器识别和听觉脑机接口的声音目标探测方法 - Google Patents
一种融合机器识别和听觉脑机接口的声音目标探测方法 Download PDFInfo
- Publication number
- CN116312635A CN116312635A CN202310267668.1A CN202310267668A CN116312635A CN 116312635 A CN116312635 A CN 116312635A CN 202310267668 A CN202310267668 A CN 202310267668A CN 116312635 A CN116312635 A CN 116312635A
- Authority
- CN
- China
- Prior art keywords
- confidence coefficient
- sound
- real
- training set
- brain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 48
- 230000005236 sound signal Effects 0.000 claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 238000003062 neural network model Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 6
- 238000012952 Resampling Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H11/00—Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves by detecting changes in electric or magnetic properties
- G01H11/06—Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves by detecting changes in electric or magnetic properties by electric means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明公开了一种融合机器识别和听觉脑机接口的声音目标探测方法,包括以下步骤:获取实时声音信号和声音样本训练集,对实时声音信号和声音样本训练集进行预处理和特征提取,分别获得对应的实时声学特征和训练集声学特征;构建置信度计算模型和神经网络模型,基于声音样本训练集对所述置信度计算模型和神经网络模型进行训练;基于训练后的置信度计算模型和神经网络模型获取所述实时声音信号的联合置信度;对所述联合置信度进行判断,获得脑机接口启用结果,进而对所述实时声音信号进行判别。本发明的声音目标探测方法,能够提升检测系统的抗干扰能力和对新目标样本的鲁棒性的同时,减轻脑机接口操作者的负担,提高了检测的准确性与效率。
Description
技术领域
本发明属于人机协同科学、脑机融合技术领域,特别是涉及一种融合机器识别和听觉脑机接口的声音目标探测方法。
背景技术
目标探测是指通过对外部环境的特征进行提取和分析进而判断出环境中是否存在感兴趣的目标的一种技术。常见的目标探测系统包括雷达探测、光学探测、声学探测等。其中,由于声学探测具有被动工作、隐蔽性高、不易被遮挡干扰、经济性好等特性,得到了各行业的广泛应用,例如:军方利用声学技术探测军用载具或无人机,自然保护区利用声学技术跟踪生物活动,工业上通过声音探测损坏的机器等。
然而,基于声学技术的目标探测往往易受环境噪声干扰,在低信噪比下表现较差,对新目标识别的准确率低。为此,学者提出诸多方案解决这一问题。传统的声音目标探测主要依赖于机器学习技术,即提前获取检测的声音片段的数据和特征,建立数据集进行离线训练确定检测算法的参数,最终实现在线的实际应用。该方案优点是自动化程度高,能在低干扰下完成探测任务,但由于机器学习方法依赖于学习模型以及训练集的质量,往往难以大幅度提升探测对噪声的鲁棒性;针对这一情况,有学者提出基于脑机接口(brain-computer interface,BCI)技术,利用人进行目标检测任务时感知到目标声音时的脑电信号特征变化判断是否出现了对应于声音目标的神经表征,进而判断探测目标的出现与否。该方案利用了人在嘈杂环境下仍能识别目标以及对新目标的鲁棒性的特性,解决了传统探测技术的问题。但是由于该方案要求人长期处于听觉工作的状态,大大提高了操作者的脑力劳动和体力消耗,容易造成人体疲劳导致识别准确度下降,所以难以独立的投入应用。此外,神经网络能初步学习到目标声音的时频特征,但是由于神经网络依赖于数据集,当数据集不足时,对于同一类目标中的不同个体的泛化能力较差;而统计信息能够收集同一类目标中不同个体的共性(如谐波特征、能量分布等),适于对目标声音特征的进一步学习,将二者融合能够完成机器识别层面的目标特征学习任务。
在这种背景下,为了提升探测系统的抗干扰能力和对新目标样本的鲁棒性的同时,减轻脑机接口操作者的负担,亟需提出一种融合机器识别和听觉脑机接口的声音目标探测方法。
发明内容
本发明的目的是提供一种融合机器识别和听觉脑机接口的声音目标探测方法,利用统计信息和神经网络分类器决策层获取声音信号的联合置信度评价,用于衡量机器识别算法对于当前目标判别的可信度,基于阈值判断规则根据所输出的联合置信度判断是否启用脑机接口探测,并输出最终的探测结果,融合机器识别与听觉脑机接口技术判断是否存在所述声音目标。以此高效完成目标探测任务,提升检测系统的抗干扰能力和对新目标样本的鲁棒性的同时,减轻脑机接口操作者的负担,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种融合机器识别和听觉脑机接口的声音目标探测方法,包括以下步骤:
获取实时声音信号和声音样本训练集,对所述实时声音信号和声音样本训练集进行预处理和特征提取,分别获得对应的实时声学特征和训练集声学特征;
构建置信度计算模型和神经网络模型,基于所述声音样本训练集对所述置信度计算模型和神经网络模型进行训练;
基于训练后的置信度计算模型和神经网络模型获取所述实时声音信号的联合置信度;
对所述联合置信度进行判断,获得脑机接口启用结果,进而对所述实时声音信号进行判别。
可选地,对所述实时声音信号和声音样本训练集进行预处理和特征提取的过程包括:对所述实时声音信号和声音样本训练集进行重采样与分帧、基线修正以及高通滤波的预处理,进而基于短时傅里叶变换与梅尔滤波器组提取对应的梅尔频谱特征。
可选地,获取所述实时声音信号的联合置信度的过程包括:基于训练后的置信度计算模型获得第一置信度,基于训练后的神经网络模型获得第二置信度;将所述第一置信度和第二置信度进行归一化处理,获得联合置信度。
可选地,构建置信度计算模型的过程包括:
对所述训练集声学特征进行时域平均,获得所述声音样本训练集的能量均值向量;分别获取目标声音样本和非目标声音样本的能量均值向量的平均值,进而获得对应的第一能量分布基线和第二能量分布基线;统计每类声音样本与对应的基线的距离,并将所述距离拟合为指数修正的高斯概率密度,进而获得置信度计算模型,其中,所述声音样本训练集包括目标声音样本和非目标声音样本。
可选地,基于训练后的置信度计算模型获得第一置信度的过程包括:获取所述声音样本训练集的能量均值向量分别与第一能量分布基线和第二能量分布基线的距离;并计算对应距离在拟合分布上的累积分布,获得第一积分值和第二积分值;将所述第一积分值和第二积分值映射到预设区间内,获得所述第一置信度。
可选地,基于训练后的神经网络模型获得第二置信度的过程包括:构建神经网络模型,基于目标声音样本和非目标声音样本的声学特征对所述神经网络模型进行训练,进而基于训练后的神经网络模型的分类器决策层输出第二置信度。
可选地,对所述实时声音信号进行判别的过程包括:预设脑机接口启用阈值,当联合置信度高于阈值,输出所述联合置信度模型对所述实时声音信号的判别结果;当联合置信度低于阈值,启用脑机接口探测,输出脑机接口对所述实时声音信号的判别结果。
本发明的技术效果为:
本发明提出一种融合机器识别和听觉脑机接口的声音目标探测方法,能够融合声音的机器识别和听觉脑机接口的声音目标探测,结合两种方法的优点高效完成目标探测任务,提升检测系统的抗干扰能力和对新目标样本的鲁棒性的同时,减轻脑机接口操作者的负担,提高了检测的准确性与效率。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的融合机器识别和听觉脑机接口的声音目标探测结构示意图;
图2为本发明实施例中的梅尔频谱特征提取过程示意图;
图3为本发明实施例中的神经网络分类器结构示意图;
图4为本发明实施例中的基于统计信息的置信度模型原理图;
图5为本发明实施例中的目标声音信号梅尔频谱示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,本实施例中提供一种融合机器识别和听觉脑机接口的目标探测方法,包括以下步骤:获取实时声音信号和声音样本训练集,对所述实时声音信号和声音样本训练集进行预处理和特征提取,分别获得对应的实时声学特征和训练集声学特征;构建置信度计算模型和神经网络模型,基于所述声音样本训练集对所述置信度计算模型和神经网络模型进行训练;基于训练后的置信度计算模型和神经网络模型获取所述实时声音信号的联合置信度;对所述联合置信度进行判断,获得脑机接口启用结果,进而对所述实时声音信号进行判别。
本实施例用于低信噪比的复杂条件下的声音目标探测任务,具体包括:声音采集系统、特征提取系统、联合置信度计算系统、人机融合的决策判断系统。
所述声音采集系统用于对检测环境中的声音信号进行实时采集,获得实时声音信号,并将采集到的声音信号传输至特征提取系统进行信号的预处理与特征提取。本实例中,采用无线麦克设备(DJI MIC)进行声音信号的采集,设定采样频率为48000Hz。
所述特征提取系统用于对采集的声音进行预处理与特征提取,包括:声音信号的重采样与分帧、基线修正、高通滤波、梅尔频谱特征提取。
重采样与分帧包括:
为了减小计算量,对声音信号重采样至16000Hz并将声音信号截取为3s的信号块用于后续分析,即每个信号块包含16000×3=48000采样点。
基线修正方法包括:
为了消除信号中零点漂移的影响,采用基线修正抑制信号中漂移的趋势。本发明中采用的基线修正滤波思想是滑动减平均值。对于每段48000采样点点的数据,前1s对应的16000个数据点分别减去整段数据前1s信号的平均值,而对于1-3s(16001-48000)的各个数据点,分别减去各自数据点以前1s数据的平均值,其计算如下:
其中,mi为第i个数据点的原始声音信号,Xi为基线修正后的声音信号。
高通滤波的方法包括:
本实施例中所述目标(无人机)声音主要集中于中高频,为了初步滤除环境噪音干扰,采用高通滤波过滤低频噪声,滤波器截止频率为500Hz。
如图2所示,梅尔频谱特征提取包括:
1)预加重:
本实施例中目标声音信号的高频分量强度较小,低频分量强度较大,为了防止信号的高频与低频分量的强度差过大,通常利用高通滤波器对信号进行预加重。由于预处理过程存在高通滤波,该步骤可以忽略。
2)分帧加窗
为了更好的获取信号频率和强度随时间变化的关系,将声音信号分为若干帧,对每一帧做快速傅里叶变换(Fast Fourier Transform,FFT);分帧后,为了获得更好的旁瓣下降幅度,本发明采用汉宁窗对每一帧添加窗函数(nfft=2048hop_length=512)
3)梅尔滤波器组
本实施例中梅尔滤波器组是一个等高的三角滤波器组,每个滤波器的起始点在上一个滤波器的中点处,其对应的频率在梅尔尺度上是线性的,因此称之为梅尔滤波器组。每个滤波器对应的频率可以将最大频率转换成梅尔频率,在梅尔尺度上线性分成若干个频段,再转换回实际频率尺度,频率与梅尔频率相互转化的计算如下:
本实施例中梅尔滤波器个数n_Mel=512,将功率谱转化为分贝(dB)单位,参考为功率平均值。
所述联合置信度计算系统根据样本统计信息和神经网络分类器决策层获取声音样本的联合置信度评价,根据所述联合置信度获得机器识别对当前声音样本判定结果的把握程度,包括:置信度模型的训练(a.基于统计信息b.基于神经网络分类器决策层)、声音样本的联合置信度计算。
置信度模型的训练包括:
1)训练集数据分类
对训练集的声音信号分为目标声音与非目标声音两类,用于联合置信度模型的训练。其中,非目标声音数据集为录制的繁忙道路的环境声音,包括:人的说话与活动声、汽车行驶声、风声等;目标声音数据集为录制的环境声音与两类无人机声音数据的结合。
2)训练集数据的预处理
对训练集数据进行预处理,最终分割为3s的声音片段用于模型的训练,包括:重采样与分帧、基线修正、高通滤波。
3)基于统计信息的置信度模型
基于短时傅里叶变换方法与梅尔标度滤波器组提取所述声音信号的梅尔频谱特征,对所述梅尔频谱特征进行时域平均,得到声音信号各频带的平均能量分布情况,即所述能量均值向量。其中,利用Librosa库完成声音的梅谱特征提取,傅里叶变化参数nfft=2048hop_length=512,梅尔滤波器个数n_Mel=512,将功率谱转化为分贝(dB)单位,参考为功率平均值,则时域平均后所得能量均值向量维数为512维,所述平均能量均值向量的计算方法为:
μi,0,μj,1∈C1×Mel Num
式中,μi,0表示第i个非目标声音样本的能量均值向量,μj,1表示第j个目标声音样本的能量均值向量,Mel Num表示梅尔滤波器数量。
统计每类声音样本相对于其基线的差异,定义某一样本μ,0(μj,1)相对于基线M0(M1)的距离为两向量的欧式距离,将各类样本与基线的距离拟合为指数修正的高斯概率密度,得到基于样本统计信息的置信度计算模型:
distance(μi,0,M0)=||μi,0-M0||2
distance(μj,1,M1)=||μj,1-M1||2
式中,distance(μi,0(μj,1),M0(M1))为某一类样本μi,0(μj,1)相对于M0(M1)的距离;与/>为最小二乘拟合出的参数估计量,所拟合出的函数表征了每类样本与其基线距离的概率密度,/>表示了样本的与其基线之间距离的变化程度,若/>较大,说明该类样本与其基线之间的差异在较大范围内变动,即各频带能量的分布较为分散;若/>较小,说明该类样本与其基线之间的差异较小,即各频带能量的分布较为一致。
声音样本的联合置信度计算包括:
1)基于统计信息的置信度计算
如图4所示,计算所述声音样本地能量均值向量μsample以及与两类样本基线的距离||μsample-M0||2和||μsample-M1||2。
2)基于神经网络分类器决策层的置信度计算
根据所述训练样本训练神经网络模型,模型架构如图3所示,利用神经网络输出层的激活函数Sigmoid输出基于神经网络分类器决策层的置信度:
式中,Xi为输出层前一隐层的输出,Cofidence_NNpro,i为所述样本属于i类的置信度。
3)联合置信度计算
通过对基于统计信息的置信度和基于神经网络分类器决策层的置信度归一化得到所述声音样本的联合置信度Confidencei:
式中,w1与w2为归一化参数,满足w1+w2=1,可调整w1与w2的值改变统计信息所占结果的比重,得到更优置的联合置信度模型。
所述人机融合的决策判断系统通过声音样本联合置信度启用阈值判断规则判断是否启用脑机接口探测,融合声音的机器识别和听觉脑机接口的声音目标探测。
根据所定义的阈值T判断是否启用脑机接口探测,当置信度高于阈值:Cofidence1>TorCofidence0>T时,认为机器模型有较高的“把握”认为样本为目标或认为样本为非目标,否则机器模型判别结果的“把握”低,判别结果不可信;
其次,当置信度高于阈值时,系统输出机器模型的判别结果(目标或非目标),当置信度低于阈值时,由于机器判别结果不可信,证明该声音样本成分复杂,不适于机器判断,则启用听觉脑机接口探测技术,输出听觉脑机接口对所述声音样本的判别结果(目标或非目标),如图5所示,为目标声音信号梅尔频谱示意图。
本实施例的目的是融合机器识别与脑机接口技术,提出一个人机协调的声音目标探测系统,在该系统中基于统计信息与神经网络输出机器对于当前目标识别的把握程度,通过设立阈值判断是否启用听觉脑机接口探测,从而将较为简单的声音目标交由机器识别,较为复杂的目标交由听觉脑机接口识别。该系统能够有效结合两种方法的优点完成目标探测任务,提升系统的抗干扰能力和对新目标样本的鲁棒性的同时,减轻脑机接口操作者的负担,提高了探测的准确性与效率。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种融合机器识别和听觉脑机接口的声音目标探测方法,其特征在于,包括以下步骤:
获取实时声音信号和声音样本训练集,对所述实时声音信号和声音样本训练集进行预处理和特征提取,分别获得对应的实时声学特征和训练集声学特征;
构建置信度计算模型和神经网络模型,基于所述声音样本训练集对所述置信度计算模型和神经网络模型进行训练;
基于训练后的置信度计算模型和神经网络模型获取所述实时声音信号的联合置信度;
对所述联合置信度进行判断,获得脑机接口启用结果,进而对所述实时声音信号进行判别。
2.根据权利要求1所述的融合机器识别和听觉脑机接口的声音目标探测方法,其特征在于,
对所述实时声音信号和声音样本训练集进行预处理和特征提取的过程包括:对所述实时声音信号和声音样本训练集进行重采样与分帧、基线修正以及高通滤波的预处理,进而基于短时傅里叶变换与梅尔滤波器组提取对应的梅尔频谱特征。
3.根据权利要求1所述的融合机器识别和听觉脑机接口的声音目标探测方法,其特征在于,
获取所述实时声音信号的联合置信度的过程包括:基于训练后的置信度计算模型获得第一置信度,基于训练后的神经网络模型获得第二置信度;将所述第一置信度和第二置信度进行归一化处理,获得联合置信度。
4.根据权利要求1所述的融合机器识别和听觉脑机接口的声音目标探测方法,其特征在于,
构建置信度计算模型的过程包括:
对所述训练集声学特征进行时域平均,获得所述声音样本训练集的能量均值向量;分别获取目标声音样本和非目标声音样本的能量均值向量的平均值,进而获得对应的第一能量分布基线和第二能量分布基线;统计每类声音样本与对应的基线的距离,并将所述距离拟合为指数修正的高斯概率密度,进而获得置信度计算模型,其中,所述声音样本训练集包括目标声音样本和非目标声音样本。
5.根据权利要求3所述的融合机器识别和听觉脑机接口的声音目标探测方法,其特征在于,
基于训练后的置信度计算模型获得第一置信度的过程包括:获取所述声音样本训练集的能量均值向量分别与第一能量分布基线和第二能量分布基线的距离;并计算对应距离在拟合分布上的累积分布,获得第一积分值和第二积分值;将所述第一积分值和第二积分值映射到预设区间内,获得所述第一置信度。
6.根据权利要求3所述的融合机器识别和听觉脑机接口的声音目标探测方法,其特征在于,
基于训练后的神经网络模型获得第二置信度的过程包括:构建神经网络模型,基于目标声音样本和非目标声音样本的声学特征对所述神经网络模型进行训练,进而基于训练后的神经网络模型的分类器决策层输出第二置信度。
7.根据权利要求1所述的融合机器识别和听觉脑机接口的声音目标探测方法,其特征在于,
对所述实时声音信号进行判别的过程包括:预设脑机接口启用阈值,当联合置信度高于阈值,输出所述联合置信度模型对所述实时声音信号的判别结果;当联合置信度低于阈值,启用脑机接口探测,输出脑机接口对所述实时声音信号的判别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267668.1A CN116312635A (zh) | 2023-03-16 | 2023-03-16 | 一种融合机器识别和听觉脑机接口的声音目标探测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267668.1A CN116312635A (zh) | 2023-03-16 | 2023-03-16 | 一种融合机器识别和听觉脑机接口的声音目标探测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116312635A true CN116312635A (zh) | 2023-06-23 |
Family
ID=86792135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310267668.1A Pending CN116312635A (zh) | 2023-03-16 | 2023-03-16 | 一种融合机器识别和听觉脑机接口的声音目标探测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312635A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633442A (zh) * | 2024-01-24 | 2024-03-01 | 小舟科技有限公司 | 一种脑机接口信号预处理方法及计算机设备 |
-
2023
- 2023-03-16 CN CN202310267668.1A patent/CN116312635A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633442A (zh) * | 2024-01-24 | 2024-03-01 | 小舟科技有限公司 | 一种脑机接口信号预处理方法及计算机设备 |
CN117633442B (zh) * | 2024-01-24 | 2024-05-10 | 小舟科技有限公司 | 一种脑机接口信号预处理方法及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111157099B (zh) | 一种分布式光纤传感器振动信号分类方法及识别分类系统 | |
WO2009046359A2 (en) | Detection and classification of running vehicles based on acoustic signatures | |
CN109614881B (zh) | 可自适应调节阈值的生物识别认证方法、设备及存储设备 | |
CN112735473B (zh) | 基于声音识别无人机的方法及系统 | |
KR20210077389A (ko) | 기계설비의 기계음을 이용한 딥러닝기반 이상징후 감지시스템 | |
CN116312635A (zh) | 一种融合机器识别和听觉脑机接口的声音目标探测方法 | |
CN109920448A (zh) | 一种自动驾驶车辆交通环境特种声音的识别系统及方法 | |
WO2016060620A1 (en) | Frame based spike detection module | |
CN116517860A (zh) | 基于数据分析的通风机故障预警系统 | |
CN115508821A (zh) | 一种多源融合无人机智能探测系统 | |
Xia et al. | Csafe: An intelligent audio wearable platform for improving construction worker safety in urban environments | |
CN112394324A (zh) | 一种基于麦克风阵列的远距离声源定位的方法及系统 | |
CN117711436B (zh) | 一种基于多传感器融合的远场声音分类方法和装置 | |
CN113990303A (zh) | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 | |
CN116910690A (zh) | 一种基于数据融合的目标分类系统 | |
CN112033656A (zh) | 一种基于宽带谱处理的机械系统故障检测方法 | |
CN112735468A (zh) | 一种基于mfcc的汽车座椅电机异常噪声检测方法 | |
Tang et al. | A novel approach for automatic recognition of LPI radar waveforms based on CNN and attention mechanisms | |
CN115481689A (zh) | 基于超声波同时识别用户手势和身份的系统及方法 | |
CN115862639A (zh) | 一种基于k—均值聚类分析的人工智能语音分析方法 | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
AU2021104217A4 (en) | A system and method for optimum wavelet basis function selection for ecg arrhythmia denoising using artificial intelligence | |
CN111968671B (zh) | 基于多维特征空间的低空声目标综合识别方法及装置 | |
CN113343887A (zh) | 基于边缘计算与机器学习的多传感器混合故障信号盲分离方法 | |
CN113361579A (zh) | 一种水下目标探测辨识方法、系统、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |