CN116312635A

CN116312635A - 一种融合机器识别和听觉脑机接口的声音目标探测方法

Info

Publication number: CN116312635A
Application number: CN202310267668.1A
Authority: CN
Inventors: 毕路拯; 徐新博; 王瑞东; 刘莹; 史健廷
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-06-23

Abstract

本发明公开了一种融合机器识别和听觉脑机接口的声音目标探测方法，包括以下步骤：获取实时声音信号和声音样本训练集，对实时声音信号和声音样本训练集进行预处理和特征提取，分别获得对应的实时声学特征和训练集声学特征；构建置信度计算模型和神经网络模型，基于声音样本训练集对所述置信度计算模型和神经网络模型进行训练；基于训练后的置信度计算模型和神经网络模型获取所述实时声音信号的联合置信度；对所述联合置信度进行判断，获得脑机接口启用结果，进而对所述实时声音信号进行判别。本发明的声音目标探测方法，能够提升检测系统的抗干扰能力和对新目标样本的鲁棒性的同时，减轻脑机接口操作者的负担，提高了检测的准确性与效率。

Description

一种融合机器识别和听觉脑机接口的声音目标探测方法

技术领域

本发明属于人机协同科学、脑机融合技术领域，特别是涉及一种融合机器识别和听觉脑机接口的声音目标探测方法。

背景技术

目标探测是指通过对外部环境的特征进行提取和分析进而判断出环境中是否存在感兴趣的目标的一种技术。常见的目标探测系统包括雷达探测、光学探测、声学探测等。其中，由于声学探测具有被动工作、隐蔽性高、不易被遮挡干扰、经济性好等特性，得到了各行业的广泛应用，例如：军方利用声学技术探测军用载具或无人机，自然保护区利用声学技术跟踪生物活动，工业上通过声音探测损坏的机器等。

然而，基于声学技术的目标探测往往易受环境噪声干扰，在低信噪比下表现较差，对新目标识别的准确率低。为此，学者提出诸多方案解决这一问题。传统的声音目标探测主要依赖于机器学习技术，即提前获取检测的声音片段的数据和特征，建立数据集进行离线训练确定检测算法的参数，最终实现在线的实际应用。该方案优点是自动化程度高，能在低干扰下完成探测任务，但由于机器学习方法依赖于学习模型以及训练集的质量，往往难以大幅度提升探测对噪声的鲁棒性；针对这一情况，有学者提出基于脑机接口(brain-computer interface,BCI)技术，利用人进行目标检测任务时感知到目标声音时的脑电信号特征变化判断是否出现了对应于声音目标的神经表征，进而判断探测目标的出现与否。该方案利用了人在嘈杂环境下仍能识别目标以及对新目标的鲁棒性的特性，解决了传统探测技术的问题。但是由于该方案要求人长期处于听觉工作的状态，大大提高了操作者的脑力劳动和体力消耗，容易造成人体疲劳导致识别准确度下降，所以难以独立的投入应用。此外，神经网络能初步学习到目标声音的时频特征，但是由于神经网络依赖于数据集，当数据集不足时，对于同一类目标中的不同个体的泛化能力较差；而统计信息能够收集同一类目标中不同个体的共性(如谐波特征、能量分布等)，适于对目标声音特征的进一步学习，将二者融合能够完成机器识别层面的目标特征学习任务。

在这种背景下，为了提升探测系统的抗干扰能力和对新目标样本的鲁棒性的同时，减轻脑机接口操作者的负担，亟需提出一种融合机器识别和听觉脑机接口的声音目标探测方法。

发明内容

本发明的目的是提供一种融合机器识别和听觉脑机接口的声音目标探测方法，利用统计信息和神经网络分类器决策层获取声音信号的联合置信度评价，用于衡量机器识别算法对于当前目标判别的可信度，基于阈值判断规则根据所输出的联合置信度判断是否启用脑机接口探测，并输出最终的探测结果，融合机器识别与听觉脑机接口技术判断是否存在所述声音目标。以此高效完成目标探测任务，提升检测系统的抗干扰能力和对新目标样本的鲁棒性的同时，减轻脑机接口操作者的负担，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种融合机器识别和听觉脑机接口的声音目标探测方法，包括以下步骤：

获取实时声音信号和声音样本训练集，对所述实时声音信号和声音样本训练集进行预处理和特征提取，分别获得对应的实时声学特征和训练集声学特征；

构建置信度计算模型和神经网络模型，基于所述声音样本训练集对所述置信度计算模型和神经网络模型进行训练；

基于训练后的置信度计算模型和神经网络模型获取所述实时声音信号的联合置信度；

对所述联合置信度进行判断，获得脑机接口启用结果，进而对所述实时声音信号进行判别。

可选地，对所述实时声音信号和声音样本训练集进行预处理和特征提取的过程包括：对所述实时声音信号和声音样本训练集进行重采样与分帧、基线修正以及高通滤波的预处理，进而基于短时傅里叶变换与梅尔滤波器组提取对应的梅尔频谱特征。

可选地，获取所述实时声音信号的联合置信度的过程包括：基于训练后的置信度计算模型获得第一置信度，基于训练后的神经网络模型获得第二置信度；将所述第一置信度和第二置信度进行归一化处理，获得联合置信度。

可选地，构建置信度计算模型的过程包括：

对所述训练集声学特征进行时域平均，获得所述声音样本训练集的能量均值向量；分别获取目标声音样本和非目标声音样本的能量均值向量的平均值，进而获得对应的第一能量分布基线和第二能量分布基线；统计每类声音样本与对应的基线的距离，并将所述距离拟合为指数修正的高斯概率密度，进而获得置信度计算模型，其中，所述声音样本训练集包括目标声音样本和非目标声音样本。

可选地，基于训练后的置信度计算模型获得第一置信度的过程包括：获取所述声音样本训练集的能量均值向量分别与第一能量分布基线和第二能量分布基线的距离；并计算对应距离在拟合分布上的累积分布，获得第一积分值和第二积分值；将所述第一积分值和第二积分值映射到预设区间内，获得所述第一置信度。

可选地，基于训练后的神经网络模型获得第二置信度的过程包括：构建神经网络模型，基于目标声音样本和非目标声音样本的声学特征对所述神经网络模型进行训练，进而基于训练后的神经网络模型的分类器决策层输出第二置信度。

可选地，对所述实时声音信号进行判别的过程包括：预设脑机接口启用阈值，当联合置信度高于阈值，输出所述联合置信度模型对所述实时声音信号的判别结果；当联合置信度低于阈值，启用脑机接口探测，输出脑机接口对所述实时声音信号的判别结果。

本发明的技术效果为：

本发明提出一种融合机器识别和听觉脑机接口的声音目标探测方法，能够融合声音的机器识别和听觉脑机接口的声音目标探测，结合两种方法的优点高效完成目标探测任务，提升检测系统的抗干扰能力和对新目标样本的鲁棒性的同时，减轻脑机接口操作者的负担，提高了检测的准确性与效率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的融合机器识别和听觉脑机接口的声音目标探测结构示意图；

图2为本发明实施例中的梅尔频谱特征提取过程示意图；

图3为本发明实施例中的神经网络分类器结构示意图；

图4为本发明实施例中的基于统计信息的置信度模型原理图；

图5为本发明实施例中的目标声音信号梅尔频谱示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1所示，本实施例中提供一种融合机器识别和听觉脑机接口的目标探测方法，包括以下步骤：获取实时声音信号和声音样本训练集，对所述实时声音信号和声音样本训练集进行预处理和特征提取，分别获得对应的实时声学特征和训练集声学特征；构建置信度计算模型和神经网络模型，基于所述声音样本训练集对所述置信度计算模型和神经网络模型进行训练；基于训练后的置信度计算模型和神经网络模型获取所述实时声音信号的联合置信度；对所述联合置信度进行判断，获得脑机接口启用结果，进而对所述实时声音信号进行判别。

本实施例用于低信噪比的复杂条件下的声音目标探测任务，具体包括：声音采集系统、特征提取系统、联合置信度计算系统、人机融合的决策判断系统。

所述声音采集系统用于对检测环境中的声音信号进行实时采集，获得实时声音信号，并将采集到的声音信号传输至特征提取系统进行信号的预处理与特征提取。本实例中，采用无线麦克设备(DJI MIC)进行声音信号的采集，设定采样频率为48000Hz。

所述特征提取系统用于对采集的声音进行预处理与特征提取，包括：声音信号的重采样与分帧、基线修正、高通滤波、梅尔频谱特征提取。

重采样与分帧包括：

为了减小计算量，对声音信号重采样至16000Hz并将声音信号截取为3s的信号块用于后续分析，即每个信号块包含16000×3＝48000采样点。

基线修正方法包括：

为了消除信号中零点漂移的影响，采用基线修正抑制信号中漂移的趋势。本发明中采用的基线修正滤波思想是滑动减平均值。对于每段48000采样点点的数据，前1s对应的16000个数据点分别减去整段数据前1s信号的平均值，而对于1-3s(16001-48000)的各个数据点，分别减去各自数据点以前1s数据的平均值，其计算如下：

其中，m_i为第i个数据点的原始声音信号，X_i为基线修正后的声音信号。

高通滤波的方法包括：

本实施例中所述目标(无人机)声音主要集中于中高频，为了初步滤除环境噪音干扰，采用高通滤波过滤低频噪声，滤波器截止频率为500Hz。

如图2所示，梅尔频谱特征提取包括：

1)预加重：

本实施例中目标声音信号的高频分量强度较小，低频分量强度较大，为了防止信号的高频与低频分量的强度差过大，通常利用高通滤波器对信号进行预加重。由于预处理过程存在高通滤波，该步骤可以忽略。

2)分帧加窗

为了更好的获取信号频率和强度随时间变化的关系，将声音信号分为若干帧，对每一帧做快速傅里叶变换(Fast Fourier Transform,FFT)；分帧后，为了获得更好的旁瓣下降幅度，本发明采用汉宁窗对每一帧添加窗函数(n_fft＝2048hop_length＝512)

3)梅尔滤波器组

本实施例中梅尔滤波器组是一个等高的三角滤波器组，每个滤波器的起始点在上一个滤波器的中点处，其对应的频率在梅尔尺度上是线性的，因此称之为梅尔滤波器组。每个滤波器对应的频率可以将最大频率转换成梅尔频率，在梅尔尺度上线性分成若干个频段，再转换回实际频率尺度，频率与梅尔频率相互转化的计算如下：

本实施例中梅尔滤波器个数n_Mel＝512,将功率谱转化为分贝(dB)单位,参考为功率平均值。

所述联合置信度计算系统根据样本统计信息和神经网络分类器决策层获取声音样本的联合置信度评价，根据所述联合置信度获得机器识别对当前声音样本判定结果的把握程度，包括：置信度模型的训练(a.基于统计信息b.基于神经网络分类器决策层)、声音样本的联合置信度计算。

置信度模型的训练包括：

1)训练集数据分类

对训练集的声音信号分为目标声音与非目标声音两类，用于联合置信度模型的训练。其中，非目标声音数据集为录制的繁忙道路的环境声音，包括：人的说话与活动声、汽车行驶声、风声等；目标声音数据集为录制的环境声音与两类无人机声音数据的结合。

2)训练集数据的预处理

对训练集数据进行预处理，最终分割为3s的声音片段用于模型的训练，包括：重采样与分帧、基线修正、高通滤波。

3)基于统计信息的置信度模型

基于短时傅里叶变换方法与梅尔标度滤波器组提取所述声音信号的梅尔频谱特征，对所述梅尔频谱特征进行时域平均，得到声音信号各频带的平均能量分布情况，即所述能量均值向量。其中，利用Librosa库完成声音的梅谱特征提取，傅里叶变化参数n_fft＝2048hop_length＝512，梅尔滤波器个数n_Mel＝512，将功率谱转化为分贝(dB)单位,参考为功率平均值，则时域平均后所得能量均值向量维数为512维，所述平均能量均值向量的计算方法为:

μ_i,0,μ_j,1∈C^{1×Mel Num}

式中，μ_i,0表示第i个非目标声音样本的能量均值向量，μ_j,1表示第j个目标声音样本的能量均值向量，Mel Num表示梅尔滤波器数量。

统计每类声音样本相对于其基线的差异，定义某一样本μ_,0(μ_j,1)相对于基线M₀(M₁)的距离为两向量的欧式距离，将各类样本与基线的距离拟合为指数修正的高斯概率密度，得到基于样本统计信息的置信度计算模型:

distance(μ_i,0,M₀)＝||μ_i,0-M₀||₂

distance(μ_j,1,M₁)＝||μ_j,1-M₁||₂

式中，distance(μ_i,0(μ_j,1),M₀(M₁))为某一类样本μ_i,0(μ_j,1)相对于M₀(M₁)的距离；

与/>

为最小二乘拟合出的参数估计量，所拟合出的函数表征了每类样本与其基线距离的概率密度，/>

表示了样本的与其基线之间距离的变化程度，若/>

较大，说明该类样本与其基线之间的差异在较大范围内变动，即各频带能量的分布较为分散；若/>

较小，说明该类样本与其基线之间的差异较小，即各频带能量的分布较为一致。

声音样本的联合置信度计算包括：

1)基于统计信息的置信度计算

如图4所示，计算所述声音样本地能量均值向量μ_sample以及与两类样本基线的距离||μ_sample-M₀||₂和||μ_sample-M₁||₂。

通过计算距离在拟合的分布上的累积分布

和

并通过对得到的两个积分值映射到(0,1)区间，得到所述样本基于统计信息的置信度：

式中，

为利用训练样本拟合的指数修正的高斯概率密度函数，ε定义为区间参数，通过调整ε改变积分区间大小，得到更优模型；Cofidence_pro,i为累积分布/>

规范化得到的样本置信度。

2)基于神经网络分类器决策层的置信度计算

根据所述训练样本训练神经网络模型，模型架构如图3所示，利用神经网络输出层的激活函数Sigmoid输出基于神经网络分类器决策层的置信度：

式中，X_i为输出层前一隐层的输出，Cofidence_NN_pro,i为所述样本属于i类的置信度。

3)联合置信度计算

通过对基于统计信息的置信度和基于神经网络分类器决策层的置信度归一化得到所述声音样本的联合置信度Confidence_i:

式中，w₁与w₂为归一化参数，满足w₁+w₂＝1，可调整w₁与w₂的值改变统计信息所占结果的比重，得到更优置的联合置信度模型。

所述人机融合的决策判断系统通过声音样本联合置信度启用阈值判断规则判断是否启用脑机接口探测，融合声音的机器识别和听觉脑机接口的声音目标探测。

根据所定义的阈值T判断是否启用脑机接口探测，当置信度高于阈值：Cofidence₁>TorCofidence₀>T时，认为机器模型有较高的“把握”认为样本为目标或认为样本为非目标，否则机器模型判别结果的“把握”低，判别结果不可信；

其次，当置信度高于阈值时，系统输出机器模型的判别结果(目标或非目标)，当置信度低于阈值时，由于机器判别结果不可信，证明该声音样本成分复杂，不适于机器判断，则启用听觉脑机接口探测技术，输出听觉脑机接口对所述声音样本的判别结果(目标或非目标)，如图5所示，为目标声音信号梅尔频谱示意图。

本实施例的目的是融合机器识别与脑机接口技术，提出一个人机协调的声音目标探测系统，在该系统中基于统计信息与神经网络输出机器对于当前目标识别的把握程度，通过设立阈值判断是否启用听觉脑机接口探测，从而将较为简单的声音目标交由机器识别，较为复杂的目标交由听觉脑机接口识别。该系统能够有效结合两种方法的优点完成目标探测任务，提升系统的抗干扰能力和对新目标样本的鲁棒性的同时，减轻脑机接口操作者的负担，提高了探测的准确性与效率。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种融合机器识别和听觉脑机接口的声音目标探测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合机器识别和听觉脑机接口的声音目标探测方法，其特征在于，

对所述实时声音信号和声音样本训练集进行预处理和特征提取的过程包括：对所述实时声音信号和声音样本训练集进行重采样与分帧、基线修正以及高通滤波的预处理，进而基于短时傅里叶变换与梅尔滤波器组提取对应的梅尔频谱特征。

3.根据权利要求1所述的融合机器识别和听觉脑机接口的声音目标探测方法，其特征在于，

获取所述实时声音信号的联合置信度的过程包括：基于训练后的置信度计算模型获得第一置信度，基于训练后的神经网络模型获得第二置信度；将所述第一置信度和第二置信度进行归一化处理，获得联合置信度。

4.根据权利要求1所述的融合机器识别和听觉脑机接口的声音目标探测方法，其特征在于，

构建置信度计算模型的过程包括：

5.根据权利要求3所述的融合机器识别和听觉脑机接口的声音目标探测方法，其特征在于，

基于训练后的置信度计算模型获得第一置信度的过程包括：获取所述声音样本训练集的能量均值向量分别与第一能量分布基线和第二能量分布基线的距离；并计算对应距离在拟合分布上的累积分布，获得第一积分值和第二积分值；将所述第一积分值和第二积分值映射到预设区间内，获得所述第一置信度。

6.根据权利要求3所述的融合机器识别和听觉脑机接口的声音目标探测方法，其特征在于，

基于训练后的神经网络模型获得第二置信度的过程包括：构建神经网络模型，基于目标声音样本和非目标声音样本的声学特征对所述神经网络模型进行训练，进而基于训练后的神经网络模型的分类器决策层输出第二置信度。

7.根据权利要求1所述的融合机器识别和听觉脑机接口的声音目标探测方法，其特征在于，

对所述实时声音信号进行判别的过程包括：预设脑机接口启用阈值，当联合置信度高于阈值，输出所述联合置信度模型对所述实时声音信号的判别结果；当联合置信度低于阈值，启用脑机接口探测，输出脑机接口对所述实时声音信号的判别结果。