CN118245873A

CN118245873A - 用于跨房间非视距声信号识别的域适应神经架构搜索方法

Info

Publication number: CN118245873A
Application number: CN202410335010.4A
Authority: CN
Inventors: 丁然; 任沁源; 仇索; 王宏斌; 刘浩成
Original assignee: Zhejiang University ZJU; Allwinner Technology Co Ltd
Current assignee: Zhejiang University ZJU; Allwinner Technology Co Ltd
Priority date: 2024-03-22
Filing date: 2024-03-22
Publication date: 2024-06-25

Abstract

本发明公开了一种用于跨房间非视距声信号识别的域适应神经架构搜索方法，该方法包括声信号处理、特征提取、对抗域适应、神经架构搜索等流程，其中，声信号处理部分将发射信号调制为线性扫频信号，将接收到的信号转化为频谱矩阵并进行去噪、分割等处理；特征提取部分利用深度卷积神经网络模型提取频谱矩阵中的结构特征；对抗域适应通过梯度翻转层和对抗性训练的方式，提升模型在未知数据集上的表现；最后使用神经架构搜索技术对具体的网络结构进行调整和优化。本发明能够实现高精度的NLOS/LOS信号识别，有效提高了识别率，有效提高了识别精度，且在未标注的陌生环境中表现良好，有利于降低深度学习模型的成本，有利于提升模型的泛化性。

Description

用于跨房间非视距声信号识别的域适应神经架构搜索方法

技术领域

本发明涉及室内定位技术领域，尤其涉及一种用于跨房间非视距声信号识别的域适应神经架构搜索方法。

背景技术

为了满足人们对人和资产高精度定位日益增长的需求，随着物联网(IoT)技术的进步，基于位置的服务(LBS)蓬勃发展，广泛应用于救灾、物体跟踪、车辆和行人导航等领域。在户外，全球导航卫星系统(GNSS)可以提供可靠的导航解决方案。然而，由于GNSS信号无法穿透墙壁和屏蔽效应，室内定位通常需要额外的信号介质，在没有卫星信号的室内和地下场景中，精确定位已成为亟需解决的问题。蓝牙、WIFI、ZigBee、近场通信(NFC)和UWB等各种无线定位室内服务正在兴起。与其他室内定位技术相比，基于到达时间(ToA)/到达时间差(TDoA)的声学定位通常可以实现分米到厘米的定位精度。更重要的是，声学信号具有天然的低同步成本，并且与当前市场上的智能手机等边缘设备高度兼容。用户可以在不安装额外硬件设备的情况下使用准确快速的室内定位服务。与其他室内定位技术相比，声学信号具有较强的兼容性和较低的部署成本，被认为在构建精确的室内定位系统(IPS)方面具有巨大的潜力。

室内声学定位面临着许多挑战，其中非视距(NLOS)通常被认为是影响声学信号测距性能下降的最重要因素，表示通信的两点视线受阻，彼此看不到对方；相对应的还有视距(LOS)，在视距条件下，无线信号无遮挡地在发信端与接收端之间直线传播。检测、滤波或校正NLOS信号已成为IPS的关键。检测算法的准确性将直接影响到每一个环节。NLOS是指在发射器和接收器之间设置障碍物的情况。声学信号在到达周围墙壁之前可能会多次从墙壁上反弹，导致延迟以及可能的损失和退化。声学信号的频率通常约为20Hz-20kHz，波长约为17mm-17m。被障碍物阻挡后衰减明显，这无疑增加了识别LOS/NLOS信号的难度。目前，识别LOS/NLOS信号的方法有以下四种：

第一种是基于统计的方法，通过将先前的LOS测量记录为先验，构建具有零均值的高斯分布，将当前数据与之进行比较，如果存在不合理的差异，则将其丢弃或校正为LOS信号。这种先验测量可以给出目标的速度、方向、范围等。测量结果可以通过信号本身获得，也可以通过惯性测量单元(IMU)等外部传感器进行测量；其中IMU是测量物体三轴姿态角及加速度的装置。假设检验可以使用方差和均值等统计参数。但是，该方法难以定义LOS和NLOS信号的阈值，识别精度受超参数影响较大。

第二种是基于室内地图和上下文的方法，根据定位估计大致的室内位置，并将其与室内地图相匹配来推断是否存在信号遮挡的情况。但是，该方法需要额外的精确室内地图和预定位，在一定程度上浪费了计算能力和存储。

第三种是基于数据驱动的传统机器学习方法，信道脉冲响应(CIR)、信道状态信息(CSI)、传播延迟、能量强度、峰度和峰间延迟等特征经常用于一些非参数机器学习中，如支持向量机(SVM)、多层感知(MLP)、决策树等，以对NLOS/LOS信号进行分类。但是，该方法需要以人工的方式手动提取特征，然而，信号传播路径损耗模型受到许多因素的影响，手动选择的特征可能不足以准确区分视线信号和非视线信号。

第四种是基于数据驱动的深度学习方法，近年来，许多工作都集中在引入深度神经网络来识别NLOS信号上。Jiang等人(参考文献见IEEE Communications Letters,24(10):2226–2230,2020)提出了串行网络用于UWB CIR测量的NLOS/LOS分类。Wang等人(参考文献见22nd international conference on indoor positioning and indoornavigation(IPIN),Beijing.2022:5-7.)利用CNN自动提取二维类图像光谱矩阵的特征并使用Bi-LSTM用于分类。Wei等人(参考文献见Measurement,195:111191,2022.)提出了一种由CNN和LSTM组成的并行网络分别对声谱图和音频进行处理，并利用UBW的时频信息识别NLOS信号。Zhao等人(参考文献见Applied Sciences,12(13):6484,2022.)提出使用生成对抗网络(Generative Adversarial Network，GAN)来增强LOS/NLOS数据。但是，该方法大多只使用了信号的时域信息作为深度学习模型的输入，且模型的结构较为简单，识别精度不高；其泛化性较差，对数据集的要求较高，且对于环境特性十分敏感。这种方法需要大量经过人工标定的数据用于训练网络模型，而训练完成的模型在陌生数据集(如在另一结构不同的房间中采集的数据)上的性能会明显下降；该方法中网络模型结构的设计和调整依赖工程师的深度学习知识和经验，且需要大量的时间成本试错。

发明内容

本发明的目的在于针对现有技术的不足，提供一种用于跨房间非视距声信号识别的域适应神经架构搜索方法。本发明能够实现高精度的NLOS/LOS信号识别，且在未标注的陌生环境中表现良好。

本发明的目的是通过以下技术方案来实现的：本发明实施例第一方面提供了一种用于跨房间非视距声信号识别的域适应神经架构搜索方法，包括以下步骤：

(1)设计音频信号，房间中的扬声器向麦克风周期性发送设计的音频信号，麦克风采集房间中的音频信号；

(2)对采集到的音频信号进行预处理，以获取预处理后的频谱矩阵；

(3)构建对抗性域适应网络模型，该对抗性域适应网络模型包括特征提取器、标签预测器和域分类器，将预处理后的频谱矩阵输入到特征提取器中，获取特征向量；将特征向量分别输入到标签预测器和域分类器中，获取非视距信号识别结果及其对应的域识别结果；

(4)冻结特征提取器的结构参数，只训练其权值参数；采用神经架构搜索方法在给定的搜索空间中进行结构搜索，对标签分类器和域分类器进行周期性训练，将预处理后的频谱矩阵输入到对抗性域适应网络模型中，获取预测的非视距信号识别结果及其对应的域识别结果，根据预测的非视距信号识别结果及其对应的域识别结果以及信号标签计算对抗性域适应网络模型的损失函数，并根据对抗性域适应网络模型的损失函数调整标签分类器和域分类器的参数，以获取标签分类器和域分类器的最优网络结构及其参数。

进一步地，所述步骤(1)中设计的音频信号为线性扫频信号，表示为：

其中，s(t)为单个线性扫频信号，j表示虚数单位，f₀和u₀分别为初始频率和调制速率，线性扫频信号的长度为t，t(τ)表示周期性的整体线性扫频信号，τ表示来自不同路径的传播延迟，T为线性扫频信号的发送周期，时间间隔(T-t)为静默时间，ε(·)为阶跃函数，i表示第i个信号。

进一步地，所述麦克风采集到的音频信号表示为：

其中，res(τ)表示麦克风采集到的房间中的音频信号，n_r和n_d分别表示反射信号和衍射信号的数量，n_l＝0,1表示是否为视距信号，n_l＝1表示该音频信号为视距信号，n_l＝0表示该音频信号为非视距信号，β表示不同路径的衰落系数，下标l、r、d分别表示直达路径、反射路径、衍射路径，黑曼窗w·用于消除轻微的多向波动，n·表示噪声。

进一步地，所述步骤(2)包括以下子步骤：

(2.1)采用带通滤波器对采集到的音频信号进行带通滤波，以去除音频信号中的噪声，并将音频信号的通频带量化为M个单位；

(2.2)采用峰值检测方法寻找音频信号中的最大峰值，保留最大峰值点前后各N/2个时间单位的音频信号，以获取形状为N×M的频谱矩阵，并以张量形式保存该频谱矩阵；

(2.3)将频谱矩阵中的所有元素归一化至[0,1]，以获取预处理后的频谱矩阵。

进一步地，所述带通滤波器包括巴特沃斯滤波器、切比雪夫滤波器和贝塞尔滤波器；

所述归一化的方法包括min-max归一化、缩放归一化、标准化归一化和均值方差归一化。

进一步地，所述特征提取器采用现有神经网络模型的主干部分构成，所述特征提取器包括多个卷积层和池化层；

所述标签预测器输出的非视距信号识别结果表示为：

其中，为标签预测器预测的非视距信号识别结果，G_y表示标签预测器，G_f(x；θ_f)表示特征提取器输出的特征向量，也为标签预测器G_y的输入，x表示预处理后的频谱矩阵，θ_f表示特征提取器f的可训练参数，θ_y表示特征提取器G_y的可训练参数；

所述域分类器输出的域识别结果表示为：

其中，为域分类器预测的域识别结果，G_d表示域分类器，G_f(x；θ_f)表示特征提取器输出的特征向量，也为域分类器G_d的输入，θ_d表示域分类器G_d的可训练参数。

进一步地，所述步骤(4)中，在对域分类器进行训练时，在特征提取器和域分类器之间增加一个梯度反转层，表示为：

R_λ(x_f)＝x_f

其中，x_f表示特征向量，λ是随训练周期变化的参数，R_λ表示梯度反转层，I表示单位矩阵；

所述步骤(4)中，对抗性域适应网络模型的损失函数表示为：

其中，E(θ_f,θ_y,θ_d)表示对抗性域适应网络模型的损失，L_y表示标签预测器的损失，x_i表示第i个频谱矩阵，y_i表示第i个频谱矩阵对应的信号标签，L_d表示域分类损失。

进一步地，所述神经架构搜索方法包括：

①随机搜索方法，具体包括：

根据候选算子集合确定候选模型集合，随机设置标签分类器和域分类器的结构超参数，对候选模型集合中的所有候选模型进行若干周期的训练；

在对候选模型进行周期性训练时，冻结特征提取器的结构参数，频谱矩阵作为该候选模型的输入，输出预测的非视距信号识别结果及其对应的域识别结果，同时根据预测的非视距信号识别结果及其对应的域识别结果以及频谱矩阵对应的信号标签计算对抗性域适应网络模型的损失函数，并根据对抗性域适应网络模型的损失函数调整标签分类器和域分类器的结构超参数；

根据预测的非视距信号识别结果及其对应的域识别结果以及频谱矩阵对应的信号标签确定所有候选模型的识别结果准确率，选择准确率最大的候选模型作为最优候选模型；

对该最优候选模型进行训练直至对抗性域适应网络模型的损失函数收敛为止，获取标签分类器和域分类器的最优网络结构及其参数；

②可微架构搜索方法，具体包括：

标签分类器和域分类器的网络结构是分类变量，通过计算网络结构所有候选算子的SoftMax实现分类选项的松弛：

其中，O表示候选算子集合，x′指神经网络中当前网络层的输入，是与O相同维度的权重向量，表示不同算子被选择的概率，表示(i,j)上的所有算子的加权混合，(i,j)表示表示向量网络结构中的位置下标；

搜索离散结构向量即为学习连续向量α＝{α^(i,j)}，当搜索结束后，选择具有最高概率的算子：

其中，o^(i,j)表示具有最高概率的算子，argmax表示取向量中的最大元素；

将搜索网络结构任务转化为双层优化问题，其中，结构向量α是外部变量，权向量w是内部变量：

minL_α(w^*(α),α)

s.t.w^*(α)＝argmin_wL_train(w,α)

其中，w^*表示最优权向量，L_train表示训练集上的损失函数；

采用两层优化方法交替更新标签分类器和域分类器的网络结构和权值，获取标签分类器和域分类器的最优网络结构及其参数。

本发明实施例第二方面提供了一种用于跨房间非视距声信号识别的域适应神经架构搜索装置，包括一个或多个处理器和存储器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的用于跨房间非视距声信号识别的域适应神经架构搜索方法。

本发明实施例第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的用于跨房间非视距声信号识别的域适应神经架构搜索方法。

本发明的有益效果为，本发明采用频谱矩阵作为网络模型的输入，增加了频域信息，使用二维卷积神经网络提取特征，并通过滤波、裁剪等手段去除冗余信息，进一步提高识别率，有效提高了识别精度；本发明引入了迁移学习方法，采用深度域适应方法，在模型中特征提取器后增加一个与标签分类器并行的域分类器，仅需使用少量未标注的目标域数据和源域数据共同训练，可以显著提升模型在目标域的识别准确率，有利于提升泛化性；针对一已经训练完成的模型，在面对来自未知环境时，仅需增加少量的未标注数据重新进行少量训练即可，而不需要重新采集和标注大量新数据并重新训练模型；本发明采用NAS技术实现模型参数的自动调整，降低对于深度学习知识和经验的依赖，有利于降低深度学习模型的成本；本发明可实现同房间99％的NLOS/LOS声信号的识别准确率，跨房间95％的识别率。

附图说明

图1是本发明的用于跨房间非视距声信号识别的域适应神经架构搜索方法的流程示意图；

图2是本发明的用于跨房间非视距声信号识别的域适应神经架构搜索方法的网络架构示意图；

图3是本发明采用的线性扫频信号随时间周期性线性变化的示意图；

图4是本发明中NLOS/LOS信号的示意图；

图5是本发明中频谱矩阵和频谱图的对比示意图；其中，图5中的(a)是视距信号的频谱图；图5中的(b)是非视距信号的频谱图；图5中的(c)是(a)中视距信号的频谱矩阵，图中方框表示对频谱矩阵的裁剪；图5中的(d)是(b)中非视距信号的频谱矩阵，图中方框表示对频谱矩阵的裁剪；

图6是本发明中Resnet34的主干网络结构图；

图7是本发明的用于跨房间非视距声信号识别的域适应神经架构搜索装置的一种结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

结合图1和图2阐述本发明所述的用于跨房间非视距声信号识别的域适应神经架构搜索方法的原理和流程，具体包括以下步骤：

(1)设计音频信号，房间中的扬声器向麦克风周期性发送设计的音频信号，麦克风采集房间中的音频信号。

应当理解的是，音频信号需要先主动发射再接收，接收即为采集音频信号的过程，所以先设计音频信号。其他可选的音频信号有正弦三角波等，优选为线性扫频信号，选择线性扫频信号是因为其抗干扰能力更强，更适合低信噪比的声学环境。

进一步地，音频信号为如图3所示的线性扫频(chirp)信号，表示为：

进一步地，麦克风采集到的音频信号表示为：

其中，res(τ)表示麦克风采集到的房间中的音频信号，n_r和n_d分别表示反射信号和衍射信号的数量，n_l＝0,1表示是否为视距(LOS)信号，n_l＝1表示该音频信号为LOS信号，n_l＝0表示该音频信号为非视距(NLOS)信号，β表示不同路径的衰落系数，下标l、r、d分别表示直达路径、反射路径、衍射路径，如图4所示，黑曼窗w·用于消除轻微的多向波动，n·表示噪声，噪声包括电磁振动噪声等。

应当理解的是，直达路径对应的音频信号为视距信号，反射路径和衍射路径对应的信号为非视距信号。

(2)对采集到的音频信号进行预处理，以获取预处理后的频谱矩阵。

应当理解的是，在训练非视距(NLOS)声信号识别网络时，频谱图或时域信号作为网络输入时，会产生许多冗余和无用的特征，导致网络参数严重过拟合，因此选择频谱矩阵而非频谱图或时域信号作为网络输入，将频谱图中的关键信息映射到频谱矩阵的灰度级，丢弃次要信息。故对采集到的音频信号进行预处理，获得频谱矩阵。

进一步地，对采集到的音频信号进行预处理，以获取预处理后的频谱矩阵，具体包括：

(2.1)采用带通滤波器对采集到的音频信号进行带通滤波，以去除音频信号中的噪声，并将音频信号的通频带量化为M个单位。

进一步地，带通滤波器包括但不限于：巴特沃斯滤波器、切比雪夫滤波器和贝塞尔滤波器等。

应当理解的是，由于步骤(1)中设计的音频信号存在最大频率和最小频率，采用巴特沃斯滤波器对接收到的原始音频信号进行带通滤波，去除发射频外的噪声，以提升信噪比，并将音频信号的通频带量化为M个单位，如128个单位。当然，也可以选用切比雪夫滤波器、贝塞尔滤波器等带通滤波器进行带通滤波，巴特沃斯滤波器的优势在于通频带内的频率响应曲线最大限度平坦，没有起伏，而在阻频带则逐渐下降为零。

进一步地，巴特沃斯滤波器用如下振幅的平方对频率的公式表示：

其中，Hω)表示音频信号的振幅，ω表示音频信号的频率，n^′表示滤波器的阶数，ω_c表示音频信号的截止频率，ω_p表示音频信号的通频带边缘频率，为|Hω)|²在通频带边缘的数值。

(2.2)采用峰值检测方法寻找音频信号中的最大峰值，保留最大峰值点前后各N/2个时间单位的音频信号，以获取形状为N×M的频谱矩阵，并以张量形式保存该频谱矩阵。

具体地，使用文献《An Efficient Algorithm for Automatic Peak Detectionin Noisy Periodic and Quasi-Periodic Signals》中的峰值检测方法寻找音频信号中的最大峰值，保留最大峰值点前后各N/2个时间单位的音频信号，如N＝64，合计64个时间单位。此时，将频谱矩阵裁剪为64×128的形状，并以张量形式保存，如图5所示。

进一步地，归一化的方法包括min-max归一化、缩放归一化、标准化归一化和均值方差归一化等。

应当理解的是，频谱矩阵需经过带通滤波、峰值检测等裁剪预处理，裁剪后的尺寸不固定，优选为64×128。

(3)构建对抗性域适应网络模型，该对抗性域适应网络模型包括特征提取器、标签预测器和域分类器，将预处理后的频谱矩阵输入到特征提取器中，获取特征向量；将特征向量分别输入到标签预测器和域分类器中，获取非视距信号识别结果及其对应的域识别结果。通过对抗性域适应网络模型可以提升跨房间NLOS/LOS信号识别的准确性。

本实施例中，特征提取器采用现有神经网络模型的主干部分构成，其中，特征提取器包括多个卷积层和池化层。将预处理后的频谱矩阵输入到特征提取器中，获取特征向量G_f(x；θ_f)，其中f表示特征提取器，x表示预处理后的频谱矩阵，θ_f表示特征提取器f的可训练参数。

进一步地，现有神经网络模型包括Resnet18、Resnet34、Resnet50、Mobilenet、VGG19等神经网络模型，Resnet18、Resnet34、Resnet50、Mobilenet、VGG19等神经网络模型的主干部分负责提取特征，故将神经网络模型的主干部分作为音频信号潜在特征的特征提取器，将预处理后的频谱矩阵输入到特征提取器中，获得对应的特征向量，得到的特征向量将在后续输入到具有域适应功能的任务头中。Resnet系列网络结构主要区别在于层数，如resnet18表示18层，Resnet34表示有34层，以Resnet34为例，其主干网络结构如图6所示，具体包括多个卷积层和池化层；Mobilenet和VGG19则存在结构上的不同，具体是由卷积层和池化层堆叠而成的。

应当理解的是，在选择现有神经网络模型时，综合考虑任务结果精度与模型运行所需的计算量，优选Resnet34。

本实施例中，在跨房间LOS/NLOS分类任务中，源域定义为在已知房间中采集的标记音频信号，目标域定义为在未知房间中采集到的未标记音频信号。由于房间的布局和环境不同，麦克风接收到的音频信号分布也不同。使用域适应方法降低源域和目标域之间的数据分布差异。

具体地，假设源域和目标域中的音频信号分别服从分布S(x,y)和T(x,y)，其中x∈X为输入频谱矩阵，y∈Y为信号标签，信号标签包括视距信号和非视距信号。源域中的音频信号的信号标签已知，目标域中的音频信号的信号标签未知。然后将网络分为两个分支，即标签预测器和域分类器，标签预测器从高层次特征向量C_f(x；θ_f)预测非视距信号识别结果，即当前特征向量对应的音频信号是否为非视距信号；域分类器用于判断当前特征向量对应的音频信号来自于源域还是目的域。

进一步地，标签预测器输出的非视距信号识别结果表示为：

其中，为标签预测器预测的非视距信号识别结果，G_y表示标签预测器，G_f(x；θ_f)表示特征提取器输出的特征向量，也为标签预测器G_y的输入，θ_y表示特征提取器G_y的可训练参数。

进一步地，域分类器输出的域识别结果表示为：

应当理解的是，由于特征提取器使用的是现有神经网络模型的主干部分，其中的结构参数是预训练好的，故在结构搜索过程中，特征提取器的结构参数被冻结，只训练权值参数。

需要说明的是，为了研究最适合跨房间LOS/NLOS信号识别的神经网络结构，使用神经架构搜索方法在给定的搜索空间中自动找到性能更好的模型。为了压缩搜索空间和降低计算成本，只搜索域分类器和标签预测器的结构，其结构由候选算子集合组合得到。

进一步地，在对域分类器进行训练时，在特征提取器和域分类器之间增加一个梯度反转层，可以实现对抗性训练，该梯度反转层表示为：

R_λ(x_f)＝x_f

其中，x_f表示特征向量，λ是随训练周期变化的参数，R_λ表示梯度反转层，I表示单位矩阵。

进一步地，对抗性域适应网络模型的损失函数表示为：

本实施例中，神经架构搜索方法包括：

①随机搜索方法，具体包括：

根据候选算子集合确定候选模型集合，随机设置标签分类器和域分类器的结构超参数，对候选模型集合中的所有候选模型进行若干周期的训练。在对候选模型进行周期性训练时，冻结特征提取器的结构参数，频谱矩阵作为该候选模型的输入，输出预测的非视距信号识别结果及其对应的域识别结果，同时根据预测的非视距信号识别结果及其对应的域识别结果以及频谱矩阵对应的信号标签计算对抗性域适应网络模型的损失函数，并根据对抗性域适应网络模型的损失函数调整标签分类器和域分类器的结构超参数。根据预测的非视距信号识别结果及其对应的域识别结果以及频谱矩阵对应的信号标签确定所有候选模型的识别结果准确率，选择准确率最大的候选模型作为最优候选模型。对该最优候选模型进行训练直至对抗性域适应网络模型的损失函数收敛为止，获取标签分类器和域分类器的最优网络结构及其参数。

示例性地，当选择Restnet18和Resnet34的主干部分作为特征提取器时，由于其输出为一维张量，因此标签分类器和域分类器由一维算子构成，相对应的，候选算子集合O定义为{全连接层，核为1的卷积层，核为3的卷积层，恒等映射层}。当选择Resnet50、VGG和Mobilenet作为特征提取器时，由于其输出为二维张量，因此标签分类器和域分类器由二维算子构成，相对应的，候选算子集合O定义为{全连接层，1×1卷积层，3×3卷积层，5×5卷积层，恒等映射层}。

应当理解的是，候选模型集合是候选算子集合O中算子的所有排列组合，即候选模型的每一层都对应算子集合中的一个随机算子。候选模型的数量和复杂度随模型层数指数级增长。域分类器和标签预测器都有各自的候选模型集合。

②可微架构搜索(Differentiable Architecture Search，DARTS)方法，具体包括：

其中，O表示候选算子集合，x′指神经网络中当前网络层的输入，是与O相同维度的权重向量，表示不同算子被选择的概率，表示(i,j)上的所有算子的加权混合，(i,j)表示表示向量网络结构中的位置下标。

应当理解的是，SoftMax可以将多个值转化为概率，为每个输出分类的结果都赋予一个概率值，用于表示属于每个类别的可能性；比如n个值，值越大的概率越高，经过SoftMax转换后这n个值的和为1。经过SoftMax转化成概率后，再和对应算子的输出相乘，所有算子都这样相乘，然后再加起来，最后得到所有算子的加权混合的输出。松弛即数学术语松弛法(relaxation)，通过逐步接近的方式获得相关问题的最佳解法，本实施例中是把分类变量转换成概率分布来求解。

其中，o^(i,j)表示具有最高概率的算子，argmax表示取向量中的最大元素。

minL_α(w^*(α),α)

s.t.w^*(α)＝argmin_wL_train(w,α)

其中，w^*表示最优权向量，L_train表示训练集上的损失函数。

采用两层优化方法交替更新标签分类器和域分类器的网络结构和权值，获取标签分类器和域分类器的最优网络结构及其参数，使得优化后的模型具有良好的表达性和可训练性。

需要说明的是，第一种随机搜索方法先对所有的候选模型实施少量训练，并比较训练后所有候选模型的识别结果准确率，然后挑选其中性能最佳的一个候选模型训练至收敛，其搜索速度更快，适用于候选模型较少的情况。第二种可微架构搜索方法适用于候选模型较多的情况。因此可以根据实际情况选择使用哪种神经架构搜索方法。

应当理解的是，网络模型的标签分类器和域分类器的结构可以通过NAS自动搜索得到，标签分类器和域分类器可以由一维或者二维的卷积和池化算子构成，优选为一维算子。

综上所述，本发明采用的线性扫频声信号，使用的对抗性域适应网络模型可以提升跨房间NLOS/LOS信号识别的准确性，模型的输入是经过预处理后的频谱矩阵，模型的标签分类器和域分类器的结构通过NAS自动搜索得到。

与前述用于跨房间非视距声信号识别的域适应神经架构搜索方法的实施例相对应，本发明还提供了用于跨房间非视距声信号识别的域适应神经架构搜索装置的实施例。

参见图7，本发明实施例提供的一种用于跨房间非视距声信号识别的域适应神经架构搜索装置，包括一个或多个处理器和存储器，存储器与处理器耦接；其中，存储器用于存储程序数据，处理器用于执行程序数据以实现上述实施例中的用于跨房间非视距声信号识别的域适应神经架构搜索方法。

本发明用于跨房间非视距声信号识别的域适应神经架构搜索装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本发明用于跨房间非视距声信号识别的域适应神经架构搜索装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的用于跨房间非视距声信号识别的域适应神经架构搜索方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于跨房间非视距声信号识别的域适应神经架构搜索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于跨房间非视距声信号识别的域适应神经架构搜索方法，其特征在于，所述步骤(1)中设计的音频信号为线性扫频信号，表示为：

3.根据权利要求1所述的用于跨房间非视距声信号识别的域适应神经架构搜索方法，其特征在于，所述麦克风采集到的音频信号表示为：

其中，res(τ)表示麦克风采集到的房间中的音频信号，n_r和n_d分别表示反射信号和衍射信号的数量，n_l＝0,1表示是否为视距信号，n_l＝1表示该音频信号为视距信号，n_l＝0表示该音频信号为非视距信号，β表示不同路径的衰落系数，下标l、r、d分别表示直达路径、反射路径、衍射路径，黑曼窗w(·)用于消除轻微的多向波动，n(·)表示噪声。

4.根据权利要求1所述的用于跨房间非视距声信号识别的域适应神经架构搜索方法，其特征在于，所述步骤(2)包括以下子步骤：

5.根据权利要求4所述的用于跨房间非视距声信号识别的域适应神经架构搜索方法，其特征在于，所述带通滤波器包括巴特沃斯滤波器、切比雪夫滤波器和贝塞尔滤波器；

6.根据权利要求1所述的用于跨房间非视距声信号识别的域适应神经架构搜索方法，其特征在于，所述特征提取器采用现有神经网络模型的主干部分构成，所述特征提取器包括多个卷积层和池化层；

所述标签预测器输出的非视距信号识别结果表示为：

所述域分类器输出的域识别结果表示为：

7.根据权利要求1所述的用于跨房间非视距声信号识别的域适应神经架构搜索方法，其特征在于，所述步骤(4)中，在对域分类器进行训练时，在特征提取器和域分类器之间增加一个梯度反转层，表示为：

R_λ(x_f)＝x_f

所述步骤(4)中，对抗性域适应网络模型的损失函数表示为：

8.根据权利要求1所述的用于跨房间非视距声信号识别的域适应神经架构搜索方法，其特征在于，所述神经架构搜索方法包括：

①随机搜索方法，具体包括：

②可微架构搜索方法，具体包括：

minL_α(w^*(α),α)

s.t.w^*(α)＝argmin_wL_train(w,α)

其中，w^*表示最优权向量，L_train表示训练集上的损失函数；

9.一种用于跨房间非视距声信号识别的域适应神经架构搜索装置，包括一个或多个处理器和存储器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现权利要求1-8中任一项所述的用于跨房间非视距声信号识别的域适应神经架构搜索方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，用于实现权利要求1-8中任一项所述的用于跨房间非视距声信号识别的域适应神经架构搜索方法。