CN117198276A

CN117198276A - 基于毫米波信号非接触式耳机语音感知方法及系统

Info

Publication number: CN117198276A
Application number: CN202311112916.1A
Authority: CN
Inventors: 徐翔宇; 陈煜�; 凌振
Original assignee: Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd
Current assignee: Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-08

Abstract

本发明公开了基于毫米波信号非接触式耳机语音感知方法及系统，该方法包括将毫米波模块转化为调频连续波雷达，将耳机机身的微小振动位移以毫米波信号相位变化的形式捕获，并转化为时频谱；使用深度神经网络进行语音元素增强并将增强后的结果作为Mask通过滤波器叠加到原始的时频谱上提高信噪比；设计一个条件生成对抗网络模型，从提高信噪比后的时频谱中进一步恢复恢复语音特征，生成语音细节；利用训练数据生成算法产生大量的合成数据辅助对抗网络模型训练，实现耳机播放语音内容的准确窃听。本发明能够在1m范围内以非接触方式实现耳机播放语音内容的有效恢复，揭示了潜在的攻击威胁。

Description

基于毫米波信号非接触式耳机语音感知方法及系统

技术领域

本发明属于语音感知技术领域，尤其涉及基于毫米波信号非接触式耳机语音感知方法及系统。

背景技术

随着智能移动设备的不断发展，耳机的使用在生活中已经变得非常普遍。然而，耳机中播放的音频会在耳机外表面产生细微的振动，存在潜在的语音泄漏风险。

传统的耳机语音感知需要在目标环境中安装特定的声学传感器模块，以捕捉语音信号，此类工作的成本高，在实际场景中往往难以实现。另一类语音感知技术通过手机等智能终端上的非声学传感器、如加速度计、振动电机等感知和恢复声音，这类工作大多需要利用预装的软件或从目标设备预先收集的数据，其要求和假设过强。目前也有一些研究工作通过毫米波信号进行语音感知或重建，但所针对的场景需要能捕捉到明显的语音振动(如语音助手、高音扬声器产生的语音振动)，而耳机中播放音频在耳机外表面产生细微的振动过于细微，难以应用此类方法进行感知。

发明内容

本发明所要解决的技术问题是：提供了基于毫米波信号非接触式耳机语音感知方法及系统，通过毫米波信号和条件生成对抗网络，避免了从预装软件或从目标设备中预先收集的数据，实现了耳机语音内容的非接触式感知。

为了实现上述功能，本发明采用如下技术方案：

基于毫米波信号非接触式耳机语音感知方法，包括：

S1、使用毫米波雷达将调制后的毫米波信号作为发射信号发送到目标耳机，并接收耳机反射的回波信号。

S2、将发射信号和回波信号混频后得到中频(IF)信号，由于中频信号与行进时间成正比，而行进时间由雷达和反射器之间的距离决定，因此可以通过中频信号的频率计算雷达和反射器之间的距离。

S3、在实际场景中，往往存在多个目标反射毫米波信号，导致中频信号产生许多不同的频率分量。为了分离不同的频率分量，需要对中频信号应用快速傅立叶变换，即距离傅里叶变换，在频率域上找到目标对应峰值，从而实现目标距离感知。然而，此方法的距离感知分辨率不足，为了以更高的精度估计微小振动位移，需要在获取雷达与反射器之间的距离的基础上，提取目标距离下相位变化，获得微小振动位移变化。

S4、此时相对高频的成分信噪比很低，需要增强，因此将步骤S3中获取的相位变化转化到时频谱上，捕获到时频谱中1000Hz以下的低频成分，利用DNN(Deep NeuralNetworks,深度神经网络)增强时频谱中1000Hz以上的高频成分，得到信噪比增强的时频谱。

S5、目前能够初步恢复出耳机播放的语音信号，但由于其本质是声音信号的一种振动映射，且在声音信号的细节上与人类语音还有所差异，可听性和可懂度较低。因此，为了进一步提升信号的可懂度，提高感知效果，构建条件生成对抗网络模型，使用现有公共语音数据集中的音频合成训练数据，对该模型进行训练。

S6、将步骤S4中最终获得的时频谱输入到训练完成的条件生成对抗网络模型中，获得语音细节增强的时频谱，将该时频谱通过傅里叶反变换转化到时域，得到感知的语音信号，完成非接触式耳机语音感知。

进一步的，步骤S1中，毫米波信号是从毫米波雷达发射，并通过FMCW(FrequencyModulated Continuous Wave,调频连续波)方式调制。

进一步的，步骤S2中，雷达和反射器之间的距离的计算公式为：

其中，d表示雷达和反射器之间的距离，ΔF表示中频信号的频率，S表示设计的线性调频信号频率随时间的变化率。

进一步的，步骤S3中，利用快速傅立叶变换获得中频信号的雷达与反射器之间的距离，该距离下中频信号的相位变化可由如下公式获得：

其中，x表示中频信号，Δφ表示相位变化，Im(x)和Re(x)分别表示信号的虚部和实部。

通过相位变化获得耳机机身由于播放语音音频而造成的微小振动位移，具体公式为：

其中，Δd表示微小振动位移，λ表示毫米波信号的波长。

进一步的，步骤S4中，得到信噪比增强的时频谱包括以下内容：

S401、构建DNN网络：DNN网络为10层全连接结构，第1层为输入层，第2-9层为隐藏层，第10层为输出层，隐藏层的激活函数为Sigmoid函数，输入层和输出层的激活函数为线性激活函数，损失函数为MMSE(Minimum Mean Squared Error,最小均方误差)。

S402、训练DNN网络：使用受限玻尔兹曼机进行无监督训练，调整数据的分布以强化可学习的特征，训练数据为相位变化的时频谱样本，训练算法为对比散度算法，其学习率为0.0005，训练轮数为100。

S403、通过有监督训练，其目标是学习从相位变化的时频谱到真实语音的时频谱之间的映射，训练数据为相位变化的时频谱和真实语音的时频谱，训练算法为反向传播算法，其学习率为0.01，训练轮数为50。

得到训练完成的DNN网络。

S404、利用短时傅里叶变换，将步骤S3中获取的相位变化转化为时频谱，具体内容为：

S4041、将时序信号按顺序平均分为N段，每段M个采样点(M通常为2的指数幂)。

S4042、对每段信号做快速傅里叶变换计算，将其从时域转化为频域，信号长度仍为M个点。

S4043、将N段频域信号拼接，得到大小为M×N的时频谱。

S405、将步骤S404中的时频谱输入到训练完成的DNN模型中，输出高频信噪比增强后的时频谱。

S406、通过截至频率为250Hz的巴特沃斯滤波器将高频信噪比增强后的时频谱和高频信噪比增强前的原时频谱进行加权整合，获得信噪比增强的时频谱，具体公式为：

S_r＝αS_o+(1-α)S_g

其中，S_r表示信噪比增强的时频谱，S_o表示高频信噪比增强前的原时频谱，S_h表示高频信噪比增强的时频谱，α表示加权系数。

加权系数α由截至频率为250Hz的5阶巴特沃斯滤波器决定，具体公式为：

其中，f表示频率，α(f)表示加权系数α在频率f时的值。

进一步的，步骤S5中，训练条件生成对抗网络模型包括以下子步骤：

S501、条件生成对抗网络模型包括一个条件生成器G和一个判别器D，条件生成器G包含四层全连接层，激活函数为LeakyReLU；判别器D包含三层全连接层，激活函数为Sigmoid。

S502、合成训练数据：随机从TSP Speech Database语音数据集中选取一条语音样本，并将其转化为时频谱z₀。

S503、设计一个0-20kHz线性增加的声波信号，通过耳机进行播放，同时使用毫米波雷达感知耳机播放音频产生的振动信号，其获得的信号响应即为通道频率响应R(f)。

S504、将步骤S502中获得的时频谱乘以毫米波信号的通道频率响应，得到理想语音振动的时频谱z₁，即z₁＝z₀×R(f)。

S505、在步骤S504中时频谱z₁上添加正态分布的噪声，其中信号实部添加δ_r的噪声满足正态分布δ_r～N(μ₁,σ₁)，μ₁和σ₁分别为正态分布的均值和标准差，均在[0，1]范围内随机取值；信号虚部添加δ_i的噪声满足正态分布δ_i～N(μ₂,σ₂)，μ₂和σ₂分别为正态分布的均值和标准差，均在[0，1]范围内随机取值；添加噪声后得到一条合成的训练数据z₂，即z₂＝z₁+β(δ_r+jδ_i)，α为噪声系数，在[1，10]范围内随机取值，j为虚数符号。

S506、重复步骤S502-S505，直到生成训练数据的数量达到K条，为保证训练效果，K一般为大于1000的正整数。

S507、利用步骤S506生成的训练数据对条件生成对抗网络模型进行训练：固定条件生成器G的神经网络的权重参数，使用Adam方法训练判别器D，损失函数为MSE(MeanSquared Error,均方误差)，使得生成器生成的频谱图与真实语音频谱图之间满足max_D V(D,G)。

S508、固定判别器D的神经网络的权重参数，使用Adam方法训练条件生成器G，损失函数为交叉熵，使得生成器G生成的细节增强的时频谱与真实语音时频谱之间满足min_G[max_D V(D,G)]。

S509、重复步骤S507-S508，直到条件生成对抗网络模型收敛，训练后的条件生成对抗网络模型表示为：

其中，min_G max_D V(D,G)表示条件生成对抗网络模型的目标，V(D,G)表示细节增强的时频谱与真实语音频谱图之间的差异，s表示真实语音频谱图，s～p_speech(s)表示s来自真实语音信号数据集speech，D(s)表示判别为真实语音的成功概率，z～p_data(z)表示z来自步骤S4中信噪比增强的时频谱构建的数据集data中的一个样本，G(z)表示细节增强的时频谱，D(G(z))表示判别器判别G(z)为真实语音时频谱的概率。

进一步的，步骤S6中，得到感知的语音信号包括以下内容：

S601、将步骤S4中获得的信噪比增强的时频谱输入到训练完成的条件生成对抗网络模型中，经过条件生成器G的处理，得到细节增强的时频谱，其接近真实语音的时频谱。

S602、利用逆快速傅里叶变换，将细节增强的时频谱转化到时域，得到感知的语音信号，具体公式为：

其中，S为时频谱数据，y为反变换得到的感知的语音信号。

本发明还提出了基于毫米波信号非接触式耳机语音感知系统，包括

回波信号接收模块，用于使用毫米波雷达将调制后的毫米波信号作为发射信号发送到目标耳机，并接收耳机反射的回波信号。

距离计算模块，用于将发射信号和回波信号混频后得到中频信号，通过中频信号的频率计算雷达和反射器之间的距离。

微小振动位移变化获得模块，用于在获取雷达与反射器之间的距离的基础上，提取目标距离下相位变化，获得微小振动位移变化。

信噪比增强的时频谱获得模块，用于将微小振动位移变化获得模块中获取的相位变化转化到时频谱上，捕获到时频谱中1000Hz以下的低频成分，利用DNN增强时频谱中1000Hz以上的高频成分，得到信噪比增强的时频谱。

模型训练模块，用于构建条件生成对抗网络模型，使用现有公共语音数据集中的音频合成训练数据，对该模型进行训练。

非接触式耳机语音感知模块，用于将信噪比增强的时频谱获得模块中获得的时频谱输入到训练完成的条件生成对抗网络模型中，获得语音细节增强的时频谱，将该时频谱通过傅里叶反变换转化到时域，得到感知的语音信号，完成非接触式耳机语音感知。

本发明采用以上技术方案，与现有技术相比，其显著技术效果如下：

本发明能够实现对耳机语音内容的非接触式感知，能够准确恢复目标耳机中播放的语音内容，恢复的语音信号具有较高的可理解程度，并且不受到耳机类型、品牌、款式的限制，也能够适应一定范围的距离(1m以内效果稳定，2m以内也有一定效果)。与现有技术相比，在通过振动感知语音信号的粒度上有显著提升。

附图说明

图1是本发明系统流程图。

图2是本发明毫米波雷达感知原理图。

图3是本发明信号去噪强化前后的频谱对比图。

图4是本发明条件生成对抗网络结构图。

图5是本发明训练样本合成效果示意图。

图6是本发明恢复的耳机语音的可懂度和感知语音质量评价值。

具体实施方式

本发明通过毫米波信号感知耳机机身由于播放语音音频而造成的微小振动位移，并通过语音元素增强提升感知的信噪比，在此基础上设计CGAN(Conditional GenerativeAdversarial Nets,条件生成对抗网络)进一步恢复语音细节，实现了耳机语音内容的非接触式窃听。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提到了基于毫米波信号非接触式耳机语音感知方法，如图1所示，包括：

S1、本实施例中，测试场景为用户在室内使用耳机进行通话，而攻击者在不同距离下通过本发明所提取的系统对该用户进行窃听。毫米波信号是从TI AWR1642毫米波雷达发射，为77-81kHz的三角波扫频信号，并使用型号为HP Pavilion 14的笔记本电脑通过FMCW方式调制，该毫米波雷达将调制后的毫米波信号作为发射信号发送到型号为GH10GS目标耳机，接收耳机反射的回波信号，耳机的播放音量限定为50％，播放内容为TSP SpeechDatabase语音数据集中随机选取的语音数据。

S2、将发射信号和回波信号混频后得到中频信号，由于中频信号与行进时间成正比，而行进时间由雷达和反射器之间的距离决定，因此可以通过中频信号的频率计算雷达和反射器之间的距离，具体公式为：

如图2所示，中频信号的频率越高，代表发射信号和回波信号的时间间隔越大，也即雷达和发射目标之间的距离越远。

S3、在获取雷达与反射器之间的距离的基础上，提取目标距离下相位变化，获得微小振动位移变化，具体公式为：

其中，x表示中频信号，Δφ表示相位变化，Im(x)和Re(x)分别表示信号的虚部和实部，Δd表示微小振动位移，λ表示毫米波信号的波长。

给定4mm的典型毫米波波长，能够检测到0.1mm级别的位移变化，这足以捕获耳机播放语音时的微小振动位移。

S4、此时相对高频的成分信噪比很低，需要增强，因此将步骤S3中获取的相位变化转化到时频谱上，捕获到时频谱中1000Hz以下的低频成分，利用DNN增强时频谱中1000Hz以上的高频成分，得到信噪比增强的时频谱，具体步骤为：

S401、构建DNN网络：DNN网络为10层全连接结构，第1层为输入层，第2-9层为隐藏层，第10层为输出层，隐藏层的激活函数为Sigmoid函数，输入层和输出层的激活函数为线性激活函数，损失函数为MMSE。

得到训练完成的DNN网络。

S4043、将N段频域信号拼接，得到大小为M×N的时频谱。

S_r＝αS_o+(1-α)S_h

其中，f表示频率，α(f)表示加权系数α在频率f时的值。

如图3所示，对比图3的(a)中的左边时频谱图和中间时频谱图可以看到，在信噪比增强后的时频谱上，较高频率(1000Hz以上)的信号获得了一定的恢复。从图3的(a)中的右边时频谱图可以看到，通过截至频率为250Hz的巴特沃斯滤波器，将信噪比增强后的时频谱和信噪比增强前的原时频谱进行加权整合，提高感知信号的信噪比。图3的(b)中展示了加权系数的获取，是由截至频率为250Hz的巴特沃斯滤波器获取的。

S5、目前能够初步恢复出耳机播放的语音信号，但由于其本质是声音信号的一种振动映射，且在声音信号的细节上与人类语音还有所差异，可听性和可懂度较低。因此，为了进一步提升信号的可懂度，提高感知效果，构建条件生成对抗网络模型，使用现有公共语音数据集中的音频合成训练数据，对该模型进行训练，具体内容为：

S501、如图4所示，条件生成对抗网络模型包括一个条件生成器G和一个判别器D，条件生成器G包含四层全连接层，激活函数为LeakyReLU；判别器D包含三层全连接层，激活函数为Sigmoid。

S506、重复步骤S502-S505，直到生成训练数据的数量达到50000条。

如图5所示，通过语音数据集合成了50000条训练数据样本，可以看出其与真实的毫米波雷达感知样本非常接近，因此可以替代真实环境下高成本的训练数据采集。

S507、利用步骤S506生成的训练数据对条件生成对抗网络模型进行训练：固定条件生成器G的神经网络的权重参数，使用Adam方法训练判别器D，损失函数为MSE，使得生成器生成的频谱图与真实语音频谱图之间满足max_D V(D,G)。

S6、将步骤S4中最终获得的时频谱输入到训练完成的条件生成对抗网络模型中，获得语音细节增强的时频谱，将该时频谱通过傅里叶反变换转化到时域，得到感知的语音信号，完成非接触式耳机语音感知，具体内容为：

其中，S为时频谱数据，y为反变换得到的感知的语音信号。

本实施例中，一共有6位志愿者作用耳机用户参与了测试，志愿者将耳机戴在头上，在耳机播放音频的过程中可以处在站立、坐下或者行走的状态。测试过程中毫米波雷达与目标耳机之间的距离控制在20cm、50cm、100cm和200cm四个不同的场景，测试结果如图6所示。图6展示了本发明在不同距离下窃听语音的可懂度(STOI)和感知语音质量评价值(PESQ)，二者均为描述语音信号可被人类理解的程度，STOI在0.6以上，PESQ在1.5以上代表较高的语音质量和较强的语音可理解程度。从图中可以看出，本发明在1m范围内，能够从耳机中恢复的语音的STOI/PESQ在0.66/1.58以上，说明在1m范围内，本发明能够有效恢复耳机语音，得到较高质量和较高可理解程度的语音信号，对比不使用本发明方法，直接使用毫米波信号感知得到0.52/1.08的STOI/PESQ，有了显著的提升。在2m距离下感知恢复的语音质量有所衰减，对应的STOI/PESQ为0.53/1.33的，仍然有一定的感知和恢复效果。

本发明还提出了基于毫米波信号非接触式耳机语音感知系统，包括回波信号接收模块、距离计算模块、微小振动位移变化获得模块、信噪比增强的时频谱获得模块、模型训练模块、非接触式耳机语音感知模块及可在处理器上运行的计算机程序。需要说明的是，上述系统中的各个模块对应本发明实施例所提供的方法的具体步骤，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.基于毫米波信号非接触式耳机语音感知方法，其特征在于，包括：

S1、使用毫米波雷达将调制后的毫米波信号作为发射信号发送到目标耳机，并接收耳机反射的回波信号；

S2、将发射信号和回波信号混频后得到中频信号，通过中频信号的频率计算雷达和反射器之间的距离；

S3、在获取雷达与反射器之间的距离的基础上，提取目标距离下相位变化，获得微小振动位移变化；

S4、将步骤S3中获取的相位变化转化到时频谱上，捕获到时频谱中1000Hz以下的低频成分，利用深度神经网络增强时频谱中1000Hz以上的高频成分，得到信噪比增强的时频谱；

S5、构建条件生成对抗网络模型，使用现有公共语音数据集中的音频合成训练数据，对该模型进行训练；

S6、将步骤S4中获得的时频谱输入到训练完成的条件生成对抗网络模型中，获得语音细节增强的时频谱，将该时频谱通过傅里叶反变换转化到时域，得到感知的语音信号，完成非接触式耳机语音感知。

2.根据权利要求1所述的基于毫米波信号非接触式耳机语音感知方法，其特征在于，步骤S1中，毫米波信号是从毫米波雷达发射，并通过调频连续波方式调制。

3.根据权利要求1所述的基于毫米波信号非接触式耳机语音感知方法，其特征在于，步骤S2中，雷达和反射器之间的距离的计算公式为：

4.根据权利要求3所述的基于毫米波信号非接触式耳机语音感知方法，其特征在于，步骤S3中，在中频信号的雷达与反射器之间的距离下，中频信号的相位变化为：

其中，x表示中频信号，Δφ表示相位变化，Im(x)和Re(x)分别表示信号的虚部和实部；

通过相位变化获得耳机机身的微小振动位移，具体公式为：

其中，Δd表示微小振动位移，λ表示毫米波信号的波长。

5.根据权利要求1所述的基于毫米波信号非接触式耳机语音感知方法，其特征在于，步骤S4中，得到信噪比增强的时频谱包括以下内容：

S401、构建DNN网络：DNN网络为10层全连接结构，第1层为输入层，第2-9层为隐藏层，第10层为输出层，隐藏层的激活函数为Sigmoid函数，输入层和输出层的激活函数为线性激活函数，损失函数为最小均方误差；

S402、训练DNN网络：使用受限玻尔兹曼机进行无监督训练，调整数据的分布，将相位变化的时频谱样本作为训练数据，使用对比散度算法进行训练，其学习率为0.0005，训练轮数为100；

S403、通过有监督训练，将相位变化的时频谱映射到真实语音的时频谱，将相位变化的时频谱和真实语音的时频谱作为训练数据，使用反向传播算法进行训练，其学习率为0.01，训练轮数为50；

得到训练完成的DNN网络；

S404、利用短时傅里叶变换，将步骤S3中获取的相位变化转化为时频谱；

S405、将步骤S404中的时频谱输入到训练完成的DNN模型中，输出高频信噪比增强后的时频谱；

S406、通过截至频率为250Hz的巴特沃斯滤波器，将高频信噪比增强后的时频谱和高频信噪比增强前的原时频谱进行加权整合，获得信噪比增强的时频谱，具体公式为：

S_r＝αS_o+(1-α)S_h

其中，S_r表示信噪比增强的时频谱，S_o表示高频信噪比增强前的原时频谱，S_h表示高频信噪比增强的时频谱，α表示加权系数；

其中，f表示频率，α(f)表示加权系数α在频率f时的值。

6.根据权利要求5所述的基于毫米波信号非接触式耳机语音感知方法，其特征在于，步骤S404中，将步骤S3中获取的相位变化转化为时频谱的具体内容为：

S4041、将时序信号按顺序平均分为N段，每段M个采样点；

S4042、对每段信号做快速傅里叶变换计算，将其从时域转化为频域，信号长度仍为M个点；

S4043、将N段频域信号拼接，得到大小为M×N的时频谱。

7.根据权利要求1所述的基于毫米波信号非接触式耳机语音感知方法，其特征在于，步骤S5中，训练条件生成对抗网络模型包括以下子步骤：

S501、条件生成对抗网络模型包括一个条件生成器G和一个判别器D，条件生成器G包含四层全连接层，激活函数为LeakyReLU；判别器D包含三层全连接层，激活函数为Sigmoid；

S502、合成训练数据：随机从语音数据集中选取一条语音样本，并将其转化为时频谱；

S503、设计0-20kHz线性增加的声波信号，通过耳机进行播放，同时使用毫米波雷达感知耳机播放音频产生的振动信号，其获得的信号响应即为通道频率响应；

S504、将步骤S502中获得的时频谱乘以毫米波信号的通道频率响应，得到理想语音振动的时频谱，具体公式为：

z₁＝z₀×R(f)

其中，z₁表示理想语音振动的时频谱，z₀表示步骤S502中的时频谱，R(f)表示通道频率响应；

S505、在步骤S504中获得的时频谱上添加正态分布的噪声，得到一条合成的训练时频谱，具体公式为：

z₂＝z₁+β(δ_r+jδ_i)

其中，z₂表示合成的训练时频谱；δ_r表示信号实部添加的噪声，满足正态分布δ_r～N(μ₁,σ₁)，μ₁和σ₁分别为正态分布的均值和标准差，均在[0，1]范围内随机取值；δ_i表示信号虚部添加的噪声，满足正态分布δ_i～N(μ₂,σ₂)，μ₂和σ₂分别为正态分布的均值和标准差，均在[0，1]范围内随机取值；β表示噪声系数，在[1，10]范围内随机取值；j表示虚数符号；

S506、重复步骤S502-S505，直到生成训练数据的数量达到K条；

S507、利用步骤S506生成的训练数据对条件生成对抗网络模型进行训练：固定条件生成器G的神经网络的权重参数，使用Adam方法训练判别器D，损失函数为均方误差，生成器生成的频谱图与真实语音频谱图之间满足max_D V(D,G)；

S508、固定判别器D的神经网络的权重参数，使用Adam方法训练条件生成器G，损失函数为交叉熵，生成器G生成的细节增强的时频谱与真实语音时频谱之间满足min_G[max_D V(D,G)]；

8.根据权利要求1所述的基于毫米波信号非接触式耳机语音感知方法，其特征在于，步骤S6中，得到感知的语音信号包括以下内容：

S601、将步骤S4中获得的信噪比增强的时频谱输入到训练完成的条件生成对抗网络模型中，经过条件生成器G的处理，得到细节增强的时频谱；

其中，S为时频谱数据，y为反变换得到的感知的语音信号。

9.基于毫米波信号非接触式耳机语音感知系统，其特征在于，包括

回波信号接收模块，用于使用毫米波雷达将调制后的毫米波信号作为发射信号发送到目标耳机，并接收耳机反射的回波信号；

距离计算模块，用于将发射信号和回波信号混频后得到中频信号，通过中频信号的频率计算雷达和反射器之间的距离；

微小振动位移变化获得模块，用于在获取雷达与反射器之间的距离的基础上，提取目标距离下相位变化，获得微小振动位移变化；

信噪比增强的时频谱获得模块，用于将微小振动位移变化获得模块中获取的相位变化转化到时频谱上，捕获到时频谱中1000Hz以下的低频成分，利用DNN增强时频谱中1000Hz以上的高频成分，得到信噪比增强的时频谱；

模型训练模块，用于构建条件生成对抗网络模型，使用现有公共语音数据集中的音频合成训练数据，对该模型进行训练；