CN111856422A

CN111856422A - 基于宽带多通道毫米波雷达的唇语识别方法

Info

Publication number: CN111856422A
Application number: CN202010637432.9A
Authority: CN
Inventors: 王虹现; 王开放; 张磊
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-30

Abstract

本发明公开了一种基于宽带多通道毫米波雷达的唇语识别方法，包括步骤：毫米波雷达获取待识别目标的回波信号，并对其进行脉压处理，得到运动目标的距离信息；对脉压结果进行二线对消，消除静止场景信号分量；对目标的嘴唇动作回波信号进行微多普勒分析；获取训练集，基于CNN神经网络建立唇语识别网络模型；采用训练集对唇语识别网络模型进行训练；将待识别目标的微多普勒图输入训练后的唇语识别网络，输出唇语识别结果。本发明应用毫米波雷达检测唇语动作，可以应用到高噪声弱光线的特殊场景下；利用毫米波雷达来检测人发音时嘴唇动作的反射信号生成的微多普勒特征信息来进行识别，实现微小动作的准确识别。

Description

基于宽带多通道毫米波雷达的唇语识别方法

技术领域

本发明涉及唇语识别技术领域，具体涉及基于宽带多通道毫米波雷达的唇语识别方法。

背景技术

唇语识别在动画电影的口型合成、身份认证、安全分析、语音识别辅助、单词识别等领域有着重要应用。对于一些环境较嘈杂，噪声干扰较严重的场景下也能很好对语音进行识别。当人说话出现交叉等复杂环境时，就可以在语音识别中结合唇语识别技术，从而使得在不同环境下的语音识别率较高。对于听说障碍的人士，唇语识别可以很好地帮助他们进行交流。特别的，当光照条件和天气条件恶劣的紧急状况情况下，现有的唇语识别技术无法对人们发出的紧急求救信息进行准确识别。

近些年来，各种技术在唇语识别领域得到了广泛的应用。许多基于计算机视觉的光学技术被广泛研究。然而，计算机视觉图像识别不仅需要大量的训练样本数据，还需要较强的计算能力。同时，本发明考虑由于光照条件的差异，研究如何在恶劣环境下(如夜间黑暗或者阳光直射下)提高识别的可靠性。最新的研究表明，除了传统的光学信号，WiFi信号开始被用于唇语识别。然而，WiFi信号受识别范围窄，识别精度低的限制。

与光学应用不同，毫米波雷达的性能不受照明条件和传感器距离的限制，此外，毫米波雷达还有一定穿透能力。因此，毫米波雷达可以应用到各种复杂环境下的唇语识别。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种基于宽带多通道毫米波雷达的唇语识别方法，本发明应用毫米波雷达检测唇语动作，可以应用到高噪声弱光线的特殊场景下；利用毫米波雷达来检测人发音时嘴唇动作的反射信号生成的微多普勒特征信息来进行识别，实现微小动作的准确识别。

为了达到上述目的，本发明采用以下技术方案予以实现。

基于宽带多通道毫米波雷达的唇语识别方法，包括以下步骤：

步骤1，毫米波雷达获取待识别目标的回波信号，对待识别目标的回波信号进行脉冲压缩处理，得到脉压后的回波信号及运动目标的距离信息；

步骤2，对所述脉压后的回波信号进行二线对消，以消除静止场景对应的信号分量，得到目标的嘴唇动作回波信号；

步骤3，根据运动目标的距离信息，在运动目标的距离范围内的目标的嘴唇动作回波信号进行微多普勒分析，得到待识别目标的嘴唇动作的微多普勒图；

步骤4，获取训练集，基于CNN神经网络建立唇语识别网络模型；

步骤5，采用训练集对唇语识别网络模型进行训练，得到训练后的唇语识别网络；

步骤6，将待识别目标的嘴唇动作的微多普勒图输入训练后的唇语识别网络，对待识别目标进行唇语识别分类，输出唇语识别结果。

进一步地，所述对待识别目标的回波信号进行脉冲压缩处理，具体为：

(1.1)设空间内待识别目标相对于雷达的距离为R，则待识别目标的回波信号，即接收信号表示为：

其中，j为虚数单位，f_c为雷达的起始频率，γ为调频斜率，t为慢时间，

为快时间，即一个发射波形内的时间；R_(t)为t时刻目标到参考接收天线的距离，c为光速；

(1.2)将接收信号与发射信号进行混频，得到中频回波信号；混频过程为：

其中，conj表示信号的共轭；

表示发射信号，发射信号的带宽B＝γ*T_r，T_r为一个发射信号的重复时间。

(1.3)对混频后的中频回波信号进行傅里叶变换，得到脉压后回波信号及对应的频率f_b(t)：

由上式可知，中频回波信号频率与目标距离成正比，则对中频回波信号进行傅里叶变换后，得出的频点与目标距离对应，由此得到目标的距离信息R_(t)。

进一步地，所述对所述脉压后的回波信号进行二线对消，具体为：将相邻两个发射波形对应的脉压后回波信号进行作差，使两个脉压后回波信号中静止场景对应的信号分量相消；而两个脉压后回波信号中运动目标对应的信号分量保留，即得到嘴唇动作对应信号。

进一步地，所述根据运动目标的距离信息，在运动目标的距离范围内的目标的嘴唇动作回波信号进行微多普勒分析，具体为：采用短时傅里叶变换进行时频分析，处理过程为：

(3.1)选取窗函数，在嘴唇动作回波信号上截取与窗函数的窗长L相同的数据长度；将截取的嘴唇动作回波信号与窗函数相乘，即滑窗处理，得到滑窗处理后数据；

(3.2)对滑窗处理后数据进行一维傅里叶变换，得到频域数据，将其作为微多普勒图中的一列数据；

(3.3)设滑窗每次移动一个数据采样点，则对嘴唇动作周期内的所有数据帧依次进行滑窗处理和一维傅里叶变换，对应得到(M-L)列数据，组成一幅微多普勒图，其中，M为嘴唇动作周期内的数据长度。

进一步地，所述获取训练集，具体为：

(4.1)获取同一目标的不同位置、不同唇语对应的回波数据，获取不同目标的相同位置、相同唇语对应的回波数据，获取不同唇语类型的回波数据；

其中，唇语类型包含英文字母和单词；由目标、位置、唇语类型确定一种特征，每种特征对应的回波数据至少2000张；且每张回波数据分别进行数据变换，以扩充数据量；

(4.2)对每张回波数据进行步骤1-步骤3的处理，得到对应微多普勒图；

(4.3)对每张微多普勒图进行归一化处理，使其大小变为N*N，并对每个样本打标签，形成训练集。

进一步地，所述采用训练集对唇语识别网络模型进行训练，具体为：

(5.1)对唇语识别网络模型中的网络参数进行随机初始化，随机初始化后网络参数服从高斯分布；

(5.2)将训练集中的样本依次输入初始化后的唇语识别网络，对唇语识别网络进行训练，采用随机梯度下降法沿负梯度方向进行网络参数优化更新，直至训练集中的所有样本分别完成训练，得到训练后的唇语识别网络。

与现有技术相比，本发明的有益效果为：

(1)本发明的唇语识别方法是一种全新的唇语识别技术，区别于以前任何光学图像和无线识别系统，可以应用到高噪声弱光线的特殊场景下。

(2)本发明利用嘴唇动作的微多普勒特征作为识别信息，微多普勒特征信息可以对微小嘴唇动作进行丰富信息提取，能够对复杂背景下的人员求救信号进行准确识别。

附图说明

下面结合附图和具体实施例对本发明做进一步详细说明。

图1是本发明的实现流程图；

图2是本发明实施例中一维距离脉压结果图；

图3是本发明实施例中二线对消后结果图；

图4是本发明实施例中嘴唇动作微多普勒图；

图5是本发明实施例中12种基本字母发音口形图；其中，(a)对应字母A，(b)对应字母B，(c)对应字母C，(d)对应字母M，(e)对应字母E，(f)对应字母I，(g)对应字母R，(h)对应字母S，(i)对应字母V，(j)对应字母W，(k)对应字母U，(l)对应字母Y；

图6是本发明实施例中CNN神经网络模型图；

图7是本发明实施例中不同环境下综合识别率结果图；

图8是本发明实施例中随距离变化识别率结果图；

图9是本发明实施例中12种基本字母识别率结果图；

图10是本发明实施例中10种单词识别率结果图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域的技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。

参考图1，本发明提供的一种宽带多通道毫米波雷达唇语识别方法，按照以下步骤实施：

(1.1)FMCW(调频连续波)雷达发射信号，并对目标进行回波的录取；则雷达的发射信号为：

为快时间，即一个发射波形内的时间；发射信号的带宽B＝γ*T_r，T_r为一个发射信号的重复时间。

FMCW雷达的接收通道进行回波录取，设空间内有一目标，空间内待识别目标相对于雷达的距离为R，则待识别目标的回波信号，即接收信号表示为：

(1.2)混频器将接收信号与发射信号进行混频，得到中频回波信号；混频过程为：

其中，conj表示信号的共轭；

因此，对于该目标的混频后的中频回波信号为：

上式中，指数项中第一项为混频后的多普勒项，包含了运动目标的多普勒信息，在进行多个chirp的相干处理时，该多普勒项被提取出来。第二项为距离项，包含目标到雷达的距离信息，在对混频信号进行FFT以后，得到的频率值与目标距离对应。第三项为混频后的RVP(剩余视频相位)项，RVP项的值非常小，远小于前两项，因此通常可以省略。

由上式可知，中频回波信号频率与目标距离成正比，则对中频回波信号进行傅里叶变换后，得出的频点与目标距离对应，由此得到目标的距离信息R_(t)。脉压后回波信号即脉压结果图如图2所示。

二线对消就是杂波对消，具体为：使用两个相邻发射波形对应的距离脉压结果进行差分，两个距离脉压结果的差分将静止场景对应的信号成分消除，动目标差分后，会保留嘴唇动目标的信号成分，完成静止场景的对消；

由于混频后的回波信号中包含静止目标和移动目标的回波数据，因此，将混频后的中频信号写成以下形式：

其中，a_s静止目标的回波幅度，a_m移动目标的回波幅度，R_s为静止目标的距离，R_m为移动目标的距离；N_s为静止目标的数量，N_m为移动目标的数量。

对于某一个静止目标来而言，其混频后的中频信号经过傅里叶变换后的结果里两个信号的分量完全相同，频率点对应的相位也相同。则对于静止目标的距离压缩后的频点，两个相邻发射信号对应的慢时间信号分别为：

其中，A_s为静止目标信号幅度。

因此，当两个发射信号对应的距离压缩结果进行相减时，静止目标对应的信号成分消除掉；

对于移动目标而言，距离压缩后的频点对应的相位不同，设N_m个移动目标中某一个目标的速度为v，相邻两个发射信号对应的目标的距离为R₀和R₀+v*T_r，其中，T_r为发射信号的持续时间，即两个发射信号的时间间隔；对于移动目标的距离压缩后的频点，两个相邻发射信号对应的慢时间信号分别为：

其中，A_m移动目标信号幅度。将两个相邻发射信号对应的慢时间信号K_m1、K_m2相减后，依旧有动目标对应的信号存在，达到静止场景对应信号消除，移动目标对应信号保留的目的。如图3为消除静止场景信号分量后(即杂波抑制后)保留的嘴唇动作信号图。

对于运动目标区域内的信号进行时频分析。选用短时傅里叶变换进行时频分析。具体地，短时傅里叶变换就是先把嘴唇动作信号函数和窗函数进行相乘，然后再进行一维的傅里叶变换。短时傅里叶变换的公式为：

其中，z(t)为输入信号，g(t)为窗函数，窗函数选择hamming窗。

但是，对于短时傅里叶变换，其时间分辨率和频率分辨率总是相互矛盾的。在信号的时频谱中，窗的长度决定频谱图的时间分辨率和频率分辨率。窗长越长，截取的信号越长，同时傅里叶变换后频率分辨率越高，时间分辨率越差。相反，窗长越短，截取的信号就越短，频率分辨率越差，时间分辨率越好。为了解决这个矛盾，保证时间分辨率的同时有一定的频率分辨率。选取每个嘴唇动作周期为40帧，长度为5120点；在时间维上选择滑窗长度为128点，迭代步长为1。对每次截取下来128点长度的信号与128点的窗函数相乘后在进行快速傅里叶变换。

根据信号长度5120、窗长128以及迭代步长1计算出窗滑动的次数为4992，也就是源信号分成列时信号的列数。在把每次快速傅里叶变换后的信号表示为列，确定每一列的值。最终得到一个128行，4992列的微多普勒图。如图4为嘴唇动作信号的微多普勒图像。

为了使数据集更加丰富多样，从两个角度考虑训练集的构建。一是从单张微多普勒图的可用性上；二是样本在不同应用环境下的丰富性。

一方面为了获得完整可用的微多普勒图，从两个方面考虑和确定唇语动作的观测时长：第一，为获取完整微多普勒图，观测时长需要大于嘴唇动作时长；第二，避免过多的冗余空闲时间占据观测时长，并尽可能减少数据处理的时间。为了解决这个问题，采用的雷达参数中，FMCW雷达每帧有129个扫频信号，每帧持续时间为40ms。实际中，唇语动作时长通常为0.5～1.5s。以40帧数据(持续时长约为1.2s)为观测时长对雷达信号进行分析。

另一方面，由于CNN参数数量庞大，为了避免过拟合，需要大量的不同情况下的训练数据。为了增加样本丰富性，从三个方面增加样本数量。首先使用不同实验人员的测量数据。当不同人说出同一个发音时，由于读音语速的不同和嘴唇动作细微差异，对最终的微多普勒特征会有不同影响。其次是同一实验人员的不同语速的测量数据。当同一个人以不同语速说出同一发音时，由于多普勒图时间维是固定的，所以唇语的周期是不同的。最后从不同距离和角度测量数据。实际上，人们面对雷达时，距离角度可能是千变万化的，不同的采集距离和不同的方向会使得反射信号变化不同。对于每种情况下的微多普勒图，采用仿射变换、旋转等方式进行数据扩充。

对扩充后的数据集的微多普勒图进行归一化处理，大小都变为214*214。对所有样本打好标签，构建起一个完整的训练数据集。如图5所示，为本发明实施例选择的12中基础字母对应的口型图，其作为标签图。

对于唇语动作的微多普勒特征，设计了一种如图6所示的CNN模型架构。不包含输入层，该模型的卷积神经网络共有8层，其中包含3个卷积层，3个池化层，1个全连接层和1个Softmax回归层。

示例性地，唇语识别网络模型的输入图像大小是经过归一化后的图像，即214×214的输入矩阵，也就是网络的输入层。第一个卷积层卷积核大小为5×5，卷积核数量为32个，得出32个特征图。卷积层计算公式为：

其中，f(x)是激活函数，b是偏置，ω^n,m是卷积核(n,m)位置对应的权值，N,M是卷积核的长和宽，u是上一层输出的特征值。

激活函数就是对卷积层的输出进行非线性操作，来提取更多特征信息。此处选用ReLU函数作为激活函数。ReLU函数表达式：

f(x)＝max(0,x)

在卷积层之后，采用池化层对输入的特征图进行特征选择以及信息过滤。第一个池化层的采样大小为2×2不重叠采样，与第一个卷积层相对应，得出32个特征图。具体计算如下：

式中，

为第l层中输出的第j个特征图，

为第l-1层中输出第j个特征图，down(·)为降池化函数。

类似地，第二个和第三个卷积层卷积核大小都为5×5，卷积核数量变为64，第二个和第三个池化层与卷积层对应。全连接层的神经元个数设置为500个，与第三个池化层进行全连接。全连接层后接Softmax分类器进行概率预测：

其中，N_c表示类别总数，softmax分类器的输入为

输出为预测概率向量

最后，回归层含有12个神经元，对全连接层输出的特征进行分类，得出12种基本口型。利用构建的数据集(即训练集)来训练网络，最终可以计算出12种基本口型和10种单词的识别率。

采用步骤5中训练好的唇语识别网络对待识别目标的嘴唇动作的微多普勒图进行识别分类，即可得到待识别目标嘴唇动作对应的字母或单词类型。

仿真实验

为了对系统进行多方位的评估，首先需要采集测试样本数据，实验中设定了12种基本口型的英文字母和10种英文单词，其中十二种英文字母如图5所示，分别为：(a)“A”(b)“B”(c)“C”(d)“M”(e)“E”(f)“I”(g)“R”(h)“S”(i)“V”(j)“W”(k)“U”(l)“Y”。十个单词分别为：(a)Hello、(b)Help、(c)Hand、(d)Ok、(e)Outside、(f)Save、(g)Stop、(h)Shut up、(i)Slow、(j)Go。

实验一：为了保证系统能够同时工作在干净和复杂的环境下，进行了对比实验。在复杂环境下，针对复杂固定目标干扰和周边动物体的干扰，实验设计了三种实验环境：1)复杂固定目标环境:志愿者做口型采集时，在旁边放置大量杂物。2)移动目标环境:在采集数据时，距离用户一米以外的空间中有2-3名人员任意走动。3)干净的环境：选择干净的实验室测量系统在无干扰情况下的性能。在雷达波束范围内并无其他静止目标和动目标，只有嘴唇动作。

图7展示了在上述三种环境下测试12种基本口型的准确率。从图上可以看出，系统在干净环境下能够实现92％的平均准确率。即使在充满固定目标和动态运动干扰的情况下，系统仍然能够很好地工作。这说明了本发明的杂波抑制和固定识别区域划定算法的有效性。

实验二：人们面对雷达时，距离可能是千变万化的。不同的采集距离和会使得反射信号变化不同。为了评估距离对于雷达系统的影响，本实验邀请十位志愿者在不同的距离上对着雷达做口型。考虑到不同距离对于系统的影响，实验要求志愿者嘴部到雷达的直线距离分别从20cm变化到70cm，每10cm做一次实验。最终的识别结果如图8所示。

从图8的结果看出，用户距离雷达越近，接收到的回波信号强度越强，识别率也会相对高一些。当距离在50cm以内时，对单个口型的识别正确率达到了85％以上，单词的识别率为75％以上。尽管随着距离的增大，准确率会下降，但距离为70cm时，系统识别单个口型仍然可以实现80％的正确率。

识别结果

在12种基本口型识别率中，平均分类精度为92.31％。为了分析错误的识别率，图9给出了12种基本口型的误差和识别率。从图9可以看出，12种基本口型都可以得到明显区分。

在12种基本口型识别率中，平均分类精度为83.31％。为了分析错误的识别率，图10中给出了10种基本口型的误差和识别率。从图10可以看出，10种单词都可以得到明显区分。

虽然，本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.基于宽带多通道毫米波雷达的唇语识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于宽带多通道毫米波雷达的唇语识别方法，其特征在于，所述对待识别目标的回波信号进行脉冲压缩处理，具体为：

其中，conj表示信号的共轭；

(1.3)对混频后的中频回波信号进行傅里叶变换，得到脉压后回波信号及对应的频率

3.根据权利要求1所述的基于宽带多通道毫米波雷达的唇语识别方法，其特征在于，所述对所述脉压后的回波信号进行二线对消，具体为：将相邻两个发射波形对应的脉压后回波信号进行作差，使两个脉压后回波信号中静止场景对应的信号分量相消；而两个脉压后回波信号中运动目标对应的信号分量保留，即得到嘴唇动作对应信号。

4.根据权利要求1所述的基于宽带多通道毫米波雷达的唇语识别方法，其特征在于，所述微多普勒分析为：采用短时傅里叶变换进行时频分析，即先把嘴唇动作信号和窗函数进行相乘，然后再对乘积结果进行一维傅里叶变换；其中，窗函数为hamming窗。

5.根据权利要求1所述的基于宽带多通道毫米波雷达的唇语识别方法，其特征在于，所述根据运动目标的距离信息，在运动目标的距离范围内的目标的嘴唇动作回波信号进行微多普勒分析，具体为：

(3.3)设滑窗每次移动一个数据采样点，则对嘴唇动作周期内的所有数据帧依次进行滑窗处理和一维傅里叶变换，对应得到(M-L)列数据，组成一幅微多普勒图；其中，M为嘴唇动作周期内的数据长度。

6.根据权利要求1所述的基于宽带多通道毫米波雷达的唇语识别方法，其特征在于，所述获取训练集，具体为：

7.根据权利要求1所述的基于宽带多通道毫米波雷达的唇语识别方法，其特征在于，所述采用训练集对唇语识别网络模型进行训练，具体为：