CN116431005B

CN116431005B - 一种基于改进移动端唇语识别的无人机控制方法及系统

Info

Publication number: CN116431005B
Application number: CN202310667318.4A
Authority: CN
Inventors: 宋军; 侯志伟; 兰天; 宋志龙; 何舒平; 余涛
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-09-12
Anticipated expiration: 2043-06-07
Also published as: CN116431005A

Abstract

本发明涉及无人机控制技术领域，尤其涉及一种基于改进移动端唇语识别的无人机控制方法及系统，通过采集人脸视频，并进行预处理，获得唇语图像数据，对唇语图像进行识别，得到对应的唇语指令，从唇语指令中获得给定位置，根据无人机的实际位置和给定位置，得到位置误差，判断位置误差是否达到预设的触发条件，再根据无人机期望位置，终端滑模控制算法计算得到控制无人机输出，可以提高无人机在通信受限下的实时控制稳定性和精度，减少通信负担，在通信受限，算力不足情况下完成唇语识别无人机控制。

Description

一种基于改进移动端唇语识别的无人机控制方法及系统

技术领域

本发明涉及无人机控制技术领域，尤其涉及一种基于改进移动端唇语识别的无人机控制方法及系统。

背景技术

唇语识别是通过观察说话者嘴唇的运动变化序列从而识别出相应的文本信息，一般由视觉特征提取和分类识别两个阶段组成。随着对唇读的研究，为了保证在大型数据集上对唇部图像识别有更好的识别率，模型的深度在不断加深，导致模型的复杂度不断上升。

目前广泛应用的无人机控制算法多为PID控制，然而PID 控制用在无人机这种非线性强耦合的系统中会出现许多限制，系统在许多情况下也会遇到通信受限和算力不足的问题。

发明内容

有鉴于此，本发明的目的在于提出一种基于改进移动端唇语，以解决现有唇语识别无人机算法复杂度高、通信负担重的问题。

基于上述目的，本发明提供了一种基于改进移动端唇语识别的无人机控制方法，包括以下步骤：

S1、采集人脸视频，并进行预处理，获得唇语图像数据；

S2、对唇语图像进行识别，得到对应的唇语指令；

S3、从唇语指令中获得给定位置，根据无人机的实际位置和给定位置，得到位置误差；

S4、判断位置误差是否达到触发预设的触发条件，若达到则执行步骤S5，否则不向无人机发送控制指令；

S5、根据无人机期望位置，将期望位置与实际位置计算得出位置误差，送入外环位置控制环路；

S6、外环位置控制环路接收到期望位置后，经固定时间终端滑模控制算法计算出输出,/>，分别表示无人机在三个方向上的控制输出，在位置环路中控制算法中的滑模面及趋近率为：

其中，/>均为设定参数，D是扰动的上界，/>；

S7、给定偏航角，经过计算得出用于控制无人机高度的控制输出/>以及期望的俯仰角/>和偏航角/>，解耦公式为：

S8、得到经过姿态解耦所得和给定的角度后，将送入姿态控制环路，经姿态控制环路的控制算法计算后得出用于控制无人机的另外三个控制输出/>，分别表示无人机的偏航角控制输出、俯仰角控制输出和滚转角控制输出；

S9、将控制输出送入无人机更新无人机控制指令，并重新传回无人机状态。

优选地，预处理包括：

通过人脸检测库获取人脸关键点，提取视频帧中人脸图像的唇部区域，得到ROI序列；

将得到的ROI序列进行差分处理，提取唇语识别过程中的关键帧，得到数据预处理之后的唇语图像数据。

优选地，步骤S2进一步包括：

2-1、构建基于深度学习的唇语识别模型，作为教师网络，用于对学生网络进行指导；

2-2、通过教师网络指导学生网络进行训练，得到参数更少同时准确率与教师网络相同的学生网络；

2-3、将目标数据集送入学生网络，对预训练模型进行微调训练，得到需要的轻量化模型；

2-4、将得到的轻量化模型通过框架部署到移动端，采集用户的视频数据，识别预处理后的用户的唇语图像数据，输出用户指令的识别结果，即唇语指令；

2-5、将得到的用户指令的识别结果通过局域网发送给无人机。

优选地，教师网络采用的基于深度学习的唇语识别模型为2DConv+ResNet18+TCN，学生网络采用的唇语识别模型为2DConv+GhostNet+TCN，通过对教师网络提取知识，得到学生网络，通过使用带温度的softmax函数来软化教师网络的逻辑层输出作为学生网络的监督信息，公式为：

。

其中T代表温度，代表输出的概率值，/>代表输入数据z中第i个元素。

优选地，步骤2-3具体包括：

将使用轻量化网络对唇语图像数据集进行训练，并对网络进行微调，得到适用于唇语图像数据集的模型；

通过参数迁移的方式提取出学生网络的模型参数加载轻量化网络模型中，得到需要的轻量化模型。

优选地，根据无人机的实际位置和给定位置，得到位置误差包括：

唇语指令中的给定位置为，获得无人机的真实位置；

具体的，当用户发送左右飞指令时，;当用户发送前后飞指令时，/>;当用户发送上下飞指令时，/>,在符合无人机的真实场景下，/>；

t时刻的位置误差。

优选地，步骤S4进一步包括：

采用基于位置的事件触发控制算法，定义误差阈值为,其中,/>，/>为无人机实际位置，/>为采样时刻的无人机实际位置，/>是无人机期望位置，/>为采样时刻无人机的期望位置。触发阈值即可定义为：

其中为设定的触发阈值,在满足触发阈值时。

本说明书还提供一种基于改进移动端唇语识别的无人机控制系统，包括：

移动设备，用于采集人脸视频，并进行预处理，获得唇语图像数据；

图像识别模块，用于对唇语图像进行识别，得到对应的唇语指令；

无人机控制模块，用于执行上述方法中的步骤S3-S8，对无人机进行控制。

本发明的有益效果：

（1）本发明提出一种基于移动端的唇语控制无人机的方案，使用移动端设备实现在通讯受限、外部环境复杂情况下完成对无人机的控制。

（2）针对移动设备计算资源有限和模型鲁棒性较差的问题，本发明提出采用教师-学生网络的形式，提高模型的识别准确率，同时提升模型的鲁棒性，同时采用GhostNet轻量化网络，使模型可以在移动设备上运行。

（3）在通信受限，算力不足情况下，针对四旋翼无人机通信负担重，控制精度低的问题，本发明提出了一种基于事件触发机制的固定时间终端滑模控制算法的设计，利用该算法可以提高无人机在通信受限下的实时控制稳定性和精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例基于移动端的唇语控制无人机的系统结构框图。

图2为本发明的一个实施例基于事件触发的无人机位置控制的数据流图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1所示，本说明书实施例提供一种基于改进移动端唇语识别的无人机控制方法，包括以下步骤：

S1、采集人脸视频，并进行预处理，获得唇语图像数据；

具体来说，预处理过程包括：

S2、对唇语图像进行识别，得到对应的唇语指令；

具体来说，进一步包括：

2-3、将目标数据集送入学生网络，对预训练模型进行微调训练，得到需要的轻量化模型，如将使用轻量化网络对唇语图像数据集进行训练，并对网络进行微调，得到适用于唇语图像数据集的模型；

通过参数迁移的方式提取出学生网络的模型参数加载轻量化网络模型中，得到需要的轻量化模型；

举例来说，目标数据集是包括多名被试者、多种操作指令、多种角度和光照条件下的数据，所述的目标数据集的形式是包含视频数据和对应的数字标签，每个数字代表不同的指令，可采用Dlip库和OpenCV对目标数据集进行预处理。

如目标数据集可采用中文唇语数据集LRW-1000，LRW-1000是一个自然分布的大规模基准测试，用于在野外进行单词级别的语音阅读，包括1000个类和大约718,018个视频样本，这些样本来自2000多个个体演讲者。总共有100多万个汉字实例。每一类对应一个由一个或几个汉字组成的汉语单词的音节。此数据集旨在涵盖不同语音模式和成像条件的自然变异性，以应对实际应用中遇到的挑战。在各个类别的样本数量、视频分辨率、光照条件以及说话人的姿态、年龄、性别、化妆等属性上都有很大的变化。

在预训练模型的阶段实验验证结果如下表1：

表1

举例来说，教师网络采用的基于深度学习的唇语识别模型为2DConv+ResNet18+TCN，学生网络采用的唇语识别模型为2DConv+GhostNet+TCN，通过对教师网络提取知识，得到学生网络，通过使用带温度的softmax函数来软化教师网络的逻辑层输出作为学生网络的监督信息，公式为：

。

具体来说，无人机在接收到指令前基于事件触发机制控制输出不会发生变化，在接收到唇语指令后满足事件触发条件时开始更新控制算法的输出，如图2所示，利用基于位置的固定时间终端滑模控制进行轨迹跟踪；其中，移动端端经唇语识别算法模块，获得对应的唇语指令并给定位置，该位置为无人机需要跟踪的给定位置，为无人机的真实位置，由无人机中的GPS获得；具体的，当用户发送左右飞指令时，/>;当用户发送前后飞指令时，/>;当用户发送上下飞指令时，/>,在符合无人机的真实场景下，/>。

t时刻的位置误差。

S4、判断位置误差是否达到触发预设的触发条件，若达到则执行步骤S5，否则不向无人机发送控制指令（在受到扰动使位置误差达到触发条件时控制器也执行动作）；

具体来说，定义误差阈值为,其中/>,，/>为无人机实际位置，/>为采样时刻的无人机实际位置，是无人机期望位置，/>为采样时刻无人机的期望位置。触发阈值即可定义为：

其中为设定的触发阈值,在满足触发阈值时，即位置误差达到一定程度时事件触发。

在该步骤中，位置误差为。

其中，/>均为设定参数，根据无人机的物理参数具体设置，D是扰动的上界，/>；

S7、给定偏航角，经过计算得出用于控制无人机高度的控制输出/>以及期望的俯仰角/>和偏航角/>，解耦公式为

S8、得到经过姿态解耦所得和给定的角度后，将送入姿态控制环路，结合实际角度/>得出角度误差/>经姿态控制环路的滑模面和趋近律计算得出的控制算法用于控制无人机的另外三个控制输出/>，分别表示无人机的偏航角控制输出、俯仰角控制输出和滚转角控制输出；

本说明书实施例还提供一种基于改进移动端唇语识别的无人机控制系统，包括移动设备、图像识别模块和无人机控制模块，其中移动设备，用于采集人脸视频，并进行预处理，获得唇语图像数据；图像识别模块用于对唇语图像进行识别，得到对应的唇语指令；无人机控制模块用于执行上述方法，对无人机进行控制。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围（包括权利要求）被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进移动端唇语识别的无人机控制方法，其特征在于，所述方法包括以下步骤：

S1、采集人脸视频，并进行预处理，获得唇语图像数据；

S2、对唇语图像进行识别，得到对应的唇语指令；

S4、判断位置误差是否达到预设的触发条件，若达到则执行步骤S5，否则不向无人机发送控制指令；

S5、根据无人机期望位置，将期望位置与实际位置计算得出位置误差，将期望位置送入外环位置控制环路；

S6、外环位置控制环路接收到期望位置后，经固定时间终端滑模控制算法计算出输出,/>，分别表示无人机在x轴，y轴和z轴方向上的控制输出，在位置环路中控制算法中的滑模面s为：

趋近率为：

其中，/>均为设定参数，D是扰动的上界，/>，/> 表示位置误差，/>分别是三轴上的误差，/>是/>的导数，即速度误差；

其中，m表示无人机质量，为重力加速度，/>分别是无人机姿态角：俯仰角，滚转角，偏航角；

2.根据权利要求1所述的基于改进移动端唇语识别的无人机控制方法，其特征在于，所述预处理包括：

3.根据权利要求1所述的基于改进移动端唇语识别的无人机控制方法，其特征在于，步骤S2进一步包括：

4.根据权利要求3所述的基于改进移动端唇语识别的无人机控制方法，其特征在于，教师网络采用的基于深度学习的唇语识别模型为2DConv+ResNet18+TCN，学生网络采用的唇语识别模型为2DConv+GhostNet+TCN，通过对教师网络提取知识，得到学生网络，通过使用带温度的softmax函数来软化教师网络的逻辑层输出作为学生网络的监督信息，公式为：

;

其中T代表温度，代表输出的概率值，/>代表输入数据z中第i个元素，/>代表输入数据z中第j个元素。

5.根据权利要求3所述的基于改进移动端唇语识别的无人机控制方法，其特征在于，步骤2-3具体包括：

6.根据权利要求1所述的基于改进移动端唇语识别的无人机控制方法，其特征在于，所述根据无人机的实际位置和给定位置，得到位置误差包括：

唇语指令中的给定位置为，获得无人机的真实位置/>；

具体的，当用户发送左右飞指令时，;当用户发送前后飞指令时，;当用户发送上下飞指令时，/>,在符合无人机的真实场景下，/>；

t时刻的位置误差；

其中，分别为/>轴的期望位置，/>为无人机实际位置，/>是无人机期望位置。

7.根据权利要求6所述的基于改进移动端唇语识别的无人机控制方法，其特征在于，步骤S4进一步包括：

采用基于位置的事件触发控制算法，定义误差阈值为,其中, />，/>为无人机实际位置，/>为采样时刻的无人机实际位置，/>是无人机期望位置，/>为采样时刻无人机的期望位置,触发阈值定义为：

，

其中为设定的触发阈值,在满足触发阈值时，更新控制器的控制量，/>是第/>时刻的误差矩阵，/>是第/>采样时刻，/>是两个采样时刻之间的误差范数用于判定是否触发控制，公式中的：表示前一个不等式是后一个不等式的条件。

8.一种基于改进移动端唇语识别的无人机控制系统，其特征在于，包括：

无人机控制模块，用于执行如权利要求1-7中任意一项所述的方法中的步骤S3-S8，对无人机进行控制。