CN111752394A

CN111752394A - 非植入型可穿戴的双层电极舌触力反馈控制系统及装置

Info

Publication number: CN111752394A
Application number: CN202010829693.0A
Authority: CN
Inventors: 赵剑; 史丽娟; 何秉高; 匡哲君; 孙向阳; 秦宏伍; 王柳; 毕京晓; 陈岱民
Original assignee: Changchun University
Current assignee: Changchun University
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-10-09

Abstract

非植入型可穿戴的双层电极舌触力反馈控制系统及装置涉及人机交互技术领域，解决了现有舌触装置得到电极信息少的问题，包括支撑体、信息采集与传输模块、连接支撑体的舌触碰信息感知层、舌触力反馈层和胶质层，舌触碰信息感知层的下表面上设有下电极触点一，上表面上设有上电极触点一，胶质层上对应上电极触点一设有通孔，舌触力反馈层的下表面上对应通孔设有电极触点二，通过舌头用力碰触舌触碰信息感知层，上电极触点一能够接触到与其对应的电极触点二，此时上电极触点一和\或电极触点二发送上电极触点一的电极信号至信息采集与传输模块。通过本发明不仅能得到下电极触点一的电极信号，还能得到反馈舌触碰力度大的上电极触点一的电极信号。

Description

非植入型可穿戴的双层电极舌触力反馈控制系统及装置

技术领域

本发明涉及人机交互技术领域，具体涉及非植入型可穿戴的双层电极舌触力反馈控制系统及装置。

背景技术

目前，解决手部失能患者自主生活的辅助交互反馈装置包括脑机接口、眼机接口、表面肌电接口等。这些系统分别存在着信号不稳定、交互体验感差、抗疲劳能力弱等缺点。也存在装置结构复杂，成本过高，且不适用于严重身体残疾的中重度失能患者，特别是很难适应于重度上肢或手失能患者(脊柱神经损伤)应用的问题。

通过相关研究发现，舌是人类的“第三只手”，是人类体内最强肌肉之一，舌尖的作用类似指尖，舌触觉与手触觉的运动规模相差无几，舌头可以提供复杂的运动控制和操控能力，若能有效运用舌头的特点，通过舌机交互装置(Tongue Drive System，TDS)无障碍控制智能设备，就可以解决中重度失能患者失能早期的自主康复及失能后的生活自理的问题。

公开号为CN106648114A的名称为《舌机交互模型及装置》的专利中公开了一种单层电极反馈舌触辅助装置，其技术需要使用者通过舌触碰上颚电极点实现人机交互的控制设备。通过该装置只是通过舌头碰触传感器实现人机交互的相应控制，该舌触装置功能少，通过舌触得到的信息少，无法体现舌触的触碰力度，导致人机交互能实现的功能少，大大限制基于舌触的控制功能和控制精度，基于此，本发明提供非植入型可穿戴的双层电极舌触力反馈控制系统及装置。

现有的舌触装置没有考虑人类口腔各不相同的特点，也没有考虑失能患者舌运动的能力的差异，没有针对个人特点进行个性化控制方法，亟需一种根据使用者的身体情况划分指令控制区域的方法。

发明内容

为了解决现有舌触装置因不能具有根据舌触力的探测结构而使其能够得到的电极信息少的问题和亟需一种根据使用者的情况划分指令控制区域的方法，本发明提供非植入型可穿戴的双层电极舌触力反馈控制系统及装置，以及一种指令控制区域划分方法。

本发明为解决技术问题所采用的技术方案如下：

非植入型可穿戴的双层电极舌触力反馈控制装置，包括支撑体、舌触碰信息感知层和信息采集与传输模块，所述舌触碰信息感知层连接支撑体，舌触碰信息感知层的下表面上设有下电极触点一，所述下电极触点一连接信息采集与传输模块，舌头碰触下电极触点一时，下电极触点一发送下电极触点一的电极信号至信息采集与传输模块，所述舌触力反馈控制装置还包括舌触力反馈层和胶质层，所述舌触力反馈层、胶质层和舌触碰信息感知层从上至下顺次设置，舌触碰信息感知层的上表面上设有上电极触点一，胶质层上对应上电极触点一设有通孔，舌触力反馈层的下表面上对应通孔设有电极触点二，电极触点二连接信息采集与传输模块；通过舌头用力碰触舌触碰信息感知层，胶质层能够发生形变使得上电极触点一能够接触到与其对应的电极触点二，电极触点一接触电极触点二时，上电极触点一和\或电极触点二发送上电极触点一的电极信号至信息采集与传输模块。

包括所述非植入型可穿戴的双层电极舌触力反馈控制装置的双层电极舌触力反馈控制系统，系统还包括无线通讯装置，信息采集与传输模块采集的下电极触点一的电极信号和上电极触点一的电极信号发送至无线通讯装置上

双层电极舌触力反馈控制系统的指令控制区域划分方法，包括如下步骤：

步骤一、使用者佩戴舌触力反馈控制装置后多次用舌头触碰舌触碰信息感知层(1)，信息采集与传输模块(5)获得包括若干上电极触点一的电极信号和若干下电极触点一的电极信号的使用者舌触数据集；

步骤二、指令输入区域将学习精确指令控制区域的任务建模为第一马尔科夫模型，指令输入区域根据通用的舌触区域数据集对第一马尔科夫模型进行预训练特征向量得到训练后的第一马尔科夫模型，同时指令输入区域划分模块接收使用者舌触数据集并对使用者舌触数据集中的数据进行正确的数据预处理得到正确的舌触数据集，根据正确的舌触数据集对训练后的第一马尔科夫模型参数进行微调得到新的第一马尔科夫模型；将正确的舌触数据集输入新的第一马尔科夫模型后输出处理后舌触区域的状态数据，处理后舌触区域的状态数据作为策略梯度算法的输入，使用策略梯度算法沿梯度方向调整直至得到最优策略，根据最优策略得到划分的精确指令控制区域；

步骤三、判断是否需要对精确指令控制区域进行模糊化处理，若不需要，则精确指令控制区域作为最终使用的指令控制区域，指令控制区域划分完成；若需要，则进行步骤四；

步骤四、将精确指令控制区域对应使用者舌触数据集中的使用者舌触数据和通用的舌触区域数据集输入卷积神经网络，卷积神经网络通过学习通用的舌触区域数据集对精确指令控制区域对应使用者舌触数据集中的使用者舌触数据进行分类，建立第二马尔科夫模型并将卷积神经网络输出的数据输入第二马尔科夫模型，将第二马尔科夫模型的输出进行Q-Learning算法训练得到模糊化的指令控制区域，模糊化的指令控制区域作为最终使用的指令控制区域，指令控制区域划分完成。

本发明的有益效果是：

本发明的非植入型可穿戴的双层电极舌触力反馈控制系统及装置，不仅能得到下电极触点一的电极信号，通过设置舌触力反馈层、胶质层和上电极触点一还能得到上电极触点一的电极信号，通过电极触点二和上电极触点一的接触情况能够体现舌触碰力，通过上电极触点一的电极信号反馈舌触碰力度的大小。本发明的非植入型可穿戴的双层电极舌触力反馈控制系统及装置为人机交互中实现多功能、高精度的操控提供了基础，基于本发明也能够实现避免发生因舌头误碰下电极触点一引发人机交互操作事件。

本发明的双层电极舌触力反馈控制系统的指令控制区域划分方法，通过采用endto end处理数据，建立MDP模型后使用策略梯度算法沿梯度的方向不断学习、调整直至合适的区域，能够得到针对不同程度患者的契合控制指令；通过CNN对所有指令控制区域同时进行训练，采用CNN分类，再运用Q-Learning算法不断更新得到最优契合指令区域，使系统达到四肢失能患者个性化的控制目的；充分考虑人类口腔各不相同的特点，考虑了失能患者舌运动的能力的差异，实现针对个人特点的个性化指令控制区域划分。

附图说明

图1为本发明的非植入型可穿戴的双层电极舌触力反馈控制系统及装置的拆分状态结构图。

图2为本发明的非植入型可穿戴的双层电极舌触力反馈控制系统及装置的人机交互应用原理图。

图3为本发明的指令控制区域划分方法的步骤二的流程图。

图4为本发明的指令控制区域划分方法的步骤四的流程图。

图中：1、舌触碰信息感知层，101、上电极触点一，2、胶质层，201、通孔，3、舌触力反馈层，301、电极触点二，4、支撑体，401、咬合槽，5、信息采集与传输模块，6、无线通讯装置。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，非植入型可穿戴的双层电极舌触力反馈控制装置包括支撑体4、舌触力反馈层3、胶质层2、舌触碰信息感知层1、信息采集与传输模块5。

支撑体4，用于支撑舌触力反馈层3、胶质层2和舌触碰信息感知层1，支撑体4对应使用者上侧牙齿设置有咬合槽401。

信息采集与传输模块5设置在支撑体4内，连接舌触碰信息感知层1，用于接收舌触碰信息感知层1发送的电极信号，并将接收的电极信号发送出去。

舌触碰信息感知层1连接支撑体4，电连接信息采集与传输模块5。舌触碰信息感知层1包括基板一和电极触点一，电极触点一设置在基板一上，电极触点一包括设置在基板一下侧的下电极触点一和设置在基板一上侧的上电极触点一101。下电极触点一的数量通常为多个，下电极触点一通过连接下柔性电路一连接信息采集与传输模块5，上电极触点一101通过上柔性电路一连接信息采集与传输模块5。下电极触点一通过下连接线一连接信息采集与传输模块5，上电极触点一101通过上连接线一连接信息采集与传输模块5。具体为下电极触点一和下连接线一镀在基板一下侧表面上，下电极触点一和下连接线一构成一层柔性电极层，上电极触点一101和上连接线一镀在基板一上侧表面上，上电极触点一101和上连接线一构成一层柔性电极层。舌触碰信息感知层1下侧对应舌头，舌头能够触碰下电极触点一。舌头触碰到下电极触点一时，被触碰的下电极触点一通过下连接线一发送下电极触点一的电极信号至信息采集与传输模块5。

胶质层2连接舌触碰信息感知层1上侧表面，胶质层2采用柔性材料制作，胶质层2上对应上电极触点一101设有通孔201。上电极触点一101位于通孔201内。

舌触力反馈层3连接胶质层2，位于胶质层2上侧，舌触力反馈层3包括基板二和电极触点二301，电极触点二301设置在基板二的下表面，电极触点二301对应胶质层2的通孔201设置，即电极触点二301对应上电极触点一101设置，电极触点二301位于通孔201内，电极触点二301通过连接线二连接信息采集与传输模块5。具体为基板二下表面上镀有设有柔性电路二和电极触点二301，柔性电路二和电极触点二301构成一层柔性电极层。舌头触碰到舌触碰信息感知层1且舌头给舌触碰信息感知层1的力大于一定值时，胶质层2受到挤压发生形变，使得电极触点二301能够接触上电极触点一101，当舌头给舌触碰信息感知层1的力不大于上述一定值时，胶质层2复位，电极触点二301和上电极触点一101断开接触。上电极触点一101和电极触点二301的数量相同，均为若干个，不限定是否均匀设置。舌头用力大小不同，胶质层2受到挤压发生形变不同，电极触点二301和上电极触点一101的接触数量不同；舌头与舌触碰信息感知层1的接触位置不同，胶质层2形变的位置不同，则导致不同的电极触点二301和上电极触点一101接触。电极触点二301接触上电极触点一101时，接触电极触点二301的上电极触点一101通过上连接线一发送上电极触点一的电极信号至信息采集与传输模块5，或是接触上电极触点一101的电极触点二301通过连接线二发送上电极触点一的电极信号至信息采集与传输模块5，再或是接触电极触点二301的上电极触点一101和接触上电极触点一101的电极触点二301共同作用实现发送上电极触点一的电极信号至信息采集与传输模块5。

舌触力反馈层3与舌触碰信息感知层1之间放入由柔性材料制作的胶质层2，并根据舌触力反馈层3与舌触碰信息感知层1的电极触点的分布情况，在胶质层2表面进行通孔201加工；首先通过采集失能患者的个性化口腔内表面3D数据，根据口腔内表面3D数据设计舌触力反馈层3与支撑体4，根据口腔内表面3D数据或根据舌触力反馈层3和支撑体4设计胶质层2和舌触碰信息感知层1，设计完成后进行精密模具加工制作；支撑体4与舌触碰信息感知层1为一体化结构形式，以方便失能患者佩戴；舌触力反馈层3粘接胶质层2上表面，胶质层2下表面粘接舌触碰信息感知层1，通过粘结剂将这三者顺次粘接为一体，电极触点二301不接触上电极触点一101。舌触力反馈层3的上表面接触使用者上颚，支撑体4接触使用者牙齿。待使用者戴好本发明的非植入型可穿戴的双层电极舌触力反馈控制装置后，通过活动舌头，舌头能够触碰舌触碰信息感知层1的下电极触点一，舌头也能够给舌触碰信息感知层1向上的力，即舌头向上颚用力，电极触点二301能够接触上电极触点一101，未给舌触力反馈层3向下的力也未给舌触碰信息感知层1向上的力时电极触点二301不接触上电极触点一101，即胶质层2未受到进一步的挤压发生形变时，电极触点二301无法接触上电极触点一101。

非植入型可穿戴的双层电极舌触力反馈控制装置用于进行人机交互，根据使用者舌头对非植入型可穿戴的双层电极舌触力反馈控制装置的触碰得到的下电极触点一的电极信号能够得知姿态信号，根据上电极触点一的电极信号能够得知力度信号，根据姿态信号和力度信号对机器进行控制，实现人机交互，实现人机交互中使用者对机器的方位、速度、精度等参数进行控制。

非植入型可穿戴的双层电极舌触力反馈控制装置还包括电源装置，电源装置连接舌触力反馈层3、舌触碰信息感知层1和信息采集与传输模块5，电源装置为舌触力反馈层3、舌触碰信息感知层1和信息采集与传输模块5供电。

非植入型可穿戴的双层电极舌触力反馈控制系统，包括非植入型可穿戴的双层电极舌触力反馈控制装置和无线通讯装置6。信息采集与传输模块5信号连接无线通讯装置6，信息采集与传输模块5采集的下电极触点一的电极信号和上电极触点一的电极信号均能够发送至无线通讯装置6上。无线通讯装置6上载有数据处理器，数据处理器连接控制器，数据处理器对下电极触点一的电极信号和上电极触点一的电极信号进行数据处理，数据处理器对下电极触点一的电极信号进行处理得到姿态信号，数据处理器对上电极触点一的电极信号进行处理得到力度信号，优选的是数据处理器也可对上电极触点一的电极信号和下电极触点一的电极信号融合处理得到姿态信号和力度信号，数据处理器将姿态信号和力度信号发送至控制器，控制器接收并据此对人机交互的机器进行相关控制(姿态信号和力度信号融合)。

本发明的非植入型可穿戴的双层电极舌触力反馈控制系统及装置，不仅能得到下电极触点一的电极信号，还能得到上电极触点一的电极信号，通过电极触点二301和上电极触点一101的接触情况能够体现舌触碰力，通过上电极触点一的电极信号反馈舌触碰力度的大小。本发明的非植入型可穿戴的双层电极舌触力反馈控制装置为人机交互中实现多功能、高精度的操控提供了基础，基于本发明也能够实现避免发生因舌头误碰下电极触点一引发人机交互操作事件。

如图2，通过非植入型可穿戴的双层电极舌触力反馈控制系统基于其各电极触点能够实现感知舌触碰和感知舌处理，得到的电极信号经信息采集与传输模块5信号和无线通讯装置6后进行处理能够得到姿态信号和力度信号，经个性化融合控制算法得到相应的对(机)辅助装置(例如机械手、智能轮椅、智能家居等)的控制，然后(机)辅助装置再实现对人的作用。

对于非植入型可穿戴的双层电极舌触力反馈控制系统其上设有多个指令的输入区，每个指令控制区域有其对应的下电极触点一和上电极触点一101。根据不同的使用者，指令的输入区的具体位置不同、对应的电极触点不同、对应电极触点数量可能也不同。通常舌触装置设有四个指令控制区域，分别为向上指令的指令控制区域、向下指令的指令控制区域和向左指令的指令控制区域、向右指令的指令控制区域。本发明舌触装置还包括指令输入区域划分模块，数据处理器上载有指令输入区域划分模块。指令输入区域划分模块用于根据使用者触碰信息感知层得到的下电极触点一的电极信号和上电极触点一的电极信号划分指令控制区域，优选的是划分每类控制指令的最优的控制区域，根据舌头能实现触碰的能力(舌触力度、舌触面积等)划分指令控制区域。指令输入区域划分模块可设置在无线通讯装置6内。指令输入区域划分模块的指令控制区域划分方法包括如下步骤：

步骤一、使用者佩戴舌触装置后多次用舌头触碰舌触碰信息感知层1，信息采集与传输模块5得到若干上电极触点一的电极信号和若干下电极触点一的电极信号，信息采集与传输模块5将上电极触点一的电极信号和下电极触点一的电极信号发送至指令输入区域划分模块。电极信号为二进制数据。所有的电信号结果作为使用者舌触数据集，使用者舌触数据集包括上电极触点一的电极信号和下电极触点一的电极信号。

步骤二、指令输入区域将学习精确指令控制区域的任务建模为马尔科夫(MDP)模型，称之为第一马尔科夫模型，指令输入区域根据通用的舌触区域数据集对第一马尔科夫模型进行预训练特征向量得到训练后的第一马尔科夫模型，同时指令输入区域划分模块接收使用者舌触数据集，并对使用者舌触数据集中的数据进行正确的数据预处理得到正确的舌触数据集；根据正确的舌触数据集对训练后的第一马尔科夫模型参数进行微调得到新的第一马尔科夫模型，将正确的舌触数据集输入新的第一马尔科夫模型，新的第一马尔科夫模型输出处理后舌触区域的状态数据一，将处理后舌触区域的状态数据一作为策略梯度算法的输入，使用策略梯度算法沿梯度方向调整直至得到最优策略，根据最优策略得到舌触碰信息感知层1上的精确指令控制区域。

采用end-to-end优化思路，图3为本步骤的具体过程，具体描述如下：

指令输入区域划分模块上载有对双层电极舌触力反馈控制系统通用的舌触区域数据集。指令输入区域将学习精确指令控制区域的任务建模为一步马尔科夫(MDP)模型，该马尔科夫模型再本文中称之为第一马尔科夫模型；指令输入区域划分模块根据通用的舌触区域数据集对第一马尔科夫模型进行预训练特征向量得到训练后的马尔科夫模型，同时指令输入区域划分模块接收使用者舌触数据集中并对使用者舌触数据集的数据进行正确的数据预处理得到正确的舌触数据集；然后基于正确的舌触数据集对训练后的第一马尔科夫模型参数进行微调得到新的第一马尔科夫模型。指令输入区域划分模块将正确的舌触数据集输入新的马尔科夫模型后输出处理后舌触区域的状态数据一(即将空指令区域摒除)，处理后舌触区域的状态数据一包括舌部接触舌触碰信息感知层1时的力度、接触点和接触次数。处理后舌触区域的状态数据一作为策略梯度算法的输入(对应图3的“有效指令”)，进行策略梯度算法，策略梯度算法输出是选取某一类精确指令控制区域的概率。

此时策略π可以被描述为一个包含参数θ的函数，这里e∈R^d’作为策略的参数向量，其中d’表示θ的维度，故R^d’表示d’维空间，即策略π为：

π_θ(s，a)＝P(a|s，θ)≈π(a|s) (1)

其中，s表示舌触区域的状态，a表示采集的舌触区域的动作，公式(1)中的s和a取自处理后舌触区域的状态数据一中的数据。P(α|s，θ)表示状态转移概率，在当前状态s和一定的参数设定θ下采取任何可能动作a的概率。

将策略表示成一个连续的函数后，就可以用连续函数的优化方法来寻找最优的策略。

选取区域策略轨迹τ可定义为：

τ＝{s₁，a₁，r₁，s₂，a₂，r₂，…，s_i，a_i，r_i，…，s_k，a_k，r_k} (2)

其中，s_i为策略轨迹中第i步时舌触区域的状态；a_i为第i步时选取的舌触区域动作；r_i为在第i步时采取动作a_i后所得的奖赏值，i＝1，2，…，k，k表示策略轨迹的总步数。如果外部设备(人机交互的机器)正确执行指令，回报为1，未执行或者执行错误，回报为0。为了最大化期望累积奖赏，定义一个参数化策略π_θ的期望累积奖赏如下：

其中，

为选取区域策略轨迹的累积奖赏值，p_θ(τ)表示在参数θ下一条轨迹出现的概率，

表示τ关于分布p_θ(τ)的期望，R(τ)表示一条轨迹τ的回报。最大化期望后可以估计出梯度，然后根据策略公式更新参数θ直至策略收敛得到最优策略，通过最优策略产生的动作选取奖励最大的指令输入区域，即得到优化后的指令输入区域划分区域，得到精确指令控制区域。由于使用J(θ)表示的度量函数的梯度来学习策略参数，所以这里参数的更新近似对于J的梯度上升，公式如下：

其中，

表示策略梯度；η表示学习率，梯度上升时的步长。由此不断训练优化，实现自学习过程获得最大累积奖赏值的最优策略，进而实现最优控制，根据最优策略得到划分的精确指令控制区域，完成精确指令控制区域的划分。

每次执行上述步骤(即步骤二)完成一类指令的精确指令控制区域划分，重复执行步骤二直至所有类指令的精确指令控制区域划分完成，然后进行步骤三。

步骤三、使用者或使用者的服务人员根据使用者的身体状况(使用者舌头碰触舌触碰信息感知层1的具体情况，例如舌头的灵活程度等)判断是否需要对精确指令控制区域进行模糊化处理，若不需要，则精确指令控制区域作为最终使用的指令控制区域，即完成指令控制区域的划分；若需要，则进行步骤四，通过步骤四对精确指令控制区域进行模糊化处理以得到模糊化的指令控制区域。精确指令控制区域对应某个或某几个具体的电极触点，模糊化的指令控制区域对应具体的电极触点和位于具体的电极触电四周的部分电极触点。

步骤四、指令输入区域将通用的舌触区域数据集和精确指令控制区域对应使用者舌触数据集中的使用者舌触数据输入卷积神经网络，卷积神经网络通过学习通用的舌触区域数据集对精确指令控制区域对应使用者舌触数据集中的使用者舌触数据进行分类；建立马尔科夫模型(本文将此处的马尔科夫模型的称之为第二马尔科夫模型)并将卷积神经网络输出的数据输入第二马尔科夫模型，对第二马尔科夫模型输出的处理后舌触区域的状态数据二进行Q-Leaming算法训练得到模糊化的指令控制区域，模糊化的指令控制区域作为最终指令控制区域，完成指令控制区域的划分。

图4为步骤四的框图，步骤四具体为：

例如对使用者实验的上下左右四类指令区域同时进行训练，对精确指令控制区域对应的使用者舌触数据集统一进行训练的实验，采用卷积神经网络CNN首先对数据进行分类，卷积神经网络输入端为通用的舌触区域数据集以及精确指令控制区域对应使用者舌触数据集中的使用者舌触数据，通过学习通用的舌触区域数据集对精确指令控制区域对应使用者舌触数据集中的使用者舌触数据分类，即根据指令控制区域特征进行分类，分类为上下左右四大类；训练过程中对区域进行理解分类并摒弃近似区域，使数据信息更加准确。指令输入区域建立第二马尔科夫模型，并将卷积神经网络输出的数据输入第二马尔科夫模型，第二马尔科夫模型输出的数据为处理后舌触区域的状态数据二，对处理后舌触区域的状态数据二进行Q-Learning算法训练，即运用Q-learning算法创建Q表，需要初始化Q表每一个Q值，采取某一动作即选择某一区域并观察当前状态以及外部设备给予的奖励，状态表示当前舌触区域与通用控制区域构成的序列；动作表示选择合适区域；奖励指系统获得的回报，如果外部设备正确执行指令，回报为1，未执行或者执行错误，回报为0。随后使用Bellman方程更新Q值Q(s，a)：

NewQ(s，a)←Q(s，a)+α[R(s，a)+γQmax(s′，a′)-Q(s，a)] (5)

其中，NewQ(s，a)表示状态动作的新Q值；Q(s，a)为当前Q值；α为步长参数，又称学习率；R(s，a)为在状态s下采取动作a的奖励；公式(5)的s和a取自舌触区域的状态数据二；γ为折扣因子，折扣因子定义了来自未来的奖励对当前回报的计算具有多少影响，当折扣因子为0时，回报只考虑立即奖励，当γ＝1时，未来的所有奖励都会完整的计算到当前的回报中；Qmax(s′，a′)为最大预期未来奖励。通过更新Q表可以一直选择最佳的控制区域，得到每类控制指令的最优控制区域，即完成模糊化的指令控制区域的划分，最终实现个性化控制。

本发明的双层电极舌触力反馈控制系统的指令控制区域划分方法，通过采用endto end处理数据，建立MDP模型后使用策略梯度算法沿梯度的方向不断学习、调整直至合适的区域，能够得到针对不同程度患者的契合控制指令。通过CNN对所有指令控制区域同时进行训练，采用CNN分类，再运用Q-Learning算法不断更新得到最优契合指令区域，使系统达到四肢失能患者进一步个性化的控制目的。本发明的指令控制区域划分方法充分考虑人类口腔各不相同的特点，考虑了失能患者舌运动的能力的差异，实现针对个人特点的个性化指令控制区域划分，通过触觉反馈和力觉反馈，构建人(失能者)、机(辅助设备)、舌触觉交互接口设备的实时交互控制系统。

Claims

1.非植入型可穿戴的双层电极舌触力反馈控制装置，包括支撑体(4)、舌触碰信息感知层(1)和信息采集与传输模块(5)，所述舌触碰信息感知层(1)连接支撑体(4)，舌触碰信息感知层(1)的下表面上设有下电极触点一，所述下电极触点一连接信息采集与传输模块(5)，舌头碰触下电极触点一时，下电极触点一发送下电极触点一的电极信号至信息采集与传输模块(5)，其特征在于，所述舌触力反馈控制装置还包括舌触力反馈层(3)和胶质层(2)，所述舌触力反馈层(3)、胶质层(2)和舌触碰信息感知层(1)从上至下顺次设置，舌触碰信息感知层(1)的上表面上设有上电极触点一(101)，胶质层(2)上对应上电极触点一(101)设有通孔(201)，舌触力反馈层(3)的下表面上对应通孔(201)设有电极触点二(301)，电极触点二(301)连接信息采集与传输模块(5)；通过舌头用力碰触舌触碰信息感知层(1)，胶质层(2)能够发生形变使得上电极触点一(101)能够接触到与其对应的电极触点二(301)，电极触点一接触电极触点二(301)时，上电极触点一(101)和\或电极触点二(301)发送上电极触点一的电极信号至信息采集与传输模块(5)。

2.如权利要求1所述的非植入型可穿戴的双层电极舌触力反馈控制装置，其特征在于，所述舌触力反馈控制装置还包括电源装置，所述电源装置连接舌触力反馈层(3)、舌触碰信息感知层(1)和信息采集与传输模块(5)。

3.包括如权利要求1至2中任意一项所述非植入型可穿戴的双层电极舌触力反馈控制装置的双层电极舌触力反馈控制系统，其特征在于，系统还包括无线通讯装置(6)，信息采集与传输模块(5)采集的下电极触点一的电极信号和上电极触点一的电极信号发送至无线通讯装置(6)上。

4.如权利要求3所述的双层电极舌触力反馈控制系统，其特征在于，所述无线通讯装置(6)上载有数据处理器，数据处理器连接控制器，数据处理器对下电极触点一的电极信号进行处理得到姿态信号、对上电极触点一的电极信号进行处理得到力度信号、并将姿态信号和力度信号发送至人机交互机器的控制器。

5.如权利要求3所述的双层电极舌触力反馈控制系统，其特征在于，所述无线通讯装置(6)上载有指令输入区域划分模块，指令输入区域划分模块用于根据下电极触点一的电极信号和上电极触点一的电极信号划分指令控制区域。

6.如权利要求5所述的双层电极舌触力反馈控制系统的指令控制区域划分方法，其特征在于，包括如下步骤：

7.如权利要求6所述的双层电极舌触力反馈控制系统的指令控制区域划分方法，其特征在于，所述Q-Learning算法训练具体过程为：

创建Q表并初始化Q表每一个Q值；

使用Bellman方程更新Q值Q(s,a)：

NewQ(s，a)←Q(s，a)+α[R(s，a)+γQmax(s′，a′)-Q(s，a)]

其中，NewQ(s，a)表示状态动作的新Q值；Q(s，a)为当前Q值；α为步长参数；R(s，a)为在状态s下采取动作a的奖励；γ为折扣因子；Qmax(s′，a′)为最大预期未来奖励；

通过更新Q值的Q表选择每类控制指令的最优控制区域，最优控制区域为模糊化的指令控制区域。