CN112181148A

CN112181148A - 一种基于强化学习的多模态人机交互方法

Info

Publication number: CN112181148A
Application number: CN202011053448.1A
Authority: CN
Inventors: 印二威; 裴育; 闫慧炯; 谢良; 邓宝松; 范晓丽; 罗治国; 闫野
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-05
Also published as: CN113268143B; CN113268143A

Abstract

针对传统人机交互方法中数据不匹配而带来的性能瓶颈问题，本发明公开了一种基于强化学习的多模态人机交互方法，包括以下步骤：采集用户数据，要求用户佩戴相应的可穿戴传感器，可穿戴传感器记录用户数据，所记录的数据构成训练集和测试集；在流式数据集上离线构建分类算法模型；应用所构建好的分类算法模型，进行人机交互。对于同步人机交互方法，根据指令同步标签对数据进行切分，将数据送入分类算法模型进行分类；对于异步人机交互方法，根据同步时间起点切割数据，将切割后的数据作为分类模型的输入样本。本发明直接从流式数据上开始构建模型，避免了传统人机交互方法开发过程繁杂、性能上限不高的问题，具有更好的稳定性。

Description

一种基于强化学习的多模态人机交互方法

技术领域

本发明涉及到人机交互和可穿戴传感器领域，是一种基于强化学习的人机交互方法。

背景技术

人机交互(Human-computer interaction，简称HCI)是研究人与计算机之间通过相互理解的交流与通信，在最大程度上为人们完成信息管理，服务和处理等功能，使计算机真正成为人们工作学习的和谐助手的一门技术科学。

近年来，随着集成电子技术的发展，电子传感器体积越来越小，功能越来越强。基于可穿戴传感器的人机交互方法逐渐得到应用。根据传感器捕捉的信息的类型，可将人机交互方法分为：手势、眼动等人机交互方法。基于手势识别的人机交互方法，需要用户佩戴一副包含运动传感器的数据手套，该数据手套可以实时采集用户的手部运动信息，通过计算机识别并推测用户的行为意图达到人机协同工作、人机交互的目的；基于眼动的人机交互方法，这种系统通过在额头附近放置一对高速微型摄像头，通过实时捕捉眼动图像来判断眼动信息，来达到人机交互目的。根据在线控制策略，可将人机交互方法分为同步人机交互方法和异步人机交互方法。同步与异步人机交互方法之间最大的区别在于，在线应用时，算法模型是否能够准确的获得每个动作的开始时间点。在同步人机交互方法中，用户需要特意跟随系统的节奏来发送指令，这样算法模型就能够准确识别每个动作的起始时间。然而异步人机交互方法要求能够对任意时间点开始动作识别出正确的结果，这种系统对对算法模型的要求就会很高。

在异步人机交互方法中，对于判断用户是否开始动作起始点的阈值，一般是难以设计的。如果需要进一步提高异步交互系统的性能的话，则需要设计一个在线动态决策方法，这已经超出了基于静态分类模型的框架。因此，现行人机交互有一个非常重要的缺点：在构建分类算法模型时使用的数据是分段的，而实际应用时数据是连续不断的流式数据。数据形态的差异导致了难以选择的起始点阈值和难以设计的在线动态策略的问题，这两个问题成为了制约现有人机交互方法的性能的技术瓶颈。为了突破这个技术瓶颈，需要直接从流式数据上构建识别模型，这样离线构建模型的阶段与在线应用的阶段模型面对的数据形态是一致的，有望进一步提高人机交互方法的性能。

强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。强化学习与连接主义学习中的监督学习的区别，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作，其强化信号通常为标量信号。在强化学习的领域中，有一个经典问题，‘倒立摆’问题。这个问题中，要求控制系统在每次观测到倒立摆的位置、速度、角度、角速度后，给出一个+10N或-10N的力，使倒立摆尽可能的达到平衡并不倾倒。在这个问题中，强化学习模型面对的就是连续不断的被观测到的流式数据，与人机交互方法中通过可穿戴传感器观测人体行为数据非常类似。强化学习非常适合于流式数据上的动态决策。所以本发明，将强化学习框架，引入到的人机交互方法的设计中，期望突破传统交互系统设计方法中段数据与流式数据不匹配而带来的性能瓶颈。

发明内容

针对传统交互系统设计方法中段数据与流式数据不匹配而带来的性能瓶颈问题，本发明公开了一种基于强化学习的多模态人机交互方法，包括以下步骤：

S1，采集用户数据。要求用户佩戴相应的可穿戴传感器，按照提示界面做出相应动作，可穿戴传感器记录用户数据，所记录的数据根据指令同步标签和每个动作的时间被切割成分段的数据，然后构成训练集和测试集，作为流式数据集用以构建分类算法模型。

S2，在流式数据集上离线构建分类算法模型。

S3，应用S2步骤构建好的分类算法模型，进行人机交互。对于同步人机交互方法，需要根据指令同步标签，将从传感器上实时接收到的数据，按照离线构建分类算法模型时相同的数据格式切分，然后将切分后的数据送入分类算法模型取得分类结果；对于异步人机交互方法，设定一个阈值以判断用户是否开始动作，将这个时间点作为同步时间起点，再以预设的时间窗口长度切割数据，作为分类模型的输入样本。

所述的步骤S2，具体包括：

应用强化学习模型构建分类算法模型，强化学习模型包含两个组件：智能体(Agent)和环境(Environment)。智能体从环境中观测数据，即数据流从环境流向智能体。智能体根据其观测到的数据，对环境做出决策，即发出指令。环境接收到来自智能体的指令后，反馈给智能体相应的奖励，然后改变自身的状态，继续向智能体发送数据。智能体包含决策模块和数据暂存区。智能体在每个采样时刻都会接收到一个来自环境的观测值，即来自可穿戴传感器的用户行为动作数据O_t，智能体根据O_t和数据暂存区构成一个时间窗口，决策模块根据这个时间窗口决策系统动作A_t(Action)，输出指令后智能体更新数据暂存区，将O_t加入其中，并丢弃最远时刻的环境观测值。

在分类算法模型构建过程中，智能体在训练集中随机进行采样，即随机选取一段连续时间信号数据，然后将这段数据按帧送入智能体中，智能体会在每一帧输出一个指令，并选取第一个非wait指令的输出时间点，智能体按照奖励函数规律获得奖励，智能体随机采样若干次，累计若干次的奖励值然后取平均值。智能体的决策模块包含可学习参数，使用梯度法将该学习参数向更优的方向更新。

所述的使用梯度法将该学习参数向更优的方向更新，通过平均奖励值，计算出智能体决策模块中每个参数的梯度，使用梯度上升法更新可学习参数，反复该过程直到达到预定的迭代次数。

所述的分类算法模型中，用户行为动作数据是一个有限集，行为动作数据集为{向左，向右，停止，前进}∪{wait}，wait表示不输出判断结果，继续收集数据。

所述的决策模块用卷积神经网络实现，其内部采用可学习参数。

所述的强化学习模型中的奖励函数设置为：

其中，O_t是t时刻向后一段时间的观测值，即一段暂存的连续采样数据。a_t是t时刻的决策值，它是每个时刻智能体的输出值，即对该时刻的预测标签，real label y是该时刻的真实标签。如果输出值正确，则智能体获得+1的奖励，如果智能体输出错误，则会获得-1的奖励；如果智能体输出等待，则会受到惩罚，其惩罚随着响应时间的递增而递增。λ和p是权衡因子，其取值影响着智能体在更早输出结果和更准输出结果之间的去向，根据需要确定取值。

本发明的有益效果在于：

(1)本发明直接从流式数据上开始构建模型，避免了传统的人机交互方法开发过程中，先对数据进行分段，然后在分段后的数据集训练分类算法模型，再在线应用的过程。传统开发方法，在离线阶段与在线阶段中，数据形态同导致了交互系统的性能上限不高，而本发明直接从连续数据上使用强化学习的方法论对人机交互问题进行建模，解决了这一问题，所以按照本方法开发设计的新型人机交互方法具有更好的性能，更好的稳定性。

(2)本发明改变了传统人机交互方法的建模方法，把它重新建模为一个动态时间序列的决策问题，并用强化学习加以解决。强化学习方法是近年来人工智能领域飞速发展的子领域，其后续的发展都会支撑本发明进一步迭代更新，会提高系统的性能上限。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分。本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明中所用的强化学习基本架构图。

图2为本发明中所用的Agent结构图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

本发明实施例中，提出了基于强化学习的人机交互方法，包括以下步骤：

S2，在流式数据集上离线构建分类算法模型。

本方法面向异步人机交互方法，不再需要人工设定阈值确定动作起始点，只需要把传感器上每一帧采集到的数据送入的强化学习算法的模型中，然后将模型的输出作为指令输出即可。

所述的步骤S2，具体包括：

应用强化学习模型构建分类算法模型，强化学习模型包含两个组件：智能体(Agent)和环境(Environment)。智能体从环境中观测数据，即数据流从环境流向智能体。智能体根据其观测到的数据，对环境做出决策，即发出指令。环境接收到来自智能体的指令后，反馈给智能体相应的奖励，然后改变自身的状态，继续向智能体发送数据。智能体对应着传统人机交互设计中的分类算法模型，环境对应着人机交互方法中的可穿戴传感器。智能体包含决策模块和数据暂存区。智能体在每个采样时刻都会接收到一个来自环境的观测值，即来自可穿戴传感器的用户行为动作数据O_t，智能体根据O_t和数据暂存区构成一个时间窗口，决策模块根据这个时间窗口决策系统动作A_t(Action)，输出指令后智能体更新数据暂存区，将O_t加入其中，并丢弃最远时刻的环境观测值。

在分类算法模型构建过程中，智能体在训练集中随机进行采样，即随机选取一段连续时间信号数据，然后将这段数据按帧送入智能体中，智能体会在每一帧输出一个指令，并选取第一个非wait指令的输出时间点，智能体按照奖励函数规律获得奖励，智能体随机采样若干次，累计若干次的奖励值然后取平均值。智能体的决策模块包含可学习参数，决策模块使用梯度法将该学习参数向更优的方向更新。

所述的决策模块使用梯度法将该学习参数向更优的方向更新，通过平均奖励值，计算出智能体决策模块中每个参数的梯度，使用梯度上升法更新可学习参数，反复该过程直到达到预定的迭代次数。

在智能体内部设置有一段暂存空间，保存最近一段时间的行为动作观测值，从而使智能体的观测值不再是单帧的观测值，而是连续的一段观测值，这对于人机交互方法是必要的。单帧的观测值不能捕获足够量的信息，人机交互方法的数据信息大部分隐藏在时域和频域中。

人机交互方法的性能评估指标包括响应时间、准确率、误报率。所述的强化学习模型中的奖励函数设置为：

其中，O_t是t时刻向后一段时间的观测值，即一段暂存的连续采样数据。a_t是t时刻的决策值，它是每个时刻智能体的输出值，即对该时刻的预测标签，real label y是该时刻的真实标签，p为时间变量指数。如果输出值正确，则智能体获得+1的奖励，如果智能体输出错误，则会获得-1的奖励；如果智能体输出等待，则会受到惩罚，其惩罚随着响应时间的递增而递增。λ和p是权衡因子，其取值影响着智能体在更早输出结果和更准输出结果之间的去向，根据需要确定取值。

对于强化学习模型的训练过程，需要智能体不断的与环境交互，根据获得的奖励来优化自身的决策网络的参数。

图1为强化学习基本架构图。架构中主要包含两个组件：1)智能体(Agent)、2)环境(Environment)。智能体对应着传统人机交互设计中的分类算法模型，环境对应着人机交互方法中的可穿戴传感器。智能体内部的决策模块在每个采样时刻都会接收到一个来自环境的观测值，也就是来自可穿戴传感器的用户的行为数据O_t，决策模块根据O_t决策系统此刻动作A_t(Action)。以手势人机交互方法为例，动作是一个有限集，它可以是{向左，向右，停止，前进}∪{wait},wait表示不输出判断结果，继续收集数据。决策模块可选的一种实现是卷积神经网络，该网络是近年流行的神经网络的一种，具有非常强的表示能力。

图2为适配到人机交互领域中的智能体结构图。由于在很多人机交互模态中，其特征主要体现在时间域上。所以将强化学习框架引入到人机交互领域中，需要对它的观测量O_t进行调整。如图2，在智能体内部会有一段暂存空间，这里会保存最近一段时间的观测值。也就是说，经过调整的智能体的观测值不再是单帧的观测值，而是连续的一段观测值。

对于强化学习模型的训练过程，强化学习模型的训练不同于有监督机器学习从样本的标签获得信息。在强化学习的训练中，需要智能体不断的与环境交互，根据获得的奖励来优化自身的决策网络的参数。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于强化学习的多模态人机交互方法，其特征在于，包括以下步骤：

S1，采集用户数据；要求用户佩戴相应的可穿戴传感器，按照提示界面做出相应动作，可穿戴传感器记录用户数据，所记录的数据根据指令同步标签和每个动作的时间被切割成分段的数据，然后构成训练集和测试集，作为流式数据集用以构建分类算法模型；

S2，在流式数据集上离线构建分类算法模型；

S3，应用S2步骤构建好的分类算法模型，进行人机交互；对于同步人机交互方法，根据指令同步标签，将从传感器上实时接收到的数据，按照离线构建分类算法模型时相同的数据格式切分，然后将切分后的数据送入分类算法模型取得分类结果；对于异步人机交互方法，设定一个阈值以判断用户是否开始动作，将这个时间点作为同步时间起点，再以预设的时间窗口长度切割数据，作为分类模型的输入样本。

2.如权利要求1所述的基于强化学习的多模态人机交互方法，其特征在于，所述的步骤S2，具体包括：

应用强化学习模型构建分类算法模型，强化学习模型包含两个组件：智能体和环境；智能体从环境中观测数据，即数据流从环境流向智能体；智能体根据其观测到的数据，对环境做出决策，即发出指令；环境接收到来自智能体的指令后，反馈给智能体相应的奖励，然后改变自身的状态，继续向智能体发送数据；智能体包含决策模块和数据暂存区；智能体在每个采样时刻都会接收到一个来自环境的观测值，即来自可穿戴传感器的用户行为动作数据O_t，智能体根据O_t和数据暂存区构成一个时间窗口，决策模块根据这个时间窗口决策系统动作A_t，输出指令后智能体更新数据暂存区，将O_t加入其中，并丢弃最远时刻的环境观测值；

在分类算法模型构建过程中，智能体在训练集中随机进行采样，即随机选取一段连续时间信号数据，然后将这段数据按帧送入智能体中，智能体会在每一帧输出一个指令，并选取第一个非wait指令的输出时间点，智能体按照奖励函数规律获得奖励，智能体随机采样若干次，累计若干次的奖励值然后取平均值；智能体的决策模块包含可学习参数，决策模块使用梯度法将该学习参数向更优的方向更新。

3.如权利要求2所述的基于强化学习的多模态人机交互方法，其特征在于，所述的决策模块使用梯度法将该学习参数向更优的方向更新，通过平均奖励值，计算出智能体决策模块中每个参数的梯度，使用梯度上升法更新可学习参数，反复该过程直到达到预定的迭代次数。

4.如权利要求2所述的基于强化学习的多模态人机交互方法，其特征在于，所述的分类算法模型中，用户行为动作数据是一个有限集，行为动作数据集为{向左，向右，停止，前进}∪{wait}，wait表示不输出判断结果，继续收集数据。

5.如权利要求2所述的基于强化学习的多模态人机交互方法，其特征在于，所述的决策模块用卷积神经网络实现，其内部采用可学习参数。

6.如权利要求2所述的基于强化学习的多模态人机交互方法，其特征在于，所述的强化学习模型中的奖励函数设置为：

其中，O_t是t时刻向后一段时间的观测值，即一段暂存的连续采样数据；a_t是t时刻的决策值，它是每个时刻智能体的输出值，即对该时刻的预测标签，real label y是该时刻的真实标签，p为时间变量指数；如果输出值正确，则智能体获得+1的奖励，如果智能体输出错误，则会获得-1的奖励；如果智能体输出等待，则会受到惩罚，其惩罚随着响应时间的递增而递增；λ和p是权衡因子，其取值影响着智能体在更早输出结果和更准输出结果之间的去向，根据需要确定取值。