CN108304767A

CN108304767A - 基于多脑区协同计算的人类动作意图识别训练方法

Info

Publication number: CN108304767A
Application number: CN201711319214.5A
Authority: CN
Inventors: 赵宇轩; 曾毅; 王桂香; 赵菲菲
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-07-20
Anticipated expiration: 2037-12-12
Also published as: CN108304767B

Abstract

本发明属于认知神经科学领域，具体涉及一种基于多脑区协同计算的人类动作意图识别训练方法，包括：1，对人体动作进行图像采集；2，获取的人体关节信息，进行人体动作类别识别；3，基于类脑计算模型，采用多脑区协同计算的方式，依据人类执行的动作类别，计算机器人动作策略；4，输入对3所计算的机器人动作策略的正确性判断；5，基于4中输入的所述正确性判断，通过STDP机制调节所述类脑计算模型的参数；6，若4中输入的所述正确性判断为错误则执行1进行重复训练，直至4中输入的所述正确性判断为正确。本发明克服了传统人机交互技术中需要预先编程等不够灵活的缺点，提升了使用体验。

Description

基于多脑区协同计算的人类动作意图识别训练方法

技术领域

本发明属于认知神经科学领域，具体涉及一种基于多脑区协同计算的人类动作意图识别训练方法。

背景技术

随着人工智能技术和机器人制造技术的不断发展，机器人逐渐融入人类的日常生活之中。为了使机器人能够更好的服务于人类，适应性强并且简单灵活的人机交互技术必不可少。当前应用到家庭服务机器人的人机交互技术大都先由厂商编程好，然后指导用户通过语音命令或手势指令触发实现。这些方法虽然简单有效，但缺乏一定的灵活性，特别当编程程序同用户习惯相悖时，会导致用户体验满意度大幅下降。

本发明结合强化学习的脑机制，提出一种更为灵活的人机交互方式，仅仅通过“对”或“错”的简单语音反馈，即可使机器人学会理解人类的动作意图，更好的为人类服务。并且当人类动作对应的意图改变时，机器人可以在原有知识的基础上继续学习，既不会干扰已经学会且没有改变的动作-意图规则，也可以快速学习到新的规则。本发明通过人的简单反馈教会机器人理解用户自身意图，并可以让用户根据喜好选择合适的动作-意图规则，提高用户体验的满意度。

发明内容

为了解决现有技术中的上述问题，即为了解决机器人的人机交互灵活性不足的问题，本发明提出了一种基于多脑区协同计算的人类动作意图识别训练方法，包括以下步骤：

步骤S1，对人体动作进行图像采集；

步骤S2，基于步骤S1采集的人体动作的图像，获取的人体关节信息，进行人体动作类别识别；

步骤S3，基于类脑计算模型，采用多脑区协同计算的方式，根据用户的动作类别，计算机器人动作策略；

步骤S4，基于预设的动作-意图规则，输入对步骤S3所计算的机器人动作策略的正确性判断；所述正确性判断包括正确、错误两种类型；

步骤S5，基于步骤S4中输入的所述正确性判断，通过STDP机制调节所述类脑计算模型的参数；

步骤S6，若步骤S4中输入的所述正确性判断为错误则执行步骤S1进行重复训练，直至步骤S4中输入的所述正确性判断为正确。

进一步地，步骤S3中计算机器人动作策略后，还包括控制机器人按照所计算的动作策略执行动作；

步骤S4中所输入的对步骤S3所计算的机器人动作策略的正确性判断，为对机器人依照步骤S3所计算的机器人动作策略执行动作的正确性判断。

进一步地，所述类脑计算模型包括前额叶皮层功能模型、基底节功能模型、丘脑功能模型、初级运动皮层功能模型、眶额叶皮层功能模型、黑质致密部/外侧被盖部功能模型；

所述类脑计算模型中各功能模型均为采用脉冲神经元模型构建的神经网络模型，以模拟对应的脑部区域功能。

进一步地，步骤S3中所述“计算机器人动作策略”，其方法为：

将步骤S2中所识别的人体动作类别输入所述前额叶皮层功能模型；

所述前额叶皮层功能模型编码动作状态并将信息传入基底节功能模型；

所述基底节功能模型根据当前的动作状态进行意图决策。

进一步地，步骤S5所述“通过STDP机制调节所述类脑计算模型的参数”，其方法为：

步骤S4中输入的所述正确性判断通过丘脑功能模块输入眶额叶皮层功能模型；

眶额叶皮层功能模型将接收到的信息传入前额叶皮层功能模型和黑质致密部/外侧被盖部功能模型，正反馈信息和负反馈信息分别作用于黑质致密部/外侧被盖部功能模型的兴奋性神经元和抑制性神经元，通过STDP机制调节前额叶皮层功能模型和基底节功能模型间突触的连接权重；

其中，

所述正反馈信息为S4中输入的所述正确性判断为正确；

所述负反馈信息为S4中输入的所述正确性判断为错误。

进一步地，步骤S5所述“正反馈信息和负反馈信息分别作用于黑质致密部/外侧被盖部功能模型的兴奋性神经元和抑制性神经元，通过STDP机制调节前额叶皮层功能模型和基底节功能模型间突触的连接权重”，其方法为：

负反馈信息作用于所述黑质致密部/外侧被盖部功能模型中的抑制性神经元上，所述黑质致密部/外侧被盖部功能模型产生脉冲电流信号传入基底节功能模型使相关神经元模拟放电动作，基底节功能模块相关神经元放电早于前额叶皮层功能模型相关神经元放电，产生LTD效应，减弱对应突触的连接权值；

正反馈信息作用于所述黑质致密部/外侧被盖部功能模型中的兴奋性神经元上，所述黑质致密部/外侧被盖部功能模型产生脉冲电流信号传入基底节功能模块使相关神经元模拟放电动作，基底节功能模块相关神经元放电晚于前额叶皮层功能模型相关神经元放电，产生LTP效应，增强对应突触的连接权值。

进一步地，所述脉冲神经元模型计算公式为：

其中，dv为膜电位的变化量，du为膜电位恢复变量的变化量，dt为时间间隔，v为神经元的膜电位，u代表膜电位恢复变量，当膜电位v达到峰值30mV时，产生动作电位，膜电位和膜电位恢复变量进行更新；

I为突触电流。a、b、c、d为无量纲常数，a表示膜电位恢复变量的恢复速度；b表示膜电位恢复变量对膜电位的敏感度；c表示膜电位的复位值；d表示膜电位恢复变量的复位值。

进一步地，步骤S5中所述“通过STDP机制调节所述类脑计算模型的参数”，其计算公式为：

Δt＝T_PFC-T_BG

Δw_t＝f*W_t

W_t+1＝W_t+Δw_t

其中，f为突触间权值变化率，A+、A-分别为突触权值变化的最大值和最小值，τ+、τ-分别为时间常数，Δt为突触前神经元同突触后神经元放电的时间差，T_PFC为前额叶的放电时间、T_BG为基底节的放电时间，Δw_t为突触权值的变化量，W_t为当前的突触权值，W_t+1为更新后的权值，即用于下一时刻(t+1时刻)进行意图决策的突触权值。

进一步地，步骤S2中所述“获取的人体关节信息，进行人体动作类别识别”的方法为：

采用基于Kinect骨架信息的人体动作识别方法获取人体关节信息；

采用视觉皮层功能模型根据所获取的人体关节信息生成脉冲序列，进行对人体动作的识别；

其中，

所述人体关节信息包括关节的运动方向、关节间的相对位置。

进一步地，步骤S1采用摄像头对人体动作进行图像采集。

本发明具有如下优势：

(1)本发明受强化学习脑机制的启发，实现了相关脑区的认知功能建模。包括视觉皮层的动作识别功能，前额叶的动作状态表征及记忆功能，基底节的意图选择功能，丘脑的信息中转功能，初级运动皮层的运动控制功能，眶额叶的调节功能，最终实现认知任务。

(2)本发明所提的方法使用人类给予的简单反馈进行学习，便于操作，而且克服了传统人机交互技术中需要预先编程等不够灵活的缺点。

(3)本发明使用户参与到机器人的教导过程中来，并且可以依靠个人喜好定义相应的动作-意图规则，提高了用户体验的满意度。

(4)本发明所提的方法可以灵活适应动作-意图规则改变的情况。机器人可以在原有知识的基础上继续学习，既不会干扰已经学会且没有改变的动作-意图规则，也可以快速学习到新的规则。

(5)本发明扩展性及通用性良好，并具备良好的移植性，对预定义的动作和意图可以适当修改，便可以完成特定的动作意图理解。

附图说明

图1是本发明实施例的基于多脑区协同计算的人类动作意图识别训练方法流程示意图；

图2为本发明实施例的预定义的动作列表图；

图3为本发明实施例的预定义的意图列表图；

图4为本发明实施例的定义的动作-意图规则示意图；

图5为本发明实施例的学习过程动作状态识别的结果示意图；

图6为本发明实施例的学习过程根据动作状态进行意图决策的结果示意图；

图7为本发明实施例的学习过程根据机器人行为及预定义的动作-意图规则给予反馈的结果示意图；

图8为本发明实施例的学习完成后PFC-BG连接间的突触权重示意图；

图9为本发明实施例的修改的动作-意图规则示意图；

图10为本发明实施例的修改动作-意图规则后的PFC-BG连接间的突触权重示意图；

图11为本发明另一实施例的基于多脑区协同计算的人类动作意图识别训练方法的流程示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的基于多脑区协同计算的人类动作意图识别训练方法基于类脑计算模型来实现，如图1所示，包括对人体动作进行图像采集、进行人体动作类别识别、计算机器人动作策略、输入机器人动作策略的正确性判断、通过STDP机制调节所述类脑计算模型的参数、正确性判断为错误时继续进行重复训练。

类脑计算模型模拟脑区的功能来进行信息的处理和计算，模仿的脑区包括前额叶皮层(PFC，Prefrontal cortex)、基底节(BG，Basal ganglia)、丘脑(Thalamus)、初级运动皮层(Primary motor cortex，PMC)、眶额叶皮层(Orbitofrontal cortex、OFC)、黑质致密部/外侧被盖部(Substantianigra pars compacta/Ventral tegmental area，SNc/VTA)。

对应的类脑计算模型包括前额叶皮层功能模型、基底节功能模型、丘脑功能模型、初级运动皮层功能模型、眶额叶皮层功能模型、黑质致密部/外侧被盖部功能模型；所述类脑计算模型中各功能模型均为采用Izhikevich脉冲神经元模型构建的神经网络模型，以模拟对应的脑部区域功能。例如，前额叶皮层功能模型用于实现前额叶的动作状态表征及记忆功能，基底节功能模型用于实现基底节的意图选择功能，丘脑功能模型用于实现丘脑的信息中转功能，初级运动皮层功能模型用于实现初级运动皮层的运动控制功能，眶额叶皮层功能模型用于实现眶额叶的调节功能等。

Izhikevich脉冲神经元模型，该模型生物学真实性好，计算复杂度低，适合用于构建网络进行认知功能模拟。Izhikevich脉冲神经元模型计算公式如公式(1)、(2)、(3)所示：

其中，dv为膜电位的变化量，du为膜电位恢复变量的变化量，dt为时间间隔，v为神经元的膜电位，u代表膜电位恢复变量，当膜电位v达到峰值30mV时，产生动作电位，膜电位和膜电位恢复变量进行更新，I为突触电流。a、b、c、d为无量纲常数，a描述恢复变量的恢复速度，该值越高，恢复速度越快；b描述了恢复变量对膜电位的敏感度，其值越大越容易产生低阈值脉冲；c描述了膜电位的复位值，该值越高表示神经元越容易再次产生脉冲；d描述了膜电位恢复变量的复位值，该值越高表示神经元越不容易再次产生脉冲。不同的参数设定使神经元表现出不同的放电特性。

本发明实施例中类脑计算模型使用STDP机制(spike-timing dependentplasticity，脉冲时序依赖可塑性机制)进行学习，其计算公式如公式(4)-(7)所示：

Δt＝T_PFC-T_BG (5)

Δw_t＝f*W_t (6)

W_t+1＝W_t+Δw_t (7)

其中，f为突触间权值变化率，A+、A-分别为突触权值变化的最大值和最小值，τ+、τ-分别为时间常数，Δt为突触前神经元同突触后神经元放电的时间差，在模型中则表现为前额叶(PFC)同基底节(BG)间的放电时间差，若前额叶放电早于基底节，即Δt<0，则产生长时程增强(long-term potentiation，LTP)作用，突触连接增强，若前额叶放电晚于基底节，即Δt≥0，则产生长时程抑制(long-term depression，LTD)作用，突触连接减弱；T_PFC为前额叶的放电时间、T_BG为基底节的放电时间，Δw_t为突触权值的变化量，W_t为当前的突触权值，W_t+1为更新后的权值，即用于下一时刻(t+1时刻)进行意图决策的突触权值。

本发明实施例的方法还需要预定义动作及意义、以及定义动作-意图规则，例如，预定义X类动作及Y类意图，并进行动作和意图的对应，构成动作-意图规则。本实施例中预定义了12类动作和12类意图。图2展示了本发明中预定义的十二种动作，图3展示了十二种意图，图4展示了本实施例的动作-意图规则。

下面对本发明实施例的基于多脑区协同计算的人类动作意图识别训练方法进行详细说明，该方法包括以下步骤：

步骤S1，动作采集：对人体动作进行图像采集。

用户面向机器人执行任意动作，采用Kinect摄像头进行图像采集，捕捉人体关节信息。

步骤S2，动作识别：基于步骤S1采集的人体动作的图像，获取的人体关节信息，进行人体动作类别识别，也即人体动作状态表征。

利用Kinect摄像头进行图像采集获取人体关节信息，利用视觉皮层功能模型根据所获取的人体关节信息生成脉冲序列，进行对人体动作的识别；其中，所述人体关节信息包括关节的运动方向、关节间的相对位置，所述视觉皮层功能模型可以为基于尖峰神经网络构建的模拟大脑视觉皮层的手写体数字识别模型。

图5展示了本发明实验中动作识别的结果，为了更加直观的说明，对12种动作进行随机排列，每种动作重复15次。

步骤S3，意图决策：基于类脑计算模型，采用多脑区协同计算的方式，依据人类执行的动作类别，计算机器人动作策略。

在实际应用中，为了更方便的获取机器人动作策略，采用的方式是通过机器人动作策略驱动机器人进行相应的动作，以便更直观的观察。

更进一步的，步骤S3中计算机器人动作策略的方法为：将步骤S2中所识别的人体动作类别输入所述前额叶皮层功能模型；所述前额叶皮层功能模型编码动作状态并将信息传入基底节功能模型；所述基底节功能模型根据当前的动作状态进行意图决策，该模型中最先产生脉冲的神经元会抑制该脑区的其他神经元放电，产生脉冲的神经元表征决策结果。为了直观观察到机器人动作策略，还包括将决策结果通过丘脑功能模型将信息传输到初级运动皮层功能模型控制机器人动作执行。另外前额叶功能模型将动作状态传入眶额叶功能模型机型进行存储，丘脑功能模型将决策结果传入眶额叶功能模型进行存储。

图6展示了基底节根据动作状态进行意图决策的结果。

步骤S4，反馈：基于预设的动作-意图规则，输入对步骤S3所计算的机器人动作策略的正确性判断；所述正确性判断包括正确、错误两种类型。可以通过语音输入、交互界面信息输入等方式。

在实际应用中，对应上述通过机器人动作策略驱动机器人进行相应的动作的状况，人还可以依据机器人的动作状况进行直观的正确性判断。

图7展示了反馈的结果，用1表示正反馈，-1表示负反馈。

步骤S5，学习：基于步骤S4中输入的所述正确性判断，通过STDP机制调节所述类脑计算模型的参数。

本步骤中，通过STDP机制调节所述类脑计算模型的参数，其方法为：

眶额叶皮层功能模型将接受到的信息传入前额叶皮层功能模型和黑质致密部/外侧被盖部功能模型，正反馈信息和负反馈信息分别作用于黑质致密部/外侧被盖部功能模型的兴奋性神经元和抑制性神经元，通过STDP机制调节前额叶皮层功能模型和基底节功能模型间突触的连接权重；

其中，所述正反馈信息为S4中输入的所述正确性判断为正确；所述负反馈信息为S4中输入的所述正确性判断为错误。

本实施例中，步骤S5包括以下两部分：

(1)若输入的对步骤S3所计算的机器人动作策略的正确性判断为负反馈，眶额叶皮层功能模型将来自丘脑功能模型的反馈信息传入前额叶皮层功能模型和黑质致密部/外侧被盖部功能模型，负反馈信息作用于所述黑质致密部/外侧被盖部功能模型中的抑制性神经元上，所述黑质致密部/外侧被盖部功能模型产生脉冲电流信号传入基底节功能模型使相关神经元模拟放电动作，基底节功能模块相关神经元放电早于前额叶皮层功能模型相关神经元放电，产生LTD效应，减弱对应突触的连接权值；

(2)若输入的对步骤S3所计算的机器人动作策略的正确性判断为正反馈，眶额叶皮层功能模型将来自丘脑功能模型的反馈信息传入前额叶皮层功能模型和黑质致密部/外侧被盖部功能模型正反馈信息作用于所述黑质致密部/外侧被盖部功能模型中的兴奋性神经元上，所述黑质致密部/外侧被盖部功能模型产生脉冲电流信号传入基底节功能模块使相关神经元模拟放电动作，基底节功能模块相关神经元放电晚于前额叶皮层功能模型相关神经元放电，产生LTP效应，增强对应突触的连接权值。

图8展示了学习完成后前额叶到基底节间突触的连接权重。

步骤S6，重复：若步骤S4中输入的所述正确性判断为错误则执行步骤S1进行重复训练，直至步骤S4中输入的所述正确性判断为正确。

另外，本发明在步骤S6之后还包括动作-意图规则改变的判断及操作步骤：若动作-意图规则不变，则机器人完成对人类动作意图的理解。若动作-意图规则改变，则利用更新后的动作-意图规则返回步骤S1，进行新规则的学习，直至机器人完成对人类新的动作意图的理解。此处修改了动作-意图规则，如图9所示。经过继续学习，前额叶和基底节间突触的连接权重如图10所示。

结合类脑计算模型，并加入前期定义动作-意图规则的步骤、以及修改规则触发重新学习的场景的考虑，构建的基于多脑区协同计算的人类动作意图识别训练方法的流程示意图如图11所示，该图中为了清晰地表示各个模型所模拟的脑区，直接以对应的脑区名称代表模型名称，简单描述如下：预定义动作类型和意图类型，定义动作-意图规则，然后通过人类执行动作来进行训练；训练过程包括：动作识别、动作的状态表征、意图决策、执行动作、反馈、学习，并判断学习是否完成来决定是否进行重复训练；在训练完成后，还设置有动作-意图规则是否存在修改规则需求的判断，如存在，则重新定义动作-意图规则，然后通过人类执行动作来进行训练。训练过程中各个脑区功能模块按照设定逻辑进行相应的信息处理。所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程和内容，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多脑区协同计算的人类动作意图识别训练方法，其特征在于，包括以下步骤：

步骤S1，对人体动作进行图像采集；

步骤S3，基于类脑计算模型，采用多脑区协同计算的方式，依据人类执行的动作类别，计算机器人动作策略；

2.根据权利要求1所述的基于多脑区协同计算的人类动作意图识别训练方法，其特征在于，步骤S3中计算机器人动作策略后，还包括控制机器人按照所计算的动作策略执行动作；

3.根据权利要求2所述的基于多脑区协同计算的人类动作意图识别训练方法，其特征在于，所述类脑计算模型包括前额叶皮层功能模型、基底节功能模型、丘脑功能模型、初级运动皮层功能模型、眶额叶皮层功能模型、黑质致密部/外侧被盖部功能模型；

4.根据权利要求3所述的基于多脑区协同计算的人类动作意图识别训练方法，其特征在于，步骤S3中所述“计算机器人动作策略”，其方法为：

所述基底节功能模型根据当前的动作状态进行意图决策。

5.根据权利要求4所述的基于多脑区协同计算的人类动作意图识别训练方法，其特征在于，步骤S5所述“通过STDP机制调节所述类脑计算模型的参数”，其方法为：

其中，

所述正反馈信息为S4中输入的所述正确性判断为正确；

所述负反馈信息为S4中输入的所述正确性判断为错误。

6.根据权利要求5所述的基于多脑区协同计算的人类动作意图识别训练方法，其特征在于，步骤S5所述“正反馈信息和负反馈信息分别作用于黑质致密部/外侧被盖部功能模型的兴奋性神经元和抑制性神经元，通过STDP机制调节前额叶皮层功能模型和基底节功能模型间突触的连接权重”，其方法为：

7.根据权利要求3-6任一项所述的基于多脑区协同计算的人类动作意图识别训练方法，其特征在于，所述脉冲神经元模型计算公式为：

if v≥30mV,

8.根据权利要求1-6任一项所述的基于多脑区协同计算的人类动作意图识别训练方法，其特征在于，步骤S5中所述“通过STDP机制调节所述类脑计算模型的参数”，其计算公式为：

Δt＝T_PFC-T_BG

Δw_t＝f*W_t

W_t+1＝W_t+Δw_t

9.根据权利要求1-6任一项所述的基于多脑区协同计算的人类动作意图识别训练方法，其特征在于，步骤S2中所述“获取的人体关节信息，进行人体动作类别识别”的方法为：

其中，

10.根据权利要求1-6任一项所述的基于多脑区协同计算的人类动作意图识别训练方法，其特征在于，步骤S1采用摄像头对人体动作进行图像采集。