CN112231489B - 防疫机器人知识学习与迁移方法和系统 - Google Patents

防疫机器人知识学习与迁移方法和系统 Download PDF

Info

Publication number
CN112231489B
CN112231489B CN202011119623.2A CN202011119623A CN112231489B CN 112231489 B CN112231489 B CN 112231489B CN 202011119623 A CN202011119623 A CN 202011119623A CN 112231489 B CN112231489 B CN 112231489B
Authority
CN
China
Prior art keywords
task
knowledge
environment
robot
epidemic prevention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011119623.2A
Other languages
English (en)
Other versions
CN112231489A (zh
Inventor
高洪波
郝正源
李智军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011119623.2A priority Critical patent/CN112231489B/zh
Publication of CN112231489A publication Critical patent/CN112231489A/zh
Application granted granted Critical
Publication of CN112231489B publication Critical patent/CN112231489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Animal Behavior & Ethology (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种防疫机器人知识学习与迁移方法和系统,包括:步骤1:根据机器人应用的防疫场景,构建基于人工和先验知识的子任务离线知识库;步骤2:根据离线知识库构建基于多任务的子任务网络模型,并进行任务迁移学习训练;步骤3:基于子任务网络模型和任务迁移学习训练构建知识推理引擎;步骤4:根据知识推理引擎构建知识图谱;步骤5:根据知识图谱进行基于任务环境的模式训练;步骤6:根据基于任务环境的模式训练成果进行知识迁移。本发明让机器人在疫情防控中的使用可以更为广泛,从而解放了人力,并减小工作人员在疫情防控中被感染的风险,可以在疫情的防控中起到重要的作用。

Description

防疫机器人知识学习与迁移方法和系统
技术领域
本发明涉及防疫机器人技术领域,具体地,涉及一种防疫机器人知识学习与迁移方法和系统。
背景技术
机器人经常被用来从事危险、重复性高的工作以解放人力。恰好能够满足对于防疫的要求。因此越来越多的地方考虑采用防疫机器人进行疫情防控工作。对于防疫机器人来说,其通过自主学习并不断更新的能力是非常必要的,但是传统的卷积神经网络在小样本条件下的训练样本不足、训练开销大、样本标签少等,且在新环境中难以应用,本文提出的一种防疫机器人知识学习与迁移方法正好可以解决此问题。
专利文献CN109740741A(申请号:201910017601.6)公开了一种结合知识转移的强化学习方法,步骤如下:S1、设计BP神经网络自主任务间映射关系;S2、对源任务学习经验进行案例存储,并构建线性感知器来学习源域和目标域之间的动作映射关系;S3、运用基于案例推理机理;S4、进行相似度计算与案例检索,并运用所学到的案例库中的经验作为启发式来加速相关但不同任务的学习;及其应用于无人车自主技能的学习方法。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种防疫机器人知识学习与迁移方法和系统。
根据本发明提供的防疫机器人知识学习与迁移方法,包括:
步骤1:根据机器人应用的防疫场景,构建基于人工和先验知识的子任务离线知识库;
步骤2:根据离线知识库构建基于多任务的子任务网络模型,并进行任务迁移学习训练;
步骤3:基于子任务网络模型和任务迁移学习训练构建知识推理引擎;
步骤4:根据知识推理引擎构建知识图谱;
步骤5:根据知识图谱进行基于任务环境的模式训练;
步骤6:根据基于任务环境的模式训练成果进行知识迁移。
优选的,所述任务包括:体温检测,包括单人体温检测和多人体温同时检测;口罩佩戴识别;人流密度监测;防疫播报;环境消毒杀菌;疫情宣传与导诊;提供隔离区娱乐互动;远程医生咨询;
采用红外温度传感器、摄像头、语音播报系统和人机交互系统进行任务的实施。
优选的,所述步骤2包括:
根据整体任务规划和分解后的独立子任务,进行子任务网络模型的构建;
利用独立子任务的关节动作、室内环境、防疫机器人移动路径的数据集,对各子任务网络模型进行训练;
对输入的子任务数据集进行迭代,通过前向传递和反向传播梯度,根据预设更新规则更新网络中的权重值,完成网络初步训练。
优选的,所述步骤3包括:
通过对输入的数据集进行前向传导,输出特征图,利用全连接网络输出基于输入的数据集的条件概率分布,构建知识推理引擎。
优选的,所述步骤4包括:
基于知识推理引擎、先验知识和训练好的子任务网络模型,进行数据特征提取;
在卷积层输出数据特征并进行线性修正、膨胀卷积,进行1×1卷积;
在池化层对单位像素迁移和亮度进行校正;
在池化过程中通过降低图像分辨率,构建多尺度特征,保持尺度空间不变性,完成知识图谱的构建。
优选的,所述步骤5包括:
基于任务和环境两种模式,把真实环境迁移到虚拟样机中进行仿真训练或将机器人在虚拟环境中学习到的任务作业技能迁移到真实环境中,然后把学到的策略作为新任务中选取策略的基础,在机器人的任务类型和工作环境差异符合预设条件时,加快机器人在新任务或新环境下的任务执行策略学习效率;
将抽象出的应急救援环境在虚拟样机上建模,防疫机器人对非结构环境的任务执行程度进行评价,在投入真实环境前将真实环境迁移到虚拟样机中进行仿真训练。
优选的,所述步骤6包括:
利用在仿真和先验条件下训练完成的模型,投入实际防疫环境之中,建立迁移数据的任务映射关系,构建机器人知识迁移学习的模型;
在执行任务过程中收集现场的环境数据,同步构建真实环境数据集,用于真实环境的模型训练;
建立时序评价指标,在抽取子任务网络拼接时对任务时序进行评价,优化迁移任务效率;
构建面向任务的规划领域自动生成框架,利用通过推理引擎所动态构建的与任务相关的知识图谱和人工模板,实现实时在线的任务智能理解,进而实现机器人在线知识迁移。
优选的,防疫机器人神经网络前向和反向传播计算,包括:
神经网络用一个隐藏层代表,为前向传播,记n维输入向量为x,n维权重矩阵向量是W,偏置项为b,激活函数为ReLU,最终激活后的输出为a,总输出为s,则:
s=UTa=UTf(Wx+b)
其中,f为激活函数,此即为正向传播的公式;U表示由最后一层隐藏层到输出层连接的权重矩阵;
对于反向传播,求得损失函数关于每个参数的偏导数,使用梯度下降更新参数,定义以下参数:
xi是神经网络的一个输入;s是神经网络的输出;第k层的第j个神经元接受标量输入
Figure GDA0003271719330000031
并产生标量激活输出
Figure GDA0003271719330000032
Figure GDA0003271719330000033
算出的反向传播误差记做
Figure GDA0003271719330000034
第一层是指输入层,而不是第一个隐层,对于输入层,
Figure GDA0003271719330000035
W(k)是转移矩阵,将第k层的输出映射为第k+1层的输入;i表示神经网络的第i个输入;
得到计算反向传播的误差一般步骤:
根据从
Figure GDA0003271719330000036
传回的误差δ(k),计算反向传给
Figure GDA0003271719330000037
的误差,通过
Figure GDA0003271719330000038
乘以路径权重
Figure GDA0003271719330000039
因此,
Figure GDA00032717193300000310
接收到的误差就是
Figure GDA00032717193300000311
然而,
Figure GDA00032717193300000312
可能会前馈到下一层的多个节点,这样的话,
Figure GDA00032717193300000313
还要接收从k层的节点m反向传回的误差,
Figure GDA00032717193300000314
接收到的误差是
Figure GDA00032717193300000315
事实上,这可以化为
Figure GDA00032717193300000316
已经有了
Figure GDA00032717193300000317
的误差,并且
Figure GDA00032717193300000318
关于
Figure GDA00032717193300000319
的导数为
Figure GDA00032717193300000320
误差传到了
Figure GDA0003271719330000041
记做
Figure GDA0003271719330000042
大小为
Figure GDA0003271719330000043
优选的,防疫机器人记忆增强神经网络,包括一个记忆数组m或一个向量的数组或者一个字符串数组,用i进行索引,和四个组件:输入特征映射I,泛化G,输出O,输出回答R;
输入特征映射I:将输入转换为记忆网络内部特征的表示,给定输入x,包括字符、单词、句子,通过I(x)得到记忆网络内部的特征;
泛化G:通过输入I(x)和记忆数组m,来更新对应的记忆mi
mi=G(mi,I(x),m)
输出O:在记忆数组m更新完后,将输入和记忆单元联系起来,根据输入选择记忆单元;
o=O(I(x),m)
小o为输出标记;
当k=1时,根据输出I(x)从记忆单元中选择出与I(x)最相关的记忆事实,当k=2时,将输入I(x)与第一个选择出来的记忆合并,再选择第二个相关的记忆;
输出回答R:将输入和选择的记忆单元与表中的每个单词进行评分SR,选择得分最大的单词作为回答r,公式为:
r=argmaxw∈wsR([x,m01,mo2],w)。
根据本发明提供的防疫机器人知识学习与迁移系统,包括:
模块M1:根据机器人应用的防疫场景,构建基于人工和先验知识的子任务离线知识库;
模块M2:根据离线知识库构建基于多任务的子任务网络模型,并进行任务迁移学习训练;
模块M3:基于子任务网络模型和任务迁移学习训练构建知识推理引擎;
模块M4:根据知识推理引擎构建知识图谱;
模块M5:根据知识图谱进行基于任务环境的模式训练;
模块M6:根据基于任务环境的模式训练成果进行知识迁移。
与现有技术相比,本发明具有如下的有益效果:
1、本发明解决了防疫机器人的知识学习问题,使防疫机器人能够在执行任务的过程中对自身动作等进行更新,提高了防疫机器人的任务适用性,有利于完善机器人的任务完成情况;
2、本发明以记忆增强神经网络为基础,将任务学习与积累的方式从应用驱动型推向数据驱动型,从已有数据出发去主动挖掘,通过关注存储内容的外部记忆机制快速吸收新知识,方法新颖可靠,能够实现更为高效的迁移学习任务,从而能够让防疫机器人能够快速适应新环境,有利于防疫机器人的普适性推广;
3、本发明让机器人在疫情防控中的使用可以更为广泛,从而解放了人力,并减小工作人员在疫情防控中被感染的风险,可以在疫情的防控中起到重要的作用;
4、本发明利用知识图谱,进行防疫机器人的知识迁移,将散乱的知识有效的组织起来,将真实环境与虚拟样机相互迁移,使防疫机器人的学习成本进一步降低,而且在机器人的任务类型和工作环境差异较小或者相似的情况下,加快机器人在新任务或新环境下的任务执行策略学习效率,使防疫机器人能够迅速在日常工作中使用,并提高了防疫机器人的可靠性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为防疫机器人构建知识库和知识学习知识迁移流程图;
图2为防疫机器人神经网络正向传播结构示意图;
图3为防疫机器人神经网络反向传播结构示意图;
图4为防疫机器人记忆增强网络示意图;
图5为迁移学习过程示意图;
图6为知识图谱示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
如图1所示,本实施公开了一种防疫机器人知识学习与迁移方法,包括以下步骤S1~S6:
S1、在构建了防疫机器人的知识库的基础上,根据整体任务规划,子任务分解后的独立任务单元,进行多任务子网络的构建研究;利用独立子任务的关节动作、室内环境、机器人移动路径的数据集,对各个子任务的子网络模型进行训练;定义包含多个可学习参数的子神经网络,对输入的子任务数据集进行迭代,通过多层子网络结构处理输入的环境和运动数据前向传递,同时计算输出值与目标值的差值,反向传播梯度到子神经网络的参数中,最终根据更新规则来更新网络中的权重值,完成网络初步训练。
S2、在防疫场景下的特定整体任务,在构建的任务数据库下往往无法完全匹配,成功率依赖大量数据和训练的时间,需要机器人建立类人自主学习模式,实现高效率任务学习和积累;通过在机器人长时记忆系统中建立一个可检索的知识库,与此同时在交互过程中持续不断的整合更新知识库来反复记忆、学习和积累;利用记忆增强神经网络将任务学习与积累的方式从应用驱动型推向数据驱动型,从已有数据出发去主动挖掘,通过关注存储内容的外部记忆机制快速吸收新知识;结合更灵活的存储能力和强泛化的深度架构,做出准确预测,实现更为高效的任务迁移学习训练。
S3、针对卷积神经网络在小样本条件下的训练样本不足、训练开销大、样本标签少等问题,首先根据离线迁移的防疫环境场景中的数据来设计网络的深度以及每一层网络的功能,同时设定网络中的超参数;利用设计大型领域的数据集或仿真平台的训练场景的源领域的信息数据集对网络中的随机初始化参数进行训练,利用高斯分布的随机初始化参数,或对不同层的参数进行独立同分布的初始化;对网络进行相关预测,通过对输入数据进行前向传导,在各个层次上输出特征图,最后利用全连接网络输出基于输入数据的条件概率分布,构建在线知识推理引擎。
S4、基于构建的推理引擎,针对先验的防疫目标领域数据,利用训练好的模型,进行防疫领域的数据的特征提取;在卷积层输出特征映射并进行线性修正、膨胀卷积,使算子的分布更加的稀疏,提升感受野的尺寸,进行1×1卷积;通过池化层操作对单位像素迁移和亮度影响进行校正,做到迁移与亮度不变性的数据特征提取;在池化过程中通过不断的降低图像分辨率,构建多尺度特征,保持备尺度空间不变性,完成先验防疫场景的知识图谱构建管理工作。
S5、为了将机器人在不同环境之间的学习经验进行迁移,分别基于任务和环境两种模式,把真实环境迁移到虚拟样机中进行仿真训练或将机器人在虚拟环境中学习到的任务作业技能迁移到真实环境中;通过一种或多种任务学习得到最优任务执行策略,把学到的策略作为新任务中选取策略的基础,在机器人的任务类型和工作环境差异较小或者相似的情况下,加快机器人在新任务或新环境下的任务执行策略学习效率;将抽象出的防疫环境在虚拟样机上建模,提出以机器人对非结构环境的任务执行程度进行评价的方法,在投入真实环境前将真实环境迁移到虚拟样机中进行仿真训练,降低训练成本,提高训练效率。
S6、利用在仿真和先验条件下训练完成的模型,投入实际防疫环境之中,建立迁移数据的任务映射关系,构建机器人知识迁移学习的模型;在执行任务过程中收集现场的环境数据,同步构建真实环境数据集,用于真实环境的模型训练;建立时序评价指标,在抽取子任务网络拼接时对任务时序进行评价,优化迁移任务效率;构建面向任务的规划领域自动生成框架,利用通过推理引擎所动态构建的与任务相关的知识图谱和人工模板,实现实时在线的任务智能理解,进而实现机器人在线知识迁移。
本发明遇到困难点:训练过程中训练样本不足、训练开销大、样本标签少。
解决方案:进行一定的数据增广,离线迁移的防疫环境场景中的数据,利用设计大型领域的数据集或仿真平台的训练场景的源领域的信息数据集对网络中的随机初始化参数进行训练,利用高斯分布的随机初始化参数。
根据本发明提供的防疫机器人知识学习与迁移系统,包括:
模块M1:根据机器人应用的防疫场景,构建基于人工和先验知识的子任务离线知识库;
模块M2:根据离线知识库构建基于多任务的子任务网络模型,并进行任务迁移学习训练;
模块M3:基于子任务网络模型和任务迁移学习训练构建知识推理引擎;
模块M4:根据知识推理引擎构建知识图谱;
模块M5:根据知识图谱进行基于任务环境的模式训练;
模块M6:根据基于任务环境的模式训练成果进行知识迁移。
实施例2:
根据本发明提供的防疫机器人知识学习与迁移方法,包括:
一、防疫机器人构建知识库和知识学习知识迁移流程设计
如图1所示,防疫机器人的任务学习与知识积累和在线知识迁移包括进行任务分解、进行离线知识库构建、任务网络构建和知识迁移学习、构建在线知识推理引擎、构建知识图谱、任务智能理解和机器人知识迁移。各部分功能如下:
(1)进行任务分解
对机器人作业任务描述的数据模型及其表达方法进行描述,对机器人的任务进行分解,建立机器人的对任务状态的改变的模型,在模型基础上描述每个任务的目标状态和新增目标状态,建立任务库方案评价函数,描述优化机器人任务决策的时序,建立机器人、作业时的状态和作业环境的作业信息任务指令集,从而方便建立离线知识库。
(2)构建离线知识库
基于人工和先验知识,确定完成作业任务所需完成的在任务库中的机器人整体动作,采用分层任务网络规划,根据领域知识对任务进行逐级分解,将任务固定的子动作分解方法可作为规划领域知识,求解出动作序列,建立分层任务规划模型,描述子任务的状态,初始网络和领域,将初始的非原始任务分解成一些非原始任务或者操作,再继续根据规划领域中的方法对这些非原始任务进行分解,直至完成子任务分解完成,最终形成子网络离线知识库。从而为防疫机器人的知识学习做好数据准备。
(3)构建任务网络
根据整体任务规划,子任务分解后的独立任务单元,进行多任务子网络的构建研究。通过正向传播和反向传播,来更新网络中的权重,完成神经网络的初步训练,使防疫机器人具备学习能力。
(4)进行任务迁移学习训练
通过在机器人长时记忆系统中建立一个可检索的知识库,与此同时在交互过程中持续不断的整合更新知识库来反复记忆、学习和积累,利用记忆增强神经网络将任务学习与积累的方式从应用驱动型推向数据驱动型,从已有数据出发去主动挖掘,快速吸收新知识,结合更灵活的存储能力和强泛化的深度架构,做出准确预测,实现更为高效的任务迁移学习训练。
(5)构建在线知识推理引擎
根据离线迁移的防疫环境场景中的数据来设计网络的深度以及每一层网络的功能,同时设定网络中的超参数;利用设计大型领域的数据集或仿真平台的训练场景的源领域的信息数据集对网络中的随机初始化参数进行训练,对网络进行相关预测,通过对输入数据进行前向传导,在各个层次上输出特征图,最后利用全连接网络输出基于输入数据的条件概率分布,构建在线知识推理引擎。
(6)构建知识图谱
基于构建的推理引擎,针对先验的防疫目标领域数据,利用训练好的模型,进行防疫领域的数据的特征提取,提升感受野的尺寸,对单位像素迁移和亮度影响进行校正,做到迁移与亮度不变性的数据特征提取,构建多尺度特征,保持备尺度空间不变性,完成先验防疫场景的知识图谱构建管理工作。
(7)任务智能理解
基于任务和环境两种模式,把真实环境迁移到虚拟样机中进行仿真训练或将机器人在虚拟环境中学习到的任务作业技能迁移到真实环境中;通过一种或多种任务学习得到最优任务执行策略,把学到的策略作为新任务中选取策略的基础,在机器人的任务类型和工作环境差异较小或者相似的情况下,加快机器人在新任务或新环境下的任务执行策略学习效率;将抽象出的防疫环境在虚拟样机上建模,提出以机器人对非结构环境的任务执行程度进行评价的方法,在投入真实环境前将真实环境迁移到虚拟样机中进行仿真训练,降低训练成本,提高训练效率。
(8)机器人知识迁移
利用在仿真和先验条件下训练完成的模型,投入实际防疫环境之中,建立迁移数据的任务映射关系,构建机器人知识迁移学习的模型;在执行任务过程中收集现场的环境数据,同步构建真实环境数据集,用于真实环境的模型训练;建立时序评价指标,在抽取子任务网络拼接时对任务时序进行评价,优化迁移任务效率;构建面向任务的规划领域自动生成框架,利用通过推理引擎所动态构建的与任务相关的知识图谱和人工模板,实现实时在线的任务智能理解,进而实现机器人在线知识迁移。
二、防疫机器人神经网络前向和反向传播计算
如图2和图3所示,为防疫机器人神经网络正向传播和反向传播的示意图。
如图2所示的神经网络,用一个隐藏层代表,为前向传播,记n维输入向量为x,n维权重矩阵向量是w,偏置项为b,激活函数为ReLu,最终激活后的输出为a,总输出为s,则:
s=UTa=UTf(Wx+b)
其中,f为激活函数,此即为正向传播的公式。
对于反向传播,我们需要求得损失函数关于每个参数的偏导数,然后使用梯度下降更新参数。在图2的基础上,定义以下参数:
xi是神经网络的一个输入;s是神经网络的输出;第k层的第j个神经元接受标量输入
Figure GDA0003271719330000091
并产生标量激活输出
Figure GDA0003271719330000092
Figure GDA0003271719330000093
算出的反向传播误差记做
Figure GDA0003271719330000094
第一层是指输入层,而不是第一个隐层。对于输入层,
Figure GDA0003271719330000095
W(k)是转移矩阵,将第k层的输出映射为第k+1层的输入。
由此定义,如图3所示,得到计算反向传播的误差一般步骤:
我们已经有了从
Figure GDA0003271719330000101
传回的误差δ(k),计算反向传给
Figure GDA0003271719330000102
的误差,通过
Figure GDA0003271719330000103
乘以路径权重
Figure GDA0003271719330000104
因此,
Figure GDA0003271719330000105
接收到的误差就是
Figure GDA0003271719330000106
然而,
Figure GDA0003271719330000107
可能会前馈到下一层的多个节点,这样的话,
Figure GDA0003271719330000108
还要接收从k层的节点m反向传回的误差。
Figure GDA0003271719330000109
接收到的误差是
Figure GDA00032717193300001010
事实上,这可以化为
Figure GDA00032717193300001011
已经有了
Figure GDA00032717193300001012
的误差,并且
Figure GDA00032717193300001013
关于
Figure GDA00032717193300001014
的导数为
Figure GDA00032717193300001015
误差传到了
Figure GDA00032717193300001016
记做
Figure GDA00032717193300001017
大小为
Figure GDA00032717193300001018
三、防疫机器人记忆增强神经网络
如图4所示,为防疫机器人记忆增强神经网络示意图。一个记忆增强神经网络由一个记忆数组m(一个向量的数组或者一个字符串数组,用i进行索引)和四个组件(输入I,泛化G,输出O,回答R)组成。
各部分的作用为:
I(输入特征映射):将输入转换为记忆网络内部特征的表示。给定输入x,可以是字符、单词、句子等不同的粒度,通过I(x)得到记忆网络内部的特征。
G(更新记忆):使用新的输入更新记忆数组m。即通过输入I(x)和记忆数组m,来更新对应的记忆mi
mi=G(mi,I(x),m)
O(输出):在记忆数组m更新完以后,就可以将输入和记忆单元联系起来,根据输入选择与之相关的记忆单元。
o=O(I(x),m)
当k=1时,即根据输出I(x)从记忆单元中选择出与I(x)最相关的记忆事实。而当k=2时,即将输入I(x)与第一个选择出来的记忆合并,然后再接着选择第二个与之相关的记忆。
R(输出回答):得到了输入编码向量I(x),记忆数组m和需要的支持事实,就可以根据问题来得到需要的答案了。文中给出了一个简单的R()函数,将输入和选择的记忆单元与此表中的每个单词进行评分Sr,然后选择得分最大的单词作为回答。即:
r=argmaxw∈wsR([x,m01,mo2],w)
四、防疫机器人迁移学习
图5为防疫机器人的迁移学习过程。对于训练好的神经网络,在新的场景下使用必然导致数据分布的改变,之前训练好的模型必须用新的数据进行重新训练,而重新训练需要大量时间,且对于防疫机器人,新场景缺乏足够的数据和对应的标签,从而难以训练。因此采用在相关任务上学习到的知识,将其应用到新任务或场景上。已经学习完成的数据集或场景称为源域,待迁移的域称为目标域。
域包括两个部分,特别是特征空间和数据的边缘分布。通过迁移学习,可以让不同域的特征空间和边缘分布尽量接近,然后利用源域学到的知识辅助目标域中的任务。
迁移学习方法由很多种,我们这里采用的是基于特征和参数的迁移学习方法。
五、防疫机器人的知识图谱
如图6所示。防疫机器人的知识图谱架构主要包括知识提取、知识融合、知识加工和知识更新。
知识提取包括实体抽取、关系抽取和属性抽取,其中,实体抽取包含基于统计机器学习方法的抽取方法,我们采用神经网络进行知识抽取,因此采用实体抽取方法。
通过知识提取,实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标。但是由于知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、层次结构缺失等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。知识融合同样可以使用实体连接,包括基于概率生成模型的方法、基于主题模型的方法、基于图的方法以及基于深度神经网络的方法。我们采用基于深度神经网络的方法,可以使整个过程更为简化。
通过实体对齐,可以得到一系列的基本事实表达或初步的本体雏形,然而事实并不等于知识,它只是知识的基本单位。要形成高质量的知识,还需要经过知识加工的过程,从层次上形成一个大规模的知识体系,统一对知识进行管理。知识加工主要包括本体构建与质量评估两方面的内容。本体的构建可以采用人工编辑的方式手动构建(借助于本体编辑软件),也可以采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。我们采用实体聚类的方法进行本体构建。
人类所拥有信息和知识量都是时间的单调递增的函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程。从逻辑上看,只是哭的更新包括概念层更新和数据层更新。知识图谱内容的更新有两种方式:数据驱动下的全面更新和增量更新。我们采用增量更新方式,这样每次更新的量相对小,速度和效率都能得到保证。
六、基于知识图谱的在线知识迁移
利用在仿真和先验条件下训练完成的模型,投入实际防疫环境之中,建立迁移数据的任务映射关系,构建机器人知识迁移学习的模型;在执行任务过程中收集现场的环境数据,同步构建真实环境数据集,用于真实环境的模型训练;建立时序评价指标,在抽取子任务网络拼接时对任务时序进行评价,优化迁移任务效率;构建面向任务的规划领域自动生成框架,利用通过推理引擎所动态构建的与任务相关的知识图谱和人工模板,实现实时在线的任务智能理解,进而实现机器人在线知识迁移。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (4)

1.一种防疫机器人知识学习与迁移方法,其特征在于,包括:
步骤1:根据机器人应用的防疫场景,构建基于人工和先验知识的子任务离线知识库;
步骤2:根据离线知识库构建基于多任务的子任务网络模型,并进行任务迁移学习训练;
步骤3:基于子任务网络模型和任务迁移学习训练构建知识推理引擎;
步骤4:根据知识推理引擎构建知识图谱;
步骤5:根据知识图谱进行基于任务环境的模式训练;
步骤6:根据基于任务环境的模式训练成果进行知识迁移;
所述步骤2包括:
根据整体任务规划和分解后的独立子任务,进行子任务网络模型的构建;
利用独立子任务的关节动作、室内环境、防疫机器人移动路径的数据集,对各子任务网络模型进行训练;
对输入的子任务数据集进行迭代,通过前向传递和反向传播梯度,根据预设更新规则更新网络中的权重值,完成网络初步训练;
所述步骤5包括:
基于任务和环境两种模式,把真实环境迁移到虚拟样机中进行仿真训练或将机器人在虚拟环境中学习到的任务作业技能迁移到真实环境中,然后把学到的策略作为新任务中选取策略的基础,在机器人的任务类型和工作环境差异符合预设条件时,加快机器人在新任务或新环境下的任务执行策略学习效率;
将抽象出的应急救援环境在虚拟样机上建模,防疫机器人对非结构环境的任务执行程度进行评价,在投入真实环境前将真实环境迁移到虚拟样机中进行仿真训练;
所述任务包括:体温检测,包括单人体温检测和多人体温同时检测;口罩佩戴识别;人流密度监测;防疫播报;环境消毒杀菌;疫情宣传与导诊;提供隔离区娱乐互动;远程医生咨询;
采用红外温度传感器、摄像头、语音播报系统和人机交互系统进行任务的实施;
所述步骤6包括:
利用在仿真和先验条件下训练完成的模型,投入实际防疫环境之中,建立迁移数据的任务映射关系,构建机器人知识迁移学习的模型;
在执行任务过程中收集现场的环境数据,同步构建真实环境数据集,用于真实环境的模型训练;
建立时序评价指标,在抽取子任务网络拼接时对任务时序进行评价,优化迁移任务效率;
构建面向任务的规划领域自动生成框架,利用通过推理引擎所动态构建的与任务相关的知识图谱和人工模板,实现实时在线的任务智能理解,进而实现机器人在线知识迁移。
2.根据权利要求1所述的防疫机器人知识学习与迁移方法,其特征在于,所述步骤3包括:
通过对输入的数据集进行前向传导,输出特征图,利用全连接网络输出基于输入的数据集的条件概率分布,构建知识推理引擎。
3.根据权利要求1所述的防疫机器人知识学习与迁移方法,其特征在于,所述步骤4包括:
基于知识推理引擎、先验知识和训练好的子任务网络模型,进行数据特征提取;
在卷积层输出数据特征并进行线性修正、膨胀卷积,进行1×1卷积;
在池化层对单位像素迁移和亮度进行校正;
在池化过程中通过降低图像分辨率,构建多尺度特征,保持尺度空间不变性,完成知识图谱的构建。
4.一种防疫机器人知识学习与迁移系统,其特征在于,包括:
模块M1:根据机器人应用的防疫场景,构建基于人工和先验知识的子任务离线知识库;
模块M2:根据离线知识库构建基于多任务的子任务网络模型,并进行任务迁移学习训练;
根据整体任务规划和分解后的独立子任务,进行子任务网络模型的构建;
利用独立子任务的关节动作、室内环境、防疫机器人移动路径的数据集,对各子任务网络模型进行训练;
对输入的子任务数据集进行迭代,通过前向传递和反向传播梯度,根据预设更新规则更新网络中的权重值,完成网络初步训练;
模块M3:基于子任务网络模型和任务迁移学习训练构建知识推理引擎;
模块M4:根据知识推理引擎构建知识图谱;
模块M5:根据知识图谱进行基于任务环境的模式训练;
基于任务和环境两种模式,把真实环境迁移到虚拟样机中进行仿真训练或将机器人在虚拟环境中学习到的任务作业技能迁移到真实环境中,然后把学到的策略作为新任务中选取策略的基础,在机器人的任务类型和工作环境差异符合预设条件时,加快机器人在新任务或新环境下的任务执行策略学习效率;
将抽象出的应急救援环境在虚拟样机上建模,防疫机器人对非结构环境的任务执行程度进行评价,在投入真实环境前将真实环境迁移到虚拟样机中进行仿真训练;
所述任务包括:体温检测,包括单人体温检测和多人体温同时检测;口罩佩戴识别;人流密度监测;防疫播报;环境消毒杀菌;疫情宣传与导诊;提供隔离区娱乐互动;远程医生咨询;
采用红外温度传感器、摄像头、语音播报系统和人机交互系统进行任务的实施;
模块M6:根据基于任务环境的模式训练成果进行知识迁移;利用在仿真和先验条件下训练完成的模型,投入实际防疫环境之中,建立迁移数据的任务映射关系,构建机器人知识迁移学习的模型;
在执行任务过程中收集现场的环境数据,同步构建真实环境数据集,用于真实环境的模型训练;
建立时序评价指标,在抽取子任务网络拼接时对任务时序进行评价,优化迁移任务效率;
构建面向任务的规划领域自动生成框架,利用通过推理引擎所动态构建的与任务相关的知识图谱和人工模板,实现实时在线的任务智能理解,进而实现机器人在线知识迁移。
CN202011119623.2A 2020-10-19 2020-10-19 防疫机器人知识学习与迁移方法和系统 Active CN112231489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011119623.2A CN112231489B (zh) 2020-10-19 2020-10-19 防疫机器人知识学习与迁移方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011119623.2A CN112231489B (zh) 2020-10-19 2020-10-19 防疫机器人知识学习与迁移方法和系统

Publications (2)

Publication Number Publication Date
CN112231489A CN112231489A (zh) 2021-01-15
CN112231489B true CN112231489B (zh) 2021-11-02

Family

ID=74118314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011119623.2A Active CN112231489B (zh) 2020-10-19 2020-10-19 防疫机器人知识学习与迁移方法和系统

Country Status (1)

Country Link
CN (1) CN112231489B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992372A (zh) * 2021-03-09 2021-06-18 深圳前海微众银行股份有限公司 疫情风险监测方法、装置、设备、存储介质及程序产品
CN113010631B (zh) * 2021-04-20 2022-11-11 上海交通大学 一种基于知识引擎的机器人与环境交互方法
CN113386133A (zh) * 2021-06-10 2021-09-14 贵州恰到科技有限公司 一种强化学习机器人控制方法
CN113568324B (zh) * 2021-06-29 2023-10-20 之江实验室 一种基于仿真演绎的知识图谱修正方法
CN113433941A (zh) * 2021-06-29 2021-09-24 之江实验室 一种基于多模态知识图谱的低层级机器人任务规划方法
CN113657573B (zh) * 2021-06-30 2024-06-21 大连理工江苏研究院有限公司 一种情景记忆引导下基于元学习的机器人技能获取方法
CN113723750A (zh) * 2021-07-20 2021-11-30 中国科学技术大学先进技术研究院 一种机器人仿人作业动作知识库构建方法及系统
CN114385359B (zh) * 2022-01-07 2024-05-14 重庆邮电大学 一种物联网云边端任务时序协同方法
CN114492606A (zh) * 2022-01-13 2022-05-13 河北工业职业技术学院 基于模糊经验和原子划分重组的机器人技能迁移学习系统
CN115146299B (zh) * 2022-09-06 2022-12-09 南京众智维信息科技有限公司 一种基于知识图谱和域适应的安全托管服务方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636430A (zh) * 2014-12-30 2015-05-20 东软集团股份有限公司 案例知识库表示及案例相似度获取方法及系统
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN108182490A (zh) * 2017-12-27 2018-06-19 南京工程学院 一种大数据环境下的短期负荷预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239374B (zh) * 2013-06-21 2018-12-04 伊姆西公司 用于文档推荐的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636430A (zh) * 2014-12-30 2015-05-20 东软集团股份有限公司 案例知识库表示及案例相似度获取方法及系统
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN108182490A (zh) * 2017-12-27 2018-06-19 南京工程学院 一种大数据环境下的短期负荷预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"基于任务驱动的机器人作业智能决策方法研究";郭培森;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115;摘要、正文第10-74页 *
"神经网络及其训练";royhoo;《https://www.cnblogs.com/royhoo/p/9149172.html》;20180607;第1-7页 *
"神经记忆模型";kexinxin;《https://www.cnblogs.com/kexinxin/p/10147134.html》;20181220;第1-6页 *

Also Published As

Publication number Publication date
CN112231489A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112231489B (zh) 防疫机器人知识学习与迁移方法和系统
Konar Artificial intelligence and soft computing: behavioral and cognitive modeling of the human brain
Ingrand et al. Deliberation for autonomous robots: A survey
Gunning et al. DARPA’s explainable artificial intelligence (XAI) program
CN112119409B (zh) 具有关系存储器的神经网络
Samsonovich Toward a unified catalog of implemented cognitive architectures
Valavanis et al. Intelligent robotic systems: theory, design and applications
US11086938B2 (en) Interpreting human-robot instructions
CN112809689B (zh) 基于语言引导的机械臂动作元模仿学习方法及存储介质
CN111766782A (zh) 基于深度强化学习中Actor-Critic框架的策略选择方法
Mijwil et al. Artificial intelligence: a survey on evolution and future trends
Nishide et al. Tool–body assimilation of humanoid robot using a neurodynamical system
CN112580795A (zh) 一种神经网络的获取方法以及相关设备
Wong Cybernetical intelligence: Engineering cybernetics with machine intelligence
Harrison et al. Guiding reinforcement learning exploration using natural language
Zhang et al. Brain-inspired active learning architecture for procedural knowledge understanding based on human-robot interaction
Thórisson Seed-programmed autonomous general learning
Luo et al. Robust-EQA: robust learning for embodied question answering with noisy labels
Wang et al. Consciousness‐driven reinforcement learning: An online learning control framework
Sukhwani et al. Dynamic knowledge graphs as semantic memory model for industrial robots
Noelle et al. Artificial intelligence and computational theories of mind
Karthi et al. Emerging applications of deep learning
Rasheed et al. Extension of grounding mechanism for abstract words: computational methods insights
Petsanis et al. Decomposing user-defined tasks in a reinforcement learning setup using TextWorld
Alkhashab Data-Efficient Learning using Modular Meta-Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant