CN115659275A

CN115659275A - 非结构化人机交互环境中的实时准确轨迹预测方法及系统

Info

Publication number: CN115659275A
Application number: CN202211274148.5A
Authority: CN
Inventors: 陈珂
Original assignee: Suzhou Vocational University
Current assignee: Suzhou Vocational University
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-01-31

Abstract

本发明属于机器人轨迹预测技术领域，公开了一种非结构化人机交互环境中的实时准确轨迹预测方法及系统，建立函数型轨迹预测模型，构建关于函数型数据的约束；融合时序模型和非时序模型的优点，生成预测轨迹在空间上的概率分布，选取最佳轨迹；通过结合社会力模型以及深度神经网络模型构建人类社会行为模型，利用强化学习方法模拟人类决策过程，得到符合社会规范的机器人行为；设计无细节特征损失、无空间关联信息模糊、多方位多层次特征挖掘的实时语义分割全息网络，并生成简单的单分支推理模型；最后对提出的轨迹预测方法进行验证。本发明通过分析人类社会行为模式，建立了行为模型并将其融入机器人导航框架之中，产生了更为合理的行为模式。

Description

非结构化人机交互环境中的实时准确轨迹预测方法及系统

技术领域

本发明属于机器人轨迹预测技术领域，尤其涉及一种非结构化人机交互环境中的实时准确轨迹预测方法及系统。

背景技术

目前，现有的机器人行为生成方法大多仅考虑机器人与人在交互过程中的物理安全，以最短路径及最短时间为优化目标生成机器人行为，当前已有的机器人导航方法存在难以适应于动态复杂人机交互环境的问题。然而在人机交互过程中，采取符合人类社会规范的机器人行为不仅可以避免诸多不必要的避障行为发生，还能带来更好的人机交互体验，增加机器人的可接受度。

面对非结构化环境中多变的时间空间信息，如何设计合理高效的特征提取和特征融合方式，以及如何综合利用生成模型和评估模型对行人轨迹的多样性与算法的实时性进行权衡把握，同时保障轨迹预测算法的准确与高效。面对复杂多变的行人交互模式，如何建立简洁有效的行人运动模型来对行人轨迹进行合理分析，以及如何将行人交互模型融入到现有导航框架之中，使得机器人生成符合人类社会行为规范的行为的同时具有足够的鲁棒性以应对环境中的各种不确定因素。如何在采样过程中避免信息的丢失和插补，在减少参数量的同时，避免信息流动受阻或损失，以及在尽量少牺牲性能的情况下来满足系统的成本要求，在保证网络模型精度且无需额外的推理时间计算、内存占用或能耗的条件下，利用结构重参数化方法，将训练阶段的多分支结构和推理阶段的简单结构进行解耦，进而最大程度的减小模型复杂度，减少模型存储需要的空间。

通过上述分析，现有技术存在的问题及缺陷为：当前已有的机器人导航方法存在难以适应于动态复杂人机交互环境的问题。

发明内容

针对现有技术存在的问题，本发明提供了一种非结构化人机交互环境中的实时准确轨迹预测方法及系统。

本发明是这样实现的，一种非结构化人机交互环境中的实时准确轨迹预测方法，所述非结构化人机交互环境中的实时准确轨迹预测方法包括：

建立函数型轨迹预测模型，构建关于函数型数据的约束；融合时序模型和非时序模型的优点，生成预测轨迹在空间上的概率分布，选取最佳轨迹；通过结合社会力模型以及深度神经网络模型构建人类社会行为模型，利用强化学习方法模拟人类决策过程，得到符合社会规范的机器人行为；设计无细节特征损失、无空间关联信息模糊、多方位多层次特征挖掘的实时语义分割全息网络，并生成简单的单分支推理模型；最后对提出的轨迹预测方法进行验证。

进一步，所述非结构化人机交互环境中的实时准确轨迹预测方法包括以下步骤：

步骤一，基于函数型数据和深度神经网络的轨迹预测模型构建；

步骤二，基于深度强化学习的机器人社会规范行为优化；

步骤三，面向嵌入式应用的高效网络模型设计；

步骤四，准确性、实时性和鲁棒性验证。

进一步，所述步骤一中的基于函数型数据和深度神经网络的轨迹预测模型的构建方法包括：

(1)将物体的轨迹视作函数型数据，建立基于函数型数据的轨迹预测模型；

其中，所述线性函数型轨迹预测模型的表达式为：

式中，

为生成的单维预测轨迹关于轨迹模板的增量均值；

为轨迹拓扑约束项，

为环境耦合约束项； x为物体轨迹模板；D为维度集合；ε为环境耦合约束集合；

(2)构建编码解码网络对不同来源数据进行主动融合编码，生成预测轨迹；

其中，所述编码解码网络包括：对于每个类型的输入，构建对应的编码网络E_i(s_i|ω_i)；各个编码网络的输出被合并展开成为一个特征，所述特征经由解码网络T(e|ω_T)进行输出，定义任务误差函数如下：

通过最小化误差，轨迹预测问题被转化为优化求解问题；其中，输入的历史轨迹及输出的候选轨迹将全部利用基于函数型数据的轨迹模型进行表示；

(3)预测轨迹合理性评估：评估模型接受来自函数型轨迹模型的参数编码，结合环境编码信息，深度神经网络利用真实轨迹信息与生成轨迹信息学习针对轨迹的合理评估方式，给出最终分数，筛选最佳轨迹。

进一步，所述步骤二的基于深度强化学习的机器人社会规范行为优化包括：

(1)通过带有注意力机制的深度神经网络模型对人类社会行为模式建模：

以当前行人为坐标原点，将环境中每个障碍物行人的信息作为输入向量；提取障碍物T个时刻内的时序信息，并通过社会力模块分别计算每个时刻的社会力信息；将社会力时序信息输入LSTM中，对障碍物的时序列信息进行建模，得到每个障碍物最终的输出向量；使用注意力机制计算每个障碍物对输出结果的影响；将环境结果作为输入向量输入到一个多层感知机网络中，并设置网络的输出为行人的线速度与角速度，通过运动学模型获取行人下一步的运动信息；

(2)服从社会规范的行为生成：在值函数网络中引入行人交互信息以及修改强化学习的奖励函数方式，获取服从社会规范的机器人行为模式；

使用传感器获取得到机器人周围的激光以及深度图像信息，通过动态障碍物提取算法得到障碍物运动体级别的状态信息；将障碍物信息与机器人自身状态信息输入一步预测模型中，通过遍历机器人的动作空间得到每一个动作执行后状态对用的值函数输出，选取价值最大的动作作为机器人的实际输出动作；引入行人交互模块对障碍物的环境信心进行过滤处理，并加入动态障碍物的时序信息，对值函数网络进行改进；依据行人空间理论增加社会规则项以及动作平滑项，使得机器人的运动适用于复杂动态环境；

(3)自适应动作融合：通过融合多种动作输出自适应的机器人调整动作；

第一类动作输出来自于强化学习生成的符合社会规范的行为，接收轨迹预测得到的预测结果，利用改进的值函数网络将人类行为模式融入策略选择中，在不断的学习过程中实现服从社会规范的机器人行为生成；

第二类动作接收相机、激光的多种传感器信息以及代价地图信息和目标点信息，经过带有注意力机制的特征融合网络输出概率轨迹，二者分别通过神经网络以及传统PID控制得到各自的控制动作输出，两个控制动作输出最终由概率轨迹方差所决定的融合系数进行融合，得到最终控制输出；

机器人的最终控制动作a_f通过检查运动分布方差σ²决定：

其中，规划的不确定性越高，λ值越小，最终的动作将更多的取决于a₁。

进一步，修改后的值函数网络μ由行人交互信息模块、LSTM网络Φ_LSTM(·)和多层感知机三个部分组成：行人交互模块对原始运动体状态

进行行人特征的提取；通过LSTM网络Φ_LSTM(·)进行不定数量行人特征的组合，得到所有行人的联合隐藏状态h⁰；再将h⁰与机器人自身状态联合输入到多层感知机网络ψ_M(·) 中，得到对应的价值；修改后的奖励函数如下所示：

式中，

为避障奖励项，用于保证机器人的物理安全；

为机器人的社会行为优化项，用于使得机器人输出动作符合社会规范；

为平滑项，用于使得机器人整体动作平滑稳定。

进一步，所述步骤三中的面向嵌入式应用的高效网络模型设计包括：

设计新型的可反向操作的无损采样对模块LSP，LSP由3下采样模块LSP-D 和上采样模块LSP-U组成，LSP通过像素变换改变特征图的大小；提出分布式金字塔学习DPL，在第一次卷积后应用CR，形成特征金字塔；

通过结构重参数化将训练阶段的多分支结构和推理阶段的简单结构进行解耦，在训练阶段，通过多分支结构强化特征提取；在测试阶段将卷积核融合，重新构造模型参数，生成简单的单分支推理模型；

在训练阶段，使用类似于ResNeXt的identity和1×1分支构建Block的训练信息流为y＝x+3g(x)+f(x)；模型由5ⁿ个分支和n个这样的模块组成的集合；训练后，等价转换为y＝h(x)，其中h由单独的卷积层实现；

在推理阶段，对训练好的模型参数进行重新构造；conv+BN是线性变换，对于输入通道＝输出通道＝2，将每一个BN及其前面的卷积层转换成带偏置向量的卷积；而恒等映射，转换为以单位矩阵为核的1×1conv，得到3个3×3的核， 2个1×1的核，和5个bias向量；通过线性变换，将设计的多分支结构等价转换为一个单独的3×3卷积；其中，等价性要求3×3层和1×1层需要具有相同的 stride，而1×1层的padding配置要比3×3层少一个像素；

对应的参数转换的数学表达式如下所示：

M²＝bn(M⁽¹⁾·W⁽³¹⁾,μ⁽³¹⁾,δ⁽³¹⁾,γ⁽³¹⁾,β⁽³¹⁾)

+bn(M⁽¹⁾·W⁽³²⁾,μ⁽³²⁾,δ⁽³²⁾,γ⁽³²⁾,β⁽³²⁾)

+bn(M⁽¹⁾·W⁽³³⁾,μ⁽³³⁾,δ⁽³³⁾,γ⁽³³⁾,β⁽³³⁾)

+bn(M⁽¹⁾·W⁽¹⁾,μ⁽¹⁾,δ⁽¹⁾,γ⁽¹⁾,β⁽¹⁾)

+bn(M⁽¹⁾,μ⁽⁰⁾,δ⁽⁰⁾,γ⁽⁰⁾,β⁽⁰⁾)；

其中，用M⁽³ⁱ⁾表示C₁和C₂输出通道的3×3层的核，用W⁽¹⁾表示相应的1×1 层的核，μ⁽³ⁱ⁾，δ⁽³ⁱ⁾，γ⁽³ⁱ⁾和β⁽³ⁱ⁾对应表示3×3卷积后的均值、标准差、学习因子及方差，M⁽¹⁾和M⁽²⁾表示输入和输出。

本发明的另一目的在于提供一种应用所述的非结构化人机交互环境中的实时准确轨迹预测方法的非结构化人机交互环境中的实时准确轨迹预测系统，所述非结构化人机交互环境中的实时准确轨迹预测系统包括：

轨迹预测模型构建模块，与中央控制模块连接，用于通过将物体的轨迹视作函数型数据，建立基于函数型数据的轨迹预测模型；

预测轨迹生成模块，与中央控制模块连接，用于通过构建编码解码网络对不同来源数据进行主动融合编码，生成预测轨迹，并评估预测轨迹合理性；

社会行为优化模块，与中央控制模块连接，用于通过带有注意力机制的深度神经网络模型对人类社会行为模式建模，实现机器人社会规范行为优化；

网络模型设计模块，与中央控制模块连接，用于设计实时语义分割全息网络，利用无痛网络压缩技术构建得到面向嵌入式应用的高效网络模型；

中央控制模块，与系统各模块连接，用于通过中央处理器协调控制所述非结构化人机交互环境中的实时准确轨迹预测系统各个模块的正常运行；

数据云存储模块，与中央控制模块连接，用于通过云数据库服务器存储构建得到的基于函数型数据的轨迹预测模型数据、预测轨迹数据、机器人社会规范行为优化数据以及高效网络模型设计数据；

更新显示模块，与中央控制模块连接，用于通过高清LED显示器对构建得到的基于函数型数据的轨迹预测模型数据、预测轨迹数据、机器人社会规范行为优化数据以及高效网络模型设计的实时数据进行更新显示。

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以应用所述的非结构化人机交互环境中的实时准确轨迹预测方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机应用所述的非结构化人机交互环境中的实时准确轨迹预测方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的非结构化人机交互环境中的实时准确轨迹预测系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明构建了基于函数型数据的轨迹预测模型，融合时间空间特征提取环境中多变的状态，对非结构环境进行合理的表征；搭建了基于深度神经网络的轨迹生成模型，产生了多样性的轨迹输出模仿人类轨迹的多样性特征，实现了对行人轨迹的初步预测；搭建了基于深度神经网路的轨迹评估模型，从初步预测轨迹中筛选最佳轨迹，实现了对行人轨迹的精准预测，提升了轨迹预测算法的精度与实时性能。另外，本发明通过构建人类社会行为模型，对已有数据集及实际采集数据中的行人运动模式进行分析建模测试；完成了一种服从社会规范的行为生成方法，实现了机器人在非结构化人机交互环境中的自主导航；完成了一套自适应动作融合系统，根据不同环境自适应调整动作输出，提高了机器人在非结构化环境下对未知干扰的抗干扰性能。

在符合人类社会准则的机器人导航任务中，国内外现有的轨迹预测及行为优化研究尚无法满足机器人在非结构化环境下的强鲁棒性、高预测率、高实时性以及优秀泛化能力的性能要求。本发明尝试对人类交互行为方式与机理进行分析建模，以深度学习方法为核心，探索一种针对机器人在非结构化人机交互环境中的，具有强鲁棒性和高准确性的实时环境感知及行为优化技术，从而完成机器人在非结构化人机交互环境中的导航任务，突破机器人在非结构化环境中的实际应用瓶颈。本发明具有显著的特色和创新：

(1)针对机器人在非结构化环境下的主要动态运动物的人，利用基于函数型数据的模型表达轨迹，避免了直接对轨迹点进行数学约束，使得模型具有简洁的数学形式和较高的可理解性，能够更为自然地引入环境约束，对时间空间信息进行了合理高效的融合；融合时间空间信息，构建轨迹生成模型模拟行人个体间的差异性造成的轨迹多样性，构建轨迹评估模型选取最佳预测轨迹避免机器人冻结问题，提高轨迹预测算法的准确性与实时性。

(2)针对复杂的行人交互建模问题，通过社会力提取行人之间的社会影响，并使用LSTM网络与注意力机制分别加入了时序信息与空间关系，更加精确的描述行人的运动。利用强化学习算法模拟人类决策思维，在机器人行为中融入社会规则，提升了人机交互时的舒适度与可接受度。

(3)针对机器人自身计算资源有限导致的网络部署难问题，设计了信息无损的下采样和上采样过程，代替现有通用的降采样卷积/池化层以及反卷积/插值操作，实现了少参数下多尺度信息并行提取融合，能够代替现有网络结构中的残差结构。通过结构重参数化方法，实现了训练阶段与推理阶段的架构解耦，避免了多分支网络的固有缺陷，实现了高效、灵活性强、易部署的网络架构。

(4)本发明不仅提出模型和算法，更要在实体机器人上验证。跨越从仿真研究到实际应用的鸿沟是一个很大的挑战。将实体机器人应用到智能运送、家庭服务等真实工作场景，实现基于社会规范的自主运动，也是重要特色之一。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明提供的函数型轨迹预测模型将轨迹的时间特征与空间特征融合起来，统一地表示为关于函数型数据的约束；既能够得到时间平滑的预测轨迹，也能够给出预测轨迹在空间上的概率分布，融合了时序模型和非时序模型的优点。此外，本发明提供的基于函数型数据表出的数学模型避免了直接对轨迹点进行数学约束，使得模型具有简洁的数学形式和较高的可理解性，能够更为自然地引入环境约束，这是许多基于模板的轨迹预测方法所不具有的。

本发明通过分析人类社会行为模式，建立行为模型并将其融入机器人导航框架之中，产生更为合理的行为模式。同时，为了保障机器人对不确定因素的抗干扰能力，本发明额外增加自适应动作融合模块来综合各种行为输出的优势，更好的适应各类非结构化环境。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的非结构化人机交互环境中的实时准确轨迹预测方法流程图；

图2是本发明实施例提供的非结构化人机交互环境中的实时准确轨迹预测方法的逻辑结构图；

图3是本发明实施例提供的轨迹生成网络示意图；

图4是本发明实施例提供的轨迹评估模型示意图；

图5是本发明实施例提供的行人社会模型结构图；

图6是本发明实施例提供的服从社会规范的行为生成网络架构图；

图7是本发明实施例提供的修改后的值函数网络图；

图8是本发明实施例提供的自适应动作融合框架图；

图9是本发明实施例提供的高效能网络架构设计技术路线图；

图10是本发明实施例提供的无损采样对(LSP)模块示意图；

图11是本发明实施例提供的分布式金字塔学习(DPL)示意图；

图12是本发明实施例提供的输入输出通道为2时，网络结构转换图以及参数重构示意图；

图13是本发明实施例提供的实验流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种非结构化人机交互环境中的实时准确轨迹预测方法及系统，下面结合附图对本发明作详细的描述。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的非结构化人机交互环境中的实时准确轨迹预测方法包括以下步骤：

S101，基于函数型数据和深度神经网络的轨迹预测模型构建；

S102，基于深度强化学习的机器人社会规范行为优化；

S103，面向嵌入式应用的高效网络模型设计；

S104，准确性、实时性和鲁棒性验证。

本发明实施例提供的步骤S101中的基于函数型数据和深度神经网络的轨迹预测模型的构建方法包括：

其中，所述线性函数型轨迹预测模型的表达式为：

式中，

为生成的单维预测轨迹关于轨迹模板的增量均值；

为轨迹拓扑约束项，

本发明实施例提供的步骤S102的基于深度强化学习的机器人社会规范行为优化包括：

机器人的最终控制动作a_f通过检查运动分布方差σ²决定：

本发明实施例提供的修改后的值函数网络μ由行人交互信息模块、LSTM网络Φ_LSTM(·)和多层感知机三个部分组成：行人交互模块对原始运动体状态

进行行人特征的提取；通过LSTM网络Φ_LSTM(·)进行不定数量行人特征的组合，得到所有行人的联合隐藏状态h⁰；再将h⁰与机器人自身状态联合输入到多层感知机网络ψ_M(·)中，得到对应的价值；修改后的奖励函数如下所示：

式中，

为避障奖励项，用于保证机器人的物理安全；

为平滑项，用于使得机器人整体动作平滑稳定。

本发明实施例提供的步骤S103中的面向嵌入式应用的高效网络模型的设计包括：

对应的参数转换的数学表达式如下所示：

+bn(M⁽¹⁾·W⁽³²⁾,μ⁽³²⁾,δ⁽³²⁾,γ⁽³²⁾,β⁽³²⁾)

+bn(M⁽¹⁾·W⁽³³⁾,μ⁽³³⁾,δ⁽³³⁾,γ⁽³³⁾,β⁽³³⁾)

+bn(M⁽¹⁾·W⁽¹⁾,μ⁽¹⁾,δ⁽¹⁾,γ⁽¹⁾,β⁽¹⁾)

+bn(M⁽¹⁾,μ⁽⁰⁾,δ⁽⁰⁾,γ⁽⁰⁾,β⁽⁰⁾)；

本发明实施例提供的非结构化人机交互环境中的实时准确轨迹预测系统，包括：

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用的应用实施例。

本发明的应用实施例提供了一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以应用所述的非结构化人机交互环境中的实时准确轨迹预测方法的步骤。

本发明的应用实施例提供了一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机应用所述的非结构化人机交互环境中的实时准确轨迹预测方法的步骤。

本发明的应用实施例提供了一种信息数据处理终端，所述信息数据处理终端用于实现所述的非结构化人机交互环境中的实时准确轨迹预测系统。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

本发明实施例通过分析智能机器人在非结构化环境下具有学习行人行为能力的运动模式，实现机器人基于深度强化学习的社会意识行为优化。通过自主学习，使机器人具备生成符合人类行为规范行为的能力，实现在非结构化环境下的良好人机交互。在智能机器人实验平台上，完成非结构化环境下的轨迹预测、轨迹生成与行为优化等一系列复杂任务，整体发明内容结构如图2所示。

(1)基于函数型数据和深度神经网络的轨迹预测模型。动态物体的轨迹预测是非结构化环境下机器人感知的关键，其难点在于对环境信息的无损编码以及对轨迹数据的精准建模。本发明实施例通过构建基于函数型数据的轨迹模型以保留更多的环境信息与轨迹特征，基于深度神经网络生成并筛选最优预测轨迹，改善仅考虑欧式距离的轨迹预测方法预测精度低、实时性差的问题。主要发明点包括：(a)综合分析非结构化人机交互环境下的时间和空间特征，对环境中物体的位置、大小等空间信息以及各种状态随时间变化的潜在规律进行综合编码，最大程度上保留环境特征，对环境进行准确建模；(b)考虑行人运动轨迹存在的多样性，建立函数型轨迹预测模型，构建关于函数型数据的约束，融合时序模型和非时序模型的优点，生成预测轨迹在空间上的概率分布；(c)分析合理轨迹的潜在特性，分析深度神经网络的分析评估能力，在区分真实轨迹与生成轨迹的基础上，提取轨迹特性，对不同轨迹给出合理评估，从一系列生成轨迹中选取最佳轨迹。

(2)基于深度强化学习的机器人社会规范行为优化。符合社会规范的机器人行为生成方法通过分析模拟人类行为模式，使得机器人克服传统方法难以适应快速环境变化的缺陷，具备在非结构环境中灵活运动的能力。其难点在于对人类社会行为模式的有效建模以及如何将社会规范融入到经典框架。本发明实施例通过结合社会力模型以及深度神经网络模型构建人类行为模型，利用强化学习方法模拟人类决策过程，得到符合社会规范的机器人行为，提高机器人对非结构化环境的适应性以及人机交互过程的舒适性。主要发明点包括：(a)针对非结构化行人密集环境，通过将社会力模型与时序预测网络相结合，充分利用深度神经网络的强拟合特性构建行人社会行为模型，对人类社会行为模式建模； (b)结合所构建的社会行为模型，分析人类交互行为的显式及潜在规则，在保证物理层面安全的同时，生成符合人类心理层面安全性的机器人轨迹，提升人机交互体验；(c)考虑传感器误差，视野受限，噪声干扰等各种不确定因素，利用不同规划方法的优势进行互补，通过概率轨迹方差构建具有自适应能力的动作融合模型，实现动态场景下稳定可靠的行为规划。

(3)面向嵌入式应用的高效网络模型设计。计算架构的效率和实时性、泛化能力是目前所有的深度学习算法面临的一个卡脖子问题。本发明实施例通过设计无细节特征损失、无空间关联信息模糊、多方位多层次特征挖掘的全息网络架构，可处理复杂动态场景下多类别多尺度的视觉感知问题，大幅提升了网络在GPU/CPU上的处理效率及泛化能力。主要研究点包括：(a)保留高层次表示的全方位信息，从多角度学习语义特征，设计一种实用高效的实时语义分割全息网络，有效地缩小细节表示和推理成本的差距，从而构建基于完整信息流传递交互的高效能网络架构；(b)通过结构重参数化将训练阶段的多分支结构和推理阶段的简单结构进行解耦，在训练阶段，通过多分支结构提升性能，重点强化特征提取；在测试阶段将卷积核融合，重新构造模型参数，生成简单的单分支推理模型。

(4)算法的准确性、实时性和鲁棒性验证。对本发明实施例提出的方法进行验证，主要实验内容如下：(a)验证利用生成数据集训练的轨迹预测模型对于不同实际场景中的轨迹数据的泛化性能；(b)测试在非结构化人机交互环境中生成的优化行为的实际避障能力，以及给不同测试者带来的实际感受；(c)验证提出的网络架构在实体机器人算力受限情况下的实时性与准确性，并就资源使用情况以及实际效果与原始网络进行比较；(d)针对实体机器人设计典型环境、典型行为、典型实验。完成在非结构化人机共存环境中的行为优化等系列任务，测试泛化性能。

本发明实施例的目的是提升移动机器人在非结构化环境中学习行人行为模式的能力，更好地实现人机共融。针对当前已有的机器人导航方法难以适应于动态复杂人机交互环境的问题，模拟人类个体差异性造成的轨迹多样性，提取时间空间特征生成多条可行轨迹并通过合理性评估取最优，探索一种具有高准确性、强鲁棒性和实时性的轨迹预测方法，对非结构化环境进行准确建模；利用深度神经网络对人类行为模式进行建模，分析人类交互行为的显式及潜在规则，生成符合人类社会规范的机器人行为，达到良好的人机交互体验；综合考虑视野受限等问题导致的不确定性因素，综合多种规划方式，利用概率轨迹方差进行自适应动作融合，实现非结构化环境下的鲁棒导航；解决目前计算网络架构的效率和实时性、泛化能力问题。具体研究目标包括以下几个方面：

(1)提出非结构化人机交互环境中的实时准确轨迹预测算法。具体实现目标包括：(a)针对环境状态多变问题，提出一种时间空间融合编码方法，尽可能全面的提取环境特征，包含时间空间变化规律，增强对非结构化环境的建模能力，为后续感知决策提供充分的保障；(b)针对行人运动轨迹多变的问题，提出一种基于生成方法的轨迹预测模型，通过生条轨迹的方式保留行人轨迹的多样性特征，避免传统方法轨迹单一，泛化性差等问题；(c)针对基于轨迹预测方法存在的机器人冻结问题，提出一种合理的轨迹评估方法，综合多方面因素选取诸多生成轨迹中最符合当前环境的一条作为预测结果，提高预测合理性与导航实时性。

(2)提出非结构化环境下机器人符合社会规范的行为生成方法。具体实现目标包括：(a)充分利用已有的行人轨迹信息，挖掘行人社会行为模式，探索行人之间的交互规则，探索一种简洁有效的人类行为模型，提高对非结构化环境下行人行为进行建模的能力；(b)基于构建的人类行为模型，深入研究机器人行为与人类行为的异同点，提出一种机器人行为和人类行为的有效融合方式，提升机器人行为与人类行为的相似度，提高人机交互体验；(c)针对机器人导航过程中存在的视野受限及传感器误差等造成的不确定因素问题，探索一种自适应融合多种行为的动作生成方法，通过不同方法间的优势互补，提高机器人在非结构化环境下进行导航的抗干扰能力。

(3)设计面向嵌入式应用的高效网络模型。具体实现目标包括：(a)针对深度神经网络中图像数据在下采样过程中的信息损失问题，提出一种高效的无损采样网络模型，在保留更多信息的同时提高计算效率；(b)针对实体机器人计算资源有限难以直接部署大型网络模型的问题，提出一种高效无痛的网络模型压缩方法，节约深度神经网络在低算力资源设备上实时部署技术的分析成本。

作为优选实施例，本发明实施例提供的非结构化人机交互环境中的实时准确轨迹预测方法，具体包括以下步骤：

发明内容一：基于函数型数据和深度神经网络的轨迹预测模型

目前的轨迹预测算法多以离散轨迹点作为预测基础与预测输出，由于损失了部分轨迹信息，其预测精度与泛化性能都并不理想。且由于通常生成确定性的预测轨迹点，难以匹配实际行人多样性的轨迹特征。本发明拟构建基于函数型数据的轨迹预测模型，通过输入和输出轨迹函数的方式保留尽可能多的轨迹信息，提高预测精度。同时为了匹配行人之间的个体差异性，拟采用生成模型生成候选轨迹，再通过评估模型筛选最优轨迹的方式增加轨迹多样性。

1.基于函数型数据的轨迹预测模型

现有的先进方法大多数将物体轨迹上的每一个轨迹点作为优化对象。通过对各个轨迹点添加约束，使得由有序点集表示的轨迹既能够描述物体轨迹的运动特性，也能够描述物体轨迹与环境状态的耦合关系。这种方法的一个主要限制在于它更多地站在局部的角度考虑轨迹预测问题。这是因为轨迹点作为一个多维向量，自身只能提供有限的信息。换言之，基于轨迹点的预测模型往往通过更为复杂的约束形式，来弥补轨迹点信息不足的缺陷。

与传统方法不同的是，本发明将物体的轨迹视作函数型数据(Functional data)，并且建立关于函数型数据的轨迹预测模型，即函数型轨迹预测模型。函数型轨迹预测模型的建立依赖于以下几个假设：1)物体的运动是一个平滑过程，物体轨迹可以视作函数型数据；2)物体轨迹的形态可以由轨迹各维度之间的耦合关系描述；3)物体轨迹与环境的耦合不显著改变其空间形态；

基于上述的假设，本发明提出具有以下形式的线性函数型轨迹预测模型：

其中，

为生成的单维预测轨迹关于轨迹模板的增量均值；

为轨迹拓扑约束项，

为环境耦合约束项； x为物体轨迹模板；D为维度集合；ε为环境耦合约束集合。

函数型轨迹预测模型将轨迹的时间特征与空间特征融合起来，统一地表示为关于函数型数据的约束；既能够得到时间平滑的预测轨迹，也能够给出预测轨迹在空间上的概率分布，融合了时序模型和非时序模型的优点。此外，基于函数型数据表出的数学模型避免了直接对轨迹点进行数学约束，使得模型具有简洁的数学形式和较高的可理解性，能够更为自然地引入环境约束，这是许多基于模板的轨迹预测方法所不具有的。

2.预测轨迹生成

非结构化场景中的移动物体，增大了机器人轨迹规划的难度。因此需要机器人能够对场景中移动物体的行为进行预测，避免与其发生碰撞。现有的轨迹预测方法大多基于数据集进行训练验证，很少有被应用于实际场景之中的案例。现有常见的数据集，如ETH，UCY等可获得的信息亦十分有限，因此现有的工作基本都仅仅依赖于行人的历史轨迹，预测精度较低。

本发明实施例通过采集并生成更加全面的数据，通过融合多种因素而达到更高的准确率。该方法的主要难点之一在于如何对多类型输入进行整合，将不同类型的数据映射到同一表达下以方便后续处理。本发明实施例构建如下编码解码网络对不同来源数据进行主动融合编码，具体框图如图3所示。

对于每个类型的输入，构建对应的编码网络E_i(s_i|ω_i)。各个编码网络的输出被合并展开成为一个特征，该特征经由解码网络T(e|ω_T)进行输出。定义任务误差函数如下：

通过最小化误差，轨迹预测问题被转化为优化求解问题。其中，输入的历史轨迹及输出的候选轨迹将全部利用基于函数型数据的轨迹模型进行表示，利用尽可能少的参数保留尽可能多的信息，以提高轨迹预测精度。

3.预测轨迹合理性评估

生成多样性的轨迹还原了个体差异性导致的轨迹多样性，但保留过多的候选轨迹将对后续的机器人规划带来极大的计算负担，甚至产生机器人冻结问题，难以得到可行解。本发明实施例通过对候选轨迹进行合理性评估的方式从中选取最可能的一条，以减少后续计算成本。如图4所示，与轨迹生成模型类似，评估模型同样接受多方面的编码输入，以加强其对非结构化环境的整体把控能力，不同的是，评估模型额外接受来自函数型轨迹模型的参数编码，结合环境编码信息，深度神经网络利用真实轨迹信息与生成轨迹信息学习一种针对轨迹的合理评估方式，给出最终分数，筛选最佳轨迹。

发明内容二：基于深度强化学习的机器人社会规范行为优化

现有的机器人行为生成方法大多仅考虑机器人与人在交互过程中的物理安全，以最短路径及最短时间为优化目标生成机器人行为。然而在人机交互过程中，采取符合人类社会规范的机器人行为不仅可以避免诸多不必要的避障行为发生，还能带来更好的人机交互体验，增加机器人的可接受度。本发明实施例通过分析人类社会行为模式，建立行为模型并将其融入机器人导航框架之中，产生更为合理的行为模式。同时为了保障机器人对不确定因素的抗干扰能力，本发明实施例额外增加自适应动作融合模块来综合各种行为输出的优势，更好的适应各类非结构化环境。

1.人类社会行为模式建模

为了对行人复杂的运动行为进行分析，通过带有注意力机制的深度神经网络模型对其进行建模，整体模型如图5所示。首先，以当前行人为坐标原点，将环境中每个障碍物行人的信息作为输入向量，为了更好的对行人社会行为进行分析，提取了障碍物T个时刻内的时序信息，并通过社会力模块分别计算每个时刻的社会力信息；其次，将社会力时序信息输入LSTM中，对障碍物的时序列信息进行建模，得到每个障碍物最终的输出向量；然后，为了应对环境中不定数量的障碍物信息，使用注意力机制计算每个障碍物对输出结果的影响；最后，将之前的环境结果作为输入向量输入到一个多层感知机网络中，并设置网络的输出为行人的线速度与角速度，通过运动学模型获取行人下一步的运动信息。

2.服从社会规范的行为生成

基于之前建立的人类社会行为模型，本发明实施例在值函数网络中引入行人交互信息以及修改强化学习的奖励函数的方式，获取服从社会规范的机器人行为模式。整体系统框架如图6所示：首先，使用传感器获取得到机器人周围的激光以及深度图像信息，通过动态障碍物提取算法得到障碍物运动体级别的状态信息，如障碍物的位置、大小信息。之后，将障碍物信息与机器人自身状态信息输入一步预测模型中，通过遍历机器人的动作空间得到每一个动作执行后状态对用的值函数输出，选取价值最大的动作作为机器人的实际输出动作。其中，为了能够提取更多的环境先验信息，加快之后值函数网络的学习，本发明实施例对值函数网络进行了改进，引入了行人交互模块对障碍物的环境信心进行过滤处理，并且加入了动态障碍物的时序信息。同时，为了满足人机交互理念，奖励函数除了避障奖励函数外，还依据行人空间理论增加了社会规则项以及动作平滑项，使得机器人的运动更加适用于复杂动态环境。

其中，修改后的值函数网络结构如图7所示。修改后的值函数网络μ由行人交互信息模块(Crowd interaction module)，LSTM网络Φ_LSTM(·)多层感知机(MLP) 三个部分组成：行人交互模块先对原始运动体状态

进行行人特征的提取；再通过LSTM网络Φ_LSTM(·)进行不定数量行人特征的组合，得到所有行人的联合隐藏状态h⁰；最后将h⁰与机器人自身状态联合输入到多层感知机网络ψ_M(·)中，得到对应的价值。

修改后的奖励函数如下，其中

为避障奖励项，保证机器人的物理安全，

为机器人的社会行为优化项，使得机器人输出动作符合社会规范，

为平滑项，使得机器人整体动作平滑稳定。

3.自适应动作融合

为了增强整体系统对非结构化环境中的各类不确定因素的抗干扰能力，本发明实施例通过融合多种动作输出自适应的机器人调整动作。整体系统架构如图8所示。其中，第一类动作输出来自于上述强化学习生成的符合社会规范的行为，其接收轨迹预测得到的预测结果，利用改进的值函数网络将人类行为模式融入策略选择之中，在不断的学习过程中实现服从社会规范的机器人行为生成。第二类动作接收相机、激光等多种传感器信息以及代价地图信息和目标点信息，经过带有注意力机制的特征融合网络输出概率轨迹，二者分别通过神经网络以及传统PID控制得到各自的控制动作输出，这两个控制动作输出最终由概率轨迹方差所决定的融合系数进行融合，得到最终控制输出。

端到端网络输出的为概率模型，其优势在于可以通过分析其统计特性来做出决策。在本发明实施例中，机器人的最终控制动作a_f通过检查运动分布方差σ²来决定：

通过这种方式，规划的不确定性越高，λ值越小，因此最终的动作将更多的取决于a₁。通过这种可靠性动作融合方式同时保留了多种不同模型的优点。

发明内容三：面向嵌入式应用的高效网络模型设计

深度网络轻量化的过程中，往往由于池化、深度可分离卷积和分组卷积的应用而丢失信息，从而导致轻量化网络性能的损失。本发明实施例设计一种新型网络架构，在下采样和上采样的过程中，避免信息的丢失和插补，在减少参数量的同时，避免信息流动受阻或损失，使网络特征的冗余度下降，提高信息复用率。同时，针对现有模型，在保证网络模型精度且无需额外的存储计算资源的情况下，实现高效无痛的网络压缩。

1.高效能网络架构

本发明实施例设计一种实用高效的实时语义分割全息网络，有效地缩小细节表示和推理成本的差距，其技术路线如图9所示。本发明实施例提出的网络不但能够保留高层次表示的全方位信息，而且能够从不同的角度学习语义特征，并取得优异的效能。

本发明实施例设计一种新型的可反向操作的无损采样对(LSP)模块。它可以用较少的参数代替传统的成对运算，但保留空间信息的能力更强。如图10所示，LSP由3下采样模块(LSP-D)和上采样模块(LSP-U)组成。LSP通过像素变换改变特征图的大小，通过逐点卷积提升信息流。

由于高分辨率图像中存在着不同尺度的物体，这对尽可能大的感受野提出了必要性要求。在继承和借鉴ASPP和ResNet体系结构成功实践的基础上，拟提出一种高效的表示学习模块——分布式金字塔学习(DPL)。如图11所示，在第一次卷积后应用CR，促进信息流动，形成特征金字塔。

当DPL与LSP结合使用时，DPL则具有很强的特征提取能力，并能减少大量计算量，在设计一个实时网络方面，期望通过模块组合，使得该网络在性能上达到1+1>2的效果，在运行时达到1+1<2的效果。在将DPL与通道重排相结合来促进特征信息流动，并在合理组合LSP和DPL的基础上拟提出HoloNet及其轻量级版本HoloNet-Lite。

2.无痛网络压缩技术

多分支结构的优点在于训练，缺点在于不利于推理和部署，本发明实施例通过结构重参数化将训练阶段的多分支结构和推理阶段的简单结构进行解耦，在训练阶段，通过多分支结构提升性能，重点强化特征提取；在测试阶段将卷积核融合，重新构造模型参数，生成简单的单分支推理模型。

在训练阶段，由于多分支拓扑在推理方面存在缺陷，但分支结构对训练优化有益，拟使用多个分支对多个模型进行单独的训练阶段模型的集成。为了使网络结构更浅或更简单，根据ResNet的设计经验，利用多分支方式增加宽度更有利于提升性能。而3×3卷积是大多数卷积结构的基本组件，且在GPU和CPU 中计算密度最高；且1×1卷积可用来进行特征聚合，实现跨通道信息交互；ResNet 中的恒等映射，打破网络的对称性，提升了网络表征能力，使网络易于优化。可以使用类似于ResNeXt的identity(仅当维度匹配时)和1×1分支以便构建 Block的训练信息流为y＝x+3g(x)+f(x)。模型由5ⁿ个分支和n个这样的模块组成的集合。训练后，将其等价转换为y＝h(x)，其中h由一个单独的卷积层实现，其参数由训练后的参数通过一系列代数推导而来。

在推理阶段，拟对训练好的模型参数进行重新构造；其原理在于，conv+BN 是线性变换，以输入通道＝输出通道＝2为例，首先将每一个BN及其前面的卷积层转换成一个带偏置向量的卷积。而恒等映射，可以转换为以单位矩阵为核的 1×1conv，经过这样的变换，将得到3个3×3的核，2个1×1的核，和5个bias 向量。之后通过线性变换，将设计的多分支结构等价转换为一个单独的3×3卷积。需要注意的是，这些转换的等价性要求3×3层和1×1层需要具有相同的 stride，而1×1层的padding配置要比3×3层少一个像素。对应的结构转换图以及参数重构示意图如图12所示。

对应的参数转换的数学表达式如下所示：

+bn(M⁽¹⁾·W⁽³²⁾,μ⁽³²⁾,δ⁽³²⁾,γ⁽³²⁾,β⁽³²⁾)

+bn(M⁽¹⁾·W⁽³³⁾,μ⁽³³⁾,δ⁽³³⁾,γ⁽³³⁾,β⁽³³⁾)

+bn(M⁽¹⁾·W⁽¹⁾,μ⁽¹⁾,δ⁽¹⁾,γ⁽¹⁾,β⁽¹⁾)

+bn(M⁽¹⁾,μ⁽⁰⁾,δ⁽⁰⁾,γ⁽⁰⁾,β⁽⁰⁾)；

发明内容四：算法的准确性、实时性和鲁棒性验证

本发明通过分析并学习人类在非结构化动态场景下的行为交互模式，期望机器人能够根据周围环境特征及行人个体差异精准预测行人轨迹，并通过生成符合社会规范的动作，使得移动机器人能够很好地体现行为的智能性和对环境的适应性，改善人机交互体验。采用自主研发的各类移动机器人平台，通过虚拟仿真和实体实验相结合的方式来进行验证和测试。通过获取真实的行人移动轨迹和环境信息，学习人类在典型非结构化场景下的相应动作，对其行为模式进行预测、模仿，使机器人能够根据环境和任务自主生成更人性化的轨迹，完成复杂任务。各模块功能将分别在数据集、仿真环境以及真实环境中进行验证，整体解决方案将会投入到各大应用场景试运行，以验证其合理性和有效性。

针对轨迹预测的准确性与实时性评估，本发明实施例在已有的标准数据集 (例如，ETH、UCY等)以及实际采集数据上进行测试，统计在不同数据集、不同物体上的准确率和时间性能，并和现有最优方法进行效果比较，以此评估网络模型的鲁棒性和快速性。针对符合社会规范的行为优化的合理性评估，拟召集多名测试者参与机器人的人机交互体验，并设置消融实验，通过机器人的直观表现以及不同参与者的实际体验来评估其是否符合社会规范。针对高效的网络模型设计，通过将其移植到不同配置的实体机器人上进行运行，测试其移植部署难度以及整体算法在不同算力情况下的实时性能与精度。

本发明实施例提供的整体实验流程如图13所示。对于各个功能模块，如轨迹预测、行为优化等，将分别在对应数据集上测试并根据图形化可视化结果对算法效果进行验证。在保证各主要功能模块效果之后，将补全其他所需的辅助模块，如建图、定位等，在整合优化后，进行整体系统的仿真实验，并通过迁移学习进行实际场景的测试。根据实验效果，不断完善各子模块和系统功能，直至达到预期目标。

本发明实施例对各个部分采用模块化的结构来进行，有利于编程任务的实现和检测每一个模块部分的可行性，也方便替换某些部分。

针对发明内容一，基于函数型数据的轨迹预测模型是对现有方法的一个广义泛化及补充，具有严格的假设、推导以及数学表达，该类方法在示教学习及轨迹预测领域均有较好的应用示例，具有良好的泛化性和鲁棒性。预测轨迹生成以及预测轨迹合理性评估实际上是对生成对抗网络方法的一个合理拆分及拓展，在轨迹预测领域，S-GAN等方法利用生成对抗网络产生多样性轨迹并在预测精度方面有了较好的提升，但现有方法大多基于离散轨迹模型进行预测，仅仅考虑欧氏空间的距离作为轨迹的评估标准。在此工作的基础上，发明内容一利用函数型数据轨迹预测模型表征轨迹，并利用基于深度神经网络的轨迹生成模型与评估模型预测轨迹，是对现有方法的进一步补充和提升，是可行的。

发明内容一中的轨迹评估模型是本发明内容的技术难点，需要考虑哪些因素，什么样的评估指标更为合理，这些问题在项目具体实施时都要反复推敲和验证。在前期工作中，基本完成了基于函数型数据的轨迹模型设计，基于生成对抗网络的轨迹预测模型搭建等内容，在进一步的研究中将深入拓展基于深度神经网络的轨迹生成模型与轨迹评估模型，进一步提高轨迹的预测精度。

发明内容二中，通过网络模型对人类社会行为模式建模充分利用了深度神经网络的强拟合能力，以社会力模型为基准，利用注意力机制与长短时记忆网络分别对空间及时间信息进行分析，能够有效的对复杂的行为模式进行建模。服从社会规范的行为生成方法基于深度强化学习算法进行，强化学习方法在该领域受到广泛的应用，本发明通过在值函数网络中引入行人交互信息加强对非结构化场景的状态建模，同时通过避障、社会规范，平滑性三项奖励函数共同约束机器人行为，保证最终行为的合理性。进一步的，融合端到端网络的优势，自适应动作融合利用输出轨迹的统计特性，自适应调整不同动作输出的融合系数，保证了机器人在非结构化环境下应对不确定因素的鲁棒性。

发明内容二中的社会规则建模及嵌入是本发明内容的技术难点，如何对复杂的社会力规则进行取舍，有侧重的将其嵌入已有导航框架之中，在项目实施中需要反复推敲和验证。在前期的工作中，涉及到行人靠右原则的建模和基于此原则的导航，在进一步的研究中将拓展更为复杂多样的社会规则，完成更加复杂的导航任务，实现在非结构化环境中符合社会规则的机器人移动。

发明内容三中，申请人团队目前已基本完成全息网络架构的设计，包括提出了无损采样操作和分布式金字塔学习模块，经过初步试验论证，能够有效提高网络运算效率和特征提取能力。同时也已基本完成多分支网络结构设计，与网络结构重参数化的等价转换方法研究，且经过初步试验论证，能够实现网络的无痛压缩和高效运行。

针对发明内容三中的整体网络及各个功能模块设计工作是本发明内容的技术难点，本发明中需要平衡网络准确率与运算速度的矛盾，同时要充分考虑计算平台(CPU、GPU或边缘计算设备)的计算能力特点，寻求达到设备的最大计算密度，这些在发明实施中需要反复计算和验证。在前期工作中，涉及到高效能网络模块设计以及多任务网络架构搭建，在进一步的分析中，将拓展到网络重参数化技术，实现无痛网络压缩，进一步提升网络运算效率。

发明内容四中，发明人员都非常熟悉相关软件平台并有丰富的实验测试经验。在前期的发明工作中我们搭建过便于人机交互的智能设计平台，该平台能够帮助设计者更方便地获取设计知识，并能够把提取的知识反馈到设计搜索引擎中。智能平台能输出可视化、图形化的设计结果，存储进化设计过程中大量的中间结果以供设计者进行后期分析，嵌入主成分分析、机器学习等数据挖掘的方法以帮助发现设计专家知识。这些前期的平台搭建工作将进一步完善以用于本发明的实验测试平台搭建，这些都为本项目的成功实施打下了坚实的基础。在实体实验方面，本发明拥有多款自主设计的移动机器人平台，并在该平台上完成了建图、定位与导航、多机协同以及基于机器学习方法的相关实验。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种非结构化人机交互环境中的实时准确轨迹预测方法，其特征在于，所述非结构化人机交互环境中的实时准确轨迹预测方法包括：

2.如权利要求1所述的非结构化人机交互环境中的实时准确轨迹预测方法，其特征在于，所述非结构化人机交互环境中的实时准确轨迹预测方法包括以下步骤：

步骤二，基于深度强化学习的机器人社会规范行为优化；

步骤三，面向嵌入式应用的高效网络模型设计；

步骤四，准确性、实时性和鲁棒性验证。

3.如权利要求2所述的非结构化人机交互环境中的实时准确轨迹预测方法，其特征在于，所述步骤一中的基于函数型数据和深度神经网络的轨迹预测模型的构建方法包括：

其中，所述线性函数型轨迹预测模型的表达式为：

式中，

为生成的单维预测轨迹关于轨迹模板的增量均值；

为轨迹拓扑约束项，

为环境耦合约束项；x为物体轨迹模板；D为维度集合；ε为环境耦合约束集合；

4.如权利要求2所述的非结构化人机交互环境中的实时准确轨迹预测方法，其特征在于，所述步骤二的基于深度强化学习的机器人社会规范行为优化包括：

机器人的最终控制动作a_f通过检查运动分布方差σ²决定：

5.如权利要求4所述的非结构化人机交互环境中的实时准确轨迹预测方法，其特征在于，修改后的值函数网络μ由行人交互信息模块、LSTM网络Φ_LSTM(·)和多层感知机三个部分组成：行人交互模块对原始运动体状态

式中，

为避障奖励项，用于保证机器人的物理安全；

为平滑项，用于使得机器人整体动作平滑稳定。

6.如权利要求2所述的非结构化人机交互环境中的实时准确轨迹预测方法，其特征在于，所述步骤三中的面向嵌入式应用的高效网络模型设计包括：

设计新型的可反向操作的无损采样对模块LSP，LSP由3下采样模块LSP-D和上采样模块LSP-U组成，LSP通过像素变换改变特征图的大小；提出分布式金字塔学习DPL，在第一次卷积后应用CR，形成特征金字塔；

在推理阶段，对训练好的模型参数进行重新构造；conv+BN是线性变换，对于输入通道＝输出通道＝2，将每一个BN及其前面的卷积层转换成带偏置向量的卷积；而恒等映射，转换为以单位矩阵为核的1×1conv，得到3个3×3的核，2个1×1的核，和5个bias向量；通过线性变换，将设计的多分支结构等价转换为一个单独的3×3卷积；其中，等价性要求3×3层和1×1层需要具有相同的stride，而1×1层的padding配置要比3×3层少一个像素；

对应的参数转换的数学表达式如下所示：

M²＝bn(M⁽¹⁾·W⁽³¹⁾,μ⁽³¹⁾,δ⁽³¹⁾,γ⁽³¹⁾,β⁽³¹⁾)+bn(M⁽¹⁾·W⁽³²⁾,μ⁽³²⁾,δ⁽³²⁾,γ⁽³²⁾,β⁽³²⁾)+bn(M⁽¹⁾·W⁽³³⁾,μ⁽³³⁾,δ⁽³³⁾,γ⁽³³⁾,β⁽³³⁾)+bn(M⁽¹⁾·W⁽¹⁾,μ⁽¹⁾,δ⁽¹⁾,γ⁽¹⁾,β⁽¹⁾)+bn(M⁽¹⁾,μ⁽⁰⁾,δ⁽⁰⁾,γ⁽⁰⁾,β⁽⁰⁾)；

其中，用M⁽³ⁱ⁾表示C₁和C₂输出通道的3×3层的核，用W⁽¹⁾表示相应的1×1层的核，μ⁽³ⁱ⁾，δ⁽³ⁱ⁾，γ⁽³ⁱ⁾和β⁽³ⁱ⁾对应表示3×3卷积后的均值、标准差、学习因子及方差，M⁽¹⁾和M⁽²⁾表示输入和输出。

7.一种应用如权利要求1～6任意一项所述的非结构化人机交互环境中的实时准确轨迹预测方法的非结构化人机交互环境中的实时准确轨迹预测系统，其特征在于，所述非结构化人机交互环境中的实时准确轨迹预测系统包括：

8.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以应用如权利要求1～6任意一项所述的非结构化人机交互环境中的实时准确轨迹预测方法的步骤。

9.一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机应用如权利要求1～6任意一项所述的非结构化人机交互环境中的实时准确轨迹预测方法的步骤。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述的非结构化人机交互环境中的实时准确轨迹预测系统。