CN115564029A

CN115564029A - 一种基于混合增强智能的高一致性人机混合决策方法

Info

Publication number: CN115564029A
Application number: CN202211418353.4A
Authority: CN
Inventors: 孙博华; 马文霄; 张宇飞; 吴官朴; 冷炘伦; 赵帅; 翟洋
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-01-03

Abstract

本发明公开了一种基于混合增强智能的高一致性人机混合决策方法，其方法为：第一步、整合输入数据流与信息流；第二步、构建人机混合增强决策模型；第三步、构建在线人机决策知识库；第四步、整合输出变量；有益效果：极大的提高人机共驾系统的安全性和可信性，并提高驾驶人的可接受度，实现安全且可信的人机混合决策模式；实现了全面、可靠且丰富的决策信息源集合；实现具备高驾驶人可接受性及超人脑模式的决策效果；极大地提高了系统对真实交通环境的适应性；保证了决策逻辑的模块内自校验与自优化过程的独立进行；产品具备面向未知驾驶情境与真实交通环境下的自校验与自优化的功能。

Description

一种基于混合增强智能的高一致性人机混合决策方法

技术领域

本发明涉及一种人机混合决策方法，特别涉及一种基于混合增强智能的高一致性人机混合决策方法。

背景技术

在2010至2022年间，自动驾驶系统已经由原理样机逐步发展为成熟产品，在很大程度上降低了驾驶人的驾驶负荷，并提高了驾驶任务的安全性。目前，自动驾驶等级L1及L2已形成较为成熟的产品，L3及L4级已形成较为成熟的原理样机并逐渐迈向产品化。先进驾驶人辅助驾驶模式的自动化驾驶系统产品化为高度自动驾驶及全无人驾驶奠定了技术基础，并探索出较为成熟的智能交通系统范式。随着自动驾驶系统及其相关智能化交通基础建设的不断完善，动态且开放的真实交通环境也对自动驾驶系统的安全性与适应性提出了更高挑战，作为过渡型伪无人驾驶系统的典型代表和建设性产品模式探索，高度自动驾驶系统需要具备安全且可靠的系统性能。因此，对于人机共驾型自动驾驶系统的安全可信性能开发，以及人机一致性策略设计，已成为目前自动驾驶系统的研究前沿与关键技术。

目前，在人机共驾型自动驾驶系统领域，实现具备高驾驶人可接受性以及高度安全性的人机混合决策模式，是实现安全、可信且舒适的智能驾驶模式的关键技术。以往的以人机博弈及简单人机仲裁为代表的人机混合决策模式，由于其所产生的低驾驶人可接受度以及弱安全性，影响了高度自动驾驶系统的安全性和可靠性。具备高度人机一致性的人机混合决策模式，可以通过人机增强决策逻辑发挥人机优势，提高系统的适应性和安全性。在高度人机一致性的相关研究与原理样机中，以人为中心的决策逻辑成为人机决策的关键技术之一，目前尚缺少支撑以人为中心的决策数据集，以及超越人机决策能力的人机增强决策逻辑，人机增强决策逻辑亟待性能提升与“卡脖子”技术突破。

围绕自动驾驶系统中高一致性人机混合决策方法的专利形态较少，中国专利CN201710084368.4公开了一种应用于自动驾驶车辆的高速公路超车行为决策方法，通过建立驾驶员的操作意图模型实现具备人类驾驶习惯的超车决策方法，中国专利CN201710201086.8公开了一种用于车辆自动驾驶的决策网络模型的生成方法及装置，通过建立基于深度学习的决策模型，构建基于数据训练的决策网络。中国专利CN201711299043.4公开了一种自动驾驶车辆人机控制权移交方法及系统，通过建立了典型人机控制权分配机制，实现了人机驾驶权的移交逻辑以及自动驾驶车辆的决策逻辑。上述三项专利可以实现面向高度自动驾驶系统的特定场景或特定数据集下的决策任务，但尚无法实现具备可解释、可释义及可信的高度安全性及驾驶人可接受度的人机共驾系统性能。

发明内容

本发明的主要目的是为了解决动态、开放的真实交通环境下无人驾驶车辆适应性差、安全性弱等问题；

本发明的另一个目的是为了克服传统人机博弈及简单人机仲裁模式下人机混合决策导致的低驾驶人可接受度以及弱安全性；

本发明的再一个目的是提供一种实现安全且可信的智能驾驶模式；

本发明为了达到上述目的、解决上述问题而提供的一种基于混合增强智能的高一致性人机混合决策方法。

本发明提供的基于混合增强智能的高一致性人机混合决策方法，其方法包括的步骤如下：

第一步、整合输入数据流与信息流，具体过程如下：

步骤一、整合多模态“人—交通”混杂态势数据流；

步骤二、整合人机混合增强决策模型内参数据流，该步骤将第二步中人机混合增强决策模型的各个步骤对应的模型内参按时间与事件顺序进行排列与整合，将整合后的模型内参作为第三步中步骤二决策模型知识构建的数据输入，本步骤的输入信号为第二步构建的人机混合增强决策模型中各个步骤对应的模型内参；输出信号为人机混合增强决策模型内参数据流；

步骤三、整合人机混合增强决策驾驶权评估目标信息流；

步骤四、整合人机混合增强决策在线评估结果信息流；

第二步、构建人机混合增强决策模型，具体过程如下：

步骤一、构建驾驶人推理机制模型；

步骤二、构建基于类脑计算的高级“类我”决策模型；

步骤三、构建人机决策一致性对比模型；

步骤四、构建驾驶权细分模型；

第三步、构建在线人机决策知识库，具体过程如下：

步骤一、建立在线人机决策知识库系统框架，具体内容包括：人机决策用知识模式、各模式间的知识数据结构以及各模式间的数据交互逻辑，人机决策用知识模式包含第三步中步骤二决策模型知识、步骤三决策图谱知识、步骤四决策推理知识以及步骤五新知识合成机制模型，步骤二决策模型知识的知识数据结构为面向对象的语义映射结构；步骤三决策图谱知识的知识数据结构为分类树图谱结构；步骤四决策推理知识的知识数据结构为基于数据序列的图谱结构；步骤五新知识合成机制模型判断合成的新知识模式，并采用对应知识模式的知识数据结构，步骤三决策图谱知识和步骤四决策推理知识接收步骤二决策模型知识的知识内容，并以此作为步骤三决策图谱知识和步骤四决策推理知识的输入；步骤五新知识合成机制模型接收步骤二决策模型知识、步骤三决策图谱知识和步骤四决策推理知识的知识内容，并以此作为新知识模式的判断依据，并将与新知识输出至于新知识模式相同的对应步骤中；

步骤二、建立决策模型知识；

步骤三、建立决策图谱知识；

步骤四、建立决策推理知识；

步骤五、构建新知识合成机制模型；

第四步、整合输出变量，具体过程如下：

步骤一、整合高级“类我”决策过程量，该步骤将第二步中步骤一、步骤二和步骤三所包括的各个环节对应的输出信号按照时间对齐的方式进行了整合，用于输出至高度自动驾驶系统中的决策在线校验模块；

步骤二、整合在线评估用知识库知识量；

步骤三、整合人机混合决策驾驶权细分权重量，该步骤将第二步中步骤四对应的环节三输出的驾驶权分配系数τ^*进行了整合，整合包括对τ^*的历史数据存储，用于输出至第三步中的步骤五新知识合成机制模型；

步骤四、整合人机混合决策期望控制量。

第一步各步骤中包括的环节如下：

第一步中步骤一的具体环节如下：

环节一、人态势评估，该环节通过当前时刻驾驶人的操纵动作和驾驶人的生物电信号，评估包括驾驶人对当前场景中感兴趣区域提取以及驾驶意图在内的当前时刻人态势，驾驶人的操作动作包括油门踏板开度、制动踏板开度引起的制动主缸压力、转向盘转角及角速度、驾驶人眼动及驾驶人头动，驾驶人生物电信号包括驾驶人的心电、脑电、肌电和皮电信号，因此，该环节的输入信号为驾驶人操纵信号以及驾驶人生物电信号；输出信号为人态势评估结果H_ms；

环节二、交通态势评估，该环节通过当前动态场景信号和静态场景信号，评估包括动态场景中的动态参与物以及静态场景中的行驶规则与道路情况在内的交通态势，动态场景信号包括动态交通车信号以及动态行人信号，静态场景信号包括车道线、交通标识以及路沿石信号，因此，该环节的输入信号为动态场景信号以及静态场景信号；输出信号为交通态势评估结果T_fs；

环节三、混杂态势融合，该环节将上述环节一与环节二的输出信号进行融合，通过对H_ms和T_fs进行时间对齐和空间坐标转换，实现带有多数据模态及场景元素的混杂态势融合，该环节的输入信号为上述的环节一输出的人态势评估结果H_ms以及环节二输出的交通态势评估结果T_fs；输出信号为混杂态势融合结果M_us；

第一步中步骤三的具体环节如下：

环节一、驾驶人驾驶能力评估，该环节通过当前时刻的驾驶人-车-路-环境的状态与耦合情况，计算当前时刻驾驶人对车辆的综合控制能力，即评估当前时刻驾驶人的驾驶能力，采用典型系统辨识模型作为驾驶能力评估模型，将该环节的输入信号输入进驾驶能力评估模型，进而得到量化的驾驶能力评估结果，该环节的输入信号为人态势评估结果H_ms、车辆状态信号、车路耦合状态信号；输出信号为驾驶人驾驶能力评估结果；

环节二、自驾系统驾驶能力评估，该环节通过当前时刻的交通态势及自动驾驶系统中感知与决策两个层次的全部模型内参，计算当前时刻自动驾驶系统对车辆的综合控制能力，即自驾系统驾驶能力，将该环节的输入数据对应的状态变量赋予对应的权重值，并采用带有权重的线性函数进行计算，进而实现对自驾系统驾驶能力的评估，该环节的输入信号为交通态势评估结果T_fs以及自动驾驶系统内参；输出信号为自驾系统驾驶能力评估结果；

环节三、驾驶权规划，通过上述环节一输出的驾驶人驾驶能力评估结果和环节二输出的自驾系统驾驶能力评估结果，分别量化的评估当前时刻下高度自动驾驶系统中驾驶人和自驾系统对车辆的综合控制效果，因此，根据驾驶人驾驶能力评估结果和自驾系统驾驶能力评估结果，通过归一化计算方式，能够计算得到当前时刻驾驶人和自驾系统间的驾驶权分配系数τ，该环节的输入信号为驾驶人驾驶能力评估结果以及自动驾驶驾驶能力评估结果，输出信号为驾驶权分配系数τ；

第一步中步骤四的具体环节如下：

环节一、短时域在线校验结果，该环节通过整合高度自动驾驶系统中短时域快速更新的决策在线检验模块，得到短时域在线校验结果，决策在线校验模块是高度自动驾驶系统中，用于评估人机混合决策效果的模块，将该模块输出的短时域校验信号进行时间对齐与阈值检测，能够得到清晰且合理的短时域在线校验结果，该环节的输入信号为短时域校验模块信号；输出信号为短时域校验结果；

环节二、长时域在线优化结果，该环节通过整合高度自动驾驶系统中长时域快速更新的决策在线检验模块，得到长时域在线校验结果，将该模块输出的长时域校验信号进行时间对齐与阈值检测，能够得到清晰且合理的长时域在线校验结果，该环节的输入信号为长时域校验模块信号；输出信号为长时域校验结果；

环节三、在线评估信息流整合，该环节将上述环节一输出的短时域校验结果和环节二输出的长时域校验结果进行整合，得到在线评估结果，整合过程主要包括时域类别标注以及冗余时域剔除两个部分，该环节的输入信号为短时域校验结果以及长时域校验结果，输出信号为在线评估结果O_er。

第二步各步骤中包括的环节如下：

第二步中步骤一的具体环节如下：

环节一、多目标学习框架，建立基于人机混合决策安全性、舒适性、功能性及机动性的多学习目标，在驾驶人推理机制模型中的全局图中提取局部子图，并建立根据关系聚类和局部子图间的耦合结果进行随机游走的学习框架，具体包含：推理机制模型定义、实体关系标准制定以及实体关系聚类等三部分；

环节二、全局图谱随机游走，建立驾驶人推理机制全局图，并判断全局图中各个实体对间可达性，进而求解全局图对应的推理结果，具体包含：全局图建立，实体可达性计算以及全局推理结果计算等三部分；

环节三、局部子图随机游走，从驾驶人推理机制全局图中提取特定的驾驶人推理机制局部关系子图，实现随机游走，具体包含：局部子图建立、实体转移概率矩阵计算以及局部推理结果计算等三部分；

环节四、融合推理，将上述的环节二和环节三获得的全局推理结果以及局部推理结果进行统一的分布区域匹配，采用非线性化映射逻辑融合推理结果，具体包含：推理结果归一化计算以及融合推理结果计算等两部分；

人态势评估结果H_m和人机决策一致性对比结果C_hm组成驾驶人推理在线数据流F_lf，即F_lf＝{H_ms,C_hm}；决策推理知识库K_df和决策图谱知识库K_dm组成驾驶人推理离线知识流F_fk，即F_fk＝{K_df,K_dm}，因此，驾驶人推理机制模型定义的计算式如下(1)所示：

式中，G_m和L_m分别代表全局图和局部子图，f(G_m,L_m)为DIMM的函数，f(F_lf)表示F_fk的子集函数，因此，DIMM模型为基于多目标学习框架及随机游走模式的推理模型，在特定时刻驾驶场景下，独立的关系γ间通过实体相关度对比，实现簇|R_γ|的多次迭代与聚类，并更新所组成的新簇对应的包含全部特征值c_γ的共享特征值集C_γ，簇间相似度函数sim(C_γ,m,C_γ,n)的计算式如下式(2)所示：

式中，算子Π表示对集合C_γ中各元素进行求积，C_γ的下标m和n表示编号为m和n的两个不同的C_γ，在求得|R_γ|间相似度的基础上，建立联合学习分类模型来耦合并构成各个|R_γ|内γ的路径R_r，分类器结构函数f_cl(R_r)及对应的联合关系学习模型的计算式如下式(3)所示：

式中，μ₁和μ₂分别为正则化系数，ω_k和ω₀分别为权重系数及其基准值，b_k和b₀分别为分类结构偏差系数及其基准值，d_k为权重向量偏差系数，函数L(R_ri,p,R_ri,q)为f_cl(R_r)的训练损失函数，其中的下标p和q分别表示编号为p和q的两个不同的R_r，下标i表示R_r的编号，N_k为R_r的数量，下标k表示d_k的编号，K为d_k的数量，将实体关系聚类得到的实现簇|R_γ|及其对应路径R_r作为约束，实现上述环节二全局图谱随机游走的计算，上述环节二全局图谱随机游走通过提取G_m中各个关系r_el及其相应c_γ，建立全局关系特征模型，G_m被定义为G_m＝{g_m,i＝{h_gm,i,R_rg,i,ra_gm,i},i＝1,2,...,s}，其中，g_m,i为G_m的一个子图，下标i和s分别表示子图编号和为子图总数，g_m,i中的h_gm,i、R_rg,i以及ra_gm,i分别表示有效子图的头实体、路径及尾实体，G_m中由h_gm,i通过R_rg,i到达ra_gm,i的可达性p_re计算式如下式(4)所示：

式中，sl＝{h_gm,i∪ra_gm,i,i＝1,2,...,s}，R_ra,i为与ra_gm,i直接对应的R_rg,i中的尾部关系元素，sl和ra_gm,i的相似度函数sim(sl,ra_gm,i)的计算方式与计算式(2)中对C_γ,m和C_γ,n间相似度函数的计算方式相同，用α表示R_rg,i对应的权重值矩阵，则全局图谱随机游走模型可表示为：f(G_m)＝α·p_re，采用逻辑回归算法对模型f(G_m)的参数进行训练，并选择sigmoid函数作为结果的归一化函数，归一化后的全局推理结果p_g计算式如下式(5)所示：

L_m为G_m的子集，定义为L_m＝{l_m,i＝{h_lm,i,R_rl,i,ra_lm,i},i＝1,2,...,z}，其中，l_m,i为L_m的一个子图，下标i和z分别表示子图编号和为子图总数，l_m,i中的hl_m,i、R_rl,i以及ra_lm,i分别表示有效子图的头实体、路径及尾实体，因此对L_m进行随机游走计算时，计算的空间复杂度降低，采用直接计算L_m中不同实体间的转移概率矩阵T_M，进而获得相应的局部推理结果，T_M的计算式如下式(6)所示：

式中，N_hl,i和N_ral,i分别为根据hl_m,i以及ra_lm,i构造的对角矩阵，sp为T_M的转移步数，M_l,i为第sp步时L_m对应的邻接矩阵，T_M的第a行b列对应的元素T_M[a,b]表示以hl_m,i为起点进行随机游走，经过了sp步后跳转到ra_lm,i的概率，采用p_l表示对R_rl,i的局部推理结果评估结果，得到了p_l计算式如下式(7)所示：

将p_g及p_l进行融合并归一化，得到了融合推理结果p_f的计算式如下式(8)所示：

式中，δ表示融合推理稳定系数，用来平衡p_g及p_l的贡献比例，由此，第二步中的步骤一驾驶人推理机制模型输出了融合推理结果；

第二步中步骤二的具体环节如下：

环节一、神经元组模型，建立神经元组模型，为下述的环节四对应的“类我”决策模型得建立提供个性化分类依据，具体包含：神经元组模型定义、特征提取、基于刺激的分类以及突出矩阵等四部分；

环节二、深度卷积网络，通过深度学习网络，为下述的环节三对应的强化学习模型提供面向策略的拟合依据，具体包含：行为网络结构定义以及评价网络结构定义等四部分；

环节三、强化学习模型，通过强化学习模型，实现自动驾驶系统的复杂决策模式，通过寻找最优策略，计算强化学习模型中的最优动作，具体包含：状态定义、奖励函数以及策略梯度等三部分；

环节四、“类我”决策模型，该环节通过上述的环节一得到的个性化分类依据，并结合上述的环节二和环节三的深度强化学习过程，在数据层面融合了“类我”决策数据，通过判断迭代效果是否达到预设的阈值，最终输出自动驾驶系统的在线决策结果，具体包含：“类我”数据融合以及阈值判断等两部分；

T_fs和C_hm组成神经元组在线分类数据流F_cf，即F_cf＝{T_fs,C_hm}；K_dd和K_dm组成自动驾驶离线训练知识流F_ak，即F_ak＝{K_dd,K_dm}，神经元组模型定义的计算式如下式(9)所示：

NGM＝f(F_cf) (9)

根据F_ak提取特定特征，并采用基于海博学习及赫布学习的增量学习规则进行学习，预设一个N_G维度的类别标签，并将所提取的特定特征作为条件刺激，建立属于特定分类维度的个性化神经元组模型，增量学习规则计算式如下式(10)所示：

式中，ΔCHL、ΔHeb和Δβ分别表示赫布学习规则、海博学习规则及增量学习规则，β表示增量学习规则对应的突触矩阵，g_j为突触前激活，h_i为突触后激活，下标i，j分别对应由F_ak提取的第i行第j列的特定特征元素，+和-分别代表家阶段和减阶段，ζ为权重系数，κ为学习率，采用kWTA函数获取特征矩阵中的稀疏分布表示，并提取前r个激活单元，对应的抑制函数f_r计算式如下式(11)所示：

式中，χ为抑制阈值，实现前r个激活单元处于激活模式，被激活的h_i通过计算β的第i行与g_j的标准化点积得到，对应的计算式如下式(12)所示：

遍历计算h_i后，将h_i中取值最大的元素h_i,max定义为最大反应神经元，当且仅当r＝h_i,max时，对应的β_ij为已学习过的特征元素，综上，建立起N_G维度的M_c＝{m_c,1,m_c,2,...,m_c,NG}，其中m_c为N_G维度分类后的M_c的子模型；

将通过M_c中对应子模型分类下的K_dd及K_dm的子数据集K_dd,NG及K_dm,NG，作为上述的环节二深度卷积网络和环节三强化学习模型对应的模型训练数据，深度卷积网络和强化学习模型共同组成深度强化学习模型DRLM，DRLM模型定义对应的计算式如下式(13)所示：

DRLM＝{S_DR,A_DR,P_DR,R_DR,λ} (13)

式中，S_DR为自动驾驶系统的车辆状态空间，A_DR为自动驾驶的操控动作空间，P_DR为自动驾驶系统的状态转移概率分布，R_DR为奖励函数，λ＝[λ₁,λ₂,λ₃,λ₄]为折扣因子。DRIM的R_DR计算式如下式(14)所示：

式中，R_safety，R_goal，R_law和R_comft分别表示安全性奖励函数、时间奖励函数，交通法规奖励函数以及舒适度奖励函数，对应自动驾驶系统对驾驶任务的安全性、机动性、交通规则以及驾驶人舒适性等四个方面的驾驶目标，为实现自动驾驶决策中对于连续数据序列的参数化估计，即在S_DR为连续数据序列模式时对P_DR进行精确估算，采用基于策略梯度的深度卷积网络进行π(a_RDL,s_RDL)的搜索，深度卷积网络主要包括行为网络L(θ^Q)和评价网络▽_θμL(θ^Q)，分别得到对应网络的定义计算式如下式(15)和(16)所示：

式中，算子E为求期望函数，下标t和t+1分别表示当前时间步和下一时刻时间步，θ^Q和θ^μ分别表示两个神经网络结构的非线性估计器，Q为动作值函数，表示以状态S_DR采取行动A_DR获得的预期折扣回报；μ为使得a_RDL＝μ(s_RDL；θ^μ)成立而构造的映射函数，▽_θμL(θ^Q)通过梯度更新的方法，实现对π(a_RDL,s_RDL)的优化；

计算得到的π(a_RDL,s_RDL)在记忆池中进行数据融合与更新，最终得到π^*(a_RDL,s_RDL)，更新模式的计算式如下式(17)所示：

式中，

的正常数；

由此，第二步中的步骤二基于类脑计算的高级“类我”决策模型，输出了自动驾驶系统“类我”决策结果；

第二步中步骤三的具体环节如下：

环节一、驾驶人决策图谱，该环节对应的输入信号为第二步中步骤一对应的环节四输出的融合推理结果p_f以及第一步中步骤一的环节一对应的人态势评估结果H_ms，并按照第三步中步骤三对应的决策图谱知识库K_dm的知识表达规则，最终以分类树图谱结构形式，将p_f、H_ms以及驾驶人操控信号整合为驾驶人决策图谱；

环节二、自动驾驶决策图谱，该环节对应的输入信号为第二步中步骤三对应的环节二输出的最优决策策略π^*(a_RDL,s_RDL)以及第一步中步骤一的环节一对应的交通态势评估结果T_fs，同样按照第三步中步骤三对应的决策图谱知识库K_dm的知识表达规则，最终以分类树图谱结构形式，将π^*(a_RDL,s_RDL)、T_fs以及自动驾驶系统的操控信号整合为自驾系统决策图谱；

环节三、人机图谱对比与预测，该环节对应的输入信号为第一步中步骤一对应的环节三混杂态势融合输出的混杂态势融合结果，第二步中步骤三对应的环节一输出的驾驶人决策图谱以及环节二输出的自驾系统决策图谱；输出信号为人机决策一致率C_DK。该环节首先通过驾驶人决策图谱预测仅驾驶人驾驶情况下，智能车辆在距离当前时刻0秒至10秒的短时域范围内的车辆状态及行驶轨迹的时空演化规律；同时通过自驾系统决策图谱预测仅自动驾驶系统驾驶情况下，智能车辆在距离当前时刻0秒至10秒的短时域范围内的车辆状态及行驶轨迹的时空演化规律，接下来求解相同短时域范围内的仅驾驶人驾驶以及仅自动驾驶系统驾驶情况下的车辆状态及行驶轨迹相似度，并将该相似度结果作为该环节的输出信号C_DK；

第二步中步骤四的具体环节如下：

环节一、细分准则库，该环节以离线存储的方式存储用于高度自动驾驶系统的人机混合决策层对应的人机驾驶权的细分规则，细分准则库主要包括：交通规则库、机动性准则库、安全性准则库以及舒适性准则库，交通规则库存储了城市交通对应的交通规则集合；机动性准则库存储了为保证车辆行驶效率所构建的准则集合；安全性准则库存储了为保证车辆在紧急工况下具备安全纵向与侧向行驶性能的准则集合；舒适性准则库存储了保证车辆驾驶人及乘客在车辆行驶过程中处于舒适状态的准则集合；

环节二、约束规则，该环节以离线存储的方式存储用于约束人机混合决策层知识与模型内参的构型及取值范围的约束规则，主要包括：对第三步中步骤二决策模型知识取值范围的约束规则、对仅驾驶人驾驶时车辆状态的阈值约束规则、对仅自动驾驶系统驾驶时车辆状态的阈值约束规则；

环节三、驾驶权优化算法，第二步中步骤四的环节三对应的输入信号为第一步中步骤三对应的环节三驾驶权规划的驾驶权分配系数τ、第二步中步骤三的环节三对应的C_DK、第二步中步骤四的环节一对应的细分准则、第二步中步骤四的环节二对应的约束规则、当前时刻驾驶人的操控信号以及当前时刻自动驾驶系统的操控信号；输出信号为高度自动驾驶系统的驾驶人驾驶权重值及自动驾驶系统驾驶权重值，该环节首先建立C_DK与第一步中步骤三对应的环节三输出的τ的二维线性规划平面，然后，通过第二步中步骤四对应的环节一输出的细分准则以及环节二输出的约束规则，对驾驶人的操控信号以及当前时刻自动驾驶系统的操控信号进行规范和约束，并最终得到优化后的驾驶权分配系数τ^*。

第三步各步骤中包括的环节如下：

第三步中步骤二的具体环节如下：

环节一、知识元本体建模，该环节规范了第三步中步骤二决策模型知识的模型结构和定义，并确定了决策模型知识的知识源，然后分别通过建立过程模型和概念模型，建立决策模型知识的元本体模型，该环节的输入信号为第一步中步骤二对应的人机混合增强决策模型内参数据流，输出信号为元本体模型；

环节二、决策模型本体设计，该环节采用自定向下的元本体开发模式，以元本体的主干类为核心，分别定义了顶层模型类、顶层数据类和逻辑表达式类的三个顶层类，实现对决策模型本体的设计，该环节的输入信号为第一步中步骤二对应的人机混合增强决策模型内参数据流，输出信号为带有元本体顶层类的初级决策模型知识库；

环节三、模型知识规则设计，该环节对元本体的概念模型进行了推理和查询，通过知识路径管理规则以及知识动作操作规则等两种方式，构建了语义规则库，该环节的输入信号为第三步中步骤二对应的环节二输出的初级决策模型知识库，输出信号为带有语义规则的更新决策模型知识库；

环节四、模型知识架构设计，该环节建立了语义网框架作为知识引擎，将动态知识元本体与静态知识元本体进行整合，此外，该环节建立了语义中间件，以语义映射方式，将多模态的人机混合增强决策模型内参数据流处理为统一元本体结构，该环节的输入信号为第一步中步骤二对应的人机混合增强决策模型内参数据流以及步骤二对应的环节三输出的更新决策模型知识库，输出信号为决策模型知识K_dd；

第三步中步骤三的具体四个环节如下：

环节一、知识图谱本体构建，该环节建立了决策图谱知识用的知识图谱本体，采用领域本体模式合成面向人机混合决策的有效知识本体，该环节的输入信号为第一步中步骤一对应的环节一输出的人态势评估结果H_ms、第一步中步骤一对应的环节二输出的交通态势评估结果T_fs以及第三步中步骤五输出的新模式决策推理知识，输出信号为有效知识本体集合，考虑到H_ms和T_fs中存在时间连续型数据序列，将领域本体模式合成的有效知识本体划分为由概念、关系、函数、公理和个体的五种元素；

环节二、图谱语义规则制定，该环节通过指定语义规则，对有效知识本体在语义级上进行了规范，采用抽象语法和具体语法相结合的方式建立基本语义规则，并在基本语义规则中加入一致性检查、分类、辨识及预测等四种推理功能，实现了具备推理机制的语义规则，该环节无输入信号，输出信号为语义规则；

环节三、图谱语义映射，该环节以关系表的形式将有效知识本体集合与语义规则进行映射，形成决策图谱案例，采用唯一目标地址标识不同相互作用的有效知识本体，通过将有效知识本体组成的关系类及其对应的语义实现多元本体关系的合理映射，最终形成由多个关系类、语义规则及其相互映射关系组成的决策图谱案例库，该环节的输入信号为第三步中步骤三对应的环节一输出的有效知识本体集合以及环节二输出的语义规则，输出信号为决策图谱案例库；

环节四、案例知识调用，该环节制定了案例访问机制，按照先搜索决策图谱案例库中有效知识本体，再搜索相似关系，最后搜索相似语义的模式，实现决策图谱案例库中特定案例的调用，该环节建立的案例访问机制与决策图谱案例库，共同组成了决策图谱知识库，该环节的输入信号为第三步中步骤三对应的环节三输出的决策图谱案例库，输出信号为决策图谱知识库K_dm；

第三步中步骤四的具体环节如下：

环节一、知识规则导向模型，该环节建立知识规则导向模型，进而将预先采集的驾驶人离线数据库转化为以知识规则为约束的驾驶人离线知识库，该环节的输入信号为驾驶人离线数据库信息以及第三步中步骤五输出的新模式决策推理知识；输出信号为知识规则导向函数和驾驶人离线知识库；

环节二、知识推理向量建模，该环节建立基于车辆动力学特性以及车路耦合特性的知识推理向量，求解以知识数据结构形式表示的驾驶人离线知识库对应的车辆状态变化的推理和预测结果，并整合为知识推理向量集，该环节的输入信号为第三步中步骤四对应的环节一输出的知识规则导向函数以及驾驶人离线知识库；输出信号为知识推理向量集；

环节三、层次化逻辑推理分类，该环节基于场景的危险程度和驾驶模式，建立起层次化的逻辑推理分类方法，并在该分类方法下，将知识推理向量集划分为典型的知识推理向量子集，该环节的输入信号为第三步中步骤四对应的环节二输出的知识推理向量集；输出信号为分类后的知识推理向量子集；

环节四、推理知识架构生成，该环节将知识推理向量子集按照优先级进行排列，并设定对知识推理向量子集的搜索逻辑算法，搜索逻辑算法规范了推理知识架构，将搜索逻辑算与知识向量子集进行整合，形成决策推理知识库K_df，该环节的输入信号为第三步中步骤四对应的环节三输出的知识推理向量子集；输出信号为决策推理知识库K_df；

第三步中步骤五的具体环节如下：

环节一、数据清洗，该环节对第一步中步骤一输出的人态势评估结果H_ms、交通态势评估结果T_fs、混杂态势融合结果M_us、第一步中步骤四对应的环节三输出的在线评估结果O_er以及第四步中步骤三输出τ^*的历史数据曲线中的冗余数据进行数据清洗，具体包含：冗余数据清洗和基础数据清晰两部分；

环节二、特征提取，该环节提取第三步中步骤五对应的环节一输出的清洗后的人态势评估结果H_ms、交通态势评估结果T_fs、混杂态势融合结果M_us、在线评估结果O_er以及τ^*的历史数据曲线的有效特征，并形成有效特征集合，具体包含：“人—交通”态势特征提取、人机混合决策一致性特征提取以及特征融合三部分；

环节三、相似性对比与评级，该环节分别将第三步中步骤五对应的环节一输出的有效特征集合与第三步骤步骤二对应的决策模型知识、步骤三对应的决策图谱知识以及步骤四对应的决策推理知识的有效特征进行对比，并计算第三步中步骤五对应的环节一输出的有效特征集合对应的相似度等级，具体包含：决策模型知识相似性对比、决策推理知识相似性对比、决策图谱知识相似性对比以及相似性等级判定四部分；

环节四、新知识合成，该环节首先判断相似度等级低于阈值的有效特征集合对应的人态势评估结果H_ms、交通态势评估结果T_fs、混杂态势融合结果M_us以及在线评估结果数据的有效特征对应的知识类型，然后根据对应知识类型的知识数据结构进行新知识合成，具体包含：知识类型分类、决策模型知识合成、决策推理知识合成以及决策图谱知识合成四部分；

为建立新知识合成机制模型，首先将第三步中步骤五对应的环节一的输入数据组成新知识合成数据集N_ck＝{H_ms,T_fs,M_us,O_er}，采用相似数据比对算法，将N_ck中存在的构型冗余数据以及物理关系冗余数据进行清洗，考虑到各元素数据在时间轴上具备一致性，相似数据比对算法中的数据比对条数S_num以及比对窗口内数据的相似重复率D_rt的计算式如下式(18)所示：

式中，Tm为对比窗口的时间戳，Da为Tm对应的对比数据形成的矩阵，下标t0为第一个对比时刻，f_Tm为N_ck的采样频率，Δt为窗口长度，d_num为窗口内相似重复记录数。在此基础上，将清洗后的数据集中各个元素对应的数据进行滤波，得到清晰后的数据集N’_ck；

为实现对N’_ck的模式判定，需要对N’_ck中的典型特征进行提取，并根据相似性对数据进行分类，N’_ck中的典型特征F_T包括“人—交通”态势特征M_ST以及人机混合决策一致性特征C_HT，“人—交通”态势特征用于表征当前时刻“人—交通”态势数据的统计性特征，人机混合决策一致性特征用于表征当前时刻人机混合决策效果的指标性特征，F_T的计算式如下式(19)所示：

F_T＝{M_ST,C_HT}＝{f_ST,e_ST,m_ST,C_DK} (19)

式中，f_ST、e_ST以及m_ST分别表示M_ST对应的频域特征、极值特征以及均值特征，C_DK为人机决策一致率，根据F_T将N’_ck分别与进行的决策模型知识K_dd、决策图谱知识库K_dm以及决策推理知识库K_df中的各个知识元素进行相似性对比，并评估相似度等级D_s，相似性对比分为数据转化、义原参数化和相似度计算两部分，数据转化部分将N’_ck分别转化为K_dd、K_dm以及K_df中的知识数据结构，将构成K_dd、K_dm以及K_df中知识的最小单元定义为义原，义原的参数化过程为设定对于特定知识库中义原值ψ的过程，对于N’_ck中存在不可转化为对应知识库中知识数据结构的数据模态时，将对应的D_s设置为0；N’_ck中的数据可转化为对应知识库中的知识数据结构的数据模态时，D_s的计算式如下式(20)所示：

式中，d_is表示K_dd、K_dm以及K_df中的任一知识与N’_ck数据转化后知识的距离，分别将N’_ck转化后的知识与K_dd、K_dm以及K_df进行相似性计算，根据D_s和C_DK进行相似性等级判定，判定逻辑为当且仅当D_s取值处于对应知识库规定的D_s阈值范围内，而C_DK低于规定的阈值时，认为N’_ck能够合成一条新知识，将N’_ck按照对应知识库的知识数据结构进行表示，并合并到对应知识库中，完成新知识合成。

第四步各步骤中包括的环节如下：

第四步中步骤二的具体环节如下：

环节一、在线评估用知识库框架整合，该环节整合第三步中步骤五新知识合成机制模型中对在线评估结果数据的建模过程，并合并为在线评估用知识库框架，进而输出至高度自动驾驶系统中的决策在线校验模块；

环节二、在线评估用知识库更新，该环节将第三步中步骤五对应的环节四输出的在线评估用知识，按照合成后的新知识对应的知识数据结构进行整合，进而输出至高度自动驾驶系统中的决策在线校验模块；

第四步中步骤四的具体环节如下：

环节一、车辆动力学反解，该环节通过对当前时刻的车辆状态量进行动力学反解，求解出当前时刻对应的理想控制量信息，该环节的输入信号为当前时刻对应的车辆状态量；输出信号为当前时刻对应的理想控制量信息；

环节二、控制规则框架，该环节建立了用于计算期望控制量的控制算法框架，该控制算法框架采用控制论中的典型控制算法实现，用于计算期望的控制量；

环节三、期望控制量计算，该环节结合第四步中步骤四对应的环节一输出的当前时刻对应的理想控制量信息以及环节二建立的控制算法框架，计算得到最终的期望控制量，该环节的输入信号为控制规则框架下的理想控制量信息；输出信号为期望的控制量。

本发明的有益效果：

1)本发明提供的基于混合增强智能的高一致性人机混合决策方法，通过整合输入数据流与信息流、构建人机混合增强推理决策模型、构建在线人机决策知识库以及整合输出变量等四步实现具备高一致性的人机混合决策逻辑，可以极大的提高人机共驾系统的安全性和可信性，并提高驾驶人的可接受度，实现安全且可信的人机混合决策模式；

2)本发明提供的基于混合增强智能的高一致性人机混合决策方法，基于“人—交通”混杂态势评估逻辑，得到了综合且可靠的动态驾驶情境数据表征；通过人机混合增强内模及其在线评估逻辑等对应的多模态数据流，实现了全面、可靠且丰富的决策信息源集合；

3)本发明提供的基于混合增强智能的高一致性人机混合决策方法，基于驾驶人的推理机制以及以新一代人工智能为代表的类脑计算模式，消除了机器计算属性下的人机决策差异；通过人机决策一致性对比模型判断与优化人机决策结果，提高驾驶人的可接受性；建立的人机混合增强推理决策模型，可以得到精细且合理的动态驾驶权分配结果，实现具备高驾驶人可接受性及超人脑模式的决策效果；

4)本发明提供的基于混合增强智能的高一致性人机混合决策方法，通过构建在线人机决策知识库系统框架，实现了知识级人机混合决策知识库构建，为以新一代人工智能为代表的混合增强智能理论建立了人机共驾系统内的知识表征规则；通过决策模型知识、决策图谱知识以及决策推理知识，建立了全面且合理的决策知识内容，实现了知识级数据形态的自动驾驶数据库，提高了自动驾驶决策层的系统性能；通过新知识合成机制模型将人机共驾系统采集的新知识进行判断与合成，极大地提高了系统对真实交通环境的适应性；

5)本发明提供的基于混合增强智能的高一致性人机混合决策方法，通过整合输出变量实现决策层信号流的汇总与融合，提高了人机混合决策逻辑的可移植性，降低了决策逻辑与自动驾驶系统其它子模块数据交互的复杂性与模型耦合，保证了决策逻辑的模块内自校验与自优化过程的独立进行；

6)本发明提供的基于混合增强智能的高一致性人机混合决策方法，具备较好的代码一致性、泛化能力和可靠性，能够兼容实现常规工况下的在线决策与紧急工况下的实时决策性能，产品化后可以具备维护与优化周期长，产品具备面向未知驾驶情境与真实交通环境下的自校验与自优化的功能。

附图说明

图1为本发明所述的高一致性人机混合决策方法的整体步骤示意图。

图2为本发明所述的高一致性人机混合决策方法的整体架构示意图。

图3为本发明所述的第一步的整体架构示意图。

图4为本发明所述的第二步的整体架构示意图。

图5为本发明所述的第三步的整体架构示意图。

图6为本发明所述的第四步的整体架构示意图。

图7为本发明所述的第二步中步骤一的算法流程图。

图8为本发明所述的第二步中步骤二的算法流程图。

图9为本发明所述的第三步中步骤五的算法流程图。

图10为本发明所述的第二步中步骤四的计算结果示例图。

图11为本发明所述的第三步中步骤三的知识库局部示例图。

具体实施方式

请参阅图1至图11所示：

本发明提供的基于混合增强智能的高一致性人机混合决策方法，应用对象为由驾驶人及自动驾驶系统共同构成的高度自动驾驶系统，其方法如下所述：

第一步、整合输入数据流与信息流；

第二步、构建人机混合增强决策模型；

第三步、构建在线人机决策知识库；

第四步、整合输出变量。

第一步中整合输入数据流与信息流的过程如下：

步骤一、整合多模态“人—交通”混杂态势数据流。步骤一由三个环节完成。

环节一、人态势评估。该环节通过当前时刻驾驶人的操纵动作和驾驶人的生物电信号，评估包括驾驶人对当前场景中感兴趣区域提取以及驾驶意图在内的当前时刻人态势。驾驶人的操作动作包括油门踏板开度、制动踏板开度引起的制动主缸压力、转向盘转角及角速度、驾驶人眼动及驾驶人头动。驾驶人生物电信号包括驾驶人的心电、脑电、肌电和皮电信号。因此，该环节的输入信号为驾驶人操纵信号以及驾驶人生物电信号；输出信号为人态势评估结果H_ms。

环节二、交通态势评估。该环节通过当前动态场景信号和静态场景信号，评估包括动态场景中的动态参与物以及静态场景中的行驶规则与道路情况在内的交通态势。动态场景信号包括动态交通车信号以及动态行人信号，静态场景信号包括车道线、交通标识以及路沿石信号。因此，该环节的输入信号为动态场景信号以及静态场景信号；输出信号为交通态势评估结果T_fs。

环节三、混杂态势融合。该环节将第一步中步骤一对应的环节一与环节二的输出信号进行融合，通过对H_ms和T_fs进行时间对齐和空间坐标转换，实现带有多数据模态及场景元素的混杂态势融合。该环节的输入信号为第一步中步骤一对应的环节一输出的人态势评估结果H_ms以及环节二输出的交通态势评估结果T_fs；输出信号为混杂态势融合结果M_us。

步骤二、整合人机混合增强决策模型内参数据流。该环节将第二步中人机混合增强决策模型的各个步骤对应的模型内参按时间与事件顺序进行排列与整合，将整合后的模型内参作为第三步中步骤二决策模型知识构建的数据输入。该环节的输入信号为第二步构建的人机混合增强决策模型中各个步骤对应的模型内参；输出信号为人机混合增强决策模型内参数据流。

步骤三、整合人机混合增强决策驾驶权评估目标信息流。步骤三由三个环节完成。

环节一、驾驶人驾驶能力评估。该环节通过当前时刻的驾驶人-车-路-环境的状态与耦合情况，计算当前时刻驾驶人对车辆的综合控制能力，即评估当前时刻驾驶人的驾驶能力。采用典型系统辨识模型作为驾驶能力评估模型，将该环节的输入信号输入进驾驶能力评估模型，进而得到量化的驾驶能力评估结果。该环节的输入信号为人态势评估结果H_ms、车辆状态信号、车路耦合状态信号；输出信号为驾驶人驾驶能力评估结果。

环节二、自驾系统驾驶能力评估。该环节通过当前时刻的交通态势及自动驾驶系统中感知与决策两个层次的全部模型内参，计算当前时刻自动驾驶系统对车辆的综合控制能力，即自驾系统驾驶能力。将该环节的输入数据对应的状态变量赋予对应的权重值，并采用带有权重的线性函数进行计算，进而实现对自驾系统驾驶能力的评估。该环节的输入信号为交通态势评估结果T_fs以及自动驾驶系统内参；输出信号为自驾系统驾驶能力评估结果。

环节三、驾驶权规划。通过第一步中步骤三的环节一输出的驾驶人驾驶能力评估结果和环节二输出的自驾系统驾驶能力评估结果，可分别量化的评估当前时刻下高度自动驾驶系统中驾驶人和自驾系统对车辆的综合控制效果。因此，根据驾驶人驾驶能力评估结果和自驾系统驾驶能力评估结果，通过归一化计算方式，能够计算得到当前时刻驾驶人和自驾系统间的驾驶权分配系数τ。该环节的输入信号为驾驶人驾驶能力评估结果以及自动驾驶驾驶能力评估结果，输出信号为驾驶权分配系数τ。

步骤四、整合人机混合增强决策在线评估结果信息流。步骤四由三个环节完成。

环节一、短时域在线校验结果。该环节通过整合高度自动驾驶系统中短时域快速更新的决策在线检验模块，得到短时域在线校验结果。决策在线校验模块是高度自动驾驶系统中，用于评估人机混合决策效果的模块。将该模块输出的短时域校验信号进行时间对齐与阈值检测，可以得到清晰且合理的短时域在线校验结果。该环节的输入信号为短时域校验模块信号；输出信号为短时域校验结果。

环节二、长时域在线优化结果。该环节通过整合高度自动驾驶系统中长时域快速更新的决策在线检验模块，得到长时域在线校验结果。将该模块输出的长时域校验信号进行时间对齐与阈值检测，可以得到清晰且合理的长时域在线校验结果。该环节的输入信号为长时域校验模块信号；输出信号为长时域校验结果。

环节三、在线评估信息流整合。该环节将第一步中步骤四的环节一输出的短时域校验结果和环节二输出的长时域校验结果进行整合，得到在线评估结果。整合过程主要包括时域类别标注以及冗余时域剔除两个部分。该环节的输入信号为短时域校验结果以及长时域校验结果，输出信号为在线评估结果O_er。

在图3中示出第一步的一示例性实施方式。第一步最终输出多模态“人—交通”混杂态势数据流、人机混合增强决策内参数据流、人机混合增强决策驾驶权评估目标信息流以及人机混合增强决策在线评估结果信息流。

第二步中构建人机混合增强决策模型的过程如下：

步骤一、构建驾驶人推理机制模型。步骤一由四个环节完成。

环节一、多目标学习框架。建立基于人机混合决策安全性、舒适性、功能性及机动性的多学习目标，在驾驶人推理机制模型中的全局图中提取局部子图，并建立根据关系聚类和局部子图间的耦合结果进行随机游走的学习框架。具体包含：推理机制模型定义、实体关系标准制定以及实体关系聚类等三部分。

环节二、全局图谱随机游走。建立驾驶人推理机制全局图，并判断全局图中各个实体对间可达性，进而求解全局图对应的推理结果。具体包含：全局图建立，实体可达性计算以及全局推理结果计算等三部分。

环节三、局部子图随机游走。从驾驶人推理机制全局图中提取特定的驾驶人推理机制局部关系子图，实现随机游走。具体包含：局部子图建立、实体转移概率矩阵计算以及局部推理结果计算等三部分。

环节四、融合推理。将第二步的步骤一中的环节二和环节三获得的全局推理结果以及局部推理结果进行统一的分布区域匹配，采用非线性化映射逻辑融合推理结果。具体包含：推理结果归一化计算以及融合推理结果计算等两部分。

在图7中示出了第二步中步骤一的一示例性实施方案。第二步中步骤一的环节一对应的输入信号为第一步中步骤一的环节一对应的人态势评估结果H_ms、第二步中步骤三对应的人机决策一致性对比结果C_hm、第三步中步骤三对应的决策图谱知识库K_dm以及第三步中步骤四对应的决策推理知识库K_df；输出信号为实体关系聚类结果。第二步中步骤一的环节二对应的输入信号为实体关系聚类结果；输出信号为全局推理结果。第二步中步骤一的环节三对应的输入信号为全局图；输出信号为局部推理结果。第二步中步骤一的环节四对应的输入信号为全局推理结果以及局部推理结果；输出信号为融合推理结果。

H_ms和C_hm组成驾驶人推理在线数据流F_lf，即F_lf＝{H_ms,C_hm}；K_df和K_dm组成驾驶人推理离线知识流F_fk，即F_fk＝{K_df,K_dm}。因此，驾驶人推理机制模型(Driver InferenceMechanism Model，DIMM)定义的计算式如下(1)所示：

式中，G_m和L_m分别代表全局图和局部子图，f(G_m,L_m)为DIMM的函数，f(F_lf)表示F_fk的子集函数。因此，DIMM模型为基于多目标学习框架及随机游走模式的推理模型。在特定时刻驾驶场景下，独立的关系γ间通过实体相关度对比，实现簇|R_γ|的多次迭代与聚类，并更新所组成的新簇对应的包含全部特征值c_γ的共享特征值集C_γ。簇间相似度函数sim(C_γ,m,C_γ,n)的计算式如下式(2)所示：

式中，算子Π表示对集合C_γ中各元素进行求积，C_γ的下标m和n表示编号为m和n的两个不同的C_γ。在求得|R_γ|间相似度的基础上，建立联合学习分类模型来耦合并构成各个|R_γ|内γ的路径R_r。分类器结构函数f_cl(R_r)及对应的联合关系学习模型的计算式如下式(3)所示：

式中，μ₁和μ₂分别为正则化系数，ω_k和ω₀分别为权重系数及其基准值，b_k和b₀分别为分类结构偏差系数及其基准值，d_k为权重向量偏差系数。函数L(R_ri,p,R_ri,q)为f_cl(R_r)的训练损失函数，其中的下标p和q分别表示编号为p和q的两个不同的R_r。下标i表示R_r的编号，N_k为R_r的数量，下标k表示d_k的编号，K为d_k的数量。将实体关系聚类得到的实现簇|R_γ|及其对应路径R_r作为约束，实现第二步的步骤一中环节二全局图谱随机游走的计算。步骤一中环节二全局图谱随机游走通过提取G_m中各个关系r_el及其相应c_γ，建立全局关系特征模型。G_m可被定义为G_m＝{g_m,i＝{h_gm,i,R_rg,i,ra_gm,i},i＝1,2,...,s}，其中，g_m,i为G_m的一个子图，下标i和s分别表示子图编号和为子图总数，g_m,i中的h_gm,i、R_rg,i以及ra_gm,i分别表示有效子图的头实体、路径及尾实体。G_m中由h_gm,i通过R_rg,i到达ra_gm,i的可达性p_re计算式如下式(4)所示：

式中，sl＝{h_gm,i∪ra_gm,i,i＝1,2,...,s}，R_ra,i为与ra_gm,i直接对应的R_rg,i中的尾部关系元素，sl和ra_gm,i的相似度函数sim(sl,ra_gm,i)的计算方式与计算式(2)中对C_γ,m和C_γ,n间相似度函数的计算方式相同。用α表示R_rg,i对应的权重值矩阵，则全局图谱随机游走模型可表示为：f(G_m)＝α·p_re。采用逻辑回归算法对模型f(G_m)的参数进行训练，并选择sigmoid函数作为结果的归一化函数，归一化后的全局推理结果p_g计算式如下式(5)所示：

L_m为G_m的子集，可以定义为L_m＝{l_m,i＝{h_lm,i,R_rl,i,ra_lm,i},i＝1,2,...,z}。，其中，l_m,i为L_m的一个子图，下标i和z分别表示子图编号和为子图总数，l_m,i中的hl_m,i、R_rl,i以及ra_lm,i分别表示有效子图的头实体、路径及尾实体。因此对L_m进行随机游走计算时，计算的空间复杂度降低，故可以采用直接计算L_m中不同实体间的转移概率矩阵T_M，进而获得相应的局部推理结果。T_M的计算式如下式(6)所示：

式中，N_hl,i和N_ral,i分别为根据hl_m,i以及ra_lm,i构造的对角矩阵，sp为T_M的转移步数，M_l,i为第sp步时L_m对应的邻接矩阵。T_M的第a行b列对应的元素T_M[a,b]表示以hl_m,i为起点进行随机游走，经过了sp步后跳转到ra_lm,i的概率。采用p_l表示对R_rl,i的局部推理结果评估结果，得到了p_l计算式如下式(7)所示：

式中，δ表示融合推理稳定系数，用来平衡p_g及p_l的贡献比例。由此，第二步中的步骤一驾驶人推理机制模型输出了融合推理结果。

步骤二、构建基于类脑计算的高级“类我”决策模型。步骤二由四个环节完成。

环节一、神经元组模型。建立神经元组模型，为第二步中步骤二的环节四对应的“类我”决策模型得建立提供个性化分类依据。具体包含：神经元组模型定义、特征提取、基于刺激的分类以及突出矩阵等四部分。

环节二、深度卷积网络。通过深度学习网络，为第二步中步骤二的环节三对应的强化学习模型提供面向策略的拟合依据。具体包含：行为网络结构定义以及评价网络结构定义等四部分。

环节三、强化学习模型。通过强化学习模型，实现自动驾驶系统的复杂决策模式。通过寻找最优策略，计算强化学习模型中的最优动作。具体包含：状态定义、奖励函数以及策略梯度等三部分。

环节四、“类我”决策模型。该环节通过第二步中步骤二的环节一得到的个性化分类依据，并结合第二步中步骤二的环节二和环节三的深度强化学习过程，在数据层面融合了“类我”决策数据，通过判断迭代效果是否达到预设的阈值，最终输出自动驾驶系统的在线决策结果。具体包含：“类我”数据融合以及阈值判断等两部分。

在图8中示出了第二步中步骤二的一示例性实施方案。第二步中步骤二的环节一对应的输入信号为第一步中步骤一的环节一对应的交通态势评估结果T_fs、第二步中步骤三对应的C_hm、第三步中步骤二决策模型知识K_dd以及第三步中步骤三对应的决策图谱知识库K_dm；输出信号为个性化分类模型M_c。第二步中步骤二的环节二对应的输入信号为第一步中步骤一的环节一对应的T_fs、第二步中步骤三对应的C_hm、经过M_c分类后对应的K_dd及K_dm；输出信号为预期折扣回报Q_π以及策略梯度优化函数▽_θ。第二步中步骤二的环节三对应的输入信号为第一步中步骤一的环节一对应的T_fs、第二步中步骤三对应的C_hm、Q_π以及▽_θ；输出信号为决策策略π(a_RDL,s_RDL)。第二步中步骤二的环节四对应的输入信号为π(a_RDL,s_RDL)以及M_c；输出信号为最优决策策略π^*(a_RDL,s_RDL)。

T_fs和C_hm组成神经元组在线分类数据流F_cf，即F_cf＝{T_fs,C_hm}；K_dd和K_dm组成自动驾驶离线训练知识流F_ak，即F_ak＝{K_dd,K_dm}。因此，神经元组模型(Neuron Group Model，NGM)定义的计算式如下式(9)所示：

NGM＝f(F_cf) (9)

根据F_ak提取特定特征，并采用基于海博学习及赫布学习的增量学习规则进行学习。预设一个N_G维度的类别标签，并将所提取的特定特征作为条件刺激，建立属于特定分类维度的个性化神经元组模型。增量学习规则计算式如下式(10)所示：

式中，ΔCHL、ΔHeb和Δβ分别表示赫布学习规则、海博学习规则及增量学习规则，β表示增量学习规则对应的突触矩阵，g_j为突触前激活，h_i为突触后激活，下标i，j分别对应由F_ak提取的第i行第j列的特定特征元素，+和-分别代表家阶段和减阶段，ζ为权重系数，κ为学习率。采用kWTA函数获取特征矩阵中的稀疏分布表示，并提取前r个激活单元，对应的抑制函数f_r计算式如下式(11)所示：

式中，χ为抑制阈值，实现前r个激活单元处于激活模式。因此，被激活的h_i可以通过计算β的第i行与g_j的标准化点积得到，对应的计算式如下式(12)所示：

遍历计算h_i后，将h_i中取值最大的元素h_i,max定义为最大反应神经元，当且仅当r＝h_i,max时，对应的β_ij为已学习过的特征元素。综上，建立起N_G维度的M_c＝{m_c,1,m_c,2,...,m_c,NG}，其中m_c为N_G维度分类后的M_c的子模型。

将通过M_c中对应子模型分类下的K_dd及K_dm的子数据集K_dd,NG及K_dm,NG，作为第二步中步骤二的环节二深度卷积网络和环节三强化学习模型对应的模型训练数据。深度卷积网络和强化学习模型共同组成深度强化学习模型(Deep Reinforcement Learning Model，DRLM)，DRLM模型定义对应的计算式如下式(13)所示：

DRLM＝{S_DR,A_DR,P_DR,R_DR,λ} (13)

式中，R_safety，R_goal，R_law和R_comft分别表示安全性奖励函数、时间奖励函数，交通法规奖励函数以及舒适度奖励函数，对应自动驾驶系统对驾驶任务的安全性、机动性、交通规则以及驾驶人舒适性等四个方面的驾驶目标。为实现自动驾驶决策中对于连续数据序列的参数化估计，即在S_DR为连续数据序列模式时对P_DR进行精确估算，采用基于策略梯度的深度卷积网络进行π(a_RDL,s_RDL)的搜索。深度卷积网络主要包括行为网络L(θ^Q)和评价网络▽_θμL(θ^Q)，可以分别得到对应网络的定义计算式如下式(15)和(16)所示：

式中，算子E为求期望函数，下标t和t+1分别表示当前时间步和下一时刻时间步，θ^Q和θ^μ分别表示两个神经网络结构的非线性估计器。Q为动作值函数，表示以状态S_DR采取行动A_DR获得的预期折扣回报；μ为使得a_RDL＝μ(s_RDL；θ^μ)成立而构造的映射函数。▽_θμL(θ^Q)通过梯度更新的方法，实现对π(a_RDL,s_RDL)的优化。

计算得到的π(a_RDL,s_RDL)在记忆池中进行数据融合与更新，最终得到π^*(a_RDL,s_RDL)。更新模式的计算式如下式(17)所示：

式中，

的正常数。

由此，第二步中的步骤二基于类脑计算的高级“类我”决策模型，输出了自动驾驶系统“类我”决策结果。

步骤三、构建人机决策一致性对比模型。步骤三由三个环节完成。

环节一、驾驶人决策图谱。该环节对应的输入信号为第二步中步骤一对应的环节四输出的融合推理结果p_f以及第一步中步骤一的环节一对应的人态势评估结果H_ms，并按照第三步中步骤三对应的决策图谱知识库K_dm的知识表达规则，最终以分类树图谱结构形式，将p_f、H_ms以及驾驶人操控信号整合为驾驶人决策图谱。

环节二、自动驾驶决策图谱。该环节对应的输入信号为第二步中步骤三对应的环节二输出的最优决策策略π^*(a_RDL,s_RDL)以及第一步中步骤一的环节一对应的交通态势评估结果T_fs，同样按照第三步中步骤三对应的决策图谱知识库K_dm的知识表达规则，最终以分类树图谱结构形式，将π^*(a_RDL,s_RDL)、T_fs以及自动驾驶系统的操控信号整合为自驾系统决策图谱。

环节三、人机图谱对比与预测。该环节对应的输入信号为第一步中步骤一对应的环节三混杂态势融合输出的混杂态势融合结果，第二步中步骤三对应的环节一输出的驾驶人决策图谱以及环节二输出的自驾系统决策图谱；输出信号为人机决策一致率C_DK。该环节首先通过驾驶人决策图谱预测仅驾驶人驾驶情况下，智能车辆在距离当前时刻0秒至10秒的短时域范围内的车辆状态及行驶轨迹的时空演化规律；同时通过自驾系统决策图谱预测仅自动驾驶系统驾驶情况下，智能车辆在距离当前时刻0秒至10秒的短时域范围内的车辆状态及行驶轨迹的时空演化规律。接下来求解相同短时域范围内的仅驾驶人驾驶以及仅自动驾驶系统驾驶情况下的车辆状态及行驶轨迹相似度，并将该相似度结果作为该环节的输出信号C_DK。

步骤四、构建驾驶权细分模型。步骤四由三个环节完成。

环节一、细分准则库。该环节以离线存储的方式存储用于高度自动驾驶系统的人机混合决策层对应的人机驾驶权的细分规则。细分准则库主要包括：交通规则库、机动性准则库、安全性准则库以及舒适性准则库。交通规则库存储了城市交通对应的交通规则集合；机动性准则库存储了为保证车辆行驶效率所构建的准则集合；安全性准则库存储了为保证车辆在紧急工况下具备安全纵向与侧向行驶性能的准则集合；舒适性准则库存储了保证车辆驾驶人及乘客在车辆行驶过程中处于舒适状态的准则集合。

环节二、约束规则。该环节以离线存储的方式存储用于约束人机混合决策层知识与模型内参的构型及取值范围的约束规则。主要包括：对第三步中步骤二决策模型知识取值范围的约束规则、对仅驾驶人驾驶时车辆状态的阈值约束规则、对仅自动驾驶系统驾驶时车辆状态的阈值约束规则。

环节三、驾驶权优化算法。第二步中步骤四的环节三对应的输入信号为第一步中步骤三对应的环节三驾驶权规划的驾驶权分配系数τ、第二步中步骤三的环节三对应的C_DK、第二步中步骤四的环节一对应的细分准则、第二步中步骤四的环节二对应的约束规则、当前时刻驾驶人的操控信号以及当前时刻自动驾驶系统的操控信号；输出信号为高度自动驾驶系统的驾驶人驾驶权重值及自动驾驶系统驾驶权重值。该环节首先建立C_DK与第一步中步骤三对应的环节三输出的τ的二维线性规划平面。然后，通过第二步中步骤四对应的环节一输出的细分准则以及环节二输出的约束规则，对驾驶人的操控信号以及当前时刻自动驾驶系统的操控信号进行规范和约束，并最终得到优化后的驾驶权分配系数τ^*。

在图10中示出了第二步中步骤四的一示例性运算结果。

在图4中示出第二步的一示例性实施方式。第二步最终输出驾驶权细分结果，包括驾驶人驾驶权重值及自动驾驶系统驾驶权重值。

第三步中构建在线人机决策知识库的过程如下：

步骤一、建立在线人机决策知识库系统框架。具体内容包括：人机决策用知识模式、各模式间的知识数据结构以及各模式间的数据交互逻辑。人机决策用知识模式包含第三步中步骤二决策模型知识、步骤三决策图谱知识、步骤四决策推理知识以及步骤五新知识合成机制模型。步骤二决策模型知识的知识数据结构为面向对象的语义映射结构；步骤三决策图谱知识的知识数据结构为分类树图谱结构；步骤四决策推理知识的知识数据结构为基于数据序列的图谱结构；步骤五新知识合成机制模型判断合成的新知识模式，并采用对应知识模式的知识数据结构。步骤三决策图谱知识和步骤四决策推理知识接收步骤二决策模型知识的知识内容，并以此作为步骤三决策图谱知识和步骤四决策推理知识的输入；步骤五新知识合成机制模型接收步骤二决策模型知识、步骤三决策图谱知识和步骤四决策推理知识的知识内容，并以此作为新知识模式的判断依据，并将与新知识输出至于新知识模式相同的对应步骤中。

步骤二、建立决策模型知识。步骤二由四个环节完成。

环节一、知识元本体建模。该环节规范了第三步中步骤二决策模型知识的模型结构和定义，并确定了决策模型知识的知识源。然后分别通过建立过程模型和概念模型，建立决策模型知识的元本体模型。该环节的输入信号为第一步中步骤二对应的人机混合增强决策模型内参数据流，输出信号为元本体模型。

环节二、决策模型本体设计。该环节采用自定向下的元本体开发模式，以元本体的主干类为核心，分别定义了顶层模型类、顶层数据类和逻辑表达式类等三个顶层类，实现了对决策模型本体的设计。该环节的输入信号为第一步中步骤二对应的人机混合增强决策模型内参数据流，输出信号为带有元本体顶层类的初级决策模型知识库。

环节三、模型知识规则设计。该环节对元本体的概念模型进行了推理和查询，通过知识路径管理规则以及知识动作操作规则等两种方式，构建了语义规则库。该环节的输入信号为第三步中步骤二对应的环节二输出的初级决策模型知识库，输出信号为带有语义规则的更新决策模型知识库。

环节四、模型知识架构设计。该环节建立了语义网框架作为知识引擎，将动态知识元本体与静态知识元本体进行整合。此外，该环节建立了语义中间件，以语义映射方式，将多模态的人机混合增强决策模型内参数据流处理为统一元本体结构。该环节的输入信号为第一步中步骤二对应的人机混合增强决策模型内参数据流以及步骤二对应的环节三输出的更新决策模型知识库，输出信号为决策模型知识K_dd。

步骤三、建立决策图谱知识。步骤三由四个环节完成。

环节一、知识图谱本体构建。该环节建立了决策图谱知识用的知识图谱本体，采用领域本体模式合成面向人机混合决策的有效知识本体。该环节的输入信号为第一步中步骤一对应的环节一输出的人态势评估结果H_ms、第一步中步骤一对应的环节二输出的交通态势评估结果T_fs以及第三步中步骤五输出的新模式决策推理知识，输出信号为有效知识本体集合。考虑到H_ms和T_fs中存在时间连续型数据序列，将领域本体模式合成的有效知识本体划分为由概念、关系、函数、公理和个体等五种元素。

环节二、图谱语义规则制定。该环节通过指定语义规则，对有效知识本体在语义级上进行了规范。采用抽象语法和具体语法相结合的方式建立基本语义规则，并在基本语义规则中加入一致性检查、分类、辨识及预测等四种推理功能，实现了具备推理机制的语义规则。该环节无输入信号，输出信号为语义规则。

环节三、图谱语义映射。该环节以关系表的形式将有效知识本体集合与语义规则进行映射，形成决策图谱案例。采用唯一目标地址标识不同相互作用的有效知识本体，通过将有效知识本体组成的关系类及其对应的语义实现多元本体关系的合理映射，最终形成由多个关系类、语义规则及其相互映射关系组成的决策图谱案例库。该环节的输入信号为第三步中步骤三对应的环节一输出的有效知识本体集合以及环节二输出的语义规则，输出信号为决策图谱案例库。

环节四、案例知识调用。该环节制定了案例访问机制，按照先搜索决策图谱案例库中有效知识本体，再搜索相似关系，最后搜索相似语义的模式，实现了决策图谱案例库中特定案例的调用。该环节建立的案例访问机制与决策图谱案例库，共同组成了决策图谱知识库。该环节的输入信号为第三步中步骤三对应的环节三输出的决策图谱案例库，输出信号为决策图谱知识库K_dm。

在图11中示出了第三步中步骤三的一示例性运算结果。

步骤四、建立决策推理知识。步骤四由四个环节完成。

环节一、知识规则导向模型。该环节建立知识规则导向模型，进而将预先采集的驾驶人离线数据库转化为以知识规则为约束的驾驶人离线知识库。该环节的输入信号为驾驶人离线数据库信息以及第三步中步骤五输出的新模式决策推理知识；输出信号为知识规则导向函数和驾驶人离线知识库。

环节二、知识推理向量建模。该环节建立基于车辆动力学特性以及车路耦合特性的知识推理向量，求解以知识数据结构形式表示的驾驶人离线知识库对应的车辆状态变化的推理和预测结果，并整合为知识推理向量集。该环节的输入信号为第三步中步骤四对应的环节一输出的知识规则导向函数以及驾驶人离线知识库；输出信号为知识推理向量集。

环节三、层次化逻辑推理分类。该环节基于场景的危险程度和驾驶模式，建立起层次化的逻辑推理分类方法，并在该分类方法下，将知识推理向量集划分为典型的知识推理向量子集。该环节的输入信号为第三步中步骤四对应的环节二输出的知识推理向量集；输出信号为分类后的知识推理向量子集。

环节四、推理知识架构生成。该环节将知识推理向量子集按照优先级进行排列，并设定对知识推理向量子集的搜索逻辑算法，搜索逻辑算法规范了推理知识架构。将搜索逻辑算与知识向量子集进行整合，形成决策推理知识库K_df。该环节的输入信号为第三步中步骤四对应的环节三输出的知识推理向量子集；输出信号为决策推理知识库K_df。

步骤五、构建新知识合成机制模型。步骤五由四个环节完成。

环节一、数据清洗。该环节对第一步骤步骤一输出的人态势评估结果H_ms、交通态势评估结果T_fs、混杂态势融合结果M_us、第一步中步骤四对应的环节三输出的在线评估结果O_er以及第四步中步骤三输出τ^*的历史数据曲线中的冗余数据进行数据清洗。具体包含：冗余数据清洗和基础数据清晰等两部分。

环节二、特征提取。该环节提取第三步中步骤五对应的环节一输出的清洗后的人态势评估结果H_ms、交通态势评估结果T_fs、混杂态势融合结果M_us、在线评估结果O_er以及τ^*的历史数据曲线的有效特征，并形成有效特征集合。具体包含：“人—交通”态势特征提取、人机混合决策一致性特征提取以及特征融合等三部分。

环节三、相似性对比与评级。该环节分别将第三步中步骤五对应的环节一输出的有效特征集合与第三步骤步骤二对应的决策模型知识、步骤三对应的决策图谱知识以及步骤四对应的决策推理知识的有效特征进行对比，并计算第三步中步骤五对应的环节一输出的有效特征集合对应的相似度等级。具体包含：决策模型知识相似性对比、决策推理知识相似性对比、决策图谱知识相似性对比以及相似性等级判定等四部分。

环节四、新知识合成。该环节首先判断相似度等级低于阈值的有效特征集合对应的人态势评估结果H_ms、交通态势评估结果T_fs、混杂态势融合结果M_us以及在线评估结果数据的有效特征对应的知识类型，然后根据对应知识类型的知识数据结构进行新知识合成。具体包含：知识类型分类、决策模型知识合成、决策推理知识合成以及决策图谱知识合成等四部分。

在图9中示出了第三步中步骤五的一示例性实施方案。为建立新知识合成机制模型，首先将第三步中步骤五对应的环节一的输入数据组成新知识合成数据集N_ck＝{H_ms,T_fs,M_us,O_er}，采用相似数据比对算法，将N_ck中存在的构型冗余数据以及物理关系冗余数据进行清洗。考虑到中的各元素数据在时间轴上具备一致性，相似数据比对算法中的数据比对条数S_num以及比对窗口内数据的相似重复率D_rt的计算式如下式(18)所示：

式中，Tm为对比窗口的时间戳，Da为Tm对应的对比数据形成的矩阵，下标t0为第一个对比时刻，f_Tm为N_ck的采样频率，Δt为窗口长度，d_num为窗口内相似重复记录数。在此基础上，将清洗后的数据集中各个元素对应的数据进行滤波，得到清晰后的数据集N’_ck。

为实现对N’_ck的模式判定，需要对N’_ck中的典型特征进行提取，并根据相似性对数据进行分类。N’_ck中的典型特征F_T包括“人—交通”态势特征M_ST以及人机混合决策一致性特征C_HT。“人—交通”态势特征用于表征当前时刻“人—交通”态势数据的统计性特征，人机混合决策一致性特征用于表征当前时刻人机混合决策效果的指标性特征。因此，F_T的计算式如下式(19)所示：

F_T＝{M_ST,C_HT}＝{f_ST,e_ST,m_ST,C_DK} (19)

式中，f_ST、e_ST以及m_ST分别表示M_ST对应的频域特征、极值特征以及均值特征，C_DK为人机决策一致率。根据F_T将N’_ck分别与进行的决策模型知识K_dd、决策图谱知识库K_dm以及决策推理知识库K_df中的各个知识元素进行相似性对比，并评估相似度等级D_s。相似性对比分为数据转化、义原参数化和相似度计算两部分。数据转化部分将N’_ck分别转化为K_dd、K_dm以及K_df中的知识数据结构。将构成K_dd、K_dm以及K_df中知识的最小单元定义为义原，义原的参数化过程为设定对于特定知识库中义原值ψ的过程。对于N’_ck中存在不可转化为对应知识库中知识数据结构的数据模态时，将对应的D_s设置为0；N’_ck中的数据可转化为对应知识库中的知识数据结构的数据模态时，D_s的计算式如下式(20)所示：

式中，d_is表示K_dd、K_dm以及K_df中的任一知识与N’_ck数据转化后知识的距离。分别将N’_ck转化后的知识与K_dd、K_dm以及K_df进行相似性计算，根据D_s和C_DK进行相似性等级判定。判定逻辑为当且仅当D_s取值处于对应知识库规定的D_s阈值范围内，而C_DK低于规定的阈值时，认为N’_ck可合成一条新知识。将N’_ck按照对应知识库的知识数据结构进行表示，并合并到对应知识库中，完成新知识合成。

在图5中示出第三步的一示例性实施方式。

第四步中整合输出变量的过程如下：

步骤一、整合高级“类我”决策过程量。该步骤将第二步中步骤一、步骤二和步骤三所包括的各个环节对应的输出信号按照时间对齐的方式进行了整合，用于输出至高度自动驾驶系统中的决策在线校验模块。

步骤二、整合在线评估用知识库知识量。步骤二由两个环节完成。

环节一、在线评估用知识库框架整合。该环节整合第三步中步骤五新知识合成机制模型中对在线评估结果数据的建模过程，并合并为在线评估用知识库框架，进而输出至高度自动驾驶系统中的决策在线校验模块。

环节二、在线评估用知识库更新。该环节将第三步中步骤五对应的环节四输出的在线评估用知识，按照合成后的新知识对应的知识数据结构进行整合，进而输出至高度自动驾驶系统中的决策在线校验模块。

步骤三、整合人机混合决策驾驶权细分权重量。该步骤将第二步中步骤四对应的环节三输出的驾驶权分配系数τ^*进行了整合，整合包括对τ^*的历史数据存储，用于输出至第三步中的步骤五新知识合成机制模型。

步骤四、整合人机混合决策期望控制量。步骤四由三个环节完成。

环节一、车辆动力学反解。该环节通过对当前时刻的车辆状态量进行动力学反解，求解出当前时刻对应的理想控制量信息。该环节的输入信号为当前时刻对应的车辆状态量；输出信号为当前时刻对应的理想控制量信息。

环节二、控制规则框架。该环节建立了用于计算期望控制量的控制算法框架。该控制算法框架采用控制论中的典型控制算法实现，用于计算期望的控制量。

环节三、期望控制量计算。该环节结合第四步中步骤四对应的环节一输出的当前时刻对应的理想控制量信息以及环节二建立的控制算法框架，计算得到最终的期望控制量。该环节的输入信号为控制规则框架下的理想控制量信息；输出信号为期望的控制量。

在图6中示出第四步的一示例性实施方式。

Claims

1.一种基于混合增强智能的高一致性人机混合决策方法，其特征在于：其方法包括的步骤如下：

第一步、整合输入数据流与信息流，具体过程如下：

步骤一、整合多模态“人—交通”混杂态势数据流；

步骤三、整合人机混合增强决策驾驶权评估目标信息流；

步骤四、整合人机混合增强决策在线评估结果信息流；

第二步、构建人机混合增强决策模型，具体过程如下：

步骤一、构建驾驶人推理机制模型；

步骤二、构建基于类脑计算的高级“类我”决策模型；

步骤三、构建人机决策一致性对比模型；

步骤四、构建驾驶权细分模型；

第三步、构建在线人机决策知识库，具体过程如下：

步骤二、建立决策模型知识；

步骤三、建立决策图谱知识；

步骤四、建立决策推理知识；

步骤五、构建新知识合成机制模型；

第四步、整合输出变量，具体过程如下：

步骤二、整合在线评估用知识库知识量；

步骤四、整合人机混合决策期望控制量。

2.根据权利要求1所述的一种基于混合增强智能的高一致性人机混合决策方法，其特征在于：所述的第一步各步骤中包括的环节如下：

第一步中步骤一的具体环节如下：

第一步中步骤三的具体环节如下：

第一步中步骤四的具体环节如下：

3.根据权利要求1所述的一种基于混合增强智能的高一致性人机混合决策方法，其特征在于：所述的第二步各步骤中包括的环节如下：

第二步中步骤一的具体环节如下：

第二步中步骤二的具体环节如下：

NGM＝f(F_cf)(9)

DRLM＝{S_DR,A_DR,P_DR,R_DR,λ}(13)

式中，S_DR为自动驾驶系统的车辆状态空间，A_DR为自动驾驶的操控动作空间，P_DR为自动驾驶系统的状态转移概率分布，R_DR为奖励函数，λ＝[λ₁,λ₂,λ₃,λ₄]为折扣因子，DRIM的R_DR计算式如下式(14)所示：

式中，

的正常数；

第二步中步骤三的具体环节如下：

环节三、人机图谱对比与预测，该环节对应的输入信号为第一步中步骤一对应的环节三混杂态势融合输出的混杂态势融合结果，第二步中步骤三对应的环节一输出的驾驶人决策图谱以及环节二输出的自驾系统决策图谱；输出信号为人机决策一致率C_DK，该环节首先通过驾驶人决策图谱预测仅驾驶人驾驶情况下，智能车辆在距离当前时刻0秒至10秒的短时域范围内的车辆状态及行驶轨迹的时空演化规律；同时通过自驾系统决策图谱预测仅自动驾驶系统驾驶情况下，智能车辆在距离当前时刻0秒至10秒的短时域范围内的车辆状态及行驶轨迹的时空演化规律，接下来求解相同短时域范围内的仅驾驶人驾驶以及仅自动驾驶系统驾驶情况下的车辆状态及行驶轨迹相似度，并将该相似度结果作为该环节的输出信号C_DK；

第二步中步骤四的具体环节如下：

4.根据权利要求1所述的一种基于混合增强智能的高一致性人机混合决策方法，其特征在于：所述的第三步各步骤中包括的环节如下：

第三步中步骤二的具体环节如下：

第三步中步骤三的具体四个环节如下：

第三步中步骤四的具体环节如下：

第三步中步骤五的具体环节如下：

式中，Tm为对比窗口的时间戳，Da为Tm对应的对比数据形成的矩阵，下标t0为第一个对比时刻，f_Tm为N_ck的采样频率，Δt为窗口长度，d_num为窗口内相似重复记录数，在此基础上，将清洗后的数据集中各个元素对应的数据进行滤波，得到清晰后的数据集N’_ck；

F_T＝{M_ST,C_HT}＝{f_ST,e_ST,m_ST,C_DK}(19)

5.根据权利要求1所述的一种基于混合增强智能的高一致性人机混合决策方法，其特征在于：所述的第四步各步骤中包括的环节如下：

第四步中步骤二的具体环节如下：

第四步中步骤四的具体环节如下：