CN114379579A

CN114379579A - 促进用户和车辆控制系统之间的控制转移

Info

Publication number: CN114379579A
Application number: CN202110498665.XA
Authority: CN
Inventors: Z.布纳亚; A.德加尼; C.戈德曼-申哈尔
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2020-10-21
Filing date: 2021-05-08
Publication date: 2022-04-22
Also published as: US11738778B2; US20220119015A1; DE102021112625A1

Abstract

一种用于促进控制转移的系统包括输入模块，该输入模块被配置为获取将控制状态与情景相关联的一组用户偏好，该控制状态至少包括手动控制状态、以及自主和/或半自主控制状态。该系统包括处理设备，该处理设备被配置为在半自主系统的操作期间，基于该组用户偏好和当前情景状态自动执行生成控制转移(TOC)策略，该控制转移(TOC)策略响应于动作而规定控制状态之间的转换。处理设备还被配置为基于由用户或控制系统执行的动作来执行确定是否执行从当前控制状态到第二控制状态的转换，并且响应于TOC策略规定了转换，从当前控制状态转换到第二控制状态。

Description

促进用户和车辆控制系统之间的控制转移

技术领域

本主题公开涉及车辆中的控制转移。

背景技术

自主和半自主控制系统变得越来越普遍。这种控制系统可以被提供用于各种应用，例如汽车、卡车、建筑设备、软件工具、制造设备、机器人、农业设备、个人移动设备(例如电动轮椅)等。例如，在半自主车辆中，用户(驾驶员)通常可以通过与车辆系统交互，例如通过选择触摸屏选项或按钮，在手动控制和半自主控制之间切换。这种交互会转移用户的注意力。因此，期望提供一种系统，该系统能够促进用户和车辆控制系统之间的控制转移，同时减少或最小化同时活跃的用户交互。

发明内容

在一个示例性实施例中，用于促进用户和控制系统之间的控制转移的系统包括输入模块，该输入模块被配置为获取一组用户偏好，该组用户偏好将控制状态与情景相关联，所述控制状态至少包括手动控制状态、以及自主控制状态和半自主控制状态中的至少一者。该系统还包括处理设备，该处理设备被配置为在半自主系统的操作期间，基于该组用户偏好和当前情景状态自动执行生成控制转移(TOC)策略，该TOC策略响应于在操作期间执行的动作而规定控制状态之间的转换。处理设备还被配置为基于用户或控制系统执行的动作，基于TOC策略确定是否执行从当前控制状态到第二控制状态的转换，并且响应于TOC策略规定了转换，从当前控制状态转换到第二控制状态。

除了这里描述的一个或多个特征之外，处理设备被配置成基于所述一组用户偏好集生成用户模型，该用户模型被配置成当控制系统在当前情景状态下操作时预测用户动作。

除了这里描述的一个或多个特征之外，用户模型指示当控制系统在给定的情景状态下操作时转换到一控制状态的概率。

除了这里描述的一个或多个特征之外，TOC策略是根据马尔可夫决策过程(MDP)生成的。

除了在此描述的一个或多个特征之外，处理设备还被配置为基于一组用户偏好，在与控制系统交互时估计用户的认知负荷和感觉负荷中的至少一者。

除了这里描述的一个或多个特征之外，生成TOC策略包括计算与由控制系统呈现的通知相关联的奖励函数，该奖励函数基于认知负荷和/或感觉负荷，处理设备被配置为响应于奖励函数值超过一选定值而向用户呈现通知。

除了这里描述的一个或多个特征之外，处理设备还被配置为获取表示操作期间用户和控制系统之间的交互的交互数据，基于交互数据确定对用户偏好的一个或多个更新，以及基于更新的偏好更新用户模型。

在一个示例性实施例中，一种促进在用户和控制系统之间的控制转移的方法包括获取一组用户偏好，该组用户偏好将控制状态与情景相关联，该控制状态至少包括手动控制状态、以及自主或半自主控制状态中的至少一者。该方法还包括在半自主系统的操作期间，基于该组用户偏好和当前情景状态自动生成控制转移(TOC)策略，该TOC策略响应于在操作期间执行的动作而规定控制状态之间的转换。该方法还包括基于由用户或控制系统执行的动作，基于TOC策略确定是否执行从当前控制状态到第二控制状态的转换，并且响应于TOC策略规定了转换，从当前控制状态转换到第二控制状态。

除了这里描述的一个或多个特征之外，该方法还包括基于该组用户偏好生成用户模型，该用户模型被配置为当控制系统在当前情景状态下操作时预测用户动作。

除了这里描述的一个或多个特征之外，用户模型指示当控制系统在给定的情景状态下操作时转换到控制状态的概率。

除了在此描述的一个或多个特征之外，该方法还包括基于该组用户偏好，在与控制系统交互时估计用户的认知负荷和感觉负荷中的至少一者。

除了这里描述的一个或多个特征之外，生成TOC策略包括计算与控制系统呈现的通知相关联的奖励函数，该奖励函数基于认知负荷和/或感觉负荷。

除了这里描述的一个或多个特征之外，该方法还包括获取表示操作期间用户和控制系统之间的交互的交互数据，基于交互数据确定对用户偏好的一个或多个更新，以及基于更新的偏好更新用户模型。

在一个示例性实施例中，车辆控制系统包括具有计算机可读指令的存储器和用于执行计算机可读指令的处理设备，所述计算机可读指令控制处理设备执行获取一组用户偏好，该组用户偏好将控制状态与车辆情景相关联，控制状态至少包括手动控制状态、以及自主或半自主控制状态中的至少一者。该处理设备还被配置成，在用户操作车辆期间，基于该组用户偏好和当前情景状态，自动地执行生成控制转移(TOC)策略，该TOC策略响应于在车辆操作期间执行的动作而规定控制状态之间的转换。所述处理设备还被配置为基于由用户或车辆控制系统执行的动作，基于TOC策略确定是否执行从当前控制状态到第二控制状态的转换，响应于TOC策略规定了转换，从当前控制状态到第二控制状态的转换。

除了在此描述的一个或多个特征之外，处理设备还被配置为基于一组用户偏好来执行生成用户模型，该用户模型被配置为当车辆处于当前情景状态时预测用户动作。

除了在此描述的一个或多个特征之外，当车辆处于给定的情景状态时，用户模型指示转换到控制状态的概率。

除了这里描述的一个或多个特征之外，处理设备还被配置为基于该组用户偏好，在与车辆控制系统交互时估计用户的认知负荷和感觉负荷中的至少一者。

除了这里描述的一个或多个特征之外，生成TOC策略包括计算与车辆控制系统呈现的通知相关联的奖励函数，该奖励函数基于认知负荷和/或感觉负荷。

当结合附图时，根据以下详细描述，本公开的上述特征和优点以及其他特征和优点将变得显而易见。

附图说明

其他特征、优点和细节仅作为示例出现在以下详细描述中，详细描述参考附图，其中：

图1是根据示例性实施例的包括车辆处理设备的机动车辆的俯视图；

图2描绘了根据示例性实施例的被配置为执行与控制转移相关的操作的计算机系统；

图3是描述根据示例性实施例的生成控制转移(TOC)策略、控制用户和车辆控制系统之间的控制转移和/或更新TOC策略的方法的各方面的流程图；

图4描绘了根据示例性实施例的用户模型的示例，该用户模型基于将车辆情景与优选控制状态相关联的用户偏好；

图5描绘了根据示例性实施例的概率用户模型的示例，该概率用户模型基于将车辆情景与优选控制状态相关联的用户偏好；

图6描绘了根据示例性实施例的根据TOC策略生成的转换函数的表示的示例，该转换函数基于车辆情景和用户偏好规定控制状态之间的控制转移；

图7描绘了根据示例性实施例的根据图6的TOC策略生成的奖励函数的示例；

图8是被配置用于生成TOC策略的决策过程框架的图形表示；

图9是描绘根据示例性实施例的基于用户偏好获取用户模型并基于用户模型定义TOC策略的方法的各方面的流程图；

图10描绘了根据示例性实施例的通过图9的方法生成的用户模型和奖励函数的示例；

图11是根据示例性实施例的流程图，其描绘了基于TOC策略控制车辆控制状态的方法的各方面；

图12描绘了根据示例性实施例的控制第一用户的车辆控制状态并基于奖励函数通知第一用户控制状态的改变的方法的示例；

图13描绘了根据示例性实施例的控制第二用户的车辆控制状态并基于奖励函数通知第二用户控制状态的改变的方法的示例；

图14描绘了根据示例性实施例的控制第一用户的车辆控制状态并基于奖励函数通知第一用户控制状态的改变的方法的示例；和

图15描绘了根据示例性实施例的控制第二用户的车辆控制状态并基于奖励函数通知第二用户控制状态的改变的方法的示例。

具体实施方式

以下描述本质上仅仅是示例性的，并不旨在限制本公开、其应用或使用。应当理解，在所有附图中，相应的附图标记表示相似或相应的部件和特征。

提供了用于促进用户和半自主系统(SAS)的控制系统之间的控制转移的设备、系统和方法。SAS可以是包括自主和手动控制能力的任何类型的系统。在一个实施例中，SAS是自主或半自主车辆控制系统。车辆可以是任何类型的车辆(例如客车、卡车、飞机)，其具有一定程度的自主控制能力。SAS不受此限制，可以是任何类型的半自主系统。

SAS的实施例包括处理设备或与处理设备通信，该处理设备被配置成制定控制策略的转移，该控制策略规定SAS的控制何时以及是否在不同的控制状态之间转移。控制策略的转移可以在SAS的操作期间使用决策过程生产，所述决策过程考虑了用户偏好、SAS控制系统能力、SAS正在操作的情景和/或转移控制的成本(例如用户与SAS交互的认知负担)。

对于给定的控制转移协议(由TOC策略规定)，处理设备使用控制转移策略来计算用户和SAS控制系统之间的控制转移的最优执行(控制转换事件的时间序列)。以这种方式，可以在操作期间并且基于当前的SAS和用户情景来做出控制决策的转移，以便减轻用户在操作期间做出这种决策的负担。

控制决策的转移可以包括将控制从当前控制状态自动转移到规定控制状态的决策。在一个实施例中，在控制转移之前或同时，处理设备向用户提供警报。该警报可以是通知用户控制转移正在发生或待定。在一个实施例中，作为警报的一部分，处理设备向用户提供接受或拒绝规定的控制转移的选项。

在一个实施例中，使用控制转移问题的公式作为决策过程来生成TOC策略。决策过程可以是任何类型的过程，其能够基于用户偏好以及用户和SAS情景生成TOC策略。在一个实施例中，决策过程是马尔可夫决策过程。马尔可夫决策过程用于根据用户对谁拥有控制的偏好(SAS控制系统或用户)、SAS控制系统的控制能力、用户和SAS情景以及在不同控制状态之间转换时的开销成本来计算TOC策略。可以提供奖励函数作为对MDP决策过程(或其他合适的决策过程)的输入，以便增加或最大化用户满意度。生成TOC策略，使得TOC策略最大化给定的奖励函数，以获得足够高的用户满意度。在一个实施例中，TOC策略规定了向用户提供的通知类型，以提醒用户控制的转移，这是基于用户的成本来选择的(例如，认知负荷和/或感觉负荷)。

注意，可以基于特定用户提供的信息和/或从具有共同或相似特征(例如，年龄)的人群而获取用户偏好。此外，可以通过在车辆运行期间监控驾驶员输入来获取用户偏好。

在一个实施例中，处理设备被配置成基于用户偏好来创建用户模型。用户模型预测用户在各种情景下的控制偏好，并允许处理设备预测如何以及何时可以转移控制，并由此做出控制决策。用户模型可以基于用户输入的用户偏好、来自一类用户的用户偏好，和/或通过监控用户与SAS控制系统的交互。

该系统可以被配置为基于在操作期间收集的监控数据来执行对TOC策略和/或用户模型的更新。监控数据包括用户输入、SAS控制状态和/或用户情况的检测(例如，分心、警觉等)，其可用于更新模型和改进控制转移决策。

这里描述的实施例提供了许多优点。例如，这些实施例提供了控制决策的自动转移，其减少或最小化了用户与车辆或其他SAS控制系统的交互，并减少了过度分散用户注意力的概率。此外，在根据用户偏好决定是否转移控制时，系统会权衡用户的认知负荷，以确保转移控制的好处大于任何成本。对系统控制的交互(哪一方控制，何时以及如何控制)会带来成本，这些成本可以通过优化的协商策略或通过设计更好的协议来优化。

图1示出了机动车辆10的实施例，该机动车辆10包括至少部分地限定乘员舱14的车身12。车身12还支撑各种车辆子系统，包括发动机系统16和其他子系统，以支持发动机系统16和其他车辆部件的功能，所述其他车辆部件例如制动子系统、转向子系统、燃料喷射子系统、排气子系统等。

车辆10还包括车载计算机系统20，其包括一个或多个处理设备22和用户界面24。用户界面24可以包括触摸屏、语音识别系统和/或各种按钮，用于允许用户与车辆的特征进行交互。用户界面24可以被配置成通过视觉通信(例如，文本和/或图形显示)、触觉通信或警报(例如振动)和/或听觉通信而与用户交互。

车载计算机系统20可以被配置为自主车辆控制，或者包括用于自主车辆控制的能力。具有自主控制功能的车载计算机系统20或系统20的部件被称为“车辆控制系统”。

图2示出了计算机系统30的实施例的各方面，该计算机系统30与车载计算机系统20通信或者是车载计算机系统20的一部分，并且可以执行这里描述的实施例的各个方面。计算机系统30包括至少一个处理设备32，其通常包括一个或多个处理器，用于执行这里描述的方法的各方面。计算机系统30可以是半自主系统(SAS)的一部分，或者与半自主系统通信。在下文中，SAS被描述为车辆10的一部分；然而，SAS可以是任何具有某种程度的自主控制的系统(例如制造设备、个人移动设备、建筑设备等。

处理设备32可以集成到车辆10中，例如作为车载处理设备22，或者可以是与车辆10分离的处理设备，例如服务器、个人计算机或移动设备(例如智能手机或平板电脑)。处理设备32可以被配置成执行功能，所述功能包括收集用户偏好数据、生成控制转移策略和/或控制各种车辆子系统(例如，作为自主或半自主车辆控制系统的一部分)。

计算机系统30的部件包括处理设备32(例如一个或多个处理器或处理单元)、系统存储器34和将包括系统存储器34的各种系统组件耦合到处理设备32的总线36。系统存储器34可以包括各种计算机系统可读介质。这种介质可以是可由处理设备32访问的任何可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质。

例如，系统存储器34包括诸如硬盘驱动器的非易失性存储器38，并且还可以包括诸如随机存取存储器(RAM)和/或高速缓冲存储器的易失性存储器40。计算机系统30还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。

系统存储器34可以包括至少一个程序产品42，其具有一组(例如至少一个)被配置成执行这里描述的实施例的功能的程序模块。例如，系统存储器34存储通常执行这里描述的实施例的功能和/或方法的各种程序模块。可以包括输入模块44，来执行与获取数据相关的功能，所述数据包括用户偏好数据、车辆情景和控制状态数据以及监控数据(例如，车辆监控数据和用户交互数据)。可以包括处理模块46，以执行与生成TOC策略、构建模型、执行控制转移和/或更新TOC策略和模型相关的功能。如这里所使用的，术语“模块”指的是处理电路，其可以包括专用集成电路(ASIC)、电子电路、处理器(共享的、专用的或成组的)和执行一个或多个软件或固件程序的存储器、组合逻辑电路和/或提供所述功能的其他合适的BJ。

处理设备32还可以与一个或多个外部设备48通信，例如车辆部件和各种控制单元，例如车辆控制系统。与各种设备的通信可以通过输入/输出(I/O)接口50进行。

处理设备32还可以经由网络适配器54与一个或多个网络52通信，例如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，互联网)。应当理解，尽管未示出，但是其他硬件和/或软件部件可以与计算机系统30结合使用。示例包括但不限于：微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、RAID系统和数据存档存储系统等。

车载计算机系统20、计算机系统30和/或其他处理设备被配置成在车辆运行期间执行控制状态之间的控制转移(例如，从车辆控制系统到用户，从用户到车辆控制系统，在控制转换状态之间，和/或在自主控制的水平之间)。控制的转移可以基于控制转移(TOC)策略，该策略基于用户偏好和车辆控制系统的能力(例如，自主操作的水平)而生产。提供TOC策略以根据用户偏好、车辆控制系统的控制能力以及在各种情况和情景下转移控制的成本来改善或优化控制转移的时机。该策略还可以提供最佳时机来通知用户何时需要或建议转移控制，和/或何时车辆控制取得控制是最佳的。控制策略允许处理设备转移控制(或向用户提供进行控制的选项)，而不需要与控制系统进行同时活跃的用户交互。

用户偏好可以基于预先存在的用户信息(例如由用户在车辆操作之前提供)，和/或基于通过在操作期间监控用户输入而确定的用户偏好。可用于确定用户偏好的其他信息源包括对先前控制转移动作的分析，以及对具有共同特征的一组或一类用户的控制动作和/或偏好的分析。

在一个实施例中，用户偏好被结合到用户模型中，该用户模型描述了各种情景下的优选控制状态。用户模型可以是概率模型，该概率模型提供概率值，该概率值指示在给定特定情景的情况下用户更喜欢给定控制动作(控制状态之间的变化)的概率。

在一个实施例中，通过使用自动决策算法或过程来生成TOC策略，该算法或过程基于用户偏好、情景和控制状态来规定控制转移动作。决策过程基于关于给定情景(例如，城市或农村，夜晚或白天)中用户的优选控制状态的用户偏好、车辆控制系统的控制能力(可用的控制状态，例如完全自主控制或半自主控制)，以及在不同控制状态之间转换时的开销成本来生成TOC策略。

决策过程可以是随机和/或概率过程，例如马尔可夫决策过程。尽管下面描述的决策过程是马尔可夫决策过程，但是可以使用任何其他合适的算法、模型或过程，例如最优控制、动态编程、机器学习(有监督或无监督)等。

马尔可夫决策过程(MDP)是一个离散时间随机控制过程，它提供了一数学框架，用于将情况下的决策制定模型化，在所述情况中产出是部分随机且部分处于决策制定者(车辆系统)的控制。

MDP过程的实施例由元组

定义。在该元组中，C是一组控制状态，其中每个控制状态限定了与哪个实体(用户或车辆控制系统)控制车辆操作的方面相关的车辆状态。控制状态的例子包括完全用户控制、完全自主控制、半自主控制和特定车辆功能(例如制动或转向)的自主控制。

A是一组预限定的动作，可由用户或车辆控制系统执行。动作可以表示为A(A_u，A_m)，其中A_u是一组预限定的用户动作，A_m是一组车辆控制系统(机器)动作。预限定的动作应用于控制状态。动作的示例包括由用户进行控制、由车辆控制系统进行控制、确认或忽略来自车辆控制系统的通信、检测用户输入以及由用户执行控制动作(例如施加制动、接合转向系统等)。

T是对于给定动作A，从当前控制状态切换到另一个控制状态的概率转移函数。该函数提供了控制动作A将导致控制状态改变的概率。

是表示当车辆控制系统执行改变控制状态的动作时和/或当车辆控制系统向用户呈现通知时用户体验的值的奖励函数。奖励函数考虑了用户和车辆控制系统之间交互的“成本”(例如认知负荷(用户必须对系统投入多少注意力)和感觉负荷(需要感觉输入的程度)。奖励函数规定了最小化认知和感觉负荷和/或符合用户偏好的通知类型。

是描述车辆和车辆控制系统的相关情景的一组情景状态。“情景状态”是车辆所处的任何状态或情况，它会影响控制转移决策。情景状态可以涉及车辆能力、用户情况(例如用户是否分心)和/或环境情况。情景状态的示例包括一天中的时间(例如白天或晚上)、地区特征(例如城市、农村)、道路类型(例如公路、本地道路)、道路情况(例如铺砌或泥土)等他。其他情景状态包括车辆控制系统的能力(例如可以由车辆控制系统执行的自主、半自主、机动操作，例如停车和转弯动作)。

的每个情景状态包括来自各种来源的信息。一个来源是车辆控制系统可用功能的子集(环境信息、检测、系统状态通知等)，其与控制转移相关。另一个来源是关于用户情况的信息(注意力、投入、专注、健康、压力等)，其影响期望的控制状态。例如，可以通过经由摄像头或其他传感器监视用户，并使用面部识别和/或生物测定数据分析信息来获取用户情况信息。

处理设备利用决策过程在车辆运行期间生成TOC策略，该策略基于情景状态、控制状态和用户偏好而规定如何做出控制决策。

图3示出了方法60的实施例，该方法60在运行期间监控车辆，生成TOC策略，并促进用户和车辆控制系统之间的控制转移。方法60可以由设置在车辆中的一个或多个处理器来执行(例如作为车载计算机，例如计算机系统20)，其在这里称为“处理设备”。结合框61-68讨论方法60。方法60不限于其中步骤的数量或顺序，因为由框61-68表示的一些步骤可以以不同于下面描述的顺序来执行，或者可以执行少于所有的步骤。

结合图1的车辆和处理设备来讨论方法60，该处理设备可以是例如计算机系统30、车载处理器22或其组合。注意，方法60的各方面可以由任何合适的处理设备或系统或者处理设备的组合来执行。

方法60包括三个组成阶段，包括在部署之前执行的第一阶段(例如在车辆操作之前或在生成TOC策略的过程开始之前)，使用TOC策略进行控制决策的第二阶段，以及在部署之后执行的用于更新用户模型和TOC策略的第三阶段。第一阶段由框61-64表示，第二阶段由框65和66表示，第三阶段由框67和68表示。

结合具有半自主控制系统(SAS)的车辆描述了方法60，所述半自主控制系统被称为“SAS系统”。注意，该方法不限于此，因为该方法可以在能够进行各种控制水平的车辆中执行。控制水平别的示例包括用户的完全手动控制、部分用户控制(例如转向是手动的，加速和制动由车辆控制系统控制)，以及完全自主控制。

在框61，处理设备收集关于与车辆系统交互的用户偏好的数据。用户偏好指示关于在各种情景中优选的控制状态的用户偏好。例如，用户偏好可以是在夜晚手动控制车辆，但在白天允许自主控制。

例如，可以向用户提供问卷或其他文档或显示，其提示用户提供关于用户更喜欢一控制状态的情况或场景的偏好。例如，用户可以对偏好陈述或问题提供肯定或否定的回答，手动输入偏好陈述，或者选择预限定的陈述。陈述的示例包括：

“比起被接入(engaged)，我更喜欢手动驾驶”

“当我晚上在高速公路上开车时，我更喜欢被接入”

在一个实施例中，用户可以提供关于对给定情景或一组情景用户对一控制状态的偏好程度的数字排名或其他指示。该指示可用于计算用户选择一控制状态的概率。

在框62，可以生成用户模型，用于决策过程和创建TOC策略。基于用户偏好、当前控制状态和情景，生成用于预测用户动作的用户认知模型。该信息用于构建用户模型，该用户模型将一个或多个情景或情景组合中的每一个中的用户控制偏好相关联。用户模型可以由贝叶斯网络、神经网络、查找表和/或在各种情景下指定用户控制偏好的任何其他数据结构或表示来表示。

认知模型可以用下面的概率函数U来表示，该概率函数描述了关于控制协商用户期望采取的TOC策略。

其中P是对给定控制状态C和情景状态

用户将采取行动Au的概率。。

图4示出了被配置为贝叶斯网络的用户模型70的一部分的示例，该示例图示了控制状态对情景状态的依赖性。用户模型70包括表示手动控制状态的节点72，节点74和76表示情景值(即，高速公路情景和夜晚情景)。该模型70预测用户将在夜晚在高速公路上选择手动控制。

用户模型70的另一个示例如图5所示。该示例中的用户模型70由查找表(LUT)78表示，该查找表涉及根据用户偏好、在各种情景值下用户将从自动控制状态进入手动控制状态(即从车辆控制系统获得控制)的概率。在这个示例中，概率被表示为“Prob(接管)”，并且是给定情景状态“高速公路”(“H”)和“夜晚”(“N”)的情况下，控制状态进入手动控制状态(用户控制驾驶)的概率。如果车辆在高速公路上，则情景状态“H”为真(“T”)，而假(“F”)为车辆不在高速公路上。如果车辆在夜晚运行，则情景状态“N”为真，且如果车辆不在夜晚运行，则为假。

LUT 78是条件概率表，其显示了用户在道路和一天的时间条件下进行控制的概率。这个示例代表了一用户，他在晚上更喜欢手动驾驶(不管路况如何)，在白天的时间在高速公路上更喜欢手动驾驶，在晚上在高速公路上更喜欢自主控制。

此外，可以生成奖励模型，该奖励模型量化当在系统状态下执行动作时给用户带来的成本。奖励模型表示一值(诸如闪烁灯或其他视觉指示器的通知、一系列蜂鸣声或其他听觉指示、图形通知、文本通知等)，所述值在系统在控制状态之间变动时被用户接收。

再次参考图3，在框63，通过将交互问题形式化为合适的决策过程来创建TOC策略。在一个实施例中，决策过程是马尔可夫决策过程(MDP)。

在框64，解决MDP问题以生成TOC策略。

在框65，第二阶段在车辆运行期间开始。基于检测到的控制状态和一个或多个检测到的情景状态来应用TOC策略。TOC策略规定了用户或车辆控制系统在什么情况下和什么时候进行控制。

在框66处，在车辆运行期间，收集与用户与车辆控制系统的交互相关的数据，所述数据可用于验证和/或改进TOC策略、MDP过程和/或用户模型(例如认知模型和/或奖励模型)。

在框67和68，第三阶段开始，其中评估用户模型和TOC策略。例如，在框67，用户认知和/或奖励模型可以基于检测对来自处理设备的通知的用户反应、监视各种情景中的用户输入以及否则的话收集指示关于控制转移的用户行为的数据来更新。在框68，更新TOC策略(例如通过基于更新的用户模型重新计算TOC策略(如果需要))。

以下是使用MDP过程计算TOC策略的架构的示例。在本示例中，MDP过程由元组表示：

在这个示例中，状态集合C包括五个控制状态，表示为状态C1、C2、C3、C4和C5。控制状态C1是完全手动驾驶状态，C2是车辆控制系统请求控制的状态，C3是部分手动驾驶状态，其中一个或多个控制特征(例如转向)是手动控制的，并且一个或多个其他控制特征(例如加速和/或制动)由车辆控制系统控制。控制状态C4是自动驾驶状态，控制状态C5是向驾驶员状态的移交(HandOver)。

动作集A包括一组可以由用户(A_U)或机器(A_M)执行的动作。在此示例中，一组用户动作包括以下内容：

A_U＝{用户忽略控制请求，用户同意给予控制，用户进行控制，用户刹车}

A_M＝{车辆请求控制、倒计时、移交、等待用户输入}

T是转移函数，其提供从第一状态Ci移动到第二状态Cj的概率。

是当系统在从Am执行动作时在状态Ci到状态Cj之间移动时，用户根据奖励函数收到的通知。

图6描绘了代表转换功能和TOC策略的LUT 90的示例。LUT 90是基于诸如模型70的用户模型来计算的。如图所示，LUT 90提供了从第一状态C1转换到第二状态Cj的概率Pr(Ci，Cj)。“模型U”(“MU”)指的是诸如模型90的用户模型，其提供概率值，所述概率值对应于对给定一组情景状态用户将选择特定控制状态的概率。

图7描述了LUT 92的示例，其代表规定用于通知用户控制转移的奖励值(指示或通知)的奖励函数R(Ci，A，Cj)。在一个实施例中，奖励函数取决于用户与车辆控制系统交互的成本(例如认知负荷、感觉负荷)，以及在一组情景状态下，用户有多喜欢处于给定的控制状态。

奖励函数可以基于从用户获得的用户偏好(例如来自调查问卷)或基于对一组或一类人的偏好的了解而假设(例如人们多么喜欢得到一个红色的闪烁按钮)。

例如，用户可以指示闪烁的灯是不期望的(例如用户输入或同意“闪烁通常会干扰我，但是当我在晚上驾驶和疲劳时，当我需要在高速公路上驾驶时，我更喜欢接入自动驾驶”的陈述。

图8是根据图6和7的示例生成的表示MDP过程的MDP决策框架的图形表示。该框架以图形方式表示了各种控制状态，并显示了可能导致控制转移的动作(Au或Am)。虽然未示出，但是MDP决策过程可以包括确定动作将导致控制状态转换的概率。在这个示例中，从完全手动控制(控制状态C1)，车辆请求控制的动作可以将控制状态转换到状态C2。用户同意该请求的动作(由驾驶员输入(通过例如按下按钮，提供口头指令))可导致从状态C2到状态C4的转换(自动驾驶接入)。如果该动作是用户忽略该请求(驾驶员没有输入)，则MDP可以转换回状态C1。

从自动驾驶状态(C4)，用户触摸或移动方向盘的动作可导致转换到状态C3(部分手动)。使用者踩刹车的动作会导致从状态C3到状态C1的转换。另一个动作是车辆收到限制的指示，其可能导致从控制状态C4转换到移交状态(C5)的转换，在移交状态中，车辆处于将完全控制移交给用户的过程中。如果在一情况下，车辆的全部功能受到或可能受到损害，或者在一情况下，无法正确实施自主控制，则车辆可能会受到限制。例如，如果传感器受损(例如摄像头镜头被遮挡)或者如果道路情况超出自主能力(例如车辆不能自动执行环绕或其他操纵)。

如果一段时间过去，情况没有变化(这被认为是一个动作)，车辆控制系统可以转换到C1状态。改变将作为一个动作的结果而发生的概率由用户模型定义。

图9描绘了用于学习用户模型和定义TOC策略的方法100的实施例。方法100可以是方法60的一部分。结合框101-109讨论方法100。方法100不限于其中步骤的数量或顺序，因为由框101-109表示的一些步骤可以以不同于下面描述的顺序来执行，或者可以执行少于所有的步骤。

在框101，从用户(驾驶员)收集用户偏好数据。数据可以从单个驾驶员收集，也可以从多个驾驶员收集。

在框102，学习反映关于某些控制状态的驾驶员偏好的用户模型。驾驶员偏好用于确定与自主控制或半自主控制相关的一组车辆特征。

基于用户偏好，从用户偏好生成表示奖励函数R(C，A，C’)的奖励模型(框103)。奖励函数基于用户偏好规定了当动作A引起从第一控制状态C到第二控制状态C’的转换时提供给用户的通知的类型。此外，生成被配置为认知模型的用户模型(框104)。

在框105，处理设备确定控制状态空间(可用的控制状态，例如状态C1-C5)和动作空间，包括可用的用户和机器动作。根据认知模型确定转换函数T(框106)，并且计算特定于用户的奖励函数(框107)。

在框108，例如通过值迭代过程来计算具有最大奖励的TOC策略。结果是目录函数π，其指定了当处于一情景状态或一组情景状态时用户可以采取的动作(框109)。

驾驶员偏好的获取可以通过多种方式实现。在一个实施例中，由车辆系统提示用户提供用户偏好。例如，处理设备可以呈现问卷，要求客户对候选特征的重要性进行评级。评级可用于推导概率值。这种问卷的一个示例如下：

调查问卷示例：一天中不同时间的驾驶偏好/交通/道路类型：城市、城际、高速公路/占用/分心：

“通过选择与以下内容相对应的分数，陈述您对陈述A-K的偏好：

1-完全不认同该说法；

2-有点认同该说法；

3-不在乎(我这里没有明确的偏好)；

4-几乎完全认同该说法；

5-完全同意该说法。

“声明A-K：

A.任何时候，在任何道路，我更喜欢手动驾驶并进行控制；

B.当交通拥挤的时候，我更喜欢手动驾驶并控制；

C.特别是在晚上，在任何可能的地方，我更喜欢让车尽可能自动地载我；

D.在高速公路上、在任何可能的地方，我更喜欢让车自动载我；

E.当我一个人在车里的时候，我更喜欢让车在任何可能的地方自动载我；

F.当按钮向我闪烁需要我干预时，我会非常分心；

G.一天中的时间是最重要的特征；

H.道路的类型是我决定自己喜欢什么的最重要的特征；

I.交通是最重要的特征；

J.车辆占用率决定了对我来说什么是重要的；

K.开车时分心对我来说是无法忍受的。

参考图10，从接收到的每个说法的答案中，创建表120和122。给定情景状态“高速公路”(“H”)和“夜晚”(“N”)，表120提供了控制状态为手动的概率。表122是基于用户偏好规定提供给用户的通知类型的奖励函数。该示例中的奖励函数对应于闪烁的光通知。如表122所示，从控制状态C1转换到C2的奖励值是负的，反映出当车辆控制系统请求控制时，驾驶员不喜欢闪烁的灯。最大似然估计可以用于转换函数。

可以针对单个用户获取用户偏好，或者如果多个用户提供偏好数据，则概率可以基于偏好特定控制状态的驾驶员的比例。例如，如果有足够多数量的参与者填写了上述问卷，则概率可以基于比例。如果50％的用户更喜欢在高速公路上自动驾驶，那么概率Pr(高速公路，接管)可以设置为0.5。

学习用户模型的另一个实施方式包括从真实驾驶员收集数据，并学习用户何时采取控制动作(例如脱离并转移成手动控制，接入自主控制)。预测这些用户的行为取决于情景(类型或道路、一天中的时间等)。这种预测可以通过机器学习或人工智能过程来执行，例如深度学习和/或学习分类器。

图11描绘了在车辆运行期间使用TOC策略π(C)：C->A执行控制转移的方法130的实施例，该TOC策略规定了基于当前控制状态要执行的动作。在框131，在MDP框架中检测并识别当前控制状态。使用TOC策略(框132)，选择车辆控制系统动作Am(框133)。根据该动作，处理设备确定是立即执行该动作还是等待用户动作被执行(框134)。处理设备然后可以立即执行动作(在框135)，或者等待用户执行动作(框136)。

交互数据可以在框137被收集，并被用于更新用户模型(框138)。然后基于更新后的用户模型更新MDP过程和TOC策略。

在一个实施例中，处理设备被配置成收集用户和车辆控制系统之间的交互数据，并使用该交互数据来更新现有的用户模型。基于更新后的用户模型，对转换和奖励函数进行更新，并重新计算TOC策略。

除了检测用于更新用户模型的用户控制动作和输入之外，收集的交互数据可以包括指示车辆运行期间用户的情绪和/或认知状态的数据。将驾驶员监控(DMS，情绪状态)作为确定转移概率的因素(例如缓慢凝视的人(由于，例如醉酒、注意力不集中、不负责任、忙于电话)包括在内将会控制局面。驾驶员监控数据可由MDP过程中的转换功能获取。实际上愿意或不愿意驾驶员进行控制或另外选择控制状态也可以通过用户模型来反映。

在一个实施例中，处理设备被配置为，通过为两个(或更多)独立的TOC设计计算策略来设计TOC策略，其中每个候选TOC设计具有其自己的一组可能的动作和转换(例如，第一候选策略使用5秒的超时来取消来自车辆的控制请求，而第二候选策略需要按下“取消”按钮)。

构建两个MDP过程来表示候选设计。对于每个MDP过程，计算控制转移的最优策略和期望的奖励/值。比较预期的奖励值，选择价值最高的候选设计。

注意，选择一个TOC MDP而不是另一个的标准是相应策略解决方案所产生的成本。这些成本可反映交互因素(如交互的复杂性、认知/感觉负荷、交互次数等)。

图12-15示出了针对各种示例性用户的方法60和/或130的示例。每个示例都显示了用户模型和奖励函数。图12和13示出了其综合向用户提供的奖励值独立于情景并取决于交互成本的情况。图14和15示出了其中向用户提供的奖励依赖于情景和交互成本二者的情况。

在图12的示例中，“用户1”通常更喜欢手动驾驶而不是自动控制，但是有时更喜欢使用自动控制。从用户界面上闪烁并不会对用户1造成很大影响。这些偏好用于创建用户模型140(LUT)，其指示用户1采取手动控制的概率。如图所示，当夜晚在高速公路上行驶时，用户1想要控制的概率很高(0.9)。该示例中，处理设备可以响应于用户1采取适当的动作(例如转向或制动)而自动地转换到手动控制。

奖励函数由奖励模型142表示，其反映了用户对闪烁的灯没有强烈的偏好。因此，用户1的交互成本低，并且当控制状态从C4转换到C1(用户采取手动控制)时，奖励模型具有高奖励值。因此，处理设备将呈现闪烁的光通知。

在图13的示例中，“用户2”大多数时候更喜欢自主控制，偶尔也更喜欢手动驾驶。用户界面闪烁会干扰用户2。这些偏好用于创建用户模型150，其指示用户2采取手动控制的概率。如图所示，当夜晚在高速公路上行驶时，用户2想要控制的概率较低(0.1)。因此，该示例中，处理设备不响应于用户2执行的相同动作(例如移动方向盘或踩刹车)而改变控制状态。奖励模型152反映用户不喜欢被闪烁的灯通知。因此，用户2的交互成本高，并且奖励模型的奖励值低。因此，除非存在其他情况(例如用户2分心)，否则处理设备不会呈现闪烁的灯通知。

在图14的示例中，奖励取决于交互成本和情景二者。与自主控制相比，用户1更喜欢手动驾驶，并且更喜欢在夜晚在高速公路上运动驾驶(drive sportier)。在这个示例中，奖励基于情景(高速公路和夜晚)和用户的奖励偏好二者。这里的情景比交互成本更高地被加权，因此当从C4转换到C1时，与图12的示例相比，奖励模型142包括更高的奖励值。

在图15的示例中，用户2更喜欢在白天在本地道路上手动驾驶，且在晚上在高速公路上更喜欢自主控制。同样，奖励基于情景(高速公路和夜晚)和用户的奖励偏好二者。

尽管这里描述的实施例是关于半自主车辆的，例如客车(例如汽车和卡车)，但是实施例不限于此，并且可以应用于任何具有自主或半自主功能的运输或其他系统。这种系统的示例包括半自主运输系统(例如半自主车辆、飞机、火车等)、个人机动载具(例如。轮椅、助行器等)、具有自动化(例如机器人)操作员和人工操作员二者的半自主救援服务，以及以人工和自动化操作员为特征的系统(例如农业、工业、制造业、个人助理等)。

虽然已经参考示例性实施例描述了上述公开，但是本领域技术人员将理解，在不脱离本发明的范围的情况下，可以进行各种改变，并且等同物可以替代其元件。此外，在不脱离本公开的基本范围的情况下，可以进行许多修改以使特定情况或材料适应本公开的教导。因此，意图是本公开不限于所公开的特定实施例，而是将包括落入其范围内的所有实施例。

Claims

1.一种促进在用户和控制系统之间的控制转移的系统，包括：

输入模块，被配置为获取一组用户偏好，该组用户偏好将控制状态与情景相关联，该控制状态至少包括自主或半自主控制状态中的至少一者、以及手动控制状态；和

处理设备，被配置为在半自主系统的操作期间自动执行以下内容：

基于该组用户偏好和当前情景状态生成控制转移(TOC)策略，该TOC策略响应于在操作期间执行的动作而规定控制状态之间的转换；

基于用户或控制系统执行的动作，基于TOC策略确定是否执行从当前控制状态到第二控制状态的转换；和

响应于TOC策略规定了转换，从当前控制状态转换到第二控制状态。

2.根据权利要求1所述的系统，其中，所述处理设备被配置为，基于所述一组用户偏好来生成用户模型，所述用户模型被配置为当所述控制系统在当前情景状态操作时预测用户动作。

3.根据权利要求2所述的系统，其中，所述用户模型指示当所述控制系统在给定情景状态下操作时转换到一控制状态的概率。

4.根据权利要求1所述的系统，其中，所述TOC策略是根据马尔可夫决策过程(MDP)生成的。

5.根据权利要求1所述的系统，其中，所述处理设备还被配置为，基于所述一组用户偏好，在与所述控制系统交互时，进行对用户的认知负荷和感觉负荷中的至少一者的估计。

6.根据权利要求5所述的系统，其中，生成所述TOC策略包括计算与由所述控制系统呈现的通知相关联的奖励函数，所述奖励函数基于所述认知负荷和/或所述感觉负荷，所述处理设备被配置为响应于所述奖励函数的值超过一选定值而向所述用户呈现所述通知。

7.根据权利要求2所述的系统，其中，所述处理设备还被配置为获取表示操作期间用户和控制系统之间的交互的交互数据，基于所述交互数据确定对用户偏好的一个或多个更新，以及基于更新的偏好来更新用户模型。

8.一种促进在用户和控制系统之间的控制转移的方法，包括：

获取一组用户偏好，该组用户偏好将控制状态与情景相关联，所述控制状态至少包括自主或半自主控制状态中的至少一者、以及手动控制状态；

在半自主系统的操作期间，基于该组用户偏好和当前情景状态自动生成控制转移(TOC)策略，TOC策略响应于操作期间执行的动作而规定控制状态之间的转换；

基于由用户或控制系统执行的动作，基于TOC策略确定是否执行从当前控制状态到第二控制状态的转换；和

9.根据权利要求8所述的方法，还包括基于所述一组用户偏好生成用户模型，所述用户模型被配置为当所述控制系统在当前情景状态下操作时预测用户动作，其中所述用户模型指示当所述控制系统在给定情景状态下操作时转换到控制状态的概率。

10.根据权利要求8所述的方法，还包括，基于所述一组用户偏好，当与所述控制系统交互时，估计所述用户的认知负荷和感觉负荷中的至少一者，其中生成所述TOC策略包括计算与由所述控制系统呈现的通知相关联的奖励函数，所述奖励函数基于所述认知负荷和/或感觉负荷。