CN107223261A

CN107223261A - 人机混合决策方法和装置

Info

Publication number: CN107223261A
Application number: CN201680006906.1A
Authority: CN
Inventors: 廉士国; 刘兆祥; 王恺; 林义闽; 李强
Original assignee: Cloudminds Shenzhen Robotics Systems Co Ltd
Current assignee: Cloudminds Robotics Co Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2017-09-29
Also published as: US20200090057A1; JP2020502654A; WO2018103023A1; JP6744679B2

Abstract

本发明实施例公开了一种人机混合决策方法和装置，涉及人工智能领域，用于解决目前单靠人工智能难以确保系统可靠性的问题。人机混合决策方法包括：确定人工智能AI模块针对目标信息的置信度，所述置信度用于指示所述AI模块能够根据所述目标信息做出正确决策的概率；当所述置信度大于预设阈值时，获取所述AI模块根据所述目标信息所做出的决策信息作为实际决策信息；当所述置信度小于所述预设阈值时，展示所述目标信息并提供交互接口；获取所述交互接口接收到的人工决策信息作为实际决策信息。本发明实施例应用于人工智能决策。

Description

人机混合决策方法和装置

技术领域

本发明涉及人工智能领域，尤其涉及一种人机混合决策方法和装置。

背景技术

人工智能(AI，artificial intelligence)技术在快速发展，有些能力已经达到或超过了人类，并已经在很多场景中实际应用了，例如OCR(optical characterrecognition，光学字符识别)、语音识别、人脸识别等。人工智能的应用，一方面可以减轻人类的重复性劳动(例如，扫地机器人、智能监控等)，另一方面可以给人类提供辅助甚至超越人类(例如，智能助力穿戴、下围棋的机器人等)。

尽管人工智能技术已经展示出了强大的能力，但与人类相比，在某些方面还存在不足，例如在复杂环境下的无人驾驶(机器人、车、飞机等)，对任意物品的抓取和挪放(服务机器人)等。目前的人工智能很难保证100％的智能能力，使得单靠人工智能很难确保系统可靠性。

发明内容

本发明的实施例提供一种人机混合决策方法和装置，主要用于解决目前单靠人工智能难以确保系统可靠性的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供了一种人机混合决策方法，包括：

确定人工智能AI模块针对目标信息的置信度，所述置信度用于指示所述AI模块能够根据所述目标信息做出正确决策的概率；

当所述置信度大于预设阈值时，获取所述AI模块根据所述目标信息所做出的决策信息作为实际决策信息；

当所述置信度小于所述预设阈值时，展示所述目标信息并提供交互接口；获取所述交互接口接收到的人工决策信息作为实际决策信息。

第二方面，本发明实施例提供了一种人机混合决策装置，包括：

确定单元，用于确定人工智能AI模块针对目标信息的置信度，所述置信度用于指示所述AI模块能够根据所述目标信息做出正确决策的概率；

获取单元，用于当所述置信度大于预设阈值时，获取所述AI模块根据所述目标信息所做出的决策信息作为实际决策信息；

展示单元，用于当所述置信度小于所述预设阈值时，展示所述目标信息并提供交互接口；

所述获取单元，还用于当所述置信度小于所述预设阈值时，获取所述交互接口接收到的人工决策信息作为实际决策信息。

第三方面，本发明实施例提供了一种计算机存储介质，用于储存为人机混合决策装置所用的计算机软件指令，其包含执行第一方面所述的人机混合决策方法所设计的程序代码。

第四方面，本发明实施例提供了一种计算机程序产品，可直接加载到计算机的内部存储器中，并含有软件代码，所述计算机程序经由计算机载入并执行后能够实现第一方面所述的人机混合决策方法。

第五方面，本发明实施例提供了一种服务器，包括：存储器、通信接口和处理器，所述存储器用于存储计算机执行代码，所述处理器用于执行所述计算机执行代码控制执行第一方面所述人机混合决策方法，所述通信接口用于所述服务器与外部设备的数据传输。

本发明实施例提供的人机混合决策方法和装置，通过根据目标信息来得到使用AI模块的置信度，当置信度较高时直接由AI模块根据决策规则进行决策，当置信度较低时引入人工决策来生成决策信息。使得当判断AI模块难以做出正确决策时，由人工介入来进行决策，由人工决策保证可靠性，解决了目前单靠人工智能难以确保系统可靠性的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种人机混合决策系统的示意图；

图2为本发明实施例提供的一种人机混合决策方法的示意图；

图3为本发明实施例提供的另一种人机混合决策方法的示意图；

图4为本发明实施例提供的一种人机混合决策装置的结构示意图；

图5为本发明实施例提供的另一种人机混合决策装置的结构示意图；

图6为本发明实施例提供的又一种人机混合决策装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种人机混合决策系统，参照图1中所示，包括：位于云端的服务器1和对应的显示设备2，以及位于现场的终端3。服务器1包括人机混合决策装置11，根据实际应用场景的不同，终端3可以为融合了信息采集和呈现的智能设备(例如手机、眼镜、头盔等)，其可以包括信息采集装置31和决策执行装置32。信息采集装置31采集目标信息后通过有线(例如电缆、网线)或无线(例如WIFI、蓝牙)的方式发送给服务器1，并在显示设备2上进行显示，由服务器1的人机混合决策装置11根据目标信息进行决策后，将决策结果发送给终端3的决策执行装置32，其中，目标信息包括但不限于声音、图像、距离、光强、3D等信息。

人机混合决策装置11可以包括AI模块。AI模块根据不同应用场景包含不同的决策规则，在一般条件下可以自行进行决策而不需要人工干预，从而节省人力，例如，扫地机器人根据一定算法来规划行进路径等。决策规则可以采用非智能算法，也可以采用智能算法(例如神经网络算法)，对于智能算法，需要对决策规则进行大量训练，并且可以在使用过程中自适应学习。在较复杂条件下，AI模块根据已有决策规则无法做出正确决策时，需要人工介入进行人工决策，以提高决策正确率。此时可以向操作者提供信息辅助以帮助人工决策，同时接收操作者的操作或决策(例如语音命令、鼠标点击等)。通过AI模块与人工决策结合，一方面节省人力，另一方面提高决策正确率。

本发明实施例的应用场景包括但不限于智能导盲、远程监控、远程无人机控制、远程驾驶、远程操作(例如采矿、手术、排雷)等，另外，本发明实施例也可以应用于智能算法的在线提升，例如智能客服等。例如，对于导盲系统场景，信息采集装置31可以为导盲头盔上的摄像头或距离传感器等信息采集装置，决策执行装置32可以为导盲头盔上的声音播放器或触觉反馈机构，人机混合决策装置11从导盲头盔获取目标信息，并根据目标信息生成决策信息后，将决策信息发送给导盲头盔，用于导盲。本领域技术人员可以理解，本发明实施例仅以示例性说明上述应用场景，但并不意在限制本发明实施例的应用范围。

本发明实施例提供的人机混合决策方法、装置和系统，通过人机混合决策装置上的AI模块获取目标信息后确定置信度，当置信度较高时由AI模块自行决策，当置信度较低时，引导人工介入来进行决策，解决了目前单靠人工智能难以确保系统可靠性的问题。

本发明实施例提供了一种人机混合决策方法，参照图2中所示，包括：

S101、确定人工智能AI模块针对目标信息的置信度。

根据不同的应用场景，目标信息包括但不限于视觉、听觉、距离、光照等信息，还可以包括3D(三维)图像信息。示例性的，以导盲头盔场景为例，可以获取周围环境的图像信息，获取超声波反馈的障碍物距离信息等，用于导盲决策的定位、检测障碍等。

该置信度用于指示AI模块能够根据目标信息做出正确决策的概率，根据不同应用场景可以采用不同的评价方法，例如相似度、分类概率等。AI模块的置信度用于确定使用AI模块或人工决策来生成决策信息的优先级。

以导盲头盔场景为例，目标信息为导盲所需要的信息，AI模块根据目标信息对盲人做位置定位、检测障碍、避障等操作，在此过程中也对其自身能力做置信度判别，例如，是否能够精准定位、是否能躲避障碍等。

示例性的，可以通过定位准确置信度来判断自身能否精准定位，定位准确置信度可以通过纹理质量、跟踪数量、运动质量等方式来获取，其中，纹理质量可用于描述场景的特征是否丰富，是否是光线不足，是否被遮挡；跟踪数量可用于描述vSLAM模块的定位质量；运动质量用于描述摄像头运动的快慢，太快容易造成图像模糊。当根据上述方式获取的定位准确置信度高于预设阈值时则说明AI模块自身能够精准定位，否则则说明不能精准定位。

示例性的，可以通过避障成功置信度来判断自身能否躲避障碍，避障成功置信度可以通过避障算法基于深度的重建结果，分析场景视角中可通行区域的大小比例。当根据上述方式获取的避障成功置信度高于预设阈值时则说明AI模块自身能够躲避障碍，否则则说明不能躲避障碍。

S102、当置信度大于预设阈值时，获取AI模块根据所述目标信息所做出的决策信息作为实际决策信息。

当AI模块的置信度大于预设阈值时，表示AI模块根据现有目标信息可以做出正确决策，因此可以触发AI模块根据目标信息做智能感知和决策，以生成决策信息。

示例性的，仍以导盲头盔场景为例。AI模块的置信度大于预设阈值时，AI模块根据周围环境的图像信息或者超声波反馈的障碍物距离信息，识别物体并给出决策信息(例如导航指令)，并将决策信息自动发送给头盔，示例性的，导航指令包括但不限于道路行走提示(前行、左转、右转、停止等)、道路信息提示(红灯、楼梯、斑马线、车等)、生活信息提示(人、物体等)。

S103、当置信度小于预设阈值时，展示目标信息并提供交互接口。

具体的，当目标信息包括3D图像信息时，为了便于人工决策，可以生成辅助决策信息，并通过AR(augmented reality，增强现实)或者VR(virtual reality，虚拟现实)方式展示目标信息中的3D图像信息。其中，VR技术是指计算机生成可交互的三维环境作为虚拟环境，可以通过VR眼镜把获取的三维图像、声音等呈现给操作员，让操作员达到身临其境体验，直接由操作员做出决策；AR技术是指实时地计算摄影机影像的位置及角度并加上相应图像、视频、三维模型的技术，示例性的，仍以导盲头盔场景为例，可以在视觉画面上叠加盲人所处的位置/视角、规划的路径、周边障碍物、障碍距离等辅助信息，为操作员提供决策辅助。

进行提供交互接口时，可以通过例如显示交互界面，该交互界面用于接收至少一种类型的人工决策信息；和/或，通过触发声音采集设备采集语音。

S104、获取交互接口接收到的人工决策信息作为实际决策信息。

可选的，参照图3中所示，在步骤S102和S104生成实际决策信息之后，还可以包括步骤S105：

S105、根据实际决策信息和目标信息更新AI模块进行决策时所依据的决策规则。

通过反馈机制，将目标信息与对应的决策信息进行结合来对决策规则进行优化和提升，使得再出现类似或相同目标信息时，AI模块根据优化后的决策规则即可做出决策，进一步减少人工干预，达到节省人力的目的，同时随着样本数量的增多，经过不断更新和优化，使得决策规则更加完善。具体的，可以将决策信息和目标信息形成训练数据对，然后根据训练数据对对决策规则进行训练以更新决策规则。

示例性的，仍以导盲头盔场景为例，在人工导盲过程中，人工介入的实际决策信息作为对数据的标注信息，与目标信息形成训练数据对，用来根据训练数据对对决策规则进行训练以更新决策规则。例如，在人工导盲过程中，道路信息、生活信息的提示(标签)连同对应的视觉画面(样本图像)，共同作为物体识别算法(决策规则)的训练数据对(样本图像，标签)；或者，道路行走的提示信息(标签)连同对应的视觉画面(样本图像)，共同作为避障算法(决策规则)的训练数据对(样本图像，标签)。

本发明实施例提供的人机混合决策方法，通过根据目标信息来得到使用AI模块的置信度，当置信度较高时直接由AI模块根据决策规则进行决策，当置信度较低时引入人工决策来生成决策信息。使得当判断AI模块难以做出正确决策时，由人工介入来进行决策，由人工决策保证可靠性，解决了目前单靠人工智能难以确保系统可靠性的问题。

本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本发明实施例可以根据上述方法示例对人机混合决策装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图4示出了上述实施例中所涉及的人机混合决策装置的一种可能的结构示意图，人机混合决策装置11包括：确定单元1101、获取单元1102、展示单元1103、更新单元1104。确定单元1101用于支持人机混合决策装置执行图2中的过程S101，图3中的过程S101；获取单元1102用于支持人机混合决策装置执行图2中的过程S102、S104，图3中的过程S102、S104；展示单元1103用于支持人机混合决策装置执行图2中的过程S103，图3中的过程S103；更新单元1104用于支持人机混合决策装置执行图3中的过程S105。其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

在采用集成的单元的情况下，图5示出了上述实施例中所涉及的人机混合决策装置的一种可能的结构示意图。人机混合决策装置11包括：处理模块1112和通信模块1113。处理模块1112用于对人机混合决策装置的动作进行控制管理，例如，处理模块1112用于支持人机混合决策装置执行图2中的过程S101-S104，图3中的过程S101-S105，和/或用于本文所描述的技术的其它过程。通信模块1113用于支持人机混合决策装置与其他网络实体的通信，例如与图1中示出的功能模块或网络实体之间的通信。人机混合决策装置11还可以包括存储模块1111，用于存储人机混合决策装置的程序代码和数据。

其中，处理模块1112可以是处理器或控制器，例如可以是中央处理器(centralprocessing unit，CPU)，通用处理器，数字信号处理器(digital signal processor，DSP)，专用集成电路(application-specific integrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块1113可以是收发器、收发电路或通信接口等。存储模块1111可以是存储器。

当处理模块1112为处理器，通信模块1113为收发器，存储模块1111为存储器时，本发明实施例所涉及的人机混合决策装置可以为图6所示的服务器。

参阅图6所示，该服务器1包括：处理器1122、收发器1123、存储器1121以及总线1124。其中，收发器1123、处理器1122以及存储器1121通过总线1124相互连接；总线1124可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

结合本发明公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。本发明实施例还提供一种存储介质，该存储介质可以包括存储器1121，用于储存为人机混合决策装置所用的计算机软件指令，其包含执行人机混合决策方法所设计的程序代码。具体的，软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(erasable programmable ROM，EPROM)、电可擦可编程只读存储器(electrically EPROM，EEPROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于人机混合决策装置中。当然，处理器和存储介质也可以作为分立组件存在于人机混合决策装置中。

本发明实施例还提供一种计算机程序，该计算机程序可直接加载到存储器1121中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述的人机混合决策方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人机混合决策方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在获取所述交互接口接收到的人工决策信息作为实际决策信息之后，所述方法还包括：

根据所述实际决策信息和所述目标信息更新AI模块进行决策时所依据的决策规则。

3.根据权利要求2所述的方法，其特征在于，所述根据所述实际决策信息和所述目标信息更新所述AI模块进行决策时所依据的决策规则，包括：

将所述实际决策信息和所述目标信息形成训练数据对；

根据所述训练数据对对所述决策规则进行训练以更新所述决策规则。

4.根据权利要求1所述的方法，其特征在于，所述当所述置信度大于预设阈值时，获取所述AI模块根据所述目标信息所做出的决策信息作为实际决策信息，包括：

当所述置信度大于预设阈值时，触发所述AI模块根据所述目标信息生成决策信息；并获取所述AI模块根据所述目标信息所做出的决策信息作为实际决策信息。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述目标信息包括3D图像信息；

所述展示目标信息，包括：

通过增强现实AR或者虚拟现实VR方式展示所述目标信息中的3D图像信息。

6.根据权利要求1所述的方法，其特征在于，所述目标信息为导盲所需要的信息。

7.根据权利要求1所述的方法，其特征在于，所述提供交互接口，包括：

显示交互界面，所述交互界面用于接收至少一种类型的人工决策信息；

和/或，触发声音采集设备采集语音。

8.一种人机混合决策装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

更新单元，用于在所述获取单元获取所述交互接口接收到的人工决策信息作为实际决策信息之后，根据所述实际决策信息和所述目标信息更新AI模块进行决策时所依据的决策规则。

10.根据权利要求9所述的装置，其特征在于，所述更新单元，具体用于：

将所述实际决策信息和所述目标信息形成训练数据对；

11.根据权利要求8所述的装置，其特征在于，所述获取单元，具体用于：

12.根据权利要求8-11中任一项所述的装置，其特征在于，所述目标信息包括3D图像信息；所述展示单元，具体用于：

13.根据权利要求8所述的装置，其特征在于，所述目标信息为导盲所需要的信息。

14.根据权利要求8所述的装置，其特征在于，所述获取单元，具体用于：

和/或，触发声音采集设备采集语音。

15.一种计算机存储介质，其特征在于，用于储存为人机混合决策装置所用的计算机软件指令，其包含执行权利要求1～7中任一项所述的人机混合决策方法所设计的程序代码。

16.一种计算机程序产品，其特征在于，可直接加载到计算机的内部存储器中，并含有软件代码，所述计算机程序经由计算机载入并执行后能够实现权利要求1～7中任一项所述的人机混合决策方法。

17.一种服务器，其特征在于，包括：存储器、通信接口和处理器，所述存储器用于存储计算机执行代码，所述处理器用于执行所述计算机执行代码控制执行权利要求1-7任一项所述人机混合决策方法，所述通信接口用于所述服务器与外部设备的数据传输。