CN116778216A

CN116778216A - 信息处理装置、移动体、它们的控制方法以及存储介质

Info

Publication number: CN116778216A
Application number: CN202310095111.4A
Authority: CN
Inventors: 细见直希
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2022-03-16
Filing date: 2023-02-07
Publication date: 2023-09-19
Also published as: JP2023136194A; US20230298340A1

Abstract

本发明提供一种信息处理装置、移动体、它们的控制方法以及存储介质，本发明的目的在于，利用图像识别的特征量来生成高效的提问，从而对作为目标的物标进行推定。信息处理装置获取拍摄图像，对拍摄图像所包含的多个物标进行检测，并针对检测出的多个物标中的每一个物标而提取出多个特征量。另外，本信息处理装置针对提取出的每个特征量而计算不纯度，该不纯度表示在向用户进行了用于基于各个特征量而从多个物标中推定出预定的物标的提问的情况下无法从多个物标中分离出预定的物标的程度。进一步地，本信息处理装置基于提取出的特征量和每个特征量的不纯度，以减少用于使不纯度最小化的提问次数的方式生成提问。

Description

信息处理装置、移动体、它们的控制方法以及存储介质

技术领域

本发明涉及信息处理装置、移动体、它们的控制方法以及存储介质。

背景技术

近年来，已知有被称为超小型移动工具(也被称为微移动工具：micromobility)的、乘车定员为1～2名左右的电动车辆、对人提供各种服务的移动型对话机器人等小型的移动体。在这样的移动体中，从人、建筑物的物标组中鉴定任意的物体是否是目标物体(以下，称为目标)来提供各种服务。为了鉴定作为目标物体的用户，移动体与用户进行对话来筛选候选。

关于对用户的提问，在专利文献1中提出了如下技术：通过对话对用户进行多次提问，在根据用户的回答结果来筛选分类结果的候选时，生成即使在用户的回答错误的情况下也能够削减对用户的提问次数的提问顺序的决策树。

现有技术文献

专利文献

专利文献1：日本特开2018-5624号公报

发明内容

发明所要解决的问题

但是，在上述现有技术中存在以下那样的问题。在上述现有技术中，还考虑了在减少对用户的提问次数的同时，在根据回答结果来筛选分类结果、检索结果的候选时用户的回答错误的情况。但是，在上述现有技术中，根据针对用户的多个提问的回答来筛选分类结果的候选，并不能有效地利用用户的回答以外的信息。尤其是，在从多个人中推定作为目标的用户的情况下，用户所在的周边的拍摄图像的特征量是非常有意义的信息。

本发明是鉴于上述问题而完成的，其目的在于，利用图像识别的特征量来生成高效的提问，从而对作为目标的物标进行推定。

用于解决问题的手段

根据本发明，例如是一种信息处理装置，其特征在于，所述信息处理装置具备：获取机构，其获取拍摄图像；提取机构，其对所述拍摄图像所包含的多个物标进行检测，并针对检测出的所述多个物标中的每一个物标而提取出多个特征量；计算机构，其针对由所述提取机构提取出的每个特征量而计算不纯度，所述不纯度表示在向用户进行了用于基于各个特征量而从所述多个物标中推定出预定的物标的提问的情况下无法从所述多个物标中分离出所述预定的物标的程度；以及生成机构，其基于由所述提取机构提取出的所述特征量和每个所述特征量的所述不纯度，以减少用于使所述不纯度最小化的提问次数的方式生成所述提问。

另外，根据本发明，例如是一种移动体，其特征在于，所述移动体具备：获取机构，其获取拍摄图像；提取机构，其对所述拍摄图像所包含的多个物标进行检测，并针对检测出的所述多个物标中的每一个物标而提取出多个特征量；计算机构，其针对由所述提取机构提取出的每个特征量而计算不纯度，所述不纯度表示在向用户进行了用于基于各个特征量而从所述多个物标中推定出预定的物标的提问的情况下无法从所述多个物标中分离出所述预定的物标的程度；以及生成机构，其基于由所述提取机构提取出的所述特征量和每个所述特征量的所述不纯度，以减少用于使所述不纯度最小化的提问次数的方式生成所述提问。

另外，根据本发明，例如是一种信息处理装置的控制方法，其特征在于，所述信息处理装置的控制方法包含：获取步骤，在所述获取步骤中，获取拍摄图像；提取步骤，在所述提取步骤中，对所述拍摄图像所包含的多个物标进行检测，并针对检测出的所述多个物标中的每一个物标而提取出多个特征量；计算步骤，在所述计算步骤中，针对在所述提取步骤中提取出的每个特征量而计算不纯度，所述不纯度表示在向用户进行了用于基于各个特征量而从所述多个物标中推定出预定的物标的提问的情况下无法从所述多个物标中分离出所述预定的物标的程度；以及生成步骤，在所述生成步骤中，基于在所述提取步骤中提取出的所述特征量和每个所述特征量的所述不纯度，以减少用于使所述不纯度最小化的提问次数的方式生成所述提问。

另外，根据本发明，是一种移动体的控制方法，其特征在于，所述移动体的控制方法包含：获取步骤，在所述获取步骤中，获取拍摄图像；提取步骤，在所述提取步骤中，对所述拍摄图像所包含的多个物标进行检测，并针对检测出的所述多个物标中的每一个物标而提取出多个特征量；计算步骤，在所述计算步骤中，针对在所述提取步骤中提取出的每个特征量而计算不纯度，所述不纯度表示在向用户进行了用于基于各个特征量而从所述多个物标中推定出预定的物标的提问的情况下无法从所述多个物标中分离出所述预定的物标的程度；以及生成步骤，在所述生成步骤中，基于在所述提取步骤中提取出的所述特征量和每个所述特征量的所述不纯度，以减少用于使所述不纯度最小化的提问次数的方式生成所述提问。

另外，根据本发明，例如是一种存储介质，其特征在于，其存储有用于使信息处理装置的计算机作为以下机构而发挥功能的程序：获取机构，其获取拍摄图像；提取机构，其对所述拍摄图像所包含的多个物标进行检测，并针对检测出的所述多个物标中的每一个物标而提取出多个特征量；计算机构，其针对由所述提取机构提取出的每个特征量而计算不纯度，所述不纯度表示在向用户进行了用于基于各个特征量而从所述多个物标中推定出预定的物标的提问的情况下无法从所述多个物标中分离出所述预定的物标的程度；以及生成机构，其基于由所述提取机构提取出的所述特征量和每个所述特征量的所述不纯度，以减少用于使所述不纯度最小化的提问次数的方式生成所述提问。

另外，根据本发明，其特征在于，例如存储有用于使移动体的计算机作为以下机构而发挥功能的程序：获取机构，其获取拍摄图像；提取机构，其对所述拍摄图像所包含的多个物标进行检测，并针对检测出的所述多个物标中的每一个物标而提取出多个特征量；计算机构，其针对由所述提取机构提取出的每个特征量而计算不纯度，所述不纯度表示在向用户进行了用于基于各个特征量而从所述多个物标中推定出预定的物标的提问的情况下无法从所述多个物标中分离出所述预定的物标的程度；以及生成机构，其基于由所述提取机构提取出的所述特征量和每个所述特征量的所述不纯度，以减少用于使所述不纯度最小化的提问次数的方式生成所述提问。

发明效果

根据本发明，能够利用图像识别的特征量来生成高效的提问，从而对作为目标的物标进行推定。

附图说明

图1是表示本发明的实施方式所涉及的系统的一个例子的图。

图2是表示本实施方式所涉及的移动体的硬件的构成例的框图。

图3是表示本实施方式所涉及的移动体的功能构成例的框图。

图4是表示本实施方式所涉及的服务器和通信装置的构成例的框图。

图5是用于对本实施方式所涉及的图像获取进行说明的图。

图6是用于对本实施方式所涉及的图像解析进行说明的图。

图7是用于对本实施方式所涉及的提问生成进行说明的图。

图8是将本实施方式所涉及的提问与比较例的提问进行比较的图。

图9是表示本实施方式所涉及的使用了发言和图像的用户的推定处理的一系列的动作的流程图。

图10是表示本实施方式所涉及的使用了发言以及拍摄图像的用户的推定处理(S106)的一系列的动作的流程图。

图11是表示本实施方式所涉及的S206的详细处理的一系列的动作的流程图。

图12是表示另一实施方式所涉及的系统的一个例子的图。

附图标记说明

100、1210：车辆；110：服务器；120：通信装置；404：控制单元；413：用户数据获取部；414：声音信息处理部；415：图像信息处理部；416：汇合位置推定部；417：用户推定部。

具体实施方式

以下，参照附图对实施方式进行详细说明。此外，以下的实施方式并非对技术方案所涉及的发明进行限定，另外，在实施方式中说明的特征的组合未必全部都是发明所必须的。也可以对实施方式中说明的多个特征中的两个以上的特征任意地进行组合。另外，对相同或者同样的构成标注相同的附图标记，并省略重复的说明。

<系统的构成>

参照图1，对本实施方式所涉及的系统1的构成进行说明。系统1包含车辆(移动体)100、服务器110和通信装置(通信终端)120。在本实施方式中，服务器110使用用户130的发言信息和车辆100的周围的拍摄图像而对用户进行推定，使用户130与车辆100汇合。用户经由在所持有的通信装置120上启动的预定的应用程序与服务器110进行交互，一边通过发言来提供自身的位置等，一边向自身所指定的汇合位置(例如，成为附近的标记的红色邮筒)移动。服务器110一边对用户、汇合位置进行推定，一边对车辆100进行控制而使其向推定出的汇合位置移动。以下，对各构成进行详细说明。

车辆100搭载有电池，例如是主要通过马达的动力而移动的超小型移动工具。超小型移动工具是指比一般的机动车紧凑、乘车定员为1名或2名左右的超小型车辆。在本实施方式中，以将车辆100设为超小型移动工具的例子进行说明，但并不意图对本发明进行限定，例如也可以是四轮车辆、跨骑型车辆。另外，本发明的车辆不限于交通工具，也可以是装载货物而与人的步行并行的车辆、对人进行引导的车辆。进一步地，在本发明中，不限于四轮、两轮等车辆，也能够应用能够自主移动的步行型机器人等。即，本发明能够应用于上述的车辆、步行型机器人等移动体，车辆100是移动体的一个例子。

车辆100例如经由Wi-Fi、第五代移动通信等无线通信与网络140连接。车辆100能够通过各种传感器(车辆的位置、行驶状态、周围的物体的物标等)对车辆内外的状态进行测量，并将测量出的数据发送至服务器110。这样收集并发送的数据一般也被称为浮动数据、探测数据、交通信息等。与车辆相关的信息以一定的间隔或者根据发生了特定的事件这一情况而被发送至服务器110。车辆100即使在用户130未乘车的情况下也能够通过自动驾驶来行驶。车辆100接收从服务器110提供的控制命令等信息，或者使用由本车测量出的数据而对车辆的动作进行控制。

服务器110是信息处理装置的一个例子，由一个以上的服务器装置构成，能够经由网络140获取从车辆100发送来的与车辆相关的信息、从通信装置120发送来的发言信息以及位置信息，对用户130进行推定，并对车辆100的行驶进行控制。车辆100的行驶控制包含用户130与车辆100的汇合位置的调整处理。

通信装置120例如是智能手机，但不限于此，也可以是耳机型的通信终端，还可以是个人计算机、平板终端、游戏机等。通信装置120例如经由Wi-Fi、第五代移动通信等无线通信与网络140连接。

网络140例如包含因特网、移动电话网等通信网，对服务器110与车辆100、通信装置120之间的信息进行传送。在该系统1中，在位于远离的场所的用户130和车辆100已接近到能够通过视觉确认(作为视觉上的标记的)物标等的程度的情况下，使用发言信息和由车辆100拍摄到的图像信息对用户进行推定，并对汇合位置进行调整。此外，在本实施方式中，对在车辆自身设置有对车辆100的周围进行拍摄的相机的例子进行说明，但并不一定必须在车辆100设置相机等。例如，也可以利用使用已经设置在车辆100的周围的监视相机等而拍摄到的图像，还可以利用上述双方。由此，在确定用户的位置时，能够利用以进一步最佳的角度拍摄到的图像。例如，在用户对一个标记通过发言而作出了自身相对于该标记处于怎样的位置关系的发言时，通过解析由与该标记和预测的位置较近的相机拍摄到的图像，能够更准确地确定请求与超小型移动工具进行汇合的用户。

在用户130与车辆100接近到能够通过视觉确认物标等的程度之前，首先，服务器110使车辆100移动至包含用户的当前位置或者用户的预测位置的大致的区域。然后，当车辆100到达大致的区域后，服务器110基于预想为拍摄到用户130的拍摄图像，向通信装置120发送询问视觉上的标记、与用户相关的信息的声音信息(例如“附近有店吗？”、“衣服的颜色是黑色的吗？”)等。与视觉上的标记相关联的场所例如包含地图信息所包含的场所的名称。在此，视觉上的标记表示用户能够视觉辨认的物理对象，例如包含建筑物、信号灯、河川、山、铜像、招牌等各种对象。服务器110从通信装置120接受包含与视觉上的标记相关联的场所的用户所发出的发言信息(例如“有个xx咖啡店的建筑物”)。然后，服务器110从地图信息获取相应的场所的位置并使车辆100移动至该场所的周边(即，接近到车辆和用户能够通过视觉确认物标等的程度)。之后，根据本实施方式，根据用户周边的拍摄图像，基于图像识别模型预测出的特征量来生成减少提问次数的高效的提问，根据用户对提问的回答而对用户进行推定。关于提问的生成方法的详细内容在后面叙述。此外，在本实施方式中，对推定作为用户的人的情况进行说明，但也可以不是人，而对其他物标进行推定。例如，也可以对用户作为标记而指定的招牌、建筑物等进行推定。在该情况下，关于提问事项，以其他物标为目标。

<移动体的构成>

接着，参照图2，对作为本实施方式所涉及的移动体的一个例子的车辆100的构成进行说明。图2中的(A)表示本实施方式所涉及的车辆100的侧面，图2中的(B)表示车辆100的内部构成。图中箭头X表示车辆100的前后方向，F表示前，R表示后。箭头Y、Z表示车辆100的宽度方向(左右方向)、上下方向。

车辆100是具备行驶单元12并将电池13作为主电源的电动自主式车辆。电池13例如是锂离子电池等充电电池，通过从电池13供给的电力，通过行驶单元12而使车辆100自行行驶。行驶单元12是具备左右一对前轮20和左右一对后轮21的四轮车。行驶单元12也可以是三轮车的形态等其他形态。车辆100具备单人用或双人用的座位14。

行驶单元12具备转向机构22。转向机构22是将马达22a作为驱动源而使一对前轮20的转向角变化的机构。通过使一对前轮20的转向角变化，能够变更车辆100的行进方向。行驶单元12还具备驱动机构23。驱动机构23是以马达23a为驱动源来使一对后轮21旋转的机构。通过使一对后轮21旋转，能够使车辆100前进或后退。

车辆100具备对车辆100的周围的物标进行检测的检测单元15～检测单元17。检测单元15～检测单元17是对车辆100的周边进行监视的外部传感器组，在本实施方式的情况下，均为对车辆100的周围的图像进行拍摄的拍摄装置，例如具备透镜等光学系统和图像传感器。但是，也可以代替拍摄装置或者在拍摄装置的基础上，采用雷达、光学雷达(LightDetection and Ranging：光探测和测距)。

检测单元15在车辆100的前部沿Y方向分离地配置有两个，主要对车辆100的前方的物标进行检测。检测单元16分别配置于车辆100的左侧部以及右侧部，主要对车辆100的侧方的物标进行检测。检测单元17配置于车辆100的后部，主要对车辆100的后方的物标进行检测。

<移动体的控制构成>

图3是作为移动体的车辆100的控制系统的框图。在此，主要对实施本发明所需的构成进行说明。因而，也可以在以下说明的构成的基础上，还包含其他构成。车辆100具备控制单元(ECU)30。控制单元30包含以CPU为代表的处理器、半导体存储器等存储设备、与外部设备的接口等。在存储设备中存储处理器所执行的程序、处理器在处理中使用的数据等。处理器、存储设备、接口也可以按车辆100的功能的不同而设置多组并构成为能够相互通信。

控制单元30获取检测单元15～检测单元17的检测结果、操作面板31的输入信息、从声音输入装置33输入的声音信息、来自服务器110的控制命令(例如，拍摄图像、当前位置的发送等)等，并执行对应的处理。控制单元30进行马达22a、马达23a的控制(行驶单元12的行驶控制)、操作面板31的显示控制、基于声音的向车辆100的乘员的报告、信息的输出。

声音输入装置33对车辆100的乘员的声音进行拾音。控制单元30能够对输入的声音进行识别，并执行对应的处理。GNSS(Global Navigation Satellite system：全球导航卫星系统)传感器34接收GNSS信号而对车辆100的当前位置进行检测。存储装置35是存储包含车辆100能够行驶的行驶道路、建筑物等地标、店铺等的信息的地图数据等的大容量存储设备。在存储装置35中也可以保存处理器所执行的程序、处理器在处理中使用的数据等。存储装置35也可以保存由控制单元30执行的声音识别、图像识别用的机器学习模型的各种参数(例如深度神经网络的学习完毕的参数、超参数等)。通信单元36例如是能够经由Wi-Fi、第五代移动通信等无线通信而与网络140连接的通信装置。

<服务器和通信装置的构成>

接着，参照图4，对作为本实施方式所涉及的信息处理装置的一个例子的服务器110和通信装置120的构成例进行说明。此外，以下说明的服务器110的功能也可以如后述的变形例所示那样由车辆100实现。在该情况下，后述的服务器110的控制单元404以与上述移动体的控制单元30整合的方式实现。

(服务器的构成)

首先，对服务器110的构成例进行说明。在此，主要对实施本发明所需的构成进行说明。因而，也可以在以下说明的构成的基础上，还包含其他构成。控制单元404包含以CPU为代表的处理器、半导体存储器等存储设备、与外部设备的接口等。在存储设备中存储处理器所执行的程序、处理器在处理中使用的数据等。处理器、存储设备、接口也可以按服务器110的功能的不同而设置多组并构成为能够相互通信。控制单元404通过执行程序来执行服务器110的各种动作、后述的汇合位置的调整处理等。控制单元404除了CPU以外，还可以包含GPU或者适于神经网络等机器学习模型的处理的执行的专用的硬件。

用户数据获取部413获取从车辆100发送的图像、位置的信息。另外，用户数据获取部413获取从通信装置120发送来的用户130的发言信息以及通信装置120的位置信息中的至少一者。用户数据获取部413可以将获取到的图像、位置信息存储在存储部403中。用户数据获取部413获取到的图像、发言的信息，为了得到推论结果而被输入到推论阶段的学习完毕的模型中，但也可以用作用于使由服务器110执行的机器学习模型进行学习的学习数据。

声音信息处理部414包含对声音信息进行处理的机器学习模型，并执行该机器学习模型的学习阶段的处理、推论阶段的处理。声音信息处理部414的机器学习模型例如进行使用了深度神经网络(DNN)的深度学习算法的运算，对发言信息所包含的场所名、建筑物等地标名、店铺名、物标的名称等进行识别。物标可以包含发言信息所包含的行人、招牌、标识、自动售货机等设置于野外的设备、窗、入口等建筑物的构成要素、道路、车辆、两轮车等。DNN通过进行学习阶段的处理而成为学习完毕的状态，通过将新的发言信息输入到学习完毕的DNN，能够进行针对新的发言信息的识别处理(推论阶段的处理)。此外，在本实施方式中，以由服务器110执行声音识别处理的情况为例进行说明，但也可以在车辆、通信装置中执行声音识别处理，并将识别结果发送至服务器110。

图像信息处理部415包含对图像信息进行处理的机器学习模型，并执行该机器学习模型的学习阶段的处理、推论阶段的处理。图像信息处理部415的机器学习模型例如进行使用了深度神经网络(DNN)的深度学习算法的运算，进行对图像信息所包含的物标进行识别的处理。物标可以包含图像内所包含的行人、招牌、标识、自动售货机等设置于野外的设备、窗、入口等建筑物的构成要素、道路、车辆、两轮车等。例如，图像信息处理部415的机器学习模型为图像识别模型，对图像内所包含的行人的特征(例如，行人附近的物体、衣服的颜色、包的颜色、有无口罩、有无智能手机等)进行提取。

提问生成部416基于通过图像识别模型从由车辆100拍摄到的拍摄图像中提取出的多个特征量及其可靠度，获取每个特征量的不纯度，基于导出的不纯度递归地生成以最短的形式使不纯度最小化的提问组。不纯度表示在物标组中(从除此以外的物标组中)无法分离出目标的程度。用户推定部417按照用户对所生成的提问的回答而对用户进行推定。在此，用户的推定是指，对请求与车辆100汇合的用户(目标)进行推定，从预定区域内的一个以上的人中推定出该请求用户。汇合位置推定部418执行用户130与车辆100的汇合位置的调整处理。关于不纯度的获取处理、用户的推定处理以及汇合位置的调整处理的详细内容，在后面叙述。

此外，服务器110一般能够使用比车辆100等丰富的计算资源。另外，通过接收、储存由各种车辆拍摄到的图像数据，能够收集多种多样的状况下的学习数据，能够进行与更多的状况对应的学习。根据上述储存的信息而生成图像识别模型，并使用图像识别模型对拍摄图像的特征进行提取。

通信单元401例如是包含通信用电路等的通信装置，与车辆100、通信装置120等外部装置进行通信。通信单元401除了接收来自车辆100的图像信息、位置信息、来自通信装置120的发言信息以及位置信息中的至少一者之外，还发送向车辆100的控制命令、向通信装置120的发言信息。电源单元402向服务器110内的各部供给电力。存储部403是硬盘、半导体存储器等非易失性存储器。

(通信装置的构成)

接着，对通信装置120的构成进行说明。通信装置120表示用户130所拥有的智能手机等便携设备。在此，主要对实施本发明所需的构成进行说明。因而，也可以在以下说明的构成的基础上，还包含其他构成。通信装置120具备控制单元501、存储部502、外部通信设备503、显示操作部504、麦克风507、扬声器508以及速度传感器509。外部通信设备503包含GPS505以及通信单元506。

控制单元501包含以CPU为代表的处理器。在存储部502中存储处理器所执行的程序、处理器在处理中使用的数据等。此外，存储部502也可以组装于控制单元501的内部。控制单元501通过总线等信号线与其他组件502、503、504、508、509连接，能够发送接收信号，对通信装置120的整体进行控制。

控制单元501能够使用外部通信设备503的通信单元506经由网络140与服务器110的通信单元401进行通信。另外，控制单元501经由GPS505获取各种信息。GPS505获取通信装置120的当前位置。由此，例如，能够将位置信息与用户的发言信息一起提供给服务器110。此外，在本发明中，GPS505不是必须的构成，在本发明中提供一种在无法获取GPS505的位置信息的室内等设施内也能够利用的系统。因而，基于GPS505的位置信息作为对用户进行推定时的补充性的信息来处理。

显示操作部504例如是触摸面板式的液晶显示器，能够进行各种显示，并且接受用户操作。在显示操作部504显示来自服务器110的询问内容、与车辆100的汇合位置等信息。此外，在从服务器110发来询问的情况下，通过对以可选择的方式显示的麦克风按钮进行操作，能够使通信装置120的麦克风507获取用户的发言。麦克风507获取用户的发言作为声音信息。麦克风例如也可以通过按下在操作画面中显示的麦克风按钮而转移到启动状态，来获取用户的发言。扬声器508在按照来自服务器110的指示而向用户进行询问时，输出基于声音的消息(例如，“包的颜色是红色的吗？”等)。如果是基于声音的询问，则即使是例如通信装置120不具有显示画面的耳机等简易的构成，也能够与用户进行交互。另外，即使在用户没有将通信装置120拿在手中等的情况下，用户例如也能够从耳机等中听到服务器110的询问。如果是基于文本的询问，则在通信装置120的显示操作部中显示服务器110的询问，通过由用户按下在操作画面中显示的按钮、或在聊天窗口中输入文本而能够获取用户的回答。在该情况下，与基于声音的询问的情况不同，能够不受周围的环境声音(噪声)影响地进行询问。

速度传感器509是对通信装置120的前后方向、左右方向、上下方向的加速度进行检测的加速度传感器。表示从速度传感器509输出的加速度的输出值被存储在存储部502的环形缓冲器中，并且从最早的记录开始被重写。服务器110也可以获取上述数据，并用于对用户的移动方向进行检测。

<使用了发言和图像的提问生成的概要>

参照图5至图8，对在服务器110中执行的、使用了发言和图像的提问生成的概要进行说明。在此，对根据由车辆100获取到的拍摄图像来生成用于确定作为目标的用户、招牌等作为标记的物标的高效的提问的过程进行说明。

(拍摄图像)

图5是表示由车辆100获取的拍摄图像的一个例子的图。在图5中，车辆100处于基于用户的发言信息、位置信息而已移动到大致的位置的状态。车辆100在移动到大致的位置后，使用检测单元15～检测单元17中的至少一个对被推定为成为目标的用户所处的位置的周边进行拍摄。在拍摄图像600中包含行人A、行人B、行人C、行人D、建筑物601、电线杆602、道路上的人行横道603、人行横道604。车辆100在获取到拍摄图像600时，将其发送至服务器110。此外，在车辆100保持有图像识别模型的情况下，也可以由车辆100从拍摄图像中对特征进行提取。另外，在车辆100不具有拍摄功能的情况下，也可以获取使用设置于周边的其他车辆、建筑物的相机而拍摄到的图像。另外，也可以使用上述的多个拍摄图像来进行图像解析。

(特征量的提取)

图6是表示在服务器110中通过图像识别模型从拍摄图像600中提取出的特征量的图。610表示提取出的特征(以下，称为特征量)。服务器110的图像信息处理部415首先使用图像识别模型对人进行检测。在此，在拍摄图像600中，检测到行人A～行人D这四个人。之后，图像信息处理部415针对检测出的每个人对特征量进行提取。如610所示，作为与检测出的多个人相关联的特征量，例如，对位于检测出的人的附近的物体、检测出的人的衣服的颜色、种类、裤子的颜色、包的颜色等进行检测。进一步地，对检测出的人的行动，例如，是否正在看着智能手机、是否戴着口罩、是否站着不动、朝向哪个方向等进行检测。如610所示，针对检测出的行人A～行人D中的每个人，对特征量进行提取。另外，在作为目标的物标是建筑物、招牌的情况下，也可以对位于检测出的物标的附近的物体、检测出的物标的颜色、类别、显示于物标的文字、图案等进行检测来作为特征量。

(与不纯度相应的提问的生成)

图7是对本实施方式所涉及的使用了不纯度的提问的生成方法进行说明的图。首先，服务器110的提问生成部416通过图像识别模型提取出一个以上的特征量，进一步地获取特征量值及其可靠度、以及特征量自身的权重。可靠度例如是表示图像识别模型对特征量值的预测具有多少自信的值。权重是表示在不纯度计算中反映多少该特征量的值。可靠度以及权重也可以是通过机器学习而随时更新的值。关于特征量的权重，也能够按每个特征量设定为启发式。进一步地，提问生成部416根据所获取的特征量、其权重、可靠度递归地生成最佳且高效的提问。此外，所生成的提问优选为人能够以“是”/“不是”进行回答的提问，由此能够降低回答的多样性。即，具有降低计算机对发言理解、声音识别的难易度的次要的效果。

对图7所示的事例进行说明。如610所示，从拍摄图像600中针对行人A～行人D提取出特征量。其中，如701所示，将请求汇合的用户即目标用户设为B。如上所述，不纯度表示在物标组中目标无法(从除此以外的物标组中)分离的程度。因而，在包含全部的行人A～行人D的状态下，根据后述的不纯度计算模型，不纯度为“4.8”。

在此，在全部的特征量的权重和可靠度相等的情况下，提问生成部416生成以最短的形式使不纯度最小化的提问、即询问仅一个用户所具有的特征的提问、例如“包的颜色是红色的吗？”。当然，在不存在仅一个用户所具有的特征的情况下，也有可能生成多个提问，在该情况下，可以依次进行提问，也可以根据其他信息、例如根据用户的位置信息而被认为可能性更高的用户所具有的特征来进行提问。在610的例子中，在用户针对上述提问而回答了“是”的情况下，能够将行人B推定为目标用户。另一方面，在用户回答了“不是”的情况下，集合被缩小为行人A、C、D，并生成下一个提问。

另一方面，在包的颜色的权重和可靠度较低的情况下，提问生成部416使用权重、可靠度较高的其他特征量来生成提问，例如“正在看着智能手机吗？”。当用户回答“是”时，集合被缩小为行人A、B，不纯度为“1.9”。接着，提问生成部416生成提问“戴着口罩吗？”。由此，即使在用户以“是”或“不是”中的任一个进行了回答的情况下，也能够对目标用户进行推定。这样，提问生成部416考虑到特征量的权重、特征量值的可靠度，生成最佳且高效的提问。

不纯度计算模型能够进行各种定式化。例如，能够进行启发式定式化、使用了神经网络等的函数近似。如上所述，特征量的权重可以设定为启发式，也可以通过机器学习根据数据进行学习。

将不纯度计算模型的一个例子示于图7的702。703表示集合所包含的目标以外的对象数。例如，如果目标是人，则表示多个人的集合所包含的预定的人以外的人数。N越少则不纯度越小。704表示基于特征量的权重和特征量值的可靠度的惩罚。惩罚越小，则不纯度越小。705表示各变量的内容。另外，F表示各特征量(特征量值的集合)的集合，M表示特征量的维数。f_k表示关于第k个特征量的、各对象所具有的特征量值的集合。其中，f*_k表示目标用户所具有的特征量值。N表示对象数。w表示各特征量的权重的集合。C_fk表示针对第k个特征量从各对象的图像识别结果得到的可靠度。此外，702的不纯度计算模型仅为一个例子，并不意图限定本发明。例如，也可以不计算各项702、703的单纯的和，而导入系数、导入基于对象数的标准化等。另外，对于惩罚项，也可以不计算权重、可靠度的单纯的倒数，而导入其他的运算、函数。进一步地，也可以根据所收集的数据量，导入基于神经网络等的函数近似。

(生成的高效的提问)

图8表示本实施方式所涉及的高效的提问和作为比较例的提问的一个例子。在比较例中，使用610所示的提取出的特征量依次生成提问，来筛选目标用户。因而，生成多个提问的可能性较高，如图8所示，有可能生成作为全部的行人A～行人D的特征的“附近有建筑物吗？”、作为行人A、B的特征的“衣服的颜色是黑色的吗？”等提问。另一方面，根据本申请发明，如使用图8所述的那样，生成使用了尽可能少数的行人所具有的特征的提问“鞋的颜色是红色的吗？”。例如，如果行人B是目标用户，则接受到“是”的回答，能够通过一次的提问来鉴定目标用户。这样，根据本实施方式，能够以最短的形式使不纯度最小化，由此，在对目标用户进行推定时能够使对话的次数最小化。

<汇合控制的一系列的处理步骤>

接着，参照图9，对本实施方式所涉及的服务器110中的汇合控制的一系列的动作进行说明。此外，本处理通过由控制单元404执行程序来实现。此外，在以下的说明中，为了简化说明，设为由控制单元404执行各处理来进行说明，但通过控制单元404的各部来执行对应的处理。此外，在此，对用户与车辆最终汇合的流程进行说明，但本发明的特征性的构成是与用户的推定(鉴定)相关联的构成，关于对汇合位置进行推定的构成，并不是必须的构成。即，以下，对还包含与汇合位置的推定相关的控制的处理步骤进行说明，但也可以执行仅进行与用户的推定相关的处理步骤那样的控制。

在S101中，控制单元404从通信装置120接收用于开始与车辆100的汇合的请求(汇合请求)。在S102中，控制单元404从通信装置120获取用户的位置信息。此外，用户的位置信息是由通信装置120的GPS505获取到的位置信息。另外，该位置信息也可以与S101的请求同时接收。在S103中，控制单元404基于在S102中获取到的用户的位置，来确定汇合的大致的区域(也简称为汇合区域、预定区域)。汇合区域例如是以用户130(通信装置120)的当前位置为中心的半径为预定距离(例如，几百m)的区域。

在S104中，控制单元404例如基于从车辆100定期地发送来的位置信息，对车辆100朝向汇合区域的移动进行追踪。此外，控制单元404例如能够从位于用户130的当前位置(或者预定的时间后的到达地点)的周边的多个车辆中选择与该当前位置最近的车辆作为与用户130汇合的车辆100。或者，控制单元404也可以在汇合请求中包含对特定的车辆100进行指定的信息的情况下，选择该车辆100作为与用户130汇合的车辆100。

在S105中，控制单元404判定车辆100是否已到达汇合区域。控制单元404例如在车辆100与通信装置120之间的距离为汇合区域的半径以内的情况下，判定为车辆100已到达汇合区域，使处理进入S106。否则，服务器110使处理返回至S105，等待车辆100到达汇合区域。

在S106中，控制单元404使用发言以及拍摄图像对用户进行推定。关于这里的使用了用户的发言以及拍摄图像的用户的推定处理的详细内容，在后面叙述。接着，在S107中，控制单元404基于在S106中推定出的用户，进一步地对汇合位置进行推定。例如，通过对拍摄图像内的用户进行推定，在用户说出了“附近的红色邮筒”等作为汇合位置的情况下，通过搜索与推定出的用户较近的红色邮筒，能够更准确地推定出汇合位置。之后，在S108中，控制单元404将汇合位置的位置信息发送至车辆。即，控制单元404将在S107的处理中推定出的汇合位置发送至车辆100，由此使车辆100向汇合位置移动。控制单元404在将汇合位置发送至车辆100后，之后结束一系列的动作。

<使用了发言以及拍摄图像的用户的推定处理的一系列的动作>

接着，参照图10，对服务器110中的使用了发言以及拍摄图像的用户的推定处理(S106)的一系列的动作进行说明。此外，本处理与图9所示的处理同样地，通过由控制单元404执行程序来实现。

在S201中，控制单元404获取车辆100拍摄到的拍摄图像。此外，也可以获取设置于车辆100以外的其他车辆、被认为是目标用户所在的位置的周边的建筑物的监视相机的图像。

在S202中，控制单元404使用图像识别模型，对获取到的拍摄图像所包含的一个以上的人进行检测。接着，在S203中，控制单元404使用图像识别模型，对检测出的每个人的特征进行提取。S202以及S203的处理的结果是，例如提取出图6的610所示的人和各自的特征。此外，在此，对提取出的特征量还分别赋予了权重以及可靠度。

接着，在S204中，控制单元404使用上述那样的计算式获取在S203中提取出的每个特征的不纯度。接着，在S205中，控制单元404基于不纯度而生成使提问次数最小化的提问。

在S206中，控制单元404按照所生成的提问，对用户发送提问，按照用户回答，反复进行提问而对用户进行推定，直到能够推定出用户为止，结束本流程图的处理。关于详细的处理，使用图11在后面叙述。

参照图11，对S206的详细的处理进行说明。此外，本处理与图9所示的处理同样地，通过由控制单元404执行程序来实现。

在S301中，控制单元404基于所生成的提问组中的与各个提问相关的特征的权重以及可靠度、提问次数，向通信装置120发送提问次数最少的提问组的提问。在此，提问组是包含一个以上的提问的集合，表示能够通过按照提问组的提问与用户进行对话而推定出目标用户的集合。

接着，在S302中，控制单元404判断是否从通信装置120接收到针对在S301中发送的提问的用户回答。如果已接收到，则进入S303，否则在S302中等待，直到接收到为止。此外，在即使在从提问的发送起经过了预定时间以上的情况下也未接收到用户回答的情况下，可以再次发送提问，也可以报错结束。

在S303中，控制单元404判断是否能够通过用户回答来筛选目标用户。即，如果能够推定出用户则进入S304，否则发送下一个提问，因此使处理返回至S301。在S304中，控制单元404对目标用户进行推定，并结束本流程图的处理。

<变形例>

以下，对本发明所涉及的变形例进行说明。在上述实施方式中，对在服务器110中执行包含用户推定的汇合控制的例子进行了说明。但是，上述的处理也能够由车辆、步行型机器人等移动体执行。在该情况下，如图12所示，系统1200由车辆1210和通信装置120构成。用户的发言信息从通信装置120被发送至车辆1210。由车辆1210拍摄到的图像信息代替经由网络发送，而由车辆内的控制单元进行处理。车辆1210的构成除了控制单元30能够执行汇合控制之外，可以是与车辆100相同的构成。车辆1210的控制单元30作为车辆1210中的控制装置进行动作，通过执行所存储的程序来执行上述的处理。图9至图11所示的一系列的动作中的服务器与车辆之间的交互只要在车辆的内部(例如控制单元30的内部、或者控制单元30与检测单元15之间)进行即可。关于其他处理，能够与服务器同样地执行。

<实施方式的总结>

1.上述实施方式的信息处理装置(例如，110)具备：

获取机构(401)，其获取拍摄图像；

提取机构(415、S203)，其对所述拍摄图像所包含的多个物标进行检测，并针对检测出的所述多个物标中的每一个物标而提取出多个特征量；

计算机构(415、S204)，其针对由所述提取机构提取出的每个特征量而计算不纯度，所述不纯度表示在向用户进行了用于基于各个特征量而从所述多个物标中推定出预定的物标的提问的情况下无法从所述多个物标中分离出所述预定的物标的程度；以及

生成机构(416、S205)，其基于由所述提取机构提取出的所述特征量和每个所述特征量的所述不纯度，以减少用于使所述不纯度最小化的提问次数的方式生成所述提问。

根据该实施方式，能够利用图像识别的特征量来生成高效的提问，从而对作为目标的物标进行推定。

2.在上述实施方式的信息处理装置中，所述提取机构使用图像识别模型对所述特征量进行提取(S203)，所述生成机构在所述特征量和所述不纯度的基础上，还基于使用所述图像识别模型提取出的所述特征量的可靠度以及权重，来生成以最短的形式使所述不纯度最小化的所述提问(S205)。

根据该实施方式，能够通过学习完毕的图像识别模型高效地进行特征量的提取，并且能够根据其可靠度、权重生成最佳的提问。

3.在上述实施方式的信息处理装置中，所述可靠度表示特征量值的可靠度，所述特征量值表示针对所述多个物标中的每一个物标而由所述图像识别模型提取出的特征量的值(图7)。另外，所述权重按每个特征量而设定为启发式或者基于机器学习来进行设定(图7)。

根据该实施方式，能够通过学习完毕的图像识别模型高效地进行特征量的提取，并且能够根据其可靠度、权重而生成最佳的提问，进一步地能够适当地设定各特征量的权重。

4.在上述实施方式的信息处理装置中，至少按照所述多个物标的集合所包含的所述预定的物标以外的数量、和基于所述特征量的权重和/或可靠度的惩罚中的任一项以上来获取所述不纯度(图7)。

根据该实施方式，能够在考虑到各特征量的可靠度、权重的同时导出不纯度，进行高效的提问生成。

5.在上述实施方式的信息处理装置中，还具备：发送机构(401、S301)，其将由所述生成机构生成的提问发送至所述用户所拥有的通信装置；接收机构(401、S302)，其从所述通信装置接收针对所述提问的回答；以及推定机构(417、S304)，其按照由所述接收机构接收到的回答，从所述多个物标中推定出所述预定的物标。

根据该实施方式，能够按照为了以最短的形式使不纯度最小化而生成的提问，高效地对用户等物标进行推定。

6.在上述实施方式的信息处理装置中，所述获取机构从所述用户所拥有的通信装置获取位置信息，并从外部获取对该位置信息的周边进行拍摄而得到的拍摄图像(401、413)。

根据该实施方式，能够确定用户的大致位置，进一步地将其周边的拍摄图像用于提问生成。

7.在上述实施方式的信息处理装置中，所述获取机构从所述用户请求汇合的车辆获取该车辆所拍摄到的图像(15～17、S201)。

根据该实施方式，能够更准确地对物标进行推定，并与目标用户汇合。

8.在上述实施方式的信息处理装置中，所述获取机构从设置在所述位置信息的周边的相机获取由该相机拍摄到的拍摄图像。

根据该实施方式，即使在车辆不具有拍摄功能的情况下，也能够获取目标用户的周边的图像。

9.在上述实施方式的信息处理装置中，所述特征量是指，在所述物标为人的情况下，表示附近的物体、衣服的颜色、衣服的种类、包的颜色、是否正在看着通信装置、以及是否戴着口罩的至少一项信息(图8)。另外，所述特征量是指所述物标的颜色、类别、显示于物标的文字以及图案中的至少一项信息。

根据该实施方式，能够基于各种特征量而高效地对物标(包含作为物标的用户)进行推定。

10.上述实施方式的移动体(例如，1210)具备：

获取机构(401)，其获取拍摄图像；

根据该实施方式，能够不经由服务器而在移动体中利用图像识别的特征量来生成高效的提问，从而对物标进行推定。

Claims

1.一种信息处理装置，其特征在于，

所述信息处理装置具备：

获取机构，其获取拍摄图像；

提取机构，其对所述拍摄图像所包含的多个物标进行检测，并针对检测出的所述多个物标中的每一个物标而提取出多个特征量；

计算机构，其针对由所述提取机构提取出的每个特征量而计算不纯度，所述不纯度表示在向用户进行了用于基于各个特征量而从所述多个物标中推定出预定的物标的提问的情况下无法从所述多个物标中分离出所述预定的物标的程度；以及

生成机构，其基于由所述提取机构提取出的所述特征量和每个所述特征量的所述不纯度，以减少用于使所述不纯度最小化的提问次数的方式生成所述提问。

2.根据权利要求1所述的信息处理装置，其特征在于，

所述提取机构使用图像识别模型对所述特征量进行提取，

所述生成机构在所述特征量和所述不纯度的基础上，还基于使用所述图像识别模型提取出的所述特征量的可靠度以及权重，来生成以最短的形式使所述不纯度最小化的所述提问。

3.根据权利要求2所述的信息处理装置，其特征在于，

所述可靠度表示特征量值的可靠度，所述特征量值表示针对所述多个物标中的每一个物标而由所述图像识别模型提取出的特征量的值。

4.根据权利要求2所述的信息处理装置，其特征在于，

所述权重按每个特征量而设定为启发式或者基于机器学习来进行设定。

5.根据权利要求2所述的信息处理装置，其特征在于，

至少按照所述多个物标的集合所包含的所述预定的物标以外的数量、和基于所述特征量的权重和/或可靠度的惩罚中的任一项以上来获取所述不纯度。

6.根据权利要求1所述的信息处理装置，其特征在于，

所述信息处理装置还具备：

发送机构，其将由所述生成机构生成的提问发送至所述用户所拥有的通信装置；

接收机构，其从所述通信装置接收针对所述提问的回答；以及

推定机构，其按照由所述接收机构接收到的回答，从所述多个物标中推定出所述预定的物标。

7.根据权利要求1所述的信息处理装置，其特征在于，

所述获取机构从所述用户所拥有的通信装置获取位置信息，并从外部获取对该位置信息的周边进行拍摄而得到的拍摄图像。

8.根据权利要求7所述的信息处理装置，其特征在于，

所述获取机构从所述用户请求汇合的车辆获取该车辆所拍摄到的图像。

9.根据权利要求7所述的信息处理装置，其特征在于，

所述获取机构从设置在所述位置信息的周边的相机获取由该相机拍摄到的拍摄图像。

10.根据权利要求1所述的信息处理装置，其特征在于，

所述特征量是指，在所述物标为人的情况下，表示附近的物体、衣服的颜色、衣服的种类、包的颜色、包的种类、是否正在看着通信装置、以及是否戴着口罩的至少一项信息。

11.根据权利要求1所述的信息处理装置，其特征在于，

所述特征量是指所述物标的颜色、类别、显示于物标的文字以及图案中的至少一项信息。

12.一种移动体，其特征在于，

所述移动体具备：

获取机构，其获取拍摄图像；

13.一种信息处理装置的控制方法，其特征在于，

所述信息处理装置的控制方法包含：

获取步骤，在所述获取步骤中，获取拍摄图像；

提取步骤，在所述提取步骤中，对所述拍摄图像所包含的多个物标进行检测，并针对检测出的所述多个物标中的每一个物标而提取出多个特征量；

计算步骤，在所述计算步骤中，针对在所述提取步骤中提取出的每个特征量而计算不纯度，所述不纯度表示在向用户进行了用于基于各个特征量而从所述多个物标中推定出预定的物标的提问的情况下无法从所述多个物标中分离出所述预定的物标的程度；以及

生成步骤，在所述生成步骤中，基于在所述提取步骤中提取出的所述特征量和每个所述特征量的所述不纯度，以减少用于使所述不纯度最小化的提问次数的方式生成所述提问。

14.一种移动体的控制方法，其特征在于，

所述移动体的控制方法包含：

获取步骤，在所述获取步骤中，获取拍摄图像；

15.一种存储介质，其特征在于，其存储有用于使信息处理装置的计算机作为以下机构而发挥功能的程序：

获取机构，其获取拍摄图像；

16.一种存储介质，其特征在于，其存储有用于使移动体的计算机作为以下机构而发挥功能的程序：

获取机构，其获取拍摄图像；