CN110781334A

CN110781334A - 信息处理设备和信息处理方法

Info

Publication number: CN110781334A
Application number: CN201910406037.7A
Authority: CN
Inventors: 西村和也
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-07-24
Filing date: 2019-05-16
Publication date: 2020-02-11
Anticipated expiration: 2039-05-16
Also published as: US10956754B2; JP2020017027A; CN110781334B; JP7095455B2; US20200034636A1

Abstract

本发明公开了一种信息处理设备和信息处理方法。该信息处理设备包括：第一获取单元，其被配置为获取多个拍摄图像以及所述多个拍摄图像的拍摄位置信息；提取单元，其被配置为从所述拍摄图像提取包含被预设为提取对象的对象的多个对象图像；聚类单元，其被配置为将所述对象图像聚类为多个簇；第二获取单元，其被配置为从地图信息获取所述对象图像的每个拍摄位置周围存在的至少一个设施的至少一个名称；以及付与单元，其被配置为将由所述第二获取单元针对所述对象图像获取的所述至少一个设施的所述至少一个名称之中满足付与条件的所述特定设施的所述特定名称的标签付与属于包含在所述多个簇中的目的簇的所述对象图像。

Description

信息处理设备和信息处理方法

技术领域

本发明涉及一种信息处理设备和信息处理方法。

背景技术

已知一种用于图像中的指定对象的图像识别的技术。在该技术中，通过使用具有多个对象的图像，其中该多个对象被付与了指示各个对象的标签，作为用于机器学习的学习数据来增强对象识别准确度。为了创建学习数据，需要对已知的对象图像进行标记。

作为向图像提供信息的技术，第2011-527527号PCT申请的公开日文翻译公开了一种技术，其在待附标签的物品上设置识别装置，并检测识别装置在通过拍摄物品获得的运动图像的每一帧中的位置，以便识别每一帧中附标签的物品的位置。

发明内容

通常，为了创建学习数据，用户从运动图像中提取多个对象图像，并执行所提取的对象图像的标注处理。在标注处理中，用户输入指示对象的标签，并将标签付与对象图像。随着用于学习数据的对象图像的数量变大，实现了更高的识别准确度。然而，创建大规模的学习数据需要很长时间。

本发明提供了一种可以减少创建学习数据所需的时间的信息处理设备和信息处理方法。

本发明的第一方案提供了一种信息处理设备。该信息处理设备包括：第一获取单元，其被配置为获取多个拍摄图像以及所述多个拍摄图像的拍摄位置信息；提取单元，其被配置为从所述拍摄图像提取包含被预设为提取对象的对象的多个对象图像；聚类单元，其被配置为将所述对象图像聚类为多个簇；第二获取单元，其被配置为从地图信息获取所述对象图像的每个拍摄位置周围存在的至少一个设施的至少一个名称；以及付与单元，其被配置为将由所述第二获取单元针对所述对象图像获取的所述至少一个设施的所述至少一个名称之中满足付与条件的所述特定设施的所述特定名称的标签付与属于包含在所述多个簇中的目的簇的所述对象图像。

根据该方案，能够缩短标签付与所需的时间。

在第一方案中，所述付与单元可配置为，在包含在所述多个簇中的所述目的簇中，不将所述标签付与不具有由所述第二获取单元获取的所述特定设施的所述特定名称的所述对象图像。

在第一方案中，所述第二获取单元可配置为获取从所述对象图像的所述拍摄位置起预定距离内存在的至少一个设施的至少一个名称，作为所述至少一个设施的所述至少一个名称。

在第一方案中，所述付与单元可配置为，在所述目的簇中，当所述至少一个设施的所述至少一个名称都不满足所述付与条件时，对属于所述目的簇的所述对象图像再次聚类。

在第一方案中，所述付与条件可包括：所述目的簇中的由所述第二获取单元获取的所述至少一个设施的所述至少一个名称的数量与属于所述目的簇的所述对象图像的数量的比率大于或等于预定的参考值。

本发明的第二方案提供了一种信息处理方法。所述信息处理方法包括：获取多个拍摄图像以及所述多个拍摄图像的拍摄位置信息；从所述拍摄图像提取包含被预设为提取对象的对象的多个对象图像；将所述对象图像聚类为多个簇；从地图信息获取所述对象图像的每个拍摄位置周围存在的至少一个设施的至少一个名称；以及将针对所述对象图像获取的所述至少一个设施的所述至少一个名称之中满足付与条件的所述特定设施的所述特定名称的标签付与属于包含在所述多个簇中的目的簇的所述对象图像。

根据上述方案，能够缩短用于创建学习数据的所需的时间。

附图说明

下面将参照附图描述本发明的示例性实施例的特征、优势以及技术和工业意义，其中相同的附图标记表示相同的元件，并且其中：

图1是示出根据第一实施例的车辆系统的配置的框图；

图2是图1的车载装置的框图；

图3是图1的服务器设备的框图；

图4示出了由图3的聚类单元进行聚类的多个图像的示例；

图5示出了将标签付与图4的一些图像的状态的示例；

图6是示出图3的服务器设备中的图像提取处理的流程图；

图7是示出图3的服务器设备中的标记处理的流程图；以及

图8是示出第二实施例的服务器设备中的标记处理的流程图。

具体实施方式

第一实施例

图1是示出根据第一实施例的车辆系统1的配置的框图。车辆系统1包括多个车载装置10和服务器设备12。在图1中，在车载装置10中，图示出了三个车载装置10。

车载装置10安装在车辆14上。车载装置10执行与服务器设备12的无线通信。车载装置10可以通过未图示出的基站执行与服务器设备12的无线通信。

每个车载装置10顺序地将由车载相机拍摄的拍摄图像传送到服务器设备12。该拍摄图像是外部图像，诸如本车辆前面的图像。

例如，布置在数据中心中的服务器设备12用作处理从车辆14的车载装置10传送的多个拍摄图像的信息处理设备。如稍后描述的，服务器设备12从拍摄图像中提取被设定为提取对象的对象的图像，付与标签以在所提取的对象图像中标记目标图像，并创建包含被付与了标签的多个对象图像的学习数据。与设施有关的对象包括设施的标识牌和设施的建筑物。设施被包含在地图信息中。该设施包括商店。标签包括设施名称。在下文中，假定商店的标识牌作为对象，并且假定标签包括商店名称。

服务器设备12通过使用创建的学习数据来进行机器学习，以便优化用于识别对象的图像的图像识别逻辑，从而增强对象的识别准确度。例如，通过使用在各种拍摄时间、各种拍摄地点、各种天气下由多个车辆拍摄的对象图像来学习某一商店名称的标识牌。于是，即使当对象图像的亮度或颜色根据天气或时间段而不同时，也可以增强特定商店名称的标识牌的识别准确度。图像识别逻辑可以用公知的技术(诸如神经网络)构建。学习和优化的图像识别逻辑通过无线通信、有线通信、记录介质等提供给车载装置10。

车载装置10通过使用所提供的图像识别逻辑从用相机拍摄的拍摄图像识别对象的图像。对象的图像识别的结果可用于各种应用目的。例如，当识别了商店名称“书店AA”的标识牌的图像时，导航系统可以提供路线引导，诸如“在带有‘书店AA’的标识牌的下一个交叉路口处右转”。在该示例中，可以进行更加用户友好的路线引导。

图2是图1的车载装置10的框图。车载装置10包括相机20、位置信息获取单元22、处理单元24和通信单元26。

相机20布置在本车辆中以连续拍摄外部图像。多个拍摄图像构成动态图像。也就是说，拍摄图像是也可以称为帧的静态图像。拍摄时间附加在拍摄图像上。相机20将拍摄图像顺序地输出到处理单元24。

位置信息获取单元22周期性地获取关于本车辆的位置的信息，并将位置信息输出到处理单元24。例如，从未示出的GPS接收器获取位置信息。获取的时间附加在该位置信息上。

处理单元24基于从相机20输出的拍摄图像和从位置信息获取单元22输出的位置信息来导出拍摄图像的拍摄位置，并且将关于所导出的拍摄位置的信息附加到相应的拍摄图像上。例如，处理单元24导出在最接近拍摄图像的拍摄时间的时间获取的位置信息作为拍摄图像的拍摄位置。

当已经在车载装置10中获取了学习的图像识别逻辑时，处理单元24识别拍摄图像中的对象的图像。当通过图像识别而识别出对象存在于拍摄图像中时，处理单元24附加指示对象的区域是已知对象的区域的已知对象信息。处理单元24向通信单元26输出至少附加有拍摄位置信息的拍摄图像。

通信单元26进行与服务器设备12的无线通信。通信单元26将从处理单元24输出的拍摄图像周期性地传送到服务器设备12。传送拍摄图像的频率可以通过实验等适当地确定。

图3是图1的服务器设备12的框图。服务器设备12包括通信单元30、处理单元32、第一存储单元34、第二存储单元36和地图信息存储单元38。处理单元32具有第一获取单元40、提取单元42、聚类单元44、第二获取单元46和付与单元48。

处理单元32的配置在硬件方面可以由任何计算机的CPU、存储器或其他LSI实现，并且在软件方面可以由加载到存储器的程序等来实现。图3中所描述的是通过硬件和软件的协作实现的功能块。因此，本领域技术人员应当理解，这些功能块可以以各种形式实现，诸如仅通过硬件、仅通过软件、或硬件和软件的组合。

通信单元30从每个车辆14的车载装置10接收多个拍摄图像。通信单元30将拍摄图像输出到第一获取单元40。第一获取单元40获取从通信单元30输出的拍摄图像以及拍摄位置信息。当已知对象信息附加到拍摄图像时，第一获取单元40还获取已知对象信息。

提取单元42从由第一获取单元40获取的拍摄图像提取被设定为提取对象的对象的图像，并将提取的对象图像存储在第一存储单元34中。拍摄图像的原始拍摄时间也附加在对象图像上。

具体地，提取单元42逐像素地对每个拍摄图像付与标签，并将每个拍摄图像划分成被设定为划分目标的多个区域。该处理也可以称为每个拍摄图像的分割。每个拍摄图像被划分成区域，例如，诸如对象的区域、天空的区域、道路的区域、车辆的区域和人的区域。对象的区域可以例如被识别为标识牌的区域。然而，没有识别出该区域代表哪个标识牌，并且各种标识牌被识别为该标识牌的区域。提取单元42的功能可以通过使用诸如SegNet的公知的技术来实现。

当在每个拍摄图像中存在对象的区域时，除非该对象的区域是已知对象的区域，否则提取单元42提取该对象的区域作为对象图像。通过提取对象的区域，可以减少数据量。

当在每个拍摄图像中不存在对象的区域，或者对象的区域是已知对象区域的区域时，提取单元42不提取该对象图像。例如，当存在标识牌图像但该标识牌的图像是已经可识别为某个商店名称的商店的标识牌时，提取单元42不提取该对象图像。由于可以排除对象的已经可辨认图像，因此可以减少处理负荷。

当已知对象信息被附加到拍摄图像时，提取单元42判定由已知对象信息指示的对象的区域是已知对象的区域。或者，当利用学习的图像识别逻辑识别拍摄图像并由此识别出存在对象的区域时，提取单元42可判定该对象的区域是已知对象的区域。

每当满足开始条件时，聚类单元44基于图像的特征值对存储在第一存储单元34中的对象图像进行聚类。该开始条件是在前次的聚类之后经过规定的时间段。当尚未实现第一次聚类时，该开始条件是在开始获取拍摄图像之后经过规定的时间段。该开始条件还可以是在第一存储单元34中存储了规定量的对象图像。

可以使用诸如k-means的公知的技术来进行聚类。特征值相似的对象图像属于所获得的簇中的每个簇。因此，一个簇中的对象图像彼此相似。

第二获取单元46从存储在地图信息存储单元38中的地图信息获取存储在第一存储单元34中的各个对象图像的拍摄位置周围的设施的名称。第二获取单元46获取距每个对象图像的拍摄位置规定距离内的一个或多个设施的名称。因此，即使当在标识牌附近存在与标识牌无关的设施时，也获取由标识牌表示的商店名称，从而可以增强能够将标签付与对象图像的概率。该规定距离可以通过实验等适当地确定。

每当进行聚类时，对于每个簇，付与单元48将由第二获取单元46获取的用于属于相关簇的目标图像的设施名称中的、满足付与条件的一个设施名称的标签付与属于该相关簇的对象图像。该付与条件是由第二获取单元46获取的设施名称的数量与属于该簇的对象图像的总数的比率等于或大于参考值。参考值可以通过实验等适当地确定。当该参考值被设定为50％以上时，可以将簇中数量最大的设施名称付与对象图像。

对于每个簇，付与单元48不对将标签付与不具有满足付与条件的设施名称的对象图像，该设施名称由第二获取单元46获取。

付与单元48在第二存储单元36中存储被付与了标签的对象图像。存储在第二存储单元36中的对象图像构成上述学习数据。付与单元48从第一存储单元34中删除被付与了标签的对象图像。由于未被付与标签的对象图像保留在第一存储单元34中，可能在下一次聚类中将标签付与它们。

图4示出了由图3的聚类单元44聚类的多个图像的示例。诸如图像P5、P11、P1100的对象图像属于簇C1。诸如图像P10、P90、P1205的对象图像属于簇C10。省略了其他簇的图示。

图5示出了将标签付与图4的一些图像的状态的示例。例如，假定获取拍摄位置a1周围的设施的名称“书店AA”和“便利店XXX”用于簇C1的图像P5、P1100。假定获取拍摄位置a50周围的设施的名称“文具店BB”用于图像P11。假定在簇C1中由第二获取单元46获取的设施名称之中判定设施名称“书店AA”满足付与条件的情况。在这种情况下，包括设施名称“书店AA”的标签L1被付与诸如图像P5、P1100的图像，如图5中所示，为图像P5、P1100获取了设施名称“书店AA”。标签L1不被付与诸如图像P11的图像，作为满足付与条件的设施名称的设施名称“书店AA”未被获取用于图像P11。也就是说，当设施名称“文具店BB”未被判定为满足付与条件时，不需要对图像P11进行标签付与。

例如，还假定获取拍摄位置a11周围的设施的名称“书店C”用于簇C10的图像P10，获取拍摄地点a5周围的设施的名称“YY餐厅”和“药店D”用于图像P90，并且获取拍摄地点a108周围的设施的名称“咖啡馆Z”用于图像P1205。当在簇C10中不存在满足付与条件的设施名称时，不对簇C10中的图像付与标签。在这种情况下，簇C10的聚类可能是不合适的。

当在前次聚类之后再度满足开始条件时，聚类单元44对存储在第一存储单元34中的对象图像聚类。在这种情况下，第一存储单元34存储前次聚类中未被付与标签的对象图像，以及在前次聚类之后由提取单元42新提取对象图像。也就是说，当针对属于某个簇的对象图像获取的所有设施名称不满足付与条件时，聚类单元44对属于该簇的对象图像再次聚类。从而，当某个簇的所有对象图像未被标记时，可以进行对象图像的适当的再次聚类，这可以增加被付与标签的对象图像的数量。

聚类单元44可以通过排除在当前时间之前的固定时间或更早前拍摄的对象图像来对对象图像聚类。该固定时间可以通过实验等适当地确定。例如，可以确定固定时间使得对象图像可以多次被再次聚类。这使得可以排除在固定时间以上未被付与标签的对象图像，从而减少处理负荷。提取单元42可以从第一存储单元34删除在当前时间之前的固定时间或更早前拍摄的对象图像。

现在描述具有上述配置的服务器设备12的整体操作。图6是示出图3的服务器设备12中的图像提取处理的流程图。提取单元42从第一获取单元40获取一个拍摄图像(S10)，并将拍摄图像划分为多个区域(S12)。当存在对象的区域(S14中为是)，并且该对象不是已知对象(S16中为否)时，提取单元42提取该对象的区域，将该对象的区域存储在第一存储单元34中(S18)，然后返回到步骤10。当没有对象的区域(S14中为否)时，提取单元42返回到步骤10。当该对象是已知对象(S16中为是)时，提取单元42返回步骤10。

图7是示出图3的服务器设备12中的标记处理(标注处理)的流程图。图7的处理与图6的处理并行进行。当不满足开始条件(S30中为否)时，该处理返回到步骤30。当满足开始条件(S30中为是)时，聚类单元44对对象图像聚类(S32)，并且第二获取单元46获取该对象图像的每个拍摄位置周围的设施的名称(S34)。步骤32、34的处理顺序可以颠倒。

付与单元48设定判定目标簇(S36)。当存在满足关于所设定的簇的付与条件的任何设施名称(S38中为是)时，付与单元48将标签付与该对象图像(S40)。当完成所有簇中的判定(S42中为是)时，该处理返回到步骤30。当在步骤42中没有完成所有簇中的判定(S42中为否)时，该处理返回到步骤36。当在步骤38中没有满足付与条件的设施名称(S38中为否)时，该处理转向步骤42。

根据本实施例，对象图像从拍摄图像中提取并将被划分成簇。基于对象图像的拍摄位置周围的设施的名称而将标签付与每个簇中的对象图像。因此，可以缩短标签付与所需的时间。由此，可以缩短创建学习数据所需的时间。由于用户不需要进行标签付与，因此容易创建大规模学习数据。

由于没有将标签付与在每个簇中不具有满足付与条件的设施名称的对象图像，因此可以增加标签付与准确度。

第二实施例

第二实施例与第一实施例的不同之处在于，使用名称已知的已知对象的图像向对象图像付与标签。在下文中，主要描述本实施例与第一实施例之间的不同点。

除了车载装置10不包括图2的位置信息获取单元22之外，车载装置10具有与图2的配置相同的配置。第二实施例与第一实施例的不同之处在于处理单元24不使用关于拍摄图像的拍摄位置的信息，从而不进行导出拍摄图像的拍摄位置并将位置附加到拍摄图像的处理。

除了服务器设备12不包括图3的地图信息存储单元38之外，服务器设备12具有与图3的配置相同的配置。第二获取单元46、聚类单元44和付与单元48的功能与第一实施例不同。

第二获取单元46获取名称已知的已知对象的图像以及该名称。第二获取单元46响应于服务器设备12的操作者进行的操作，通过因特网从Web图像中搜索期望被付与标签的已知对象的图像，并且获取该图像。操作者可以用散列(hash)标签搜索已知对象的图像。已知对象的图像的数量是一个以上。随着数量越大，愈加增强标签付与准确度。例如，在期望提供设施名称“书店AA”的标签的情况下，可以在搜索引擎站点等中搜索并获取“书店AA”的标识牌的一个或多个图像。

每当满足开始条件时，聚类单元44基于图像的特征值对存储在第一存储单元34中的对象图像和由第二获取单元46获取的已知对象图像进行聚类。例如，当对“书店AA”的标识牌图像和多个未知的标识牌图像聚类时，该标识牌图像和与该标识牌图像类似的标识牌图像属于同一簇。此簇中的标识牌图像极有可能是“书店AA”的标识牌图像。

付与单元48将已知对象图像的标签付与属于与已知对象图像的簇相同的簇的对象图像。

图8是示出第二实施例的服务器设备12中的标记处理的流程图。与图7的步骤相同的步骤由相同的附图标记表示，以适当地省略其描述。当满足开始条件(S30中为是)时，第二获取单元46获取已知对象的图像(S52)，并且聚类单元44对已知对象的图像和对象图像聚类(S54)。

付与单元48设定判定目标簇(S36)。当任何已知对象图像在设定的簇中(S58中为是)时，将已知对象图像的标签付与簇中的对象图像(S40)。当在设定的簇中没有已知对象图像(S58中为否)时，该处理转向步骤42。

根据该实施例，可以缩短创建学习数据所需的时间。由于不使用拍摄位置信息，因此可以使对象图像的数据量小于第一实施例。

已经基于实施例描述了本发明。由于实施例仅是说明性的，本领域技术人员应理解，对各个组成构件和处理过程的组合的各种修改是可能的，并且这些修改在本发明的范围内。

已经基于付与单元48不将标签付与不具有满足付与条件的设施名称的对象图像的示例描述了第一实施例。然而，付与单元48可以将满足付与条件的设施名称的标签付与属于相关簇的所有对象图像。在该修改例中，可以简化处理。

在第一实施例中，车载装置10的相机20可以拍摄图像并且还测量到对象的距离。处理单元24可以基于测量的距离和本车辆的位置导出对象的位置，并且可以将关于对象的位置的信息附加到拍摄图像。服务器设备12的第二获取单元46可以从对象的位置获取规定距离内的一个以上设施的名称。在该变形例中，当从一个拍摄位置处的拍摄图像获取位置不同的多个对象的图像时，可以针对每个对象图像获取更适当的设施名称。

Claims

1.一种信息处理设备，其特征在于包括：

第一获取单元，其被配置为获取多个拍摄图像以及所述多个拍摄图像的拍摄位置信息；

提取单元，其被配置为从所述拍摄图像提取包含被预设为提取对象的对象的多个对象图像；

聚类单元，其被配置为将所述对象图像聚类为多个簇；

第二获取单元，其被配置为从地图信息获取所述对象图像的每个拍摄位置周围存在的至少一个设施的至少一个名称；以及

付与单元，其被配置为将由所述第二获取单元针对所述对象图像获取的所述至少一个设施的所述至少一个名称之中满足付与条件的所述特定设施的所述特定名称的标签付与属于包含在所述多个簇中的目的簇的所述对象图像。

2.根据权利要求1所述的信息处理设备，其特征在于

所述付与单元被配置为，在包含在所述多个簇中的所述目的簇中，不将所述标签付与不具有由所述第二获取单元获取的所述特定设施的所述特定名称的所述对象图像。

3.根据权利要求1或2所述的信息处理设备，其特征在于

所述第二获取单元被配置为获取从所述对象图像的所述拍摄位置起预定距离内存在的至少一个设施的至少一个名称，作为所述至少一个设施的所述至少一个名称。

4.根据权利要求1至3中任一项所述的信息处理设备，其特征在于

所述聚类单元被配置为，在所述目的簇中，当所述至少一个设施的所述至少一个名称都不满足所述付与条件时，对属于所述目的簇的所述对象图像再次聚类。

5.根据权利要求1所述的信息处理设备，其特征在于

所述付与条件包括：所述目的簇中的由所述第二获取单元获取的所述至少一个设施的所述至少一个名称的数量与属于所述目的簇的所述对象图像的数量的比率大于或等于预定的参考值。

6.一种信息处理方法，其特征在于包括：

获取多个拍摄图像以及所述多个拍摄图像的拍摄位置信息；

从所述拍摄图像提取包含被预设为提取对象的对象的多个对象图像；

将所述对象图像聚类为多个簇；

从地图信息获取所述对象图像的每个拍摄位置周围存在的至少一个设施的至少一个名称；以及

将针对所述对象图像获取的所述至少一个设施的所述至少一个名称之中满足付与条件的所述特定设施的所述特定名称的标签付与属于包含在所述多个簇中的目的簇的所述对象图像。