CN108463821B

CN108463821B - 用于直接从图像识别实体的系统和方法

Info

Publication number: CN108463821B
Application number: CN201680079105.8A
Authority: CN
Inventors: Q.于; L.雅茨夫; Y.李; C.塞格德; S.C.阿诺德; M.C.史坦伯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-04-04
Filing date: 2016-12-08
Publication date: 2022-04-05
Anticipated expiration: 2036-12-08
Also published as: WO2017176325A1; CN108463821A; US10007867B2; US20170286805A1; EP3387559A1

Abstract

公开了识别实体的系统和方法。特别地，可以从多个图像中识别描绘实体的一个或多个图像。可以至少部分地基于描绘实体的一个或多个图像，从实体目录中确定一个或多个候选实体简档。可以提供该描绘实体的一个或多个图像和一个或多个候选实体简档作为对机器学习模型的输入。可以生成机器学习模型的一个或多个输出。每个输出可以包括与描绘实体的图像和至少一个候选实体简档相关联的匹配分数。可以至少部分地基于机器学习模型的一个或多个生成的输出来更新实体目录。

Description

用于直接从图像识别实体的系统和方法

技术领域

本公开一般涉及更新实体列表，并且更具体地涉及使用描绘实体的一个或多个图像来更新实体列表。

背景技术

地理信息系统一般包括与多个实体(例如，企业、餐馆、兴趣点、地标等)相关联的信息。例如，这种关联信息可以包括姓名、电话号码、定位、类别URL(uniform resourcelocator，统一资源定位符)、电子邮件地址、街道地址、营业时间、和/或与实体相关联的其它信息。这种信息可以存储在具有与一个或多个实体相关联的一个或多个实体简档的实体目录中。填充实体目录的传统技术可以包括将信息手动输入到实体简档中。

其它技术可以包括将描绘实体的一个或多个图像与对应的实体简档匹配，并且至少部分地基于与图像相关联的信息来填充实体简档。例如，可以对描绘实体的店面(storefront)的图像执行光学字符识别(optical character recognition，OCR)或其它技术，以确定与实体相关联的信息。然后可以至少部分地基于所确定的信息将实体与实体简档匹配。

这种OCR技术可能是不可靠的。例如，OCR图像可能包含一个或多个特征或缺陷，这些特征或缺陷导致不准确地转录图像中所描绘的文本。例如，图像可能包括店面的遮挡视图、模糊问题、缝合问题等。作为另一示例，店面可能包括难以使用OCR转录的标牌。例如，标牌可能拥挤或杂乱，或者标牌可能包括难以转录的“花式”字体。

发明内容

本公开的实施例的方面和优点将在以下描述中部分地阐述，或者可以从描述获知，或者可以通过实施例的实践来学习。

本公开的一个示例方面针对识别实体的计算机实施方法。该方法包括由一个或多个计算设备从多个图像识别描绘实体的一个或多个图像。该方法还包括由一个或多个计算设备至少部分地基于描绘实体的一个或多个图像从实体目录中确定一个或多个候选实体简档。该方法还包括由一个或多个计算设备提供描绘实体的一个或多个图像和一个或多个候选实体简档作为对机器学习模型的输入。该方法还包括由一个或多个计算设备生成机器学习模型的一个或多个输出。每个输出包括与描绘实体的图像和至少一个候选实体简档相关联的匹配分数。该方法还包括由一个或多个计算设备至少部分地基于机器学习模型的一个或多个生成的输出来更新实体目录。

本文描述的方法提供了用图像数据填充实体目录的增强装置，并且可以帮助克服当使用传统装置实现目标时遇到的问题。使用机器学习模型可以，例如，消除对数据的手动输入的需要，并且还有助于将图像或图像对象识别为与不同实体相关联，其中如果使用OCR技术作为将图像与特定实体匹配的唯一手段，则这种关联不一定显而易见。因此，本文描述的方法可以允许输入更大范围的图像并将其用于填充目录。

本公开的其它示例方面针对用于识别实体的系统、装置、有形、非暂时性计算机可读介质、用户界面、存储器设备、和电子设备。

参考以下描述和所附权利要求，将更好地理解各种实施例的这些和其它特征、方面、和优点。并入本说明书中并构成其部分的附图示出了本公开的实施例，并且与说明书一起用于解释相关原理。

附图说明

在说明书中参考附图阐述了针对本领域普通技术人员的实施例的详细讨论，其中：

图1描绘了根据本公开的示例实施例的示例机器学习网络。

图2描绘了根据本公开的示例实施例的示例图像和由图像描绘的检测到的实体。

图3描绘了根据本公开的示例实施例的示例机器学习网络。

图4描绘了根据本公开的示例实施例的描绘实体和与实体相关联的示例匹配分数的示例图像。

图5描绘了根据本公开的示例实施例的确定实体与实体简档之间的匹配分数的示例方法的流程图。

图6描绘了根据本公开的示例实施例的确定实体与实体简档之间的匹配的示例方法的流程图。

图7描绘了根据本公开的示例实施例的示例系统。

具体实施方式

现在将详细参考实施例，实施例的一个或多个示例在附图中示出。通过实施例的解释而不是本公开的限制的方式来提供每个示例。实际上，对于本领域技术人员显而易见的是，可以对实施例做出各种修改和变化，而不脱离本公开的范围或精神。例如，作为一个实施例的部分示出或描述的特征可以与另一实施例一起使用以产生又一实施例。因此，意图是本公开的方面涵盖这种修改和变化。

本公开的示例方面针对将实体的图像与对应的实体简档匹配。特别地，可以从多个图像识别描绘实体(例如，企业)的一个或多个图像。然后可以至少部分地基于描绘实体的一个或多个图像来确定一个或多个候选实体简档。可以提供一个或多个图像和一个或多个候选实体简档作为对机器学习模型的输入，以确定在一个或多个图像中描绘的实体与候选实体简档之间的匹配。例如，该模型可以输出一个或多个匹配分数，该匹配分数指示一个或多个图像中描绘的实体与(多个)候选实体简档匹配的置信度。以这种方式，如果对应的匹配分数大于匹配阈值，则可以在图像中描绘的实体与实体简档之间找到匹配。

更具体地，多个图像可以是描绘各种街景的街道级图像。在一些实施方式中，多个图像可以包括全景街道级图像或以其它方式与全景街道级图像相关联。来自多个图像的一个或多个图像可以描绘实体，诸如企业、机构、地标、兴趣点(point of interest，POI)、或与地理定位相关联的其它对象或事件。例如，图像可以描绘实体的店面。可以例如通过检测图像内描绘的实体来识别这种描绘实体的图像。在一些实施方式中，可以围绕图像中描绘的实体创建一个或多个边界框，使得识别描绘实体的图像的部分。

在一些实施方式中，实体目录可以用于存储与多个实体相关联的信息。例如，实体目录可以包括每个实体的实体简档。实体简档可以包括指定与实体相关联的一个或多个特性的结构化的信息。该特性可以包括，例如，实体名称、电话号码、URL、定位信息(例如纬度、经度坐标)、类别、和/或与实体相关联的各种其它合适的特性。在一些实施方式中，实体目录可以存储在位于一个或多个远程计算设备(例如，服务器)处的一个或多个数据库中。

如所指示的，一旦识别出描绘实体的一个或多个图像，就可以至少部分地基于一个或多个图像确定实体的一个或多个候选实体简档。例如，在一些实施方式中，描绘实体的一个或多个图像可以具有指示实体的定位的关联定位数据(例如，地理定位)和/或捕获描绘实体的图像的图像捕获设备。一个或多个候选实体简档可以包括来自实体目录的实体简档，实体简档具有在与一个或多个图像相关联的地理定位的阈值距离内的关联定位数据。例如，候选实体简档可以包括每个实体简档，每个实体简档指定对应于与一个或多个图像相关联的地理定位的约250米内的实体的定位数据。如本文所用，术语“约”，当与数值结合使用时，意指在数值的40％内。应当理解，在不脱离本公开的范围的情况下，可以使用各种其它合适的距离阈值。

可以提供描绘实体的一个或多个图像和候选实体简档作为对机器学习模型的输入。例如，机器学习模型可以是神经网络模型，诸如深度神经网络模型和/或卷积神经网络模型。在一些实施方式中，机器学习模型可以包括各种其它合适的模型，诸如递归神经网络(例如，长短期记忆(long short-termmemory，LSTM)网络、和/或卷积LSTM网络)、或其它合适的模型。机器学习模型可以至少部分地基于描绘实体的图像和(多个)实体简档来生成一个或多个输出。特别地，模型的输出可以包括在一个或多个图像中描绘的实体和候选实体简档的匹配分数。匹配分数可以指示候选实体简档与一个或多个图像中描绘的实体相对应的置信度。在一些实施方式中，可以在将图像和/或实体简档输入到机器学习模型中之前确定匹配分数而无需确定与图像相关联的其它信息。

如所指示的，在一些实施方式中，机器学习模型可以包括深度卷积神经网络(convolutional neural network，CNN)。例如，CNN可以被配置为从描绘实体的(多个)图像提取一个或多个特征。CNN可以包括位于一个或多个层中的多个互连的运营商或节点。每个节点可以被配置为接收一个或多个输入，至少部分地基于该输入执行一个或多个计算，并生成输出。在一些实例中，节点可以被配置为将节点的输出提供给一个或多个附加节点，使得附加节点接收这样的输出作为输入。

在一些实施方式中，机器学习模型还可以包括LSTM或其它递归神经网络，诸如卷积LSTM。在这样的实施方式中，CNN可以被配置为接收指示一个或多个图像的数据作为输入，并且LSTM可以被配置为接收指示(多个)候选实体简档的数据。特别地，CNN可以被配置为从图像提取特征，而LSTM可以被配置为从(多个)候选实体简档获得文本相关信息。CNN还可以被配置为向LSTM提供指示所提取的特征的数据。LSTM可以将来自候选实体简档的结构化信息的至少部分建模为字符序列，使得可以确定一个或多个图像的所提取的特征与来自候选实体简档的数据之间的匹配分数。

在一些实施方式中，在将图像和实体简档输入到机器学习模型中之前，可以确定机器学习模型的(多个)输出(例如，匹配分数)，而无需明确地转录描绘实体的图像中描绘的文本和/或确定与图像相关联的其它合适的信息。例如，CNN可以被配置为从(多个)图像提取特征而不转录例如位于(多个)图像中描绘的店面标牌上的文本。以这种方式，可以在提取的图像特征与来自实体简档的数据之间确定匹配分数，而不是从(多个)图像中描绘的文本的转录来确定匹配分数。

可以使用多个训练图像和与图像相关联的验证信息(例如训练数据)来训练机器学习模型，产生训练模型。例如，可以使用主成分分析技术、随机梯度下降技术、和/或各种其它合适的训练技术来训练模型。例如，训练模型可以包括将训练数据提供给模型作为输入，并将由模型生成的输出与目标输出比较。该比较可用于调整或以其它方式调谐模型，以最小化或减小所生成的输出与目标输出之间的差异。例如，在一些实施方式中，可以(例如，通过与模型相关联的计算系统)自动调整模型。可替代地，可以由操作员(operator)或用户手动调整模型。在一些实施方式中，可以以迭代方式逐渐调整模型。

在一些实施方式中，机器学习模型可以包括多个LSTM网络以及单个CNN。例如，在一些实施方式中，机器学习模型可以包括十个LSTM网络以及单个CNN。应当理解，可以使用其它数量的LSTM网络。多个LSTM网络可以被配置为同时确定图像中描绘的实体与多个实体简档之间的匹配分数。以这种方式，可以向每个LSTM网络提供指示不同实体简档的数据。CNN可以从描绘实体的一个或多个图像提取特征，并向每个LSTM网络提供指示所提取的特征的数据。然后每个LSTM网络可以被配置为以并行方式确定各个实体简档与(多个)图像中描绘的实体之间的匹配分数。这种网络架构可以通过允许同时确定多个匹配分数来加速训练和/或操作机器学习模型。

可以将匹配分数与匹配阈值比较，以确定实体简档是否与图像中描绘的实体匹配。例如，如果匹配分数大于匹配阈值，则可以在实体简档与图像中描绘的实体之间找到匹配。相反，如果匹配分数小于匹配阈值，则不会找到匹配。如果找到匹配，则可以至少部分地基于描绘实体的图像来验证和/或更新实体目录。例如，可以将与图像中描绘的实体匹配的实体简档与定位信息或与图像相关联的其它信息比较。如果来自图像的定位信息与来自实体简档的定位信息相同，则可以验证实体简档。作为另一示例，如果来自图像的定位信息不同于来自实体简档的定位信息，则可以更新实体简档以用与图像相关联的定位替换当前定位信息。作为又一示例，当找到匹配时，描绘实体的一个或多个图像可以与实体简档相关联。

在一些实施方式中，如果在候选实体简档中的任一候选实体简挡与(多个)图像中描绘的实体之间均未找到匹配，则可以为实体创建新的实体简档。特别地，与任一候选实体简档均不匹配的实体可以指示该实体在实体目录中没有关联的实体简档。以这种方式，描绘实体的一个或多个图像和/或与一个或多个图像相关联的信息(例如，定位信息)可用于创建实体简档。

在一些实施方式中，实体目录可以与地理信息系统或其它系统相关联。例如，实体目录可以用于响应于对这种信息的请求，向用户设备提供与实体或其它地理定位相关联的信息。特别地，用户可以通过与用户设备的一个或多个交互来请求与实体相关联的信息。用户设备可以向托管(host)实体目录或以其它方式与实体目录相关联的远程计算设备(例如，服务器)提供对与实体相关联的信息的请求。服务器可以从实体目录访问对应于实体的实体简档，检索所请求信息的至少部分，并将所请求信息的至少部分提供给用户设备。

现在参考附图，将更详细地讨论本公开的示例方面。例如，图1描绘了根据本公开的示例实施例的示例机器学习模型100。特别地，模型100包括卷积神经网络(CNN)102、长短期记忆(LSTM)网络104和分类器106。在一些实施方式中，分类器106可以对应于逻辑回归网络或其它分类器。CNN102可以包括输入层、输出层、和一个或多个隐藏层。每个层可以包括一个或多个节点或运算符。每个节点可以连接到至少一个其它层中的一个或多个节点。在一些实施方案中，CNN 102可以包括一个或多个堆叠卷积层。

如上指示，CNN 102可以被配置为接收图像数据108。具体地，图像数据108可以包括指示描绘实体的一个或多个图像的数据。在一些实施方式中，一个或多个图像可以与描绘街景的全景街道级图像相关联。可以识别描绘实体的一个或多个图像或图像部分。例如，图2描绘了根据本公开的示例实施例的具有检测到的实体的示例图像112。如所示，图像112是描绘沿街景的实体114、116、118、120、和122的街道级图像。特别地，图像112描绘了实体114-122的店面。在一些实施方式中，当在图像112中检测到实体时，可以在实体周围放置边界框。例如，边界框124围绕图像112中的每个实体114-122。边界框124可以指定要提供给图1的CNN 102的图像部分的边界。例如，图像126描绘了描绘实体120的图像112的部分。

返回参考图1，图像数据108可以包括指示例如图像112或其它图像的编码数据。例如，图像数据108可以包括与图像112相关联的像素值的序列。如上所述，CNN 102可以被配置为从图像数据108提取多个特征并且向LSTM网络104提供指示所提取的特征的数据。LSTM网络104可以包括一个或多个LSTM节点而不是一个或多个其他节点，或者除了一个或多个其它节点之外还包括一个或多个LSTM节点。可以将LSTM节点配置为“记住”任意时间长度的值。

LSTM 104可以接收实体数据110作为输入。实体数据110可以是指示实体的实体简档的至少部分的数据。可以从存储实体目录的数据库获得实体数据110。实体目录可以包含多个实体简档，每个实体简档包含与不同实体相关联的信息。例如，实体简档可以包括诸如姓名、电话号码、URL、定位、类别、和/或与实体相关联的其它合适信息的信息。在一些实施方式中，实体数据110可以包括与一个或多个候选实体简档相关联的结构化数据。例如，一个或多个候选实体简档可以包括与位于与图像数据108相关联的实体的距离阈值内的实体相关联的实体简档。在一些实施方式中，可以通过至少部分地基于距离阈值过滤实体目录来识别和/或获得候选实体简档。

如所指示的，在一些实施方式中，实体数据110可以包括来自(多个)候选实体简档的数据的部分。例如，实体数据110可以仅包括指示实体名称的数据。作为另一示例，实体数据110可以包括指示实体的名称、类别、和电话号码的数据。应当理解，可以使用实体简档数据的各种合适组合而不偏离本公开的范围。

LSTM 104可以被配置为获得或捕获与实体数据110相关联的文本相关数据。特别地，LSTM 104可以被配置为将与实体数据110相关联的结构化信息的至少部分建模为字符序列。在一些实施方式中，LSTM 104还可以被配置为将与图像数据108相关联的所提取的特征和与实体数据110相关联的文本相关数据提供给分类器106。分类器106可以被配置为确定与图像数据108相关联的实体、和与实体数据110相关联的实体简档之间的匹配分数。匹配分数可以是置信值，其指定与图像数据108相关联的实体和与实体数据110相关联的实体是同一实体的可能性。

应当理解，机器学习模型100可以包括各种其它合适的实施方式而不偏离本公开的范围。例如，在一些实施方式中，LSTM 104可以是卷积LSTM网络。作为另一示例，机器学习模型100还可以包括在LSTM 104之前的嵌入层，嵌入层被配置为将实体数据110的至少部分映射到连续向量空间中。作为又一示例，机器学习模型100可以包括被配置为并行地确定多个匹配分数的多个LSTM网络。

例如，图3描绘了根据本公开的示例实施例的机器学习模型200。机器学习模型200包括CNN 202和LSTM网络204、206、和208。在一些实施方式中，CNN 202可以对应于图1的CNN102，并且每个LSTM网络204-208可以对应于图1的LSTM网络104。CNN 202可以接收图像数据210作为输入，并且LSTM网络204-208可以接收实体数据212、214、和216作为输入。特别地，LSTM 204可以接收实体1数据212，LSTM 206可以接收实体2数据214，并且LSTM 208可以接收实体3数据216。在一些实施方式中，实体数据212包括与第一实体简档相关联的实体数据，实体数据214可以包括与第二实体简档相关联的实体数据，并且实体数据216可以包括与第三实体简档相关联的实体数据。应当理解，在不偏离本公开的范围的情况下，各种其它合适数量的LSTM网络可以包括在机器学习模型200中。

如上关于CNN 102所指示的，CNN 202可以被配置为从图像数据210提取特征。CNN202还可以被配置为向LSTM 204-208提供指示所提取的特征的数据。以这种方式，每个LSTM204-208可以从CNN 202接收相同的特征参数。然后LSTM 204-208可以被配置为获得与各个实体数据212-216相关联的文本相关数据，并向各个分类器218、220、和222提供指示所提取的特征的数据和文本相关数据，进而以并行方式确定与图像数据210相关联的实体和与实体数据212-216相关联的各个实体简档之间的匹配分数。如所指示的，这种具有多个LSTM网络的架构可以在训练和/或操作机器学习模型200中提供速度增加。

图4描绘了根据本公开的示例实施例的描绘实体302的示例图像300和多个候选实体简档304的示例匹配分数。如图所示，图像300是从街道级捕获，并描绘实体302的店面(例如，光学先生(Mr.Optics))。如上所述，图像300可以被编码，例如，作为像素值的表示，并且被提供作为对机器学习模型(例如，机器学习模型100)的输入。机器学习模型可以被配置为确定实体302与每个候选实体简档304之间的匹配分数。候选实体简档304可以包括与位于与图像300相关联的定位数据的阈值距离内的实体相关联的一个或多个实体简档。如所示，匹配分数可以是0与1之间的值，其中一个代表正匹配。应当理解，匹配分数可以以各种其它合适的方式表示，诸如百分比，或使用不同的比例。在一些实施方式中，可以将每个匹配分数与匹配阈值比较，以确定候选实体简档是否对应于实体302。如图4中所示，可以至少部分地基于对应的匹配分数对每个候选实体简档做出“适当”或“不适当”的确定。

图4描绘了实体302和与光学先生股份有限公司相关联的候选实体简档之间的匹配分数0.727。如所示，这种匹配分数可以指示实体302和与光学先生股份有限公司相关联的候选实体简档之间的“匹配”。在一些实施方式中，可以至少部分地基于图像300中描绘的文本的转录来确定匹配分数。例如，可以使用一种或多种光学字符识别技术来转录这种文本。在替代实施方式中，可以在不转录图像300中描绘的文本的情况下确定匹配分数。

在一些实例中，实体可以包括以“花式”或风格化字体书写的店面标牌。例如，实体302包括符号，其中单词“光学(optical)”中的“o”和“p”被风格化为位于人脸上的一副老花镜。机器学习模型可以被配置为提取与这种风格化相关联的特征并确定具有这种标识的实体的匹配分数。作为另一示例，描绘实体的图像可以描绘实体的被遮挡的视图，或者与全景图像相关联的图像可以包括由全景图像中的缝合错误引起的一个或多个未对准。机器学习模型可以在提取特征时考虑这种图像不一致和/或视图问题，从而可以确定准确的匹配分数。

图5描绘了根据本公开的示例实施例的在实体与一个或多个实体简档之间生成匹配分数的示例方法(400)的流程图。方法(400)可以由一个或多个计算设备实施，诸如图7中描绘的计算设备中的一个或多个。另外，图5描绘了出于说明和讨论的目的以特定顺序执行的步骤。使用本文提供的公开内容，本领域普通技术人员将理解，可以以各种方式适配、重新布置、扩展、省略、或修改本文所讨论的任一方法的步骤，而不偏离本公开的范围。

在(402)处，方法(400)可以包括使用多个训练数据训练机器学习模型。特别地，训练数据可以包括训练图像的集合和与图像相关联的对应实体数据。可以将训练图像和实体数据作为输入提供给机器学习模型。如上指示，机器学习模型可以基于训练图像和实体数据生成可以与目标输出比较的输出。然后可以至少部分地基于该比较以增量和/或迭代方式调整或调谐模型。在一些实施方式中，可以使用随机梯度下降技术或其它训练技术来训练模型。可以将模型训练到足够的程度，产生经训练的模型。

在(404)处，方法(400)可以包括识别描绘实体的一个或多个图像。例如，一个或多个图像可以是描绘各种街景的街道级图像。在一些实施方式中，图像可以是全景图像。识别描绘实体的图像可以包括检测图像内的实体。例如，可以使用一种或多种实体检测技术在图像中检测实体。在一些实施方式中，这种实体检测技术可以包括一种或多种基于神经网络的检测技术或其它合适的检测技术。例如，基于卷积神经网络的检测技术可以应用于全景图像内的一个或多个作物(crop)或区域，以确定与一个或多个实体相关联的边界框。

在一些实施方式中，可以识别描绘实体的一个或多个图像部分。例如，一旦在图像中检测到实体，就可以在检测到的实体周围放置边界框。边界框可以指定要作为对机器学习模型的输入提供的图像部分的边界。以这种方式，作为对机器学习模型的输入提供的图像和/或图像部分可以是标准尺寸和/或格式。

在(406)处，方法(400)可以包括从实体目录中确定一个或多个候选实体简档。例如，在一些实施方式中，可以至少部分地基于与一个或多个图像相关联的定位信息来确定候选实体简档。特别地，每个图像(例如，街道级图像)可以包括相关联的地理定位数据。在一些实施方式中，地理定位数据可以与图像和/或用于捕获图像的图像捕获设备相关联。例如，当捕获对应图像时，地理定位数据可以与图像捕获设备的姿势(例如，位置和/或方向)相关联。

可以将描绘实体的一个或多个图像的定位信息和与实体目录中的多个实体简档相关联的定位数据比较，以确定(多个)候选实体简档。在一些实施方式中，如果与实体简档相关联的实体位于与(多个)图像相关联的定位的阈值距离内，则可以选择该实体简档作为候选实体简档。例如，阈值距离可以实施为(多个)图像的定位周围的半径(例如，约100米、约250米、或其它半径)，并且一个或多个候选实体简档可以包括半径内具有关联定位数据的每个实体简档。以这种方式，候选实体简档可以是与实体目录相关联的多个实体简档的子集。

在(408)处，方法(400)可以包括提供指示(多个)图像的数据和指示(多个)候选实体简档的数据作为训练模型的输入。例如，如上指示，模型可以包括CNN和/或一个或多个LSTM网络。在一些实施方式中，指示图像的数据可以被提供作为对CNN的输入，并且指示实体简档的数据可以被提供给一个或多个LSTM网络。经训练的模型可以执行一个或多个计算以确定图像数据与实体数据之间的匹配分数。

在经训练的模型包括多个LSTM网络的实施方式中，每个LSTM网络可以接收指示不同实体简档的输入数据。例如，第一LSTM网络可以接收指示第一实体简档的输入数据，第二LSTM网络可以接收指示第二实体简档的输入数据等。以这种方式，经训练的模型可以以并行方式确定(多个)图像与多个实体简档之间的多个匹配分数。例如，CNN可以被配置为提取或确定与(多个)图像相关联的一个或多个特征，并向每个LSTM网络提供指示一个或多个特征的数据。每个LSTM网络可以被配置为将指示对应的实体简档的数据建模为字符序列，以确定(多个)图像与实体简档之间的匹配分数。在一些实施方式中，分类器可用于确定匹配分数。

在(410)处，方法(400)可以包括生成或确定(多个)图像中描绘的实体与(多个)候选实体简档之间的一个或多个匹配分数。如所指示的，可以以顺序方式确定匹配分数，或者可以并行地确定一个或多个匹配分数。(多个)匹配分数可以提供实体是否对应于(多个)候选实体简档的指示。例如，(多个)匹配分数可以提供(多个)图像描绘与实体简档中描述的实体相同的实体的置信度。在一些实施方式中，匹配分数可以是范围为0与1之间的分数。应当理解，可以使用其它合适的匹配分数。一旦确定了(多个)匹配分数，就可以至少部分地基于该(多个)匹配分数来更新实体目录。

例如，图6描绘了根据本公开的示例实施例的更新实体目录的示例方法(500)的流程图。方法(500)可以由一个或多个计算设备实施，诸如图7中描绘的一个或多个计算设备。另外，图6描绘了出于说明和讨论的目的以特定顺序执行的步骤。使用本文提供的公开内容，本领域普通技术人员将理解，可以以各种方式适配、重新布置、扩展、省略、或修改本文所讨论的任一方法的步骤，而不偏离本公开的范围。

在(502)处，方法(500)可以包括将(多个)匹配分数与匹配阈值比较。匹配阈值可以是匹配分数范围内的值(或值的范围)。可以将(多个)匹配分数与匹配阈值比较，以确定(多个)匹配分数是否指示(多个)图像中描绘的实体与实体简档之间的匹配。例如，如果匹配分数大于匹配阈值，则可以确定匹配。以这种方式，如果匹配分数大于匹配阈值，则方法(500)可以包括将实体与实体简档相关联(504)。

在(506)处，方法(500)可以包括至少部分地基于与(多个)图像中描绘的实体相关联的信息来更新实体简档。在一些实施方式中，更新实体简档可以包括用与(多个)图像相关联的定位(例如，三角测量定位)更新实体简档的定位，因为与(多个)图像相关联的定位信息通常比与实体简档相关联的定位信息(例如纬度、经度坐标)更准确。例如，在一些实施方式中，可以将与实体简档相关联的定位信息和与(多个)图像相关联的定位信息比较。如果定位匹配，则可以验证实体简档。如果定位不匹配，则可以修改实体简档以包括与(多个)图像相关联的定位。应当理解，描绘实体的(多个)图像可以具有与实体有关的其它关联信息，并且可以基于这种其它信息更新(例如，修改和/或验证)实体简档。

返回参考(502)，如果匹配分数不大于匹配阈值，则方法(500)可以包括确定是否已经评估了每个候选实体简档(508)。如果已经评估了每个候选实体简档，则方法(500)可以包括创建新的实体简档(510)。例如，图像中描绘的与任何候选实体简档不匹配的实体可以指示实体是新实体、和/或在实体目录中不具有对应实体简档的实体。以这种方式，一旦已经评估了所有候选实体简档，并且尚未找到匹配，就可以为(多个)图像中描绘的实体创建新的实体简档。

在一些实施方式中，可以使用与(多个)图像相关联的信息来填充新实体简档的至少部分。例如，可以将定位信息或与图像相关联的其它信息添加到实体简档。作为另一示例，可以将与由机器学习模型确定的一个或多个图像特征相关联的信息添加到实体简档。

返回参考(508)，如果尚未评估每个候选实体简档，则方法(500)可以包括返回到(502)。以这种方式，可以评估每个候选实体简档以确定潜在匹配。

图7描绘了可以用于实施根据本公开的示例方面的方法和系统的示例计算系统600。系统600可以使用客户端-服务器架构来实施，该客户端-服务器架构包括通过网络640与一个或多个客户端设备630通信的服务器610。系统600可以使用其它合适的架构来实施，诸如单个计算设备。

系统600包括服务器610，例如网络服务器。服务器610可以托管地理信息系统，诸如与地图服务相关联的地理信息系统。可以使用任何合适的(多个)计算设备来实施服务器610。服务器610可以具有一个或多个处理器612和一个或多个存储器设备614。服务器610还可以包括用于通过网络640与一个或多个客户端设备630通信的网络接口。网络接口可以包括用于与一个或多个网络交互的任何合适的组件，包括例如发送器、接收器、端口、控制器、天线、或其它合适的组件。

一个或多个处理器612可以包括任何合适的处理设备，诸如微处理器、微控制器、集成电路、逻辑设备、或其它合适的处理设备。一个或多个存储器设备614可以包括一个或多个计算机可读介质，包括但不限于，非暂时性计算机可读介质、RAM(random accessmemory，随机存取存储器)、ROM(read only memory，只读存储器)、硬盘驱动器、闪存驱动器、或其它存储器设备。一个或多个存储器设备614可以存储可由一个或多个处理器612访问的信息，包括可以由一个或多个处理器612运行的计算机可读指令616。指令616可以是当由一个或多个处理器612运行时引起一个或多个处理器612执行操作的指令的任何集合。例如，指令616可以由一个或多个处理器612运行以实施模型训练器620、实体匹配器622、简档管理器624、和/或实体检测器626。根据本公开的示例实施例，模型训练器620可以被配置为使用训练数据的集合训练一个或多个机器学习网络模型。根据本公开的示例实施例，实体匹配器622可以被配置为确定一个或多个候选实体简档与一个或多个图像中描绘的实体之间的匹配分数。根据本公开的示例实施例，简档管理器624可以被配置为至少部分地基于匹配分数来更新实体目录中的一个或多个实体简档。

根据本公开的示例实施例，实体检测器626可以被配置为检测图像中的一个或多个实体。

如图7中所示，一个或多个存储器设备614还可以存储可以由一个或多个处理器612检索、操纵、创建、或存储的数据618。数据618可以包括例如一个或多个机器学习模型、图像数据、实体数据、训练数据、和其它数据。数据618可以存储在一个或多个数据库中。一个或多个数据库可以通过高带宽LAN(local area network，局域网)或WAN(wide areanetwork，广域网)连接到服务器610，或者也可以通过网络640连接到服务器610。可以拆分一个或多个数据库，使得它们位于多个区域中。

服务器610可以通过网络640与一个或多个客户端设备630交换数据。尽管图7中示出了两个客户端设备630，但是任何数量的客户端设备630可以通过网络640连接到服务器610。客户端设备630中的每一个可以是任何合适类型的计算设备，诸如通用计算机、专用计算机、膝上型计算机、桌上型计算机、移动设备、导航系统、智能电话、平板电脑、可穿戴计算设备、具有一个或多个处理器的显示器、或其它合适的计算设备。

类似于服务器610，客户端设备630可以包括一个或多个处理器632和存储器634。一个或多个处理器632可以包括一个或多个中央处理单元(central processing unit，CPU)、专用于有效地渲染图像或执行其它专门计算的图形处理单元(graphics processingunit，GPU)、和/或其它处理设备。存储器634可以包括一个或多个计算机可读介质，并且可以存储可由一个或多个处理器632访问的信息，包括可以由一个或多个处理器632运行的指令636和数据638。例如，存储器634可以存储指令636，用于实施用于显示根据本公开的示例方面确定的实体数据的用户界面模块。

图7的客户端设备630可以包括用于向用户提供信息和从用户接收信息的各种输入/输出设备，诸如触摸屏、触摸板、数据输入键、扬声器、和/或适于语音识别的麦克风。例如，根据本公开的示例方面，客户端设备630可以具有用于呈现用户界面实体数据的显示设备635。客户端设备630和/或用户界面可以被配置为从与实体信息请求相关联的用户接收查询。客户端设备630可以将请求通信传达到服务器610。然后，服务器610可以访问所请求的数据并将数据提供给客户端设备610。在一些实施方式中，客户端设备610和/或显示设备635可以提供信息(例如，提供显示)给用户。

客户端设备630还可以包括用于通过网络640与一个或多个远程计算设备(例如，服务器610)通信的网络接口。网络接口可以包括用于与一个或多个网络交互的任何合适的组件，包括例如，发送器、接收器、端口、控制器、天线、或其它合适的组件。

网络640可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，互联网)、蜂窝网络、或它们的一些组合。网络640可以包括客户端设备630与服务器610之间的直接连接。通常，服务器610与客户端设备630之间的通信可以使用任何类型的有线和/或无线连接，使用各种通信协议(例如，TCP/IP(Transmission Control Protocol/InternetProtocol，传输控制/网络通讯协定)、HTTP(Hyper Text Transfer Protocol，超文本传输协议)、SMTP(Simple Message Transfer Protocol，简单邮件传输协议)、FTP(FileTransfer Protocol，文件传输协议))、编码或格式(例如，HTML(Hypertext MarkupLanguage，超文本标记语言)、XML(Extensive Markup Language，可扩展标示语言))、和/或保护方案(例如，VPN(virtual private network，虚拟专用网)、安全HTTP、SSL(SecuritySocket Layer，加密套接字协议层))经由网络接口来进行。

本文讨论的技术参考服务器、数据库、软件应用、和其它基于计算机的系统、以及所采取的动作和传送到这些系统以及从这些系统传送的信息。本领域普通技术人员将认识到，基于计算机的系统的固有灵活性允许组件之间和组件当中的各种可能的配置、组合、和任务与功能的划分。例如，本文讨论的服务器进程可以使用单个服务器或多个服务器组合工作来实施。数据库和应用可以在单个系统上或跨越多个系统分布而实施。分布式组件可以顺序或并行操作。

尽管已经针对本主题的特定示例实施例详细描述了本主题，但是应当理解，本领域技术人员在获得对前述内容的理解之后可以容易地产生对这种实施例的替代、变化、和等同物。因此，本公开的范围是示例性的而不是限制性的，并且如对本领域普通技术人员显而易见的，本主题公开并不排除对本主题的这种修改、变化、和/或添加的包括。

Claims

1.一种计算机实施的方法，所述方法包括：

由一个或多个计算设备并且从多个图像中识别描绘实体的一个或多个图像；

由一个或多个计算设备确定与描述实体的一个或多个图像相关联的定位信息；

由一个或多个计算设备并且至少部分地基于与描绘实体的一个或多个图像相关联的定位信息从实体目录中识别一个或多个候选实体简档；

由一个或多个计算设备提供描绘实体的一个或多个图像和一个或多个候选实体简档作为机器学习模型的输入，所述机器学习模型包括神经网络和至少一个递归神经网络，所述神经网络包括深度卷积神经网络(CNN)，所述至少一个递归神经网络包括长短期记忆网络(LSTM)，所述CNN被配置为接收指示描述实体的一个或多个图像的数据，从描述实体的一个或多个图像提取特征，并向LSTM提供指示所提取特征的数据，所述LSTM被配置为接收指示一个或多个候选实体简档的数据，从一个或多个候选实体简档获得文本相关信息，并将来自候选实体简档的结构化信息的至少一部分建模为字符序列，使得可以确定提取的特征和来自候选实体简档的数据之间的匹配分数；

由一个或多个计算设备生成机器学习模型的一个或多个输出，每个输出包括与至少一个候选实体简档和描绘实体的图像相关联的匹配分数；以及

由一个或多个计算设备至少部分地基于机器学习模型的一个或多个生成的输出来更新实体目录。

2.如权利要求1所述的计算机实施方法，还包括：

由一个或多个计算设备从用户设备接收指示对访问与实体相关联的信息的用户请求的数据；并且

由一个或多个计算设备至少部分地基于更新的实体目录向用户设备提供所请求的信息。

3.如权利要求1所述的计算机实施方法，其中生成至少一个匹配分数而无需明确地转录在对应图像中描绘的文本。

4.如权利要求1所述的计算机实施方法，其中每个匹配分数提供图像中描绘的实体与候选实体简档相对应的置信度。

5.如权利要求1所述的计算机实施方法，还包括：

由一个或多个计算设备将每个匹配分数与匹配阈值比较；并且

当与特定候选实体简档和描绘实体的图像相关联的匹配分数大于匹配阈值时，由一个或多个计算设备将所述实体与所述特定候选实体简档相关联。

6.如权利要求5所述的计算机实施方法，还包括，当与特定候选实体简档和描绘实体的图像相关联的匹配分数大于匹配阈值时，将描绘实体的一个或多个图像中的至少一个图像与特定候选实体简档相关联。

7.如权利要求1所述的计算机实施方法，其中识别一个或多个候选实体简档包括：

由一个或多个计算设备访问实体目录，所述实体目录包括多个实体简档；并且

由一个或多个计算设备至少部分地基于与描绘实体的一个或多个图像相关联的定位信息过滤实体目录以识别一个或多个候选实体简档。

8.如权利要求1所述的计算机实施方法，还包括：

由一个或多个计算设备获得具有验证的关联实体信息的多个训练图像；并且

由一个或多个计算设备至少部分地基于多个训练图像和验证的关联实体信息训练机器学习模型。

9.如权利要求8所述的计算机实施方法，其中由一个或多个计算设备训练机器学习模型包括至少部分地基于多个训练图像和验证的关联实体信息调整机器学习模型。

10.如权利要求1所述的计算机实施方法，其中更新实体目录包括至少部分地基于机器学习模型的一个或多个生成的输出修改至少一个实体简档。

11.如权利要求1所述的计算机实施方法，其中更新实体目录包括至少部分地基于机器学习模型的一个或多个生成的输出创建新的实体简档。

12.如权利要求1所述的计算机实施方法，其中所述实体是企业，并且其中所述至少一个候选实体简档包括与企业相关联的数据。

13.如权利要求12所述的计算机实施方法，其中与企业相关联的数据包括以下各项中的至少一项：与企业相关联的名称、与企业相关联的地址、与企业相关联的徽标、与企业相关联的电话号码、与企业关联的统一资源定位符URL、或与企业关联的一个或多个类别。

14.一种计算系统，包括：

一个或多个处理器；和

一个或多个存储器设备，所述一个或多个存储器设备存储计算机可读指令，所述计算机可读指令当由一个或多个处理器运行时使得计算系统执行以下操作：

从多个图像中识别描绘实体的一个或多个图像；

确定与描述实体的一个或多个图像相关联的定位信息；

至少部分地基于与描绘实体的一个或多个图像相关联的定位信息从实体目录中识别一个或多个候选实体简档；

提供描绘实体的一个或多个图像和一个或多个候选实体简档作为机器学习模型的输入，所述机器学习模型包括神经网络和至少一个递归神经网络，所述神经网络包括深度卷积神经网络(CNN)，所述至少一个递归神经网络包括长短期记忆网络(LSTM)，所述CNN被配置为接收指示描述实体的一个或多个图像的数据，从描述实体的一个或多个图像提取特征，并向LSTM提供指示所提取特征的数据，所述LSTM被配置为接收指示一个或多个候选实体简档的数据，从一个或多个候选实体简档获得文本相关信息，并将来自候选实体简档的结构化信息的至少一部分建模为字符序列，使得可以确定提取的特征和来自候选实体简档的数据之间的匹配分数；

生成机器学习模型的一个或多个输出，每个输出包括与至少一个候选实体简档和描绘实体的图像相关联的匹配分数；以及

至少部分地基于机器学习模型的一个或多个生成的输出来更新实体目录。

15.如权利要求14所述的计算系统，其中生成至少一个匹配分数而无需明确地转录在对应图像中描绘的文本。

16.如权利要求14所述的计算系统，其中所述实体是企业，并且其中所述至少一个候选实体简档包括与企业相关联的数据。

17.一种或多种存储计算机可读指令的有形非暂时性计算机可读介质，所述计算机可读指令当由一个或多个处理器运行时使得一个或多个处理器执行以下操作：

从多个图像中识别描绘实体的一个或多个图像；

确定与描述实体的一个或多个图像相关联的定位信息；

18.如权利要求17所述的一个或多个有形非暂时性计算机可读介质，其中生成至少一个匹配分数而无需明确地转录在对应图像中描绘的文本。

19.如权利要求17所述的一个或多个有形非暂时性计算机可读介质，其中所述实体是企业，并且其中所述至少一个候选实体简档包括与企业相关联的数据。