CN107690657B - 根据影像发现商户 - Google Patents

根据影像发现商户 Download PDF

Info

Publication number
CN107690657B
CN107690657B CN201680030447.0A CN201680030447A CN107690657B CN 107690657 B CN107690657 B CN 107690657B CN 201680030447 A CN201680030447 A CN 201680030447A CN 107690657 B CN107690657 B CN 107690657B
Authority
CN
China
Prior art keywords
bounding box
image
neural network
deep neural
trade company
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680030447.0A
Other languages
English (en)
Other versions
CN107690657A (zh
Inventor
于骞
利龙·亚特齐夫
马丁·克里斯蒂安·施通佩
维奈·达莫达尔·谢帝
克里斯蒂安·塞盖迪
杜米特鲁·埃尔汉
萨哈·克里斯多佛·阿尔努
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN107690657A publication Critical patent/CN107690657A/zh
Application granted granted Critical
Publication of CN107690657B publication Critical patent/CN107690657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Abstract

本公开的方面涉及一种方法,包括:使用训练图像(320)和识别所述训练图像中的一个或多个商户店面位置的数据(330)来训练深度神经网络(310)。所述深度神经网络(310)在每个图像上输出紧密边界框(340)。可以在所述深度神经网络(310)处接收第一图像(510)。可以使用所述深度神经网络(310)来对所述第一图像(510)进行评估。然后可以生成识别所述第一图像(520)中的商户店面位置的边界框(522、524、526、528)。

Description

根据影像发现商户
相关申请的交叉引用
本申请是于2015年8月7日提交的美国专利申请No.14/821,128的继续申请,所述美国专利申请的公开内容特此以引用的方式并入本文中。
背景技术
互联网上可获得的大量地理定位的街道级照片为检测和监测人造建筑物以帮助建立精确的地图提供了独一无二的机会。建筑物的示例可能包括诸如餐馆、服装店、加油站、药店、自助洗衣店等本地商户。消费者对于通过在流行的搜索引擎上进行本地相关查询来寻找这类商户的兴趣很高。准确地识别世界各地这类本地商户的存在是一项不简单的任务。
发明内容
本公开的各方面提供一种方法。所述方法包括:使用一个或多个计算装置,使用训练图像集合和识别所述训练图像中的一个或多个商户店面位置的数据来训练深度神经网络,所述深度神经网络在每个训练图像上输出第一多个边界框;使用一个或多个计算装置来接收第一图像;使用一个或多个计算装置和深度神经网络来评估所述第一图像;以及使用所述一个或多个计算装置和所述深度神经网络来生成第二多个边界框,所述第二多个边界框识别所述第一图像中的商户店面位置。
在一个示例中,所述方法还包括:使用所述一个或多个计算装置和所述深度神经网络来检测所识别的商户店面位置中的每个处的商户信息;以及使用所述一个或多个计算装置,通过添加来自第二多个边界框中的每个边界框的信息与在由边界框识别的商户店面位置处检测的商户信息来更新商户信息的数据库。在该示例中,所述方法还包括:使用所述一个或多个计算装置来从用户接收对于商户信息的请求;以及使用所述一个或多个计算装置来从所更新的数据库检索所请求的商户信息。
在另一示例中,第二多个边界框包括第一图像中并排布置的两个边界框,所述两个边界框识别两个离散的商户店面位置。在一个示例中,训练深度神经网络还包括:在给定训练图像的一部分上应用粗滑窗;以及基于所述给定训练图像的所述一部分的位置将一个或多个边界框移除。在另一示例中,生成第二多个边界框还包括:在第一图像的一部分上应用粗滑窗;以及基于所述给定训练图像的所述一部分的位置将一个或多个边界框移除。
在另一示例中,训练深度神经网络还包括:确定每个边界框的置信度分数,所述置信度分数表示边界框含有商户店面的图像的可能性;以及将与具有小于设定的阈值的置信度分数的边界框相对应的边界框移除。在另一示例中,生成第二多个边界框还包括:确定每个边界框的置信度分数,所述置信度分数表示边界框含有商户店面的图像的可能性;以及将与具有小于设定的阈值的置信度分数的边界框相对应的边界框位置移除。在另一示例中,训练深度神经网络还包括使用后分类;并且生成第二多个边界框还包括使用后分类。在另一示例中,生成第二多个边界框还包括:计算给定边界框含有商户店面的概率;基于所计算的概率对第二多个边界框进行排名;以及基于所述排名将一个或多个边界框移除。在另一示例中,生成第二多个边界框还包括将第二多个边界框中阻挡所识别的商户店面位置的视图的对象移除。在另一示例中,训练图像和第一图像是全景的。
本公开的另一方面提供系统。所述系统包括深度神经网络和一个或多个计算装置。所述一个或多个计算装置被配置成使用训练图像集合和识别所述训练图像中的一个或多个商户店面位置的数据来训练深度神经网络,所述深度神经网络在每个训练图像上输出第一多个边界框;在所述深度神经网络处接收第一图像;使用所述深度神经网络来评估第一图像;以及使用所述深度神经网络来生成第二多个边界框,所述第二多个边界框识别所述第一图像中的商户店面位置。
在一个示例中,一个或多个计算装置还被配置成通过以下方式来训练深度神经网络:在给定训练图像的一部分上应用粗滑窗,以及基于所述给定训练图像的所述一部分的位置来将一个或多个边界框移除。在另一示例中,所述一个或多个计算装置还被配置成通过以下方式来生成第二多个边界框:在所述第一图像的一部分上应用粗滑窗;以及基于所述给定训练图像的所述一部分的位置将一个或多个边界框移除。
在另一示例中,所述一个或多个计算装置还被配置成通过以下方式来训练深度神经网络:确定每个边界框的置信度分数,所述置信度分数表示边界框含有商户店面的图像的可能性;以及将与具有小于设定的阈值的置信度分数的边界框相对应的边界框移除。在另一示例中,所述一个或多个计算装置还被配置成通过以下方式来生成第二多个边界框:确定每个边界框的置信度分数,所述置信度分数表示边界框含有商户店面的图像的可能性;以及将与具有小于设定的阈值的置信度分数的边界框相对应的边界框位置移除。在另一示例中,所述一个或多个计算装置还被配置成通过以下方式来训练深度神经网络:使用后分类;以及通过使用后分类来生成第二多个边界框。
在另一示例中,所述一个或多个计算装置还被配置成通过以下方式来生成第二多个边界框:计算给定边界框含有商户店面的概率;基于所述计算的概率对第二多个边界框进行排名;以及基于所述排名将一个或多个边界框移除。在另一示例中,所述一个或多个计算装置还被配置成通过以下方式来生成第二多个边界框:将第二多个边界框中阻挡所识别的商户店面位置的对象移除。
本公开的另一方面提供非瞬态、有形计算机可读存储介质,所述计算机可读存储介质上存储有程序的计算机可读指令。当所述指令被一个或多个计算装置执行时引起所述一个或多个计算装置来执行方法。所述方法包括:使用训练图像集合和识别所述训练图像中的一个或多个商户店面位置的数据来训练深度神经网络,所述深度神经网络在每个训练图像上输出第一多个边界框;在所述深度神经网络处接收第一图像;使用所述深度神经网络来评估第一图像;以及使用所述深度神经网络来生成第二多个边界框,所述第二多个边界框识别所述第一图像中的商户店面位置。
附图说明
图1是根据本公开的各方面的示例系统的功能图。
图2是图1的示例系统的示意图。
图3是根据本公开的各方面的示例图。
图4是根据本公开的各方面的另一示例图。
图5是根据本公开的各方面的示例输入和输出。
图6是根据本公开的各方面的示例流程图。
具体实施方式
概述
本技术涉及自动地生成识别图像中的不同商户店面的边界框。换句话说,单个卷积网络评估可以被用于直接地预测多个边界框以及其置信度分数。在卷积神经网络和后分类中使用深度学习,能够以比其他方法更高的准确度和速度来识别全景图像中的店面。对商户店面的准确检测和分割为在后期处理中提取关于特定商户的信息提供机会。例如,可以提取文本和图像来提供关于识别的商户的信息,在一些情况下,该信息可以被用来更加精确地确定商户的位置。
从街道级照片中提取任意的商户店面是一个难题。复杂性来自于:店面外观跨商店类别和地理的高度类内差异性,店面物理层面上的固有歧义性,城市地区中的商户彼此邻近,以及全球范围内店面的大规模出现。这些因素使得该任务即使对于人类注解者来说也是模糊的。诸如噪音、运动模糊、阻挡、照明变化、镜面反射、视角、地理定位错误等图像采集因素进一步导致了该问题的复杂性。全球可能有数亿家商户,并且可能存在数十亿街道级影像。鉴于该问题的范围和商户的周转率,人工注解费用过高,且不是可持续的解决方案。对于自动化方法而言,在合理的时限内对世界范围内的商户进行检测非常需要执行效率。
对商户店面进行检测是从影像提取可用商户清单的多步骤过程中的第一步和最关键的一步。对店面的精确检测支持进一步的下游处理,诸如店面的地理定位、文本的OCR、商户名称和其他属性的提取、类别划分等。
卷积神经网络可以被用来检测图像中商户店面。卷积网络是含有具有绑定参数的节点集合的神经网络。可用的训练数据的大小和计算能力的可用性的提高,结合诸如分段线性单位和丢弃(dropout)训练等的算法进步已经带来许多计算机视觉任务的重大改进。在诸如现今可用于许多任务的那些巨大数据集上,过度拟合并不是问题;增加网络大小提供了测试准确度的改进。对计算资源的最佳使用变成限制因素。为此,可以使用深度神经网络的分布式、可扩展实施方式。
通常来说,通过在图像中穷尽搜索感兴趣的对象来执行对象检测。此类方法产生对应于对象存在于该位置处的概率图。通过非最大抑制或基于均值移位的方法对该概率图进行后期处理,然后生成离散检测结果。为了应对穷尽搜索的计算复杂性,使用图像分割技术来生成若干建议的选择性搜索可以大大减少要搜索的参数的数量。
本文所公开的技术使用深度神经网络来指派最终检测分数,并采用从像素到离散边界框的完全习得方法。端到端的习得方法具有以下优点:其使用单个网络来整合建议生成和后期处理,以同时对大量的建议和置信度进行预测。仅依赖该方法的置信度输出就可以产生高品质的结果,但是通过运行额外的专用后分类器网络可以进一步推进精度。即使具有额外的后分类阶段,该技术也仍然比其前身快了几个数量级。
为了训练深度神经网络,可以使用训练图像集合和识别一个或多个商户店面位置的数据。使用训练图像,深度神经网络可以输出第一多个边界框以及其相应置信度分数。每个边界框的置信度分数可以表示边界框含有商户店面的图像的可能性。每个边界框可以与商户店面位置匹配。在训练过程中,可以使用粗滑窗来评估训练图像,粗滑窗也称作多裁剪评估。为了进一步训练深度神经网络,可以应用后分类来提炼多裁剪评估的结果。后分类可以包括计算给定边界框含有商户店面的概率。
训练的深度神经网络可以接收待评估的图像。可以使用多裁剪评估和后分类来识别和评估图像的特征。基于该评估,深度神经网络可以生成识别可能的商户店面位置的第二多个边界框,其中每个边界框可以含有仅一个商户店面的图像。
示例系统
图1和图2包括可以实现上面所描述的特征的示例系统100。不应将其视为限制本公开的范围或本文所描述的特征的有用性。在该示例中,系统100可以包括一个或多个计算装置110、120、130、140以及存储系统150。计算装置110中的每个可以含有一个或多个处理器112、存储器114和通常存在于通用计算装置中的其他组件。计算装置110的存储器114可以存储可由一个或多个处理器112访问的信息,包括可以由一个或多个处理器112执行的指令116。
存储器114还可以包括可以由处理器来检索、操纵或存储的数据118。数据可以包括图像。该图像可以是全景图像或具有超过180度——例如多达360度——的视野的图像。另外,全景图像可以是球形的或接近球形的。图像可以描绘与有关每个商户店面在每个图像内的位置的信息相关联的各种商户店面。该信息可以识别描绘单个商户店面的像素范围;例如,一些图像可以含有位于图像上每个商户店面所在处的边界框。多个这些图像可以被识别为训练图像。不与有关商户店面的位置的信息相关联的其他图像也可以被存储在存储器中。数据还包括每个商户店面的地理定位。存储器可以是能够存储可由处理器访问的信息的任何非瞬态类型,诸如硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、能写存储器和只读存储器。
指令116可以是将由一个或多个处理器直接地执行的任何指令集,诸如机器代码,或者间接地执行的任何指令集,诸如脚本。就这一点而言,术语“指令”、“应用”、“步骤”和“程序”在本文中可以互换使用。指令可以存储为目标代码格式以便由处理器直接处理,或者存储为任何其他计算装置语言,包括按需解释或提前编译的独立源代码模块的脚本或集合。指令可以包括引起诸如计算装置110的一个或多个计算装置来充当深度神经网络的指令。下面更加详细地解释了指令的功能、方法和例程。
一个或多个处理器112可以根据指令116来检索、存储或修改数据118。举例来说,虽然本文所描述的主题不受任何特定数据结构限制,但是数据可能存储在计算机寄存器中,作为具有许多不同的字段和记录的表格或XML文档存储在关系型数据库中。数据可以被格式化为任何计算装置可读格式,诸如但不限于二进制值、ASCII或统一代码。此外,数据可以包括足以识别相关信息的任何信息,诸如编号、描述性文本、专有代码、指针、对存储在诸如其他网络位置处等其他存储器中的数据的引用或者被函数用于计算相关数据的信息。
一个或多个处理器112可以是任何常规处理器,诸如市场上可购得的CPU。替选地,处理器可以是专用组件,诸如专用集成电路(“ASIC”)或其他基于硬件的处理器。虽然不是必需的,但是计算装置110中的一个或多个可以包括专门的硬件组件来更快或更有效地执行特定的计算过程,诸如对视频进行解码,将视频帧与图像进行匹配,使视频失真,对失真的视频进行编码等。
虽然图1功能地将计算装置110的处理器、存储器和其他元件示出在同一个框内,但是处理器、计算机、计算装置或存储器可以实际上包括可能存储在或可能不存储在同一个物理壳体内的多个处理器、计算机、计算装置或存储器。例如,存储器可以是位于与计算装置110的壳体不同的壳体中的硬盘驱动器或其他存储介质。因此,引用处理器、计算机、计算装置或存储器应被理解成包括引用可能并行操作或可能非并行操作的处理器、计算机、计算装置或存储器的集合。例如,计算装置110可以包括作为负载平衡的服务器群来操作的服务器计算装置。另外,虽然下面描述的一些功能被指示为在具有单个处理器的单个计算装置上发生,但是本文所描述的主题的各种方面可以由多个计算装置例如通过网络160传达信息来实现。
计算装置110中的每个可以位于网络160的不同节点处,并且能够直接地或间接地与网络160的其他节点通信。虽然图1至图2中仅示出几个计算装置,但是应了解,典型的系统可以包括大量连接的计算装置,其中每个不同的计算装置位于网络160的不同节点处。网络160可以是采用多层模型的深度神经网络,其中较底层的输出被用于构建较高层的输出。可以使用各种协议和系统将网络160和本文所描述的中间节点互连,以使得该网络可以是互联网、万维网、特定内联网、广域网或局域网的一部分。该网络可以利用诸如以太网、WiFi和HTTP等标准通信协议、对于一个或多个公司来说是专有的协议、以及前述协议的各种组合。虽然当如上所述来传递或接收信息时获得了某些优点,但是本文所描述的主题并不限于任何特定的信息传递方式。
举例来说,计算装置110中的每个可以包括能够经由网络与存储系统150以及计算装置120、130和140通信的网络服务器。例如,服务器计算装置110中的一个或多个可以使用网络160来在诸如计算装置120、130或140的显示器122、132或142的显示器上向诸如用户220、230或240的用户传递和呈现信息。就这一点而言,计算装置120、130和140可以被视为客户端计算装置,并且可以执行本文所描述的特征中的全部或一些。
客户端计算装置中的每个可以被配置成与服务器计算装置110类似,具有如上面所描述的一个或多个处理器、存储器和指令。每个客户端计算装置120、130或140可以是意在由用户220、230、240使用的个人计算装置,并且具有通常与个人计算装置结合使用的所有组件,诸如中央处理单元(CPU)、存储数据和指令的存储器(例如,RAM和内部硬盘驱动器)、诸如显示器122、132或142等显示器(例如,具有屏幕的监视器、触摸屏、投影仪、电视或可操作来显示信息的其他装置)以及用户输入装置124(例如,鼠标、键盘、触摸屏或麦克风)。客户端计算装置还可以包括用于捕获静态图像或记录视频流的相机126、扬声器、网络接口装置以及用于将这些元件彼此连接的所有组件。
虽然客户端计算装置120、130和140可以各自包括全尺寸的个人计算装置,但是它们可能可选地包括能够通过诸如互联网等网络与服务器无线地交换数据的移动计算装置。仅举例来说,客户端计算装置120可以是移动电话,或者是诸如带无线支持的PDA、平板PC或能够经由互联网获得信息的上网本等装置。在另一示例中,客户端计算装置130可以是头戴式计算系统。举例来说,用户可以利用相机的视觉信号或触摸屏来使用小键盘、按键、麦克风输入信息。
与存储器114一样,存储系统150可以是能够存储可由服务器计算装置110访问的信息的任何类型的计算机化存储装置,诸如硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、能写存储器和只读存储器。另外,存储系统150可以包括分布式存储系统,其中数据存储在可以物理地位于相同或不同的地理位置处的多个不同的存储装置上。存储系统150可以经由如图1中所示出的网络160连接至计算装置,和/或可以直接地连接至或并入计算装置110至140中的任何一个的存储器中(未图示)。
存储系统150还可以存储图像。这些图像可以包括各种类型的图像,诸如全景图像或具有超过180度——例如多达360度——的视野的图像,该图像尤其描绘一个或多个商户店面。在一些示例中,给定图像可以与识别给定图像内的每个商户店面的位置的信息相关联。例如,关于给定图像的店面信息可以包括:给定图像中对应于一个或多个店面的一个或多个像素范围,和/或对应于给定图像中的一个或多个商户店面的形状的图像坐标。举例来说,店面信息可以由对应于图像中的每个商户店面位置的边界框来表示。图像中的至少一些可以被识别为如下面所讨论的训练图像。存储系统150还可以包括地理定位信息,或有关多个商户店面的地理位置的信息。
示例方法
如图3中所示,可以通过使用训练图像320集合来训练深度神经网络310。这些训练图像320可以包括与识别训练图像集合中的一个或多个商户店面位置330的店面信息相关联的存储系统150的图像。如上面所提及,店面信息可以是描绘位于相关联的图像中的一个或多个商户店面的图像的一个或多个像素范围。
深度神经网络310可以被用来使用有关训练图像内的商户店面的位置的商户店面位置数据对训练图像进行评估。可以使用深度神经网络将也称作多裁剪评估的粗滑窗应用于图像。每个窗口位置可以视为图像的“裁剪”。与密滑窗方法相比,粗滑窗方法将滑窗的数量减少了几个数量级。例如,粗滑窗可以评估全360度全景图像的100个窗,而密滑窗可能会使用30万个窗。单裁剪评估也可以有效,但是对于高分辨率全景图像,无法从单个全景图像的低分辨版本可靠地检测出较小的店面。因此,使用粗滑窗可以实际上提高店面检测的质量。
在深度神经网络310的训练期间,可以识别出叠加在图像上的第一多个边界框340。边界框可以是图像上识别图像中的一部分的矩形。边界框还可以是任何其他多边形或形状。每个边界框的形状和大小可以取决于每个商户店面位置的形状。
可以基于与每个图像相关联的数据将每个边界框340与商户店面位置相匹配。仅一个商户店面位置可以包围在单个边界框中,以使得图像中彼此紧密相邻的商户店面位置由单独的边界框限定。匹配可能涉及最大高度匹配,其中商户店面位置与给定边界框之间的边权重与边框的重叠量有关。例如,边权重可以是被定义成给定边界框和商户店面位置的交集的大小除以其并集的大小的Jaccard相似系数。
对于由深度神经网络评估的训练图像集合,深度神经网络可以被用来确定第一多个边界框的每个边界框的坐标。坐标可以是图像坐标,诸如对应于商户店面位置的图像坐标。图像坐标可以使用坐标系来限定边界框相对于图像本身的位置,或者可以是纬度/经度坐标或任何其他地理定位坐标。
可以计算每个边界框340的置信度分数350。第一多个边界框的每个边界框的置信度分数350可以表示边界框含有商户店面的图像的可能性。
当评估训练图像时,在某些情况下可以将边界框移除。例如,可以将具有小于设定的阈值的置信度分数的边界框移除。另外,可以将邻近图像的裁剪边缘中的一个的边界框移除,除非裁剪的边缘也是图像的边缘。以此方式,可以将未完全包含对象的边界框移除,并且商户店面的检测更加精确。另外,也可以将与任何给定裁剪相距超过给定距离的任何边界框移除。
还可以通过后分类来训练深度神经网络310。在后分类的准备中,可以将仿射变换(affine transformation)应用于深度神经网络的接受域(receptive field)。在后分类中,根据多裁剪评估而识别的第一多个边界框被进一步分类来提炼结果。换句话说,将另一个分类器应用于该结果,来提高每个边界框含有商户店面位置的置信度。例如,可以计算每个边界框的第二置信度分数。可以基于所计算的置信度分数来计算给定边界框含有商户店面的概率。可以通过对深度神经网络中的每个边界框的置信度分数的乘积与后分类中的每个边界框的置信度分数的乘积求和来计算该概率。替选地,可以通过将深度神经网络中的置信度分数与后分类中用于给定边界框的置信度分数相乘来计算该概率。
可以将概率用来通过将与低于设定的阈值的概率相关联的边界框移除来过滤第一多个边界框。而且,概率可以被用来对边界框进行排名。可以基于排名来过滤第一多个边界框。例如,可以将排名低于设定数量的边界框移除。
在被训练时,深度神经网络可以在训练的图像上输出第一多个边界框340与其相应的置信度分数350。为每个边界框确定的坐标和通过后分类计算的概率也可以包括在神经网络的输出中。该信息可以存储在存储系统150上以供后续使用。
被训练之后,深度神经网络310可以评估一个或多个图像420,如图4中所示。与训练图像320一样,图像420也可以存储在存储系统150中。然而,与训练图像不同的是,图像420可能与识别图像中的商户店面位置的数据不相关联。图像420可以是全景图像或具有超过180度——例如多达360度——的视野的图像。另外,全景图像可以是球形的或接近球形的。全景中的检测避免会导致图像具有较小的视野的召回损失。使用深度神经网络310,可以评估图像420以识别图像的特征。如上面相关于训练所描述,评估可以包括多裁剪评估和后分类。
基于评估,深度神经网络310可以生成识别图像中的可能的商户店面位置的第二多个边界框440,如图4中所示。每个边界框440可以含有仅一个商户店面的图像。因此可以通过多个边界框来分割一排相邻的商户店面,多个边界框包围一排相邻的商户店面中的每个商户店面。另外,每个边界框440可以与表示每个边界框含有商户店面的图像的可能性的置信度分数450相关联。
如图5中所示,深度神经网络310可以对图像510进行评估。因此,深度神经网络310可以识别多个边界框,包括边界框522、524、526和528,每个边界框含有单独的商户店面的图像。图像524、526和528将相邻的商户店面识别为单独的店面。
在一些示例中,可以通过将具有低于设定的阈值的置信度分数的边界框移除来过滤第二多个边界框440。另外或替选地,可以将来自与相同或类似的地理定位(或换句话说,相同的商户店面)相关联的多个图像的边界框合并。将这些边界框合并可以包括将误报的对象移除。误报的示例可以是临时停在商户店面前面的车辆。然后可以将过滤的边界框与评估的图像相关联,并存储在存储系统150中供后续使用。
可以检测每个边界框440内的商户信息。可以使用诸如光学字符识别等已知的信息提取方法。检测的商户信息可以包括给定边界框中可见的名称、字样、商标、商品或其他项目。然后可以将商户信息添加至商户信息的数据库。可以将该数据库存储在存储系统150中供后续使用。
用户220、230、240可以使用计算装置120、130、140请求商户信息。响应于用户请求,计算装置110可以从存储系统150中的数据库检索商户信息,并且将商户信息发送给计算装置120、130、140。
图6是根据上面所描述的各方面中的一些方面的可以在深度神经网络310处执行的示例流程图600。然而,所描述的特征可以通过具有不同配置的多种系统中的任一个来实现。另外,方法中所涉及的操作不需要按照所描述的精确顺序执行。实际上,可以按照不同顺序或同时地处理各种操作,并且可以添加或省略操作。
在框610,可以使用训练图像集合和识别训练图像中的一个或多个商户店面位置的数据来训练深度神经网络。在框620,可以在深度神经网络处接收第一图像。在框630,深度神经网络可以对第一图像进行评估。在框640,可以生成识别第一图像中的商户店面位置两个或更多边界框集合。
上面所描述的特征可以被用来以使用其他方法所无法达到的速度和准确度来在大型图像数据库中识别店面。具体而言,该特征允许边界框作为分析的直接输出,不使用需要进一步分析和/或处理的诸如热图或概率图等中间输出。另外,特征允许相邻的商户店面被适当地分割,而不是被识别为一个店面。与使用选择性搜索来围绕店面的图像生成边界框相比,使用上面所描述的方法的计算成本要低得多,并且速度要快得多。使用上面所描述的方法可以胜过使用训练的热图方法,后者需要大量的后期处理来将热图转化成有意义的边界框且更容易受到标签噪音的影响。所描述的训练和使用深度神经网络的方法将本来需要大量人力时间来产生的工作自动化,同时产生精确的结果。在已经产生边界框之后,图像可以被用来自动地提取可用的商户列表、更精确的店面地理定位和图像中可用的更多信息。
虽然已经参考特定实施例描述了本文的发明,但是应理解,这些实施例仅说明本发明的原理和应用。因此应理解,在不脱离如由所附权利要求所限定的本发明的精神和范围的情况下,可以对说明性实施例做出众多修改,并且可以设计其他布置。

Claims (20)

1.一种方法,包括:
使用一个或多个计算装置,使用训练图像集合和识别所述训练图像中的一个或多个商户店面位置的数据来训练深度神经网络,所述深度神经网络在每个训练图像上输出第一多个边界框;
使用所述一个或多个计算装置来接收第一图像;
使用所述一个或多个计算装置和所述深度神经网络来评估所述第一图像;以及
使用所述一个或多个计算装置和所述深度神经网络来生成第二多个边界框,所述第二多个边界框识别所述第一图像中的两个或更多个商户店面位置。
2.根据权利要求1所述的方法,所述方法还包括:
使用所述一个或多个计算装置和所述深度神经网络来检测所识别的商户店面位置中的每个处的商户信息;
使用所述一个或多个计算装置,通过添加来自所述第二多个边界框中的每个边界框的信息与在由所述边界框识别的所述商户店面位置处检测的所述商户信息来更新商户信息的数据库;
使用所述一个或多个计算装置来从用户接收对于商户信息的请求;以及
使用所述一个或多个计算装置来从所更新的数据库检索所请求的商户信息。
3.根据权利要求1所述的方法,其中,所述第二多个边界框包括所述第一图像中并排布置的两个边界框,所述两个边界框识别两个离散的商户店面位置。
4.根据权利要求1所述的方法,其中,训练所述深度神经网络还包括:
在给定训练图像的一部分上应用粗滑窗;以及
基于所述给定训练图像的所述一部分的位置将一个或多个边界框移除。
5.根据权利要求1所述的方法,其中,生成所述第二多个边界框还包括:
在所述第一图像的一部分上应用粗滑窗;以及
基于给定训练图像的一部分的位置将一个或多个边界框移除。
6.根据权利要求1所述的方法,其中,训练所述深度神经网络还包括:
确定每个边界框的置信度分数,所述置信度分数表示所述边界框含有商户店面的图像的可能性;以及
将与具有小于设定的阈值的置信度分数的边界框相对应的边界框移除。
7.根据权利要求1所述的方法,其中,生成所述第二多个边界框还包括:
确定每个边界框的置信度分数,所述置信度分数表示所述边界框含有商户店面的图像的可能性;以及
将与具有小于设定的阈值的置信度分数的边界框相对应的边界框位置移除。
8.根据权利要求1所述的方法,其中:
训练所述深度神经网络还包括使用后分类;并且
生成所述第二多个边界框还包括使用后分类。
9.根据权利要求1所述的方法,其中,生成所述第二多个边界框还包括:
计算所述第二多个边界框中的每个边界框含有商户店面的概率;
基于所计算的概率对所述第二多个边界框进行排名;以及
基于所述排名将一个或多个边界框移除。
10.根据权利要求1所述的方法,其中,生成所述第二多个边界框还包括将所述第二多个边界框中阻挡所识别的商户店面位置的视图的对象移除。
11.根据权利要求1所述的方法,其中,所述训练图像和所述第一图像是全景的。
12.一种系统,包括:
深度神经网络;以及
一个或多个计算装置,所述一个或多个计算装置被配置成:
使用训练图像集合和识别所述训练图像中的一个或多个商户店面位置的数据来训练所述深度神经网络,所述深度神经网络在每个训练图像上输出第一多个边界框;
在所述深度神经网络处接收第一图像;
使用所述深度神经网络来评估所述第一图像;以及
使用所述深度神经网络来生成第二多个边界框,所述第二多个边界框识别所述第一图像中的商户店面位置。
13.根据权利要求12所述的系统,其中,所述一个或多个计算装置还被配置成通过以下来训练所述深度神经网络:
在给定训练图像的一部分上应用粗滑窗;以及
基于所述给定训练图像的所述一部分的位置来将一个或多个边界框移除。
14.根据权利要求12所述的系统,其中,所述一个或多个计算装置还被配置成通过以下来生成所述第二多个边界框:
在所述第一图像的一部分上应用粗滑窗;以及
基于给定训练图像的一部分的位置将一个或多个边界框移除。
15.根据权利要求12所述的系统,其中,所述一个或多个计算装置还被配置成通过以下来训练所述深度神经网络:
确定每个边界框的置信度分数,所述置信度分数表示所述边界框含有商户店面的图像的可能性;以及
将与具有小于设定的阈值的置信度分数的边界框相对应的边界框移除。
16.根据权利要求12所述的系统,其中,所述一个或多个计算装置还被配置成通过以下来生成所述第二多个边界框:
确定每个边界框的置信度分数,所述置信度分数表示所述边界框含有商户店面的图像的可能性;以及
将与具有小于设定的阈值的置信度分数的边界框相对应的边界框位置移除。
17.根据权利要求12所述的系统,其中所述一个或多个计算装置还被配置成:
通过使用后分类来训练所述深度神经网络;以及
通过使用后分类来生成所述第二多个边界框。
18.根据权利要求12所述的系统,其中所述一个或多个计算装置还被配置成通过以下来生成所述第二多个边界框:
计算所述第二多个边界框中的每个边界框含有商户店面的概率;
基于所计算的概率对所述第二多个边界框进行排名;以及
基于所述排名将一个或多个边界框移除。
19.根据权利要求12所述的系统,其中所述一个或多个计算装置还被配置成通过以下来生成所述第二多个边界框:将所述第二多个边界框中阻挡所识别的商户店面位置的视图的对象移除。
20.一种非瞬态、有形计算机可读存储介质,所述计算机可读存储介质上存储有程序的计算机可读指令,所述指令当被一个或多个计算装置执行时使得所述一个或多个计算装置来执行方法,所述方法包括:
使用训练图像集合和识别所述训练图像中的一个或多个商户店面位置的数据来训练深度神经网络,所述深度神经网络在每个训练图像上输出第一多个边界框;
在所述深度神经网络处接收第一图像;
使用所述深度神经网络来评估所述第一图像;以及
使用所述深度神经网络来生成第二多个边界框,所述第二多个边界框识别所述第一图像中的商户店面位置。
CN201680030447.0A 2015-08-07 2016-08-04 根据影像发现商户 Active CN107690657B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/821,128 2015-08-07
US14/821,128 US9594984B2 (en) 2015-08-07 2015-08-07 Business discovery from imagery
PCT/US2016/045562 WO2017027321A1 (en) 2015-08-07 2016-08-04 Business discovery from imagery

Publications (2)

Publication Number Publication Date
CN107690657A CN107690657A (zh) 2018-02-13
CN107690657B true CN107690657B (zh) 2019-10-22

Family

ID=56958988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680030447.0A Active CN107690657B (zh) 2015-08-07 2016-08-04 根据影像发现商户

Country Status (8)

Country Link
US (1) US9594984B2 (zh)
EP (1) EP3332355A1 (zh)
JP (1) JP6397144B2 (zh)
KR (1) KR101856120B1 (zh)
CN (1) CN107690657B (zh)
DE (2) DE202016007816U1 (zh)
GB (1) GB2554238B (zh)
WO (1) WO2017027321A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258888A1 (en) * 2015-03-24 2019-08-22 Hrl Laboratories, Llc Hardware and system of bounding box generation for image processing pipeline
US11188823B2 (en) * 2016-05-31 2021-11-30 Microsoft Technology Licensing, Llc Training a neural network using another neural network
US10657364B2 (en) * 2016-09-23 2020-05-19 Samsung Electronics Co., Ltd System and method for deep network fusion for fast and robust object detection
US20180300341A1 (en) * 2017-04-18 2018-10-18 International Business Machines Corporation Systems and methods for identification of establishments captured in street-level images
US10417276B2 (en) * 2017-05-15 2019-09-17 Adobe, Inc. Thumbnail generation from panoramic images
KR102191445B1 (ko) 2017-07-28 2020-12-15 구글 엘엘씨 필수 이미지 및 위치 캡처 시스템 및 방법
JP7098897B2 (ja) * 2017-09-14 2022-07-12 大日本印刷株式会社 画像処理装置、プログラム及び画像データ
WO2019152017A1 (en) * 2018-01-31 2019-08-08 Hewlett-Packard Development Company, L.P. Selecting training symbols for symbol recognition
CN111801703A (zh) * 2018-04-17 2020-10-20 赫尔实验室有限公司 用于图像处理管线的边界框生成的硬件和系统
US11592818B2 (en) 2018-06-20 2023-02-28 Zoox, Inc. Restricted multi-scale inference for machine learning
US10817740B2 (en) 2018-06-20 2020-10-27 Zoox, Inc. Instance segmentation inferred from machine learning model output
US10936922B2 (en) * 2018-06-20 2021-03-02 Zoox, Inc. Machine learning techniques
CN109214280B (zh) * 2018-07-27 2021-10-01 北京三快在线科技有限公司 基于街景的店铺识别方法、装置、电子设备及存储介质
US20200065706A1 (en) * 2018-08-24 2020-02-27 Htc Corporation Method for verifying training data, training system, and computer program product
KR102655999B1 (ko) * 2018-10-25 2024-04-11 현대모비스 주식회사 스테레오 카메라를 이용한 인스턴스 객체별 거리값 검출 장치 및 방법
US20210020287A1 (en) * 2019-07-17 2021-01-21 Walmart Apollo, Llc System and method for fulfilling prescriptions
US20220254137A1 (en) * 2019-08-05 2022-08-11 Jilin Tu Systems and Methods for Object Detection Using Image Tiling
KR20210061839A (ko) 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
US11145065B2 (en) * 2020-01-22 2021-10-12 Gracenote, Inc. Selection of video frames using a machine learning predictor
US11080549B1 (en) 2020-01-22 2021-08-03 Gracenote, Inc. Automated cropping of images using a machine learning predictor
US11941816B2 (en) 2020-01-22 2024-03-26 Gracenote, Inc. Automated cropping of images using a machine learning predictor
KR102285269B1 (ko) * 2020-05-18 2021-08-04 주식회사 선도소프트 빅데이터 기반 Geo AI를 활용한 이미지 분석 장치 및 방법
TWI786463B (zh) * 2020-11-10 2022-12-11 中華電信股份有限公司 適用於全景影像的物件偵測裝置和物件偵測方法
US11798210B2 (en) * 2020-12-09 2023-10-24 Salesforce, Inc. Neural network based detection of image space suitable for overlaying media content
US11657511B2 (en) 2021-01-29 2023-05-23 Salesforce, Inc. Heuristics-based detection of image space suitable for overlaying media content
US11915429B2 (en) 2021-08-31 2024-02-27 Gracenote, Inc. Methods and systems for automatically generating backdrop imagery for a graphical user interface

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345656A (zh) * 2013-07-17 2013-10-09 中国科学院自动化研究所 一种基于多任务深度神经网络的数据识别方法及装置
CN103530689A (zh) * 2013-10-31 2014-01-22 中国科学院自动化研究所 一种基于深度学习的聚类方法
CN103605972A (zh) * 2013-12-10 2014-02-26 康江科技(北京)有限责任公司 一种基于分块深度神经网络的非限制环境人脸验证方法
CN103778414A (zh) * 2014-01-17 2014-05-07 杭州电子科技大学 基于深度神经网络的实时人脸识别方法
CN104299006A (zh) * 2014-07-23 2015-01-21 中国传媒大学 一种基于深度神经网络的车牌识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR200187871Y1 (ko) 2000-01-27 2000-07-15 정대성 부가정보를 가지는 위치정보 안내지 출력장치
DE202011110874U1 (de) * 2010-07-12 2017-01-18 Google Inc. System zur Bestimmung von Gebäudenummern
JP5950296B2 (ja) 2012-01-27 2016-07-13 国立研究開発法人産業技術総合研究所 人物追跡属性推定装置、人物追跡属性推定方法、プログラム
US8965112B1 (en) * 2013-12-09 2015-02-24 Google Inc. Sequence transcription with deep neural networks
EP3029606A3 (en) * 2014-11-14 2016-09-14 Thomson Licensing Method and apparatus for image classification with joint feature adaptation and classifier learning
US20160259980A1 (en) * 2015-03-03 2016-09-08 Umm Al-Qura University Systems and methodologies for performing intelligent perception based real-time counting

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345656A (zh) * 2013-07-17 2013-10-09 中国科学院自动化研究所 一种基于多任务深度神经网络的数据识别方法及装置
CN103530689A (zh) * 2013-10-31 2014-01-22 中国科学院自动化研究所 一种基于深度学习的聚类方法
CN103605972A (zh) * 2013-12-10 2014-02-26 康江科技(北京)有限责任公司 一种基于分块深度神经网络的非限制环境人脸验证方法
CN103778414A (zh) * 2014-01-17 2014-05-07 杭州电子科技大学 基于深度神经网络的实时人脸识别方法
CN104299006A (zh) * 2014-07-23 2015-01-21 中国传媒大学 一种基于深度神经网络的车牌识别方法

Also Published As

Publication number Publication date
GB2554238A (en) 2018-03-28
DE202016007816U1 (de) 2017-01-25
GB2554238B (en) 2019-01-16
CN107690657A (zh) 2018-02-13
GB201717115D0 (en) 2017-11-29
DE112016001830T5 (de) 2018-01-04
WO2017027321A1 (en) 2017-02-16
US20170039457A1 (en) 2017-02-09
KR101856120B1 (ko) 2018-05-10
US9594984B2 (en) 2017-03-14
EP3332355A1 (en) 2018-06-13
JP2018524678A (ja) 2018-08-30
JP6397144B2 (ja) 2018-09-26
KR20170122836A (ko) 2017-11-06

Similar Documents

Publication Publication Date Title
CN107690657B (zh) 根据影像发现商户
US10846534B1 (en) Systems and methods for augmented reality navigation
CN109658478B (zh) 一种提供企业画像的方法及系统
CN106104570B (zh) 检测和提取图像文档组件来创建流文档
JP6681342B2 (ja) 行動イベント計測システム及び関連する方法
CN104715023B (zh) 基于视频内容的商品推荐方法和系统
US10198635B2 (en) Systems and methods for associating an image with a business venue by using visually-relevant and business-aware semantics
US20170109615A1 (en) Systems and Methods for Automatically Classifying Businesses from Images
CN110009364B (zh) 一种行业识别模型确定方法和装置
CN103562911A (zh) 基于姿势的视觉搜索
US11544510B2 (en) System and method for multi-modal image classification
CN113627411A (zh) 一种基于超分辨率的商品识别与价格匹配方法及系统
CN111738199A (zh) 图像信息验证方法、装置、计算装置和介质
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN111144215A (zh) 图像处理方法、装置、电子设备及存储介质
EP3408797B1 (en) Image-based quality control
Manasa Devi et al. Automated text detection from big data scene videos in higher education: a practical approach for MOOCs case study
CN110942056A (zh) 服饰关键点定位方法、装置、电子设备及介质
CN111369315A (zh) 资源对象推荐方法及装置,数据预测模型训练方法及装置
US11841891B2 (en) Mapping webpages to page groups
CN117216252A (zh) 页面分类方法、装置、设备、存储介质及产品
KR20210111117A (ko) 업로드된 미디어로부터 추출된 이미지 기반의 상품 거래 시스템
CN116956052A (zh) 应用匹配方法和应用匹配装置
CN113657273A (zh) 确定商品信息的方法、装置、电子设备及介质
CN117078358A (zh) 基于语音识别的元宇宙电商平台系统智能构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant