CN116685978A - 位置引导的视觉码扫描 - Google Patents
位置引导的视觉码扫描 Download PDFInfo
- Publication number
- CN116685978A CN116685978A CN202180066548.4A CN202180066548A CN116685978A CN 116685978 A CN116685978 A CN 116685978A CN 202180066548 A CN202180066548 A CN 202180066548A CN 116685978 A CN116685978 A CN 116685978A
- Authority
- CN
- China
- Prior art keywords
- visual code
- visual
- captured
- client device
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
- G06K7/10—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
- G06K7/14—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
- G06K7/10—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
- G06K7/14—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
- G06K7/1404—Methods for optical code recognition
- G06K7/1408—Methods for optical code recognition the method being specifically adapted for the type of code
- G06K7/1417—2D bar codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
- G06K7/10—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
- G06K7/14—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
- G06K7/1404—Methods for optical code recognition
- G06K7/1439—Methods for optical code recognition including a method step for retrieval of the optical code
- G06K7/1443—Methods for optical code recognition including a method step for retrieval of the optical code locating of the code in an image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Electromagnetism (AREA)
- Toxicology (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Information Transfer Between Computers (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
从远距离实现位置引导的视觉码扫描的方法从处理器从客户端设备接收媒体内容项和该客户端设备的位置开始。处理器检测媒体内容项的包括捕获的视觉码的图像的部分。处理器对媒体内容项的该部分中的捕获的视觉码的图像进行对准,以生成该捕获的视觉码的校正图像。处理器基于客户端设备的位置来选择数据库中的视觉码中的视觉码的子集,该数据库存储视觉码和与多个视觉码相关联的视觉码位置估计。处理器使用捕获的视觉码的校正图像从视觉码的子集中检测匹配的视觉码并且使与该匹配的视觉码相关联的可选项由客户端设备显示。本文描述了其他实施方式。
Description
相关申请的交叉引用
本申请要求于2020年9月30日提交的美国临时申请序列第63/085,881号的优先权的权益,上述美国临时申请通过引用整体并入本文。
背景技术
视觉码例如快速响应(QR)码在真实世界与数字世界之间建立了桥梁。例如,使用配备有摄像装置的电子移动设备例如智能电话,用户可以快速地扫描在餐馆处显示的视觉码以在他的移动设备上访问该餐馆的菜单,或者快速地扫描在博物馆处显示的视觉码以通过移动设备访问数字多媒体内容(例如,音乐、音频导览、视频片段等),该数字多媒体内容增强了在博物馆中展示的真实展品。
附图说明
在附图中,相似的附图标记可以在不同的视图中描述类似的部件,附图不一定按比例绘制。为了容易标识对任何特定元件或动作的讨论,附图标记中的一个最高位数字或多个最高位数字指代该元素被首次引入时所在的图号。在附图中示出了一些非限制性示例,在附图中:
图1是根据一些示例的其中可以部署本公开内容的联网环境的图解表示。
图2是根据一些示例的具有客户端侧功能和服务器侧功能两者的消息收发系统的图解表示。
图3是根据一些示例的如在数据库中维护的数据结构的图解表示。
图4是根据一些示例的消息的图解表示。
图5示出了根据一个实施方式的远距离码扫描器系统216的图解表示。
图6示出了根据一个实施方式的从远距离实现位置引导的视觉码扫描的处理600的流程图。
图7是根据一些示例的呈计算机系统形式的机器的图解表示,在该计算机系统内可以执行一组指令以使该机器执行本文所讨论的方法中任何一种或更多种方法。
图8是示出其中可以实现示例的软件架构的框图。
具体实施方式
尽管诸如QR码的视觉码具有通用性和简单性,但是当前视觉码的一个关键限制是当前视觉码要求用户在近距离处扫描视觉码以使得能够进行可靠的解码。本公开内容的实施方式通过扩展视觉码可以被扫描和解码的距离范围来改进联网和消息收发系统的功能,以增加视觉码在系统中的可部署性和使用。
视觉码的示例包括QR码、1Barcode、数据矩阵、Aztec码等。这些视觉码包括编码在图像中的大量数据比特,并且为极大量的唯一码编索引。识别给定的唯一码需要对该唯一码的比特的大部分正确地进行解码。当移动设备的摄像装置从远距离捕获视觉码时,所捕获的视觉码中的比特的低分辨率或丢失可以使得难以对唯一码进行解码。在一个示例中,使用捕获视觉码的用户的移动设备的地理位置,系统可以生成与所捕获的视觉码对应的可能视觉码的缩减的列表。在一个示例中,系统通过利用现有格式的视觉码(例如,QR码)来改进当前系统的功能,并且可以利用视觉码的众包位置信息。
联网计算环境
图1是示出用于通过网络来交换数据(例如,消息和相关联的内容)的示例消息收发系统100的框图。消息收发系统100包括客户端设备102的多个实例,多个实例中的每个实例托管包括消息收发客户端104和其他应用106的若干应用。每个消息收发客户端104经由网络112(例如,因特网)通信上耦接至消息收发客户端104的其他实例(例如,托管在相应的其他客户端设备102上)、消息收发服务器系统108和第三方服务器110。消息收发客户端104还可以使用应用程序接口(API)与本地托管的应用106通信。
消息收发客户端104能够经由网络112与其他消息收发客户端104和消息收发服务器系统108通信并交换数据。在消息收发客户端104之间以及消息收发客户端104与消息收发服务器系统108之间交换的数据包括功能(例如,激活功能的命令)以及有效载荷数据(例如,文本、音频、视频或其他多媒体数据)。在一个示例中,消息收发客户端104可以扫描视觉码以生成捕获的视觉码。扫描的视觉码可以包括在视频或图片中。从消息收发客户端104交换到消息收发服务器系统108的数据可以包括捕获的视觉码。在一个示例中,消息收发客户端104可以检测客户端设备102的摄像装置的视场中的视觉码,并且扫描该视觉码以将捕获的视觉码传输至消息收发服务器系统108。在一个示例中,消息收发客户端104还可以在扫描和传输视觉码时传输与客户端设备102的位置相关联的地理定位。
消息收发服务器系统108经由网络112向特定消息收发客户端104提供服务器侧功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端104或由消息收发服务器系统108执行,但是某些功能的在消息收发客户端104或消息收发服务器系统108内的定位可以是设计选择。例如,在技术上优选的可能是:最初将某些技术和功能部署在消息收发服务器系统108内,但是后面将该技术和功能迁移至客户端设备102具有足够处理能力的消息收发客户端104。
消息收发服务器系统108支持向消息收发客户端104提供的各种服务和操作。这样的操作包括向消息收发客户端104发送数据、从消息收发客户端104接收数据以及对由消息收发客户端104生成的数据进行处理。作为示例,该数据可以包括消息内容、客户端设备信息、地理定位信息、媒体增强和覆盖、消息内容持续条件、社交网络信息以及实况事件信息。通过经由消息收发客户端104的用户界面(UI)可用的功能来激活和控制消息收发系统100内的数据交换。
现在具体地转至消息收发服务器系统108,应用程序接口(API)服务器116耦接至应用服务器114并向应用服务器114提供编程接口。应用服务器114通信地耦接至数据库服务器120,数据库服务器120促成对数据库126的访问,该数据库126存储与由应用服务器114处理的消息相关联的数据。类似地,web服务器128耦接至应用服务器114,并且向应用服务器114提供基于web的接口。为此,web服务器128通过超文本传输协议(HTTP)和若干其他相关协议处理传入的网络请求。
应用程序接口(API)服务器116在客户端设备102与应用服务器114之间接收和发送消息数据(例如,命令和消息有效载荷)。具体地,应用程序接口(API)服务器116提供一组接口(例如,例程和协议),消息收发客户端104可以调用或查询该组接口以激活应用服务器114的功能。应用程序接口(API)服务器116显露由应用服务器114支持的各种功能,包括:帐户注册;登录功能;经由应用服务器114将消息从特定消息收发客户端104发送至另一消息收发客户端104;将媒体文件(例如,图像或视频)从消息收发客户端104发送至消息收发服务器118并用于另一消息收发客户端104的可能访问;媒体数据集合(例如,故事)的设置;检索客户端设备102的用户的朋友列表;检索这样的集合;检索消息和内容;在实体图(例如,社交图)中添加和删除实体(例如,朋友);在社交图中定位朋友;以及打开应用事件(例如,与消息收发客户端104有关)。
应用服务器114托管若干服务器应用和子系统,包括例如消息收发服务器118、图像处理服务器122以及社交网络服务器124。消息收发服务器118实现了若干消息处理技术和功能,特别是与从消息收发客户端104的多个实例接收到的消息中包括的内容(例如,文本和多媒体内容)的聚合和其他处理有关的消息处理技术和功能。如将进一步详细地描述的,来自多个源的文本和媒体内容可以被聚合成内容的集合(例如,被称为故事(story)或图库(gallery))。然后,使这些集合对消息收发客户端104可用。鉴于对这样的处理的硬件要求,也可以由消息收发服务器118在服务器侧执行数据的其他处理器和存储器密集型处理。
应用服务器114还包括图像处理服务器122,该图像处理服务器122专用于执行各种图像处理操作,通常针对在从消息收发服务器118发送或者在消息收发服务器118处接收的消息的有效载荷内的图像或视频,执行各种图像处理操作。
社交网络服务器124支持各种社交联网功能和服务并使这些功能和服务可用于消息收发服务器118。为此,社交网络服务器124维护和访问数据库126内的实体图308(如图3所示)。社交网络服务器124所支持的功能和服务的示例包括识别消息收发系统100中的与特定用户具有关系或该特定用户正在“关注”的其他用户,以及识别特定用户的兴趣和其他实体。
返回到消息收发客户端104,外部资源(例如,应用106或小程序)的特征和功能经由消息收发客户端104的接口对用户可用。在该上下文中,“外部”是指应用106或小程序在消息收发客户端104外部的事实。外部资源通常由第三方提供,但是也可以由消息收发客户端104的创建者或提供者提供。消息收发客户端104接收对用于启动或访问这样的外部资源的特征的选项的用户选择。外部资源可以是安装在客户端设备102上的应用106(例如,“本地app”),或者是托管在客户端设备102上或远离客户端设备102(例如,在第三方服务器110上)的应用的小规模版本(例如,“小程序”)。应用的小规模版本包括应用(例如,应用的全规模、本地版本)的特征和功能的子集,并且使用标记语言文档来实现。在一个示例中,应用的小规模版本(例如,“小程序”)是应用的基于web的标记语言版本,并且被嵌入在消息收发客户端104中。除了使用标记语言文档(例如,.*ml文件)以外,小程序可以包括脚本语言(例如,.*js文件或.json文件)和样式表(例如,.*ss文件)。
响应于接收到对用于启动或访问外部资源的特征的选项的用户选择,消息收发客户端104确定所选择的外部资源是基于web的外部资源还是本地安装的应用106。在一些情况下,本地安装在客户端设备102上的应用106可以独立于消息收发客户端104并且与消息收发客户端104分开启动,例如通过在客户端设备102的主页画面上选择与应用106对应的图标。可以经由消息收发客户端104启动或访问这样的应用的小规模版本,并且在一些示例中,小规模应用的各部分都不能在消息收发客户端104之外被访问或者小规模应用的有限的部分可以在消息收发客户端104之外被访问。可以通过消息收发客户端104例如从第三方服务器110接收与小规模应用相关联的标记语言文档并处理这样的文档来启动小规模应用。
响应于确定外部资源是本地安装的应用106,消息收发客户端104通过执行与外部资源对应的本地存储的代码来指示客户端设备102启动外部资源。响应于确定外部资源是基于web的资源,消息收发客户端104与第三方服务器110(例如)通信以获得与所选择的外部资源对应的标记语言文档。然后,消息收发客户端104处理获得的标记语言文档以在消息收发客户端104的用户界面内呈现基于web的外部资源。
消息收发客户端104可以向客户端设备102的用户或与这样的用户有关的其他用户(例如,“朋友”)通知在一个或更多个外部资源中发生的活动。例如,消息收发客户端104可以向消息收发客户端104中的对话(例如,聊天会话)中的参与者提供与一组用户中的一个或更多个成员当前或最近使用外部资源有关的通知。可以邀请一个或更多个用户加入活动的外部资源或者启动(在该组朋友中)最近使用过但当前不活动的外部资源。外部资源可以向对话中的各自使用相应的消息收发客户端104的参与者提供与一组用户中的一个或更多个成员将外部资源中的项、状态、状况或定位共享到聊天会话中的能力。共享项目可以是交互式聊天卡,聊天的成员可以利用该交互式聊天卡进行交互,例如,以启动对应的外部资源,查看外部资源内的特定信息,或将聊天的成员带到外部资源内的特定位置或状态。在给定的外部资源内,可以在消息收发客户端104上向用户发送响应消息。外部资源可以基于外部资源的当前上下文在响应中选择性地包括不同的媒体项。
消息收发客户端104可以向用户呈现可用外部资源(例如,应用106或小程序)的列表以启动或访问给定的外部资源。该列表可以被呈现在上下文敏感菜单中。例如,表示应用106(或小程序)的不同应用(或小程序)的图标可以基于用户如何启动菜单(例如,从对话界面或从非对话界面)而变化。
系统架构
图2是示出根据一些示例的关于消息收发系统100的另外的细节的框图。具体地,消息收发系统100被示为包括消息收发客户端104和应用服务器114。消息收发系统100包含若干子系统,这些子系统在客户端侧由消息收发客户端104支持并且在服务器侧由应用服务器114支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、增强系统208、地图系统210、游戏系统212、外部资源系统214和远距离码扫描器系统216。
短暂定时器系统202负责施行由消息收发客户端104和消息收发服务器118对内容进行临时或限时访问。短暂定时器系统202包含若干个定时器,这些定时器基于与消息或消息集合(例如,故事)相关联的持续时间和显示参数来选择性地实现经由消息收发客户端104访问(例如,用于呈现和显示)消息和相关联的内容。下面提供关于短暂定时器系统202的操作的另外的细节。
集合管理系统204负责管理媒体的合集或集合(例如,文本、图像、视频和音频数据的集合)。可以将内容(例如,消息,包括图像、视频、文本和音频)的集合组织成“事件图库”或“事件故事”。可以使这样的集合在例如与内容有关的事件的持续时间的指定的时间段内可用。例如,可以在音乐会的持续时间内使与音乐会相关的内容作为“故事”可用。集合管理系统204还可以负责向消息收发客户端104的用户界面发布提供特定集合存在的通知的图标。
此外,集合管理系统204还包括允许集合管理器管理和策展内容的特定集合的策展接口206。例如,策展接口206使得事件组织者能够策展与特定事件相关的内容的集合(例如,删除不适当的内容或冗余消息)。另外,集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些示例中,可以为将用户生成的内容包括到集合中向用户支付补偿。在这样的情况下,集合管理系统204进行操作以自动地为使用用户的内容向这样的用户进行支付。
增强系统208提供使得用户能够增强(例如,注释或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如,增强系统208提供与生成和发布用于由消息收发系统100处理的消息的媒体覆盖有关的功能。增强系统208基于客户端设备102的地理定位可操作地向消息收发客户端104提供媒体覆盖或增强(例如,图像过滤器)。在另一示例中,增强系统208基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息收发客户端104提供媒体覆盖。媒体覆盖可以包括音频和视觉内容以及视觉效果。音频和视觉内容的示例包括图片、文本、标志、动画和声音效果。视觉效果的示例包括颜色覆盖。音频和视觉内容或视觉效果可以应用于客户端设备102处的媒体内容项(例如,照片)。例如,媒体覆盖可以包括可以覆盖在由客户端设备102拍摄的照片之上的文本或图像。在另一示例中,媒体覆盖包括定位标识覆盖(例如,威尼斯海滩)、实况事件的名称或商家名称覆盖(例如,海滩咖啡馆)。在另一示例中,增强系统208使用客户端设备102的地理定位来标识包括在客户端设备102的地理定位处的商家的名称的媒体覆盖。媒体覆盖可以包括与商家相关联的其他标记。媒体覆盖可以存储在数据库126中并且通过数据库服务器120进行访问。
在一些示例中,增强系统208提供基于用户的发布平台,该基于用户的发布平台使得用户能够选择地图上的地理定位并上传与所选择的地理定位相关联的内容。用户还可以指定应当向其他用户提供特定媒体覆盖的情况。增强系统208生成包括所上传的内容并将所上传的内容与所选择的地理定位相关联的媒体覆盖。
在其他示例中,增强系统208提供基于商家的发布平台,该基于商家的发布平台使得商家能够经由竞标处理选择与地理定位相关联的特定媒体覆盖。例如,增强系统208将最高竞价商家的媒体覆盖与对应地理定位相关联达预定义时间量。
地图系统210提供各种地理定位功能,并且支持由消息收发客户端104呈现基于地图的媒体内容和消息。例如,地图系统210使得能够在地图上显示(例如,存储在简档数据316中的)用户图标或形象化表示,以指示用户的“朋友”的当前或过去位置,以及由这样的朋友在地图的上下文内生成的媒体内容(例如,包括照片和视频的消息的集合)。例如,在消息收发客户端104的地图界面上,可以将用户从特定地理定位发布到消息收发系统100的消息在地图的该特定位置的上下文内显示给特定用户的“朋友”。用户还可以经由消息收发客户端104与消息收发系统100的其他用户(例如,使用适当的状态形象化表示)共享他的或她的定位和状态信息,该定位和状态信息在消息收发客户端104的地图界面的上下文内被显示给所选择的用户。
游戏系统212在消息收发客户端104的上下文内提供各种游戏功能。消息收发客户端104提供游戏界面,该游戏界面提供可用游戏的列表,该游戏可以由用户在消息收发客户端104的上下文中启动并与消息收发系统100的其他用户一起玩。消息收发系统100还使得特定用户能够通过从消息收发客户端104向其他用户发出邀请来邀请这样的其他用户参与玩特定游戏。消息收发客户端104还支持游戏上下文内的语音消息收发和文本消息收发两者(例如,聊天),为游戏提供排行榜,并且还支持提供游戏内奖励(例如,钱币和物品)。
外部资源系统214为消息收发客户端104提供接口以与远程服务器(例如,第三方服务器110)进行通信以启动或访问外部资源即应用或小程序。每个第三方服务器110托管例如基于标记语言(例如,HTML5)的应用或应用的小规模版本(例如,游戏应用、实用程序应用、支付应用或乘车共享应用)。消息收发客户端104可以通过从与基于web的资源相关联的第三方服务器110访问HTML5文件来启动基于web的资源(例如,应用)。在某些示例中,由第三方服务器110托管的应用利用由消息收发服务器118提供的软件开发工具包(SDK)以JavaScript编程。SDK包括应用编程接口(API),API具有可以由基于web的应用调用或激活的功能。在某些示例中,消息收发服务器118包括JavaScript库,该JavaScript库提供对消息收发客户端104的某些用户数据的给定外部资源访问。HTML5被用作用于对游戏进行编程的示例技术,但是可以使用基于其他技术编程的应用和资源。
为了将SDK的功能集成到基于web的资源中,SDK由第三方服务器110从消息收发服务器118下载或者由第三方服务器110以其他方式接收。一旦被下载或接收,SDK就作为基于web的外部资源的应用代码的一部分被包括在内。然后,基于web的资源的代码可以调用或激活SDK的某些功能以将消息收发客户端104的特征集成到基于web的资源中。
存储在消息收发服务器118上的SDK有效地提供了外部资源(例如,应用106或小程序)与消息收发客户端104之间的桥接。这为用户提供了在消息收发客户端104上与其他用户通信的无缝体验,同时还保留了消息收发客户端104的外观和感觉。为了桥接外部资源与消息收发客户端104之间的通信,在某些示例中,SDK促进第三方服务器110与消息收发客户端104之间的通信。在某些示例中,在客户端设备102上运行的WebViewJavaScriptBridge在外部资源与消息收发客户端104之间建立两个单向通信通道。消息经由这些通信通道在外部资源与消息收发客户端104之间异步发送。每个SDK功能激活都作为消息和回调发送。每个SDK功能通过构造唯一的回调标识符并发送具有该回调标识符的消息来实现。
通过使用SDK,并非来自消息收发客户端104的所有信息都与第三方服务器110共享。SDK基于外部资源的需要来限制共享哪些信息。在某些示例中,每个第三方服务器110将与基于web的外部资源对应的HTML5文件提供给消息收发服务器118。消息收发服务器118可以在消息收发客户端104中添加基于web的外部资源的视觉表示(例如,盒设计(box art)或其他图形)。一旦用户通过消息收发客户端104的GUI选择该视觉表示或指示消息收发客户端104访问基于web的外部资源的特征,消息收发客户端104就获得HTML5文件并且使访问基于web的外部资源的特征所需的资源实例化。
消息收发客户端104呈现用于外部资源的图形用户界面(例如,登录页面或标题画面)。在呈现登录页面或标题画面期间、之前或之后,消息收发客户端104确定所启动的外部资源是否先前已被授权访问消息收发客户端104的用户数据。响应于确定所启动的外部资源先前已被授权访问消息收发客户端104的用户数据,消息收发客户端104呈现外部资源的包括外部资源的功能和特征的另一图形用户界面。响应于确定所启动的外部资源先前未被授权访问消息收发客户端104的用户数据,在显示外部资源的登录页面或标题画面的阈值时间段(例如,3秒)之后,消息收发客户端104向上滑动用于授权外部资源访问用户数据的菜单(例如,将菜单动画化为从屏幕底部浮现到屏幕的中部或其他部分)。该菜单标识外部资源将被授权使用的用户数据的类型。响应于接收到对接受选项的用户选择,消息收发客户端104将外部资源添加到授权的外部资源的列表中,并且使得外部资源能够访问来自消息收发客户端104的用户数据。在一些示例中,外部资源由消息收发客户端104根据OAuth 2框架授权访问用户数据。
消息收发客户端104基于被授权的外部资源的类型来控制与外部资源共享的用户数据的类型。例如,向包括全规模应用(例如,应用106)的外部资源提供对第一类型的用户数据(例如,具有或不具有不同形象化表示特性的用户的仅二维形象化表示)的访问。作为另一示例,向包括应用的小规模版本(例如,应用的基于web的版本)的外部资源提供对第二类型的用户数据(例如,支付信息、用户的二维形象化表示、用户的三维形象化表示、以及具有各种形象化表示特性的形象化表示)的访问。形象化表示特性包括定制形象化表示的外观和感觉(例如不同的姿势、面部特征、服装等)的不同方式。
远距离码扫描系统216提供由客户端设备102或消息收发客户端104从远距离进行的位置引导的视觉码扫描。在一个示例中,消息收发客户端104可以扫描视觉码以生成包括在视频或图片中的捕获的视觉码。所捕获的视觉码和视觉码被扫描时客户端设备102的位置可以由消息收发服务器系统108中的远距离码扫描器系统216接收。
远距离码扫描器系统216还可以检测所捕获的视觉码,并且对所捕获的视觉码进行处理以对准所捕获的视觉码的图像,以生成所捕获的视觉码的校正图像。在一个示例中,客户端设备102中的远距离码扫描器系统216检测并处理所捕获的视觉码,并且将校正图像传输至消息收发服务器系统108中的远距离码扫描器系统216以执行解码。
远距离码扫描器系统216可以基于客户端设备102的位置来选择存储在数据库中的多个视觉码中的视觉码的子集,并且使用所捕获的视觉码的校正图像从视觉码的子集中检测匹配的视觉码。在一个示例中,远距离码扫描器系统216可以使用客户端设备102的位置以及可以使用计算机视觉算法根据几何约束估计的视觉码的相对方向来估计视觉码的位置。远距离码扫描器系统216还可以使与匹配的视觉码相关联的可选项由客户端设备显示。
在该示例中,远距离码扫描器系统216提供客户端设备102中的扫描器功能和消息收发服务器系统108中的解码功能。在另一示例中,扫描器功能和解码功能由消息收发服务器系统108中的远距离码扫描器系统216提供。
在另一示例中,客户端设备102的位置和所捕获的视觉码可以由消息收发客户端104中的远距离码扫描器系统216接收。在该示例中,扫描器功能和解码功能由客户端设备102或消息收发客户端104中的远距离码扫描器系统216提供。
数据架构
图3是示出根据某些示例的可以存储在消息收发服务器系统108的数据库126中的数据结构300的示意图。虽然数据库126的内容被示为包括若干表,但是应当理解,数据可以存储在其他类型的数据结构中(例如,作为面向对象的数据库)。
数据库126包括存储在消息表302内的消息数据。对于任何特定的一条消息,该消息数据包括至少消息发送者数据、消息接收方(或接收者)数据和有效载荷。下面参照图4描述关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据内的信息的其他细节。
实体表306存储实体数据,并且(例如,参考地)链接至实体图308和简档数据316。在实体表306内针对其维护记录的实体可以包括个人、公司实体、组织、对象、地点、事件等。无论实体类型如何,消息收发服务器系统108存储关于其的数据的任何实体可以是识别的实体。每个实体被提供有唯一标识符以及实体类型标识符(未示出)。
实体图308存储关于实体之间的关系和关联的信息。仅举例而言,这样的关系可以是社交的、职业的(例如,在共同的公司或组织工作)、基于兴趣的或基于活动的。
简档数据316存储关于特定实体的多种类型的简档数据。基于由特定实体指定的隐私设置,简档数据316可以被选择性地使用并呈现给消息收发系统100的其他用户。在实体是个人的情况下,简档数据316包括例如用户名、电话号码、地址、设置(例如,通知和隐私设置)、以及用户选择的形象化表示(或这样的形象化表示的集合)。然后,特定用户可以将这些形象化表示中的一个或更多个形象化表示选择性地包括在经由消息收发系统100传送的消息的内容内以及在由消息收发客户端104向其他用户显示的地图界面上。形象化表示的集合可以包括“状态形象化表示”,其呈现用户可以选择在特定时间传达的状态或活动的图解表示。
在实体是团体的情况下,除了团体名称、成员和相关团体的各种设置(例如,通知)之外,团体的简档数据316还可以类似地包括与团体相关联的一个或更多个形象化表示。
数据库126还在增强表310中存储增强数据,例如覆盖(overlay)或过滤器。增强数据与视频(其数据存储在视频表304中)和图像(其数据存储在图像表312中)相关联并应用于视频和图像。
在一个示例中,过滤器是在向接收方用户呈现期间被显示为覆盖在图像或视频上的覆盖。过滤器可以是各种类型的,包括当发送方用户正在编写消息时从由消息收发客户端104呈现给发送方用户的一组过滤器中用户选择的过滤器。其他类型的过滤器包括地理定位过滤器(也称为地理过滤器),其可以基于地理定位被呈现给发送方用户。例如,可以基于由客户端设备102的全球定位系统(GPS)单元确定的地理定位信息,由消息收发客户端104在用户界面内呈现特定于附近或特殊定位的地理定位过滤器。
另一种类型的过滤器是数据过滤器,其可以由消息收发客户端104基于在消息创建处理期间由客户端设备102收集的其他输入或信息选择性地呈现给发送方用户。数据过滤器的示例包括特定定位处的当前温度、发送方用户行进的当前速度、客户端设备102的电池寿命或当前时间。
可以被存储在图像表312内的其他增强数据包括增强现实内容项(例如,对应于应用镜头或增强现实体验)。增强现实内容项可以是可以添加至图像或视频的实时特殊效果和声音。
如上所述,增强数据包括增强现实内容项、覆盖、图像变换、AR图像以及涉及可以应用于图像数据(例如,视频或图像)的修改的类似术语。这包括实时修改,其在使用客户端设备102的设备传感器(例如,一个或更多个摄像装置)捕获图像时对图像进行修改并且然后在客户端设备102的屏幕上显示具有修改图像。这还包括对所存储的内容的修改,例如对可以被修改的图库中的视频片段的修改。例如,在可以访问多个增强现实内容项的客户端设备102中,用户可以使用具有多个增强现实内容项的单个视频片段来查看不同的增强现实内容项将如何修改存储的片段。例如,通过为同一内容选择不同的增强现实内容项,可以将应用不同伪随机运动模型的多个增强现实内容项应用于该同一内容。类似地,实时视频捕获可以与示出的修改一起使用,以显示当前由客户端设备102的传感器捕获的视频图像将如何修改捕获的数据。这样的数据可以简单地显示在屏幕上而不存储在存储器中,或者由设备传感器捕获的内容可以在进行或不进行修改(或两者)的情况下被记录并存储在存储器中。在一些系统中,预览功能可以同时显示不同的增强现实内容项在显示器的不同窗口中将看起来如何。例如,这可以使得能够同时在显示器上查看具有不同伪随机动画的多个窗口。
因此,使用增强现实内容项的数据和各种系统或使用该数据修改内容的其他这样的变换系统可以涉及视频帧中对象(例如,脸、手、身体、猫、狗、表面、对象等)的检测,在这样的对象离开视场、进入视场以及在视场四处移动时对这样的对象的跟踪,以及在跟踪这样的对象时对其进行的修改或变换。在各种示例中,可以使用用于实现这样的变换的不同的方法。一些示例可以涉及生成一个或多个对象的三维网格模型,并且在视频内使用模型的变换和动画纹理来实现变换。在其他示例中,可以使用对对象上的点的跟踪来将图像或纹理(可以是二维或三维的)放置在所跟踪的位置处。在更进一步的示例中,可以使用视频帧的神经网络分析来将图像、模型或纹理放置在内容(例如,图像或视频帧)中。因此,增强现实内容项既指用于在内容中创建变换的图像、模型和纹理,也指利用对象检测、跟踪和放置实现这样的变换所需要的附加建模和分析信息。
可以利用保存在任何种类的计算机化系统的存储器中的任何种类的视频数据(例如,视频流、视频文件等)来执行实时视频处理。例如,用户可以加载视频文件并将其保存在设备的存储器中,或者可以使用设备的传感器生成视频流。此外,可以使用计算机动画模型来处理任何对象,例如人脸和人体的各部分、动物或非生物(例如椅子、汽车或其他对象)。
在一些示例中,当与要变换的内容一起选择特定修改时,要变换的元素由计算设备识别,然后如果要变换的元素存在于视频的帧中,则要变换的元素被检测和跟踪。根据修改请求修改对象的元素,从而变换视频流的帧。对于不同种类的变换,可以通过不同的方法执行对视频流的帧的变换。例如,对于主要涉及改变对象元素形式的帧转换,计算对象的每个元素的特征点(例如,使用主动形状模型(ASM)或其他已知方法)。然后,针对对象的至少一个元素中的每一个生成基于特征点的网格。该网格用于跟踪视频流中的对象的元素的后续阶段。在跟踪处理中,将所提及的每个元素的网格与每个元素的位置对准。然后,在网格上生成附加点。基于修改请求针对每个元素生成第一点的第一集合,并且基于第一点的集合和修改请求针对每个元素生成第二点的集合。然后,可以通过基于第一点的集合和第二点的集合以及网格修改对象的元素,对视频流的帧进行转换。在这样的方法中,也可以通过跟踪和修改背景来使所修改对象的背景改变或变形。
在一些示例中,使用对象的元素改变对象的一些区域的变换可以通过计算对象的每个元素的特征点并基于计算的特征点生成网格来执行。在网格上生成点,然后基于所述点生成各种区域。然后,通过将每个元素的区域与至少一个元素中的每个元素的位置对准来跟踪对象的元素,并且可以基于修改的请求来修改区域的属性,从而转换视频流的帧。根据具体修改请求,可以以不同的方式变换提及的区域的属性。这种修改可以涉及:改变区域的颜色;从视频流的帧中移除区域的至少一些部分;将一个或更多个新对象包括在基于修改请求的区域中;以及将区域或对象的元素进行修改或变形。在各种示例中,可以使用这样的修改的任何组合或其他类似修改。对于某些要被动画化的模型,可以选择一些特征点作为控制点,以用于确定用于模型动画的选项的整个状态空间。
在使用面部检测来变换图像数据的计算机动画模型的一些示例中,使用特定面部检测算法(例如,Viola-Jones)在图像上检测面部。然后,将主动形状模型(ASM)算法应用于图像的面部区域以检测面部特征参考点。
可以使用其他适合面部检测的方法和算法。例如,在一些示例中,使用界标来定位特征,该界标表示在所考虑的大多数图像中存在的可区分点。例如,对于面部界标,可以使用左眼瞳孔的位置。如果初始界标不可识别(例如,如果人有眼罩),则可以使用次级界标。这样的界标识别过程可以用于任何这样的对象。在一些示例中,一组界标形成形状。可以使用形状中的点的坐标将形状表示为矢量。一个形状利用相似转换(允许平移、缩放和旋转)与另一个形状对准,该相似转换使形状点之间的平均欧几里德距离最小化。平均形状是对准的训练形状的均值。
在一些示例中,从与由全局面部检测器确定的面部的位置和大小对准的平均形状开始搜索界标。然后,这样的搜索重复以下步骤:通过每个点周围的图像纹理的模板匹配来调整形状点的定位而建议暂定形状,并且然后使暂定形状符合全局形状模型,直至发生收敛。在一些系统中,个别的模板匹配是不可靠的,形状模型将弱模板匹配的结果进行池化,以形成更强的整体分类器。整个搜索从粗略分辨率到精细分辨率在图像金字塔的每个级别上重复。
变换系统可以在客户端设备(例如,客户端设备102)上捕获图像或视频流,并且在客户端设备102上本地执行复杂的图像操纵,同时保持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括大小和形状变化、情绪转换(例如,将面部从皱眉变为微笑)、状态转换(例如,使对象变老、减少表观年龄、改变性别)、风格转换、图形元素应用,以及由已经被配置成在客户端设备102上高效执行的卷积神经网络实现的任何其他合适的图像或视频操纵。
在一些示例中,用于变换图像数据的计算机动画模型可以由系统使用,在该系统中,用户可以使用具有神经网络的客户端设备102来捕获用户的图像或视频流(例如,自拍),该神经网络操作为在客户端设备102上操作的消息收发客户端104的一部分。在消息收发客户端104内操作的变换系统确定图像或视频流中的面部的存在并且提供与计算机动画模型相关联的修改图标以变换图像数据,或者计算机动画模型可以被呈现为与本文中描述的界面相关联。修改图标包括以下变化,该变化可以是作为修改操作的一部分的修改图像或视频流中的用户面部的基础。一旦选择了修改图标,则变换系统发起将用户的图像转换以反映所选择的修改图标(例如,在用户上生成笑脸)的处理。一旦图像或视频流被捕获并且指定的修改被选择,则修改的图像或视频流就可以呈现在客户端设备102上显示的图形用户界面中。变换系统可以在图像或视频流的一部分上实现复杂的卷积神经网络,以生成和应用所选择的修改。也就是说,一旦选择了修改图标,用户就可以捕获图像或视频流并且实时或近乎实时地呈现修改结果。此外,当正在捕获视频流时,修改可以是持久的,并且所选择的修改图标保持被切换。机器教导的神经网络可以用于实现这样的修改。
呈现由变换系统执行的修改的图形用户界面可以为用户提供附加的交互选项。这样的选项可以基于用于发起特定计算机动画模型的选择和内容捕获的界面(例如,从内容创建者用户界面发起)。在各种示例中,修改可以在对修改图标的初始选择之后是持久的。用户可以通过轻击或以其他方式选择正由变换系统修改的面部来打开或关闭修改,并将其存储以供以后查看或浏览到成像应用的其他区域。在由变换系统修改多个面部的情况下,用户可以通过敲击或选择在图形用户界面内修改和显示的单个面部来全局打开或关闭修改。在一些示例中,可以通过敲击或选择图形用户界面内显示的单独面部或一系列单独面部来单独修改一组多个面部中的各个面部,或者单独切换这样的修改。
故事表314存储关于消息和相关联的图像、视频或音频数据的集合的数据,这些数据被编译成集合(例如,故事或图库)。特定集合的创建可以由特定用户(例如,在实体表306中维护其记录的每个用户)发起。用户可以以已经由该用户创建和发送/广播的内容集合的形式创建“个人故事”。为此,消息收发客户端104的用户界面可以包括用户可选择的图标,以使得发送方用户能够将特定内容添加到他或她的个人故事。
集合还可以构成作为来自多个用户的内容集合的“实况故事”,该内容集合是手动地、自动地或者使用手动技术和自动技术的组合创建的。例如,“实况故事”可以构成来自不同位置和事件的用户提交的内容的策展流。其客户端设备启用了定位服务并且在特定时间处于共同定位事件处的用户可以例如经由消息收发客户端104的用户界面被呈现有将内容贡献给特定实况故事的选项。可以由消息收发客户端104基于用户的定位向他或她标识实况故事。最终结果是从群体角度讲述的“实况故事”。
另外类型的内容集合被称为“定位故事”,该“定位故事”使得其客户端设备102位于特定地理定位内(例如,在学院或大学校园)的用户能够对特定集合做出贡献。在一些示例中,对定位故事的贡献可能需要二级认证来验证终端用户属于特定组织或其他实体(例如,是大学校园中的学生)。
如上面所提及的,视频表304存储视频数据,在一个示例中,该视频数据与其记录维护在消息表302内的消息相关联。类似地,图像表312存储与其消息数据存储在实体表306中的消息相关联的图像数据。实体表306可以使来自增强表310的各种增强与存储在图像表312和视频表304中的各种图像和视频相关联。
码扫描表318存储视觉码和与多个视觉码相关联的视觉码位置估计。在一个示例中,码扫描表318存储与视觉码相关联的固定位置以及与视觉码的已知位置近似的视觉码位置估计。码扫描表318存储视觉码的空间位置。为了填充码扫描表318,消息收发系统100使用众包(crowdsourcing)方法,其中,码的位置由远距离码扫描系统216根据从客户端设备102中的一个客户端设备接收的先前常规码扫描(例如,全码扫描)来自动地确定。远距离码扫描器系统216可以使用客户端设备102的位置以及可以使用计算机视觉算法根据几何约束估计的视觉码的相对方向来估计视觉码的位置。还可以在码扫描表318中存储与视觉码中的每个视觉码相关联的时间戳,以指示视觉码的最新扫描。当视觉码在一段时间(例如,30天)未被扫描时,可以将该码从其固定位置中移除,使得该码从码扫描表318中删除。
数据通信架构
图4是示出根据一些示例的消息400的结构的示意图,消息400由消息收发客户端104生成,以用于传送至另外的消息收发客户端104或消息收发服务器118。特定消息400的内容用于填充存储在数据库126内的消息表302,该消息表302可由消息收发服务器118访问。类似地,消息400的内容被存储在存储器中作为客户端设备102或应用服务器114的“传输中”或“飞行中”数据。消息400被示出为包括以下示例组成部分:
·消息标识符402:标识消息400的唯一标识符。
·消息文本有效载荷404:要由用户经由客户端设备102的用户界面生成并且包括在消息400中的文本。
·消息图像有效载荷406:由客户端设备102的摄像装置部件捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的图像数据。用于发送或接收的消息400的图像数据可以存储在图像表312中。
·消息视频有效载荷408:由摄像装置部件捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的视频数据。用于发送或接收的消息400的视频数据可以存储在视频表304中。
·消息音频有效载荷410:由麦克风捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的音频数据。
·消息增强数据412:表示要应用于消息400的消息图像有效载荷406、消息视频有效载荷408、或消息音频有效载荷410的增强的增强数据(例如,过滤器、贴纸或其他注释或增强)。用于发送或接收的消息400的增强数据可以存储在增强表310中。
·消息持续时间参数414:指示消息的内容(例如,消息图像有效载荷406、消息视频有效载荷408、消息音频有效载荷410)将经由消息收发客户端104呈现给用户或使其可由用户访问的以秒为单位的时间量的参数值。
·消息地理定位参数416:与消息的内容有效载荷相关联的地理定位数据(例如,纬度坐标和经度坐标)。在有效载荷中可以包括多个消息地理定位参数416值,这些参数值中的每个参数值与关于包括在内容中的内容项(例如,消息图像有效载荷406内的特定图像,或消息视频有效载荷408中的特定视频)相关联。
·消息故事标识符418:标识与消息400的消息图像有效载荷406中的特定内容项相关联的一个或更多个内容集合(例如,在故事表314中标识的“故事”)的标识符值。例如,可以使用标识符值将消息图像有效载荷406内的多个图像各自与多个内容集合相关联。
·消息标签420:每个消息400可以用多个标签来标记,这些标签中的每个标签指示消息有效载荷中包括的内容的主题。例如,在消息图像有效载荷406中包括的特定图像描绘动物(例如,狮子)的情况下,可以在消息标签420内包括指示相关动物的标签值。标签值可以基于用户输入手动地生成,或者可以使用例如图像识别自动地生成。
·消息发送者标识符422:指示在其上生成消息400以及从其发送消息400的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。
·消息接收者标识符424:指示消息400寻址到的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。
消息400的各种组成部分的内容(例如,值)可以是指向表中的存储内容数据值的位置的指针。例如,消息图像有效载荷406中的图像值可以是指向图像表312内的位置(或位置的地址)的指针。类似地,消息视频有效载荷408内的值可以指向存储在视频表304内的数据,存储在消息增强412内的值可以指向存储在增强表310中的数据,存储在消息故事标识符418内的值可以指向存储在故事表314中的数据,以及存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表306中的用户记录。
远距离码扫描器系统:
图5示出了根据一个实施方式的远距离码扫描器系统216的图解表示。虽然未示出,但是图5中的远距离码扫描器系统216中详细描述的元素的操作可以由任何数目的不同系统(例如本文描述的系统)或其任何部分(例如任何系统中所包括的处理器)来执行。
在一个示例中,远距离码扫描器系统216包括视觉码检测器502、视觉码对准器504、视觉码选择器506和视觉码匹配器508。视觉码检测器502可以接收媒体内容项,该媒体内容项是由客户端设备102的摄像装置捕获的图像或视频,其包括扫描的图像。视觉码检测器502使用码的标记和结构来检测扫描的图像中的视觉码。在一个示例中,视觉码检测器502检测媒体内容项的包括所捕获的视觉码的图像的部分。
用户可以主动地尝试使用客户端设备102来捕获视觉码的图像或视频。可替选地,处理器可以在由用户捕获的视频的图像中偶然地(serendipitously)发现视觉码。
在一个示例中,视觉码检测器502可以使用神经网络来检测媒体内容项的包括所捕获的视觉码的图像的部分。用于码检测的神经网络可以是对象检测YOLO(仅看一次(YouOnly Look Once))神经网络,该对象检测YOLO神经网络对视觉码数据进行训练以获得图像中的码的边界框。该边界框可以用于裁剪(crop)用于对准的图像。
视觉码对准器504对媒体内容项的该部分中的所捕获的视觉码的图像进行对准,以生成所捕获的视觉码的校正图像。视觉码对准器504可以使用神经网络对所捕获的视觉码的图像进行对准。由视觉码对准器504使用的神经网络可以是卷积神经网络(例如,7层卷积神经网络),以将裁剪的码区域回归为表示对应角的概率的热图。角位置是概率加权像素位置的总和。由视觉码对准器504使用的神经网络可以输出基准点所在的三个角,而第四角通过假设码是平行四边形来计算,所述假设在码与扫描距离相比较小时成立。
视觉码选择器506可以从客户端设备102接收客户端设备102的位置。客户端设备102的位置可以包括媒体内容项被客户端设备102捕获时客户端设备102的三维(3D)坐标。视觉码选择器506使用客户端设备102的位置来执行对存储在码扫描表318中的码数据库的基于地理定位的修剪(pruning)。换句话说,视觉码选择器506基于客户端设备102的位置来选择存储在码扫描表318中的多个视觉码中的视觉码的子集。
视觉码匹配器508使用所捕获的视觉码的校正图像从视觉码的子集中检测匹配的视觉码。为了从视觉码的子集(例如,视觉码的候选列表)中检测匹配的视觉码,视觉码匹配器508可以通过从所捕获的视觉码的校正图像中提取可靠比特来执行部分码解码。视觉码中的可靠比特是视觉上看起来更接近0和1的比特。这些可靠比特可以分布在不同的级别上。在一个示例中,视觉码匹配器508接收所捕获的视觉码的校正图像,并且尝试找到针对全码的匹配。如果由于存在超出预定阈值的不可靠比特而不能找到全码匹配,则视觉码匹配器508可以通过从所捕获的视觉码的校正图像中提取可靠比特来将多级部分码初始化。视觉码匹配器508可以将所捕获的视觉码的校正图像下采样到较低的级别,并且使用阈值来计算二元部分码。在该示例中,视觉码匹配器508可以请求视觉码选择器506定位与二元部分码兼容的视觉码的集合。例如,视觉码选择器506可以定位与从二元部分码中的校正图像中提取的可靠比特匹配的视觉码的集合。在该示例中,视觉码匹配器508在匹配的视觉码(例如,全码)和部分码中寻找相同的所有可靠比特,并且然后视觉码匹配器508返回匹配的视觉码。在另一示例中,匹配的视觉码可以包括若干错误(或不相同)的可靠比特。视觉码匹配器508可以确定匹配的视觉码中的错误的可靠比特的数目小于错误的可靠比特的给定阈值。视觉码匹配器508可以针对视觉码中的不同级别计算错误的可靠比特的加权和,并且确定该加权和是否小于阈值。在另一实施方式中,错误的可靠比特的加权和的不同阈值可以与不同级别相关联。
阈值可以是级别、码图像的大小、照明条件等的函数。例如,在较低的级别、较小的码图像或较暗的环境处,由于存在较低的信噪比(SNR)和对像素未对准的较小弹性,因此可以将阈值设置得较高。在另一示例中,可以基于理论分析自动地确定阈值,以建立数学上保证可靠比特的最低阈值。还可以通过基于捕获的数据集或所捕获的视觉码的校正图像确定最佳阈值来凭经验确定阈值。在一个示例中,视觉码匹配器508使用汉明距离来找到匹配的视觉码。
为了解决摄像装置不具有非线性响应曲线使得0.5不在0与1之间的一半,视觉码匹配器508可以使用伽马校正y=xγ将百分位数映射到强度(例如,[5%,95%]到[0,1])和/或将中值(例如,50%)映射到强度0.5。
码的二值化可以丢弃关于一个比特与其他比特相比的可靠性程度的信息。例如,具有强度0.7和0.9的比特被同等对待,只要这些比特高于码的二值化中的阈值。然而,强度信息可以指示0.9比特比0.7比特更可靠。在一个实施方式中,视觉码匹配器508可以执行基于强度的码匹配,该基于强度的码匹配包括现有视觉码的图像的直接匹配。
为了从视觉码的子集中检测匹配的视觉码,视觉码匹配器508可以基于所捕获的视觉码的校正图像来生成所捕获的视觉码的校正强度图像。在一个示例中,匹配的视觉码具有到所捕获的视觉码的校正强度图像的最短L2距离(例如,欧几里德距离)。
在一个示例中,视觉码匹配器508基于两个码的强度(例如,L2范数或L2距离)来限定相似性函数。针对所捕获的视觉码的校正强度图像,在码扫描表318中找到最相似的视觉码。在一个示例中,视觉码匹配器508可以计算找到正确匹配的概率,并且如果该概率大于预定的成功阈值,则返回最相似的视觉码作为匹配的视觉码。在一个示例中,预定的成功阈值可以基于相似性函数值以及码扫描表318中的最相似的视觉码与码扫描表318中的第二最相似的视觉码的区分程度。
如图5所示,码扫描表318可以接收从客户端设备102接收全视觉码扫描。虽然未在图5中示出,但是全视觉码扫描可以由消息收发服务器系统108接收以进行处理并存储在码扫描表318中。消息收发服务器系统108或远距离码扫描系统216可以记录从客户端设备102接收(例如,经由客户端设备的GPS和惯性测量单元(IMU))的用户的位置和取向,并且更新存储在码扫描表318中的视觉码的位置和不确定性区域。码扫描表318可以使用诸如R树数据结构、k-d树数据结构或四叉树的数据结构来在空间上组织数据库。
视觉码选择器506可以执行基于位置的码修剪以从码扫描表318生成在空间邻域中的视觉码的候选列表。例如,当用户使用客户端设备102扫描部分码时,具有部分码和用户的客户端设备102的位置的媒体内容项被发送至消息收发服务器系统108中的远距离码扫描器系统216。使用客户端设备102的位置,视觉码选择器506能够修剪可能的视觉码的列表以更好地进行纠错。视觉码选择器506可以基于客户端设备102的位置来选择存储在码扫描表318中的多个视觉码中的视觉码的子集。
如上所讨论的,当从远距离进行扫描时,用户的移动设备可以捕获并恢复部分码,该部分码包括码中的比特的一部分。使用移动设备的近似地理位置和部分码,远距离码扫描系统216可以识别全视觉码。因此,在远距离处,仍然可以检测到较少数目的比特,这足以识别空间邻域内的匹配的视觉码。
从远距离进行的位置引导的视觉码扫描的处理:
虽然所描述的流程图可以将操作示出为顺序处理,但是操作中的许多操作可以并行或同时执行。另外,可以重新布置操作的顺序。当其操作完成时,处理终止。处理可以对应于方法、过程、算法等。方法的操作可以全部或部分执行,可以与其他方法中的操作中的一些操作或所有操作结合执行,并且可以由任何数目的不同系统(例如本文描述的系统)或者其任何部分(例如包括在任何系统中的处理器)来执行。
图6示出了根据一个实施方式的从远距离实现位置引导的视觉码扫描的处理600的流程图。在一个示例中,客户端设备102中的处理器、消息收发服务器系统108中的处理器或其任意组合可以执行处理600中的操作。
在操作602中,处理器从客户端设备102接收媒体内容项和客户端设备102的位置。媒体内容项可以包括由客户端设备102的摄像装置捕获的图像或视频。客户端设备的位置可以包括媒体内容项被客户端设备102捕获时客户端设备102的三维(3D)坐标。
在操作604中,处理器检测媒体内容项的包括所捕获的视觉码的图像的部分。在一个示例中,处理器使用神经网络码检测器来检测媒体内容项的包括所捕获的视觉码的图像的部分。神经网络码检测器可以是对象检测YOLO(仅看一次(You Only Look Once))神经网络,该对象检测YOLO神经网络对视觉码数据进行训练以获得图像中的码的边界框。该边界框可以用于裁剪用于对准的图像。
在一个示例中,用户可以主动地尝试使用客户端设备102来捕获视觉码的图像或视频。可替选地,处理器可以在由用户捕获的视频的图像中偶然地找到视觉码。
在操作606中,处理器对媒体内容项的该部分中的所捕获的视觉码的图像进行对准,以生成所捕获的视觉码的校正图像。在一个示例中,处理器使用神经网络对准器对所捕获的视觉码的图像进行对准。神经网络对准器可以是卷积神经网络(例如,7层卷积神经网络),以将裁剪的码区域回归为表示对应角的概率的热图。角位置是概率加权像素位置的总和。神经网络对准器可以输出基准点所在的三个角,而第四角通过假设码是平行四边形来计算,所述假设在码与扫描距离相比较小时成立。
位置引导的解码:
使用客户端设备102的位置,处理器能够修剪可能的视觉码的列表以更好地进行纠错。在操作608中,处理器基于客户端设备102的位置来选择存储在数据库中的多个视觉码中的视觉码的子集。例如,视觉码可以存储在数据库126的码扫描表318中。数据库包括多个视觉码和与多个视觉码相关联的多个视觉码位置估计。数据库可以包括用于空间索引的R树数据结构。
处理器可以通过下述选择视觉码的子集:计算与客户端设备102的3D坐标相关联的不确定性值、最大扫描距离以及与所捕获的视觉码的3D坐标相关联的最大不确定性值的总和来计算阈值半径。
在一个示例中,处理器可以通过选择距客户端设备102的3D坐标在阈值半径内的视觉码位置估计的子集来选择视觉码的子集。视觉码的子集与视觉码位置估计的子集相关联。
生成数据库:
为了填充数据库126的码扫描表318,处理器可以使用众包方法,其中,码的位置根据从客户端设备102中的一个客户端设备接收的先前常规码扫描(例如,全码扫描)来自动地确定。当更多的用户扫描码时,处理器生成所述码的位置估计,该位置估计被更新并存储在数据库126。这导致估计的不确定性随时间减少。
处理器可以通过使用客户端设备102的三维(3D)坐标确定所捕获的视觉码的三维(3D)坐标来生成数据库。在一个示例中,处理器确定所捕获的视觉码的3D坐标可以包括:计算捕获了包括所捕获的视觉码的媒体内容项的客户端设备102的平均全球定位系统(GPS)位置。在该示例中,所捕获的视觉码的3D坐标包括平均GPS位置。客户端设备102上的GPS模块还可以提供对其精度的估计,使得处理器还可以通过加权最小二乘来估计码的位置。
在摄像装置图像中检测到的码的取向提供了在3D空间中可以进一步细化码位置估计的附加几何约束。在一个示例中,处理器确定所捕获的视觉码的3D坐标可以包括:确定在媒体内容项中所捕获的视觉码的取向;以及基于所捕获的视觉码的取向来确定所捕获的视觉码的3D坐标。例如,处理器可以使用客户端设备102的位置以及可以使用计算机视觉算法根据几何约束估计的视觉码的相对方向来估计视觉码的位置。
检测匹配的视觉码:
在操作610中,处理器使用所捕获的视觉码的校正图像从视觉码的子集中检测匹配的视觉码。为了从视觉码的子集中检测匹配的视觉码,处理器可以基于所捕获的视觉码的校正图像来生成所捕获的视觉码的校正强度图像。在一个示例中,匹配的视觉码具有到所捕获的视觉码的校正强度图像的最短L2距离(例如,欧几里德距离)。在一个示例中,处理器使用汉明距离来找到匹配的视觉码。
在操作612中,处理600使与匹配的视觉码相关联的可选项由客户端设备102显示。与匹配的视觉码相关联的可选项可以包括统一资源定位符(URL)地址。例如,可选图标可以是包括URL地址的链接、图标、图像或覆盖。URL地址可以与匹配的视觉码的唯一码相关联。
机器架构
图7是机器1000的图解表示,在该机器700内,可以执行用于使机器700执行本文所讨论的方法中的任何一种或更多种方法的指令710(例如,软件、程序、应用、小程序、app或其他可执行代码)。例如,指令710可以使机器700执行本文所描述的方法中的任何一种或更多种方法。指令710将通用的非编程的机器700转换成被编程为以所描述的方式执行所描述和所示出的功能的特定机器700。机器700可以作为独立设备操作或者可以耦接(例如,联网)至其他机器。在联网部署中,机器700可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份进行操作,或者在对等(或分布式)网络环境中作为对等机器进行操作。机器700可以包括但不限于:服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能电器)、其他智能设备、web装置、网络路由器、网络交换机、网络桥接器或者能够顺序地或以其他方式执行指定要由机器700采取的动作的指令710的任何机器。此外,虽然仅示出了单个机器700,但是术语“机器”还应被认为包括单独地或联合地执行指令710以执行本文所讨论的方法中的任何一种或更多种方法的机器的集合。例如,机器700可以包括客户端设备102或者形成消息收发服务器系统108的一部分的多个服务器设备中的任何一个。在一些示例中,机器700还可以包括客户端系统和服务器系统两者,其中,在服务器侧执行特定方法或算法的某些操作,并且在客户端侧执行特定方法或算法的某些操作。
机器700可以包括处理器704、存储器706和输入/输出I/O部件702,所述处理器704、存储器706和输入/输出I/O部件702可以被配置成经由总线740彼此通信。在示例中,处理器704(例如,中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另一处理器或其任何合适的组合)可以包括例如执行指令710的处理器708和处理器712。术语“处理器”旨在包括多核处理器,所述多核处理器可以包括可以同时执行指令的两个或更多个独立的处理器(有时被称为“核”)。虽然图7示出了多个处理器704,但是机器700可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如,多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器或者其任何组合。
存储器706包括主存储器714、静态存储器716和存储单元718,其均可由处理器704经由总线740访问。主存储器706、静态存储器716和存储单元718存储体现本文所描述的方法或功能中的任何一种或更多种方法或功能的指令710。指令710在其被机器700执行期间还可以完全地或部分地驻留在主存储器714内、在静态存储器716内、在存储单元718内的机器可读介质720内、在处理器704中的至少一个处理器内(例如,在处理器的高速缓存存储器内)、或者在其任何合适的组合内。
I/O部件702可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种部件。包括在特定机器中的特定I/O部件702将取决于机器的类型。例如,诸如移动电话的便携式机器可以包括触摸输入设备或其他这样的输入机构,而无头(headless)服务器机器可能将不包括这样的触摸输入设备。应当理解,I/O部件702可以包括图7中未示出的许多其他部件。在各种示例中,I/O部件702可以包括用户输出部件726和用户输入部件728。用户输出部件726可以包括视觉部件(例如,诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、听觉部件(例如,扬声器)、触觉部件(例如,振动马达、阻力机构)、其他信号生成器等。用户输入部件728可以包括字母数字输入部件(例如,键盘、被配置成接收字母数字输入的触摸屏、光电键盘或其他字母数字输入部件)、基于指向的输入部件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或另一指向仪器)、触觉输入部件(例如,物理按钮、提供触摸或触摸姿势的定位和力的触摸屏或者其他触觉输入部件)、音频输入部件(例如,麦克风)等。
在另外的示例中,I/O部件702可以包括生物计量部件730、运动部件732、环境部件734或位置部件736以及各种各样的其他部件。例如,生物计量部件730包括用于检测表达(例如,手表达、面部表达、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、出汗或脑波)、识别人(例如,语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件732包括加速度传感器部件(例如,加速度计)、重力传感器部件、旋转传感器部件(例如,陀螺仪)。
环境部件734包括例如一个或更多个摄像装置(具有静态成像/摄像和拍摄视频能力)、照明传感器部件(例如,光度计)、温度传感器部件(例如,检测周围温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如,气压计)、声学传感器部件(例如,检测背景噪声的一个或更多个麦克风)、接近传感器部件(例如,检测附近对象的红外传感器)、气体传感器(例如,为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。
关于摄像装置,客户端设备102可以具有摄像装置系统,该摄像装置系统包括例如客户端设备102的前表面上的前置摄像装置和客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如,“自拍”),然后可以利用上面所描述的增强数据(例如,过滤器)对所述静止图像和视频进行增强。后置摄像装置可以例如用于以更传统的摄像装置模式捕获静止图像和视频,其中,这些图像类似地利用增强数据进行增强。除了前置摄像装置和后置摄像装置之外,客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。
此外,客户端设备102的摄像装置系统可以包括双后置摄像装置(例如,主摄像装置以及深度感测摄像装置),或者甚至在客户端设备102的前后侧上包括三个、四个或五个后置摄像装置配置。例如,这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。
位置部件736包括定位传感器部件(例如,GPS接收器部件)、海拔传感器部件(例如,检测气压的高度计或气压计,根据该气压可以得到海拔)、取向传感器部件(例如,磁力计)等。
可以使用各种技术来实现通信。I/O部件702还包括通信部件738,该通信部件738能够进行操作以经由相应的耦接或连接将机器700耦接至网络722或设备724。例如,通信部件738可以包括用于与网络722对接的网络接口部件或另一合适的设备。在另外的示例中,通信部件738可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、部件(例如,/>低功耗)、/>部件和经由其他模态提供通信的其他通信部件。设备724可以是另一机器或各种外围设备中的任何外围设备(例如,经由USB耦接的外围设备)。
此外,通信部件738可以检测标识符或包括可操作以检测标识符的部件。例如,通信部件738可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如,用于检测诸如通用产品码(UPC)条形码的一维条形码、诸如快速响应(QR)码的多维条形码、Aztec码、数据矩阵、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(Ultra Code)、UCC RSS-2D条形码和其他光学码的光学传感器)或声学检测部件(例如,用于识别经标记的音频信号的麦克风)。另外,可以经由通信部件738得到各种信息,例如经由因特网协议(IP)地理定位的定位、经由信号三角测量的定位、经由检测可以指示特定定位的NFC信标信号的定位等。
各种存储器(例如,主存储器714、静态存储器716以及处理器704的存储器)以及存储单元718可以存储由本文所描述的方法或功能中的任何一种或更多种方法或功能实现或使用的一组或更多组指令和数据结构(例如,软件)。这些指令(例如,指令710)在由处理器704执行时使得各种操作实现所公开的示例。
可以经由网络接口设备(例如,通信部件738中包括的网络接口部件)使用传输介质并且使用若干公知的传输协议中的任意一种传输协议(例如,超文本传输协议(HTTP)),通过网络722来发送或接收指令710。类似地,可以使用传输介质经由与设备724的耦接(例如,对等耦接)来发送或接收指令710。
软件架构
图8是示出软件架构804的框图800,该软件架构804可以安装在本文所描述的任何一个或更多个设备上。软件架构804由硬件例如包括处理器820、存储器826和I/O部件838的机器802支持。在该示例中,可以将软件架构804概念化为层的堆栈,在该层的堆栈中,每个层提供特定的功能。软件架构804包括如下层,例如操作系统812、库810、框架808和应用806。在操作上,应用806通过软件堆栈来激活API调用850并响应于API调用850来接收消息852。
操作系统812管理硬件资源并提供公共服务。操作系统812包括例如核814、服务816和驱动器822。核814充当硬件层与其他软件层之间的抽象层。例如,核814提供存储器管理、处理器管理(例如,调度)、部件管理、联网和安全设置以及其他功能。服务816可以为其他软件层提供其他公共服务。驱动器822负责控制底层硬件或与底层硬件对接。例如,驱动器822可以包括显示驱动器、摄像装置驱动器、或/>低能量驱动器、闪存驱动器、串行通信驱动器(例如,USB驱动器)、/>驱动器、音频驱动器、电力管理驱动器等。
库810提供由应用806使用的公共低级基础设施。库810可以包括系统库818(例如,C标准库),系统库818提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。此外,库810可以包括API库824,例如媒体库(例如,用于支持各种媒体格式的呈现和操作的库,所述各种媒体格式例如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如,用于在显示器上的图形内容中以二维(2D)和三维(3D)进行呈现的OpenGL框架)、数据库库(例如,提供各种关系数据库功能的SQLite)、web库(例如,提供web浏览功能的WebKit)等。库810还可以包括多种其他库828,以向应用806提供许多其他API。
框架808提供由应用806使用的公共高级基础设施。例如,框架808提供各种图形用户接口(GUI)功能、高级资源管理和高级定位服务。框架808可以提供可由应用806使用的广泛的其他API,其中的一些API可以专用于特定的操作系统或平台。
在示例中,应用806可以包括家庭应用836、联系人应用830、浏览器应用832、书籍阅读器应用834、定位应用842、媒体应用844、消息收发应用846、游戏应用848和诸如第三方应用840的种类繁多的其他应用。应用806是执行程序中定义的功能的程序。可以使用各种编程语言来创建以各种方式构造的应用806中的一个或更多个,所述编程语言例如面向对象的编程语言(例如,Objective-C、Java或C++)或过程编程语言(例如,C或汇编语言)。在特定示例中,第三方应用840(例如,由特定平台的供应商以外的实体使用ANDROIDTM或IOSTM软件开发工具包(SDK)开发的应用)可以是在诸如IOSTM、ANDROIDTM、Phone的移动操作系统或其他移动操作系统上运行的移动软件。在该示例中,第三方应用840可以激活由操作系统812提供的API调用850以有助于本文中描述的功能。
术语表
“载波信号”是指能够存储、编码或携载由机器执行的指令的任何无形介质并且包括数字或模拟通信信号或其他无形介质以有助于这些指令的通信。可以使用传输介质经由网络接口设备来通过网络发送或接收指令。
“客户端设备”是指与通信网络对接以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、台式计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。
“通信网络”是指网络的一个或更多个部分,该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、其他类型的网络或者两个或更多个这样的网络的组合。例如,网络或网络的一部分可以包括无线网络或蜂窝网络,并且耦接可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中,耦接可以实现各种类型的数据传输技术中的任何数据传输技术,例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电业务(GPRS)技术、增强型数据速率GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他标准、其他远距离协议或其他数据传输技术。
“部件”是指设备、物理实体或具有由功能或子例程调用、分支点、API或者对特定处理或控制功能提供分区或模块化的其他技术来定义的边界的逻辑。部件可以经由其接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的经封装的功能硬件单元并且可以是通常执行相关功能中的特定功能的程序的一部分。部件可以构成软件部件(例如,实施在机器可读介质上的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元,并且可以以某种物理方式来配置或布置。在各种示例中,可以通过软件(例如,应用或应用部分)将一个或更多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或更多个硬件部件(例如,处理器或处理器组)配置成进行操作以执行如本文所描述的某些操作的硬件部件。也可以机械地、电子地或以其任何合适的组合来实现硬件部件。例如,硬件部件可以包括被永久地配置成执行某些操作的专用电路或逻辑。硬件部件可以是专用处理器,例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件部件还可以包括通过软件临时配置成执行某些操作的可编程逻辑或电路。例如,硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置,硬件部件就成为被独特地定制成执行所配置的功能的特定机器(或机器的特定部件),而不再是通用处理器。应当理解,机械地、在专用且永久配置的电路中还是在临时配置(例如,由软件配置)的电路中实现硬件部件的决定可以由成本和时间考虑来驱动。因此,短语“硬件部件”(或者“硬件实现的部件”)应当被理解成包含有形实体,即为被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)成以某种方式操作或者执行本文所描述的某些操作的实体。考虑硬件部件被临时配置(例如,被编程)的示例,无需在任一时刻对硬件部件中的每个硬件部件进行配置或实例化。例如,在硬件部件包括通过软件配置成专用处理器的通用处理器的情况下,该通用处理器可以在不同时间处分别被配置为不同的专用处理器(例如,包括不同的硬件部件)。因此,软件将一个或多个特定处理器配置成例如在一个时刻处构成特定硬件部件,并且在不同的时刻处构成不同的硬件部件。硬件部件可以向其他硬件部件提供信息以及从其他硬件部件接收信息。因此,所描述的硬件部件可以被认为通信地耦接。在同时存在多个硬件部件的情况下,可以通过在硬件部件中的两个或更多个硬件部件之间或之中的信号传输(例如,通过适当的电路和总线)来实现通信。在其中多个硬件部件在不同时间处被配置或实例化的示例中,可以例如通过将信息存储在多个硬件部件访问的存储器结构中并且在所述存储器结构中检索信息来实现这样的硬件部件之间的通信。例如,一个硬件部件可以执行操作,并且将该操作的输出存储在其通信地耦接至的存储器设备中。然后,另外的硬件部件可以在随后的时间访问存储器设备以检索所存储的输出并对其进行处理。硬件部件还可以发起与输入设备或输出设备的通信,并且可以对资源进行操作(例如,信息的收集)。本文所描述的示例方法的各种操作可以至少部分地由被临时地配置(例如,由软件)或永久地配置成执行相关操作的一个或更多个处理器来执行。无论是被临时地配置还是永久地配置,这样的处理器可以构成进行操作以执行本文所描述的一个或更多个操作或功能的处理器实现的部件。如本文所使用的,“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地,本文所描述的方法可以至少部分地由处理器实现,其中,特定的一个或多个处理器是硬件的示例。例如,方法的操作中的至少一些操作可以由一个或更多个处理器1004或者处理器实现的部件来执行。此外,一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或操作为“软件即服务”(SaaS)。例如,操作中的至少一些操作可以由计算机组(作为包括处理器的机器的示例)执行,其中,这些操作可经由网络(例如,因特网)并且经由一个或更多个适当的接口(例如,API)进行访问。某些操作的执行可以分布在处理器之间,不是仅驻留在单个机器内,而是跨多个机器部署。在一些示例中,处理器或处理器实现的部件可以位于单个地理定位中(例如,在家庭环境、办公室环境或服务器群内)。在其他示例中,处理器或处理器实现的部件可以跨多个地理定位分布。
“计算机可读存储介质”是指机器存储介质和传输介质两者。因此,术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物并且可以在本公开内容中可互换地使用。
“短暂消息”是指在时间有限的持续时间内可访问的消息。短暂消息可以是文本、图像、视频等。短暂消息的访问时间可以由消息发送者设置。替选地,访问时间可以是默认设置或者由接收者指定的设置。不管设置技术如何,消息都是暂态的。
“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如,集中式或分布式数据库,以及相关联的高速缓存和服务器)。因此,该术语应被视为包括但不限于固态存储器以及光学和磁性介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括:非易失性存储器,包括例如半导体存储器设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备;磁盘,例如内部硬盘和可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物,并且在本公开内容中可以可互换地使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质,所述载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。
“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。
“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质,并且“信号介质”包括数字或模拟通信信号或其他无形介质以有助于软件或数据的传送。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”意指使其特性中的一个或更多个特性以对信号中的信息进行编码的方式来设置或改变的信号。术语“传输介质”和“信号介质”意指相同的事物并且在本公开内容中可以可互换地使用。
Claims (25)
1.一种方法,包括:
由处理器从客户端设备接收媒体内容项和所述客户端设备的位置;
检测所述媒体内容项的包括捕获的视觉码的图像的部分;
对所述媒体内容项的所述部分中的所述捕获的视觉码的图像进行对准,以生成所述捕获的视觉码的校正图像;
基于所述客户端设备的位置来选择存储在数据库中的多个视觉码中的视觉码的子集,所述数据库包括所述多个视觉码和与所述多个视觉码相关联的多个视觉码位置估计;
使用所述捕获的视觉码的校正图像从所述视觉码的子集中检测匹配的视觉码;以及
使与所述匹配的视觉码相关联的可选项由所述客户端设备显示。
2.根据权利要求1所述的方法,其中,所述媒体内容项包括由所述客户端设备的摄像装置捕获的图像或视频。
3.根据权利要求1所述的方法,其中,与所述匹配的视觉码相关联的所述可选项包括统一资源定位符(URL)地址。
4.根据权利要求1所述的方法,其中,所述客户端设备的位置包括所述媒体内容项被所述客户端设备捕获时所述客户端设备的三维(3D)坐标。
5.根据权利要求4所述的方法,还包括:
生成所述数据库,其中,生成所述数据库包括使用所述客户端设备的三维(3D)坐标来确定所述捕获的视觉码的三维(3D)坐标。
6.根据权利要求5所述的方法,其中,确定所述捕获的视觉码的三维(3D)坐标包括:
计算捕获了包括所述捕获的视觉码的媒体内容项的客户端设备的平均全球定位系统(GPS)位置,其中,所述捕获的视觉码的3D坐标包括所述平均GPS位置。
7.根据权利要求5所述的方法,其中,确定所述捕获的视觉码的三维(3D)坐标包括:
确定所述媒体内容项中所述捕获的视觉码的取向;以及
基于所述捕获的视觉码的取向来确定所述捕获的视觉码的3D坐标。
8.根据权利要求5所述的方法,其中,所述数据库包括用于空间索引的R树数据结构。
9.根据权利要求8所述的方法,其中,基于所述客户端设备的位置来选择视觉码的子集还包括:
通过计算下述各项的总和来计算阈值半径:与所述客户端设备的3D坐标相关联的不确定性值、最大扫描距离、以及与所述捕获的视觉码的3D坐标相关联的最大不确定性值。
10.根据权利要求9所述的方法,其中,基于所述客户端设备的位置来选择视觉码的子集还包括:
选择距所述客户端设备的3D坐标在所述阈值半径内的视觉码位置估计的子集,
其中,所述视觉码的子集与所述视觉码位置估计的子集相关联。
11.根据权利要求1所述的方法,其中,从所述视觉码的子集中检测匹配的视觉码还包括:
基于所述捕获的视觉码的校正图像来生成所述捕获的视觉码的校正强度图像,
其中,所述匹配的视觉码具有到所述捕获的视觉码的校正强度图像的最短L2距离。
12.根据权利要求1所述的方法,其中,所述处理器使用神经网络码检测器来检测所述媒体内容项的包括所述捕获的视觉码的图像的所述部分,并且其中,所述处理器使用神经网络对准器对所述捕获的视觉码的图像进行对准。
13.一种计算机可读存储介质,其上存储有指令,所述指令当由处理器执行时使所述处理器执行操作,所述操作包括:
接收媒体内容项和客户端设备的位置;
检测所述媒体内容项的包括捕获的视觉码的图像的部分;
对所述媒体内容项的所述部分中的所述捕获的视觉码的图像进行对准,以生成所述捕获的视觉码的校正图像;
基于所述客户端设备的位置来选择存储在数据库中的多个视觉码中的视觉码的子集,所述数据库包括所述多个视觉码和与所述多个视觉码相关联的多个视觉码位置估计;
使用所述捕获的视觉码的校正图像从所述视觉码的子集中检测匹配的视觉码;以及
使与所述匹配的视觉码相关联的可选项由所述客户端设备显示。
14.根据权利要求13所述的计算机可读存储介质,其中,所述媒体内容项包括由所述客户端设备的摄像装置捕获的图像或视频。
15.根据权利要求13所述的计算机可读存储介质,其中,与所述匹配的视觉码相关联的所述可选项包括统一资源定位符(URL)地址。
16.根据权利要求13所述的计算机可读存储介质,其中,所述客户端设备的位置包括所述媒体内容项被所述客户端设备捕获时所述客户端设备的三维(3D)坐标。
17.根据权利要求16所述的计算机可读存储介质,其中,所述操作还包括:
生成所述数据库,其中,生成所述数据库包括:
使用所述客户端设备的三维(3D)坐标来确定所述捕获的视觉码的三维(3D)坐标。
18.根据权利要求17所述的计算机可读存储介质,其中,确定所述捕获的视觉码的三维(3D)坐标包括:
计算捕获了包括所述捕获的视觉码的媒体内容项的客户端设备的平均全球定位系统(GPS)位置,其中,所述捕获的视觉码的3D坐标包括所述平均GPS位置。
19.根据权利要求17所述的计算机可读存储介质,其中,确定所述捕获的视觉码的三维(3D)坐标包括:
确定所述媒体内容项中所述捕获的视觉码的取向;以及
基于所述捕获的视觉码的取向来确定所述捕获的视觉码的3D坐标。
20.根据权利要求17所述的计算机可读存储介质,其中,所述数据库包括用于空间索引的R树数据结构。
21.根据权利要求20所述的计算机可读存储介质,其中,基于所述客户端设备的位置来选择视觉码的子集还包括:
通过计算下述各项的总和来计算阈值半径:与所述客户端设备的3D坐标相关联的不确定性值、最大扫描距离、以及与所述捕获的视觉码的3D坐标相关联的最大不确定性值。
22.根据权利要求21所述的计算机可读存储介质,其中,基于所述客户端设备的位置来选择所述视觉码的子集还包括:
选择距所述客户端设备的3D坐标在所述阈值半径内的视觉码位置估计的子集,
其中,所述视觉码的子集与所述视觉码位置估计的子集相关联。
23.根据权利要求13所述的计算机可读存储介质,其中,从所述视觉码的子集中检测匹配的视觉码还包括:
基于所述捕获的视觉码的校正图像来生成所述捕获的视觉码的校正强度图像,
其中,所述匹配的视觉码具有到所述捕获的视觉码的校正强度图像的最短L2距离。
24.根据权利要求13所述的计算机可读存储介质,其中,所述处理器使用神经网络码检测器来检测所述媒体内容项的包括所述捕获的视觉码的图像的所述部分,并且其中,所述处理器使用神经网络对准器对所述捕获的视觉码的图像进行对准。
25.一种系统,包括:
处理器;以及
存储介质,其上存储有指令,所述指令当由所述处理器执行时使所述处理器执行操作,所述操作包括:
接收媒体内容项和客户端设备的位置;
检测所述媒体内容项的包括捕获的视觉码的图像的部分;
对所述媒体内容项的所述部分中的所述捕获的视觉码的图像进行对准,以生成所述捕获的视觉码的校正图像;
基于所述客户端设备的位置来选择存储在数据库中的多个视觉码中的视觉码的子集,所述数据库包括所述多个视觉码和与所述多个视觉码相关联的多个视觉码位置估计;
使用所述捕获的视觉码的校正图像从所述视觉码的子集中检测匹配的视觉码;以及
使与所述匹配的视觉码相关联的可选项由所述客户端设备显示。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063085881P | 2020-09-30 | 2020-09-30 | |
PCT/US2021/061175 WO2022072954A1 (en) | 2020-09-30 | 2021-11-30 | Location-guided scanning of visual codes |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116685978A true CN116685978A (zh) | 2023-09-01 |
Family
ID=79316857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180066548.4A Pending CN116685978A (zh) | 2020-09-30 | 2021-11-30 | 位置引导的视觉码扫描 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220262089A1 (zh) |
CN (1) | CN116685978A (zh) |
DE (1) | DE112021005236T5 (zh) |
GB (1) | GB2614688A (zh) |
WO (1) | WO2022072954A1 (zh) |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6666377B1 (en) * | 2000-07-18 | 2003-12-23 | Scott C. Harris | Bar code data entry device |
US7940171B2 (en) * | 2008-06-10 | 2011-05-10 | Google Inc. | Machine-readable representation of geographic information |
US8819172B2 (en) * | 2010-11-04 | 2014-08-26 | Digimarc Corporation | Smartphone-based methods and systems |
US20110173055A1 (en) * | 2010-01-08 | 2011-07-14 | Saugatuck Media Llc | System and methods for advertising on a mobile electronic device |
US20110246370A1 (en) * | 2010-03-31 | 2011-10-06 | Sellerbid, Inc. | Facilitating transactions using unsupported transaction identifier types |
EP2569717A4 (en) * | 2010-05-12 | 2013-10-23 | Zipongo | SYSTEM AND METHOD FOR AUTOMATIC, CUSTOMIZED AND COMMUNITY POWER AND ACTIVITY PLANNING IN CONNECTION WITH MULTI-MODEL AUTOMATIC IDENTIFICATION TRACKING AND SIZE ESTIMATION |
US9326116B2 (en) * | 2010-08-24 | 2016-04-26 | Rhonda Enterprises, Llc | Systems and methods for suggesting a pause position within electronic text |
US20130026223A1 (en) * | 2011-07-28 | 2013-01-31 | Thomas Joseph Murray | Selecting images using machine-readable codes |
KR101928944B1 (ko) * | 2012-06-06 | 2019-03-12 | 삼성전자주식회사 | 이미지를 기반으로 한 무선단말의 위치 측정 장치 및 방법 |
US9016581B2 (en) * | 2012-07-31 | 2015-04-28 | Jadak, Llc | Scenario windowing for expedited decoding of multiple barcodes |
US9733271B2 (en) * | 2012-08-09 | 2017-08-15 | Ebay Inc. | Systems and methods for providing an enhanced user experience at a venue or event |
US20140223319A1 (en) * | 2013-02-04 | 2014-08-07 | Yuki Uchida | System, apparatus and method for providing content based on visual search |
US20160132046A1 (en) * | 2013-03-15 | 2016-05-12 | Fisher-Rosemount Systems, Inc. | Method and apparatus for controlling a process plant with wearable mobile control devices |
KR20160070874A (ko) * | 2014-12-10 | 2016-06-21 | 브이앤아이 주식회사 | 모바일 기기를 이용한 위치기반 시설물 관리 시스템 |
US9918190B2 (en) * | 2015-02-18 | 2018-03-13 | Cisco Technology, Inc. | Augmenting network device management |
CN107665231A (zh) * | 2016-07-27 | 2018-02-06 | 优屏亚太私人有限公司 | 定位方法和系统 |
US10353395B2 (en) * | 2016-09-26 | 2019-07-16 | X Development Llc | Identification information for warehouse navigation |
EP3766028A1 (en) * | 2018-03-14 | 2021-01-20 | Snap Inc. | Generating collectible items based on location information |
JP6904918B2 (ja) * | 2018-03-29 | 2021-07-21 | ファナック株式会社 | 制御装置およびそのデータ書き込み方法 |
CN109325491B (zh) * | 2018-08-16 | 2023-01-03 | 腾讯科技(深圳)有限公司 | 识别码识别方法、装置、计算机设备和存储介质 |
US20200193281A1 (en) * | 2018-12-13 | 2020-06-18 | Zebra Technologies Corporation | Method for automating supervisory signal during training of a neural network using barcode scan |
KR102306237B1 (ko) * | 2019-01-07 | 2021-09-29 | (주) 헬로팩토리 | 서비스 요청 디바이스 |
US11281776B2 (en) * | 2019-07-01 | 2022-03-22 | Paypal, Inc. | Detection of fraudulent displayable code data during device capture |
-
2021
- 2021-11-30 CN CN202180066548.4A patent/CN116685978A/zh active Pending
- 2021-11-30 GB GB2306156.7A patent/GB2614688A/en active Pending
- 2021-11-30 US US17/537,977 patent/US20220262089A1/en active Pending
- 2021-11-30 WO PCT/US2021/061175 patent/WO2022072954A1/en active Application Filing
- 2021-11-30 DE DE112021005236.5T patent/DE112021005236T5/de active Pending
Also Published As
Publication number | Publication date |
---|---|
GB2614688A (en) | 2023-07-12 |
WO2022072954A1 (en) | 2022-04-07 |
GB202306156D0 (en) | 2023-06-07 |
US20220262089A1 (en) | 2022-08-18 |
DE112021005236T5 (de) | 2023-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116601675A (zh) | 虚拟服装试穿 | |
CN115552403B (zh) | 用于媒体内容项的私人集合的邀请媒体覆盖物 | |
KR20230127312A (ko) | 멀티 비디오 클립 캡처를 위한 ar 콘텐츠 | |
CN116057533A (zh) | 自动网站数据迁移 | |
CN115867882A (zh) | 用于图像的基于出行的增强现实内容 | |
KR20230013097A (ko) | 특징있는 콘텐츠 컬렉션 인터페이스 | |
CN116438788A (zh) | 媒体内容回放和评论管理 | |
KR20230022241A (ko) | 애플리케이션을 론칭하기 위한 시각적 검색 | |
CN116250012A (zh) | 用于图像动画的方法、系统和计算机可读存储介质 | |
CN116113991A (zh) | 用于关节动画的运动表示 | |
CN116724314A (zh) | 生成式对抗网络操纵的图像效果 | |
CN116235194A (zh) | 媒体内容传输和管理 | |
CN117337430A (zh) | 消息系统内根据扫描操作的快捷方式 | |
CN117203676A (zh) | 可定制的化身生成系统 | |
CN116194184A (zh) | 用于同步用户的图形标记生成系统 | |
CN115803783A (zh) | 从2d图像重建3d对象模型 | |
CN116349215A (zh) | 利用微声音剪辑来聊天 | |
CN115516834A (zh) | 具有相关实体的轮播的消息收发系统 | |
CN116057917A (zh) | 记录的声音的缩略图 | |
CN117501675A (zh) | 呈现由消息应用从第三方资源接收的内容 | |
CN116964590A (zh) | 用平均平滑使图像到图像模型压缩 | |
CN116648895A (zh) | 用于捕获多个视频片段的摄像装置模式 | |
CN116235196A (zh) | 跨平台的数据管理和集成 | |
CN116034577A (zh) | 上下文应用菜单 | |
CN117396849A (zh) | 在消息系统内将功能组合成快捷方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |