CN116057917A - 记录的声音的缩略图 - Google Patents

记录的声音的缩略图 Download PDF

Info

Publication number
CN116057917A
CN116057917A CN202180062836.2A CN202180062836A CN116057917A CN 116057917 A CN116057917 A CN 116057917A CN 202180062836 A CN202180062836 A CN 202180062836A CN 116057917 A CN116057917 A CN 116057917A
Authority
CN
China
Prior art keywords
sound
user
option
message
visual element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180062836.2A
Other languages
English (en)
Inventor
内森·肯尼斯·博伊德
乔纳森·达勒·布罗迪
安德鲁·格罗夫纳·库珀
约瑟夫·蒂莫西·福捷
布兰东·弗朗西斯
克里斯蒂·马里·海基宁
拉尼德·兰卡格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Snap Inc
Original Assignee
Snap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Snap Inc filed Critical Snap Inc
Publication of CN116057917A publication Critical patent/CN116057917A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开内容的各方面涉及用于执行操作的系统和方法,操作包括:由消息应用显示使用户能够记录声音的声音捕获画面;在使用声音捕获画面记录声音之后,由消息应用生成与声音相关联的视觉元素;由消息应用接收从显示的表示不同声音的视觉元素列表中对视觉元素的选择;响应于接收到对视觉元素的选择,基于声音的隐私状态,有条件地将表示声音的一个或更多个图形添加到用户选择的位置处的一个或更多个图像;以及由消息应用连同显示一个或更多个图像来播放与视觉元素相关联的声音。

Description

记录的声音的缩略图
相关申请的交叉引用
本申请要求于2020年9月15日提交的序列号为62/706,872的美国临时申请和于2020年9月18日提交的序列号为16/948,451的美国专利申请的优先权的权益,上述美国临时申请和美国专利申请中的每一个通过引用其整体并入本文中。
技术领域
本公开内容总体上涉及使用消息应用记录声音。
背景技术
用户与其他用户在线交互的流行度持续增长。对于用户存在与其他用户在线交互的许多方式。用户可以使用消息应用与他们的朋友沟通,并且可以与其他用户在线玩多人视频游戏,或者使用各种其他应用来执行其他动作。
附图说明
在不一定按比例绘制的附图中,相似的数字可以在不同的视图中描述相似的部件。为了容易识别对任何特定元素或行动的讨论,附图标记中的一个或多个最高位数字是指首次引入该元素的图号。在附图的图中示出了一些非限制性示例,在附图中:
图1是根据一些示例的其中可以部署本公开内容的联网环境的图解表示。
图2是根据一些示例的具有客户端侧功能和服务器侧功能两者的消息系统的图解表示。
图3是根据一些示例的在数据库中维护的数据结构的图解表示。
图4是根据一些示例的消息的图解表示。
图5至图9是根据一些示例的图形用户接口的图解表示。
图10是示出根据示例实施方式的消息应用的示例操作的流程图。
图11是根据一些示例的计算机系统形式的机器的图解表示,在该机器中可以执行一组指令,以使该机器执行本文中讨论的方法中任何一种或更多种。
图12是示出可以在其中实现示例的软件架构的框图。
具体实施方式
以下的描述包括实施本公开内容的说明性实施方式的系统、方法、技术、指令序列和计算机器程序产品。在下面的描述中,出于说明的目的,阐述了许多具体细节以提供对各种实施方式的理解。然而,对于本领域技术人员而言将明显的是,可以在没有这些具体细节的情况下实践实施方式。一般地,公知的指令实例、协议、结构和技术不需要被详细示出。
通常情况下,用户使用消息应用彼此交换消息。这样的应用允许用户从预定义的图像和头像列表中进行选择以相互发送。用户越来越多地使用这种用于传达他们的想法的图像和头像彼此通信。然而,找到合适的用于传达特定的想法的图像或头像可能是乏味且耗时的。具体地,用户必须使用关键字手动搜索传达给定消息的特定图像或头像。这需要查看多个信息页面,直到找到期望的图像或头像。鉴于找到合适的图像或头像的复杂性和所花费的时间量,用户对使用图像或头像进行通信变得气馁,这导致资源浪费或缺乏使用。
即使最终找到了感兴趣的图像或头像,通过消息应用可用的图像或头像也通常是一般形式的,并且可能无法准确反映用户的想法。这样的图像或头像有时可以用预先记录的音频内容来增强。然而,这样的音频内容也是一般形式的,并且可能无法准确传达用户的消息。
所公开的实施方式通过提供以下系统来提高电子设备的使用效率,该系统允许用户创建自定义的声音或音频片段,并且使该声音或音频片段与同其他用户共享的图像相关联。当接收用户访问与该声音相关联的一个或多个图像时,在回放相关联的声音的同时,向接收方呈现这些图像。在一些情况下,创建自定义声音的用户可以指定声音的隐私状态,以控制接收方用户是否可以与其他用户共享他们接收到的声音,以及是否可以查看关于声音的附加信息。基于声音的隐私状态,可以有条件地将表示声音的一个或更多个图形元素(例如作为贴纸)添加到与声音相关联的图像或图片。如果基于隐私状态,声音是公共可用的,则在回放声音的同时,向与声音相关联的图像的接收方呈现包括一个或更多个图形元素的一个或多个图像。
具体地,根据所公开的实施方式,由用户设备的一个或更多个处理器实现的消息应用显示声音捕获画面,该声音捕获画面使用户能够记录声音。在使用声音捕获画面记录声音之后,消息应用生成与声音相关联的视觉元素,并且接收从显示的表示不同声音的视觉元素列表中对视觉元素的选择。响应于接收到对视觉元素的选择,消息应用基于声音的隐私状态,有条件地将表示声音的一个或更多个图形添加到用户选择的位置处的一个或更多个图像。消息应用将播放与视觉元素相关联的声音连同显示一个或更多个图像一起进行。
以这种方式,所公开的实施方式通过减少用户找到要与其他用户共享的图形元素以及与图形元素一起播放的声音而必须查看的画面和界面的数目,提高电子设备的使用效率。这是通过允许用户记录所需的声音并且呈现图形用户接口来实现的,用户可以从该图形用户接口中快速有效地选择记录的声音,以与用户使用客户端设备捕获或者将捕获的一个或更多个图像(视频)结合起来。这减少了使用设备完成任务所需的设备资源(例如,处理器周期、存储器和电力使用)。
联网计算环境
图1是示出用于通过网络来交换数据(例如,消息和相关联的内容)的示例消息系统100的框图。消息系统100包括客户端设备102的多个实例,其中的每个实例托管包括消息客户端104和其他外部应用109(例如,第三方应用)的若干应用。每个消息客户端104经由网络112(例如,因特网)通信地耦接至消息客户端104(例如,托管在相应的其他客户端设备102上)、消息服务器系统108和外部应用服务器110的其他实例。消息客户端104还可以使用应用程序接口(API)与本地托管的第三方应用109通信。
消息客户端104能够经由网络112与其他消息客户端104和消息服务器系统108进行通信并交换数据。在消息客户端104之间以及在消息客户端104与消息服务器系统108之间交换的数据包括功能(例如,用于激发功能的命令)以及有效载荷数据(例如,文本、音频、视频或其他多媒体数据)。
消息服务器系统108经由网络112向特定消息客户端104提供服务器侧功能。虽然消息系统100的某些功能在本文中被描述为由消息客户端104或由消息服务器系统108执行,但是某些功能在消息客户端104或消息服务器系统108内的定位可以是设计选择。例如,在技术上可以优选的是:在最初将某些技术和功能部署在消息服务器系统108内,但是稍后在客户端设备102具有足够处理能力的情况下,将该技术和功能迁移至消息客户端104。
消息服务器系统108支持向消息客户端104提供的各种服务和操作。这样的操作包括向消息客户端104发送数据、从消息客户端104接收数据以及对由消息客户端104生成的数据进行处理。该数据可以包括消息内容、客户端设备信息、地理定位信息、媒体增强和覆盖、消息内容持续性条件、社交网络信息和现场事件信息作为示例。通过经由消息客户端104的用户接口(UI)可用的功能来激发和控制消息系统100内的数据交换。
现在具体地转至消息服务器系统108,应用程序接口(API)服务器116耦接至应用服务器114并且向应用服务器114提供编程接口。应用服务器114通信地耦接至数据库服务器120,数据库服务器120促进对数据库126的访问,该数据库126存储与由应用服务器114处理的消息相关联的数据。类似地,web服务器128耦接至应用服务器114,并且向应用服务器114提供基于web的接口。为此,web服务器128通过超文本传输协议(HTTP)和若干其他相关协议处理传入的网络请求。
应用程序接口(API)服务器116在客户端设备102与应用服务器114之间接收和发送消息数据(例如,命令和消息有效载荷)。特别地,应用程序接口(API)服务器116提供一组接口(例如,例程和协议),消息客户端104可以调用或查询这组接口以调用应用服务器114的功能。应用程序接口(API)服务器116显露由应用服务器114支持的各种功能,包括:帐户注册;登录功能;经由应用服务器114从特定消息客户端104向另一消息客户端104发送消息;从消息客户端104向消息服务器118发送媒体文件(例如,图像或视频);以及为了能够由另一消息客户端104进行访问,设置媒体数据(例如,故事)的集合,检索客户端设备102的用户的朋友列表,检索这样的集合,检索消息和内容,向实体图(例如,社交图)添加以及从实体图删除实体(例如,朋友),社交图中的朋友的定位,以及打开(例如,与消息客户端104有关的)应用事件。
应用服务器114托管若干服务器应用和子系统,包括例如消息服务器118、图像处理服务器122以及社交网络服务器124。消息服务器118实现若干消息处理技术和功能,这些消息处理技术和功能特别地涉及被包括在从消息客户端104的多个实例接收的消息中的内容(例如,文本和多媒体内容)的聚合及其他处理。如将进一步详细描述的,来自多个源的文本和媒体内容可以聚合成内容集合(例如,称为故事或图库(gallery))。然后,使这些集合对消息客户端104可用。考虑到对数据的其他处理器和存储器密集型处理的硬件要求,也可以由消息服务器118在服务器侧执行这样的处理。
应用服务器114还包括图像处理服务器122,该图像处理服务器122专用于通常相对于在从消息服务器118发送或者在消息服务器118处接收到的消息的有效载荷内的图像或视频,执行各种图像处理操作。
社交网络服务器124支持各种社交联网功能和服务并使这些功能和服务可用于消息服务器118。为此,社交网络服务器124维护并且访问数据库126内的实体图308(如图3所示)。社交网络服务器124所支持的功能和服务的示例包括识别消息系统100中的与特定用户具有关系或正在“关注”该特定用户的其他用户,以及识别特定用户的兴趣和其他实体。
返回至消息客户端104,外部资源(例如,第三方应用109或小应用(applet))的特征和功能经由消息客户端104的接口对用户可用。消息客户端104接收对启动或访问外部资源(例如,第三方资源)(例如,外部app 109)的特征的选项的用户选择。外部资源可以是安装在客户端设备102上的第三方应用(外部app 109)(例如,“本地app”),或者托管在客户端设备102上或者远离客户端设备102(例如,在第三方服务器110上)的第三方应用的小规模版本(例如,“小应用”)。第三方应用的小规模版本包括第三方应用的特性和功能的子集(例如,第三方独立应用的全规模本地版本),并且使用标记语言文档来实现。在一个示例中,第三方应用的小规模版本(例如,“小应用”)是第三方应用的基于web的标记语言版本,并且被嵌入在消息客户端104中。除了使用标记语言文档(例如,.*ml文件)以外,小应用还可以并入脚本语言(例如,.*js文件或.json文件)和样式表(例如,.*ss文件)。
响应于接收到对启动或访问外部资源(外部app 109)的特征的选项的用户选择,消息客户端104确定所选择的外部资源是基于web的外部资源还是本地安装的外部应用。在一些情况下,可以例如通过在客户端设备102的主页画面上选择与外部应用109对应的图标而独立于消息客户端104并且与消息客户端104分开地启动本地安装在客户端设备102上的外部应用109。这样的外部应用的小规模版本可以经由消息客户端104启动或访问,并且在一些示例中,小规模外部应用中没有部分或有限的部分可以从消息客户端104之外被访问。可以通过消息客户端104从外部应用服务器110接收与小规模外部应用相关联的标记语言文档并处理这样的文档来启动小规模外部应用。
响应于确定外部资源是本地安装的外部应用109,消息客户端104通过执行与外部应用109对应的本地存储的代码来指示客户端设备102启动外部应用109。响应于确定外部资源是基于web的资源,消息客户端104与外部应用服务器110通信以获得与所选择的资源对应的标记语言文档。然后,消息客户端104处理获得的标记语言文档以在消息客户端104的用户接口内呈现基于web的外部资源。
消息客户端104可以向客户端设备102的用户或与这样的用户有关的其他用户(例如,“朋友”)通知在一个或更多个外部资源中发生的活动。例如,消息客户端104可以向消息客户端104中的对话(例如,聊天会话)的参与者提供与用户组中的一个或更多个成员当前或最近使用外部资源有关的通知。可以邀请一个或更多个用户加入活动的外部资源或者启动最近使用过但当前不活动(在朋友组中)的外部资源。外部资源可以向对话中的参与者(每个参与者使用相应的消息客户端104)提供与进入聊天会话中的用户组中的一个或更多个成员共享外部资源中的项目、状况、状态或定位的能力。共享项可以是交互式聊天卡,聊天的成员可以利用该交互式聊天卡进行交互,例如,以启动对应的外部资源,查看外部资源内的特定信息,或者将聊天的成员带到外部资源内的特定定位或状态。在给定的外部资源内,可以在消息客户端104上发送响应消息给用户。外部资源可以基于外部资源的当前上下文选择性地将不同的媒体项包括在响应中。
消息客户端104可以向用户呈现可用外部资源(例如,第三方或外部应用109或小应用)的列表以启动或访问给定的外部资源。该列表可以被呈现在上下文敏感菜单中。例如,表示外部应用109(或小应用)中的不同的外部应用的图标可以基于用户如何启动菜单(例如,从对话界面或从非对话界面)而变化。
系统架构
图2是示出根据一些示例的关于消息系统100的进一步细节的框图。具体地,消息系统100被示出为包括消息客户端104和应用服务器114。消息系统100包含若干子系统,这些子系统在客户端侧由消息客户端104支持并且在服务器侧由应用服务器114支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、增强系统208、地图系统210、游戏系统212和外部资源系统220。
短暂定时器系统202负责实施由消息客户端104和消息服务器118对内容进行临时或时间受限的访问。短暂定时器系统202包含若干定时器,这些定时器基于与消息或消息集合(例如,故事)相关联的持续时间和显示参数,选择性地实现经由消息客户端104访问(例如,用于呈现和显示)消息和相关联的内容。下面提供关于短暂定时器系统202的操作的其他细节。
集合管理系统204负责管理媒体的组和集合(例如,文本、图像视频和音频数据的集合)。可以将内容(例如,包括图像、视频、文本和音频的消息)的集合组织成“事件图库”或“事件故事”。可以使这样的集合在指定时间段例如在与内容有关的事件的持续时间内可用。例如,可以使与音乐会有关的内容在该音乐会的持续时间内作为“故事”可用。集合管理系统204还可以负责向消息客户端104的用户接口发布提供存在特定集合的通知的图标。
此外,集合管理系统204还包括策展接口206,该策展接口206允许集合管理器能够管理和策展特定内容集合。例如,策展接口206使得事件组织者能够策展与特定事件有关的内容集合(例如,删除不适当的内容或冗余消息)。此外,集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些示例中,可以向用户支付对将用户生成的内容包括到集合中的补偿。在这样的情况下,策展管理系统204进行操作以自动地向这样的用户进行支付以使用他们的内容。
增强系统208提供使得用户能够增强(例如,注解或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如,增强系统208提供与生成和发布由消息系统100处理的消息的媒体覆盖有关的功能。增强系统208基于客户端设备102的地理定位可操作地向消息客户端104供应媒体覆盖或增强(例如,图像滤波器)。在另一示例中,增强系统208基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息客户端104供应媒体覆盖。媒体覆盖可以包括音频和视觉内容和视觉效果。音频和视觉内容的示例包括图片、文本、标识、动画和声音效果。视觉效果的示例包括颜色覆盖。音频及视觉内容或视觉效果可以应用于客户端设备102处的媒体内容项(例如,照片)。例如,媒体覆盖可以包括可以覆盖在由客户端设备102拍摄的照片之上的文本或者图像。在另一示例中,媒体覆盖包括定位标识覆盖(例如,威尼斯海滩)、实况事件名称或商家名称覆盖(例如,海滩咖啡馆)。在另一示例中,增强系统208使用客户端设备102的地理定位来识别包括客户端设备102的地理定位处的商家的名称的媒体覆盖。媒体覆盖可以包括与商家相关联的其他标记。媒体覆盖可以被存储在数据库126中并通过数据库服务器120访问。
在一些示例中,增强系统208提供基于用户的发布平台,该基于用户的发布平台使得用户能够选择地图上的地理定位并上传与所选择的地理定位相关联的内容。用户还可以指定应当向其他用户提供特定媒体覆盖的环境。增强系统208生成包括所上传的内容的媒体覆盖并将所上传的内容与所选择的地理定位相关联。
在其他示例中,增强系统208提供基于商家的发布平台,该平台使得商家能够经由出价过程选择与地理定位相关联的特定媒体覆盖。例如,增强系统208将最高出价商家的媒体覆盖与对应地理定位相关联达预定义时间量。
地图系统210提供各种地理定位功能,并且支持由消息客户端104呈现基于地图的媒体内容和消息。例如,地图系统210使得能够在地图上显示(例如,存储在简档数据316中的)用户图标或化身,以在地图的上下文中指示用户的“朋友”的当前或过去定位,以及由这样的朋友生成的媒体内容(例如,包括照片和视频的消息的集合)。例如,由用户从特定地理定位发布到消息系统100的消息可以在消息客户端104的地图界面上在地图的上下文中在该特定定位处显示给特定用户的“朋友”。用户还可以经由消息客户端104与消息系统100的其他用户(例如,使用适当的状况化身来)共享他或她的定位和状况信息,其中,在消息客户端104的地图界面的上下文中该定位和状况信息被类似地显示给选择的用户。
游戏系统212在消息客户端104的上下文中提供各种游戏功能。消息客户端104提供游戏界面,该游戏界面提供可以由用户在消息客户端104的上下文中启动并且与消息系统100的其他用户一起玩的可用游戏(例如,基于web的游戏或基于web的应用)的列表。消息系统100还使得特定用户能够通过从消息客户端104向其他用户发出邀请来邀请这样的其他用户参与玩特定游戏。消息客户端104还支持在玩游戏的上下文中的语音消息和文本消息(例如,聊天)两者,为游戏提供排行榜,并且还支持提供游戏内奖励(例如,钱币和物品)。
外部资源系统220为消息客户端104提供与外部应用服务器110进行通信以启动或访问外部资源的接口。每个外部资源(app)服务器110托管例如基于标记语言(例如,HTML5)的应用或外部应用(例如,在消息客户端104外部的游戏、实用程序、支付或乘车共享应用)的小规模版本。消息客户端104可以通过从与基于web的资源相关联的外部资源(app)服务器110访问HTML5文件来启动基于web的资源(例如,应用)。在某些示例中,由外部资源服务器110托管的应用利用由消息服务器118提供的软件开发工具包(SDK)以JavaScript进行编程。SDK包括应用编程接口(API),其具有可以由基于web的应用调用或激活的功能。在某些示例中,消息服务器118包括JavaScript库,该JavaScript库提供对于消息客户端104的某些用户数据的给定第三方资源访问权限。HTML5用作用于对游戏进行编程的示例技术,但是可以使用基于其他技术编程的应用和资源。
为了将SDK的功能集成到基于web的资源中,SDK由外部资源(app)服务器110从消息服务器118下载或者由外部资源(app)服务器110以其他方式接收。一旦被下载或接收到,则SDK作为基于web的外部资源的应用代码的一部分被包括在内。然后,基于web的资源的代码可以调用或激活SDK的某些功能以将消息客户端104的特征集成到基于web的资源中。
存储在消息服务器118上的SDK有效地提供了外部资源(例如,第三方或外部应用109或小应用与消息客户端104)之间的桥接。这为用户提供了在消息客户端104上与其他用户通信的无缝体验,同时还保留了消息客户端104的外观和感觉。为了桥接外部资源与消息客户端104之间的通信,在某些示例中,SDK促进外部资源服务器110与消息客户端104之间的通信。在某些示例中,在客户端设备102上运行的WebViewJavaScriptBridge在外部资源与消息客户端104之间建立两个单向通信通道。在外部资源与消息客户端104之间经由这些通信通道异步地发送消息。将每个SDK函数调用作为消息和回调进行发送。每个SDK函数都是通过构建唯一的回调标识符并发送具有该回调标识符的消息来实现的。
通过使用SDK,并非来自消息客户端104的所有信息都与外部资源服务器110共享。SDK基于外部资源的需要来限制共享哪些信息。在某些示例中,每个外部资源服务器110将与基于web的外部资源对应的HTML5文件提供给消息服务器118。消息服务器118可以在消息客户端104中添加基于web的外部资源的视觉表示(例如,盒子艺术或其他图形)。一旦用户通过消息客户端104的GUI选择视觉表示或者指示消息客户端104访问基于web的外部资源的特征,则消息客户端104获得HTML5文件并且使访问基于web的外部资源的特征所需的资源实例化。
消息客户端104呈现外部资源的图形用户接口(例如,登录页面或标题画面)。在呈现登录页面或标题画面期间、之前或之后,消息客户端104确定所启动的外部资源是否先前已被授权访问消息客户端104的用户数据。响应于确定所启动的外部资源先前已被授权访问消息客户端104的用户数据,消息客户端104呈现外部资源的包括外部资源的功能和特征的另一图形用户接口。响应于确定所启动的外部资源先前未被授权访问消息客户端104的用户数据,在显示外部资源的登录页面或标题画面的阈值时间段(例如,3秒)之后,消息客户端104向上滑动用于授权外部资源访问用户数据的菜单(例如,将菜单动画化为从屏幕底部向屏幕中间或其他部分显露)。该菜单标识了外部资源将被授权使用的用户数据的类型。响应于接收到对接受的选项的用户选择,消息客户端104将外部资源添加至授权的外部资源的列表,并且允许外部资源从消息客户端104访问用户数据。在一些示例中,外部资源由消息客户端104根据OAuth 2框架来授权访问用户数据。
消息客户端104基于被授权的外部资源的类型来控制与外部资源共享的用户数据的类型。例如,包括全规模的外部应用(例如,第三方或外部应用109)的外部资源被提供有对第一类型的用户数据(例如,具有或不具有不同化身特性的用户的仅二维化身)的访问权限。作为另一示例,包括外部应用的小规模版本(例如,第三方应用的基于web的版本)的外部资源被提供有对第二类型的用户数据(例如,支付信息、用户的二维化身、用户的三维化身、以及具有各种化身特性的化身)的访问权限。化身特性包括定制化身的外观和感觉的不同方式,例如不同的姿态、面部特征、服装等。
在一些实施方式中,消息客户端104呈现允许用户例如通过记录最多60秒的声音来创建自定义声音片段的界面。例如,如图5所示,消息客户端104响应于用户选择音乐图标520,呈现具有声音菜单530的图形用户接口500。在一些情况下,音乐图标520最初被呈现为在实时视频馈送510或者先前捕获的视频或图像内容之上的叠加菜单。该叠加菜单允许用户从各种增强现实项目和定制中进行选择,以修改实时视频馈送或者先前捕获的视频或图像内容。
响应于接收到对音乐图标520的用户选择,菜单530使显示向上滑动以从底部覆盖至少一半的画面。菜单530包括由各种艺术家或第三方提供的一个或更多个声音片段,用户可以这些声音片段中进行选择。选择所显示的任何一个声音片段,会导致与所选择的声音片段对应的艺术家的声音片段被播放。用户可以将表示所选择的声音片段的缩略图图像拖到实时视频馈送510或者先前捕获的视频或图像内容,以将所选择的声音片段并入实时视频馈送510或者先前捕获的视频或图像内容。以这种方式,当用户查看实时视频馈送510或者先前捕获的视频或图像内容时,声音被自动播放。而且,如果用户与第二用户(例如,朋友)共享并入了缩略图图像的实时视频馈送510或者先前捕获的视频或图像内容,则在第二用户查看已共享的实时视频馈送510或者先前捕获的视频或图像内容时,所选择的声音被自动向第二用户回放。
在一些实施方式中,菜单530包括创建声音选项532。创建声音选项532允许用户记录自定义声音。响应于接收到对创建声音选项532的用户选择,消息客户端104将用户导航到另一个用户界面600(图6)。具体地,消息客户端104激活客户端设备102的图像捕获设备(例如,摄像装置),并且开始接收来自图像捕获设备的实时视频馈送。消息客户端104使所接收的实时视频馈送模糊或变暗,并且呈现模糊或变暗的视频馈送作为图像内容610。消息客户端104将声音记录选项640呈现为图像内容610之上的叠加图标。
为了开始记录给定声音,消息客户端104接收对声音记录选项640的用户选择(第一输入)。响应于接收到对声音记录选项640的用户选择,消息客户端104调整画面的属性以向用户指示正在基于由客户端设备102的麦克风捕获的音频内容来记录声音。例如,消息客户端104在画面的全部或指定部分周围显示边界620。作为另一个示例,消息客户端104开始缓慢地增加和减少画面的亮度以指示正在记录声音。
消息客户端104响应于接收到选择声音记录选项640的第一输入,开始存储由麦克风捕获的音频内容。当音频内容被存储时,在声音记录选项640内或者与声音记录选项640相关联地呈现进度条642。进度条642连续进行并且在尺寸上增加以填满呈现声音记录选项640的显示的部分。例如,声音记录选项640可以是圆圈,而进度条642可以用某种颜色或一组随机的颜色慢慢填充该圆圈。进度条642可以是任何合适的形状和大小以填充声音记录选项640。在一些情况下,进度条642完全填充声音记录选项640所需的时间量可以取决于正在记录的声音的最大允许长度或持续时间并且基于其而变化。例如,消息客户端104可以为记录单个声音片段设置60秒的限制。在这种情况下,进度条642响应于接收到选择声音记录选项640的第一输入而开始缓慢地填充声音记录选项640,并且可以在60秒之后完成填充声音记录选项640。在一些情况下,进度条642可以是圆形线,该圆形线在声音记录选项640内部或外部的一个位置处开始,并且在围绕圆形声音记录选项640前进之后在声音记录选项640内部或外部的另一个位置处终止。在一些情况下,终止位置可以与开始位置相同,在这种情况下,圆形线在指定的允许记录声音的最大时间(例如60秒)之后,围绕声音记录选项640的外部或内部形成完整的环。圆形线的颜色或样式可以与声音记录选项640不同。一旦进度条642到达终止位置或结束位置(例如,当进度条642完全填充声音记录选项640或者当在声音记录选项640周围或内部形成完整的环时),音频内容停止被捕获和记录,并且包括被捕获的最后60秒音频的声音片段被自动存储。
消息客户端104呈现波形630,该波形630在视觉上表示由麦克风捕获的声音或音频内容。在一个示例中,消息客户端104在接收到选择声音记录选项640的第一输入之后开始使波形630动画化。这在视觉上通知用户,音频内容当前正在被客户端设备102的麦克风接收和捕获。波形630的颜色特性和属性可以与进度条642的颜色特性和属性相同或不同。波形630和进度条642的颜色特性和属性可以与边界620的颜色特性和属性相同或不同。
消息客户端104在记录由麦克风捕获的音频内容时,可以接收再次选择声音记录选项640的第二输入。在一个示例中,第一输入可以由用户的手指按住声音记录选项640不放来提供,而第二输入可以是手指从声音记录选项640释放。响应于接收到第二输入,消息客户端104终止记录由麦克风捕获的音频内容。第二输入可以在进度条642进行到结束位置之前(例如,在进度条642完全填满声音记录选项640之前)被接收。
在消息客户端104完成捕获声音片段之后(例如,当进度条642到达结束位置时或者当接收到选择声音记录选项640的第二输入时自动地),消息客户端104呈现包括与声音片段相关联的各种选项的画面700(图7)。这些选项包括声音名称选项710,声音隐私状态选择选项720,属性信息选项740以及声音片段调整选项730。在呈现具有各种选项的画面700的同时,声音片段在背景中连续循环。当用户与声音片段调整选项730互动以修剪声音片段的开始和结束位置时,在背景中连续循环的声音片段可以被改变为持续时间更短。
声音名称选项710可以是允许用户为记录的声音指定名称或标题的文本框。在一些实施方式中,声音名称选项710允许用户上传或选择缩略图图像以表示所记录的声音。消息客户端104确定用户输入的名称是否违反一个或更多个限制(例如,该名称是否包括辱骂性或攻击性语言)。在这种情况下,消息客户端104提示用户在声音名称选项710中指定替选的名称。
声音隐私状态选择选项720可以是切换开关,切换开关允许用户就声音是私人的还是公共的而进行打开/关闭的切换。响应于将选项720设置为指示记录的声音是公共的,呈现属性信息选项740。属性信息选项740可以是允许用户指定声音的创建者的名称的文本框。在一些示例中,属性信息选项740允许用户选择表示所记录的声音的创建者的头像。如果声音隐私状态选择选项720被设置为私人状态,则属性信息选项740可以保持隐藏。在默认情况下,声音隐私状态选择选项720被设置为私人设置。
在一些实施方式中,消息客户端104确定用户是否先前已经创建了公共声音。具体地,消息客户端104确定用户是否曾经针对用户记录的任何先前声音将选项720设置为公共设置。如果用户没有针对用户记录的任何先前声音将选项720设置为公共设置,并且响应于确定用户第一次将选项720设置为公共设置,消息客户端104呈现对话框。该对话框通知用户,公共设置允许消息客户端104的其他用户将声音片段用于他们用自己的客户端设备102捕获的图像或视频内容。一旦用户取消该对话框,则呈现属性信息选项740,并且声音片段的隐私设置被设置为公共的。
如下文更详细地说明的,隐私声音设置允许创建声音的用户(例如,通过将表示声音的缩略图(一个或更多个图形)拖入图像或视频)将声音并入图像或视频。将结合图9讨论表示声音片段的一组说明性缩略图。并入的声音取代了图像或视频的音轨。一旦用户选择了共享与私人声音相关联的图像或视频的选项,该图像或视频就被发送给一个或更多个其他用户。当接收方用户查看图像或视频时,相关联的声音片段与图像或视频一起被呈现。不向接收方用户呈现被拖入图像或视频以使声音片段与图像或视频相关联的缩略图。阻止接收方用户与其他用户(例如,朋友的朋友)共享声音片段或者包括声音片段的图像或视频。在一些示例中,接收方用户可以选择与另一个朋友共享包括相关联的私人声音片段的图像或视频的选项。响应于选择与另一个朋友共享图像或视频的选项,仅将图像或视频内容被发送给另一个朋友,而不发送私人声音片段。当其他朋友查看图像或视频时,不呈现或回放声音,因为声音片段最初被设置为私人状态。
声音片段的公共设置允许接收方用户继续与其他用户共享声音片段。作为示例,第一用户将表示声音片段的缩略图图像拖到图像或视频上。第一用户可以把缩略图图像放置在图像或视频的任何地方,或者放置在一个或更多个预定位置处。一旦缩略图图像被添加到图像或视频,与缩略图图像相关联的声音片段就取代视频的音频,或者在呈现包括缩略图图像的单个图像的同时自动播放达声音片段的持续时间。包括缩略图图像的图像或视频由第一用户与第二用户共享。第二用户选择查看图像或视频的选项,并且作为响应,向第二用户呈现在由第一用户选择的位置处具有缩略图图像的图像或视频,同时回放声音片段。第二用户可以选择保存与缩略图图像相关联的声音片段的选项。然后,第二用户可以将缩略图图像添加到由第二用户的客户端设备102捕获的另一个视频或图像,以使与缩略图图像相关联的声音片段在访问或显示该图像或视频时被播放。然后,第二用户可以与第三用户共享由第二用户捕获的添加了缩略图的图像或视频。第三用户可以是第二用户的朋友,并且可以是或者可以不是第一用户的朋友。
声音片段调整选项730允许用户修剪所记录的声音片段。例如,声音片段的长度可以是60秒。用户可以移动声音片段调整选项730的竖直条731和732来调整声音片段的开始时间和结束时间以减少声音片段的长度。例如,用户可以将左条731向右移动10秒,以使声音片段的前10秒被删除,并且使声音片段在原来的开始时间的10秒处开始。同样地,用户可以将右条732向左移动5秒,以使声音片段的最后5秒被删除,并且使声音片段提前5秒结束。因此,从60秒的声音片段中共修剪掉15秒。经修剪的声音片段被存储并且与选项710、720和740相关联。
消息客户端104从画面700接收对保存选项(未示出)的用户选择。作为响应,消息客户端104将声音片段与用户所选择和设置的各种选项一起保存。在一些实施方式中,消息客户端104将用户导航到画面800(图8),在画面800中,声音菜单被呈现为叠加在所显示的实时视频馈送或者先前捕获的图像上。声音菜单810包括标有“我的声音”的新选项卡,该选项卡中列出了用户创建的一个或更多个声音或者用户从其他声音中保存的声音,该其他声音是用户从其他用户的图像或视频内容中接收到的。标记为“我的声音”的选项卡可以仅在用户创建或保存了至少一个声音片段之后在菜单530(图5)中呈现。
在声音菜单810中显示的声音列表包括表示每个声音的视觉元素(例如,图标或缩略图)。视觉元素包括声音的指定名称或标题、表示声音的创建者的头像或者表示声音的一个或更多个图形。在一些情况下,视觉元素包括小的波形,当用户选择播放选项以预览与各个视觉元素相关联的声音片段时,这些波形会变得动画化。声音菜单810包括创建声音选项820。选择创建声音选项820将用户导航到画面600以允许用户创建新的自定义声音片段。
在一些实施方式中,声音菜单810在视觉上区分私人声音和公共声音。例如,响应于消息客户端104确定与第一视觉元素830相关联的声音片段是公共声音,第一视觉元素830可以以第一显示格式(例如,第一视觉属性,例如以彩色和地球图标)显示。响应于消息客户端104确定与第二视觉元素840相关联的声音片段是私人声音,第二视觉元素840可以以第二显示格式(例如,第二视觉属性,例如以变灰方式和锁定图标)显示。在一些实施方式中,消息客户端104确定给定声音片段违反版权保护(例如,通过对声音片段运行背景音乐扫描以确定该声音片段是否与其他艺术家的音乐相匹配)。背景音乐扫描是通过从客户端设备102将声音片段上传到服务器来执行的。服务器通过为声音片段生成指纹的处理来运行声音片段。指纹被提供给另一个服务器,该服务器确定该指纹是否与版权曲目相匹配。如果相匹配,则该另一个服务器返回声音片段的指纹违反版权保护的指示。在这种情况下,消息客户端104呈现指示声音片段已被删除的视觉元素850,并且阻止选择视觉元素850以将声音片段与图像或视频结合。
消息客户端104可以从用户接收从声音菜单810中点击或选择给定视觉元素之一的输入。作为响应,消息客户端104检索表示所选择的声音片段的缩略图或者一个或更多个图形。消息客户端104确定所选择的声音片段是公共的还是私人的。响应于确定声音片段是公开的声音片段,消息客户端104允许用户选择性地将检索到的缩略图或者一个或更多个图形放置在图像或视频510上,以使声音片段与图像或视频510相关联。然后,用户可以与消息客户端104的其他用户共享具有相关联的声音片段以及缩略图或一个或更多个图形的图像或视频510。
例如,如图9所示,各种缩略图或者一个或更多个图形900被呈现为用户可以在图像或视频510上定位的贴纸。第一图形910可以是包括表示声音片段的专辑封面和声音片段的标题的贴纸。第一图形910的形状可以是长方形的,并且具有黑色或深色背景。第二图形920可以是放置在视频950上的贴纸,其包括表示声音片段的专辑封面、动画波形和声音片段的标题。第二图形920的形状可以是长方形的,并且具有浅色或白色背景。动画波形在被放置在视频950之上后连续地被动画化,以表示声音来自声音片段而不是视频950的音频。第三图形930可以是包括表示声音片段的专辑封面、动画波形和声音片段的标题的贴纸。第三图形930可以是椭圆形或圆形的。第四图形940可以是以下贴纸,其包括声音片段的名称或标题944;属性信息946,例如声音片段的创建者的头像或创建者的名称;动画波形942;以及声音片段的标题。第四图形940的形状可以是椭圆形或圆形。
响应于确定声音片段是私人声音片段,消息客户端104使声音片段与图像或视频510相关联,并且不在图像或视频510上呈现缩略图或者一个或更多个图形。这允许用户与其他用户共享图像或视频510,而不允许其他用户重新共享或保存私人的声音片段。在其他用户查看或访问他们接收到的图像或视频时,其他用户也看不到与正在回放的声音片段相关联的缩略图或者一个或更多个图形。
消息客户端104可以接收来自用户的从声音菜单810按住给定视觉元素不放的输入。作为响应,消息客户端104呈现与给定视觉元素的声音片段相关联的选项菜单。选项菜单可以包括编辑选项,编辑选项将用户导航到画面700,以修改与声音片段相关联的属性。在一些实施方式中,当通过选择编辑选项导航到画面700时,画面700不包括声音片段调整选项730,因为声音片段在被保存之后不能再被修剪。
选项菜单还可以包括用于删除声音片段的删除选项。选项菜单可以包括共享选项。共享选项允许用户指定与所选择的给定视觉元素相关联的声音片段的一个或更多个接收方。共享选项允许用户只共享与给定视觉元素相关联的声音片段,而不将声音片段添加到共享的图像或视频中。然后,声音片段的接收方可以使用与声音片段相关联的缩略图或者一个或更多个图形将接收到的声音与由接收方的客户端设备102捕获的图像或视频内容相结合。在一些实施方式中,共享选项只呈现给隐私设置为公共的声音片段。
数据架构
图3是示出根据某些示例的可以存储在消息服务器系统108的数据库126中的数据结构300的示意图。虽然数据库126的内容被示出为包括若干表,但是应当理解的是,数据可以存储在其他类型的数据结构中(例如,作为面向对象的数据库)。
数据库126包括存储在消息表302内的消息数据。对于任何特定的一个消息,该消息数据包括至少消息发送者数据、消息接收方(或接收者)数据和有效载荷。下面参照图4描述了关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据中的信息的另外的细节。
实体表306存储实体数据,并且(例如,参考地)链接至实体图308和简档数据316。在实体表306内为其维持记录的实体可以包括个人、公司实体、组织、对象、地点、事件等。无论实体类型如何,消息服务器系统108存储关于其的数据的任何实体都可以是识别的实体。每个实体都被提供有唯一标识符以及实体类型标识符(未示出)。
实体图308存储关于实体之间的关系和关联的信息。这样的关系可能仅仅例如是社交的、职业的(例如,在共同的公司或组织工作)、基于兴趣的或者基于活动的。
简档数据316存储关于特定实体的多种类型的简档数据。基于由特定实体指定的隐私设置,简档数据316可以被选择性地使用并呈现给消息系统100的其他用户。在实体是个人的情况下,简档数据316包括例如用户名、电话号码、地址、设置(例如,通知和隐私设置)、以及用户选择的化身表示(或这样的化身表示的集合)。然后,特定用户可以将这些化身表示中的一个或更多个选择性地包括在经由消息系统100传送的消息的内容中以及在由消息客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状况化身”,其呈现用户可以选择在特定时间传达的状况或活动的图形表示。
在实体是团体的情况下,除了团体名称、成员和相关团体的各种设置(例如,通知)之外,团体的简档数据316还可以类似地包括与团体相关联的一个或更多个化身表示。
数据库126还在增强表310中存储增强数据,例如覆盖物或过滤器。增强数据与视频(视频数据存储在视频表304中)和图像(图像数据存储在图像表312中)相关联并且应用于视频和图像。
在一个示例中,过滤器是在呈现给接收用户期间显示为覆盖在图像或视频上的覆盖物。过滤器可以是各种类型的,包括当发送用户正在编写消息时从由消息客户端104呈现给发送用户的一组过滤器中用户选择的过滤器。其他类型的过滤器包括地理定位过滤器(也称为地理过滤器),其可以基于地理定位被呈现给发送用户。例如,可以基于由客户端设备102的全球定位系统(GPS)单元确定的地理定位信息,由消息客户端104在用户接口内呈现特定于附近或特殊定位的地理定位过滤器。
另一种类型的过滤器是数据过滤器,其可以由消息客户端104基于在消息创建过程期间由客户端设备102收集的其他输入或信息选择性地呈现给发送用户。数据过滤器的示例包括特定定位处的当前温度、发送用户行进的当前速度、客户端设备102的电池寿命或当前时间。
可以存储在图像表312内的其他增强数据包括增强现实内容项(例如,对应于应用镜头或增强现实体验)。增强现实内容项可以是可以添加到图像或视频的实时特殊效果和声音。
如上所述,增强数据包括增强现实内容项、覆盖物、图像变换、AR图像以及指代可以应用于图像数据(例如,视频或图像)的修改的类似项。这包括实时修改,实时修改在图像被使用客户端设备102的设备传感器(例如,一个或更多个摄像装置)进行捕获并且然后在修改的情况下在客户端设备102的屏幕上显示时对图像进行修改。这还包括对存储的内容(例如可以修改的图库中的视频片段)的修改。例如,在具有对多个增强现实内容项的访问权限的客户端设备102中,用户可以使用具有多个增强现实内容项的单个视频片段来查看不同的增强现实内容项将如何修改存储的片段。例如,通过为同一内容选择不同的增强现实内容项,可以将应用不同伪随机运动模型的多个增强现实内容项应用于该同一内容。类似地,实时视频捕获可以与示出的修改一起使用,以示出当前由客户端设备102的传感器捕获的视频图像将如何修改捕获的数据。这样的数据可以简单地显示在画面上而不存储在存储器中,或者由设备传感器捕获的内容可以在进行或不进行修改(或两者)的情况下记录并存储在存储器中。在一些系统中,预览特征可以示出不同的增强现实内容项将同时在显示器中的不同窗口内看起来如何。例如,这可以使得能够同时在显示器上查看具有不同伪随机动画的多个窗口。
因此,使用增强现实内容项的数据和各种系统或使用该数据来修改内容的其他这样的变换系统可以涉及对象(例如,面部、手、身体、猫、狗、表面、对象等)的检测,在这样的对象离开、进入视频帧中的视场以及在视场四处移动时对这样的对象的跟踪,以及在这样的对象被跟踪时对这样的对象的修改或变换。在各种示例中,可以使用用于实现这样的变换的不同方法。一些示例可以涉及生成一个或多个对象的三维网格模型,并在视频内使用模型的变换和动画化纹理来实现变换。在其他示例中,可以使用对对象上的点的跟踪来将图像或纹理(其可以是二维或三维的)放置在所跟踪的位置处。在更进一步的示例中,可以使用视频帧的神经网络分析来将图像、模型或纹理放置在内容(例如,视频的图像或帧)中。因此,增强现实内容项既是指用于在内容中创建变换的图像、模型和纹理,也是指利用对象检测、跟踪和放置实现这样的变换所需的附加建模和分析信息。
可以利用保存在任何种类的计算机化系统的存储器中的任何种类的视频数据(例如,视频流、视频文件等)来执行实时视频处理。例如,用户可以加载视频文件并将其保存在设备的存储器中,或者可以使用设备的传感器生成视频流。此外,可以使用计算机动画模型来处理任何对象,例如人脸和人体的各部分、动物或非生物(例如椅子、汽车或其他对象)。
在一些示例中,当与待变换的内容一起选择特定修改时,待变换的元素由计算设备识别,然后如果待变换的元素存在于视频的帧中,则待变换的元素被检测和跟踪。根据修改请求来修改对象的元素,从而变换视频流的帧。对于不同种类的变换,可以通过不同的方法执行对视频流的帧的变换。例如,对于主要是指对象的元素的变化形式的帧变换,计算对象的每个元素的特征点(例如,使用主动形状模型(ASM)或其他已知方法)。然后,针对对象的至少一个元素中的每一个生成基于特征点的网格。该网格用于跟踪视频流中的对象的元素的后续阶段。在跟踪过程中,每个元素的提及的网格与每个元素的位置对准。然后,在网格上生成附加点。基于修改请求针对每个元素生成第一组第一点,并且基于该组第一点和修改请求针对每个元素生成一组第二点。然后,可以通过基于该组第一点和该组第二点以及网格修改对象的元素,来变换视频流的帧。在这样的方法中,也可以通过跟踪和修改背景来改变或扭曲经修改的对象的背景。
在一些示例中,可以通过计算对象的每个元素的特征点并基于计算的特征点生成网格来执行使用对象的元素改变对象的一些区域的变换。在网格上生成点,并且然后生成基于这些点的各种区域。然后,通过将每个元素的区域与至少一个元素中的每一个的位置对准来跟踪对象的元素,并且可以基于修改请求来修改区域的属性,从而变换视频流的帧。根据具体修改请求,可以以不同的方式变换提及的区域的属性。这样的修改可以涉及:改变区域的颜色;从视频流的帧中移除至少部分区域;将一个或更多个新对象包括在基于修改请求的区域中;以及修改或扭曲区域或对象的元素。在各种示例中,可以使用这样的修改或其他类似修改的任何组合。对于要被动画化的某些模型,可以选择一些特征点作为控制点,以用于确定用于模型动画的选项的整个状态空间。
在使用面部检测来变换图像数据的计算机动画模型的一些示例中,使用特定面部检测算法(例如,Viola-Jones)在图像上检测面部。然后,将主动形状模型(ASM)算法应用于图像的面部区域以检测面部特征参考点。
可以使用适合于面部检测的其他方法和算法。例如,在一些示例中,使用界标来定位特征,该界标表示在所考虑的大多数图像中存在的可区分点。例如,对于面部界标,可以使用左眼瞳孔的定位。如果初始界标不可识别(例如,如果人有眼罩),则可以使用次要界标。这样的界标识别过程可以用于任何这样的对象。在一些示例中,一组界标形成形状。可以使用形状中的点的坐标将形状表示为向量。一个形状利用相似变换(允许平移、缩放和旋转)与另一个形状对准,该相似变换使形状点之间的平均欧几里德距离最小化。平均形状是对准的训练形状的平均。
在一些示例中,开始从与由全局面部检测器确定的面部的位置和大小对准的平均形状搜索界标。然后,这样的搜索重复以下操作的步骤:通过每个点周围的图像纹理的模板匹配来调整形状点的定位来建议暂定形状,然后使暂定形状符合全局形状模型,直到发生收敛。在一些系统中,个别模板匹配是不可靠的,并且形状模型将弱模板匹配的结果进行池化,以形成较强的整体分类器。整个搜索从粗略分辨率到精细分辨率在图像金字塔的每个级别上重复。
变换系统可以在客户端设备(例如,客户端设备102)上捕获图像或视频流,并在客户端设备102上本地执行复杂的图像操纵,同时保持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括大小和形状改变、情绪迁移(例如,将面部从皱眉改变为微笑)、状态迁移(例如,使被摄体变老、减小表观年龄、改变性别)、风格迁移、图形元素应用,以及由已经被配置成在客户端设备102上高效地执行的卷积神经网络实现的任何其他合适的图像或视频操纵。
在一些示例中,用于变换图像数据的计算机动画模型可以由系统使用,在该系统中,用户可以使用具有作为在客户端设备102上操作的消息客户端104的一部分进行操作的神经网络的客户端设备102来捕获用户的图像或视频流(例如,自拍)。在消息客户端104内操作的变换系统确定图像或视频流内的面部的存在并且提供与计算机动画模型相关联的修改图标以变换图像数据,或者计算机动画模型可以被呈现为与本文中描述的接口相关联。修改图标包括以下改变,该改变可以是作为修改操作的一部分的用于修改图像或视频流内的用户的面部的基础。一旦选择了修改图标,则变换系统发起将用户的图像转换以反映所选择的修改图标(例如,在用户上生成笑脸)的过程。一旦图像或视频流被捕获并且指定的修改被选择,则修改的图像或视频流可以呈现在客户端设备102上显示的图形用户接口中。变换系统可以在图像或视频流的一部分上实现复杂的卷积神经网络,以生成和应用所选择的修改。也就是说,用户可以捕获图像或视频流并且一旦修改图标被选择,则实时或接近实时地被呈现修改的结果。此外,当正在捕获视频流时,修改可以是持久的,并且所选择的修改图标保持被切换。机器教导的神经网络可以用于实现这样的修改。
呈现由变换系统执行的修改的图形用户接口可以为用户供应附加的交互选项。这样的选项可以基于用于发起特定计算机动画模型的内容捕获和选择的接口(例如,从内容创建者用户接口发起)。在各种示例中,修改可以在对修改图标的初始选择之后是持久的。用户可以通过轻击或以其他方式选择由变换系统修改的面部来开启或关闭修改,并将其存储以供以后查看或浏览到成像应用的其他区域。在由变换系统修改多个面部的情况下,用户可以通过轻击或选择在图形用户接口内修改和显示的单个面部来全局开启或关闭修改。在一些示例中,可以单独地修改一组多个面部中的各个面部,或者可以通过轻击或选择图形用户接口内显示的各个面部或一系列各个面部来单独切换这样的修改。
故事表314存储关于消息的集合的数据以及相关联的图像、视频或音频数据,这些数据被编译成集合(例如,故事或图库)。特定集合的创建可以由特定用户(例如,在实体表306中维持其记录的每个用户)发起。用户可以以已由该用户创建和发送/广播的内容集合的形式创建“个人故事”。为此,消息客户端104的用户接口可以包括用户可选择的图标,以使得发送用户能够将特定内容添加至他或她的个人故事。
集合还可以构成作为来自多个用户的内容集合的“现场故事”,该内容集合是手动地、自动地或者使用手动技术和自动技术的组合创建的。例如,“现场故事”可以构成来自各种定位和事件的用户提交内容的策展流。可以例如经由消息客户端104的用户接口向其客户端设备使定位服务被启用并且在特定时间处于公共定位事件处的用户呈现选项,以将内容贡献给特定的现场故事。可以由消息客户端104基于他或她的定位向用户标识现场故事。最终结果是从社群角度讲述的“现场故事”。
另外类型的内容集合被称为“定位故事”,该“定位故事”使其客户端设备102位于特定地理定位内(例如,在学院或大学校园)的用户能够对特定集合做出贡献。在一些实施方式中,对定位故事的贡献可能需要第二程度的认证,以验证最终用户属于特定的组织或其他实体(例如,是大学校园的学生)。
如以上提及的,视频表304存储视频数据,在一个示例中,该视频数据与其记录被维持在消息表302内的消息相关联。类似地,图像表312存储与其消息数据存储在实体表306中的消息相关联的图像数据。实体表306可以将来自增强表310的各种增强与存储在图像表312和视频表304中的各种图像和视频相关联。
外部资源授权表存储已被授权访问消息客户端104的用户数据的所有第三方资源(例如,外部应用、外部应用的小规模版本,诸如基于网络的外部应用以及基于网络的游戏应用)的列表。外部资源授权表还针对每个授权的外部资源存储计时器,该计时器在每次使用对应的外部资源时被重置或刷新。也就是说,计时器表示每个外部资源的使用频率或新近度。每当消息客户端104的用户启动或访问外部资源的功能时,外部资源的定时器被重置或刷新。在一些情况下,当给定外部资源的定时器达到阈值(例如90天)时,对应的外部资源被自动取消授权(例如,外部资源访问用户数据的授权被撤销,直到用户重新授权外部资源访问消息客户端104的用户数据)。外部资源授权表还可以存储由消息客户端104提供的用户标识符与使用外部应用的独立版本生成的对应用户账户信息之间的关联。用户标识符被消息客户端104用来检索使用一个版本的外部应用生成的用户账户信息,以纳入或合并到另一个版本的外部应用。
数据通信架构
图4是示出根据一些示例的消息400的结构的示意图,消息400由消息客户端104生成,以用于传送至另外的消息客户端104或消息服务器118。特定消息400的内容用于填充存储在数据库126内的消息表302,该消息表302可由消息服务器118访问。类似地,消息400的内容作为客户端设备102或应用服务器114的“传输中”或“飞行中”数据存储在存储器中。消息400被示为包括以下示例成分:
·消息标识符402:标识消息400的唯一标识符。
·消息文本有效载荷404:要由用户经由客户端设备102的用户接口生成并且包括在消息400中的文本。
·消息图像有效载荷406:由客户端设备102的摄像装置部件捕获的或从客户端设备102的存储器部件检索到的、并且包括在消息400中的图像数据。针对发送或接收到的消息400的图像数据可以存储在图像表312中。
·消息视频有效载荷408:由摄像装置部件捕获或者从客户端设备102的存储器部件检索并且包括在消息400中的视频数据。针对发送或接收到的消息400的视频数据可以存储在视频表304中。
·消息音频有效载荷410:由麦克风捕获或者从客户端设备102的存储器部件检索并且包括在消息400中的音频数据。
·消息增强数据412:表示要应用于消息400的消息图像有效载荷406、消息视频有效载荷408或消息音频有效载荷410的增强的增强数据(例如,过滤器、贴纸或其他注解或增强)。针对发送或接收到的消息400的增强数据可以存储在增强表310中。
·消息持续时间参数414:以秒为单位指示消息的内容(例如,消息图像有效载荷406、消息视频有效载荷408、消息音频有效载荷410)要经由消息客户端104呈现给用户或可由用户访问的时间量的参数值。
·消息地理定位参数416:与消息的内容有效载荷相关联的地理定位数据(例如,纬度坐标和经度坐标)。多个消息地理定位参数416值可以包括在有效载荷中,这些参数值中的每一个与内容中包括的内容项(例如,在消息图像有效载荷406中的特定图像,或者在消息视频有效载荷408中的特定视频)相关联。
·消息故事标识符418:标识一个或更多个内容集合(例如,在故事表314中标识的“故事”)的标识符值,其中消息400的消息图像有效载荷406中的特定内容项与一个或更多个内容集合相关联。例如,可以使用标识符值将消息图像有效载荷406内的多个图像各自与多个内容集合相关联。
·消息标签420:每个消息400可以用多个标签来标记,这样的多个标签中的每一个指示在消息有效载荷中包括的内容的主题。例如,在消息图像有效载荷406中包括的特定图像描绘动物(例如,狮子)的情况下,标签值可以被包括在指示相关动物的消息标签420内。可以基于用户输入手动生成标签值,或者可以使用例如图像识别自动生成标签值。
·消息发送者标识符422:指示在其上生成消息400以及从其发送消息400的客户端设备102的用户的标识符(例如,消息系统标识符、电子邮件地址或设备标识符)。
·消息接收者标识符424:指示消息400被定址到的客户端设备102的用户的标识符(例如,消息系统标识符、电子邮件地址或设备标识符)。
消息400的各组成部分的内容(例如,值)可以是指向表中存储内容数据值的位置的指针。例如,消息图像有效载荷406中的图像值可以是指向图像表312内的位置的指针(或图像表308内的位置的地址)。类似地,消息视频有效载荷408内的值可以指向存储在视频表304内的数据,存储在消息增强数据412内的值可以指向存储在增强表310中的数据,存储在消息故事标识符418内的值可以指向存储在故事表314中的数据,以及存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表306内的用户记录。
图10是示出根据示例实施方式的消息客户端104在执行过程1000中的示例操作的流程图。过程1000可以以计算机可读指令实现,该计算机可读指令用于由一个或更多个处理器执行,使得过程1000的操作可以部分地或全部地由客户端设备102的功能部件执行;因此,下面参照其通过示例的方式描述过程1000。然而,在其他实施方式中,过程1000的操作中的至少一些操作可以部署在各种其他硬件配置上,例如部署在应用服务器114上。过程1000中的操作可以以任何顺序并行地执行,或者可以完全跳过和省略。
在操作1001处,客户端设备102通过消息应用显示声音捕获画面,该声音捕获画面使用户能够记录声音。例如,消息客户端104向用户呈现画面600,该画面600包括使用户能够记录声音的声音记录选项640。
在操作1002处,客户端设备102生成与声音相关联的视觉元素。例如,在声音被记录之后,消息客户端104呈现声音菜单810(图8),该声音菜单810包括表示该声音的视觉元素(例如缩略图或图标)。
在操作1003处,客户端设备102接收从显示的表示不同声音的视觉元素列表对视觉元素的选择。例如,消息客户端104接收从声音菜单810中对视觉元素830的用户选择。在一些情况下,所有存储或记录的声音都具有相同的视觉元素,这些视觉元素被显示,指示它们是用户生成的声音。视觉元素可以基于对应的声音片段是私人的、公共的还是违反准则(例如版权保护)的而显示不同的视觉属性。
在操作1004处,客户端设备102基于声音的隐私状态,有条件地将表示声音的一个或更多个图形添加到用户选择的位置处的一个或多个图像。例如,消息客户端104确定与所选择的视觉元素相关联的声音片段是私人的还是公共的。如果声音片段具有公共的隐私状态,则消息客户端104呈现表示声音片段的图形或缩略图贴纸,并且允许用户将该图形或缩略图置于图像或视频的用户选择的部分。如果声音片段具有私人的隐私状态,则消息客户端104使声音片段与图像或视频相关联,并且不将图形或缩略图并入图像或视频。在这种情况下,声音片段取代视频的声音或者与图像相关联,使得当图像或视频被显示给给定用户或者与之共享图像或视频的用户时,播放声音片段。
在操作1004处,客户端设备102将播放与视觉元素相关联的声音连同显示一个或更多个图像一起进行。
机器架构
图11是机器1100的图解表示,在该机器1100中可以执行用于使机器1100执行本文中所讨论的任何一种或更多种方法的指令1108(例如,软件、程序、应用、小程序、app或其他可执行代码)。例如,指令1108可以使机器1100执行本文中所描述的任何一种或更多种方法。指令1108将通用的非编程的机器1100转换成被编程为以所描述的方式执行所描述和所示出的功能的特定机器1100。机器1100可以作为独立设备操作,或者可以耦接(例如,联网)至其他机器。在联网部署中,机器1100可以在服务器-客户端网络环境中以服务器机器或客户端机器的资格操作,或者作为对等(peer-to-peer)(或分布式)网络环境中的对等机器操作。机器1100可以包括但不限于:服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能电器)、其他智能设备、网络设备、网络路由器、网络交换机、网络桥接器或能够顺序地或以其他方式执行指定要由机器1100采取的动作的指令1108的任何机器。此外,虽然仅示出了单个机器1100,但是术语“机器”还应当被视为包括单独地或联合地执行指令1108以执行本文中讨论的任何一种或更多种方法的机器的集合。例如,机器1100可以包括客户端设备102或者形成消息服务器系统108的一部分的若干服务器设备中的任何一个。在一些示例中,机器1100还可以包括客户端系统和服务器系统两者,其中特定方法或算法的某些操作在服务器侧执行,并且其中特定方法或算法的某些操作在客户端侧执行。
机器1100可以包括可以被配置成经由总线1140彼此通信的处理器1102、存储器1104和输入/输出(I/O)部件1138。在示例中,处理器1102(例如,中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令1108的处理器1106和处理器1110。术语“处理器”旨在包括多核处理器,该多核处理器可以包括可以同时执行指令的两个或更多个独立处理器(有时被称为“核”)。尽管图11示出了多个处理器1102,但是机器1100可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如,多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器、或者其任意组合。
存储器1104包括主存储器1112、静态存储器1114以及存储单元1116,其均可由处理器1102经由总线1140访问。主存储器1104、静态存储器1114和存储单元1116存储实现本文所述的方法或功能中的任何一种或更多种的指令1108。指令1108在其由机器1100执行期间还可以完全地或部分地驻留在主存储器1112内、在静态存储器1114内、在存储单元1116内的机器可读介质1118内、在处理器1102中的至少之一内(例如,在处理器的高速缓存存储器内)或者在其任何合适的组合内。
I/O部件1138可以包括用于接收输入、提供输出、产生输出、传送信息、交换信息、捕获测量结果等的各种部件。在特定机器中包括的特定I/O部件1138将取决于机器的类型。例如,诸如移动电话的便携式机器可以包括触摸输入设备或其他这样的输入机构,而无头(headless)服务器机器可能将不包括这样的触摸输入设备。应当认识到的是,I/O部件1138可以包括图11中未示出的许多其他部件。在各种示例中,I/O部件1138可以包括用户输出部件1124和用户输入部件1126。用户输出部件1124可以包括视觉部件(例如,诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)之类的显示器)、声学部件(例如,扬声器)、触觉部件(例如,振动马达、阻力机构)、其他信号生成器等。用户输入部件1126可以包括字母数字输入部件(例如,键盘、被配置成接收字母数字输入的触摸屏、光学键盘或其他字母数字输入部件)、基于点的输入部件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或另一指向仪器)、触觉输入部件(例如,物理按钮、提供触摸或触摸手势的定位和/或力的触摸屏或其他触觉输入部件)、音频输入部件(例如,麦克风)等。
在另一示例中,I/O部件1138可以包括:生物计量部件1128、运动部件1130、环境部件1132、或位置部件1134,以及各种各样的其他部件。例如,生物计量部件1128包括用于检测表达(例如,手表达、面部表达、声音表达、身体姿态或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、出汗或脑波)、识别人(例如,声音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件1130包括加速度传感器部件(例如,加速计)、重力传感器部件、旋转传感器部件(例如,陀螺仪)。
环境部件1132包括例如:一个或更多个摄像装置(具有静止图像/照片和视频能力)、照明传感器部件(例如,光度计)、温度传感器部件(例如,检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如,气压计)、声学传感器部件(例如,检测背景噪声的一个或更多个麦克风)、接近传感器部件(例如,检测附近对象的红外传感器)、气体传感器(例如,为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。
关于摄像装置,客户端设备102可以具有摄像装置系统,该摄像装置系统包括例如在客户端设备102的前表面上的前置摄像装置和客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如,“自拍”),然后可以用上述增强数据(例如,过滤器)对该静止图像和视频进行增强。例如,后置摄像装置可以用于以更常规的摄像装置模式捕获静止图像和视频,这些图像类似地用增强数据进行增强。除了前置摄像装置和后置摄像装置之外,客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。
此外,客户端设备102的摄像装置系统可以包括双后置摄像装置(例如,主摄像装置以及深度感测摄像装置),或者甚至在客户端设备102的前后侧上包括三重、四重或五重后置摄像装置配置。例如,这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。
位置部件1134包括定位传感器部件(例如,GPS接收器部件)、海拔传感器部件(例如,检测气压的高度计或气压计,根据气压可以得到海拔)、取向传感器部件(例如,磁力计)等。
可以使用各种技术来实现通信。I/O部件1138还包括通信部件1136,通信部件1136可操作以经由相应的耦接或连接将机器1100耦接至网络1120或设备1122。例如,通信部件1136可以包括与网络1120对接的网络接口部件或其他合适的设备。在另外的示例中,通信部件1136可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、
Figure BDA0004123715700000281
部件(例如,
Figure BDA0004123715700000282
低功耗)、
Figure BDA0004123715700000283
部件以及经由其他模态提供通信的其他通信部件。设备1122可以是另一机器或各种外围设备中的任何外围设备(例如,经由USB耦接的外围设备)。
此外,通信部件1136可以检测标识符,或者包括可操作以检测标识符的部件。例如,通信部件1136可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如,用于检测诸如通用产品码(UPC)条形码的一维条形码、诸如快速响应(QR)码的多维条形码、Aztec码、数据矩阵(Data Matrix)、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(Ultra Code)、UCC RSS-2D条形码以及其他光学码的光学传感器)或声学检测部件(例如,用于识别经标记的音频信号的麦克风)。此外,可以经由通信部件1136得到各种信息,例如经由因特网协议(IP)地理定位的定位、经由
Figure BDA0004123715700000291
信号三角测量的定位、经由检测NFC信标信号的定位等,该NFC信标信号可以指示特定定位。
各种存储器(例如,主存储器1112、静态存储器1114以及处理器1102的存储器)以及存储单元1116可以存储由本文中描述的方法或功能中的任何一个或更多个实现或使用的一组或更多组指令和数据结构(例如,软件)。在由处理器1102执行的情况下,这些指令(例如,指令1108)使得各种操作实现所公开的示例。
可以经由网络接口设备(例如,通信部件1136中包括的网络接口部件),使用传输介质并且使用多个公知的传输协议中的任意一种传输协议(例如,超文本传输协议(HTTP)),通过网络1120来发送或接收指令1108。类似地,可以使用传输介质经由与设备1122的耦接(例如,对等耦接)来发送或接收指令1108。
软件架构
图12是示出可以安装在本文中所描述的设备中的任何一个或更多个上的软件架构1204的框图1200。软件架构1204由诸如包括处理器1220、存储器1226和I/O部件1238的机器1202的硬件来支持。在该示例中,软件架构1204可以被概念化为层的堆叠,其中每个层提供特定功能。软件架构1204包括诸如操作系统1212、库1210、框架1208和应用1206的层。在操作上,应用1206通过软件堆栈来激活API调用1250,并且响应于API调用1250接收消息1252。
操作系统1212管理硬件资源并且提供公共服务。操作系统1212包括例如内核1214、服务1216和驱动器1222。内核1214充当硬件层与其他软件层之间的抽象层。例如,内核1214提供存储器管理、处理器管理(例如,调度)、部件管理、联网和安全设置以及其他功能。服务1216可以为其他软件层提供其他公共服务。驱动器1222负责控制底层硬件或与底层硬件对接(interface)。例如,驱动器1222可以包括显示驱动器、摄像装置驱动器、
Figure BDA0004123715700000301
Figure BDA0004123715700000302
低功耗驱动器、闪存驱动器、串行通信驱动器(例如,USB驱动器)、
Figure BDA0004123715700000303
驱动器、音频驱动器、电力管理驱动器等。
库1210提供由应用1206使用的公共低级基础设施。库1210可以包括系统库1218(例如,C标准库),系统库1218提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。此外,库1210可以包括API库1224,例如媒体库(例如,用于支持各种媒体格式的呈现和操纵的库,该媒体格式例如是运动图像专家组4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如,用于在显示器上的图形内容中以二维(2D)和三维(3D)进行呈现的OpenGL框架)、数据库库(例如,提供各种关系数据库功能的SQLite)、web库(例如,提供网络浏览功能的WebKit)等。库1210还可以包括各种其他库1228,以向应用1206提供许多其他API。
框架1208提供由应用1206使用的公共高级基础设施。例如,框架1208提供各种图形用户接口(GUI)功能、高级资源管理和高级定位服务。框架1208可以提供可以由应用1206使用的广泛的其他API,其中一些API可以特定于特定操作系统或平台。
在示例中,应用1206可以包括家庭应用1236、联系人应用1230、浏览器应用1232、书籍阅读器应用1234、定位应用1242、媒体应用1244、消息应用1246、游戏应用1248和诸如外部应用1240的各种各样的其他应用。应用1206是执行程序中定义的功能的程序。可以采用各种编程语言来创建以各种方式构造的应用1206中的一个或更多个,编程语言例如是面向对象的编程语言(例如,Objective-C、Java或C++)或过程编程语言(例如,C语言或汇编语言)。在特定示例中,外部应用1240(例如,由特定平台的供应商以外的实体使用ANDROIDTM或IOSTM软件开发工具包(SDK)开发的应用)可以是在诸如IOSTM、ANDROIDTM
Figure BDA0004123715700000311
Phone的移动操作系统或另外的移动操作系统上运行的移动软件。在该示例中,外部应用1240可以激活由操作系统1212提供的API调用1250以促进本文中描述的功能。
术语表
“载波信号”是指能够存储、编码或携载由机器执行的指令的任何无形介质并且包括数字或模拟通信信号或其他无形介质以有助于这样的指令的通信。可以经由网络接口设备使用传输介质在网络上发送或接收指令。
“客户端设备”是指与通信网络对接以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。
“通信网络”是指网络的一个或更多个部分,该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、
Figure BDA0004123715700000312
网络、另外类型的网络或者两个或更多个这样的网络的组合。例如,网络或网络的一部分可以包括无线网络或蜂窝网络,并且耦接可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中,耦接可以实现各种类型的数据传输技术中的任何数据传输技术,例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、增强数据速率GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动通讯系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。
“部件”是指具有以下边界的设备、物理实体或逻辑:该边界由功能或子例程调用、分支点、API或被提供用于对特定处理或控制功能进行划分或模块化的其他技术来定义。部件可以经由其接口与其他部件组合以执行机器过程。部件可以是被设计用于与其他部件一起使用的经封装的功能硬件单元并且可以是通常执行相关功能中的特定功能的程序的一部分。
部件可以构成软件部件(例如,实施在机器可读介质上的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元,并且可以以某种物理方式来配置或布置。在各种示例实施方式中,可以通过软件(例如,应用或应用部分)将一个或更多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或更多个硬件部件(例如,处理器或处理器组)配置成进行操作以执行如本文描述的某些操作的硬件部件。
也可以机械地、电子地或以其任何合适的组合来实现硬件部件。例如,硬件部件可以包括被永久地配置成执行某些操作的专用电路或逻辑。硬件部件可以是诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的专用处理器。硬件部件还可以包括通过软件临时配置成执行某些操作的可编程逻辑或电路。例如,硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置,则硬件部件成为被唯一地定制成执行配置的功能的特定的机器(或机器的特定部件),并且不再是通用处理器。将理解的是,机械地、在专用和永久配置的电路中还是在临时配置的电路(例如,由软件配置)中实现硬件部件的决定可以由成本和时间考虑来驱动。相应地,短语“硬件部件”(或者“硬件实现的部件”)应当被理解成包含有形实体,即为被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)成以某种方式操作或者执行本文中描述的某些操作的实体。
考虑硬件部件被临时配置(例如,被编程)的实施方式,硬件部件中的每一个无需在任一时刻处均被配置或实例化。例如,在硬件部件包括通过软件配置而成为专用处理器的通用处理器的情况下,可以将通用处理器在不同时间分别配置成不同的专用处理器(例如,包括不同的硬件部件)。因此,软件相应地配置特定的一个或多个处理器,以例如在一个时刻构成特定硬件部件并且在不同时刻构成不同的硬件部件。
硬件部件可以向其他硬件部件提供信息以及从其他硬件部件接收信息。因此,所描述的硬件部件可以被认为通信地耦接。在同时存在多个硬件部件的情况下,可以通过(例如,通过适当的电路和总线)在两个或更多个硬件部件之间或之中进行信号传输来实现通信。在其中多个硬件部件在不同时间处被配置或实例化的实施方式中,可以例如通过将信息存储在多个硬件部件可以访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件部件之间的通信。例如,一个硬件部件可以执行操作并且将该操作的输出存储在与其通信地耦接的存储器装置中。然后,其他硬件部件可以在随后的时间访问存储器装置以检索所存储的输出并对其进行处理。硬件部件还可以发起与输入设备或输出设备的通信,并且可以对资源进行操作(例如,信息的收集)。
本文描述的示例方法的各种操作可以至少部分地由一个或更多个处理器执行,一个或更多个处理器被临时配置(例如,通过软件)或永久配置成执行相关的操作。无论是被临时地配置还是永久地配置,这样的处理器可以构成进行操作以执行本文中描述的一个或更多个操作或功能的处理器实现的部件。如本文中使用的,“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地,本文中描述的方法可以至少部分地由处理器实现,其中,特定的一个或多个处理器是硬件的示例。例如,方法的至少一些操作可以由一个或更多个处理器1102或者处理器实现的部件执行。此外,一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或作为“软件即服务”(SaaS)操作。例如,操作中的至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行,其中这些操作可经由网络(例如,因特网)以及经由一个或更多个适当的接口(例如,API)访问。某些操作的执行可以分布在处理器之间,不仅仅驻留在单个机器内,而是可以被部署在若干机器上。在一些示例实施方式中,处理器或处理器实现的部件可以位于单个地理定位中(例如,在家庭环境、办公室环境或服务器群内)。在其他示例实施方式中,处理器或处理器实现的部件可以跨若干地理定位分布。
“计算机可读存储介质”是指机器存储介质和传输介质两者。因此,术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“装置可读介质”意指相同的事物,并且可以在本公开内容中可互换地使用。
“短暂消息”是指在有时间限制的持续时间内可访问的消息。短暂消息可以是文本、图像、视频等。短暂消息的访问时间可以由消息发送者设置。替选地,访问时间可以是默认设置或者由接收者指定的设置。无论设置技术如何,该消息都是暂时的。
“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如,集中式或分布式数据库,以及相关联的高速缓存和服务器)。因此,该术语应被视为包括但不限于固态存储器以及光学和磁介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括:非易失性存储器,包括例如半导体存储器设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备;磁盘,诸如内部硬盘和可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物,并且在本公开内容中可以互换地使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质,载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。
“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。
“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质,并且“信号介质”包括数字或模拟通信信号或有助于软件或数据的通信的其他无形介质。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”指的是其的一个或更多个特性以将信息编码在该信号中的方式来设置或改变的信号。术语“传输介质”和“信号介质”指相同的事物并且可以在本公开内容中互换使用。
在不脱离本公开内容的范围的情况下,可以对所公开的实施方式进行改变和修改。这些和其他改变或修改旨在被包括在所附权利要求中表达的本公开内容的范围内。

Claims (20)

1.一种方法,包括:
由消息应用显示声音捕获画面,所述声音捕获画面使用户能够记录声音;
在使用所述声音捕获画面记录所述声音之后,由所述消息应用生成与所述声音相关联的视觉元素;
由所述消息应用接收从显示的表示不同声音的视觉元素列表中对所述视觉元素的选择;
响应于接收到对所述视觉元素的选择,基于所述声音的隐私状态,有条件地将表示所述声音的一个或更多个图形添加到用户选择的位置处的一个或更多个图像;以及
由所述消息应用连同显示所述一个或更多个图像,来播放与所述视觉元素相关联的声音。
2.根据权利要求1所述的方法,还包括:
接收对叠加在由客户端设备捕获的一个或更多个图像上的声音图标的用户选择,所述客户端设备上实现有所述消息应用;以及
响应于接收到对所述声音图标的用户选择,呈现声音菜单,所述菜单包括创建声音的选项。
3.根据权利要求1-2中任一项所述的方法,其中,响应于接收到对所述声音图标的用户选择,显示所述声音捕获画面。
4.根据权利要求1-3中任一项所述的方法,其中,显示所述声音捕获画面包括:
激活客户端设备的视频捕获设备,在所述客户端设备上实现有所述消息应用;
使由所述视频捕获设备捕获的、显示在所述声音捕获画面上的图像模糊或变暗;
在模糊或变暗的图像周围显示边界;以及
在所述声音捕获画面上连同波形来显示声音记录选项。
5.根据权利要求4所述的方法,还包括:
接收选择所述声音记录选项的第一输入;
响应于所述第一输入,开始记录由所述客户端设备的麦克风捕获的音频内容;
接收再次选择所述声音记录选项的第二输入;
响应于所述第二输入,终止记录由所述客户端设备的麦克风捕获的音频内容;以及
存储在所述第一输入与所述第二输入之间记录的音频内容作为所述声音。
6.权利要求1-5中任一项所述的方法,还包括:
在记录所述音频内容的同时,基于所述音频内容使所述波形动画化;以及
在记录所述音频内容的同时,填充与所述声音记录选项相关联的进度条。
7.根据权利要求6所述的方法,其中,所述进度条表示用于记录所述声音的最大持续时间。
8.根据权利要求1-7中任一项所述的方法,其中,记录所述音频内容而不记录由所述视频捕获设备捕获的图像。
9.根据权利要求1-8中任一项所述的方法,还包括:
在使用所述声音捕获画面记录所述声音之后,显示多个选项,所述选项包括用于使名称与所述声音相关联的第一选项以及用于修剪所述声音的开始和结束部分的第二选项。
10.根据权利要求9所述的方法,还包括:在显示所述多个选项的同时循环回放所述声音。
11.根据权利要求9-10中任一项所述的方法,其中,所述选项包括用于使所述声音公共可用的第三选项,所述方法还包括:
接收选择所述第三选项的输入,以使所述声音公共可用;
确定所述第三选项已经由用户选择达第一时间;以及
响应于确定所述第三选项已经由所述用户选择达第一时间,呈现对话框,所述对话框指示所述声音将对所述消息应用的其他用户可用,以并入由所述其他用户捕获的图像中。
12.根据权利要求9-11中任一项所述的方法,其中,所述选项包括用于使所述声音公共可用的第三选项,所述方法还包括:
接收选择所述第三选项的输入,以使所述声音公共可用;以及
呈现属性选项,所述属性选项允许所述用户除了指定所述声音的名称之外还指定所述声音的创建者的名称。
13.根据权利要求1-12中任一项所述的方法,还包括:
确定所述声音的隐私状态;
响应于确定所述声音的隐私状态指示所述声音是私人声音,将第一视觉属性分配给所述列表中的视觉元素;以及
响应于确定所述声音的隐私状态指示所述声音是公共声音,将第二视觉属性分配给所述列表中的视觉元素。
14.根据权利要求13所述的方法,还包括:
确定所述声音的隐私状态指示所述声音是私人声音;
将所述一个或更多个图像以及与所述视觉元素相关联的声音发送给一个或更多个其他用户;
响应于确定所述声音的隐私状态指示所述声音是私人声音,在与所述一个或更多个其他用户相关联的客户端设备上连同所述一个或更多个图像来播放与所述视觉元素相关联的声音,而不呈现表示所述声音的一个或更多个图形;以及
阻止所述一个或更多个其他用户与所述一个或更多个其他用户的各自的朋友共享所述声音。
15.根据权利要求13-14中任一项所述的方法,还包括:
确定所述声音的隐私状态指示所述声音是公共声音;
将所述一个或更多个图像以及与所述视觉元素相关联的声音发送给一个或更多个其他用户;
响应于确定所述声音的隐私状态指示所述声音是公共声音,在与所述一个或更多个其他用户相关联的客户端设备上连同包括表示所述声音的一个或更多个图形的所述一个或更多个图像来播放与所述视觉元素相关联的声音;以及
响应于接收到来自所述一个或更多个其他用户的选择包括在所述一个或更多个图像中的表示所述声音的一个或更多个图形的输入,使所述一个或更多个其他用户能够与所述一个或更多个其他用户的各自的朋友共享所述声音。
16.根据权利要求1-15中任一项所述的方法,其中,所述视觉元素列表在视觉上区分私人声音和公共声音。
17.根据权利要求1-16中任一项所述的方法,其中,表示所述声音的一个或更多个图形包括所述声音的名称、所述声音的创建者的视觉表示和动画波形。
18.根据权利要求17所述的方法,其中,所述声音的名称、所述声音的创建者的视觉表示和所述动画波形被呈现在椭圆形贴纸、矩形贴纸或圆形贴纸中。
19.一种系统,包括:
处理器,所述处理器被配置成执行操作,所述操作包括:
由消息应用显示声音捕获画面,所述声音捕获画面使用户能够记录声音;
在使用所述声音捕获画面记录所述声音之后,由所述消息应用生成与所述声音相关联的视觉元素;
由所述消息应用接收从显示的表示不同声音的视觉元素列表中对所述视觉元素的选择;
响应于接收到对所述视觉元素的选择,基于所述声音的隐私状态,有条件地将表示所述声音的一个或更多个图形添加到用户选择的位置处的一个或更多个图像;以及
由所述消息应用连同显示所述一个或更多个图像,来播放与所述视觉元素相关联的声音。
20.一种非暂态机器可读存储介质,所述非暂态机器可读存储介质包括指令,所述指令在由机器的一个或更多个处理器执行时,使所述机器执行操作,所述操作包括:
由消息应用显示声音捕获画面,所述声音捕获画面使用户能够记录声音;
在使用所述声音捕获画面记录所述声音之后,由所述消息应用生成与所述声音相关联的视觉元素;
由所述消息应用接收从显示的表示不同声音的视觉元素列表中对所述视觉元素的选择;
响应于接收到对所述视觉元素的选择,基于所述声音的隐私状态,有条件地将表示所述声音的一个或更多个图形添加到用户选择的位置处的一个或更多个图像;以及
由所述消息应用连同显示所述一个或更多个图像,来播放与所述视觉元素相关联的声音。
CN202180062836.2A 2020-09-15 2021-09-15 记录的声音的缩略图 Pending CN116057917A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202062706872P 2020-09-15 2020-09-15
US62/706,872 2020-09-15
US16/948,451 2020-09-18
US16/948,451 US11595592B2 (en) 2020-09-15 2020-09-18 Recorded sound thumbnail
PCT/US2021/050399 WO2022060791A1 (en) 2020-09-15 2021-09-15 Recorded sound thumbnail

Publications (1)

Publication Number Publication Date
CN116057917A true CN116057917A (zh) 2023-05-02

Family

ID=78080574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180062836.2A Pending CN116057917A (zh) 2020-09-15 2021-09-15 记录的声音的缩略图

Country Status (5)

Country Link
US (2) US11595592B2 (zh)
EP (1) EP4214917A1 (zh)
KR (1) KR20230066435A (zh)
CN (1) CN116057917A (zh)
WO (1) WO2022060791A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11360733B2 (en) 2020-09-10 2022-06-14 Snap Inc. Colocated shared augmented reality without shared backend
US20230135858A1 (en) * 2021-11-04 2023-05-04 Meta Platforms, Inc. Pre-constructing a collection of digital content
US11949527B2 (en) 2022-04-25 2024-04-02 Snap Inc. Shared augmented reality experience in video chat

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8295958B2 (en) * 2006-08-08 2012-10-23 Thomson Licensing Audio level meter
US8467402B2 (en) * 2008-09-10 2013-06-18 Miselu, Inc. Digital audio communication system
KR101701151B1 (ko) * 2010-09-20 2017-02-02 삼성전자주식회사 휴대 단말기를 이용한 통합 메시지 송수신 방법 및 장치
US20140108084A1 (en) * 2012-10-12 2014-04-17 Crestron Electronics, Inc. Initiating Schedule Management Via Radio Frequency Beacons
US20130132843A1 (en) * 2011-11-23 2013-05-23 BenchFly Inc. Methods of editing personal videograpghic media
US10482163B2 (en) * 2014-04-23 2019-11-19 Klickafy, Llc Clickable emoji
US10038657B2 (en) * 2014-08-18 2018-07-31 Nightlight Systems Llc Unscripted digital media message generation
US20160105388A1 (en) * 2014-10-09 2016-04-14 Footspot, Inc. System and method for digital media capture and related social networking
US20180077096A1 (en) * 2016-09-13 2018-03-15 Mark A. DeMattei Messaging environment for mobile device with multitask toolbar, search engine and keyboard control access to apps and centralized functionality
US10348658B2 (en) * 2017-06-15 2019-07-09 Google Llc Suggested items for use with embedded applications in chat conversations
US10657695B2 (en) 2017-10-30 2020-05-19 Snap Inc. Animated chat presence
US10666587B1 (en) 2018-08-29 2020-05-26 Snap Inc. Media enhancement system

Also Published As

Publication number Publication date
KR20230066435A (ko) 2023-05-15
US20230269345A1 (en) 2023-08-24
US11595592B2 (en) 2023-02-28
WO2022060791A1 (en) 2022-03-24
US20220086367A1 (en) 2022-03-17
EP4214917A1 (en) 2023-07-26

Similar Documents

Publication Publication Date Title
US11546277B2 (en) Third-party resource coordination
CN115552403B (zh) 用于媒体内容项的私人集合的邀请媒体覆盖物
CN115777194B (zh) 包括外部资源停靠栏和抽屉的消息收发系统
CN116671121A (zh) 用于多视频片段捕获的ar内容
US20230269345A1 (en) Recorded sound thumbnail
CN115917506A (zh) 第三方资源授权
CN116324898A (zh) 在消息收发系统中提供基于ar的化妆
US20240094983A1 (en) Augmenting image content with sound
CN116710881A (zh) 针对多视频片段捕获选择音频
CN116349215A (zh) 利用微声音剪辑来聊天
CN117337430A (zh) 消息系统内根据扫描操作的快捷方式
CN116529748A (zh) 消息系统中基于ar的化妆产品集
KR20230019927A (ko) 컨텍스트 전송 메뉴
CN116194184A (zh) 用于同步用户的图形标记生成系统
CN116685995A (zh) 向捕获的视频添加基于时间的字幕
CN117501675A (zh) 呈现由消息应用从第三方资源接收的内容
CN116648895A (zh) 用于捕获多个视频片段的摄像装置模式
KR20230127314A (ko) 멀티 비디오 클립 캡처를 위한 비디오 트리밍
KR20230121918A (ko) 다수의 비디오 클립을 캡처하기 위한 카메라 모드
CN116034577A (zh) 上下文应用菜单
US11768587B2 (en) Electronic transaction activated augmented reality experiences
CN117597940A (zh) 用于呈现适用于摄像装置的功能的用户界面
CN117396849A (zh) 在消息系统内将功能组合成快捷方式
CN117121461A (zh) 用户存在指示数据管理
CN116235500A (zh) 生成用于分享到外部应用的媒体内容项

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination