CN112262367A - 基于用户参与度的音频选择 - Google Patents
基于用户参与度的音频选择 Download PDFInfo
- Publication number
- CN112262367A CN112262367A CN201980039274.2A CN201980039274A CN112262367A CN 112262367 A CN112262367 A CN 112262367A CN 201980039274 A CN201980039274 A CN 201980039274A CN 112262367 A CN112262367 A CN 112262367A
- Authority
- CN
- China
- Prior art keywords
- sound source
- audio
- user
- sound
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000004891 communication Methods 0.000 claims description 155
- 230000002238 attenuated effect Effects 0.000 claims description 9
- 230000009471 action Effects 0.000 description 78
- 230000015654 memory Effects 0.000 description 33
- 230000008569 process Effects 0.000 description 24
- 230000008451 emotion Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 16
- 230000006855 networking Effects 0.000 description 15
- 230000004044 response Effects 0.000 description 15
- 230000008859 change Effects 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 9
- 238000012795 verification Methods 0.000 description 8
- 238000013475 authorization Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 230000004807 localization Effects 0.000 description 4
- 230000036651 mood Effects 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- 239000001307 helium Substances 0.000 description 2
- 229910052734 helium Inorganic materials 0.000 description 2
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 230000003997 social interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 241001417524 Pomacanthidae Species 0.000 description 1
- 241000555745 Sciuridae Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063114—Status monitoring or status determination for a person or group
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
在一个实施例中,一种方法包括从至少两个麦克风的麦克风阵列接收音频输入数据。音频输入数据由第一位置处的第一声源和第二位置处的第二声源生成。该方法还包括计算第一声源的第一参与度度量和第二声源的第二参与度度量。第一参与度度量近似于接收用户对第一声源的兴趣水平,并且第二参与度度量近似于接收用户对第二声源的兴趣水平。该方法还包括确定第一参与度度量大于第二参与度度量,并处理音频输入数据以生成音频输出信号。音频输出信号可以相对于第二声源放大由第一声源产生的声音。
Description
技术领域
本公开总体上涉及音频操纵。
背景
可以包括社交网络网站的社交网络系统可以使它的用户(例如个人或组织)能够与它交互以及通过它彼此交互。社交网络系统可以利用来自用户的输入来在社交网络系统中创建并存储与用户相关联的用户简档(user profile)。用户简档可以包括用户的人口统计信息、通信渠道信息以及关于个人兴趣的信息。社交网络系统还可以用来自用户的输入来创建并存储用户与社交网络系统的其他用户的关系的记录,以及提供服务(例如,发帖墙(wall post)、照片分享、事件组织、消息传送、游戏或广告)以便于在用户之间或当中的社交互动。
社交网络系统可以通过一个或更多个网络向用户的移动设备或其他计算设备发送与它的服务相关的内容或消息。用户还可以在用户的移动设备或其他计算设备上安装软件应用,用于访问用户的用户简档和在社交网络系统内的其他数据。社交网络系统可以生成一组个性化的内容对象以显示给用户,例如关连(connect)到该用户的其他用户的汇集的动态(story)的动态消息(newsfeed)。
智能通信设备(例如智能手机、平板电脑、笔记本电脑或专用音频/视频(audio/video)通信接口)可以包含用于确定其位置、方向或定向的功能,如GPS接收器、指南针、陀螺仪或加速度计。这种设备还可以包括用于无线通信(例如蓝牙通信、近场通信(NFC)、或红外(IR)通信、或与无线局域网(WLAN)或蜂窝电话网络的通信)的功能。这种设备还可以包括一个或更多个摄像机、扫描仪、触摸屏、麦克风或扬声器。移动计算设备还可以执行软件应用,例如游戏、web浏览器或社交网络应用。使用社交网络应用,用户可以与他们的社交网络中的其他用户关连、通信和分享信息。
特定实施例概述
智能通信设备可以用于音频/视频(audio/visual)通信,例如实时或视频聊天或预先录制的音频/视频演示。智能通信设备可以具有“智能音频”组件。智能音频组件可以区分两个或更多个声源,并智能地选择哪些声源相对于其他声源放大。例如,在音频-视频(audio-video)通信会话期间,一个人可能正在她的客厅中谈话,并且电视机也可能打开并发出声音。智能音频组件可以将人的声音识别为人类声音,并且可以相对于电视噪声放大人类声音。这种区分可能不仅限于人对电视的情况。作为示例而非限制,智能音频组件可以(1)区分在同一房间中同时发生的两个或更多个不同的对话,(2)通过计算每个对话的参与度度量来判断一个或更多个接收用户(例如,音频-视频(audio-visual)通信会话的远程参与者)对哪个对话更感兴趣,以及(3)对于接收用户,相对于在房间中的其他对话相对地放大最感兴趣的对话(例如,具有最高参与度度量的对话)。在特定实施例中,智能音频组件可以不计算参与度度量,而是可以遵循用于确定相对地放大或衰减哪个声源的其他规则。
本文公开的实施例仅仅是示例,并且本公开的范围不限于它们。特定实施例可以包括上面公开的实施例的组件、元件、特征、功能、操作或步骤中的全部、一些或没有一个被包括。根据本发明的实施例在涉及方法、存储介质和系统的所附权利要求中被具体公开,其中在一个权利要求类别(例如方法)中提到的任何特征也可以在另一个权利要求类别(例如系统、存储介质或计算机程序产品)中被要求保护。在所附权利要求中的从属性或往回引用仅为了形式原因而被选择。然而,也可以要求保护由对任何前面的权利要求的有意往回引用(特别是多项引用)而产生的任何主题,使得权利要求及其特征的任何组合被公开并且可被要求保护,而不考虑在所附权利要求中选择的从属性。可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合,而且还包括在权利要求中的特征的任何其他组合,其中,在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外,本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征的任何组合或以与所附权利要求的任何特征的任何组合被要求保护。
在根据本发明的实施例中,一种方法,特别是计算机实现的方法,可以包括:
在音频-视频通信会话期间,从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中该音频输入数据由环境内第一位置处的第一声源和环境内第二位置处的第二声源生成;
计算第一声源的第一参与度度量和第二声源的第二参与度度量,其中:
第一参与度度量近似于接收用户对第一声源的兴趣水平;和
第二参与度度量近似于接收用户对第二声源的兴趣水平;
确定第一参与度度量大于第二参与度度量;
处理音频输入数据以生成音频输出信号,其中音频输出信号放大由第一声源产生的声音并衰减由第二声源产生的声音;
将音频输出信号发送到与接收用户相关联的计算设备。
在根据本发明的实施例中,一种方法可以包括确定第一声源的第一分类和第二声源的第二分类,其中第一参与度度量基于第一分类,并且第二参与度度量基于第二分类。
第一声源的第一分类可以是人类声音,并且第二声源的第二分类可以是非人类声音。
确定第一分类和第二分类可以基于从音频-视频通信会话的描述性模型接收的信息,该描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
处理音频输入数据可以包括对由第一源生成的第一音频输入信号和由第二源生成的第二音频输入信号进行声学波束成形,其中声学波束成形可以包括对第二音频输入信号进行时间延迟,使得第一声源被放大并且第二声源被衰减。
第一参与度度量和第二参与度度量可以基于音频-视频通信会话的描述性模型来计算,该描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
在根据本发明的实施例中,一种方法可以包括:
访问包括多个节点和连接这些节点的多条边的社交图,其中:
第一节点对应于接收用户;
第二节点对应于与第一声源相关联的实体;和
第一节点和第二节点之间的边表示接收用户和实体之间的关系;和
基于第一节点和第二节点之间的边增加第一参与度度量。
可以至少部分地基于以下项来计算第一参与度:第一声源说出的单词的计数、第一声源和麦克风阵列之间的距离、或者第一声源在当前音频-视频通信会话期间已经存在于环境中的时间量;和
可以至少部分地基于以下项来计算第二参与度:第二声源说出的单词的计数、第二声源和麦克风阵列之间的距离、或者第二声源在当前音频-视频通信会话期间已经存在于环境中的时间量。
在根据本发明的实施例中,一个或更多个计算机可读非暂时性存储介质可以体现软件,该软件在被执行时可操作来:
在音频-视频通信会话期间,从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中该音频输入数据由环境内第一位置处的第一声源和环境内第二位置处的第二声源生成;
计算第一声源的第一参与度度量和第二声源的第二参与度度量,其中:
第一参与度度量近似于接收用户对第一声源的兴趣水平;和
第二参与度度量近似于接收用户对第二声源的兴趣水平;
确定第一参与度度量大于第二参与度度量;
处理音频输入数据以生成音频输出信号,其中音频输出信号放大由第一声源产生的声音并衰减由第二声源产生的声音;和
将音频输出信号发送到与接收用户相关联的计算设备。
该软件在被执行时可以可操作来确定第一声源的第一分类和第二声源的第二分类,其中第一参与度度量可以基于第一分类,并且第二参与度度量可以基于第二分类。
第一声源的第一分类可以是人类声音,并且第二声源的第二分类可以是非人类声音。
确定第一分类和第二分类可以基于从音频-视频通信会话的描述性模型接收的信息,该描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
处理音频输入数据可以包括对由第一源生成的第一音频输入信号和由第二源生成的第二音频输入信号进行声学波束成形,声学波束成形可以包括对第二音频输入信号进行时间延迟,使得第一声源被放大并且第二声源被衰减。
第一参与度度量和第二参与度度量可以基于音频-视频通信会话的描述性模型来计算,该描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
该软件在被执行时可以可操作来:
访问包括多个节点和连接这些节点的多条边的社交图,其中:
第一节点对应于接收用户;
第二节点对应于与第一声源相关联的实体;和
第一节点和第二节点之间的边表示接收用户和实体之间的关系;和
基于第一节点和第二节点之间的边增加第一参与度度量。
可以至少部分地基于以下项来计算第一参与度:第一声源说出的单词的计数、第一声源和麦克风阵列之间的距离、或者第一声源在当前音频-视频通信会话期间已经存在于环境中的时间量;和
可以至少部分地基于以下项来计算第二参与度:第二声源说出的单词的计数、第二声源和麦克风阵列之间的距离、或者第二声源在当前音频-视频通信会话期间已经存在于环境中的时间量。
在根据本发明的实施例中,一种系统可以包括:
一个或更多个处理器;和
一个或更多个计算机可读非暂时性存储介质,其耦合到一个或更多个处理器并且包括指令,该指令当由一个或更多个处理器执行时可操作来使系统:
在音频-视频通信会话期间,从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中该音频输入数据由环境内第一位置处的第一声源和环境内第二位置处的第二声源生成;
计算第一声源的第一参与度度量和第二声源的第二参与度度量,其中:
第一参与度度量近似于接收用户对第一声源的兴趣水平;和
第二参与度度量近似于接收用户对第二声源的兴趣水平;
确定第一参与度度量大于第二参与度度量;
处理音频输入数据以生成音频输出信号,其中音频输出信号放大由第一声源产生的声音并衰减由第二声源产生的声音;和
将音频输出信号发送到与接收用户相关联的计算设备。
该处理器在执行指令时可以可操作来确定第一声源的第一分类和第二声源的第二分类,其中第一参与度度量基于第一分类,并且第二参与度度量基于第二分类。
第一声源的第一分类可以是人类声音,并且第二声源的第二分类可以是非人类声音。
确定第一分类和第二分类可以基于从音频-视频通信会话的描述性模型接收的信息,该描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
在根据本发明的实施例中,一个或更多个计算机可读非暂时性存储介质可以体现软件,该软件在被执行时可操作来执行根据本发明或任何上面提到的实施例的方法。
在根据本发明的实施例中,一种系统可以包括:一个或更多个处理器;以及耦合到处理器并包括由处理器可执行的指令的至少一个存储器,处理器当执行指令时可操作来执行根据本发明或任何上面提到的实施例的方法。
在根据本发明的实施例中,优选地包括计算机可读非暂时性存储介质的计算机程序产品当在数据处理系统上被执行时可以可操作来执行根据本发明或任何上面提到的实施例的方法。
附图简述
图1示出了示例客厅设置中的示例智能通信设备。
图2示出了具有示例组件的示例智能通信设备。
图3示出了示例声音定位示意图。
图4示出了声音定位和选择的示例可视化。
图5示出了用于选择和放大特定声源的示例方法。
图6示出了与社交网络系统相关联的示例网络环境。
图7示出了示例社交图。
图8示出了示例计算机系统。
示例实施例的描述
智能通信设备可以用于音频/视频通信,例如实时或视频聊天或预先录制的音频/视频演示。智能通信设备可以具有“智能音频”组件。智能音频组件可以区分两个或更多个声源,并智能地选择哪些声源相对于其他声源放大。例如,在音频-视频通信会话期间,一个人可能正在她的客厅中谈话,并且电视机也可能打开并发出声音。智能音频组件可以将人的声音识别为人类声音,并且可以相对于电视噪声放大人类声音。这种区分可能不仅限于人对电视的情况。作为示例而非限制,智能音频组件可以(1)区分在同一房间中同时发生的两个或更多个不同的对话,(2)通过计算每个对话的参与度度量来判断一个或更多个接收用户(例如,音频-视频通信会话的远程参与者)对哪个对话更感兴趣,以及(3)对于接收用户,相对于在房间中的其他对话相对地放大最感兴趣的对话(例如,具有最高参与度度量的对话)。在特定实施例中,智能音频组件可以不计算参与度度量,而是可以遵循用于确定相对地放大或衰减哪个声源的其他规则。作为示例而非限制,智能音频组件可以具有简单地相对放大从最靠近智能通信设备的声源发出的声音的规则。另一个规则可以是相对地放大与产生最多运动的主体(subject)(例如,人或对象)相关联的声音。例如,一个正在展示她最新收集的玩具的孩子可能比环境中的其他主体移动得更多,因此智能音频组件可以相对于环境中的其他声音放大孩子的声音。为了实现上述示例,智能计算设备可以执行以下步骤:(1)在音频-视频通信会话期间,从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中该音频输入数据由环境内第一位置处的第一声源和环境内第二位置处的第二声源生成;(2)计算第一声源的第一参与度度量和第二声源的第二参与度度量,其中:第一参与度度量近似于接收用户对第一声源的兴趣水平;并且第二参与度度量近似于接收用户对第二声源的兴趣水平;(3)确定第一参与度度量大于第二参与度度量;(4)处理音频输入数据以生成音频输出信号,其中音频输出信号相对地放大由第一声源产生的声音并相对地衰减由第二声源产生的声音;以及(5)将音频输出信号发送到与接收用户相关联的计算设备。
图1示出了示例环境100中的示例智能通信设备130。注意,智能通信系统130在本文也可以被称为客户端系统130,并且这些术语在本公开中可以互换使用。虽然图1示出了作为客厅设置的示例环境,但是这仅仅是智能通信设备可以位于何处的示例。设想了智能通信设备130可以位于任何合适的室内或室外环境中,包括厨房、卧室、走廊、后院、公园、海滩或任何其他环境。环境100可以包括智能通信设备130和一个或更多个声音产生源,例如人120、电视110。其他发声元件包括收音机、宠物、家用电器(例如真空吸尘器)、搅拌机和垃圾处理器。发声元件还可以包括不在环境内部或附近的声源,例如应急车辆警报器、垃圾车和其他这样的对象。上面的示例可以被认为是点声源,即从某一点发出的声音。声源也可以是扩散的或环境的,即来自所有方向,例如自助餐厅中的一般环境声音或当设备放置在室外的城市声音。在特定实施例中,智能通信设备130上的一个或更多个计算组件可以在音频-视频通信会话期间从包括至少两个麦克风的麦克风阵列接收音频输入数据。音频输入数据可以由环境内第一位置处的第一声源和环境内第二位置处的第二声源生成。作为示例而非限制,第一声源可以是位于智能通信设备130前面的人120。第二声源可以是位于智能通信设备右侧的电视130。尽管本公开使用人和电视的例子作为声源,但是本公开设想了任何合适的声源和声源的组合,例如同时相互交谈的多个人、人和收音机、人和儿童、真空吸尘器和电视、狗和人、或者任何其他声源及其组合。
图2示出了具有示例组件的示例智能通信设备130。示例组件包括智能音频组件131、智能视频组件132、社交网络接口133和导演引擎(director engine)134。每个组件具有或使用必要的处理和存储单元来执行本公开中讨论的功能。智能音频组件131本身可以包括四个模块:声音定位器1311、声音分类器1312、声音选择器1313和波束成形模块1314。这些模块中的每一个都可以一起操作,以智能地为接收用户选择要放大的声音。作为该过程中的一个步骤,在特定实施例中,与智能通信设备相关联的一个或更多个处理器可以计算环境中每个声源的参与度度量。参与度度量可以近似于接收用户对相关声源的兴趣水平。可以通过使用公式Ii=Ax+By+…Cz来计算接收用户对于给定声源i的参与度度量I,其中A、B、……C是与声源相关联的特征,并且x、y、……z是可以分配给每个相应特征的权重。作为示例而非限制,特征A可以是由声音分类器1312确定的声音类型。如果声音是人类声音,可以给A分配特征值1。如果声音是非人类的噪声,则可以给A赋值0。分配给A的权重x可以是任何合适的权重。例如,权重可以是在0和1之间的某个值。一般来说,特征越重要,权重就会越高。声音的类型可能是一个重要特征,因为接收用户可能几乎总是对收听人类声音比收听非人类的噪声(例如,垃圾处理器、真空吸尘器、收音机、电视)更感兴趣;因此,相对于其他权重,x可以被赋予较大的权重。例如,可以给x分配0.75的权重。
在特定实施例中,声音类型的第三分类可以是声音是否是促进性的(reinforcing)。促进性的声音可以是增加环境气氛并增加接收用户整体享受的声音。作为示例而非限制,Ally和她的妈妈Betsy可能正在参与实时视频聊天,并且Ally可能有一个新生儿。婴儿可能在哭闹。Ally的妈妈Betsy可能想在谈话过程中听到她外孙的一些哭闹声。因此,婴儿发出的声音可以是促进性的,因为它们增加了视频聊天的体验。另一个示例可以是视频聊天,其中单个用户在视频聊天的一端,而一群人在另一端。例如,Ally可能正在和她的朋友以及家人举行生日聚会,但Betsy可能住得太远而无法参加聚会,或者她可能生病而无法参加。在聚会上,可能有许多来自聚会客人的背景噪音,可能有背景音乐,并且可能有与生日聚会相关的其他类型的噪音(例如,笑、唱、吼)。Betsy可能对听到所有这些背景声音感兴趣,因为它们增加了生日聚会的气氛。因此,对于智能音频组件131来说,完全衰减所有这些噪声可能是不期望的,因为这将失去视频聊天的氛围。将声音分类为促进性的声音或不想要的噪音可以通过上下文线索或历史信息来完成。上下文线索可以是接收用户在有声音发出时的参与度(例如,当婴儿哭泣并且接收用户低头看着婴儿并微笑时,这可用于确定哭泣的婴儿是促进性的声音)、来自用户的社交图的信息(例如,用户的社交图指示这是用户的生日;因此,该系统可以预测可能举行聚会,并且可以预测人们大笑和播放音乐的促进性的声音)、或者任何其他合适的上下文线索。
在特定实施例中,参与度度量计算中的唯一特征可以是声音的类型。因此,在特定实施例中,智能音频组件用来计算参与度度量的公式可以是Ii=Ax。作为示例而非限制,用户Ally可能正在使用智能通信设备与她的妈妈Betsy进行视频聊天。Ally可以是发送用户,并且Betsy可以是接收用户。请注意,两个用户都是发送和接收用户(因为信息是在音频-视频通信会话期间被发送和接收的),但是为了讨论的目的,Ally可以是发送用户,并且Betsy可以是接收用户。Ally所处的环境可能有两个声源:Ally本人,和一台开着的电视。智能音频组件131可以确定Betsy对(1)Ally的声音和(2)电视发出的声音的参与度度量。为了做出确定,智能音频组件131可以首先使用声音分类器1312对每个声音进行分类。声音分类器1312可以将Ally的声音分类为人类声音,并且可以将电视声音分类为非人类的噪声并且不是促进性的。声音分类器1312可以通过将每个声音的波形特征与预先已知的波形特征进行比较来进行分类(例如,Ally的声音的特定非识别特征可以与预先已知的人类声音特征相匹配),或者通过声音分类领域的技术人员已知的任何其他合适的方法(包括深度学习方法)进行分类。智能音频组件131可以用规则来编程,该规则指示智能音频组件131为人类声音分配高权重(例如,0.75)和为非人类的噪声分配权重(例如,0.10)。因此,Ally的声音的参与度度量可以是0.75,并且电视声音的参与度度量可以是0.10。
在特定实施例中,其他特征可以包括智能通信设备130和声源之间的距离(较小的距离被分配较大的特征值)、声源相对于智能通信设备130的位置(位于设备130前面的声音被分配较大的权重)、视频聊天两端的用户之间的社交图距离(较小的社交图距离被分配较大的权重)、在音频-视频通信会话期间,一个人在环境中存在的时间量、一个人在音频-视频通信会话期间说出的单词的量、以及上下文线索。上下文线索可以是从智能视频组件132或从导演引擎134获得的信息,例如多个人正在看的方向。例如,如果房间里的大多数人都朝房间的右边看,这可能表明房间的那个部分正在发生有趣的事情。如果房间的那个地方有声源,那个声源可能也很有趣。因此,可以针对该声源相应地调整参与度度量。在这方面,一个二元问题(binary question)可以是“环境中至少一半人的目光是否指向声源?”如果答案是肯定的,则智能音频组件131可以给该特征分配1。上下文线索的另一个示例可以是当特定声源发出声音时接收用户的面部表情。作为示例而非限制,两个用户Ally和Betsy正在用智能通信设备130进行视频聊天。Ally可以是发送用户,并且Betsy可以是接收用户。在从Ally的环境发出各种声音的同时,智能视频组件132可以记录Betsy的面部表情。比如,Ally和Betsy可能在对话,并且Ally的丈夫可能进入环境打断对话问Ally一个问题。当Ally的丈夫正在说话时,Betsy可能会将视线从智能通信设备130移开,以检查她的电话或处理一些其他任务。这种转移视线的行为可能表明Betsy对Ally的丈夫要说的话并不特别感兴趣。因此,这可能是对系统的指示,以衰减来自Ally的丈夫的音频,除非他实际上参与了对话。以下是上述特征的表格摘要。
表1:参与度度量计算的特征
在特定实施例中,声音分类器1312或智能音频组件131可以访问音频-视频通信会话的描述性模型。描述性模型可以包括关于以下项的描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。声音分类器1312可以使用描述性模型中的信息来更好地对声源进行分类。作为示例而非限制,发出声音的电视应该被分类为非人类声音,即使这些声音是人类的声音(例如,新闻记者可能正在电视上讲话)。可能很难区分环境中正在说话的真实的人和发出人类说话声音的电视。然而,描述性模型可以包括关于房间中的人的信息。该信息可以包括他们的身份、他们在环境中的位置以及各种其他社交网络信息。声音分类器1312可以可选地使用该信息来确定声源是否是人类声音。作为示例而非限制,电视可以位于环境中的一个区域(sector),并且它可能正在播放在说话的人。仅使用音频数据可能难以确定这是人类声音还是电视声音。然而,使用在描述性模型中捕获的视频数据,很容易看出一个人没有站在与电视相同的区域中。因此,为了有助于分类,声音分类器1312可以访问该信息,并确定因为电视位于与声源相同的区域,并且没有人也位于该区域,所以声源不是人类声音。
图3示出了示例声音定位示意图。智能通信设备130可以包括麦克风/扬声器部分135。麦克风/扬声器部分可以包括两个或更多个麦克风136以及适当数量的扬声器(图3中未示出)。图3示出了以梯形配置排列的四个麦克风136。这种配置可以用于确定声源的水平和垂直方向。可以通过测量声音到达第一个麦克风的时间和来自同一声源的同一声音到达第二个麦克风的时间之间的差值来实现确定声源的方向。根据该时间差,声音定位器模块1311可以使用几何学来定位声源的方向。在图3的示例中,声音定位器模块1311可以通过以下操作来确定人320的方向:使用到达时间T1和T2之间的差来计算每个传入声源的角度,并最终基于传入声音信号来计算人120的方向。
图4示出了声音定位和选择的示例可视化。在特定实施例中,智能通信设备130(可选地经由智能音频组件131)可以将其环境分成几个“声音切片(sound slice)”。在示出的示例中,有八个声音切片A至H,但是本公开设想了任何合适数量的声音切片。智能音频组件131可以使用声音定位器1311来确定每个音频源来自哪个声音切片。作为示例而非限制,两个人420可以在声音切片B中进行对话,并且电视410可以在声音切片H中播放。人420和电视410中的每一个可以同时发出声音。智能音频组件131可以识别这两个声源,并确定它们当前位于哪个切片中。在特定实施例中,声源可以占据一个以上的声音切片。例如,人可能跨在切片C和切片D上。在这种情况下,智能音频组件可以确定声音和视觉对象(例如,人)可能位于切片C和切片D的边缘。
智能音频组件131还可以计算与两个人420相关联的第一声源的第一参与度度量。智能音频组件131还可以计算与电视410相关联的第二声源的第二参与度度量。参与度度量计算可以考虑三个特征:(1)人类声音;(2)社交图距离;以及(3)声源相对于智能通信设备130的位置。上述特征的权重分别为0.75、0.50和0.25。出于该示例计算的目的,假设:(1)在社交图中,两个人中的一个人与接收用户具有高亲和力系数(下文参考图7讨论亲和力系数);(2)电视正在播放俄亥俄州和密歇根州之间的NCAA篮球赛,并且接收用户的社交图指示她在密歇根州上大学;以及(3)与人420相比,电视410相对于智能通信设备130位于更极端的角度(如图4所示)。切片B中的对话的参与度度量可以表示为IB=Ax+By+Cz,并且切片H中的电视声音的参与度度量可以是IH=Ax+By+Cz。对于对话,IB=(1)(0.75)+(1)(0.50)+(1)(0.25)=1.5。这可能是因为声音分类器1312可能已经将对话分类为人类声音,并且智能音频组件可能相应地将特征“A”的分数指定为1;其中一个人420是接收用户的一级关连,因此“B”也可以获得1分。并且切片B比电视410更位于智能通信设备130的前面,因此“C”也可以获得1分。对于电视,参与度度量可以计算为IH=(0)(.75)+(1)(0.50)+(0)(0.25)=0.5。这可能是因为电视声音没有被归类为人类,所以A可能被指定为“0”。由于Becky就读于密歇根大学,她可能对密歇根篮球有很强的亲和力(例如,超过阈值亲和力)。由于电视上正在播放一场密歇根的比赛,B可能被分配“1”。智能指导者(intelligent director)可能已经通过图像/音频识别或通过访问在线电视指南确定了电视上正在播放密歇根篮球赛。最后,由于电视相对于智能通信设备130处于非常极端的角度,因此可以给C分配“0”。因为切片B中的对话具有更高的参与度度量,所以智能音频组件131可以确定放大人420之间的对话并衰减来自电视410的声音。
在特定实施例中,智能音频组件131可以基于包括在与接收用户相关联的社交图中的信息来增加给定声源的参与度度量。如下所述,社交图可以包括节点和连接节点的边。连接两个节点的每条边可以表示两个节点之间的关系。例如,如果第一用户Alex在Baylor大学上大学,则社交图可以具有对应于Alex(或在线社交网络上Alex的简档)的第一节点和对应于Baylor大学(或Baylor大学的在线资源)的第二节点。社交图还可以在第一节点和第二节点之间具有边连接。边连接可以具有边类型。边类型可以是“出席”。此外,如果Alex已经在关于Baylor大学的在线社交网络上执行了其他动作,则Alex的节点和Baylor大学的节点之间可能存在其他边。例如,Alex可能点赞了(like)在线社交网络上的Baylor大学实体页面。这可能已经在第一节点和第二节点之间产生了另一个具有“赞”边类型的边连接。观看与Baylor大学相关联的视频、发表评论、加入群组以及其他类似的动作都可以在Alex的节点和Baylor大学的节点之间添加边连接。如下所述,这些动作还可以增加Alex和Baylor大学之间的亲和力系数。智能音频组件131可以访问社交图,并且可以基于用户和给定实体之间的亲和力或边来增加参与度度量。继续上面的例子,Alex可能正在参与和另一个用户(例如图4的人420)的视频聊天。电视410可能正在播放Baylor足球赛。智能音频组件131可能已经通过识别声音(例如,电视可能播放台词“欢迎回到Baylor足球”)或者通过访问电视指南和电视的当前频道,或者通过任何其他合适的手段,确定电视410上正在播放Baylor足球赛。智能音频组件131可以访问Alex的社交图,并且可以确定Alex和Baylor大学之间存在高亲和力系数,具体地说,对于Baylor足球存在高亲和力系数。基于该确定,智能音频组件131可以增加电视410的声源的参与度度量,因为Alex更有可能对观看足球赛感兴趣。
在特定实施例中,接收用户可以通过轻击接收设备(其可以是智能通信设备130或者可以是不同的移动计算设备,例如智能电话、平板电脑或膝上型计算机)的屏幕来推翻智能音频组件131做出的决定。例如,以上关于图4的示例中的接收用户可能对观看和收听俄亥俄州立大学和密歇根州大学之间的篮球赛非常感兴趣。为了相对于切片B的对话放大切片H中的电视声音,用户可以在她的智能通信设备130上(出于本讨论的目的,该智能通信设备130可以是接收设备)在电视410上轻击。智能音频组件131可以适应这种类型的用户输入,并且放大电视410的声音,并且衰减人420之间的对话的声音。在特定实施例中,轻击源的用户动作可以被记录并本地存储在智能计算设备上,或者与远程服务器上的用户社交图相关联地存储。例如,该动作可以增强用户和声源之间的亲和力。智能音频组件可以在未来的通信会话中访问该信息,并且可以使用该信息来决定相对于其他声源放大哪个声源。
在特定实施例中,视频组件和音频组件不需要紧密地耦合。智能通信设备130可以从视频中去耦合(de-couple)音频。这可以允许接收用户观看一个对象并收听不同的声源。作为示例而非限制,上述示例中的接收用户可以收听在切片B中发生的对话,但是可以观看在切片H中的电视410上的比赛。用户可以通过任何合适的用户设置配置(包括语音命令)来选择观看该比赛。智能通信设备130还可以推断用户希望观看一个对象并收听不同的声源。这可以使用任何合适的手段(包括用户偏好设置)来实现。例如,可以提供视频图标和音频图标。用户可以选择视频并轻击作为视频目标的对象。用户然后可以选择音频并轻击作为音频目标的不同的对象。这对于想要查看特定对象(例如,新生婴儿)但与不同对象(例如,新生婴儿的父母)交谈的用户来说可能很好。
在特定实施例中,智能音频组件131可以被配置成为接收用户个性化音频。智能音频组件131可以访问接收用户的社交图,并使用该数据为接收用户做出个性化音频决策。智能音频组件131通常可以放大与用户对其具有高亲和力的实体或对象相关联的声音。作为示例而非限制,考虑Betsy与她的女儿Ally和Ally的孩子(Betsy的外孙)视频聊天的示例。智能音频组件131可以检测来自Ally的孩子的声音,这些孩子可能位于不同于Ally的另一个水平或垂直区域。在正常的视频聊天会话中,来自幼儿的声音可能会被衰减,因为接收方观看者可能对他们并不感兴趣。但是因为Betsy可能对她的外孙有很强的亲和力(这可以从Betsy的社交图中确定(例如,通过Betsy赞她的外孙的照片并对照片进行评论)),所以来自外孙的声音可能不会被衰减。如果智能音频组件131推断Betsy在给定时间对听到外孙比听到Ally更感兴趣,则来自外孙的声音甚至可以相对于来自Ally的声音被放大。在特定实施例中,用户可以选择使包括他们自己在内的参与者静音。例如,如果Betsy正在和其中一个外孙说话,Ally可以选择在她用手机和另一个朋友说话时使她自己保持静音。Ally可以通过在智能通信设备130上进行适当的选择来做到这一点。
在特定实施例中,与智能通信设备130相关联的一个或更多个处理器可以处理音频输入数据以生成音频输出信号。音频输出信号可以放大由具有较高参与度度量的声源产生的声音。这可以通过波束成形模块1314来实现。声学波束成形可以指对两个或更多个音频信号进行时间延迟,以产生相长干扰、相消干扰或两者兼有。异相音频信号相互抵消。同相信号叠加在一起并被放大。智能音频组件131可以使用麦克风阵列(例如由麦克风136形成的麦克风阵列),通过对来自麦克风的音频信号进行波束成形来放大一些声音并衰减其他声音,从而在噪声环境中提取期望的语音信号。例如,声学波束成形可以用于在充满同时说话的人的嘈杂房间中放大单个人的声音。在特定实施例中,可以使用时延波束成形器、Frost波束成形器或任何其他合适的波束成形器或波束成形技术来实现声学波束成形。作为示例而非限制,参考图4,智能音频组件131可以确定由切片B中的人420发出的声音比由切片H中的电视410发出的声音具有更高的参与度度量。每个麦克风136可以生成其自己的音频信号。为了放大从图4的切片B发出的声音,智能音频组件131可以针对输出音频信号选择性地重叠或延时来自每个麦克风136的音频信号,使得适当的声源相对于其他声源被放大。注意,相对于第二声音放大第一声音可以通过保持第一声音的音量并降低第二声音的音量来实现。并且另一个声源被衰减。尽管本公开描述了放大一个声源和衰减一个声源,但是本公开设想了放大任意数量的声源以及衰减任意数量的声源。在特定实施例中,一旦生成了声音信号,就可以将其发送到接收单元,以便为接收用户播放。本公开设想了放大/衰减处理(或任何其他处理,例如参与度度量计算)可以在发送单元(例如,发送用户的智能通信设备131)、接收单元(例如,接收用户的智能通信设备131,或接收用户的不同的合适的移动设备,例如智能电话或平板电脑)、与社交网络系统相关联的远程服务器(例如,社交网络系统660的服务器662)或任何其他合适的位置上完成。
在特定实施例中,智能音频组件131可以在接收用户端“声音偏置”从设备130发出的声音。这种声音偏置的目的可以是创建发送设备所在环境的更真实的声音景观(soundlandscape)。为了声音偏置音频,智能音频组件131可以选择性地引导从智能通信设备130的扬声器发出的声音,以便模仿在麦克风处聚集的声音。作为示例而非限制,发送智能通信设备130可以位于德克萨斯州沃思堡(Fort Worth,TX)的发送用户的客厅中。此外,接收智能通信设备130可以位于加利福尼亚州洛杉矶(Los Angeles,CA)的接收用户的客厅中。(注意,两个设备130都可以在视频聊天期间发送和接收数据,因此两个设备都可以被适当地称为发送和接收,但是为了本讨论的目的,假设一个设备是发送设备,并且另一个设备是接收设备)。继续该示例,人可以从智能通信设备的左侧向发送用户的客厅说话或叫喊,使得智能通信设备130拾取从其左侧产生的声音。当该声音是在接收方的客厅的接收设备端发出时,声音信号可以被引导以看起来好像是在接收设备130的左侧产生的。这可以增强用户体验。
在特定实施例中,智能音频组件可以被配置为向环境中的声音提供一种或更多种效果。效果可以是应用于声音之一的变声算法。作为示例而非限制,可以改变人的声音,使得这个人听起来像是刚刚吸入了氦气(例如,更高音调的“花栗鼠(chipmunk)”效应)。为了对参与者的声音施加效果,参与者可以轻击智能通信设备的显示屏上的适当的变声图标。在特定实施例中,第一用户可以通过在显示屏上轻击第二用户的表示,然后选择适当的变声图标,来将变声效果应用于第二用户的声音。因此,只有所选用户的声音可以被改变。可选地,所有用户可以对他们的声音应用不同的变声效果。系统可以保存用户对应用于特定类型的社交交互的音频效果的偏好(例如,叔叔可能总是希望他的侄女具有氦气效果,并且可以在每次检测到这两者交互时调用音频效果)。
图5示出了用于选择和放大特定声源的示例方法500。该方法可以在步骤510开始,其中计算设备可以在音频-视频通信会话期间从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中音频输入数据由环境内第一位置处的第一声源和环境内第二位置处的第二声源生成。在步骤520,计算设备可以计算第一声源的第一参与度度量和第二声源的第二参与度度量,其中:第一参与度度量近似于接收用户对第一声源的兴趣水平;并且第二参与度度量近似于接收用户对第二声源的兴趣水平。在步骤530,计算设备可以确定第一参与度度量大于第二参与度度量。在步骤540,计算设备可以处理音频输入数据以生成音频输出信号,其中音频输出信号放大由第一声源产生的声音并衰减由第二声源产生的声音。在步骤550,计算设备可以将音频输出信号发送到与接收用户相关联的计算设备。在适当的情况下,特定实施例可以重复图5的方法的一个或更多个步骤。尽管本公开将图5的方法的特定步骤描述并示出为以特定的顺序发生,但是本公开设想了图5的方法的任何合适的步骤以任何合适的顺序发生。此外,尽管本公开描述并示出了包括图5的方法的特定步骤的用于选择和放大特定声源的示例方法,但是本公开设想了包括任何合适的步骤的用于选择和放大特定声源的任何合适的方法,在适当的情况下,该步骤可以包括图5的方法的所有步骤、一些步骤或者不包括任何步骤。此外,尽管本公开描述并示出了执行图5的方法的特定步骤的特定组件、设备或系统,但是本公开设想了执行图5的方法的任何适当步骤的任何适当组件、设备或系统的任何适当组合。
图6示出了与社交网络系统相关联的示例网络环境600。网络环境600包括通过网络610连接到彼此的客户端系统130、社交网络系统660和第三方系统670。注意,客户端系统130可以与智能通信设备130相同,并且这些术语可以在本公开中互换使用。尽管图6示出了客户端系统130、社交网络系统660、第三方系统670和网络610的特定布置,但是本公开设想了客户端系统130、社交网络系统660、第三方系统670和网络610的任何合适的布置。作为示例而不是作为限制,客户端系统130、社交网络系统660和第三方系统670中的两个或更多个可以直接连接到彼此,绕过网络610。作为另一示例,客户端系统130、社交网络系统660和第三方系统670中的两个或更多个可以全部或部分地在物理上或逻辑上彼此位于同一位置。此外,尽管图6示出了特定数量的客户端系统630、社交网络系统660、第三方系统670和网络610,但是本公开设想了任何合适数量的客户端系统630、社交网络系统660、第三方系统670和网络610。作为示例而不是作为限制,网络环境600可以包括多个客户端系统130、社交网络系统660、第三方系统670和网络610。
本公开设想了任何合适的网络610。作为示例而不是作为限制,网络610的一个或更多个部分可以包括自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网的一部分、公共交换电话网(PSTN)的一部分、蜂窝电话网、或这些中的两个或更多个的组合。网络610可以包括一个或更多个网络610。
链路650可以将客户端系统130、社交网络系统660和第三方系统670连接到通信网络610或连接到彼此。本公开设想了任何合适的链路650。在特定实施例中,一个或更多个链路650包括一个或更多个有线(例如数字用户线路(DSL)或基于电缆的数据服务接口规范(DOCSIS))链路、无线(例如Wi-Fi或全球互通微波接入(WiMAX))链路、或光(例如同步光网络(SONET)或同步数字体系(SDH))链路。在特定实施例中,一个或更多个链路650各自包括自组织网络、内联网、外联网、VPN、LAN、WLAN、WAN、WWAN、MAN、互联网的一部分、PSTN的一部分、基于蜂窝技术的网络、基于卫星通信技术的网络、另一链路650、或两个或更多个这种链路650的组合。链路650不需要在整个网络环境600中是相同的。一个或更多个第一链路650可以在一个或更多个方面上不同于一个或更多个第二链路650。
在特定实施例中,客户端系统130可以是包括硬件、软件或嵌入式逻辑组件、或两个或更多个这样的组件的组合,并且能够执行由客户端系统130实现或支持的适当功能的电子设备。作为示例而不是作为限制,客户端系统130可以包括计算机系统,例如台式计算机、笔记本或膝上型计算机、上网本、平板计算机、电子书阅读器、GPS设备、摄像机、个人数字助理(PDA)、手持电子设备、蜂窝电话、智能手机、增强/虚拟现实设备、其他合适的电子设备、或其任何合适的组合。本公开设想了任何合适的客户端系统630。客户端系统130可以使在客户端系统130处的网络用户能够访问网络610。客户端系统130可以使它的用户能够与在其他客户端系统630处的其他用户进行通信。
在特定实施例中,客户端系统130可以包括web浏览器632,例如MICROSOFTINTERNET EXPLORER、GOOGLE CHROME或MOZILLA FIREFOX,并且可以具有一个或更多个附加件、插件或其他扩展件,例如TOOLBAR或YAHOO TOOLBAR。在客户端系统130处的用户可以输入统一资源定位符(URL)或将web浏览器632引导到特定的服务器(例如服务器662或与第三方系统670相关联的服务器)的其他地址,并且web浏览器632可以生成超文本传输协议(HTTP)请求并将HTTP请求传递到服务器。服务器可以接受HTTP请求,并响应于HTTP请求而向客户端系统130传递一个或更多个超文本标记语言(HTML)文件。客户端系统130可以基于来自服务器的HTML文件来显现网页用于呈现给用户。本公开设想了任何合适的网页文件。作为示例而不是作为限制,可以根据特定的需要从HTML文件、可扩展超文本标记语言(XHTML)文件或可扩展标记语言(XML)文件来显现网页。这样的页面还可以执行脚本,例如且没有限制,用JAVASCRIPT、JAVA、MICROSOFT SILVERLIGHT编写的脚本、标记语言和脚本(例如AJAX(异步JAVASCRIPT和XML))的组合等。在本文,在适当的情况下,对网页的引用包括一个或更多个相应的网页文件(浏览器可以使用这些网页文件来显现网页),反之亦然。
在特定实施例中,社交网络系统660可以是可以托管在线社交网络的网络可寻址计算系统。社交网络系统660可以生成、存储、接收并发送社交网络数据(例如,用户简档数据、概念简档数据、社交图信息或与在线社交网络相关的其他合适的数据)。社交网络系统660可以由网络环境600的其他组件直接地或经由网络610来访问。作为示例而不是作为限制,客户端系统130可以使用web浏览器632或与社交网络系统660相关联的原生(native)应用(例如,移动社交网络应用、消息传送应用、另一合适的应用或其任何组合)直接地或经由网络610来访问社交网络系统660。在特定实施例中,社交网络系统660可以包括一个或更多个服务器662。每个服务器662可以是单一服务器(unitary server)或跨越多台计算机或多个数据中心的分布式服务器。服务器662可以具有各种类型,例如且没有限制,web服务器、新闻服务器、邮件服务器、消息服务器、广告服务器、文件服务器、应用服务器、交换服务器、数据库服务器、代理服务器、适合于执行本文描述的功能或过程的另一服务器、或者其任何组合。在特定实施例中,每个服务器662可以包括硬件、软件或嵌入式逻辑组件、或用于执行由服务器662实现或支持的适当功能的两个或更多个这样的组件的组合。在特定实施例中,社交网络系统660可以包括一个或更多个数据储存器664。数据储存器664可以用于存储各种类型的信息。在特定实施例中,可以根据特定的数据结构来组织存储在数据储存器664中的信息。在特定实施例中,每个数据储存器664可以是关系数据库、纵列(columnar)数据库、相关性数据库或其他合适的数据库。尽管本公开描述或示出了特定类型的数据库,但是本公开设想了任何合适类型的数据库。特定实施例可以提供使客户端系统130、社交网络系统660或第三方系统670能够管理、检索、修改、添加或删除存储在数据储存器664中的信息的接口。
在特定实施例中,社交网络系统660可以在一个或更多个数据储存器664中存储一个或更多个社交图。在特定实施例中,社交图可以包括多个节点——其可以包括多个用户节点(各自对应于特定用户)或多个概念节点(各自对应于特定概念)——以及连接节点的多条边。社交网络系统660可以向在线社交网络的用户提供与其他用户通信和互动的能力。在特定实施例中,用户可以经由社交网络系统660加入在线社交网络,且然后将关连(例如,关系)添加到社交网络系统660中的他们想要关连到的多个其他用户。在本文,术语“朋友”可以指社交网络系统660的任何其他用户,用户经由社交网络系统660与任何其他用户形成关连(connection)、关联(association)或关系。
在特定实施例中,社交网络系统660可以向用户提供对由社交网络系统660支持的各种类型的项目或对象采取动作的能力。作为示例而不是作为限制,项目和对象可以包括社交网络系统660的用户可以属于的组或社交网络、用户可能感兴趣的事件或日历条目、用户可以使用的基于计算机的应用、允许用户经由服务来购买或销售商品的交易、用户可以执行的与广告的互动、或其他合适的项目或对象。用户可以与能够在社交网络系统660中或者由第三方系统670的外部系统表示的任何事物进行互动,第三方系统670与社交网络系统660分离并且经由网络610耦合到社交网络系统660。
在特定实施例中,社交网络系统660能够链接各种实体。作为示例而不是作为限制,社交网络系统660可以使用户能够彼此互动以及从第三方系统670或其他实体接收内容,或者允许用户通过应用编程接口(API)或其他通信渠道与这些实体互动。
在特定实施例中,第三方系统670可以包括一种或更多种类型的服务器、一个或更多个数据储存器、一个或更多个接口(包括但不限于API)、一个或更多个web服务、一个或更多个内容源、一个或更多个网络或任何其他合适的部件(例如,服务器可以与这些部件通信)。第三方系统670可以由与操作社交网络系统660的实体不同的实体进行操作。然而,在特定实施例中,社交网络系统660和第三方系统670可以结合彼此来操作以向社交网络系统660或第三方系统670的用户提供社交网络服务。在这个意义上,社交网络系统660可以提供平台或骨干网,其他系统(例如第三方系统670)可以使用该平台或骨干网来在整个互联网上向用户提供社交网络服务和功能。
在特定实施例中,第三方系统670可以包括第三方内容对象提供者。第三方内容对象提供者可以包括可以被传递到客户端系统130的内容对象的一个或更多个源。作为示例而不是作为限制,诸如,内容对象可以包括关于用户感兴趣的事情或活动的信息,例如电影放映时间、电影评论、餐馆评论、餐馆菜单、产品信息和评论或其他合适的信息。作为另一示例而不是作为限制,内容对象可以包括激励内容对象(例如优惠券、折扣券、礼品券或其他合适的激励对象)。
在特定实施例中,社交网络系统660还包括用户生成的内容对象,其可以增强用户与社交网络系统660的互动。用户生成的内容可以包括用户可以添加、上传、发送或“发布”到社交网络系统660的任何内容。作为示例而不是作为限制,用户将帖子从客户端系统130传送到社交网络系统660。帖子可以包括数据,例如状态更新或其他文本数据、位置信息、照片、视频、链接、音乐或其他类似数据或媒体。内容还可以由第三方通过“通信渠道”(例如动态消息或流)来添加到社交网络系统660。
在特定实施例中,社交网络系统660可以包括各种服务器、子系统、程序、模块、日志和数据储存器。在特定实施例中,社交网络系统660可以包括下列项中的一个或更多个:web服务器、动作记录器、API请求服务器、相关性和排名引擎、内容对象分类器、通知控制器、动作日志、第三方内容对象暴露日志、推理模块、授权/隐私服务器、搜索模块、广告定位模块(advertisement-targeting module)、用户界面模块、用户简档储存器、关连储存器(connection store)、第三方内容储存器或位置储存器。社交网络系统660还可以包括合适的组件,例如网络接口、安全机构、负载平衡器、故障转移服务器、管理和网络操作控制台、其他合适的组件、或其任何合适的组合。在特定实施例中,社交网络系统660可以包括用于存储用户简档的一个或更多个用户简档储存器。用户简档可以包括例如,传记信息、人口统计信息、行为信息、社交信息或其他类型的描述性信息(例如工作经历、教育历史、爱好或偏好、兴趣、亲和力或位置)。兴趣信息可以包括与一个或更多个类别相关的兴趣。类别可以是一般的或特定的。作为示例而不是作为限制,如果用户“赞”关于一种品牌的鞋的文章,则该类别可以是品牌,或者“鞋”或“衣服”的一般类别。关连储存器可以用于存储关于用户的关连信息。关连信息可以指示具有相似或共同的工作经历、组成员资格、爱好、教育历史或者以任何方式相关或共享共同属性的用户。关连信息还可以包括在不同用户和内容(内部和外部)之间的用户定义的关连。web服务器可以用于经由网络610将社交网络系统660链接到一个更或多个客户端系统630或一个或更多个第三方系统670。web服务器可以包括邮件服务器或用于在社交网络系统660和一个或更多个客户端系统630之间接收并按规定路线发送消息的其他消息传送功能。API请求服务器可以允许第三方系统670通过调用一个或更多个API来访问来自社交网络系统660的信息。动作记录器可以用于从web服务器接收关于用户在社交网络系统660上或之外的动作的通信。结合动作日志,可以维护用户暴露于第三方内容对象的第三方内容对象日志。通知控制器可以向客户端系统130提供关于内容对象的信息。信息可以作为通知被推送到客户端系统130,或者信息可以响应于从客户端系统130接收的请求而从客户端系统130中被拉取。授权服务器可以用于实施社交网络系统660的用户的一个或更多个隐私设置。用户的隐私设置确定与用户相关联的特定信息可以如何被分享。授权服务器可以例如通过设置适当的隐私设置来允许用户选择加入或选择退出使他们的动作由社交网络系统660记录或者与其他系统(例如,第三方系统670)分享。第三方内容对象储存器可以用于存储从第三方(例如第三方系统670)接收的内容对象。位置储存器可以用于存储从与用户相关联的客户端系统630接收的位置信息。广告定价模块可以组合社交信息、当前时间、位置信息或其他合适的信息以用通知的形式向用户提供相关广告。
图7示出了示例社交图700。在特定实施例中,社交网络系统660可以在一个或更多个数据储存器中存储一个或更多个社交图700。在特定实施例中,社交图700可以包括多个节点——其可以包括多个用户节点702或多个概念节点704——以及连接这些节点的多条边706。出于教导的目的,图7所示的示例社交图700以二维视觉地图表示被示出。在特定实施例中,社交网络系统660、客户端系统130或第三方系统670可以访问社交图700和相关社交图信息以用于合适的应用。社交图700的节点和边可以作为数据对象被存储在例如数据储存器(例如社交图数据库)中。这种数据储存器可以包括社交图700的节点或边的一个或更多个可搜索或可查询的索引。
在特定实施例中,用户节点702可以对应于社交网络系统660的用户。作为示例而不是作为限制,用户可以是与社交网络系统660或通过社交网络系统660互动或通信的个人(人类用户)、实体(例如,企业、公司或第三方应用)或(例如,个人或实体的)团体。在特定实施例中,当用户向社交网络系统660注册账户时,社交网络系统660可以创建对应于用户的用户节点702,并将用户节点702存储在一个或更多个数据储存器中。本文描述的用户和用户节点702在适当的情况下可以指注册的用户和与注册的用户相关联的用户节点702。另外或作为备选方案,在适当的情况下,本文描述的用户和用户节点702可以指没有向社交网络系统660注册的用户。在特定实施例中,用户节点702可以与由用户提供的信息或由各种系统(包括社交网络系统660)收集的信息相关联。作为示例而不是作为限制,用户可以提供他或她的姓名、简档图片、联系信息、出生日期、性别、婚姻状况、家庭状况、职业、教育背景、偏好、兴趣或其他人口统计信息。在特定实施例中,用户节点702可以与一个或更多个数据对象相关联,一个或更多个数据对象对应于与用户相关联的信息。在特定实施例中,用户节点702可以对应于一个或更多个网页。
在特定实施例中,概念节点704可以对应于概念。作为示例而不是作为限制,概念可以对应于地点(例如,电影院、餐馆、地标或城市);网站(例如,与社交网络系统660相关联的网站或与web应用服务器相关联的第三方网站);实体(例如,个人、企业、团体、运动队或名人);资源(例如,音频文件、视频文件、数字照片、文本文件、结构化文档或应用),其可以位于社交网络系统660内或外部服务器(例如web应用服务器)上;不动产或知识产权(例如,雕塑、绘画、电影、游戏、歌曲、想法、照片或书面作品);游戏;活动;想法或理论;在增强/虚拟现实环境中的对象;另一个合适的概念;或者两个或更多个这样的概念。概念节点704可以与由用户提供的概念的信息或由各种系统(包括社交网络系统660)收集的信息相关联。作为示例而不是作为限制,概念的信息可以包括名称或标题;一个或更多个图像(例如,书籍的封面的图像);位置(例如,地址或地理位置);网站(其可以与URL相关联);联系信息(例如,电话号码或电子邮件地址);其他合适的概念信息;或者这样的信息的任何合适的组合。在特定实施例中,概念节点704可以与一个或更多个数据对象相关联,一个或更多个数据对象对应于与概念节点704相关联的信息。在特定实施例中,概念节点704可以对应于一个或更多个网页。
在特定实施例中,社交图700中的节点可以表示网页(其可以被称为“简档页面”)或者由网页表示。简档页面可以由社交网络系统660托管或是社交网络系统660可访问的。简档页面也可以在与第三方系统670相关联的第三方网站上被托管。作为示例而不是作为限制,对应于特定外部网页的简档页面可以是特定外部网页,并且简档页面可以对应于特定概念节点704。简档页面可以是由其他用户的全部或选定子集可查看的。作为示例而不是作为限制,用户节点702可以具有相应的用户简档页面,其中相应的用户可以添加内容、做出声明或以其他方式表达他或她自己。作为另一示例而不是作为限制,概念节点704可以具有相应的概念简档页面,其中一个或更多个用户可以添加内容、作出声明或表达他们自己,特别是关于对应于概念节点704的概念。
在特定实施例中,概念节点704可以表示由第三方系统670托管的第三方网页或资源。第三方网页或资源除了其它元素以外还可以包括表示动作或活动的内容、可选择的图标或其他图标或其他可交互对象(其可以例如用JavaScript、AJAX或PHP代码实现)。作为示例而不是作为限制,第三方网页可以包括可选择的图标(例如“赞”、“签到(check-in)”、“吃”、“推荐”)或其他合适的动作或活动。查看第三方网页的用户可以通过选择图标之一(例如,“签到”)来执行动作,使得客户端系统130向社交网络系统660发送指示用户动作的消息。响应于该消息,社交网络系统660可以在对应于用户的用户节点702和对应于第三方网页或资源的概念节点704之间创建边(例如,签到类型边),并将边706存储在一个或更多个数据储存器中。
在特定实施例中,在社交图700中的一对节点可以通过一条或更多条边706连接到彼此。连接一对节点的边706可以表示在该对节点之间的关系。在特定实施例中,边706可以包括或表示对应于在一对节点之间的关系的一个或更多个数据对象或属性。作为示例而不是作为限制,第一用户可以指示第二用户是第一用户的“朋友”。响应于该指示,社交网络系统660可以向第二用户发送“朋友请求”。如果第二用户确认“朋友请求”,则社交网络系统660可以在社交图700中创建将第一用户的用户节点702连接到第二用户的用户节点702的边706,并将边706作为社交图信息存储在一个或更多个数据储存器664中。在图7的示例中,社交图700包括指示在用户“A”和用户“B”的用户节点702之间的朋友关系的边706,以及指示在用户“C”和用户“B”的用户节点702之间的朋友关系的边。尽管本公开描述或示出了连接特定用户节点702的具有特定属性的特定边706,但是本公开设想了连接用户节点702的具有任何适当属性的任何适当边706。作为示例而不是作为限制,边706可以表示友谊、家庭关系、商业或雇佣关系、粉丝关系(包括例如,赞等)、关注者(follower)关系、访问者关系(包括例如,访问、查看、签到、分享等)、订购者关系、上级/下级关系、互惠关系、非互惠关系、另一种合适类型的关系、或两种或更多种这样的关系。此外,尽管本公开一般将节点描述为被连接,但是本公开也将用户或概念描述为被连接。在本文,对被连接的用户或概念的引用在适当的情况下可以指在社交图700中由一条或更多条边706连接的对应于那些用户或概念的节点。分别由两个节点表示的两个对象之间的分离度(degree of separation)是连接社交图700中的两个节点的最短路径中的边数。作为示例而非限制,在社交图700中,用户“C”的用户节点702经由多条路径连接到用户“A”的用户节点702,例如,直接通过用户“B”的用户节点702的第一路径,通过公司“Acme”的概念节点704和用户“D”的用户节点702的第二路径,以及通过代表学校“斯坦福”、用户“G”、公司“Acme”和用户“D”的用户节点702和概念节点704的第三路径。用户“C”和用户“A”具有2的分离度,因为连接它们相应节点的最短路径(即,第一路径)包括两条边706。
在特定实施例中,在用户节点702和概念节点704之间的边706可以表示由与用户节点702相关联的用户朝着与概念节点704相关联的概念执行的特定动作或活动。作为示例而不是作为限制,如图7所示,用户可以“赞”、“出席”、“播放”、“收听”、“烹饪”、“工作于”或“观看”概念,其中每个可以对应于边类型或子类型。对应于概念节点704的概念简档页面可以包括例如可选择的“签到”图标(例如,可点击的“签到”图标)或可选择的“添加到收藏夹”图标。类似地,在用户点击这些图标之后,社交网络系统660可以响应于对应于相应动作的用户动作来创建“收藏夹”边或“签到”边。作为另一示例而不是作为限制,用户(用户“C”)可以使用特定的应用(声田(SPOTIFY),其为在线音乐应用)来收听特定的歌曲(“想象(Imagine)”)。在这种情况下,社交网络系统660可以在对应于用户的用户节点702和对应于歌曲和应用的概念节点704之间创建“收听”边706和“使用”边(如图7所示),以指示用户收听了歌曲并使用了应用。此外,社交网络系统660可以在对应于歌曲和应用的概念节点704之间创建“播放”边706(如图7所示),以指示特定歌曲由特定应用播放。在这种情况下,“播放”边706对应于由外部应用(声田)对外部音频文件(歌曲“想象”)执行的动作。尽管本公开描述了连接用户节点702和概念节点704的具有特定属性的特定边706,但是本公开设想了连接用户节点702和概念节点704的具有任何适当属性的任何适当边706。此外,尽管本公开描述了代表单个关系的在用户节点702和概念节点704之间的边,但本公开设想代表一个或更多个关系的在用户节点702和概念节点704之间的边。作为示例而不是作为限制,边706可以表示用户喜欢并使用了特定概念。可选地,另一条边706可以表示用户节点702和概念节点704之间的每种类型的关系(或多个单一关系)(如图7中用户“E”的用户节点702和“声田”的概念节点704之间所示)。
在特定实施例中,社交网络系统660可以在社交图700中的用户节点702和概念节点704之间创建边706。作为示例而不是作为限制,查看概念简档页面的用户(例如,通过使用web浏览器或由用户的客户端系统130托管的专用应用)可以通过点击或选择“赞”图标来指示他或她喜欢由概念节点704表示的概念,这可以使用户的客户端系统130向社交网络系统660发送指示用户喜欢与概念简档页面相关联的概念的消息。响应于该消息,社交网络系统660可以在与用户相关联的用户节点702和概念节点704之间创建边706,如由在用户节点和概念节点704之间的“赞”边706所示的。在特定实施例中,社交网络系统660可以将边706存储在一个或更多个数据储存器中。在特定实施例中,边706可以由社交网络系统660响应于特定用户动作而自动形成。作为示例而不是作为限制,如果第一用户上传图片、观看电影或收听歌曲,则可以在对应于第一用户的用户节点702和对应于那些概念的概念节点704之间形成边706。尽管本公开描述了以特定方式形成特定边706,但是本公开设想了以任何合适的方式形成任何合适的边706。
在特定实施例中,社交网络系统660可以确定各种社交图实体对于彼此的社交图亲和力(affinity)(在本文可以称为“亲和力”)。亲和力可以表示在与线社交网络关联的特定对象(诸如用户、概念、内容、动作、广告)、与在线社交网络关联的其他对象、或其任何合适的组合之间的关系强度或感兴趣程度。还可以针对与第三方系统670或其他合适的系统相关联的对象来确定亲和力。可以为每个用户、主题或内容类型建立对社交图实体的总体亲和力。基于对与社交图实体相关联的动作或关系的持续监控,总体亲和力可以改变。尽管本公开描述了以特定方式确定特定亲和力,但是本公开设想了以任何合适的方式确定任何合适的亲和力。
在特定实施例中,社交网络系统660可以使用亲和力系数(在本文可以称为“系数”)来度量或量化社交图亲和力。系数可以表示或量化与在线社交网络相关联的特定对象之间的关系强度。系数还可以表示基于用户对特定动作的兴趣来度量用户将执行该动作的预测概率的概率或函数。以这种方式,可以基于用户的先前动作来预测用户的未来动作,其中可以至少部分地基于用户的动作的历史来计算系数。系数可以用于预测可位于在线社交网络内部或外部的任何数量的动作。作为示例而不是作为限制,这些动作可以包括各种类型的通信,例如发送消息、发布内容或对内容进行评论;各种类型的观察动作(例如访问或查看简档页面、媒体或其他合适的内容);关于两个或更多个社交图实体的各种类型的一致性信息(例如在同一群组中、在同一照片中被标记、在同一位置处签到或参加同一事件);或其他合适的动作。尽管本公开描述了以特定方式度量亲和力,但是本公开设想了以任何合适的方式度量亲和力。
在特定实施例中,社交网络系统660可以使用各种因素来计算系数。这些因素可以包括例如,用户动作、对象之间的关系类型、位置信息、其他合适的因素或其任意组合。在特定实施例中,当计算系数时,不同的因素可以被不同地加权。每个因素的权重可以是静态的,或者可以根据例如用户、关系类型、动作类型、用户的位置等来改变权重。可以根据因素的权重来组合这些因素的等级(rating),以确定用户的总系数。作为示例而不是作为限制,特定用户动作可以被分配等级和权重,而与特定用户动作相关联的关系被分配等级和相关权重(例如,因此权重总计为100%)。为了计算用户对特定对象的系数,分配给用户动作的等级可以包括例如,总系数的60%,而用户和该对象之间的关系可以包括总系数的40%。在特定实施例中,当确定用于计算系数的各种因素的权重时,社交网络系统660可以考虑各种变量,例如自信息被访问以来的时间、衰减因子、访问的频率、与信息的关系或与信息被访问了的对象的关系、与连接到对象的社交图实体的关系、用户动作的短期或长期平均值、用户反馈、其他合适的变量、或它们的任意组合。作为示例而不是作为限制,系数可以包括衰减因子,该衰减因子导致由特定动作提供的信号强度随时间衰减,使得在计算系数时更近的(more recent)动作更相关。等级和权重可以基于系数所基于的动作的持续跟踪而被持续更新。可以采用任何类型的过程或算法来对每个因素的等级和分配给这些因素的权重进行分配、组合、求平均等。在特定实施例中,社交网络系统660可以使用根据历史动作和过去的用户响应训练的机器学习算法,或者通过将用户暴露于各种选项并测量响应而从用户获得的数据,来确定系数。尽管本公开描述了以特定方式计算系数,但是本公开设想了以任何合适的方式计算系数。
在特定实施例中,社交网络系统660可以基于用户的动作来计算系数。社交网络系统660可以监控在线社交网络上、第三方系统670上、其他合适的系统上、或它们的任意组合上的这样的动作。可以跟踪或监控任何合适类型的用户动作。典型的用户操作包括查看简档页面、创建或发布内容、与内容交互、在图像中标记或被标记在图像中、加入群组、列出并确认事件出席情况、在不同地点签到、点赞特定页面、创建页面以及执行有助于社交动作的其他任务。在特定实施例中,社交网络系统660可以基于用户对特定类型内容的动作来计算系数。内容可以与在线社交网络、第三方系统670或另一合适的系统相关联。内容可以包括用户简档页面、帖子、新闻动态(news stories)、标题、即时消息、聊天室会话、电子邮件、广告、图片、视频、音乐、其他合适的对象或其任意组合。社交网络系统660可以分析用户的动作,以确定这些动作中的一个或更多个是否指示对主题、内容、其他用户等的亲和力。作为示例而不是作为限制,如果用户频繁发布与“咖啡”或其变型相关的内容,则社交网络系统660可以确定用户相对于概念“咖啡”具有高的系数特定动作或动作类型可以被分配比其他动作更高的权重和/或等级,这可能影响计算的总系数。作为示例而不是作为限制,如果第一用户向第二用户发送电子邮件,则该动作的权重或等级可能高于第一用户简单地查看第二用户的用户简档页面的情况。
在特定实施例中,社交网络系统660可以基于特定对象之间的关系的类型来计算系数。参考社交图700,当计算系数时,社交网络系统660可以分析连接特定用户节点702和概念节点704的边706的数量和/或类型。作为示例而不是作为限制,通过配偶型边(表示两个用户结婚了)连接的用户节点702可以被分配比通过朋友型边连接的用户节点702更高的系数。换句话说,根据分配给特定用户的动作和关系的权重,可以确定对于关于用户的配偶的内容的总体亲和力比对于关于用户的朋友的内容的总体亲和力更高。在特定实施例中,用户与另一对象的关系可以影响关于计算该对象的系数的用户动作的权重和/或等级。作为示例而不是作为限制,如果用户在第一张照片中被标记,但仅仅赞第二张照片,则社交网络系统660可以确定用户关于第一张照片具有比第二张照片更高的系数,因为具有与内容的标记型(tagged-in-type)关系可以被分配比具有与内容的点赞型(like-type)关系更高的权重和/或等级。在特定实施例中,社交网络系统660可以基于一个或更多个第二用户与特定对象所具有的关系来计算第一用户的系数。换句话说,其他用户与对象的关连和系数可能影响第一用户关于该对象的系数。作为示例而不是作为限制,如果第一用户关连到一个或更多个第二用户或者对于一个或更多个第二用户具有高的系数,并且那些第二用户关连到特定对象或者对于特定对象具有高的系数,则社交网络系统660可以确定第一用户对于该特定对象同样应该具有相对高的系数。在特定实施例中,系数可以基于特定对象之间的分离度。较低的系数可以表示第一用户将分享对在社交图700中间接地关连到第一用户的用户的内容对象有兴趣的可能性降低。作为示例而不是作为限制,在社交图700中更靠近(即,分离度更少)的社交图实体可以比在社交图700中更远离的实体具有更高的系数。
在特定实施例中,社交网络系统660可以基于位置信息来计算系数。在地理上彼此更靠近的对象可以被认为比更远的对象彼此更相关或更感兴趣。在特定实施例中,用户对特定对象的系数可以基于对象的位置与和用户相关联的当前位置(或用户的客户端系统130的位置)的接近度。第一用户可能对更靠近第一用户的其他用户或概念更感兴趣。作为示例而不是作为限制,如果用户距机场一英里且距加油站两英里,则社交网络系统660可以基于机场与用户的接近度来确定用户对机场具有比加油站更高的系数。
在特定实施例中,社交网络系统660可以基于系数信息来执行关于用户的特定动作。系数可以用于基于用户对特定动作的兴趣来预测用户是否将执行该动作。当生成或向用户呈现任何类型的对象(例如广告、搜索结果、新闻动态、媒体、消息、通知或其他合适的对象)时,可以使用系数。该系数也可以被用来适当地对这些对象进行排名(rank)和排序(order)。以这种方式,社交网络系统660可以提供与用户的兴趣和当前环境相关的信息,增加了他们将找到这样的感兴趣的信息的可能性。在特定实施例中,社交网络系统660可以基于系数信息来生成内容。可以基于特定于用户的系数来提供或选择内容对象。作为示例而不是作为限制,系数可以用于为用户生成媒体,其中可以向用户呈现用户关于媒体对象具有高的总系数的媒体。作为另一示例而不是作为限制,该系数可以用于为用户生成广告,其中可以向用户呈现其关于广告对象具有高总体系数的广告。在特定实施例中,社交网络系统660可以基于系数信息来生成搜索结果。可以基于与查询用户的搜索结果相关联的系数来对特定用户的搜索结果进行评分或排名。作为示例而不是作为限制,对应于具有较高系数的对象的搜索结果在搜索结果页面上的排名可以高于对应于具有较低系数的对象的结果。
在特定实施例中,社交网络系统660可以响应于来自特定系统或过程的系数请求来计算系数。为了预测用户在给定情况下可能采取动作(或者可能是动作的对象)的可能性,任何过程都可以请求关于用户的计算出的系数。请求还可以包括用于计算系数的各种因素使用的一组权重。该请求可以来自在线社交网络上运行的进程(process)、来自第三方系统670(例如,经由API或其他通信渠道)、或者来自另一个合适的系统。响应于该请求,社交网络系统660可以计算系数(或者如果先前已经计算并存储了系数信息,则访问系数信息)。在特定实施例中,社交网络系统660可以度量关于特定过程的亲和力。不同的过程(在线社交网络的内部和外部)可以请求关于特定对象或对象集的系数。社交网络系统660可以提供与请求了亲和力的度量的特定过程相关的亲和力的度量。以这种方式,每个过程接收针对不同上下文调整的亲和力度量,其中该过程将使用亲和力度量。
结合社交图亲和力和亲和力系数,特定实施例可以利用在2006年8月11日提交的第11/503093号美国专利申请、2010年12月22日提交的第12/977027号美国专利申请、2010年12月23日提交的第12/978265号美国专利申请和2012年10月01日提交的第13/632869号美国专利申请(其中的每一个都通过引用并入)中公开的一个或更多个系统、组件、元件、功能、方法、操作或步骤。
隐私
在特定实施例中,计算系统的一个或更多个对象(例如,内容或其他类型的对象)可以与一个或更多个隐私设置相关联。一个或更多个对象可以存储在任何合适的计算系统或应用上或以其他方式与任何合适的计算系统或应用相关联,该计算系统或应用例如为社交网络系统660、客户端系统630、第三方系统670、社交网络应用、消息传递应用、照片分享应用或任何其他合适的计算系统或应用。尽管本文讨论的示例是在在线社交网络的上下文中,但是这些隐私设置可以应用于任何其他合适的计算系统。对象的隐私设置(或“访问设置”)可以以任何合适的方式——例如与对象相关联地、在授权服务器上用索引、以另一种合适的方式、或其任何合适的组合——被存储。对象的隐私设置可以指定如何可以在在线社交网络中访问、存储或以其他方式使用(例如,查看、共享、修改、复制、执行、显现或识别)该对象(或与该对象相关联的特定信息)。在对象的隐私设置允许特定用户或其他实体访问该对象时,该对象可以被描述为相对于该用户或其他实体是“可见的”。作为示例而不是作为限制,在线社交网络的用户可以指定关于用户简档页面的隐私设置,该隐私设置识别可以访问在用户简档页面上的工作经历信息的一组用户,因而排除其他用户访问该信息。
在特定实施例中,对象的隐私设置可以指定不应当被允许访问与对象相关联的某些信息的用户或其他实体的“黑名单(blocked list)”。在特定实施例中,黑名单可以包括第三方实体。黑名单可以指定一个或更多个用户或实体,对象对这些用户或实体是不可见的。作为示例而不是作为限制,用户可以指定不可以访问与用户相关联的相册的用户集合,因而排除那些用户访问相册(同时也可能允许不在指定用户集合内的某些用户访问相册)。在特定实施例中,隐私设置可以与特定社交图元素相关联。社交图元素(例如节点或边)的隐私设置可以指定可以如何使用在线社交网络来访问社交图元素、与社交图元素相关联的信息、或与社交图元素相关联的对象。作为示例而不是作为限制,对应于特定照片的特定概念节点704可以具有指定照片仅可以由在照片中标记的用户以及在照片中标记的用户的朋友访问的隐私设置。在特定实施例中,隐私设置可以允许用户选择加入或选择退出由社交网络系统660存储/记录或与其他系统(例如,第三方系统670)共享他们的内容、信息或动作。尽管本公开描述了以特定方式使用特定的隐私设置,但本公开设想以任何合适的方式使用任何合适的隐私设置。
在特定实施例中,隐私设置可以基于社交图700的一个或更多个节点或边。可以为社交图700的一条或更多条边706或边类型、或者关于社交图700的一个或更多个节点702、704或节点类型,指定隐私设置。应用于连接两个节点的特定边706的隐私设置可以控制对应于这两个节点的两个实体之间的关系对于在线社交网络的其他用户是否可见。类似地,应用于特定节点的隐私设置可以控制对应于该节点的用户或概念对于在线社交网络的其他用户是否可见。作为示例而不是作为限制,第一用户可以向社交网络系统660共享对象。该对象可以与通过边706关连到第一用户的用户节点702的概念节点704相关联。第一用户可以指定应用于关连到对象的概念节点704的特定边706的隐私设置,或者可以指定应用于关连到概念节点704的所有边706的隐私设置。作为另一个示例而不是作为限制,第一用户可以共享特定对象类型的对象集合(例如,图像集合)。第一用户可以针对与第一用户相关联的该特定对象类型的所有对象将隐私设置指定为具有特定的隐私设置(例如,指定由第一用户发布的所有图像仅对第一用户的朋友和/或在图像中标记的用户可见)。
在特定实施例中,社交网络系统660可以(例如,在网页、模块、一个或更多个对话框或任何其他合适的界面内)向第一用户呈现“隐私向导(privacy wizard)”,以帮助第一用户指定一个或更多个隐私设置。隐私向导可以显示指令、合适的隐私相关信息、当前隐私设置、用于接受来自第一用户的一个或更多个输入(其指定隐私设置的改变或确认)的一个或更多个输入字段、或其任何合适的组合。在特定实施例中,社交网络系统660可以向第一用户提供“仪表板(dashboard)”功能,该功能可以向第一用户显示第一用户的当前隐私设置。仪表板功能可以在任何适当的时间显示给第一用户(例如,在来自调用仪表板功能的第一用户的输入之后,在特定事件或触发动作发生之后)。仪表板功能可以允许第一用户以任何合适的方式在任何时间修改第一用户的一个或更多个当前隐私设置(例如,将第一用户重定向到隐私向导)。
与对象相关联的隐私设置可以指定允许访问或拒绝访问的任何合适的粒度(granularity)。作为示例而不是作为限制,可以为特定用户(例如,只有我、我的室友、我的老板)、在特定分离度内的用户(例如,朋友、朋友的朋友)、用户团体(例如,游戏俱乐部、我的家人)、用户网络(例如,特定雇主的雇员、特定大学的学生或校友)、所有用户(“公众”)、无用户(“私人的”)、第三方系统670的用户、特定应用(例如,第三方应用、外部网站)、其他合适的实体、或其任何合适的组合来指定访问或拒绝访问。尽管本公开描述了允许访问或拒绝访问的特定粒度,但是本公开设想了允许访问或拒绝访问的任何合适粒度。
在特定实施例中,一个或更多个服务器662可以是用于实施隐私设置的授权/隐私服务器。响应于来自用户(或其他实体)的对存储在数据储存器664中的特定对象的请求,社交网络系统660可以向数据储存器664发送对该对象的请求。请求可以识别与该请求相关联的用户,并且对象只有在授权服务器基于与该对象相关联的隐私设置确定该用户被授权访问该对象时才可以被发送给该用户(或者该用户的客户端系统630)。如果请求用户未被授权访问该对象,则授权服务器可以阻止所请求的对象从数据储存器664中被检索,或者可以阻止所请求的对象被发送给用户。在搜索-查询上下文中,只有当查询用户被授权访问对象时,例如,如果对象的隐私设置允许其被显露给查询用户、被查询用户发现或以其他方式对查询用户可见,才可以提供对象作为搜索结果。在特定实施例中,对象可以表示通过用户的动态消息对用户可见的内容。作为示例而不是作为限制,一个或更多个对象对于用户的“热门话题(Trending)”页面可以是可见的。在特定实施例中,对象可以对应于特定用户。对象可以是与特定用户相关联的内容,或者可以是特定用户的账户或存储在社交网络系统660或其他计算系统上的信息。作为示例而不是作为限制,第一用户可以通过在线社交网络的“你可能认识的人(People You May Know)”功能或者通过查看第一用户的朋友列表来查看在线社交网络的一个或更多个第二用户。作为示例而不是作为限制,第一用户可以指定他们不希望在他们的动态消息或朋友列表中看到与特定第二用户相关联的对象。如果对象的隐私设置不允许其被显露给用户、被用户发现或对用户可见,则该对象可以从搜索结果中排除。尽管本公开描述了以特定方式实施隐私设置,但是本公开设想了以任何合适的方式实施隐私设置。
在特定实施例中,与用户相关联的相同类型的不同对象可以具有不同的隐私设置。与用户相关联的不同类型的对象可以具有不同类型的隐私设置。作为示例而不是作为限制,第一用户可以指定第一用户的状态更新是公开的,但是第一用户分享的任何图像仅对在线社交网络上第一用户的朋友可见。作为另一个示例而不是作为限制,用户可以为不同类型的实体(如个人用户、朋友的朋友、关注者、用户团体或公司实体)指定不同的隐私设置。作为另一个示例而不是作为限制,第一用户可以指定可以查看由第一用户发布的视频的一组用户,同时防止视频对第一用户的雇主可见。在特定实施例中,可以为不同的用户群组或用户人口统计提供不同的隐私设置。作为示例而不是作为限制,第一用户可以指定与第一用户在同一所大学上学的其他用户可以查看第一用户的照片,但是作为第一用户的家庭成员的其他用户不能查看那些相同的照片。
在特定实施例中,社交网络系统660可以为特定对象类型的每个对象提供一个或更多个默认隐私设置。被设置为默认的对象的隐私设置可以由与该对象相关联的用户来改变。作为示例而不是作为限制,由第一用户发布的所有图像可以具有默认隐私设置,即仅对于第一用户的朋友可见,并且对于特定图像,第一用户可以改变图像的隐私设置,以对于朋友和朋友的朋友可见。
在特定实施例中,隐私设置可以允许第一用户指定(例如,通过选择退出,通过不选择加入)社交网络系统660是否可以出于任何目的接收、收集、记录或存储与用户相关联的特定对象或信息。在特定实施例中,隐私设置可以允许第一用户指定特定应用或过程是否可以访问、存储或使用与用户相关联的特定对象或信息。隐私设置可以允许第一用户选择加入或选择退出使对象或信息被特定应用或过程访问、存储或使用。社交网络系统660可以访问这样的信息以便向第一用户提供特定的功能或服务,而社交网络系统660不能出于任何其他目的访问该信息。在访问、存储或使用这样的对象或信息之前,社交网络系统660可以提示用户提供指定哪些应用或过程(如果有的话)可以在允许任何这样的动作之前访问、存储或使用对象或信息的隐私设置。作为示例而非限制,第一用户可以经由与在线社交网络相关的应用(例如,消息传送app)向第二用户发送消息,并且可以指定这样的消息不应被社交网络系统660存储的隐私设置。
在特定实施例中,用户可以指定社交网络系统660是否可以访问、存储或使用与第一用户相关联的特定类型的对象或信息。作为示例而不是作为限制,第一用户可以指定由第一用户通过社交网络系统660发送的图像不可以被社交网络系统660存储。作为另一个示例而不是作为限制,第一用户可以指定从第一用户发送给特定第二用户的消息不可以被社交网络系统660存储。作为又一个示例而不是作为限制,第一用户可以指定经由特定应用发送的所有对象可以被社交网络系统660保存。
在特定实施例中,隐私设置可以允许第一用户指定是否可以从特定客户端系统630或第三方系统670访问与第一用户相关联的特定对象或信息。隐私设置可以允许第一用户选择加入或选择退出从特定设备(例如,用户智能电话上的电话簿)、从特定应用(例如,消息传递app)或从特定系统(例如,电子邮件服务器)访问对象或信息。社交网络系统660可以提供关于每个设备、系统或应用的默认隐私设置,和/或可以提示第一用户为每个上下文指定特定的隐私设置。作为示例而不是作为限制,第一用户可以利用社交网络系统660的位置服务特征来提供用户附近的餐馆或其他地方的推荐。第一用户的默认隐私设置可以指定社交网络系统660可以使用从第一用户的客户端设备630提供的位置信息来提供基于位置的服务,但是社交网络系统660不可以存储第一用户的位置信息或将其提供给任何第三方系统670。第一用户然后可以更新隐私设置,以允许第三方图像共享应用使用位置信息来对照片进行地理标记。
情绪或情感信息的隐私设置
在特定实施例中,隐私设置可以允许用户指定是否可以确定与用户相关联的情绪或情感信息,以及特定应用或过程是否可以访问、存储或使用这样的信息。隐私设置可以允许用户选择加入或选择退出由特定应用或过程访问、存储或使用该情绪或情感信息。社交网络系统660可以基于例如用户提供的输入和与特定对象的交互来预测或确定与用户相关联的情绪或情感,所述特定对象例如是用户查看的页面或内容、用户上传的帖子或其他内容以及与在线社交网络的其他内容的交互。在特定实施例中,社交网络系统660可以使用用户先前的活动和计算的情绪或情感来确定当前的情绪或情感。希望启用该功能的用户可以在其隐私设置中指示他们选择加入让社交网络系统660接收确定情绪或情感所需的输入。作为示例而非限制,社交网络系统660可以确定默认隐私设置是不接收确定情绪或情感所必需的任何信息,直到从用户得到社交网络系统660可以这样做的明确指示。相反,如果用户没有选择加入让社交网络系统660接收这些输入(或者肯定地选择退出让社交网络系统660接收这些输入),则可以阻止社交网络系统660接收、收集、记录或存储这些输入或与这些输入相关联的任何信息。在特定实施例中,社交网络系统660可以使用预测的情绪或情感来向用户提供推荐或广告。在特定实施例中,如果用户希望将该功能用于特定目的或应用,则用户可以指定附加的隐私设置,以选择加入将情绪或情感信息用于特定目的或应用。作为示例而非限制,社交网络系统660可以使用用户的情绪或情感来向用户提供动态消息项目、页面、朋友或广告。用户可以在其隐私设置中指定社交网络系统660可以确定用户的情绪或情感。然后,可以要求用户提供额外的隐私设置,以指示用户的情绪或情感可以用于的目的。用户可以指示社交网络系统660可以使用他或她的情绪或情感来提供动态消息内容和推荐页面,但是不用于推荐朋友或广告。社交网络系统660然后可以仅基于用户情绪或情感提供动态消息内容或页面,并且不可以将该信息用于任何其他目的,即使隐私设置没有明确禁止。
用于用户认证和体验个性化信息的隐私设置
在特定实施例中,社交网络系统660可以具有可将用户的个人或生物识别信息(biometric information)用作输入以用于用户认证或体验个性化目的的功能。用户可以选择利用这些功能来增强他们在在线社交网络上的体验。作为示例而非限制,用户可以向社交网络系统660提供个人信息或生物识别信息。用户的隐私设置可以指定这样的信息仅可以用于特定的过程(例如认证),并且进一步指定这样的信息不可以与任何第三方系统670共享或者不可以用于与社交网络系统660相关联的其他过程或应用。作为另一个示例而不是作为限制,社交网络系统660可以为用户提供向在线社交网络提供声纹记录的功能。作为示例而不是作为限制,如果用户希望利用在线社交网络的这一功能,则用户可以提供他或她自己声音的声音记录,以提供在线社交网络上的状态更新。声音输入的记录可以与用户的声纹进行比较,以确定用户说了什么词语。用户的隐私设置可以指定这种声音记录可以仅用于声音输入目的(例如,认证用户、发送声音消息、改进声音识别以便使用在线社交网络的声音操作特征),并且还指定这种声音记录不可以与任何第三方系统670共享,或者不可以被与社交网络系统660相关联的其他过程或应用使用。作为另一个示例而不是作为限制,社交网络系统660可以为用户提供向在线社交网络提供参考图像(例如,面部轮廓、视网膜扫描)的功能。在线社交网络可以将参考图像与稍后接收的图像输入进行比较(例如,用于认证用户,在照片中标记用户)。用户的隐私设置可以指定这种声音记录仅可用于有限的目的(例如,认证、在照片中标记用户),并且还指定这种声音记录不能与任何第三方系统670共享,或者不能被与社交网络系统660相关联的其他过程或应用使用。
用户发起的对隐私设置的改变
在特定实施例中,对隐私设置的改变可以追溯(retroactively)生效,影响在改变之前共享的对象和内容的可见性。作为示例而非限制,第一用户可以共享第一图像并指定第一图像对所有其他用户公开。稍后,第一用户可以指定由第一用户共享的任何图像应该仅对第一用户群组可见。社交网络系统660可以确定该隐私设置也适用于第一图像,并且使得第一图像仅对第一用户群组可见。在特定实施例中,隐私设置的改变可以仅向前生效。继续上面的例子,如果第一用户改变隐私设置,然后共享第二图像,则第二图像可以仅对第一用户群组可见,但是第一图像可以保持对所有用户可见。在特定实施例中,响应于改变隐私设置的用户动作,社交网络系统660可以进一步提示用户指示用户是否想要将改变追溯地应用于隐私设置。在特定实施例中,用户对隐私设置的改变可以是特定于一个对象的一次性改变。在特定实施例中,用户对隐私的改变可以是与用户相关联的所有对象的全局改变。
在特定实施例中,社交网络系统660可以确定第一用户可能想要响应于与第一用户相关联的触发动作来改变一个或更多个隐私设置。触发动作可以是在线社交网络上的任何合适的动作。作为示例而非限制,触发动作可以是在线社交网络的第一和第二用户之间的关系的改变(例如,将用户“删除好友(un-friending)”,改变用户之间的关系状态)。在特定实施例中,在确定触发动作已经发生后,社交网络系统660可以提示第一用户改变关于与第一用户相关联的对象的可见性的隐私设置。该提示可以将第一用户重定向到用于编辑关于与触发动作相关联的一个或更多个实体的隐私设置的工作流过程。与第一用户相关联的隐私设置可以仅响应于来自第一用户的明确输入而改变,并且不可以在没有第一用户的批准的情况下被改变。作为示例而非限制,工作流过程可以包括向第一用户提供关于第二用户或一组用户的当前隐私设置(例如,从特定对象中去除第一用户或第二用户的标签,改变关于第二用户或一组用户的特定对象的可见性),以及从第一用户接收指示以基于本文描述的任何方法改变隐私设置,或者保持现有的隐私设置。
在特定实施例中,用户可能需要在允许用户在在线社交网络上执行特定动作之前提供隐私设置的验证,或者在改变特定隐私设置之前提供验证。当执行特定动作或改变特定隐私设置时,可以向用户呈现提示,以提醒用户他或她的当前隐私设置,并要求用户验证关于特定动作的隐私设置。此外,在进行特定动作之前,用户可能需要提供确认、双重确认、认证或其他合适类型的验证,并且在提供这种验证之前,该动作可能不会完成。作为示例而非限制,用户的默认隐私设置可以指示一个人的关系状态对所有用户可见(即,“公开”)。然而,如果用户改变他或她的关系状态,社交网络系统660可以确定这样的动作可能是敏感的,并且可以提示用户确认他或她的关系状态在继续之前应该保持公开。作为另一个示例而非限制,用户的隐私设置可以指定用户的帖子仅对用户的朋友可见。然而,如果用户将他或她的帖子的隐私设置改变为公开,则社交网络系统660可以向用户提示帖子仅对朋友可见的用户的当前隐私设置的提醒,以及该改变将使用户的所有过去的帖子对公众可见的警告。然后,在继续改变隐私设置之前,用户可能需要提供第二次验证、输入认证凭证或提供其他类型的验证。在特定实施例中,用户可能需要定期提供隐私设置的验证。根据经过的时间或用户动作的数量,可以周期性地向用户发送提示或提醒。作为示例而非限制,社交网络系统660可以每六个月或每十张照片帖子后向用户发送提醒以确认他或她的隐私设置。在特定实施例中,隐私设置还可以允许用户基于每个请求来控制对对象或信息的访问。作为示例而非限制,每当第三方系统670试图访问与用户相关联的信息时,社交网络系统660可以通知用户,并要求用户在继续之前提供应该允许访问的验证。
图8示出了示例计算机系统800。在特定实施例中,一个或更多个计算机系统800执行本文描述或示出的一个或更多个方法的一个或更多个步骤。在特定实施例中,一个或更多个计算机系统800提供本文描述或示出的功能。在特定实施例中,在一个或更多个计算机系统800上运行的软件执行本文描述或示出的一个或更多个方法的一个或更多个步骤,或者提供本文描述或示出的功能。特定实施例包括一个或更多个计算机系统800的一个或更多个部分。在本文,在适当的情况下,对计算机系统的引用可以包括计算设备,反之亦然。此外,在适当的情况下,对计算机系统的引用可以包括一个或更多个计算机系统。
本公开设想了任何合适数量的计算机系统800。本公开设想了计算机系统800采取任何合适的物理形式。作为示例而不是作为限制,计算机系统800可以是嵌入式计算机系统、片上系统(SOC)、单板计算机系统(SBC)(例如,模块上计算机(COM)或模块上系统(SOM))、台式计算机系统、膝上型或笔记本计算机系统、交互式信息亭、大型机、计算机系统网状网、移动电话、个人数字助理(PDA)、服务器、平板计算机系统、增强/虚拟现实设备、或者这些系统的两个或更多个的组合。在适当的情况下,计算机系统800可以包括一个或更多个计算机系统800;是整体式的或分布式的;跨越多个位置;跨越多台机器;跨越多个数据中心;或者驻留在云中,云可以包括在一个或更多个网络中的一个或更多个云组件。在适当的情况下,一个或更多个计算机系统800可以在没有实质性空间或时间限制的情况下执行本文描述或示出的一个或更多个方法的一个或更多个步骤。作为示例而不是作为限制,一个或更多个计算机系统800可以实时地或以批处理模式来执行本文描述或示出的一个或更多个方法的一个或更多个步骤。在适当的情况下,一个或更多个计算机系统800可以在不同的时间或在不同的位置处执行本文描述或示出的一个或更多个方法的一个或更多个步骤。
在特定实施例中,计算机系统800包括处理器802、存储器804、存储装置806、输入/输出(I/O)接口808、通信接口810和总线812。尽管本公开描述并示出了具有在特定布置中的特定数量的特定组件的特定计算机系统,但是本公开设想了具有在任何合适布置中的任何合适数量的任何合适组件的任何合适的计算机系统。
在特定实施例中,处理器802包括用于执行指令(例如构成计算机程序的那些指令)的硬件。作为示例而不是作为限制,为了执行指令,处理器802可以从内部寄存器、内部高速缓存、存储器804或存储装置806中检索(或取回)指令;将他们解码并执行它们;以及然后将一个或更多个结果写到内部寄存器、内部高速缓存、存储器804或存储装置806。在特定实施例中,处理器802可以包括用于数据、指令或地址的一个或更多个内部高速缓存。在适当的情况下,本公开设想了处理器802包括任何合适数量的任何合适的内部高速缓存。作为示例而不是作为限制,处理器802可以包括一个或更多个指令高速缓存、一个或更多个数据高速缓存、以及一个或更多个转译后备缓冲器(TLB)。在指令高速缓存中的指令可以是在存储器804或存储装置806中的指令的副本,并且指令高速缓存可以加速处理器802对那些指令的检索。在数据高速缓存中的数据可以是:在存储器804或存储装置806中的数据的副本,用于使在处理器802处执行的指令进行操作;在处理器802处执行的先前指令的结果,用于由在处理器802处执行的后续指令访问或者用于写到存储器804或存储装置806;或其他合适的数据。数据高速缓存可以加速由处理器802进行的读或写操作。TLB可以加速关于处理器802的虚拟地址转译。在特定实施例中,处理器802可以包括用于数据、指令或地址的一个或更多个内部寄存器。在适当的情况下,本公开设想了处理器802包括任何合适数量的任何合适的内部寄存器。在适当的情况下,处理器802可以包括一个或更多个算术逻辑单元(ALU);是多核处理器;或者包括一个或更多个处理器802。尽管本公开描述并示出了特定的处理器,但是本公开设想了任何合适的处理器。
在特定实施例中,存储器804包括用于存储用于使处理器802执行的指令或用于使处理器802操作的数据的主存储器。作为示例而不是作为限制,计算机系统800可以将指令从存储装置806或另一个源(例如,另一个计算机系统800)加载到存储器804。处理器802然后可以将指令从存储器804加载到内部寄存器或内部高速缓存。为了执行指令,处理器802可以从内部寄存器或内部高速缓存中检索指令并将它们解码。在指令的执行期间或之后,处理器802可以将一个或更多个结果(其可以是中间结果或最终结果)写到内部寄存器或内部高速缓存。处理器802然后可以将这些结果中的一个或更多个写到存储器804。在特定实施例中,处理器802仅执行在一个或更多个内部寄存器或内部高速缓存中或在存储器804(而不是存储装置806其他地方)中的指令,并且仅对在一个或更多个内部寄存器或内部高速缓存中或在存储器804(而不是存储装置806或其他地方)中的数据进行操作。一个或更多个存储器总线(其可以各自包括地址总线和数据总线)可以将处理器802耦合到存储器804。如下所述,总线812可以包括一个或更多个存储器总线。在特定实施例中,一个或更多个存储器管理单元(MMU)驻留在处理器802和存储器804之间,并且便于由处理器802请求的对存储器804的访问。在特定实施例中,存储器804包括随机存取存储器(RAM)。在适当的情况下,该RAM可以是易失性存储器。在适当的情况下,该RAM可以是动态RAM(DRAM)或静态RAM(SRAM)。此外,在适当的情况下,该RAM可以是单端口RAM或多端口RAM。本公开设想了任何合适的RAM。在适当的情况下,存储器804可以包括一个或更多个存储器804。尽管本公开描述并示出了特定的存储器,但是本公开设想了任何合适的存储器。
在特定实施例中,存储装置806包括用于数据或指令的大容量存储装置。作为示例而不是作为限制,存储装置806可以包括硬盘驱动器(HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器、或这些中的两个或更多个的组合。在适当的情况下,存储装置806可以包括可移动或不可移动(或固定)介质。在适当的情况下,存储装置806可以在计算机系统800的内部或外部。在特定实施例中,存储装置806是非易失性固态存储器。在特定实施例中,存储装置806包括只读存储器(ROM)。在适当的情况下,该ROM可以是掩模编程ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可变ROM(EAROM)、或闪存、或这些中的两个或更多个的组合。本公开设想了采用任何合适的物理形式的大容量存储装置806。在适当的情况下,存储装置806可以包括便于在处理器802和存储装置806之间的通信的一个或更多个存储装置控制单元。在适当的情况下,存储装置806可以包括一个或更多个存储装置806。尽管本公开描述并示出了特定的存储装置,但是本公开设想了任何合适的存储装置。
在特定实施例中,I/O接口808包括为在计算机系统800和一个或更多个I/O设备之间的通信提供一个或更多个接口的硬件、软件或两者。在适当的情况下,计算机系统800可以包括这些I/O设备中的一个或更多个。这些I/O设备中的一个或更多个可以实现在人和计算机系统800之间的通信。作为示例而不是作为限制,I/O设备可以包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静态摄像机、触笔、平板计算机、触摸屏、跟踪球、视频摄像机、另一个合适的I/O设备、或这些中的两个或更多个的组合。I/O设备可以包括一个或更多个传感器。本公开设想了任何合适的I/O设备以及用于它们的任何合适的I/O接口808。在适当的情况下,I/O接口808可以包括使处理器802能够驱动这些I/O设备中的一个或更多个的一个或更多个设备或软件驱动器。在适当的情况下,I/O接口808可以包括一个或更多个I/O接口808。尽管本公开描述并示出了特定的I/O接口,但是本公开设想了任何合适的I/O接口。
在特定实施例中,通信接口810包括提供用于在计算机系统800和一个或更多个其他计算机系统800或一个或更多个网络之间的通信(例如,基于分组的通信)的一个或更多个接口的硬件、软件或两者。作为示例而非限制,通信接口810可以包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器,或者用于与无线网络(例如WI-FI网络)通信的无线NIC(WNIC)或无线适配器。本公开设想了任何合适的网络和用于它的任何合适的通信接口810。作为示例而不是作为限制,计算机系统800可以与自组织网络、个域网(PAN)、局域网(LAN)、广域网(WAN)、城域网(MAN)或互联网的一个或更多个部分、或这些中的两个或更多个的组合进行通信。这些网络中的一个或更多个的一个或更多个部分可以是有线的或无线的。作为示例,计算机系统800可以与无线PAN(WPAN)(例如,蓝牙WPAN)、WI-FI网络、WI-MAX网络、蜂窝电话网络(例如,全球移动通信系统(GSM)网络)、或其他合适的无线网络、或这些中的两个或更多个的组合进行通信。在适当的情况下,计算机系统800可以包括用于这些网络中的任一个的任何合适的通信接口810。在适当的情况下,通信接口810可以包括一个或更多个通信接口810。尽管本公开描述并示出了特定的通信接口,但是本公开设想了任何合适的通信接口。
在特定实施例中,总线812包括将计算机系统800的组件耦合到彼此的硬件、软件或两者。作为示例而不是作为限制,总线812可以包括加速图形端口(AGP)或其他图形总线、扩展工业标准体系结构(EISA)总线、前端总线(FSB)、HYPERTRANSPORT(HT)互连、工业标准体系结构(ISA)总线、INFINIBAND互连、低引脚数(LPC)总线、存储器总线,微通道体系结构(MCA)总线、外围部件互连(PCI)总线、PCI-Express(扩展)(PCIe)总线、串行高级技术附件(SATA)总线、视频电子标准协会本地(VLB)总线、或任何其他合适的总线、或这些中的两个或更多个的组合。在适当的情况下,总线812可以包括一个或更多个总线812。尽管本公开描述并示出了特定总线,但是本公开设想了任何合适的总线或互连。
在本文,在适当的情况下,一个或更多个计算机可读非暂时性存储介质可以包括一个或更多个基于半导体的或其他集成电路(IC)(例如,现场可编程门阵列(FPGA)或专用IC(ASIC))、硬盘驱动器(HDD)、混合硬盘驱动器(HHD)、光盘、光盘驱动器(ODD)、磁光盘、磁光盘驱动器、软盘、软盘驱动器(FDD)、磁带、固态驱动器(SSD)、RAM驱动器、安全数字(SECURE DIGITAL)卡或驱动器、任何其他合适的计算机可读非暂时性存储介质、或这些中的两个或更多个的任何合适组合。在适当的情况下,计算机可读非暂时性存储介质可以是易失性的、非易失性的或者易失性和非易失性的组合。
本文中,除非另有明确指示或通过上下文另有指示,否则“或”是包括一切的而非排他性的。因此在本文,除非另有明确指示或通过上下文另有指示,否则“A或B”意指“A、B或两者”。此外,除非另有明确指示或通过上下文另有指示,否则“和”既是联合的又是各自的。因此在本文,除非另有明确指示或通过上下文另有指示,否则“A和B”意指“A和B,联合地或各自地”。
本公开的范围包括本领域中的普通技术人员将理解的对本文描述或示出的示例实施例的所有改变、替换、变化、变更和修改。本公开的范围不限于本文描述或示出的示例实施例。此外,尽管本公开将本文的相应实施例描述并示为包括特定的组件、元件、特征、功能、操作或步骤,但是这些实施例中的任何一个可以包括本领域中的普通技术人员将理解的在本文任何地方描述或示出的任何组件、元件、特征、功能、操作或步骤的任何组合或置换。此外,在所附权利要求中对适合于、被布置成、能够、被配置成、实现来、可操作来、或操作来执行特定功能的装置或系统或装置或系统的组件的引用包括该装置、系统、组件,无论它或那个特定功能是否被激活、开启或解锁,只要该装置、系统或组件是这样被调整、被布置、使能够、被配置、被实现、可操作的、或操作的。此外,尽管本公开将特定实施例描述或示为提供特定优点,但是特定实施例可以提供这些优点中的一些、全部或不提供这些优点。
Claims (34)
1.一种方法,包括:
在音频-视频通信会话期间,从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中,所述音频输入数据由环境内第一位置处的第一声源和所述环境内第二位置处的第二声源生成;
计算所述第一声源的第一参与度度量和所述第二声源的第二参与度度量,其中:
所述第一参与度度量近似于接收用户对所述第一声源的兴趣水平;和
所述第二参与度度量近似于所述接收用户对所述第二声源的兴趣水平;
确定所述第一参与度度量大于所述第二参与度度量;
处理所述音频输入数据以生成音频输出信号,其中,所述音频输出信号放大由所述第一声源产生的声音并衰减由所述第二声源产生的声音;
将所述音频输出信号发送到与所述接收用户相关联的计算设备。
2.根据权利要求1所述的方法,还包括确定所述第一声源的第一分类和所述第二声源的第二分类,其中,所述第一参与度度量基于所述第一分类,并且所述第二参与度度量基于所述第二分类。
3.根据权利要求2所述的方法,其中,所述第一声源的第一分类是人类声音,并且其中,所述第二声源的第二分类是非人类声音。
4.根据权利要求2所述的方法,其中,确定所述第一分类和所述第二分类是基于从所述音频-视频通信会话的描述性模型接收的信息,所述描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)所述环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
5.根据权利要求1所述的方法,其中,处理所述音频输入数据包括对由所述第一源生成的第一音频输入信号和由所述第二源生成的第二音频输入信号进行声学波束成形,其中,所述声学波束成形包括对所述第二音频输入信号进行时间延迟,使得所述第一声源被放大并且所述第二声源被衰减。
6.根据权利要求1所述的方法,其中,所述第一参与度度量和所述第二参与度度量是基于所述音频-视频通信会话的描述性模型来计算的,所述描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)所述环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
7.根据权利要求1所述的方法,还包括:
访问包括多个节点和连接所述节点的多条边的社交图,其中:
第一节点对应于所述接收用户;
第二节点对应于与所述第一声源相关联的实体;和
所述第一节点和所述第二节点之间的边表示所述接收用户和所述实体之间的关系;和
基于所述第一节点和所述第二节点之间的边增加所述第一参与度度量。
8.根据权利要求1所述的方法,其中,至少部分地基于以下项来计算所述第一参与度:所述第一声源说出的单词的计数、所述第一声源和所述麦克风阵列之间的距离、或者所述第一声源在当前音频-视频通信会话期间已经存在于所述环境中的时间量;和
至少部分地基于以下项来计算所述第二参与度:所述第二声源说出的单词的计数、所述第二声源和所述麦克风阵列之间的距离、或者所述第二声源在当前音频-视频通信会话期间已经存在于所述环境中的时间量。
9.一个或更多个计算机可读非暂时性存储介质,其体现软件,所述软件在被执行时可操作来:
在音频-视频通信会话期间,从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中,所述音频输入数据由环境内第一位置处的第一声源和所述环境内第二位置处的第二声源生成;
计算所述第一声源的第一参与度度量和所述第二声源的第二参与度度量,其中:
所述第一参与度度量近似于接收用户对所述第一声源的兴趣水平;和
所述第二参与度度量近似于所述接收用户对所述第二声源的兴趣水平;
确定所述第一参与度度量大于所述第二参与度度量;
处理所述音频输入数据以生成音频输出信号,其中,所述音频输出信号放大由所述第一声源产生的声音并衰减由所述第二声源产生的声音;和
将所述音频输出信号发送到与所述接收用户相关联的计算设备。
10.根据权利要求9所述的介质,其中,所述软件在被执行时还可操作来确定所述第一声源的第一分类和所述第二声源的第二分类,其中,所述第一参与度度量基于所述第一分类,并且所述第二参与度度量基于所述第二分类。
11.根据权利要求10所述的介质,其中,所述第一声源的第一分类是人类声音,并且其中,所述第二声源的第二分类是非人类声音。
12.根据权利要求10所述的介质,其中,确定所述第一分类和所述第二分类是基于从所述音频-视频通信会话的描述性模型接收的信息,所述描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)所述环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
13.根据权利要求9所述的介质,其中,处理所述音频输入数据包括对由所述第一源生成的第一音频输入信号和由所述第二源生成的第二音频输入信号进行声学波束成形,其中,所述声学波束成形包括对所述第二音频输入信号进行时间延迟,使得所述第一声源被放大并且所述第二声源被衰减。
14.根据权利要求9所述的介质,其中,所述第一参与度度量和所述第二参与度度量是基于所述音频-视频通信会话的描述性模型来计算的,所述描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)所述环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
15.根据权利要求9所述的介质,其中,所述软件在被执行时还可操作来:
访问包括多个节点和连接所述节点的多条边的社交图,其中:
第一节点对应于所述接收用户;
第二节点对应于与所述第一声源相关联的实体;和
所述第一节点和所述第二节点之间的边表示所述接收用户和所述实体之间的关系;和
基于所述第一节点和所述第二节点之间的边增加所述第一参与度度量。
16.根据权利要求9所述的介质,其中,至少部分地基于以下项来计算所述第一参与度:所述第一声源说出的单词的计数、所述第一声源和所述麦克风阵列之间的距离、或者所述第一声源在当前音频-视频通信会话期间已经存在于所述环境中的时间量;和
至少部分地基于以下项来计算所述第二参与度:所述第二声源说出的单词的计数、所述第二声源和所述麦克风阵列之间的距离、或者所述第二声源在当前音频-视频通信会话期间已经存在于所述环境中的时间量。
17.一种系统,包括:
一个或更多个处理器;和
一个或更多个计算机可读非暂时性存储介质,其耦合到一个或更多个所述处理器并且包括指令,所述指令当由一个或更多个所述处理器执行时可操作来使所述系统:
在音频-视频通信会话期间,从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中,所述音频输入数据由环境内第一位置处的第一声源和所述环境内第二位置处的第二声源生成;
计算所述第一声源的第一参与度度量和所述第二声源的第二参与度度量,其中:
所述第一参与度度量近似于接收用户对所述第一声源的兴趣水平;和
所述第二参与度度量近似于所述接收用户对所述第二声源的兴趣水平;
确定所述第一参与度度量大于所述第二参与度度量;
处理所述音频输入数据以生成音频输出信号,其中,所述音频输出信号放大由所述第一声源产生的声音并衰减由所述第二声源产生的声音;和
将所述音频输出信号发送到与所述接收用户相关联的计算设备。
18.根据权利要求17所述的系统,其中,所述处理器在执行所述指令时还可操作来确定所述第一声源的第一分类和所述第二声源的第二分类,其中,所述第一参与度度量基于所述第一分类,并且所述第二参与度度量基于所述第二分类。
19.根据权利要求18所述的系统,其中,所述第一声源的第一分类是人类声音,并且其中,所述第二声源的第二分类是非人类声音。
20.根据权利要求18所述的系统,其中,确定所述第一分类和所述第二分类是基于从所述音频-视频通信会话的描述性模型接收的信息,所述描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)所述环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
21.一种方法,包括:
在音频-视频通信会话期间,从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中,所述音频输入数据由环境内第一位置处的第一声源和所述环境内第二位置处的第二声源生成;
计算所述第一声源的第一参与度度量和所述第二声源的第二参与度度量,其中:
所述第一参与度度量近似于接收用户对所述第一声源的兴趣水平;和
所述第二参与度度量近似于所述接收用户对所述第二声源的兴趣水平;
确定所述第一参与度度量大于所述第二参与度度量;
处理所述音频输入数据以生成音频输出信号,其中,所述音频输出信号放大由所述第一声源产生的声音并衰减由所述第二声源产生的声音;
将所述音频输出信号发送到与所述接收用户相关联的计算设备。
22.根据权利要求21所述的方法,还包括确定所述第一声源的第一分类和所述第二声源的第二分类,其中,所述第一参与度度量基于所述第一分类,并且所述第二参与度度量基于所述第二分类;
可选地,其中所述第一声源的第一分类是人类声音,并且其中,所述第二声源的第二分类是非人类声音;和/或
可选地,其中确定所述第一分类和所述第二分类是基于从所述音频-视频通信会话的描述性模型接收的信息,所述描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)所述环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
23.根据权利要求21或22所述的方法,其中,处理所述音频输入数据包括对由所述第一源生成的第一音频输入信号和由所述第二源生成的第二音频输入信号进行声学波束成形,其中,所述声学波束成形包括对所述第二音频输入信号进行时间延迟,使得所述第一声源被放大并且所述第二声源被衰减。
24.根据权利要求21至23中任一项所述的方法,其中,所述第一参与度度量和所述第二参与度度量是基于所述音频-视频通信会话的描述性模型来计算的,所述描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)所述环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
25.根据权利要求21至24中任一项所述的方法,还包括:
访问包括多个节点和连接所述节点的多条边的社交图,其中:
第一节点对应于所述接收用户;
第二节点对应于与所述第一声源相关联的实体;和
所述第一节点和所述第二节点之间的边表示所述接收用户和所述实体之间的关系;和
基于所述第一节点和所述第二节点之间的边增加所述第一参与度度量。
26.根据权利要求21至25中任一项所述的方法,其中,至少部分地基于以下项来计算所述第一参与度:所述第一声源说出的单词的计数、所述第一声源和所述麦克风阵列之间的距离、或者所述第一声源在当前音频-视频通信会话期间已经存在于所述环境中的时间量;和
至少部分地基于以下项来计算所述第二参与度:所述第二声源说出的单词的计数、所述第二声源和所述麦克风阵列之间的距离、或者所述第二声源在当前音频-视频通信会话期间已经存在于所述环境中的时间量。
27.一个或更多个计算机可读非暂时性存储介质,其体现软件,所述软件在被执行时可操作来:
在音频-视频通信会话期间,从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中,所述音频输入数据由环境内第一位置处的第一声源和所述环境内第二位置处的第二声源生成;
计算所述第一声源的第一参与度度量和所述第二声源的第二参与度度量,其中:
所述第一参与度度量近似于接收用户对所述第一声源的兴趣水平;和
所述第二参与度度量近似于所述接收用户对所述第二声源的兴趣水平;
确定所述第一参与度度量大于所述第二参与度度量;
处理所述音频输入数据以生成音频输出信号,其中,所述音频输出信号放大由所述第一声源产生的声音并衰减由所述第二声源产生的声音;和
将所述音频输出信号发送到与所述接收用户相关联的计算设备。
28.根据权利要求27所述的介质,其中,所述软件在被执行时还可操作来确定所述第一声源的第一分类和所述第二声源的第二分类,其中,所述第一参与度度量基于所述第一分类,并且所述第二参与度度量基于所述第二分类;
可选地,其中所述第一声源的第一分类是人类声音,并且其中,所述第二声源的第二分类是非人类声音;和/或
可选地,其中确定所述第一分类和所述第二分类是基于从所述音频-视频通信会话的描述性模型接收的信息,所述描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)所述环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
29.根据权利要求27或28所述的介质,其中,处理所述音频输入数据包括对由所述第一源生成的第一音频输入信号和由所述第二源生成的第二音频输入信号进行声学波束成形,其中,所述声学波束成形包括对所述第二音频输入信号进行时间延迟,使得所述第一声源被放大并且所述第二声源被衰减。
30.根据权利要求27至29中任一项所述的介质,其中,所述第一参与度度量和所述第二参与度度量是基于所述音频-视频通信会话的描述性模型来计算的,所述描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)所述环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
31.根据权利要求27至30中任一项所述的介质,其中,所述软件在被执行时还可操作来:
访问包括多个节点和连接所述节点的多条边的社交图,其中:
第一节点对应于所述接收用户;
第二节点对应于与所述第一声源相关联的实体;和
所述第一节点和所述第二节点之间的边表示所述接收用户和所述实体之间的关系;和
基于所述第一节点和所述第二节点之间的边增加所述第一参与度度量。
32.根据权利要求27至31中任一项所述的介质,其中,至少部分地基于以下项来计算所述第一参与度:所述第一声源说出的单词的计数、所述第一声源和所述麦克风阵列之间的距离、或者所述第一声源在当前音频-视频通信会话期间已经存在于所述环境中的时间量;和
至少部分地基于以下项来计算所述第二参与度:所述第二声源说出的单词的计数、所述第二声源和所述麦克风阵列之间的距离、或者所述第二声源在当前音频-视频通信会话期间已经存在于所述环境中的时间量。
33.一种系统,包括:
一个或更多个处理器;和
一个或更多个计算机可读非暂时性存储介质,其耦合到一个或更多个所述处理器并且包括指令,所述指令当由一个或更多个所述处理器执行时可操作来使所述系统:
在音频-视频通信会话期间,从包括至少两个麦克风的麦克风阵列接收音频输入数据,其中,所述音频输入数据由环境内第一位置处的第一声源和所述环境内第二位置处的第二声源生成;
计算所述第一声源的第一参与度度量和所述第二声源的第二参与度度量,其中:
所述第一参与度度量近似于接收用户对所述第一声源的兴趣水平;和
所述第二参与度度量近似于所述接收用户对所述第二声源的兴趣水平;
确定所述第一参与度度量大于所述第二参与度度量;
处理所述音频输入数据以生成音频输出信号,其中,所述音频输出信号放大由所述第一声源产生的声音并衰减由所述第二声源产生的声音;和
将所述音频输出信号发送到与所述接收用户相关联的计算设备。
34.根据权利要求33所述的系统,其中,所述处理器在执行所述指令时还可操作来确定所述第一声源的第一分类和所述第二声源的第二分类,其中,所述第一参与度度量基于所述第一分类,并且所述第二参与度度量基于所述第二分类;
可选地,其中所述第一声源的第一分类是人类声音,并且其中,所述第二声源的第二分类是非人类声音;和/或
可选地,其中确定所述第一分类和所述第二分类是基于从所述音频-视频通信会话的描述性模型接收的信息,所述描述性模型包括关于以下项的一个或更多个描述性特征:(1)与当前音频-视频通信会话相关联的环境;(2)所述环境中的一个或更多个人,或者(3)与当前音频-视频通信会话相关联的一个或更多个上下文元素。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/949,011 US10462422B1 (en) | 2018-04-09 | 2018-04-09 | Audio selection based on user engagement |
US15/949,011 | 2018-04-09 | ||
PCT/US2019/025768 WO2019199565A1 (en) | 2018-04-09 | 2019-04-04 | Audio selection based on user engagement |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112262367A true CN112262367A (zh) | 2021-01-22 |
Family
ID=66440126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980039274.2A Pending CN112262367A (zh) | 2018-04-09 | 2019-04-04 | 基于用户参与度的音频选择 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10462422B1 (zh) |
EP (1) | EP3776170A1 (zh) |
JP (1) | JP2021518072A (zh) |
KR (1) | KR20200140375A (zh) |
CN (1) | CN112262367A (zh) |
WO (1) | WO2019199565A1 (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11458724B2 (en) | 2016-09-13 | 2022-10-04 | Advanced Vision Technology (A.V.T.) Ltd. | System and method for controlling color characteristics of a printed image |
US10958609B2 (en) * | 2017-12-08 | 2021-03-23 | Verizon Media Inc. | Controlling a graphical user interface based upon a prediction of a messaging action of a messaging account |
US10462422B1 (en) * | 2018-04-09 | 2019-10-29 | Facebook, Inc. | Audio selection based on user engagement |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11010436B1 (en) | 2018-04-20 | 2021-05-18 | Facebook, Inc. | Engaging users by personalized composing-content recommendation |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11307880B2 (en) | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11010566B2 (en) * | 2018-05-22 | 2021-05-18 | International Business Machines Corporation | Inferring confidence and need for natural language processing of input data |
US11361168B2 (en) * | 2018-10-16 | 2022-06-14 | Rovi Guides, Inc. | Systems and methods for replaying content dialogue in an alternate language |
US11227588B2 (en) * | 2018-12-07 | 2022-01-18 | Nuance Communications, Inc. | System and method for feature based beam steering |
CN114270870B (zh) * | 2019-08-14 | 2024-07-09 | 三星电子株式会社 | 沉浸式显示系统及其方法 |
US11308284B2 (en) | 2019-10-18 | 2022-04-19 | Facebook Technologies, Llc. | Smart cameras enabled by assistant systems |
US11567788B1 (en) | 2019-10-18 | 2023-01-31 | Meta Platforms, Inc. | Generating proactive reminders for assistant systems |
EP4009322A3 (en) * | 2020-09-17 | 2022-06-15 | Orcam Technologies Ltd. | Systems and methods for selectively attenuating a voice |
US11563706B2 (en) | 2020-12-29 | 2023-01-24 | Meta Platforms, Inc. | Generating context-aware rendering of media contents for assistant systems |
US11809480B1 (en) | 2020-12-31 | 2023-11-07 | Meta Platforms, Inc. | Generating dynamic knowledge graph of media contents for assistant systems |
US11477570B2 (en) * | 2021-02-04 | 2022-10-18 | Dell Products L.P. | Controlling audio of an information handling system |
EP4220628A4 (en) | 2021-02-19 | 2024-05-22 | Samsung Electronics Co., Ltd. | ELECTRONIC SERVICE SUPPORT DEVICE FOR ARTIFICIAL INTELLIGENCE (AI) AGENT TALKING WITH USER |
US11861315B2 (en) | 2021-04-21 | 2024-01-02 | Meta Platforms, Inc. | Continuous learning for natural-language understanding models for assistant systems |
US12045568B1 (en) | 2021-11-12 | 2024-07-23 | Meta Platforms, Inc. | Span pointer networks for non-autoregressive task-oriented semantic parsing for assistant systems |
US11983329B1 (en) | 2022-12-05 | 2024-05-14 | Meta Platforms, Inc. | Detecting head gestures using inertial measurement unit signals |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09275533A (ja) * | 1996-04-08 | 1997-10-21 | Sony Corp | 信号処理装置 |
US20060233389A1 (en) * | 2003-08-27 | 2006-10-19 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
WO2012083989A1 (en) * | 2010-12-22 | 2012-06-28 | Sony Ericsson Mobile Communications Ab | Method of controlling audio recording and electronic device |
CN103731768A (zh) * | 2013-12-25 | 2014-04-16 | 深圳Tcl新技术有限公司 | 一种声音拾取方法及装置 |
US20160080684A1 (en) * | 2014-09-12 | 2016-03-17 | International Business Machines Corporation | Sound source selection for aural interest |
US20160080874A1 (en) * | 2014-09-16 | 2016-03-17 | Scott Fullam | Gaze-based audio direction |
CN105474666A (zh) * | 2014-04-25 | 2016-04-06 | 松下知识产权经营株式会社 | 声音处理装置、声音处理系统及声音处理方法 |
US20170221500A1 (en) * | 2016-02-02 | 2017-08-03 | Ebay Inc. | Personalized, real-time audio processing |
US9843768B1 (en) * | 2016-09-23 | 2017-12-12 | Intel Corporation | Audience engagement feedback systems and techniques |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6825875B1 (en) * | 1999-01-05 | 2004-11-30 | Interval Research Corporation | Hybrid recording unit including portable video recorder and auxillary device |
US6934461B1 (en) * | 1999-01-05 | 2005-08-23 | Interval Research Corporation | Low attention recording, with particular application to social recording |
US7559026B2 (en) * | 2003-06-20 | 2009-07-07 | Apple Inc. | Video conferencing system having focus control |
US7446601B2 (en) * | 2003-06-23 | 2008-11-04 | Astronix Research, Llc | Electron beam RF amplifier and emitter |
US8155446B2 (en) * | 2005-11-04 | 2012-04-10 | Eyetracking, Inc. | Characterizing dynamic regions of digital media data |
WO2007128003A2 (en) * | 2006-03-28 | 2007-11-08 | Motionbox, Inc. | System and method for enabling social browsing of networked time-based media |
US9002839B1 (en) * | 2007-09-28 | 2015-04-07 | Amazon Technologies, Inc. | Personalizing content for users |
US20090164408A1 (en) * | 2007-12-21 | 2009-06-25 | Ilya Grigorik | Method, System and Computer Program for Managing Delivery of Online Content |
US9319357B2 (en) * | 2009-01-15 | 2016-04-19 | Social Communications Company | Context based virtual area creation |
US8539359B2 (en) * | 2009-02-11 | 2013-09-17 | Jeffrey A. Rapaport | Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic |
JP2010193017A (ja) * | 2009-02-16 | 2010-09-02 | Panasonic Corp | 映像通信装置 |
US20100257234A1 (en) * | 2009-04-03 | 2010-10-07 | Caughey David | Method and apparatus for providing content to mobile recipients |
US9258665B2 (en) * | 2011-01-14 | 2016-02-09 | Echostar Technologies L.L.C. | Apparatus, systems and methods for controllable sound regions in a media room |
US8660581B2 (en) * | 2011-02-23 | 2014-02-25 | Digimarc Corporation | Mobile device indoor navigation |
US9098576B1 (en) * | 2011-10-17 | 2015-08-04 | Google Inc. | Ensemble interest point detection for audio matching |
US9431980B2 (en) * | 2012-01-30 | 2016-08-30 | Echostar Ukraine Llc | Apparatus, systems and methods for adjusting output audio volume based on user location |
US8893164B1 (en) * | 2012-05-16 | 2014-11-18 | Google Inc. | Audio system |
US20140028917A1 (en) * | 2012-07-30 | 2014-01-30 | General Instrument Corporation | Displaying multimedia |
US10055491B2 (en) * | 2012-12-04 | 2018-08-21 | Sonos, Inc. | Media content search based on metadata |
US10009644B2 (en) * | 2012-12-04 | 2018-06-26 | Interaxon Inc | System and method for enhancing content using brain-state data |
US8854447B2 (en) * | 2012-12-21 | 2014-10-07 | United Video Properties, Inc. | Systems and methods for automatically adjusting audio based on gaze point |
US9521486B1 (en) * | 2013-02-04 | 2016-12-13 | Amazon Technologies, Inc. | Frequency based beamforming |
US10447826B2 (en) * | 2013-03-14 | 2019-10-15 | Google Llc | Detecting user interest in presented media items by observing volume change events |
US10229206B2 (en) * | 2013-08-02 | 2019-03-12 | Microsoft Technology Licensing, Llc | Social snippet augmenting |
US9755605B1 (en) * | 2013-09-19 | 2017-09-05 | Amazon Technologies, Inc. | Volume control |
US20150356836A1 (en) * | 2014-06-05 | 2015-12-10 | Microsoft Corporation | Conversation cues within audio conversations |
US9615170B2 (en) * | 2014-06-09 | 2017-04-04 | Harman International Industries, Inc. | Approach for partially preserving music in the presence of intelligible speech |
US20150365725A1 (en) * | 2014-06-11 | 2015-12-17 | Rawllin International Inc. | Extract partition segments of personalized video channel |
US9838759B2 (en) * | 2014-06-20 | 2017-12-05 | Google Inc. | Displaying information related to content playing on a device |
US9805125B2 (en) * | 2014-06-20 | 2017-10-31 | Google Inc. | Displaying a summary of media content items |
US20160379261A1 (en) * | 2015-06-26 | 2016-12-29 | Intel Corporation | Targeted content using a digital sign |
US9691413B2 (en) * | 2015-10-06 | 2017-06-27 | Microsoft Technology Licensing, Llc | Identifying sound from a source of interest based on multiple audio feeds |
US10542315B2 (en) * | 2015-11-11 | 2020-01-21 | At&T Intellectual Property I, L.P. | Method and apparatus for content adaptation based on audience monitoring |
US20170214954A1 (en) * | 2016-01-25 | 2017-07-27 | Google Inc. | Media Program Moments Guide |
US9898250B1 (en) * | 2016-02-12 | 2018-02-20 | Amazon Technologies, Inc. | Controlling distributed audio outputs to enable voice output |
US9858927B2 (en) * | 2016-02-12 | 2018-01-02 | Amazon Technologies, Inc | Processing spoken commands to control distributed audio outputs |
US10579493B2 (en) * | 2016-08-22 | 2020-03-03 | Oath Inc. | Systems and methods for determining user engagement with electronic devices |
US10996741B2 (en) * | 2017-09-12 | 2021-05-04 | International Business Machines Corporation | Augmented reality conversation feedback |
US11562243B2 (en) * | 2017-11-17 | 2023-01-24 | Meta Platforms, Inc. | Machine-learning models based on non-local neural networks |
US10462422B1 (en) * | 2018-04-09 | 2019-10-29 | Facebook, Inc. | Audio selection based on user engagement |
-
2018
- 2018-04-09 US US15/949,011 patent/US10462422B1/en active Active
-
2019
- 2019-04-04 WO PCT/US2019/025768 patent/WO2019199565A1/en unknown
- 2019-04-04 KR KR1020207032357A patent/KR20200140375A/ko not_active Application Discontinuation
- 2019-04-04 JP JP2020547375A patent/JP2021518072A/ja not_active Ceased
- 2019-04-04 CN CN201980039274.2A patent/CN112262367A/zh active Pending
- 2019-04-04 EP EP19722739.0A patent/EP3776170A1/en active Pending
- 2019-09-19 US US16/576,602 patent/US10838689B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09275533A (ja) * | 1996-04-08 | 1997-10-21 | Sony Corp | 信号処理装置 |
US20060233389A1 (en) * | 2003-08-27 | 2006-10-19 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
WO2012083989A1 (en) * | 2010-12-22 | 2012-06-28 | Sony Ericsson Mobile Communications Ab | Method of controlling audio recording and electronic device |
CN103731768A (zh) * | 2013-12-25 | 2014-04-16 | 深圳Tcl新技术有限公司 | 一种声音拾取方法及装置 |
CN105474666A (zh) * | 2014-04-25 | 2016-04-06 | 松下知识产权经营株式会社 | 声音处理装置、声音处理系统及声音处理方法 |
US20160080684A1 (en) * | 2014-09-12 | 2016-03-17 | International Business Machines Corporation | Sound source selection for aural interest |
US20160080874A1 (en) * | 2014-09-16 | 2016-03-17 | Scott Fullam | Gaze-based audio direction |
US20170221500A1 (en) * | 2016-02-02 | 2017-08-03 | Ebay Inc. | Personalized, real-time audio processing |
US9843768B1 (en) * | 2016-09-23 | 2017-12-12 | Intel Corporation | Audience engagement feedback systems and techniques |
Also Published As
Publication number | Publication date |
---|---|
US20190313054A1 (en) | 2019-10-10 |
WO2019199565A1 (en) | 2019-10-17 |
JP2021518072A (ja) | 2021-07-29 |
US20200050420A1 (en) | 2020-02-13 |
EP3776170A1 (en) | 2021-02-17 |
US10462422B1 (en) | 2019-10-29 |
US10838689B2 (en) | 2020-11-17 |
KR20200140375A (ko) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10838689B2 (en) | Audio selection based on user engagement | |
KR102630902B1 (ko) | 서술적 모델들에 기초한 자동화된 결정들 | |
US10491410B2 (en) | Multiplex live group communication | |
US10425579B2 (en) | Social camera for auto group selfies | |
US11406896B1 (en) | Augmented reality storytelling: audience-side | |
US20200014646A1 (en) | Dynamic Communication Participant Identification | |
US11647147B2 (en) | User-specific customization of video conferences using multimodal biometric characterization | |
US20220345537A1 (en) | Systems and Methods for Providing User Experiences on AR/VR Systems | |
US20190208115A1 (en) | Identifying User Intent for Auto Selfies | |
WO2020060856A1 (en) | Shared live audio | |
US20180287980A1 (en) | Systems and Methods for Blocking Content Redistribution | |
CN112513911A (zh) | 位置预测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: California, USA Applicant after: Yuan platform Co. Address before: California, USA Applicant before: Facebook, Inc. |