CN103650035A

CN103650035A - 经由社交图谱、语音模型和用户情境识别接近移动装置用户的人

Info

Publication number: CN103650035A
Application number: CN201280033020.8A
Authority: CN
Inventors: 里昂纳德·亨利·葛罗科普; 维迪亚·纳拉亚南
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-07-01
Filing date: 2012-06-28
Publication date: 2014-03-19
Anticipated expiration: 2032-06-28
Also published as: EP2727104A1; WO2013006385A1; CN103650035B; US9159324B2; US20130006634A1; KR20140031391A; KR101753509B1; JP5930432B2; JP2014523707A; KR20150140867A; EP2727104B1

Abstract

提供用以使用说话者辨识来改进对人的识别的技术。在一个实施例中，唯一社交图谱可与多个所定义情境中的每一者相关联。所述社交图谱可指示可能存在于特定情境中的说话者。因此，可收集和处理包含语音信号的音频信号。可推断情境，且可识别对应的社交图谱。可基于所述社交图谱确定一组潜在说话者。接着可将所述经处理信号与受限制的一组语音模型进行比较，每一语音模型与一潜在说话者相关联。通过限制所述组潜在说话者，可较准确地识别说话者。

Description

经由社交图谱、语音模型和用户情境识别接近移动装置用户的人

技术领域

背景技术

识别移动装置用户正与之交互的人是情境感知和社交网络领域中待解决的极有价值的问题。迄今为止，所述问题大部分仍未解决。

发明内容

本发明提供使用说话者辨识来改进对人的识别的技术。在一个实施例中，可产生唯一社交图谱，并使其与多个所界定情境中的每一者相关联。社交图谱可指示在特定情境中可能存在说话者。因此，可收集并处理包含语音信号的音频信号。可推断情境，且可识别对应的社交图谱。可基于社交图谱来确定一组潜在说话者。接着可将经处理的信号与受限的一组语音模型进行比较，每一语音模型与一潜在说话者相关联。通过限制潜在说话者的集合，可较准确地识别说话者。

在一些实施例中，提供一种用于识别说话者的方法。所述方法可包含：存取包括语音信号的音频数据，所述音频数据是使用移动装置上的麦克风产生；推断所述移动装置的用户的情境；至少部分地基于所述所推断的情境来识别社交图谱，所述社交图谱包括潜在说话者列表；以及识别被确定为已用声音为所述语音信号做贡献的说话者，所述说话者识别至少部分地基于所述所识别的社交图谱。推断所述用户的所述情境可至少部分地基于所述用户的位置。所述方法可进一步包含至少部分地基于所述移动装置所接收的GPS、WiFi或蜂窝式信号来确定所述用户的所述位置。推断所述用户的所述情境可至少部分地基于所述用户的环境。所述方法可进一步包含至少部分地基于所述移动装置所接收的蓝牙或音频信号来确定所述环境。推断所述用户的所述情境可至少部分地基于所述用户的活动。所述方法可进一步包含至少部分地基于运动传感器数据、光传感器数据或由所述移动装置上的麦克风捕获的音频信号来确定所述活动。推断所述用户的所述情境可至少部分地基于与所述移动装置相关联的电子邮件数据、短信数据、日历数据、社交网络数据和联系人列表数据中的一者或一者以上。推断所述用户的所述情境可至少部分地基于所述移动装置的呼叫状态和/或当前呼叫细节。推断所述用户的所述情境可至少部分地基于所述移动装置上正活跃地或非活跃地使用的应用程序。推断所述用户的所述情境可至少部分地基于收集所述音频数据时的时刻。所述音频数据可包含以隐私敏感方式采样的音频部分，使得所说的词语无法从所述音频数据重构。所述方法可进一步包含存储多个社交图谱，所述多个社交图谱中的每一者与一不同情境相关联。所述方法可进一步包含存储多个语音模型，其中每一语音模型与一潜在说话者相关联。所述方法可进一步包含：存储多个语音模型，其中每一语音模型与一潜在说话者相关联；处理所述所存取的音频数据；以及将所述经处理的音频数据与所述多个语音模型的子集进行比较，所述子集是至少部分地基于所述所识别的社交图谱来确定的。所述方法可进一步包含产生一个或一个以上情境的社交图谱，其中所述社交图谱的产生是至少部分地基于以下各项中的一者或一者以上：用户位置数据、日历数据、电子邮件数据和社交网络数据。所述所识别的社交图谱可包含所述一个社交图谱的一个或一个以上边缘的边缘加权。每一边缘的所述边缘加权可对应于所述用户与和所述边缘相关联的人交互所花费的时间分数。所述方法可进一步包含在识别所述社交图谱之前：捕获多个情境中的每一者中的训练音频数据；群集所述所捕获的训练音频数据；以及基于所述所群集的音频数据产生多个社交图谱，其中所述所产生的社交图谱包括所述多个社交图谱中的一者。所述方法可进一步包含至少部分地基于群集算法的执行来界定多个潜在情境。所述识别所述说话者可包含识别所述说话者的名称。

在一些实施例中，本发明提供一种用于辨识说话者的设备。所述设备可包含移动装置，其包括：麦克风，其经配置以接收音频信号，且将所述所接收到的音频信号转换为无线电信号；以及发射器，其经配置以发射所述无线电信号。所述设备还可包含一个或一个以上处理器，其经配置以：从所述麦克风捕获音频数据；推断所述移动装置的用户的情境；至少部分地基于所述所推断的情境来识别社交图谱，所述社交图谱包括潜在说话者列表；以及识别被确定为已用声音为所述语音信号做贡献的说话者，所述说话者识别至少部分地基于所述所识别的社交图谱。远程服务器可包含所述一个或一个以上处理器中的至少一者。所述移动装置可包含所述一个或一个以上处理器中的全部。所述移动装置可包含显示器，且所述一个或一个以上处理器可进一步经配置以在所述显示器上呈现所述说话者的标识。

在一些实施例中，本发明提供一种计算机可读媒体，所述计算机可读媒体含有执行以下步骤的程序：存取包括语音信号的音频数据，所述音频数据是使用移动装置上的麦克风产生；推断所述移动装置的用户的情境；至少部分地基于所述所推断的情境来识别社交图谱，所述社交图谱包括潜在说话者列表；以及识别被确定为已用声音为所述语音信号做贡献的说话者，所述说话者识别至少部分地基于所述所识别的社交图谱。所述程序可进一步执行以下步骤：将所述所存取的音频数据变换到特征空间。所述程序可进一步执行以下步骤：存储多个社交图谱，每一社交图谱与一不同情境相关联。所述程序可进一步执行以下步骤：存储多个语音模型，其中每一语音模型与一潜在说话者相关联；处理所述所存取的音频数据；以及将所述经处理的音频数据与所述多个语音模型的子集进行比较，所述子集是至少部分地基于所述所识别的社交图谱来确定的。

在一些实施例中，本发明提供一种用于辨识说话者的系统。所述系统可包含：用于存取包括语音信号的音频数据的装置(例如，收发器和/或麦克风)；用于推断情境的装置(例如，当前状态分析器)；用于至少部分地基于所述所推断的情境来识别社交图谱的装置(例如，情境到社交图谱映射器)，所述社交图谱包括潜在说话者列表；以及用于识别被确定为已用声音为所述语音信号做贡献的说话者的装置，所述说话者识别至少部分地基于所述所识别的社交图谱(例如，分类器和/或语音模型到人映射器)。所述系统可进一步包含用于至少部分地基于以下各项中的一者或一者以上产生一个或一个以上情境的社交图谱的装置(例如，社交图谱产生器)：用户位置数据、日历数据、电子邮件数据和社交网络数据。所述所识别的社交图谱可包含所述一个社交图谱的一个或一个以上边缘的边缘加权。所述系统可进一步包含用于向移动装置的用户呈现所述识别说话者的装置(例如，显示器)。

附图说明

图1A说明用于使用社交图谱、语音模型和用户情境信息来识别一个或一个以上人的设备的实施例。

图1B是说明根据本发明实施例的音频数据的捕获的图。

图1C是说明根据本发明另一实施例的音频数据的捕获的图。

图1D是说明根据本发明又一实施例的音频数据的捕获的图。

图2是用于识别接近移动装置用户的一个或一个以上人的过程的流程图。

图3说明计算机系统的实施例。

具体实施方式

提供用以使用说话者辨识来改进对人的识别的方法、装置和系统。在一些例子中，通过使接收到的音频信号与一组可能说话者中的一者相关联来辨识说话者。举例来说，可定义初始的一组可能说话者，且可使一个或一个以上语音模型与每一可能说话者相关联。可处理接收到的信号，以试图使所述信号与所述可能说话者中的一者相关联。

因为移动装置频繁地从大量说话者接收音频信号，所以产生难题。因此，辨识说话者可需要将给定的经处理信号与大量控制变量进行比较。此分析可需要大量的计算处理，且可易于经常发生辨识错误。如果可将对说话者的辨识限制为从较小的一组可能说话者辨识说话者，那么可减少所需的处理能力、计算时间和错误。

因此，在一些实施例中，使用受限的一组控制数据来辨识信号。可通过使用情境，将初始控制数据集合缩减到受限控制数据集合。举例来说，可基于例如时刻、位置、用户活动、在装置上执行的应用程序、传感器数据、周围噪声、日历事件、电子邮件数据、呼叫状态、在移动装置上使用的应用程序、用户输入等，推断情境(例如，“工作”、“家”、“聚会”、“会议”、“汽车”、“与家人在一起”等)。多个情境中的每一者可与社交图谱相关联。社交图谱可识别可能在所推断的情境中提供语音信号的一组人。对于与社交图谱相关联的一个或一个以上人来说，社交图谱可包含给定语音信号是起源于所述人的概率。可基于此概率定义集合本身(例如，使得集合包含具有高于阈值(例如10％)的信号概率的所有人)。可在不考虑信号的音频特性的情况下计算概率(例如，在家接收到的语音信号是来自“姐妹”的概率有10％)。此后，使用适用的社交图谱可辅助辨识语音信号是源自谁。更具体地说，辨识可包含使音频信号与较小的一组可能说话者中的一者匹配。

图1A说明根据本发明一个实施例的用于识别一个或一个以上人的设备100a。如图1A中所示，设备100a可包含移动装置110a，其可由用户113a使用。移动装置110a可经由无线网络120a和网络130a而与远程服务器140a通信。移动装置110a可包含经配置以例如经由无线网络发射无线电信号的发射器。移动装置110a可表示蜂窝式电话、智能电话或某一其它移动计算机化装置，例如个人数字助理、平板计算机、膝上型计算机、手持式游戏装置、数字相机等。如图1A中所示，移动装置110a可含有麦克风112a。麦克风112a可准许移动装置110a从移动装置周围的物理环境收集或捕获音频数据(例如，正由人114a说出的语音)。

麦克风112a可经配置以在选定(“活跃”)时间周期期间，将声波转换为电信号或无线电信号。在一些例子中，麦克风112a是否为活跃的至少部分地取决于一个或一个以上程序或程序的部分是否正在移动装置110a上执行。举例来说，麦克风112a可仅在特定程序被执行从而指示移动装置110a处于呼叫状态时为活跃的。在一些实施例中，在移动装置110a正在呼叫中且在一个或一个以上独立程序被执行时，激活麦克风112a。举例来说，用户可能够起始程序来：设置话音辨识快速拨号、记录口述等。在一些实施例中，例如在每天的固定时间期间、以规则间隔等自动激活麦克风112a。

在一些实施例中，可使用隐私敏感麦克风采样来确保在为语音检测目的提供充足信息的同时，无法从所捕获音频数据听到或重构所说词语和/或句子。举例来说，参看图1B，物理环境中的连续音频流可包括持续T_window秒且具有多个音频部分或数据段的音频数据窗110b。更具体地说，所述窗可包括N个块120b，每一块120b持续T_block秒，且包括各为T_frame秒的多个帧130b。可对麦克风信号进行采样，使得在T_block秒的每个块中仅收集一个帧(具有T_frame秒的数据)。参数设定的实例包含T_frame=50ms和T_block=500ms，但这些设定可依据所要功能性而变化。举例来说，帧的范围可从小于30ms到100ms或以上，块的范围可从小于250ms直至2000ms(2s)或以上，且窗可短至单个块(例如，每窗一个块)，直至一分钟或以上。不同帧、块和窗长度可影响每块的帧数目以及每窗的块数目。注意，可通过连续地采样麦克风信号且丢弃(即，不存储)不想要的分量(例如，每500ms中的450ms)，或通过在不想要的区段期间关闭麦克风(例如，每500ms中有450ms关闭麦克风)来实现帧捕获。

所得音频数据140b是仅包括原始音频数据的子集的帧的集合。即使如此，此子集仍可包含可用于确定音频数据的周围环境和/或其它情境信息而不对确定的准确性有显著影响的音频特性。在一些例子中，所述子集可额外地或替代地用以识别说话者(例如，一旦推断出情境)。举例来说，可基于数据的子集来确定倒谱系数，并将其与语音模型进行比较。

图1C和1D类似于图1B。然而，在图1C和1D中，采取额外步骤来帮助进一步确保可捕获的任何语音的隐私。图1C说明对于T_window秒的每个窗，可如何随机排列(即，随机混洗)窗内的每个块的第一帧，以提供结果音频数据140c。图1D说明类似技术，但进一步随机化针对每一块所捕获的帧。举例来说，在T_window=10ms且T_block=500ms的情况下，将捕获20个帧的麦克风数据。接着可随机排列这20个帧。可使用以大量方式(例如，基于GPS时间、基于来自移动装置110a内的电路的噪声、基于来自麦克风的噪声、基于来自天线的噪声等)产生的种子来计算随机排列。此外，可丢弃(例如，不存储)所述排列，以有助于确保混洗效果不可颠倒。

预期其它实施例。举例来说，在捕获帧之前，可对块本身进行混洗，或在整个窗中随机捕获帧(而不是将帧捕获限于每块一个帧的实施例)等。在一些实施例中，可对所有帧进行采样，且随机排列所有帧。在一些实施例中，可对一些或所有帧进行采样，且将其映射到特征空间上。隐私保护技术可使经处理的数据(例如，不完整的帧采样、经排列的帧、经映射的数据等)能够被存储，且可能没必要存储原始音频数据。因而，可能难以或不可能基于所存储的数据来逆向计算原始音频信号(且因此向麦克风中说出的消息)。

再次参看图1A，无线网络120a可表示蜂窝式服务提供商的无线网络。无线网络120a可使用一个或一个以上网络130a来与远程服务器140a通信。网络130a可包含一个或一个以上私用网络，例如企业内部网；和/或一个或一个以上公用网络，例如因特网。

远程服务器140a可包含处理器142a和存储装置144a。在一些实施例中，远程服务器140a可包含未说明的其它组件。移动装置110a还可包含处理器和/或存储装置。语音模型数据可存储在存储装置144a和/或移动装置110a的存储装置上。语音模型数据可包含例如原始音频信号、音频信号的部分、经处理的音频信号(例如，经标准化的信号或经滤波的信号)、经特征映射的音频信号(例如，倒谱系数)、对应于语音模型的参数、对应于模板的参数等。与说话者相关联的语音模型可包含用以确定未知信号是否可能包含说话者的语音信号的一组参数。举例来说，与说话者1相关联的第一语音模型可包含特定功率谱模板，且与说话者1相关联的第二语音模型可包含一组音频数据参数(例如，振幅变化、剪辑变量等)。

社交图谱数据可存储在存储装置144a和/或移动装置110a的存储装置上。社交图谱数据可包含例如指示社交情境(例如，时刻、星期几、接收信号强度、位置、GPS坐标、正执行的程序、用户输入等)、与特定情境(例如，名字、唯一识别符等)相关联的人、在给定情境的情况下语音信号将由特定人发出的概率等的变量。

可使用所存储的数据来识别接近移动装置110a和/或其用户的说话者。在某些实施例中，存储装置144a可存储用于若干不同用户的社交图谱数据146a和语音模型数据148a。说明性地，存储装置144a可能针对五个不同用户中的每一者存储十个不同社交图谱和二十个不同语音模型。

可以任一合适方式且通过使用任何合适形式的数据获得社交图谱。可通过从用户的位置、日历、电子邮件、社交网络简档等获得的数据来获得社交图谱。举例来说，社交图谱可包含仅或至少与日历指示将或可能处于当前事件(例如，会议)的人相关联的语音模型。作为另一实例，可基于社交网络简档、电子邮件数据或短信数据(例如，通过分析所定义的关系、电子邮件形式、短信或电子邮件的时戳等)来推断或确定关系。可用与有关情境(例如，工作)相关联的一个或一个以上语音模型来表示具有特定关系的人(例如，同事)。

在一些例子中，社交图谱是“学习得的”。举例来说，可监视并捕获语音信号。可例如基于接收到的数据(例如，音频数据、GPS数据、用户输入数据、时间和日子数据等)来推断情境。所捕获的语音信号可被群集，使得一个或一个以上群集被估计为对应于唯一说话者。因此，例如，可学习到：在情境A中，说话者1到3可能存在，且在情境B中，说话者1以及4到6可能存在。一个或一个以上语音模型可与所述说话者中的一者或一者以上相关联。如果在情境B中接收到语音信号，那么接着可使用与说话者1以及4到6相关联的语音模型数据来识别语音信号源于谁。

在一些实施例中，社交图谱可对应于用户情境。举例来说，由列表中的同事组成的社交图谱可对应于“工作”情境。作为另一实例，由用户的家人/家中成员组成的社交图谱可对应于“家”情境。作为又一实例，由参加特定集会的列表中的朋友(或列表中的朋友和其所有朋友)组成的社交图谱可对应于“聚会”情境。

在某些实施例中，对应于用户的不同情境的社交图谱可具有嵌套结构。在这些例子中，如果在低(例如，较精确)等级下界定用户的情境，那么社交图谱可小得多，从而使得服务器较容易准确地识别接近移动装置用户的说话者。举例来说，与“聚会”的高等级情境相反，用户情境可为“约翰的聚会”。在此情况下，对应的社交图谱可能限于受邀客人(或已使用社交网络工具向聚会登记的人)的列表，其可比所有朋友(或所有朋友和其所有朋友)的列表具体得多。作为另一实例，如果用户的情境为“工作时的会议”，那么对应的社交图谱可仅由用户团队中的同事组成，或者仅由受邀参加会议者组成。

根据一些实施例，可利用具有边缘加权的社交图谱。明确地说，社交图谱中所表示的每个人可被指派一加权。加权可表示移动装置用户与所述人交互所花费的时间的相对分数。举例来说，如果用户的情境为“工作”，那么用户团队中的同事将被指派比不在用户团队中的人高的加权。同样地，在对应于用户的朋友的社交图谱中，亲近朋友的加权高于疏远朋友的加权。作为另一实例，如果用户在具有由各种等级的邀请接受度(例如“参加”、“可能参加”、“不参加”、“不回复”)组成的RSVP列表的聚会上，那么将在对应的社交图谱上相应地加权受邀者。更具体地说，与那些已响应“可能参加”的人相比，将把较高权重指派给已响应“参加”的那些人。应了解，用于用户与之交互的特定人的加权可随着用户的情境而改变。举例来说，如果用户是某人的亲近朋友，而该人碰巧也是用户的同事但不是同一团队的成员，那么与当用户的情境为“工作”时相比，当用户的情境为“聚会”时，所述人可具有较高加权。作为另一实例，当用户的情境为“家”而不是“聚会”时，家庭成员可能收到较高加权。

可以任何合适方式使用边缘加权来识别说话者。举例来说，在一些实施方案中，可将边缘加权视为先验概率。说明性地，假设使用贝叶斯分类器。令f(x)表示从音频数据向量x计算的特征向量。另外，令P(S)(其中，s=1，...，S)表示对应于用户的情境的社交图谱中的S个说话者的先验概率。应注意，这些先验概率总和为一，即

基于所计算的特征向量和先验概率，可使用以下等式选择具有最高后验概率的说话者：

。明确地说，实施例可将每一说话者s的可能性得分P(f(x)|s)乘以所述说话者的先验概率P(S)，且随后选择具有最高结果的说话者。

在一些实施例中，移动装置110a执行实质上所有本文所述的处理。在一些实施例中，远程服务器140a执行一些或实质上所有本文所述的处理。移动装置110a可经配置以将原始、中间或完全处理的提供给远程服务器140a。举例来说，移动装置110a可向远程服务器140a发射：原始音频和/或语音数据、隐私敏感音频和/或语音数据、经处理(例如，经滤波、经变换、经标准化等)的音频和/或语音数据、情境变量、所推断的情境、可能说话者的列表、适用的社交图谱、一个或一个以上语音模型(例如，对应于与所推断的情境相关联的社交图谱中的人列表)等。在一些实施例中，移动装置用户最频繁地与之交往的一组人的语音模型由移动装置110a和/或远程服务器140a高速缓存。通过高速缓存语音模型，可较快地识别说话者，且/或即使是在处理器正离线操作的周期期间，识别功能性仍可继续可用。

现在将描述可用以识别一个或一个以上人的过程的实例。

图2是根据一个实施例的用于识别一个或一个以上人的过程200的流程图。过程200的部分或全部可由例如移动装置110a和/或由远程服务器140a执行。

过程200在210处开始，在210处，移动装置110a从其周围的物理环境(例如，使用移动装置110a上的麦克风和/或记录器)收集或搜集音频数据。在一些实施例中，移动装置110a可使用嵌入式或所连接的麦克风来收集音频数据。根据一些实施例，移动装置110a可经配置以使用隐私敏感麦克风采样，以便确保无法从所收集的音频数据听到或重构所说词语和/或句子。

可例如连续地、定期地或以离散间隔收集音频数据。在一些例子中，当检测到语音时，总是或有时收集音频数据。举例来说，移动装置可经配置以执行语音检测程序。语音检测程序可在后台运行，且在一天当中，确定在移动装置周围的环境中何时存在语音。如果检测到语音，那么移动装置可(例如，使用麦克风112a)来记录音频信号。在一些实施例中，记录音频数据，例如当接收到指示要记录音频数据或要起始程序的输入(例如，来自用户)时。在一些实施例中，当所监视的声音的音量超过阈值时；当执行一个或一个以上特定程序或程序的部分(例如，与正参与呼叫的移动装置有关)时；当移动装置参与呼叫时；当移动装置正发射信号时等，记录音频信号。

在220处，识别音频数据中包含语音的区段(例如，通过语音检测器)。举例来说，可将信号分为多个区段。每一区段可由一个或一个以上变量(例如，倒谱系数)表征。与每一区段相关联的变量的分析可允许实现关于区段是否包含语音信号的估计。

在230处，处理语音区段(例如，通过应用滤波器、变换、标准化、噪声减少算法等)。举例来说，可为语音区段计算特征向量(例如，包含倒谱系数)。作为进一步实例，可对语音区段进行滤波、标准化等。作为更进一步实例，可对语音区段进行采样和/或排列，使得例如无法从经处理的数据重构所说出的词语。

在240处，推断(例如，通过当前状态分析器)当前情境。可例如基于移动装置110a所接收到的传感器数据(例如，感测附近蓝牙、所确定的接收强度、接收到的GPS信号、接收到的蜂窝式信号、接收到的音频信号，或接收到的WiFi信号)、外部传感器(例如，感测时刻)所接收到的传感器数据、先前用户输入(例如，与日历事件相关联)、所存储的文本(例如，电子邮件文本或短信)、用户提供的数据(例如识别情境)、社交网络状态、电子邮件数据、短信数据、日历数据等来推断情境。在一些例子中，可至少部分地基于接收到的音频数据推断当前情境。举例来说，背景噪声特性、接收到的信号的清楚性或所识别的(例如，特定说话者或噪声的)特定类型的信号可表明用户或装置处于特定情境。在一些实施例中，情境是“学习得的”。举例来说，可监视并群集数据(例如上文所列出的任何指示情境的数据)。一个或一个以上群集可与唯一情境识别符相关联。在一些例子中，为一个或一个以上情境命名。在一些例子中，不为一个或一个以上情境命名，且例如基于唯一(例如，字母数字)识别符来识别所述情境。

在一些例子中，推断情境至少部分地基于位置。情境可为位置(例如，地址、城市的一部分或城市)，或位置可表明用户处于情境中(例如，GPS坐标的特定范围可与“工作”情境相关联)。位置可至少部分地通过由移动装置接收或从移动装置发射的信号的类型、时间或强度来确定。举例来说，可至少部分地基于移动装置所接收到的GPS、WiFi或蜂窝式信号来确定位置。

在一些例子中，推断情境至少部分地基于环境(例如，安静、许多话音信号、嘈杂背景、许多附近的人、许多附近的计算机、在特定计算机附近或音乐)。可基于例如移动装置所接收到的信号(例如，蓝牙或音频信号)来确定环境。

在一些例子中，推断情境至少部分地基于用户的活动(例如，看电影、在计算机上工作、在社交事件中、跑步等)。可使用传感器数据(例如运动传感器数据、光传感器数据、接收到的音频信号等)来确定活动。还可基于例如电子邮件数据、短信数据、日历数据或社交网络数据来确定活动。举例来说，当运动传感器数据指示装置正以每小时约六英里的速度移动时，可确定“跑步”情境。作为另一实例，当存储在装置上或与装置的用户相关联的日历数据指示用户接受了来自“约翰”的邀请时，推断“社交”情境。

在一些例子中，推断情境是至少部分地基于装置相关状态(例如，呼叫状态、当前呼叫细节、正活跃地或非活跃地在装置上使用的应用程序等)。举例来说，当装置参与呼叫时，可推断正在呼叫状态。社交图谱可接着包含例如联系人列表中的人或与呼叫装置/被装置呼叫的电话号码(例如，在联系人列表或公用/私用数据库中)相关联的人。作为另一实例，当装置正执行游戏应用程序时，装置可推断非工作情境。

在250处，至少部分地基于所推断的情境来识别至少一个社交图谱(例如，使用实施映射算法的情境到社交图谱映射器)。说明性地，情境可指示用户或装置在“家”中。因此，可选择包含所述用户的家中成员的社交图谱。所识别的社交图谱可包括所存储的社交图谱。每一所存储的社交图谱可与一个或一个以上情境相关联，且可已至少部分地基于用户位置数据、日历数据、电子邮件数据、社交网络数据、所接收信号数据等而(例如，由社交图谱产生器)产生。所识别的社交图谱可包含如上文所述的特征(例如，权重)。

可已使用任何适当技术来构造社交图谱。举例来说，可已基于向移动装置110a的用户输入(例如，识别可能存在于特定情境中的人)、电子消息(例如，电子邮件、电子邀请、短信等)、社交网站上的数据、先前在相关联情境中捕获的音频信号、先前由相关联情境中的附近移动装置接收的信号等来构造社交图谱。作为特定实例，可推断用户在玛丽的聚会上，因为他接受了去所述聚会的电子邀请。与玛丽的聚会情境相关联的社交图谱可包含公开指示(例如，经由网页)其也将参加聚会的所有其它人的列表。作为另一特定实例，可推断用户在情境A中。可能已通过在用户先前在情境A中时捕获音频信号来确定社交图谱。社交图谱可接着指示在十分钟内，存在50％的概率从说话者1接收语音信号，存在30％的概率从说话者2接收语音信号，且存在5％的概率从说话者3接收语音信号。

在260处，可基于选定的至少一个社交图谱，将语音数据(例如，经处理的语音区段)与一个或一个以上语音模型进行匹配(例如，使用实施分类算法的分类器)。明确地说，选定社交图谱中所表示的人中的至少一些可各自与对应的语音模型相关联。可将每一模型与语音数据进行比较，且可确定与所述语音数据匹配的一个或一个以上语音模型。举例来说，所识别的社交图谱中所表示的一个或一个以上模型可与包括若干倒谱系数的语音模型相关联。所处理的语音数据还可包含若干倒谱系数。可使语音数据与具有最类似倒谱系数的语音模型匹配。在一个实施例中，语音模型包括在给定情境下从说话者接收语音信号的概率和/或由所述概率组成。语音模型可包含例如高斯混合模型或隐藏马科夫模型。

在270处，可至少部分地基于260处的匹配的结果来识别(例如，使用实施映射算法的语音模型到人映射器)接近移动装置用户的一个或一个以上人。对一个或一个以上人的识别可包含例如通过以下各项来识别所述一个或一个以上人：通过名称、通过唯一识别符、通过电话号码、通过电子邮件地址、通过在线ID、通过音频特性、通过音频样本、通过关系等。在一些例子中，确定与所述识别相关联的一个或一个以上概率。举例来说，可确定有90％的概率语音信号是源自说话者1、5％的概率语音信号是源自说话者2，且5％的概率语音信号是源自未知说话者。所述概率可基于与推断情境相关联的置信度和/或与在给定所推断的情境下识别人相关联的置信度。

在280处，可呈现一个或一个以上人的标识。在一些例子中，将所述标识传送给移动装置110a的用户。举例来说，可在移动装置110a的显示器上显示所述标识。在一些例子中，将包括标识的通信(例如，短信、话音消息或电子邮件消息)发送给用户。可在网站(例如，社交网站)上公布所述标识。可使用所述标识来更新用户在社交网站上的状态。

在一些实施例中，移动装置110a执行过程200的全部。在一些实施例中，远程服务器140a执行过程200的至少一部分。在后面的例子中，数据可能有必要由移动装置110a(例如，经由无线网络120和/或网络130)发射且由远程服务器140a接收。所发射的数据可包含例如原始或经处理的音频数据、语音数据(例如，包含所计算的特征向量的数据)、语音模型数据、情境相关数据、社交图谱数据等。在一些例子中，移动装置110a在本地执行210到240和280。将语音数据和所推断的情境发射到远程服务器140a。远程服务器接着执行250到270。接着可从远程服务器140a发射(例如，经由无线网络120和/或网络130)且由移动装置110a接收与接近移动装置的一个或一个以上人和/或移动装置的使用有关的信息。一个或一个以上人的识别可基于先前发射到远程服务器140a的语音数据和用户情境。远程服务器140a可存储例如社交图谱数据和语音模型。在一些实施例中，社交图谱数据可包含语音模型可与之相关联的一个或一个以上社交图谱。举例来说，每一社交图谱可包含一个或一个以上人的表示。所述表示中的每一者可与表示人的话音的语音模型相关联。

如图3中所说明的计算机系统可被并入作为先前所描述的计算机化装置的部分。举例来说，计算机系统300可表示本申请案中所论述的移动装置和/或远程计算机系统的组件中的一些组件。图3提供可执行由如本文所述的各种其它实施例提供的方法且/或可充当远程服务器140a和/或移动装置110a的计算机系统300的一个实施例的示意性说明。应注意，图3仅意在提供各种组件的一股化说明，其中的任一者或全部可被酌情利用。因此，图3广泛说明可如何以相对分离或相对较整合的方式来实施个别系统元件。

展示计算机系统300包括可经由总线305电耦合(或可酌情以其它方式通信)的硬件元件。所述硬件元件可包含一个或一个以上处理器310，其包含(但不限于)一个或一个以上通用处理器和/或一个或一个以上专用处理器(例如数字信号处理芯片、图形加速处理器和/或其类似者)；一个或一个以上输入装置315，其可包含(但不限于)鼠标、键盘和/或其类似者；以及一个或一个以上输出装置320，其可包含(但不限于)显示装置、打印机和/或其类似者。

计算机系统300可进一步包含一个或一个以上存储装置325(且/或与之通信)，存储装置325可包括(但不限于)本地和/或网络可存取存储装置，且/或可包含(但不限于)磁盘驱动器、驱动器阵列、光学存储装置、固态存储装置，例如随机存取存储器(“RAM”)和/或只读存储器(“ROM”)，其可为可编程的、快闪可更新的和/或其类似者。此些存储装置可经配置以实施任何适当数据存储，包含(但不限于)各种文件系统、数据库结构和/或其类似者。

计算机系统300还可能包含通信子系统330，其可包含(但不限于)调制解调器、网卡(无线或有线)、红外线通信装置、无线通信装置和/或芯片组(例如B1uetooth^TM装置、802.11装置、WiFi装置、WiMax装置、蜂窝式通信设施等)，和/或其类似者。通信子系统330可准许与网络(例如，下文所述的网络，举一个实例)、其它计算机系统和/或本文所述的任何其它装置)交换数据。在许多实施例中，计算机系统300将进一步包括工作存储器335，其可包含RAM或ROM装置，如上文所述。

计算机系统300还可包括软件元件，其被展示为当前位于工作存储器335内，包含操作系统340、装置驱动程序、可执行库和/或其它代码，例如一个或一个以上应用程序345，其可包括由各种实施例提供的计算机程序，且/或可经设计以实施由其它实施例提供的方法且/或配置由其它实施例提供的系统，如本文所述。仅作为实例，关于上文所论述的方法而描述的一个或一个以上程序可能实施为可由计算机(和/或计算机内的处理器)执行的代码和/或指令；在一方面中，所述代码和/或指令接着可用以配置且/或调适通用计算机(或其它装置)来根据所描述的方法执行一个或一个以上操作。

一组这些指令和/或代码可能存储在计算机可读存储媒体(例如，上文所述的存储装置325)上。在一些情况下，存储媒体可能并入在计算机系统(例如系统300)内。在其它实施例中，存储媒体可能与计算机系统分离(例如，可装卸媒体，例如压缩光盘)，且/或以安装程序包的形式提供，使得存储媒体可用以用存储于其上的指令/代码来编程、配置和/或调适通用计算机。这些指令可能采取可由计算机系统300执行的可执行代码的形式，且/或可能采取源代码和/或可安装代码的形式，其在编译且/或安装在计算机系统300上(例如，使用多种通常可用编译器、安装程序、压缩/解压缩实用程序等中的任一者)后，就呈可执行代码的形式。

所属领域的技术人员将明白，可根据特定要求进行实质变化。举例来说，还可能使用定制的硬件，且/或特定元件可能以硬件、软件(包含便携式软件，例如小应用程序等)或两者来实施。另外，可使用到例如网络输入/输出装置等其它计算装置的连接。

如上文所提到，在一个方面中，一些实施例可使用计算机系统(例如计算机系统300)来执行根据本发明各种实施例的方法。根据一组实施例，所述方法的程序中的一些或全部由计算机系统300响应于处理器310执行包含于工作存储器335中的一个或一个以上指令(其可能并入到操作系统340和/或其它代码(例如应用程序345)中)的一个或一个以上序列而执行。可将此些指令从另一计算机可读媒体(例如存储装置325中的一者或一者以上)读取到工作存储器335中。仅作为实例，包含于工作存储器335中的指令序列的执行可能致使处理器310执行本文所述的方法的一个或一个以上程序。

如本文所使用的术语“机器可读媒体”和“计算机可读媒体”指代参与提供致使机器以特定方式操作的数据的任何媒体。计算机可读媒体和存储媒体不指代暂时性传播的信号。在使用计算机系统300实施的实施例中，各种计算机可读媒体可能涉及在将指令/代码提供给处理器310以供执行中，且/或可能用以存储此些指令/代码。在许多实施方案中，计算机可读媒体为物理且/或有形存储媒体。此媒体可采取非易失性媒体或易失性媒体的形式。非易失性媒体包含(例如)光盘和/或磁盘，例如存储装置325。易失性媒体包含(但不限于)动态存储器，例如工作存储器335。

常见形式的物理和/或有形计算机可读媒体包含(例如)软盘、柔性盘、硬盘、磁带或任何其它磁性媒体、CD-ROM，任何其它光学媒体、穿孔卡片、纸带，任何其它具有孔图案的物理媒体、RAM、PROM、EPROM、FLASH-EPROM，任何其它存储器芯片或卡盘等。

上文所论述的方法、系统和装置为实例。各种配置可酌情省略、替代或添加各种程序或组件。举例来说，在替代配置中，所述方法可以与所描述次序不同的次序执行，且/或可添加、省略和/或组合各个阶段。并且，关于某些配置而描述的特征可在各种其它配置中组合。配置的不同方面和元件可以类似方式组合。并且，技术演变，且因此元件中的许多元件为实例，且不限制本发明或所附权利要求书的范围。

描述中给出特定细节来提供对实例配置(包含实施方案)的全面理解。然而，可在没有这些具体细节的情况下实践配置。举例来说，已经在无不必要细节的情况下展示了众所周知的电路、进程、算法、结构和技术，以便避免模糊所述配置。此描述仅提供实例配置，且不限制所附权利要求书的范围、适用性或配置。相反，配置的先前描述将向所属领域的技术人员提供用于实施所描述技术的促成性描述。在不脱离本发明的精神或范围的情况下，可对元件的功能和布置作出各种改变。

并且，可将配置描述为被描绘为流程图或框图的进程。尽管各图可将操作描述为顺序过程，但可并行或同时执行许多操作。另外，可重新布置操作的次序。进程可具有不包含于图中的额外步骤。此外，方法的实例可由硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合实施。当在软件、固件、中间件或微码中实施时，用以执行必要任务的程序代码或代码段可存储在例如存储媒体等非暂时计算机可读媒体中。处理器可执行所描述任务。

在描述了若干实例配置后，可在不脱离本发明的精神的情况下，使用各种修改、替代构造和均等物。举例来说，以上元件可为较大系统的组件，其中其它规则可优先于或以其它方式修改本发明的应用。并且，在考虑以上元件之前、期间或之后，可进行若干步骤。因此，以上描述不限定所附权利要求书的范围。

Claims

1.一种用于识别说话者的方法，所述方法包括：

存取包括语音信号的音频数据，所述音频数据是使用移动装置上的麦克风产生的；

推断所述移动装置的用户的情境；

至少部分地基于所述所推断的情境来识别社交图谱，所述社交图谱包括潜在说话者列表；以及

识别被确定为已用声音为所述语音信号做贡献的说话者，所述说话者识别至少部分地基于所述所识别的社交图谱。

2.根据权利要求1所述的方法，其中推断所述用户的所述情境是至少部分地基于所述用户的位置。

3.根据权利要求2所述的方法，其进一步包括至少部分地基于所述移动装置所接收的GPS、WiFi或蜂窝式信号来确定所述用户的所述位置。

4.根据权利要求1所述的方法，其中推断所述用户的所述情境是至少部分地基于所述用户的环境。

5.根据权利要求4所述的方法，其进一步包括至少部分地基于所述移动装置所接收的蓝牙或音频信号来确定所述环境。

6.根据权利要求1所述的方法，其中推断所述用户的所述情境是至少部分地基于所述用户的活动。

7.根据权利要求6所述的方法，其进一步包括至少部分地基于运动传感器数据、光传感器数据或由所述移动装置上的所述麦克风捕获的音频信号来确定所述活动。

8.根据权利要求1所述的方法，其中推断所述用户的所述情境是至少部分地基于与所述移动装置相关联的电子邮件数据、文本消息数据、日历数据、社交网络数据和联系人列表数据中的一者或一者以上。

9.根据权利要求1所述的方法，其中推断所述用户的所述情境是至少部分地基于所述移动装置的呼叫状态和/或当前呼叫细节。

10.根据权利要求1所述的方法，其中推断所述用户的所述情境是至少部分地基于所述移动装置上正活跃地或非活跃地使用的应用程序。

11.根据权利要求1所述的方法，其中推断所述用户的所述情境是至少部分地基于收集所述音频数据时的时刻。

12.根据权利要求1所述的方法，其中所述音频数据包含以隐私敏感方式采样的音频部分，使得所说的词语无法从所述音频数据重构。

13.根据权利要求1所述的方法，其进一步包括存储多个社交图谱，所述多个社交图谱中的每一者与一不同情境相关联。

14.根据权利要求1所述的方法，其进一步包括存储多个语音模型，其中每一语音模型与一潜在说话者相关联。

15.根据权利要求1所述的方法，其进一步包括：

存储多个语音模型，其中每一语音模型与一潜在说话者相关联；

处理所述所存取的音频数据；以及

将所述经处理的音频数据与所述多个语音模型的子集进行比较，所述子集是至少部分地基于所述所识别的社交图谱来确定的。

16.根据权利要求1所述的方法，其进一步包括产生一个或一个以上情境的社交图谱，其中所述社交图谱的产生是至少部分地基于以下各项中的一者或一者以上：用户位置数据、日历数据、电子邮件数据和社交网络数据。

17.根据权利要求1所述的方法，其中所述所识别的社交图谱包含所述所识别的社交图谱的一个或一个以上边缘的边缘加权。

18.根据权利要求17所述的方法，其中每一边缘的所述边缘加权对应于所述用户与和所述边缘相关联的人交互所花费的时间分数。

19.根据权利要求1所述的方法，其进一步包括在识别所述社交图谱之前：

存取训练音频数据，所述音频数据对应于多个情境；

群集所述所存取的音频数据；以及

基于所述所存取的训练音频数据产生多个社交图谱，

其中所述所产生的社交图谱包括所述多个社交图谱中的一者。

20.根据权利要求1所述的方法，其进一步包括至少部分地基于群集算法的执行来界定多个潜在情境。

21.根据权利要求1所述的方法，其中所述识别所述说话者包括识别所述说话者的名称。

22.一种用于识别说话者的设备，所述设备包括：

移动装置，其包括：

麦克风，其经配置以接收包括语音信号的音频信号，且将所述所接收到的音频信号转换为无线电信号；以及

发射器，其经配置以发射所述无线电信号；以及一个或一个以上处理器，其经配置以：

从所述麦克风捕获音频数据；

推断所述移动装置的用户的情境；

23.根据权利要求22所述的设备，其中远程服务器包括所述一个或一个以上处理器中的至少一者。

24.根据权利要求22所述的设备，其中所述移动装置包括所述一个或一个以上处理器中的全部。

25.根据权利要求22所述的设备，其中所述移动装置包括显示器，且其中所述一个或一个以上处理器进一步经配置以在所述显示器上呈现所述说话者的标识。

26.一种计算机可读媒体，其含有执行以下步骤的程序：

推断所述移动装置的用户的情境；

27.根据权利要求26所述的计算机可读媒体，其中所述程序进一步执行以下步骤：将所述所存取的音频数据变换到特征空间。

28.根据权利要求26所述的计算机可读媒体，其中所述程序进一步执行以下步骤：存储多个社交图谱，所述多个社交图谱中的每一者与一不同情境相关联。

29.根据权利要求26所述的计算机可读媒体，其中所述程序进一步执行以下步骤：

处理所述所存取的音频数据；以及

30.一种用于识别说话者的系统，所述系统包括：

用于存取包括语音信号的音频数据的装置；

用于推断情境的装置；

用于至少部分地基于所述所推断的情境来识别社交图谱的装置，所述社交图谱包括潜在说话者列表；以及

用于识别被确定为已用声音为所述语音信号做贡献的说话者的装置，所述说话者识别至少部分地基于所述所识别的社交图谱。

31.根据权利要求30所述的系统，其进一步包括用于至少部分地基于以下各项中的一者或一者以上产生一个或一个以上情境的社交图谱的装置：用户位置数据、日历数据、电子邮件数据和社交网络数据。

32.根据权利要求30所述的系统，其中所述所识别的社交图谱包含所述所识别的社交图谱的一个或一个以上边缘的边缘加权。

33.根据权利要求30所述的系统，其进一步包括用于向移动装置的用户呈现所述说话者的标识的装置。