CN103918247A

CN103918247A - 基于背景环境的智能手机传感器逻辑

Info

Publication number: CN103918247A
Application number: CN201280054460.1A
Authority: CN
Inventors: T·F·罗德里格斯; 白杨
Original assignee: Digimarc Corp
Current assignee: Digimarc Corp
Priority date: 2011-09-23
Filing date: 2012-09-07
Publication date: 2014-07-09
Anticipated expiration: 2032-09-07
Also published as: US20180130472A1; US9595258B2; CN103918247B; KR20140064969A; EP2758956A4; US10510349B2; EP2758956B1; US20190237082A1; JP2015501438A; JP6251906B2; US10199042B2; US20170243584A1; US20200227048A1; EP2758956A1; US20130150117A1; US10930289B2; US9196028B2; WO2013043393A1; US20160232898A1

Abstract

本发明涉及采用便携式装置(例如，智能手机)中的传感器来感测内容信息(例如，音频和图像)以及背景环境信息的方法。装置处理合乎期望地依赖于两者。例如，一些实施方案基于感测到的内容和背景环境的分类激活某些处理器密集型操作(例如，内容识别)。背景环境可以控制从这种操作产生的信息被存储的位置，或者控制提醒信号表示例如感测到的语音在被转录。一些配置方案将由一个装置采集的传感器数据发布到云存储库，供其它装置访问和处理。多个装置可以协作采集和处理数据，以便利用各自可具有的优势(例如，在位置、处理能力、社交网络资源等方面)。还详细说明了许多其它特征和配置方案。

Description

基于背景环境的智能手机传感器逻辑

相关申请数据

在美国，本申请要求2011年9月23日提交的61/538,578及2011年10月3日提交的61/542,737的临时申请的优先权。

背景技术

在公布的申请20110212717、20110161076和20120208592中，本受让人详述了根据背景环境做出响应的多种智能手机配置方案。本说明书在某些方面扩大这些教导。

发明内容

根据一个方面，根据本技术的系统和方法使用智能手机感测音频和/或视觉信息，并将信息提供给第一分类器模块。第一分类器模块按照类型(例如，音乐、语音、静默、视频图像，自然场景、面部等)表征输入的视听刺激。第二分类器模块处理其它背景环境信息(可包括来自第一分类器模块的输出)，例如一日、星期中的一日、位置、日程表数据、时钟闹钟状态、运动传感器、Facebook状态等，并且输出表征装置状态类型或场景的数据。控制规则模块然后根据来自两个分类器模块的输出，向一个或多个内容识别模块发出控制信号。

控制信号可简单地启用或禁用不同的识别模块。此外，如果识别模块被启用，则控制信号可建立该模块执行识别功能所用的频率、计划，或其它参数。

这样的配置方案通过不尝试对于背景环境不必要或不适当的操作而保存电池电量。此外，因为处理资源未转用于空闲识别操作，所以这些配置方案有助于其它智能手机操作。

本技术的前述和其它特征和优点，通过以下参照附图进行的详细说明将更加明显易见。

附图说明

图1示出结合本技术的某些方面的说明性实施例。

图2示出可在图1的实施例中使用的几个内容识别模块。

图3是采用本技术的各方面的处理的框图。

图4是采用本技术的各方面的装置的框图。

图5是示出对于一个实施例，不同的音频识别代理如何基于音频分类数据被激活的事件控制器表。

图6是示出对于一个实施例，不同的音频识别代理如何基于音频分类数据被激活的流程图。

图7是示出对于一个实施例，不同的图像识别代理如何基于来自光传感器和运动传感器的输出以及图像分类数据被激活的事件控制器表。

图8是示出对于一个实施例，不同的图像识别代理如何基于来自光传感器和运动传感器的输出以及图像分类数据被激活的流程图。

具体实施方式

参照图1，结合本技术的某些方面的说明性实施例10包括一个或多个麦克风12、摄像头14、视听分类器模块16、第二分类器模块18、控制规则模块20和内容识别模块22。这些组件可全部包括在智能手机中。替代性地，这些组件可分布在不同位置和/或不同装置(包括云)之间。

一种适合的智能手机是苹果iPhone4装置，其包括两个摄像头(一个向前，一个向后)，和两个麦克风。另一种是HTC EVO3D，其包括立体摄像头(均向后)。

视听分类器模块16处理由麦克风和/或摄像头采集的数据，并且按照类型将这种视听内容分类。

如本领域技术人员所熟悉的(并且如维基百科的文章“Statisticalclassification”中所解释的)，分类是识别新的观察结果属于一组类别(亚群)中的哪一类别的问题。可将各个单独的观察结果分析成一组可量化特性，已知为各种变量、特征等。这些特性可以是分类的(例如，用于血型的“A”、“B”、“AB”或“O”)，按顺序的(例如，“大”、“中”或“小”)，等等。熟悉的(虽然有时是困难的)分类问题是将电子邮件识别为垃圾邮件或非垃圾邮件。实施分类的算法或程序称为分类器。

传统上，基于包括类别隶属关系已知的观察结果(或实例)的数据训练集来进行分类。在此意义上，分类被视为有监督机器学习的实例，即，学习正确识别的观察结果的训练集可用的情况。相应的无监督过程被称为聚类(或聚类分析)，并且涉及基于内在相似性的某种度量(例如，被视为多维向量空间中的向量的实例之间的距离)将数据分类。为了本申请的目的，分类被视为包括聚类。

一个说明性分类器模块16是音频分类器，其将输入刺激归类为语音、音乐、背景/不确定，或静默。对于前三类，该模块还将音频的音量归类为大声、中级或安静。

说明性音频分类技术将在后面的章节详述。

一个简单的实施例按照音频分类器的输出，激活不同的内容识别模块，如下所示：

表Ⅰ

即，如果音频分类器模块将感测到的音频分类为“静默”或“安静背景”，则所有三个具体的内容识别模块均被控制为“关”。如果感测到的音频被分类为音乐，则系统激活Nielsen音频水印检测器和Gracenote指纹引擎，但留下Nuance语音识别引擎关闭。

如果感测到的音频被分类为语音，则音频水印检测器被激活，同样语音识别引擎被激活，但不执行指纹计算。

如果音频分类器识别到大声或中级的声音背景，但无法进一步对其类型分类，则音频水印检测器、指纹引擎和语音识别引擎均被激活。

因此将会认识到，基于由内容分类器指示的内容的类型，不同的识别技术组合被应用于输入的内容。

(具体的识别模块都是本领域技术人员所熟悉的。简要回顾如下：Nielsen采用对广播源和时间数据编码的音频水印，对几乎所有在美国的电视广播进行编码，以协助Nielsen识别用于收视率调查等的节目。Nielsen用节目名称和其它标识符维持使从广播中解码的源/时间数据相关的数据库。这种水印技术例如在专利6,968,564和7,006,555中进行了详细说明。Gracenote使用音频指纹技术实现音乐识别。通过指纹引擎从音频中得出特性特征数据，并用于查询包含参考指纹数据的数据库。如果找到匹配，则关联的歌曲识别数据从数据库中返回。Gracenote使用最初由飞利浦开发的指纹技术，该技术例如在专利文献20060075237和20060041753中进行了详细说明。Nuance提供流行的语音识别技术。其SpeechMagic SDK和/或NaturallySpeaking SDK可结合在本技术的实施例中提供语音识别能力。)

第二分类器模块18按照背景环境信息输出装置状态类型数据，或场景识别数据。该背景环境信息可包括音频和/或视觉环境的分类(即，如图1中的虚线所示，由视听分类器模块16提供)，并且通常包括其它信息。

该其它背景环境信息可包括但不限于一日中的时间、星期中的一日、位置、日程表数据、时钟闹钟状态、运动和方位传感器数据、社交网络信息(例如，来自Facebook)等。

考虑表Ⅱ，其扩展了表Ⅰ的信息以包括由第二分类器模块确定的某些装置状态类型(即，“下班后离开办公室”和“工作时间在办公室”)：

表Ⅱ

将会认识到，表Ⅱ的前五行与表Ⅰ相同。其详细说明给定注明的音频环境，当用户下班后离开办公室时，如何控制不同的模块。

后一组的几行则不同。这些对应于工作时间在用户的办公室中的装置状态类型。如可看到的，在此背景环境下仅语音识别引擎曾经激活(即，当感测到语音或大声背景音频时)，而无论音频环境如何其它模块均处于闲置状态。

为确定用户是“工作时间在办公室”还是“下班后离开办公室”，第二分类器模块18使用例如当日时间数据和GPS数据的输入以及参考数据。该参考数据为特定智能手机用户确立应归类为工作时间的一日中的时间(例如，上午8时至下午5时，周一至周五)，以及应归类为办公地点的位置(例如，纬度45.4518°，经度–122.7932°，+/–.0012度)。

将会认识到，这种布置通过在用户工作时不试图识别歌曲或电视节目而保存电池电量。因为处理资源未转用于空闲识别操作，所以这种布置还有助于智能手机在工作中可被指示执行的其它任务。

更典型地，智能手机考虑超出这一简单实例的其它因素。表IIIA示出由第二分类器模块18分类的更详细的场景：

传感器	场景1
		时钟	早晨6:30之前(M-F)

GPS	家
		麦克风	安静背景
环境光传感器	黑暗
		摄像头(前置)	黑暗
摄像头(后置)	黑暗
		加速度计	零运动
闹钟	设定在早晨6:30
		日程表	最早的会议在上午10:00
Facebook	没什么特别的
		附近(邻近)	配偶

表IIIA

此情况的汇集由第二分类器模块分类为“场景1”。其对应于用户可能熟睡的场景(时间为工作日早晨6:30之前，闹钟设定为6:30；智能手机在安静、黑暗的环境中静止)。与场景1相关联的控制规则20使所有的内容识别模块处于非活动状态。

以下表格示出由第二分类器模块分类的其它场景：

传感器	场景2
		时钟	早晨6:30-早晨7:30(M-F)
GPS	家
		麦克风	中级背景
环境光传感器	明亮
		摄像头(前置)	黑暗/明亮
摄像头(后置)	明亮/黑暗
		加速度计	一些运动
闹钟	解除
		日程表	最早的会议在上午10:00
Facebook	没什么特别的
		附近	配偶

表IIIB

传感器	场景3
		时钟	早晨7:30-上午8:00(M-F)
GPS	通勤
		麦克风	大声背景
环境光传感器	黑暗/明亮
		摄像头(前置)	黑暗/明亮

摄像头(后置)	黑暗/明亮
		加速度计	一些运动
闹钟	解除
		日程表	最早的会议在上午10:00
Facebook	没什么特别的
		附近	无

表IIIC

表IIID

表IIIE

表IIIF

表IIIG

传感器	场景8
		时钟	晚上10:00-凌晨4:00
GPS	道路
		麦克风	任意

环境光传感器	黑暗
		摄像头(前置)	黑暗
摄像头(后置)	黑暗
		加速度计/运动	＞每小时30英里
闹钟	没什么特别的
		日程表	没什么特别的
Facebook	没什么特别的
		附近	-

表IIIH

场景2(表IIIB)对应于醒来后且离家前的用户。规则包括适合于这段时间间隔的指令，其间用户可观看电视上的早间新闻节目，收听广播，或与配偶交谈。具体地，Nielsen水印检测器被激活，以允许用户链接到与电视上讨论的内容有关的另外的网络内容。指纹引擎也被激活，使得用户可识别广播中播放的吸引人的歌曲。语音识别也可被启用，使得在回家的路上捎上番茄酱、葡萄、锡箔以及邮票的配偶的口头指示被转录下来供随后参考。

用户的智能手机还包括各种视觉内容识别能力，包括面部识别。控制规则规定在场景2中面部识别被禁用，因为预计用户这么早在家不需要提示回忆遇到的任何人的面孔。

场景3(表IIIC)对应于用户开车去上班。在此环境下不期望电视音频，所以Nielsen水印检测器被禁用。然而，歌曲识别和从谈话广播的新闻转录可能会有帮助，所以指纹引擎和语音识别引擎被启用。照样，面部识别被禁用。

不同的用户可乘坐公交车而非开车去上班。对此用户的第二场景控制规则可不同。因为没有车载收音机，无需歌曲识别，所以指纹引擎被禁用。然而，用户在公交车上有时无意中听到有趣的谈话，所以语音识别被启用，以便任何幽默的对话可与同事分享。偶尔，用户在公交车上看到她应当认识的某人，例如孩子的足球队友的父/母亲，但是在此不同环境下无法回忆起名字。为了准备应对这种可能发生的情况，智能手机的面部识别能力被加载到内存中并且准备好操作，但是不处理一帧摄像机图像直到用户发出信号。(该信号可包括用户以预定姿势拿着手机并说出词语“谁”。)

在表IIID中详细说明的传感器信息的汇集被第二分类器模块识别为场景4，其对应于用户在她的办公桌上进行早间工作的情况。智能手机显然在安静的工作环境中面朝上放在某一表面上。相应的控制规则规定所有识别模块被禁用。然而，如果音频分类器指示音频环境中的变化-至中级或大声背景声音或语音，则规则使得手机启用语音识别模块。这为用户提供她被给予的任何请求或信息或者她发出的任何指令的转录记录，使得可以随后参考。

语音识别在包括工作设定在内的某些情况下可引起隐私关注。因此，控制规则使得当在工作中被激活时，语音识别模块每三十秒钟发出听得见的“哔哔”声，以提醒其它人正在进行录制。与此相反，在前面讨论的各场景中，因为在家里或在小汽车上通常预计不会录制私人的第三方语音，并且在公交车上对被听到的语音不太可能有隐私的预期，所以不发出“哔哔”提醒声。

由图示的第二分类器模块18处理的另一背景环境数据是附近的人的数目和身份。“附近的”可以在由某人的手机发出的蓝牙信号的范围内，通常为30英尺或更少。在此范围内的相对距离可通过蓝牙信号的强度进行评估，其中强信号指示例如在十英尺或更少距离以内的位置(即“接近”)。至少对于熟悉的人，可通过参考他们的已知装置的蓝牙ID来辨别身份。用户、家人、同事和其它熟人所拥有的装置的蓝牙ID可与控制规则一起存储，以帮助区分熟知人士与其它人。

暂时返回之前的场景，规则可以规定，如果用户显然是独自一人(即，未感测到强蓝牙信号，或者仅感测到例如来自附近车辆中的陌生人的短暂的信号)，或者如果用户仅处在家人当中，则在无提醒蜂鸣声的情况下执行语音识别(如果被启用)。然而，如果当语音识别被启用时感测到不熟悉的强蓝牙信号，则系统可指示发出定期提醒蜂鸣声。

(如果因为用户的孩子拥有具有未识别的蓝牙标识的新装置，所以用户的手机在家发出语音识别提醒蜂鸣声，则用户的手机可以呈现允许用户存储此先前未识别的蓝牙标识的用户界面屏幕。此用户界面(UI)允许用户指定该标识与家人相对应，或者将更具体的识别信息与该标识相关联(例如，姓名和/或关系)。通过这种配置方案，容易削减未经准许时发出蜂鸣声，并且当这种情况未来再次出现时避免发出蜂鸣声。)

场景5(工作会议)在背景环境上与场景4相似，除了音频分类器报告中级背景音频，并且手机的位置在会议室。语音识别模块被启用，但公司的数据保存政策要求会议记录仅维持在公司的服务器上，以便在保存期(例如，12个月)过后可将其删除。控制规则模块20符合该公司政策，并将转录的语音数据立即传输至公司的转录数据库以便存储，而不保留复本。提醒蜂鸣声作为录制的礼貌提示发出。然而，由于所有附近的人被识别为“朋友”(即，他们的蓝牙标识对应于已知的同事)，因此规则使得手机仅每五分钟发出一次蜂鸣声，而不是每30秒一次，以减少蜂鸣声的侵扰性。(附加地或替代地，可基于用户与其它感测到的个人之间的社交关系程度，减小蜂鸣声的音量，使得当录制与用户关系疏远或根本没有社交关系的人时蜂鸣声更响亮。)

场景5中的面部识别的规则可根据被感测为在附近的人是否被用户的手机识别而改变。如果所有的人都被识别，则面部识别模块不激活。然而，如果一个或多个附近的人不在用户刚刚注记的“朋友”列表中(或者在社交网络中处于某种更疏远程度的关系中)，则面部识别以按需(而非自由运行)模式，如之前那样被启用。(替代地，可采用不同的配置方案，例如，其中如果感测到与用户具有某种类型的社交网络关联或缺乏该关联的一人或多人存在，则激活面部识别。)

场景6发现中午时间用户在地铁上。这些规则可与上述用于公交车通勤的规则相像。然而，地下的无线电接收欠佳。因此，任何面部识别操作仅查阅存储在手机上的面部特征脸参考数据，而不查阅存储在云服务器上的用户更大的Facebook或Picasa面部数据的收集。

场景7对应于周五晚上的生日聚会。很多不熟悉的人出席，因此规则以自由运行模式启动面部识别模块，以便为用户提供任何非黑暗摄像头的视场内的每个识别出的面孔的名字。该模块依赖于存储在云上的用户的Facebook和Picasa面部参考数据，以及维持在用户的Facebook好友的Facebook帐户中的这种数据。语音识别被禁用。音频指纹识别被启用，并且由于聚会背景环境，手机已下载公告牌的主要歌曲榜单(热门100单曲榜、公告牌200专辑榜和热门100电台榜)上的所有歌曲的参考指纹。将该参考数据缓存在手机上允许快得多的歌曲识别应用操作，至少对于这200多首歌曲而言。

附加信息

指纹计算、水印检测和语音/面部识别在计算上较为昂贵(“计算上繁重”)。许多分类任务(例如，语音/音乐分类)也是如此。合乎期望的是，防止这样的处理以100％占空比运行。

一种方法是在一个或多个计算上轻松的检测器的输出的帮助下，让用户决定何时运行一个或多个繁重的模块。另一种方法是在运行一个或多个繁重的检测器之前，添加评估信号质量的附加步骤。

减少繁重模块的占空比意味着漏检的可能性，因此用户应对想要多大妥协有所控制。

考虑简单分类器(例如，安静分类器)，其简单地检查一秒钟的长音频帧内的周围音频能量，并将该值与预定义的阈值比较。这种模块可表明存在从安静状态的环境突变。规则可要求激活一个或多个繁重分类器，以确定新的音频环境是音乐还是语音。在这种情况下，系统可呈现带有用户轻击以进行分类的“确认继续”按钮的显示屏幕。(也可存在“忽略”按钮。系统可具有默认行为，例如，如果用户在例如十秒钟的预先定义的时间间隔内未做选择，则“忽略”。)

对这种提示的用户响应可被记入日志，并与不同的背景环境信息(包括安静分类器的灵敏度)相关联。随着时间的推移，这种存储的历史数据可用于预测用户指示繁重分类器继续进行的情形。然后可基于这样的历史先例而非总是依靠用户轻击来采取动作。

即，该系统可基于用户交互而自主学习。例如，当安静分类器检测到量“A”的响度变化时，其请求启用较繁重分类器(例如，音乐对语音分类器)或检测器(例如水印检测器)的用户许可。如果用户同意，那么显然此“A”级的响度变化至少有时是用户关注的。然而，如果随着时间的推移，变得明显的是，当响度变化了量“A”时用户一致拒绝激活繁重分类器，那么分类器可相应地重置其阈值，而不向用户请求激活繁重模块的许可，除非响度增加了“B”(其中B>A)。安静分类器因而学会不那么灵敏。

相反，当安静分类器已感测到过小而不足以触发对用户的UI提示的响度变化时，如果用户手动启动繁重模块，那么这表明安静分类器所使用的阈值过高，并且应当改变至较低水平。安静分类器因而学会更加灵敏。

图3示出使用上述原理的一种配置方案。麦克风将环境音频信号提供给简单分类器，分类器基于阈值音频水平产生基于总体分类(例如，静默或声音)的输出。如果分类器模块从“静默”切换至“声音”，则其使得智能手机呈现用户界面(UI)，询问用户是否系统应当调用复杂的处理(例如，语音识别，语音/音乐分类，或由适用规则指示的其它操作)。然后，系统根据用户的指令进行动作。

以虚线示出的是可以包括的本方法的另外的方面。例如，通过U1输入的用户响应被记入日志并添加至用户历史，以便由系统引导将来的自动响应。由背景环境分类器提供的当前背景环境也被存储在这种历史中。在一些情况下，用户历史可单独提供关于在给定情况下如何响应的指令，而无需询问用户。

(将会认识到，当背景环境改变时，取代询问用户是否调用复杂处理模块，系统可询问复杂处理模块是否不应被调用。在这种情况下，用户的无行动导致处理模块被调用。)

另一种方法是采用附加分类器，来决定当前音频样本是否具有值得进一步分类(即，用繁重分类器)的质量。如果质量被判断为不充分，则繁重分类器不被激活(或被停用)。

携带信息的信号，例如语音和音乐，当在短暂的时间窗口(例如，0.5至3秒)期间分析时，通常至少在谱频成分方面，并且通常还在幅度方面，特征在于时间变化。附加分类器可在这样的窗口间隔期间倾听在谱频成分方面较为一致和/或在平均幅度方面较为一致的音频信号。如果这种分类器检测到这种信号，并且这种信号的幅度比感测到的音频环境的长期平均幅度(例如，在之前的3-30秒间隔期间)强一个阈值量(例如，3dB)，则该信号可被视为不可接受地损害所需音频的信噪比的干扰噪声。响应于这样的确定，系统中断繁重模块处理，直到干扰信号停止。

举个极端的例子，考虑乘坐经过正在使用声音巨大的气锤的施工现场的公交车的用户。刚刚讨论的分类器检测到气锤操作的时间间隔，并在此期间中断繁重音频处理。

这种分类器在声音巨大的列车经过时，或空气压缩机操作时，或者甚至当电话铃响时，可类似地触发，使得系统在这些情况下从其正常操作改变。

另一种简单分类器依赖于Lu等人的SpeakerSense：Energy EfficientUnobtrusive Speaker Identification on Mobile Phones,PervasiveComputing Conf.,2011中所提出的原理。Lu等人使用信号能量(RMS)和零交叉率(ZCR)的组合，从其它音频中区分人类语音。虽然Lu等人使用这些参数来识别语音，但是这些参数也可更一般地用于识别携带信息的信号。(或者，换句话说，用于对可能缺乏信息的音频通道设标记，使得繁重处理模块可被禁用。)

作为又一种替代方案，由于附加分类器在检测到“声音改变”之后工作，因此“声音改变”之前的音频样本可用作背景噪声的近似，并且“声音改变”之后的音频样本可用作背景噪声加有用信号。这给出了粗略的信噪比。附加分类器可保持繁重模块处于闲置状态，直到该比率超过阈值(例如10dB)。

用于表示可能缺乏携带信息的信号的另一种附加分类器简单地查看频率成分的比率。通常，高于阈值幅度的高频信号成分的存在是音频信息的表示。高频成分(例如，2kHz以上)中的能量与低频成分(例如，500Hz以下)中的能量的比率可用作另一种简单的信噪比。如果分类器发现该比率低于3或10dB，则其可暂停繁重模块的操作。

这种配置方案在图4中示出。一个或多个麦克风将感测到的音频信号提供给音频筛选分类器30(即，前面讨论的“附加”分类器)。麦克风音频可选地提供给语音/音乐音频分类器16(如图1)，以及若干繁重音频检测器模块(例如，水印检测器、语音识别等)。音频筛选分类器的输出向不同的繁重检测器提供启用/禁用控制信号。(为说明简便，音频筛选分类器30向所有的繁重检测器提供相同的控制信号，但在实际实施中，可为不同的检测器生成不同的控制信号。)来自音频筛选分类器的控制信号用于基于麦克风感测到的音频，禁用繁重检测器。

在图4中还示出背景环境分类器18，其如同图1的第二分类器模块那样操作。其输出表示不同的背景环境场景的信号。这些输出数据被提供给控制规则模块20，其基于所识别的场景控制不同的繁重检测器的操作模式。

(虽然图4的配置方案示出繁重检测器模块的控制，但是繁重分类器模块可由相同类型的配置方案来控制。)

以上讨论的原理同样适用于感测视觉信息。视觉图像分类器(例如，面部识别系统)通常对在亮度(对比度/强度)和/或色调(色彩/色度)方面具有显著空间变化的图像进行工作。如果出现缺乏这种变化的图像帧，则原本在操作的任何繁重图像处理模块应暂停其操作。

因此，分类器可寻找一系列特征为低于阈值的亮度或色调变化的图像帧，并且当检测到这种场景时中断繁重视觉处理。因此，例如，当用户将摄像头指向空白墙壁或地板时繁重视觉处理被暂停。(也可基于智能手机的方位采取这种行动，例如，仅当智能手机以其摄像头轴线在水平线的20度内取向时使面部识别操作。当然，也可使用其它的阈值。)

类似地，如果帧离焦，则面部识别分析很可能白费努力。因此，简单分类器可检查帧的对焦(例如，通过诸如高频成分和对比度测量等已知的度量，或者通过由手机的运动传感器提供的摄像头抖动度量)，并且如果帧很可能模糊则禁用面部识别。

如果对象太遥远而不太可能允许正确识别，则面部识别也可被禁用。因此，例如，如果手机的自动对焦系统指示十米以上的焦距，则面部识别不必进行。

虽然蓝牙是感测附近的其它个体的一种方式，但还存在其它方式。

一种技术依赖于智能手机的日程表应用程序。当用户的日程表以及手机时钟指示用户在开会时，可根据日程表应用程序中的与会者数据来识别用户附近的其它与会者。

另一种方法依赖于位置数据，该数据从手机短距离广播(或从手机向共同的位置发布)，并且用于指示与其它手机的同一地点。位置数据可从已知的技术获得，包括GPS、WiFi节点识别等。

一种相关的方法依赖于将微妙的或听不见的背景音频信号引入到环境中的声波发射器，该信号可指示位置。配备有麦克风的装置中的软件(例如智能手机的应用程序)可倾听这种信号(例如，高于或低于人类听觉范围，例如高于15-20KHz)，并且向公共位置广播或发布关于感测到的信号的信息。发布的信息可包括由感测到的信号传达的信息(例如，标识发射装置或其拥有者、装置位置和/或其它背景环境等)。发布的信息还可包括与接收装置相关的信息(例如，标识装置或其拥有者、装置位置和/或其它背景环境等)。这允许每个发射器附近的一组手机被识别。(相关技术由Shopkick服务采用，并且在专利公布US20110029370中详述)。

蓝牙是目前优选的，因为除识别附近的人以外，其还提供了与附近手机的通信信道。这使得手机能够在包括语音识别、音乐指纹识别、面部识别等各种任务中合作。例如，多部手机可交换关于其各自的电池状态和/或其它正在进行的处理任务的信息。然后采用一种算法来选择一部手机执行特定的任务(例如，选择具有最大剩余电池寿命的手机来执行水印解码或面部识别)。这部手机然后将其任务的结果或基于该结果的相关信息发送给其它手机(通过蓝牙或其它方式)。

另一种形式的协作是基于来自两个或更多个各自具有不同的对象视图的不同手机的摄像头数据进行的3D图像建模。具体的应用程序是面部识别，其中人的两张或更多不同视图允许产生3D面部模型。面部识别然后可基于该3D模型信息，产生比2D面部识别更加确定的识别。

又一种形式的协作是使多部智能手机进行相同的任务，然后共享结果。不同的手机处理可产生具有不同置信度的结果，在这种情况下，具有最高置信度的结果可被所有手机使用。(这种处理可通过在云中的处理来完成，而不使用手机自身的处理器。)

在一些应用中，手机连同手机特定信息一起处理环境音频/视觉刺激，从而允许不同的手机提供不同的结果。例如，未知人士的面孔可以在一部手机可访问但其它手机不能访问的Facebook帐户中进行识别。因此，一部手机能够完成其它手机不能完成的任务。(其它的手机特定信息包括历史记录、联系人、计算背景环境、用户背景环境、物理背景环境等。参见例如公布的申请20110161076和2011年6月30日提交的共同未决申请13/174,258。对于图像处理，不同的手机可具有更好的或更差的对象视图。)

相关地，合作的手机可将采集的音频/图像发送到一部或多部其它手机进行处理。例如，能够对有用的面部识别数据进行Facebook访问的手机可能不是具有要识别的人的最佳视图的手机。如果多部手机各自采集数据，并将该数据(或基于该数据的信息，例如特征脸数据)分享给其它手机，则可实现比任何手机自身可得到的更好的结果。

当然，装置可通过蓝牙以外的方式进行通信。NFC和WiFi是两种这样的替代方式。

蓝牙还已知为一种用于确定用户在车辆中的技术。照样，可以采用其它配置方案。

一种技术是GPS。即使是偶发地执行的GPS模块(例如，每分钟一次)也可采集足够的轨迹信息来确定用户是否在以与车辆行驶一致的方式移动。例如，GPS可确定用户在跟随既定的道路，并且在以高于与步行或骑自行车关联的速度移动。(当区分骑自行车与机动车行驶时，可考虑地形高程。如果地形大致平坦，或者如果行驶者在上坡，则超过20mph的持续速度可从骑自行车中区分出机动车运输。然而，如果用户在沿陡峭的下坡道路行驶，则超过35mph的持续速度可用于肯定地确定机动车行驶。)

如果两部或更多部手机，例如通过共享的短距离背景环境广播，报告其正在各自以相同的速度跟随相同的地理位置轨迹，那么这两部手机的用户可得出结论，他们正在同一运输工具上行驶，无论是汽车、公交车、自行车等。

例如，如果两部或更多部手机根据其3D加速度计、陀螺仪，和/或磁力仪报告类似的数据，则没有GPS也可类似地得出这样的结论。此外，如果两部或更多部手机采集相同的音频(例如，由超过如0.9的阈值的相关性度量所指示)，并且与其它附近的装置共享该信息，则可同样确定多个用户的共同运输。

照样，云可作为这种由智能手机报告的信息的接收者，并可例如关于装置之间的相关性做出确定。

参看短距离背景环境广播。这可由手机通过蓝牙向附近的装置广播其感测到的背景环境信息(可包括采集的音频)来实现。考虑到涉及的短传输距离，共享的信息可具有不会出现隐私关注的特性(例如，加速度、采集的音频)。

虽然本说明书专注于音频应用，并且还考虑面部识别，但是存在可识别并被作用于的无限的种类。一些其它视觉种类包括光学字符识别(OCR)和条码解码。

在智能手机上存在多个摄像头使得其它配置方案能够实现。例如，如2011年8月17日提交的申请13/212,119中记载的，面向用户的摄像头可用于评估用户的情绪(或者用户对于呈现在智能手机屏幕上的信息的反应)，并相应地定制手机的操作，包括使用其它摄像头。

面向用户的摄像头还可检测用户的眼睛位置。手机的操作可由此得以控制。例如，取代基于手机的位置传感器在“竖屏”和“横屏”显示模式之间切换，可基于用户眼睛的取向来控制该屏幕显示模式。因此，如果用户侧躺在床上(即，瞳孔之间的线垂直延伸)，并且手机在空间上以横屏方向取向(其长轴平行于用户身体的轴线水平延伸)，则手机可以“竖屏”模式操作其显示。如果用户将手机旋转九十度(即，使得其长轴平行于用户眼睛之间的轴线)，则手机将其显示模式切换为“横屏”。

类似地，如果用户仰卧并将手机举在头部上方，则屏幕模式按照用户眼睛之间的轴线相对于屏幕轴线的相对取向进行切换。(即，如果手机的长轴与用户眼睛之间的轴线平行，则使用横屏模式；反之亦然)。

如果手机配有立体摄像头(即，具有重叠视场的两个摄像头)，则两幅视图可用于至帧中任何点的距离确定(即，测距)。对于某些视觉检测任务(例如，水印和条码解码)，距离信息可由手机处理器用来引导用户将手机靠近或远离预期对象移动，以达到最佳效果。

手机可通过参考感测到的音频来寻求识别音频场景。例如，会议室场景的声学特征可以是安静的背景，具有可分辨的人类语音，并且偶尔有声源转换(不同的人交替说话)。用户及其丈夫的家庭场景的声学特征可以是中级的背景音频(或许是音乐或电视)，以及两个交替说话的不同声音。拥挤的会议中心的特征可以是高等级的背景声音，具有许多不可辨别的人类语音，并且偶尔有用户或他人的语音。

一旦识别出音频场景，两部或更多部智能手机可采取动作并以不同的方式合作。例如，如果场景被识别为会议，则用户的手机可自动登入房间，表明会议室被占用。(日程表程序通常用于此操作，但临时会议可在无预先安排的情况下占用房间。智能手机可在会议开始后将会议输入日程表，从而预订房间以防止竞争性预约。)

手机可与控制PowerPoint幻灯片演示的笔记本电脑或其它装置通信，以获知正在观看的一组幻灯片的数量以及当前正在显示的幻灯片。笔记本电脑或手机可计算幻灯片前进得多快，并推断何时会议将结束。(例如，如果一组具有30张幻灯片，并且已花费20分钟完成15张幻灯片，则处理器可估算将花费另外的20分钟完成最后15张幻灯片。在末尾加上10分钟用于总结讨论，可以算出会议将在30分钟内结束。)该信息可与与会者共享，或公布到日程表应用程序，以指示房间何时会变为可用。

如果听觉场景表明配偶存在的家庭环境，则两部手机可交换家庭信息(如购物清单信息、社交日程表数据、即将支付的账单等)。

在拥挤的会议中心场景中，如果手机感测到用户与他人交谈，并且手机尚不具有该人的联系信息(例如，通过蓝牙指示的手机号码或其它方式识别)，则手机可启动自动电子名片交换(例如，V-Card)。

在会议场景中，用户的手机还可检查用户与之交谈的人的公共日程表，以识别具有相似交通需求的人(例如，其航班从与用户的离港航班相同的机场出发，航班时间在用户航班的30分钟内)。这种信息然后可利用如听觉或触觉提醒来提请用户注意。

参考在云中执行某些操作。任务可基于各种因素提交给云。一个实例是将云处理用于“容易传送”的数据(即，小量的)和“难以计算”的任务(即，计算上复杂的)。云处理通常最适合不需要大量的本地知识(例如，装置历史和存储在装置上的其它信息)的任务。

考虑旅客飞往旧金山参加会议，需要通勤去往市中心的会议中心酒店。一降落在机场，用户的手机就将市中心酒店/会议中心的地址发送到云服务器。云服务器了解实时交通信息、施工延误等情况。服务器计算各种限制下的最佳路线，例如，最短时间路线、最短距离路线、最具成本效益路线等。如果用户仅在会议开始前20分钟抵达机场，则手机建议乘坐出租车(或许建议与其检测到具有相同目的地的其它人，或许与还具有超过“好”的第三方诚信得分的其它人共享出租车)。相反，如果用户在会议之前一天到达，则手机建议乘坐BART，倘若用户携带一件以下托运行李出行的话(通过参考存储在智能手机上的航空公司登记数据来确定)。这种路线选择任务是“小数据，大计算”的实例。

除了来自其自身传感器的音频和图像，智能手机还可依靠通过公共传感器采集的音频和图像，例如车库、购物中心、会议中心或家庭安全系统的监控摄像头。这些信息可以是由云处理提供的“大计算”的一部分。或者数据可由智能手机单独处理，例如帮助用户在拥挤的停车场中找到她将黄色Nissan Leaf汽车停在何处。

虽然本说明书专注于音频和图像数据的分析，但相同的原理还可应用于其它数据类型。一种是触觉数据。另一种是气体和化学分析。相关的是嗅觉信息。(气味传感器可被智能手机用作医学上的诊断辅助，例如，检测用户的呼吸中与肺癌相关联的生物标志物。)

自然地，来自用户的社交网络账户(Facebook、Twitter、Foursquare、Shopkick、Linkedln等)的信息可用作本文详述的配置方案的输入(例如，作为背景环境信息)。来自用户在例如工作、家庭、会议等中遇到的人的账户的公共信息也是这样。此外，从详述的配置方案输出的信息可自动发布到用户的社交网络账户。

将会认识到，面部识别具有多种用途。一种是如上所述作为记忆辅助，提示用户熟人的名字。另一种是用于用户识别和/或授权。例如，用户的智能手机可仅在识别出附近的人为朋友(例如，通过参考用户在Facebook上的朋友列表)时，广播某些私人信息。面部识别还可用于利用人的姓名和其它信息对人的图像加标签。

在一些实施例中，用户的智能手机广播一张或多张用户的高品质面部肖像或相关的特征脸数据。另一位智能手机用户可速拍用户的低品质图像。该智能手机将所拍摄图像与通过蓝牙从用户接收的高品质图像数据(或特征脸数据)进行比较，并可确认低品质图像和接收到的图像数据对应于同一个人。其它智能手机然后使用接收到的图像数据代替低品质图像，例如，用于面部识别，或显示联系人列表，或用于可采用用户照片的任何其它目的。

图5示出另一音频实施例的事件控制器表，表明如何基于将输入音频很可能分类为静默、语音和/或音乐的分类器数据，控制两个数字水印解码器(一个定制用于音乐中常见的水印，另一个定制用于广播语音中常见的水印)。图6示出相应的流程图。

图7示出另一实施例的事件控制器表，此实施例涉及图像。这种配置方案示出如何根据不同的传感器信息控制不同的识别模块(1D条码、2D条码、图像水印、图像指纹，以及OCR)。(传感器可包括逻辑传感器，例如分类器。)在所示的配置方案中，系统包括光传感器和运动传感器。此外，一个或多个图像分类器输出信息，用于将图像很可能识别为描绘文本、1D条码，或2D条码。

需注意的是，没有用于“图像”的分类器输出。一切均为候选。因此，图像水印解码模块和图像指纹识别模块，基于来自分类器的输出的某些组合而被激活(例如，当没有或所有三种类型的分类图像被识别时)。

还要注意，当系统检测到黑暗场景，或者系统检测到在使图像质量不确定的运动(“抖动”)条件下拍摄了图像时，如何进行无图像识别处理。

图8示出相应的流程图。

公布的申请20120208592进一步详述了对图5-8的配置方案有用的技术。

更多关于音频分类

音频分类问题通常被称为基于内容的分类/检索，或音频分割。在这项工作中有两个基本问题：特征选择和分类器选择。

这一领域中的早期工作之一由Wold等人在1996年公布[5]。他使用了各种知觉特征(响度、音调、亮度、带宽和调和性)及最近邻分类器。在[6]中，Foote使用了作为音频特征的13个梅尔频率倒谱系数(MFCC)，以及用于分类的矢量量化方法。在[7]中，Zhang和Kuo使用隐马尔可夫模型来表征音频段，并且分层分类器被用于两步分类。Scheirer在[12]中评估了用于对语音和音乐分类的13个特征的属性，获得了非常高的准确度(大约95％的准确度，但仅对于音乐/语音分类)，尤其是整合了长声音片段(2.4秒)。Liu等人[8]认为，“音频理解可基于三个层次的特征：低级的声学特性、与不同的发声对象相关联的中级音频签名，以及不同的场景类别中的音频的高级语义模型”；并且“仅基于这些低级特征的分类可能不准确，但误差可通过检查构成连续音频片段序列的基础的结构而在更高层次得以解决”。

同时，在计算低级特征方面，[6,8]明确地提到首先将音频样本划分成1秒长的片段，然后进一步将每个片段划分成40个不重叠的25毫秒长的子片段。在每个25毫秒长的子片段上计算低级特征，然后通过40个子片段合并低级特征来表示1秒长的片段。分类基于1秒长的片段。(在25毫秒的期间内，声音信号显示出固定的属性，而在1秒的期间内，声音信号展现出与我们想要区分的类别对应的特性。在这些早期参考文献中，而且在近年来，这些类别包括静默、音乐、语音、环境声音、带有环境声音的语音等。

在2000年代，微软亚洲研究院积极致力于音频分类，如[9,10]中所示。Lu在[9]中使用低级音频特征，其中包括8阶MFCC和若干其它知觉特征，以及作为级联方案中的分类器的核SVM(支持矢量机)。在[10]中的工作也包括知觉特征并且在级联分类方案中使用不同的分类器，包括k-NN、LSP VQ和基于规则的方法(用于平滑化)。在该篇文章中，他们使用动态特征集(使用不同的特征)用于分类不同类别。

最近，在音频分类方面的工作有所增加。一些人致力于开发新的音频特征，如[2,3,4,17]，或新的分类器[13]。另一些人致力于超越低级特征的高级分类框架，如[1,18]。还有一些人致力于基于音频分类的应用，例如，确定视频片段的情感内容[16]。

其它研究人员比较现有的特征提取方法、分类器和参数选择方案，使音频分类的实施变得实际，甚至具有在诺基亚手机上实施的原型[14,15]。

特别专注于语音/音乐辨别的配置方案包括[19]和[20]。

参考文献：

1.Rui Cai、Lie Lu、Alan Hanjalic、Hong-Jiang Zhang，以及Lian-HongCai，“A flexible framework for key audio effects detection and auditorycontext inference”，IEEE Transactions on audio,speech,and languageprocessing，vol.14，no.13，2006年5月。(MSRA group)

2.Jalil Shirazi和Shahrokh Ghaemmaghami，“Improvement tospeech-music discrimination using sinusoidal model based features”，Multimed Tools Appl，vol.50，pp.415-435，2010。(Islamic AzadUniversity，Iran；和Sharif University of Technology，Iran)

3.Zhong-Hua Fu、Jhing-Fa Wang和Lei Xie，“Noise robust featuresfor speech-music discrimination in real-time telecommunication”,Multimedia and Expo,2009IEEE International Conference on(ICME2009)，pp.574-577，2009。(Northwestern Polytech Univ.，China；和National Cheng Kung University，Taiwan)

4.Ebru Dogan等人，“Content-based classification and segmentationof mixed-type audio by using MPEG-7features”，2009First InternationalConference on Advances in Multimedia，2009。(ASELSAN ElectronicsIndustries Inc.；以及Baskent Univ.；以及Middle East Technical Univ.，Turkey)

5.Erling Wold、Thom Blum、Douglas Keislar，以及James Wheaton，“Content-based classification,search and retrieval of audio”，IEEEMultimedia Magazine，vol.3，no.3，pp.27-36,1996。(Muscle Fish)

6.Jonathan Foote，“Content-based retrieval of music and audio”，Multimedia storage and archiving systems II，Proc.Of SPIE，vol.3229，pp.138-147，1997。(National University of Singapore)

7.Tong Zhang和C.-C.J.Kuo，“Audio-guided audiovisual datasegmentation,indexing,and retrieval”，In Proc.Of SPIE storage andretrieval for Image and Video Databases VII，1999。(Integrated MediaSystem Center，USC)

8.Zhu Liu、Yao Wang和Tsuhan Chen，“Audio feature extraction andanalysis for scene segmentation and classification”，Journal of VLSI SignalProcessing Systems，pp.61-79，1998。(Polytechnic University)

9.Lie Lu、Stan Z.Li和Hong-Jiang Zhang，“Content-based audiosegmentation using support vector machines”，ICME2001。(MSRA)

10.Lie Lu、Hao Jiang和Hongjiang Zhang，“A robust audioclassification and segmentation method”，ACM Multimedia，2001。(MSRA)

11.Lie Lu和Alan Hanjalic，“Text-like segmentation of general audiofor content-based retrieval”，IEEE Transactions on Multimedia，vol.11，no.4，2009年6月。

12.Eric Scheirer和Malcolm Slaney，“Construction and evaluation ofa robust multifeature speech/music discriminator”，ICASSP1997。(MITMedia Lab)

13.Dong-Chul Park，“Classification of audio signals using Fuzzyc-means with divergence-based kernel”，Pattern Recognition Letters，vol.30，issue9，2009。(Myong Ji University,Republic of Korea)

14.Mikko Perttunen、Max Van Kleek、Ora Lassila，以及Jukka Riekki,“Auditory context recognition using SVMs”，The second InternationalConference on Mobile Ubiquitous Computing,Systems,Services andTechnologies(Ubicomm2008)，2008。(University of Oulu，Finland；CSAIL，MIT；Nokia Research Center Cambridge，MA)

15.Mikko Perttunen、Max Van Kleek、Ora Lassila，以及JukkaRiekki，“An implementation of auditory context recognition for mobiledevices”，Tenth International Conference on Mobile Data Management:Systems，Services and Middleware，2009。(University of Oulu，Finland；CSAIL，MIT；Nokia Research Center Cambridge，MA)

16.Rene Teixeira、Toshihiko Yamasaki，以及Kiyoharu Aizawa，“Determination of emotional content of video clips by low-levelaudiovisual features”，Multimedia Tools and Applications，pp.1-29，1月201。(University of Tokyo)

17.Lei Xie、Zhong-Hua Fu、Wei Feng，以及Yong Luo，“Pitch-density-based features and an SVM binary tree approach formulti-class audio classification in broadcast news”，Multimedia Systems，vol.17，pp.101-112，2011。(Northwestern Polytechnic University，China)

18.Lie Lu，以及Alan Hanjalic，“Text-like segmentation of generalaudio for content-based retrieval”，IEEE Transactions on Multimedia，vol.11，no.4，pp.658-699，2009。(MSRA；Delft University of Technology，Netherlands)

19.Chen等人，Mixed Type Audio Classification with Support VectorMachine，2006IEEE Int’l Conf on Multimedia and Expo，pp.781-784。

20.Harb等人，Robust Speech Music Discrimination UsingSpectrum’s First Order Statistics and Neural Networks，7th Int’l Symp.onSignal Proc.and its Applications，2003。

示例性分类器还包括在以下专利出版物中详述的那些：20020080286(British Telecomm)、20020080286(NEC)、20020080286(Philips)、20030009325(Deutsche Telekom)、20040210436(Microsoft)、20100257129和20120109643(Google)，以及5,712,953(Hewlett-Packard)。

其它备注

尽管已经参考说明性实例描述和举例说明了我们的创造性工作的原理，但将会认识到本技术并不局限于此。

例如，虽然已参照智能手机，但将会认识到本技术可用于各式各样的装置——既包括便携式装置又包括固定的装置。PDA、信息管理器、便携式音乐播放器、台式电脑、笔记本电脑、平板电脑、上网本、穿戴式计算机、服务器等都可利用在此详述的原理。

类似地，预期头戴式装置(例如，Google Glass护目镜)，以及其它不显眼的传感器平台最终将取代今天的智能手机。自然，本技术可用于这样的其它形式的装置。

术语“智能手机”应该被解释为包含所有这样的装置，甚至是既非严格意义上讲的蜂窝式电话也不是电话机的装置。

(包括iPhone的触摸界面在内的iPhone的细节在苹果公司的公布的专利申请20080174570中有提供。)

在本技术的实施例中使用的智能手机和其它计算机的设计是本领域技术人员所熟悉的。一般而言，各自包括一个或多个处理器、一个或多个内存(例如，RAM)、存储器(例如，磁盘或闪速存储器)、用户界面(其可包括例如键区、TFT LCD或OLED显示屏、触摸或其它手势传感器、摄像头或其它光学传感器、罗盘传感器、3D磁力计、3轴加速度计、麦克风等，以及用于提供图形用户界面的软件指令)、这些元件之间的互连装置(例如，总线)，以及用于与其它装置通信的接口(其可以是无线的，诸如GSM、CDMA、W-CDMA、CDMA2000、TDMA、EV-DO、HSDPA、WiFi、WiMax或蓝牙，和/或有线的，诸如通过以太局域网、T-1互联网连接等)。

尽管本说明书在前面提到了与受让人先前的专利申请的关系，但是这值得重复。这些公开内容应该前后一致地被解读并作为一个整体解释。申请人期望每个文献中的特征与其它文献中的特征相结合。即，应当理解的是，在本申请中公开的方法、元素和概念可以与在那些相关申请中详述的方法、元素和概念组合。虽然在本说明书中已特别详述了一些组合，但是许多组合由于大量的置换和组合的存在而尚未被详述。然而，根据所提供的教导，所有这样的组合的实现方案对于本领域技术人员而言是直接明了的。

在本说明书中详述的处理和系统组件可被实现为用于计算装置的指令，包括用于各种可编程处理器的通用处理器指令，所述可编程处理器包括微处理器、图形处理单元(GPU，例如nVidia Tegra APX2600)、数字信号处理器(例如，德州仪器的TMS320系列器件)等。这些指令可被实现为软件、固件等。这些指令也可被实现到各种形式的处理器电路中，包括可编程逻辑器件、FPGA(例如，著名的Xilinx Virtex系列器件)、FPOA(例如，著名的PicoChip器件)，以及专用电路——包括数字的、模拟的、和混合模拟/数字电路。指令的执行可在处理器之间分配，和/或跨越装置内的多个处理器或者跨越装置网络并行地进行。内容信号数据的转换也可在不同的处理器和存储器装置之间分配。对“处理器”或“模块”的提及应当被理解为是指功能性，而不是需要特定形式的硬件和/或软件实现方案。

用于实现详述的功能性的软件指令可由本领域技术人员根据本文提供的说明容易地编写，例如用C、C++、Visual Basic、Java、Python、Tcl、Perl、Scheme、Ruby等编写。根据本技术的某些实现方案的智能手机和其它装置可包括用于执行不同的功能和动作的软件模块。可采用已知的人工智能系统和技术做出上面提到的推论、结论和其它决定。

通常，每个装置包括提供与硬件资源和通用功能的接口的操作系统软件，并且还包括可被选择性地调用以执行用户期望的特定任务的应用软件。已知的浏览器软件、通信软件和媒体处理软件可适用于许多本文详述的用途。软件和硬件配置数据/指令通常被存储为可跨越网络访问的有形介质(诸如磁盘或光盘、存储卡、ROM等)所传递的一个或多个数据结构中的指令。一些实施例可被实现为嵌入式系统——操作系统软件和应用程序软件对于用户而言无法区分的专用计算机系统(例如，在基本的手机中通常就是这种情况)。本说明书中详述的功能可以在操作系统软件、应用程序软件中实现和/或实现为嵌入式系统软件。

尽管本公开内容已在说明性实施例中详述了动作的特定排序和元素的特定组合，但将会认识到，其它可预期到的方法可以对动作重新排序(可能省略一些动作并添加另一些动作)，并且其它可预期到的组合可省略一些元素，添加另一些元素，且不同地配置元素等。

虽然作为完整的系统公开，但是详述的配置方案的子组合也是分别可预期到的。

尽管主要是在执行音频采集和处理的系统的背景环境中进行详述，但是相应的配置方案可同样应用于采集和处理视觉刺激(图像)的系统，或者采集和处理图像和音频两者的系统。

类似地，虽然已参照说明性方法描述了本技术的某些方面，但将会认识到，被配置为执行这种方法的动作的装置也被考虑为申请人的创造性工作的一部分。同样，已参照说明性装置描述了其它方面，并且由这样的装置执行的方法同样处于本技术的范围之内。此外，还可明确地预期到包含用于配置处理器或其它可编程系统以执行这种方法的指令的有形计算机可读介质。

提及蓝牙技术以表示附近的人的接近度和身份仅是说明性的。已知许多替代技术用于执行这些功能的一者或两者，并可被容易地取代。

附图应被理解为是示例性的而非限制性的。

不可能将本文所述技术的无数变型和组合明确地编目。申请人认识到并预期，本说明书的概念可被组合、代替和互换——在其自身之间，以及与那些从引用的现有技术中已知的概念。此外，将会认识到，详述的技术可包括在其它技术(当前的和未来的)中，以实现有利的效果。

假定读者熟悉本文所引用的文献(包括专利文献)。为了提供全面的公开而不会过度加长本说明书，申请人通过引用将上面提及的这些文献结合在本文中。(这些文献的全部内容被结合在本文中，即使这些文献在上文中是关于其特定教导而被引用的。)这些参考文献公开的技术和教导可结合到本文详述的配置方案中，并且本文详述的技术和教导也可结合到这些参考文献公开的技术和教导中。

Claims

1.一种方法，包括：

将第一分类处理应用于接收到的音频和/或视觉信息，以便从多个可能的类型当中识别出所述接收到的信息的类型；

将第二分类处理应用于接收到的第二信息，以便从多个可能的场景当中识别出一个场景，所述接收到的第二信息不同于所述接收到的音频或视觉信息；以及

基于来自所述第一和第二分类处理的输出，激活一个或多个识别模块。

2.根据权利要求1所述的方法，其中所述第一和第二分类处理通过参考时间、地点和音频信息识别时间-地理-听觉场景，并且所述方法包括基于所识别的时间-地理-听觉场景激活所述一个或多个识别模块。

3.根据权利要求1所述的方法，包括激活面部识别模块。

4.根据权利要求1所述的方法，包括：

将第一分类处理应用于接收到的音频信息，以便将所述接收到的音频信息识别为包括语音；

激活语音识别模块以处理所述音频信息；以及

至少部分地基于采集到所述音频信息的位置，识别来自所述语音识别模块的输出应当被存储到的存储介质。

5.根据权利要求1所述的方法，包括基于来自所述第一和第二分类处理的输出，激活多个不同的识别模块。

6.根据权利要求1所述的方法，包括将来自所述第一和第二分类处理的输出应用于规则模块，所述规则模块识别要激活的一个或多个识别模块。

7.根据权利要求1所述的方法，其中所述接收到的第二信息包括从所述第一分类处理输出的信息。

8.根据权利要求1所述的方法，其中所述接收到的第二信息包括社交网络信息。

9.根据权利要求1所述的方法，其中所述接收到的第二信息包括关于附近的一人或多人的信息。

10.一种方法，包括：

将第一分类处理应用于接收到的音频和/或视觉信息，以便从两种可能的类型即第一类型和第二类型当中识别出所述接收到的信息的类型；

如果接收到的信息被识别为第一类型，则将多种识别技术的第一组合应用于所述接收到的信息；以及

如果接收到的信息被识别为第二类型，则将多种识别技术的第二组合应用于所述接收到的信息；

其中至少一种识别技术是基于水印或指纹的识别技术，并且所述第一和第二组合都不同。

11.根据权利要求10所述的方法，包括：

应用所述第一分类处理，以便从三种可能的类型即第一类型、第二类型和第三类型当中识别出所述接收到的信息的类型；以及

如果接收到的信息被识别为第三类型，则将多种识别技术的第三组合应用于所述接收到的信息；

其中所述第一、第二和第三组合都不同。

12.一种方法，包括：

基于对在用户装置接收到的音频所应用的音频分类处理，将音频识别为包括语音；

至少部分地基于所述识别处理，激活语音识别模块；

确定装置附近的另一人的存在；以及

至少部分地基于所述确定处理的结果，激活提醒信号。

13.根据权利要求12所述的方法，包括如果所述另一人是用户不熟悉的人，则激活所述提醒信号。

14.根据权利要求12所述的方法，包括基于用户与所述另一人之间的关系，控制所述提醒信号的侵扰性。

15.一种方法，包括：

确定用户装置附近的人的存在；以及

至少部分地基于所述确定处理，将面部识别处理应用于由所述用户装置拍摄的图像。

16.根据权利要求15所述的方法，包括通过参考一个或多个电磁信号，确定所述人的存在。

17.根据权利要求15所述的方法，其中所述确定处理包括确定所述用户装置附近的、用户已知的人的存在。

18.根据权利要求16所述的方法，包括尝试通过参考感测到的无线电信号来识别人，并且至少部分地基于所述尝试处理的结果，应用所述面部识别处理。

19.根据权利要求15所述的方法，包括确定所述人与用户之间的社交网络关系，并且至少部分地基于所述确定社交网络关系的结果，应用所述面部识别处理。

20.一种方法，包括：

计算机控制的系统感测用户的背景环境从第一状态到第二状态的变化，所述第二状态包括大于所述第一状态的音频水平；

至少部分地基于所述感测到的变化，询问用户对于音频内容识别操作的兴趣，并且根据响应于所述询问的用户输入或缺乏用户输入，执行音频内容识别；

存储与所述用户输入或缺乏用户输入相关的信息；以及

随着时间的推移，学习用户对所述询问的响应，并且当音频环境从所述第一状态变化为所述第二状态时，在不询问用户兴趣的情况下自动执行内容识别。

21.根据权利要求20所述的方法，其中所述学习处理还包括确定所述第一状态与第二状态之间的音频水平的阈值变化，在该阈值变化下所述系统应当询问用户对于音频内容识别操作的兴趣。

22.一种方法，包括在检测到提供用于面部识别的图像数据的摄像头的轴线从水平线偏离超出阈值量时，中断面部识别模块的操作。

23.一种方法，包括至少部分地基于来自摄像头系统的表示焦距的数据，控制面部识别模块的操作。

24.一种方法，包括通过使用用户所携带装置中的麦克风感测由第一装置发出的阈下信号，并且将与所述感测到的信号相关的数据发布至远程存储站点，供用户所携带装置以外的装置访问。

25.根据权利要求24所述的方法，其中所述第一装置包括由另一用户运送的便携式装置。

26.根据权利要求24所述的方法，其中所感测到的信号传送包括所述第一装置的识别信息和背景环境信息在内的信息，并且所述方法包括将所述信息连同包括用户所携带装置的识别信息和背景环境信息在内的附加信息一起，发布至所述远程存储站点。

27.一种方法，包括：

由第一用户运送的第一装置与由第二用户运送的第二装置进行无线通信，以确定哪个装置更适合执行图像或音频处理任务；

使用所确定的装置执行任务；以及

与另一装置共享所述任务的结果。

28.根据权利要求27所述的方法，其中所述任务包括面部识别。

29.一种方法，包括：

分别由第一用户和第二用户运送的第一装置和第二装置分别从所述用户占据的环境中感测第一信息和第二信息；

每个所述装置处理其感测到的信息；以及

每个所述装置使来自所述处理的输出数据对于另一装置可用。

30.根据权利要求29所述的方法，其中所述第一装置接收由所述第二装置产生的输出数据，并且使用从所述第二装置接收到的该输出数据，而不使用通过所述第一装置自身的处理输出的数据。

31.根据权利要求29所述的方法，包括所述第一装置使用未被所述第二装置在处理所述第二信息时使用的社交网络信息，处理所述第一信息。

32.一种方法，包括：

所述第一装置使所述第一信息对于所述第二装置可用；以及

所述第二装置连同对于所述第一装置不可用的社交网络信息一起处理所述第一信息，以产生输出信息。

33.根据权利要求32所述的方法，包括所述第二装置使所述输出信息对于所述第一装置可用。

34.一种方法，包括：

基于来自装置摄像头的图像数据，感测用户的眼睛沿其定位的轴线；以及

至少部分地基于所述感测到的轴线，控制所述装置上的显示器。

35.一种方法，包括：

使用通过用户装置采集的音频数据，将声音场景表征为会议；以及

将关于会议的条目提交至联网的调度日程表，使得会议正在进行的房间在日程表上显示为忙碌。

36.根据权利要求35所述的方法，还包括将关于会议的时间间隔提交至日程表，使得在该间隔内所述房间在日程表上将显示为忙碌。

37.根据权利要求36所述的方法，包括至少部分地基于通过用户装置采集的信息，估计所述时间间隔。