CN103038765B

CN103038765B - 用于适配情境模型的方法和装置

Info

Publication number: CN103038765B
Application number: CN201080068322.XA
Authority: CN
Inventors: M·安尼克塞拉; A·埃罗南; J·莱帕南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2010-07-01
Filing date: 2010-07-01
Publication date: 2017-09-15
Anticipated expiration: 2030-07-01
Also published as: WO2012001216A1; US20130226850A1; EP2588972A4; CN103038765A; EP2588972A1; US9679257B2

Abstract

公开一种用于适配情境模型的方法、设备、计算机程序产品和因特网服务。在该方法中，接收媒体剪辑。也接收至少部分在捕获媒体剪辑时捕获的传感器数据。至少部分基于传感器数据使用情境模型来推导情境，并且向用户提供关于情境的指示。从用户接收关于情境的相关度的反馈。基于反馈，继而可以适配情境模型。

Description

用于适配情境模型的方法和装置

技术领域

本发明涉及适配情境（context）识别器的情境模型。本发明还涉及一种情境识别器和计算机程序产品，该计算机程序产品具有在其中存储的用于适配情境识别器的情境模型的计算机代码。

背景技术

便携设备（如移动电话和膝上型计算机）已经在人们之中变得很流行。在人们到处移动时经常至少携带移动电话。其中这样的便携设备由便携设备的用户携带的情境可以变化。有时可能希望使便携设备或者可能在便携设备中运行的应用的属性适配于用户位于其中的环境和用户的活动。

数字相机也已经在过去十年很快变成常见家用物品。除了独立相机之外，许多其它电子设备（如移动电话和计算机）配备有数字相机。用数字相机拍摄的图片和/或视频保存于设备的记忆卡或者内部存储器上，并且可以容易并且瞬时地从该存储器取用它们以用于查看和打印。拍摄照片已经变得容易并且非常可负担。这已经自然地造成数字图片数目激增并且随着每个图片数兆字节的常见大小而造成存储需要激增。为了管理个人容易具有的数以千计的图片，已经开发了计算机程序和因特网服务。这样的程序和服务通常具有如下特征，这些特征允许个人根据某一标准排列图片或者甚至执行搜索以发现所需图像。

搜索包含所需内容的图片和视频是有挑战的任务。关于图片或者视频的一些附加信息（如捕获时间或者地点）经常可用来帮助搜索。也有可能例如借助脸部识别来分析图片内容，从而使得可以在搜索中使用人们的姓名。这自然地需要一些用户交互以关联姓名与识别的脸部。为了帮助搜索，图片和视频管理系统的用户可以给出将向图片附着的文字输入，它们可以对图片分类和评级并且执行其它人工任务以在以后它们需要发现所需图片时帮助识别所需图片。这样的人工操作欠灵活并且耗时，并且在另一方面，全自动图片搜索方法可能经常产生不令人满意的结果。

需要开发用于感测环境（比如室外、室内、办公室或者餐馆）以及活动（比如奔跑或者行走）的方法，从而使得可以提供适配于用户的情形的设备、应用和服务。

具体而言，已经注意在制造自动分析用户情境的商业上可行系统时的一个问题可能是用于对每个用户的个别特性建模的能力。这可以在使用详尽登记阶段时是有可能的，在该阶段期间，用户将输入环境和活动范围，系统将收集数据并且更新和/或训练它的模型。然而，这可能对于最终用户而言要求太高。

发明内容

现在已经发明了一种改进的方法和实施该方法的技术设备，通过该方法和设备可以不明显地收集用户专属适配数据而不麻烦用户太多，从而使得可以改进情境识别算法的性能。本发明的各种方面包括一种方法、装置、服务器、客户端和计算机可读介质，该计算机可读介质包括在其中存储的计算机程序。在一些实施例中，相关度反馈可以用于适配用于除了在搜索查询中使用的或者在内容项中包括的模态（modality）之外的模态的模型。例如，用于图像的相关度反馈可以用来适配基于音频的情境模型。

本发明的一些示例实施例包括情境识别器（例如，基于音频）和相机应用。当用户拍摄图片时，基于图片拍摄情境向用户建议一个或者多个标签。当用户做出用于将标签链接到图像的选择时，这一信息被用来适配情境识别器。例如，如果情境识别器建议用于图像的标签“街道”，并且用户选择标签，则适配用于情境“街道”的模型。因此，情境识别器算法可以学习以更好地对用户拜访的情境建模。

在从属权利要求中公开本发明的各种实施例。

本发明的一些实施例提供基于用户从建议的标签选择哪些标签来适配一个或者多个情境模型。

根据本发明的第一方面，提供一种方法，该方法包括：

-接收媒体剪辑；

-接收至少部分结合媒体剪辑的捕获而捕获的传感器数据；

-至少部分基于传感器数据使用情境模型来推导至少一个情境；

-向用户提供关于情境的指示；

-从用户接收关于情境的相关度的反馈；

-基于反馈来适配情境模型。

根据本发明的第二方面，提供一种装置，该装置包括：

-用于接收媒体剪辑的装置；

-用于接收至少部分结合媒体剪辑的捕获而捕获的传感器数据的装置；

-用于至少部分基于传感器数据使用情境模型来推导至少一个情境的装置；

-用于向用户提供关于情境的指示的装置；

-用于从用户接收关于情境的相关度的反馈的装置；以及

-用于基于反馈来适配情境模型的装置。

根据本发明的第三方面，提供一种装置，该装置包括：

至少一个处理器，以及

包括计算机程序代码的至少一个存储器，

至少一个存储器和计算机程序代码被配置成与至少一个处理器一起使该装置至少：

-接收媒体剪辑；

-接收至少部分结合媒体剪辑的捕获而捕获的传感器数据；

-向用户提供关于情境的指示；

-从用户接收关于情境的相关度的反馈；

-基于反馈来适配情境模型。

根据本发明的第四方面，提供一种装置，该装置包括：

-第一输入，配置用于接收媒体剪辑；

-第二输入，配置用于接收至少部分结合媒体剪辑的捕获而捕获的传感器数据；

-第一单元，配置用于至少部分基于传感器数据使用情境模型来推导至少一个情境；

-第二单元，配置用于向用户提供关于情境的指示；

-第三输入，配置用于从用户接收关于情境的相关度的反馈；

-第三单元，配置用于基于反馈来适配情境模型。

根据本发明的第五方面，提供一种包括至少一个计算机可读存储介质的计算机程序产品，至少一个计算机可读存储介质具有在其中存储的计算机可执行程序代码部分，计算机可执行程序代码部分包括程序代码指令，程序代码指令用于：

-接收媒体剪辑；

-接收至少部分结合媒体剪辑的捕获而捕获的传感器数据；

-向用户提供关于情境的指示；

-从用户接收关于情境的相关度的反馈；

-基于反馈来适配情境模型。

附图说明

在下文中，将参照附图更具体地描述本发明的各种实施例，在附图中：

图1示意地示出了利用本发明的一些实施例的电子设备；

图2示意地示出了适合于利用本发明的一些实施例的用户设备；

图3进一步示意地示出了使用无线和有线网络连接来连接的利用本发明的实施例的电子设备；

图4a示意地示出了利用本发明的实施例的装置的一些细节；

图4b示意地示出了根据本发明的一个实施例的情境识别和适配模块的进一步细节；

图5示出了用于实施本发明的处理步骤的概况；

图6a描绘了用户已经拍摄的图片的示例；

图6b描绘了由装置提出的标签的示例视图，该视图交织最喜欢的标签和自动推导的标签；

图6c描绘了标签组合的选择；

图7示出了以基于搜索的相关度反馈为基础的一个实施例的处理步骤的概况；

图8示出了用于通过对音频特征应用搜索标准来实现从图像数据搜索的方法；

图9示出了用于通过比较与图像相关联的音频特征来实现从图像数据搜索的方法；

图10示出了通过应用从时域向频域的变换来形成音频特征的示图；

图11a示出了形成Mel频率倒频谱系数作为音频特征的示图；

图11b示出了用于创建Mel频率倒频谱系数或者其它音频特征的滤波器组的可能形成；并且

图12示出了分布式图片捕获和情境适配的示例的用例的示例。

具体实施方式

在下文中，将在通过使用涉及标注媒体数据的用户活动或者设备环境作为指示符来适配情境模型的上下文中描述本发明的若干实施例。然而，将注意，本发明并不限于具体设备或者具体网络设置。事实上，不同实施例在其中需要改进情境模型适配的任何环境中广泛具有应用。

概率标签是关键词和至少一个参数值的联合，该参数值指示关键词的相关度。可以使用任何字符集（比如UTF-16）来表示关键词。关键词可以与同义词和向不同语言的翻译相关联。关键词也可以与特征矢量相关联或者由特征矢量表示，该特征矢量指示它在可以表示自然语言的某一词汇表中的语义

例如，关键词可以由指向本体表示的索引表示。关键词的相关度可以由关键词相关的概率或者可能性指示。备选地或者附加地，可以指示对用户相关度反馈命中的计数。

相关度反馈的一个想法是让用户指导信息检索系统。在检索过程期间，用户与系统交互并且根据他的/她的主观判断对检索的图像的相关度评分。利用这一附加信息，系统动态学习用户的意图，并且逐渐呈现更好结果。许多系统提供基于关键词的搜索接口。系统返回与给出的基于关键词的搜索查询匹配的图像。用户继而隐式地（通过选择用于在更大比例中查看的图像）或者显式地（通过指示特定图像是否与查询匹配）给出关于搜索结果的相关度的反馈。关于针对其给出了相关度反馈的图像，检索系统继而可以修改概率标签与在搜索中使用的关键词匹配的可能性。

也有可能组合基于关键词和基于视觉特征的搜索和相关度反馈，从而使得它们在检索过程中相互补充以便使检索更准确和高效。它们可以使用按照示例的查询，即按照示例或者相似度匹配的基于视觉特征的搜索。当已经向搜索结果给出了相关度反馈时，它可以用于各种目的。例如，可以修改与关键词匹配的相关搜索结果的那些概率标签的概率。可以通过提供新搜索结果来完成迭代搜索。可以在新的相似度搜索中对在先前搜索步骤中指示为相关的图像中的视觉特征加权更高。

在上面提到的对相关度反馈的使用中，反馈可以具体用于单个用户或者一组已知用户，或者它可以共同用于所有用户。

在多模态搜索中，在有和无相关度反馈时，可以在视频或者图像的搜索中使用视觉、听觉和文本特征。一种关于多模态搜索的方式是先按照模态计算搜索查询的相关度。例如可，以通过单个搜索方法匹配在搜索查询中给出的示例图像和视频与视频和/或图像数据库的视觉内容，而单独搜索方法处理查询文本检索词并且匹配它们与数据库中的视频的话音识别转录。继而，加权求和可以用来将这些相关度组合成单个值。

在无论用户的意图、查询本身的特性和搜索的项的树立如何都针对每个传入查询应用相同搜索机制时，独立于查询的策略并不充分并且可能欠佳地服务于许多类型的搜索。

一种方式是预定义查询类集合，这些查询类是查询集合，在这些查询集合中，最优搜索策略对于在该类内包含的所有而言相似。例如，在广播新闻视频中，可以通过向文本搜索方法给予更多加权来最好地处理针对指定个人的镜头的搜索，而针对体育景物的搜索可以向基于示例的图像搜索方法给予更多权值，因此这些类型的查询将需要它们自己的类。因而，基于查询的主题适配在模态之间的加权。可以自动确定查询类和在查询到类之间的映射。语义空间可以用来将查询映射到类，并且可以通过比如对指定实体和词性（parts ofspeech）计数并且测量跨越各种查询在关键词之间的词法相关性这样的方法估计查询的语义内容。

另一方式是基于查询的意图或者任务适配搜索算法。例如，用户可能想要发现确切的一条数据（比如主页或者特定多媒体项目）或者用于执行特定任务的服务（比如“购买机票”）。

在另一方式中，可以按照情境适配搜索，该情境包括用户的当前位置、用户的查询历史和他或者她已经点击的所得文档（该查询历史和文档可以代表用户的身份和兴趣）以及用户在发出搜索时浏览的当前文档。

另一方式是基于以往相关度反馈来修改在用于每个特定内容项的模态之间的加权。换言之，用于特定视频剪辑的相关度反馈的统计可以用来修改用于这一剪辑的不同模态的权值和/或用于这一剪辑的特定特征矢量的权值。在其它方式中，基于相关度反馈的适配或者学习无需专属于特定内容项，但是可以专属于一组内容项或者具体查询任务/意图。

一种基于单模态搜索结果的相关度的线性加权求和的备选融合方式被称为重新排行。例如，可以从对话音识别转录的文本搜索中取得初始搜索。基于文本的搜索的最高返回的文档被视为伪肯定，并且从搜索结果的列表中的别处采样伪否定示例。根据伪肯定和伪否定采样的视觉特征对采样聚类。对具有伪肯定采样相对于伪否定采样的最高比例的聚类重新排行以在最终搜索结果中最高地出现。

相关度反馈已经被用来适配如下模型，该模型用于内容的特征提取、分类和/或相似度匹配。例如，用于图像的基于文本的查询的相关度反馈已经被用来适配视觉特征模型。

搜索查询或者搜索的项可以已经包括已经基于相关度反馈来适配的模型的模态。例如，如果搜寻图像，则可以基于相关度反馈来适配视觉特征模型。

下文进一步具体描述用于提供增强对用于内容认知设备、应用和/或服务的情境模型的适配的适当装置和可能的机制。就这一点而言，先参照图1，该图示出了示例性装置或者电子设备50的示意框图，该装置或者电子设备可以并入根据本发明的一个实施例的情境识别和适配模块100。

电子设备50可以例如是无线通信系统的移动终端或者用户设备、数字相机、膝上型计算机等。然而，将理解，本发明的实施例可以实施于可以包含情境适配属性的任何电子设备或者装置内。

装置50可以包括用于并入和保护设备的壳30。装置50可以进一步包括形式为液晶显示器的显示器32。在本发明的其它实施例中，显示器可以是适合于显示图像或者视频的任何适当显示技术。在一些实施例中，显示器32可以是触敏显示器，这意味着除了能够显示信息之外，显示器32也能够感测显示器32上的触摸并且向控制器56递送关于触摸的例如触摸的位置、触摸的力之类的信息。因此，也可以使用触敏显示器作为用于输入信息的装置。在一个示例实施例中，触敏显示器32可以实施为显示单元和位于显示单元上方的触敏单元。

装置50可以进一步包括键区34。在本发明的其它实施例中，可以运用任何适当数据或者用户接口机制。例如，可以实施用户接口为虚拟键盘或者数据录入系统作为触敏显示器的部分，或者它可以包含话音识别能力。该装置可以包括麦克风36或者任何适当音频输入，该音频输入可以是数字或者模拟信号输入。装置50可以进一步包括音频输出设备，该音频输出设备在本发明的实施例中可以是耳机38、扬声器或者模拟音频或者数字音频输出连接中的任一项。装置50也可以包括电池40（或者在本发明的其它实施例中，该设备可以由任何适当移动能量设备（比如太阳能电池、燃料电池或者时钟工作发电机）供电）。该装置可以进一步包括用于向其它设备的短程通信（例如，用于从数厘米到数米或者到数十米的距离）的近场通信（NFC）连接42。在其它实施例中，装置50可以进一步包括任何适当短程通信解决方案，如比如蓝牙无线连接、红外线端口或者USB/火线有线连接。

装置50可以包括用于控制装置50的控制器56或者处理器。控制器56可以连接到存储器58，该存储器在本发明的实施例中可以存储形式为图像和音频数据的数据和/或也可以存储用于在控制器56上实施的指令两者。控制器56可以进一步连接到适合于实现音频和/或视频数据的编码和解码或者辅助控制器56执行的编码和解码的编码解码器电路54。

装置50可以进一步包括用于提供用户和信息并且适合于提供用于在网络认证和授权用户的认证信息的卡读取器48和智能卡46、例如UICC和UICC读取器。

装置50可以包括连接到控制器并且适合于生成无线通信信号的无线电接口电路52，该无线电接口电路例如用于与蜂窝通信网络、无线通信系统和/或无线局域网通信。装置50可以进一步包括连接到无线电接口电路52的天线44，该天线用于向其它装置传输在无线电接口电路52生成的射频信号和用于从其它装置接收射频信号。

在本发明的一些实施例中，装置50包括能够记录或者检测个别帧或者图像的相机62，这些帧或者图像继而向图像处理电路60或者控制器56传递以用于处理。在本发明的其它实施例中，该装置可以在传输和/或存储之前从另一设备接收图像数据。在本发明的其它实施例中，装置50可以无线地或者通过有线连接来接收图像以用于编码/解码。

关于图3，示出了可以在其内利用本发明的实施例的系统的示例。系统10包括可以通过一个或者多个网络通信的多个通信设备。系统10可以包括有线或者无线网络的任何组合，这些网络包括但不限于无线蜂窝电话网络（比如全球移动通信系统（GSM）网络、第3代（3G）网络、第3.5代（3.5G）网络、第4代（4G）网络、通用移动电信系统（UMTS）、码分多址（CDMA）网络等）、无线局域网（WLAN）（比如由电气和电子工程师协会（IEEE）802.x标准中的任何标准定义的无线局域网（WLAN））、蓝牙个人局域网、以太网局域网、令牌环局域网、广域网和因特网。

系统10可以包括适合于实施本发明的实施例的有线和无线通信设备或者装置50。

例如，图3中所示的系统示出了移动电话网络11和因特网28的表示。通向因特网28的连通性可以包括但不限于长程无线连接、短程无线连接和各种有线连接，这些有线连接包括但不限于电话线、线缆线、电力线和相似通信路径。

系统10中所示的示例通信设备可以包括但不限于电子设备或者装置50、个人数字助理（PDA）和移动电话14的组合、PDA16、集成消息接发设备（IMD）18、台式计算机20、笔记本计算机22。装置50可以静止或者在由移动的个人携带时移动。装置50也可以位于交通工具中，该交通工具包括但不限于小汽车、卡车、出租车、公共汽车、火车、小船、飞机、自行车、摩托车或者任何相似适当交通工具。

一些或者更多装置可以发送和接收呼叫和消息并且通过通向基站24的无线连接25与服务提供商通信。基站24可以连接到网络服务器26，该网络服务器允许在移动电话网络11与因特网28之间的通信。系统可以包括附加通信设备和各种类型的通信设备。通信设备可以使用各种传输技术来通信，这些传输技术包括但不限于码分多址（CDMA）、全球移动通信系统（GSM）、通用移动电信系统（UMTS）、时分多址（TDMA）、频分多址（FDMA）、传输控制协议-网际协议（TCP-IP）、短消息接发服务（SMS）、多媒体消息接发服务（MMS）、电子邮件、即时消息接发服务（IMS）、蓝牙、IEEE802.11和任何相似无线通信技术。在实施本发明的各种实施例时涉及到的通信设备可以使用各种介质来通信，这些介质包括但不限于无线电、红外线、激光、线缆连接和任何适当连接。

在图4a中描绘了装置50的一个示例实施例的一些进一步细节。情境识别和适配模块100可以包括用于从一个或者多个传感器110a-110e输入传感器数据的一个或者多个传感器输入101。传感器数据可以是以电信号的形式，例如作为模拟或者数字信号。情境识别和适配模块100也包括用于与应用通信的应用接口102以及用于输入关于情境模型的数据和用于输出关于更新的情境模型的数据的情境模型接口103。应用接口102可以例如用来输入关于对标签的选择的数据并且从情境识别和适配模块100向应用软件逻辑105输出数据。情境识别和适配模块100可以进一步包括用于与可以例如用于从存储器58搜索图像的图像搜索单元106通信的搜索接口104。

应用软件逻辑105可以包括图像捕获应用150，该图像捕获应用可以已经在该装置中被启动，从而使得用户可以捕获图像和/或视频。应用软件逻辑105也可以包括用于向存储器58记录例如由麦克风36捕获的音频信号的音频记录应用151作为图像捕获应用的部分或者作为单独音频捕获应用151。作为概括，应用软件逻辑105可以包括一个或者多个媒体捕获应用150、151，从而使得用户可以捕获媒体剪辑。也有可能的是应用软件逻辑105能够同时运行多个媒体捕获应用150、151。例如，音频捕获应用151可以在用户拍摄图像时提供音频捕获。

在图4b中描绘了情境识别和适配模块100的一个示例实施例的一些进一步细节。它可以包括情境识别器107，该情境识别器使用情境模型120以基于传感器数据执行对情境的情境识别。此外，情境识别器107可以使用通过应用接口102提供的附加应用数据（比如日历数据）以执行对情境的情境识别。情境识别器107也可以经由接口110与情境模型适配器108通信，从而使得情境识别器可以向情境模型适配器108指示情境识别结果。情境模型适配器108继而可以使用相同传感器数据以适配与情境识别结果对应的情境模型并且经由情境模型接口103向其中存储情境模型120的存储器提供适配的情境模型数据。这里应当注意，虽然描绘情境识别器107和情境模型适配器108为单独块，但是它们无需是单独单元，而是它们也可以被实施为包含用于识别情境和用于适配情境的功能的统一电路和/或程序代码。

在一些实施例中，情境识别和适配模块100可以进一步包括情境模型选择器109，但是它也可以是情境识别器107的部分。情境模型选择器109可以使用识别结果以确定哪个情境模型与分析的传感器数据最好地对应。例如，情境模型选择器109可以比较情境识别器107可能定义的情境模型的概率并且选择概率最大的该情境模型。可以向应用接口102、向搜索接口104或者向另一控制接口提供所选情境模型的信息。

情境识别和适配模块100可以例如被实施为专用电路或者控制器56的程序代码或者这些的组合。

在一些实施例中，装置50包括例如存储于存储器58中的一个或者多个情境模型120。可以存在用于不同情境和用于不同种类的传感器数据的不同情境模型。也有可能具有用于情境的多于一个情境模型。例如，一个或者多个代表采样可以用来描述每个情境。情境模型可以例如形式为算法、过程步骤、计算机指令、专用电路、概率密度的参数值、判决函数的参数值、一个或者多个情境原型的特征值或者这些的组合。情境模型是可以与例如来自一个或者多个传感器的输入数据一起用来确定该装置当前位于其中的情境或者与用户的当前活动有关的情境的工具。例如，装置50可以由例如在街道上行走或者奔跑、骑自行车、在公共汽车或者火车中旅行、在音乐厅中收听音乐、参加与好友的聚会等的用户携带。这一列表仅代表可能情境的一些非限制示例。也有可能多于一个情境适用于一些情形。例如，用户可以在城市的街道上骑自行车。

在一些实施例中，情境模块120可以存储于另一设备中，例如服务器26中。

用于情境模型120的输入数据可以来自一个或者多个数据源36、110a-110e。例如，输入数据可以是由例如来自麦克风36的信号表示的音频数据110a、由一个或者多个图像传感器110e捕获的信号表示的视觉数据、由例如定位设备（比如全球定位系统（GPS）的接收器110c）确定的位置数据、涉及设备的移动并且例如由加速度计110b和/或罗盘110d捕获的数据，或者可以是以另一数据形式的输入数据。情境模型的输入数据也可以是不同种类的传感器数据的组合。例如，输入数据可以包含图像和在捕获图像时记录的音频数据的序列。对音频数据的记录可以已经在捕获图像之前开始并且在捕获图像之后结束。情境识别和适配模块100继而可以使用用于图像数据的情境模型和用于音频数据的其它情境模型以确定哪个情境模型与图像数据最好地相配而哪个情境模型与音频数据最好地相配。情境识别和适配模块100也可以评估用于分析的情境模型的概率，从而使得可以选择具有最高概率的情境模型以表示情境。

也有可能对音频或者其它传感器数据的记录可以已经在捕获图像之前开始并且在捕获图像之前不久结束，或者对传感器数据的记录可以已经在捕获图像期间开始并且在捕获图像之后结束。换言之，近似地在捕获图像时（即结合对图像的捕获）至少部分地执行对传感器数据的捕获。

在下文中，将更具体地描述根据本发明的方法的示例。假设该方法实施于装置50中，但是本发明也可以如随后在本申请中将描述的那样实施于设备组合中。

在这一示例中，假设装置50的用户浏览他的装置50上的他的/她的假期照片。假期照片可以一次一个或者一次多个图片地显示于显示器32上。用户发现在有噪声的街道上拍摄的一个图像，用情境标签“街道”标注它，并且想要发现用户记得他/她已经在其它街道上拍摄的其它图像。用户继而向装置50指示这一图片应当在发现其它图片的搜索中用作参考图片。例如，可以如果显示器32是触敏显示器则通过在其中示出图片的位置触摸显示器或者通过移动图片上的指针（光标）并且按压键区34上的键来提供该指示。继而，用户可以例如选择选项“基于背景声音发现相似”。向图像搜索模块108输入关于所选图像的信息。在这一示例中，信息可以是在拍摄图像时向存储器58存储的音频信息。由于图像是街道视图，所以可能的是音频信息表示街道的声音。图像搜索模块108检查存储器58中的其它图片的存储的音频信息并且确定哪些图片包含与用户已经选择的图片相似的音频信息。根据图像搜索模块108，结果例如可以是图片集合，其中背景声音氛围听上去像街道。如果发现了一个或者多个这样的图片，则图像搜索模块108向应用软件逻辑105输出这一信息，该应用软件逻辑可以产生发现的图片的列表并且在显示器32上提供该列表。

用户继而可以选择图像中的一个或者多个如下图像并且用街道“标签”标注它们，这些图像是用户例如从有噪声的街道寻找的图像。向情境识别和适配模块100发送信息，该信息指示与标注的特征有关的音频应当与标签“街道”相关联。这由情境识别和适配模块100用来适配一个或者多个情境模型以通过用对应特征适配“街道”情境模型来改进它的准确性。

在另一示例中，用户使用基于关键词的搜索来搜索图像。已经用在图像捕获时为主导的情境自动地或者借助用户辅助（例如，如上文在前例中说明的那样）标注了一些图像。例如，用户用搜索查询“街道”搜索图像。用户获得与基于关键词的搜索匹配的图像的列表，这些图像中的一些图像被返回，因为指示情境的标签与搜索查询匹配。他选择搜索结果中的一个或者多个搜索结果或者以别的方式指示它们与查询的相关度。如果用户选择其中指示情境的标签与搜索查询匹配的图像，则适配相关情境模型。例如，如果基于音频的情境模型在图像中包括标签“街道”，则向情境识别和适配模块100发送信息，该信息指示应当基于用于所选图像的情境的音频特征特性适配用于“街道”的基于音频的情境模型。

作为示例的概括，至少以下相互有关的方面可以与本发明一起利用。首先，使用情境模型来推导近似地在捕获多媒体内容项目时为主导的情境。向用户呈现主导情境例如作为用于内容项的建议标签。用户提供呈现的情境的哪些部分（比如哪些关键词）相关的相关度反馈并且也可以给出哪些部分无关或者更少相关的反馈。继而可以基于相关度反馈适配情境模型。

第二，用户发起基于关键词的搜索。比较搜索查询中的关键词与存在的用于内容项的所有关键词，比如在语义上描述内容的关键词和比如对近似地在捕获时为主导（或者估计为主导）的情境进行描述的关键词。用户可以提供关于搜索结果的相关度反馈，并且可以基于相关度反馈适配情境模型。如果主要由于在搜索结果中包括的内容项的情境与搜索查询匹配而针对内容项提供相关度反馈，则可以更激进地适配情境模型。

第三，用户发起基于相似度的搜索。除了基于用作搜索查询的示例的内容或者表征内容的信息进行搜索之外，近似地在捕获用作搜索查询的示例时为主导的情境也用于搜索。用户可以提供关于搜索结果的相关度反馈，并且可以基于相关度反馈来适配情境模型。如果主要由于在搜索结果中包括的内容项的情境与搜索查询匹配而针对内容项提供相关度反馈，则可以更激进地适配情境模型。

图5描绘了根据本发明的一个实施例的方法的一些处理步骤。用户捕获501媒体剪辑，比如拍摄照片、记录音频剪辑或者拍摄视频。如果在步骤501中拍摄静止图像或者视频，则可以用麦克风记录音频剪辑（例如，针对静止图像为10秒）。音频记录可以例如在用户按压快门按钮610（图6a）以开始自动聚焦特征时开始，并且在预定时间之后结束。备选地，音频记录可以在相机应用活跃时连续地发生，并且向待分析的短暂音频剪辑选择针对图像的拍摄时间而言的预定时间窗。可以如在常规数字相机中那样存储和编码图像。

在捕获之前、期间和/或之后，装置50运行情境识别器107，该情境识别器识别502在媒体捕获期间或者与媒体捕获有关的在设备周围的情境和/或用户在媒体捕获之前、期间和/或之后的活动。在一个实施例中，情境识别器107是基于音频的情境识别器，该情境识别器产生关于周围音频氛围的信息。基于音频的情境识别器可以例如产生如“街道”、“室外”、“自然”、“小鸟”、“音乐”、“人们”、“车辆”、“餐馆”、“酒馆”等标签，每个标签具有相关联的可能性，该可能性指示情境识别有多么置信。在一个实施例中，活动情境识别器使用加速度计、音频和/或其它传感器以确定用户在媒体捕获之前的活动。活动情境识别器可以例如产生标签、比如“驾车”、“行走”和“骑自行车”，每个标签具有相关联的可能性，该可能性指示情境识别有多么置信。在图6a中示出了捕获的图像601的示例。

继而，可以经由接口102向应用软件逻辑105提供关于从情境识别器107获得的情境标签的信息，从而使得在显示器32上示出图像的应用也可以形成503将与图像相关联的所获得标签的视觉指示。图6a至图6c描绘了用户接口140可以看起来像什么。如图6b中所示，可以在用户接口的显示器32上示出标签例如为标签云602。在一个实现方式中，系统示出先前使用的标签604和从情境识别器107获得的标签603二者。在一个实现方式中，可以根据标签的置信度调整标签的大小。例如，与具有更低置信度的标签相比，可以用更大标签呈现具有更高置信度的标签。在图6b中，在深色背景上用白色字符描绘由情境识别器107建议的标签603而在白背景上用深色字符描绘其它标签，但是也可以在实际实现方式中使用其它呈现形式。

用户继而选择将与图像601相关联的至少一个标签。可以通过在其中呈现标签的位置上触摸触屏或者通过键区34执行选择。用户可以选择多于一个标签。用户也可以例如通过触摸用文字“新”标记的选择区605来录入新标签。用户也可以通过触摸用文字“清除标签”标记的选择区606从标签清除显示32。

当用户已经选择了他/她认为适合的所有标签时，他/她可以例如通过触摸用文字“完成”标记的选择区6060来通知标签选择过程结束，其中所选标签与图像601相关联。也向情境模型适配器108提供504关于所选标签的信息。如果情境识别器建议所选标签，则情境模型适配器108继而可以适配器505对应情境模型。备选地或者附加地，如果用户输入情境识别器未建议的、但是存在于情境模型中的标签，则情境模型适配器108继而可以适配505对应情境模型。

图6c描绘了用户选择标签的示例。在灰色背景上示出的并且由标号608引用的标签是装置50的用户已经选择的那些标签。在这一示例中，在所选标签608之中，命名为“音乐”的标签也是情境识别器107建议的标签。因此，情境模型适配器108可以确定涉及音乐的情境模型可能需要适配。情境模型适配器108继而可以检查哪一种类的感测数据与图像601相关联。情境模型适配器108检索感测数据并且使用它以适配用于“音乐”的情境模型。感测数据可以是音频剪辑或者音频特征矢量的序列，其中在必要时应当适配用于听觉信号并且与音乐情境相关联的情境模型。

在另一示例中，如果建议和选择的标签是“街道”，则情境模型适配器108适配它的用于“街道”的模型。如果存在用于不同传感器数据的不同情境模型，则情境模型适配器108可以适配与传感器数据对应的这样的情境模型。例如，如果传感器数据是加速度计数据，则适配用于加速度计数据的情境模型。

当执行情境识别时，情境识别器可以在存储器缓冲器中存储感测数据，即用来产生识别的特征或者特征矢量的序列。当获得用于适配模型的请求时，情境适配器可以使用感测数据（即特征或者特征矢量的序列）以调整对应情境模型以更接近地表示特征。感测数据的示例包括例如表示为音频采样或者使用一些编码（比如自适应多速率宽带或者MPEG-1音频层3）的音频数据、图像数据（例如，用联合图片专家组JPEG格式表示）、加速度计数据（例如，作为三个正交方向x、y、z中的值）、位置（例如，作为包括纬度和经度的元组）、环境光传感器读数、陀螺仪读数、接近传感器读数、蓝牙设备标识符、无线局域网基站标识符和信号强度、蜂窝通信（比如2G、3G、4G、长期演进）蜂窝塔标识符及其信号强度等。

如果情境识别器107未建议用户选择的标签，则情境识别器107可以创建新模型。这可以用与适配相似的方式来完成而不同在于初始默认模型可以用作起点，并且基于存储的特征数据来适配。

除了音频之外，该方法也可适用于其它传感器数据类型。例如，加速度计传感器可以用来检测诸如在小汽车中旅行、奔跑、步行、骑自行车等用户活动。例如，基于加速度计数据的情境识别器可以识别用户坐在火车中。当用户在火车中拍摄图片时，情境识别器107可以建议标签“乘坐火车旅行”。如果用户选择该标签，则可以适配用于“火车”的模型。

在其中在分析中使用两个或者更多不同传感器数据源的情形中，可能发生一个传感器数据向与另一传感器数据不同的情境模型给予最高概率。例如，使用音频数据可以造成情境识别器107确定音频数据表示火车情境，而使用加速度计110b作为一个传感器可以造成情境识别器107确定加速度计数据表示奔跑情境。继而有可能选择具有最高概率的情境模型120以表示正确情境。例如，上文提到的音频数据可以指示“火车”情境具有0.8的概率，并且加速度计数据可以指示“奔跑”情境具有0.9的概率，其中情境识别器107继而可以确定待选择的情境是“奔跑”。

情境识别和图片拍摄无需在相同设备中发生。可以近似地在图片拍摄时捕获来自传感器110a-110e的感测数据，并且在图片中包括该感测数据或者向该感测数据提供图片。可以向另一设备（比如服务器26）传送图片和感测数据。可以在服务器26中执行情境识别。服务器可以向设备提供情境识别结果作为建议的或者概率标签。

情境识别器适配和图片拍摄无需在相同设备中发生。作为示例，参照图12描述以下用例。简用她的设备200拍摄随身有移动设备201的个人的照片。简用“鲍勃奔跑”评注照片。简的设备200通过向附近设备201、202、203传输关于评注的标签的信息来与附近设备201、202、203共享标签。可以通过使用一些通信手段来执行传输。例如，可以使用近场通信（NFC）或者另一短程通信技术。在一些实施例中，可以有可能经由无线局域网（WLAN）、经由因特网或者经由移动通信网络传输信息。

除了标签之外，还可以共享标签与之有关的媒体捕获的时间。当鲍勃的设备201接收关于标签的信息时，设备201检查标签是否可能与设备的用户有关。由于用“鲍勃”标注它，而鲍勃是设备201的所有者的姓名，所以设备201确定标签与设备201有关。鲍勃的设备201继而检查情境识别器107是否在媒体捕获期间运行。如果情境识别器107运行，则它分析标签以确定标签是否涉及由情境识别器107建模的情境属性。在这一情况下，标签具有文字“运行”，因此鲍勃的设备201上的情境适配器108可以适配与“奔跑”有关的情境模型。

当在多个设备的系统中实施本发明时，有可能从多于一个设备收集涉及标签和传感器数据的信息。可以例如向其中可以执行分析和可能情境模型适配的服务器26发送这些信息。

服务器26可以已经存储了一个或者多个用户的情境有关数据。数据可以已经附着有标识符或者其它信息，该标识符或者其它信息指示已经从其接收了数据的用户或者用户的设备。因此，服务器26可以确定需要在新标签和传感器数据到来时适配用户的情境模型。

另外，无需在已经收集数据之后立即执行分析和情境模型适配，但是有可能通过使用涉及标签的数据和例如向存储器58中或者向其它存储单元存储的传感器数据在以后阶段执行分析和情境模型适配。

图7描绘了与以基于搜索的相关度反馈为基础的实施例有关的一些处理步骤。第一用户先捕获701媒体剪辑，比如拍摄照片、记录音频剪辑或者摄取视频。在捕获之前、期间和/或之后，设备运行情境识别器107，该识别器识别702在媒体捕获期间或者与媒体捕获有关的在设备周围的情境和/或用户在捕获之前、期间和/或之后的活动情境。在一个实施例中，情境识别器107是基于音频的情境识别器，该情境识别器产生关于周围音频氛围的信息。基于音频的情境识别器107可以例如产生如“街道”、“室外”、“自然”、“小鸟”、“音乐”、“人们”、“车辆”、“餐馆”、“酒馆”等标签，每个标签具有相关联的可能性，该可能性指示情境识别有多么置信。如在先前实施例中呈现的那样，可以向用户呈现情境识别器的输出作为建议的标签，并且用户可以选择适当标签。可以向数据库200中存储媒体剪辑和所选标签，该数据库可以在单独设备中（例如在服务器中）或者在捕获媒体剪辑的相同设备中。在下一步骤中，可以、但是无需与第一用户相同的第二用户录入703用于搜索媒体剪辑的搜索查询。搜索查询可以是基于关键词的或者是基于示例的或者是其组合。在基于示例的查询的情况下，从被用作示例的媒体剪辑提取情境信息。继而执行704基于搜索查询的搜索。为了执行搜索，第二用户的设备与可以位于另一设备中或者与第二用户使用的相同设备中的数据库通信。基于情境信息至少部分地完成搜索：可以被解译成指示情境的关键词、从作为用于搜索的种子而使用的媒体剪辑提取的情境，或者其组合。继而向第二用户呈现705搜索结果，并且第二用户选择或者指示搜索结果中的一个或者多个搜索结果的相关度。情境模型适配器108接收关于选择的信息。情境模型适配器108基于如下那些搜索结果适配707与搜索查询有关的情境模型，接收针对这些搜索结果的选择或者相关度反馈。如果第二用户基于情境信息从搜索结果选择作为搜索结果而包括的这样的媒体剪辑，则可以更激进地适配情境模型。

搜索结果可以包含一个或者多个照片、视频或者其它种类的媒体剪辑。可以例如通过这样显示照片并且显示视频的代表图像来示出搜索结果。

在一些实施例中，设备50感测设备操作的环境（比如室外、室内、办公室或者餐馆）以及活动（比如奔跑或者行走），从而使得设备和/或在设备中运行的应用和服务可以适配于用户的情形。例如，如果用户在街道上行走、奔跑或者骑自行车，则设备可以增加扬声器和振铃音的音量，从而使得用户可以在存在传入呼叫时更好地听见。分别地，当用户例如在剧院中、在博物馆中、在音乐厅中或者在其中移动电话应当静音的另一场所中时，设备50可以向静音模式切换。

在一些实施例中，可以向一个或者多个其它设备（例如向用户的一些好友的设备）、向一个或者多个服务（比如facebook、twitter、linkedin等）发送装置50的情境。

在下文中，更具体讨论情境信息和情境识别的类型的一些示例。

活动情境

情境识别器107可以分析由加速度计信号定义的移动模式以确定活动情境信息，该活动情境信息描述客户端装置的用户参与的活动。这一活动可以例如包括行走、慢跑、奔跑、骑自行车、滑板、滑冰等。在一个示例中，分析加速度计信号包括以下操作中的一个或者多个操作：预处理加速度计信号以减少噪声；取得三轴加速度计信号的量值以忽略移动设备定向，根据加速度计信号计算特征；以及向分类器160中输入特征以确定活动。特征提取可以例如包括对加速度计信号加窗、取得加窗的信号的离散傅里叶变化（DFT）和从DFT提取特征。在一个示例中，从DFT提取的特征例如包括一个或者多个谱功率值、功率谱质心或者频域熵。除了基于DFT的特征之外，情境识别器还可以从时域加速度计信号提取特征。这些时域特征可以例如包括均值、标准偏差、过零率、75%百分点范围、四分位间范围等。使用特征可以训练由情境识别器使用的分类器160以在活动之间分类。就这一点而言，情境识别器107可以被配置成实施和/或利用例如包括判决树、支持矢量机、朴素贝叶斯、k-最近邻居之类的一个或者多个分类器。

作为另一示例，情境识别器107可以被配置成基于去往一个或者多个蜂窝服务塔（例如，一个或者多个GSM、LTE、LTE-高级、3G等收发器基站）的信号强度的波动来执行活动情境识别。附加地或者备选地，情境识别器107还可以被配置成至少部分基于从GPS接收器110c获得的速度执行活动识别。作为另一示例，情境识别器107可以基于从多个传感器110a-110e捕获的感测信息的融合执行活动情境识别。

音频情境

音频情境信息可以描述捕获的音频的一般特性，比如能量、响度或者频谱。音频情境信息也可以描述其中捕获音频的环境类型。示例音频环境可以是“办公室”、“小汽车”、“餐馆”等。音频情境信息也可以标识一个或者多个音频事件，该音频事件描述在捕获音频的位置存在的可听声音。这样的音频事件可以例如包括人类噪声、对话、车辆噪声、动物噪声、建设噪声、流水等。音频事件可以包括在捕获的音频或者在捕获的音频中具有具体开始和结束时间的事件的整个持续时间内延续的连续噪声或者声音（例如，延续捕获的噪声的部分持续时间）。可以从某个输入音频剪辑提取一个或者多个音频事件。也有可能的是例如如果置信度值太低则不从输入音频剪辑提取音频事件。另外，相同事件也可以多次出现于输入音频剪辑中。

情境识别器107可以被配置成通过用于音频分析的任何适用方法确定音频情境信息。在一个示例中，情境识别器107可以被配置成使用诸如高斯混合模型（GMM）、隐藏马尔科夫模型（HMM）等至少一个模型来标识在捕获的音频内包含的音频事件。在一个示例中，标识音频事件并且确定音频情境信息包括从音频信号提取特征集、计算每个音频事件的模型已经生成了特征的可能性并且选择与产生最大可能性的模型对应的音频事件。可以执行离线训练阶段以获得用于音频事件子集的每个音频事件的这些模型。在离线训练阶段中，可以从声音事件子集的每个声音事件的多个示例提取相同特征，并且可以使用相应特征针对每个声音事件类训练模型。也可以使用各种其它方法，这些其它方法包括使用支持矢量机、判决树、分级或者非分级分类器等的分类。另外，在一个示例中，标识可以包括比较每个音频事件的可能性与至少一个预定阈值，并且仅如果超过至少一个预定阈值则才标识音频事件。各种特征可以应用于这一目的，这些特征包括但不限于Mel-频率倒频谱系数（MFCC）、在活动图片专家组（MPEG）7标准中描述的特征如音频频谱平坦度、频谱峰因子、音频频谱包络、音频频谱质心、音频频谱扩展、谐波频谱质心、谐波频谱偏差、谐波频谱扩展、谐波频谱变化、音频频谱基底、音频频谱投影、音频调和度或者音频基频、谱功率或者能量值、线性预测系数（LPC）、LPC系数如反射系数或者线频谱频率的任何变换、过零率、峰因子、时间质心、开端持续时间、包络幅度调制等。

特征可以指示音频带宽。特征可以包括频谱滚降（roll-off）特征，这些频谱滚降特征指示音频信号的频谱形状的偏斜度。特征可以指示音频信号的频谱改变，比如谱通量。特征也可以包括这里描述的特征和/或这里未明确描述的相似特征中的任何特征的任何组合。特征也可以包括通过将变换（比如主分量分析、线性判别分析或者独立分量分析、非负矩阵因式分解或者线性判别分析）应用于任何特征组合以获得具有更低维度和所需统计属性（比如未相关或者统计独立性）的变换特征集来获得变换的特征集。特征可以包括在相邻帧中测量的特征值。具体而言，特征可以例如包括谱能量的（K+1）×T矩阵，其中K+1是频谱频带数目而T是音频剪辑的分析帧数目。特征也可以包括特征的任何统计，比如对所有帧计算的均值和标准偏差。特征还可以包括在音频剪辑内的任意长度的分段中计算的统计量，比如在音频剪辑的相邻一秒分段中的特征矢量值的均值和方差。特征可以进一步包括动态特征，计算这些动态特征为在一个或者多个特征的时间内的不同阶的导数。在一个实施例中，提取特征包括对音频信号加窗、在每个窗取得短时间离散傅里叶变换并且基于变换来提取至少一个特征。在一个实施例中，事件标识包括从音频信号检测开端、从音频信号的在每个检测到的开端之后的部分提取特征并且识别与每个开端对应的音频事件。

在一个实施例中，标识音频事件并且确定音频情境信息包括计算与预定数目的示例声音事件或者音频情境的距离。在这一实施例中，未针对音频情境训练模型，但是可以用某一数目的代表示例表示每个音频情境或者声音事件。当分析捕获的音频时，情境识别器可以使捕获的音频受到特征分析。情境识别器可以通过执行在从捕获的音频提取的特征与存储的示例特征之间的距离计算来跟随特征分析。情境识别器可以基于在捕获的音频的预定数目的最近邻居内的支配性声源事件或者音频情境来确定用于某一个位置的支配性声音事件或者音频情境。

在一个实施例中，系统使用Mel-频率倒频谱系数前端，该前端输出13个倒频谱系数及其1阶和2阶导数。使用每帧480个采样或者30ms的和40ms帧移位的窗来根据16kHz音频数据计算MFCC。

在一个实施例中，系统记录3秒音频剪辑并且提取MFCC特征矢量的序列。继而向分类阶段（例如向分类器160）传递特征矢量的序列，该分类器评估情境模型集合已经生成了特征的概率并且选择情境为与给出最大可能性的模型对应的情境。系统也存储MFCC特征矢量的3秒缓冲以用于新类的可能适配或者创建。

在一些示例实施例中使用的声学模型是量化高斯混合模型（qGMM）。通过对均值和方差参数应用标量量化，从高斯混合模型开始创建量化隐藏马尔科夫模型。构建两个量化器，一个用于均值参数而一个用于方差参数。如果某些条件成立，则量化模型参数与连续密度模型相比允许在识别期间的更快概率计算。

可以使用以下公式来完成使用连续模型的概率计算：

其中K是高斯混合中的密度数目，μ_ki和σ_ki分别是第k个密度的第i个特征矢量分量的均值和标准偏差，并且N是特征矢量维度。对于每个密度，存在常数和与特征矢量x的马氏距离这两个部分。当量化均值和标准偏差时，对于单个特征值，存在马氏距离可以取的值的离散集合。一旦已经获得了特征矢量，可以针对用于每个特征的量化均值和方差对预先计算马氏距离，并且在存储器58中存储该马氏距离例如为表。继而可以通过针对每个特征从表发现适当值并且将它们求和来计算用于密度的概率。

在分类阶段中，确定情境为与给出最大概率的模型对应的情境。

根据一个示例实施例，可以通过先使用最大似然（ML）训练来训练模型以创建用于每个情境的高斯混合模型。通过运行最大似然训练的少数迭代，继而拆分具有最大方差的高斯并且将这重复数次在训练期间增加每个高斯混合模型的高斯数目。在最大似然训练之后，通过对均值和方差参数分别应用例如Lloyd-Max量化器来量化模型参数。在一些实施例中，5位量化（32个量化级）用于均值参数而3位（8个量化级）用于方差参数。由于这些值表现良好并且均值和方差值对可以存储于单个8位字节中这样的事实而选择这些值。也可以使用5位特征量化。用于均值的相同量化器也用于特征量化器。

社交情境

作为另一示例，情境识别器可以被配置成提取社交情境信息，该社交情境信息描述包围客户端装置的人数和/或人们的其它特性。例如，情境识别器可以被配置成推导在客户端装置的一般附近的估计的人数。可以比如通过蓝牙传输例如基于在客户端装置的邻近范围内检测到的电子设备数目进行这一估计。作为又一示例，情境识别器可以收集附近人们的其它特性，比如性别、国籍、职业、爱好、社交背景或者其它特性。可以例如通过与附近人们的设备通信或者与存储用户简档信息的集中式数据库通信来获得特性。作为又一示例，也可以使用客户端装置的诸如等麦克风、相机等其它传感器来推导社交情境信息。例如，情境识别器可以分析捕获的音频以确定附近人们的性别，或者分析捕获的图像以辅助确定或者确定人数。

一般而言，本发明不限于任何特定类型的情境信息或者情境模型。

在下文中，将更具体地描述用于执行情境模型的适配的一些方法。

在一个实施例中，装置50接收形式为MFCC特征矢量的序列的适配数据和一个或者多个标签，该标签指定其中记录适配数据的环境。向情境模型适配器108传递适配数据和标签。情境模型适配器108继而修改（适配）与标签对应的模型参数以更好地拟合适配数据。

可以例如使用最大后验（MAP）适配来执行适配。通过先创建与标签对应的模型的网络来执行MAP适配。网络实质上是隐藏马尔科夫模型（HMM），该HMM并行具有标签的环境GMM。继而，使用前后或者Viterbi算法，针对适配数据计算网络的高斯混合分量的占用概率。这些概率继而用来获得适配的参数值。

例如使用以下公式来完成用于状态j的混合分量m的均值参数的MAP适配：

其中μ_jm是未适配的均值，τ是适配权值，并且N_jm是适配数据的占用似然性，是适配数据的观测均值：

其中L_jm(t)是在时间t用于模型j的混合分量m的占用概率，o_t是第t个特征矢量，并且T是特征矢量的序列的长度。可以使用前后或者Viterbi算法来计算L_jm(t)。

上述公式描述用于连续密度GMM的MAP适配。它们也适用于量化的GMM而例外在于在适配之后需要再次量化参数。

除了MAP适配之外，其它适配方法也可以用来适配模型。例如可以使用最大似然线性回归（MLLR）适配或者最大后验线性回归（MAPLR）适配。

在这样的实施例中，当用一个或者多个特性示例表示情境时，可以使用各种试探法来完成适配。例如，如果每个情境由从感测数据提取的多个特征矢量表示，该感测数据是从特定情境提取的，则可以通过向这一特定情境的训练数据添加从适配感测数据提取的特征矢量来完成适配。

本发明可以例如实施于一个装置50中或者多个装置中。情境识别器107可以实施于与情境适配器108相同的装置50中，或者它们可以位于不同装置中。也有可能的是情境识别器107从相同装置50的传感器和/或从来自其它装置的传感器接收传感器数据。在后一种情况下，可以通过任何适当通信手段向装置50传达来自其它装置的传感器数据。

在一个实施例中，情境识别器107实施于用户的装置50中，并且情境适配器108实施于服务器26（图3）中，其中用户的装置50可以与服务器26通信以向服务器26传输关于识别的情境的信息和关于用户已经选择的标签的信息，在服务器26中，情境适配器108可以基于情境识别结果和对标签的选择来适配情境模型。也可以有必要向服务器26传输情境识别器107在识别中使用的感测数据。

在另一实施例中，情境识别器107和情境适配器108两者实施于服务器26中。用户的装置50向服务器26传输传感器数据和关于对标签的选择的信息，在服务器26中继而可以执行情境识别和情境模型适配。

图8呈现根据一个实施例的一种用于端到端内容共享解决方案（比如Ovi Share或者Image Space）中的图像搜索的方法。该图描绘了当用移动设备拍摄图像并且向服务上传该图像时的操作流程。用户可以例如用移动电话相机拍摄810图片或者一段视频。备选地，可以用独立相机拍摄图片并且向计算机上传该图片。又备选地，独立相机可以具有足以用于分析图像和声音的处理能力和/或独立相机可以直接连接到移动网络或者因特网。又备选地，可以用相机模块拍摄图片，该相机模块具有用于向另一设备传输图像或者图像原始数据的处理能力和网络连通性。在步骤820中，可以记录短音频剪辑；并且在步骤830中，可以从音频剪辑提取特征。特征可以例如是Mel-频率倒频谱系数（MFCC）。在步骤840中，提取的音频特征可以作为元数据与图像一起存储或者以某一其它方式（比如使用超链接）来与图像数据相关联。在步骤850中，可以接着向内容共享服务（比如Nokia Ovi）上传与音频特征一起的图像。可以在服务器侧完成以下步骤。

当服务器在步骤860中与音频特征一起接收图像时，它可以对音频特征执行进一步处理。在步骤870中的进一步处理可以例如意味着如后文描述的那样计算MFCC特征的均值、协方差和逆协方差矩阵以用作用于音频剪辑的特征矢量值的概率分布的模型。进一步分析也可以包括估计将作为音频剪辑的特征矢量值的分布的更复杂模型而使用的高斯混合模型或者隐藏马尔科夫模型的参数。进一步分析也可以包括运行分类器160（比如基于音频的情境识别器、说话者识别器、话音/音乐鉴别器或者其它分析器）以根据音频剪辑产生更有意义的信息。也可以在若干步骤中完成进一步分析，例如从而使得话音/音乐鉴别器先用来将音频剪辑分类成包含话音和音乐的部分。此后，话音分段可以受到话音专属的进一步分析（比如话音和说话者识别），并且音乐分段受到音乐专属的进一步分析（比如音乐节奏估计、音乐调子估计、和弦估计、结构分析、音乐转录、乐器识别、风格分类或者情绪分类）。在服务器运行分析器的益处可以在于它减少在移动设备的计算负荷和电池消耗。另外，可以比在移动设备中可能的分析方法执行在计算上密集得多的分析方法。当已经对接收的特征执行了进一步分析时，可以向数据库存储分析结果。

为了在步骤870中执行搜索，可以比较音频特征与先前接收的音频记录的分析结果。这可以例如包括计算在接收的音频剪辑和已经在数据库中的音频剪辑中的所有或者一些音频剪辑的音频分析结果之间的距离。可以例如用在新音频剪辑的MFCC特征上拟合的高斯与向数据库中的其它音频剪辑拟合的高斯之间的对称化Kullback-Leibler发散测量距离。后文将更具体地描述Kullback-Leibler发散测量。在步骤880中的搜索之后，可以在服务器更新编索引信息。完成这一点以便加速将来针对相似内容的查询。更新编索引信息可以例如包括存储用于新音频剪辑的某一数目的最接近音频剪辑。备选地，服务器可以计算并且在服务器中维护相似音频剪辑的聚类，从而使得每个接收的音频剪辑可以属于一个或者多个聚类。可以用一个或者多个代表音频剪辑特征表示每个聚类。在这一情况下，可以计算从新接收的音频剪辑到聚类中心的距离，并且可以向与最接近聚类中心聚类对应的聚类分配音频剪辑。

响应于在线内容查询可以如在图8的右手侧中描述的那样发生。当进行针对相似图像的查询时，可以基于在服务中的音频剪辑之间的距离适配相似度结果。可以基于编索引信息快速返回结果。例如，如果用作搜索查询的图像已经在数据库中，则基于编索引信息，系统可以仅用单个数据库查询匹配返回某一数目的最接近匹配。如果在服务器维护聚类信息，则服务器可以先计算从查询图像的音频剪辑到聚类中心的距离，并且继而计算该聚类内的距离，从而避免需要计算与系统中的所有音频剪辑的距离。可以例如基于将基于图像相似度和音频剪辑相似度的距离测量求和来确定最终查询结果。此外，可以组合其它感测信息（比如在GPS位置坐标之间的距离）以获得查询结果的最终排名。

在图9中示出了用于通过比较与图像相关联的音频特征来执行从图像数据搜索的方法的示例。该方法可以例如实施于具有相机和音频记录能力的移动终端上。当在步骤910中拍摄静止图像或者视频时，可以在步骤920中用麦克风记录音频剪辑（例如，针对静止图像的10秒）。

在步骤930中，可以处理音频采样以提取音频属性。分析可以包括提取音频特征，比如Mel-频率倒频谱系数（MFCC）。也可以使用其它音频特征，比如MPEG-7音频特征。基于分析而获得的音频属性可以在步骤940中存储为图像元数据或者以某一其它方式与图像相关联。元数据可以驻留于与图像相同的文件中。备选地，元数据可以驻留于与图像文件分离的文件中并且仅在逻辑上链接到图像文件。该逻辑链接也可以存在于已经向其中上传了元数据和图像文件二者的服务器中。关于可以存储什么信息属性存在若干变体。音频属性可以是音频特征，比如MFCC系数。属性可以是描述符或者根据音频特征推导的统计量，比如MFCC的均值、协方差和逆协方差度量。属性可以是从基于音频的情境识别系统、话音识别系统、话音/音乐鉴别器、说话者性别或者年龄识别器或者其它音频对象分析系统获得的识别结果。属性可以与指示识别有多么确信的权值或者概率相关联。属性可以是在不同频率频带的频谱能量，并且可以均匀或者对数地分布频率频带的中心频率。属性可以是音频信号的短期能量测量。属性可以是在音频编码中使用的线性预测系数（LPC）或者参数音频编码解码器的参数或者任何其它话音或者音频编码解码器的参数。属性可以是LPC系数（比如反射系数或者线频谱频率）的任何变换。也可以在卷绕频率比例而不是更常规线性频率比例上完成LPC分析。属性可以是MPEG-7音频频谱平坦度、频谱峰因子、音频频谱包络、音频频谱质心、音频频谱扩展、谐波频谱质心、谐波频谱偏差、谐波频谱扩展、谐波频谱变化、音频频谱基底、音频频谱投影、音频调和度或者音频基频或者它们的任何组合。属性可以是某一种类的过零率指示符。属性可以是峰因子、时间质心或者包络幅度调制。属性可以指示音频带宽。属性可以是频谱滚降特征，这些频谱滚降特征指示音频信号的频谱形状的偏斜度。属性可以指示音频信号的频谱改变，比如谱通量。属性可以是根据公式的频谱质心：

其中X_t(k)是第t帧的离散傅里叶变换的第k个频率采样，并且K是最高频率采样的索引。

属性也可以是特征或者这里未提到的一些其它特征中的任何特征的任何组合。属性也可以是通过将变换（比如主分量分析、线性判别分析或者独立分量分析）应用于任何特征组合以获得具有更低维度和所需统计属性（比如未相关或者统计独立性）的变换特征集来获得的变换特征集。

属性可以是在相邻帧中测量的特征值。具体而言，属性可以例如是谱能量的（K+1）×T矩阵，其中K+1是频谱频带数目而T是音频剪辑的分析帧数目。属性也可以是特征的任何统计量，比如对所有帧计算的均值和标准偏差。属性也可以是在音频剪辑内的任意长度的分段中计算的统计量，比如在音频剪辑的相邻一秒分段中的特征矢量值的均值和方差。

注意，无需在拍摄图片和音频剪辑之后瞬时完成音频剪辑的分析。作为替代，可以用非实时方式完成并且可以推迟音频剪辑的分析，直至充分计算资源可用或者对设备充电。

在一个实施例中，向专用内容共享设备中上传所得属性950。也可以保存属性为标签字。在一个实施例中，单个音频剪辑表示通常在时间上和/或在空间上相互接近地拍摄若干的图像。分析单个音频剪辑的特征并且关联这些特征与这些若干图像。特征可以驻留于单独文件中并且在逻辑上链接到图像文件，或者可以在每个图像文件中包括特征的副本。

当用户希望在系统中进行查询时，他可以在步骤960中向系统选择图像之一作为示例图像或者以某一其它方式给出搜索标准作为输入。系统继而可以在步骤970中从示例图像和其它图像检索音频属性。继而，在步骤980中在系统中比较示例图像的音频属性与其它图像的音频属性。具有与示例图像最接近的音频属性的图像收到在搜索结果中的更高排名并且在步骤990中被返回。

图10示出了音频特征或者音频属性的形成，其中可以将从时域向频域的至少一个变换应用于音频信号。在步骤1010中，通过帧块化从信号提取帧。提取的块可以例如包括256或者512个音频采样，并且后续块可以重叠或者它们可以根据分别例如50%和0%的跳跃大小（hop-size）彼此相邻。块也可以不相邻，从而使得音频信号的仅部分形成为特征。块可以例如是30ms长、50ms长、100ms长或者更短或者更长。在步骤1020中，将诸如Hamming窗或者Hann窗之类的加窗功能应用于块以改进后续变换的性能。在步骤1030中，可以将变换（比如快速傅里叶变换（FFT）或者离散余弦变化（DCT）或者小波变换（WT））应用于加窗的块以获得变换的块。在变换之前，可以通过零填充来扩展块。变换的块现在例如示出块的频域特性。在步骤1040中，可以通过聚合或者下采样来自步骤1030的变换的信息来创建特征。最后步骤的目的可以是创建音频信号的稳健和合理长度的特征。具体而言，最后步骤的目的可以是用良好表征信号属性的精简特征集表示音频信号。最后步骤的又一要求可以是获得具有某些所需统计属性（比如未相关或者统计独立性）的特征集。

图11示出了创建Mel-频率倒频谱系数（MFCC）。向预强调块1110馈送例如采取脉冲代码调制形式的输入音频信号1104。如果预计在多数情况下音频包含话音并且进一步分析很可能包括话音或者说话者识别，或者如果进一步分析很可能包括计算线性预测系数，则可以应用预强调块1110。如果预计音频在多数情况下例如是环境声音或者音乐，则可以优选省略预强调步骤。帧块化1120和加窗1125以与上文针对步骤1010和1020说明的方式相似的方式操作。在步骤1130中，将快速傅里叶变换应用于加窗的信号。在步骤1135中，将FFT量值求平方以获得信号的功率谱。也可以省略求平方，并且在将来计算中使用量值频谱而不是功率谱。继而可以通过将个别稠密频率仓采样成各自跨越更宽频率范围的更大仓来缩放这一频谱。这可以例如通过将属于每个Mel-频率滤波器组信道的由Mel-比例频率响应加权的功率谱仓求和计算在该信道的频谱能量来完成。产生的Me-滤波器组能量可以由j＝1,...，N表示，其中N是带通Mel-滤波器的数目。在步骤1140中创建的频率范围可以根据由1145示出的所谓的Mel-频率缩放，该缩放类似于在更低频率具有更好频率分辨率而在更高频率具有更低频率分辨率的人类听觉系统的属性。可以通过在由公式给出的Mel-频率比例上等距地设置信道中心频率来完成Mel-频率缩放。

其中f是以赫兹为单位的频率。

在图11b中给出示例Mel-缩放滤波器组。在图11b中描绘了36个三角形带通滤波器，这些滤波器的中心频率1185、1186、1187和未编号的其它中心频率可以在感知激发的Mel-频率比例上均匀地间隔。滤波器1180、1181、1182和未编号的其它滤波器可以跨越从30Hz到8000Hz的频率1190。为了举例，已经将滤波器高度1190缩放成一。可以在Mel-滤波器组中进行变化，比如在1000Hz以下线性地跨越频带中心频率、缩放滤波器以使得它们将具有单位面积而不是单位高度、变化Mel-频率频带数目或者改变Mel-滤波器跨越的频率范围。

在图11a中，在步骤1150中，可以从Mel-缩放的滤波器组能量取对数（例如以10为底数的对数）从而产生对数滤波器组能量m_j，并且继而可以将离散余弦变化1155应用于对数滤波器组能量m_j的矢量以根据下式获得MFCC1154：

其中N是Mel-比例带通滤波器的数目。i=0，...，I并且I是倒频谱系数的数目。在一个示例性实施例中，I=13。也有可能从对数函数的输出获得Mel能量1156。作为结果，音频特征可以例如是每个音频帧的13个Mel-频率倒频谱系数、每个音频帧的13个差别化MFCC、每个音频帧的13个二度差别化MFCC和帧的能量。

在一个实施例中，将不同分析应用于记录的音频剪辑的不同时间分段。例如，在拍摄图片之前和期间记录的音频可以用于分析背景音频氛围，而在拍摄图片之后记录的音频用于识别用户讲出的关键词标签。在另一实施例中，可以存在两次或者更多次音频记录：在拍摄图片时完成的一次记录和以后在更方便时完成的另一次记录。例如，用户可以在首次浏览图像时通过说话来获得附加标签。

在本发明的一个实施例中，可以根据音频相似度对搜索结果排名，从而使得先返回具有最相似音频属性的图像。

在本发明的一些实施例中，组合基于音频分析而获得的相似度与基于图像内容的第二次分析。例如，可以例如针对颜色直方图分析图像，并且可以计算音频属性和图像特征的相似度/距离的加权求和。例如，可以在步骤880和980中应用这样的组合式音频和图像比较。例如，可以计算组合的距离为：

D(s，i)＝w₁·(d(s，i)-m₁)/s₁+w₂·(d₂(s，i)-m₂)/s₂， (8)

其中w₁是针对在音频特征之间的缩放距离d(s,i)的在0与1之间的权值，并且m₁和s₁是距离d的均值和标准偏差。下文更具体描述在音频特征之间的缩放距离d。d₂(s,i)是在图像s和i的图像特征之间的距离（比如在它们的颜色直方图之间的欧几里得距离），并且m₂和s₂是距离的均值和标准偏差，而w₂是它的权值。为了计算均值和标准偏差，可以收集图像特征的数据库并且计算在数据库中的图像之间的各种距离d(s,i)和d₂(s,i)。继而可以根据在数据库中的项之间的距离值估计均值m₁、m₂和标准偏差s₁、s₂。可以设置权值以调整不同距离的所需贡献。例如，如果希望音频距离在组合的距离中有更多权值，则可以增加用于音频特征距离d的权值w₁而降低用于图像特征的权值w₂。

在本发明的一些实施例中，可以组合基于音频分析而获得的相似度与从图像元数据获得的其它多条相似度（比如相同或者相似文字标签、拍摄图片的相似当年时间和当天时间以及位置）以及相似相机设置（比如曝光时间和聚焦细节）以及潜在地基于图像内容的第二次分析。

在本发明的一个实施例中，通用音频相似度/距离测量可以用来发现具有相似音频背景的图像。可以例如用对称化Kullback-Leibler（KL）发散完成在音频剪辑之间的距离计算，该KL发散以音频剪辑的MFCC的均值、协方差和逆协方差作为参数。可以表达对称化KL发散为：

其中Tr表示迹线，并且其中示例图像的MFCC的均值、协方差和逆协方差分别由μ_s、∑_s和∑_s ^-1表示，用于其它图像的参数用下标i来表示，并且d×1是特征矢量的维度。均值矢量也是维度为d×1，并且协方差矩阵及其逆矩阵具有维度d×d。可以缩放对称化KL发散以在与其它信息（比如基于图像颜色直方图的距离）或者基于其它音频特征的距离组合时提高它的性能。可以计算缩放的距离d(s,i)为：

d(s，i)＝-exp(-γ·KLS(s，i))，

其中γ是控制缩放的属性的因子并且可以用实验来确定。该值可以例如是γ=1/450，但是也可以使用其它值。相似度/距离测量也可以基于欧几里得距离、相关度距离、余弦角度、巴特查里亚距离、贝叶斯信息判据或者基于L1距离（出租车司机的距离），并且可以时间对准特征以用于比较或者可以不时间对准它们以用于比较。相似度测量可以是考虑特征协方差的马氏距离。

存储用于图像的音频特征的益处可以是无需存储音频采样，这节省存储器。当存储紧凑的音频有关特征集时，可以使用在音频特征之间的通用距离来与背景上的具有任何音频的图像比较。

在另一实施例中，对音频剪辑应用话音识别器152以提取用户讲出的标签以与图像相关联。可以一次一个地说出标签而在它们之间有短暂停顿。话音识别器152继而可以从已经转换成特征表示（例如MFCC）的音频剪辑识别说出的标签。可以先使用语音活动检测器（VAD）将剪辑分段成各自包含单个标签的分段。继而可以针对每个分段执行话音识别，从而使得采用单个标签作为输出。可以基于标签词汇表和用于每个标签的声学模型（比如隐藏马尔科夫模型）来完成识别如下：

1）首先，可以构建用于词汇表中的每个标签的声学模型。

2）继而，针对每个分段，可以计算每个模型产生当前标签分段的特征表示的声学可能性。

3）可以选择如下标签作为识别输出，该标签的模型给出最好可能性。

4）重复2）和3）直至已经识别了所有分段。

可以对用于音频相似度测量的相同音频剪辑或者由用户在以后和可能更方便时记录的单独剪辑执行识别。可以完全在电话上完成识别或者使得向服务器后端发送音频剪辑或者特征表示，该服务器后端执行识别，并且继而向电话发送回识别的标签。也可以向多媒体内容共享服务中上传识别结果。

在本发明的另一实施例中，可以从音频分析移动声音对象（例如，对象数目、速度、方向）。

在本发明的另一实施例中，音频对象的方向可以用来影响与标签相关联的权值和/或创建不同标签类型。例如，如果有向音频信息指示声音产生对象在相机指向的相同方向（由罗盘110d确定）上，则可以很可能的是对象在图像中也可见。因此，增加对象/标签的可能性。如果声音产生对象位于某一其它方向上，则可以很可能在图像中不包括它，但是标记它为背景声音。在另一实施例中，可以针对在成像方向上的对象和在其它方向上的对象添加不同标签类型。例如，可以存在标签：

这些标签指示在前景中识别小汽车的概率为0.4而在背景中识别小汽车的概率为0.3。可以在图像搜索中包括这些两个类型的信息以例如用于有助于搜索小汽车图像或者在背景中有小汽车声音的图像。

此外，用多于一个麦克风捕获的音频景物的参数化可以揭示图像中的或者在相机指向的方向以外拍摄图片的区域中的音频源的数目。

可以用双耳提示编码（BCC）参数化分析捕获的音频，该参数化确定在子频带域的信道间电平和时间差。可以先例如用短期傅里叶变换（STFT）分析多声道信号，该STFT将信号拆分成时间-频率时隙。现在分析在每个时间-频率时隙中的电平和时间差如下：

其中和分别是针对给出的分析帧的子频带n的、左和右（双耳）信号的频谱系数矢量，并且*表示复共轭。可以存在10或者20或者30个子频带或者更多或者更少子频带。运算∠对应于atan2函数，该函数确定在两个复数值之间的相位差。相位差可以自然地对应于在左声道与右声道之间的时间差。

可以使用摇动法则（panning law）将电平和时间差映射到对应音频源的到达方向。当电平和时间差接近零时，在该频率频带的声源可以直接位于麦克风之间。如果电平差为正并且看起来右信号与左信号相比延迟，则上述等式可以指示信号最可能来自左侧。电平和时间差的绝对值越高，声源可以越远离中心。

一般而言，本发明的各种实施例可以实施于硬件或者专用电路、软件、逻辑或者其任何组合中。例如，一些方面可以实施于硬件中，而其它方面可以实施于控制器、微处理器或者其它计算设备可以执行的固件或者软件中，但是本发明不限于此。尽管本发明的各种方面可以被图示和描述为框图、流程图或者使用一些其它图形表示来图示和描述，但是合理理解可以在作为非限制示例的硬件、软件、固件、专用电路或者逻辑、通用硬件或者控制器或者其它计算设备或者其某一组合中实施这里描述的这些块、装置、系统、技术或者方法。

移动设备的数据处理器（比如在处理器实体中）可执行的计算机软件或者硬件或者软件与硬件的组合可以实施本发明的实施例。另外，就这一点而言应当注意，如图中的逻辑流程的任何块可以代表程序步骤或者互连逻辑电路、块和功能或者程序步骤与逻辑电路、块和功能的组合。软件可以存储于比如在处理器内实施的存储器芯片或者存储器块、磁介质如硬盘或者软盘和光学介质（如比如DVD及其数据变体（CD））这样的物理介质上。

存储器可以是适合于本地技术环境的任何类型并且可以使用任何适当数据存储技术，比如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可拆卸存储器来实施。数据处理器可以是适合于本地技术环境的任何类型并且可以包括作为非限制示例的通用计算机、专用计算机、微处理器、数字信号处理器（DSP）和基于多核处理器架构的处理器中的一项或者多项。

可以在各种部件（比如集成电路模块）中实现本发明的实施例。集成电路的设计主要是高度自动化过程。复杂而强大的软件工具可用于将逻辑级设计转换成准备好在半导体衬底上蚀刻和形成的半导体电路设计。

程序（比如Mountain View,California的Synopsys Inc.和San Jose,California的Cadence Design提供的程序）使用建立好的设计规则以及预存的设计模块的库在半导体芯片上自动对导体布线和对部件定位。一旦已经完成用于半导体电路的设计，所得设计可以按照标准化电子格式（例如，Opus、GDSII等）向半导体制作设施或者“fab”发送以供制作。

也可以提供本发明作为因特网服务，其中装置可以向其中可以发生情境模型适配的服务发送媒体剪辑、关于所选标签的信息和传感器数据。因特网服务也可以提供情境识别器操作，其中向服务发送媒体剪辑和传感器数据，服务向用户发送情境的由装置示出的一个或者多个提议，并且用户继而可以选择一个或者多个标签。向服务发送关于选择的信息，服务继而可以确定哪个情境模型可能需要适配，并且如果这样的需要存在，则服务可以适配情境模型。

前文描述已经通过示例性而非限制的示例提供了对本发明的示例性实施例的完全而有启发的描述。然而，各种修改和适配鉴于在与附图和所附权利要求结合阅读时的前文描述可以变得为本领域技术人员所清楚。然而，对本发明的教导的所有这样和相似的修改仍将落入本发明的范围内。

Claims

1.一种用于适配情境模型的方法，包括：

-接收媒体剪辑；

-接收在所述媒体剪辑的捕获的时间而捕获的传感器数据；

-至少部分基于所述传感器数据使用情境模型来推导至少一个情境；

-向用户提供关于所述情境的指示；

-从所述用户接收关于所述情境的相关度的反馈；

-基于所述反馈来适配所述情境模型；

-其中所述向用户提供关于所述情境的指示包括：

-接收具有至少一个与情境有关的搜索标准的搜索查询，

-推导在所述情境与所述至少一个与情境有关的搜索标准之间的相似度，以及

-呈现所述媒体剪辑的至少部分作为对所述搜索查询的响应；以及

-其中所述从所述用户接收所述情境的相关度的反馈包括接收相对于所述至少一个与情境有关的搜索标准的关于所述媒体剪辑的相关度的反馈。

2.根据权利要求1所述的方法，还包括推导第一参数值，所述第一参数值指示所述传感器数据与所述情境匹配的概率。

3.根据权利要求1或者2所述的方法，还包括将所述情境模型用于至少部分基于所述传感器数据确定活动情境、音频情境和社交情境中的至少一个情境。

4.根据权利要求1或者2所述的方法，其中所述向所述用户提供关于所述情境的指示包括：

-将关键词集合与所述情境相关联；以及

-向所述用户呈现所述关键词集合。

5.根据权利要求4所述的方法，其中所述从所述用户接收所述情境的相关度的反馈包括接收所述用户从所述关键词集合对关键词的选择。

6.根据权利要求1所述的方法，其中适配所述情境模型还基于所述相似度。

7.根据权利要求2所述的方法，包括推导在所述情境与所述至少一个与情境有关的搜索标准之间的相似度，其中适配所述情境模型还基于所述相似度，并且所述方法还包括基于所述反馈或者所述相似度中的至少一项适配所述第一参数值。

8.根据权利要求1或者2所述的方法，其中：

-具有至少一个与情境有关的搜索标准的所述搜索查询包括示例，所述示例包括或者伴随第一与情境有关的数据项；以及

-所述推导在所述情境与所述至少一个与情境有关的搜索标准之间的相似度包括推导在所述情境与所述第一与情境有关的数据项之间的相似度。

9.根据权利要求8所述的方法，其中所述从所述用户接收所述情境的相关度的反馈包括接收相对于所述第一与情境有关的数据项的关于所述媒体剪辑的相关度的反馈。

10.根据权利要求1或者2或者7所述的方法，其中所述媒体剪辑是以下各项中的至少一项：

-照片；

-视频剪辑；

-音频剪辑。

11.一种用于适配情境模型的装置，包括：

-用于接收媒体剪辑的装置；

-用于接收在所述媒体剪辑的捕获的时间而捕获的传感器数据的装置；

-用于至少部分基于所述传感器数据使用情境模型来推导至少一个情境的装置；

-用于向用户提供关于所述情境的指示的装置；

-用于从所述用户接收关于所述情境的相关度的反馈的装置；以及

-用于基于所述反馈来适配所述情境模型的装置；

-其中所述用于向用户提供关于所述情境的指示的装置包括：

-用于接收具有至少一个与情境有关的搜索标准的搜索查询的装置，

-用于推导在所述情境与所述至少一个与情境有关的搜索标准之间的相似度的装置，以及

-用于呈现所述媒体剪辑的至少部分作为对所述搜索查询的响应的装置；以及

-其中所述用于从所述用户接收所述情境的相关度的反馈的装置包括用于接收相对于所述至少一个与情境有关的搜索标准的关于所述媒体剪辑的相关度的反馈的装置。

12.根据权利要求11所述的装置，还包括用于推导第一参数值的装置，所述第一参数值指示所述传感器数据与所述情境匹配的概率。

13.根据权利要求11或者12所述的装置，还包括用于将所述情境模型用于至少部分基于所述传感器数据确定活动情境、音频情境和社交情境中的至少一个情境的装置。

14.根据权利要求11或者12所述的装置，其中所述用于向所述用户提供关于所述情境的指示的装置包括：

-用于将关键词集合与所述情境相关联的装置；以及

-用于向所述用户呈现所述关键词集合的装置。

15.根据权利要求14所述的装置，其中所述用于从所述用户接收所述情境的相关度的反馈的装置被进一步配置用于接收所述用户从所述关键词集合对关键词的选择。

16.根据权利要求11所述的装置，其中所述用于适配所述情境模型的装置被进一步配置用于基于所述相似度执行所述适配。

17.根据权利要求12所述的装置，包括用于推导在所述情境与所述至少一个与情境有关的搜索标准之间的相似度的装置，其中适配所述情境模型还基于所述相似度，并且所述装置被进一步配置用于基于所述反馈或者所述相似度中的至少一项适配所述第一参数值。

18.根据权利要求11或者12所述的装置，其中：

-所述用于推导在所述情境与所述至少一个与情境有关的搜索标准之间的相似度的装置包括用于推导在所述情境与所述第一与情境有关的数据项之间的相似度的装置。

19.根据权利要求18所述的装置，其中所述用于从所述用户接收所述情境的相关度的反馈的装置被配置用于接收相对于所述第一与情境有关的数据项的关于所述媒体剪辑的相关度的反馈。

20.根据权利要求11或者12或者17所述的装置，其中所述媒体剪辑是以下各项中的至少一项：

-照片；

-视频剪辑；

-音频剪辑。

21.一种用于适配情境模型的装置，包括：

至少一个处理器，以及

至少一个存储器，

所述至少一个存储器和所述至少一个处理器被配置成：

-接收媒体剪辑；

-接收在所述媒体剪辑的捕获的时间而捕获的传感器数据；

-向用户提供关于所述情境的指示；

-从所述用户接收关于所述情境的相关度的反馈；

-基于所述反馈来适配所述情境模型；

-其中所述向用户提供关于所述情境的指示包括：

-接收具有至少一个与情境有关的搜索标准的搜索查询，

22.根据权利要求21所述的装置，其中所述至少一个存储器和所述至少一个处理器被进一步配置成至少推导第一参数值，所述第一参数值指示所述传感器数据与所述情境匹配的概率。

23.根据权利要求21或者22所述的装置，其中所述至少一个存储器和所述至少一个处理器被进一步配置成至少将所述情境模型用于至少部分基于所述传感器数据确定活动情境、音频情境和社交情境中的至少一个情境。

24.根据权利要求21或者22所述的装置，其中所述至少一个存储器和所述至少一个处理器被进一步配置成至少：

-将关键词集合与所述情境相关联；以及

-向所述用户呈现所述关键词集合。

25.根据权利要求24所述的装置，其中所述至少一个存储器和所述至少一个处理器被进一步配置成至少接收所述用户从所述关键词集合对关键词的选择。

26.根据权利要求21所述的装置，其中所述至少一个存储器和所述至少一个处理器被进一步配置成至少还基于所述相似度适配所述情境模型。

27.根据权利要求22所述的装置，其中所述至少一个存储器和所述至少一个处理器被进一步配置成至少：

-推导在所述情境与所述至少一个与情境有关的搜索标准之间的相似度；

-还基于所述相似度适配所述情境模型；以及

-基于所述反馈或者所述相似度中的至少一项适配所述第一参数值。

28.根据权利要求21或者22所述的装置，其中：

-具有至少一个与情境有关的搜索标准的所述搜索查询包括示例，所述示例包括或者伴随第一与情境有关的数据项；

29.根据权利要求28所述的装置，其中所述至少一个存储器和所述至少一个处理器被进一步配置成至少接收相对于所述第一与情境有关的数据项的关于所述媒体剪辑的相关度的反馈。

30.根据权利要求21或者22或者27所述的装置，其中所述媒体剪辑是以下各项中的至少一项：

-照片；

-视频剪辑；

-音频剪辑。

31.一种用于适配情境模型装置，包括：

-第一输入，配置用于接收媒体剪辑；

-第二输入，配置用于在所述媒体剪辑的捕获的时间而捕获的传感器数据；

-第一单元，配置用于至少部分基于所述传感器数据使用情境模型来推导至少一个情境；

-第二单元，配置用于向用户提供关于所述情境的指示；

-第三输入，配置用于从所述用户接收关于所述情境的相关度的反馈；

-第三单元，配置用于基于所述反馈来适配所述情境模型；

-其中所述第二单元被进一步配置用于：

-接收具有至少一个与情境有关的搜索标准的搜索查询，

-其中所述第三输入被进一步配置用于接收相对于所述至少一个与情境有关的搜索标准的关于所述媒体剪辑的相关度的反馈。

32.根据权利要求31所述的装置，还包括：第四单元，配置用于推导第一参数值，所述第一参数值指示所述传感器数据与所述情境匹配的概率。

33.根据权利要求31或者32所述的装置，还包括：第五单元，配置用于将所述情境模型用于至少部分基于所述传感器数据确定活动情境、音频情境和社交情境中的至少一个情境。

34.根据权利要求31或者32所述的装置，其中所述第二单元被进一步配置用于：

-将关键词集合与所述情境相关联；以及

-向所述用户呈现所述关键词集合。

35.根据权利要求34所述的装置，其中所述第三输入被进一步配置用于接收所述用户从所述关键词集合对关键词的选择。

36.根据权利要求31所述的装置，其中所述第三单元被进一步配置用于基于所述相似度适配所述情境模型。

37.根据权利要求32所述的装置，配置用于推导在所述情境与所述至少一个与情境有关的搜索标准之间的相似度，其中：

-所述第三单元被进一步配置用于还基于所述相似度适配所述情境模型；并且

-所述第四单元被进一步配置用于基于所述反馈或者所述相似度中的至少一项适配所述第一参数值。

38.根据权利要求31或者32所述的装置，其中：

39.根据权利要求38所述的装置，其中所述第三输入被进一步配置用于接收相对于所述第一与情境有关的数据项的关于所述媒体剪辑的相关度的反馈。

40.根据权利要求31或者32或者37所述的装置，其中所述媒体剪辑是以下各项中的至少一项：

-照片；

-视频剪辑；

-音频剪辑。