CN104246796A

CN104246796A - 使用多模匹配方案的对象辨识

Info

Publication number: CN104246796A
Application number: CN201380019248.6A
Authority: CN
Inventors: 埃里克·维瑟; 王海音; 哈西卜·A·西迪基; 金莱轩
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-04-13
Filing date: 2013-03-07
Publication date: 2014-12-24
Anticipated expiration: 2033-03-07
Also published as: KR20140145195A; US9495591B2; IN2014MN01958A; WO2013154701A1; US20130272548A1; JP2015514239A; CN104246796B; EP2836964A1; JP2018077479A

Abstract

本发明揭示用于辨识和定位场景中的一或多个对象的方法、系统和制品。俘获所述场景的图像和/或视频。使用在所述场景处记录的音频，缩窄所述所俘获场景的对象搜索。举例来说，可确定声音的到达方向DOA且用以限制所俘获图像/视频中的搜索区域。在另一实例中，可基于在所述所记录音频中识别的声音的类型来选择关键点标志。关键点标志对应于系统经配置以辨识的特定对象。随后可使用移位不变特征变换SIFT分析，将所述所俘获场景中识别的关键点与所述选定关键点标志进行比较来辨识所述场景中的对象。

Description

使用多模匹配方案的对象辨识

根据35U.S.C.§119主张优先权

本专利申请案主张2012年4月13日申请的第61/623,910号美国临时申请案的优先权，所述美国临时申请案转让给本受让人且特此以引用方式并入本文。

技术领域

本发明大体上涉及对象辨识设备和方法。

背景技术

各种应用可得益于具有能够识别视觉场景中的对象的机器或处理器。计算机视觉的领域尝试提供准许识别场景中的对象或特征的技术和/或算法，其中对象或特征可通过识别一或多个关键点的描述符来表征。例如SIFT(尺度不变特征变换)的这些技术常常也应用于对象辨识、对象检测、图像匹配、3维结构构造、立体对应和/或运动跟踪、面部辨识以及其它应用。

大多数对象辨识技术仅依赖于从场景俘获的视觉信息，例如视频、图像或图片。

发明内容

此发明内容不是所有预期实施例的延伸概述，且既定不识别所有实施例的重要或关键元素，也不描绘任何或所有实施例的范围。其唯一目的是以简化形式呈现一或多个实施例的一些概念，作为随后呈现的更详细描述的序言。

揭示用于辨识和定位场景中的一或多个对象的改进技术。这些技术并入了在场景处记录的音频以及视觉信息的使用，以帮助辨识场景中的对象。根据这些技术的一方面，一种设备包含：关键点选择器，其经配置以基于在场景处记录的音频选择对应于所述场景中的对象的关键点；以及关键点匹配装置，其经配置以基于所述选定关键点识别所述对象。

根据又一方面，一种辨识场景中的对象的方法包含：基于在所述场景处记录的音频选择对应于所述对象的关键点；以及基于所述选定关键点识别所述对象。

根据又一方面，一种体现可由一或多个处理器执行的指令集的计算机可读媒体。所述媒体存储用于基于在场景处记录的音频选择对应于所述场景中的对象的关键点的编程代码；以及用于基于所述选定关键点识别所述对象的编程代码。

所属领域的技术人员在检视附图和详细描述后将明白或变为明白其它方面、特征和优点。既定所有此些额外特征、方面和优点包含在本描述内且由所附权利要求书保护。

附图说明

应了解，附图仅用于说明目的。此外，图中的组件不一定按比例绘制，而是强调说明本文描述的技术和装置的原理。在图中，相同参考标号在全部不同视图中指定对应部分。

图1是说明示范性听觉场景和视听场景分析系统的概念图。

图2是描绘操作图1的视听场景分析系统的方法的过程框图。

图3是展示使用图1的听觉场景分析系统对听觉场景进行分解和处理的示范性方法的流程图。

图4是展示识别听觉场景中的声音产生对象的示范性方法的流程图。

图5A到5B展示识别听觉场景中的声音产生对象的第二示范性方法的流程图。

图6是说明可与图1的听觉场景分析系统一起使用的示范性对象辨识子系统的某些组件的框图。

图7是说明用于对所记录图像执行对象辨识的功能阶段的框图。

图8说明示范性图像处理阶段中的高斯尺度空间产生。

图9说明示范性图像处理阶段中的特征检测。

图10说明示范性图像处理阶段中的特征描述符提取。

图11说明用于照明不变特征/关键点检测的尺度空间正规化的实例。

图12说明可如何获得经正规化尺度空间差的一个层级的一个实例。

图13说明用于产生经正规化尺度空间差以获得改进特征检测的方法。

图14是说明特征/关键点检测装置的实例的框图。

图15是说明图像匹配装置的实例的框图。

图16A展示根据一般配置的设备A100的框图。

图16B展示包含麦克风阵列R100和设备A100的实例的装置D10的框图。

图16C说明从点源j接收的信号分量相对于阵列R100的麦克风MC10和MC20的轴线的到达方向θ_j。

图17展示设备A100的实施方案A110的框图。

图18A展示滤波器更新模块UM10的实施方案UM20的框图。

图18B展示滤波器更新模块UM20的实施方案UM22的框图。

图19A展示具有相机CM10的阵列R100的四麦克风实施方案R104的布置的一个实例的俯视图。

图19B展示用于到达方向估计的远场模型。

图20展示设备A100的实施方案A120的框图。

图21展示设备A120和A200的实施方案A220的框图。

图22展示从使用SRP-PHAT用于DOA估计得到的直方图的实例。

图23展示使用IVA调适规则(40到60度的源分离)调适的解混矩阵的不同输出通道的一组四个直方图的实例。

图24是经配置以在图像或视频俘获期间检测场景中的对象的视差的示范性图像俘获装置的图。

图25是图24的装置中可包含的示范性图像处理系统的框图。

图26A到26B是与所感知对象深度相关的对象视差的说明性实例的图。

图27A展示根据一般配置的方法M100的流程图。

图27B展示方法M100的实施方案M200的流程图。

图27C展示根据一般配置用于分解音频信号的设备MF100的框图。

图27D展示根据另一一般配置用于分解音频信号的设备A100的框图。

图28A展示方法M100的实施方案M300的流程图。

图28B展示设备A100的实施方案A300的框图。

图28C展示设备A100的另一实施方案A310的框图。

图29A展示方法M200的实施方案M400的流程图。

图29B展示方法M200的实施方案M500的流程图。

图30A展示方法M100的实施方案M600的流程图。

图30B展示设备A100的实施方案A700的框图。

图31展示设备A100的实施方案A800的框图。

图32说明模型Bf＝y。

图33说明图32的模型的修改B′f＝y。

图34说明其中多个声音源在作用中的情形。

具体实施方式

参考且并入有附图的以下详细描述描述且说明一或多个具体实施例。并非为了限制而是仅为了示范和教示而提供的这些实施例得到展示且用足够细节来描述，以使得所属领域的技术人员能够实践所主张的内容。因此，为了简明，描述可省略所属领域的技术人员已知的某些信息。

词语“示范性”贯穿本发明用以表示“充当实例、例子或说明”。在本文中描述为“示范性”的任何内容不一定解释为比其它方法或特征优选或有利。除非由其上下文明确限制，否则术语“信号”在此用以指示其普通意义中的任一者，包含如在电线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。

虽然在此描述的对象辨识技术可应用于许多不同场景，但本文描述的实例涉及音乐场景，其中在单个场景中存在许多声音源，例如音乐家、演奏家、乐器和类似物。某些视频游戏(例如，GuitarRock)和音乐会音乐场景可涉及在同时表演的多个乐器和歌手。当前的商业游戏和音乐制作系统要求循序地或用靠近定位的麦克风来播放这些情景以能够分析、后处理以及增频混合从它们单独记录的音频。这些约束可能在音乐制作的情况下限制了控制干扰和/或记录空间效果的能力，且在视频游戏的情况下可能导致有限的用户体验。

如果有助于缩窄正在演奏何种乐器以及在场景中存在多少音乐家和/或声音源的一些先验知识或其它信息可用，那么听音乐场景分解可大大简化。

本文揭示的对象辨识技术克服了对在具有多个声音源的场景处记录的音频进行分解的先前尝试的许多限制。大体上，对象或特征辨识可涉及识别图像中的关注点(也称为关键点)和/或那些关键点周围的局部化特征以用于特征识别和/或对象辨识的目的。在本文揭示的系统和方法中，组合了某些基于图像的乐器和基于音频的音符/乐器辨识技术。许多不同装置能够使用计算机视觉执行特征识别和/或对象辨识。此些装置的实例可在以下各项中实施：电话手持机(例如，蜂窝式手持机)；能够进行视频记录的手持式移动装置，用以记录音频和视频内容的个人媒体播放器；个人数字助理(PDA)或其它手持式计算装置；以及笔记本、笔记本计算机、膝上型计算机、平板计算机或其它便携式计算装置。另外，能够执行可涉及在同时表演的多个乐器和歌手的视频游戏(例如，GuitarRock)和音乐会音乐场景的装置。此类便携式计算装置当前包含具有如下名称的装置，例如：膝上型计算机、笔记本计算机、超便携式计算机、平板计算机、移动因特网装置、智能本和智能电话。

在第一方法中，仅基于音频知识的信息有助于界定在场景中正在搜索的声音源的类型且减少在基于图像的尺度不变特征变换(SIFT)搜索中应当考虑的对象形状的关键点标志的搜索全域。另外，此关键点搜索不一定限于静止图像，而是也可涉及取决于深度(范围)层搜索的需要而使用单个或多个相机来分析典型音乐家运动模式的周围视频帧。关键点搜索是经由多模贝叶斯估计而集成以用相关联可能性产生经辨识乐器。

在第二方法中，声音源(例如，乐器)位置是从多麦克风声音局部化信息和乐器形状辨识来估计以计算图像的某些部分中的稳定乐器关键点。此方法可与第一方法组合以改善对象辨识。

在第三方法中，例如语音/音频辨识中使用的梅尔频率倒谱系数(MFCC)等声学特征连同例如使用第二方法确定的相关联多麦克风声音源局部化信息一起直接在多模贝叶斯估计中使用以提供声音源辨识。第三方法可与第一方法组合以改善对象辨识。

以上方法可准许例如在对从场景记录的音频进行分解的稀疏恢复分解方法的情况下基函数库存的大小的较精细界定。

图1是说明示范性听觉场景10和示范性听觉场景分析系统12的概念图。听觉场景分析系统12包含场景分析系统14、麦克风阵列18以及一或多个相机16。相机16可包含一或多个静止图像相机和/或一或多个摄像机，其相对于场景10布置在各种位置和角度。

场景分析系统14包含对象辨识子系统20和声学分解子系统22。对象辨识子系统20经配置以根据本文描述的方法基于在场景处记录的音频、图像和/或视频来辨识和定位场景10中的声音源。声学分解子系统22经配置以基于来自对象辨识子系统20的信息将场景分解为单独的声音源，使得可个别地处理经分离的音频。

图2是描绘操作图1的视听场景分析系统10的示范性方法的过程框图50。所述过程说明用于分析在场景处记录的视听信息以定位和识别场景中的一或多个乐器的步骤。所述方法包含音频分析框52、图像和/或视频处理框54和音频处理框56。

所揭示方法可将所俘获音频和/或视频信号处理为一系列片段。典型的片段长度范围是从大约一秒到十秒。在一个特定实例中，将信号划分为一系列不重叠片段或“帧”，其各自具有大约一秒的长度。通过此方法处理的片段也可为通过不同操作处理的较大片段的片段(即，“子帧”)，或反之亦然。

音频分析框52包含基于在场景处记录的音频信息确定场景中的声音源位置的步骤(方框61)。音频信息可由麦克风阵列18俘获。基于来自场景中的源的声音的估计到达方向(DOA)和/或针对所述源确定的范围信息可确定声音位置。源的DOA可使用本文在以下描述的音频DOA估计技术来估计，且声音源的范围可使用本文在以下参考图18到29描述的范围发现技术来估计。

音频分析框52还包含提供场景中的每一源的声音源的可能类型的步骤(方框62)。举例来说，对于乐器，可使用乐器音符库来分析在场景处记录的声音以匹配声音源与产生声音的可能类型的乐器。

来自方框61、62的声音源位置和类型估计传递到图像/视频处理框54且用以限制针对声音源的视觉识别的搜索。在方框64中，估计位置信息用以缩窄场景的记录图像中的空间搜索空间以用于关键点匹配。在方框66中，基于可能的乐器类型而缩窄图像关键点搜索。这两个步骤均可显著改善识别场景中的乐器的可靠性，且还可减少实行乐器的视觉辨识所需的处理量。

在方框68中，对在场景处记录的图像和视频数据执行视觉对象辨识分析以识别场景中的乐器。所述分析可涉及视觉特征分析方案，例如场景的尺度不变特征变换(SIFT)分析，其中基于来自方框61、62的音频导出的信息而缩窄待分析的图像的关键点和区域。本文在以下参考图7到17揭示示范性SIFT分析方法的细节。

视觉特征分析(方框70)的结果是声音源(例如，乐器)候选及其在场景中的对应位置的列表，其提供到音频处理框56。

音频处理框56进一步分析从场景记录的音频以分解音频，使得可更好地隔离、识别和处理单独的声音源以增强所记录音频的质量。在方框72中，来自图像/视频处理框52的位置信息用以产生用于分别朝向所识别源位置子扇区中的每一者引导的多麦克风阵列的空间滤波器。这有助于分离所记录音频数据中的声音源。在方框74中，将基于单通道基函数库存的稀疏恢复技术应用于经分离声音子扇区中的每一者以改善乐器声音源的识别。信号通道恢复技术可使用乐器类别注释的减少集合来减少基函数库存，其中所述减少是通过由图像/视频处理框54提供的乐器候选列表来导引(方框70)。本文在以下结合图30到37描述可在方框70中使用的示范性稀疏恢复技术。

图3是展示使用图1的听觉场景分析系统12对听觉场景进行分解的示范性方法的流程图200。在步骤202中，系统12记录音频和视觉信息(静止图像和/或视频)。在步骤204中，对象辨识子系统20识别且定位场景10中的声音产生对象中的一或多者。在步骤206中，声学分解子系统22将声学场景分解为单独的声音源。在步骤208中，声学分解子系统22将基于信号通道基函数库存的稀疏恢复应用于经分离声音。

图4是展示识别听觉场景中的声音产生对象的第一示范性方法的流程图300。此方法可由对象辨识子系统20执行。在步骤302中，识别所俘获图像中的关键点。在步骤304中，基于在场景处记录的音频来选择对应于例如乐器等声音产生对象的一或多个关键点标志。在步骤306中，通过将图像中的关键点与选定关键点标志进行比较来识别场景中的至少一个对象。

图5A到5B展示识别听觉场景中的声音产生对象的第二示范性方法的流程图400。此方法可由对象辨识子系统20执行。在步骤402中，识别所俘获图像中的关键点。在步骤404中，从所识别关键点中选择稳定的关键点。在步骤406中，基于从场景记录的音频来选择场景的图像中的关注区(ROI)。在步骤408中，选择ROI中的稳定关键点。

在步骤410中，从场景的视频计算局部运动向量(LMV)。在步骤412中，选择ROI中的LMV。

在步骤414中，基于在场景处记录的音频来选择对应于例如乐器等声音产生对象的一或多个关键点标志。

在步骤416中，基于从场景记录的音频计算音频置信度值(CV)。音频CV可基于例如MFCC分类器的音频特征匹配装置的输出。音频CV可为向量，其中所述向量的每一元素指示对象是特定类型的对象(例如，小号、钢琴等等)的可能性。

在步骤418中，基于场景的所俘获数字图像计算图像置信度值(CV)。图像CV可基于例如SIFT匹配装置的匹配装置的输出。SIFT匹配装置将ROI中的稳定关键点与选定关键点标志进行比较以产生图像CV。图像CV可为向量，其中所述向量的每一元素指示对象是特定类型的对象(例如，小号、钢琴等等)的可能性。

在步骤420中，基于从场景记录的视频计算视频置信度值(CV)。视频CV可基于比较ROI中选择的LMV的直方图匹配过程的输出。视频CV可为向量，其中所述向量的每一元素指示对象是特定类型的对象(例如，小号、钢琴等等)的可能性。

音频、图像和视频CV可各自经正规化。

在步骤422中，基于音频、图像和视频CV识别场景中的对象。举例来说，最终CV可计算为音频、图像和视频CV的经加权和。用于每一CV的加权系数可基于相应记录模态的信噪比(SNR)，且尤其可为当前记录帧的SNR的函数。

在其中模态CV为向量的情况下，最终CV也是向量，其中向量的每一元素指示对象是特定类型对象(例如，小号、钢琴等等)的可能性。指示最大可能性的元素识别对象。

图6是说明可与图1的听觉场景分析系统12一起使用的示范性对象辨识子系统500的某些组件的框图。子系统500包含音频处理器502、图像处理器504、视频处理器506、SIFT匹配装置532、关键点标志数据库(DB)534、声学特征数据库536、声学特征匹配装置538、直方图匹配装置540、对象局部运动向量(LMV)直方图数据库542，和多模分类器544。

音频处理器502接收且记录在场景处来自麦克风阵列18的音频信号。图像处理器504从拍摄场景的图片的一或多个相机508接收且记录场景的一或多个图像。视频处理器506从记录场景的一或多个摄像机510接收且记录视频信号。

音频处理器502包含到达方向(DOA)检测器512、关注区(ROI)选择器514、声音分类器516以及声学特征提取器518。根据从麦克风阵列18接收的麦克风信号，DOA检测器512确定从位于场景内的声音源放射的声音的到达方向。本文结合图18到25描述DOA检测器512的示范性组件和功能。根据阵列的DOA和位置，可确定场景中的声音源的位置的估计。将此DOA信息传递到ROI选择器514。ROI选择器514基于DOA信息和麦克风阵列18的已知位置来估计声音源的位置。ROI选择器514随后基于位置信息来选择场景的图像的特定部分。选定部分或ROI含有声音源，且因此可用以将关键点搜索和LMV计算限于仅场景的部分。

声音分类器516基于所记录音频的特性来分类声音源的类型。举例来说，分类器516可使用乐器音符库来识别一类乐器作为声音源。

声音分类器516的输出是音频置信度值，且其作为输入提供到关键点标志数据库534。基于音频置信度值从关键点标志数据库534选择一或多个关键点标志。将这些选定关键点标志提供到SIFT匹配装置532。

声学特征提取器518计算从麦克风信号导出的声学特征，例如MFCC或类似物。将这些提取的特征提供到声学特征匹配装置538，其通过将提取的特征与用于不同类型声音源的声学特征数据库536进行比较来识别声音源。声学特征匹配装置的输出可为声学特征置信度值，其可为具有与上文针对其它CV论述的元素类似的元素的向量。

图像处理器504包含关键点检测器520、稳定关键点检测器522和ROI关键点选择器524。关键点检测器520使用本文描述的方法确定场景的所俘获数字图像中的关键点。稳定关键点检测器522精炼关键点搜索，且仅选择稳定的那些检测到的关键点。ROI关键点选择器524从ROI选择器514接收识别所俘获图像中的ROI的坐标信息。基于坐标信息，ROI关键点选择将图像关键点选择缩窄到位于ROI内的那些稳定关键点。

随后将在ROI内检测到的稳定关键点提供到SIFT匹配装置532。

本质上，SIFT匹配装置532将稳定ROI关键点与从关键点标志数据库534检索的关键点标志进行比较以产生图像CV。

视频处理器506包含LMV计算器526、ROI LMV选择器528，和ROI LMV直方图计算器530。LMV计算器526从相机510接收数字视频信号且计算场景的预定记录持续时间中的LMV。随后将LMV传递到ROI LMV选择器528。ROI LMV选择器528从ROI选择器514接收ROI的坐标信息，且基于坐标信息选择ROI内的那些LMV。

随后将ROI内的LMV传递到ROI LMV直方图计算器530，其根据ROI计算LMV直方图。随后将场景的LMV直方图传递到直方图匹配装置540。直方图匹配装置540将场景LMV直方图与存储在对象LMV直方图数据库542中的对象LMV直方图进行比较以找到最接近的匹配。直方图匹配装置540基于此比较输出视频CV。

多模分类器544基于SIFT匹配装置532、声音分类器516、声学特征匹配装置538和直方图匹配装置540的输出来识别场景中的对象。多模分类器544可通过计算最终置信度值向量来实现此情形，所述向量可为音频CV、图像CV、视频CV、声学特征CV的经加权和。分类器544可执行贝叶斯估计以用相关联可能性产生经辨识乐器。CV的加权系数可类似于结合图4A到4B描述的加权系数。

另外，子系统500也可输出场景中辨识的每一对象的经精炼对象位置。经精炼对象位置可基于来自多模分类器544、相机508的输出，以及来自音频处理器502的ROI选择器514的估计对象位置。经精炼对象位置可反馈到DOA检测器512和/或ROI选择器514以改善其在估计关注区或对象位置时的准确性和速度，例如，前一视频/图像帧中确定的估计DOA或对象位置可移交到下一帧作为初始坐标供音频处理器502用于其ROI选择过程。

关键点选择和SIFT匹配装置

如下描述示范性关键点检测器520、关键点选择器522和SIFT匹配装置532的操作。

大体上，对象或特征辨识可涉及识别图像中的关注点(也称为关键点)和/或那些关键点周围的局部化特征以用于对象辨识的目的。虽然图像数据中的此些独特元素在此称为“关键点”，但应了解，如本文使用的术语“关键点”可涉及个别像素、像素群组、分数像素部分、一或多个描述符、其它图像分量，或者其任一组合。具有特征的高稳定性和可重复性在这些辨识算法中非常重要。因此，可选择和/或处理关键点以使得其对于图像尺度改变和/或旋转是不变的，且提供在失真、视点改变和/或噪声和照明改变的实质范围上的稳健匹配。此外，为了良好适合于例如对象辨识等任务，在单个特征可以高概率与来自多个目标图像的较大特征数据库正确匹配的意义上，特征描述符可优选为独特的。

在检测且定位图像中的关键点之后，可通过使用各种描述符来识别或描述它们。举例来说，描述符可表示图像中的内容的视觉特征，例如形状、颜色、纹理、旋转和/或运动，以及其它图像特性。随后使对应于关键点且由描述符表示的个别特征匹配于来自已知对象的特征数据库。

作为识别且选择图像的关键点的部分，由于缺乏精度或置信度可能需要丢弃已经选择的一些点。举例来说，可基于不良对比度和/或沿着边缘的不良局部化的底限而拒绝一些初始检测到的关键点。在相对于照明、噪声和定向变化增加关键点稳定性方面，此些拒绝是重要的。最小化错误关键点拒绝也是重要的，错误关键点拒绝将降低特征匹配的可重复性。

大体上认识到，图像中的照明可通过空间变化的函数来表示。因此，通过抽取照明函数的正规化过程，可中和照明效果(例如，遮影、亮图像、暗图像等等)以用于特征/关键点检测的目的。举例来说，可通过使用具有某一范围的平滑因数的函数G(即，内核或滤波器)渐进地模糊图像以产生图像的经平滑尺度空间L来处理图像。随后可通过取得经平滑尺度空间层级的邻近对之间的差(L_i-L_i-1)来获得图像的尺度空间D的差。随后通过将尺度空间层级的每一差D_j除以经平滑尺度空间层级L_k来实现尺度空间L的差的正规化，所述L_k与用以获得尺度空间层级的特定差D_i的尺度空间层级L_i中的最平滑者一样平滑或更平滑。

图7是说明用于对所记录图像执行对象辨识的功能阶段的框图。在图像俘获阶段702，可俘获关注的图像708(即，所记录图像)。图像708可由图像俘获装置俘获，所述装置可包含一或多个图像传感器和/或模/数转换器，以获得数字俘获图像。图像传感器(例如，电荷耦合装置(CCD)、互补金属半导体(CMOS))可将光转换为电子。电子可形成模拟信号，所述模拟信号随后由模/数转换器转换为数字值。以此方式，可以数字格式俘获图像708，所述数字格式可将图像I(x，y)例如界定为具有对应颜色、照明和/或其它特性的多个像素。

在图像处理阶段704中，随后通过产生对应尺度空间710(例如，高斯尺度空间)，执行特征检测712，且执行特征描述符提取716来处理所俘获图像708。特征检测712可针对所俘获图像708识别高度独特的关键点和/或几何关注的关键点，其可随后在特征描述符提取716中用来获得多个描述符。在图像比较阶段706，这些描述符用以执行与已知描述符的数据库的特征匹配722(例如，通过比较关键点和/或关键点周围的关键点或片的其它特性)。随后对关键点匹配执行几何检验或一致性检查724以确认正确的特征匹配且提供匹配结果726。以此方式，所记录图像可与目标图像数据库进行比较和/或从其识别。

已观察到，图像中的照明改变可对图像的特征/关键点辨识的稳定性和/或可重复性具有有害影响。也就是说，图像中的局部和/或全局照明改变可影响图像的特征/关键点的检测。举例来说，特征/关键点的数目和/或位置可取决于图像中的照明(例如，遮影、对比度等等)而改变。因此将有益的是，在图像中的特征/关键点检测之前大体上消除或最小化局部和/或全局照明改变的影响。

进行此做法的一种方法可为处理图像本身以在开始特征/关键点检测之前移除或补偿局部和/或全局照明改变。然而，此过程可能在计算上密集。另外，经常难以确定图像中是否存在局部和/或全局照明改变。此过程也将必须应用于数据库中的图像。在不首先处理目标图像和数据库图像以校正照明改变的情况下，特征/关键点匹配可能不会成功。但在没有照明可如何影响特定图像的先前知识的情况下，此过程相当难以自动实施。

因此，需要可在无实质处理开销的情况下执行的替代方案。根据一个实例，通过在对尺度空间的差执行特征/关键点检测之前正规化尺度空间的差可消除或减少用于特征检测的图像上的照明的影响(均匀或不均匀)。此正规化过程可使用已经可用的经平滑尺度空间来执行，因此最小化任何另外的计算。

根据一个实例，尺度空间正规化器714可实施为尺度空间产生710的部分以减少或消除照明改变对图像中的关键点/特征辨识的影响。

图8说明示范性图像处理阶段704中的高斯尺度空间产生。已经开发例如尺度不变特征变换(SIFT)等若干算法来执行图像中的特征检测。针对图像中的特定对象的检测的第一步骤是基于所记录对象的局部特征来分类所述对象。目标是识别和选择对例如照明、图像噪声、旋转、缩放和/或视点的小改变不变和/或稳健的特征。也就是说，尽管两个图像之间的照明、图像噪声、旋转、尺度和/或视点之间的差异，也应当发现查询图像与比较目标图像之间的匹配。进行此做法的一种方法是对图像的片执行极端检测(例如，局部最大值或最小值)以识别高度独特的特征(例如，图像中的独特的点、像素和/或区)。

SIFT是用于检测和提取对照明改变、图像噪声、旋转、缩放和/或视点的小改变合理地不变的局部特征的一种方法。用于SIFT的图像处理阶段704可包含：(a)尺度空间极端检测，(b)关键点局部化，(c)定向指派，和/或(d)关键点描述符的产生。应明了，用于特征检测和后续特征描述符产生的替代算法，包含加速稳健特征(SURF)、梯度位置和定向直方图(GLOH)、基于局部能量的形状直方图(LESH)、压缩梯度直方图(CHoG)等等，也可得益于本文描述的特征。

在高斯尺度空间产生710中，数字图像I(x，y)708经逐渐地高斯模糊(即，平滑)以构造高斯金字塔752。高斯模糊(平滑)大体上涉及在尺度cs下使原始图像I(x，y)与高斯模糊/平滑函数G(x，y，cs)卷积，使得高斯模糊/平滑函数L(x，y，cs)界定为L(x，y，cs)＝G(x，y，cs)*I(x，y)。此处，G是高斯内核，cs表示用于模糊图像I(x，y)的高斯函数的标准偏差。由于乘数c是变化的(c₀＜c₁＜c₂＜c₃＜c₄)，因此标准偏差cs变化且获得逐渐模糊/平滑。西格玛s是基本尺度变量(例如，高斯内核的宽度)。较高尺度(即，较低分辨率)比较低尺度(即，较高分辨率)模糊/平滑更多。因此，尺度层级越宽(即，较低分辨率)，图像越平滑(更模糊)。

当初始图像I(x，y)与高斯G递增卷积以产生模糊图像L时，模糊图像L由尺度空间中的常数因数c分离。在高斯模糊(平滑)图像L的数目增加且为高斯金字塔752提供的近似接近连续空间时，所述两个尺度也接近一个尺度。在一个实例中，卷积图像L可通过八元组分组，其中八元组可对应于标准偏差s的值的加倍。而且，乘数c的值(例如，c₀＜c₁＜c₂＜c₃＜c_4...)经选择以使得每八元组获得固定数目的卷积图像L。每一八元组的缩放对应于明确的图像重定大小。因此，在通过逐渐模糊/平滑函数模糊/平滑原始图像I(x，y)时，像素数目逐渐减少。应注意，虽然本文使用高斯平滑函数用于说明，但也可采用其它类型的平滑内核/函数。

通过计算高斯金字塔752中的任何两个连续高斯模糊图像的差来构造高斯差(DoG)金字塔754。在DoG空间754中，D(x，y，a)＝L(x，y，c_ns)-L(x，y，c_n-1s)。DoG图像D(x，y，s)是在尺度c_ns和c_n-1s下两个邻近高斯模糊图像L之间的差。D(x，y，s)的尺度位于c_ns与c_n-1s之间的某处。DoG图像D可从每八元组的邻近高斯模糊图像L获得。在每一八元组之后，可以因数2将高斯图像向下取样且随后重复过程。以此方式，图像可变换为对平移、旋转、缩放和/或其它图像参数和/或失真稳健或不变的局部特征。

一旦产生，用于所记录图像的DoG空间754便可用于极端检测以识别关注特征(例如，识别图像中的高度独特的点)。这些高度独特的点在本文称为关键点。这些关键点可通过每一关键点周围的片或局部区的特性来识别。可针对每一关键点及其对应片产生描述符，其可用于查询图像与所存储目标图像之间的关键点比较。“特征”可称为描述符(即，关键点及其对应片)。一组特征(即，关键点和对应片)可称为群集。

图9说明示范性图像处理阶段704中的特征检测。在特征检测712中，DoG空间754可用以识别图像I(x，y)的关键点。特征检测712试图确定图像中的特定样本点或像素周围的局部区或片是否是潜在关注片(几何上来说)。

大体上，识别DoG空间754中的局部最大值和/或局部最小值，且将这些最大值和最小值的位置用作DoG空间754中的关键点位置。在图9中说明的实例中，关键点760已经以片758识别。找到局部最大值和最小值(也称为局部极端检测)可通过将DoG空间754中的每一像素(例如，关键点760的像素)与在相同尺度下其八个相邻像素以及在关键点808的两侧上的每一相邻尺度中的九个相邻像素(邻近片756和762)(总共26个像素(9x2+8＝26))进行比较来实现。此处，片界定为3x3像素区。大体上，如果关键点758的像素值是片758、756和760中的全部二十六(26)个比较像素当中的最大值或最小值，那么将其选择为关键点。可进一步处理关键点以使得更准确地识别它们的位置且可丢弃一些关键点，例如低对比度关键点和边缘关键点。

图10说明示范性图像处理阶段704中的特征描述符提取。大体上，特征(例如，关键点及其对应片)可由描述符表示，其允许特征(来自查询图像)与存储在目标图像数据库中的特征的有效比较。在特征描述符提取716的一个实例中，每一关键点可基于局部图像梯度的方向而被指派一或多个定向或方向。通过基于局部图像性质对每一关键点指派一致的定向，关键点描述符可相对于此定向来表示且因此实现对图像旋转的不变性。量值和方向计算可针对高斯模糊图像L中和/或关键点尺度下的关键点760周围的相邻区中的每个像素执行。位于(x，y)的关键点760的梯度的量值可表示为m(x，y)，且在(x，y)处的关键点的梯度的定向或方向可表示为Γ(x，y)。关键点的尺度用以选择具有与关键点760的尺度最接近的尺度的高斯平滑图像L，使得以尺度不变方式执行所有计算。对于在此尺度下的每一图像样本L(x，y)，使用像素差来计算梯度量值m(x，y)和定向Γ(x，y)。举例来说，量值m(x，y)可计算为：

m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}} .

(等式1)

方向或定向Γ(x，y)可计算为：

Γ (x, y) = \arctan [\frac{(L (x, y + 1) L (x, y - 1)}{(L (x + 1, y) - L (x - 1, y)}] .

(等式2)

此处，L(x，y)是在尺度s下高斯模糊图像L(x，y，s)的样本，尺度s也是关键点的尺度。

针对高斯金字塔中位于上方的平面可在比DoG空间中的关键点的平面高的尺度下或者在高斯金字塔中位于下方的平面可在比关键点低的尺度下一致地计算关键点760的梯度。在任一方式下，针对每一关键点，梯度在关键点周围的矩形区域(例如，片)中全部在一个相同尺度下计算。而且，图像信号的频率在高斯模糊图像的尺度中反映。又，SIFT简单地使用片(例如，矩形区域)中所有像素处的梯度值。将片界定为在关键点周围；在块内界定子块；在子块内界定样本，且甚至当关键点的尺度不同时此结构也针对所有关键点保持相同。因此，虽然图像信号的频率随着同一八元组中的高斯平滑滤波器的连续应用而改变，但在不同尺度下识别的关键点可以相同数目的样本来取样，无论由尺度表示的图像信号的频率的改变如何。

为了表征关键点定向，可(使用在与关键点尺度最接近的尺度下的高斯图像)在关键点760的邻域中(在SIFT中)产生梯度定向的向量。然而，也可通过使用例如压缩梯度直方图(CHoG)由梯度定向直方图(见图10)来表示关键点定向。每一相邻像素的贡献可通过梯度量值和高斯窗来加权。直方图中的峰对应于优势定向。关键点的所有性质可相对于关键点定向来测量，这提供了对旋转的不变性。

在一个实例中，高斯加权梯度的分布可针对每一块计算，其中每一块是2子块乘2子块，总共4个子块。为了计算高斯加权梯度的分布，形成具有若干区间的定向直方图，其中每一区间覆盖关键点周围的区域的一部分。举例来说，定向直方图可具有36个区间，每一区间覆盖360度定向范围的10度。或者，直方图可具有8个区间，其各自覆盖360度范围的45度。应明了，本文描述的直方图译码技术可适用于任何数目的区间的直方图。应注意，也可使用最终产生直方图的其它技术。

可以各种方式获得梯度分布和定向直方图。举例来说，将二维梯度分布(dx，dy)(例如，框806)转换为一维分布(例如，直方图814)。关键点760位于围绕关键点760的片806(也称为单元或区)的中心。针对金字塔的每一层级预先计算的梯度展示为在每一样本位置808处的小箭头。如图示，样本808的4x4区形成子块810，且子块的2x2区形成块806。块806也可称为描述符窗。高斯加权函数展示为具有圆802且用以对每一样本点808的量值指派权重。圆窗802中的权重平滑地下降。高斯窗802的目的是避免随着窗位置的小改变的描述符的突然改变以及对远离描述符中心的梯度给出较少强调。定向直方图812的2x2＝4阵列是从2x2子块获得，其中直方图的每一区间中的8个定向导致(2x2)x8＝32维特征描述符向量。举例来说，定向直方图813和815可对应于子块810的梯度分布。然而，使用每一直方图(8区间直方图)中具有8个定向的直方图的4x4阵列，针对每一关键点导致(4x4)x8＝128维特征描述符向量可产生较好结果。应注意，也可使用其它类型的量化区间群集(例如，具有不同的Voronoi单元结构)来获得梯度分布。

如本文使用，直方图是对落在称为区间的各种不相连类别中的观测值、样本或出现(例如，梯度)的数目进行计数的映射k_i。直方图的曲线图仅是表示直方图的一种方式。因此如果k是观测值、样本或出现的总数目且m是区间的总数目，那么直方图k_i中的频率满足以下条件：

n = Σ_{i = 1}^{m} k_{i},

(等式3)

其中∑是求和算子。

可并置来自子块的直方图以获得关键点的特征描述符向量。如果使用来自16子块的8区间直方图中的梯度，那么可得到128维特征描述符向量。

以此方式，可针对所识别的每一关键点获得描述符，其中此描述符可由高斯加权梯度的分布的位置(x，y)、定向和描述符来表征。应注意，图像可通过一或多个关键点描述符(也称为图像描述符)来表征。另外，描述符也可包含位置信息(例如，关键点的坐标)、尺度(例如，检测关键点的高斯尺度)以及例如群集识别符等其它信息，等等。

通过在高斯空间754的差中操作，完全忽略图像的亮度上的任何层级移位(对亮度的空间上均匀的加性偏置)。但亮度上的尺度移位将影响判定且最终选择或拒绝关键点的方式。这适用于均匀并且空间上变化的乘法亮度因数。与关键点检测一样重要的是其在图像内的局部化。对象是通过其特征以及所述特征的空间相互关系的几何内容来分类。因此，关键点的计算位置是重要元素，使得即使检测到关键点，也应当相对于任何亮度尺度改变以不变方式计算其局部化。

因此，在识别关键点且产生描述符之前，一个特征提供了将高斯空间754的差正规化以便从其中检测到关键点的尺度空间减少、移除和/或过滤照明的影响。

尺度空间正规化的示范性差异

图11说明用于照明不变特征/关键点检测的尺度空间正规化的实例。图像I(x，y)822可在不同尺度c_iσ下与平滑内核G(x，y，c_iσ)824卷积以产生经平滑尺度空间金字塔826，其中i是0与n之间的整数。应注意，平滑内核可为高斯内核和/或其它类型的平滑函数。可取得经平滑尺度空间金字塔826的两个邻近尺度空间之间的差以获得尺度空间828的差。

首先观察到，尺度空间828的差的每一层级可界定为在不同尺度824下平滑内核的差(例如，G(x，y，c_j+1σ)-G(x，y，c_jσ))与图像I(x，y)822卷积。这等于两个对应经平滑尺度空间的差(例如，L(x，y，c_j+1σ)-L(x，y，c_jσ))。因此，两个平滑尺度空间的差可表示为：

D(x，y，σ)＝(G(x，y，c_j+1σ)-G(x，y，c_jσ))*I(x，y)＝l(x，y，c_j+1σ)-L(x，y，c_jσ)。 (等式4)

还观察到如果照明表示为缩放函数S(x，y)，那么针对两个平滑尺度空间的差的照明改变可表示为：

D(x，y，σ)＝(G(x，y，c_i+1σ)-G(x，y，c_jσ))*(I(x，y)S(x，y))。 (等式5)

此处，在一般情况下，照明缩放函数S(x，y)可为空间上变化的或空间上恒定的。

然而，在运行时间对照明进行建模以获得照明缩放函数S(x，y)是不实际和/或不可行的。因此，本文揭示替代方法，其带出不受来自通常执行特征选择和/或修剪的特征空间(例如，DoG空间828)的照明的偏置的下伏特征(例如，关键点)。根据此替代方法，通过利用从图像I(x，y)822提取的尺度空间信息来正规化图像I(x，y)822的亮度分布。不需要关于照明的先前信息。此方法使得能够选择稳定特征且增加在不同的照明改变上的一致水平上的可重复性，而不会引入任何主要计算和处理。

为此，发生特征检测的尺度空间828的差可通过较宽的尺度空间来正规化。此方法可如下界定：

D^{'} (x, y, σ) = [\frac{[G (x, y, c_{j + 1} σ) - G (x, y, c_{j} σ)] * [I (x, y) S (x, y)]}{G (x, y, c_{j + 1 + h} σ) * [I (x, y) S (x, y)]}]

(等式6)

其中

第一高斯平滑内核G(x，y，c_j+1σ)比第二高斯平滑内核G(x，y，c_jσ)宽(即，尺度c_j+1s比尺度c_js宽，其中j是0与n之间的正整数)；

I(x，y)是正在处理的图像或其衍生物(例如，图像的反射性质)；

S(x，y)是照明缩放函数；以及

G(x，y，c_j+1+hσ)是第三平滑内核，其具有与第二平滑内核G(x，y，c_j+1σ)一样宽或更宽的尺度空间，其中h是0与n之间的正整数。通过在尺度空间828的差的每个层级上重复此过程，可产生尺度空间830的正规化差。举例来说，对于通过G(x，y，c_j+1σ)和G(x，y，c_jσ)界定的差尺度空间，正规化函数可为G(x，y，c_j+1σ)或更高的情形(即，G(x，y，c_j+2σ)，G(x，y，c_j+3σ)，...)。正规化函数无需大于在差尺度空间中使用的两个平滑内核，其仅需要一样平滑。在另一实例中，正规化函数可为使用的第一和第二平滑内核之和(即，G(x，y，c_j+1σ)+G(x，y，c_jσ))，使得：

D^{'} (x, y, σ) = [\frac{[G (x, y, c_{j + 1} σ) - G (x, y, c_{j} σ)] * [I (x, y) S (x, y)]}{G (x, y, c_{j + 1 + h} σ) + G (x, y, c_{j}, σ) [I (x, y) S (x, y)]}] .

(等式7)

应注意，等式6也可表示为：

D^{'} (x, y, σ) = [\frac{[L (x, y, c_{j + 1} σ) - L (x, y, c_{j} σ)] * S (x, y)}{L (x, y, c_{j + 1 + h} σ) * S (x, y)}]

(等式8)

因为照明缩放函数S(x，y)出现在(等式6、7和8)的分子和分母两者中，所以其缩放效应被消除。也就是说，因为照明缩放函数S(x，y)存在于用于正规化的经平滑图像L(x，y，c_j+1+hσ)*S(x，y)中，所以其完全或大体上消除照明缩放函数S(x，y)在尺度空间的差[L(x，y，c_j+1σ)-L(x，y，c_jσ)]*S(x，y)中的影响。如前，L(x，y，c_j+1+hσ)可等于L(x，y，c_j+1σ)或更高尺度图像(即，L(x，y，c_j+2σ)，L(x，y，c_j+3σ)，...)。以此方式，分母中的图像内容经平滑到其引入极少空间假象的程度。

在正规化尺度空间的差时，应选择正规化平滑图像L(x，y，c_j+1+hσ)以便不改变特征空间(即，尺度空间的差)太多，以便不移位局部极端位置(识别关键点/特征)。也就是说，尺度空间的差的接近近似应当在正规化之后保持，因为已知尺度空间的差将最好地实现尺度不变特征。为此，选择经平滑图像L(x，y，c_j+1+hσ)以使得其尺度水平足够平滑以使得将高频率内容平均化。也就是说，如果经平滑图像L(x，y，c_j+1+hσ)充分平坦，那么尺度空间的差L(x，y，c_j+1σ)-L(x，y，c_jσ)的形状很大程度上不变(即，特征/关键点的位置不改变)。应注意，在一个实施例中，选择在与用以获得正在正规化的差尺度层级的尺度层级接近(相同或下一最高)的尺度层级下的正规化函数可为优选的，因为这避免了引入太多噪声。举例来说，通过拾取用于由G(x，y，c_j+1σ)和G(x，y，c_jσ)界定的差尺度空间的例如G(x，y，c_j+1σ)的平滑尺度，尺度空间中针对所述特定层级典型的局部不规则形可保留。

如先前所述，图像中检测到的特征的数目可受到图像中的乘法亮度尺度改变大大影响(例如，减少)。由亮度引起的缩放往往类似于图像上的遮罩而作用，其急剧减少甚至不具有任何几何变形的最终特征空间中的内容。因此，通过应用等式6和7实现的正规化确保了无论照明改变如何均检测到在其几何标志上“相等”的特征，进而增加了可重复性。

图12说明可如何获得经正规化尺度空间差的一个层级的一个实例。此处，图像I(x，y)852可与第一平滑内核G(x，y，c_jσ)854卷积以获得第一经平滑尺度空间图像L(x，y，c_jσ)858。图像I(x，y)852还可与第二平滑内核G(x，y，c_j+1σ)856卷积以获得第二经平滑尺度空间图像L(x，y，c_j+1σ)860。可取得第二与第一经平滑图像860与858之间的差异以获得尺度空间层级差D_j(x，y，σ)862。此尺度空间层级差D_j(x，y，σ)862可基于较高尺度平滑内核G(x，y，c_j+1+hσ)866或经平滑尺度空间图像L(x，y，c_j+1+hσ)868而正规化(即，根据等式6和/或7)以获得经正规化尺度空间层级D′_j(x，y，σ)864。通过将具有不同宽度(由缩放因数c_jσ设定)的不同平滑内核应用于图像I(x，y)可重复此过程，进而建立经平滑尺度空间金字塔。通过取得经平滑尺度空间金字塔(例如，图11中的826)的邻近层级之间的差可建立尺度空间差(例如，图11中的828)。可根据等式6和/或7产生经正规化尺度空间差(例如，图11中的830)。

图13说明用于产生经正规化尺度空间差以获得对照明改变具抵抗性的改进特征检测的方法。使图像I(x，y)与具有不同缩放宽度(通过不同c_iσ设定，i＝0到n)的平滑内核G(x，y，c_iσ)卷积以获得多个经平滑图像L(x，y，c_iσ)(i＝0到n)，其构成经平滑尺度空间金字塔，902。图像I(x，y)可通过已经完全或基于逐个像素由照明函数S(x，y)修改的基图像I₀(x，y)来表征。在一个实例中，平滑内核G(x，y，c_iσ)可为高斯内核，使得经平滑尺度空间金字塔是高斯尺度空间金字塔。

接着，通过取得在经平滑尺度空间金字塔上的经平滑图像的邻近对的差L(x，y，c_j+1σ)-L(x，y，c_jσ)来产生尺度空间差D_j(x，y，σ)，j＝0到n-1，904。针对多组邻近经平滑图像重复此过程以获得具有多个层级的尺度空间差。应注意，用以获得第二经平滑图像L(x，y，c_j+1σ)的第二平滑内核G(x，y，c_j+1σ)可比用以获得第一经平滑图像L(x，y，c_j+1σ)的第一平滑内核G(x，y，c_jσ)宽。

随后可通过将每一尺度空间差D_j(x，y，σ)层级除以对应经平滑图像L(x，y，c_j+1+hσ)来产生经正规化尺度空间差D′_j(x，y，σ)，j＝0到n-1，其中每一经平滑图像L(x，y，c_j+1+hσ)与图像的两个不同经平滑版本L(x，y，c_j+1σ)和L(x，y，c_jσ)中的最平滑者一样平滑或更平滑，906。也就是说，正规化经平滑图像L(x，y，c_j+1+hσ)可具有与用于图像的两个不同经平滑版本L(x，y，c_j+1σ)和L(x，y，c_jσ)的尺度(例如，平滑内核)中的较大者相比来说相等或更宽的尺度(例如，平滑内核)。

经正规化尺度空间差D′_j(x，y，σ)，j＝0到n-1，可随后用以识别图像I(x，y)的特征，908。举例来说，可将局部极端(即，最小值或最大值)识别为在其周围可界定特征的关键点。随后可基于所识别特征产生用于图像I(x，y)的描述符，910。

图11、12和13中说明的方法不需要关于图像的照明的先前信息。此方法使得能够选择图像中的稳定特征且增加在不同的照明改变上的一致水平上的可重复性，而不会引入任何主要(显著)计算和处理。也就是说，因为经平滑尺度空间已经包含用以正规化尺度空间差D_j(x，y，σ)的经平滑图像L(x，y，c_j+1+hσ)，所以对于除了除法运算之外的正规化不需要额外处理。

另外，通过调适选择特征的置信度，可根据检测到特征的尺度(例如，平滑层级)来获得较稳定特征。也就是说，较高尺度一般包含图像的较平滑版本(即，较模糊)且在此些尺度下检测到的关键点/特征具有较高的置信程度。

图14是说明照明不变特征检测装置的实例的框图。特征检测装置1200可接收或获得数字查询图像1202。尺度空间产生器1204(例如，高斯尺度空间产生器)可随后使查询图像1202与具有不同尺度宽度的多个不同平滑内核1203卷积以产生尺度空间。所述尺度空间可包含图像的经平滑到不同缩放宽度的多个经平滑版本。尺度空间差产生器1206随后从尺度空间产生尺度空间差。尺度空间差正规化器1208随后通过例如将每一尺度空间差层级除以对应经平滑图像来正规化尺度空间差，其中此经平滑图像具有与用以产生正划分的尺度空间差的经平滑图像中的较大者一样宽或更宽的尺度。关键点产生器1210随后识别或检测经正规化尺度空间差中的关键点。这可例如通过找到经正规化尺度空间差的像素当中的局部极端(即，最大值或最小值)来完成。特征产生器1212可随后例如通过表征所识别关键点周围的局部像素来产生特征。应注意，关键点产生器1210和特征产生器1212的功能可由特征检测器执行。特征描述符产生器1214随后产生用于每一特征的描述符以提供可用以识别查询图像的多个图像描述符1216。图14中说明的功能可由单独电路或由一或多个处理器执行。

图15是说明使用经正规化尺度空间差用于特征检测的图像匹配装置的实例的框图。图像匹配装置1300可包含处理电路1302，其耦合到通信接口1304、图像俘获装置1306和/或存储装置1308。通信接口1304可适于经由有线/无线网络通信且接收用于一或多个图像的图像和/或特征描述符。图像俘获装置1306可为例如可俘获查询图像的数码相机。处理电路1302可包含用以从图像提取特征的图像处理电路1314，和使用所提取特征来使查询图像匹配于目标图像数据库1310和/或使查询图像描述符匹配于描述符数据库1312的图像匹配电路1316。根据一个示范性实施方案，图像匹配应用尝试使查询图像匹配于图像数据库中的一或多个图像。图像数据库可包含与存储在数据库1310中的一或多个图像相关联的数百万特征描述符。

图像处理电路1314可包含特征识别电路1320，其包含高斯尺度空间产生器1322、尺度空间差产生器1324、尺度空间差正规化器1326、关键点检测器1328、特征产生器1330和/或特征描述符产生器1332。高斯尺度空间产生器1322可用以使图像与模糊函数(例如，平滑内核)卷积以产生例如图8和11中说明的多个不同尺度空间。尺度空间差产生器1324随后从尺度空间产生尺度空间差。尺度空间差正规化器1326随后通过例如将每一尺度空间差层级除以对应经平滑图像来正规化尺度空间差，其中此经平滑图像比用以产生正划分的尺度空间差的经平滑图像宽(图12中说明)。关键点产生器1328随后识别或检测经正规化尺度空间差中的关键点。这可例如通过找到经正规化尺度空间差的像素当中的局部极端(即，最大值或最小值)来完成。特征产生器1330可随后例如通过表征所识别关键点周围的局部像素来产生特征(图9中说明)。特征描述符产生器1332随后产生用于每一特征的描述符以提供可用以识别查询图像的多个图像描述符(图10中说明)。

图像匹配电路1316可随后尝试基于特征描述符使查询图像匹配于图像数据库1310中的图像。可经由通信接口提供匹配结果(例如，提供到发送图像或特征描述符的移动装置)。

应注意，在一些实施方案中，与查询图像的关键点相关联的一组特征描述符可由图像匹配装置接收。在此情形中，查询图像已经处理(以获得描述符)。因此，图像处理电路1314可从图像匹配装置1300绕过或移除。

DOA检测器和音频场景分解

在本文揭示的系统和方法的一些配置中，示范性DOA检测器512的功能和使用空间滤波器72分解音频场景的过程可使用本部分中描述的技术来实现。

当一或多个声音源位于距声音记录装置相对大的距离处(例如，两米或两米以上的距离)时用于远场音频处理(例如，音频源增强)的应用可出现。

在远场使用情况的第一实例中，包含若干不同声音源的声学场景的记录经分解以获得来自个别源中的一或多者的相应声音分量。举例来说，可能希望记录现场音乐表演以使得来自不同源(例如，不同话音和/或乐器)的声音经分离。在另一此实例中，可能希望在来自视频游戏(例如“摇滚乐队”类型的视频游戏)的两个或两个以上不同玩家的话音输入(例如，命令和/或歌唱)之间进行区分。

在远场使用情况的第二实例中，使用多麦克风装置，通过缩窄视图的声场(也称为“放大麦克风”)来执行远场音频源增强。通过相机观看场景的用户可使用相机的镜头变焦功能来将视图的视觉场选择性地缩放到例如个别讲话者或其它声音源。可能希望实施相机以使得正在记录的声学区也与视觉缩放操作同步地缩窄到选定源以产生补充声学“放大”效应。

辨别从特定距离源到达的声音分量不简单地是缩窄到特定方向的波束模式的问题。虽然通过增加滤波器的大小(例如，通过使用初始系数值的较长集合来界定波束模式)可缩窄波束模式的空间宽度，但仅依赖于源的单个到达方向可实际上致使滤波器失去大多数源能量。由于例如回响等效应，源信号通常在不同频率下从稍微不同的方向到达，使得较远源的到达方向通常未良好界定。因此，信号的能量可在一范围的角度上展布而不是集中于特定方向，且可能较有用的是将特定源的到达角度表征为在一范围的频率上的重心而非单个方向上的峰。

可能希望滤波器的波束模式覆盖在不同频率下的方向集中的宽度而非仅单个方向(例如，由任一个频率下的最大能量指示的方向)。举例来说，可能希望允许波束在此集中的宽度内在不同的对应频率下指向稍微不同的方向。

可使用自适应波束成形算法来获得在一个频率下在特定方向上具有最大响应且在另一频率下在不同方向上具有最大响应的滤波器。自适应波束成形器通常取决于准确的话音活动检测，然而这对于远场讲话者来说难以实现。此算法在来自所要源和干扰源的信号具有相似的谱时(例如，当两个源均为人说话时)也可能表现不良。作为对自适应波束成形器的替代，还可使用盲源分离(BSS)解决方案来获得在一个频率下在特定方向上具有最大响应且在另一频率下在不同方向上具有最大响应的滤波器。然而，此算法可展现缓慢的收敛、向局部最小值的收敛，和/或缩放模糊性。

可能希望将提供良好初始条件的独立于数据的开环方法(例如，MVDR波束成形器)与使输出之间的相关最小化而不使用话音活动检测器(例如，BSS)的闭环方法组合，因此提供经精炼且稳健的分离解决方案。因为BSS方法执行随着时间的调适，所以甚至在回响环境中也可预期产生稳健解决方案。

与使用空波束来初始化滤波器的现有BSS初始化方法相比，如本文所述的解决方案使用源波束来初始化滤波器以在指定源方向上聚焦。在无此初始化的情况下，预期BSS方法实时调适于有用的解决方案可能是不实际的。

图16A展示设备A100的框图，其包含滤波器组BK10、滤波器定向模块OM10和滤波器更新模块UM10且经布置以接收多通道信号(在此实例中，输入通道MCS10-1和MCS10-2)。滤波器组BK10经配置以将多个第一系数应用于基于多通道信号的第一信号以产生第一输出信号OS10-1。滤波器组BK10还经配置以将多个第二系数应用于基于多通道信号的第二信号以产生第二输出信号OS10-2。滤波器定向模块OM10经配置以产生基于第一源方向DA10的用于多个第一系数的初始值集合CV10，且产生基于与第一源方向DA10不同的第二源方向DA20的用于多个第二系数的初始值集合CV20。滤波器更新模块UM10经配置以基于来自第一和第二输出信号的信息而更新所述多个第一和第二系数的初始值集合以产生对应的经更新值集合UV10和UV20。

可能希望源方向DA10和DA20中的每一者指示对应声音源相对于产生输入通道MCS10-1和MCS10-2的麦克风阵列(例如，相对于阵列的麦克风的轴线)的估计方向。图16B展示装置D10的框图，其包含麦克风阵列R100和经布置以从阵列接收多通道信号MCS10(例如，包含输入通道MCS10-1和MCS10-2)的设备A100的实例。阵列R100可包含在图1的阵列18和图1的系统14中的设备A100中。

图16C说明从点源j接收的信号分量相对于阵列R100的麦克风MC10和MC20的轴线的到达方向θ_j。阵列的轴线经界定为穿过麦克风的声学敏感面的中心的线。在此实例中，标记d表示麦克风MC10与MC20之间的距离。

滤波器定向模块OM10可经实施以执行波束成形算法以产生描述相应源方向DA10、DA20上的波束的初始系数值集合CV10、CV20。波束成形算法的实例包含DSB(延迟与和波束成形器)、LCMV(线性约束最小方差)和MVDR(最小方差无失真响应)。在一个实例中，滤波器定向模块OM10经实施以根据独立于数据的表达式来计算波束成形器的NxM系数矩阵W，使得每一滤波器在其它源方向上具有零响应(或空波束)，所述表达式例如

W(ω)＝D^H(ω，θ)[D(ω，θ)D^H(ω，θ)+γ(ω)×I]^-1，

其中r(ω)是规则化项以补偿不可逆性。在另一实例中，滤波器定向模块OM10经实施以根据例如以下表达式计算MVDR波束成形器的NxM系数矩阵W

W = \frac{Φ^{- 1} D (ω)}{D^{H} (ω) Φ^{- 1} D (ω)} . - - - (1)

在这些实例中，N表示输出通道的数目，M表示输入通道的数目(例如，麦克风的数目)，Φ表示噪声的经正规化交叉功率谱密度矩阵，D(ω)表示MxN阵列流形矩阵(也称为方向性矩阵)，且上标H表示共轭转置函数。M大于或等于N是典型的。

系数矩阵W的每一行界定滤波器组BK10的对应滤波器的系数的初始值。在一个实例中，系数矩阵W的第一行界定初始值CV10，且系数矩阵W的第二行界定初始值CV20。在另一实例中，系数矩阵W的第一行界定初始值CV20，且系数矩阵W的第二行界定初始值CV10。

矩阵D的每一列j是在频率ω上用于远场源j的方向性向量(或“导引向量”)，其可表达为

D_mj(ω)＝exp(-i×cos(θ_j)×pos(m)×ω/c)。

在此表达式中，i表示虚数，c表示声音在媒介中的传播速度(例如，空气中340m/s)，θ_j表示源j相对于麦克风阵列的轴线的方向(例如，针对j＝1的方向DA10和针对j＝2的方向DA20)作为如图16C所示的入射到达角度，且pos(m)表示M个麦克风的阵列中的第m麦克风的空间坐标。对于具有均匀的麦克风间间距d的线性麦克风阵列，因数pos(m)可表达为(m-1)d。

对于扩散噪声场，可使用相干函数Γ来替代矩阵Φ，例如

Γ_{ij} = \{\begin{matrix} \sin c (\frac{{ωd}_{ij}}{c}), & i &NotEqual; j \\ 1, & i = j \end{matrix},

其中d_ij表示麦克风i与j之间的距离。在又一实例中，矩阵Φ由(Γ+λ(ω)I)替代，其中λ(ω)是对角加载因数(例如，为了稳定性)。

通常，滤波器组BK10的输出通道的数目N小于或等于输入通道的数目M。虽然图16A展示设备A100的实施方案，其中N的值为二(即，具有两个输入通道OS10-1和OS10-2)，但应了解N和M可具有大于二的值(例如，三、四或更大)。在此一般情况下，滤波器组BK10经实施为包含N个滤波器，且滤波器定向模块OM10经实施以产生用于这些滤波器的初始系数值的N个对应集合，且明确预期且进而揭示这些原理的此延伸。

举例来说，图17展示其中N和M两者的值为四的设备A100的实施方案A110的框图。设备A110包含滤波器组BK10的实施方案BK12，其包含四个滤波器，各自经布置以对输入通道MCS10-1、MCS10-2、MCS10-3和MCS10-4中的相应一者进行滤波以产生输出信号(或通道)OS10-1、OS10-2、OS10-3和OS10-4中的对应一者。设备A100还包含滤波器定向模块OM10的实施方案OM12，其经配置以产生用于滤波器组BK12的滤波器的系数值CV10、CV20、CV30和CV40的初始集合，以及滤波器调适模块AM10的实施方案AM12，其经配置以调适系数值的初始集合以产生值的对应经更新集合UV10、UV20、UV30和UV40。

在频率区间对入射角(也称为“波束模式”)方面，滤波器组BK10的滤波器的初始响应是通过由滤波器定向模块OM10根据MVDR波束成形算法(例如，以上表达式(1))产生的滤波器的系数值来确定。此响应可围绕入射角零(例如，麦克风阵列的轴线的方向)对称。可具有此波束模式在不同的初始条件集合(例如，来自所要源的声音和来自干扰源的声音的估计到达方向的不同集合)下的变化。

可能希望根据波束成形器设计实施滤波器定向模块OM10以产生系数值CV10和CV20，所述波束成形器设计是根据被视为对于特定应用适当的方向性与旁瓣产生之间的折中来选择。虽然以上实例描述频域波束成形器设计，但也明确预期且进而揭示滤波器定向模块OM10的替代实施方案，其经配置以根据时域波束成形器设计产生系数值集合。

滤波器定向模块OM10可经实施以产生系数值CV10和CV20(例如，通过执行如上所述的波束成形算法)或从存储装置检索系数值CV10和CV20。举例来说，滤波器定向模块OM10可经实施以通过根据源方向(例如，DA10和DA20)从预先计算的值集合(例如，波束)当中进行选择来产生初始系数值集合。可离线计算此些预先计算的系数值集合以覆盖在对应所要分辨率下的方向和/或频率的所要范围(例如，在从0、20或30度到150、160或180度的范围中针对5、10或20度的每一区间的不同系数值集合)。

由滤波器定向模块OM10产生的初始系数值(例如，CV10和CV20)可能不足以配置滤波器组BK10以提供源信号之间的所要水平的分离。即使这些初始值所基于的估计源方向(例如，方向DA10和DA20)完全准确，将滤波器简单地导引到某一方向也不可提供远离阵列的源之间的最佳分离，或特定远处源上的最佳聚焦。

滤波器更新模块UM10经配置以基于来自第一和第二输出信号OS10-1和OS10-2的信息更新第一和第二系数CV10和CV20的初始值以产生值UV10和UV20的对应经更新集合。举例来说，滤波器更新模块UM10可经实施以执行自适应BSS算法以调适由这些初始系数值描述的波束模式。

BSS方法根据例如Y_j(ω，l)＝W(ω)X_j(ω，l)等表达式使来自不同源的统计上独立的信号分量分离，其中X_j表示频域中的输入(混合)信号的第j通道，Y_j表示频域中的输出(经分离)信号的第j通道，ω表示频率区间索引，l表示时帧索引，且W表示滤波器系数矩阵。大体上，BSS方法可描述为根据例如以下表达式的解混矩阵W随着时间的调适：

W_l+γ(ω)＝W_i(ω)+μ[I-(φ(Y(ω，l))Y(ω，l)^H)]W_l(ω)， (2)

其中r表示调适间隔(或更新速率)参数，μ表示调适速度(或学习速率)因数，I表示单位矩阵，上标H表示共轭转置函数，Φ表示激活函数，且括号(·)表示时间平均运算(例如，在帧l到l+l-1上，其中L通常小于或等于r)。在一个实例中，μ的值为0.1。表达式(2)也称为BSS学习规则或BSS调适规则。激活函数Φ通常是非线性有界函数，其可经选择以近似所要信号的累积密度函数。在此方法中可使用的激活函数Φ的实例包含双曲正切函数、S型函数和符号函数。

滤波器更新模块UM10可经实施以根据如本文描述的BSS方法调适由滤波器定向模块OM10产生的系数值(例如，CV10和CV20)。在此情况下，输出信号OS10-1和OS10-2是频域信号Y的通道(例如，分别为第一和第二通道)；系数值CV10和CV20是解混矩阵W的对应行(例如，分别为第一和第二行)的初始值；且经调适值是在调适之后由解混矩阵W的对应行(例如，分别为第一和第二行)界定。

在用于频域中的调适的滤波器更新模块UM10的典型实施方案中，解混矩阵W是有限脉冲响应(FIR)多项式矩阵。此矩阵具有FIR滤波器的频率变换(例如，离散傅立叶变换)作为元素。在用于时域中的调适的滤波器更新模块UM10的典型实施方案中，解混矩阵W是FIR矩阵。此矩阵具有FIR滤波器作为元素。将了解在此些情况下，每一初始系数值集合(例如，CV10和CV20)将通常描述多个滤波器。举例来说，每一初始系数值集合可描述解混矩阵W的对应行的每一元素的滤波器。对于频域实施方案，每一初始系数值集合可针对多通道信号的每一频率区间描述解混矩阵W的对应行的每一元素的滤波器的变换。

BSS学习规则通常经设计以减少输出信号之间的相关。举例来说，BSS学习规则可经选择以最小化输出信号之间的相互信息，增加输出信号的统计独立性，或最大化输出信号的熵。在一个实例中，滤波器更新模块UM10经实施以执行称为独立分量分析(ICA)的BSS方法。在此情况下，滤波器更新模块UM10可经配置以使用如上所述的激活函数或例如激活函数φ(Y_j(ω，l))＝Y_j(ω，l)/|Y_j(ω，l)|。众所周知的ICA实施方案的实例包含Infomax、FastICA(在www-dot-cis-dot-hut-dot-fi/projects/ica/fastica在线可用)和JADE(特征矩阵的联合近似对角化)。

缩放和频率排列是BSS中通常遇到的两个模糊性。虽然由滤波器定向模块OM10产生的初始波束未经排列，但此模糊性可在ICA的情况下的调适期间出现。为了保持于未排列解决方案，可能希望改为配置滤波器更新模块UM10以使用独立向量分析(IVA)，使用源的复合ICA的变型，在其之前模型预期频率区间之间的相依性。在此方法中，激活函数Φ是多元激活函数，例如其中p具有大于或等于一的整数值(例如，1、2或3)。在此函数中，分母中的项涉及所有频率区间上的经分离源频谱。在此情况下，解决了排列模糊性。

由所得经调适系数值界定的波束模式可表现为回旋的而非笔直的。此些模式可预期提供比通常不足以用于远距离源的分离的由初始系数值CV10和CV20界定的波束模式好的分离。举例来说，已观察到从10-12dB到18-20dB的干扰消除的增加。由经调适系数值表示的解决方案也可预期比开环波束成形解决方案对麦克风响应(例如，增益和/或相位响应)中的失配更稳健。

虽然以上实例描述频域中的滤波器调适，但也明确预期且进而揭示经配置以在时域中更新系数值集合的滤波器更新模块UM10的替代实施方案。时域BSS方法免疫于排列模糊性，但其通常涉及使用比频域BSS方法长的滤波器，且在实践上可能不方便。

虽然使用BSS方法调适的滤波器大体上实现良好分离，但此算法也往往将额外回响引入到经分离信号中，尤其是对于远距离源。可能希望通过添加几何约束以增强特定到达方向上的单位增益来控制经调适BSS解决方案的空间响应。然而如上所述，相对于单个到达方向修整滤波器响应在回响环境中可能不足够。而且，在BSS调适中尝试增强波束方向(与空波束方向相反)可能产生问题。

滤波器更新模块UM10经配置以基于经调适值集合相对于方向的确定响应来调整所述多个第一系数的经调适值集合和所述多个第二系数的经调适值集合当中的至少一者。此经确定响应是基于具有指定性质的响应且在不同频率下可具有不同值。在一个实例中，经确定响应是最大响应(例如，指定性质是最大值)。对于待调整的每一系数j的集合且在待调整范围内的每一频率ω下，例如此最大响应R_j(ω)可根据例如以下表达式表达为经调适集合在所述频率下的多个响应当中的最大值：

R_{j} (ω) = \max_{θ = [- π, x]} | W_{j 1} (ω) D_{θ 1} (ω) + W_{j 2} (ω) D_{θ 2} (ω) + . . . + W_{jM} (ω) D_{θM} (ω) |, - - - (3)

其中W是经调适值的矩阵(例如，FIR多项式矩阵)，W_jm表示矩阵W在行j和列m处的元素，且列向量D_θ(ω)的每一元素m指示在方向θ处从远场源接收的信号在频率ω下的相位延迟，其可表达为

D_θm(ω)＝exp(-i×cos(θ)×pos(m)×ω/c)。

在另一实例中，经确定响应是最小响应(例如，经调适集合在每一频率下的多个响应当中的最小值)。

在一个实例中，针对在范围[-π，+π]中θ的64个均匀间隔的值评估表达式(3)。在其它实例中，可在不均匀间隔(例如，针对某一范围的边射方向比某一范围的端射方向更大的分辨率，或反之亦然)和/或在不同的关注区上(例如，[-π，0]、[-π/2，+π/2]、[-π，+π/2])，针对θ的不同数目的值(例如，16或32个均匀间隔的值，以五度或十度增量的值等等)评估表达式(3)。对于具有均匀麦克风间间距d的线性麦克风阵列，因数pos(m)可表达为(m-1)d，使得向量D_θ(ω)的每一元素m可表达为

D_θm(ω)＝exp(-i×cos(θ)×(m-1)d×ω/c)。

表达式(3)具有最大值的方向θ的值可预期针对频率ω的不同值来说不同。应注意，源方向(例如，DA10和/或DA20)可包含在评估表达式(3)所在的θ的值内，或者可与那些值分离(例如，针对其中源方向指示评估表达式(3)的θ的值中的邻近者之间的角度的情况)。

图18A展示滤波器更新模块UM10的实施方案UM20的框图。滤波器更新模块UM10包含调适模块APM10，其经配置以基于来自输出信号OS10-1和OS10-2的信息调适系数值CV10和CV20以产生值AV10和AV20的对应经调适值集合。举例来说，调适模块APM10可经实施以执行本文描述的BSS方法中的任一者(例如，ICA、IVA)。

滤波器更新模块UM20还包含调整模块AJM10，其经配置以基于经调适值集合AV10相对于方向的最大响应(例如，根据以上表达式(3))调整经调适值AV10以产生经更新值集合UV10。在此情况下，滤波器更新模块UM20经配置以产生经调适值AV20而无例如经更新值UV20的调整。(应注意，本文揭示的配置范围还包含与设备A100不同之处在于不调适也不调整系数值CV20的设备。此布置可例如用于其中信号在具有极少或无回响的直接路径上从对应源到达的情形。)

调整模块AJM10可经实施以通过正规化经调适值集合以在每一频率中相对于方向具有所要增益响应(例如，在最大值处的单位增益响应)来调整所述集合。在此情况下，调整模块AJM10可经实施以将经调适系数值j(例如，经调适值AV10)的集合的每一值除以集合的最大响应R_j(ω)以获得系数值的对应经更新集合(例如，经更新值UV10)。

对于其中所要增益响应并非单位增益响应的情况，调整模块AJM10可经实施以使得调整操作包含将增益因数应用于经调适值和/或经正规化值，其中增益因数值的值随着频率变化以描述所要增益响应(例如，以有利于源的基音频率的谐波和/或衰减可能由干扰者支配的一或多个频率)。对于其中经确定响应是最小响应的情况，调整模块AJM10可经实施以通过减去最小响应(例如，在每一频率下)或通过再映射集合以相对于方向在每一频率中具有所要增益响应(例如，在最小值处为零的增益响应)来调整经调适集合。

可能希望实施调整模块AJM10以针对系数值集合中的一者以上且可能全部(例如，针对至少已与局部化源相关联的滤波器)执行此正规化。图18B展示滤波器更新模块UM20的实施方案UM22的框图，包含调整模块AJM10的实施方案AJM12，其还经配置以基于经调适值集合AV20相对于方向的最大响应来调整经调适值AV20以产生经更新值集合UV20。

应了解，此相应调整可以相同方式延伸到额外经调适滤波器(例如，经调适矩阵W的其它行)。举例来说，如图17所示的滤波器更新模块UM12可经配置为滤波器更新模块UM22的实施方案以包含调适模块APM10的实施方案，其经配置以调适四个系数值集合CV10、CV20、CV30和CV40以产生四个对应经调适值集合，以及调整模块AJM12的实施方案，其经配置以基于对应经调适值集合的最大响应来产生经更新值集合UV30和UV40中的一者或两者的每一者。

传统音频处理解决方案可包含计算噪声参考和后处理步骤以应用所计算的噪声参考。如本文描述的自适应解决方案可经实施以较少地依赖于后处理且较多地依赖于滤波器调适来通过消除干扰的点源而改善干扰消除和去回响。回响可视为传递函数(例如，房间响应传递函数)，其具有随着频率变化的增益响应，从而衰减一些频率分量且放大其它频率分量。举例来说，房间几何形状可影响信号在不同频率下的相对强度，从而造成一些频率为支配性的。通过将滤波器约束为在从一个频率到另一频率变化的方向上(即，在每一频率下的主波束的方向上)具有所要增益响应，如本文描述的正规化操作可有助于通过补偿信号的能量在不同频率下在空间中扩散的程度差异来对信号进行解除回响。

为了实现最佳分离和解除回响结果，可能希望配置滤波器组BK10的滤波器以具有传递从某个到达角度范围内的源到达的能量且阻挡从其它角度的干扰源到达的能量的空间响应。如本文描述，可能希望配置滤波器更新模块UM10以使用BSS调适来允许滤波器找到接近于初始解决方案的更好解决方案。然而在无保留指向所要源的主要波束的约束的情况下，滤波器调适可允许来自相似方向的干扰源侵蚀主要波束(例如，通过产生宽空波束来从干扰源移除能量)。

滤波器更新模块UM10可经配置以使用经由受限BSS的自适应空波束成形来防止从源局部化解决方案的大偏离，同时允许校正小的局部化误差。然而，还可能希望增强对滤波器更新规则的空间约束，其防止滤波器改变方向到不同的源。举例来说，可能希望调适滤波器的过程包含在干扰源的到达方向上的空约束。此约束可能希望防止波束模式在低频率中改变其定向到所述干扰方向。

可能希望实施滤波器更新模块UM10(例如，以实施调适模块APM10)以调适BSS解混矩阵的仅一部分。举例来说，可能希望固定滤波器组BK10的滤波器中的一或多者。此约束可通过防止滤波器调适过程(例如，如以上表达式(2)中所示)改变系数矩阵W的对应行来实施。

在一个实例中，此约束从调适过程的开始应用，以便保留对应于待固定的每一滤波器的初始系数值集合(例如，由滤波器定向模块OM10产生)。此实施方案可例如适合于波束模式是指向静止干扰者的滤波器。在另一实例中，此约束在较晚时间应用以防止对经调适系数值集合的进一步调适(例如，在检测到滤波器已收敛后)。此实施方案可例如适合于波束模式是指向稳定回响环境中的静止干扰者的滤波器。应注意，一旦经正规化滤波器系数值集合已固定，调整模块AJM10便不必在集合保持固定的同时执行对那些值的调整，即使调整模块AJM10可继续调整其它系数值集合(例如，响应于调适模块APM10对它们的调适)。

替代地或另外，可能希望实施滤波器更新模块UM10(例如，以实施调适模块APM10)以在其频率范围的仅一部分上调适滤波器中的一或多者。滤波器的此固定可通过不调适对应于在所述范围之外的频率(例如，以上表达式(2)中的ω的值)的滤波器系数值来实现。

可能希望仅在含有有用信息的频率范围中调适滤波器中的一或多者(可能全部)中的每一者，且在另一频率范围中固定滤波器。待调适的频率范围可基于例如讲话者距麦克风阵列的预期距离、麦克风之间的距离(例如，以避免在空间滤波例如由于空间混叠而将无论如何都失败的频率中调适滤波器)、房间的几何形状和/或房间内的装置的布置等因数。举例来说，输入信号可不含有在特定频率范围(例如，高频范围)上的足够信息来支持所述范围上的正确BSS学习。在此情况下，可能希望继续使用用于此范围的初始(或另外最近的)滤波器系数值而无调适。

当源离开阵列三到四米或更远时，典型的是由所述源发射的极少高频能量将到达麦克风。由于在此情况中极少信息可在高频范围中可用于适当支持滤波器调适，因此可能希望在高频率中固定滤波器且仅在低频率中调适所述滤波器。

另外或替代地，根据例如在频带中当前可用的能量的量和/或当前讲话者距麦克风阵列的估计距离等因数，将调适哪些频率的决策可在运行时间期间改变，且可针对不同滤波器不同。举例来说，可能希望在一个时间在高达2kHz(或者3或5kHz)的频率下调适滤波器，且在另一时间在高达4kHz(或者5、8或10kHz)的频率下调适滤波器。应注意，调整模块AJM10不必调整针对特定频率固定且已经调整(例如，正规化)的滤波器系数值，即使调整模块AJM10可继续在其它频率下调整系数值(例如，响应于调适模块APM10对它们的调适)。

滤波器组BK10将经更新系数值(例如，UV10和UV20)应用于多通道信号的对应通道。经更新系数值是在如本文描述(例如，由调整模块AJM10)的调整之后解混矩阵W的对应行的值(例如，由调适模块APM10调适)，不同的是此些值已经如本文所述固定。每一经更新系数值集合将通常描述多个滤波器。举例来说，每一经更新系数值集合可描述用于解混矩阵W的对应行的每一元素的滤波器。

大体上，每一估计源方向(例如，DA10和/或DA20)可经测量、计算、预测、投影和/或选择且可指示来自所要源、干扰源或反射的声音的到达方向。滤波器定向模块OM10可经布置以从另一模块或装置(例如，从源局部化模块)接收估计源方向。此模块或装置可经配置以基于来自相机的图像信息(例如，通过执行面部和/或运动检测)和/或来自超声反射的测距信息而产生估计源方向。此模块或装置还可经配置以估计源的数目和/或跟踪一或多个运动中的源。图19A展示具有可用以俘获此图像信息的相机CM10的阵列R100的四麦克风实施方案R104的布置的一个实例的俯视图。

替代地，设备A100可经实施以包含方向估计模块DM10，其经配置以基于多通道信号MCS10内的信息和/或由滤波器组BK10产生的输出信号内的信息来计算估计源方向(例如，DA10和DA20)。在此些情况下，方向估计模块DM10还可经实施以基于如上所述的图像和/或测距信息来计算估计源方向。举例来说，方向估计模块DM10可经实施以使用应用于多通道信号MCS10的一般化交叉相关(GCC)算法或波束成形器算法来估计源DOA。

图20展示设备A100的实施方案A120的框图，A120包含方向估计模块DM10的实例，其经配置以基于多通道信号MCS10内的信息来计算估计源方向DA10和DA20。在此情况下，方向估计模块DM10和滤波器组BK10经实施以在同一域中操作(例如，以接收和处理多通道信号MCS10作为频域信号)。图21展示设备A120和A200的实施方案A220的框图，其中方向估计模块DM10经布置以在频域中从变换模块XM20接收来自多通道信号MCS10的信息。

在一个实例中，方向估计模块DM10经实施以利用使用相位变换的导引响应功率(SRP-PHAT)算法，基于多通道信号MCS10内的信息计算估计源方向。遵循最大似然源局部化的SRP-PHAT算法确定输出信号的相关处于最大的时间延迟。交叉相关通过每一区间中的功率正规化，其给出较好的稳健性。在回响环境中，SRP-PHAT可预期提供比竞争的源局部化方法好的结果。

SRP-PHAT算法可在频域中的接收信号向量X(即，多通道信号MCS10)方面表达

X(ω)＝[X₁(ω)，...，X_p(ω)]^T＝S(ω)G(ω)+S(ω)H(ω)+N(ω)，

其中S指示源信号向量，且增益矩阵G、房间传递函数向量H和噪声向量N可如下表达：

X(ω)＝[X₁(ω)，...，X_p(ω)]^T，

G (ω) = {[α_{1} (ω) e^{- j {ωτ}_{1}}, . . ., α_{p} (ω) e^{- j {ωτ}_{p}}]}^{T},

H(ω)＝[H₁(ω)，...，H_p(ω)]^T，

N(ω)＝[N₁(ω)，...，N_p(ω)]^T。

在这些表达式中，P表示传感器的数目(即，输入通道的数目)，α表示增益因数，且τ表示从源的传播时间。

在此实例中，组合噪声向量N^c(ω)＝S(ω)H(ω)+N(ω)可假定为具有以下零平均、频率独立的联合高斯分布：

p (N^{c} (ω)) = ρexp {- \frac{1}{2} {[N^{c} (ω)]}^{H} Q^{- 1} (ω) N^{c} (ω)},

其中Q(ω)是协方差矩阵且ρ是常数。源方向可通过最大化以下表达式来估计

J_{2} = {&Integral;}_{ω} \frac{{[G^{H} (ω) Q^{- 1} (ω) X (ω)]}^{H} G^{H} (ω) Q^{- 1} (ω) X (ω)}{G^{H} (ω) Q^{- 1} (ω) G (ω)} dω .

在N(ω)＝0的假定下，此表达式可写为

J_{2} = \frac{1}{γ^{P}} &Integral; {| Σ_{i = 1}^{p} \frac{X_{i} (ω) e^{{jωτ}_{i}}}{| X_{i} (ω) |} |}^{2} dω,

其中0＜γ＜1是设计常数，且最大化表达式(4)的右侧的时间延迟τ_i指示源到达方向。

图22展示从在一范围的频率ω上不同的两源情形的DOA估计使用SRP-PHAT的此实施方案得到的曲线图的实例。在这些曲线图中，y轴指示的值且x轴指示相对于阵列轴线的估计源到达方向θ_i(＝cos^-1(τ_ic/d))。在每一曲线图中，每一线对应于范围中的不同频率，且每一曲线图围绕麦克风阵列的端射方向对称(即，θ＝0)。左上方曲线图展示在距阵列四米的距离处两个源的直方图。右上方曲线图展示在距阵列四米的距离处两个靠近源的直方图。左下方曲线图展示在距阵列2.5米的距离处两个源的直方图。右下方曲线图展示在距阵列2.5米的距离处两个靠近源的直方图。可见这些曲线图中的每一者指示估计源方向为角度范围，其可通过重心而不是所有频率上的单个峰来表征。

在另一实例中，方向估计模块DM10经实施以使用盲源分离(BSS)算法，基于多通道信号MCS10内的信息来计算估计源方向。BSS方法往往产生可靠的空波束以从干扰源移除能量，且这些空波束的方向可用以指示对应源的到达方向。方向估计模块DM10的此实施方案可经实施以根据例如以下表达式相对于麦克风j和j′的阵列的轴线在频率f下计算源i的到达方向(DOA)

θ_{i, {jj}^{'}} (f) = \cos^{- 1} (\arg ({[W^{- 1}]}_{ji} / {[W^{- 1}]}_{j^{'} i}) / {2 πfc}^{- 1} | | p_{j} - p_{j^{'}} | |), - - - (5)

其中W表示解混矩阵且p_j和分别表示麦克风j和j′的空间坐标。在此情况下，可能希望与如本文描述的由滤波器更新模块UM10更新的滤波器分开地实施方向估计模块DM10的BSS滤波器(例如，解混矩阵W)。

图23展示一组四个算法的实例，其针对四行解混矩阵W的对应实例各自指示表达式(5)映射到每一入射角(相对于阵列轴线)的频率区间的数目，其中W是基于多通道信号MCS10内的信息且是由方向估计模块DM10的实施方案根据如本文描述的IVA调适规则来计算。在此实例中，输入多通道信号含有来自分开大约40到60度的角度的两个有效源的能量。左上方曲线图展示IVA输出1(指示源1的方向)的直方图，且右上方曲线图展示IVA输出2(指示源2的方向)的直方图。可见这些曲线图中的每一者指示估计源方向为角度范围，其可通过重心而非所有频率上的单个峰来表征。底部曲线图展示IVA输出3和4的直方图，其阻挡来自两个源的能量且含有来自回响的能量。

在另一实例中，方向估计模块DM10经实施以基于多个不同频率分量中的每一者的多通道信号MCS10的通道之间的相位差来计算估计源方向。在远场中的单个点源(例如，使得如图19B所示的平面波前的假设有效)且无回响的理想情况下，相位差与频率的比率相对于频率恒定。参见图15B中说明的模型，方向估计模块DM10的此实施方案可经配置以将源方向θ_i计算为量的逆余弦(也称为反余弦)，其中c表示声音的速度(近似340米/秒)，d表示麦克风之间的距离，表示两个麦克风通道的对应相位估计之间的以弧度计的差，且f_i是相位估计所对应的频率分量(例如，对应FFT样本的频率，或者对应子带的中心或边缘频率)。

图像中的对象深度确定

以下描述用于从图像确定对象深度信息的示范性配置。在第一配置中，使用多相机图像视差技术来确定图像中的对象的估计深度。在第二配置中，可使用单相机自动聚焦技术来估计图像场景中的对象范围。通过包含估计关键点深度信息可使SIFT关键点搜索更稳健。

图24是经配置以在图像或视频俘获期间检测场景中的对象的视差的图像俘获装置1350的特定配置的图。图像俘获装置1350包含耦合到图像处理模块1356的图像传感器对1352。图像处理模块1356耦合到外部存储器1362。图像处理模块1356包含同步与介接模块1354、图像处理功能模块1358、视差检测模块1342和编码模块1360。

图像传感器对1352经配置以将图像数据1370提供到图像处理模块1356。对象深度确定可使用对应于单个场景的第一图像和第二图像来执行。第一图像可对应于由第一传感器(例如，右传感器)对场景的第一图像俘获，且第二图像可对应于由第二传感器(例如，左传感器)对场景的第二图像俘获，其中第二图像俘获与第一图像俘获大体上是同时的，例如由图24中描绘的传感器对1352进行。

同步与介接模块1354经配置以将数据1372提供到图像处理功能模块1358。图像处理功能模块1358经配置以将经处理图像数据1380提供到视差检测模块1342。编码模块1360经配置以接收图像/视频数据1382且产生以对象深度数据1384编码的图像/视频数据。

视差检测模块1342可经配置以确定对应于由图像传感器对1352俘获的场景内的对象的视差值。在特定配置中，视差检测模块1342并入有场景特定的对象检测或关键点检测和视差确定功能性。

图像传感器对1352在代表视图中说明为一对传感器，包含右传感器(即，俘获与由观看者的右眼感知的场景相关联的图像的第一传感器)和左传感器(即，俘获与由观看者的左眼感知的场景相关联的图像的第二传感器)。图像数据1370包含由左传感器产生的左图像数据和由右传感器产生的右图像数据。每一传感器说明为具有在水平方向上延伸的多行光敏组件和在垂直方向上延伸的多列光敏组件。左传感器和右传感器沿着水平方向在距彼此距离d处大体上对准。如本文使用，图像数据内的“水平”方向是右图像数据中的对象的位置与左图像数据中的同一对象的位置之间的位移方向。

图25是图24的系统中可包含的图像处理系统1440的特定实施例的图。处理系统1440经配置以接收输入图像数据1404且产生输出图像数据1428。处理系统1440可响应于经由校准输入1450接收的相机校准参数1406。

图像处理系统1440包含精细几何形状补偿模块1410、关键点检测模块1412、关键点匹配模块1414和深度计算模块1416。

几何形状补偿模块1410经配置以经由数据路径1470接收输入图像数据1404且产生经补偿图像数据1454。几何形状补偿模块1410可使用来自相机校准参数1406的数据且可调整输入图像数据1404以校正可能不利地影响图像数据1404的再现的失准、像差或其它校准条件。为了说明，几何形状补偿模块1410可在任意网格上有效地执行图像数据1404的再取样以针对校准参数1406进行调整。

在一配置中，其中处理系统1440可在计算装置中实施且相机校准参数1406可例如在图像/视频数据文件的标头中与输入图像数据1404一起接收。在一配置中，其中处理系统1440在图像俘获装置中实施，例如图24的图像俘获装置1350，相机校准参数1406可对应于图像俘获装置的图像传感器对且可存储在精细几何形状补偿模块1410可存取的存储器中。

关键点检测模块1412经配置以接收经补偿图像数据1454且产生关键点位置数据1456。关键点检测模块1412经配置以识别经补偿图像数据1454中的独特点。举例来说，独特点可对应于场景中的对象的垂直边缘或场景的在水平方向上具有高频率分量的其它点。虽然图像数据中的此些独特元素在此称为“关键点”或“对象”，但应了解，此些所识别元素可对应于个别像素、像素群组、分数像素部分、其它图像分量或其任一组合。举例来说，关键点可对应于所接收图像数据的具有子取样亮度分量的像素且可使用垂直边缘检测滤波器来检测。

关键点匹配模块1414经配置以接收关键点位置数据1454且产生对应于所识别关键点的视差数据1458。关键点匹配模块1414可经配置以在搜索范围内在关键点周围搜索且产生视差向量的可靠性测量。

深度计算模块1416经配置以接收视差数据1458且测定指示关键点距传感器1352的估计距离的数据1460。

在处理系统1440的操作期间，执行范围估计过程。经设计以估计和补偿俘获图像数据1404的两个传感器之间的相对位置的校准程序可离线执行(例如，在向装置的最终用户递送之前)，但几何形状补偿可针对图像数据1404的每个帧执行。

处理以关键点检测(例如，在关键点检测模块1412处)继续。选择图像的一组对象或像素(关键点)，其可用以可靠地估计视差。可实现估计视差中的高置信度，且可使用场景中的并非所有区或对象。关键点集合的选择可包含图像子取样以产生适当分辨率。可应用图像高通滤波器(例如，仅寻找对应于垂直特征的水平频率)，之后是取得通过应用滤波器产生的结果的平方或绝对值。可将超过预定阈值的结果识别为潜在关键点。可对潜在关键点执行关键点修剪过程以选择某个局部邻域内的最佳关键点(例如，对应于预定区内的所有关键点的最大滤波器结果的关键点)。

关键点匹配可使用检测到的关键点执行(例如，在关键点匹配模块1414处)。可确定第一图像(例如，左图像或右图像)中的关键点与第二图像(例如，左图像和右图像中的另一者)中的对应区域之间的对应关系。可产生可靠性估计器，其连同关键点选择一起可显著改善视差估计准确性。可使用经正规化交叉协方差来执行匹配以使得能够确定在左图像与右图像中的关键点之间匹配有多接近。可靠性量度可基于经正规化交叉协方差。在特定实施例中，用于在第二图像中定位对应于第一图像中的关键点的关键点的搜索范围仅是水平的，因为用于传感器校准的图像补偿已经执行，且搜索范围经调整以仅覆盖第一图像中的关键点周围的某一范围。视差值是从这些比较计算。

图26A和26B是与所感知对象深度相关的对象视差的说明性实施例的图。对象深度确定依赖于将不同图像引导到每一只眼1504、1506。目的是从左和右(L/R)图像再产生深度错觉，因为对象视差(水平移位)与深度相关。图26A展示对应于被感知经过显示表面1524的对象1530的正视差1550。视差1550指示左图像中的对象的位置1520与右图像中的对象的位置1522之间的距离。观察者将融合左图像中的对象1530的图像与右图像中的对象1530的图像而感知到处于左眼1504的视线1560与右眼1506的视线1562的交叉点处的对象1530。

图26B展示对应于被感知为在显示表面1524前方的对象1530的负视差1550。视差1550指示左图像中的对象的位置1520与右图像中的对象的位置1522之间的距离。观察者将融合左图像中的对象1530的图像与右图像中的对象1530的图像而感知到处于左眼1504的视线1560与右眼1506的视线1562的交叉点处的在显示表面1534前方的对象1530。

从两眼所见的对象位移由视觉皮层解译为深度。两个所俘获图像之间的视差将取决于场景。感测场景深度可用以将图像中的关键点搜索缩窄到仅在特定深度处或附近的对象，因此增加对象辨识的可靠性。

由深度计算模块602执行的场景范围估计可经一般化为左图像与右图像之间的稀疏运动向量估计。场景范围估计过程可包含关键(独特)点识别。不需要垂直变化，因为仅存在(且将测量)水平移位。使用水平变化(具有某个垂直分量的边缘)。在一些配置中，可在不同分辨率下检测关键点。对象范围估计过程还可包含关键点匹配。关键点匹配可使用经正规化交叉协方差执行，以便为不取决于光级的且产生稳健的视差可靠性度量。因此，使关键点与不同分辨率匹配可能是不必要的。

音频场景分解

声学分解子系统22可采用本部分中描述的技术来分解从场景记录的音频信号。此处揭示使用基函数库存和稀疏恢复技术来分解音频信号，其中基函数库存包含与在音符的等待中音符的谱的改变相关的信息。此分解可用以支持信号的分析、编码、再生和/或合成。此处展示包含来自和声(即，非打击)和打击乐器的声音的混合的音频信号的定量分析的实例。

所揭示的技术可经配置以将所俘获音频信号处理为一系列片段。典型的片段长度范围是从大约5或10毫秒到大约40或50毫秒，且片段可为重叠的(例如，邻近片段重叠25％或50％)或不重叠的。在一个特定实例中，将信号划分为一系列不重叠的片段或“帧”，其各自具有10毫秒的长度。通过此方法处理的片段也可为通过不同操作处理的较大片段的片段(即，“子帧”)，或反之亦然。

可能希望分解音乐场景以从两个或两个以上乐器和/或话音信号的混合提取个别音符/音高分布。潜在使用情况包含用多个麦克风录制音乐会/视频游戏场景，用空间/稀疏恢复处理分解乐器和话音，提取音高/音符分布，部分地或完全地增频混合个别源与经校正音高/音符分布。此些操作可用以将音乐应用程序(例如，高通的QUSIC应用程序、例如摇滚乐队或吉他英雄等视频游戏)的能力延伸到多演奏者/歌手情形。

可能希望使得音乐应用程序能够处理其中一个以上歌手在唱歌和/或多个乐器同时演奏的情形(例如，如图34所示)。可能希望此能力来支持现实音乐录制情形(多音高场景)。虽然用户可能希望所述能力来分开地编辑且再合成每一源，但产生音轨可能必须同时记录所述源。

本发明描述可用以实现针对其中多个声音源可同时在作用中的音乐应用的使用情况的方法。此方法可经配置以使用基于基函数库存的稀疏恢复(例如，稀疏分解)技术来分析音频混合信号。

可能希望通过找到用于一组基函数的激活系数的最稀疏向量(例如，使用有效稀疏恢复算法)来将混合信号谱分解为源分量。所述组基函数可通过图2的图像/视频处理块54缩减到被指示为在场景中存在的特定类型的乐器。可使用(例如，与所述组基函数一起)激活系数向量来重构混合信号或重构混合信号的选定部分(例如，从一或多个选定乐器)。还可能希望后处理稀疏系数向量(例如，根据量值和时间支持)。

图27A展示分解音频信号的方法M100的流程图。方法M100包含任务T100，其包含基于来自音频信号的帧的信息计算一频率范围上的对应信号表示。方法M100还包含任务T200，其基于由任务T100计算的信号表示和多个基函数计算激活系数向量，其中激活系数中的每一者对应于所述多个基函数中的不同一者。

任务T100可经实施以将信号表示计算为频域向量。此向量的每一元素可指示可根据梅尔或巴克尺度获得的一组子带中的对应一者的能量。然而，此向量通常是使用例如快速傅立叶变换(FFT)等离散傅立叶变换(DFT)或短时间傅立叶变换(STFT)来计算。此向量可具有例如64、128、256、512或1024个区间的长度。在一个实例中，音频信号具有8kHz的取样速率，且0到4kHz频带由用于32毫秒长度的每一帧的256个区间的频域向量表示。在另一实例中，信号表示是在音频信号的重叠片段上使用经修改离散余弦变换(MDCT)来计算。

在又一实例中，任务T100经实施以将信号表示计算为倒谱系数(例如，梅尔频率倒谱系数或MFCC)的向量，其表示帧的短期功率谱。在此情况下，任务T100可经实施以通过将梅尔尺度滤波器组应用于帧的DFT频域向量的量值，取得滤波器输出的对数，且取得对数值的DCT，来计算此向量。此程序例如在标题为“STQ：DSR-前端特征提取算法；压缩算法”(欧洲电信标准协会，2000)的ETSI文档ES 201108中描述的Aurora标准中描述。

乐器通常具有良好界定的音色。乐器的音色可通过其谱包络(例如，在一频率范围上的能量分布)来描述，使得可使用对个别乐器的谱包络进行编码的基函数库存来对不同乐器的一范围的音色进行建模。

每一基函数包括一范围的频率上的对应信号表示。可能希望这些信号表示中的每一者具有与由任务T100计算的信号表示相同的形式。举例来说，每一基函数可为长度为64、128、256、512或1024个区间的频域向量。或者，每一基函数可为例如MFCC的向量的倒谱域向量。在又一实例中，每一基函数是小波域向量。

基函数库存A可包含用于每一乐器n(例如，钢琴、长笛、吉他、鼓等等)的基函数集合A_n。举例来说，乐器的音色大体上是依赖于音高的，使得用于每一乐器n的基函数集合A_n将通常包含用于在某个所要音高范围上的每一音高的至少一个基函数，所述所要音高范围可在一个乐器与另一乐器之间不同。对应于经调谐到例如半音音阶的乐器的基函数集合可包含用于每八度十二个音高中的每一者的不同基函数。用于钢琴的基函数集合可包含用于钢琴的每一键的不同基函数，总共88个基函数。在另一实例中，用于每一乐器的基函数集合包含用于所要音高范围中的每一音高的不同基函数，例如五个八度(例如，56个音高)或六个八度(例如，67个音高)。这些基函数集合An可为不相连的，或者两个或两个以上集合可共享一或多个基函数。

集合的每一基函数可在不同对应音高下对乐器的音色进行编码。在音乐信号的上下文中，人话音可视为乐器，使得库存可包含用于一或多个人话音模型中的每一者的基函数集合。

基函数库存可基于从特别记录个别乐器录音学习的通用乐器音高数据库，和/或基于混合的经分离流(例如，使用例如独立分量分析(ICA)、期望最大化(EM)等等的分离方案)。

用于处理音频的基函数集合的选择可基于由图2的图像/视频处理块54提供的乐器候选列表。举例来说，基函数集合可仅限于通过图像/视频处理块54的对象辨识过程在场景中识别的那些乐器。

基于由任务T100计算的信号表示和来自库存A的多个基函数B，任务T200计算激活系数向量。此向量的每一系数对应于所述多个基函数B中的不同一者。举例来说，任务T200可经配置以根据所述多个基函数B计算向量以使得其指示信号表示的最可能模型。图32说明此模型Bf＝y，其中所述多个基函数B是矩阵，使得B的列是个别基函数，f是基函数激活系数的列向量，且y是所记录混合信号的帧(例如，呈谱图频率向量形式的5、10或20毫秒帧)的列向量。

任务T200可经配置以通过解决线性编程问题来恢复音频信号的每一帧的激活系数向量。可用以解决此问题的方法的实例包含非负矩阵因式分解(NNMF)。基于NNMF的单通道参考方法可经配置以使用期望最大化(EM)更新规则(例如，下文所述)来同时计算基函数和激活系数。

可能希望通过找到已知或部分已知的基函数空间中的最稀疏激活系数向量来将音频混合信号分解为个别乐器(可包含一或多个人话音)。举例来说，任务T200可经配置以使用已知乐器基函数集合，通过找到基函数库存中的最稀疏激活系数向量(例如，使用有效稀疏恢复算法)来将输入信号表示分解为源分量(例如，一或多个个别乐器)。

已知对线性方程式的未确定系统(例如，具有比方程式多的未知数的系统)的最小L1范数解经常也是对所述系统的最稀疏解。经由L1范数的最小化的稀疏恢复可如下执行。

我们假定我们的目标向量f_o是长度N的稀疏向量，其具有K＜N个非零条目(即，“K稀疏”)，且投影矩阵(即，基函数矩阵)A对于大小～K的集合是非相干的(类似于随机)。我们观察信号y＝Af_o。随后在Af＝y下求解(其中界定为)将确切地恢复f_o。而且，我们可通过求解易处理的程序来从M≥K.logN不相干测量值恢复f_o。测量值的数目M近似等于有效分量的数目。

一种方法是使用来自压缩性感测的稀疏恢复算法。在压缩性感测(也称为“压缩感测”)的一个实例中，信号恢复Φx＝y，y是长度M的观测信号向量，x是作为y的浓缩表示的长度N的稀疏向量，其具有K＜N个非零条目(即，“K稀疏模型”)，且Φ是大小M x N的随机投影矩阵。随机投影Φ不是满秩的，但其对于稀疏/可压缩信号模型以高概率可逆(即，其解决病态逆问题)。

激活系数向量f可视为包含用于每一乐器n的子向量f_n，其包含用于对应基函数集合A_n的激活系数。这些乐器特定的激活子向量可独立地处理(例如，在后处理操作中)。举例来说，可能希望加强一或多个稀疏性约束(例如，至少一半的向量元素为零，乐器特定的子向量中的非零元素的数目不超过最大值等等)。激活系数向量的处理可包含对用于每一帧的每一非零激活系数的索引号进行编码，对每一非零激活系数的索引和值进行编码，或对整个稀疏向量进行编码。此信息可(例如，在另一时间和/或位置)用以使用所指示有效基函数来再生混合信号，或再生混合信号的仅特定部分(例如，仅由特定乐器演奏的音符)。

由乐器产生的音频信号可经建模为称为音符的一系列事件。演奏音符的和声乐器的声音可在时间上划分为不同的区：举例来说，开始阶段(也称为起音)，静止阶段(也称为延持)，和结束阶段(也称为释音)。音符的时间包络的另一描述(ADSR)包含位于起音与延持之间的额外衰减阶段。在此上下文中，音符的持续时间可经界定为从起音阶段的开始到释音阶段的结束(或到终止音符的另一事件，例如同一弦上的另一音符的开始)的间隔。音符假定为具有单个音高，但库存也可经实施以对具有单个起音和多个音高(例如，由例如颤音或滑音等音高弯曲效应产生)的音符进行建模。一些乐器(例如，钢琴、吉他或竖琴)可在称为和弦的事件中每次产生一个以上音符。

由不同乐器产生的音符在延持阶段可具有相似的音色，使得可能难以识别在此周期期间正在演奏哪一乐器。然而音符的音色可预期从一个阶段到另一阶段变化。举例来说，识别作用中的乐器在起音或释音阶段可比在延持阶段更容易。

为了增加激活系数向量将指示适当基函数的可能性，可能希望使基函数之间的差最大化。举例来说，可能希望基函数包含与在时间上音符的谱的改变相关的信息。

可能希望基于音色随着时间的改变来选择基函数。此方法可包含将与音符的音色的此时域演进相关的信息编码到基函数库存中。举例来说，用于特定乐器n的基函数集合A_n可包含在每一音高处的两个或两个以上对应信号表示，使得这些信号表示中的每一者对应于音符的演进中的不同时间(例如，一个用于起音阶段，一个用于延持阶段，且一个用于释音阶段)。这些基函数可从演奏音符的乐器的录音的对应帧提取。

图27C展示根据一般配置用于分解音频信号的设备MF100的框图。设备MF100包含用于基于来自音频信号的帧的信息计算一频率范围上的对应信号表示的装置F100(例如，如本文参考任务T100所述)。设备MF100还包含用于基于由装置F100计算的信号表示和多个基函数计算激活系数向量的装置F200，其中激活系数中的每一者对应于所述多个基函数中的不同一者(例如，如本文参考任务T200所述)。

图27D展示根据另一一般配置用于分解音频信号的设备A100的框图，其包含变换模块2100和系数向量计算器2200。变换模块2100经配置以基于来自音频信号的帧的信息计算一频率范围上的对应信号表示(例如，如本文参考任务T100所述)。系数向量计算器2200经配置以基于由变换模块2100计算的信号表示和多个基函数计算激活系数向量，其中激活系数中的每一者对应于所述多个基函数中的不同一者(例如，如本文参考任务T200所述)。

图27B展示方法M100的实施方案M200的流程图，其中基函数库存包含用于每一音高下的每一乐器的多个信号表示。这些多个信号表示中的每一者描述在频率范围上的多个不同能量分布(例如，多个不同音色)。库存还可经配置以包含用于不同时间相关模态的不同多个信号表示。在一个此实例中，库存包含用于在每一音高下弯曲的弦的多个信号表示以及用于在每一音高下弹动(例如，指弹)的弦的不同多个信号表示。

方法M200包含任务T100的多个实例(在此实例中，任务T100A和T100B)，其中每一实例基于来自音频信号的对应不同帧的信息计算一频率范围上的对应信号表示。各种信号表示可经串联，且同样，每一基函数可为多个信号表示的串联。在此实例中，任务T200使混合帧的串联匹配于在每一音高下的信号表示的串联。图33展示图32的模型Bf＝y的修改B′f＝y的实例，其中混合信号y的帧p1、p2经串联以用于匹配。

库存可经构造以使得从训练信号的连续帧取得在每一音高下的多个信号表示。在其它实施方案中，可能希望在每一音高下的多个信号表示在时间上横跨较大的窗(例如，以包含在时间上分离而非连续的帧)。举例来说，可能希望在每一音高下的多个信号表示包含来自起音阶段、延持阶段和释音阶段当中的至少两者的信号表示。通过包含关于音符的时域演进的更多信息，可增加用于不同音符的基函数集合之间的差异。

图28A展示方法M100的实施方案M300的流程图，其包含强调片段的高频率的任务T300。在此实例中，任务T100经布置以在预强调之后计算片段的信号表示。图29A展示方法M200的实施方案M400的流程图，其包含任务T300的多个实例T300A、T300B。在一个实例中，预强调任务T300增加200Hz以上的能量与总能量的比率。

图28B展示设备A100的实施方案A300的框图，其包含预强调滤波器2300(例如，高通滤波器，例如一阶高通滤波器)，其经布置以对变换模块2100的音频信号上游执行高频强调。图28C展示设备A100的另一实施方案A310的框图，其中预强调滤波器2300经布置以对变换系数执行高频预强调。在这些情况下，也可能希望对所述多个基函数B执行高频预强调(例如，高通滤波)。

音符可包含着色效应，例如颤音和/或颤声。颤音是频率调制，其中调制速率通常在从4或5到7、8、10或12赫兹的范围内。由于颤音所致的音高改变可针对歌手在0.6到2个半音之间变化，且针对管乐器和弦乐器通常小于+/-0.5个半音(例如，针对弦乐器在0.2与0.35个半音之间)。颤声是通常具有相似调制速率的振幅调制。

可能难以在基函数库存中对此些效应进行建模。可能希望检测此些效应的存在。举例来说，颤音的存在可由4到8Hz范围内的频域峰指示。还可能希望记录检测到的效应的等级的量度(例如，作为此峰的能量)，因为此特性可用以在再生期间恢复所述效应。针对颤声检测和量化可在时域中执行相似的处理。一旦已检测且可能量化效应，便可能希望通过针对颤音随着时间平滑频率或通过针对颤声随着时间平滑振幅来移除调制。

图30B展示设备A100的实施方案A700的框图，其包含调制等级计算器(MLC)。MLC经配置以计算且可能记录如上所述的音频信号的片段中的检测到的调制的量度(例如，时域或频域中检测到的调制峰的能量)。

本发明描述可用以实现用于其中多个源可能同时在作用中的音乐应用的使用情况的方法。在此情况下，可能希望在计算激活系数向量之前在可能的情况下分离源。为了实现此目标，提出多通道和单通道技术的组合。

图29B展示方法M100的实施方案M500的流程图，其包含将信号分离为空间群集的任务T500。任务T500可经配置以将源隔离为尽可能多的空间群集。在一个实例中，任务T500使用多麦克风处理来将所记录声学情形分离为尽可能多的空间群集。此处理可基于麦克风信号之间的增益差和/或相位差，其中此些差可跨整个频带或在多个不同频率子带或频率区间中的每一者处评估。

单独的空间分离方法可能不足以实现所要分离水平。举例来说，一些源可能太靠近或另外相对于麦克风阵列次最优地布置(例如，多个小提琴手和/或和声乐器可位于一个角落；打击乐手通常位于后方)。在典型的乐队情形中，源可位于靠近在一起处或甚至在其它源后方(例如，如图34所示)，使得单独使用空间信息来处理由处于到乐队的相同一般方向上的麦克风阵列俘获的信号可能无法将所有源彼此区别开来。任务T100和T200可使用如本文描述的单通道基于基函数库存的稀疏恢复(例如，稀疏分解)技术来分析个别空间群集以分离个别乐器(例如，如图34所示)。

为了计算容易性，可能希望所述多个基函数B相当多地小于基函数的库存A。可能希望针对给定分离任务缩窄库存，从大的库存开始。基函数集合B的选择可基于所记录场景中的乐器的视觉辨识来减少。举例来说，B基函数可限于与由图2的图像/视频处理块54提供的乐器候选列表对应的那些基函数或由图6的系统500识别的那些基函数。

在另一实例中，此减少也可通过如下方式执行：确定片段是否包含来自打击乐器的声音或来自和声乐器的声音，且从库存选择适当的多个基函数B用于匹配。与用于谐音的水平线相比，打击乐器往往具有脉冲状谱图(例如，垂直线)。

和声乐器可通常在谱图中通过某一基本音高和相关联音色以及此和声模式的对应较高频延伸来表征。因此在另一实例中，可能希望通过仅分析这些谱的较低八度来减少计算任务，因为它们的较高频率复制可基于低频率谱来预测。在匹配之后，有效基函数可经外推到较高频率且从混合信号减去以获得残余信号，所述残余信号可经编码和/或进一步分解。

此减少也可通过图形用户接口中的用户选择和/或通过基于第一稀疏恢复运行或最大似然拟合对最可能乐器和/或音高的预分类来执行。举例来说，可执行稀疏恢复操作的第一运行来获得经恢复稀疏系数的第一集合，且基于此第一集合，可缩窄适用的音符基函数以用于稀疏恢复操作的另一运行。

一种减少方法包含通过测量某些音高间隔中的稀疏性得分来检测某些乐器音符的存在。此方法可包含基于初始音高估计来精炼一或多个基函数的谱形状，且使用经精炼基函数作为方法M100中的所述多个基函数B。

减少方法可经配置以通过测量投影到对应基函数中的音乐信号的稀疏性得分来识别音高。给定最佳音高得分，可优化基函数的振幅形状以识别乐器音符。有效基函数的减少集合可随后用作方法M100中的所述多个基函数B。

图30A展示包含基函数的第一轮库存减少的方法M100的实施方案M600的流程图。方法M600包含任务T600，其计算非线性频域中的片段的信号表示(例如，其中邻近元素之间的频率距离随着频率而增加，如梅尔或巴克尺度中)。在一个实例中，任务T600经配置以使用常数Q变换计算非线性信号表示。方法M600还包含任务T700，其基于非线性信号表示和多个类似非线性基函数计算第二激活系数向量。基于来自第二激活系数向量(例如，来自经激活基函数的身份，其可指示有效音高范围)的信息，任务T800选择所述多个基函数B用于在任务T200中使用。明确注意到，方法M200、M300和M400也可经实施以包含此些任务T600、T700和T800。

图31展示包含库存减少模块(IRM)的设备A100的实施方案A800的框图，所述IRM经配置以从较大基函数集合(例如，从库存)选择所述多个基函数。模块IRM包含第二变换模块2110，其经配置以计算非线性频域中的片段的信号表示(例如，根据常数Q变换)。模块IRM还包含第二系数向量计算器2210，其经配置以基于非线性频域中的所计算信号表示和如本文描述的第二多个基函数来计算第二激活系数向量。模块IRM还包含基函数选择器，其经配置以基于来自如本文描述的第二激活系数向量的信息从基函数库存当中选择所述多个基函数。

可能希望方法M100包含开始检测(例如，检测音符的开始)和后处理以精炼和声乐器稀疏系数。激活系数向量f可视为包含用于每一乐器n的对应子向量f_n，其包含用于乐器特定的基函数集合B_n的激活系数，且这些子向量可独立地处理。

一般开始检测方法可基于谱量值(例如，能量差)。举例来说，此方法可包含基于谱能量和/或峰斜率来找到峰。

可能还希望检测每一个别乐器的开始。举例来说，和声乐器当中的开始检测的方法可基于时间上的对应系数差。在一个此类实例中，如果针对当前帧的乐器n的系数向量(子向量f_n)的最高量值元素的索引不等于针对前一帧的乐器n的系数向量的最高量值元素的索引，那么触发和声乐器n的开始检测。此操作可针对每一乐器反复。

可能希望执行和声乐器的稀疏系数向量的后处理。举例来说，对于和声乐器，可能希望保持具有高量值和/或满足指定准则(例如，充分尖锐)的起音分布的对应子向量的系数，和/或移除(例如，归零)残余系数。

对于每一和声乐器，可能希望后处理每一开始帧处(例如，当指示开始检测时)的系数向量，使得具有支配性量值和可接受起音时间的系数得到保持且残余系数被归零。起音时间可根据例如随着时间的平均量值等准则来评估。在一个此类实例中，如果系数的当前平均值小于系数的过去平均值(例如，如果在例如从帧(t-5)到帧(t+4)的当前窗上系数的值之和小于在例如从帧(t-15)到帧(t-6)的过去窗上系数的值之和)，那么针对当前帧t的乐器的每一系数被归零(即，起音时间不是可接受的)。在每一开始帧处和声乐器的系数向量的此后处理还可包含保持具有最大量值的系数且将其它系数归零。对于在每一非开始帧的每一和声乐器，可能希望后处理系数向量以仅保持在前一帧中的值为非零的系数，且将向量的其它系数归零。

如上文提到，可使用EM算法来产生初始基函数矩阵和/或更新基函数矩阵(例如，基于激活系数向量)。现在描述用于EM方法的更新规则的实例。给定谱图V_ft，我们希望针对每一时间帧估计谱基向量P(f|z)和权重向量P_t(z)。这些分布为我们给出矩阵分解。

如下应用EM算法：首先，随机地初始化权重向量P_t(z)和谱基向量P(f|z)。随后在以下步骤之间反复直到收敛：1)期望(E)步骤-给定谱基向量P(f|z)和权重向量P_t(z)，估计后验分布P_t(z|f)。此估计可如下表达：

P_{t} (z | f) = \frac{P_{t} (f | z) P (z)}{Σ_{z} P_{t} (f | z) P (z)} .

2)最大化(M)步骤-给定后验分布P_t(z|f)，估计权重向量P_t(z)和谱基向量P(f|z)。权重向量的估计可如下表达：

P_{t} (z) = \frac{Σ_{f} V_{ft} P_{t} (z | f)}{Σ_{z} Σ_{f} V_{ft} P_{t} (z | f)} .

谱基向量的估计可如下表达：

P (f | z) = \frac{Σ_{f} V_{ft} P_{t} (z | f)}{Σ_{z} Σ_{f} V_{ft} P_{t} (z | f)} .

本文揭示的系统和方法可包含在任何合适的视听系统中，包含计算机、游戏控制台，或例如蜂窝式电话、个人数字助理(PDA)、智能电话或类似物等手持式装置。本文描述的组件的主要功能通常在数字处理域中实施。然而，这些组件可替代地使用合适的模拟组件或模拟与数字电子组件的任何合适组合在模拟域中实施。

可能希望在便携式视听感测装置内实施如本文描述的系统和方法，所述装置具有经配置以接收声信号的两个或两个以上麦克风的阵列和一或多个相机。可经实施以包含此阵列且可用于音频记录和/或话音通信应用的便携式音频感测装置的实例包含电话手持机(例如，蜂窝式电话手持机)；手持式音频和/或视频记录器；个人数字助理(PDA)或其它手持式计算装置；以及笔记本计算机、膝上型计算机、上网本计算机、平板计算机或其它便携式计算装置。便携式计算装置的类别当前包含具有例如以下名称的装置：膝上型计算机、笔记本计算机、上网本计算机、超便携式计算机、平板计算机、移动因特网装置、智能本和智能电话。此装置可具有包含显示屏幕的顶部面板和可包含键盘的底部面板，其中所述两个面板可以蛤壳式或其它铰接关系连接。此装置可类似地实施为在顶部表面上包含触摸屏显示器的平板计算机。可经构造以执行此方法且可用于音频记录和/或话音通信应用的音频感测装置的其它实例包含电视机显示器、机顶盒以及音频和/或视频会议装置。

本文揭示的系统和方法可经实施以实时地处理视听信息，以及处理先前记录的视听信息。

本文描述的系统、设备、装置及其相应组件的功能性以及方法步骤和模块可以硬件、由硬件执行的软件/固件或其任一合适组合来实施。软件/固件可为具有可由例如微处理器、DSP、嵌入式控制器或知识产权(IP)核心等一或多个数字电路执行的指令集(例如，编程代码段)的程序。如果以软件/固件实施，那么功能可作为指令或代码存储在一或多个计算机可读媒体上。计算机可读媒体可包含计算机存储媒体。存储媒体可为可由计算机存取的任何可用媒体。举例来说且非限制，此计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用以用指令或数据结构的形式载运或存储所要程序代码且可由计算机存取的任何其它媒体。如本文使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和蓝光光盘，其中磁盘通常以磁性方式再生数据，而光盘用激光以光学方式再生数据。上述各项的组合也应当包含在计算机可读媒体的范围内。

已揭示视听场景分析系统和方法的某些实例。这些系统和方法是实例，且可能的集成不限于本文描述的内容。而且，对这些实例的各种修改是可能的，且本文呈现的原理也可应用于其它系统。举例来说，本文揭示的原理可应用于例如个人计算机、娱乐咨询、视频游戏等装置。另外，在不脱离权利要求书的范围的情况下，各种组件和/或方法步骤/框可在除了具体揭示的那些布置之外的布置中实施。

因此，所属领域的技术人员鉴于这些教示将容易了解其它实施例和修改。因此，当结合以上说明书和附图来看时，所附权利要求书既定涵盖所有此些实施例和修改。

Claims

1.一种在装置中辨识场景中的对象的方法，其包括：

基于在所述场景处记录的音频选择对应于所述对象的关键点；以及

基于所述选定关键点识别所述对象。

2.根据权利要求1所述的方法，其进一步包括：

基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志；

识别所述场景的图像中的多个关键点；以及

将所述关键点与所述关键点标志进行比较以识别所述对象。

3.根据权利要求1所述的方法，其进一步包括：

基于在所述场景处记录的所述音频选择场景图像的一部分；以及

仅从所述图像的所述部分内选择所述关键点。

4.根据权利要求3所述的方法，其中基于在所述场景处记录的所述音频选择所述图像的一部分包含：

从所述音频确定音频到达方向DOA；以及

基于所述音频DOA选择所述图像的所述部分。

5.根据权利要求4所述的方法，其中确定所述音频DOA包含：

在位于所述场景处的多个麦克风处接收所述音频，借此产生多个麦克风信号；以及

基于所述麦克风信号确定所述音频DOA。

6.根据权利要求1所述的方法，其进一步包括：

从所述场景的视频记录计算多个局部运动向量；以及

通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。

7.根据权利要求1所述的方法，其进一步包括：

从在所述场景处记录的所述音频计算多个声学辨识特征；以及

通过将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。

8.根据权利要求7所述的方法，其中所述声学辨识特征包含梅尔频率倒谱系数。

9.根据权利要求1所述的方法，其进一步包括：

确定出现在所述图像中的一或多个对象的范围信息；以及

基于所述范围信息分析所述关键点。

10.根据权利要求9所述的方法，其中确定范围信息是选自由以下各项组成的群组：使用自动聚焦相机确定范围信息，使用多相机图像视差估计确定范围信息，和前述各项的任一合适组合。

11.一种设备，其包括：

关键点选择器，其经配置以基于在场景处记录的音频选择对应于所述场景中的对象的关键点；以及

匹配装置，其经配置以基于所述选定关键点识别所述对象。

12.根据权利要求11所述的设备，其进一步包括：

关键点检测器，其经配置以识别场景的图像中的多个关键点；

其中所述关键点选择器经配置以基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志；

其中所述匹配装置经配置以将所述关键点与所述关键点标志进行比较以识别所述场景中的对象。

13.根据权利要求11所述的设备，其进一步包括：

第一选择器，其经配置以基于在所述场景处记录的所述音频选择所述场景的图像的一部分；以及

第二选择器，其经配置以仅从所述图像的所述部分内选择所述关键点。

14.根据权利要求13所述的设备，其中所述第一选择器包含：

检测器，其经配置以从所述音频确定音频到达方向DOA；以及

第三选择器，其经配置以基于所述音频DOA选择所述图像的所述部分。

15.根据权利要求14所述的设备，其中所述检测器包含：

位于所述场景处的用于接收所述音频的多个麦克风，其产生多个麦克风信号；以及

音频处理器，其经配置以基于所述麦克风信号确定所述音频DOA。

16.根据权利要求11所述的设备，其进一步包括：

视频处理器，其经配置以从所述场景的视频记录计算多个局部运动向量；

其中所述匹配装置经配置以通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。

17.根据权利要求11所述的设备，其进一步包括：

音频处理器，其经配置以从在所述场景处记录的所述音频计算多个声学辨识特征；

其中所述匹配装置经配置以通过将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。

18.根据权利要求17所述的设备，其中所述声学辨识特征包含梅尔频率倒谱系数。

19.根据权利要求11所述的设备，其进一步包括：

范围检测器，其经配置以确定出现在所述图像中的一或多个对象的范围信息；以及

关键点检测器，其经配置以基于所述范围信息分析所述关键点。

20.根据权利要求19所述的设备，其中所述范围检测器包含选自由以下各项组成的群组的检测器：自动聚焦相机，多相机阵列，和前述各项的任一合适组合。

21.一种设备，其包括：

用于基于在场景处记录的音频选择对应于所述场景中的对象的关键点的装置；以及

用于基于所述选定关键点识别所述对象的装置。

22.根据权利要求21所述的设备，其进一步包括：

用于基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志的装置；

用于识别所述场景的图像中的多个关键点的装置；以及

用于将所述关键点与所述关键点标志进行比较以识别所述场景中的所述对象的装置。

23.根据权利要求21所述的设备，其进一步包括：

用于基于在所述场景处记录的所述音频选择所述场景的图像的一部分的装置；以及

用于仅从所述图像的所述部分内选择所述关键点的装置。

24.根据权利要求23所述的设备，其中所述用于基于在所述场景处记录的所述音频选择所述图像的一部分的装置包含：

用于从所述音频确定音频到达方向DOA的装置；以及

用于基于所述音频DOA选择所述图像的所述部分的装置。

25.根据权利要求24所述的设备，其中用于确定所述音频DOA的装置包含：

用于在位于所述场景处的多个麦克风处接收所述音频借此产生多个麦克风信号的装置；以及

用于基于所述麦克风信号确定所述音频DOA的装置。

26.根据权利要求21所述的设备，其进一步包括：

用于从所述场景的视频记录计算多个局部运动向量的装置；以及

用于通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的装置。

27.根据权利要求21所述的设备，其进一步包括：

用于从在所述场景处记录的所述音频计算多个声学辨识特征的装置；以及

用于通过将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的装置。

28.根据权利要求27所述的设备，其中所述声学辨识特征包含梅尔频率倒谱系数。

29.根据权利要求21所述的设备，其进一步包括：

用于确定出现在图像中的一或多个对象的范围信息的装置；以及

用于基于所述范围信息分析所述关键点的装置。

30.根据权利要求29所述的设备，其中用于确定范围信息的装置是选自由以下各项组成的群组：用于使用自动聚焦相机确定范围信息的装置，用于使用多相机图像视差估计确定范围信息的装置，和前述各项的任一合适组合。

31.一种体现可由一或多个处理器执行的指令集的计算机可读媒体，其包括：

用于基于在场景处记录的音频选择对应于所述场景中的对象的关键点的代码；以及

用于基于所述选定关键点识别所述对象的代码。

32.根据权利要求31所述的计算机可读媒体，其进一步包括：

用于基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志的代码；

用于识别所述场景的图像中的多个关键点的代码；以及

用于将所述关键点与所述关键点标志进行比较以识别所述场景中的所述对象的代码。

33.根据权利要求31所述的计算机可读媒体，其进一步包括：

用于基于在所述场景处记录的所述音频选择图像的一部分的代码；以及

用于仅从所述图像的所述部分内选择所述关键点的代码。

34.根据权利要求33所述的计算机可读媒体，其中所述用于基于在所述场景处记录的所述音频选择所述图像的一部分的代码包含：

用于从所述音频确定音频到达方向DOA的代码；以及

用于基于所述音频DOA选择所述图像的所述部分的代码。

35.根据权利要求34所述的计算机可读媒体，其中用于确定所述音频DOA的代码包含：

用于在位于所述场景处的多个麦克风处接收所述音频借此产生多个麦克风信号的代码；以及

用于基于所述麦克风信号确定所述音频DOA的代码。

36.根据权利要求31所述的计算机可读媒体，其进一步包括：

用于从所述场景的视频记录计算多个局部运动向量的代码；以及

用于通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的代码。

37.根据权利要求31所述的计算机可读媒体，其进一步包括：

用于从在所述场景处记录的所述音频计算多个声学辨识特征的代码；以及

用于通过将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的代码。

38.根据权利要求37所述的计算机可读媒体，其中所述声学辨识特征包含梅尔频率倒谱系数。

39.根据权利要求31所述的计算机可读媒体，其进一步包括：

用于确定出现在图像中的一或多个对象的范围信息的代码；以及

用于基于所述范围信息分析所述关键点的代码。

40.根据权利要求39所述的计算机可读媒体，其中用于确定范围信息的代码是选自由以下各项组成的群组：用于使用自动聚焦相机确定范围信息的代码，用于使用多相机图像视差估计确定范围信息的代码，和前述各项的任一合适组合。