CN108781310A

CN108781310A - 使用视频的图像来选择要增强的视频的音频流

Info

Publication number: CN108781310A
Application number: CN201780017639.2A
Authority: CN
Inventors: 杰罗姆·阿南德; 古玛兰·塞图拉曼
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2016-04-15
Filing date: 2017-02-08
Publication date: 2018-11-09
Anticipated expiration: 2037-02-08
Also published as: WO2017180231A1; US20170301371A1; CN108781310B; US10153002B2

Abstract

选择视频的音频流以使用视频的图像进行增强。在一个示例中，标识和分离视频中的音频流。在视频的图像中标识感兴趣的点及其位置。每个音频流的位置被标绘到感兴趣的点的位置。接收对来自图像序列的感兴趣的点的选择。基于相应的感兴趣的点来选择所标绘的音频流，并且增强所选择的音频流。

Description

使用视频的图像来选择要增强的视频的音频流

技术领域

本描述涉及视频呈现和编辑，并且具体地，涉及基于视频中的图像选择和修改视频中的音频流。

背景技术

随着便携式轻量级摄像机的普及，更多的视频在休闲环境中被拍摄，并且不需要复杂的录制设备。对于计划事件和高价值视频，麦克风被放置在人和物附近，以捕获对于视频的每个部分最重要的声音。所得的视频与每个麦克风的音轨同步，这些音轨可以针对视频的每个帧被独立地放大和混合。当无法仔细放置麦克风时，例如在体育赛事中，定向麦克风被用于捕获主要来自比赛场地或看台上的特定位置的声音。定向麦克风能够相对于其他声音和环境噪声放大来自特定方向的声音。

一些摄像机、平板电脑和智能电话在设备的壳体中配备有多个麦克风。这些麦克风例如各自在设备的不同角落处被间隔开，使得可以使用波束形成技术来隔离来自特定方向的声音。这些多个麦克风系统通常用于相对于环境噪声隔离讲话者的声音。为使用波束成形来捕获更远的讲话者，需要用户在进行视频记录时标识该讲话者。

另一常见的摄像机位置是在会议室或会议厅中。当会议室中的不同位置有多个讲话者时，一些系统将在桌子周围提供麦克风，以使得每个讲话者附近都有麦克风。在其他系统中，在中心位置处有多个定向麦克风，或者甚至在该单个位置处有单个麦克风。在一些情况下，在另一位置的会议的远程参与者能够选择特定麦克风并且使得该麦克风被放大。在其他系统中，用户能够选择特定方向，并且中央麦克风或麦克风阵列可以使用波束成形、标记或一些其他方法来聚焦到特定讲话者，并且为远程参与者增强该讲话者的语音。

附图说明

在附图中，通过示例而非限制的方式示出了实施例，其中相同的附图标记指代相似的元件。

图1是根据实施例的音频缩放用户体验的处理流程图。

图2是根据实施例的在设备中提供音频缩放的概述处理流程图。

图3是根据实施例的设备中的音频缩放的处理流程图。

图4是根据实施例的按帧对音频流进行排序和分类的图示。

图5是根据实施例的其中扬声器位于两个麦克风中间的记录场景的图示。

图6是根据实施例的其中讲话者已经向左移动的图5的记录场景的图示。

图7是根据实施例的其中讲话者已经进一步向左移动的图6的记录场景的图示。

图8是根据实施例的视频处理系统的框图。

图9是根据实施例的包含音频流增强的计算设备的框图。

具体实施方式

如本文所述，在所记录的视频中确定接收音频源的方向。所选内容然后被过滤和增强以放大所需的音频。这可以在观看视频时完成。还可以保存选择以用于一类视频后处理(post-processing)。本文描述的方法是一类静态音频缩放。它将所需的音频信号从预先记录的视频内容中的一组信号中分离出来。然后增强音频以便为最终用户产生缩放效果。这可以使用来自用户的指示的兴趣点来完成。

图1是示例用户体验的处理流程图。从最终用户或设备操作员的角度呈现该处理。在102处，在设备上播放视频，其在此用于指代具有关联和同步的音频的图像帧序列。可以从本地或远程存储装置取回视频。视频可能已经使用同一设备或另一设备而捕获，然后被传输到本地或远程存储装置。

在104处，用户触摸媒体内容中的兴趣点(POI)以放大来自该POI的音频。POI可以对应于特定的人或人群，或者它可以对应于产生声音的任何其他对象。用户正在观看显示器上的视频并具有选择设备，例如，触摸屏覆盖、定点设备、或手势控制相机系统。用户指示显示器的特定区域以标识POI。用户可以触摸或点击POI的中心，或者用户可以指示与视频的区域相对应的显示器的区域。这将允许用户指示感兴趣区域的大小范围或边界。

在106处，针对POI缩放音频。换句话说，从视频中的POI发出的音频被增强。这可以包括相对于来自其他区域的音频放大所选择的音频。还可以以某种其他方式过滤或处理所选择的音频以使其从周围的听觉环境中显出。取决于特定实现方式，视频内容还可以相对于来自其他区域的视频被缩放或放大。可以使用各种图像处理技术中的任何一种来缩放视频中的图像。本描述涉及缩放视频的音频部分。

通过按感兴趣的图像区域或图像点分离音频源，用户可以放大视频场景的图像的特定部分。这在平板电脑、智能电话或其他用户终端上播放预先记录的视频期间提供增强的体验。用户可能想要收听来自特定人群的音频或来自一些其他特定音频源的内容。本文描述的技术允许使用数字信号处理，以使得用户可以选择特定的讲话者或音频源并增强该源。这可以在没有麦克风放置的先验知识并且未事先标记不同音频源的情况下完成。

当视频已经被记录并稍后被显示给用户时，不能使用标准波束成形和标记技术。如下所述，可以与其他相关技术一起使用信号的相位，以实现类似于波束形成和标记的结果。尽管本文描述的途径对于离线处理(例如，播放预先记录的视频)特别有用，但它们也可以应用于直播视频会议和其他类型的交互式直播视频。

图2提供了用于放大音频的特定部分的处理流程的概述。图2的处理流程是设备内部的处理，其允许设备提供图1的用户体验，但是不直接对用户可见。该处理流程是按顺序执行的一系列不同的处理。120处的第一处理是流标识。该处理可以被描述为标识视频的整个音频内容或视频的一部分(例如，场景)中的有效音频流的数目。

然后是122处的流分离。每个所标识的音频流被分离以允许独立的分析和处理。然后是流分组124。根据视频的图像序列中的相应音频流的源的一般位置来对每个单独的音频流进行分组。一般位置在本文中称为域。作为示例，可以将图像划分为四个域或象限，并且可以将每个图像分配给图像的四个象限中的特定的一个象限。在其他示例中，可以使用不同数目的域。这些域还可能不均匀地分布。作为示例，如果图像以场景上方的天空的区域为特征，则可以将整个天空标识为一个域，然后可以将天空下方的区域划分为三个或更多个域，例如左、中和右。提供象限技术作为示例。可以替代地或另外地使用其他技术来隔离音频源。可以使用更复杂的视频处理(包括缩放、选择和隔离)来选择特定音频源。

然后通过流标绘126处理经分组的流。这可以被描述为将流与视频中的图像中的不同位置或不同区域(例如，不同象限)相关联。音频流可以针对它们与视频图像的关系来进行划分和标记。这可以称为图像-音频关系。

在标绘之后，当用户选择特定POI时，系统可以标识视频的相应图像中的兴趣点(POI)附近的有效流。POI处的图像与相应的音频流相关联。换句话说，音频流与对应于POI的图像的所选部分相关联。在一些实施例中，标绘将一个或多个音频流连接到特定POI。利用POI跟踪，即使POI跨视频的帧移动，音频流仍继续连接到POI。当用户选择特定POI时，POI被直接标绘到音频流，并且响应于POI选择来选择该音频流。

在选择特定的一个或多个流之后，通过流增强128来处理这些所选择的流。可以使用各种不同的后处理技术中的任何一种来从视频序列的其他音频中得到各个流或一组流，并产生音频缩放效果。音频增强可以包括以某种其他方式进行放大、过滤或处理以增强一个或多个流，来使得它们比增强之前更加听得见。

对于本文描述的技术，显示并然后处理已经使用具有两个或更多个麦克风的立体声麦克风或麦克风阵列记录的原始媒体内容。尽管立体声麦克风阵列(即两个空间分离的麦克风的阵列)能够区分来自从左到右的不同位置处的音频。这样的阵列不能区分不同高度处的音频。在一些情况下，在立体声麦克风之外还可以使用一个或多个垂直分离的麦克风。在本文的示例中，立体声麦克风(并排瞄准不同方向的两个麦克风)被放置在记录环境的中心。此外，假设音频内容尚未被后处理。对于已经处理的音频，可能需要额外的操作来补偿处理。本文未描述这些额外的补偿操作。

图3是更详细地呈现图1和图2的操作的处理流程图。当从存储装置回放视频或从远程电话会议节点直播视频时，视频将被呈现在设备上。在131处，图像首先被划分成域。这可以在回放设备处或在到回放设备的路径中的某个其他设备处完成。在一些实施例中，图像被划分成四个相等的象限。可以将这些象限视为在X轴和Y轴上的不同位置。尽管使用了四个域，但取决于实现方式可能存在更多或更少的区域。此外，如上所述，域可以具有图像的总面积的不同比例。对于具有许多特征的图像部分，域可以较小，并且对于具有较少特征的图像部分，域可以较大。

在132处，选择不同图像和四个象限或域来进行验证。在132处，如果存在要评估的域，则在133处，选择域。当没有更多域要评估时，处理去往142以从设备的用户界面接收音频缩放命令。在134处，分析视频流中的每个图像的每个域，以确定该域中是否存在有效音频源。可以将面部检测、对象检测和类似技术应用于每个象限以确定是否存在有效音频源。在一些情况下，音频可能来自图像中不可见的源。音频可以是画外音、背景噪声、或者仅是相机的视野之外的讲话者或其他对象。

在134处，对于不具有有效音频源的每个域，不执行以下操作，并且处理去往142。这减少了计算负荷。可以忽略看起来来自没有有效音频源的域的任何音频。对于具有有效音频源的域，相应的音频流被隔离和定位。

在135处，确定有效独立音频流的数目。134处的有效源的数目可能不等于独立音频流的数目。一些对象可能不产生音频，并且一些音频可能由屏幕外对象产生。

通过参考图4，可以理解确定视频序列的图像中的有效音频源的处理。首先，如图4所示对完整音频内容401进行分类。换句话说，它被分成宽泛类别402、404、406，例如，语音、非语音、噪声、和任何其他附加类别。可以基于设备的性质或特定操作环境来选择不同的段。对于会议室设备，大多数源可以是语音，但也可能存在音乐、产品声音、或在会议期间呈现的其他声音。图4是根据实施例的音频段处理的图示。

对于音频段1 402，经分段的音频块被进一步细分为音频帧，被标记为F1.1、F2.1、F3.1等，如针对音频段2的F1.2、F2.2、F3.2等。对于每个音频段，可能存在多于或少于三个音频帧。作为示例，考虑在1秒窗口的音频内容中存在音频语音信号。可以使用例如50％重叠方法来处理音频帧。然后在图4中的408处处理所得到的语音信号，用于语音活动、特征提取、和相应音频帧的其他特征。例如，信号可以通过语音活动检测器(VAD)，该VAD返回针对每个帧的VAD判定。使用来自VAD的结果，可以标识任何1秒窗口中的任何语音信号。

同一1秒窗口的视频内容的图像部分中的信息也可以用于增加语音判定结果的准确性。可以使用各种不同的图像处理技术来分析窗口内的图像。可以使用诸如快速傅里叶变换(FFT)、梅尔频率倒谱系数(MFCC)等之类的各种特征提取技术中的任何一种来提取每个时间窗口中的不同频率或特征。结果，标识每个时间窗口中的有效音频流的数目。

返回到图3的处理流程，在确定音频流之后，然后在136处，基于域(例如，象限和方向)对音频流进行分组。上面已经标识了各个音频流。可以以不同方式来确定相位。相位可以用于确定方向。出于本实施例的目的，使用两个麦克风或立体声麦克风。

参考图5、6和7的图示来描述音频位置的确定。图5是音频环境中的记录设备的图示。它示出了简单的记录场景，其中使用了两个麦克风M1、M2或立体声麦克风425。麦克风以固定距离分隔开。在一些实施例中，麦克风被安装在记录视频的便携式平板电脑、智能电话或相机的不同位置处。在其他实施例中，使用外部麦克风。立体声麦克风具有两个麦克风，该两个麦克风朝向不同方向但仍被安装在同一壳体上，使得可以像处理单个外部麦克风一样来处理该两个麦克风。讲话者425(例如，参与视频会议的人或任何其他音频源)位于麦克风的前面并产生撞击麦克风的音频波。

在图5中，讲话者与麦克风等距。来自讲话者的声音同时到达两个麦克风，因此没有相位差。左麦克风响应于音频波产生L电信号430。右麦克风响应于音频波产生R电信号432。这两个信号是相同且同相的，因为讲话者与每个麦克风的距离相同。通过比较L和R相位，系统可以确定音频源直接在麦克风前面。如果麦克风位于图像的中心，即如果相机和麦克风与公共中心参考点对齐，则此音频源将位于如从左和右确定的图像的中心。

尽管该两个麦克风仅能够解析水平位置，但可以将第三垂直移位麦克风添加到麦克风阵列。通过将在垂直移位的麦克风处接收的音频的相位与在其他两个麦克风之一处接收的相位进行比较，还可以确定音频源的垂直位移。因此，使用三个麦克风，可以在二维中确定音频源。

如果讲话者位于如图6和7所示的不同位置，则来自麦克风的电信号将是异相的。相位差取决于从讲话者到每个麦克风的距离的差异。来自讲话者的声音将花费更多时间去往更远的麦克风。到达更远麦克风的该时间延迟可以用于确定讲话者与两个麦克风的相对距离。记录设备中的麦克风放置也影响录制音频的方向。当麦克风或讲话者中的任一者移动时，音频源的位置将相对于每个麦克风而不同。因此，语音信号将在每个麦克风处具有不同的到达时间。

图6是图5的记录场景的图示，其中讲话者445已经相对于麦克风M1、M2向左移动，如图中所示。与M2相比，讲话者现在更靠近Ml。因此，音频在到达M1之后到达M2。这被指示为音频波中的时间延迟447。在电信号的R曲线448中存在相对于L曲线446的相应时间延迟。

图7是图5的记录场景的图示，其中讲话者455已经进一步向左移动。R曲线458相对于L曲线456的时间延迟457更大。如果讲话者替代地向右移动，则对于L曲线而不是R曲线将存在时间延迟。如通过比较图5、6和7的R曲线可以看出，讲话者与两个麦克风之间的中心的相对距离与两个麦克风输出之间的时间延迟量相关。如果图像相机在两个麦克风中间，则没有延迟的音频源位于图像的中心。在右侧麦克风中具有延迟的音频源位于图像的左侧，而在左侧麦克风具有延迟的音频源位于图像的右侧。两条曲线之间的相位延迟越大，则讲话者距离中心的左侧或右侧越远。

如果相机未在两个麦克风正中间，则可以调整图像中的音频源的位置以补偿相机相对于麦克风的位置。

可以使用相关技术来估计音频信号到达两个麦克风的时间差。使用该时间差，可以标识音频源相对于一个麦克风的位置。结果可能受到也在信号中的任何噪声的影响。可以使用被配置为处理诸如广义互相关-相位变换(Generalized Cross Correlation-PhaseTransform，GCC PHAT)之类的噪声的估计器来寻址和补偿噪声，以锐化相关峰值并精确地估计两个麦克风处的信号的精确时间延迟或到达时间差(TDOA)。

可以在时域和频域二者中计算广义互相关。预滤波信号可以用于锐化互相关函数中的峰值。可以调整具体的互相关技术以适合具体的硬件。时域中的广义互相关在计算上是复杂的，但不需要FFT或逆FFT。至少在存在生成和使用FFT的其他处理的情况下，频域中的广义互相关更简单。

在一些实施例中，使用离散傅立叶变换(DFT)和窄带估计来确定每个音频流的到达方向(DOA)。然后将其与视频的相应图像中的水平方向相关。典型的语音信号的频谱图跨宽频率范围以及特定共振峰频率具有显著的功率。一些频率在该范围内具有比其他周围频率高得多的功率。

为估计DOA，可以将DFT应用于语音帧以获得频域系数。这种DFT可以用作许多数字信号处理器中的标准工具。选择阈值功率水平，并然后对频率系数进行阈值化处理。仅使用具有高于阈值的功率的频率。这可以使用应用于这些系数的峰值选取(peak-picking)算法来实现以选取主频率。然后可以在这些所选择的高功率频率中的每一个处执行频域窄带DOA估计。DOA估计的均值可用于找到实际DOA的良好近似值。

然后可以使用DOA来确定水平位置。每个音频流信号的幅度可以用作对标识哪个信号更靠近麦克风以及哪个信号更远的辅助。如果信号是见面会议中的讲话者，则房间里的人倾向于匹配彼此的讲话音量。这使得幅度或响度为有用的估计。如果音频源不是所有人，则可以使用135处的音频流的分类来调整预期的音量差异。可以假设一些音频源更响亮或更安静。在一些情况下，仅将类似的音频源彼此进行比较以估计相对距离。

返回到图3的处理流程，在137处，音频流被群集(cluster)到它们各自的域中。第一群集是粗略或大体群集。对于被划分为象限的图像，音频被分配给图像的左半部分或图像的右半部分。对于这种群集，可以使用各种不同的工具，例如，相对到达时间、右麦克风信号和左麦克风信号的相对相位、以及诸如面部检测之类的图像处理技术。

对于对象检测，如果仅存在一张面部或者如果所有面部都在图像的一侧，则可以将任何语音音频流分配到具有面部的图像的该侧。可以使用类似的方法将其他类型的音频流分配给其他类型的对象的相应图像位置。

在许多情况下，视频中的每个音频流的确切位置不能仅使用上述三个参数来标绘。可以才采用更高的准确度以提供令人满意的用户体验。

在138处，标绘各个音频流。在一个示例中，群集之一中的一个音频流被选为同一群集中的所有其他流的参考信号。然后，对每个音频流相对于参考信号执行互相关。然后可以使用互相关的结果来找到群集内的每个流的仰角。然后可以对图像中的每个群集重复该过程。

在139处，可选地标记每个单独的流以用于讲话者移动并用于所存储的视频中的将来参考。标签可以是元数据的形式或任何其他形式，并且可以包括任何适当的信息，例如，音频类型、相应的帧号、图像域或象限、以及在上述操作期间开发的其他信息。

在140处，每个音频流及其相应的标签被可选地存储在临时文件夹中。在播放或编辑视频的处理结束时，可以删除全部流。这允许在不影响视频中的原始内容的情况下修改和比较流。

在141处，针对每个单独的流确定在每个象限中的权重。权重是有效音频流的分数。它是基于上述位置参数导出的，例如，信号的到达时间、方向(相位)和幅度。可以以各种不同方式中的任何一种来计算权重。在一个示例中，通过将一个音频流作为参考并然后将其他音频流与参考进行比较来确定权重。这允许将不期望的音频(例如，背景噪声)加权为较不重要，从而减少它被错误地增强的机会。以这种方式，可以使用权重来减少错误，并且还保持所需的数据完整性以供进一步处理。

在已经准备好音频流后，在142处，提供用户界面音频缩放。这以从用户接收对POI的指示或仅是对域的指示开始。然后将POI定位到图像的域，例如，象限。

在143处，确定对应于用户选择的POI的流。该流将位于所选择的象限内。象限用于简化对适当流的搜索。

在144处，可选地重新计算针对所选象限的权重。在确定用户感兴趣的图像的区域之后，如果权重和其他参数被精调以强调感兴趣的区域，则它可以提供更好的结果。经精调的权重可以仅被应用于包括POI的域或整个图像，以细化所确定的图像参数。

在145处，将滤波器应用于所确定的流，即由用户选择的音频流。这些滤波器可以增强清晰度、消除噪声或实现各种其他功能中任何一种，以改善所选音频流或使从其他音频流突显出。

在146处，可以将放大和音频处理系统应用于所选择的音频流。定位在所选择的流附近的其他流也可以被放大或处理，以不强调这些流或者给出实时体验。

在147处，通过呈现具有经修改的音频的图像来修改视频呈现。经修改的音频使用用户选择的音频流的经放大和处理的版本。

该处理然后返回到开始。上述音频流标识和定位操作可以在视频播放期间持续执行。对于具有多个音频流的一些视频，流的位置将移动，并且一些流将在引入新流时停止。在已经针对当前视频帧标识和定位流之后，系统然后准备好在用户选择任何一个特定的流时放大和处理该流或一组流。

图8是实现如上述图3的过程的视频处理流水线的图示。视频处理流水线包括图像处理器804、音频处理器806和图形用户界面(GUI)808。视频源802被提供给每个部分804、806、808。视频源可以是存储设备，例如，如图所示的大容量存储装置或外部存储装置，或者可以从远程相机系统或视频会议节点接收视频。

图像处理首先在图像分析器810中将视频划分为帧或图像。然后评估帧以确定域812，例如，象限或任何其他适当的域。然后将这些域应用于对象检测器814。该检测器分析每个域以确定每个帧内是否存在感兴趣的对象。感兴趣的对象是可能产生音频的对象，例如，人、动物或机器。可以首先标识对象，并然后使用各种不同的分类系统中的任何一种来对对象进行分类。在一些实施例中，例如对于视频会议节点，仅标识面部并忽略其他可能的声音源。对象检测还可以逐帧跟踪对象，以使得来自跨视频的视野移动的人的音频流可以继续被链接到同一人。

音频处理器806具有音频流标识符820。结果作为不同的流被发送到流分组器822。该模块按域对流进行分组。经分组的流被发送到流标绘器(plotter)。流标绘器可选地从图像处理器接收感兴趣的对象。这允许被标绘到音频流的位置被链接到那些位置附近的感兴趣的对象。然后可以将标绘的流存储在本地存储器设备830中，并且还将其发送到流选择器826。

用户界面808可以采用各种不同的形式。为便于使用，视频被呈现在显示器842上。然后，用户可以使用触摸屏、定点设备或任何各种其他设备来选择视频中任何地方的特定点。用户在显示器上标识视频中的位置，并且该信息在POI选择器840中被转换为POI。POI选择器可以从感兴趣的对象检测器接收一组可能的对象，并且选择最靠近用户选择的感兴趣的对象。在一个示例中，使用户注意所选择的感兴趣的对象，例如通过在屏幕上突出显示或命名对象。然后将所选择的点或对象提供给音频处理器806的流选择器826。

流选择器还可以从图像处理器接收对象检测和跟踪814。使用该信息，流选择器选择流作为与用户指示的音频源相对应的流。然后将对流的选择提供给音频增强器828。增强器对音频流进行操作，并且可选地还对视频的其他流和音频进行操作以增强所选择的流。如上所述，这可以通过相对于其他流增加所选择的流的音量，并且还可以以其他方式过滤或处理音频流来完成。然后将增强的音频馈送到视频显示器以呈现给用户，与来自视频802的原始音频组合或替代来自视频802的原始音频。

所描述的系统将音频连接到视频流内的图像。这允许用户具有自然且直观的界面以在呈现视频时修改音频。用户在观看视频时简单地选择屏幕的对象或区域，并且该对象或区域的音频被增强。就像用户指向扬声器，然后该扬声器被放大或更容易被听到。与用户与音频的显示器进行交互相比，这是直观的多的界面。视频的图像提供了从中选择感兴趣的对象的更自然的视图。

图9是根据一个实现方式的计算设备100的框图。计算设备可以具有类似于图2的形状因子，或者它可以是不同的可穿戴或便携式设备的形式。计算设备100容纳系统板2。板2可以包括多个组件，包括但不限于处理器4和至少一个通信包6。通信包被耦合到一个或多个天线16。处理器4被物理地和电气地耦合到板2。

取决于其应用，计算设备100可以包括可以或可以不被物理地和电气地耦合到板2的其他组件。这些其他组件包括但不限于：易失性存储器(例如，DRAM)8、非易失性存储器(例如，ROM)9、闪存(未示出)、图形处理器12、数字信号处理器(未示出)、加密处理器(未示出)、芯片组14、天线16、显示器18(例如，触摸屏显示器)、触摸屏控制器20、电池22、音频编解码器(未示出)、视频编解码器(未示出)、功率放大器24、全球定位系统(GPS)设备26、罗盘28、加速度计(未示出)、陀螺仪(未示出)、扬声器30、相机32、麦克风阵列34、以及大容量存储设备(例如，硬盘驱动器)10、光盘(CD)(未示出)、数字通用盘(DVD)(未示出)等。这些组件可以被连接到系统板2、被安装到系统板、或者与任何其他组件相组合。大容量存储器10可以是单个硬盘或固态驱动器，包括闪存、相变、旋转转移扭矩(spin transfer torque)或任何其他存储器类型，或者可以被提供为相同或不同类型的若干硬件组件。存储器可以是内部的和外部的。这些类型可以包括USB闪存驱动器、诸如安全数字(SD)卡、紧凑闪存(Compact Flash，CF)卡之类的存储卡、以及内部固态、旋转盘和混合驱动器。

通信包6实现无线和/或有线通信，以向计算设备100传输数据和从计算设备100传输数据。术语“无线”及其衍生物可以用于描述可以通过非固态介质来使用经调制的电磁辐射传送数据的电路、设备、系统、方法、技术、通信信道等。该术语不暗示相关联的设备不包含任何线缆，但在一些实施例中它们可能不包含任何线缆。通信包6可以实现多种无线或有线标准或协议中的任何一种，包括但不限于：Wi-Fi(IEEE 802.11族)、WiMAX(IEEE 802.16族)、IEEE 802.20、长期演进(LTE)、Ev-DO、HSPA+、HSDPA+、HSUPA+、EDGE、GSM、GPRS、CDMA、TDMA、DECT、蓝牙、其以太网衍生物、以及被指定为3G、4G、5G及更高版本的任何其他无线和有线协议。计算设备100可以包括多个通信包6。例如，第一通信包6可以专用于较短距离无线通信，例如，Wi-Fi和蓝牙，并且第二通信包6可以专用于较长距离无线通信，例如，GPS、EDGE、GPRS、CDMA、WiMAX、LTE、Ev-DO等。

麦克风34和扬声器30被耦合到音频前端36，以执行如本文所述的数字转换、编码和解码、以及音频流选择和增强。处理器4被耦合到音频前端以利用中断来驱动处理、设置参数、和控制音频前端的操作。可以在音频前端或通信包6中执行基于帧的音频处理。

在各种实现方式中，计算设备100可以是眼镜、膝上型计算机、上网本、笔记本、超极本、智能电话、平板电脑、个人数字助理(PDA)、超移动PC、移动电话、台式计算机、服务器、机顶盒、娱乐控制单元、数码相机、便携式音乐播放器、或数字视频录像机。计算设备可以是固定的、便携式的或可穿戴的。在其他实现方式中，计算设备100可以是处理数据的任何其他电子设备。

实施例可以被实现为一个或多个存储器芯片、控制器、中央处理单元(CPU)、使用主板互连的微芯片或集成电路、专用集成电路(ASIC)、和/或现场可编程门阵列(FPGA)的一部分。

对“一个实施例”、“实施例”、“示例实施例”、“各种实施例”等的引用指示被如此描述的(一个或多个)实施例可以包括特定特征、结构或特性，但不是每个实施例都必须包括这些特定特征、结构或特性。此外，一些实施例可以具有针对其他实施例所描述的一些、全部特征，或没有这些特征。

在以下描述和权利要求中，可以使用术语“耦合”及其派生词。“耦合”用于指示两个或更多个元件彼此协作或交互，但它们可以或可以不具有介于它们之间的物理或电子组件。

如权利要求中所使用的，除非另有说明，否则使用序数形容词“第一”、“第二”、“第三”等来描述公共元件仅指示所引用的相同元件的不同实例，并且不意味着暗示所描述的元件在时间上、空间上、排序上、或以任何其他方式必须按照给定的顺序。

附图和前述描述给出了实施例的示例。本领域技术人员将理解，所描述的元件中的一个或多个可以被良好地组合成单个功能元件。替代地，某些元件可以被分成多个功能元件。可以将来自一个实施例的元件添加到另一实施例。例如，本文描述的处理的顺序可以被改变，并且不限于本文描述的方式。此外，任何流程图的动作都不需要按照所示的顺序来实现；也不一定需要执行所有动作。此外，不依赖于其他动作的那些动作可以与其他动作并行执行。实施例的范围决不受这些具体实施例的限制。无论是否在说明书中明确给出，诸如结构、尺寸和材料使用的差异之类的许多变化是可能的。实施例的范围至少与以下权利要求所给出的范围一样广泛。

以下示例涉及另外的实施例。不同实施例的各种特征可以与所包括的一些特征以及未包括的其他特征进行不同地组合以适合各种不同的应用。一些实施例涉及一种方法，该方法包括：标识视频的音频中的音频流，该视频具有图像序列和相关联的音频；分离所标识的音频流；标识每个图像中的感兴趣的点；确定所标识的感兴趣的点的位置；将每个音频流的位置标绘到图像序列中的感兴趣的点的位置；接收对图像序列中的感兴趣的点的选择；基于相应的感兴趣的点来选择所标绘的音频流；以及增强所选择的音频流。

在其他实施例中，标绘位置包括比较两个不同麦克风处的音频流的相位以确定音频流的方向，并使用所确定的方向来标绘位置。

在其他实施例中，标绘包括在频域中互相关音频流。

在其他实施例中，标绘包括使用离散傅里叶变换和窄带估计来确定每个音频流的到达方向。

其他实施例包括对离散傅里叶变换的频率系数进行阈值化处理，以仅选择功率高于阈值的频率来用于确定到达方向。

在其他实施例中，标绘还包括基于相应的音频流的音量来标绘距离。

进一步的实施例包括分析视频的图像以将图像划分为域，并且将经分离的音频流分组到图像序列中的域，其中，标识感兴趣的点包括在每个图像域中标识感兴趣的点。

进一步的实施例包括针对每个域确定在对应于该域的图像中是否存在音频源，并且不将经分离的音频流分组到不具有音频源的每个域。

进一步的实施例包括从所标绘的音频流中移除与没有音频源的域相对应的音频源。

进一步的实施例包括确定每个经分离的音频流的权重以指示音频流的重要性。

进一步的实施例包括确定所选择的感兴趣的点的位置的域，以及在选择所标绘的音频流之前，精调所确定的域内的音频流的权重。

一些实施例涉及一种计算机可读介质，其上具有指令，这些指令在由计算机操作时，使得计算机执行如下操作，包括：标识视频的音频中的音频流，该视频具有图像序列和相关联的音频；分离所标识的音频流；标识每个图像中的感兴趣的点；确定所标识的感兴趣的点的位置；将每个音频流的位置标绘到图像序列中的感兴趣的点的位置；接收对图像序列中的感兴趣的点的选择；基于相应的感兴趣的点来选择所标绘的音频流；以及增强所选择的音频流。

一些实施例涉及一种装置，包括：视频库，用于提供视频，该视频具有图像序列和相关联的音频；音频流分离器，用于标识视频的音频中的音频流，并分离所标识的音频流；对象检测器，用于标识每个图像中的感兴趣的点，并确定所标识的感兴趣的点的位置；流标绘器，被耦合到音频流分离器和对象检测器，用于将每个音频流的位置标绘到图像序列中的感兴趣的点的位置；用户界面，用于接收对图像序列中的感兴趣的点的选择；流选择器，被耦合到流分离器，用于基于相应的感兴趣的点来选择所标绘的音频流；以及流增强器，用于增强所选择的音频流。

在其他实施例中，用户界面还包括感兴趣的点选择器，用于从用户接收对图像的显示对象的选择，并将所选择的对象转换为感兴趣的点。

在其他实施例中，流标绘器利用位置和感兴趣的对象信息来标记每个音频流，该装置还包括用于存储所标记的音频流的存储器。

其他实施例包括流分组器，用于基于位置对音频流进行分组，并且其中，流标绘器通过在频域中互相关一组种的音频流来比较两个不同麦克风处的音频流的相位，以确定音频流的方向并使用所确定的方向来标绘位置。

在其他实施例中，音频流分离器还确定每个经分离的音频流的权重以指示该音频流的重要性。

Claims

1.一种增强所选择的音频流的方法，包括：

标识视频的音频中的音频流，所述视频具有图像序列和相关联的音频；

分离所标识的音频流；

标识每个图像中的感兴趣的点；

确定所标识的感兴趣的点的位置；

将每个音频流的位置标绘到所述图像序列中的感兴趣的点的位置；

接收对所述图像序列中的感兴趣的点的选择；

基于相应的感兴趣的点来选择所标绘的音频流；以及

增强所选择的音频流。

2.根据权利要求1所述的方法，其中，标绘位置包括比较两个不同麦克风处的音频流的相位以确定所述音频流的方向，并使用所确定的方向来标绘所述位置。

3.根据权利要求2所述的方法，其中，标绘包括在频域中互相关音频流。

4.根据权利要求3所述的方法，其中，标绘包括使用离散傅里叶变换和窄带估计来确定每个音频流的到达方向。

5.根据权利要求4所述的方法，还包括对所述离散傅里叶变换的频率系数进行阈值化处理，以仅选择功率高于阈值的频率来用于确定所述到达方向。

6.根据上述权利要求中的任一项或多项所述的方法，其中，标绘还包括基于相应的音频流的音量来标绘距离。

7.根据上述权利要求中的任一项或多项所述的方法，还包括：

分析所述视频的图像以将所述图像划分为域；并且

将经分离的音频流分组到所述图像序列中的域，其中，

标识感兴趣的点包括在每个图像域中标识感兴趣的点。

8.根据权利要求7所述的方法，还包括针对每个域确定在对应于所述域的图像中是否存在音频源，并且不将所述经分离的音频流分组到不具有音频源的每个域。

9.根据权利要求8所述的方法，还包括从所标绘的音频流中移除与没有音频源的域相对应的音频源。

10.根据权利要求7所述的方法，还包括确定每个经分离的音频流的权重以指示所述音频流的重要性。

11.根据权利要求10所述的方法，还包括：

确定所述选择的感兴趣的点的位置的域；以及

在选择所标绘的音频流之前，精调所确定的域内的音频流的权重。

12.一种计算机可读介质，其上具有指令，所述指令当在计算机上进行操作时，使得所述计算机执行如下操作，包括：

分离所标识的音频流；

标识每个图像中的感兴趣的点；

确定所标识的感兴趣的点的位置；

接收对所述图像序列中的感兴趣的点的选择；

基于相应的感兴趣的点来选择所标绘的音频流；以及

增强所选择的音频流。

13.根据权利要求12所述的介质，所述操作还包括：

分析所述视频的图像以将所述图像划分为域；并且

将经分离的音频流分组到所述图像序列中的域，其中，

标识感兴趣的点包括在每个图像域中标识感兴趣的点。

14.根据权利要求12或13所述的介质，所述操作还包括针对每个域确定在对应于所述域的图像中是否存在音频源，并且不将所述经分离的音频流分组到不具有音频源的每个域。

15.根据权利要求14所述的介质，所述操作还包括从所标绘的音频流中移除与没有音频源的域相对应的音频源。

16.一种用于增强所选择的音频源的装置，包括：

视频库，用于提供视频，所述视频具有图像序列和相关联的音频；

音频流分离器，用于标识所述视频的音频中的音频流，并分离所标识的音频流；

对象检测器，用于标识每个图像中的感兴趣的点，并确定所标识的感兴趣的点的位置；

流标绘器，被耦合到所述音频流分离器和所述对象检测器，所述流标绘器用于将每个音频流的位置标绘到所述图像序列中的感兴趣的点的位置；

用户界面，用于接收对所述图像序列中的感兴趣的点的选择；

流选择器，被耦合到所述流分离器，所述流选择器用于基于相应的感兴趣的点来选择所标绘的音频流；以及

流增强器，用于增强所选择的音频流。

17.根据权利要求16所述的装置，其中，所述用户界面还包括感兴趣的点选择器，用于从用户接收对所述图像的显示对象的选择，并将所选择的对象转换为感兴趣的点。

18.根据权利要求16或17所述的装置，其中，所述流标绘器利用位置和感兴趣的对象信息来标记每个音频流，所述装置还包括用于存储所标记的音频流的存储器。

19.根据权利要求16-18中的任一项或多项所述的装置，还包括流分组器，用于基于位置对音频流进行分组，并且其中，所述流标绘器通过在频域中互相关一组中的音频流来比较两个不同麦克风处的音频流的相位，以确定所述音频流的方向并使用所确定的方向来标绘所述位置。

20.根据权利要求16-19中的任一项或多项所述的装置，其中，所述音频流分离器还确定每个经分离的音频流的权重以指示所述音频流的重要性。