CN1930575B

CN1930575B - 评估音频和视频源数据的方法及设备

Info

Publication number: CN1930575B
Application number: CN2005800079027A
Authority: CN
Inventors: A·纳菲安; S·拉贾兰姆
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2004-03-30
Filing date: 2005-03-25
Publication date: 2011-05-04
Anticipated expiration: 2025-03-25
Also published as: JP5049117B2; EP1730667A1; WO2005098740A1; KR101013658B1; US20050228673A1; KR20080088669A; KR20070004017A; JP2007528031A; CN1930575A

Abstract

提供了一些方法、系统和装置以分离并评估音频和视频。俘获音频和视频；评估视频以检测一个或多个发言者说话。使视觉特征与发言者说话相关联。分离音频和视频并将音频的相应部分映射到视觉特征以隔离与每个发言者相关联的音频并滤出与音频相关联的噪声。

Description

评估音频和视频源数据的方法及设备

技术领域

本发明的实施例一般涉及音频识别，尤其涉及使用结合音频的视频特征以改善语音处理的技术。

背景技术

语音识别在软件技术领域中持续取得进展。主要由于硬件的改善，这些进展已成为可能。例如，处理器变得更快速和更能负荷，且处理器内的存储容量变得更大且更充足。结果，在处理和存储器装置内进行精确检测和处理语音的方面取得了显著的进展。

然而，即使采用最强大的处理器和充足的存储器，在许多方面中语音识别仍存在问题。例如，当从特定发言者俘获音频时，常有与发言者环境相关联的各种背景噪声。该背景噪声使得很难检测发言者何时在说话、并很难检测被俘获音频的哪些部分应归因于发言者，相对于被俘获音频中属于背景噪声的应被忽略的部分。

当语音识别系统正监视一个以上的发言者时，出现另一问题。这可能在诸如在视频会议期间两个或更多的人通话时出现。语音可以从通话中适当地收集而不能正确地与发言者中的特定一个相关联。此外，在这种存在多个发言者的环境中，两个或更多发言者可能实际上同时说话，这对现有的传统语音识别系统产生了值得注意的分辨问题。

最常规的语音识别技术已尝试通过主要关注被俘获的音频并使用大量的软件分析以作出某些确定和分辨来解决这些及其它问题。然而，当发生谈话时，会随发言者出现视觉变化，即发言者的嘴部上下移动。这些视觉特征可用于提升常规的语音识别技术并用于生成更稳健和准确的语音识别技术。

因此，需要相互呼应地分离并评估音频和视频的改进的语音识别技术。

附图说明

图1A是用于音频和视频分离和评估的方法的流程图。

图1B是具有从图1A的方法中产生的模型参数的示例性贝叶斯网络的示图。

图2是用于音频和视频分离和评估的另一方法的流程图。

图3是用于音频和视频分离和评估的又一方法的流程图。

图4是音频和视频源分离和分析系统的示图。

图5是音频和视频源分离和分析装置的示图。

具体实施方式

图1A是用于分离和评估音频和视频的一种方法的流程图100A。该方法在计算机可访问媒介中实现。在一个实施例中，处理是驻留在一个或多个处理器中并在其中执行的一个或多个软件应用程序。在一些实施例中，将软件应用程序包含于用于分发的可拆卸计算机可读媒介上，并当与处理设备连接时被载入处理设备用于执行。在另一实施例中，在网络上的诸如服务器或远程服务的远程处理设备上处理软件应用程序。

在又一实施例中，软件指令的一个或多个部分从远程装置通过网络下载，被安装于本地处理设备上并在其上执行。对软件指令的访问可通过任何硬连线、无线或硬连线和无线网络的组合进行。此外，在一个实施例中，方法处理的一些部分可在处理设备的固件内实现或者在处理设备上处理的操作系统内实现。

最初，提供一种环境，其中将摄像机和麦克风连接到包含方法100A的处理设备。在一些实施例中，摄像机和麦克风集成于同一设备内。在其它实施例中，摄像机、麦克风和具有方法100A的处理设备全部集成于该处理设备内。如果摄像机和/或麦克风不直接集成入执行方法100A的处理设备，则可经由任何硬连线、无线或者硬连线和无线连接或变化的组合将视频和音频传递到处理器。摄像机电子地俘获视频(例如，随时间变化的图像)且麦克风电子地俘获音频。

处理方法100A的用途是学习与贝叶斯网络相关联的参数，该贝叶斯网络实际上联系与一个或多个发言者相关联的合适音频(语音)，以及还更准确地识别和排除与发言者的环境相关联的噪声。为此，该方法在训练期间采样与发言者相关联的被俘获电子音频和视频，其中音频由麦克风电子地俘获而视频由摄像机电子地俘获。音频一视觉数据序列起始于时间0并持续到时间T，其中T是大于0的任意整数。时间单位可以是毫秒、微秒、秒、分钟、小时等。训练对话的长度和时间单位对于方法100A来说是可配置参数，并非旨在限制于本发明的任何特定实施例。

110处，摄像机俘获在其视界内与一个或多个发言者相关联的视频。该视频与帧相关联，且每个帧与训练对话的特殊时间单位相关联。同时，在俘获视频时，111处，麦克风俘获与发言者相关联的音频。110和111处的视频和音频在执行方法100A的处理设备可访问的环境内被电子地俘获。

在俘获视频帧时，在112处分析或评估这些视频帧，以检测这些帧内俘获的发言者的面部和嘴部。检测每一帧内的面部和嘴部以确定一个帧何时指示发言者的嘴部正在移动以及何时发言者的嘴部不在移动。最初，检测面部通过将每一被分析帧的像素区域限制于被识别为发言者面部的区域来帮助降低检测与嘴部相关联的移动的复杂度。

在一个实施例中，使用被训练为识别帧内的面部的神经网络来实现面部检测。对神经网络的输入是具有多个像素的帧，且输出是识别发言者面部的具有较少像素的原始帧的较小部分。随后，将表示面部的像素传递到像素矢量匹配和分类器，它识别面部内的嘴部并监视提供用于进行随后的分析的来自每一面部的嘴部变化。

针对该步骤的一种技术是计算构成嘴部区的像素的总数，对该区域连续帧产生的绝对差增加了可配置阈值。该阈值是可配置的，且如果超过该阈值，则指示嘴部移动，而如果未超出，则指示嘴部不在移动。被处理帧的序列可用以该阈值可配置的滤波器大小(例如9或其它)进行低通滤波，以生成与视觉特征相关联的二进制序列。

在113处生成视觉特征，并使其与帧相关联以指示哪些帧具有嘴部移动并指示哪些帧中的嘴部没有移动。这样，跟踪并监视每个帧，以在为所俘获的视频处理各帧时确定发言者的嘴部何时移动何时不移动。

以上的用于在视频帧内识别发言者何时说话和不说话的示例技术并非旨在限制本发明的实施例。诸示例被提供用于说明目的，且用于识别帧内的嘴部何时相对于先前处理的帧移动或不移动的任何技术都被认为落在本发明的实施例内。

120处，使用来自麦克风的音频数据和视觉特征两者将混合的音频和视频相互分开。使音频与直接对应于升采样的俘获的视频帧的时间线相关联。应注意，视频帧以与声音信号不同的速率进行俘获(当前的设备常允许以14.4Kfps(千帧每秒) 俘获音频时以30fps(帧每秒)俘获视频)。此外，视频的每一帧都包括视觉特征，它标识发言者的嘴部何时移动和不移动。接着，为具有指示发言者嘴部移动的视觉特征的相应帧的同一时间片选择音频。即，130处，在与这些帧和音频两者相关联的相同时间片期间，将与这些帧相关联的视觉特征与音频相匹配。

结果是用于语音分析的音频的更准确的表示，因为音频反映了发言者何时在说话。此外，当摄像机俘获一个以上的发言者时，音频可属于特定的发言者。这允许从同不同音频特征相关联的不同发言者的话音中辨认出与个别音频特征相关联的一个发言者的话音。此外，可容易地识别来自其它帧(不示出嘴部移动的帧)的潜在噪声以及其频带，并通过发言者说话时与发言者相关联的频带进行编辑。这样，实现了语音的更准确的反映并将其从发言者的环境中过滤出，且即使在两个发言者同时说话时也可更准确地鉴别与不同发言者相关联的语音。

与准确地分开音频和视频相关联并适当地将音频与特定发言者的音频选择部分再匹配相关联的属性和参数可被公式化和表示，用于在贝叶斯网络中将该分离和再匹配建模。例如，音频和视频观察可表示为Z_jt＝[W_itX_it...W_itX_Mt]^T，t＝1-T(其中T是整数)，这可作为混合音频观察X_jt(j＝1-M，其中M是麦克风数)和视觉特征W_it(i＝1-N，其中N是音频-视觉源或发言者的数量)之间的乘法获得。通过允许在未观察到视觉语音时急剧减小音频信号，音频和视觉观察的这种选择改善了无声检测。音频和视觉语音混合处理可由以下的等式给出：

(1) . P (s_{t}) = \underset{i}{Π} P (s_{it});

(2).P(s_it)~N(0，C_s)；

(3).P(s_it|s_it-1)~ N(bs_it-1，C_ss)；

(4).P(x_it|s_it)~N(∑a_ijs_jt，C_x)；和

(5).P(z_it|s_it)~N(V_is_t，C_z).

在等式(1)-(5)中，s_it是与时间t时的第i个发言者相对应的音频样本，且C_s是音频样本的协方差矩阵。等式(1)描述了音频源的统计独立性。等式(2)描述了平均数0的高斯密度函数且协方差C_s描述了每个源的声音样本。等式(3)中的参数b描述了与同一发言者相对应的连续音频样本之间的线性关系，且C_ss是连续时刻处声音样本的协方差矩阵。等式(4)示出了描述声音混合处理的高斯密度函数，其中A＝[a_ij](i＝1-N，j＝1-M)是音频混合矩阵且C_x是混合的被观察音频信号的协方差矩阵。V_i是使得音频-视觉观察Z_it与未知分离源信号相关的M×N矩阵，且Cz是音频-视觉观察z_it的协方差矩阵。该音频和视觉贝叶斯混合模型可被视为具有源独立约束(以上等式(1)中所标识)的卡尔曼滤波器。在学习模型参数过程中，音频观察的加白(whitening)提供了矩阵A的初步估计。使用最大似然估计法学习模型参数A、V、b_i、C_s、C_ss和C_z。此外，使用约束的卡尔曼滤波器和学习到的参数来估计这些源。这些参数可用于配置根据视觉观察和噪声将发言者语音建模的贝叶斯网络。具有模型参数的样本贝叶斯网络在图1B中的示图100B中描述。

图2是用于音频和视频分离和评估的另一方法200的流程图。方法200在计算机可读和可访问媒介中实现。方法200的处理可在操作系统内、固件内、与执行方法200的处理设备相关联的存储器或存储设备内、或者上述方法用作远程服务的远程处理设备内的可拆卸计算机可读媒体上整体或部分地实现。与方法200相关联的指令可在网络上访问，该网络可以是硬连线的、无线的或者硬连线和无线的组合。

最初，配置一个摄像机和一个麦克风或者多个摄像机和麦克风，以监视并俘获与一个或多个发言者相关联的视频和音频。音频和视觉信息在210处被电子俘获或记录。接着，211处，将视频与音频分离，但视频和音频保持使时间与每一视频帧并与每一记录音频相关联的元数据，使得在需要时可在以后的阶段将视频和音频再混合。例如，可将视频的帧1与时间1相关联，且在时间1，具有与音频相关联的音频片1。该时间相关是与视频和音频相关联的元数据，并可用于将视频和音频再混合或再集成到单个多媒体数据文件中。

接着，在220和221处，为获取视觉特征并使该特征与每一个帧相关联而分析视频帧。视觉特征识别发言者的嘴部何时移动或不移动，给出关于发言者何时说话的视觉线索。在一些实施例中，在211处分离视频和音频之前俘获或确定视觉特征。

在一个实施例中，通过在222处处理神经网络以将每个帧内处理所需的像素减少到表示发言者面部的一组像素，使视觉线索与每一视频帧相关联。一旦知道面部区域，在223处，被处理的帧的面部像素被传到检测发言者的嘴部何时移动或不移动的过滤算法。过滤算法跟踪先前处理的帧，以便当检测到发言者嘴部移动(张开)时，可以确定相对于先前处理的帧发言者正在说话。与每个视频帧相关联的元数据包括视觉特征，它识别发言者的嘴部何时移动或不移动。

一旦处理了所有视频帧，如果音频和视频未被分开则在211处分开它们，随后在230处可以将视频和音频相互再匹配或再混合。在匹配处理期间，在231处，将具有指示发言者嘴部移动的视觉特征的帧与同一时间片内的音频再混合。例如，假定视频帧5具有指示发言者在说话的视觉特征且帧5记录于时间10且获取时间10处的音频片并将其与帧5再混合。

在一些实施例中，匹配处理可以更稳健，以使240处与没有指示发言者在说话的视觉特征的帧内音频相关联的频带能被标注为潜在噪声，并在指示发言者在说话的帧中用于从与发言者说话的帧相匹配的音频中消除相同的噪声。

例如，假定在发言者不说话的帧1-9处的音频内检测第一频带并假定在帧10中发言者说话。也随匹配帧10的相应音频出现第一频带。帧10也与具有第二频带的音频相匹配。因此，由于确定第一频带是噪声，则可从与帧10匹配的音频中滤去该第一频带。结果是与帧10相匹配的更准确的音频片，且这将改善对音频片执行的语音识别技术。

按类似的方式，匹配可用于在同一帧内说话的两个不同发言者之间进行辨别。例如，考虑在帧3处第一发言者说话且在帧5处第二发言者说话的情况。接着，考虑在帧10处第一和第二发言者同时说话的情况。与帧3相关联的音频片具有第一组视觉特征，且帧5处的音频片具有第二组视觉特征。因此，帧10处，音频片可被过滤为两个分开的片段，其中每个分开的片段与不同的发言者相关联。上述用于噪声消除的技术也可集成并增强用于在同时发言的分开的发言者之间进行区分的技术，以进一步提升所俘获音频的清晰度。这允许语音识别系统具有更可靠的音频用于分析。

在一些实施例中，如以上参考图1A所讨论的，可使匹配处理公式化以生成可在241处用于配置贝叶斯网络的参数。用这些参数配置的贝叶斯网络可用于随后与发言者交互并进行动态确定，以消除噪声并在不同发言者之间进行辨别并在同时说话的不同发言者之间进行辨别。随后，当在任何给定的处理时刻识别出音频是潜在噪声时，贝叶斯网络可对该音频滤出或产生零输出。

图3是用于分开并评估音频和视频的又一方法300的流程图。该方法在计算机可读和可访问媒介中实现为软件指令、固件指令或软件和固件指令的组合。这些指令可安装于任何网络连接上的远程的处理设备上、预安装在操作系统内、或者从一个或多个可拆卸计算机可读媒体安装。执行方法300的指令的处理设备还与分开的摄像机或麦克风设备、合成麦克风和摄像机设备、或者与处理设备集成的摄像机和麦克风设备接口。

310处，监视与正在说话的第一发言者和第二发言者相关联的视频。与所监视的视频同时地，在310A处俘获与第一和第二发言者的话音相关联并与同发言者环境相关的任何背景噪声相关联的音频。视频设备俘获发言者及一部分环境的图像且音频设备俘获与发言者及其环境相关联的语音。

320处，将视频分解为帧；每个帧都与记录帧的特定时间相关联。此外，分析每个帧以检测发言者嘴部的移动或不移动。在一些实施例中，在321处，这是通过将帧分解为较小的片，随后使视觉特征与每个帧相关联来实现的。视觉特征指示哪个发言者正在说话以及哪个发言者不在说话。在一种情形中，这可以使用训练过的神经网络首先识别每个被处理帧内的发言者面部并随后将这些面部传到查找相对于先前处理的帧与这些面部相关联的嘴部移动的矢量分类或匹配算法来完成。

322处，在为获取视觉特征分析每个帧后，将音频和视频分开。每个视频帧或音频片都包括与初始俘获或记录它的时间相关联的时标。该时标允许音频在需要时与合适的帧再混合并允许该音频更准确地匹配特定一个发言者并允许减小或消除噪声。

330处，将音频的诸部分与第一发言者相匹配并将音频的诸部分与第二发言者相匹配。这可以基于每一被处理帧及其视觉特征以各种方式完成。在331处，基于分离音频和视频的时间相关性发生匹配。例如，与具有相同时标的音频相匹配的帧(其中那些帧具有指示没有发言者正在说话的视觉特征)可用于识别与发言者环境内发生的噪声相关联的频带，如332处所述。所识别的噪声频带可在帧及相应的音频片中使用以使得检测到的语音更清晰或清脆。此外，与音频匹配的帧(其中仅一个发言者说话)可用于利用独特的音频特征辨别在不同的帧中两个发言者何时说话。

在一些实施例中，在340处，可以为与发言者发生的后续交互而将320和330的分析和/或匹配处理建模。即，可用定义分析和匹配的参数配置贝叶斯网络，以使贝叶斯模型可在随后遇到与第一和第二发言者的会话时确定和改善语音分离和识别。

图4是音频和视频源分离和分析系统400的示图。音频和视频源分离和分析系统400在计算机可访问媒介中实现并分别实现了以上针对图1A-3和方法100A、200和300讨论的技术。通过结合技术以与该视频期间发言者所发出的音频相一致地评估与发言者相关联的视频，该音频和视频源分离和分析系统400操作上改善了语音识别。

音频和视频源分离和分析系统400包括摄像机401、麦克风402和处理设备403。在一些实施例中，三个设备401-403集成于单个合成设备。在其它实施例中，这三个设备401-403通过本地或连网连接而相互连接和通信。通信可经由硬连线连接、无线连接或它们的组合发生。此外，在一些实施例中，摄像机401和麦克风402被集成于单个合成设备(例如，摄影机等)并连接到处理设备403。

处理设备403包括指令404，这些指令404分别实现了图1A-3的方法100A、200和300中所述的技术。指令经由处理器403及其相关存储器或通信指令接收来自摄像机401的视频和来自麦克风402的音频。视频描述了说话或不说话的一个或多个发言者的帧，且音频描述了与背景噪声和与发言者有关的语音相关联的音频。

指令404分析每个音频帧，以使视觉特征与每个帧相关联。视觉特征识别特定发言者或两个发言者何时说话以及它们何时不说话。在一些实施例中，指令404与其它应用程序或指令集协同来实现该操作。例如，每个帧可具有用经训练的神经网络应用软件404A识别的发言者的面部。各帧内的面部可传送到矢量匹配应用程序404B，该程序相对于先前处理的帧的面部评估这些帧内的面部以检测这些面部的嘴部是否移动。

指令404在使视觉特征与每个视频帧相关联之后分离音频和视频帧。每一音频片和视频帧包括时标。时标可由摄像机401、麦克风402或处理器403分配。或者，当指令404分离视频和音频时，指令404在该时间点分配时标。时标提供可用于再混合和再匹配被分离的音频和视频的时间相关性。

接着，指令404独立地评估帧和音频片。因此，具有指示没有发言者说话的视觉特征的帧可用于识别匹配音频片和它们的相应频带，以识别潜在噪声。可从具有指示发言者正在说话的视觉特征的帧中滤去潜在噪声，以改善音频片的清晰度；该清晰度将改进评估该音频片的语音识别系统。指令404还可用于评估并辨别与每一个发言者相关联的独特音频特征。这些独特的音频特征还可用于将单个音频片分入各自具有与唯一发言者相关联的唯一音频特征的两个音频片。因此，指令404可在多个发言者同时说话时检测各发言者。

在一些实施例中，指令404通过初始地经由摄像机401和麦克风402与一个或多个发言者交互而学习和执行的处理可被公式化为可在贝叶斯网络应用程序404C内配置的参数数据。这允许贝叶斯网络应用程序404C在后续与发言者的语音会话时独立于指令404地与摄像机401、麦克风402和处理器403交互。如果发言者处于新环境中，则指令404可再次由贝叶斯网络应用程序404C用于改善其性能。

图5是音频和视频源分离和分析装置500的示图。音频和视频源分离和分析装置500驻留在计算机可读媒介501中并实现为软件、固件或其组合。音频和视频源分离和分析装置500在被载入一个或多个处理设备时通过结合发生谈话时同时监视的音频而改善与一个或多个发言者相关联的语音识别。音频和视频源分离和分析装置500可整体驻留在一个或多个计算机可拆卸媒体或远程存储位置上，且随后传递到处理设备用于执行。

音频和视频源分离和分析装置500包括音频视频分离逻辑502、面部检测逻辑503、嘴部检测逻辑504以及音频和视频匹配逻辑505。面部检测逻辑503检测视频帧内的面部位置。在一个实施例中，面部检测逻辑503是被设计为获取像素帧并将这些像素的子集标识为一个或多个面部的经训练的神经网络。

嘴部检测逻辑504获取与面部相关联的像素并识别与面部中的嘴部相关联的像素。嘴部检测逻辑504还相互评估多个面部帧，以确定面部中的嘴部何时移动或不移动。嘴部检测逻辑504的结果与由音频视频匹配逻辑所耗用的作为视觉特征的每个视频帧相关联。

一旦嘴部检测逻辑504使视觉特征与每个视频帧相关联，音频视频分离逻辑502从音频中分离出视频。在一些实施例中，在嘴部检测逻辑504处理每个帧之前，音频视频分离逻辑502从音频中分离出视频。每个视频帧和每个音频片包括时标。这些时标可由音频视频分离逻辑502在分离时分配或者可由另一处理分配，诸如由俘获视频的摄像机和俘获音频的麦克风分配。或者，俘获视频和音频的处理器可使用指令来对视频和音频进行时标。

音频和视频匹配逻辑505接收分离的加时标的视频帧和音频的流，视频帧具有由嘴部检测逻辑504分配的相关联的视觉特征。随后，评估每个帧和片，以识别噪声、识别与特定和单独的发言者相关联的语音。与该匹配和选择性再混合相关联的参数可用于配置对发言者发言建模的贝叶斯网络。

音频和视频源分离和分析装置500的一些组件可结合入其它组件，且可以添加图5中未包含的一些附加组件。因此，图5被提供仅用于说明而非限制本发明的实施例。

以上描述是说明性而非限制性的。通过阅读以上描述，许多其它实施例对于本领域的熟练技术人员来说是显而易见的。因而，本发明实施例的范围应参考所附权利要求书并连同权利要求书的等效技术方案的完整范围加以确定。

摘要被提供用于符合要求允许读者快速确认技术公开内容的性质和要点的摘要的37C.F.R.ξ1.72(b)。可以理解，它不用于解释或限制权利要求书的范围或含义。

在以上实施例的描述中，将各种特点一起组合在单个实施例中，以贯穿公开内容。公开的方法不被解释为所声明的本发明的实施例需要比每个权项中所述的特征更多的特征。相反，如以下权利要求所反映的，发明主题在于少于单个公开实施例的全部特征。因此，以下权利要求书被结合入实施例的描述，其中每个权项独立作为一单独的示例性实施例。

Claims

1.一种评估音频和视频源数据的方法，包括：

电子地俘获与发言者说话相关联的视觉特征，所述视觉特征指示发言者的嘴部移动，用于识别发言者在说话，其中电子地俘获所述视觉特征还包括对与所述发言者说话相关联的电子视频处理神经网络，并且还包括过滤所述发言者的被测面部以检测所述发言者嘴部的移动或不移动，其中所述神经网络被训练以检测并监视所述发言者的面部；

电子地俘获音频；

将所述音频的选择部分与所述视觉特征匹配；以及

将所述音频中那些不具有指示发言者在说话的匹配视觉特征的其余部分识别为与所述发言者说话无关的潜在噪声。

2.如权利要求1所述的方法，其特征在于，还包括：

电子地俘获与一另外的发言者说话相关联的附加视觉特征；以及

将来自所述潜在噪声的所述音频其余部分中的一些与所述另外的发言者说话匹配。

3.如权利要求1所述的方法，其特征在于，还包括生成与所述匹配和识别相关联的参数，并将所述参数提供到对所述发言者说话进行建模的贝叶斯网络。

4.如权利要求1所述的方法，其特征在于，匹配还包括针对同一时间片内所俘获音频的各部分比较所俘获视觉特征的各部分。

5.如权利要求1所述的方法，其特征在于，还包括在所俘获视觉特征的选定一些指示发言者未说话的时间段内中止所述音频的俘获。

6.一种评估音频和视频源数据的方法，包括：

监视第一发言者和第二发言者的电子视频；

同时俘获与所述第一和第二发言者说话相关联的音频；

分析所述视频以检测所述第一和第二发言者何时移动他们各自的嘴部；以及

将所述音频分为第一部分和第二部分，并基于所述分析将第一部分与第一发言者相匹配并将第二部分与第二发言者相匹配，所述匹配还包括识别与何时监控所述电子视频的选择部分以及何时俘获所述音频的选择部分相关联的时间相关性。

7.如权利要求6所述的方法，其特征在于，还包括对所述分析建模以随后与所述第一和第二发言者交互。

8.如权利要求6所述的方法，其特征在于，分析还包括处理一神经网络，以检测所述第一和第二发言者的面部，并处理矢量分类算法以检测所述第一和第二发言者的各自嘴部何时移动或不移动。

9.如权利要求6所述的方法，其特征在于，还包括为分析作准备而从同时俘获的音频中分离出所述电子视频。

10.如权利要求6所述的方法，其特征在于，还包括当所述分析未检测到所述第一和第二发言者的嘴部移动时中止所述音频的俘获。

11.如权利要求6所述的方法，其特征在于，还包括如果一部分不匹配所述第一发言者或第二发言者，则将所述俘获音频的该部分识别为噪声。

12.一种评估音频和视频源数据的系统，包括：

摄像机；

麦克风；以及

处理设备，其中所述摄像机俘获发言者的视频并将所述视频传送到所述处理设备，所述麦克风俘获与所述发言者及其环境相关联的音频并将所述音频传送到所述处理设备，所述处理设备包括识别所述发言者说话时所述视频的视觉特征的指令，使用时间相关性使所述音频的一些部分与那些视觉特征相匹配，并将所述音频中那些不具有指示发言者在说话的匹配视觉特征的其余部分识别为与所述发言者说话无关的潜在噪声，

其中所述指令与神经网络交互以从所俘获的视频中检测所述发言者的面部，并且所述指令与像素矢量算法交互以检测在所俘获的视频内与所述面部相关联的嘴部何时移动或不移动。

13.如权利要求12所述的系统，其特征在于，所述被俘获的视频还包括第二发言者的图像且所述音频包括与所述第二发言者相关联的声音，且其中当所述视觉特征中的一些指示所述第二发言者在说话时，所述指令将所述音频中的一些部分与所述第二发言者相匹配。

14.如权利要求12所述的系统，其特征在于，所述指令生成配置贝叶斯网络的参数数据，所述贝叶斯网络对与所述发言者的后续交互建模以确定所述发言者何时说话并确定适当的音频与所述后续交互中的发言者说话相关联。

15.一种评估音频和视频源数据的设备，包括：

用于分离与发言者说话相关联的音频和视频的装置；

用于识别指示所述发言者的嘴部移动或不移动的来自所述视频的视觉特征的装置；以及

用于使所述音频的一些部分与指示所述嘴部移动的所述视觉特征相关联的装置；以及

用于将所述音频中那些不具有指示发言者嘴部移动的匹配视觉特征的其余部分识别为与所述发言者说话无关的潜在噪声的装置；

其中用于识别指示所述发言者的嘴部移动或不移动的来自所述视频的视觉特征的装置还用于：

处理一神经网络以检测所述发言者的面部；以及

处理一矢量匹配算法以检测所述检测到的面部内的所述发言者嘴部的移动。

16.如权利要求15所述的设备，其特征在于，还包括用于使得所述音频的其它部分与指示所述嘴部不移动的视觉特征相关联的装置。

17.如权利要求15所述的设备，其特征在于，还包括：

用于识别指示另一发言者的不同嘴部移动或不移动的来自视频的第二视觉特征的装置；以及

用于使所述音频的不同部分与指示所述不同嘴部移动的第二视觉特征的选择一些相关联的装置。

18.如权利要求15所述的设备，其特征在于，用于关联的装置还用于：

将与俘获所述音频的一些部分的时间相关联的时间片和在所述视频内俘获所述指示所述嘴部移动的视觉特征的时间相匹配。

19.一种评估音频和视频源数据的设备，包括：

面部检测装置；

嘴部检测装置；以及

音频-视频匹配装置，其中所述面部检测装置检测视频内发言者的面部，所述嘴部检测装置检测并监视所述视频的面部内包含的嘴部的移动和不移动，且所述音频-视频匹配装置将所俘获音频的一些部分与由所述嘴部检测装置所识别的任何移动相匹配，并将所述音频中那些不具有匹配的嘴部移动的其余部分识别为与所述发言者说话无关的潜在噪声；

其中所述面部检测装置还用于：

处理一神经网络以检测所述发言者的面部；以及

其中所述嘴部检测装置还用于：

20.如权利要求19所述的设备，其特征在于，所述设备用于配置对所述发言者说话建模的贝叶斯网络。

21.如权利要求19所述的装置，其特征在于，所述面部检测装置包括一神经网络。

22.如权利要求19所述的设备，其特征在于，所述设备驻留在处理设备上，且所述处理设备与摄像机和麦克风相连接。