CN1633670A

CN1633670A - 采用视频－语音匹配进行人员认证的方法和系统

Info

Publication number: CN1633670A
Application number: CNA038038099A
Authority: CN
Inventors: M·李; D·李; N·迪米特罗瓦
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-02-14
Filing date: 2003-02-05
Publication date: 2005-06-29
Anticipated expiration: 2023-02-05
Also published as: EP1479032A1; WO2003069541A1; US20030154084A1; CN1324517C; JP2005518031A; AU2003205957A1; KR20040086366A

Abstract

本发明公开了一种用于确定视频数据中谁是说话者的方法和系统。这可用于在视频内容分析和检索应用中加入人员认证。一相关性用于提高依赖于面部识别和说话者认证的所述人员识别率。隐性语义关联(LSA)处理也可用于提高说话者面部与其声音的关联性。可以结合其他的数据源(例如，文本)用于更广领域的视频内容理解应用。

Description

采用视频-语音匹配进行人员认证的方法和系统

本发明涉及在视频数据方面的对象认证领域。尤其，本发明涉及一种在视频数据内识别说话者的方法和系统。

人员认证在日常生活中扮演重要的角色。我们从很小的时候就知道怎么识别一个人。随着视频摄像机的广泛使用，越来越需要从视频数据中进行自动人员识别。例如，美国几乎每个百货公司都有一个监视摄像系统。需要从大的视频机组中识别，例如，罪犯或者其他人。然而，人工搜索此视频机组是个耗时且昂贵的过程。因此需要一种用于在很大的视频档案中进行自动人员识别的装置。

常规用于人员识别的系统着重于单个模态处理，例如，面部检测和识别、说话者认证以及姓名识别。尤其，典型的视频数据通过三个互补源，图象、音频和文本，包含大量信息。对于每一源均存在执行人员认证的技术，例如，在图象领域的面部检测和识别、在音频领域的说话者认证以及在文本领域的姓名识别。每一技术均有其自身的应用和缺点。例如，姓名识别不能处理不具有好文本源的视频，如电视信号中的图文电视或结尾标题。

一些常规系统试图从视频集成多个提示，例如，《’99ACM多媒体会议论文集》(1999年)，用于多媒体会议浏览器的多模式人员ID(Multimodal People ID For A Multimedia Meeting Browser)，作者J Yang等。此系统使用采用概率框架的面部检测/识别和说话者认证技术。然而，此系统假设出现在视频中的人是说话者，尽管这不总是为真。

因此，人员认证系统需要能够从低水平特征发现视频中谁是说话者并建立视频中语音/音频和多面部之间的联系。

本发明实现了一种利用低水平音频和视觉特征将面部与语音相关联的面部语音匹配方法。元需复杂的面部识别和说话者认证技术便可实现本发明。本发明的各实施例无需视频内人员认证的现有技术便可用于普通视频数据的分析。

本发明具有诸如视频会议的说话者检测、视频索引和提高人机接口的多个应用。在视频会议中，知道谁在说话可用于提示视频摄像机放大此人。本发明也可用于带宽受限的视频会议应用，这使得只传送说话者的视频。本发明也可用于索引视频(例如，“定位有人说话的所有视频段”)，并可以与面部识别技术组合(例如，“定位特殊说话者的所有视频段”)。本发明也能通过提供获知用户何时何处说话的软件应用用于提高人机交互。

如上所述，人员认证在视频内容分析和检索应用方面扮演了重要角色。在视觉领域的面部识别和在音频领域的说话者认证是在视频中发现一人员的两个主要技术。本发明的一个方面是依靠面部识别和说话者认证应用来提高人员识别率。在一个实施例中，一数学框架，隐性语义关联(LSA)，被用于将说话者面部与其声音相关联。此数学框架结合了相关性和隐性语义索引方法。所述数学框架可扩展到集成更多的源(例如，文本信息源)并用于更广领域的视频内容理解应用。

本发明的一个实施例涉及一种用于处理视频数据的音频-视觉系统。所述系统包括能从所述视频数据中提供多个对象特征的对象检测模块以及能够从所述视频数据中提供多个音频特征的音频分段模块。一处理器与所述面部检测和所述音频分段模块耦合。所述处理器确定所述多个面部特征和多个音频特征之间的相关性。此相关性可用于确定所述视频中的一面部是否在说话。

本发明的另一实施例涉及一种用于在视频数据中识别说话者的方法。所述方法包括接收包括图象和音频信息的视频数据、从所述视频数据的一或多个面部中确定多个面部图象特征以及确定与音频信息相关的多个音频特征的步骤。所述方法也包括计算所述多个面部图象特征和所述音频特征之间的相关性并基于所述相关性确定说话者的步骤。

本发明的还一个实施例涉及一种包括用于处理包括图象和音频的视频的软件代码的存储介质。所述代码包括从所述视频获得多个对象特征的代码以及从所述视频获得多个音频特征的代码。所述代码也包括确定所述多个对象特征和所述多个音频特征之间相关性的代码以及确定所述视频中一或多个对象与所述音频之间关联的代码。

在其他实施例中，为提高相关性过程也可执行隐性语义索引处理。

本发明其他特征和方面及其各自优点将在附图和对优选实施例的详细描述中更为明显。

图1表示依据本发明一个实施例的人员认证系统。

图2表示在其中可实现本发明的不同实施例的系统概图。

图3是表示图2的系统的体系结构的方框图。

图4是描述依据本发明另一实施例的人员认证方法的流程图。

图5表示在面部和音频特征之间相关性矩阵的图例。

图6表示平均能量和第一本征面部之间关系的图例。

图7表示采用一LSI过程之后的相关性矩阵的图例。

在下述描述中，为了解释而不是限制，首先描述诸如特殊体系结构、接口、技术等的特定细节，以便全面理解本发明。然而，本领域普通技术人员很明显知晓本发明可用其他在特定细节上不同的实施例实现。而且，为了简单而明确，以下将省略对公知设备、电路和方法的详细描述以避免由于不必要的细节使本发明的描述不清楚。

参考图1，人员认证系统10包括三个独立且相互交互的模块，即说话者认证20、面部识别30和姓名识别40。然而，注意所述模块不一定是独立的，例如，一些可被集成。不过，为了从面部-语音匹配和姓名-面部关联中获得更好的性能，每个模块优选地独立且能彼此交互。所述说话者认证模块20包括音频分段和分类单元21、说话者认证单元22和说话者ID单元23。所述面部认证模块30包括全-面部检测单元31、面部识别单元32和面部ID单元33。所述姓名-识别模块40包括文本检测识别单元41、姓名识别单元42和姓名单元43。所述人员认证系统10还包括面部-语音-匹配单元50、姓名-面部关联单元60和人员ID单元70。

存在几个公知技术可独立执行面部检测和识别、说话者认证和姓名识别。例如，参看S.Satoh，et.Al.，Name-It：Naming and detectingfaces in news videos，IEEE Multimedia，6(1)：22-35，January-March(Spring)1999 for a system to perform name-faceassociation in TV news。但是此系统也假设出现在所述视频中的所述面部是说话者，尽管这不总为真。

每个模块的所述输入，例如，音频(A)、视频(V)、视频标题(VC)(也被称为视频文本)和结尾标题(CC)可来自不同源。所述输入可来自视频会议系统、数字TV信号、因特网、DVD或任何其他的视频源。

当一人正在说话时，他或她典型地会有一些面部和/或头的移动。例如，头可来回移动，或者头可转向左右。所述说话者的嘴巴也在张合。有时人有面部表情的同时也有一些手势。

头移动的初始结果是面部图象的位置变化。在视频会议的情况下，通常摄像机的移动与说话者的头移动不同，即，不同步。所述影响是面部相对于摄像机的方向变化。因此所述面部子图象将细微地改变其大小、强度和颜色。在这点上，头部移动导致面部的位置和图象的变化。

为获得嘴巴的动作，可采用两种基本办法。首先可追踪所述嘴巴的动作。有关唇读的语音识别的常规系统是公知的。此系统追踪嘴唇动作从而猜测发音单词。然而，由于视频领域的复杂性，追踪嘴唇动作是一个复杂的任务。

可选地，可追踪由于嘴唇动作所导致的面部变化。随着嘴唇动作，将改变下部面部图象的颜色强度。而且，面部图形大小也将有细微的变化。通过追踪面部图象下面部分的变化，可追踪嘴唇动作。由于只需要关于嘴唇是否动作的知识，不需要确切地知道嘴唇如何动作。

与嘴唇动作类似，面部表情将改变面部图象。此变化也可采用类似方法来追踪。

考虑由说话所导致的这三种动作(即头移动、嘴唇动作和面部表情)，最重要的是嘴唇动作。更清楚地说，嘴唇动作直接与说话相关。因此通过精确地追踪嘴唇动作，可执行对说话者的确定。因此，优选的是追踪反映头和嘴唇动作的头位置和面部的下部图象。

上述讨论的重点在于时域上的视频变化。在空间领域，为辅助追踪图象变化可进行几个有用的观察。首先所述说话者经常出现在视频图象的中心。第二，说话者面部的大小通常占总显示图象的相对较大部分(例如，图象的25％或更多)。第三，所述说话者的面部通常是正面的。这些观察可用于辅助追踪图象变化。但是要注意的是这些观察不是追踪图象变化所必需的。

在模式识别系统中，特征选择是至关重要的一部分。为辅助选择要追踪的适当的特征，可采用所述讨论以及以上讨论的分析。学习过程也可用于执行特征优化和减少。

对于所述面部图象(视频输入)，可采用一PCA(主要成分分析)表达式。(参看《ACM通信》第43卷第2号(2000年2月)，用于索引口语的集成技术(Integrated Technologies For IndexingSpoken Language)，作者Francis Kubala等人)。PCA表达式可用于大量减少特征数量。然而，众所周知，PCA对面部方向非常敏感，这对面部识别很不利。然而，与常识相反，由于要考虑追踪面部方向的变化，则PCA正是优选的。

可选地，LFA(局部特征分析)表达式可用于所述面部图象。LFA是PCA的扩展。LFA采用局部特征来表示面部。(参看《ACM通信》第43卷第2号(2000年2月)，用于广播新闻档案的互补视频和音频分析(Complementary Video and Audio Analysis For BroadcastNews Archives)，作者Howard D.Wactlar等人)。利用LFA，可追踪面部的不同动作，例如嘴唇动作。

对于所述音频数据输入，可使用多达二十(20)个音频特征。这些音频特征是：

-平均能量；

-音调；

-零交叉；

-带宽；

-频带中心；

-频率响应跌落；

-低比例；

-频谱通量；以及

-12MFCC成分。

(参看《模式识别证书》22，(2001)533-544，用于基于内容检索的普通音频数据分类，作者Dongge Li等人)。上述音频特征的全部或者子集可用于说话者认证。

所述音频特征可用数学表达式表示如下：

[1]A＝(a₁、a₂、......、a_K)’

K表示用于表示语音信号的音频特征的数量。因此，例如，每个视频帧，K维向量用于表示特殊视频帧中的语音。符号’表示矩阵转置。

在所述图象数据(例如，视频输入)中，对于每张面部，I特征用于表示它。所以对于每个视频帧，I维面部向量用于每张面部。假设在所述视频数据中有M张面部，每一视频帧的面部可表示如下：

[2] - - - F = {(f_{1}^{1}, f_{2}^{1}, . . . . . ., f_{I}^{1}, f_{1}^{2}, . . . . . ., f_{I}^{2}, . . . . . ., f_{I}^{M})}^{'}

包括所有面部特征和音频特征的成分，所产生的向量为：

[3] - - - V = (f_{1}^{1}, f_{2}^{1}, . . . . . ., f_{I}^{1}, f_{1}^{2}, . . . . . ., f_{I}^{2}, . . . . . ., f_{I}^{M}, a_{1}, . . . . . ., a_{K})'

V表示在一个视频帧中关于语音和面部的所有信息。当考虑一较大范围时，假如在一轨道中有N帧，则第i帧的V向量是Vi。

如图1所示是面部-语音-匹配单元50。所述面部-语音-匹配单元50使用来自说话者认证20和所述面部识别30模块的数据。如上所述，此数据包括所述音频特征和所述图像特征。所述面部-语音-匹配单元50然后根据低水平特征确定视频中谁在说话并建立视频中语音/音频和多面部之间的关系。

在本发明的第一实施例中，一相关性方法可用于执行所述面部-语音匹配。在音频和多个候选面部中的每个之间计算标准化相关性。所述与音频具有最大相关性的候选面部是所述正在说话的面部。应该理解需要所述面部和所述语音之间的关系来确定所述正在说话的面部。所述计算两个变量之间关系的相关性处理适合此任务。

为执行所述相关性处理，执行确定在所述音频向量[1]和面部向量[2]之间的相关性的计算。所述与音频具有最大相关性的面部被选择作为所述正在说话的面部。这考虑到对应于所述视频中语音的视频数据中的面部变化。在语音和说话者之间有一些内在的关系：相关性，其为关系的数学表达式，提供了衡量这些关系的量规。所述计算音频和面部向量之间相关性的相关性处理可用数学表达式表示如下：

所述视频的平均向量如下：

[4] - - - V_{m} = \frac{1}{N} Σ_{i = 1}^{N} V_{i}

V的协方差矩阵如下：

[5] - - - \overset{&OverBar;}{C} = \frac{1}{N} Σ_{i = 1}^{N} (V_{i} - V_{m}) {(V_{i} - V_{m})}^{'}

标准化协方差如下：

[6] - - - C (i, j) = \frac{\hat{C} (i, j)}{\sqrt{\hat{C} (i, i) \hat{C} (j, j)}}

在所述音频向量[1]和所述面部向量[2]中的第m张面部之间的所述相关性矩阵是子矩阵C(IM+1:IM+K，(m-1)I+1:mI)。计算此子矩阵的所有元素之和c(m)，这就是第m个面部向量和第m个面部向量之间的相关性。所述具有最大c(m)的面部被选择作为正在说话的面部，如下：

在第二实施例中，LSI(隐性语义索引)方法也可用于执行所述面部-语音匹配。LSI是文本信息检索的有效方法。LSI未覆盖对象(即关键词和文档)之间的内在和语义关系。LSI采用矩阵计算的单数值分解(SVD)来获得用于关键词和文档的新表达式。在此新表达式中，关键词和文档的基础不相关。这考虑采用小得多的基本向量组来表示关键词和文档。因此，获得三个好处。第一是维数减少。第二是消除噪音。第三是发现在诸如关键词和文档的不同对象之间的语义和隐含关系。

在本发明的实施例中，LSI可用于发现音频和面部之间的所述内在关系。LSI在某种意义上可消除所述噪音并减少特征，这尤其有效，因为典型的图象和音频数据会包含冗余信息和噪音。

然而，在所述视频领域中，情况比在文本领域中复杂得多。这是因为在文本领域中，文档、关键词的基本组成块其自身是有意义的。在视频领域，图象和音频的低水平表达式其自身可能无意义。然而，它们的组合共同表示的多于单个成分所表示的。在此前提下，在图象顺序和伴随的音频顺序之间必须存在一些关系。本发明者发现LSI处理了视频领域中的所述关系。

为执行所述LSI处理，利用上述向量建立用于所述视频顺序的矩阵：

[8] - - - \hat{X} = (V_{1}, V_{2}, . . . . . ., V_{N})

如上所述，V的每个成分是包含各种视觉和音频特征：

V = {(f_{1}^{1}, f_{2}^{1}, . . . . . ., f_{I}^{1}, f_{1}^{2}, . . . . . ., f_{I}^{2}, . . . . . ., f_{I}^{M}, a_{1}, . . . . . ., a_{K})}^{'} .

简单地将它们放在

一起并直接执行SVD可能没有意义。因此，每个成分接它们的最大元素标准化为：

[9] - - - X (i, :) = \frac{\hat{X} (i, :)}{\max (abs (\hat{X} (i, :)))}

在等式[9]中，X(i，：)表示矩阵X的第i行。分母是第i行的最大绝对元素。所产生的矩阵X具有-1和1之间的元素。假如V的维数是H，那么X是H×N维矩阵。然后对X执行如下的一单数值分解：

[10]X＝SVD’

S由XX’的本征向量逐列组成，D包括X’X的本征向量，V是一对角矩阵，其对角元素是本征值。

通常，矩阵S、V、D必须全部满秩。然而，所述SVD处理考虑到利用更小矩阵用于最佳近似匹配的简单的策略。所述本征值在V中按递减顺序排序。保留所述第一k元素，这使得X可表示为：

[11] - - - X &cong; \hat{X} = \hat{S} \hat{V} {\hat{D}}^{'}

包括V的第一个k元素，包括S的第一k列并且

包括D的第一k列。可以看出是在最小乘方义项(least square sense)中X的最佳表达式。

在具有X的新表达式之后，可在新的空间中执行各种操作。例如，可计算面部向量[2]和音频向量[1]的相关性。可计算在面部向量[2]和音频向量[1]之间的距离。也可计算在执行帧聚合的视频帧之间的差异。对于面部-语音匹配，如上所述在相关性处理中计算面部特征和音频特征之间的相关性。

在k的选择上具有灵活性。此值应被选择从而使其大到足以保持下层数据的主要信息，并且同时小到足以消除噪音和无关信息。通常k应该在10到20的范围内从而赋予系统良好的性能。

图2表示描述在其中可实现本发明的不同实施例的典型物理结构的系统概图。该图示例描述了采用个人计算机所包含的元素的方法的实现。在一优选实施例中，通过可由数据处理装置执行的计算机可读代码来实现所述系统10。所述代码可以存储在所述数据处理装置的存储器中或者从诸如CD-ROM或软盘的存储介质中读取/下载。在其他的实施例中，硬件电路可用于替换或与实现本发明的软件指令结合。例如，本发明可利用用于处理的三媒体处理器和用于显示的电视监视器在数字电视平台或机顶盒中实现。

如图2所示，一计算机100包括用于与诸如可变带宽网络、因特网的数据网络接口的网络连接101和/或用于与诸如视频或数字摄像机(未示出)的其他远程源102接口的传真/调制解调器连接。所述计算机100也包括用于向用户显示信息(包括视频数据)的显示器103、用于输入文本和用户命令的键盘104、用于在显示器103上定位光标以及用于输入用户命令的鼠标105、用于从安装在其中的软盘中读取并写入的盘驱动器106以及用于访问存储在CD-ROM或DVD中信息的CD-ROM/DVD驱动器107。所述计算机100也可具有一或多个附加在其上的外设，例如一对用于输入图象等的视频会议摄像机，以及用于输出图象、文本等的打印机108。

其他实施例可通过各种软件和硬件结合的装置以及更多种控制器和处理器来实现。例如，也可使用膝上型或掌上电脑、视频会议系统、个人数字助理(PDA)、带有显示器的电话、电视、机顶盒或任意其他种的类似设备。

图3表示所述计算机100的内部结构，所述计算机包括存储器110，所述存储器110包括随机存取存储器(RAM)、只读存储器(ROM)和诸如硬盘的计算机可读介质。存储在存储器110中的项目包括操作系统、各种数据和应用。所述存储在存储器110中的应用可包括视频编码器、视频解码器和帧抓取器。所述视频编码器按常规方法编码视频数据，并且所述视频解码器解码已按常规方法编码的视频数据。所述帧抓取器允许捕获并处理来自视频信号流的单个帧。

所述计算机100还包括中央处理器(CPU)120、通信接口121、存储器接口122、CD-ROM/DVD驱动器接口123、视频接口124和总线125。所述CPU120包括用于执行计算机可读代码，即上述来自所述存储器110的应用的微处理器或类似物。所述应用可存储在存储器110(如上所述)中或者可选地存储在硬盘驱动器106的软盘或CD-ROM驱动器107中的CD-ROM中。所述CPU120经由所述存储器接口122访问存储在软盘上的所述应用(或其他数据)并经由CD-ROM驱动器接口123访问存储在CD-ROM上的应用(或其他数据)。

所述CPU120可表示，例如，微处理器、中央处理器、计算机、电路卡、数字信号处理器或专用集成电路(ASIC)。所述存储器110可表示，例如，基于盘的光学或磁性存储单元、电子存储器，以及这些和其他存储设备的部分或组合。

在存储在所述存储器110中并由所述CPU120执行的一个或多个软件程序中可部分或全部地实现与所述系统10相关的各种功能操作。这种计算和介质处理设备(如图3所示)可以是改进机顶盒的一部分。

如图4所示是描述说话者认证方法的流程图。所述步骤对应上述结构/过程。尤其，在步骤S100中，获得视频/音频数据。所述视频/音频数据可以直接进行相关性过程(S102)或首先利用所述LSI过程进行预处理(S101)。基于所述相关性过程的输出，可执行所述面部-语音匹配分析(S103)。例如，具有最大相关值的面部被选择作为正在说话的面部。然后此结果可用于执行人员认证(S104)。如下所述，利用采用姓名-面部关联过程(S106)处理得到的文本数据(S105)也可执行所述相关性过程(S102)。

为确认上述视频和音频之间的关系，本发明者执行了一系列试验。两个视频剪辑用于所述试验。对于一个试验，选择其中两人出现在屏幕上而一人正在说话的视频剪辑。对于另一试验，选择其中一人说话但无太多动作、一人说话带有许多动作、一人坐在那无动作而另一人正在说话、以及一人坐在那带有许多动作而另一人正在说话的视频剪辑。对于这些试验，实现了在视频中用于人工选择和面部注释的程序。

所述试验包括了三部分。第一部分用于描述音频和视频之间的关系。另一部分用于测试面部-语音匹配。由于本实验的一个目的是人员认证，所以使用本征面部表示面部。使用PCA的面部识别也被执行。

现有技术已经对音频和视频的一般关系进行了一些研究工作。(参看《IEEE信号处理杂志》2000年11月，第12-36页，采用音频和视觉线索的多媒体内容分析(Multimedia Content AnalysisUsing Both Audio and Visual Clues)，作者Yao Wang等人)。然而，所述工作说明在音频特征和整体视频帧特征之间无关系。由于现有技术中的系统在视频和音频方面具有太多噪音，因此这是不准确的。因此噪音隐藏了在音频和视频之间的关系。相反，在上述实施例中，只有面部图象用于计算音频和视频之间的关系。

通过例子，相关性矩阵(如上所述计算)如图5所示。一个单元格(例如，方块)表示所述相关性矩阵的对应元素。元素数值越大，单元格越白。左图表示正在说话的面部的相关性矩阵，其反映了说话者的面部与其声音之间的关系。右图表示安静的聆听者与另一人员的语音之间的相关性矩阵。最初四个元素(EF)是本征面部的相关值。其余元素是音频特征(AF)：分别是平均能量、音调、零交叉、带宽、频带中心、频率响应跌落、低比例、频谱通量以及12MFCC成分。

从这两个矩阵中，可看出音频和视频之间存在关系。另一观察表明在左图的第四行以下的四个列中的元素(L)比右图中相应元素(R)要明亮得多，这意味着说话者的面部与其声音有关。实际上，左矩阵中这些元素的总和为15.6591；在右矩阵中的这些元素的总和是9.8628。

从图5还可观察到左图中第五行和第六行的最初四列比右图中的相应元素明亮得多。左图中这八个元素的总和是3.5028，而右图中是0.7227。第五行表示面部和平均能量之间的相关性。第六行表示面部和音调之间的相关性。当一人正在说话时，他的面部也在改变。尤其，声音的能量与说话者嘴巴的张合有关。音调具有相应关系。

这还在表示随时间变化的第一本征面部和平均能量的图6中进一步得到说明。线AE表示平均能量。线FE表示第一本征面部。左图采用说话者的本征面部。右图采用非说话者的本征面部。从图6的左图中可以看出，其本征面部具有与平均能量类似的变化趋势。相反，非说话者的面部完全没有改变。

图7中所示的是在通过LSI转换的新空间中计算的音频和视频特征的相关性。最初两个成分是说话者的本征面部(SE)。之后的两个成分是聆听者的本征面部(LE)。其余成分是音频特征(AF)。从图7中可看出，最初两列比之后的两列更明亮，这意味着说话者的面部与其声音有关。

在另一个关于所述面部-语音-匹配框架的试验中，收集了不同视频剪辑。第一组四视频剪辑包含四个不同的人员，而且每个剪辑包含至少两个人(一个说话一个聆听)。第二组十四个视频剪辑包含七个不同的人，而且每个人具有至少两个正在说话的剪辑。而且，为了达到测试的目的，在这些视频剪辑中插入两个人造的聆听者。因此在第二组中有28个面部-语音对。在视频测试组集合中共有32个面部语音对。

首先，依据相关性实施例确定每个面部-语音对的音频特征和本征面部之间的相关性。选择与音频具有最大相关性的面部作为说话者。有14个错误判断产生56.2％的识别率。然后，对每对执行LSI实施例。然后计算音频和面部特征之间的相关性。在此LSI情况下，有8个错误判断产生24/32＝75％的识别率。因此与没有LSI的相关性实施例结果相比较具有明显进步。

上述本征面部方法用于确定PCA(主要成分分析)的作用。视频组中有7个人，每个人有40个面部。每个人的第一组10个面部用作训练组，并且其余的30个面部组用作测试组。最初16个本征面部用于表示面部。达到100％的识别率。该结果是由于视频表示完全受控的环境而产生的。在训练组和测试组之间的亮度和姿势几乎没有变化。此试验表示在某些环境中PCA是良好的面部识别方法。其优点是易于理解、并且易于实现、并且不需要太多计算机资源。

在另一实施例中，可使用/组合其他数据源以达到增强的人员认证的目的，例如，文本(姓名-面部关联单元60)。类似相关性处理可用于处理附加特征(例如，文本)。

而且，面部-语音匹配处理可扩展到视频理解，建立声音和产生声音时展示各种隐含动作的对象之间的关联性。因此本发明不局限于所述人员认证领域。本发明也适用于从所述视频中提取音频和视觉信号之间的任何隐含关系。例如，也可将声音与活动对象相关联。吠声与狗吠相关联，啁啾声与鸟相关联，扩展的黄-红与爆炸声相关联，移动的树叶与风声相关联等。而且，可使用有监督的学习或聚集方法来建立此种关联。所产生的结果是关于视频的综合知识。

值得注意的是，上述LSI实施例使用来自LSI的特征空间。然而，也可使用帧空间，例如，所述帧空间可用于执行帧聚集。

虽然以上依据特定实施例描述了本发明，应该理解的是本发明并不限制或局限于在此公开的实施例。相反，本发明覆盖在所附权利要求的精神和范围内的各种结构和变化。

Claims

1.一种用于处理视频数据的音频-视觉系统(10)，包括：

-对象检测模块(30)，能够从所述视频数据中提供多个对象特征；

-音频分段模块(20)，能够从所述视频数据中提供多个音频特征；

-处理器(120)，与所述对象检测模块(30)和所述音频分段模块(20)耦合，

其中所述处理器(120)用于确定多个面部特征和多个音频特征之间的相关性。

2.依据权利要求1的系统(10)，其中所述处理器(120)还用于确定所述视频数据中的动态对象是否与音频相关。

3.依据权利要求2的系统(10)，其中多个音频特征包括以下平均能量、音调、零交叉、带宽、频带中心、频率响应跌落、低比例、频谱通量以及12MFCC成分的两个或更多。

4.依据权利要求2的系统(10)，其中所述活动对象是面部而且所述处理器用于确定所述面部是否正在说话。

5.依据权利要求4的系统(10)，其中所述多个图象特征是表示面部全局特征的本征面部。

6.依据权利要求1的系统(10)，还包括与所述处理器耦合并在执行相关性之前预处理多个对象特征和多个音频特征的的隐性语义索引模块(50)。

7.依据权利要求6的系统(10)，其中所述隐性语义索引模块(50)包括单数值分解模块(50)。

8.一种用于在视频数据内识别说话者的方法(图4)，所述方法包括以下步骤：

-接收包括图象和音频信息的视频数据；

-根据此视频数据中的一或多个面部确定多个面部图象特征；

-确定与音频信息相关的多个音频特征；

-计算多个面部图象特征和音频特征之间的相关性；并

-基于所述相关性确定说话者。

9.依据权利要求8的方法，还包括标准化所述面部图象特征和所述音频特征的步骤。

10.依据权利要求9的方法，还包括对标准化的面部图象特征和音频特征执行单数值分解的步骤。

11.依据权利要求8的方法，其中所述确定步骤包括基于具有最大相关性的一个或多个面部确定说话者的步骤。

12.依据权利要求10的方法，其中所述计算步骤包括形成所述面部图象特征和所述音频特征的矩阵。

13.依据权利要求12的方法，还包括利用比所述面部图象特征和所述音频特征形成的满秩矩阵更小的矩阵执行最佳近似匹配的步骤。

14.依据权利要求13的方法，其中所述更小矩阵的秩被选择用作从所述满秩矩阵中消除噪音和无关信息。

15.一种存储介质(110)，包括用于处理包括图象和音频的视频的代码，所述代码包括：

-从所述视频获得多个对象特征的代码；

-从所述视频获得多个音频特征的代码；

-确定在多个对象特征和多个音频特征之间的相关性的代码；以及

-确定在视频中一个或多个对象与音频中一个或多个对象之间关联性的代码。

16.依据权利要求15的存储介质，其中所述一个或多个对象包括一个或多个面部。

17.依据权利要求16的存储介质(110)，还包括确定说话面部的代码。

18.依据权利要求15的存储介质(110)，还包括利用多个对象特征和所述音频特征创建矩阵的代码以及对此矩阵执行单数值分解的代码。

19.依据权利要求18的存储介质(110)，还包括利用比所述对象特征和所述音频特征形成的满秩矩阵更小的矩阵执行最佳近似匹配的代码。

20.依据权利要求19的存储介质(110)，其中所述更小矩阵的秩被选择用作从所述满秩矩阵中消除噪音和无关信息。