CN1633670A - 采用视频-语音匹配进行人员认证的方法和系统 - Google Patents

采用视频-语音匹配进行人员认证的方法和系统 Download PDF

Info

Publication number
CN1633670A
CN1633670A CNA038038099A CN03803809A CN1633670A CN 1633670 A CN1633670 A CN 1633670A CN A038038099 A CNA038038099 A CN A038038099A CN 03803809 A CN03803809 A CN 03803809A CN 1633670 A CN1633670 A CN 1633670A
Authority
CN
China
Prior art keywords
audio frequency
video
face
frequency characteristics
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA038038099A
Other languages
English (en)
Other versions
CN1324517C (zh
Inventor
M·李
D·李
N·迪米特罗瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1633670A publication Critical patent/CN1633670A/zh
Application granted granted Critical
Publication of CN1324517C publication Critical patent/CN1324517C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Abstract

本发明公开了一种用于确定视频数据中谁是说话者的方法和系统。这可用于在视频内容分析和检索应用中加入人员认证。一相关性用于提高依赖于面部识别和说话者认证的所述人员识别率。隐性语义关联(LSA)处理也可用于提高说话者面部与其声音的关联性。可以结合其他的数据源(例如,文本)用于更广领域的视频内容理解应用。

Description

采用视频-语音匹配进行人员认证的方法和系统
本发明涉及在视频数据方面的对象认证领域。尤其,本发明涉及一种在视频数据内识别说话者的方法和系统。
人员认证在日常生活中扮演重要的角色。我们从很小的时候就知道怎么识别一个人。随着视频摄像机的广泛使用,越来越需要从视频数据中进行自动人员识别。例如,美国几乎每个百货公司都有一个监视摄像系统。需要从大的视频机组中识别,例如,罪犯或者其他人。然而,人工搜索此视频机组是个耗时且昂贵的过程。因此需要一种用于在很大的视频档案中进行自动人员识别的装置。
常规用于人员识别的系统着重于单个模态处理,例如,面部检测和识别、说话者认证以及姓名识别。尤其,典型的视频数据通过三个互补源,图象、音频和文本,包含大量信息。对于每一源均存在执行人员认证的技术,例如,在图象领域的面部检测和识别、在音频领域的说话者认证以及在文本领域的姓名识别。每一技术均有其自身的应用和缺点。例如,姓名识别不能处理不具有好文本源的视频,如电视信号中的图文电视或结尾标题。
一些常规系统试图从视频集成多个提示,例如,《’99ACM多媒体会议论文集》(1999年),用于多媒体会议浏览器的多模式人员ID(Multimodal People ID For A Multimedia Meeting Browser),作者J Yang等。此系统使用采用概率框架的面部检测/识别和说话者认证技术。然而,此系统假设出现在视频中的人是说话者,尽管这不总是为真。
因此,人员认证系统需要能够从低水平特征发现视频中谁是说话者并建立视频中语音/音频和多面部之间的联系。
本发明实现了一种利用低水平音频和视觉特征将面部与语音相关联的面部语音匹配方法。元需复杂的面部识别和说话者认证技术便可实现本发明。本发明的各实施例无需视频内人员认证的现有技术便可用于普通视频数据的分析。
本发明具有诸如视频会议的说话者检测、视频索引和提高人机接口的多个应用。在视频会议中,知道谁在说话可用于提示视频摄像机放大此人。本发明也可用于带宽受限的视频会议应用,这使得只传送说话者的视频。本发明也可用于索引视频(例如,“定位有人说话的所有视频段”),并可以与面部识别技术组合(例如,“定位特殊说话者的所有视频段”)。本发明也能通过提供获知用户何时何处说话的软件应用用于提高人机交互。
如上所述,人员认证在视频内容分析和检索应用方面扮演了重要角色。在视觉领域的面部识别和在音频领域的说话者认证是在视频中发现一人员的两个主要技术。本发明的一个方面是依靠面部识别和说话者认证应用来提高人员识别率。在一个实施例中,一数学框架,隐性语义关联(LSA),被用于将说话者面部与其声音相关联。此数学框架结合了相关性和隐性语义索引方法。所述数学框架可扩展到集成更多的源(例如,文本信息源)并用于更广领域的视频内容理解应用。
本发明的一个实施例涉及一种用于处理视频数据的音频-视觉系统。所述系统包括能从所述视频数据中提供多个对象特征的对象检测模块以及能够从所述视频数据中提供多个音频特征的音频分段模块。一处理器与所述面部检测和所述音频分段模块耦合。所述处理器确定所述多个面部特征和多个音频特征之间的相关性。此相关性可用于确定所述视频中的一面部是否在说话。
本发明的另一实施例涉及一种用于在视频数据中识别说话者的方法。所述方法包括接收包括图象和音频信息的视频数据、从所述视频数据的一或多个面部中确定多个面部图象特征以及确定与音频信息相关的多个音频特征的步骤。所述方法也包括计算所述多个面部图象特征和所述音频特征之间的相关性并基于所述相关性确定说话者的步骤。
本发明的还一个实施例涉及一种包括用于处理包括图象和音频的视频的软件代码的存储介质。所述代码包括从所述视频获得多个对象特征的代码以及从所述视频获得多个音频特征的代码。所述代码也包括确定所述多个对象特征和所述多个音频特征之间相关性的代码以及确定所述视频中一或多个对象与所述音频之间关联的代码。
在其他实施例中,为提高相关性过程也可执行隐性语义索引处理。
本发明其他特征和方面及其各自优点将在附图和对优选实施例的详细描述中更为明显。
图1表示依据本发明一个实施例的人员认证系统。
图2表示在其中可实现本发明的不同实施例的系统概图。
图3是表示图2的系统的体系结构的方框图。
图4是描述依据本发明另一实施例的人员认证方法的流程图。
图5表示在面部和音频特征之间相关性矩阵的图例。
图6表示平均能量和第一本征面部之间关系的图例。
图7表示采用一LSI过程之后的相关性矩阵的图例。
在下述描述中,为了解释而不是限制,首先描述诸如特殊体系结构、接口、技术等的特定细节,以便全面理解本发明。然而,本领域普通技术人员很明显知晓本发明可用其他在特定细节上不同的实施例实现。而且,为了简单而明确,以下将省略对公知设备、电路和方法的详细描述以避免由于不必要的细节使本发明的描述不清楚。
参考图1,人员认证系统10包括三个独立且相互交互的模块,即说话者认证20、面部识别30和姓名识别40。然而,注意所述模块不一定是独立的,例如,一些可被集成。不过,为了从面部-语音匹配和姓名-面部关联中获得更好的性能,每个模块优选地独立且能彼此交互。所述说话者认证模块20包括音频分段和分类单元21、说话者认证单元22和说话者ID单元23。所述面部认证模块30包括全-面部检测单元31、面部识别单元32和面部ID单元33。所述姓名-识别模块40包括文本检测识别单元41、姓名识别单元42和姓名单元43。所述人员认证系统10还包括面部-语音-匹配单元50、姓名-面部关联单元60和人员ID单元70。
存在几个公知技术可独立执行面部检测和识别、说话者认证和姓名识别。例如,参看S.Satoh,et.Al.,Name-It:Naming and detectingfaces in news videos,IEEE Multimedia,6(1):22-35,January-March(Spring)1999 for a system to perform name-faceassociation in TV news。但是此系统也假设出现在所述视频中的所述面部是说话者,尽管这不总为真。
每个模块的所述输入,例如,音频(A)、视频(V)、视频标题(VC)(也被称为视频文本)和结尾标题(CC)可来自不同源。所述输入可来自视频会议系统、数字TV信号、因特网、DVD或任何其他的视频源。
当一人正在说话时,他或她典型地会有一些面部和/或头的移动。例如,头可来回移动,或者头可转向左右。所述说话者的嘴巴也在张合。有时人有面部表情的同时也有一些手势。
头移动的初始结果是面部图象的位置变化。在视频会议的情况下,通常摄像机的移动与说话者的头移动不同,即,不同步。所述影响是面部相对于摄像机的方向变化。因此所述面部子图象将细微地改变其大小、强度和颜色。在这点上,头部移动导致面部的位置和图象的变化。
为获得嘴巴的动作,可采用两种基本办法。首先可追踪所述嘴巴的动作。有关唇读的语音识别的常规系统是公知的。此系统追踪嘴唇动作从而猜测发音单词。然而,由于视频领域的复杂性,追踪嘴唇动作是一个复杂的任务。
可选地,可追踪由于嘴唇动作所导致的面部变化。随着嘴唇动作,将改变下部面部图象的颜色强度。而且,面部图形大小也将有细微的变化。通过追踪面部图象下面部分的变化,可追踪嘴唇动作。由于只需要关于嘴唇是否动作的知识,不需要确切地知道嘴唇如何动作。
与嘴唇动作类似,面部表情将改变面部图象。此变化也可采用类似方法来追踪。
考虑由说话所导致的这三种动作(即头移动、嘴唇动作和面部表情),最重要的是嘴唇动作。更清楚地说,嘴唇动作直接与说话相关。因此通过精确地追踪嘴唇动作,可执行对说话者的确定。因此,优选的是追踪反映头和嘴唇动作的头位置和面部的下部图象。
上述讨论的重点在于时域上的视频变化。在空间领域,为辅助追踪图象变化可进行几个有用的观察。首先所述说话者经常出现在视频图象的中心。第二,说话者面部的大小通常占总显示图象的相对较大部分(例如,图象的25%或更多)。第三,所述说话者的面部通常是正面的。这些观察可用于辅助追踪图象变化。但是要注意的是这些观察不是追踪图象变化所必需的。
在模式识别系统中,特征选择是至关重要的一部分。为辅助选择要追踪的适当的特征,可采用所述讨论以及以上讨论的分析。学习过程也可用于执行特征优化和减少。
对于所述面部图象(视频输入),可采用一PCA(主要成分分析)表达式。(参看《ACM通信》第43卷第2号(2000年2月),用于索引口语的集成技术(Integrated Technologies For IndexingSpoken Language),作者Francis Kubala等人)。PCA表达式可用于大量减少特征数量。然而,众所周知,PCA对面部方向非常敏感,这对面部识别很不利。然而,与常识相反,由于要考虑追踪面部方向的变化,则PCA正是优选的。
可选地,LFA(局部特征分析)表达式可用于所述面部图象。LFA是PCA的扩展。LFA采用局部特征来表示面部。(参看《ACM通信》第43卷第2号(2000年2月),用于广播新闻档案的互补视频和音频分析(Complementary Video and Audio Analysis For BroadcastNews Archives),作者Howard D.Wactlar等人)。利用LFA,可追踪面部的不同动作,例如嘴唇动作。
对于所述音频数据输入,可使用多达二十(20)个音频特征。这些音频特征是:
-平均能量;
-音调;
-零交叉;
-带宽;
-频带中心;
-频率响应跌落;
-低比例;
-频谱通量;以及
-12MFCC成分。
(参看《模式识别证书》22,(2001)533-544,用于基于内容检索的普通音频数据分类,作者Dongge Li等人)。上述音频特征的全部或者子集可用于说话者认证。
所述音频特征可用数学表达式表示如下:
[1]A=(a1、a2、......、aK)’
K表示用于表示语音信号的音频特征的数量。因此,例如,每个视频帧,K维向量用于表示特殊视频帧中的语音。符号’表示矩阵转置。
在所述图象数据(例如,视频输入)中,对于每张面部,I特征用于表示它。所以对于每个视频帧,I维面部向量用于每张面部。假设在所述视频数据中有M张面部,每一视频帧的面部可表示如下:
[ 2 ] - - - F = ( f 1 1 , f 2 1 , . . . . . . , f I 1 , f 1 2 , . . . . . . , f I 2 , . . . . . . , f I M ) ′
包括所有面部特征和音频特征的成分,所产生的向量为:
[ 3 ] - - - V = ( f 1 1 , f 2 1 , . . . . . . , f I 1 , f 1 2 , . . . . . . , f I 2 , . . . . . . , f I M , a 1 , . . . . . . , a K ) ′
V表示在一个视频帧中关于语音和面部的所有信息。当考虑一较大范围时,假如在一轨道中有N帧,则第i帧的V向量是Vi。
如图1所示是面部-语音-匹配单元50。所述面部-语音-匹配单元50使用来自说话者认证20和所述面部识别30模块的数据。如上所述,此数据包括所述音频特征和所述图像特征。所述面部-语音-匹配单元50然后根据低水平特征确定视频中谁在说话并建立视频中语音/音频和多面部之间的关系。
在本发明的第一实施例中,一相关性方法可用于执行所述面部-语音匹配。在音频和多个候选面部中的每个之间计算标准化相关性。所述与音频具有最大相关性的候选面部是所述正在说话的面部。应该理解需要所述面部和所述语音之间的关系来确定所述正在说话的面部。所述计算两个变量之间关系的相关性处理适合此任务。
为执行所述相关性处理,执行确定在所述音频向量[1]和面部向量[2]之间的相关性的计算。所述与音频具有最大相关性的面部被选择作为所述正在说话的面部。这考虑到对应于所述视频中语音的视频数据中的面部变化。在语音和说话者之间有一些内在的关系:相关性,其为关系的数学表达式,提供了衡量这些关系的量规。所述计算音频和面部向量之间相关性的相关性处理可用数学表达式表示如下:
所述视频的平均向量如下:
[ 4 ] - - - V m = 1 N Σ i = 1 N V i
V的协方差矩阵如下:
[ 5 ] - - - C ‾ = 1 N Σ i = 1 N ( V i - V m ) ( V i - V m ) ′
标准化协方差如下:
[ 6 ] - - - C ( i , j ) = C ^ ( i , j ) C ^ ( i , i ) C ^ ( j , j )
在所述音频向量[1]和所述面部向量[2]中的第m张面部之间的所述相关性矩阵是子矩阵C(IM+1:IM+K,(m-1)I+1:mI)。计算此子矩阵的所有元素之和c(m),这就是第m个面部向量和第m个面部向量之间的相关性。所述具有最大c(m)的面部被选择作为正在说话的面部,如下:
在第二实施例中,LSI(隐性语义索引)方法也可用于执行所述面部-语音匹配。LSI是文本信息检索的有效方法。LSI未覆盖对象(即关键词和文档)之间的内在和语义关系。LSI采用矩阵计算的单数值分解(SVD)来获得用于关键词和文档的新表达式。在此新表达式中,关键词和文档的基础不相关。这考虑采用小得多的基本向量组来表示关键词和文档。因此,获得三个好处。第一是维数减少。第二是消除噪音。第三是发现在诸如关键词和文档的不同对象之间的语义和隐含关系。
在本发明的实施例中,LSI可用于发现音频和面部之间的所述内在关系。LSI在某种意义上可消除所述噪音并减少特征,这尤其有效,因为典型的图象和音频数据会包含冗余信息和噪音。
然而,在所述视频领域中,情况比在文本领域中复杂得多。这是因为在文本领域中,文档、关键词的基本组成块其自身是有意义的。在视频领域,图象和音频的低水平表达式其自身可能无意义。然而,它们的组合共同表示的多于单个成分所表示的。在此前提下,在图象顺序和伴随的音频顺序之间必须存在一些关系。本发明者发现LSI处理了视频领域中的所述关系。
为执行所述LSI处理,利用上述向量建立用于所述视频顺序的矩阵:
[ 8 ] - - - X ^ = ( V 1 , V 2 , . . . . . . , V N )
如上所述,V的每个成分是包含各种视觉和音频特征:
V = ( f 1 1 , f 2 1 , . . . . . . , f I 1 , f 1 2 , . . . . . . , f I 2 , . . . . . . , f I M , a 1 , . . . . . . , a K ) ′ . 简单地将它们放在
一起并直接执行SVD可能没有意义。因此,每个成分接它们的最大元素标准化为:
[ 9 ] - - - X ( i , : ) = X ^ ( i , : ) max ( abs ( X ^ ( i , : ) ) )
在等式[9]中,X(i,:)表示矩阵X的第i行。分母是第i行的最大绝对元素。所产生的矩阵X具有-1和1之间的元素。假如V的维数是H,那么X是H×N维矩阵。然后对X执行如下的一单数值分解:
[10]X=SVD’
S由XX’的本征向量逐列组成,D包括X’X的本征向量,V是一对角矩阵,其对角元素是本征值。
通常,矩阵S、V、D必须全部满秩。然而,所述SVD处理考虑到利用更小矩阵用于最佳近似匹配的简单的策略。所述本征值在V中按递减顺序排序。保留所述第一k元素,这使得X可表示为:
[ 11 ] - - - X ≅ X ^ = S ^ V ^ D ^ ′
Figure A0380380900114
包括V的第一个k元素, 包括S的第一k列并且
Figure A0380380900116
包括D的第一k列。可以看出 是在最小乘方义项(least square sense)中X的最佳表达式。
在具有X的新表达式之后,可在新的空间中执行各种操作。例如,可计算面部向量[2]和音频向量[1]的相关性。可计算在面部向量[2]和音频向量[1]之间的距离。也可计算在执行帧聚合的视频帧之间的差异。对于面部-语音匹配,如上所述在相关性处理中计算面部特征和音频特征之间的相关性。
在k的选择上具有灵活性。此值应被选择从而使其大到足以保持下层数据的主要信息,并且同时小到足以消除噪音和无关信息。通常k应该在10到20的范围内从而赋予系统良好的性能。
图2表示描述在其中可实现本发明的不同实施例的典型物理结构的系统概图。该图示例描述了采用个人计算机所包含的元素的方法的实现。在一优选实施例中,通过可由数据处理装置执行的计算机可读代码来实现所述系统10。所述代码可以存储在所述数据处理装置的存储器中或者从诸如CD-ROM或软盘的存储介质中读取/下载。在其他的实施例中,硬件电路可用于替换或与实现本发明的软件指令结合。例如,本发明可利用用于处理的三媒体处理器和用于显示的电视监视器在数字电视平台或机顶盒中实现。
如图2所示,一计算机100包括用于与诸如可变带宽网络、因特网的数据网络接口的网络连接101和/或用于与诸如视频或数字摄像机(未示出)的其他远程源102接口的传真/调制解调器连接。所述计算机100也包括用于向用户显示信息(包括视频数据)的显示器103、用于输入文本和用户命令的键盘104、用于在显示器103上定位光标以及用于输入用户命令的鼠标105、用于从安装在其中的软盘中读取并写入的盘驱动器106以及用于访问存储在CD-ROM或DVD中信息的CD-ROM/DVD驱动器107。所述计算机100也可具有一或多个附加在其上的外设,例如一对用于输入图象等的视频会议摄像机,以及用于输出图象、文本等的打印机108。
其他实施例可通过各种软件和硬件结合的装置以及更多种控制器和处理器来实现。例如,也可使用膝上型或掌上电脑、视频会议系统、个人数字助理(PDA)、带有显示器的电话、电视、机顶盒或任意其他种的类似设备。
图3表示所述计算机100的内部结构,所述计算机包括存储器110,所述存储器110包括随机存取存储器(RAM)、只读存储器(ROM)和诸如硬盘的计算机可读介质。存储在存储器110中的项目包括操作系统、各种数据和应用。所述存储在存储器110中的应用可包括视频编码器、视频解码器和帧抓取器。所述视频编码器按常规方法编码视频数据,并且所述视频解码器解码已按常规方法编码的视频数据。所述帧抓取器允许捕获并处理来自视频信号流的单个帧。
所述计算机100还包括中央处理器(CPU)120、通信接口121、存储器接口122、CD-ROM/DVD驱动器接口123、视频接口124和总线125。所述CPU120包括用于执行计算机可读代码,即上述来自所述存储器110的应用的微处理器或类似物。所述应用可存储在存储器110(如上所述)中或者可选地存储在硬盘驱动器106的软盘或CD-ROM驱动器107中的CD-ROM中。所述CPU120经由所述存储器接口122访问存储在软盘上的所述应用(或其他数据)并经由CD-ROM驱动器接口123访问存储在CD-ROM上的应用(或其他数据)。
所述CPU120可表示,例如,微处理器、中央处理器、计算机、电路卡、数字信号处理器或专用集成电路(ASIC)。所述存储器110可表示,例如,基于盘的光学或磁性存储单元、电子存储器,以及这些和其他存储设备的部分或组合。
在存储在所述存储器110中并由所述CPU120执行的一个或多个软件程序中可部分或全部地实现与所述系统10相关的各种功能操作。这种计算和介质处理设备(如图3所示)可以是改进机顶盒的一部分。
如图4所示是描述说话者认证方法的流程图。所述步骤对应上述结构/过程。尤其,在步骤S100中,获得视频/音频数据。所述视频/音频数据可以直接进行相关性过程(S102)或首先利用所述LSI过程进行预处理(S101)。基于所述相关性过程的输出,可执行所述面部-语音匹配分析(S103)。例如,具有最大相关值的面部被选择作为正在说话的面部。然后此结果可用于执行人员认证(S104)。如下所述,利用采用姓名-面部关联过程(S106)处理得到的文本数据(S105)也可执行所述相关性过程(S102)。
为确认上述视频和音频之间的关系,本发明者执行了一系列试验。两个视频剪辑用于所述试验。对于一个试验,选择其中两人出现在屏幕上而一人正在说话的视频剪辑。对于另一试验,选择其中一人说话但无太多动作、一人说话带有许多动作、一人坐在那无动作而另一人正在说话、以及一人坐在那带有许多动作而另一人正在说话的视频剪辑。对于这些试验,实现了在视频中用于人工选择和面部注释的程序。
所述试验包括了三部分。第一部分用于描述音频和视频之间的关系。另一部分用于测试面部-语音匹配。由于本实验的一个目的是人员认证,所以使用本征面部表示面部。使用PCA的面部识别也被执行。
现有技术已经对音频和视频的一般关系进行了一些研究工作。(参看《IEEE信号处理杂志》2000年11月,第12-36页,采用音频和视觉线索的多媒体内容分析(Multimedia Content AnalysisUsing Both Audio and Visual Clues),作者Yao Wang等人)。然而,所述工作说明在音频特征和整体视频帧特征之间无关系。由于现有技术中的系统在视频和音频方面具有太多噪音,因此这是不准确的。因此噪音隐藏了在音频和视频之间的关系。相反,在上述实施例中,只有面部图象用于计算音频和视频之间的关系。
通过例子,相关性矩阵(如上所述计算)如图5所示。一个单元格(例如,方块)表示所述相关性矩阵的对应元素。元素数值越大,单元格越白。左图表示正在说话的面部的相关性矩阵,其反映了说话者的面部与其声音之间的关系。右图表示安静的聆听者与另一人员的语音之间的相关性矩阵。最初四个元素(EF)是本征面部的相关值。其余元素是音频特征(AF):分别是平均能量、音调、零交叉、带宽、频带中心、频率响应跌落、低比例、频谱通量以及12MFCC成分。
从这两个矩阵中,可看出音频和视频之间存在关系。另一观察表明在左图的第四行以下的四个列中的元素(L)比右图中相应元素(R)要明亮得多,这意味着说话者的面部与其声音有关。实际上,左矩阵中这些元素的总和为15.6591;在右矩阵中的这些元素的总和是9.8628。
从图5还可观察到左图中第五行和第六行的最初四列比右图中的相应元素明亮得多。左图中这八个元素的总和是3.5028,而右图中是0.7227。第五行表示面部和平均能量之间的相关性。第六行表示面部和音调之间的相关性。当一人正在说话时,他的面部也在改变。尤其,声音的能量与说话者嘴巴的张合有关。音调具有相应关系。
这还在表示随时间变化的第一本征面部和平均能量的图6中进一步得到说明。线AE表示平均能量。线FE表示第一本征面部。左图采用说话者的本征面部。右图采用非说话者的本征面部。从图6的左图中可以看出,其本征面部具有与平均能量类似的变化趋势。相反,非说话者的面部完全没有改变。
图7中所示的是在通过LSI转换的新空间中计算的音频和视频特征的相关性。最初两个成分是说话者的本征面部(SE)。之后的两个成分是聆听者的本征面部(LE)。其余成分是音频特征(AF)。从图7中可看出,最初两列比之后的两列更明亮,这意味着说话者的面部与其声音有关。
在另一个关于所述面部-语音-匹配框架的试验中,收集了不同视频剪辑。第一组四视频剪辑包含四个不同的人员,而且每个剪辑包含至少两个人(一个说话一个聆听)。第二组十四个视频剪辑包含七个不同的人,而且每个人具有至少两个正在说话的剪辑。而且,为了达到测试的目的,在这些视频剪辑中插入两个人造的聆听者。因此在第二组中有28个面部-语音对。在视频测试组集合中共有32个面部语音对。
首先,依据相关性实施例确定每个面部-语音对的音频特征和本征面部之间的相关性。选择与音频具有最大相关性的面部作为说话者。有14个错误判断产生56.2%的识别率。然后,对每对执行LSI实施例。然后计算音频和面部特征之间的相关性。在此LSI情况下,有8个错误判断产生24/32=75%的识别率。因此与没有LSI的相关性实施例结果相比较具有明显进步。
上述本征面部方法用于确定PCA(主要成分分析)的作用。视频组中有7个人,每个人有40个面部。每个人的第一组10个面部用作训练组,并且其余的30个面部组用作测试组。最初16个本征面部用于表示面部。达到100%的识别率。该结果是由于视频表示完全受控的环境而产生的。在训练组和测试组之间的亮度和姿势几乎没有变化。此试验表示在某些环境中PCA是良好的面部识别方法。其优点是易于理解、并且易于实现、并且不需要太多计算机资源。
在另一实施例中,可使用/组合其他数据源以达到增强的人员认证的目的,例如,文本(姓名-面部关联单元60)。类似相关性处理可用于处理附加特征(例如,文本)。
而且,面部-语音匹配处理可扩展到视频理解,建立声音和产生声音时展示各种隐含动作的对象之间的关联性。因此本发明不局限于所述人员认证领域。本发明也适用于从所述视频中提取音频和视觉信号之间的任何隐含关系。例如,也可将声音与活动对象相关联。吠声与狗吠相关联,啁啾声与鸟相关联,扩展的黄-红与爆炸声相关联,移动的树叶与风声相关联等。而且,可使用有监督的学习或聚集方法来建立此种关联。所产生的结果是关于视频的综合知识。
值得注意的是,上述LSI实施例使用来自LSI的特征空间。然而,也可使用帧空间,例如,所述帧空间可用于执行帧聚集。
虽然以上依据特定实施例描述了本发明,应该理解的是本发明并不限制或局限于在此公开的实施例。相反,本发明覆盖在所附权利要求的精神和范围内的各种结构和变化。

Claims (20)

1.一种用于处理视频数据的音频-视觉系统(10),包括:
-对象检测模块(30),能够从所述视频数据中提供多个对象特征;
-音频分段模块(20),能够从所述视频数据中提供多个音频特征;
-处理器(120),与所述对象检测模块(30)和所述音频分段模块(20)耦合,
其中所述处理器(120)用于确定多个面部特征和多个音频特征之间的相关性。
2.依据权利要求1的系统(10),其中所述处理器(120)还用于确定所述视频数据中的动态对象是否与音频相关。
3.依据权利要求2的系统(10),其中多个音频特征包括以下平均能量、音调、零交叉、带宽、频带中心、频率响应跌落、低比例、频谱通量以及12MFCC成分的两个或更多。
4.依据权利要求2的系统(10),其中所述活动对象是面部而且所述处理器用于确定所述面部是否正在说话。
5.依据权利要求4的系统(10),其中所述多个图象特征是表示面部全局特征的本征面部。
6.依据权利要求1的系统(10),还包括与所述处理器耦合并在执行相关性之前预处理多个对象特征和多个音频特征的的隐性语义索引模块(50)。
7.依据权利要求6的系统(10),其中所述隐性语义索引模块(50)包括单数值分解模块(50)。
8.一种用于在视频数据内识别说话者的方法(图4),所述方法包括以下步骤:
-接收包括图象和音频信息的视频数据;
-根据此视频数据中的一或多个面部确定多个面部图象特征;
-确定与音频信息相关的多个音频特征;
-计算多个面部图象特征和音频特征之间的相关性;并
-基于所述相关性确定说话者。
9.依据权利要求8的方法,还包括标准化所述面部图象特征和所述音频特征的步骤。
10.依据权利要求9的方法,还包括对标准化的面部图象特征和音频特征执行单数值分解的步骤。
11.依据权利要求8的方法,其中所述确定步骤包括基于具有最大相关性的一个或多个面部确定说话者的步骤。
12.依据权利要求10的方法,其中所述计算步骤包括形成所述面部图象特征和所述音频特征的矩阵。
13.依据权利要求12的方法,还包括利用比所述面部图象特征和所述音频特征形成的满秩矩阵更小的矩阵执行最佳近似匹配的步骤。
14.依据权利要求13的方法,其中所述更小矩阵的秩被选择用作从所述满秩矩阵中消除噪音和无关信息。
15.一种存储介质(110),包括用于处理包括图象和音频的视频的代码,所述代码包括:
-从所述视频获得多个对象特征的代码;
-从所述视频获得多个音频特征的代码;
-确定在多个对象特征和多个音频特征之间的相关性的代码;以及
-确定在视频中一个或多个对象与音频中一个或多个对象之间关联性的代码。
16.依据权利要求15的存储介质,其中所述一个或多个对象包括一个或多个面部。
17.依据权利要求16的存储介质(110),还包括确定说话面部的代码。
18.依据权利要求15的存储介质(110),还包括利用多个对象特征和所述音频特征创建矩阵的代码以及对此矩阵执行单数值分解的代码。
19.依据权利要求18的存储介质(110),还包括利用比所述对象特征和所述音频特征形成的满秩矩阵更小的矩阵执行最佳近似匹配的代码。
20.依据权利要求19的存储介质(110),其中所述更小矩阵的秩被选择用作从所述满秩矩阵中消除噪音和无关信息。
CNB038038099A 2002-02-14 2003-02-05 采用视频-语音匹配进行人员认证的方法和系统 Expired - Fee Related CN1324517C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/076,194 2002-02-14
US10/076,194 US20030154084A1 (en) 2002-02-14 2002-02-14 Method and system for person identification using video-speech matching

Publications (2)

Publication Number Publication Date
CN1633670A true CN1633670A (zh) 2005-06-29
CN1324517C CN1324517C (zh) 2007-07-04

Family

ID=27660198

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038038099A Expired - Fee Related CN1324517C (zh) 2002-02-14 2003-02-05 采用视频-语音匹配进行人员认证的方法和系统

Country Status (7)

Country Link
US (1) US20030154084A1 (zh)
EP (1) EP1479032A1 (zh)
JP (1) JP2005518031A (zh)
KR (1) KR20040086366A (zh)
CN (1) CN1324517C (zh)
AU (1) AU2003205957A1 (zh)
WO (1) WO2003069541A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102655576A (zh) * 2011-03-04 2012-09-05 索尼公司 信息处理设备、信息处理方法和程序
CN102662554A (zh) * 2012-01-09 2012-09-12 联想(北京)有限公司 信息处理设备及其密码输入方式切换方法
WO2013097075A1 (en) * 2011-12-26 2013-07-04 Intel Corporation Vehicle based determination of occupant audio and visual input
CN103902963A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN106599765A (zh) * 2015-10-20 2017-04-26 深圳市商汤科技有限公司 基于对象连续发音的视-音频判断活体的方法及系统
CN108920639A (zh) * 2018-07-02 2018-11-30 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN108962216A (zh) * 2018-06-12 2018-12-07 北京市商汤科技开发有限公司 一种说话视频的处理方法及装置、设备和存储介质
WO2018223997A1 (zh) * 2017-06-07 2018-12-13 中兴通讯股份有限公司 一种信息采集整理方法及装置

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7274800B2 (en) * 2001-07-18 2007-09-25 Intel Corporation Dynamic gesture recognition from stereo sequences
US20030212552A1 (en) * 2002-05-09 2003-11-13 Liang Lu Hong Face recognition procedure useful for audiovisual speech recognition
US7165029B2 (en) * 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US7209883B2 (en) * 2002-05-09 2007-04-24 Intel Corporation Factorial hidden markov model for audiovisual speech recognition
US7171043B2 (en) * 2002-10-11 2007-01-30 Intel Corporation Image recognition using hidden markov models and coupled hidden markov models
US7272565B2 (en) * 2002-12-17 2007-09-18 Technology Patents Llc. System and method for monitoring individuals
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US7203368B2 (en) * 2003-01-06 2007-04-10 Intel Corporation Embedded bayesian network for pattern recognition
US20050080849A1 (en) * 2003-10-09 2005-04-14 Wee Susie J. Management system for rich media environments
US8468183B2 (en) 2004-02-26 2013-06-18 Mobile Research Labs Ltd. Method and apparatus for automatic detection and identification of broadcast audio and video signals
US8229751B2 (en) * 2004-02-26 2012-07-24 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals
US20060155754A1 (en) * 2004-12-08 2006-07-13 Steven Lubin Playlist driven automated content transmission and delivery system
WO2007026280A1 (en) * 2005-08-31 2007-03-08 Philips Intellectual Property & Standards Gmbh A dialogue system for interacting with a person by making use of both visual and speech-based recognition
US20090006337A1 (en) * 2005-12-30 2009-01-01 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified video signals
JP4685712B2 (ja) * 2006-05-31 2011-05-18 日本電信電話株式会社 話者顔画像決定方法及び装置及びプログラム
US7689011B2 (en) * 2006-09-26 2010-03-30 Hewlett-Packard Development Company, L.P. Extracting features from face regions and auxiliary identification regions of images for person recognition and other applications
KR101391599B1 (ko) * 2007-09-05 2014-05-09 삼성전자주식회사 컨텐트에서의 등장 인물간의 관계에 대한 정보 생성 방법및 그 장치
US20090062686A1 (en) * 2007-09-05 2009-03-05 Hyde Roderick A Physiological condition measuring device
US20090060287A1 (en) * 2007-09-05 2009-03-05 Hyde Roderick A Physiological condition measuring device
US7952596B2 (en) * 2008-02-11 2011-05-31 Sony Ericsson Mobile Communications Ab Electronic devices that pan/zoom displayed sub-area within video frames in response to movement therein
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
JP5201050B2 (ja) * 2009-03-27 2013-06-05 ブラザー工業株式会社 会議支援装置、会議支援方法、会議システム、会議支援プログラム
US20110096135A1 (en) * 2009-10-23 2011-04-28 Microsoft Corporation Automatic labeling of a video session
JP2012038131A (ja) * 2010-08-09 2012-02-23 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
US9866731B2 (en) * 2011-04-12 2018-01-09 Smule, Inc. Coordinating and mixing audiovisual content captured from geographically distributed performers
US8577876B2 (en) * 2011-06-06 2013-11-05 Met Element, Inc. System and method for determining art preferences of people
US20130120243A1 (en) * 2011-11-16 2013-05-16 Samsung Electronics Co., Ltd. Display apparatus and control method thereof
KR101956166B1 (ko) * 2012-04-17 2019-03-08 삼성전자주식회사 비주얼 큐를 이용하여 비디오 시퀀스에서 토킹 세그먼트를 검출하는 방법 및 장치
US8983836B2 (en) 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
US9123340B2 (en) 2013-03-01 2015-09-01 Google Inc. Detecting the end of a user question
KR102090948B1 (ko) * 2013-05-20 2020-03-19 삼성전자주식회사 대화 기록 장치 및 그 방법
JP2015037212A (ja) * 2013-08-12 2015-02-23 オリンパスイメージング株式会社 情報処理装置、撮影機器及び情報処理方法
US20150088515A1 (en) * 2013-09-25 2015-03-26 Lenovo (Singapore) Pte. Ltd. Primary speaker identification from audio and video data
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
US10381022B1 (en) * 2015-12-23 2019-08-13 Google Llc Audio classifier
JP6447578B2 (ja) 2016-05-27 2019-01-09 トヨタ自動車株式会社 音声対話装置および音声対話方法
CN110073363B (zh) * 2016-12-14 2023-11-14 皇家飞利浦有限公司 追踪对象的头部
US10497382B2 (en) * 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos
US10878824B2 (en) * 2018-02-21 2020-12-29 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
US20190294886A1 (en) * 2018-03-23 2019-09-26 Hcl Technologies Limited System and method for segregating multimedia frames associated with a character
CN109815806A (zh) * 2018-12-19 2019-05-28 平安科技(深圳)有限公司 人脸识别方法及装置、计算机设备、计算机存储介质
WO2020139121A1 (en) * 2018-12-28 2020-07-02 Ringcentral, Inc., (A Delaware Corporation) Systems and methods for recognizing a speech of a speaker
KR102230667B1 (ko) * 2019-05-10 2021-03-22 네이버 주식회사 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
CN110660102B (zh) * 2019-06-17 2020-10-27 腾讯科技(深圳)有限公司 基于人工智能的说话人识别方法及装置、系统
CN110196914B (zh) * 2019-07-29 2019-12-27 上海肇观电子科技有限公司 一种将人脸信息录入数据库的方法和装置
FR3103598A1 (fr) 2019-11-21 2021-05-28 Psa Automobiles Sa Module de traitement d’un flux audio-vidéo associant les paroles prononcées aux visages correspondants
US11132535B2 (en) * 2019-12-16 2021-09-28 Avaya Inc. Automatic video conference configuration to mitigate a disability
CN111899743A (zh) * 2020-07-31 2020-11-06 斑马网络技术有限公司 获取目标声音的方法、装置、电子设备及存储介质
CN112218129A (zh) * 2020-09-30 2021-01-12 沈阳大学 一种通过音频进行互动的广告播放系统以及方法
US11581004B2 (en) 2020-12-02 2023-02-14 HearUnow, Inc. Dynamic voice accentuation and reinforcement
US11949948B2 (en) * 2021-05-11 2024-04-02 Sony Group Corporation Playback control based on image capture
CN114466179A (zh) * 2021-09-09 2022-05-10 马上消费金融股份有限公司 语音与图像同步性的衡量方法及装置
CN114299944B (zh) * 2021-12-08 2023-03-24 天翼爱音乐文化科技有限公司 视频处理方法、系统、装置及存储介质
US20230215440A1 (en) * 2022-01-05 2023-07-06 CLIPr Co. System and method for speaker verification

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5331544A (en) * 1992-04-23 1994-07-19 A. C. Nielsen Company Market research method and system for collecting retail store and shopper market research data
US6208971B1 (en) * 1998-10-30 2001-03-27 Apple Computer, Inc. Method and apparatus for command recognition using data-driven semantic inference
US6192395B1 (en) * 1998-12-23 2001-02-20 Multitude, Inc. System and method for visually identifying speaking participants in a multi-participant networked event
CN1174374C (zh) * 1999-06-30 2004-11-03 国际商业机器公司 并发进行语音识别、说话者分段和分类的方法
US6219640B1 (en) * 1999-08-06 2001-04-17 International Business Machines Corporation Methods and apparatus for audio-visual speaker recognition and utterance verification
US6324512B1 (en) * 1999-08-26 2001-11-27 Matsushita Electric Industrial Co., Ltd. System and method for allowing family members to access TV contents and program media recorder over telephone or internet
CN1115646C (zh) * 1999-11-10 2003-07-23 碁康电脑有限公司 自动识别视频数字分割显示卡
US6411933B1 (en) * 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
DE19962218C2 (de) * 1999-12-22 2002-11-14 Siemens Ag Verfahren und System zum Autorisieren von Sprachbefehlen
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US7113943B2 (en) * 2000-12-06 2006-09-26 Content Analyst Company, Llc Method for document comparison and selection
US20030108334A1 (en) * 2001-12-06 2003-06-12 Koninklijke Philips Elecronics N.V. Adaptive environment system and method of providing an adaptive environment
US20030113002A1 (en) * 2001-12-18 2003-06-19 Koninklijke Philips Electronics N.V. Identification of people using video and audio eigen features

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102655576A (zh) * 2011-03-04 2012-09-05 索尼公司 信息处理设备、信息处理方法和程序
CN104011735A (zh) * 2011-12-26 2014-08-27 英特尔公司 基于车辆的对乘员音频和可视输入的确定
CN104011735B (zh) * 2011-12-26 2018-03-30 英特尔公司 基于车辆的对乘员音频和可视输入的确定
WO2013097075A1 (en) * 2011-12-26 2013-07-04 Intel Corporation Vehicle based determination of occupant audio and visual input
US9424418B2 (en) 2012-01-09 2016-08-23 Lenovo (Beijing) Co., Ltd. Information processing device and method for switching password input mode
CN102662554B (zh) * 2012-01-09 2015-06-24 联想(北京)有限公司 信息处理设备及其密码输入方式切换方法
CN102662554A (zh) * 2012-01-09 2012-09-12 联想(北京)有限公司 信息处理设备及其密码输入方式切换方法
CN103902963A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN103902963B (zh) * 2012-12-28 2017-06-20 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN106599765A (zh) * 2015-10-20 2017-04-26 深圳市商汤科技有限公司 基于对象连续发音的视-音频判断活体的方法及系统
CN106599765B (zh) * 2015-10-20 2020-02-21 深圳市商汤科技有限公司 基于对象连续发音的视-音频判断活体的方法及系统
WO2018223997A1 (zh) * 2017-06-07 2018-12-13 中兴通讯股份有限公司 一种信息采集整理方法及装置
CN108962216A (zh) * 2018-06-12 2018-12-07 北京市商汤科技开发有限公司 一种说话视频的处理方法及装置、设备和存储介质
CN108920639A (zh) * 2018-07-02 2018-11-30 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备

Also Published As

Publication number Publication date
JP2005518031A (ja) 2005-06-16
US20030154084A1 (en) 2003-08-14
KR20040086366A (ko) 2004-10-08
CN1324517C (zh) 2007-07-04
EP1479032A1 (en) 2004-11-24
WO2003069541A1 (en) 2003-08-21
AU2003205957A1 (en) 2003-09-04

Similar Documents

Publication Publication Date Title
CN1324517C (zh) 采用视频-语音匹配进行人员认证的方法和系统
CN104115221B (zh) 基于文本到语音转换以及语义的音频人类交互证明
CN1723455B (zh) 基于语义关联的内容检索
CN1139911C (zh) 语音识别系统的动态可配置声模型
CN110457457B (zh) 对话生成模型的训练方法、对话生成方法及装置
US7809568B2 (en) Indexing and searching speech with text meta-data
CN1101446A (zh) 语音教学计算机化系统
US8909525B2 (en) Interactive voice recognition electronic device and method
CN1622196A (zh) 语音识别系统和方法
CN1343337A (zh) 数据库注释和获取
WO2010105089A1 (en) Audio classification for information retrieval using sparse features
CN1270361A (zh) 使用内容和扬声器信息进行音频信息检索的方法和装置
CN1908965A (zh) 信息处理装置及其方法和程序
Tan et al. Adversarial attack and defense strategies of speaker recognition systems: A survey
CN1521729A (zh) 使用隐轨迹和隐马尔可夫模型进行语音识别的方法
CN108710653B (zh) 一种绘本朗读点播方法、装置及系统
TW567466B (en) Method using computer to compress and encode audio data
CN110659392B (zh) 检索方法及装置、存储介质
CN112541324A (zh) 一种标点符号添加方法、装置及电子设备
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
CN117009456A (zh) 医疗查询文本的处理方法、装置、设备、介质和电子产品
CN112905811A (zh) 一种基于学生课堂行为分析的教学音视频推送方法及系统
CN113849704A (zh) 一种建立数字人物并和数字人物对话的方法和系统
Guo et al. Attention-based visual-audio fusion for video caption generation
CN1924996B (zh) 利用语音辨识以选取声音内容的系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee