CN1906610A

CN1906610A - 用于本征与非本征视听数据的综合分析的系统和方法

Info

Publication number: CN1906610A
Application number: CN 200480035750
Authority: CN
Inventors: N·迪米特罗瓦; R·图尔特斯基
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-12-05
Filing date: 2004-11-30
Publication date: 2007-01-31
Anticipated expiration: 2024-11-30
Also published as: CN100538696C

Abstract

提供用于综合分析本征和非本征视听信息的系统，诸如用于分析和相关电影中的特性与该电影中未出现但通过因特网可获得的特性的系统。该系统包含通信连接至视听源例如电影源的本征内容分析器，用于搜索该电影中的本征数据，并使用抽取算法来抽取本征数据。进一步，该系统包含通信连接至非本征信息源的非本征内容分析器，诸如通过因特网可获得的电影剧本，用于搜索非本征信息源，并使用检索算法来检索非本征数据。本征数据和非本征数据以多源数据结构进行相关。多源数据结构被转换为高级信息结构，该高级信息结构被呈现给该系统的用户。用户可以浏览该高级信息结构，以查看电影中诸如男演员识别(鉴定)的信息。

Description

用于本征与非本征视听数据的综合分析的系统和方法

技术领域

本发明涉及本征(intrinsic)和非本征(extrinsic)视听信息的综合分析，并且特别地本发明涉及例如电影中的特性(feature)与电影中未出现的但是例如通过因特网可获得的特性的分析和相关。

背景技术

对电影感兴趣的人们多年来不得不查阅书籍、印刷杂志或者印刷的大百科全书，以获得有关具体电影的附加信息。随着因特网的出现，许多因特网站涉足于电影相关资料。一个示例是Internet Movie Database(因特网电影数据库)(http：//www.imdb.com)，这是对于大量的电影提供大量的各种附加信息的非常详尽和精致的网站。即使因特网为访问附加电影信息提供了方便，仍然必须由用户通过因特网在可获得的海量信息中设法实现其目的。

随着Digital Versatile Disk(数字通用光盘)(DVD)媒介的出现，与电影相关的附加信息通常可以在DVD电影的基本菜单上以菜单格式获得。时常可获得访谈、可选的电影场景、扩展的演职员表、各种琐事等。进一步，DVD格式便于场景浏览、情节概要、不同场景的书签等。即使附加信息在许多DVD上可获得，但是该附加信息是由电影的制作者选择的，进一步，该附加信息受到DVD盘上可用空间的限制，并且其是静态信息。

可获得的电影数量和涉及各种电影、演员、导演等的可获得的附加信息量是巨大的，并且用户遭受“信息过载”。对电影感兴趣的人们经常努力解决有关他们可以如何准确地找到他们所想要的东西，以及如何发现他们喜欢的新事物的问题。为了解决这一问题，人们已经开发了各种用于搜索和分析视听数据的系统和方法。可获得不同类型的这样的系统，例如用于自动概述的系统，这样的系统描述在US申请2002/0093591中。另一类型的系统是用于基于例如被选图像数据例如电影中演员的图像而进行目标搜索的系统，这样的系统描述在US申请2003/0107592中。

本发明人已经认识到，能够集成本征和非本征视听数据(诸如，集成在DVD电影上的视听数据和在因特网上发现的附加信息)的系统是具有益处的，并因此设计了本发明。

发明内容

本发明试图提供用于分析视听数据的改进系统。更好地，本发明单独地或组合地缓和或减轻一个或更多个上述缺陷。

因此，在第一方面，提供用于本征和非本征视听信息的综合分析的系统，该系统包括：

本征内容分析器，该本征内容分析器通信(communicatively)连接至视听源，该本征内容分析器适于搜索该视听源，以查找本征数据，并适于使用抽取算法来抽取本征数据，

非本征内容分析器，该非本征内容分析器通信连接至非本征信息源，该非本征内容分析器适于搜索该非本征信息源，并适于使用检索算法来检索非本征数据，

其中本征数据和非本征数据相关，从而提供多源数据结构。

视听系统例如适于家庭使用的视听系统可以含有处理装置，其能够对视听信息进行分析。能够预想任何类型的视听系统，例如这样的系统包含DigitalVersatile Disk(DVD)单元或能够显示流式视频的单元，该视频例如是MPEG格式的视频，或者任何其他类型的适合于通过数据网络传输的格式。该视听系统也可以是适合于或者通过卫星或者通过电缆接收和显示视听内容例如电视和电影的“置顶”盒类型系统。该系统包含用于向用户呈现视听内容(即，本征内容)的装置，或者用于输出能使视听内容呈现给用户的信号的装置。形容词“本征的”应当被宽泛地解释。本征内容可以是能够从电影源的信号中抽取的内容。本征内容可以是视频信号、音频信号、从信号中抽取的文本等。

该系统包含本征内容分析器。该本征内容分析器典型地是能够分析视听数据的处理装置，该本征内容分析器通信连接至视听源，例如连接至电影源。该本征内容分析器通过使用抽取算法搜索该视听源，并从中抽取数据。

该系统也包含非本征内容分析器。形容词“非本征的”应当被宽泛地解释。非本征内容是不包含在本征内容中，或者不可能从中抽取，或者只是难以从本征内容中提取的内容。非本征内容可以典型地是例如电影剧本、情节串连图板、评论、分析等的内容。非本征信息源可以是因特网站、包含相关数据的数据载体等。

该系统也包含用于相关多源数据结构中的本征和非本征数据的装置。指导该相关的规则可以是抽取和/或检索算法的一部分。相关算法也可以是现有的，该相关算法对多源数据结构中的本征和非本征数据进行相关。多源数据结构可以是低级数据结构，其例如通过数据指针来相关不同类型的数据。多源数据结构可能对于系统的用户是不可按入的，但对于系统的供应商是可接入的。多源数据结构通常被格式化为高级信息结构，该高级信息结构被呈现给系统的用户。

本征内容可以使用合适的抽取算法从视听源中进行抽取，非本征内容可以从非本征信息源中进行检索。非本征数据的检索可以基于所抽取的数据，然而非本征数据的检索也可以基于提供给检索算法的数据，而与本征内容无关。

抽取和/或检索算法以与许多电子设备天生具有固定功能的同样方式可以是系统的一部分。然而，模块可以可选地提供抽取和/或检索算法。利用模块来提供这些算法可能是有优势的，因为不同的用户例如对于电影可能有不同的偏爱和喜好，并因此可以提供较大的灵活性。该模块可以是硬件模块例如电子模块，举例来说，适于插入插槽(slot)，但是，该模块也可以是软件模块，例如数据载体上的数据文件，或通过网络连接可以提供的数据文件。

该系统可以支持能够由用户提供查询的功能，该查询可以被提供至抽取和/或检索算法，从而根据该查询来抽取本征和/或非本征数据。提供这一功能由于视听数据中风格和内容的多样性而是有其优势的。因此，可以提供具有较大灵活性的系统。该查询可以是语义的查询，即，该查询可以使用查询语言来表示。该查询可以从查询表中选择，举例来说，与遥控器上的查询按钮相连选择该查询，该查询按钮在被按下时向用户提供可能已制好的可能查询的列表。

视听源可以是电影，以及其中被抽取的本征数据可以包含但不限于文本的、音频和/或视频的特性。

非本征信息源可以连接至因特网并且可以通过因特网被访问。非本征信息源可以是例如通用的因特网站点，如Internet Movie Database，然而非本征信息源也可以是专用的因特网站点，例如带有向本发明的系统提供附加信息的特定目的的因特网站点。

非本征信息源可以是电影剧本。定稿的电影经常偏离电影剧本。电影制作过程通常基于原始剧本，并且其版本也基于情节串连图板的发展。使用这个信息就像使用电影的秘诀。不可能或难以从视听内容抽取的高级语义信息可以使用视听信号处理和电影剧本与相关电影分析的分析来自动地抽取。这是有优势的，因为外部信息源可能包含有电影的数据，而该数据完全不能通过视听分析来抽取，或者如果能被抽取的话，其可靠性也是非常低的。

非本征内容分析器可以包含关于电影剧本语法的知识，以及其中使用剧本语法利用从剧本中抽取的信息来检索非本征数据。电影剧本的实际内容通常采用规则格式。利用此格式的知识，例如是否场景将发生在里面或外面、位置、一天中的时间等信息可以被抽取。这样的信息仅仅基于本征数据的抽取是不可能的，或者如果有可能的话，也只可能获得非常低的确定性。

任何电影的一个重要方面是电影中人物的身份。这样的信息可以通过将电影内容和剧本相关而获得，因为电影剧本列出在特定场景中出现的所有人物。通过使用剧本语法，在场景中人物的身份可以被提取。从剧本中提取的身份可以例如与音频和/或视频身份标记(器)进行组合，例如，以区分场景中的若干人物。可以从剧本中提取的任何特性可以用于呈现给用户的电影分析中。其他可以被抽取和被呈现给用户的可能性是语义场景描绘与描述抽取、电影结构分析、情感(情绪)场景分析、位置/时间/设置检测、服装分析、人物轮廓、对话分析、流派/亚流派检测、导演风格检测等。

本征和非本征数据的相关可以是时间相关，并且结果可以是多源数据结构，其中本征数据中反映的特性与非本征数据中反映的特性是时间相关的。本征和非本征数据中反映的特性包含但不限于文本、视频和/或视频特性。

时间相关可以通过剧本中的对话与电影中对白(spoken text)的对准而获得。电影中的对白可以包含在封闭字幕(closed caption)中，其可以从副标题中抽取，可以使用语音识别系统来抽取，或可以使用不同的方式来提供。但是一旦提供电影中的对白，这个对白可以与剧本中的对话相比较和相匹配。时间相关可以提供电影的时间标记的抄本。这个比较和匹配通过使用例如自相似性矩阵来获得。

如上所述，高级信息结构可以根据多源数据结构来生成。高级信息结构在可以用户和系统的不同功能之间提供接口(界面)。高级信息结构可以对应于例如出现在许多电子装置中的用户接口(界面)。

高级信息结构可以存储于存储媒体中，这是具有优势的，因为根据本征和非本征信息，可能需要显著的数据核查来抽取高级信息结构。进一步，可以生成更新的高级信息结构，其中更新的高级信息结构是根据多源数据结构更新的已有的高级数据结构。例如，在用户只需要有限分析的场合下，这可能是具有优势的。或者，例如在非本征信息源已被更新的场合下，并且希望根据非本征信息源更新高级信息结构。

内容分析可以包含利用检索算法获得的结果。内容分析和检索算法可以是动态算法，以适应于基于检索的非本征数据动态地包含附加功能。因此，内容分析和检索算法可以是开放的算法，其能够不断地学习和更新初始分类(将新的分类引入系统中)。附加功能可以通过在来自本征数据的特性组上使用从非本征数据中获得的标签在此系统部署在用户的家中之后该系统的操作期间训练检索算法而获得。

来自本征数据的特性组可以是特定的数据组，例如可以是电影的说话者，其中使用本发明，例如从说话者ID(身份)的标签中知道说话者ID。用户可以例如选择在训练中使用的数据组，该数据组的选择视用户的方便而为。根据本发明，该数据组也可以由系统的供应商来提供。可以使用神经网络获得训练，即，检索算法例如可以包含或连接至神经网络。

可以使用至少一个电影剧本来执行训练。因此，训练可以通过选择数据组为至少一个剧本来执行。这对于能够训练系统以支持新特性是有益的，因为例如新演员出现，未知的演员可能变得流行，人们的喜好是不同的，等等。以这种方式，可以提供更灵活和强有力的系统。系统的训练也可以是盲训练，以便于视频理解中客体和语义概念的分类。

多源数据结构用于在电影中提供自动的基本事实识别，这可以用于视听内容上的确定基准点(benchmarking)算法。电影中的自动标记也可以基于多源数据结构获得，这对于自动地能够处理电影内容是有利的。

另一个应用是使用剧本中的文本描述和使用来自视频内容的视听特性的视听场景内容理解。可以提供这样的系统，其被训练为把低级和中级音频/视频/特性赋予场景的文字描述。可以使用Support Vector Machine(支持矢量机)或Hidden-Markov Model(隐式马尔可夫模型)来完成训练。分类可以只基于音频/视频/文本特性。

通过使用剧本中的文本描述，可以获得自动场景内容理解。这样的理解可能不能从电影自身中抽取。

根据本发明的第二个方面，提供用于综合分析本征和非本征视听信息的方法，该方法包含以下步骤：

搜索本征数据视听源，以查找数据，并使用抽取算法来抽取本征数据，

搜索非本征信息源，并基于被抽取的本征数据，使用检索算法来检索非本征数据，

相关本征数据和非本征数据，从而提供多源数据结构。

该方法可以进一步包含根据多源数据结构生成高级信息结构的步骤。

本发明的这些和其他方面、特性和/或优势从随后描述的实施例中将是清楚的，并将结合这些实施例进行阐述。

附图说明

现在，将参考附图详细阐述本发明的首选实施例，其中：

附图1是本发明的一个实施例的高级结构图表，

附图2是本发明的另一个实施例的方框图，这个实施例是结合附图1所述的实施例的一个子实施例，

附图3是剧本和封闭字幕对准的示意图示，和

附图4是电影中说话者识别的示意图示。

具体实施方式

附图1阐述了本发明的最优实施例的高级图表。在附图2中提供根据这个高级图表的一个具体实施例。

表1

编号	名称
编号	名称	1.	基于文本的场景
2.	基于音频的演员识别	1.	基于文本的场景

3.	基于音频的场景描述
3.	基于音频的场景描述	4.	基于面部的演员识别
5.	用于演员ID的超级模型	4.	基于面部的演员识别
5.	用于演员ID的超级模型	6.	描绘点检测
7.	建立拍摄检测	6.	描绘点检测
7.	建立拍摄检测	8.	压缩的描绘概要
9.	场景边界检测语义场景描述	8.	压缩的描绘概要
9.	场景边界检测语义场景描述	10.	本征资源
11.	非本征资源	10.	本征资源
11.	非本征资源	101.	视频
102.	电影剧本	101.	视频
102.	电影剧本	103.	因特网
104.	副标题	103.	因特网
104.	副标题	105.	音频
106.	视频	105.	音频
106.	视频	107.	时间标记
108.	MFCC	107.	时间标记
108.	MFCC	109.	音调
110.	说话者转变检测	109.	音调
110.	说话者转变检测	111.	情感音频语境
112.	语音/音乐/SFX分段	111.	情感音频语境
112.	语音/音乐/SFX分段	113.	直方图场景边界
114.	面部检测	113.	直方图场景边界
114.	面部检测	115.	图文电视检测
116.	高级结构语法分析	115.	图文电视检测
116.	高级结构语法分析	117.	人物
118.	场景方位	117.	人物
118.	场景方位	119.	场景描述

120.	对话
120.	对话	121.	基于文本的时间标记剧本
122.	X-相关人物名称w/演员	121.	基于文本的时间标记剧本
122.	X-相关人物名称w/演员	123.	面部模型
124.	情感模型	123.	面部模型
124.	情感模型	125.	声音模型

出现在附图1中的图表100阐述了用于根据本发明综合分析非本征和本征视听信息的模型。各个组成部分的名称在表1中提供。在图中，本征视听信息以电视(电影)片101为例，即，以数据载体如DVD盘上的故事(正)片为例。本征信息是诸如可以从视听信号中抽取的信息，即从图像数据、音频数据和/或抄本数据(以副标题或封闭字幕或图文电视抄本的形式)中提取的信息。非本征视听信息在此以对于电影剧本102的非本征访问为例，例如通过因特网连接103访问。进一步，非本征信息也可以是情节串连图板、出版的书籍、电影中的附加场景、电影的末尾、例如对导演和/或演职员、电影评论家的访谈等。这样的信息能通过因特网连接103而获得。这些进一步的非本征信息可能希望剧本102经历高级结构语法分析116。方框102中对电影剧本的强调是一个示例，任何类型的非本征信息并且特别地上述的非本征信息的类型原则上可以有效地插入图表的方框102中。

作为第一步骤，使用本征内容分析器，处理本征信息。本征内容分析器可以是计算机程序，其适于搜索和分析电影的本征内容。视频内容可以沿着三条路径(104，105，106)来处理。沿着路径1，从信号中抽取对白，该对白通常利用副标题104来表示。抽取包含语音至文本转换、从MPEG的用户数据中的封闭字幕抽取、和/或从视频信号或网页中的图文电视抽取。输出是时间标记的抄本107。沿着路径2，处理音频105。音频处理步骤包含音频特性抽取，随后是音频分段和分类。Mel Cepstral Frequency Coefficients(唛耳倒频谱频率系数)(MFCC)108可以用于检测说话者转变110以及形成情感语境确定的一部分。mel-scale(唛耳标度)是频率装仓(binning)方法，其基于耳朵的频率分辨率。通过以mel标度使用频率装仓，计算MFCC，以参数化语音。MFCC是良好的耳朵鉴别指示器(符)。因此，通过执行均衡，利用倒频谱域中的减法，与频谱域中的乘法相反，MFCC能用于补偿失真信道。音调109也可以形成情感语境确定的一部分，而音调也可以用于相对于语音、音乐和音响(声音)效果112的分段。说话者转变检测110、情感音频语境111和语音/音乐/SFX分段112通过声音模型和情感模型被耦合到演员识别2和场景描述3的基于音频分类。沿着路径3，分析视频图像信号106。这个可视处理包含可视特性抽取，如彩色直方图113、面部检测114、图文电视检测115、高亮度检测、语气(基调)分析等。面部检测通过面部模型被耦合到基于面部的演员识别4。彩色直方图是代表色值(在选择的彩色空间中)及其在图像中的出现频率的直方图。

作为第二步骤，使用非本征内容分析器处理非本征信息。非本征内容分析器可以适于基于抽取的本征数据搜索非本征信息。非本征信息可以象电影标题那样简单，然而，所抽取的本征数据也可以是涉及电影的复杂的一组数据。非本征内容分析器可以包含剧本语法分析、情节串连图板分析、图书语法分析、附加视听材料如访谈、宣传片尾(电影预告片)等的分析的模型。输出是数据结构，其对有关场景、演职员心境(基调)等的高级信息进行编码。例如，在电影剧本102上执行高级结构语法分析116。例如，根据通过因特网访问的信息，例如查阅基于因特网的数据库，比如Internet Movie Database，确定人物117，并且这些人物与演员进行相互参照。场景位置118和场景描述119用于基于文本的场景描述1中，并且对话120与时间标记的抄本相关，以获得基于文本的时间标记的剧本。基于文本的时间标记剧本将根据用于基于文本的场景描述1中的对话的时间标记而提供场景的大致边界。

在建立人物名字和演员120、基于文本场景描述1、基于文本时间标记剧本121、基于音频的演员识别2、基于音频的场景描述3和基于面部的演员识别之间的相互参照之后，可以执行多源对准。因此，本征和非本征数据可以进行相关，以得到多源数据结构。一些外部文件如剧本不包含时间信息，通过相关非本征和本征数据，从本征视听信号中抽取的时间标记信息可以与从外部源中提供的信息进行对准。输出是非常详细的多源数据结构，其包含可从非本征和本征源中获得的信息的超集。

使用多源数据结构，可以生成高级信息结构。在当前实施例中，高级信息结构由三部分组成：演员ID的超级模型5，压缩的描绘概要8和场景边界检测与描述，其可以提供语义场景描述9。演员ID的超级模型除了来自多源数据结构的人物识别之外还可以包含视听人物识别。因此，可以向用户呈现电影中出现的所有演员的列表，并且例如通过选择演员，可以向用户呈现有关这个演员的附加信息，例如该演员参演的其他影片或其他的有关特定演员或人物的信息。压缩描绘概要模块可以包含描绘点和故事与次要故事弧(arc)。这些是电影中最令人感兴趣的点，这个高级信息对于电影概要是非常重要的。用户因此可以获得不同类型的描绘(情节)概要，而这一般不是DVD上所提供的那种类型，或者用户可以选择该用户所感兴趣的概要的类型。在语义场景检测中，建立用于场景和场景边界的拍摄。用户可以被呈现场景和电影剧本中的对应场景的完整列表，例如，以便比较导演对于不同场景的剧本的解释，或者允许用户定位包含特定人物的场景。

在随后的实施例中，焦点在于电影剧本与电影的对准。

几乎所有的长篇电影都需要借助于电影剧本来产生，电影剧本提供了电影故事、环境、对话和活动的统一描述-并且给电影制作者、演员和工作人员提供了创作其对生活的艺术创新版本的开始点。对于那些参与电影的基于内容分析的人来说，剧本是当前用于获得影片中的重要语义目标的文本描述的未利用资源。这不仅有利于旁路(绕过)语义间隙(例如，将视听信号转变成一系列文本描述符)的问题，还有助于使所述描述直接源于影片制作者。剧本可用于数千的电影，并且其遵循半常规格式化标准，并因此是可靠的数据源。

将剧本用作基于内容分析的捷径中遇到的困难是双重的。首先，在剧本文本中的文本和电影中的时间周期(期间)之间不存在固有的相关性。为了对抗这个限制，将剧本中对话的行(台词)与从电影DVD中抽取的时间标记封闭字幕流进行对准。其他所面临的阻碍在于，在许多情况下，剧本在制作电影之前完成，所以对话台词或整个场景可以被添加、删除、修改或改变位置。此外，封闭字幕的文本通常只是与屏幕上人物所说出的对话大致相近。为了克服这些影响，使用对于场景/对话修改是鲁棒的对准方法是必不可少的。我们的经验表明，只有大约60％的对话台词能在电影中被时间标记。然而，利用对准过程发现的时间标记对话可以被用作统计模型的标签，其能够估计没有被发现的描述符。这相当于是自主式(独立)、无人监督的过程，用于电影的自动视频内容分析的语义目标(对象)以及带有制作它的“技巧”的视频材料的贴标签。

我们在此必须指出，剧本的替代(物)是电影分镜头剧本手稿(continuity)(脚本)。电影分镜头剧本手稿在电影的所有工作完成之后撰写。术语电影分镜头剧本手稿时常在两个语境中采用-首先，电影的逐个拍摄的分镜头剧本，其除了来自剧本的信息之外，还包含摄像机布置和运动。此外，电影分镜头剧本手稿也可以指电影对话的确切抄本。这两种形式都可以由封闭字幕机构使用。虽然来自特定电影的电影分镜头剧本手稿可以被印刷出售，但是对于公众来说，一般不能在线获得这些手稿。这激发了对于拍摄手稿即剧本的分析，尽管其存在缺陷。

剧本没有更为广泛地用于基于内容的分析中的一个原因是因为出现在剧本中的对话、动作和场景描述并没有与之相关的时间标记。这妨碍了将电影的特定分段分配给一段文本的效力。另一个电影抄本、封闭字幕的源具有电影中对白的文本，但它不包含说出每句台词的人物的身份，封闭字幕也不拥有难以从视频信号中抽取的场景描述。通过对准剧本的对话和电影封闭字幕的文本，我们获得了最佳效果。

其次，台词和场景经常是不完整的、剪切的或位置改变的。为了面对场景是稳固的，可以一次一个场景地重新排序剧本与封闭字幕的对准。这也减轻了具有完全自相似性矩阵的存储器-密集创作(工作)。

最后，由于不可能在剧本中对于每句对话找到相关物，必须采用从时间标记剧本中抽取的信息、与电影的多峰(模式)分段(音频/视频流，封闭字幕，来自外部网站例如imdb.com的信息)组合，以创建事件的统计模型。这些事件可以是影片之间或影片内部的事件，并许诺提供场景的文本描述的能力，这些描述不是利用对准流明确发现的。

剧本对准的一个重要方面是说话者的识别。已访问在任何特定时间说话的人物将允许基于声音存在提供对于有关演员的外部数据的链接以及电影内部查询的应用。有关影片对话的无人监督的说话者识别是非常困难的问题，因为语音特性受说话者的情绪变化、在不同的实际或模仿位置中不同的听觉条件变化(例如，“房间音调”)的影响，同样受声道、环境噪音和背景中的大型活动的影响。

我们的解决方案是提供来自对准的时间标记作为“黑盒子(black box)”分类符(器)的标记示例，了解在不同的环境和情绪下声音的特点。实际上，通过拥有大量的来自对准的训练数据，我们可以“让数据说话(let the data do thetalking)”，并且我们的方法纯粹是不受监督的，因为一旦剧本和电影音频以机器可读形式被捕捉，则不需要任何人工预先处理。

在电影主要的拍摄结束之后，编辑器(者)可以利用考虑或可以不考虑剧本的方式装配不同的拍摄镜头。有时，在名字协调、分镜头剧本或制片厂政策方面，场景将被剪切，或者有可能的话，拾取所需要的镜头。举一个极端例子，电影Double Indemnity的结尾被留在剪切房间地上，其中主人公位于毒气室。Swingers原本是个爱情故事，但是编辑者加快了对话的速度，并将该影片变成了成功的喜剧。

剧本的真实内容通常遵循规则格式。例如，任一场景或拍摄位置的第一行称为slug line(缓动行)。slug line表示场景是发生在室内还是室外、位置的名称，并且这可以潜在地指定一天中的时间。slug line是最佳的场景边界指示器，因为场景有可能发生在许多地方。在slug line之后是位置的描述。该描述将引入(介绍)任何出现的新人物和发生的没有对话的动作。

剧本的(体积)大小是对话描述，对话被缩排在页中，以方便阅读，并给予演员和电影制作者作笔记的地方。如果电影剧本作者对演员的指导在对话中并不明显，则它可以在描述中指出。标准的剧本格式可以利用语法规则来语法分析：

SCENE_START:.*|SCENE_START|DIAL_START|SLUG|TRANSITION

DIAL_START:\t+<CHAR NAME>(V.O.|O.S.)?\n

\t+DIALOGUE|PAREN

DIALOGUE|:\t+.*?\n\n

PAREN: \t+(.*?)

TRANSITION: \t+<TRANS NAME>:

SLUG: <SCENE#>?.<INT/EXT><ERNAL|.>?-<LOC><-TIME>?

在这个语法中，“\n”表示新行字符，“\t”表示制表(符)。“.*?”是来自Perl的常规表达的术语，并且表示“在序列中下一个模式匹配之前的任一事物的任意量”。后面跟随字符的问号表示该字符可能出现或不出现。“|”允许进行选择一例如，<O.S.|V.O.>表示V.O.或者O.S.的出现将有助于好的匹配。最后，“+”表示我们将接受仍然被考虑为匹配的一个或更多以前字符-例如，以“\tHello”、“\t\tHello”或者“\t\t\tHello”开头的行可以是对话，但利用“Hello”开头的行则不是。

剧本的格式化指南只是建议，而非标准。然而，有可能捕捉最多的利用简单但灵活的常规表述的剧本

制作成百的剧本拷贝用于任何规模的电影制作，剧本可以为了业余爱好者或专业使用而被重新制作，并且在线可获得成千的剧本。

在附图2中表示出在单个电影中包含预先处理、对准和说话者识别的系统概述。

电影剧本文本20的文本被语法分析，因此场景和对白边界和元数据被输入统一的数据结构。封闭字幕21和音频特性22从电影的视频信号23中抽取。在至关重要的阶段，剧本和封闭字幕文本被对准24。这个对准在下面详细说明。在对准中，对话被时间标记，并与特定字符相关。然而，对于每一句对话，不可能在剧本中都找到相关物。必须采用从时间标记的剧本中提取的、与电影的多模式片断(音频/视频流，封闭字幕，来自外部网站信息)组合的信息来创建事件的统计模型25。

以这种方式，有可能在电影的自然噪音环境中，获得非常高的说话者识别准确度。重要的是注意，这个识别可以使用监督的学习方法来执行，但是自动生成基本事实，因此在分类过程中不需要人工干涉。

因此，电影期间在任何时候说话的人物可以被确定26。这个人物ID可以与因特网数据库27相关，以获得电影中人物的演员的识别28。

除了说话者识别之外，也可以抽取场景的位置、时间和描述、各自的台词对白及其演说者、演员的附加注解和动作指导、以及场景之间任何建议转换(剪切衰减，擦除，淡入淡出(解散)等)。

为了对准和说话者识别任务，需要电影DVD的音频和封闭字幕流。

DVD的User Data Field(用户数据字段)包含文本形式的副标题流，这不是DVD官方标准的一部分，并因而不保证出现在所有盘上。对于没有可用副标题信息的电影，可供选择的是通过在DVD的副标题流上执行OCR(光学字符识别)，获得封闭字幕。这是半交互式过程，其只在遇到新字体时(这通常是每个制作室一次)，才需要用户干涉，但它是完全自主式的。我们遇到的唯一问题是有时小写字母“1”与大写字母“I”混淆，我们发现必须将所有的L弯曲为I，以避免在比较单词时出现混淆。OCR可以使用SubRip程序来实现，并且OCR对于每行封闭字幕提供带有毫秒分辨率的时间标记。

剧本对话和封闭字幕文本通过使用动态编程来对准，以查找穿越自相似性矩阵的“最佳路径”。通过在最佳路径上应用中值滤波器，抽取正确对应于场景的对准。合理精确度的对话分段被分解为封闭字幕行大小的块(chunk)，这意味着我们可以直接把对话块翻译成时间标记的分段。下面将讨论每个组成部分。

相似矩阵是比较两个不同版本的相似媒体的一种方式，它是自相似性矩阵的一种扩展，其现在是音频的基于内容分析的标准工具。

在相似矩阵中，剧本中场景的每个词i与整个电影的封闭字幕中的每个词j进行比较。因而，提供矩阵：

SM(i，j)←screenplay(scene_num，i)＝subtitle(j)

换句话说，如果场景的词i与封闭字幕的词j相同，则SM(i，j)＝1，而如果它们不相同，则SM(i，j)＝0。屏幕时间沿着对角线i＝j线性进展，因此当剧本的对角线与封闭字幕的文本行对齐排列时，我们期望看到1的实对角线。附图3表示相似矩阵30的示例分段部分，用于比较封闭字幕31和电影“WallStreet”场景87的剧本32。在相似矩阵中，出现在剧本和封闭字幕中的词可以根据是否找到匹配而被特征化。因此，如果没有找到匹配，则每个矩阵元素可以标记为不匹配32，如果找到匹配，则可以标记为匹配33。自然地，可以发现许多一致匹配，但是可以发现不连续轨迹，并通过这个轨迹建立最佳路径。位于这个最佳轨迹上不匹配的词被相应地标记34。

电影中说话者识别是困难的，因为在电影持续过程中，声音变化，并且听觉条件也在变化。因而，为了在不同条件下进行分类，可能需要许多数据。附图4表示出这一特定问题。示意地表示出两个场景40，41。在第一场景40中，出现了三个人，这三个人都面向观众，并且能够期望他们此时一个人在讲话。因此，只使用本征数据，就有可能利用高确定性抽取说话者身份，例如。使用声音指纹和面部模型。在第二场景41中，出现了五个人，并且只有一个人正面对观众，且可能出现了许多讨论，人们可能都在同时说话，而且戏剧性背景音乐可以用来加强紧张心境。使用本征信息，可能不能执行说话者识别。但是，使用其中指示出对话和说话者的剧本，说话者ID能用于检测场景中的所有说话者。

为了分类和方便基于音频特性的说话者识别，可以使用以下程序：

1)选择训练/测试/验证设置

2)除去静默

3)基于Martin McKinney的音频分类器，潜在地除去音乐/噪音部分

4)下抽样至8kHz，因为语音的峰值频率近似是3.4kHz

5)计算CMS，50ms窗口上的delta特性，带有12.5ms的跳跃尺寸

6)将特征向量堆积在一起，以创建长的分析框

7)执行PCA，以减少测试设置的维数

8)训练神经网络或GMM

9)在整个电影上模拟网络/GMM

10)比较这个夏天的实习生的基本事实，以了解我们做得有多么好。

本发明也可以实施为计算机程序产品、可存储在存储媒体上并且使计算机被编程为执行根据本发明的方法，这对于本领域熟练技术人员来说是显然的。该计算机可以实施为通用计算机，如个人计算机或网络计算机，但也可以实施为专用的带有可编程处理核心的消费电子产品。

如前所述，也可知道，所提及的单数也预定包含多个，并且反之亦然。此外，表述诸如“包含”、“包括”、“含有”、“拥有”、“合入”、“容纳”、“包围”将解释为非排他的，即这些表述将解释为不排除其他项的出现。

虽然结合最佳实施例阐述本发明，但是并不打算将本发明限制为在这里所阐述的具体形式。相反，本发明的范围仅仅利用所附的权利要求来限制。

Claims

1、一种用于综合分析本征(10)和非本征(11)视听数据的系统(100)，该系统包括：

本征内容分析器，该本征内容分析器通信连接至视听源，该本征内容分析器适于搜索该视听源，以查找本征数据，并且适于使用抽取算法来抽取本征数据，

非本征内容分析器，该非本征内容分析器通信连接至非本征信息源，该非本征内容分析器适于搜索该非本征信息源，并且适于使用检索算法来检索非本征数据，

其中本征数据和非本征数据相关，从而提供多源数据结构。

2、根据权利要求1的系统，其中非本征数据的检索基于所抽取的本征数据。

3、根据权利要求1的系统，其中抽取和/或检索算法利用模块来提供。

4、根据权利要求1的系统，其中由用户提供查询，该查询被提供给抽取算法，以及其中根据该查询来抽取本征数据。

5、根据权利要求1的系统，其中由用户提供查询，该查询被提供给检索算法，以及其中根据该查询来检索非本征数据。

6、根据权利要求1的系统，其中本征和非本征数据中反映的特性包含文本、音频和/或视频特性。

7、根据权利要求1的系统，其中视听源是电影(101)，以及其中所抽取的数据包含文本特性(104)、音频和/或视频特性(105，106)。

8、根据权利要求1的系统，其中非本征信息源被连接至因特网，并且可以通过因特网(103)被访问。

9、根据权利要求1的系统，其中非本征信息源是电影剧本(102)。

10、根据权利要求9的系统，其中非本征内容分析器包含关于剧本语法的知识，以及其中使用剧本语法根据从剧本中抽取的信息来检索非本征数据。

11、根据权利要求9或10的系统，其中电影中人物的识别(5)通过电影剧本来获得。

12、根据权利要求9或10的系统，其中基于电影剧本中包含的信息，分析电影中的特性。

13、根据权利要求1的系统，其中本征和非本征数据的相关是时间相关(121)，从而提供多源数据结构，其中本征数据中反映的特性与非本征数据中反映的特性进行时间相关。

14、根据权利要求13的系统，其中时间相关通过电影剧本中的对话(120)与电影中的对白(104)的对准来获得，并且从而提供电影的时间标记的抄本(121)。

15、根据权利要求14的系统，其中从时间标记的抄本中获得电影中的说话者识别。

16、根据权利要求9的系统，其中利用自相似性矩阵(30)，比较电影剧本与电影中的对白。

17、根据权利要求1的系统，其中根据多源数据结构，生成高级信息结构(5-9)。

18、根据权利要求17的系统，其中高级信息结构可以存储在存储媒体上。

19、根据权利要求17的系统，其中生成更新的高级信息结构，该更新的高级信息结构是根据多源数据结构更新的已有的高级信息结构。

20、根据权利要求1的系统，其中检索算法是动态检索算法，其适于通过根据检索的非本征数据包含附加功能来动态地自我更新。

21、根据权利要求20的系统，其中通过使用从非本征数据中获得的标签在本征数据中的特性组上训练检索算法来获得附加功能。

22、根据权利要求9和21的系统，其中使用至少一个电影剧本，执行训练。

23、根据权利要求1的系统，其中基于视听内容上确定基准点算法中使用的多源数据结构，获得电影中的自动基本事实识别。

24、根据权利要求1的系统，其中基于电影剧本中的文本描述和电影内容中的视听特性，获得电影中的自动场景内容理解。

25、根据权利要求1的系统，其中基于多源数据结构，获得电影中的自动标记。

26、一种用于综合分析本征和非本征视听信息的方法，该方法包含以下步骤：

搜索视听源，以查找本征数据，并使用抽取算法来抽取本征数据，

搜索非本征信息源，并使用检索算法来检索非本征数据，

相关本征数据和非本征数据，从而提供多源数据结构。

27、根据权利要求26的方法，进一步包含以下步骤：

根据多源数据结构，生成高级信息结构。

28、根据权利要求26的方法，其中非本征内容分析器包含有关电影剧本语法的知识，以及其中利用电影剧本语法使用从电影剧本中抽取的信息来检索非本征数据。

29、根据权利要求26的方法，其中通过在非本征数据集上训练检索算法，更新检索算法。

30、一种计算机程序产品，使计算机被编程为执行根据权利要求26的方法。

31、一种存储媒体，装载有根据权利要求30的计算机程序产品。

32、一种编程计算机，用于执行根据权利要求26的方法。