CN100347657C

CN100347657C - 多媒体打印驱动器对话界面

Info

Publication number: CN100347657C
Application number: CNB200410011906XA
Authority: CN
Inventors: 乔纳森·J·赫尔; 杰米·格雷厄姆; 彼得·E·哈特; 库尔特·W·皮索尔
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-09-25
Filing date: 2004-09-24
Publication date: 2007-11-07
Anticipated expiration: 2024-09-24
Also published as: CN1648844A; EP1526442B8; EP1526442B1; EP1526442A3; EP1526442A2

Abstract

本发明系统包括媒体打印界面，允许用户与多媒体变换处理交互操作并格式化多媒体数据以生成多媒体数据的表示。本发明提供一种用户界面，允许用户与媒体内容分析和媒体表示生成交互操作。媒体分析软件模块通过用户界面从用户接收媒体内容分析指令，并且媒体分析软件模块分析和识别媒体内容的特征。媒体表示能够以纸件格式、数字格式等生成。用户界面包括许多区域，通过这些区域用户能够浏览媒体内容并修改正生成的媒体表示。本发明的方法包括与用户界面交互操作以控制媒体内容分析和媒体表示生成；分析媒体内容的特征；驱动媒体数据分析；以及通过发送与媒体表示参数有关的指令和接收指令驱动媒体表示生成。该方法还包括生成媒体表示。

Description

多媒体打印驱动器对话界面

技术领域

本发明涉及提供多媒体打印界面的系统和方法。本发明尤其涉及提供允许用户格式化多媒体数据以生成多媒体数据表示(representation)的打印驱动器对话界面的系统和方法。

背景技术

当今流行系统中的打印机没有被设计成用于生成多媒体文档。目前还没有任何有效的用于以纸张或数字格式生成易读的多媒体内容的表示方法。几种不同的技术和工具可用于访问和引导多媒体信息(例如现有的多媒体播放器)。但是，这些技术和工具中没有一个为用户提供生成使用户能够容易观察的多媒体文档并使用户通过其能够获得访问多媒体内容的选项。

当今流行系统中的打印机通常没有被设计成便于与多媒体内容或与打印机内容交互操作。标准的打印机对话框为用户提供了打印作业中的一些通用的格式化选项，诸如将被打印的页数、打印份数等。但是，流行操作系统中的打印机驱动器没有被设计成便于交互操作信息的集聚。由于打印作业能够被重定向到另一台打印机，或打印协议不允许这样的交互会话，所以不能保证操作系统与用户之间的交互操作。

由于打印机交互操作中的这些限制，所以，用户不能在标准打印中定义更详细的打印选择。而且，由于目前没有获得这种打印能力，所以，用户不能在所有相关的多媒体内容上定义任何打印选择。因此，用户不能使用当前打印对话框选择希望打印的多媒体内容段。当前打印对话框也不允许用户预览任何多媒体内容。而且，没有任何方法使用户经过冗长的多媒体段搜索感兴趣的特性。例如，目前用户不能在新闻段中搜索转换成特定主题的内容，也不能在新闻段中搜索特定面孔或事件。此外，不能为所选择的多媒体内容段定义打印格式，也不能通过打印对话框直接预览或修改打印格式。

因此，所需要的是克服现有技术中发现的上述限制的、允许用户交互操作和控制多媒体表示的生成的系统和方法。

发明内容

通过提供允许用户与媒体内容分析处理和媒体表示生成处理交互操作的用户界面的系统和方法，本发明克服了现有技术的不足和限制。

本发明提供允许与媒体数据分析和媒体表示交互操作的系统，该系统包括：输入装置，用于输入包含至少一幅图像的媒体数据；控制装置，用于执行多媒体重现模块、分析该媒体数据并创建包含表示该媒体数据的至少一部分的图像的媒体表示；以及输出装置，用于输出该媒体表示。

本发明系统包括用户界面，用于允许用户控制媒体内容分析和媒体表示生成；一媒体分析软件模块分析和识别媒体内容的特征。此外，系统可以包括一输出设备驱动器模块，用于接收用户的指令和驱动媒体内容分析和媒体表示生成。例如，该媒体分析软件模块识别诸如面孔、语音、文本等的特征。系统还包括一附加输出设备，用于生成媒体表示。处理逻辑管理用户界面的显示，以允许用户控制多媒体表示的生成。处理逻辑还控制可打印多媒体表示的生成。所述表示能够以基于纸件格式、数字格式或其它任何表示格式生成。用户界面包括许多区域，经过这些区域，用户能够浏览媒体内容并修改正生成的媒体表示。

本发明的方法包括与用户界面交互操作以控制媒体内容分析和媒体表示生成；该方法还包括分析媒体内容的特征，用于媒体表示的生成；驱动媒体数据分析；以及通过接收指令和发送与媒体表示参数有关的指令驱动媒体表示生成。此外该方法能够包括生成一媒体表示。

附图说明

通过举例而不是通过附图中的各图进行限制的方式对本发明进行说明，其中相同的附图符记代表相同的组件。

图1的框图示出了一种用于在生成多媒体数据的表示之前提供允许用户格式化多媒体数据的打印驱动器对话界面的系统；

图2是图1系统的一个实施例的示范性结构的框图；

图3是与打印机的交互通信的示范表示；

图4是示范的多媒体重现应用程序的图形表示，其中该应用程序中插入有打印选择按钮；

图5是在执行任何多媒体变换之前，用户控制的系统方法的流程图；

图6是当配置系统传输多媒体数据、执行缺省变换和在图形用户界面中显示结果时系统控制的方法的流程图；

图7是显示生成包括用户选择的音频文件范围的表示的示范用户界面的图形表示；

图8是格式化多媒体表示的示范图形用户界面提供选项的图形表示；

图9是显示生成音频文件双页简图的示范图形用户界面的图形表示；

图10是显示将音频文件的时间线分成两部分的示范图形用户界面的图形表示；

图11是显示将音频文件的时间线分成两个垂直部分的示范图形用户界面的图形表示；

图12是显示生成包括用户选择的视频文件范围的表示的示范用户界面的图形表示；

图13是显示用于预览多媒体内容的预览区域的示范用户界面的图形表示；

图14是显示在预览区域中使用段指示器按钮的示范用户界面的图形表示；

图15是显示提供选项给用户的对话框的示范用户界面的图形表示；

图16是显示编辑视频段的对话框的示范用户界面的图形表示；

图17是显示生成其中已经使用了面孔检测技术的视频表示的示范用户界面的图形表示；

图18是显示从多个源中生成视频表示的示范用户界面的图形表示；

图19是显示生成其中已经使用用户定义组合的分析技术的视频表示的示范用户界面的图形表示；

图20是包括视频格式和文本的示范多媒体表示的图形表示。

具体实施方式

描述了一种用于提供图形用户界面、或打印驱动器对话界面的系统和方法，其允许用户与多媒体表示生成处理交互操作。根据本发明的实施例，提供显示可以存储在多媒体文档中的多媒体信息的图形用户界面。根据本发明的教导，该界面使用户能够通过在多媒体文档中存储的多媒体信息进行指导。

对本发明来说，术语“媒体”、“多媒体”、“多媒体内容”、“多媒体数据”或“多媒体信息”表示文本信息、图形信息、动画信息、声音(音频)信息、视频信息、幻灯片信息、白板图像信息以及其它类型信息中的任何一种信息。例如电视广播的视频记录可以包括视频信息和音频信息。在某些例子中，视频记录也可以包括标题受到限制(close-captioned：CC)的文本信息，其包括与视频信息相关的素材，并且在许多情况下，是视频记录的音频部分中所包含语音的准确表示。多媒体信息还用于表示包括一个或多个对象的信息，其中对象包含不同类型的信息。例如，在多媒体信息中包含的多媒体对象可以包括文本信息、图形信息、动画信息、声音(音频)信息、视频信息、幻灯片信息、白板图像信息以及其它类型信息。

对于本发明来说，当提到在某种类型介质上打印时采用的术语“打印”、“打印中”意在包括以数字格式生成打印、写入、画出、刻印、浮雕以及其它格式生成数据表示。还对于本发明来说，系统生成的输出将被称为“媒体表示”、“多媒体文档”、“多媒体表示”、“文档”、“纸件文档”、或者“视频纸件”或“音频纸件”之一。尽管术语“文档”和“纸件”在这些术语中被使用，但是本发明系统的输出不限于这种象纸件介质的物理介质。而是，上述术语可以指固定在有形介质中的任何输出。在一些实施例中，本发明系统的输出可以是打印在实际纸件文档上的多媒体内容的表示。以纸件格式，多媒体文档利用了纸张的高分辨率和便携性，并提供多媒体信息的可读表示。根据本发明的教导，多媒体文档还可以用于选择、检索和访问多媒体信息。在另一些实施例中，系统的输出能够以数字格式或某种其它有形介质来存在。而且，本发明的输出可以指以数字格式存储多媒体信息的任何存储单元(例如一个文件)。各种不同格式可以用于存储多媒体信息。这些格式包括各种MPEG格式(例如MPEG1、MPEG2、MPEG4、MPEG7等)、MP3格式、SMIL格式、HTML+TIME格式、WMF(视窗媒体格式)、RM(实时媒体)格式、Quicktime格式、Shockwave格式、各种流媒体格式、由工程团体正在开发的格式、专用和定制的格式、以及其它格式。

在下面的说明中，为了解释的目的，阐明了许多特定细节以提供对本发明的完整理解。但是，本领域技术人员将明白，不需要这些特定细节也能够实现本发明。在另一些情况下，结构和设备以框图形式示出从而避免混淆本发明。例如本发明的某些特征基本参照视频内容进行说明。虽然说明书仅仅参照视频信息讨论了本发明的这些特征，但是这些特征可以应用到包括音频内容的任何类型的媒体内容。

说明书中提到的“一个实施例”或“实施例”指结合该实施例描述的特定特征、结构或特点包含在本发明的至少一个实施例中。在说明书不同地方出现的短语“在一个实施例中”不必都指相同的实施例。

参照图1，该图示出了提供一图形用户界面的示范性系统100，其允许用户格式化用于生成多媒体表示的多媒体数据。在该实施例中，示出了一个增加的输出设备或打印机102，用于生成多媒体表示。打印机102显示诸如音频或视频数据的多媒体数据，使用户能够通过用户界面或打印驱动器对话界面(PDDI)122管理和编辑该多媒体数据。尽管术语“打印驱动器对话界面”或“PDDI”将被用于指出图形用户界面，但是图形用户界面并不限于打印机，并可以是提供下述功能的任何图形用户界面。显示在PDDI 122中的多媒体信息可以存储在能被系统100访问的多媒体文档中。多媒体信息可以直接存储在系统100上，或多媒体信息可以是存储在通过连接器140能够由系统100进行访问的外部存储设备或服务器(未示出)中的信息。

在另一些实施例中，代替访问多媒体文档的是系统100可以从多媒体信息源接收多媒体信息流(流媒体信号、有线信号等)。根据本发明的实施例，系统100存储多媒体文档中的多媒体信息信号并接着生成显示该多媒体信息的界面122。能够提供多媒体信息给系统100的信息源的例子包括电视机、电视广播接收机、录像机、数字录像机、个人数字助理(PDA)等。例如，多媒体信息源可以体现为被结构成能够接收多媒体广播信号并将这些信号发送给系统100的电视机。在这个例子中，信息源可以是将广播电视馈给信息提供给系统100的电视接收机/天线。信息源也可以是提供记录的视频和/或音频流给系统100的诸如录像机、DVD播放机、CD播放机等的设备。在另一个实施例中，信息源可以是能够提供所捕捉的表示或会议信息流给系统100的所述表示或会议记录设备。另外，多媒体信息源可以是被结构成用于(例如通过无线链路)从外部源捕捉或接收多媒体信息、并接着将所捕捉的多媒体信息提供给系统100以便进一步处理的接收机(例如卫星碟形天线或有线接收器)。多媒体内容可以源于专有的或定制的多媒体播放机，诸如RealPlayer^TM、微软视窗媒体播放器等。

在另一个实施例中，系统100可以被结构成用于截取由多媒体信息源接收的多媒体信号。系统100可以直接从多媒体信息源接收多媒体信息或者可以有选择地通过通信网络接收信息。

所增加的输出设备或打印机102包括多个组件，包括传统打印机103、媒体分析软件模块104、处理逻辑106和数字媒体输出108。打印机102的传统打印机组件103可以包括诸如喷墨打印机、激光打印机之类的标准或传统打印设备或其它打印设备的全部或某些性能。因此，传统打印机103具有打印纸件文档的功能，并还可以具有传真机、复印机以及生成物理文档的其它设备的性能。在Hart等人于2004年3月30日提交的名称为“NetworkedPrinting System Having Embedded Functionality for Printing Time-BasedMedia”的、案卷号为20412-8341的美国专利申请中提供了关于打印系统的更多的信息，其中联网的打印系统通过共享打印机和诸如计算机系统的附加网络设备上的处理资源能够打印基于时间的媒体。根据所接收的基于时间的媒体数据，打印系统生成纸件或其它的打印输出以及相关的电子输出。总之，打印的和电子的输出提供了基于时间的媒体的表示。根据所需要的打印机应用，打印机可以包括用于接收媒体数据、打印所印刷的输出以及生成电子输出的任一组合机制。

媒体分析软件模块104包括音频和视频内容识别和处理软件。媒体分析软件模块104可以位于打印机102上或可位于诸如个人计算机(PC)的远端上。这种多媒体分析软件的一些例子包括但不限于：视频事件检测、视频前景/背景分割、面孔检测、面孔图像匹配、面孔识别、面孔分类(cataloging)、视频文本定位、视频光学字符识别(OCR)、语言翻译、帧分类、剪切分类、图像拟合(stitching)、音频重定格式、话音识别、音频事件检测、音频波形匹配、音频字幕对准、视频OCR和字幕对准。一旦用户在系统100内选择了“打印”，系统100能够使用这些技术中的一种或多种分析多媒体内容，并能够向用户提供分析结果，用户能够根据该分析结果生成文档。

在图1所示的实施例中，打印机102附加地包括处理逻辑106，用于控制PDDI 122和管理打印机102的多媒体文档120或媒体表示的生成。例如，处理逻辑106管理PDDI 122的显示，以允许用户控制某些打印机行为，诸如是多媒体内容的处理或被用于在多媒体表现中显示多媒体内容的格式的处理。此外，能够经过网络界面提供PDDI 122的功能，以允许用户通过该网络界面管理诸如发出格式化命令的管理打印机行为。

在图1所示的例子中，PDDI 122显示了用户的选择，包括显示视频内容的多媒体文档120的打印。在这个例子中，用户已经选择以视频纸件格式打印的多媒体内容，并且视频纸件将每场景一帧进行显示。另外，界面122包括显示用户正在创建的多媒体表示的预览图像的预览区域124。在图1的例子中，PDDI 122示出了视频帧的缩略图142。

此外，PDDI 122能够允许用户设置与所生成的多媒体文档120有关的格式选择。在一些实施例中，用户能够设置关于文档格式和布局、字体类型和大小、每行显示的信息、标题显示的信息、安排的各栏的大小和位置、字体颜色、行距、每行字数、黑体和大写方法、打印的文档的语言、纸张尺寸、纸张类型等的选择。例如用户可以选择使多媒体文档包括大标题、并以黑体表示所显示多媒体内容的名字(例如CNN新闻段)，并且用户可以选择每页将被显示的视频帧的排列。

如图1所示的实施例所示，被称为文档格式规范(DFS)112的数据结构由打印驱动器软件生成。DFS 112表示多媒体数据的变形。DFS 112用于填充(populate)PDDI 122并由系统100修改。DFS 112确定呈现给用户的特征提取选项，其可被应用于多媒体数据。DFS 112还确定用于生成输出文档的格式指南。DFS 112可以由诸如PC上的打印驱动器的外部应用程序提供；或者可以在打印机102中内部地确定。

DFS 112可以包括与多媒体文件相关的元数据信息，诸如与多媒体内容的标题、多媒体内容的创作者/出版者等相关的信息。DFS 112还能包括其它信息，诸如是多媒体段的开始和结束时间(例如音频记录的开始和结束时间)以及能沿时间线显示的多媒体数据的图形表示的参数(例如，表示音频信号随时间变化的幅值的波形)。DFS 112还能包括与沿时间线显示的时间戳标记符和用于每个时间戳的元数据(例如原文标签或条码)以及用于确定物理多媒体文档120的出现的布局参数相关的规范。关于DFS 112的更多信息和例子在Hull等人于2004年3月30日提交的名称为“PrintableRepresentation for Time-Based Media”的、案卷号为20412-8497的美国发明申请中提供，其中该系统允许用户生成基于时间的媒体表示。该系统包括一用于从媒体内容中提取特征的特征提取模块。例如，特征提取模块能够检测演奏中的独奏、或者能够检测音乐、鼓掌欢呼声等。格式化模块对系统生成的媒体表示进行格式化。格式化模块也将特征提取信息应用到表示，并根据表示参数格式化表示。另外，系统能够包括增加的输出设备，该增加的输出设备根据特征提取信息和表示参数生成媒体表示。该表示能够以基于纸件的格式、数字格式或其它任何表示格式来生成。所生成的表示可以包括用户可选择的识别符，该用户可选择的识别符能够随机访问沿媒体内容时间线的各点。本发明的方法包括从媒体内容中提取特征以及使用所提取的特征和根据定义所述表示格式的数据结构的规范格式化正在生成的媒体表示。该方法还能够包括根据格式化结果生成媒体表示。

由打印机102生成的多媒体文档120能够包括各种格式。例如，多媒体文档120能包括诸如图1所示的视频纸件形式的纸件文档。打印机102生成的多媒体文档120还能够存储在数字媒体144中。如图1所示，该实施例中的打印机102包括数字媒体输出设备或接口108。数字媒体写入硬件可包括例如网络接口卡、数字视频盘(DVD)写入器、安全数字(SD)写入器、光盘(CD)写入器等。多媒体内容能够存储在诸如快闪媒体、DVD、CD等的数字媒体144上。

多媒体文档120可具有多种不同类型的布局，并能显示各种类型的信息。图1提供了显示来自一个或多个新闻段的视频帧的视频纸件文档的例子。在图1所示的例子中，视频纸件文档包括从视频信息中提取的帧132或缩略图，并显示用户能够预览的视频内容。在这个实施例中，用户能够通过PDDI122指定视频纸件文档的格式化选择。布局和格式信息可以规定用于提取多媒体帧132的采样频率、将被从视频信息中提取的帧132的数量、帧132在介质上的顺序和放置位置以及其它类似信息。对于视频信息，打印机102能够提取用于捕捉与多媒体信息的特定段相关的视频(或具有信息价值的帧)的显著特征的帧132。此外，如前所讨论的，打印机102可以包括识别性能(例如面孔识别、面孔检测、OCR等)，允许用户在感兴趣的项目的视频段内搜索诸如特定的面孔图像、以文本显示的特定词等等。例如，打印机102能够使用面孔识别技术提取显示用户在浏览过程中感兴趣的特定人的面孔图像的帧。

在本发明另一个实施例中，用户可选择的识别符134(例如条码)与每个帧132相关联。在图1的例子中，用户可选择的识别符显示在每一个帧132的下面，但是这些帧能够可选地显示在该页的任何地方。用户可选择的识别符134用作允许用户访问或检索在多媒体文档120上显示的多媒体内容的接口。用户通过使用诸如蜂窝电话或PDA等其中被插入有条码扫描器的任何设备扫描所打印纸件文档上的适当条码来选择用户可选择的识别符134。例如，通过扫描图1的条码，用户能够使视频片段显示在显示设备(例如电视机、PC监视器、蜂窝电话屏幕、PDA等)上，并且用户能够浏览该内容。作为另一个例子，纸件多媒体文档120还可以包括或可选地包括靠近每一帧132的数字标识符，并且用户能够将这些数字录入到数字按键键盘或与设备有关的触摸键盘以使系统100在显示设备上显示视频片段。而且，如果图1所示的视频纸件文档是数字格式的，则系统100能够被结构成使用户能够选择帧132(即通过鼠标或其它选择设备点击该帧)从而将该视频内容显示在显示设备上。

打印机102能够检索与用户可选择标识符134相对应的多媒体信息。从选择设备(即具有条码扫描器的设备或用于输入数字标识符的数字按键键盘)到打印机102通信的信号可以识别由用户选择的多媒体内容帧132、将被显示的多媒体内容的位置、从中可以选择某个段的多媒体纸件文档、与用户选择的一个或多个多媒体显示设备(例如电视机)和/或选择相关的信息以及其它类似信息以方便所请求多媒体信息的检索。例如系统100能够访问PC上存储的视频文件，并且系统能够播放用户要求的这个视频内容。

图1的例子进一步示出多媒体文档120中每个帧132后面的文本信息。该文本信息包括扬声器名字字段126或显示视频的帧132中所示的人物名字(例如Brit Hume)的字段。文本信息还包括显示有关视频段主题(例如Intel-gate介绍)的主题字段128。另外，文本信息包括用于显示视频段时间长度(例如3分52秒)的时间字段130。

用户也可以选择作为文本而显示并包括在多媒体文档120中的帧132的某些音频信息。例如，用户可以选择具有在多媒体帧132后面显示的多媒体段的副本(例如新闻节目段的副本)的一部分。而在另一个例子中，用户可以选择包括在所打印文档中的每个帧132的文本描述或内容简介，诸如是特定电视段或节目的简短概述。用户能够使用打印驱动器对话界面122来识别将被用于把音频信息转换为文本信息的技术(即用于生成音频信息的文本副本的技术)、用于打印音频副本的格式和式样(其可能与用于打印文本信息的相同)、用于打印有关多媒体内容的简介文本的格式和式样等等。此外，在前述的视频纸件应用程序中提供有与检索多媒体信息和注释多媒体信息相关的信息。

现在参考图2，该图示出了本发明一实施例的结构。在这个实施例中，系统200包括耦合到数据处理系统的打印机102，该数据处理系统在图2的实施例中是PC 230，但也可以是便携计算机、工作站、计算机终端、网络计算机、大型机、公用信息机、标准遥控器、PDA、游戏控制器、诸如蜂窝电话的通信设备或任何一种其它数据系统。打印机102也可以有选择地耦合到网络环境中的应用程序服务器212上。

在图2的例子中，打印机102包括传统打印机103、处理器214、多媒体存储器202以及数字媒体输入/输出108。如上所述，传统打印机103包括传统打印机通常具有的标准打印能力。

处理器214处理数据信号并可以包括各种计算结构，包括复杂指令集计算机(CISC)结构、精简指令集计算机(RISC)结构或实现指令集组合的结构。尽管在图2中只示出了一种处理器，但是可以包括多种处理器。主存储器(未示出)可以存储可由处理器214执行的指令和/或数据，包括系统200的软件和其它组件。指令和/或数据可以包括用于执行这里所述的任何和/或全部技术的代码。主存储器(未示出)可以是动态随机存取存储(DRAM)器件、静态随机存取存储(SRAM)器件或本领域已知的某些其它存储器件。

如前所述，打印机102从某个源中访问或接收诸如音频或视频文件的多媒体信息。在一个实施例中，多媒体文件被存储在诸如PC 230的数据处理系统中，该数据处理系统通过信号线248耦合到计算机102。在图2的实施例中，多媒体文件能够存储在PC 230上的多媒体文件存储器264中。可以从一些远程源(未示出)来访问该多媒体文件。作为另一个例子，多媒体文件可以存储在打印机102自身的打印机多媒体存储器202中，并且从这个存储器202访问该文件。

用户能够浏览显示设备(未示出)上的多媒体内容以选择利用打印机102打印的特定内容，如上所述。显示设备(未示出)可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备等。在另一些实施例中，打印机102包括LCD显示屏或其它类型的显示屏，并且用户能够在打印机自身上显示多媒体内容。

在图2的实施例中，用户使用PC 230上允许用户播放、存储、索引和编辑的多媒体重现应用程序(MRA)204浏览或操纵文件。MRA204的例子包括专用的或定制的多媒体播放器(例如Real Networks提供的RealPlayer^TM、微软公司提供的微软视窗媒体播放器、苹果公司提供的QuickTime^TM播放器、Shockwave多媒体播放器等)、录像机、电视机、PDA等。在图2的实施例中，MRA 204经过总线244耦合到多媒体文件存储器264。所存储的多媒体内容能够通过MRA 204被访问并被传送到MRA 204供用户浏览。更多有关多媒体形象化的信息提供在下列美国专利申请中：Graham于2001年2月21日提交的、名称为“Multimedia Visualization and Integration Environment”的、美国专利申请号为10/081,129的申请；Graham于2003年11月4日提交的、名称为“Multimedia Visualization and Integration Environment”的、美国专利申请号为10/701,966的申请；Graham等人于2003年6月18日提交的、名称为“Interface For Printing Multimedia Information”的、美国专利申请号为10/465,027的申请；Graham等人于2003年6月18日提交的、名称为“Techniques For Displaying Information Stored InMultiple Multimedia Documents”的申请；Graham于2002年6月17日提交的、名称为“Television-Based Visualization and NavigationInterface”的、美国专利申请号为10/174,522的申请；以及Graham于2004年3月3日提交的、名称为“Multimedia Visualization and IntegrationEnvironment”的申请。

在图2的实施例中，系统200还包括可位于PC 230上或者另一个位置上的输出设备驱动器模块或打印机驱动器软件模块208。打印机驱动器软件模块208在安装时被结构为执行某些功能。打印机驱动器软件208在现有的诸如视窗媒体播放器的MRA 204上添加“打印”功能。可以请求可选的应用程序插件206添加“打印”功能。可选地，用户能够安装被设计用于此目的的单独的MRA 204。当调用打印机102(即用户选择MRA 204上的打印按钮)时，打印机驱动器软件模块208通过信号线246接收来自MRA 204的打印请求以及多媒体数据和其它相关信息。打印机驱动器软件模块208经过总线248将多媒体数据传送到打印机102并指令打印机应用特定的变换例程(例如面孔识别)。如果需要，打印机驱动器软件模块208还能附加提示用户确认由用户生成的结果和布局决定。

当打印机102接收打印请求时，向处理器214传送该请求和相关的多媒体数据。处理器214解释该输入并激活适当的模块。处理器204被耦合到用于变换多媒体内容的多媒体变换软件模块(MTS)(未示出)并对其进行控制。如果处理器214已经接收了该打印请求，那么，处理器214就可以根据用户是否请求了多媒体数据的变换而激活MTS(未示出)。可以在打印机102上、PC 230上(即通过安装有打印机驱动器208的软件)或某个其它位置处进行多媒体内容的变换。MTS(未示出)对给定的音频或视频文件施加特定的变换功能。MTS(未示出)生成适当的基于文档的表示并通过打印驱动器对话界面与用户交互操作来修改变换参数和预览结果。多媒体变换的结果和参数表示在前述的文档格式规范(DFS)中。

如上所述，打印机102能够包括多媒体存储器202，用于存储诸如视频或音频文件的多媒体数据。处理器214经过总线251耦合到多媒体存储器202上并能够传送多媒体数据到多媒体存储器202。在执行打印作业时也能存储该数据。存储器202可以包括多种存储器，包括用于存储程序执行期间的指令和数据的主随机存取存储器(RAM)以及存储固定指令的只读存储器(ROM)。存储器202还可以包括用于诸如本领域已知的硬盘驱动器、软盘驱动器、CD-ROM设备、DVD设备、DVD-RW设备或其它类似存储设备的程序和数据文件的永久(非易失性)存储器。一个或多个驱动器或设备可以位于另一个连接的计算机上的远端位置。

处理器214还控制数字媒体输入/输出108。处理器214经过总线250将信息传送到数字媒体输入/输出108并从数字媒体输入/输出108接收信息。如前所述，所创建的多媒体文档能够被转换成某种数字格式。数字媒体写入硬件例如可以包括网络接口卡、数字视频盘(DVD)写入器、安全数字(SD)写入器、光盘(CD)写入器等。数字输出260文档可以存储在包括CD、DVD和快闪媒体等的数字媒体上。因此，用户可以创建输入音频或视频文件的数字输出260版本，并且该版本能够在诸如PC、蜂窝电话或PDA等的特定目标设备上被浏览。

处理器214还管理诸如视频或音频纸件文档的多媒体文档120的生成。如图2所示，还可以在纸件文档或多媒体文档120中显示多媒体信息。处理器214经过总线252与传统打印机103通信并将打印作业信息发送给传统打印机103，并且传统打印机103生成纸件输出。所生成的多媒体文档120包括通过识别软件得到的输入音频或视频文件信息的纸件表示。图2实施例中的多媒体文档120还可以包括诸如条码的用户可选择的识别符，和到由打印机102存储或存储在规定在线数据库中的多媒体数据的其它链接。

处理器214还通过诸如网络接口控制外部通信硬件。处理器214能够经过总线254将信息发送到应用程序服务器212并从应用程序服务器212接收信息。打印机102还能够与应用程序服务器212(例如“网站服务”或“网格计算”系统)通信并从应用程序服务器212获得信息。

在一个实施例中，系统200包括通信监视模块或用户接口收听器模块210(UI收听器)。在图2的实施例中，UI收听器210位于PC 230上，但是UI收听器也可以位于打印机102、应用程序服务器212或某其它远端位置上。UI收听器210被耦合到MRA 204并与其通信，并能经过总线240发送和接收数据。具体地说，UI收听器210接收用户对MRA的打印请求，并从远端组件(例如打印机102、应用程序服务器212等)发送该请求给用户。UI收听器210还耦合到打印机102并与其通信，并能经过总线242发送和接收数据。具体地说，UI收听器210将打印请求传送给打印机并从打印机102接收该请求用于来自用户的进一步信息。另外，UI收听器210能够经过网络耦合到应用程序服务器212并与其通信，并能经过网络连接器(未示出)发送和接收数据。UI收听器210从应用程序服务器212接收诸如来自用户的请求信息的信息，并且UI收听器210能够返回一个应答。UI收听器210和其功能将在下面更详细地讨论。

参照图3，该图示出了与系统200内的打印机102交互通信的图形表示。打印机驱动器通常不方便于收集交互信息。一旦捕获到初始打印机设置，通常不允许与打印机102进行进一步的交互操作。对这个问题的一个解决方法是将元数据嵌入到打印流自身中。但是，响应于根据由用户提供数据进行的计算，打印机102可能需要向用户302要求更多的信息。此外，打印机102自身可能委托某些任务给其它的应用程序服务器212，其它的应用程序服务器212接着也可能需要更多来自用户的信息。

为了允许这种交互操作而不修改基础操作系统的打印机驱动器结构，可以构建诸如图3所示的一个附加机制。一个解决方案就是构建是一程序的UI收听器210，它收听一网络插口、接受信息请求、与用户302交互操作以获得这种数据，然后将该数据发送回给请求者。这种程序可以具有固定的可能指令集或接受允许请求者显示多种不同请求的灵活命令语法。这种命令语法的例子可以是用于显示HTML形式的标准网络浏览器的能力。通过远程服务器生成这些形式并通过浏览器进行显示，然后其将结果返回到服务器。在这个实施例中，UI收听器210与浏览器不同之处在于用户302不生成观看一个形式的初始请求。代替的，是由远端机器生成该请求。因此，在这个实施例中，UI收听器210是服务器而不是客户机。

因为这种网络事项易于生成许多复杂的错误条件，所以暂停(timeout)的系统允许进行有效的操作。经过网络发送的每个消息通常要麽是希望得到一应答要麽是单向消息。期望应答的消息可以具有一暂停或其中可接受应答到来的有限时间周期。在本发明中，嵌入的元数据应当包括关于UI收听器210的元数据，其中UI收听器210将接受进一步信息的请求。这种元数据至少由网络地址、端口号以及暂停时间周期组成。由于用户302不能识别请求是来自打印机102还是委托服务器212或者是恶意代理，所以元数据也可以包括认证信息，该信息被设计用于防止试图恶意从用户302诱导信息。如果打印机102或委托应用程序服务器212希望更多信息，其能够使用上述信息来请求UI收听器210向用户302要求所需要的信息。UI收听器210程序可以位于用户302的交互操作设备(例如PC、蜂窝电话或PDA)、打印机102(即，用于在位于该打印机的LCD屏上的用户交互操作)或另一个远程位置上。

图3示出了上述交互通信系统的例子。在图3的例子中，用户302选择系统200内的“打印”选项，这可以通过点击附加在MRA 204上的打印按钮或者选择“打印”选项的其它方法来实现。通过选择“打印”，用户302发送打印请求304到MRA 204或其它应用程序。例如，用户302能够请求打印用户从CNN上的新闻段选择的视频帧的视频纸件表示。MRA 204发送请求通知消息306给UI收听器210，请求UI收听器210将该打印请求304通知给打印机102。诸如用户定义的视频纸件的布局和格式选择之类的打印作业308信息接着被从MRA 204发送到打印机102。打印作业308能够包含嵌入信息，诸如UI收听器210的网络地址、认证信息以及关于客户机将收听请求的最后时间的信息。

在图3的例子中，打印机102将信息请求310发送给是位于用户302交互设备上一程序的UI收听器210。例如，打印机102可以请求与由用户选择用于视频纸件打印作业的特定布局选择相关的进一步信息或可能重新确认应使用缺省布局。UI收听器210接着将该请求传送给用户302，并且显示对话框312给用户302，从而允许用户302通过选择对话框中的信息响应该请求。用户302的应答314被发送到打印机102，以对打印机102对信息310的请求做出回答。

此外，在图3的例子中，打印机102将信息请求316发送给应用程序服务器212。例如，打印机102可以从数据库请求打印操作所必须的特定数据，并且数据库可以需要从用户收集更多的信息。在图3的例子中，应用程序服务器212发送信息请求318到UI收听器210，UI收听器210接着将该请求318转发给用户302。对话框320被显示给用户302，从而允许用户302对该请求318做出应答。UI收听器210接着将用户302的应答322转发到应用程序服务器212，并且应用程序服务器212接着能够将关于打印机102的信息请求316的应答324发送到打印机102。

现在参照图4，该图示出了具有被添加到MRA204中的“打印”按钮402的MRA 204的图像表示。在这个例子中，MRA 204框是视窗媒体播放器(WMP)应用程序，但能够使用如前讨论的其它类型的MRA 204。用户能够通过点击打印按钮402选择打印选项，使打印机生成多媒体文档。通过利用微软提供的插件特征，打印选项能够被添加到WMP(版本9)中。插件特征允许开发者在某方面生成补充WMP的应用程序。可以生成几种类型的插件：“显示”、“设置”、“元数据”、“窗口和背景”等。微软提供什么是插件以及如何建立插件的解释。使用一个用户界面插件形式，能够将一个按钮或面板添加到WMP屏幕上。关于添加打印选项到一个应用程序的更多信息提供在Hull等人于2004年3月30日提交的、名称为“Printing System with EmbeddedAudio/Video Content Recognition and Processing”的、案卷号为20412-8394的美国专利申请中，在该申请中，打印系统包括执行媒体内容识别和处理的嵌入功能。根据对媒体内容执行的内容识别和处理的结果，打印系统能够生成媒体内容的基于纸件的或其它打印表示。打印系统还可以生成媒体内容的对应电子表示，其与打印的表示相结合，能够用来浏览和访问媒体内容。打印系统还可以包括具有打印功能的媒体重现应用程序，用于打印所选择的媒体内容。

在运行中，系统200提供用于打印多媒体内容的方法。用户选择MRA中的打印选项，并且初始打印驱动器对话界面(PDDI)122出现在用户面前。初始PDDI 122集聚有关打印机102的能力的信息以变换多媒体数据。初始PDDI 122能够显示提供给用户的用于变换数据的选项，或者能够示出使用缺省参数集执行缺省变换的结果。用户能够选择这两个选项中用户优选的一个，并且用户的选择能够被设置在打印机102的属性中。在下面讨论的图5和6中说明这些选项的每一个的操作流程。关于能够执行的不同变换和提供给用户用于变换的选项的更多信息提供在上述的美国专利申请中，即Hull等人于2004年3月30日提交的、名称为“Printer with EmbeddedAudio/Video Content Recognition and Processing”的、案卷号为20412-8394的美国专利申请中。

现在参照图5，该图示出了在执行任何多媒体变化之前当PDDI 122显示给用户时系统200的操作流程。在这个实施例中，用户通过按压MRA中的打印按钮(例如图4)输入“打印”命令到该系统(502)。在进行任何变换之前，用户可以使用初始PDDI 122定义与将生成的多媒体文档有关的选择。用户选择用于变换的参数(506)，该参数将被应用于多媒体内容。例如用户可以选择所述文档以便以用户定义的排列形式示出特定数量的视频帧。

系统200接着等待用户按压PDDI 122上的更新按钮或OK按钮(508)。如果用户选择取消按钮，则系统200退出并且PDDI 122从视野中消失。一旦用户选择了更新按钮或OK按钮，系统200将参数和其它的用户选择信息发送给打印机102(510)。系统200确定多媒体数据是否已经传送到打印机102。如前所述，这个多媒体数据可以位于能够保持多媒体数据的PC、蜂窝电话、PDA或其它设备上。如果多媒体数据还没有传送到打印机102，则系统200传送多媒体数据到打印机102，并接着继续该操作流程。如果多媒体数据已经传送到打印机102，则系统200确定是否已经使用用户定义的参数执行了多媒体变换。如果否，则打印机执行514关于多媒体数据的变换；如果是，则系统200接着确定在输入参数后用户是否按压了更新按钮，或者可选地是否按压了OK按钮。如果用户没有按压更新按钮，而是按压了OK按钮，则打印机102生成文档、多媒体数据以及将多媒体数据与纸件文档链接的控制数据(516)。此外，系统200将一识别符(例如条码)指定给多媒体数据，以便向用户提供通过其访问多媒体内容的界面。如果需要，在生成所述文档之前，打印机102可以首先向用户提示有关打印作业的进一步信息。有关多媒体数据的元数据和输入到PDDI 122的命令存在于DFS 112中。

如果用户按压了更新按钮而不是OK按钮，则用户还没有请求打印机102创建多媒体文档。代替地，当用户已经修改了PDDI 122中的用户选择参数并且用户试图予览将被更新的PDDI 122的一区域时，用户按压更新按钮。如果用户按压了更新按钮，则系统200将交互地返回结果以便在交互的PDDI122中进行显示(518)。这允许用户预览多媒体文档将如何使用重新添加的参数修改而出现。操作流程接着返回到用户有机会选择参数的点(506)上，并且系统200能够再次通过循环该流程，继续修改交互的PDDI 122中的参数，直到生成最终文档为止。

现在参照图6，该图示出了当系统200被结构成传送多媒体数据、执行缺省变换以及在PDDI 122中显示其结果时在系统200中的操作流程。在这个实施例中，用户按压多媒体重现应用程序中的打印按钮(602)。系统200从打印机102、PC或其它位置上存储的打印机属性信息中读取缺省变换和参数(620)。接着系统200确定多媒体数据是否已经传送到打印机102。如果多媒体数据还没有被传送到打印机102，则系统200将多媒体数据传送给打印机102(612)，并继续该操作流程。如果多媒体数据已经传送到打印机102，则系统200确定是否已经执行了利用所定义参数的变换。如果否，则打印机对该多媒体数据执行变换(614)；如果是，则系统200接着将PDDI 122显示给用户(604)，以示出变换结果。用户修改应用到多媒体数据的变换参数(606)。接着系统200等待用户按压PDDI 122上的更新按钮或者按压OK按钮(608)。如果用户选择了取消按钮，则系统200退出并且PDDI 122从视野中消失。如果用户按压了OK按钮，则打印机102生成一文档、多媒体数据以及使多媒体数据与纸件文档相互链接的控制数据，并且系统200指定识别符给多媒体数据(616)。如果用户按压了更新按钮，则系统200将发送变换参数给打印机102(610)，并且接着再次循环该操作流程。

下面讨论的图7-19示出了在图6的方法种将被显示给用户的PDDI 122的例子，其中，在用户看见PDDI 122之前，首先将缺省变换应用到多媒体数据。而且图7-19的例子也可以是图5方法中描述的交互PDDI 122，在图5中的交互PDDI 122允许用户修改变换结果。对于以图5的方法将初始显示给用户的初始PDDI 122的例子，参见上述的美国专利申请，即Hull等人于2004年3月30日提交的、名称为“Printer with Embedded Audio/VideoContent Recognition and Processing”的、案卷号为20412-8394的美国专利申请。

音频

图7示出了用于打印音频文件中用户选择范围的PDDI 122的图形表示。用户能够将信息输入到PDDI 122中的区域以指定有关布局、段等的用户选择。图7实施例中所示的PDDI 122包括在诸如打印机区域704、打印范围区域706、以及份数和调节区域708等的标准打印机对话框中可以找到的一些区域。但是该PDDI 122还显示在标准打印机对话框内不能找到的区域，诸如前置选项区域710、预览区域712以及内容选择区域714。

如在标准打印对话框中所看到的，PDDI 122的顶部包括显示将被打印的多媒体文件的名字(例如“locomotion.mp3”)的文件名区域702。在打印机区域704中，用户能够选择哪个打印机将执行打印作业以及与打印作业属性有关的其它选项、打印成图像还是文件以及打印顺序等。此外，打印机区域704显示所选择的打印机的状态、打印机的类型，打印机位置等。打印范围区域706允许用户做出文档的哪一部分将被打印的选择等。份数和调节区域708允许用户指定在打印作业中将生成的份数、与纸张相关的打印作业页的尺寸、在纸张上打印作业页的位置等。尽管未示出，该对话框还包括其它传统的与视频、音频或文本文档的输出表示相关的打印参数的各种组合。

在图7的实施例中，前置选项区域710向用户提供用于规定多媒体内容的格式化和布局的选项。在这个实施例中，用户选择用户希望应用到多媒体内容的分段类型。在本发明的这个实施例中，用户能够点击分段类型区域716中的箭头，并且将出现一下拉菜单，该下拉菜单显示用户能够选择的分段类型的列表。分段类型的例子包括但不限于：音频事件检测、扬声器分段、扬声器识别、声音源定位、语音识别、配置文件分析、视频事件检测、彩色柱状图分析、面孔检测、分族、面孔识别、光学字符识别(OCR)、运动分析、距离预测、前景/背景分割、场景分割、机动车识别以及牌照识别。在该例子中，用户在分段类型区域716中没有选择任何分段类型，因此分段类型显示为“无”。故在该例子中，用户通过在内容选择区域714中移动选择器736来在音频波形时间线734内手动地选择音频范围。

每个分段类型能够具有与在该分段中检测的每个事件相关的置信度。例如如果用户已经应用了根据出现在音频数据中的鼓掌事件分段音频数据的音频事件检测，则每次鼓掌事件将具有定义鼓掌事件被正确检测的可信程度的置信度。在前置选项区域710中，用户能够定义或调节关于与特定分段相关的置信值的阈值。用户通过将阈值输入到阈值区域718中来设置阈值。例如，用户能够设置75％的阈值，并仅显示高于该值的事件(即事件被正确检测为鼓掌事件的概率大于75％)。在另一个实施例中，PDDI 122包含阈值滑动条(未示出)，并且用户能够沿着从0％到100％延伸的阈值条移动滑动条来选择该范围内的特定阈值。

在一个实施例中，用户还能够生成与所生成的多媒体表示有关的布局选择。用户在“调试(fit on)”区域720内设置关于将被显示的音频波形时间线734的页数。用户还在时间线数选择区域722中选择每页将显示的时间线数。另外，用户在方向区域724中选择关于多媒体表示的显示方向(例如垂直或水平)。例如，如图7所示，用户能够选择具有在一页上水平显示的一个时间线，并且这样将在一页上水平地显示整个音频波形时间线734。而另一个例子中，用户能够选择将音频波形时间线734分成垂直显示在两页上的四个部分(即每页两个时间线)。

在图7的实施例中，还示出了各种按钮，包括更新按钮726、页面设置按钮728、OK按钮730以及取消按钮732。如参照图5和6所述的，当用户已经修改了PDDI 122内的打印作业参数时，用户可以选择更新按钮726，并且用户将会看到多媒体表示如何显示为更新的图像。在预览区域712中所示的多媒体文档的图像将被更新显示用户已经在PDDI 122内生成的任何新的改变。此外，该系统能够被设计为任何时侯PDDI 122中生成变化时自动更新预览区域712。在一个实施例中，当用户选择页面设置按钮728时，不同的对话界面框显示给用户，为用户提供各种打印格式化选项。这将在下面详细讨论。图7的实施例还包括OK按钮730，并且当用户选择该按钮时，则打印机准备生成按照在PDDI 122中设置的当前用户定义的选择的多媒体文档。如果用户在该过程的任何时刻选择取消按钮732，则结束打印作业的创建并且PDDI 122消失。

在图7的实施例中，内容选择区域714示出了由用户选择并用于变换和打印的音频数据的时间线上的音频信息波形。在这个例子中，音频波形时间线734的顶部示出时间“00:00:00”或者这个音频内容的开始时间。音频波形时间线734的底部示出时间“00:07:14”或者这个音频内容的结束时间。因此，在这个例子中的音频信息是七分十四秒长。用户可以沿波形时间线724滑动选择器736以选择音频内容的某些段，对于这些段，在所生成的多媒体文档中将显示对应的标记符或识别符。例如，用户能够使用鼠标或其它选择设备点击并滑动选择器736到段740，其在图7中被示为选择段。在一个实施例中，当选择器736位于用户希望选择的音频内容段上时，用户可以单击或双击选择器736来选择段740。在这个实施例中，用户可以通过点击并拖动选择器736跨过用户希望选择的音频内容段的距离来选择较长的音频内容段。音频波形时间线734也可以用许多可选方式进行显示，诸如显示水平时间线、并排显示多于一个的时间线、显示不同的波形形状、显示根据特定原理着色的波形等。

在图7的实施例中，用户在多媒体文档中选择将被标记的音频波形时间线734的三个区域。用户选择段740、段742以及段744。这些被选择段中的每一个都具有被显示在多媒体文档的打印预览中单独对应的标记符或识别符166(例如条码)。例如，在图7的预览区域712中，示出了多媒体文档的图像。该文档示出了一页，包括音频时间线的开始在左边、结束在右边显示的一条水平时间线。在这个例子中，整个音频波形时间线734被显示在该多媒体文档页上。此外，在预览区域712中显示的时间线包括三个标记符或识别符166，一个用于段740、一个用于段742以及一个用于段744。每个标记符166包括条码以及给出在该音频内容中的段位置的时间戳。另外，图7例子所示出的预览区域712包括：能够包括有关音频内容的信息的标题(例如音频内容的名称、创作该音频内容的音乐人以及该音频内容的日期)。多媒体文档还包括可位于文档中任何地方(即底部、中央)的播放标记符760或播放识别符。

用户能够以许多方式播放音频内容。例如，用户能够点击音频波形时间线734上的播放选择器或播放箭头750使该段开始播放。另外，系统能够被结构得使选择播放箭头750将引起音频波形时间线734上的全部音频内容开始播放。用户还能够右击任何一个所选择的段来删除该多媒体文档上的相应标记符。纸件多媒体表示也能够提供用于播放该音频内容的界面。用户能够选择用于纸件文档上任一所选择段的任何标记符(例如扫描条码)，并且这将使得所选择的音频段被播放。例如，用户能够通过具有条码扫描器的蜂窝电话或PDA设备扫描条码。用户能够收听蜂窝电话或PDA上的选择片段，或者用户能够通过他/她的PC上的声卡收听该内容。此外，用户能够选择用作暂停按钮的播放标记符760，从而如果用户已经选择了该页上任一标记符并且正在播放对应的音频内容，则用户能够通过选择播放标记符760暂停该播放。用户通过再次选择播放标记符760能够恢复该播放或者用户能够选择该页上的另一个标记来播放对应的音频内容。

现在参照图8，该图示出了用于多媒体文档页面设置或页面设置对话界面800的PDDI 122的图形表示。如前讨论的，当用户选择页面设置按钮728时，页面设置对话界面800出现，并且用户能够选择格式化选项。在页面区域802中，用户能够设置用于多媒体打印作业的纸张尺寸(例如，信纸)和纸张源(例如，自动选择)。在方向区域804中，用户能够指定文档是以纵向还是以横向格式放置。在选择区域806中，用户能够设置名称和文本字体类型以及尺寸(例如，Helvetica，尺寸22英寸)、媒体类型(例如视频)、页面上的标记符位置(例如，在波形上方)，并且用户能够确定是否打印波形、中心名称、时间线条码以及他们的频率和时间标签。页面设置对话界面800所示的每个页面设置选项都能够有选择地被插入到诸如图7所示PDDI的主PDDI 122中。页面设置选项不限于图8所示的那些，且在另一些实施例中，各种不同的页面设置选项都可以被提供给用户。

现在参照图9，该图示出了用于显示生成音频文件双页概述的PDDI 122的图形表示。PDDI 122与图7所示的相似，但是用户在时间线数选择区域722中已经选择多媒体文档的每页包含三个打印的时间线。此外，用户在页面安装区域720中已经选择在两页上打印多媒体文档。用户在内容选择区域714中已经选择音频内容的将被显示有标记符的四个段。所选择的段包括段902、段904、段906以及段908。

图9的预览区域712所示的多媒体文档在一页上显示三个时间线，并示出已经生成了两页。在每个水平时间线开始处的时间戳910显示该时间线的开始时间。在预览区域712中顶页上显示的时间线对应于在内容选择区域714中所示的音频波形时间线734的一半。更具体地说，多媒体文档显示了被分成三个独立时间线的音频波形时间线734的上半部。对应于所选择的段902和904的标记符显示在预览区域712所示的页面上。对应于所选择的段906和908的标记符显示在预览区域712中看不见的内容的第二页面上。

图9的预览区域712中的文档还包括靠近该页面上显示的三个时间线中每一个的开始和结束的标记符912。这些向用户提供了打印文档中的附加中间界面点，经过这些附加中间界面点用户能够访问多媒体内容。时间线标记符912表示在音频内容中与每个打印时间线的开始或结束相对应的位置，并且用户能够通过选择所述标记符来访问这些位置(即如前所讨论的扫描条码)从而使在音频文件的那个位置处开始播放该音频内容。图9所示的时间线标记符912显示在该时间线的下面，但是这些时间线标记符912也可以显示在时间线的上面或靠近时间线。这些时间线标记符912也将出现在打印的文档中，从而提供另一个界面，通过该界面，用户能够访问规定位置处的多媒体内容。

图10示出了其中将时间线分成两部分的PDDI 122的图形表示。这个PDDI 122与图7所示的相似，但是用户在“安装”区域720选择输出应限制在单页上。时间线数选择区域722规定每页两个时间线。因此，在内容选择区域714中所示的音频波形时间线734被分成两部分，且这两个部分等分地在所述媒体文档上被显示为两个水平的时间线。用户已经再次在音频波形时间线734内选择了段，并且对应于这些段的标记符显示在多媒体文档中。具体地，用户已经选择了段1002、1004、1006和1008。

现在参照图11，该图示出了其中将时间线分成两个垂直部分并且已经施加了分段类型和阈值水平的PDDI 122的图形表示。在这个例子中，用户在时间线数选择区域722中已经选择了在多媒体文档的每页上打印的两个时间线。此外，用户在“安装”区域720已经选择在两页上打印多媒体文档。用户还在方向区域724中选择在多媒体文档中垂直显示时间线。因此，内容选择区域714中所示的音频波形时间线734被分成两半，并且上半部分显示在预览区域712所示页面上。下半部分包括在第二页上，第二页的内容没有显示在预览区域712中。

在图11的例子中，不是使用选择器736手动选择音频波形时间线734的段，而是用户已经对音频数据应用了分段类型。用户在分段类型区域716中已经选择对音频数据中的鼓掌事件进行音频检测。系统200将搜索音频数据内的所述鼓掌事件。但是用户还选择了在阈值选择区域718内应用75％的阈值。因此，只有大于75％可能性为鼓掌事件的音频事件将被显示在PDDI122中。在分段显示区域1102中显示鼓掌事件。分段显示区域1102中所示的每个事件段1104对应于大于75％可能性为鼓掌事件的事件。

在图11中事件段1104被显示为交错排列的框。但是，这些交错排列的框也可以是穿过分段显示区域1102伸出的线或者其它可视的提示符。用户能够右击任何一个事件段1104来删除该事件段1104。对应于每一个鼓掌事件段1104的标记符(即，条码、RFID标签、URL、或用于能从其中检索出多媒体数据的位置的某种其它标识)1120显示在预览区域712中显示的多媒体文档中。在这个例子中，时间戳1122也包含于每个标记符1120。用户能够点击位于靠近每一个事件段1104的箭头750来播放极可能包含鼓掌的音频内容。因此，用户能够在打印文档之前检查所示的事件段1104以确保事件段1104真正对应于鼓掌事件。此外，用户能够在打印文档中选择对应于鼓掌事件的标记符以便播放鼓掌内容。除了在图11中描述的音频检测事件以外，还有许多其它的分段类型能够应用到音频内容或其它类型的多媒体内容上。这些分段类型的每一个都能够被显示在分段类型区域716的菜单中，并且用户能从该菜单中选择应该使用的分段类型。下面是能够应用的各种不同分段类型的简单例子。扬声器分段是一个例子，其中对应于不同的扬声器的每个段以不同的颜色或不同的图符进行显示。由相同的扬声器生成的段以相同的颜色或相同的图符显示。扬声器识别是另一个例子，其中每一个扬声器的名字伴随有正确检测的置信度。PDDI 122包括一系列检查框，让用户选择显示哪个扬声器。用户能够交替应用声音源位置，其中检测声音的方向被显示为扇区。每一个扇区伴随有其被正确检测的置信度。用户界面包括安置在示例圆的圆周周围的一系列检查框，以便使用户选择显示方向。语音识别是分段类型的另一个例子，其中，时间线显示文本并且可选地显示用于在音频内容期间说出的每个词或句子的置信度值。

视频

图12示出了用于生成视频纸件文档的PDDI 122的图形表示。如利用用于生成音频文档的PDDI 122，用户能够在PDDI 122的区域中输入信息以生成视频文档。图12实施例中所示的PDDI 122包括在诸如打印机区域704、打印范围区域706、以及份数和调节区域708等标准打印机对话框中可以找到的一些区域。但是该PDDI 122还显示诸如前置选项区域710、预览区域712以及内容选择区域714等在标准打印机对话框内不能找到的区域。

在图12的实施例中，前置选项区域710向用户提供被规定用于格式化和布局多媒体内容的选项。在这个实施例中，用户选择用户希望应用到视频内容的分段类型区域1202中的分段类型。用于生成视频文档的分段类型的菜单将至少包括参考先前在图7中生成音频文档已经讨论的分段类型。在该例子中，用户在分段类型区域1202中没有选择任何分段类型，因此分段类型1202显示为“无”。故在该例子中，用户通过在内容选择区域714中移动选择器1222、以及通过点击用户希望选择的视频时间线显示部分来手动地选择给定视频文件段的开始和结束时间。

在前置选项区域710中，如前所讨论的，用户能够对涉及特定段的置信值的阈值进行定义和调节。用户通过将阈值输入到阈值区域1204中来设置阈值。例如，用户能够设置75％的阈值，并且将仅仅显示高于该阈值的帧(即有高于75％的可能该帧包含在面孔检测分析中的面孔)。在另一个实施例中，PDDI 122包含一阈值滑动器，并且用户能够沿着从0％到100％的阈值条移动该滑动器以在该范围内选择一特定阈值。另外，在图12实施例中所示的按钮包括更新按钮726、页面设置按钮728、OK按钮730以及取消按钮732，其功能与参照图7讨论的相应按钮的功能相似。

在图12的实施例中，内容选择区域714示出了时间线上的视频帧和文本，其是在贯穿某个定义的视频内容的正规区间提取的。例如，系统能够每秒保存CNN新闻段的视频帧，并且视频时间线将显示在该视频时间线上的全部或至少是某些被保存的帧。所提取的帧将利用在CNN新闻段中位于时间线顶部从时间“00:00:00”开始并沿时间线继续直到结束时间“00:12:19”为止的帧进行显示。在这个例子中，视频时间线的顶部示出时间“00:00:00”或者在时间线中显示的这个视频内容的开始时间。视频时间线的底部示出时间“00:12:19”或者这个视频内容的结束时间。在一些实施例中，视频帧能沿时间线以相反的顺序显示。

此外，在内容选择区域714中还显示有三个栏1250、1252和1254。一个栏1250显示文本信息，和其它两栏1252和1254显示视频帧。在图12的两栏1252和1254中显示的视频帧是并排显示的。例如，所选择的第一帧显示在时间线的左上部，和所选择的第二帧显示在第一帧的旁边。所选择的第三帧显示在第一帧的下面，并且第四帧显示在第二帧的下面。视频帧的显示以这种模式沿时间线继续。在另一些实施例中，视频帧可以沿时间线以不同的模式显示、或以一个栏显示、或以多于两个栏显示。在图12中文本副本也沿时间线从顶部到底部、通常靠近对应的视频帧来显示。在另一些实施例中，文本被显示在两个或多个栏中或被显示在视频帧的另一侧、或根本不在时间线上显示。

用户能够沿视频时间线滑动选择器1222以选择视频内容的某些段，这些段将被显示在所生成的多媒体文档中。在一个实施例中，一旦选择器1222被置于用户希望选择的视频内容段上，用户就可以点击选择器1222来选择段1226。视频时间线也可以用许多可选方式进行显示，诸如示出水平时间线、并排示出多于一个的时间线和示出不同的视频帧外形等。如上所讨论的，尽管图12实施例中的视频时间线显示了视频帧和相关文本，但是，在某些实施例中，视频时间线也可以仅显示视频帧而不显示相关文本。在时间线仅显示视频帧的这些实施例中，所生成的多媒体表示仍能够包括文本和视频帧或者能够限制为单独的视频帧。

在图12所示的例子中，用户在多媒体文档中选择将被标记的视频时间线的四个区域。用户选择段1226、段1228、段1230和段1232。这些被选择段中的每一个都被显示为多媒体文档上的一个或多个视频帧以及相关的文本。在图12的预览区域712中，示出了多媒体文档的图像。图12例子的文档示出了了包括五个视频帧1206和相关文本1216的一个页面。所显示的视频帧1206和相关文本1216中每一个都对应于在内容选择区域714中选择的段。例如开始于多媒体文档左上部的前两个视频帧1206对应于所选择的段1226。在图12的例子中，在多媒体文档的左下角示出的视频帧1206对应于视频时间线上的选择段1228，在文档的右上角示出的视频帧1206对应于视频时间线上的选择段1230，以及在右下角示出的视频帧1206对应于选择段1232。

此外，在视频时间线内的每一被显示的视频帧的位置被作为时间标识符1240显示在每一视频帧上方。在图12中，每一个时间标记符1240对应于从“00:00:00”到“00:12:19”(在视频时间线上显示的视频内容的总长度)的时间帧内的一个段。例如，在用于CNN新闻段的多媒体文档的左上角的视频帧1206包括“00:04:21”的时间标记符1240。因此，与该视频帧1206相关的视频内容开始于进入该CNN新闻段后的四分二十一秒处。此外，与这个视频帧1206相关的文本1216显示了该视频帧1206的副本，并且该副本开始于进入该CNN新闻段后的四分二十一秒处。

用户还能够以多种方式播放视频内容。例如，用户能够点击视频时间线上靠近每一选择段的播放箭头1224以使该段开始播放。在图12的实施例中，每一个在多媒体文档上显示的视频帧1206都具有位于视频帧1206下面的相应标记符或识别符1208(例如条码)。这些识别符1208还能够提供用于播放视频内容的界面。如在前参照音频段所讨论的，用户能够选择用于文档上任一所选段的任一识别符1208(例如扫描条码)，并且这将使得所选择的视频段被播放。

当用户选择识别符1208时，将从在相应时间标记符1240上显示的时间开始播放相关的视频内容。在图12的实施例中，与视频帧1206相关的对话将开始于文本1216的相关副本的开始处。例如，如果用户扫描了图12预览区域712中所示的多媒体文档的左上角处的视频帧下面所示的条码，则将从进入该CNN新闻段之后的四分二十一秒处开始播放该CNN新闻段的视频片段。

图12实施例中所示的多媒体文档还示出了用于控制视频内容显示的控制标记符或识别符。在图12中，示出了播放标记符1210、快进(FF)标记符1212以及倒退(rewind)标记符1214。用户能够选择打印文档中的播放标记符1210(即通过蜂窝电话或其它设备扫描条码)，其用作暂停按钮。如果用户已经选择了打印页面上的任何识别符1208并且对应的视频内容正在诸如蜂窝电话的某种类型的显示设备(未示出)上播放，则用户能够通过选择播放标记符1210暂停该播放。用户通过再次选择打印文档上的播放标记符1210能够恢复该视频内容的播放或者用户能够选择该页上的另一个识别符1208来播放对应的视频内容。此外，如果用户已经选择了打印页面上的任何识别符1208并且对应的视频内容正在播放，则用户能够通过分别选择快进标记符1212或倒退标记符1214，在该视频片段中进行快进或倒退。

在图12的例子中，在预览区域712中所示的多媒体文档包括：能够包括有关视频内容的信息(例如视频内容的名称和视频内容的日期)的标题。例如，图12中的标题将所述视频内容识别为“CNN新闻”，并且该新闻段曾经在“2001年9月19日”播放。

图12实施例中所示的预览区域712还包括预览内容区域1220。该预览内容区域1220标记一用户是正在预览多媒体文档的纸件版本还是正预览与多媒体文档上显示的视频帧1206相关的视频内容。用户通过选择“视频”无线按钮，经过在PDDI 122中嵌入的视频播放器能够预览所选择的与视频帧1206相关的视频内容。

在图12的实施例中，根据一个特定布局在预览区域712中显示了多媒体文档。但是，该文档能以多种不同的格式安排。例如，该文档可以不包括标题、时间标记符1240可以显示在视频帧1206的下面、识别符1208可以显示在视频帧的上面等。

图12还示出了在内容选择区域714中的视频时间线上显示的预览窗口1280。在某些实施例中，当用户沿视频时间线移动选择器1222时将出现预览窗口1280。预览窗口1280将显示选择器1222被置于其上的视频帧的图像。预览窗口1280能够直接出现在所选择段上面，或者能够选择地出现在该段的下方、上方或该段的旁边。

现在参照图13，该图示出了图12所示其中用户正预览视频片段的PDDI122的图形表示。用户能够选择在内容选择区域714中沿视频时间线靠近每一被选择段位置上的播放箭头1224以使得片段开始播放。此外，能够配置系统使得当选择播放箭头1224时开始播放视频时间线所表示的全部视频内容。当在预览区域712中播放视频时，沿时间线的相关段(例如段1226)将变为高亮显示，并且靠近该段的播放箭头1224将改变形状(例如双线)以表明该段正在播放。此外，能够设计系统使得用户能够选择视频帧并仅需通过点击或双击预览区域712中的多媒体文档中的特定视频帧或者通过点击视频时间线中的帧而开始播放所述视频帧。此外，在某些实施例中，如果用户右击了视频时间线中的一个段(例如1224)，则将出现一对话框以向用户提供播放视频的选项(在该段开始处开始)。用户能够选择对话框中的播放选项，并且视频帧将开始在预览区域712中播放。

当用户选择特定视频段进行预览时，嵌入在PDDI 122中的媒体播放器开始在预览区域712中从该视频段开始处播放该视频段。例如，在图13中，视频段能够在进入新闻段后的四分二十一秒处开始播放，并且该播放对应于从“00:04:20-00:06:35”运行的所选片段的开始处。如前所讨论的，可选地，视频内容能够从视频时间线上的“00:00:00”处而不是特定片段处开始播放。此外，可以设计系统使得媒体播放器开始不播放视频片段直到用户选择播放按钮1304为止。因此，在选择将预览的视频段的基础上，将出现一个媒体播放器，其中滑动器位于该段的开始处，用户必须实际点击播放按钮1304来使内容开始播放。

预览区域712中的媒体播放器还包括许多标准多媒体播放器(例如微软视窗媒体播放器)的特征，诸如是用于停止/暂停视频片段显示的暂停按钮1310、用于在视频内容中倒退的倒退按钮1312、用于在视频内容中快进的快进按钮1314、用于设置放映音量的音量调节器1306。还包括允许用户在视频内容四周移动的滑动器1308。能够使滑动器1308沿其移动的滑动器条1316能够对应于沿时间线显示的全部视频内容的长度或者滑动器条1316能够仅对应于该片段的长度。用户能够沿滑动器条1316点击和拖动滑动器1308以便在视频内容中移动。配置快进按钮1314和倒退按钮1312以允许用户仅在所选择的段中移动或者能够有选择地允许用户在与视频时间线相关的全部视频内容中移动。媒体播放器可以缺少图13所示的任何一种控制按钮或者能够包括用于控制视频显示的其它按钮。

图13还在内容选择区域714中示出了视频时间线上显示的预览窗口1280，其与图12所示相似。这允许用户预览内容选择区域714中的视频内容。

现在参照图14，该图示出了其中在预览区域712中正在显示视频片段的PDDI 122的图形表示。图14示出了通过使用在该实施例的媒体播放器中包含的开始标记符按钮1402和结束标记符按钮1404进行的段的创建。能够将媒体播放器设计成使得滑动器条1316的开始对应于与视频时间线相关的视频内容的开始(例如在“00:00:00”)或者对应于选择片段的开始。当正在播放视频内容时，用户能够使用开始标记符按钮1402和结束标记符按钮1404标记感兴趣的段。例如，如果用户对讨论特定演员的新闻段中的视频内容感兴趣，则用户能够在媒体播放器中播放该视频内容。当用户达到讨论该演员的段时，用户能够点击开始标记符按钮1402来标记位置。当该段结束时，用户能够点击结束标记符按钮1404。用户能够对整个新闻段继续如此操作，从而标记将被打印或用于任何其它目的的感兴趣的段。

图15示出了图12所示的PDDI 122的图形表示，其中，用户已经使用鼠标或其它点入设备右击了内容选择区域714中所示的视频时间线。当用户右击了视频时间线中的一视频段时，出现对话框1502，以便向用户提供有关视频帧的选项。用户能够在对话框1502中选择播放与段相关的视频或者如果其目前正在播放则暂停播放该视频。另外，用户能够选择编辑该段。编辑选项将在下面详细讨论。对话框1502能够出现在视频时间线中被选择段的上方或靠近视频时间线的任何地方。对话框1502还能够附加地包括除图14所示那些选项以外的其它控制选项，诸如是倒退选项或快进选项。

现在参照图16，该图示出了图15所示其中用户已经选择了对话框1502中编辑选项的PDDI 122的图形表示。在对话框1502中选择了编辑选项的基础上，出现一编辑对话框1602，从而允许用户选择进一步的选项。在编辑对话框1602中，用户能够通过修改开始时间区域1604和结束时间区域1606来修改段的开始时间或结束时间。因此，用户能够进行选择以使该段包括在该段到来前后时间内的一些内容。例如由于存在很多用户感兴趣的介绍或某些引言，所以，用户可能感兴趣的是观看在该段规定开始时间之前45秒钟在CNN新闻段中发生的视频内容。此外，用户可能感兴趣的是观看该段规定结束时间之后几秒钟来到的视频内容。用户能够有选择地修改一个段的开始和结束时间以缩短该段和消除用户不感兴趣的无关内容。在对开始时间、结束时间或者两者进行修改之后，用户能够选择OK按钮来施加这种修改，或者用户能够选择取消按钮来结束该任务并使编辑对话框1602消失。

在图17的例子中，代替使用选择器1222手动选择视频时间线的段，用户已经对视频数据应用了分段类型。用户已经在分段类型区域1202中选择执行面孔检测，其中系统将在视频内容中搜索面孔图像。当选择面孔检测时，PDDI 122沿时间线示出包含面孔图像的段。每一个段伴随有表示在片段中检测的面孔数量的整数以及置信值。用户还已经在阈值选择区域1204中选择使用80％的阈值。因此，在PDDI 122中将只显示大于80％可能包含面孔图像的视频帧。面孔检测结果显示在分段显示区域1702中。每一个在分段显示区域1702中示出的事件段1704对应于大于80％可能包含面孔图像的一个视频帧或者多个视频帧。

事件段1704在图17中被表示为交错排列的框。但是这些交错排列的框也可以是穿过分段显示区域1702伸出的线或者其它可视的指示符。用户能够右击任何一个事件段1704来删除该事件段1704。对应于事件段1704的标记符(例如，条码)能够显示在预览区域712中显示的多媒体文档中。用户能够点击位于靠近每一个事件段1704的播放箭头1224来播放极可能包含面孔图像的视频内容。此外，当用户沿着视频时间线移动选择器1222时出现预览窗口1302，以便向用户提供观看事件段1704中视频帧的机会从而确保存在面孔图像。另外，可以将系统结构成将显示相同面孔的图像视频内容合并到一个视频帧中，而不是显示与特定面孔图像每一瞬间相关的单独视频帧。

除了图17的面孔检测例子之外，还有许多其它分段类型能够应用到视频内容或者其它类型的多媒体内容中。这些分段类型的每一个能够显示在分段类型区域1202中的菜单中，并且用户能够从菜单中选择将应用哪一种分段类型。下面是能够应用的各种不同分段类型的简单例子。视频事件检测是一种用户能够应用的分段类型，其中PDDI 122示出了沿时间线应用视频事件检测算法的结果。视频事件的例子包括当人们在会议中起立或当人们进入房间时的情况。彩色柱状图分析是用户能够应用的另一分段类型，其中PDDI122示出了沿时间线应用彩色柱状图分析算法的结果。例如，PDDI 122能够以每30秒间隔显示彩色柱状图，从而允许有经验的用户快速定位包含日落的视频部分。另外，能够应用群集方式以便将群集面孔图像从而使相同面孔的多个情形被合并到一个表示的面孔图像中。

面孔识别是另一个分段类型，其中PDDI 122示出了沿时间线的名字，所述名字是通过对沿时间线对应点处的视频帧应用面孔识别而得到的。另外提供一系列检查框以使用户能够通过选择名字来选择片段。光学字符识别(OCR)是一个分段类型，其中对视频内容中的每一帧执行OCR，对每一帧做二次抽样(即每30帧一次)。沿时间线显示这些结果。还提供一文本输入对话框以便使用户输入在OCR结果中搜索的字。沿时间线指出出包含输入文本的片段。另外，能够应用群集方式从而能够归并对每一帧执行OCR时生成的相似的结果。沿时间线指出出包含输入文本的群集。

除了上述分段类型之外，还存在能够被应用的其它例子。运动分析是另一个分段类型，其中PDDI 122示出了沿时间线应用运动分析算法的结果。该结果被显示为例如具有指出所检测运动量的幅值的波形。例如，这将允许有经验的用户快速定位包含某人跑过摄像机视野的视频部分。距离预测是另一个分段类型，其中PDDI 122示出了沿时间线应用距离预测算法的结果。例如，在使用两个分开已知距离的摄像机的监视摄像应用中，能够预测每一点距离摄像机的距离。用户能够根据他们距离摄像机的距离来设置阈值以选择给定的视频文件部分进行打印。例如，用户可能希望仅看到距离摄像机大于50码的物体。还能够应用前景和背景分段，其中PDDI 122示出了沿时间线应用前景和背景分段算法的结果。在每一点上，显示前景物体。能够跨相邻帧的组进行群集及合并算法以减少被显示单个物体的数量。用户能够根据前景和背景分段的置信值以及合并算法来设置阈值以便选择给定视频文件部分进行打印。场景分段是用户能够应用的另一种类型，其中PDDI 122示出了沿时间线应用拍摄分段算法的结果。每一个段都伴随有表示该分段正确的置信值。

也能够应用识别机动车或牌照的分段类型。机动车的识别可能对例如操作监视摄像机的用户非常有用，这种监视摄像机生成长时间的非常枯燥的视频。这种用户经常需要寻找和打印仅仅包含例如红色卡迪拉克的特定对象的那些部分。为此，利用机动车识别技术对输入的每一视频帧进行处理，并且沿时间线显示结果。牌照识别也可能对操作监视摄像机的用户非常有用，并且这样的用户可能需要搜索监视视频来寻找包含特定牌照号的部分。为此，利用牌照识别技术处理输入视频的每一帧，并且沿时间线显示结果(牌照号、状态、牌照颜色、牌照持有者的姓名和地址、牌照持有者的未完成的拘留搜查、犯罪历史等)。通过机动车或牌照识别，用户能够根据伴随机动车或牌照识别结果的置信值设置一阈值以便选择给定视频文件的部分进行打印。还提供了一文本输入对话框，以允许用户输入与机动车的制造、型号、颜色和年代或者牌照的牌号、国家和年代等相关的识别符。在识别结果中搜索这些文本输入。沿时间线指出包含所输入信息的片段。

现在参照图18，该图示出了包括来自多于一个时间线上显示的多个源的视频内容的PDDI 122的图形表示。例如，视频内容能够源于两个不同的CNN新闻段，或者能够源于CNN新闻段和CSPAN新闻段。系统可以被结构成在多媒体文档的一个页面上打印来自一个新闻段的视频帧，以及在另一页面上打印来自另一新闻段的视频帧。图18显示了两个单独的内容选择区域714a和714b，其中的每一个都具有显示所提取视频帧和相关文本的单独的视频时间线。每一个视频时间线包括：用于在视频时间线中生成选择的选择器1222a和1222b；和表示其中有大于80％的机会能够检测到面孔图象帧的事件段1704。每一个视频时间线还包括与示出了通过对那个视频源应用面孔检测导致的事件段1704的时间线相关的单独的分段显示区域1102。因此，用户能够独立地在每一个时间线周围移动选择器1222a和1222b直到用户已经流览预览窗口1302并确定选择用于在多媒体文档中显示的视频帧为止。尽管图18示出了两个视频时间线，但它可以使用户比较多个源，并由此在PDDI 122中生成多个时间线。

用户能够使用PDDI对视频内容应用多种不同的分段类型。例如用户可以选择对所示的一个十二分钟长的CNN新闻节目应用音频检测和扬声器识别。图19示出了图17的PDDI 122，其中应用了面孔检测。但是，图19示出了应用面孔检测和视频OCR的结果。在某些实施例中，该系统被结构成在分段类型区域中包括下拉菜单。该菜单能够在其中逐一列出每一个分段类型。因此，在这个实施例中，用户能够点击菜单中的多于一个的分段类型(即在进行选择的同时保持按下CTRL按键)并应用全部所选择的分段类型。

在另一个实施例中，该菜单还可以包括一定数量的不同组合选项，以允许用户在包含多于一个分段类型的菜单中选择一个项。例如，音频检测+扬声器识别可以是菜单上的一个组合项。通过选择菜单中的这个选项，用户使对多媒体内容执行音频检测和扬声器识别。这个组合菜单项可以将打印机102的特性预设为分段类型和分段组合类型的缺省表。此外，用户能够定义他或她自己的组合类型。当用户创建用户定义的分段类型时，该用户能够给该分段类型一个名字，并且该选项将出现在分段类型的下拉菜单中。图19中的分段类型名字为“Combol”，并且它是由用户定义的单个分段类型的组合。此外，由于多于一个分段技术的组合能够生成可调节的大量参数，所以阈值区域1204被禁止。因此，每一个技术组合都具有被证明是性能良好的参数值缺省集。但是，用户可以在点击选项按钮1906时出现的对话框(未示出)中修改它们。

如图19所示，内容选择区域714包括两个分段显示区域1102，其中的一个用于已经被应用到视频内容的每一个分段类型。在这个例子中，对于组成“Combol”的两个分段类型的每一个存在一个分段显示区域1102。靠近左边的分段显示区域1102显示了应用图17所示面孔检测的结果。但是事件段1704不是象它们在图17中的那样交错排列的，而是在其它之上排列成一线。靠近右边的分段显示区域1102示出了对视频内容应用视频OCR的结果。在这个分段显示区域1102中所示的事件段1704与靠近左边的分段显示区域1102所示的那些不同。但是在某些实施例中，在不同分段显示区域1102中所示的事件段1704可以显示相同的事件段。在某些实施例中，在两个分段显示区域1102中以不同格式排列事件段1704，或者PDDI 1704能够仅包含示出了用于所应用的所有分段类型的事件段1704的一个分段显示区域1102。

除了图19所示其中应用了分段类型的组合(例如Combol)的例子之外，还有许多能够生成的其它分段类型的组合。在分段类型区域1202中的菜单中能够显示这些分段类型的组合的每一个，并且用户能够从菜单中选择哪一个分段类型将被应用。尽管下面没有讨论的许多其它组合也可以生成，但下面还是示出了能够应用的各种不同分段类型组合的简单例子。用户能够应用运动分析与距离预测进行组合，其中，PDDI 122示出了沿一个时间线或两个单独的时间线应用运动分析算法与距离预测算法的结果。运动分析时间线能够包括其幅值指出被检测运动的量的波形。用户能够设置阈值允许用户根据所检测的运动量和从摄像机运动的距离选择给定视频文件的部分去打印。场景分段和面孔识别是另一种用户能够应用的组合，其中PDDI 122示出了沿一个时间线应用拍摄分段算法的结果。例如色彩或特定图符能够指出包含面孔图像的时间线上的段。每一个段能够伴随有表示场景分段正确的置信值以及能够伴随有表示被检测面孔数量的整数和置信值。场景分段和OCR是另一种能够应用的组合，其中PDDI 122示出了沿一个时间线应用拍摄分段算法的结果。还对视频内容的每一帧执行OCR，并且对该内容进行二次抽样。沿相同或不同的时间线显示该结果。用户还能够在OCR结果中执行文本搜索，并且包含所搜索字的段能够沿时间线显示。

当将分段类型组合应用到多媒体内容时，不限制用户只能应用两种组合。用户可以应用三种或更多分段类型，并且这种组合能够在分段类型菜单上通过缺省而示出或者能够由用户创建。场景分段、OCR和面孔识别都可以应用于该组合中，其中PDDI 122示出了沿一个时间线应用拍摄分段算法的结果。对视频每一帧已经执行了OCR和二次抽样，并且沿相同或不同时间线显示结果。通过对视频帧应用面孔识别得出的名字也显示在相同或不同时间线上。而且，提供一系列检查框让用户通过选择名字而选择片段。用户能够设置与结果相关的阈值，以允许用户根据伴随拍摄分段、OCR和面孔识别结果的置信值而选择打印的给定视频文件的部分。此外，用户能够应用面孔检测以及OCR和场景分段。PDDI 122将显示如上所述的OCR和场景分段的结果。相同或不同的时间线也能包括含有面孔图像的段。每一个段可以伴随有表示片段中被检测面孔数量的整数以及置信值。

机动车识别+运动分析可以是另一个可选的分段类型组合，其中，利用机动车识别技术对所输入的每一视频帧进行识别并沿时间线显示结果。而且，将运动分析技术应用到视频上以逐个帧地预测机动车的速度。还提供了一文本输入对话框，以允许用户输入与机动车的制造商、型号、颜色和年代相关的识别符以及机动车速度。在机动车识别和运动分析结果中搜索这些项目，并且沿该时间线指出包含所输入信息的片段。

在图19示出了多于一个的分段类型(例如Combol)正在被应用到视频内容上的例子的同时，还能够对音频内容或其它类型的多媒体数据应用多于一个的分段类型。下面是能够应用的分段类型的不同组合的简单例子，尽管许多下面没有讨论的其它组合也能生成。音频事件检测+分类是组合的一个例子。PDDI 122示出了沿时间线应用音频事件检测的结果，诸如拍手、大叫或大笑。每一个检测的事件伴随有其正确检测可能的置信值。PDDI 122包括一系列检查框以使用户选择哪一个事件将被显示。扬声器分段和扬声器识别是另一个组合的例子。每一段以不同颜色或不同图符沿时间线示出，并且由相同扬声器生成的段示以相同的颜色或相同的图符。扬声器识别结果包括用于每一个扬声器名字的文本和可选的置信值。多个扬声器名字能够与每一个段相关联。用户能够可选地应用声源位置和音频事件检测。据以检测声音的方向以一个圆的扇区形表示。每一个扇区伴随有其正确检测可能的置信值。用户界面包括安置在示例圆的圆周周围的一系列检查框，以使用户选择显示方向。每一个检测的音频事件伴随有其正确检测可能的置信值，并且PDDI122包括一系列检查框，以使用户选择哪一个事件将被显示。用户可选地应用语音识别和配置文件分析组合。PDDI 122中的时间线示出说出的每一个词或句子的文本和可选的置信值。语言识别结果与表示用户兴趣的预先存在的基于文本的概貌相匹配。用户能够调节置信值的阈值，并且，用户还能够调节在配置文件和语音识别结果之间的匹配程度。语音识别和音频事件检测是能够应用的另一个组合的例子。时间线包括说出的每一个词或句子的文本和可选的置信值，以及应用音频事件检测的结果。

当对媒体内容应用分段类型组合时，用户不限于只应用两种组合。用户能够应用三个或更多分段类型，并且这种组合能够在分段类型菜单上通过缺省而示出或者能够由用户创建。语音识别、音频事件检测和扬声器识别可以组合应用。语音识别结果包括每一个词或句子的文本和可选的置信值。所检测的音频在相同或不同的时间线上示出。PDDI 122还显示每一个检测的扬声器的名字，伴随有其正确检测可能的置信值。用户界面包括一系列检查框，以使用户选择显示哪些扬声器。能够可选地应用语音识别、音频事件检测和扬声器识别。除了是显示扬声器分段事件而不是扬声器识别事件外，应用程序与上述相同。每一个扬声器段以不同颜色或不同图符示出，并且由相同扬声器生成的段以相同颜色或相同图符示出。作为另一个例子，语音识别、音频事件检测和声音定位可以组合应用。时间线将示出与每一个词或句子相关的文本和可选置信值、以及所检测的音频事件。时间线还以一圆的扇区形式示出据以检测声音的方向。每一个扇区伴随有其正确检测可能的置信值。用户界面包括安置在示例圆圈的圆周周围的一系列检查框，以使用户选择哪个方向将被显示。

现在参照图20，该图示出了显示能由系统生成的多媒体文档的另一个实施例的表示的多媒体表示(例如视频纸件文档)。该文档2000示出了八个视频帧1206，并且某些视频帧伴随有通过图19的PDDI已经生成的文本1216(可以是对话的副本、视频内容简介等)。在这个实施例中，分割器2004分割每个视频帧1206，并且显示视频内容每一段开始和结束时间的时间戳2006包括在每个分割器2004中。此外，所示的标题2002显示有关视频内容的信息。在这个例子中，标题2002显示名称、CNN新闻、新闻节目的时间(例如上午10点)、节目的日期(例如2001年9月19日)以及节目的长度(例如十二分钟19秒长)。

识别符1208示出在每一个视频帧1206的下面，并且用户能够选择这些识别符1208当中的任何一个以使与该视频帧1206相关视频内容开始播放。视频帧1206能够在扬声器开始朗读相关的文本1216副本的点处开始播放。没有被示出文本或被显示“无文本”短语的视频帧1206可以包括其中片段中的人物没有说话的视频内容或者可以表示其中用户没有选择显示文本的例子。

图20所示实施例中的多媒体文档还示出了用于控制视频内容显示的控制标记符或识别符。在图20中，示出了播放标记符1210、快进(FF)标记符1212以及倒退标记符1214。如前所述的，这些标记符提供到多媒体数据的界面。

尽管已经参考某些优选实施例说明了本发明，但是本领域技术人员将认识到可以提供各种修改。可以在由下述权利要求限定的本发明的范围内对所述优选实施例提供各种变化和修改。

Claims

1.一种允许与媒体数据分析和媒体表示交互操作的系统，该系统包括：

输入装置，用于输入包含至少一幅图像的媒体数据；

控制装置，用于执行多媒体重现模块、分析该媒体数据并创建包含表示该媒体数据的至少一部分的图像的媒体表示，其中该多媒体重现模块包括内容识别软件，用于识别媒体内容的特征；以及

输出装置，用于输出该媒体表示。

2.如权利要求1所述的系统，还包括用于控制用户界面的显示的处理逻辑，其中，该用户界面允许用户控制该控制装置的操作。

3.如权利要求1所述的系统，还包括用于以数字格式写入媒体表示的硬件。

4.如权利要求3所述的系统，还包括用于以数字格式存储媒体表示的存储介质。

5.如权利要求1至5之一所述的系统，其中，所述输出装置将该媒体表示输出到与其连接的打印设备。

6.如权利要求5所述的系统，其中，所述媒体表示至少包括一个允许用户访问和控制媒体内容的用户可选择识别符。

7.如权利要求6所述的系统，其中，所述至少一个用户可选择识别符包括打印在媒体表示上的至少一个条形码。

8.如权利要求6所述的系统，其中，所述至少一个用户可选择识别符还包括能够被选择用来播放相关媒体内容的至少一个播放识别符。

9.如权利要求1所述的系统，还包括用于表示媒体内容变换的数据结构。

10.如权利要求1所述的系统，还包括一通信监视模块，用于监视系统组件之间的通信，其中，通信监视模块转发对信息的请求并对系统组件中的请求进行应答。

11.如权利要求2所述的系统，还包括含有一选择菜单的用户界面，该选择菜单用于允许用户选择将对媒体内容执行的特征分析。

12.如权利要求2所述的系统，还包括用户界面，其包含设置与媒体内容分析相关的置信值的阈值的区域。

13.如权利要求2所述的系统，还包括用户界面，其包含至少一个用于管理和修改媒体表示上的媒体信息的显示的区域。

14.如权利要求2所述的系统，还包括用户界面，其包含用于预览所选择的媒体内容中的激活媒体帧的预览区域。

15.如权利要求2所述的系统，还包括用户界面，其包含预览将生成的媒体表示的预览区域。

16.如权利要求2所述的系统，还包括用户界面，其包含至少一个内容选择区域，用于从将显示在媒体表示中的至少一个源中选择媒体内容的段。

17.如权利要求16所述的系统，其中，内容选择区域还包括用户能够沿内容选择区域滑动的选择器，以便选择将在媒体表示中显示的段。

18.如权利要求16所述的系统，其中，内容选择区域还包括媒体内容的图形说明，从该图形说明中，用户能够浏览媒体内容并选择媒体内容的段。

19.如权利要求18所述的系统，其中，媒体内容的图形说明还包括显示音频内容的音频波形时间线。

20.如权利要求18所述的系统，其中，媒体内容的图形说明还包括显示从视频内容提取的视频帧的视频时间线。

21.如权利要求18所述的系统，其中，媒体内容的图形说明还包括显示从视频内容提取的文本的时间线。

22.如权利要求16所述的系统，其中，内容选取区域还包括用于显示媒体内容分析结果的区域，该结果被沿时间线显示。

23.如权利要求1所述的系统，还包括输出设备驱动器模块，用于驱动媒体内容分析和媒体表示生成，输出设备驱动器模块被通信地耦合到用户界面以接收用户指令，其中，该用户界面允许用户控制该控制装置的操作。

24.如权利要求23所述的系统，还包括用于生成媒体表示的附加输出设备，该附加输出设备被通信地耦合到多媒体重现模块以接收变换的媒体数据，附加输出设备被通信地耦合到输出设备驱动器模块以接收用于媒体表示生成的指令。