CN1441596A

CN1441596A - 视频合成和编辑方法

Info

Publication number: CN1441596A
Application number: CN03106310A
Authority: CN
Inventors: B·莫里
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-02-26
Filing date: 2003-02-21
Publication date: 2003-09-10
Also published as: JP2003274355A; FR2836567A1; KR20030070856A; US20030170002A1; EP1339061A1

Abstract

本发明提出了一种视频合成和编辑方法，其易于使用并可被实施于仅具有有限显示和/或计算能力的消费者设备上。本发明包括采用视频输入材料Vi的描述(如，例如MPEG－7类型的描述)，以及要求用户提供多部分计划，用于他希望作为输出而获得的视频材料Vo。然后计划被逐部分地分析以产生涉及每个部分的搜索准则。然后在描述D中搜索所产生的每个搜索准则。以这种方式被选择的视频段被并列以形成视频输出材料。非专业视频合成和编辑，拍静止或移动画面的数字照相机。

Description

视频合成和编辑方法

发明领域

本发明涉及一种合成和编辑方法，用于从包括图像和/或图像序列的输入材料产生输出材料。本发明亦涉及一种包括指令的程序，该指令用于当程序由处理器运行时实施这种合成和编辑方法。

本发明亦涉及一项电子设备，其被装配有用于读取包括图像和/或图像序列的输入材料的装置，并有用于处理所述输入材料以从所述输入材料产生输出材料的装置。

发明背景

US专利5,404,316描述了一种使得视频编辑能被实现的视频处理方法。被描述于该专利的方法适用于专业应用。它过于复杂以至于不能由一般公众来使用，它亦是过于复杂的以至于不能被实施于仅具有有限处理和/或显示能力的消费者电子设备上，并特别是在便携式电子设备上。

发明内容

本发明的目的是提出一种预期由一般公众使用的合成和编辑方法，其能被实施于仅具有有限处理和/或显示能力的消费者电子设备上，如在拍静止或移动画面的数字照相机上。

这个目的通过如在起始段中所述的、依照本发明的合成和编辑方法而被实现，其特征在于它包括：

用于获得在多个部分中并涉及所述输出材料的计划的至少一个步骤，

用于从所述输入材料的描述选择对应于所述部分的图像和/或图像序列的至少一个步骤，

用于依照所述计划按顺序放置所选图像和/或图像序列的至少一个步骤。

任选地，为允许产生所述描述，依照本发明的合成和编辑方法亦可包括：

-用于从所述输入材料自动提取结构的步骤，

-用于从由用户提供的语义信息来注释(annotate)所述结构的步骤。

因此，依照本发明，取代进行常规合成和编辑操作如选择、剪接和整理(collate)图像或图像序列，用户提供了用于输出材料的计划，并且在特定情况下，他注释所述输入材料的结构特征，所述结构由自动提取而获得。然后通过遵循由用户限定的计划，合成和编辑被自动进行。

用于输出材料的计划和语义信息由用户以其自然语言提供，如通过使用键盘手动地或通过使用语音识别工具口头地提供。

至此，由用户依照本发明进行的操作比那些用现有技术合成和编辑方法进行的简单。他们不需要任何专门技能。具体来说，不需要知道如何正确操作计算机化的工具以使用依照本发明的合成和编辑方法。

而且，不必要有可用的复杂用户界面以实施依照本发明的合成和编辑方法。因此，本发明可被实施以各种各样的电子设备项并特别是便携式电子设备项，如拍静止或移动画面的数字照相机。

本发明亦具有这样的优点：使得用户能修改所获得的合成，并简单地且按他所希望的次数这样做。这是因为一组视频输出材料Vo可为依照本发明的合成和编辑方法的再运行而形成新的输入材料Vi’。获得新合成所需要的指示欲被修订的计划P，如通过例如删除或移动语句。

附图简述

本发明的这些和其它方面从以下所述的实施例来看是显然的，并将参照这些实施例被说明。

在通过非限定的实例给出的附图中：

图1为示出依照本发明的合成和编辑方法主要步骤的图。

图2示出依照本发明的一项电子设备的实例。

发明实施例描述

图1中所示为总结依照本发明的合成和编辑方法各个步骤的图。依照本发明的合成和编辑方法允许通过考虑由用户U限定的指令，从包括图像和/或图像序列的输入材料Vi产生输出材料Vo。

依照本发明的合成和编辑方法利用了输入材料Vi的描述D。

依照本发明的方法包括步骤S1，用于获得涉及用户希望获得的输出材料的计划P。这个计划P由用户U来限定。它包括多个部分Tj(j＝1...N)。

依照本发明的方法包括选择步骤S2，用于从描述D选择对应于计划P的每个部分Tj的图像和/或图像序列。它亦包括排序步骤S3，用于按顺序放置根据计划P选择的图像和/或图像序列。

为实现步骤S2和S3，计划P被逐部分地运行。对于每个部分Tj：

-用于部分Tj的内容的逻辑分析的步骤S2-1使得涉及所述部分的搜索准则被产生，

-用于在描述D中进行搜索的步骤S2-2使得符合搜索准则Q(Tj)的一个或多个图像和/或图像序列VS(j，k_j)被选择，

-以及排序步骤S3包括将所选图像和/或图像序列加给先前所选图像和/或图像序列的序列(succession)。

图像和/或图像序列的序列(succession)在最后的结尾处被获得，排序步骤S3形成输出材料Vo。这个输出材料Vo可为步骤S1、S2和S3的再运行而形成新的输入材料Vi’。当情况是这样时，在步骤S1中，用户可限定新计划P’或通过附加、删除或移动一个或多个部分Tj来修订原计划P。

依照本发明的合成和编辑方法有利地包括用于产生描述D的任选步骤S0。当没有可用于输入材料Vi的描述时，步骤S0被进行。步骤S0有利地包括：

-用于从输入材料Vi自动提取结构的步骤S0-1，

-用于从由用户提供的语义信息来注释所述结构的步骤S0-2。

用于产生这种输入材料的描述的工具被描述于例如名为“A Surveyon the automatic Indexing of Video Data(有关视频数据的自动索引的调查)”的文章，其由R.Brunelli、O.Mich和C.M.Modena在出版物“Journal of Visual Communication and ImageRepresentation(可视通信和图像表示期刊)”10，78-112(1999)中发表。

由这种类型的工具产生的描述有利地遵循MPEG-7标准。MPEG-7描述为视频段的分级结构，其包括为MPEG-7标准中限定的描述符的实例的元素。在MPEG-7标准中限定的描述符中是这样的描述符，其意欲被用于描述不能自动从输入材料(如上下文、位置、时间、动作、对象、人物等)推出的概念性方面的描述符。作为这种描述符的实例的元素内容必须由操作者来提供。当依照本发明的合成和编辑方法包括用于产生描述D的步骤S0时，为这种描述符实例的元素内容通过由用户U提供的语义信息I来形成。

为使得在计划P和描述D之间建立对应，有必要使计划P和语义信息I以相同的语言来限定，如以用户U所讲的语言。如果情况是这样，计划P的每个部分Tj由一语句形成。计划P和语义信息I通过使用键盘手动地或通过使用声音识别装置口头地输入。

现在针对由用户在其假期内所拍的视频序列形成的输入材料给出描述D的实例(描述D为遵循MPEG-7标准的描述；其以由W3C联合企业定义的XML markup语言编写)：描述的实例

在这个实例中，语义信息I的项被以黑体字母来表示。该描述包括涉及整个输入材料Vi的被称为<Audio Visual>的段。这个<AudioVisual>段又包括涉及4个视频段的4个被称为<Segment>的实体。<Segment>实体具体包括分别描述动作特性、动作发生的地方、动作的时间和动作如何发生的被称为<WhatAction>、<Where>、<When>和<How>的实体，并且它们包含语义信息。<Audio Visual>段和<Segment>实体每个都具有包含标题的属性“id”。这个标题亦为语义信息。

现在将给出计划P的实例，其可被用于从被描述于以上描述中的输入材料Vi产生输出材料Vo：

计划实例

“During the vacation we spent two days in Paris.Wes tayedat the Beauséjour hotel.We had a walk round the Pantheon.Wealso visited the Eiffel tower.We finished our trip with aromantic evening meal.

在这个实例中，输出材料将包括被包含于输入材料Vi的4个视频段，但被再安排如下：“Arrival in Paris”、“Our hotel”、“A walkround the Pantheon”、“Visit to the Eiffel Tower”、“Romanticevening meal”，

为实施用于确定搜索准则的步骤S2-1，有多个实施例可被使用。

在第一实施例中，搜索准则由整个语句形成。

在第二实施例中，一个或多个有效字(significant)被从语句Tj提取(例如通过使用字典来删除不需要的字，如字之间的冠词、介词和连词等)。然后所提取的字被相互独立地使用以形成搜索准则。

在第三实施例中，以在有效字之间建立逻辑连接的方式来进行语法分析，而所提取的字然后被组合使用以形成搜索准则。语法分析亦有利地被用于确定对包含于搜索准则中的每个字或字的组合搜索应覆盖的描述符。例如，如果语法分析表明语句中的第一有效字为涉及人物的适当名词，对这个第一字而将被仔细检查(scrutinize)的描述符将是“Who”描述符。如果语法分析表明语句中的第二有效字为地方，对这个第二字而将被仔细检查的描述符将是“Where”描述符，等等。如果情况是这样，符合搜索准则的<Segment>视频段是这样的：

-<Who>元素包含所述第一字，

-并且<Where>元素包含所述第二字。

在图2中，所示为依照本发明的电子设备项的实例。如图2中所示，依照本发明的设备项10包括用于读取输入材料Vi的装置11、程序存储器12和处理器14。输入材料Vi被存储于数据存储器15，其可形成或可不形成设备项10的部分。这个数据存储器15可例如由部件如硬盘，或由盘、磁带、磁盘等类型的可拆卸介质来形成。设备项10亦包括用户界面16，其使得至少用户能输入计划P以实现依照本发明的合成和编辑方法。任选地，用户界面16亦使得欲被用于注释输入材料Vi的描述的语义信息I能被输入。在第一实施例中，界面16为声音界面。它包括话筒和被存储于程序存储器12的软件语音识别装置。作为任选项，它亦可包括显示屏幕。在第二实施例中，界面16为触摸界面。它包括例如键盘和显示屏幕或触摸屏幕。

程序存储器12具体包含程序CP，其包括当程序CP由处理器14运行时，用于实施依照本发明的合成和编辑方法的指令。由依照本发明的合成和编辑方法产生的输出材料Vo例如被存储于数据存储器15。

在某些情况下，设备项10亦包括用于捕获输入材料Vi的装置20。

Claims

1.一种合成和编辑方法，用于从包括图像和/或图像序列的至少一项输入材料(Vi)产生输出材料(Vo)，特征在于它包括：

-用于获得在多个部分(Tj)中并涉及所述输出材料的计划(P)的至少一个步骤(S1)，

-用于从所述输入材料的描述(D)选择对应于所述部分的图像和/或图像序列的至少一个步骤(S2)，

-用于依照所述计划按顺序放置所选图像和/或图像序列的至少一个步骤(S3)。

2.权利要求1的合成和编辑方法，特征在于，它包括产生所述描述的：

-步骤(S0-1)，用于从所述输入材料自动提取结构，

-步骤(S0-2)，用于从由用户(U)提供的语义信息(I)来注释所述结构。

3.权利要求1的合成和编辑方法，特征在于所述选择步骤包括：

-步骤(S2-1)，用于分析所述计划(P)以产生涉及每个所述部分(Tj)的至少一个搜索准则(Q(Tj))，

-步骤(S2-2)，用于在所述描述(D)中搜索满足每个搜索准则(Q(Tj))的一个或多个图像和/或图像序列。

4.一项电子设备，其被装配有用于读取包括图像和/或图像序列的输入材料(Vi)的装置(11)，并有用于处理所述输入材料以从所述输入材料产生输出材料(Vo)的装置(12、14、16、CP)，特征在于所述处理装置包括：

-用于获得在多个部分中并涉及所述输出材料的计划的装置，

-用于从所述输入材料的描述选择对应于所述部分的图像和/或图像序列的装置，

-用于依照所述计划按顺序放置所选图像和/或图像序列的装置。

5.权利要求4的一项电子设备，特征在于所述选择装置包括：

-用于分析所述计划以产生涉及每个所述部分的至少一个搜索准则的装置，

-用于在所述描述中搜索满足每个搜索准则的一个或多个图像和/或图像序列的装置。

6.权利要求4的一项电子设备，特征在于为产生所述描述，它包括：

-用于从所述输入材料自动提取结构的装置，

-用于从由用户提供的语义信息来注释所述结构的装置。

7.权利要求4的一项电子设备，特征在于它包括用于捕获所述输入材料的装置(20)。

8.一种包括指令的程序(CP)，该指令用于当所述程序由处理器(14)运行时实施权利要求1和2两者之一的合成和编辑方法。