CN102103877A

CN102103877A - 用于编辑图像/视频数据的图像/视频数据编辑设备和方法

Info

Publication number: CN102103877A
Application number: CN2010106101277A
Authority: CN
Inventors: 亚那·埃格尹克
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-12-22
Filing date: 2010-12-22
Publication date: 2011-06-22
Also published as: US8542982B2; US20110150428A1

Abstract

本发明公开了用于编辑图像/视频数据的图像/视频数据编辑设备和方法。在视频编辑设备(100)中，第一视频数据集描述第一视频中的第一场景。在描述多个第二视频中所包含的第二场景的第二视频数据集中，表示与第一场景具有最高相似度的第三场景的第三视频数据集被识别。评估与第三场景相关联的音频数据集。在多个第二音频数据集中，描述与第一声轨具有最高相似度的声轨的音频数据集被识别。第三音频数据集中的一个第三音频数据集可与第一视频数据集相组合以生成媒体输出数据集，其中，音频轨道根据用户的偏好被添加到视频数据集。

Description

用于编辑图像/视频数据的图像/视频数据编辑设备和方法

技术领域

本发明的实施例涉及静止图像和视频数据编辑领域，具体地，涉及通过将图像或视频数据与适当的音频数据组合来生成图像或视频声轨。

背景技术

静止图像和视频相机经常被通常缺少技能和时间来向个人静止图像画廊或自制视频添加合适的声轨的业余爱好者使用。

本发明的一个目的是提供一种使得用户可以以较少的精力和时间支出来创建可变而有意思的图像或视频声轨的视频编辑设备和方法。该目的通过权利要求中所要求保护的主题来实现。在从属权利要求中限定了更高级的实施例。

发明内容

根据本发明的一个方面，提供一种操作视频编辑设备100的方法，该方法包括：获取第一视频数据集，所述第一视频数据集描述第一视频中的第一场景；在所述视频编辑设备100处，在描述多个第二视频中所包含的第二场景的第二视频数据集中，识别第三视频数据集，所述第三视频数据集描述与所述第一场景具有最高相似度的第三场景；评估第一音频数据集，所述第一音频数据集描述与所述第三场景相关联的第一声轨；以及组合所述第一视频数据集和基于所述第一音频数据集中的至少一个第一音频数据集的新音频数据集，以生成包括所述第一视频数据集和所述新音频数据集的媒体输出数据集。

根据本发明的另一个方面，提供一种视频编辑设备，包括：存储单元120；和处理器单元101，所述处理器单元101与所述存储单元120连接并被配置为：从所述存储单元120获取第一视频数据集和第二视频数据集，所述第一视频数据集描述第一视频中的第一场景，所述第二视频数据集描述多个第二视频中所包含的第二场景；在所述第二视频数据集中识别第三视频数据集，所述第三视频数据集描述与所述第一场景具有最高相似度的第三场景；评估第一音频数据集，所述第一音频数据集描述被指派给所述第三场景的第一声轨；组合所述第一视频数据集和基于所述第一音频数据集中的至少一个第一音频数据集的新音频数据集，以生成包含所述第一视频数据集和所述新音频数据集的媒体输出数据。

根据本发明的另一个方面，提供一种一种视频编辑系统200，包括：如上所述的视频编辑设备100，以及至少一个另外的网络装置，所述另外的网络装置被配置为提供视频数据库210，视频数据库210以可由所述视频编辑设备100访问的方式提供包括所述第二视频数据集中的至少一些第二视频数据集，其中，所述视频编辑设备100和所述另外的网络装置经由通信网络299相连接。

附图说明

从以下结合附图的实施例描述中，本发明的细节将变得更加明显。各个实施例的特征可以相互组合，除非它们相互排斥。

图1是根据本发明一个实施例的视频编辑设备的示意图。

图2是根据另一实施例的涉及根据图1的视频编辑设备和远程视频和音乐数据库的视频编辑系统的示意图。

图3是图示出根据另一实施例用于编辑静止图像或视频数据的方法的简化流程图。

图4是涉及数据库内容的用于图示出包括合适数据库的识别的一种编辑视频数据的方法的示意图。

图5是涉及数据库内容的用于图示出根据一个实施例为静止图像/视频数据中出现的某种类型的物体提供某种类型的音乐的一种编辑视频数据的方法的示意图。

图6是用于图示出根据本发明另一实施例的视频编辑过程中的合适数据库的使用的示意图。

具体实施方式

图1图示出自动地组合第一视频数据集和合适的音频数据集以提供用于第一视频数据集的声轨的视频编辑设备100。例如，合适的音频数据集可以表示一首完整的乐曲、一首乐曲的片段、自然噪声或人工声音。合适的音频数据集可以与第一视频数据集中原来包含的原始音频数据集相组合。例如，合适的音频数据集可以描述被添加到由原始音频数据集表示的语音上的背景音乐。根据其它实施例，合适的音频数据集完全替换原始音频数据集。

视频编辑设备100可以是具有视频编辑软件的个人计算机或具有视频编辑功能的消费装置，例如，电视机、卡带式录像机(VCR)、数字通用盘(DVD)记录仪、蓝光解码器、静止图像相机、摄像机或存储视频或图像数据的任意其它消费电子装置。视频编辑设备100可以包含用于与其它电子装置通信的一个或多个接口单元130以及一个或多个数据存储介质读取器140，例如硬盘(HD)、DVD驱动器、蓝光驱动器或计算机，视频编辑设备100经由它们接收媒体输入数据，所述媒体输入数据描述一个静止图像、包含多个静止图像的静止图像画廊、包含一个场景的视频剪辑或包含多个场景的电影。媒体输入数据可以是具有或没有音频信息的图像或视频数据。

如果适用，处理器单元110可以将表示所要编辑的视频数据的媒体输入数据分割成多个第一视频数据集，其中每个第一视频数据集描述媒体输入数据中的第一场景。例如，第一场景可以是一个静止图像、示出在相同背景前或变化的背景前的同一物体或人物的静止图像序列、包含相同背景的静止图像序列、专业或业余电影中的一个场景或者示出在相同背景前的相同物体和人物的场景序列。第一视频数据集可以临时存储在视频编辑设备100的存储单元120的第一部分121中。

多个第二视频数据集可用于视频编辑设备100。第二视频数据集可以本地地或远程地或者既本地又远程地提供。例如，视频编辑设备100可以包括第一视频数据库，第一视频数据库包含第二视频数据集中的全部或一些。第一视频数据库可被存储在可由数据存储介质读取器140读取的数据存储介质上，或者存储在可经由接口单元130访问的数据存储介质上。根据一个实施例，接口单元130可以是这样的通信端口，视频编辑设备100可以经由该通信端口来访问可经由万维网访问的第二视频数据库。

第二视频数据集可以表示完整的静止图像或业余视频或专业剪辑或电影的完整场景。根据其它实施例，第二视频数据集仅仅(exclusively)包括压缩的与内容相关的信息，压缩内容相关信息描述在可经由数据存储介质读取器140或经由接口单元130访问的介质上可获得的第二视频数据集的内容。第二视频数据集可以临时存储在存储单元120的第二部分122中。

处理器单元110可以是被配置为执行程序存储器160中所存储的程序代码的微控制器。处理器单元110从存储单元120获取第一视频数据集和第二视频数据集，第一视频数据集描述由媒体输入数据表示的第一视频中的第一场景，并且第二视频数据集描述可经由接口单元130或数据存储介质读取器140访问的多个第二视频中所包含的第二场景。

在第二视频数据集中，处理器单元110识别第三视频数据集，第三视频数据集描述与第一场景具有最高相似度的第三场景。相似度可以基于有关运动向量、色彩、边缘直方图和镜头边界的频率的视频分析并基于涉及所要编辑的视频中存在的噪声类型和数量、语音和背景音乐的音频分析来确定。每个第二视频数据集包含被指派给各个场景的音频轨道片段。音频轨道片段可以表示一首乐曲、语音或自然或人工的背景噪声。被指派给第三场景的音频轨道片段的内容由第一音频数据集(例如是第一首乐曲)表示。

根据一个实施例，以下，仅单个与第一场景具有最高相似度的场景被识别为单个的第三场景，之后，仅相应的音频数据集被评估。根据其它实施例，以下，某个数目(例如，3个、10个或更多)的第三场景被识别，之后，多个第一音频数据集被评估。一旦已找到一个或多个相似场景，这个或这些场景的声轨就被分析以确定用于生成相似声轨或从音乐数据库中选择一个声轨的标准。

例如，在可被存储在可经由接口单元130或数据存储介质读取器140访问的一个或多个音乐数据库中的多个第二音频数据集中，与一个或多个第一音频数据集具有最高相似度的第三音频数据集被识别。音频数据之间的相似度可以基于信号处理技术或人工指派的标签来确定。例如，如果第一音频数据集表示第一首乐曲，则第三音频数据集可以表示具有相同作曲者或翻译者，或相同或相似乐器、音乐流派、节拍样式(beat pattern)、拍子(tempo)、节奏(rhythm)或时域、频谱或逆频特征的第三首乐曲，或者，第一和第三首乐曲可以在对一首乐曲的个人感知进行刻画的特色声学特征方面一致，其中，特色声学特征可以是多个物理签名(signature)的组合。

基于第三音频数据集，处理器单元110为第一音频数据集确定新的声轨。例如，第三音频数据集中的一个音频数据集(要么是与第一音频数据集具有最高相似度的一个音频数据集，要么是由用户选择的一个音频数据集)被与第一视频数据集相组合，以生成包含第一视频数据集和该音频轨道中的第三音频数据集的媒体输出数据集。根据另一实施例，处理器单元110可以自动生成与第三音频数据集在对声音的个人感知进行刻画的特征方面一致的新的音频数据集。例如，如果第三音频数据集描述一首乐曲，则处理器单元110例如可以创作在拍子、乐器和节奏上与之一致的另一首乐曲。

视频编辑设备100可以在屏幕150上显示由媒体输出数据集描述的视频，可以将媒体输出数据集存储在数据存储介质写入单元中所布置的数据存储介质上，或者可以经由接口单元130输出媒体输出数据集。如果媒体输入数据包含多于一个第一视频数据集，则处理器单元110可以针对表示下一场景、下一相似场景序列、下一相似静止图像序列或下一静止图像的下一视频数据集重复该过程。根据其它实施例，包含第一新音频数据集的同一首乐曲可被应用于完整的媒体输入数据。

视频编辑设备100可以在不向预定视频内容类别(例如运动、浪漫、动作等等)指派媒体输入数据情况下，生成合适的声轨，并且在没有训练模型的情况下进行。

图2涉及视频编辑系统200，视频编辑系统200包括如图1中所示的第一视频编辑设备100和提供一个或多个第二视频数据库210-240的至少一个另外的网络装置，其中每个第二视频数据库210-240都以可由第一视频编辑设备100访问的方式包括第二视频数据集的至少一部分。第一视频编辑设备100和另外的网络装置可以经由通信网络299或者经由包括远程元件的诸如万维网之类的网络来连接，通信网络299可以是有线或无线的局域网，例如，家庭网络。另外，视频编辑系统200可以包括一个或多个音乐数据库290，例如，商业供应商的服务器或其它用户的计算机。

相应地，视频数据库210-240可以提供专业电影，专业图像画廊、私人视频和私人图像画廊。根据其它实施例，第一视频编辑设备100和第二视频数据库210-240被指派给共享相同资源(例如相同的视频和/或音乐数据库)的同一用户群组。

例如，在第一视频编辑设备100上进行处理(dispose)的用户可以共享同一群组的其它用户在其上进行处理的另外的网络装置中的视频数据库210-240的内容，并且其它用户中的每个用户，例如在第二视频编辑设备101上进行处理的用户，可以访问第一视频编辑设备100的用户在其上进行处理的第一视频数据库250。

根据另一实施例，视频编辑系统200包括至少一个处理器单元，例如，第一视频编辑设备的处理器单元，所述处理器单元评估视频数据库210-250以识别具有相似音乐偏好的相似用户。根据一个实施例，视频编辑系统200中的参与者中仅一个参与者被配置为确定相似用户并且将结果发送给其它参与者。根据其它实施例，被指派给视频数据库210-250的另外的网络装置中的每个网络装置都被配置为至少确定那些提供包括如下数据库的参与的网络装置210-250，所述数据库包含满足各个用户的音乐偏好的声轨。

为此，各个处理器单元分别在各自的本地第一视频数据库中的视频数据集中识别第一特色视频数据集，并在远程第二视频数据库中的视频数据集中识别与该第一特色视频数据集具有最高相似度的第二特色视频数据集。例如，被指派给第一用户的处理器单元在第一和第二用户的视频数据库中识别运动视频。然后，视频编辑设备将第一特色视频数据集的声轨的特色特征与第二特色视频数据集的声轨的特色特征相比较。在特色特征彼此明显不同时，相应的视频数据库被从类似视频场景的搜索中排除。结果，当第一用户想要向运动视频或另一视频添加声轨时，不考虑这样的第二视频数据库中所包含的第二视频数据集，所述第二视频数据块包含具有与第一特色视频数据的特色声轨特征不相匹配的特色声轨特征的第二特色视频数据集。

图3中的简化流程图图示出用于编辑静止图像和视频数据集的方法。该方法可以在根据图1的视频编辑设备或根据图2的视频编辑系统处被执行。数据源提供例如描述一个静止图像、静止图像序列、包括一个或多个场景的专业电影或业余视频电影的媒体输入数据。从媒体输入数据获得一个或多个第一视频数据集。例如，电影或视频剪辑可以被分段成场景的序列，其中，每个场景被指派给第一视频数据集。每个第一视频数据集描述来自通常被典型用户应用相同声轨的媒体输入数据的片段，所述相同声轨可以是自然背景噪声或一首乐曲或两者的组合。例如，在呈现静止图像序列时，一个视频数据集可以被指派给恰好一个静止图像或被指派给在背景中出现相同人物或物体的连续静止图像序列或具有基本相同的背景的连续静止图像序列。对于电影或视频剪辑，每个第一视频数据集可以表示两个剪切(cut)之间的视频片段或背景中出现相同人物或主要物体的片段。

在已经获得描述第一视频中的第一场景的第一视频数据集之后，在描述可能被包含在多个第二视频中的第二场景的多个第二视频数据集中，第三视频数据集被识别，其中，第三视频数据集描述与第一场景具有最高相似度的第三场景。可以借助表示每个第二场景与第一场景之间的相似度的相似度值来为每个第二场景确定相似度。相似度值可以仅仅基于视频分析、仅仅基于音频分析或基于两者的组合来确定。视频分析可以包括对运动、色彩、边缘直方图、镜头边界的频率和内容的分析。音频分析可以基于背景噪声的数量和类型、语音、说话人和媒体输入数据中所包含的音乐。

然后，描述与第三场景相关联的第一声轨的第一音频数据集被评估。换而言之，一旦发现相似场景，该场景的声轨就被分析。例如，描述与第一声轨具有最高相似度的那个第三声轨的那个第三音频数据集的特色音频特征被确定。根据其它实施例，与第一声轨具有最高相似度的多个声轨的特色音频特征基于信号处理或人工指派的标签被确定。

基于第三音频数据集，用于第一视频数据集的合适的新音频数据集被确定。例如，第三视频数据集中的一个第三音频数据集被自动地或者通过用户提示被选作新的音频数据集。所选择的第三音频数据集被与第一视频数据集相组合以生成包括第一视频数据和第三音频数据集的媒体输出数据集。根据另一实施例，处理器单元110可以自动生成新的音频数据集以使得其在对声音的个人感知进行刻画的特征方面与第三音频数据集一致。例如，如果第三音频数据集描述一首乐曲，则例如，在拍子、乐器和节奏上与之一致的另一首乐曲可被创作。

新的音频数据集可以表示自然背景噪声或一首乐曲。新的音频数据集可以完全替换第一视频数据集的原始声轨，或者其可以与之组合。例如，该方法提供原始声轨的分析。如果该方法在原始声轨中检测到语音，则新的音频数据可以作为安静的背景音乐被添加以使得语音仍可以听得见。如果该方法在原始声轨中检测到音乐，则该方法可以规定根本不添加新的音频数据。如果该方法仅检测到噪声，则当新的音频数据被添加时，噪声可以被保留、以衰减方式保留或者被删除。如果该方法检测到语音和类似于风或发动机的背景噪声，则当新的音频数据被添加时，背景噪声可以例如使用估计的噪声谱通过差谱(spectra subtraction)来减小。

第二视频数据集可以被包含在具有之前编辑的视频的个人专辑中或者被包含在由与视频编辑设备通信的其它用户提供的数据库或者提供专业电影、特别是用户喜欢的电影的数据库中。该方法可以以没有任何其它用户交互的完全自动的方式执行，或者以需要最少量用户交互的半自动方式执行。在每种情况中，都可以避免将视频或图像指派到预先定义的类别的复杂并且通常容易出错的语义分析。

根据另一实施例，该方法使用协同过滤技术，其中，分别地，在第一视频数据库(例如用户数据库)中的视频数据集中，第一特色视频数据集被识别，并且在第二视频数据库中的视频中，与第一特色视频数据集具有最高相似度的第二特色视频数据集被识别。第一特色视频数据集例如可以是描述某种运动的视频数据集。然后，被指派给第一特色视频集的声轨的特色特征被与被指派给第二特色视频数据集的声轨的特色特征相比较。如果其特色声轨特征与第一特色视频数据集的特色声轨特征没有很好地匹配的第二视频数据集被识别，则包含这样的第二视频数据集的第二视频数据库被排除在识别与第一视频数据集中的第一场景类似的第三场景的搜索算法之外。以这种方式，该系统识别相似的用户并且可以将声轨的搜索限制在已被识别为共享相同偏好或具有相似偏好的用户的那些用户上。

除了承袭(take over)确定声学感知的元素外，该方法还将例如场景转变、或放慢、快进、伪彩色或软聚焦效果之类的视觉效果从第三场景承袭到第一场景中。

根据图4中所示的实施例，第一用户401使用识别编辑设备并且在第一数据库410上进行处理。第一数据库410包含这样的特色视频数据集，该特色视频数据集包含被添加了说唱音乐的滑雪视频和被添加了摇滚音乐的骑自行车视频。第二用户402在第二数据库420上进行处理，第二数据库420包含涉及滑雪、骑自行车和风景的特色视频数据集。第二用户402已经向滑雪视频添加了古典音乐，并且向骑自行车和风景视频两者添加了爵士乐。第三用户403在第三视频数据库430上进行处理，第三视频数据库430包含涉及滑雪、骑自行车和风景的视频。第三用户403已经向滑雪视频添加了摇滚音乐、向骑自行车视频添加了说唱音乐、并向风景视频添加了古典音乐。

第一用户401想要让声轨自动添加到例如表示风景静止图像画廊的媒体输入数据上。在第二视频数据库420和第三视频数据库430两者中，风景视频可以被识别为与风景静止图像类似。然而，使用协同过滤，该系统将认识到第二用户402的偏好与第一用户401的偏好并没有很好地匹配，而第三用户403的音乐偏好与第一用户401的偏好更匹配。该系统从对类似场景的搜索中排除第二视频数据库420并且将分析第三视频数据库430中的风景视频的声轨。然后，该系统将在音乐数据库中搜索与形成在第三视频数据库430中所包含的风景视频的声轨的这首古典乐曲具有最高相似度的一首乐曲。

图5涉及另一实施例，根据该实施例，关于人物或物体的外观来分析第一和第二场景。相似性则基于第一场景中出现的人物和物体与第二场景中出现的人物和物体之间的相似性来确定。以这种方式，相似的或相同的一首乐曲(“主题”)可应用于不同视频或静止图像画廊中的同一人物。

例如，用户想要对其中出现第一动物种类的第一场景515自动选择或生成声轨。于是，该系统在视频数据库520中搜索出现类似或相同动物种类的场景或图像，视频数据库520可以是用户的视频数据库或远程视频数据库。在涉及人物而不是动物的实施例中，可以使用人脸和/或语音识别来确定相似性。

根据图5中所示的实施例，所存储的视频数据集521、522被识别为涉及相同动物种类。第一存储的视频数据集521中所包含的声轨包含第一首乐曲POM1，并且第二存储的视频数据集522中所包含的声轨包含第二首乐曲POM2。该系统在音乐数据库590中搜索可获得的并且与两首乐曲(例如，第一首乐曲、第二首乐曲或与第一和第二首乐曲二者类似的另一首乐曲)具有最高相似度的那些首乐曲。

图6给出根据另一实施例的视频编辑系统600的概念的概览。用户可以记录新的个人视频(610)。如果适用，但不是必需的，视频编辑系统600将新的个人视频分成被指派给各个场景的视频数据集。然后，该系统600从多个本地或远程视频数据库621至624中所包含的其它视频中的相似场景中获得有关声轨的信息(620)。该系统可以搜索并获取与所找到的相似场景中的声轨类似的音乐(630)。音乐可以从多个本地和/或远程数据库690之一中获得。然后，该系统600基于从音乐数据库690获得的音乐来生成用于新记录的个人视频的声轨。所获得的音乐可以是可在音乐数据库690获得的相似的一首乐曲或新创作的一首乐曲。向静止图像画廊或视频添加音乐可以被完全自动化。根据其它实施例，可以向用户呈现与其偏好完全一致的少数几首选择的乐曲并且用户可以以舒适的方式来选择其中一首。

根据一个实施例，在第二视频数据库中搜索相似场景之前，具有相似音乐偏好的用户被识别。为此，被指派给已经记录了新的个人视频的用户的第一视频数据库615的内容被与可获得的视频数据库621至624的内容相比较。包含不满足用户偏好的声轨的视频数据集的视频数据库被标记并且不在其中搜索相似场景。

Claims

1.一种操作视频编辑设备(100)的方法，该方法包括：

获取第一视频数据集，所述第一视频数据集描述第一视频中的第一场景；

在所述视频编辑设备(100)处，在描述多个第二视频中所包含的第二场景的第二视频数据集中，识别第三视频数据集，所述第三视频数据集描述与所述第一场景具有最高相似度的第三场景；

评估第一音频数据集，所述第一音频数据集描述与所述第三场景相关联的第一声轨；以及

组合所述第一视频数据集和基于所述第一音频数据集中的至少一个第一音频数据集的新音频数据集，以生成包括所述第一视频数据集和所述新音频数据集的媒体输出数据集。

2.根据权利要求1所述的方法，还包括

在多个第二音频数据集中识别第三音频数据集，所述第三音频数据集表示与所述第一声轨具有最高相似度的第三声轨，其中

所述新音频数据集是所述第三音频数据集中的一个第三音频数据集。

3.根据权利要求2所述的方法，其中，识别所述第三音频数据集包括

确定所述第一音频数据集和所述第二音频数据集中的特色声学特征；以及

基于所述特色声学特征来确定所述第一音频数据集和所述第二音频数据集之间的最高相似度。

4.根据权利要求1所述的方法，其中

所述新音频数据集是在对一段声音的个人感知进行刻画的声学特征方面与所述第一音频数据集一致的新生成的音频数据集。

5.根据权利要求1所述的方法，其中，识别所述第三视频数据集包括

为每个第二场景确定表示与所述第一场景的相似度的相似度值；以及

选择具有最高相似度值的第二场景作为所述第三场景。

6.根据权利要求1所述的方法，其中

在所述视频编辑设备(100)的用户在其上进行处理的第一视频数据库(250)中提供所述第二视频数据集。

7.根据权利要求1至6中任一项所述的方法，其中

在所述用户未在其上进行处理的至少一个第二视频数据库(210-240)中提供所述第二视频数据集，其中在经由通信网络(299)连接到所述视频编辑装置(100)的远程存储设备中提供每个第二视频数据库(210-240)。

8.根据权利要求7所述的方法，其中

所述第一视频集被包含在具有第一内容特色的第一视频数据库(250)中，并且其中每个第二视频数据库(210-240)具有第二内容特色，并且其中该方法还包括

从对所述第三场景的识别中排除具有与所述第一内容特色不相匹配的第二内容特色的第二视频数据库(210-240)中所包含的第二视频。

9.根据权利要求8所述的方法，还包括

在所述视频编辑设备(100)处确定所述第一内容特色和所述第二内容特色。

10.根据权利要求8或9所述的方法，还包括

在所述第一视频数据库(250)中的视频数据集中，识别第一特色视频数据集，并且，在每个第二视频数据库(210-240)中的视频中，识别与所述第一特色视频数据集具有最高相似度的第二特色视频数据集；

将所述第一特色视频数据集的声轨的特色声学特征与所述第二特色视频数据集的声轨的特色声学特征相比较；以及

从对所述第三场景的识别中排除这样的第二视频数据库(210-240)中包含的第二视频数据集：该第二视频数据库(210-240)包含具有与所述第一特色视频数据集的特色声学特征不相匹配的特色声学特征的第二特色视频数据集。

11.根据权利要求1所述的方法，其中确定所述相似度值包括

分析所述第一场景和所述第二场景来识别其中出现的人物或物体并且基于所述第一场景和所述第二场景中人物和物体的外观来确定所述相似度值。

12.一种视频编辑设备(100)，包括

存储单元(120)；和

处理器单元(101)，所述处理器单元(101)与所述存储单元(120)连接并被配置为：

从所述存储单元(120)获取第一视频数据集和第二视频数据集，所述第一视频数据集描述第一视频中的第一场景，所述第二视频数据集描述多个第二视频中所包含的第二场景；

在所述第二视频数据集中识别第三视频数据集，所述第三视频数据集描述与所述第一场景具有最高相似度的第三场景；

评估第一音频数据集，所述第一音频数据集描述被指派给所述第三场景的第一声轨；

组合所述第一视频数据集和基于所述第一音频数据集中的至少一个第一音频数据集的新音频数据集，以生成包含所述第一视频数据集和所述新音频数据集的媒体输出数据。

13.根据权利要求11所述的视频编辑设备，其中所述处理器单元(101)还被配置为

在多个第二音频数据集中，识别第三音频数据集，所述第三音频数据集描述与所述第一声轨具有最高相似度的第三声轨；以及

选择所述第三音频数据集中的一个第三音频数据集作为所述新音频数据集。

14.一种视频编辑系统(200)，包括

权利要求12所述的视频编辑设备(100)，以及

至少一个另外的网络装置，所述另外的网络装置被配置为提供视频数据库(210)，所述视频数据库(210)以可由所述视频编辑设备(100)访问的方式包括所述第二视频数据集中的至少一些第二视频数据集，其中，所述视频编辑设备(100)和所述另外的网络装置经由通信网络(299)相连接。

15.根据权利要求14所述的视频编辑系统，还包括

处理器单元(110)，所述处理器单元(110)被配置为

在所述第一视频数据库(250)中的视频数据集中，识别第一特色视频数据集，并且，在每个第二视频数据库(210-240)中，识别与所述第一特色视频数据集具有最高相似度的第二特色视频数据集；