CN110249387A

CN110249387A - 用于创建伴随视觉影像的音频轨的方法

Info

Publication number: CN110249387A
Application number: CN201880010311.2A
Authority: CN
Inventors: 马克·D·伍德三世; 彼得·D·伍德
Original assignee: Kodak Alaris Inc
Current assignee: Kodak Alaris Inc
Priority date: 2017-02-06
Filing date: 2018-02-05
Publication date: 2019-09-17
Anticipated expiration: 2038-02-05
Also published as: EP3577651A1; US20180226063A1; WO2018145015A1; US10699684B2; CN110249387B

Abstract

公开了创建用以伴随多媒体对象序列的一个或多个音频对象的方法。根据一个实施方式，该方法包括使用处理器来分析多媒体对象和对应的记录元数据以生成衍生元数据。该方法还接收对被配置为分析所记录元数据和衍生元数据的一个或多个分析工具的选择。接下来，识别多媒体对象的选定子集并且对其进行排序，该多媒体对象的选定子集最终将与一个或多个音频对象耦合并且由该一个或多个音频对象伴随。最后，本发明的实施方式生成用以伴随多媒体对象的选定子集的音频轨。

Description

用于创建伴随视觉影像的音频轨的方法

相关申请的交叉引用

本申请要求2017年2月6日提交的美国临时申请No.62/455,295的权益，并且该临时申请的公开内容通过引用并入本文。

技术领域

本发明涉及多媒体制作方法、系统、软件和产品分发媒体。本发明的特定实施方式自动生成与观看一组数字静止的或录制的影像一起播放的一个或多个音频轨。

背景技术

低成本和高质量数字捕获设备诸如数字相机和智能手机的激增已经产生了大量个人的和共享的数字影像的集合，该数字影像有静止的也有录制的。由于内容量庞大，观看这些不断增长的集合中的媒体资产(asset，资源)已经变得越来越困难。然而，最近已经有用于自动或者半自动地选择和演示集合的期望子集的机制可用，使得能够共享和再体验这些子集。虽然打印硬拷贝照片产品通常是提出归档纪念品的优选方式，但是在许多情况下，软拷贝呈现对于自发观看或者与朋友和家人分享是最佳的。这种软拷贝呈现可以采用多种形式，从简单的数字幻灯片到影像的动画演示。然而，虽然这样的演示刺激了视觉感官，但它们却使其他人体感官未参与。用至少音频成分伴随视觉演示可以产生更愉快的观看或回放体验。即使当这样的软拷贝呈现包括视频资产，并且那些视频资产包含音频轨时，片段可能仅形成整个呈现的一部分，并且与视频相关联的音频质量可能是次质量的。从根本上，在没有伴随的音频成分的情况下观看数字呈现或者幻灯片通常是乏味的。

现有的发布为“Matching Songs to Events in Image Collections”(M.D.Wood，2009IEEE International Conference on Semantic Computing)的作品描述了一种系统，该系统用于通过将从影像中提取的语义信息与歌曲歌词关联来使来自个人音乐库的歌曲与基于事件的图像资产的时间分组关联。然而，这种手段需要存在用歌词注释的音乐库，并且仅对歌曲起作用，对于纯音乐不起作用。

用于创建音频轨的现有手段包括Davis和Mohammad的“Generating Music FromLiterature”，其中，作者描述了用于根据文学作品自动生成音乐创作的手段。该作品采用了小说的文本，并且基于感情词语的分布合成音乐。它利用NRC Word-EmotionAssociation Lexicon，英语词语到情绪的一种映射，其经由下述众包制成：

http://www.musicfromtext.com/uploads/2/5/9/9/25993305/_transprose_final.pdf http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm

Davis和Mohammad的作品包括对小说文本的分析以识别情绪密度，考虑到期望、愤怒、喜悦、恐惧、厌恶、悲伤、惊讶和信任的八种情绪。小说被分成预定数量的段落，并且计算该段落中的情绪词语与词语总数量的比率，以衍生(derived，导出、推导)该段落的整体情绪密度。情绪密度的变化改变音乐。由Davis和Mohammad描述的系统TransProse实施根据文学作品中情绪的变化生成音符序列的机制。虽然本发明在一些方面使用感情概念建立该作品，但这只是本发明的一个方面，并且本申请是显著不同的。本发明的系统和方法不是对任意文本分组进行操作，而是对在逻辑上通过主题或者时间构造分组的系列图像进行操作。情绪只是合成中考虑的许多因素中的一个因素。

在“Algorithmic Songwriting with ALYSIA”(Margareta Ackerman和DavidLoker，“Algorithmic Songwriting with ALYSIA，”International Conference onComputational Intelligence in Music，Sound，Art and Design(EvoMUSART)，2017)中，作者描述了一种基于机器学习的用于创作抒情乐曲的系统。ALYSIA主要用于作为帮助用户创作乐曲和为乐曲打分的工具，但它是使用算法工具自动创作音乐的另一证明。另一个示例是“Song From PI:A Musically Plausible Network for Pop Music Generation”，其使用分层递归神经网络——一种机器学习的形式——来生成音乐。该作品的作者将对用于生成关于单独图像的歌曲的应用的描述包括在内，其中，他们使用由Kiros等人创作的文学故事

(http://papers.nips.cc/paper/5950-skip-thought-vectors.pdf)以生成文本，然后将该文本馈送到他们的系统中以生成音乐。根据Fernández和Vico的“AI Methodsin Algorithmic Composition”

(https://jair.org/media/3908/live-3908-7454-jair.pdf)可获得对用于算法创作音乐的方法的综合调查。

本领域仍然需要能够生成音频成分以伴随一系列数字图像的软拷贝呈现的系统，特别是在其中以对图像内容的视觉性质、语义性质和感情性质——每个性质具有可能不同的形式——敏感的方式生成音频的系统。此外，还需要能够生成包括除了传统的纯序列分组之外的主题分组的表示的系统。

发明内容

根据本发明的实施方式，创建用以伴随多媒体对象序列的一个或多个音频对象的方法包括：使用处理器分析多媒体对象和对应的记录元数据，以生成衍生元数据；应用选定的方法来分析所记录元数据和衍生元数据；识别多媒体对象的选定子集并对多媒体对象的选定子集进行排序；以及生成用以伴随多媒体对象的选定子集的音频轨。对多媒体对象的选定子集进行排序可以基于时间事件聚簇(cluster，聚集、群集、分群)。生成音频轨的方法还包括识别在多媒体对象序列内反复出现的主题模式，其中，识别反复出现的主题模式的方法包括下述中的至少一种：频繁项目集挖掘、面部检测、面部辨识、位置聚簇、对象检测、场景分类、活动检测、情感分析和事件分类。

生成音频轨的方法还可以包括基于所记录多媒体对象元数据和衍生多媒体对象元数据的变化的音乐结构，该变化的音乐结构包括乐器、音调、基调、节奏、音量或者和弦结构中的至少一种，其中，该元数据集可以包括识别的有生命的和无生命的对象、场景或者活动，并且其中，有生命的对象的识别包括描绘的对象的大小的识别。衍生多媒体对象元数据可以包括确定的在多媒体对象序列中的图像的视觉复杂性、景深、对比度、亮度和/或饱和度。所记录元数据可以包括特性诸如镜头焦距和/或物距。

生成音频轨的方法还包括情感分析，其中，情感分析包括检测情感上的变化，其中，情感分析可以包括使情感与来自图像分析的语义概念相关联，并且其中，情感分析可以包括使情感与面部表情相关联。有生命的和无生命的对象的识别可以包括识别以对应的反复出现的音乐元素反映的反复出现的对象、场景或者活动。生成音频轨的方法可以对多媒体资产中描绘的人、捕获多媒体资产的位置、或者捕获多媒体资产的时间是响应性的。生成音频轨的方法还可以对聆听音频轨的人是响应性的。生成音频轨的方法还可以包括使流行的预录制歌曲与检测的位置、时间、活动或者人相关联。

附图说明

图1示出了根据本发明的方法的故事板的流程图；

图2示出了根据本发明的方法的特征表；

图3示出了根据本发明的方法的用于根据一组连续图像形成主题分组的流程图；

图4a和图4b示出了根据本发明的方法的音乐质量表；

图5示出了根据本发明的方法的事件层次框图；

图6示出了根据本发明的方法的音乐合成流程图；以及

图7示出了根据本发明的方法的元数据生成的流程图。

具体实施方式

本发明包括本文描述的方面和特征的组合。对“特定方面”等的引用指的是存在于本发明的至少一个实施方式中的特征。对“一方面”或者“特定方面”等的单独引用不一定指的是同样的一个或多个方面；然而，除非如此指示或者对于本领域技术人员而言是明显的，否则这样的方面不是相互排斥的。在引用“一种方法”或者“多种方法”等时使用单数或复数不是限制性的。应当注意，除非上下文另有明确注释或要求，否则在本公开内容中以非排他性的意义使用词语“或者”。

音频当然可以有多种形式。丰富的交响乐作品目前需要高度熟练的作曲家的工作来生成；重复的敲击效果不需要特殊的才智来生成但是很快变得刺耳。音轨音乐包括背景音乐，诸如意在伴随视频游戏的音乐类型。在本发明的实施方式中，音轨音乐表示听起来令人愉快但是具有某种结构简单性使得其可以被自动生成的特定音乐体裁。

本发明的实施方式中的音频被设计为伴随一系列图像的回放，该系列图像为诸如来自个人的假期、家庭庆祝会、或者社交事件的一组选定图像。虽然生成的音乐可能缺乏由熟练音乐家创作的乐曲的强有力的旋律结构，但是音乐进程遵循图像序列，并且意在唤起由图像表示的情绪。图像序列中的情感变化应该通过音乐进程来反映。类似地，在图像序列中描绘的演员或角色的变化同样应该反映在合成音乐中。影像中的重复主题也应反映在重复的音乐构造中。

为了生成适合于图像序列诸如捕获事件的那些图像序列的音乐，理想地首先将影像序列映射到概念表示，其中概念表示在本发明的实施方式中是基于图形的模型。图形中的每个节点提供资产或资产分组的语义信息，并且其中每个链接表示货运船(containership)。该模型通常使用资源描述框架(“RDF”)数据模型来表示，不过替代性表示也是有可能的。

图1示出了用于构造伴随一组影像的可播放音频轨的基本步骤的流程图100。一组多媒体资产110被馈送到元数据生成器120，该元数据生成器为该组资产产生一组提取的和衍生元数据130。然后，该元数据由故事板生成器140处理以产生故事板，该故事板表示对该组资产进行分组和优先排序的特定方式。音乐生成器160处理故事板150，如果需要，基于未反映在故事板中的附加元数据130进行绘制以产生音乐创作170。音乐生成器160可以在目标回放模态的情况下生成音乐，其最低限度包括乐曲需要是多长时间的说明。其还可以包括回放环境的特点以及观看者的年龄和人口统计状况。这和其他数据构成辅助数据190。例如，如果内容要被单独观看，则可以根据为在大团队环境中被观看而生成的音乐来生成不同的音乐。类似地，观看者的年龄、性别和人口统计状况都可能影响根据本发明的音乐生成过程。音乐生成器输出音乐创作170，该音乐创作可以象征性地被表示为例如MIDI文件，或者被呈现为使用格式诸如WAV或者MP3的音频文件。最后，可以通过回放部件180将音乐创作170连同故事板150的视觉显示一起播放。

生成的元数据包括在图2的特征表中示出的信息。元数据通常包含被存储的且与媒体资产相关联的数据。这包括记录的、或者先前记录的由捕获设备记录的元数据——例如，由数字相机提供的捕获时间、日期和位置。元数据还包含用户提供的元数据，诸如经由位于图像捕获设备上的用户界面或者经由可以通过远程计算机访问的图像编辑应用界面提供的元数据。最后，元数据包含衍生元数据，诸如通过面部检测或者在捕获后应用于媒体资产的事件分类算法计算的元数据。

可以在将媒体资产文件存储在计算机上时生成衍生元数据。它也可以在用户不知道的情况下通过适当的元数据生成软件的程序化操作自动生成或衍生。这种软件可能能够基于对现有元数据(即，所记录元数据和用户提供的元数据，或者先前生成的衍生元数据)进行外推或者根据现有元数据进行推断来生成许多类型的元数据。例如，给定在存储的图像媒体集合中描绘的已知的家庭成员的足够的现有元数据，可以推断家庭树。衍生元数据包括从任何类型的现有元数据演绎的元数据。所有元数据，无论是由用户输入、由记录装置提供还是由计算机系统衍生的，都可以由系统的一个实施方式使用，以基于可以从现有元数据确定的推断来生成附加元数据。

EXIF数据(用于数字静止相机的可交换图像文件格式：EXIF版本2.2，JEITACP-3451，日本电子和信息技术产业协会，2002年4月)是由记录设备生成的元数据的示例，其与捕获的媒体资产一起存储。例如，数字相机可能包括与图像相关联的各种相机设置，诸如f-stop、速度和闪光信息。还可以记录其他数据诸如镜头焦距和估计的物距。

越来越多的数字相机以及大多数智能手机能够在图像被捕获时记录图像捕获位置的纬度和经度。这种基于位置的元数据可以非常强大，尤其是在与其他元数据源合作使用时。例如，美国地质调查局的地理名称委员会维护地理名称信息系统，该系统提供了将纬度和经度坐标映射到普遍公认的特征名称和类型的手段。示例性的位置类型包括“教堂”、“公园”和“学校”。位置元数据还可以用于帮助聚簇资产。本发明的一个实施方式可以使用像地理名称信息系统一样的系统，以在分析由图像捕获设备记录的呈纬度和经度值形式的所记录元数据时，生成位置类型形式的衍生元数据。例如，在纽约的中央公园中捕获的媒体资产可以具有呈纬度和经度值(40.7789°N和73.9675°W)形式的所记录元数据。元数据生成器120分析所记录元数据(纬度和经度值)，以为该资产生成呈位置名称——即中央公园——形式的衍生元数据。

低级别的图像特征提供图像的视觉内容的指示。低级别的图像特征是直接根据图像的像素内容计算的那些特征，诸如但不限于颜色、纹理或边缘(对比度)信息。Zhu等人的题目为“Method and Computer Program Product for Subjective Image ContentSimilarity-based Retrieval，”的美国专利No.6,480,840,描述了基于下述假设来从图像确定颜色特征：图像的显著设置大小的、相干着色的区域在感知上是显著的。因此，首先为图像计算相干颜色直方图，该相干颜色直方图提供了特定颜色中属于相干着色的区域的像素的数量的指示。然后，确定占据整体像素的显著比例(根据预定阈值)的主导颜色。颜色分类器表征图像中存在的主导颜色。照度通道的直方图分析还可以提供对图像的相对亮度的特征描述。美国专利No.6,480,840还描述了可以用于根据本发明的低级别特征的纹理特征的确定。根据在文献中描述的各种技术可以测量图像的感知到的视觉复杂性，诸如特征拥塞、次能带熵和边缘密度。最近针对于摄影影像的度量标准是Corchs等人在“PredictingComplexity Perception of Real World Images”中描述的复杂性测量。

场景分类器将场景识别或者分类为一个或多个场景类型(例如，海滩、室内等)或者一个或多个活动(例如，跑步、游泳、吃饭等)。场景分类方法还可以应用于媒体资产以生成衍生元数据。这种方法的细节在下述中被描述：题目为“Method for AutomaticDetermination of Main Subjects in Photographic Images”的美国专利No.6,282,317；题目为：“Image Processing Method for Detecting Human Figures in a DigitalImage Assets”的美国专利No.6,697,502；题目为“Method for Detecting Sky inImages”的美国专利No.6,504,951；题目为“Method for Semantic Scene ClassificationUsing Camera Metadata and Content-Based Cues”的美国专利申请公开No.US 2005/0105776；题目为“Method of Using Temporal Context for Image Classification”的美国专利申请公开No.US 2005/0105775；以及题目为“Method for Detecting Objects inDigital Image Assets”的美国专利申请公开No.US 2004/0037460。

素材(material，材料)类别特征提供了包括在数字图像中的各种素材(例如，水、草、雪等)的指示。在一个实施方式中，素材类别特征是使用监督学习手段确定的，诸如由Carneiro等人在题目为“Supervised Learning of Semantic Classes for ImageAnnotation and Retrieval”(IEEE Transactions on Pattern Analysis and MachineIntelligence，Vol.29，pp.394-410，2007)的文章中描述的手段。确定素材类别特征是本发明的又一方面，其可以被实施以生成另外衍生的元数据。Boutell等人在文章“LearningMulti-label Scene Classification”(Pattern Recognition,Vol.37,pp.1757-1771,2004)中描述了可以根据本发明使用的用于确定素材类别特征的另一种方法。Boutell等人的该方法被设计为确定数字图像的素材类别特征，该数字图像可以包含多种素材类别，诸如可能一起出现在海滩场景中的水、沙子和蓝天。如在Luo等人的题目为“Method forDetecting Sky in Images”的美国专利No.6,504,951中描述的用于检测图像中的天空的方法在一些实施方式中也可以用于确定素材类别特征。

场景和素材分类器提供了用于使语义标签与图像相关联的更专业的手段。用于使语义标签与图像内容相关联的最近的手段依赖使用深度学习训练的机器学习模型；提供这种功能的商业语义加标签器包括：Microsoft Cognitive Services API、Google ComputerVision and API以及由Clarifai提供的服务。这些服务分析给定的图像，并且返回一组相关联的语义标签或标记，通常每个标记具有相关联的置信度分数。这些系统中的一些系统已经被训练得辨识数以千计的不同概念。另外，一些系统还可以以短语或句子结构描述图像的内容。返回的语义标签可以对应于对象诸如“圣诞树”或者“猫”。它们也可以表示场景类型，诸如“海滩”、“城市”或者“自然”。这些现有服务可以返回感情标签，诸如“有趣”、“可爱”或者“爱”；或者活动标签，诸如“坐”或者“奔跑”。一些系统诸如Microsoft CognitiveServices API还可以提供用于图像的文本描述——描述图像内容的英语短语或句子。解决本发明提出的问题的简单手段是简单地将由Microsoft Cognitive Services API生成的文本描述馈送到由Davis和Mohammad开发的TransProse系统中。然而，该手段将无法利用在该作品中描述的其他益处，包括开发反复出现的主旨的能力。

图像中的面部特征是可检测的并且指示人脸的存在。用于检测人脸的方法在数字图像处理领域中是公知的。例如，Jones等人在题目为“Fast Multi-view Face Detection”(Mitsubishi Electric Research Laboratories，TR2003-96，2003)的文章中描述了可以根据本发明使用的面部检测方法。可以根据各种面部检测方法计算的面部特征包括图像中面部的数量以及面部在数字图像中的近似大小和位置。本发明的一个实施方式优化了用于检测面部和分析面部特征以生成衍生元数据的方法。

在本发明的实施方式中，可以使用通常描述的技术分析面部图像，以确定关于出现在图像中的人的附加信息，包括图像中的人的估计年龄和性别。

还存在用于面部检测和表征的商业上可获得的软件产品(来自公司诸如Omron、Luxand、ArcSoft等)和开源软件产品(诸如OpenCV、Intel Perceptual Computing)。这些产品可以用于获得基于面部的元数据特征，诸如图像中的面部数量的总数、面部的近似大小、面部的位置、根据面部确定的估计年龄和性别、以及跨图像被辨识为同一人的人。这些商业上可获得的软件产品通常还提供对检测到的面部的面部表情进行表征的能力，考虑到属性诸如嘴和眼睛的形状。面部表情包括人的眼睛张开的限度和/或该人微笑的程度。使用经训练的机器学习模型，可以将面部表情映射到几种典型情绪中的一种。

面部辨识是基于面部特征将面部辨识或分类为人的示例或与人相关联的标记，如在下述中描述的：2012年11月20日发布的题目为“User Interface for FaceRecognition”的美国专利No.8,315,463；2010年5月4日发布的题目为“Finding ImagesWith Multiple People or Objects”的美国专利No.7,711,145；以及2007年5月3日公布的题目为“Determining a Particular Person from a Collection”的美国专利公开No.US2007/0098303。

面部聚簇是一种面部辨识形式，其中，面部按相似性进行分组。利用面部聚簇，看似表示同一人的面部被关联在一起并且被赋予一标记，但不一定知道这个人的实际身份；面部聚簇使用根据面部检测和特征提取算法生成的数据来对看似相似的面部进行分组。可以基于数字置信度值来触发该选择。面部聚簇算法的输出是新的元数据，即，创建了表示面部聚簇的新对象；包含作为面部聚簇的一部分的面部的每个媒体资产都接收元数据项目，该元数据项目指示该资产包含由面部聚簇表示的人。在一些实施方式中，系统可能能够通过提供面部辨识的用户或者通过查阅提供给定人的示例面部的一些辅助数据源来将面部聚簇与识别的人相关联。面部聚簇提供了用于在不同图像中描绘了同一人时进行辨识的手段。在为同一人生成不同的面部聚簇的情况下，一些实施方式可以提供通过其可以组合面部聚簇的机制。

通过自动地将未组织的媒体资产组筛选、分割和聚簇成单独的时间超级事件、事件以及子事件，来生成静止图像和视频的时间事件聚簇，如在下述中详细描述的：如在2003年8月12日发布的题目为“A Method For Automatically Classifying Images IntoEvents”的美国专利No.6,606,411和2002年2月26日发布的题目为“A Method ForAutomatically Comparing Content Of Images For Classification Into Events”的美国专利No.6,351,556。时间事件聚簇算法将图像序列划分为事件层次，其可以被表示为如图5中示出的树。各个图像形成树的边缘，随着树向上越高，分组的粒度(granularity，间隔尺寸)减小。在树的顶部级别或者根部是超级事件或者事件节点，表示待形成音频轨的整体。超级事件通常对应于多日偶发事件，诸如假期；事件节点通常表示单日。假期可以被表示为单个超级事件，其中嵌套事件对应于假期中的每一天。子事件处于更精细级别的粒度；事件可以包括一个或多个子事件，其中每个子事件表示在类似设置中拍摄的并且通常具有一定程度的视觉相似性的图像。更精细级别的粒度是近乎副本(near-dup，近乎重复)的，表示基本上捕获时间中的相同时刻的一组图像。例如，拍摄肖像图片的摄影师通常会拍摄不止一张图片，以试图获得具有恰到好处的表情的一张图片。然而，在其他情况下可能发生近乎副本，例如，在摄影师改变相机捕获设置等的情况。其他类型的事件层次是有可能的，包括具有更多或者更少程度的粒度的那些事件层次。

检测的事件可以被分类为语义类别，诸如在2005年7月11日提交的题目为“Identifying Collection Images with Special Events”的美国专利申请公开No.US2007/0008321中详细描述的。在本发明的一个实施方式中，检测事件用于扩展存储在元数据储存库130中的衍生元数据的库。媒体资产可以彼此相关联，因为它们描绘了相同的事件。这样的媒体资产可以被一起分类为描绘相同的事件，因为它们根据用户或用户组的预期意图共享相同的位置、设置、或者每单位时间的活动，并且它们意在是相关的。在每个事件内，媒体资产也可以被聚簇到称为子事件的单独的相关内容组中。虽然媒体资产通常可以被分类为描绘同一事件，因为它们共享相同的设置或者活动，但是在子事件中的媒体资产共享了事件内的更特定的类似内容，诸如它们在大致相同的时间被捕获并且可选地具有一些视觉相似性的度量。在2013年12月17日公布的美国专利No.8,611,677中，Das等人已经描述了使用基于时间和基于内容的特征的组合将多媒体集合中的图像或视频分类为若干事件类别——诸如假期、庆祝会或者家庭时刻——中的一个类别的方法。在2012年3月13日发布的Jiang等人的美国专利No.8,135,221中描述了视频概念分类。多个事件本身也可以被聚簇为称为超级事件的较大分组。美国专利No.8,611,677还描述了使用基于密度的聚簇手段根据事件聚簇的输出计算超级事件的方法。作为不同事件类别的示例，考虑每天具有早上活动、下午活动和晚上活动的周末假期旅行。不同活动中的每个活动都可能构成单独的子事件，其中一天的子事件构成一事件并且整个周末构成超级事件。确切的分组将取决于各种资产的捕获时间以及它们被如何聚簇。

可以查阅辅助数据诸如区域或者个人日历信息，以向事件提供另外的语义上下文。例如，12月25日捕获的图片在一些文化中可能与圣诞节相关，在人的生日或生日附近捕获的特写该人的图片可能是生日图片等。由美国专利No.8,611,677中描述的发明提供的事件类别数据还可以增强这种关联的可能性。

社交平台诸如和的日益突出，基于如何使用和共享媒体对象提供了用户提供元数据的新来源。例如，是广泛使用的社交网络，其为用户提供了上传和共享具有可选的标题或者说明文字的图像和视频对象的手段。用户甚至共享媒体对象的事实表示该对象对用户具有较大的价值。还为与其共享媒体对象的人提供了评论对象的手段或者通过“喜欢”对象来表达对该对象的兴趣的手段。还可以分析评论以关联情绪。此外，用户可以为图像内的人加标签。应用能够经由平台API访问关于媒体资产及其使用的所有这种信息。其他社交平台诸如和提供相当的API。

美国专利No.8,625,904描述了各种类型的元数据的计算以及将特征值离散化为有限数量的级别。该专利还描述了用于在元数据数据库中识别反复出现的模式的频繁模式挖掘步骤。在本发明的一个实施方式中，类似的模式辨识算法或者模式挖掘方法用于识别在存储在元数据储存库130中的元数据中反复出现的模式。频繁模式挖掘步骤识别一组频繁项目集，其中频繁项目集中的每个项目集都是在数字图像的至少预限定部分中出现的共现的特征描述符分组。用于事务性数据库中的频繁项目集挖掘的算法在本领域中是公知的。例如，由Borgelt在题目为“Efficient Implementations of Apriori and Eclat”(Proc.of IEEE ICDM Workshop on Frequent Itemset Mining Implementations，2003)的文章中描述的Eclat算法的实施可以用于挖掘频繁项目集。与每个频繁项目集对应的图像通常表示图像集合中的主题。例如，与颜色特征“橙色”和“红色”以及基于时间的特征“晚上”和“夏天”对应的频繁项目集可以产生一组日落的图像。检测到的频繁项目集取决于图像集合中的图像，并且不是预限定的。

如在美国专利No.8,625,904中描述的主题分组将共享一个或多个共同特征的图像或图像集分组在一起，其中特征可以包括图2中列出的项目中的任何项目。频繁项目集挖掘可以用于识别主题分组；替代性地，系统可以针对已知具有高位值的一组预定的可能特征进行操作。图1的故事板150可以包括处于先前描述的时间分组之外的或者代替先前描述的时间分组的主题分组集。可以使用基于事件的分组和主题分组来对属于一个或多个用户的给定多媒体集合进行分组。这些分组可以重叠也可以不重叠。

在图7的流程图700中部分地总结了各种类型的元数据生成。在步骤720中，处理图像内容710以首先提取由捕获设备捕获的元数据或者通过其他方式已经与图像内容相关联的任何元数据。这可能包括说明文字和描述。在提取颜色和色调的步骤730中和表征图像的亮度、对比度和锐利度的步骤740中进行低级别的图像分析。步骤750检测面部并且分析面部表情。步骤760使用加语义标签来使语义标签与图像相关联。然后在步骤770，这些标签与其他元数据一起进一步地与感情标签相关联。在步骤780中将地理空间数据映射到地名和地理空间特征，并且在步骤790中类似地将时间数据映射到节日、纪念日和其他特殊日子。该图未示出对图像集进行操作的聚簇操作，诸如时间事件聚簇和面部聚簇。它也没有示出对共同主题的识别。

本发明的重要构建块是将连续图像集分组成主题分组。这些分组使得能够识别反复出现的主旨。此外，某些主题分组可以与某些声音相关联。分层时间分组可以通过将其投影到线性资产序列来展平(flatten)，其中资产通常是按时间顺序排列的。然后可以分析该序列以识别反复出现的主题。

图1的故事150表示该组媒体资产的特定分组和优先排序，并且确定应该按怎样的顺序回放或者呈现资产。在美国专利No.8,934,717中还描述了用于根据多媒体集合创建故事(在此称为故事板)的方法。为了生成待与特定故事板相关联的音乐，本发明的实施方式将故事板的分层结构投影到资产的线性进程，即，表示回放顺序的连续图像序列。注意，在一些实施方式中，特定回放可以包括同时显示两个或更多个图像，或许显示为拼贴构造，或者可能显示为图片内的图片。故事提供了指定应该显示来自给定的多媒体集合的哪组资产以及以什么顺序进行显示的基础，从而确定要为其生成伴随音频的影像集。

图3示出了用于根据一组连续图像形成主题分组的简单算法的流程图302。形成主题的特征包括在图2中列出的特征。这些特征可以被单独计算或者针对图像集进行计算，并且包括用于先前描述的图像和图像集的各种类型的元数据特征。

在图3的步骤300中，计算序列中的第一图像的可能的主题特征，并且在步骤310中将图像添加到当前的具有空集的初始值的图像集。在步骤315，系统验证有更多供测试的图像；如果有，则然后在步骤320分析下一图像以提取该图像的特征，然后在步骤330，将该特征与当前特征集进行比较。如果下一图像的特征与当前集的聚合特征集足够相似，如在步骤340中确定的，则通过继续步骤310来继续执行，在该情况下该图像被添加到当前集。如果下一图像不是足够相似的，则系统在步骤350检查以查看当前图像集是否是足够的。足够的标准可能取决于当前的特征集；它也可能取决于序列。通常，识别主题需要几个图像。然而，如果几个先前图像都形成主题，且然后下一个图像具有明显不同的特征集，则在这种情况下，将图像输出为单元素集也可能是有用的。在步骤315，如果没有更多图像供测试，则本发明的方法继续到步骤380，该步骤询问当前集是否是足够的。如果是，则在步骤390输出当前集，并且在步骤392完成该方法。如果否，则该方法在步骤392停止，排除当前集。在步骤350，如果当前集足够，则在步骤360输出当前集，并且在步骤370将当前集重置为空。如果当前集不是足够的，则在步骤370将当前集重置为空。本发明的方法从步骤370前进回到步骤315。

虽然没有通过该算法示出，但注意到可以根据序列形成多个级别的主题分组。例如，在十个图像序列中，前五个可以被确定为在户外拍摄的夫妻的镜头。在这五个中，前三个可以是自拍，且最后两个可以是在较远的距离拍摄的。下一组三张图像可以是具有显著的蓝色和绿色的风景镜头。最后两个可能没有共同的显著特征。这可以产生主题的层次，该主题的层次包括夫妻的主题分组，该夫妻的主题分组可以被进一步细化为两个主题子分组，一个主题子分组是两个个体的自拍，另一个主题子分组是面部大小适度小的两个个体。序列中的下一个将是表征为没有检测到人且具有高级别的蓝色和绿色色彩的风景镜头的主题分组。为了适应这种行为，图3中所示的算法被扩展以包括作为当前集的可能的主题集的层次。在该替代性实施方式中，步骤340确定通过执行集相交操作计算的图像与当前特征集层次之间的共性程度。在步骤390的输出变为与线性序列相反的主题分组的层次。例如，给定一系列的五个图像I₁、I₂、I₃、I₄和I₅，其中I₁具有特征{A，B，C}，图像I₂和I₃具有特征{B，C}，图像I₄和I₅具有特征{C，D}，所有五个图像共享特征D，而图像I₂和I₃共享特征B和C，并且图像I₄和I₅共享特征C和D。

图5示出了时间事件层次内的一些主题分组的框图500，其可以通过该算法根据对图形的边缘节点和单独的图像资产的分析来识别。示出了时间分组502、504和506，主题分组508、510和512，以及图像资产514、516、518和520。

还要注意，算法的更复杂版本可能对图像进行重新排序以便保留整体主题结构。例如，通常发生按时间顺序捕获的顺序图像不一定表示用于演示图像的最佳顺序。可以想象摄影师在婚礼上捕获了一系列的新娘和新郎切蛋糕的图片，并且在动作间歇期间捕获了最好在切蛋糕照片之前或之后演示的随机抓拍镜头。从影像中提取的语义信息可以用于指导来确定插入的照片是否应该排列在序列中。

来自图3的输出是特征项序列，其中每个特征项包含一个或多个图像，并且其中每个特征项由特征集表征，包括但不限于图2中描述的特征。

为了合成用于给定的特征项序列或者图像序列的特定创作，首先需要确定创作的整体音乐特点。图4a的质量表402识别了一些首要音乐参数，但是注意这些中的一些可以在给定的创作内因度量而变化。合成的音乐创作包括一组音乐元素，其中每个元素至少部分地由图4b的质量表404中识别的质量表征。在本发明的实施方式中，进行图像集的初始分析以识别在合成后续内容时将遵循的特定策略。该策略包括元素，诸如最初将存在多少个声部，以及该数字随时间将如何变化。一旦已经确定整体策略，然后系统就可以根据该策略使用先前识别的各种探索法和规则继续合成音乐。在图6的流程图600中示出了这些步骤，其中故事板610(与图1的150相同)和辅助数据620(与图1的190相同)由步骤630解译以确定整体策略635，其驱使音乐合成器640产生音乐创作650(与图7的170相同)。音乐合成器将在步骤630计算的策略635与故事板610和辅助数据620一起作为输入。采用故事板610将图5中示出的时间分组和主题分组结合。策略635包括确定应该在音乐中反映的关键角色(人、其他有生命的对象、或者无生命的对象)的数量，以及指示这些角色何时出现的时间线。在本发明的实施方式中，每个角色在所得的音乐中被表示为不同的声部。步骤641为下一资产和角色分组提取语义属性，并且步骤642为每个资产和角色生成期望数量的度量的音符。步骤643询问是否需要更多分组。如果是，则该方法继续回到步骤641。如果否，则在步骤650完成音乐创作。

对于故事板中的每个分组，音乐合成器将为每个资产和角色提取相关的语义属性集。在任何给定时间，将生成通常少量的声部。本发明的实施方式具有在所生成的乐曲的整个持续时间内运行的主导声部，并且其中该声部的音符是基于整个场景和感情标签的。本发明的实施方式还为反复出现的角色生成少量的次要声部。这样的角色可以包括在多个图像中反复出现的有生命的或无生命的对象的出现。在最低限度，可以通过采用与在Davis和Mohammad的作品TransProse中应用的策略类似的策略来生成音符，其中情绪密度被计算并且用于驱使音符生成。但是，TransProse使用文学分析来确定情绪，语义和图像分析提供了用于识别情绪的基础。

确定整体策略的重要方面是识别图像序列的情绪高点和情绪低点，以便适当地限定开始的音乐元素。例如，如果影像序列从漠然情绪过渡到高度积极情绪，则音频可以以较低音高或者较慢节奏开始以逐步建立到较高情绪时刻。整体策略的确定还识别反复出现的角色(再次，人、其他有生命的对象、或者无生命的对象)，以确定将特定的反复出现的音乐元素与这些角色相关联的适合性。像在Davis和Mohammad的作品中，本发明的实施方式推测集合的整体情绪概况。在一些实施方式中，使用术语-频率逆文档频率的标准度量来表征特定图像(对应于文档)中的情绪概念相对于故事(集合)中的整个影像序列的重要性。然而，与Davis和Mohammad的作品不同，情绪概况只是确定整体音乐声音的一部分，并且只是确定音乐生成策略时所考虑的一部分。反复出现的主题元素和/或角色也会作为因素计入整体策略中。

可以以多样化方式实现具有某些类型的识别的语义概念和特征的相关联的某些特点声音(乐器)和/或和弦。关联可以通过下述来确定：使用机器学习技术以分析音乐创作，考虑歌曲的歌词来确定某些音乐元素是否可以与某些语义概念普遍地相关联。然而，这种手段需要相当多分析，并且可能不能够容易地确定明确的关联性。在最直接的手段中，使用预定表来将概念映射到适当的乐器和/或和弦或者和弦进展。该表可以由具有该领域中的专业知识的一个或多个人填入，为预期域指定关键概念的关联性。例如，对于消费者影像，识别概念——诸如庆祝会包括各种类型的庆祝会(生日、毕业、周年纪念)、仪式(诸如婚礼和毕业典礼)、活动(吃饭、放松、远足、睡觉、各种体育活动)、以及对象(诸如大型和小型猫或狗、汽车、摩托车)以及相关联的适当的音乐主旨——可以由题材专家完成。可以通过使特定人物或者人口统计状况组与用户相关联来进一步细化该关联性，并且使用其来驱使该关联。

例如，不同的声音可以与不同的动物相关联，甚至与不同大小的动物相关联。通过在相同的角色或者对象在一系列影像上重复时对该相同的角色或者对象始终如一地使用相同的声音，为合成的音乐提供了一定程度的连续性和衔接性。古典音乐家诸如在他的乐曲The Carnival of the Animals中使用不同的乐器呈现不同的动物。使用图像理解算法来识别与预定相关联映射组合的特定对象使得乐器和声音能够基于图片中描绘的有生命的或无生命的对象而变化。在声部的数量中也可以反映检测到的对象的数量，其中，当检测到的对象的数量变化时，该数量因图像而变化。例如，如果图片集最初只描绘一个人，其在音乐中可能被反映为最初具有单一声部或音轨；当附加的人(或者其他显著对象，诸如宠物)出现和消失时，声部的数量可能变化。一些回放体验甚至允许“4D”体验，提供了超出通常的视觉和听觉刺激的感官输入，诸如风和/或雾效果。在回放支持是可用的情况下，还可以生成用以驱使这种体验的音轨，在最简单的实施方式中由图像场景数据进行驱使。

类似地，不同的活动也可以转化为不同的声音。高能量活动诸如体育事件的图片可以转化为其中节奏快和/或音符持续时间短的音乐。低能量活动诸如坐在一起并享受饮料的夫妻的图片可以转化为其中步调放松得多且音符持续时间较长的音乐。声音还可能受到设置的影响。被拍摄为在湖旁边的码头上享受饮料的夫妻相较于在咖啡馆享受饮料的夫妻显现出不同的心境。可以通过添加区域音调差异进一步增强声音。例如，某些音乐声音可能与某些区域相关联。特别是对于假期图片，其中该图片是在与人的家不同的地点拍摄的，唤起区域的声音可以进一步增强合成的音乐的质量。这可以部分地通过使用通常与地理区域相关联的乐器来实现，诸如与加勒比海相关联的钢鼓、与阿帕拉契亚相关联的洋琴、与苏格兰相关联的风笛等。本发明的系统辨识和分类事件类型诸如假期的能力使得该系统能够选择性地确定何时使用这些主旨。这允许该系统在位置何时表示用户的家的位置和位置何时表示旅游目的地之间进行区分。

同样地，与地点或者地理空间特征相关联的普遍辨识的曲调可以结合到所合成的音乐中。位置信息还可以用于调整其他音乐质量，补充了使用计算机视觉语义分析生成的概念。将位置信息与其他语义信息组合可以为音乐元素提供较深的基础。清晨在平静的湖上的独木舟中的图片可能唤起比波涛汹涌的水面上的赛艇的图片慢的、可能高的音高的声音。来自辅助源的信息也可以用于进一步设置音乐的基调。例如，在刮风的日子拍摄的户外图片可能引起比在平静、阳光明媚的日子拍摄的图片杂乱的声音音乐。各种网络服务可以为给定的场所和时间提供历史天气信息。

除了位置之外，音乐的体裁或者乐器也可能受其他类型的图像特征或者元数据的影响。例如，检测到牛仔帽可能产生具有乡村西部感觉的声音；检测到海滩和/或冲浪板可能会使音乐合成器用电吉他和混响效果显现出乐器的冲浪声；检测到大教堂的图片可能使合成器生成或许结合了风琴的庄严声音；检测到庆祝会事件可能使音乐合成器使用明亮的铜管乐的声音。

另外，在一些实施方式中，可以将与某些场景或者活动相关联的环境声音结合到合成的声音中。例如，海滩场景可能引起包括波浪的声音；森林场景可能包括鸟鸣声等，庆祝会的场景可以包括作为声部中的一个的掌声或者欢呼的声音。这些类型的声音可以是完全合成的或者预先录制的，并且被结合到生成的音频中。

在图像中描绘的活动或者对象不仅影响音调质量和节奏，还可能影响响度的音量或者程度。高能量的活动或者描绘情绪诸如惊讶或者愤怒的图片可能导致较高的音量；较低能量的活动或者较平静的情绪可能转化为较低的音量。改变边界范围内的内容序列上的音量还可以增强音频的趣味和质量。即使缺少高度描述性的语义信息，图像的视觉质量也可以转化为不同的音量级别。

语义图像分析还可以为情感分析提供基础。该分析可以在两个级别发生。首先是识别图像中描绘的人的面部表情。例如，他们看起来是愤怒还是开心、惊讶还是悲伤？如前所述，可以使用商业上可获得的库诸如Omron Image Sensing Technology来检测基本面部特征，诸如嘴和眼睛的形状，该库可以进一步解译该数据以指示人微笑、表现快乐、或者眨眼的程度。本发明的实施方式通过考虑这些质量与人的正常面部表情相比如何不同来调制该数据。通过为给定用户维护一组通常描绘的个体、并且对于每个这样的个体维护参考面部图像集、提供用于比较的基准来完成该调制。对一个人可能看起来像微笑的表情可能是另一个人平常的表情等，使这种类型的调适变得重要。通过分析从中提取的面部的图片并且使用语义分析来进一步预测人的表情，可以进一步增强该伴随数据库。例如，在人的生日聚会上描绘的人的图片更可能是微笑的，或者或许显示惊讶而不是显示愤怒或者其他负面情绪。通过提醒用户表征正在显示的情绪，可以进一步增强这样的基准数据，因为最了解人的人类最能够读懂人的表情；但是，系统的操作不需要这种用户提供的数据。注意，可用图像数据的语料库越大，系统表征面部表情的能力就越强。在本发明的实施方式中，系统不仅限于在手边的故事中使用的影像集，而是可以访问多年来聚集的用户的整个影像集。

通过考虑通过语义图像加标签器与图像关联的语义标签集，可以进一步增强图像的情绪关联性。该步骤对于不描绘人的图像尤其重要，但在任何情况下都有用。语义分析不仅提供如前所述的指导，特定情绪还可以与某些概念相关联，然后可以以与提供大约14,000字的情绪注释或者关联性的由Davis和Mohammad描述的手段的类似的方式将该概念结合到音乐合成中。一种更简单的手段使用WordNet Affect Lexicon，其使六种所谓的Ekman情绪(喜悦、悲伤、愤怒、恐惧、厌恶和惊讶)中的一种与几百个词的语料库相关联。在本发明的实施方式中，使用这些关联性映射中的一个关联性映射将由语义加标签器提供的语义标记映射到情绪。另外，对于某些类型的影像，可以通过语义加标签器直接返回一些感情概念。通过使情绪与面部表情相关联，可以进一步增强与图像相关联的情绪。注意，给定图像可能具有冲突的情绪，在这种情况下计算主导情绪。注意，主导情绪可能取决于观看者。例如，体育赛事中的竞赛运动员可能显示出非常不同的情绪；与和观看者最密切关联的运动员相关联的情绪应该是主导情绪。

在一些实施方式中，对于某些类型的事件，合成的音乐还可以结合来自普遍辨识的曲调的音乐的度量，诸如节日曲调或者用于歌唱生日快乐的音乐。与特定地点或者机构关联的曲调诸如大学的母校歌曲也可以结合在这样的实施方式中。曲调还可以与某些类型的检测到的人或对象相关联，诸如与婴儿关联的摇篮曲、或者与猫关联的粉红豹主题音乐。对这些曲调的访问是作为对简单地使某些体裁或者乐器与特定语义概念或者图像特征关联的补充或者替代。然而，本发明不需要知道或者访问先前生成的曲调，而是完全能够基于图像分析来合成音乐元素。

图像的视觉质量还可以用于确定其他图像特点。虽然较高级别的语义信息通常是优选的，但是缺少高质量语义信息或者在语义信息在整个图像集中缺乏足够的多样性的情况下，分析图像色调、饱和度和亮度可以提供改变图像的音乐质量的基础。例如，具有大量对比度的图像可能引起同样具有大量动态对比度的音乐元素，诸如在相对紧密的并置中或者在复杂的和弦结构中的响亮音符和柔和音符。表达差异的方法可以变化；例如，具有高对比度的图像也可以在较短的、可能被切分的音符中反映，与更多的用于低对比度影像的滑顺声音相比。该差异还可以被反映在相邻音符之间的音高变化程度中，其中高对比度影像导致音高在音符上的更大的程度或者伸展。类似地，明亮发光的影像可以以比微暗发光的影像更高的音高被反映。图像饱和度也可以以各种方式被反映在音乐元素中。可以将所有这些元素组合在一起以确定一组关联的音乐元素。识别色调、饱和度和亮度的反复出现可能引起反复出现的主题，如前所述的，该反复出现的主题在一组反复出现的音乐元素中显现。在这种情况下，在一些实施方式中应用平滑功能以提供更令人愉悦的声音。使用平滑功能以使音乐元素中的任何音乐元素的变化均衡。

一些实施方式可以考虑其他捕获元数据，诸如焦距或者物距，例如以确定摄影师已经对特定物体进行放大或者缩小。通过音量或强度中的对应变化，该特性可以反映在音乐中。在视频对象的情况下，摄影师对特定物体进行放大或者缩小的速率还可以被反映在音乐中。以类似的方式，可以使用更复杂的图像分析技术来识别给定物体在多个图像中的相对位置和大小。例如，通过改变声音强度或者音量，可以再次反映大小的变化；例如，在一系列图像中的位置的显著变化可能导致节奏增加。根据本发明，图像分析技术诸如SIFT/SURF可以用于跨不同图片识别相同的对象。

与图像序列关联的故事板表示特定结构。在一些实施方式中，可以进一步注释该结构，使得更高级别的语义可以与构成部分关联。例如，在婚礼上拍摄的图像序列上形成的故事板可以被注释以在事件的不同部分之间进行区分：仪式前活动、仪式、接待等。可以通过分析由语义加标签器提供的语义标签来确定这些注释；一些实施方式还可以结合公共事件结构的预定知识。这些子事件本身还可以被细化。在一些实施方式中，确定整体策略可以取决于这些注释以进一步细化生成的音乐的风格。此外，某些关联通常可以与构成部分中的每个构成部分关联：在仪式前期间的预先的声音；在仪式期间的更正式、庄严的声音；在接待期间的更休闲和欢乐声音等。

虽然如所描述的本发明的系统主要在设置与正在为其生成音乐创作的故事关联的图像集上操作，但是可以通过访问由用户拥有的或者访问的更全面的图像集合来增强系统的行为。查阅更广泛的影像集合不仅可以如前所述提供对正常面部表情的更好的确定，还可以提供许多其他方面的信息，包括人、地点和事物的相对重要性。在一些实施方式中，系统完成的一些或者所有工作可以跨会话保留，使其能够重新使用主旨或者其他音乐元素，例如，以在创作之间引入一定程度的共性。

已经特别参考本发明的某些实施方式详细描述了本发明，但是将理解的是，可以在本发明的精神和范围内实现变化和修改。

附图标记列表

100 流程图

110 多媒体集合步骤

120 元数据生成器步骤

130 元数据步骤

140 故事板生成器步骤

150 故事板步骤

160 音乐生成器步骤

170 音乐创作步骤

180 回放步骤

190 辅助数据步骤

200 特征表

302 流程图

300 计算步骤

310 添加图像步骤

315 更多图像步骤

320 分析下一图像步骤

330 识别特征步骤

340 足够的特征步骤

350 当前集足够步骤

360 输出当前集步骤

370 重置当前集步骤

380 当前集足够步骤

390 输出当前集步骤

392 方法完成步骤

402 质量表

404 质量表

500 框图

502 时间分组

504 时间分组

506 时间分组

508 主题分组

510 主题分组

512 主题分组

514 图像分组

516 图像

518 图像分组

520 图像分组

600 流程图

610 故事板步骤

620 辅助数据步骤

630 确定整体策略步骤

635 策略步骤

640 音乐合成器

641 提取语义属性步骤

642 生成音符步骤

643 更多分组步骤

650 音乐创作步骤

700 流程图

710 图像内容步骤

720 提取相机元数据步骤

730 提取颜色步骤

740 亮度和对比度步骤

750 面部检测步骤

760 语义标签步骤

770 增强元数据步骤

780 地理空间映射步骤

790 时间数据映射步骤

Claims

1.一种创建用以伴随多媒体对象序列的一个或多个音频对象的方法，包括：

(a)使用处理器分析所述多媒体对象和对应的所记录元数据，以生成衍生元数据；

(b)应用选定的方法来分析所述所记录元数据和所述衍生元数据；

(c)识别所述多媒体对象的选定子集并对所述多媒体对象的选定子集进行排序；以及

(d)生成用以伴随所述多媒体对象的选定子集的音频轨。

2.根据权利要求1所述的方法，其中，对所述多媒体对象的选定子集进行排序是基于时间事件聚簇的。

3.根据权利要求1所述的方法，其中，生成音频轨的方法还包括识别在所述多媒体对象序列内反复出现的主题模式。

4.根据权利要求3所述的方法，其中，识别反复出现的主题模式的方法包括下述中的至少一种：频繁项目集挖掘、面部检测、面部辨识、位置聚簇、对象检测、场景分类、活动检测、情感分析和事件分类。

5.根据权利要求1所述的方法，其中，生成音频轨的方法还包括基于所记录多媒体对象元数据和衍生多媒体对象元数据的变化的音乐结构，所述变化的音乐结构包括乐器、音调、基调、节奏、音量或者和弦结构中的至少一种。

6.根据权利要求5所述的方法，其中，所述衍生多媒体对象元数据包括识别的有生命的和无生命的对象、场景或者活动。

7.根据权利要求6所述的方法，其中，识别有生命的对象包括识别描绘的对象的大小。

8.根据权利要求5所述的方法，其中，所述衍生多媒体对象元数据包括确定的在所述多媒体对象序列中的图像的视觉复杂性、景深、对比度、亮度和/或者饱和度。

9.根据权利要求5所述的方法，其中，所述所记录元数据包括特性，所述特性包括镜头焦距和/或物距。

10.根据权利要求1所述的方法，其中，生成音频轨的方法还包括情感分析。

11.根据权利要求10所述的方法，其中，所述情感分析包括检测情感的变化。

12.根据权利要求11所述的方法，其中，所述情感分析包括使情感与来自图像分析的语义概念相关联。

13.根据权利要求11所述的方法，其中，所述情感分析包括使情感与面部表情相关联。

14.根据权利要求6所述的方法，其中，识别所述有生命的和无生命的对象包括识别以对应的反复出现的音乐元素反映的反复出现的对象、场景或者活动。

15.根据权利要求5所述的方法，其中，生成音频轨的方法对多媒体资产中描绘的人、捕获所述多媒体资产的位置、或者捕获所述多媒体资产的时间是响应性的。

16.根据权利要求5所述的方法，其中，生成音频轨的方法对聆听所述音频轨的人是响应性的。

17.根据权利要求1所述的方法，其中，生成音频轨的方法包括使预录制歌曲与检测的位置、时间、活动或者人相关联。