CN106484765A - 利用音频数字冲击以创建数字媒体演示 - Google Patents

利用音频数字冲击以创建数字媒体演示 Download PDF

Info

Publication number
CN106484765A
CN106484765A CN201610796521.1A CN201610796521A CN106484765A CN 106484765 A CN106484765 A CN 106484765A CN 201610796521 A CN201610796521 A CN 201610796521A CN 106484765 A CN106484765 A CN 106484765A
Authority
CN
China
Prior art keywords
decay
value
digital
masking threshold
impact value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610796521.1A
Other languages
English (en)
Other versions
CN106484765B (zh
Inventor
P·梅里尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adobe Inc
Original Assignee
Adobe Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Adobe Systems Inc filed Critical Adobe Systems Inc
Publication of CN106484765A publication Critical patent/CN106484765A/zh
Application granted granted Critical
Publication of CN106484765B publication Critical patent/CN106484765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Auxiliary Devices For Music (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明的各实施例总体上涉及利用音频数字冲击以创建数字媒体演示。所公开的系统和方法基于冲击值创建了一个或多个数字媒体演示。具体地,在一个或多个实施例中,系统和方法基于与数字音频内容相关联的能量测量随时间的改变来生成冲击值。例如,系统和方法通过相对于在特定时间段处的能量计算能量测量随时间的改变来生成冲击值。基于所生成的冲击值,系统和方法标识数字音频内容中的转变点。具体地,系统和方法利用衰减掩蔽阈值以从所生成的冲击值来标识转变点。此外,系统和方法利用所标识的转变点来修改连同数字音频内容显示的数字视觉内容。

Description

利用音频数字冲击以创建数字媒体演示
技术领域
本公开总体上涉及数字媒体演示。更具体地,本公开的一个或多个实施例涉及通过将数字视觉内容与数字音频内容同步来生成数字媒体演示的系统和方法。
背景技术
近年来,对计算设备和数字媒体的访问已经快速增长。确实,个人现在通常具有对个人计算机、平板、电话、相机、电视以及允许个人访问来自各种源的数字媒体的其他计算设备的访问。这种设备的日益流行不仅增加了对数字媒体的个人访问,并且还扩展了捕获并创建数字媒体的个人能力。例如,现在对于个人捕获图像、视频和其他数字内容并且经由因特网与其他人共享这种媒体非常平常。
鉴于在访问、捕获和共享数字媒体方面的这些优势,个人日益搜索新的娱乐措施用于向其他人呈现数字媒体。为了解决此需求,某些常见媒体演示系统已经被开发用于将数字视觉内容与数字音频内容一起显示(例如,一系列照片集和音乐的幻灯片)。例如,某些常见媒体显示系统将一系列照片显示预定时间量,同时在背景中播放一段音乐。类似地,其他常见媒体演示系统允许用户相比于音乐段手动布置一系列照片,系统继而根据手动布置显示一系列照片同时显示音乐段。
虽然这种常见媒体演示系统提供了一种用于显示视觉媒体的措施,但是这种系统具有其自己的问题和限制。例如,将数字视觉内容显示预定时间量的常见媒体演示系统的用户经常抱怨这种媒体演示系统无聊、可预测并且缺乏创新、情绪和情感。此外,将数字视觉内容显示预定时间量的常见媒体演示系统经常以与数字音频内容冲突的方式显示数字视觉内容。
另外,允许用户手动放置与音频媒体有关的数字视觉媒体的常见媒体演示系统引入了其自己的问题。虽然这种系统可以允许用户以更艺术创新的方式来将数字视觉媒体与数字音频媒体组合,但是这种系统通常花费大量时间、注意力和/或专业知识来使用。因此,用户常规地变得对操作这种系统所需的时间和精力的投入感到挫败。此外,这种系统经常无法针对缺失时间、创造力、技术或经历的个人用户提供娱乐数字媒体演示。
关于使用常规系统和方法创建数字媒体演示存在这些和其他问题。
发明内容
本公开的各实施例提供了益处和/或解决了本领域中的前述或其他问题中的一个或多个,其中系统和方法将音频和视觉内容同步以创建数字媒体演示。具体地,在一个或多个实施例中,所公开的系统和方法计算使得数字音频内容对收听者的冲击接近的冲击值。基于冲击值,系统和方法标识转变点(例如,音乐中的冲击时间段)。系统和方法继而通过基于所标识的转变点将数字视觉内容与数字音频内容同步来创建数字媒体演示。
例如,一个或多个实施例包括通过计算与关联于数字音频内容的时间段相关联的能量测量的改变来计算针对所述时间段的冲击值的系统和方法。所公开的系统和方法基于数字音频内容中的冲击值使用衰减掩蔽阈值来选择转变点。具体地,在一个或多个实施例中,衰减掩蔽阈值衰减直到与第一冲击值相交,响应于与第一冲击值的相交而增加,再次衰减直到与第二冲击值相交。所公开的系统和方法利用相交的冲击值来选择转变点。此外,系统和方法通过基于所选定的转变点将数字视觉内容与数字音频内容同步来生成数字视觉内容的演示。
通过利用冲击值来标识转变点,所公开的系统和方法可以通过对应于数字音频内容的能量和情绪的方式演示数字视觉内容。因此,例如,所公开的系统和方法可以修改数字视觉内容以对应音频内容中的变化,从而创建更情绪、创新和娱乐的数字媒体演示。
另外,通过利用衰减掩蔽阈值来标识转变点,系统和方法可以避免数字媒体演示中重复、可预测或聚集的转变。具体地,通过使用衰减掩蔽阈值,系统和方法可以标识对应于数字音频内容中特定显著点的转变点。类似地,通过利用衰减掩蔽阈值,系统和方法可以限制可预测、重复转变同时减少使得用户视觉或听觉能力或偏好厌烦的聚集转变。
此外,通过利用数字冲击值来标识转变点,所公开的系统和方法可以显著地减少生成数字媒体演示所需的时间和努力。确实,在一个或多个实施例中,用户可以简单地选择数字视觉内容和数字音频内容,并且只需数秒,以娱乐、创建的方式生成能够显示数字视觉内容连同数字音频内容的数字媒体演示。
本公开内容的示例性实施例的附加特征和优点将会在随后的说明书中被阐述,并且部分将会从说明书变得明显,或可以通过这样的示例性实施例的实践而被获悉。这样的实施例的特征和优点可以通过特别地在所附权利要求中指出的仪器和组合而被实现和得到。这些以及其他特征将从以下说明书以及所附权利要求书变得更加明显,或可以通过如下文阐述的这样的示例性实施例的实践而被获悉。前述发明内容不是详尽的概述,并且它并不旨在标识关键要素或者指示范围。相反,前述发明内容将实施例的各方面标识作为下面给出的具体实施方式的前奏。
附图说明
为了描述可以获得本发明的以上记载的和其它优点以及特征的方式,将通过参照在附图中图示的本发明的具体实施例来表现以上简要地描述的本发明的更特别的描述。应当注意,各图未按比例绘制并且相似结构或者功能的单元一般出于例示性目的而贯穿各图由相似标号代表。应理解这些附图仅描绘本发明的典型实施例并且因此不会被视为限制它的范围,将通过使用附图用附加特点和细节描述和说明本发明,在附图中:
图1图示了根据一个或多个实施例反映数字音频内容的频谱图;
图2图示了根据一个或多个实施例的经修改的频谱图;
图3图示了根据一个或多个实施例的经修订的频谱图;
图4A图示了根据一个或多个实施例用于在特定时间段生成冲击值的表示;
图4B图示了根据一个或多个实施例的冲击值随时间的线形图;
图5图示了根据一个或多个实施例的表示冲击值修改的线形图;
图6图示了根据一个或多个实施例的衰减掩蔽阈值的应用;
图7图示了根据一个或多个实施例的将数字视觉内容与数字音频内容同步的表示;
图8图示了根据一个或多个实施例的发布系统的示意图;
图9图示了其中发布系统可以根据一个或多个实施例操作的示例性环境的示意图;
图10图示了根据一个或多个实施例生成数字媒体演示的方法中的一系列动作的流程图;以及
图11图示了根据一个或多个实施例的示例性计算设备的框图。
具体实施方式
本公开的一个或多个实施例包括数字媒体演示系统。具体地,一个或多个实施例包括将音频内容和视频内容同步以创建数字媒体演示的数字媒体演示系统。具体地,在一个或多个实施例中,数字媒体演示系统计算与数字音频内容有关的冲击值并且利用该冲击值标识转变点。此外,数字媒体演示系统基于所标识的转变点将数字视觉内容与数字音频内容同步。
例如,在一个或多个实施例中,数字媒体演示系统通过计算与关联于数字音频内容的多个时间段相关联的能量测量中的改变来计算针对该时间段的冲击值。数字媒体演示系统继而使用衰减掩蔽阈值基于数字音频内容中的冲击值来选择转变点。具体地,衰减掩蔽阈值衰减直到与第一冲击值相交,响应于与第一冲击值相交而增加,并且再次衰减直到与第二冲击值相交。在一个或多个实施例中,数字媒体演示系统利用相交的冲击值来选择转变点。此外,数字媒体演示系统通过基于该选定的转变点将数字视觉内容与数字音频内容同步来生成数字视觉内容的表示。
在一个或多个实施例中,数字媒体演示系统计算冲击值以使得个人收听体验的冲击近似于数字音频内容。换言之,冲击值可以指示数字音频内容中的显著时间段。数字媒体演示系统通过将数字音频内容转变成反映与该数字音频内容相关联的能量测量的数据并且分析能量测量中的改变来计算冲击值。具体地,在一个或多个实施例中,数字媒体演示系统基于与数字音频内容相关联的能量测量随时间的改变来计算冲击值。例如,在至少一个实施例中,数字媒体演示系统在与第二时间段出现的能量有关的两个时间段计算能量测量的差异。
数字媒体演示系统可以针对与数字音频内容的特定方面相关联的能量测量来计算冲击值。例如,在一个或多个实施例中,数字媒体演示系统应用一个或多个过滤器以隔离特定能量测量,诸如敲击能量、谐波能量或抒情能量。此外,数字媒体演示系统可以计算特定于这些特定能量测量的冲击值和转变点。通过此方式,数字媒体演示系统可以强调更情绪化(例如,基于数字音频内容中的谐波能量)或更兴奋和抒情(例如,基于数字音频内容中的敲击能量)的转变。
通过计算冲击值,数字媒体演示系统可以将用户收听体验的数字音频内容中的能量改变近似于数字音频内容。因此,冲击值提供选择转变点方面的有用测量。即,原始冲击值本身可能无法标识令人满意的转变点,这是因为人类听觉或视觉能力或偏好。确实,即使数字音频内容中的特定时刻与高冲击值相关联,各种因素也可能使得转变点不适合作为转变点。
例如,在数字音频内容中的每个显著事件提供转变经常产生期望的例行转变点。因此,虽然特定时间段可能具有高冲击值,但是利用每个高冲击值作为转变点可能产生用户感到无聊、单调和乏味的数字媒体演示。
类似地,数字音频内容中的显著事件易于减少(时间上)未来事件的相关冲击。例如,渐强易于使得随后的节奏敲击似乎对于收听者在一段时间不显著。因此,虽然某些时间段可能具有高冲击值,但是由收听者体验的相关冲击可能由于数字音频内容中的先前显著事件而变得低得多。
因此,在一个或多个实施例中,数字媒体演示系统应用衰减掩蔽阈值。该衰减掩蔽阈值有助于减少重复、预期的转变点,同时还负责在数字音频内容中的显著冲击事件之后收听者体验的冲击相对减少。
具体地,衰减掩蔽阈值是随时间改变的阈值。如上文所提到的,在一个或多个实施例中,衰减掩蔽阈值衰减直到该衰减掩蔽阈值与一个或多个冲击值相交。响应于相交,衰减阈值随时扩展(例如,增加)。在增加之后,衰减掩蔽阈值继而衰减直到该衰减掩蔽阈值与一个或多个附加冲击值相交。在一个或多个实施例中,数字媒体演示系统基于相交的冲击值标识音频兴趣值(例如,潜在转变点),同时避免重复、预期转变点并且考虑在显著冲击事件之后用户体验的冲击中的相对减少。
另外,数字媒体演示系统还可以选择转变点同时负责视觉限制、能力和偏好。例如,数字媒体演示的许多查看者难于以特定改变率(或之上)进行数字视觉内容的改变。类似地,在数字视觉内容中的改变之后,用户易于体验随时间减少的提升兴趣。在一个或多个实施例中,数字媒体演示系统通过应用另一衰减掩蔽阈值负责视觉能力和偏好。
具体地,在一个或多个实施例中,数字媒体演示系统应用第二衰减掩蔽阈值(例如,向已经利用上文所述衰减掩蔽阈值修改的冲击值应用第二衰减掩蔽阈值)。例如,数字媒体演示系统应用具有与初始衰减掩蔽阈值不同属性的第二衰减掩蔽阈值。数字媒体演示系统应用具有近似于个人视觉能力或偏好的参数的第二衰减掩蔽阈值。
注意,视觉能力或偏好经常不同,取决于被显示的特定数字视觉内容的特征。例如,个人可以舒服地吸收数字视觉内容中的改变的速率经常取决于数字视觉内容的特征。例如,个人通常可以处理包含同一个人的表示的多个图像比包含多个不同人的表示的多个图像要快得多。因此,数字媒体演示系统可以检测数字视觉内容的特征并且基于数字视觉内容的特征调整其操作。例如,数字媒体演示取决于数字视觉内容的特征(例如,确定两个图像包含同一个人的表示)来调整衰减掩蔽阈值的衰减速率。除了基于数字视觉内容的特征调整与衰减掩蔽阈值相关的参数,数字媒体演示系统还可以响应于各种其他因素调整各种参数。
在应用一个或多个衰减掩蔽阈值之后,在一个或多个实施例中,数字媒体演示系统提供/创建一个或多个数字媒体演示。具体地,数字媒体演示系统利用转变点将数字音频内容与数字视觉内容同步。例如,在一个或多个实施例中,数字媒体演示系统显示第一视觉数字内容项同时播放数字音频内容,并且在到达数字音频内容中的转变点之后,数字媒体演示系统显示第二视觉数字内容项。
在一个或多个实施例中,数字媒体演示还可以选择各种转变效果用于将数字视觉内容与数字音频内容同步。例如,转变效果可以包括从一个图像到另一图像的立即改变,从一个图像渐退到另一图像,图像之间的转变视频段或其他转变类型。数字媒体演示的一个或多个实施例可以基于数字音频内容来选择转变效果。例如,在一个或多个实施例中,数字媒体演示将转变效果的持续时间与触发转变点的音频事件的持续时间进行比较以选择针对该数字媒体演示的转变类型。
如本文所使用的,术语“数字视觉内容”指的是任意数字视觉媒体。具体地,数字视觉内容包括数字图像、数字照片、数字视频、GIF或能够被呈现用于显示的任意其他数字媒体。数字视觉内容包括任意格式或类型的数字视觉媒体,包括但不限于:JPEG、TIFF、PDF、BMP、PNG、RIF、MOV、WMV、MP4、MPG、M4V、RM、AVI或FLV。数字视觉内容还可以包括数字视觉媒体的集合。例如,数字视觉内容可以包括移动设备上存储的一列图像和视频、远程服务器(例如,云)上存储的一组图像,或者某些其他集合。此外,数字视觉内容可以包括更大集合的子集,诸如由用户从移动设备上的照片画廊选择的多个图像。
如本文所使用的,术语“数字音频内容”指的是任意数字音频媒体。具体地,数字音频内容包括数字音乐、数字音频记录、数字音频轨道或其他数字音频媒体。数字音频内容包括任意格式或类型的数字音频媒体,包括但不限于:WAV、WV、M4A、MPEG、WMA或MP3。数字音频内容还可以包括另一类型媒体的音频部分。例如,电影的音频轨道。因此,数字音频内容包括任意各种数字视频格式的音频部分,包括但不限于:MOV、WMV、MP4、MPG、M4V、RM、AVI或FLV。数字音频内容可以包括声音轨道的集合(诸如播放列表)、压缩盘上烧录的音乐的集合、音乐库或任意其他集合。类似地,数字音频内容可以包括更大集合的子集,诸如由用户从移动设备上更大音乐库选择的多个歌曲。
如本文所使用的,术语“能量测量”指的是表示与数字音频内容相关联的能量、强度、功率、振幅、音量或响度的任意值。例如,术语能量测量包括在针对数字音频内容的特定时间点由特定频率范围引起的振幅。术语能量测量包括以各种单位的测量,包括但不限于:N/m2、瓦特、W/m2、分贝、方、宋或其他单位。术语能量测量还包括没有单位的测量,诸如已经被归一化的能量测量。例如,术语能量测量可以包括表示为某些其他振幅值的比率的归一化振幅值(例如,针对质心值的归一化)。
如本文所使用的,术语“冲击值”指的是表示与数字音频内容相关联的能量测量随时间改变的值。例如,术语冲击值包括与关联于时间段的能量测量有关的能量随时间改变的测量。冲击值可以使用本文所述的各种方法进行计算。
如本文所使用的,术语“转变点”指的是用于修改与数字音频内容有关的数字视觉内容的演示的时间点(或时间段)。术语转变点包括随着与数字音频内容有关的时间段从显示第一图像变成显示第二图像。术语转变点还包括用于从显示视频序列的第一部分变成显示视频序列的第二部分;从显示图像变成显示视频序列;从显示图像变成显示具有一个或多个应用效果(例如,颜色上的改变;尺寸上的改变;针对显示的位置上的改变)的图像;显示转变效果(例如,渐入或渐出;显示转变视频序列;或显示转变文本);或者与数字音频内容有关的数字视觉内容的其他修改的时间点。
现在返回图1,附加细节将关于数字媒体演示系统的操作来提供。如上文所述,在一个或多个实施例中,数字媒体演示系统将数字音频内容转换成反映由于数字音频内容随时间引起的能量测量的数据。图1图示了针对待在数字媒体演示中使用的数字音频内容的一部分的频谱图100。具体地,频谱图100呈现了特定频率针对数字音频内容随时间振幅上的改变。频谱图100表示沿x轴与数字音频内容相关联的时间,表示沿y轴与数字音频内容相关联的频率,以及根据阴影标度102利用阴影表示在特定时间段各种频率的振幅。因此,频谱图100中的每个阴影表示在特定时间段以特定频率歌曲的振幅。
虽然频谱图100的y轴以Hz图示了频率,但是应当理解频谱图100可以利用某些其他的测量,包括频率的某些其他单位。类似地,虽然频谱图100图示了振幅上的改变,但是应当理解频谱图100可以包括任意能量测量。例如,频谱图100(例如,阴影标度102)可以利用与数字音频内容相关联的能量、强度、功率、振幅、音量或响度的任意量。
在一个或多个实施例中,数字媒体演示系统通过向数字音频内容应用频率加权来生成频谱图100以负责由人耳感知的相对响度。例如,在一个或多个实施例中,数字媒体演示系统向歌曲应用A加权以生成频谱图100。在备选实施例中,数字媒体演示系统可以应用B加权、C加权、D加权、Z加权曲线或备选频率加权。频谱图100反映了应用A加权曲线之后的歌曲。
此外,一个或多个实施例通过将值映射到各范围来生成频谱图100。具体地,数字媒体演示系统将数字音频内容分成任意数目或类型的频率范围。例如,一个或多个实施例利用2048不同大小的频率范围。具体地,一个或多个实施例在较低频率利用较小范围并且在较高频率利用较大范围。例如,一个或多个实施例将频谱图在22050Hz频率响应上分成2048个频率盒(即,范围)。类似地,一个或多个实施例强调较低频率(即,包括在较低频率范围的附加盒)以解决低音音符。数字媒体演示系统可以将频谱图映射至各种范围。
数字媒体演示系统的一个或多个实施例进一步修改频谱图100的加权值以计算一个或多个冲击值。例如,图2图示了基于频谱图100修改的频谱图200。具体地,数字媒体演示系统已经通过将y轴分成各范围或盒来修改了频谱图100。具体地,数字媒体演示系统已经将频谱图100沿y轴映射至320个范围,每个范围(或盒)标识某个频率的跨度。应当理解,虽然图2图示了特定数目的范围,但是数字媒体演示系统的其他实施例可以利用备选的范围数目和备选的测量单位。
如经修改的频谱图200所示,数字媒体演示系统还改变了频谱图100的振幅值。具体地,数字媒体演示系统已经归一化振幅值。在一个或多个实施例中,数字媒体演示系统基于质心归一化振幅值。质心是最小化到特定空间中的点的平方距离的总和的平均值的多元等值。如本文所述,质心表示最小化跨频谱图的所有范围针对能量测量的平方的总和的点。换言之,质心表示与数字音频内容相关联的能量测量的中点。数字媒体演示系统可以根据各种方法或方式来计算质心。然而,在一个实施例中,数字媒体演示系统根据以下公式计算质心:
其中C表示质心的值,E表示任意范围的能量测量,R表示范围大小(例如,由范围表示的频率数目),并且n表示跨整个频谱图范围的总数。因此,在一个或多个实施例中,数字媒体演示系统计算整个频谱图值集上的质心(即,频谱图利用的振幅、响度或其他能量测量的质心)。
此外,如刚刚所述,在一个或多个实施例中,数字媒体演示系统基于质心归一化频谱图。例如,一个或多个实施例计算质心继而归一化振幅值,使得质心被设置到0.5。例如,一个或多个实施例利用以下公式来归一化频谱图:
其中N是归一化的能量测量,E是原始能量测量,并且C是整个频谱图值集上能量测量的质心的值。应当理解,数字媒体演示系统的实施例可以利用其他方式归一化频谱图100,包括利用备选方式归一化频谱图100或者归一化频谱图100使得质心被归一化到备选值。
此外,数字媒体演示系统的备选实施例利用各种值或测量归一化与频谱图100相关联的值。例如,数字媒体演示系统可以通过计算振幅的简单平均、中值或模(或者其他能量测量)来归一化频谱图100。类似地,备选实施例可以基于预定归一化值来归一化频谱图100。
如图2中所示,在一个或多个实施例中,归一化振幅范围产生频谱图,其中来自数字音频内容的大部分信号落在0与1之间,其中小部分值超过1。数字媒体演示系统利用归一化的能量测量来增强特定范围和/或突出显著的能量测量。例如,数字媒体演示系统归一化与频谱图100相关联的值并且通过应用曲线增强特定频率范围。具体地,一个或多个实施例向以下形式的频谱图200应用曲线:
Nγ=Nγ
其中Nγ是应用伽马值之后经修改的归一化能量测量,N是归一化能量测量,并且γ表示选定的伽马值。例如,在一个或多个实施例中,数字媒体演示系统针对频谱图200中的归一化能量测量利用伽马值1.5增强特定频率范围(例如,增强其中归一化能量测量超过1的频率范围)。
具体地,图3图示了在应用具有伽马值1.5的曲线之后修改的频谱图200。图3图示了示出沿y轴的频率范围(或盒)、沿x轴的时间、表示在每个时间针对每个范围应用曲线之后归一化能量测量的灰度标度的修订频谱图300。从修改后的频谱图200(其中修改后的频谱图200的大部分落在灰度标度的相同部分)和修订后的频谱图300(其中针对各种范围的能量测量更显著地跨灰度标度改变)容易理解,曲线的应用可以辅助增强在特定范围和时间能量测量之间的差异。
数字媒体演示系统可以基于各种因素选择伽马值。例如,数字媒体演示系统基于与数字音频内容相关联的能量测量的分布(例如,最大能量测量与最小能量测量之间的大差异可以指示较小伽马值),基于数字音频内容的类型(例如,易于在能量上具有小改变的流派可以指示较大伽马值),基于用户输入或某些其他因素来选择伽马值。
应当理解,数字媒体演示系统的备选实施例可以利用备选伽马值和/或备选曲线形式。然而,向归一化值应用曲线辅助更容易地从经计算的冲击值中标识转变点。
如先前所述,在一个或多个实施例中,数字媒体演示系统计算一个或多个冲击值(即,值表示与数字音频内容相关联的能量测量随时间的改变)。具体地,在至少一个实施例中,数字媒体演示系统利用针对图3所述的归一化能量测量(在应用利用伽马值的曲线之后)计算冲击值。
具体地,图4A至图4B图示了根据一个或多个实施例计算针对数字音频内容的冲击值。图4A图示了根据一个或多个实施例计算在特定时间t的冲击值。具体地,图4A图示了在第一时间402的频谱图列和在第二时间404的频谱图列的表示。在一个或多个实施例中,列402和404表示修订后的频谱图300中的邻近垂直列。
具体地,在第一时间402的频谱图列表示在时间t-1针对每个范围的能量测量。类似地,在第二时间404的频谱图列包括在特定时间t针对每个范围的能量测量。在一个或多个实施例中,数字媒体演示系统通过比较在时间t和t-1处的能量测量来计算冲击值。
更具体地,列402包括在针对时间t-1频谱图300中每个频率范围应用伽马值之后归一化的能量测量。类似地,列402包括在针对时间t频谱图300中每个频率范围应用伽马值之后归一化的能量测量。在一个或多个实施例中,数字媒体演示系统通过相对于在特定时间段能量测量计算能量测量随时间的改变来计算每个频率范围的冲击值(即,范围特定冲击值)。针对图4A中所示的实施例,数字媒体演示系统取得时间t与时间t-1之间能量测量的差值,并且将该差值乘以在时间t的能量测量。换言之,针对图4A的实施例,数字媒体演示系统根据以下公式计算特定范围的冲击值:
I(t)i=(Nγ(t)i-Nγ(t-1)i)Nγ(t)i
其中I(t)i是在时间t针对范围i的冲击值;Nγ(t)i是在时间t和范围i的能量测量(例如,在应用伽马值之后归一化的能量测量);Nγ(t-1)i是在时间t-1和范围i的能量测量(例如,在应用伽马值之后归一化的能量测量);以及n是频谱图中范围的数目(例如,针对图3的特定实施例为320)。范围特定冲击值在图4A中被表示在范围特定冲击值列406中。这些范围特定冲击值提供了修订后的频谱图300中在每个时间段针对每个范围的冲击测量。
此外,在一个或多个实施例中,数字媒体演示系统通过将在时间t的特定范围冲击值相加来计算针对时间段t的冲击值。因此,如图4A所示,数字媒体演示系统可以通过将特定范围冲击值列406中的每个值相加来计算在时间t的冲击值408。换言之,在一个或多个实施例中,计算在时间t的冲击值根据以下公式表示:
或者
其中I(t)是在时间t的冲击值;Nγ(t)i是在时间t范围i的能量测量(例如,在应用伽马值之后归一化的能量测量);以及Nγ(t-1)i是在时间t-1范围i的能量测量(例如,在应用伽马值之后归一化的能量测量);以及n是在时间t频谱图中频率范围的数目。
应当理解,数字媒体演示系统可以利用特定时间段上的任意能量测量来计算冲击值。确实,虽然图4A图示了利用归一化能量测量(在应用伽马值之后)来计算冲击值,但是数字媒体演示系统可以基于没有应用伽马值的归一化值,基于非归一化值,或者基于本文所述任意能量测量来计算冲击值。
此外,虽然图4A图示了通过将两个时间点之间能量测量的差值乘以在第二时间点的能量来计算冲击值,但是数字媒体演示系统可以使用各种备选方式来计算冲击值。例如,一个或多个实施例通过找到第一时间t与第二时间段t+1的能量测量之间的差值,并且将该差值乘以在第一时间t的能量测量来计算冲击值,而不是通过在时间上向后查看(即,在时间段t与时间段t-1之间)来计算能量测量的改变。
此外,数字媒体演示系统的一个或多个实施例通过找到不止两个时间段上的能量测量之间的差值来计算冲击值。例如,数字媒体演示系统计算三个或更多个时间段之间能量测量之间的差值来计算冲击值。
类似地,数字媒体演示系统可以利用不同的数学构想来计算冲击值(即,能量测量随时间的改变)。例如,除了将能量的改变乘以能量测量,数字媒体演示系统的一个或多个实施例通过将能量的改变除以能量测量来计算冲击值。类似地,其他实施例计算冲击值作为在第一时间段第一能量测量与在第二时间段第二能量测量之间的比率。
另外,虽然图4A图示了计算特定范围的冲击值,但是应当理解数字媒体演示系统的备选实施例不要求这种特定计算。例如,在一个或多个实施例中,数字媒体演示系统计算针对每个时间段的总能量测量并且利用针对每个时间段的总能量测量来计算针对每个时间段的冲击值。通过此方式,数字媒体演示系统可以在计算针对时间段的总冲击值时不计算特定范围的冲击值。
然而,无论哪种特定计算方法,数字媒体演示系统都计算针对数字音频内容随时间的冲击值。例如,图4B图示了先前在频谱图100、修改后的频谱图200和修订后的频谱图300中反映的针对数字音频内容随时间的冲击值。具体地,图4B图示了示出数字音频内容随时间的冲击值的线形图410。具体地,线形图410图示了通过将修订后的频谱图300中表示的针对每个时间段的特定范围的冲击值相加计算的冲击值。
图4B表示未过滤的冲击值测量;即,数字媒体演示系统利用未过滤的能量测量来计算冲击值。然而,数字媒体演示系统的一个或多个实施例应用一个或多个过滤器来针对数字音频内容的特定方面计算冲击值。例如,数字媒体演示系统可以应用过滤器以隔离敲击能量测量、谐波能量测量或抒情能量测量。通过对敲击能量、谐波能量或抒情能量的过滤,数字媒体演示系统计算特定于敲击冲击、谐波冲击或抒情冲击的冲击值。
例如,参考图3,运行通过修改后的频谱图300的垂直图案(例如,垂直线)易于指示敲击能量(例如,由音乐敲击产生的能量,诸如鼓)。类似地,跨频谱图300的水平图案易于指示谐波能量(例如,来自谐波音符的能量,诸如吉他和弦)。关注于特定类型的能量允许数字媒体演示系统关注于对收听者的特定类型的冲击来计算特定类型的冲击值。例如,基于谐波或抒情冲击选择的转变点易于向数字媒体演示提供更情绪化的“感觉”。类似地,基于敲击冲击选择的转变点易于产生更脆、更有节奏的数字媒体演示。
数字媒体演示系统可以基于数字音频内容的类型、数字视觉内容的类型、数字音频内容的特征、数字视觉内容的特征、用户输入或其他因素来应用不同的过滤器。例如,在一个或多个实施例中,数字媒体演示系统确定与数字音频内容相关联的流派(例如,爱情歌曲),并且基于该确定应用在计算冲击值时隔离谐波和抒情能量的过滤器。
此外,在一个或多个实施例中,数字媒体演示系统应用多个过滤器和/或计算多个经过滤的冲击值,而不是应用单个过滤器以隔离单个类型的能量。例如,数字媒体演示系统基于敲击能量测量计算敲击冲击值以及基于谐波能量测量计算谐波冲击值。数字媒体演示系统继而基于敲击冲击值和谐波冲击值两者来选择转变点。类似地,数字媒体演示系统可以利用针对数字音频内容或数字媒体内容的某些部分的敲击冲击值,并且可以利用针对数字音频内容或数字媒体内容的其他部分的谐波冲击值。
虽然图1至图4B和对应的描述已经利用了频谱图来描述数字媒体演示系统的操作,但是应当理解数字媒体演示系统可以利用各种备选措施来转换并分析数字音频内容。例如,数字媒体演示系统可以利用表、数组、矩阵和各种其他数字元素来执行上文所述的功能。应当理解,针对频谱图的图示和论述对于数字媒体演示系统的操作是示例性的而不是限制性的。
如上文所述,冲击值提供了一种用于标识收听者将如何体验或感知数字音频内容的有用措施。即,一个或多个实施例利用一个或多个衰减掩蔽过滤器来标识更准确反映人类视觉和听觉能力和偏好的转变点。具体地,图5图示了根据数字媒体演示系统的一个或多个实施例的衰减掩蔽阈值的应用。具体地,图5图示了数字媒体演示系统如何应用衰减掩蔽阈值以过滤出音频事件并且创建音频兴趣值(即,负责人类听觉能力和偏好的潜在转变点)。
具体地,图5图示了包含冲击值502(对应于图4B中显示的冲击值)以及衰减掩蔽阈值504、差值线506、以及最后音频兴趣值508的图500。在一个或多个实施例中,数字媒体演示系统生成衰减掩蔽阈值504;将衰减掩蔽阈值504与冲击值502进行比较以生成差值线506;以及利用差值线506中正的部分来计算音频兴趣值。音频兴趣值508标识用于将数字视觉内容与数字音频内容同步的潜在转变点。
如上文所述,衰减掩蔽阈值辅助标识来自冲击值中的转变点。具体地,在一个或多个实施例中,衰减掩蔽阈值504是随时间衰减(例如,下降)直到与另一值或函数相交的值或函数。例如,针对图5,衰减掩蔽阈值504衰减直到在点510与冲击值502相交。在点510与冲击值502相交之后,衰减掩蔽阈值504增加直到点512。在点512之后,衰减掩蔽阈值504再次衰减直到与冲击值502。通过随时间增加和衰减,衰减掩蔽阈值过滤出重复和/或聚集的音频事件。
衰减掩蔽阈值可以根据各种模型衰减。例如,在一个或多个实施例中,衰减掩蔽阈值从初始阈值开始并且根据指数衰减模型下降。在其他实施例中,衰减掩蔽阈值根据线性、对数或其他类型的衰减模型下降。通常,无论哪种特定模型,衰减掩蔽阈值根据衰减的关联速率进行衰减。此外,在一个或多个实施例中,衰减掩蔽阈值还具有最小阈值(例如,该阈值将不会再下落的最小值)。
虽然衰减掩蔽阈值504下降直到与另一值或函数相交,但是本文所使用的术语“相交”或“与之相交”指的是来自另一值或函数的近似的值或函数。例如,如图5所示,衰减掩蔽阈值504下降直到在点510与冲击值502相交。因此,针对图5的实施例,相交意味着衰减掩蔽阈值来自冲击值502的零距离内。在其他实施例中,衰减掩蔽阈值504下降直到进入冲击值502的另一距离(例如,0.1)内。
如上文所述,在与另一值或函数相交之后,在一个或多个实施例中,衰减掩蔽阈值增加。衰减掩蔽阈值可以根据若干模型或模式增加。例如,衰减掩蔽阈值可以线性、指数、对数或抛物线增加。因此,衰减掩蔽阈值可以以特定速率增加或增加特定量。备选地或附加地,衰减掩蔽阈值可以与冲击值502成比例增加。例如,衰减掩蔽阈值504可以增加多个冲击值502中的增量(例如,增加冲击值502从相交点增加的两倍量)。另外,衰减掩蔽阈值可以增加冲击值502中局部最大之上的预定量。
针对图5的实施例,在与冲击值502相交之后,衰减掩蔽阈值504增加与冲击值502相同的量。衰减掩蔽阈值504继续增加与冲击值502相同的量直到冲击值502以比与衰减掩蔽阈值504相关联的衰减速率更大的速率下降。具体地,衰减掩蔽阈值504继续增加与冲击值502相同的量直到点512。
虽然图5图示了衰减掩蔽阈值在点512之后衰减,但是在一个或多个实施例中,衰减掩蔽阈值504可以继续在冲击值502下降之后临时增加。例如,衰减掩蔽阈值504可以继续扩展预定量。附加地或备选地,衰减掩蔽阈值504可以继续基于冲击值502增加的量来扩展。类似地,衰减掩蔽阈值504可以继续基于冲击值502增加的速率(或基于某些其他因素)来扩展。衰减掩蔽阈值504可以继续线性、抛物线增加或者增加特定量。
在衰减掩蔽阈值504在冲击值502以比衰减速率更快的速率下降之后继续增加的实施例中,最终衰减掩蔽阈值504将开始再次衰减。当预定增加量出现时,数字媒体演示系统可以基于流逝了特定时间量而重新发起衰减。
现在返回图5,响应于冲击值502以比与衰减掩蔽阈值504相关联的衰减速率更快的速率下降,衰减掩蔽阈值504再次开始衰减。因此,在点512之后,衰减掩蔽阈值504开始以衰减速率再次衰减。衰减掩蔽阈值504继续衰减直到在点514再次与冲击值502相交。在点514,衰减掩蔽阈值开始增加(如上文所述)。
因此,如图5所示,衰减掩蔽阈值504在其穿过并与冲击值502相交时随时间涨落。数字媒体演示系统的一个或多个实施例基于衰减掩蔽阈值504和冲击值502的相交来标识转变点。具体地,数字媒体演示系统的一个或多个实施例将衰减掩蔽阈值504与冲击值502进行比较以确定冲击值502何时满足衰减掩蔽阈值504(例如,当衰减掩蔽阈值504与冲击值502相交和/或重叠时)。数字媒体演示系统利用冲击值502满足衰减掩蔽阈值504的区域来标识转变点。
具体地,在一个或多个实施例中,数字媒体演示系统通过基于一个或多个相交计算一个或多个音频兴趣值来选择转变点。具体地,数字媒体演示系统将冲击值502与衰减掩蔽阈值504进行比较以计算音频兴趣值。例如,如图5所示,一个或多个实施例计算差值线506。该差值线506示出了衰减掩蔽阈值504与冲击值502之间的差值。因此,在衰减掩蔽阈值504与冲击值502不相交的情况下,差值线506为负。
针对衰减掩蔽阈值504与冲击值502相交的区域(即,冲击值满足衰减掩蔽阈值504的点),在一个或多个实施例中,差值线506图示了冲击值增加衰减掩蔽阈值504的程度。换言之,差值线506指示冲击值502改变衰减掩蔽阈值504的程度。因此,在冲击值502增加掩蔽阈值504并“推送”其增加的情况下,差值线506增加,在冲击值502开始趋平(并且“推送”的量减少)的情况下,差值线506减少。
差值线506的特定值可以在各实施例之间改变。例如,在某些实施例中,差值线506可以反映掩蔽阈值504中任意增加的量值。在其他实施例中,差值线506仅反映冲击值502与衰减掩蔽阈值504的相交部分。最终,差值线506表示衰减掩蔽阈值与冲击值502之间的比较。
数字媒体演示系统的一个或多个实施例基于差值线506为正的各部分(例如,满足衰减掩蔽阈值504的冲击值502)来计算音频兴趣值508。例如,针对图5所示的实施例,数字媒体演示系统利用部分520的量值来计算音频兴趣值522的量值。具体地(并如下文更详细所述),数字媒体演示系统通过计算差值线506为正的各部分的质心、归一化差值线506为正的各部分、通过向归一化值应用曲线(例如,伽马值)修改归一化值、以及将修改后的归一化值累计到单个时间段来计算音频兴趣值508。
因此,如上文所述,一个或多个实施例计算差值线506为正的各部分的质心。具体地(并如先前针对质心所述),数字媒体演示系统计算最小化跨时间的针对差值线506为正的各部分的平方的总和的点。换言之,质心提供了针对差值线506为正的各部分的量值的中点值的测量。
此外,如本文所述,数字媒体演示系统的一个或多个实施例归一化差值线506为正的各部分以生成音频兴趣值508。具体地,数字媒体演示系统可以基于质心归一化差值线506为正的各部分。例如,在一个或多个实施例中,数字媒体演示系统归一化差值线506为正的各部分使得质心值等于0.5(或某个其他值)。如先前所述,备选实施例可以利用另一测量来归一化差值线506为正的各部分,诸如预定值或者平均值、中值或模值。通过归一化差值线506为正的各部分,数字媒体演示系统可以强调并且更易于标识音频兴趣值中的尖峰(spike)。
此外,如先前所述,数字媒体演示系统还可以应用伽马值。例如,数字媒体演示向归一化值应用具有伽马值的曲线。通过此方式,数字媒体演示系统可以进一步强调归一化值中区别。
此外,数字媒体演示系统的一个或多个实施例累计归一化值。具体地,数字媒体演示系统累计遍布在时间段上的归一化值以更清楚地限定音频兴趣值和/或转变点。确实,如图所示,差值线506为正的各部分可以在若干不同时间段上累计。将连续归一化值累计值单个时间段有助于确保在较大时间标度上出现的冲击事件将仍触发适当的转变。
因此,图5图示了音频兴趣值508。音频兴趣值508反映了在计算质心、基于质心归一化、应用伽马值以及将归一化值累计至单个时间段之后差值线506为正的各部分。如图5所示,数字媒体演示系统利用此方法产生音频兴趣值508中清楚描绘潜在转变点的一系列尖峰。
此外,图5还图示了通过应用衰减掩蔽阈值504,数字媒体演示系统已经从冲击值502过滤出某些相对最大值。例如,冲击值502中的点530是冲击值中不具有音频兴趣值508中对应尖峰的相对最大值(或“尖峰”)。衰减掩蔽阈值已经过滤了点530,使得其不在音频兴趣值508中表示(例如,不被标识为潜在转变点)。
如上所述,此过滤效果有助于限制重复、预期的转变点。此外,此过滤效果在数字音频内容中的冲击事件之后使得收听者体验的冲击中的相对减少接近。例如,冲击值502中的点530在冲击值502中的大尖峰之后马上到来。衰减掩蔽阈值504已经从音频兴趣值508移除了相对最大值点530;因此,避免了重复、预期转变同时还使得用户体验的减少的相对冲击针对点530接近,由于显著冲击事件在点530之前。
如先前所述,数字媒体演示系统可以应用多个衰减掩蔽阈值以标识转变点。具体地,除了刚刚论述的衰减掩蔽阈值,数字媒体演示系统还可以应用衰减掩蔽阈值来负责视觉限制或偏好。例如,图6图示了示出向值604应用衰减掩蔽阈值602的图600。在一个或多个实施例中,值604相当于针对图5所述的音频兴趣值508(或从其导出)。
在一个或多个实施例中,衰减掩蔽阈值602的应用减少了选择太快速显示视觉数字内容的转变点的可能性。例如,数字媒体演示系统应用衰减掩蔽阈值602以避免选择比用户可以理解或欣赏数字视觉内容更快显示数字视觉内容的转变点。此外,数字媒体演示系统应用衰减掩蔽阈值602以减少用户对数字视觉内容失去兴趣的可能性。确实,如衰减掩蔽阈值504(其使得在显著音频事件之后用户的冲击感知接近),衰减掩蔽阈值602使得用户在数字视觉内容转变之后对数字视觉内容的兴趣衰减接近。在数字视觉内容改变之后,用户可以立即减少随时间增加的兴趣。数字媒体演示系统通过利用衰减掩蔽阈值来使得用户的视觉兴趣接近。
具体地,图6图示了具有初始阈值608的衰减掩蔽阈值602。衰减掩蔽阈值602从初始阈值608衰减直到在点610与值604相交。在点610与值604相交之后,衰减掩蔽阈值602扩展到增加的点612。之后,衰减掩蔽阈值602开始减少。在与值604相交之后,衰减掩蔽阈值602再次增加。因此,如图所示,衰减掩蔽阈值602在值604与某些尖峰相交,但是没有与其他尖峰相交。通过此方式,衰减掩蔽阈值602标识转变点中对应于显著音频事件的子集并且根据特定视觉能力和偏好过滤其他显著音频事件。
如上文所述,衰减掩蔽阈值602根据以下模型衰减或减少,所述模型包括但不限于抛物线、线性或对数。例如,衰减掩蔽阈值抛物线地衰减。此外,在与值604相交之后,衰减掩蔽阈值随着值604而增加。
此外,如图所示,在一个或多个实施例中,衰减掩蔽阈值602扩展超过值604。如针对衰减掩蔽阈值504所述,衰减掩蔽阈值602根据模式或模型扩展。例如,在某些实施例中,衰减掩蔽阈值602扩展超过值604预定量。在其他实施例中,衰减掩蔽阈值602在特定时间段内扩展。
衰减掩蔽阈值602增加的量(或时间)可以基于各种因素而改变。例如,在一个或多个实施例中,衰减掩蔽阈值602基于值604的高度而扩展。具体地,衰减掩蔽阈值602基于相对于衰减掩蔽阈值602的高度的值604的高度(例如,在相交点相比于衰减掩蔽阈值602的高度的值604的尖峰的高度)进行扩展。因此,例如,在衰减掩蔽阈值与值604中特定高尖峰相交的情况下,衰减掩蔽阈值602可以增加更大的量。此外,在其他实施例中,数字媒体演示系统基于自最后一次相交起的时间、到下一次相交的时间或某些其他因素确定衰减掩蔽阈值602增加的量值。
如先前所述,在一个或多个实施例中,数字媒体演示系统基于与衰减掩蔽阈值602的相交标识转变点。具体地,如图6所示,数字媒体演示系统基于衰减掩蔽阈值602与值604的相交标识转变点606。
在一个或多个实施例中,数字媒体演示系统通过将衰减掩蔽阈值602与值604进行比较来标识转变点606。具体地,数字媒体演示系统计算衰减掩蔽阈值602与值604之间的差值以标识值604与衰减掩蔽阈值602相交(例如,满足衰减掩蔽阈值602)的时间段。数字媒体演示系统基于相交标识转变点。
例如,在一个或多个实施例中,数字媒体演示系统在衰减掩蔽阈值与值604相交之后在值604中的尖峰时间放置转变点606。在其他实施例中,数字媒体演示系统在衰减掩蔽阈值602与值604相交的时间放置转变点。数字媒体演示系统的其他实施例基于与衰减掩蔽阈值602与值604之间的相交相关联的时间段放置转变点606。
数字媒体演示系统的一个或多个实施例在标识转变点时应用附加过滤器超过衰减掩蔽阈值。具体地,一个或多个实施例将标识的转变点进行比较并过滤出刚刚落在冲击转变点之前的较低冲击转变点。通过此方式,数字媒体演示系统防止或减少分散转变。具体地,一个或多个实施例比较与两个转变点相关联的值604(或冲击值或某些其他值)的量值以及两个转变点之间的时间。在两个转变点落入预定时间阈值的情况下并且在量值的差值超过量值阈值的情况下,在一个或多个实施例中,数字媒体演示系统过滤转变点之一(例如,时间上首先到来的较小量值的转变点)。
除了标识转变点,数字媒体演示系统的一个或多个实施例还标识不同类型的转变点。例如,数字媒体演示系统的一个或多个实施例标识与从一个数字视觉内容项到另一数字视觉内容项的转变对应的转变点(即,资产转变点)。类似地,数字媒体演示系统的一个或多个实施例标识与应用于数字视觉内容项的效果或其他修改对应的转变点(即,微转变点)。
例如,微转变可以包括利用相同的数字视觉内容项,但显示数字视觉内容项的特定部分(例如,缩放到图像的一部分或者跳过视频的一部分)。类似地,微转变点可以包括对数字视觉内容项的视觉修改(例如,改变颜色、大小或位置)。
在一个或多个实施例中,数字媒体演示将不同转变点与不同音频事件关联。例如,数字媒体演示结合连续音频事件利用微转变点(例如,结合击鼓,数字媒体演示系统快速切到视频的不同部分)。备选地,数字媒体演示针对由附加时间分隔的音频事件利用资产转变点。
数字媒体演示系统基于各种因素标识转变点的类型。例如,数字媒体演示系统可以基于转变点之间的时间、基于对应于转变点的值604的量值、基于对应于转变点的冲击值或其他因素来标识转变点的类型。此外,如下文更详细所述,数字媒体演示系统的一个或多个实施例基于不同类型的转变点修改参数。
如先前所述,数字媒体演示系统可以应用不同的衰减掩蔽阈值以过滤不同的能力或偏好(例如,视觉或听觉能力或偏好)。因此,数字媒体演示系统的一个或多个实施例应用具有与衰减掩蔽阈值504不同的参数的衰减掩蔽阈值602。确实,在利用衰减掩蔽阈值602来使得视觉能力和兴趣接近的实施例中,数字媒体演示系统应用与用于使得听觉能力和兴趣接近的衰减掩蔽阈值不同的参数。因此,例如,初始阈值608可以不同于与衰减掩蔽阈值504相关联的初始阈值。类似地,其他参数可以在衰减掩蔽阈值之间不同,包括但不限于衰减速率、最小阈值、扩展速率(即,在阈值以特定速率扩展的实施例中)、扩展量(即,在阈值扩展特定量的实施例中)、扩展时间(即,在阈值在特定时间段扩展的实施例中)、相交值(即,在限定在某些值而不是零距离相交的实施例中)或其他参数。
除了对于不同的衰减掩蔽阈值调整参数,数字媒体演示系统还可以基于各种其他因素调整参数。例如,数字媒体演示系统可以基于数字视觉内容的一个或多个特征来调整可用于衰减掩蔽阈值的参数。例如,数字媒体演示系统基于数字视觉内容的类型修改可用于衰减掩蔽阈值的参数。具体地,数字媒体演示系统可以向图像、视频、GIF或其他类型或格式的数字视觉内容应用不同的参数。例如,针对图像,数字媒体演示系统可以应用与应用于视频的衰减速率不同的衰减速率(或修改某些其他参数)。
类似地,数字媒体演示系统可以基于数字视觉内容的内容修改可用于衰减掩蔽阈值的参数。例如,数字媒体演示系统的一个或多个实施例可以利用面部识别技术来检测数字视觉内容中拍摄的一个或多个个人。数字媒体演示系统可以基于数字视觉内容中拍摄的个人来修改参数。例如,数字媒体演示系统可以确定用户可能在该用户(或用户的朋友、用户的家人或用户的同事)出现在数字视觉项的情况下对该数字视觉项增加兴趣。因此,在一个或多个实施例中,数字媒体演示系统可以增加与衰减掩蔽阈值相关联的扩展的量(或修改某些其他参数)以将与数字视觉项相关联的增加的兴趣接近。
类似地,数字媒体演示系统的一个或多个实施例可以利用对象识别技术来标识数字视觉内容中拍摄的对象。数字媒体演示系统可以基于数字视觉内容中标识的对象来修改参数。例如,数字媒体演示系统检测照片中的位置、纪念碑或其他对象,并且作为响应,修改与衰减掩蔽阈值相关联的衰减速率(或某些其他参数)。
另外,数字媒体演示系统可以基于多个数字视觉内容项之间的比较来修改参数。例如,在一个或多个实施例中,数字媒体演示系统通过比较一系列数字视觉内容项(例如,将在数字媒体演示中顺序显示的项)中邻接数字视觉内容项来修改参数。例如,数字媒体演示系统识别图像由数字媒体演示中的视频跟随并且基于两类数字视觉内容项之间的差异修改衰减掩蔽阈值的参数。
例如,数字媒体演示系统比较多个数字视觉内容项(例如,将在数字媒体演示中顺序显示的多个数字视觉内容项),并且确定多个数字视觉内容描绘单个个人。在这种情况下,查看者通常将需要较少时间来理解针对多个数字视觉内容项的改变。此外,查看者更可能随时间丢失对描绘相同个人的数字视觉内容项失去兴趣。因此,数字媒体演示系统可以减少衰减掩蔽阈值的扩展的量值(或修改某些其他参数)。通过此方式,数字媒体演示系统可以通过修改附属于衰减掩蔽阈值的参数来针对多个数字视觉内容项的检测特征(例如,资产转变)使得查看者偏好和能力接近。
在其他实施例中,数字媒体演示系统确定多个数字视觉内容项不包含相关内容并且可能需要附加时间供查看者理解。在这种情况下,数字媒体演示系统修改参数(例如,减少衰减速率,增加扩展量或速率)以拉出更适当的转变点。
相关地,一个或多个实施例基于转变点的类型修改针对衰减掩蔽阈值的参数。例如,数字媒体演示系统可以修改针对微转变的参数(例如,增加衰减速率、减少增加量值)。类似地,数字媒体演示系统可以修改针对资产转变的参数(例如,减少衰减速率)。换言之,数字媒体演示系统可以修改参数以便拉出特定类型的转变点。
另外,数字媒体演示系统还可以基于与数字视觉内容相关联的转变效果的类型来修改参数。例如,数字媒体演示系统可以利用转变效果(例如,从一个数字视觉内容项到另一个的视觉渐退效果)从显示一个数字视觉内容项改变到显示另一数字视觉内容项。类似地,数字媒体演示可以应用各种不同的微转变效果(例如,改变数字视觉内容项的颜色;缩放数字视觉内容项的一部分;跳到视频的略微不同部分等)。数字媒体演示系统可以基于特定类型的转变效果来调整参数。
数字媒体演示系统可以基于针对数字视觉内容的各种其他特征来修改参数。例如,数字媒体演示系统可以基于数字视觉内容的大小和/或质量;基于数字视觉内容的长度(例如,视频的长度);基于数字视觉内容的视觉特性(例如,亮度、清晰度、颜色、色度或其他视觉特性);或其他因素来修改参数。
在一个或多个实施例中,数字媒体演示系统还基于用户输入来修改参数。例如,用户可以指示(并修改)与数字媒体演示系统相关联的特定速度或节奏。数字媒体演示系统可以基于由用户请求的所指示的速度或节奏来调整与衰减掩蔽阈值相关联的参数。
除了修改与衰减掩蔽阈值相关联所述的参数,数字媒体演示系统还可以修改其他参数。例如,数字媒体演示系统还可以基于数字视觉内容的特征、用户输入或其他因素来修改伽马值、过滤器或本文所述的其他参数。
应当理解,虽然图6中所示的值604对应于针对图5计算的音频兴趣值508,但是数字媒体演示系统可以将衰减掩蔽阈值602应用于其他值。例如,数字媒体演示系统可以将衰减掩蔽阈值602应用于冲击值或其他值。
类似地,虽然在图5和图6中图示为应用特定数目的衰减掩蔽阈值,但是数字媒体演示系统的其他实施例仅应用单个衰减掩蔽阈值(而其他实施例应用不同数目的衰减掩蔽阈值)。例如,一个或多个实施例将衰减掩蔽阈值602应用于冲击值502,并且基于衰减掩蔽阈值602与冲击值502的相交(即,没有应用衰减掩蔽阈值504)标识转变点。其他实施例应用另一衰减掩蔽阈值。例如,一个或多个实施例针对敲击冲击值(例如,基于敲击能量测量的冲击值)应用一个衰减掩蔽阈值,并且基于谐波冲击值(例如,基于谐波能量测量的冲击值)应用另一衰减掩蔽阈值。类似地,一个或多个实施例针对待连同第一类型数字视觉内容播放的数字音频内容的第一部分应用不同的衰减掩蔽阈值,并且针对待连同第二类型数字视觉内容播放的数字音频内容的第二部分应用第二衰减掩蔽阈值。
现在返回图7,将根据一个或多个实施例提供关于显示数字视觉内容连同数字音频内容的附加细节。具体地,数字媒体演示系统的一个或多个实施例基于标识的转变点显示数字视觉内容连同数字音频内容。例如,图7图示了转变点——具体地,资产转变点702和微转变点704——连同待随时间(即,同步)与数字音频内容一起显示的数字视觉内容项的表示700。在一个或多个实施例中,资产转变点702和微转变点704对应于针对图6的转变点606。
如本文所述,数字媒体演示系统标识转变点,包括资产转变点(即,从一个数字视觉内容项改变到另一数字视觉内容项的转变点)和微转变点(即,修改数字视觉内容项的转变点)。因此,针对图7,数字媒体演示系统已经标识了资产转变点702a。因此,数字媒体演示系统显示数字视觉内容项706a直到转变点702a。在转变点702a,数字媒体演示显示新的数字视觉内容项706b。类似地,在下一个资产转变点702b之后,数字媒体演示系统显示第三数字视觉内容706c。
数字媒体演示系统的一个或多个实施例还在一个或多个资产转变点应用转变效果。例如,在资产转变点702a,数字媒体演示系统显示移除数字视觉内容项706a并展现数字视觉内容项706b的擦拭效果。数字媒体演示系统可以应用各种转变效果。
数字媒体演示系统基于各种因素选择转变效果。在一个或多个实施例中,数字媒体演示系统基于流行值选择转变效果。如本文所使用的,术语“流行值”指的是向转变效果指派的指示转变效果类型的值。例如,流行值包括基于转变效果的长度向转变效果指派的值。例如,在一个或多个实施例中,数字媒体演示系统指派快速从一个数字内容项改变到另一高流行值(例如,流行值1)的转变效果。类似地,在一个或多个实施例中,数字媒体演示指派缓慢从一个数字内容项改变到另一低流行值(例如,流行值0)的转变效果。数字媒体演示系统的其他实施例还基于视觉张力或其他因素向特定转变效果应用流行值。
数字媒体演示可以将流行值和与数字视觉内容和数字音频内容相关联的各种因素进行比较以选择针对特定转变点的转变效果。例如,数字媒体演示可以将流行值和与转变点相关联的冲击值、与转变点相关联的时间(例如,冲击值针对转变点被提高的时间)、音频冲击值的量值、与音频冲击值相关联的时间(例如,差值线506为正的时间)、转变点之间的时间或某些其他因素进行比较。基于比较,数字媒体演示系统可以选择转变效果。
具体地,针对图7的实施例,数字媒体演示系统确定资产转变点702a对应于短持续时间的冲击事件(例如,与转变点相关联的冲击值在短时间段被提高)。基于所述确定,数字媒体演示系统利用高流行值来选择转变效果(例如,短持续时间的转变效果)。
如图7所示,数字媒体演示系统还可以显示针对一个或多个微转变点的数字视觉内容。例如,数字媒体演示系统可以显示数字视觉内容项706c直到微转变点704a。在微转变点704a之后,数字媒体演示系统可以修改数字视觉内容项706c的显示。例如,数字媒体演示系统可以修改数字视觉内容项706c的颜色、缩放到数字视觉内容项706c的一部分、针对示出数字视觉内容项706c的显示设备改变数字视觉内容项706c的位置、或者修改数字视觉内容项706c。如图所示,微转变易于要求较少时间供用户理解;因此,微转变可以在时间上间隔更近。
如图7所示,数字媒体演示系统在时间段上显示数字视觉内容连同数字音频内容。具体地,数字媒体演示系统利用转变点将数字音频内容与数字视频内容同步。具体地,数字媒体演示系统生成数字媒体演示,其中数字视觉内容同步于数字音频内容,其中数字视觉内容中的改变同步于数字音频内容中标识的转变点。通过此方式,数字媒体演示系统生成更娱乐、新颖、情绪化和情感的数字媒体演示。
现在转向图8,将提供关于数字媒体演示系统的部件和能力的附加细节。具体地,图8图示了示例性数字媒体演示系统800(例如,上文所述的数字媒体演示系统)的实施例。如图所示,数字媒体演示系统800可以包括但不限于:内容生成器802、冲击管理器804、转变引擎806、数字演示生成器808和存储管理器810。此外,存储管理器810可以包括数字音频内容812、数字视觉内容814和用户简档816。
数字媒体演示系统800的每个部件802-810与其对应的元件(如图8所示)可以利用任意适当的通信技术彼此通信。容易理解,虽然数字媒体演示系统800的部件802-810与其对应的元件在图8中被单独示出,但是任意部件802-810与其对应的元件可以被组合成较少部件,诸如组成成单个设施或模块,或者分成更多部件或配置为不同部件从而可以服务特定实施例。
数字媒体演示系统800的部件802-810与其对应的元件可以包括软件、硬件或两者。例如,部件802-810与其对应的元件可以包括计算机可读存储介质上存储的并且由一个或多个计算设备的处理器可执行的一个或多个指令。当由一个或多个处理器执行时,数字媒体演示系统800的计算机可执行指令可以使得客户端设备和/或服务器设备执行本文所述的方法。备选地,部件802-810与其对应的元件可以包括硬件,诸如用于执行特定功能或功能组的专用处理设备。附加地或备选地,部件802-810与其对应的元件可以包括计算机可执行指令与硬件的组合。
此外,部件802-810可以例如被实现为一个或多个单独应用、应用的一个或多个模块、一个或多个插件、一个或多个库函数或可以由其他应用调用的函数、和/或云计算模型。因此,部件802-810可以被实现为单独应用,诸如台式机或移动应用。此外,部件802-810可以被实现为在远程服务器上托管的一个或多个基于web的应用。备选地或附加地,部件802-810可以在一套移动设备应用或“app”中实现。为了图示,部件802-810可以在发布应用中实现,包括但不限于:ADOBE VIBE、ADOBE PHOTOSHOP和ADOBE ELEMENTS。“ADOBE”、“VIBE”、“PHOTOSHOP”和“ELEMENTS”是注册商标或者美国和/或其他国家中Adobe Systems公司的商标。
如上文所述,并且如图8所示,数字媒体演示系统800包括内容管理器802。在一个或多个实施例中,内容管理器802访问、收集、标识、选择、布置、分析并提供内容。例如,内容管理器802为数字媒体演示系统800提供数字媒体内容(例如,数字音频内容和数字媒体内容)。
内容管理器802访问来自任意可用源的数字媒体内容。例如,内容管理器802访问来自客户端设备(例如,来自存储管理器810、数字音频内容812和数字视觉内容814)、来自本地服务器(例如,连接到提供数字媒体内容的本地服务器的家庭网络)、来自远程服务器(例如,具有用于提供数字媒体内容的软件应用的远程服务器)、来自云服务或某些其他源的数字媒体内容。因此,内容管理器802可以访问来自具有音乐播放列表的智能电话;来自经由网络可访问的第三方音乐服务提供者;来自数字音乐存储介质(例如,音频压缩盘)或某些其他源的数字音频内容。类似地,内容管理器802可以访问来自智能电话上照片或视频画廊,来自基于云的存储服务或来自某些其他源的数字视觉内容。
内容管理器802还选择内容。具体地,内容管理器802选择要在数字媒体演示中使用的内容。例如,内容管理器802选择要在数字媒体演示中使用的数字音频内容和数字媒体内容。内容管理器802可以基于各种因素选择内容。例如,内容管理器802可以基于数字音频内容的特征(例如,流派、类型、音频特性)、用户偏好、利用率(例如,用户收听数字音频内容的频率)、数字视觉内容的特征或其他因素来选择数字音频内容。类似地,内容管理器802可以基于用户偏好、数字音频内容的特征、数字视觉内容的特征或内容(例如,数字视觉内容中描绘的个人或对象)、与数字视觉内容相关联的日期或时间、与数字视觉内容相关联的位置、用户输入或其他因素来选择数字视觉内容。
在一个或多个实施例中,内容管理器802还布置内容。具体地,内容管理器802按顺序布置数字音频内容。例如,内容管理器802按顺序布置数字音频内容以连同数字音频内容显示。类似地,内容管理器802按顺序布置多个数字音频内容项以播放同时显示数字视觉内容。内容管理器802可以基于各种因素布置内容。例如,内容管理器802基于数字音频内容的特征、用户偏好、利用率、数字视觉内容的特征、用户输入、日期或时间、位置、用户输入或其他因素来布置数字音频和数字视觉内容。
在一个或多个实施例中,内容管理器802还分析内容。例如,内容管理器802分析数字音频内容或数字视觉内容。具体地,内容管理器802可以分析数字音频内容或数字视觉内容并且检测数字音频内容或数字视觉内容的特征。
例如,在一个或多个实施例中,内容管理器802分析数字视觉内容并且标识数字视觉内容中描绘的个人或对象。具体地,在一个或多个实施例中,内容管理器802包括面部识别和/或对象识别技术。因此,内容管理器802可以标识个人,诸如用户、朋友、家人、亲戚或数字视觉内容中描绘的其他个人。类似地,内容管理器802可以标识对象,诸如纪念碑、位置、植被、交通工具、建筑物、家、山脉或数字视觉内容中描绘的其他对象。类似地,在一个或多个实施例中,内容管理器802分析数字视觉内容并标识其他特征。例如,内容管理器802可以标识颜色、亮度、色度、质量、大小、长度或数字视觉内容的其他特征。此外,可选地,内容管理器802分析数字音频内容并且标识数字音频内容的特征。例如,在一个或多个实施例中,内容管理器802可以分析数字音频内容并且标识流派、类型、长度、艺术家、质量或数字音频内容的其他特征。
此外,如图8所示,数字媒体演示系统800还包括冲击生成器804。冲击生成器804可以计算、生成、检测、标识和检测数字音频内容的冲击。具体地,冲击生成器804可以计算针对数字音频内容的一个或多个冲击值。
例如,如下文更详细所述,冲击生成器804接收数字音频内容(例如,从内容管理器802)并且检测与数字音频内容相关联的一个或多个能量测量。例如,冲击生成器804确定在与数字音频内容相关联的特定时间段对应于频率的振幅。
此外,冲击生成器804基于一个或多个能量测量计算冲击值。具体地,冲击生成器804计算一个或多个能量测量随时间的改变。例如,冲击生成器804计算相对于在特定时间点的能量测量随时间能量测量的差值。更具体地,冲击生成器804计算对应于特定范围(例如,频率范围)的范围冲击值。冲击生成器804还可以计算在特定时间段的冲击值(例如,通过将特定时间段的范围冲击值加在一起)。
为了计算冲击值,冲击生成器804还可以修改一个或多个能量测量。例如,冲击生成器804应用一个或多个加权曲线、计算针对与数字音频内容相关联的能量测量的质心、归一化针对数字音频内容的能量测量(例如,基于质心归一化)、向能量测量应用一个或多个曲线(例如,伽马值)或者修改能量测量来计算冲击值。
冲击生成器804还可以计算特定类型的冲击。例如,冲击生成器804计算针对特定能量测量的冲击,诸如敲击冲击、谐波冲击或抒情冲击。例如,冲击生成器804应用一个或多个过滤器以隔离某些能量测量(例如,敲击能量、谐波能量或抒情能量)并且基于经过滤的能量测量来计算冲击值。
如图8所示,数字媒体演示系统800还包括转变引擎806。转变引擎806可以标识、确定、计算、指派或生成一个或多个转变点。具体地,转变引擎806可以利用冲击值(例如,来自冲击生成器804的冲击值)来标识一个或多个转变点。更具体地,转变引擎806标识数字音频内容内用于将数字视觉内容与数字音频内容同步的转变点作为数字媒体演示的一部分。
如上文所述,在一个或多个实施例中,转变引擎806利用一个或多个衰减掩蔽阈值来标识转变点。例如,转变引擎806可以应用针对某些听觉能力或偏好的初始衰减掩蔽阈值。更具体地,转变引擎806可以应用过滤重复音频事件和/或负责在显著音频事件之后收听者体验的冲击中的相对减少的衰减掩蔽阈值。
此外,转变引擎806可以应用针对某些视觉能力或偏好的第二衰减掩蔽阈值。例如,转变引擎806可以应用过滤在时间上对于用户视觉理解太靠近(例如,对于用户舒服地处理数字视觉内容而言太)的冲击事件的第二衰减掩蔽阈值。类似地,转变引擎806可以应用负责随时间对用户体验的数字视觉内容减少兴趣的第二衰减掩蔽阈值。
因此,转变引擎806应用在初始阈值开始、以衰减速率衰减直到与一个或多个函数或值相交(例如,与冲击值相交)、基于相交扩展(例如,以特定速率扩展或扩展特定量)继而继续衰减的衰减掩蔽阈值。此外,转变引擎806修改初始阈值、衰减速率、扩展速率(和/或量)和衰减掩蔽阈值之间的其他参数。
转变引擎806可以通过将衰减掩蔽阈值与一个或多个值进行比较来标识转变点。例如,转变引擎806通过将衰减掩蔽阈值与冲击值、从冲击值导出的值(例如,音频兴趣值)或其他值进行比较来标识转变点。更具体地,在一个或多个实施例中,转变引擎806基于衰减掩蔽阈值与其他值(例如,冲击值、音频兴趣值或其他值)之间的相交来标识转变点。
转变引擎806还可以生成多个类型的转变点。例如,转变引擎806可以标识对应于两个或更多个数字视觉内容项之间改变(例如,资产转变)的转变点,对应于两个或更多类型的数字视觉内容项之间改变的转变点,对应于对数字视觉内容项的修改之间改变(例如,微转变)的转变点或其他转变点。
转变引擎806还可以标识转变效果。具体地,转变引擎806可以在转变点向数字视觉内容应用各种转变效果。例如,转变引擎806可以改变数字内容项的显示,在第一数字视觉内容项之后并且在第二数字视觉内容项之前显示图形,或者提供某些其他转变效果。
如本文所述,转变引擎806标识一个或多个转变点。转变引擎806还可以在标识转变点时修改一个或多个参数。例如,转变引擎806可以基于各种因素修改针对衰减掩蔽阈值的参数。例如,转变引擎806可以基于数字视觉内容的一个或多个特征(例如,由内容管理器802标识的特征),基于数字视觉内容项之间的比较,基于转变点的类型,基于转变效果的类型,基于数字视觉内容的大小和/或质量或其他因素来修改针对衰减掩蔽阈值的参数。
例如,转变引擎806可以基于数字视觉项的内容来修改衰减掩蔽阈值参数(例如,初始阈值、衰减速率、扩展速率或量、最小阈值等)。具体地,转变引擎806可以基于数字视觉内容中描绘的个人或对象来修改参数。
此外,如图8所示,数字媒体演示系统800还包括数字演示生成器808。数字演示生成器808可以创建、显示、生成或提供一个或多个数字媒体演示。例如,数字演示生成器808可以将数字音频内容和数字视觉内容(即,由内容管理器802提供的内容)组合成数字媒体演示。
具体地,数字演示生成器808可以基于转变点(例如,由转变引擎806标识的转变点)创建并显示数字媒体演示。例如,数字演示生成器808可以基于标识的转变点将音频内容与数字视觉内容同步。因此,例如,数字演示生成器808可以提供向显示设备显示的图像,经由音频播放设备提供用于演示的歌曲,并且在歌曲播放时,在歌曲中标识的转变点处修改图像。
另外,如图8所示,数字演示生成器808还包括存储管理器810。存储管理器810维护数字媒体演示系统800的数据。存储管理器810可以维护执行数字媒体演示系统800的各功能所需的任意类型、大小或种类的数据。
如图所示,存储管理器810包括数字音频内容812。数字音频内容812可以包括本文所述的任意数字音频内容。例如,数字音频内容812可以包括由内容管理器802收集的数字音频内容,先前由数字媒体演示系统800利用的数字音频内容,由客户端设备上的用户访问或维护的数字音频内容或者任意其他数字音频内容812。
另外,如图8所示,存储管理器810还包括数字视觉内容814。数字视觉内容814可以包括本文所述的任意数字视觉内容。例如,数字视觉内容814可以包括由内容管理器802收集的数字视觉内容,先前由数字媒体演示系统800利用的数字视觉内容,由客户端设备上的用户访问或维护的数字视觉内容或者任意其他数字视觉内容。
此外,如图8所示,存储管理器810还包括用户简档816。用户简档816可以存储与数字媒体演示系统800的一个或多个用户相关的数据。例如,用户简档816可以包括关于数字媒体演示系统800的利用率的信息,关于一个或多个设备的利用率的信息,统计信息,先前由一个或多个用户提供的用户输入,针对数字音频内容和/或数字视觉内容的用户偏好或关于一个或多个用户的其他信息。
数字媒体演示系统800的各种部件利用用户简档816来执行其功能。例如,内容管理器802可以利用用户简档816来选择并布置数字音频内容和/或数字视觉内容;冲击生成器804可以利用用户简档816来在计算冲击值时选择一个或多个参数;以及转变引擎806可以利用用户简档816来选择一个或多个转变点。
图9图示了其中数字媒体演示系统800可以操作的示例性环境900的一个实施例的示意图。在一个或多个实施例中,示例性环境900包括一个或多个客户端设备902a、902b…902n,网络904和包含软件部件908的服务器906。网络904可以是计算设备在其上可以通信的任意适当网络。示例网络下面参考图11更详细描述。
如图9所示,环境900可以包括客户端设备902a-902n。客户端设备902a-902n可以包括任意计算设备。例如,客户端设备902a-902n可以包括一个或多个个人计算机、膝上型计算机、移动设备、移动电话、平板、专用计算机、TV或其他计算设备,包括下文参考图11描述的计算设备。
另外,环境900还可以包括服务器906。服务器906可以生成、存储、接收和传输任意类型的数据,包括数字音频内容812和/或数字视觉内容814。例如,服务器906可以向客户端设备(诸如客户端设备902a)传输数据。服务器906还可以在环境900的一个或多个用户之间传输电消息。在一个示例性实施例中,服务器906包括内容服务器。服务器906还可以包括通信服务器或web托管服务器。关于服务器906的附加细节将在下文参考图11进行论述。
如本文所述,在一个或多个实施例中,服务器906可以包括软件部件908。具体地,软件部件908可以包括在服务器906上运行的应用或者可以从服务器906下载的软件应用的一部分。例如,软件部件908可以包括允许客户端设备902a-902n与服务器906处托管的内容交互的web托管应用。为了图示,在示例性环境900的一个或多个实施例中,一个或多个客户端设备902a-902n可以访问由服务器906支持的网页。具体地,客户端设备902a可以运行web应用(例如,web浏览器)来允许用户访问、查看和/或与服务器906处托管的网页和/或网站交互。
虽然图9图示了客户端设备902a-902n、网络904、服务器906和软件部件908的特定布置,但是各种附加布置也是可能的。例如,虽然图9图示了多个单独客户端设备902a-902n经由网络904与服务器906通信,但是在一个或多个实施例中,单个客户端设备可以直接与服务器906通信,从而旁路网络904。
类似地,虽然图9的环境900被描述为具有各种部件,但是环境900可以具有附加或备选部件。例如,数字媒体演示系统800可以在单个计算设备上实现。具体地,数字媒体演示系统800可以全部由客户端设备902a或服务器906实现。
通过示例的方式,在一个或多个实施例中,客户端设备902a可以结合服务器906和/或软件部件908工作以下载、流传输、或者访问、查看、和/或与服务器906托管的内容交互。客户端设备902a可以标识数字媒体演示中利用的数字音频内容和数字视觉内容。此外,如上文详细所述,客户端设备902a可以计算转变点、将数字音频内容与数字视觉内容同步、以及生成一个或多个数字媒体演示。
附加地或备选地,在一个或多个实施例中,服务器906和软件部件908可以允许用户选择由服务器906托管的期望内容(例如,数字音频内容和数字视觉内容)。此外,服务器906可以计算一个或多个转变点,将数字音频内容与数字视觉内容同步,以及生成一个或多个数字媒体演示。服务器906继而可以经由网络904向客户端设备902a通信、提供、发送或下载一个或多个数字媒体演示。此外,客户端设备902a可以向服务器906通信、指导或指示向客户端设备902a-902n(和/或与客户端设备902a-902n相关联的用户)发送一个或多个数字媒体演示。作为响应,服务器906可以向客户端设备902a-902n传输、发送或者提供一个或多个数字媒体演示。
图1至图9中,对应的文本和示例提供了若干不同的系统和设备,用于允许用户促进创建一个或多个数字媒体演示。除了上文所述,实施例还可以根据流程图进行描述,其中包括用于达到特定结果的方法中的各动作和步骤。例如,图10和图11图示了根据一个或多个实施例的示例性方法的流程图。关于图10和图11所述的方法可以用更少或者更多步骤/动作来执行,或者可以按照不同顺序执行步骤/动作。附加地,可以重复或者相互并行地执行或者与相同或者相似步骤/动作的不同实例并行地执行本文描述的步骤/动作。
图10图示了根据一个或多个实施例创建一个或多个数字媒体演示的方法1000中的一系列动作的流程图。在一个或多个实施例中,方法1000在包括数字媒体演示系统800的数字媒体环境中执行。方法1000旨在图示根据本公开的一个或多个方法,并不旨在限制潜在的实施例。备选实施例可以包括比图10所示附加的步骤、更少的步骤或不同的步骤。
方法1000包括基于能量测量的改变来计算冲击值的动作1002。具体地,动作1002可以包括通过计算与关联于数字音频内容的多个时间段相关联的能量测量的改变来计算针对所述时间段的冲击值。另外,动作1002还可以包括计算多个时间段中的第一时间段与多个时间段中的第二时间段之间能量测量相对于与第二时间段数字音频内容相关联的能量测量的量的改变。
类似地,动作1002还可以包括将与数字音频内容相关联的多个时间段分成多个范围,第一时间段中多个范围的每个范围对应于第二时间段中多个范围的范围,并且针对第二时间段中的每个范围,计算与第二时间段中数字音频内容的范围相关联的能量测量和与第一时间段中数字音频内容的对应范围相关联的能量测量之间的差值。此外,动作1002可以包括针对第二时间段中的每个范围,通过将经计算的与第二时间段中数字音频内容的范围相关联的能量测量和与第一时间段中数字音频内容的对应范围相关联的能量测量之间的差值乘以经计算的与第二时间段中数字音频内容的范围相关联的能量测量来计算范围冲击值,以及通过组合范围冲击值来计算与第二时间段相关联的冲击值。
另外,动作1002还可以包括计算针对数字音频内容的能量测量的质心;基于质心归一化能量测量;以及向归一化能量测量应用曲线。此外,针对动作1002,能量测量可以包括以下各项中的一个或多个:振幅、功率、强度、音量或响度。
如图10所示,方法1000还包括使用衰减掩蔽阈值选择转变点的动作1004。动作1004还可以包括基于数字音频内容中的冲击值使用衰减掩蔽阈值来选择转变点,其中衰减掩蔽阈值衰减直到与第一冲击值相交,响应于与第一冲击值相交而增加,并且再次衰减直到与第二冲击值相交,其中相交的冲击值被用于选择转变点。
类似地,动作1004还可以包括通过向经计算的冲击值应用第一衰减掩蔽阈值来生成音频兴趣值,该第一衰减掩蔽阈值以第一速率衰减。此外,动作1004还可以包括通过向音频冲击值应用第二衰减掩蔽阈值来选择转变点,该第二衰减掩蔽阈值以不同于第一速率的第二速率衰减。
此外,动作1004还可以包括通过将衰减掩蔽阈值与冲击值进行比较并且应用第二衰减掩蔽阈值来计算音频兴趣值,该第二衰减掩蔽阈值衰减直到与第一音频兴趣值相交,响应于与第一音频兴趣值相交而扩展,并且再次衰减直到与第二音频兴趣值相交,其中相交的音频兴趣值被用于选择转变点。此外,在动作1004的一个或多个实施例中,衰减掩蔽阈值以第一速率衰减并且第二衰减掩蔽阈值以不同于第一速率的第二速率衰减。类似地,在动作1004的一个或多个实施例中,衰减掩蔽阈值扩展与第一冲击值的量值成比例的量值。
另外,动作1004还可以包括检测数字视觉内容的一个或多个特性,并且基于所检测的视觉内容的一个或多个特性来修改以下各项中的至少一个:衰减掩蔽阈值扩展的量值;衰减掩蔽阈值扩展的速率;衰减掩蔽阈值衰减的量值;或者衰减掩蔽阈值衰减的速率。类似地,在动作1004的一个或多个实施例中,数字视觉内容的一个或多个特性包括以下各项中的至少一个:与数字视觉内容的用户交互,数字视觉内容中描绘的对象;数字视觉内容中描绘的个人,以及数字视觉内容的类型。
此外,如图10所示,方法1000还包括基于选定的转变点生成演示的动作1006。具体地,动作1006可以包括通过基于选定的转变点将数字视觉内容与数字音频内容同步来生成数字视觉内容的演示。另外,动作1006还可以包括基于选定的转变点生成数字视觉内容连同数字音频内容的演示。
本公开内容的实施例可以包括或利用包括计算机硬件的专用或通用计算机,该计算机硬件诸如为一个或多个处理器和系统存储器,如在下面更详细讨论的。本公开内容的范围内的实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体而言,本文所描述的一个或多个过程可以至少部分被实现为包含在非瞬态计算机可读介质内并且可被一个或多个计算设备(例如,本文描述的任何媒体内容访问设备)执行的指令。一般而言,处理器(例如,微处理器)从非瞬态计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,由此执行包括本文描述的一个或多个的过程的一个或多个过程。
计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非瞬态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因而,通过举例而不是限制的方式,本公开内容的实施例可包括至少两种完全不同类型的计算机可读介质:非瞬态计算机可读存储介质(设备)和传输介质。
非瞬态计算机可读存储介质(设备)包括:RAM、ROM、EEPROM、CD-ROM、固态驱动器(“SSD”)(例如,基于RAM)、闪存、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储、磁盘存储或其他磁存储设备,或者可以用来存储作为计算机可执行指令或数据结构形式的期望的程序代码装置并且可以被通用或专用计算机访问的任何其他介质。
“网络”被定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或另一通信连接(硬连线,无线,或硬连线或无线的组合)而被传送或提供至计算机时,计算机将该连接适当地视为传输介质。传输介质可以包括网络和/或数据链路,其可被用来携带作为计算机可执行指令或数据结构形式的所需程序代码装置并且可被通用或专用计算机访问。上述的组合也应被包括在计算机可读介质的范围之内。
另外,在到达各种计算机系统组件之后,作为计算机可执行指令或数据结构的形式的程序代码装置可从传输介质自动传送到非瞬态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可以在网络接口模块(例如,“NIC”)内的RAM中被缓冲,然后最终被传送到计算机系统RAM和/或传送到计算机系统处的较不易失的计算机存储介质(设备)。因而,应该理解的是,非瞬态计算机可读存储介质(设备)可以被包括在也(或甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如指令和数据,其当在处理器处被执行时使得通用计算机、专用计算机、或专用处理设备执行某一功能或功能组。在一些实施例中,计算机可执行指令在通用计算机上被执行,以将通用计算机变为实现本公开内容的要素的专用计算机。这些计算机可执行指令可以例如是二进制代码、诸如汇编语言之类的中间格式指令,或甚至源代码。虽然本主题已经以特定于结构特征和/或方法动作的语言进行了描述,但是将会理解,在所附权利要求中定义的主题不一定限于上面描述的特征或动作。相反,所描述的特征和动作被公开为实现权利要求的示例形式。
本领域技术人员将理解,本公开内容可以在具有许多类型的计算机系统配置的网络计算环境中被实践,这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板计算机、寻呼机、路由器、交换机等。本公开内容也可以在分布式系统环境中被实践,在该分布式系统环境中,通过网络被链接(或者通过硬连线数据链路、无线数据链路、或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统均执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备中。
本公开内容的实施例也可以在云计算环境中实现。在本说明书中,“云计算”被定义为用于使能到可配置计算资源的共享池的按需网络访问的模型。例如,云计算可以在市场上被用来提供到可配置计算资源的共享池的无处不在的、便捷的按需访问。可配置计算资源的共享池可以经由虚拟化被快速配置并且以低管理付出或服务提供商交互被释放,然后相应地缩放。
云计算模型可以由各种特性组成,这些特性诸如是按需自助服务、宽网络接入、资源池化、快速弹性、测量服务等等。云计算模型也可以暴露各种服务模型,诸如,软件即服务(“SaaS”)、平台即服务(“PaaS”)和基础设施即服务(“IaaS”)。云计算模型也可以使用不同的部署模型部署,这些部署模型诸如是私人云、社区云、公共云、混合云等等。在本说明书和权利要求书中,“云计算环境”是其中采用云计算的环境。
图11以框图的形式图示了可以被配置为执行上述过程中的一个或多个过程的例示性计算设备1100。将会认识到,数字媒体演示系统800可以包括计算设备1100的实现方式。如图11所示,计算设备可包括处理器1102、存储器1104、存储设备1106、I/O接口1108和通信接口1110。虽然示例性计算设备1100被示出在图11中,但图11中所示的部件并不旨在进行限制。附加的或备选的部件可以在其他实施例中使用。另外,在某些实施例中,计算设备1100可以包括比图11中所示的那些更少的部件。图11中所示的计算设备1100的部件现在将另外进行详细描述。
在具体的实施例中,处理器1102包括用于执行指令(诸如那些构成计算机程序的指令)的硬件。作为示例而不是通过限制的方式,为了执行指令,处理器1102可以从内部寄存器、内部高速缓存、存储器1104、或存储设备1106中检索(或取回)指令并且解码并执行它们。在特定实施例中,处理器1102可包括一个或多个用于数据、指令或地址的内部高速缓存。作为一个示例而不是通过限制的方式,处理器1102可包括一个或多个指令高速缓存、一个或多个数据高速缓存、以及一个或多个转换后备缓冲器(TLB)。指令高速缓存中的指令可以是存储器1104或存储1106中的指令的拷贝。
计算设备1100包括存储器1104,其耦合至处理器1102。存储器1104可用于存储用于由一个或多个处理器执行的数据、元数据和程序。存储器1104可包括一个或多个易失性和非易失性存储器,诸如随机存取存储器(“RAM”)、只读存储器(“ROM”)、固态盘(“SSD”)、闪存、相变存储器(“PCM”)或其他类型的数据存储装置。存储器1104可以是内部或分布式存储器。
计算设备1100包括存储设备1106,其包括用于存储数据或指令的存储装置。作为示例而不是通过限制的方式,存储设备1106可以包括上面描述的非瞬态存储介质。存储设备1106可包括硬盘驱动器(HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带、或通用串行总线(USB)驱动器或这些中的两种或更多种的组合。在适当情况下,存储设备1106可包括可移动或不可移动(或固定)的介质。存储设备1106可以在计算设备1100的内部或外部。在特定实施例中,存储设备1106是非易失性、固态存储器。在特定实施例中,存储设备1106包括只读存储器(ROM)。在适当情况下,该ROM可以是掩模编程ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写的ROM(EAROM)、或闪存、或这些中的两种或更多种的组合。
计算设备1100还包括一个或多个输入或输出(“I/O”)设备/接口1108,其被提供用于允许用户向计算设备1100提供输入(诸如用户笔画),接收来自计算设备1100的输出,以及以其他方式向计算设备1100传送数据和从计算设备1100接收数据。I/O设备/接口1108可包括鼠标、小键盘或键盘、触摸屏、摄像头、光学扫描仪、网络接口、调制解调器、其他已知的I/O设备或这种I/O设备/接口1108的组合。触摸屏可以由触笔或手指激活。
I/O设备/接口1108可以包括用于向用户呈现输出的一个或多个设备,包括但不限于:图形引擎、显示器(例如,显示屏)、一个或多个输出驱动程序(例如,显示驱动程序)、一个或多个音频扬声器、以及一个或多个音频驱动程序。在某些实施例中,I/O设备/接口1108被配置为提供图形数据到显示器以用于向用户呈现。图形数据可以代表一个或多个图形用户界面和/或可以用作特定实现方式的任何其他图形内容。
计算设备1100还可以包括通信接口1110。通信接口1110可以包括硬件、软件、或两者皆有。通信接口1110可以提供一个或多个用于计算设备与一个或多个其他计算设备1100或一个或多个网络之间的通信(诸如,基于分组的通信)的接口。作为示例而不是通过限制的方式,通信接口1110可包括网络接口控制器(NIC)或用于与以太网或其他基于有线的网络通信的网络适配器或用于与诸如WI-FI之类的无线网络通信的无线NIC(WNIC)或无线适配器。
本公开考虑任意适当的网络和任意适当的通信接口1110。作为示例而不是通过限制的方式,通信接口1110可与ad hoc(自组织)网络、个人区域网(PAN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、或因特网的一个或多个部分、或这些中的两种或更多种的组合的通信。这些网络中的一个或多个网络的一个或多个部分可以是有线的或无线的。作为示例,计算系统1100可与无线PAN(WPAN)(诸如,蓝牙WPAN)、WI-FI网络、WI-MAX网络、蜂窝电话网络(诸如,全球移动通信系统(GSM)网络)、或其他合适的无线网络或其组合的通信。在适当情况下,计算设备1100可以包括任意适当的通信接口1110用于这些网络中的任意网络。
计算设备1100可以进一步包括总线1112。总线1112可包括使计算设备1100的组件相互耦合的硬件、软件、或两者皆有。作为示例而不是通过限制的方式,总线1112可包括加速图形端口(AGP)或其他图形总线、扩展工业标准体系结构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准体系结构(ISA)总线、INFINIBAND互连、低引脚数(LPC)总线、存储器总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCIe)总线、串行高级技术附件(SATA)总线、视频电子标准协会本地(VLB)总线、或另一种合适的总线或其组合。
在前述的说明书中,本发明已经参照其具体的示例性实施例进行了描述。各种实施例和本发明的各方面参照本文所讨论的细节进行描述,并且附图例示出各种实施例。上面的描述和附图用于例示本发明,并且不应当被解释为限制本发明。许多具体细节被描述以提供对本发明的各种实施例的彻底理解。
本发明可以以其他特定形式来体现而不脱离其精神或本质特性。描述的实施例将被认为在所有方面都仅是例示性的而不是限制性的。例如,本文描述的方法可用更少或更多的步骤/动作来执行或步骤/动作可以以不同顺序执行。此外,本文所描述的步骤/动作可被重复或被相互并行地执行或与相同或类似的步骤/动作的不同实例并行地执行。因此,本申请的范围由所附权利要求而不是由前面的描述指示。在权利要求的含义和等价范围内的所有改变都将包含在其范围之内。

Claims (20)

1.在用于创建数字媒体演示的数字媒体环境中,一种通过基于音频冲击设置转变来将视觉媒体与音频媒体同步的方法,包括:
通过计算与关联于数字音频内容的多个时间段相关联的能量测量的改变来计算针对所述时间段的冲击值;
基于所述数字音频内容中的所述冲击值使用衰减掩蔽阈值来选择转变点,所述衰减掩蔽阈值衰减直到与第一冲击值相交,响应于与所述第一冲击值的所述相交而增加,并且再次衰减直到与第二冲击值相交,其中所相交的冲击值被用于选择转变点;以及
通过基于所选定的转变点将数字视觉内容与所述数字音频内容同步来生成所述数字视觉内容的演示。
2.根据权利要求1所述的方法,其中计算冲击值进一步包括:
计算所述多个时间段中的第一时间段与所述多个时间段中的第二时间段之间的所述能量测量相对于与所述第二时间段处的所述数字音频内容相关联的所述能量测量的量的改变。
3.根据权利要求1所述的方法,其中计算冲击值进一步包括:
将与所述数字音频内容相关联的所述多个时间段分成多个范围,第一时间段中的所述多个范围的每个范围对应于第二时间段中的所述多个范围的范围;以及
针对所述第二时间段中的每个范围,计算与来自所述第二时间段中的所述数字音频内容的所述范围相关联的能量测量和与来自所述第一时间段中的所述数字音频内容的对应范围相关联的能量测量之间的差值。
4.根据权利要求3所述的方法,其中计算冲击值进一步包括:
针对所述第二时间段中的每个范围,通过将所计算的与来自所述第二时间段中的所述数字音频内容的所述范围相关联的所述能量测量和与来自所述第一时间段中的所述数字音频内容的所述对应范围相关联的所述能量测量之间的差值乘以所计算的与来自所述第二时间段中的所述数字音频内容的所述范围相关联的能量测量来计算范围冲击值;以及
通过组合所述范围冲击值来计算与所述第二时间段相关联的冲击值。
5.根据权利要求4所述的方法,其中计算冲击值进一步包括:
计算针对所述数字音频内容的所述能量测量的质心;
基于所述质心归一化所述能量测量;以及
向所归一化的能量测量应用曲线。
6.根据权利要求4所述的方法,其中所述能量测量包括以下各项中的一项或多项:振幅、功率、强度、音量或响度。
7.根据权利要求1所述的方法,其中选择转变点进一步包括:
通过将所述衰减掩蔽阈值与所述冲击值进行比较来计算音频兴趣值;以及
应用第二衰减掩蔽阈值,所述第二衰减掩蔽阈值衰减直到与第一音频兴趣值相交,响应于与所述第一音频兴趣值的所述相交而扩展,并且再次衰减直到与第二音频兴趣值相交,其中所相交的音频兴趣值被用于选择转变点。
8.根据权利要求7所述的方法,其中:
所述衰减掩蔽阈值以第一速率衰减;以及
所述第二衰减掩蔽阈值以不同于所述第一速率的第二速率衰减。
9.根据权利要求1所述的方法,其中所述衰减掩蔽阈值扩展与所述第一冲击值的量值成比例的量值。
10.根据权利要求1所述的方法,进一步包括:
检测所述数字视觉内容的一个或多个特性;以及
基于所检测的所述视觉内容的一个或多个特性来修改以下各项中的至少一项:所述衰减掩蔽阈值扩展的量值;所述衰减掩蔽阈值扩展的速率;所述衰减掩蔽阈值衰减的量值;或者所述衰减掩蔽阈值衰减的速率。
11.一种系统,包括:
至少一个处理器;
至少一个其上存储有指令的非瞬态计算机可读存储介质,所述指令在由所述至少一个处理器执行时,使得所述系统:
通过计算与关联于数字音频内容的多个时间段相关联的能量测量的改变来计算针对所述时间段的冲击值;
基于所述数字音频内容中的所述冲击值使用衰减掩蔽阈值来选择转变点,所述衰减掩蔽阈值衰减直到与第一冲击值相交,响应于与所述第一冲击值的所述相交而增加,并且再次衰减直到与第二冲击值相交,其中相交的冲击值被用于选择转变点;以及
通过基于所选定的转变点将数字视觉内容与所述数字音频内容同步来生成所述数字视觉内容的演示。
12.根据权利要求11所述的系统,其中所述指令在由所述至少一个处理器执行时使得所述系统通过计算所述多个时间段中的第一时间段与所述多个时间段中的第二时间段之间的所述能量测量相对于与所述第二时间段处的所述数字音频内容相关联的所述能量测量的量的改变来计算冲击值。
13.根据权利要求11所述的系统,其中所述指令在由所述至少一个处理器执行时使得所述系统通过进行以下操作来计算冲击值:
将与所述数字音频内容相关联的所述多个时间段分成多个范围,第一时间段中的每个范围对应于第二时间段中的范围;
针对所述第二时间段中的每个范围,计算与来自所述第二时间段中的所述数字音频内容的所述范围相关联的能量测量和与来自所述第一时间段中的所述数字音频内容的对应范围相关联的能量测量之间的差值;以及
通过组合所计算的针对每个范围的差值来计算与所述第二时间段相关联的冲击值。
14.根据权利要求11所述的系统,其中所述衰减掩蔽阈值扩展与所述第一冲击值的量值成比例的量值。
15.根据权利要求11所述的系统,进一步包括在由所述至少一个处理器执行时使得所述系统进行以下操作的指令:
检测所述视觉内容的一个或多个特性;以及
基于所检测的所述视觉内容的一个或多个特性来修改以下各项中的至少一项:所述衰减掩蔽阈值扩展的量值;所述衰减掩蔽阈值扩展的速率;所述衰减掩蔽阈值衰减的量值;或者所述衰减掩蔽阈值衰减的速率。
16.在用于创建数字媒体演示的数字媒体环境中,一种随时间组合并演示视觉与音频媒体的方法,包括:
通过计算与关联于数字音频内容的多个时间段相关联的能量测量的改变来计算针对所述时间段的冲击值;
通过向所计算的冲击值应用第一衰减掩蔽阈值来生成音频兴趣值,所述第一衰减掩蔽阈值以第一速率衰减;
通过向所述音频冲击值应用第二衰减掩蔽阈值来选择转变点,所述第二衰减掩蔽阈值以不同于所述第一速率的第二速率衰减;以及
基于所选定的转变点,生成数字视觉内容连同所述数字音频内容的演示。
17.根据权利要求16所述的方法,其中:
所述第一衰减掩蔽阈值衰减直到与第一冲击值相交,响应于与所述第一冲击值的所述相交而增加,并且再次衰减直到与第二冲击值相交;
所述方法进一步包括基于所述冲击值与所述第一衰减掩蔽阈值之间的差值来生成音频兴趣值;以及
所述第二衰减掩蔽阈值衰减直到与第一音频兴趣值相交,响应于与所述第一音频兴趣值的所述相交而增加,并且再次衰减直到与第二音频兴趣值相交;以及
所述方法进一步包括基于所相交的音频兴趣值来选择转变点。
18.根据权利要求16所述的方法,其中计算冲击值进一步包括计算所述多个时间段中的第一时间段与所述多个时间段中的第二时间段之间的所述能量测量相对于与所述第二时间段处的所述数字音频内容相关联的所述能量测量的量的改变。
19.根据权利要求16所述的方法,进一步包括:
检测所述数字视觉内容的一个或多个特性;以及
基于所检测的所述视觉内容的一个或多个特性来修改以下各项中的至少一项:所述第二衰减掩蔽阈值扩展的量值;所述第二衰减掩蔽阈值扩展的速率;所述第二衰减掩蔽阈值衰减的量值;或者所述第二衰减掩蔽阈值衰减的速率。
20.根据权利要求19所述的方法,其中所述数字视觉内容的所述一个或多个特性包括以下各项中的至少一项:与所述数字视觉内容的用户交互,在所述数字视觉内容中描绘的对象;在所述数字视觉内容中描绘的个人,以及所述数字视觉内容的类型。
CN201610796521.1A 2015-08-31 2016-08-31 利用音频数字冲击以创建数字媒体演示 Active CN106484765B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/841,262 2015-08-31
US14/841,262 US9786327B2 (en) 2015-08-31 2015-08-31 Utilizing audio digital impact to create digital media presentations

Publications (2)

Publication Number Publication Date
CN106484765A true CN106484765A (zh) 2017-03-08
CN106484765B CN106484765B (zh) 2021-09-21

Family

ID=56891442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610796521.1A Active CN106484765B (zh) 2015-08-31 2016-08-31 利用音频数字冲击以创建数字媒体演示

Country Status (5)

Country Link
US (2) US9786327B2 (zh)
CN (1) CN106484765B (zh)
AU (1) AU2016204526B2 (zh)
DE (1) DE102016010422A1 (zh)
GB (1) GB2541780B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9448789B2 (en) * 2014-04-04 2016-09-20 Avid Technology, Inc. Method of consolidating, synchronizing, and streaming production content for distributed editing of media compositions
US9805662B2 (en) * 2015-03-23 2017-10-31 Intel Corporation Content adaptive backlight power saving technology
US9786327B2 (en) 2015-08-31 2017-10-10 Adobe Systems Incorporated Utilizing audio digital impact to create digital media presentations
US10606887B2 (en) 2016-09-23 2020-03-31 Adobe Inc. Providing relevant video scenes in response to a video search query
US10261749B1 (en) * 2016-11-30 2019-04-16 Google Llc Audio output for panoramic images
WO2020077108A1 (en) * 2018-10-12 2020-04-16 Rimage Corporation Automated storage unit publisher

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054648A1 (en) * 2009-08-31 2011-03-03 Apple Inc. Audio Onset Detection
US20130139673A1 (en) * 2011-12-02 2013-06-06 Daniel Ellis Musical Fingerprinting Based on Onset Intervals
CN103514922A (zh) * 2012-06-29 2014-01-15 致伸科技股份有限公司 音频播放的方法、媒体控制器、媒体播放器及媒体服务器
CN104754395A (zh) * 2014-02-26 2015-07-01 苏州乐聚一堂电子科技有限公司 声感视觉特效系统及声感视觉特效处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160019932A1 (en) * 2014-07-21 2016-01-21 Patty Sakunkoo Systems and methods for generating video
US9786327B2 (en) 2015-08-31 2017-10-10 Adobe Systems Incorporated Utilizing audio digital impact to create digital media presentations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054648A1 (en) * 2009-08-31 2011-03-03 Apple Inc. Audio Onset Detection
US20130139673A1 (en) * 2011-12-02 2013-06-06 Daniel Ellis Musical Fingerprinting Based on Onset Intervals
CN103514922A (zh) * 2012-06-29 2014-01-15 致伸科技股份有限公司 音频播放的方法、媒体控制器、媒体播放器及媒体服务器
CN103514922B (zh) * 2012-06-29 2016-05-11 致伸科技股份有限公司 音频播放的方法、媒体控制器、媒体播放器及媒体服务器
CN104754395A (zh) * 2014-02-26 2015-07-01 苏州乐聚一堂电子科技有限公司 声感视觉特效系统及声感视觉特效处理方法

Also Published As

Publication number Publication date
AU2016204526B2 (en) 2020-01-23
US20170372755A1 (en) 2017-12-28
US20170062011A1 (en) 2017-03-02
DE102016010422A1 (de) 2017-04-06
US10460764B2 (en) 2019-10-29
AU2016204526A1 (en) 2017-03-16
GB201611042D0 (en) 2016-08-10
CN106484765B (zh) 2021-09-21
US9786327B2 (en) 2017-10-10
GB2541780B (en) 2019-12-11
GB2541780A (en) 2017-03-01

Similar Documents

Publication Publication Date Title
CN106484765A (zh) 利用音频数字冲击以创建数字媒体演示
US10074351B2 (en) Karaoke processing method and system
RU2612603C2 (ru) Способ многоструктурных, многоуровневых формализации и структурирования информации и соответствующее устройство
US20090254206A1 (en) System and method for composing individualized music
CN104395953A (zh) 来自音乐音频信号的拍子、和弦和强拍的评估
CN104219570B (zh) 一种音频信号的播放方法及装置
US9330649B2 (en) Selecting audio samples of varying velocity level
CN106611603A (zh) 一种音频处理方法及装置
US9387394B1 (en) Systems and methods for creating content in a virtual environment based on sound
CN107770235A (zh) 一种斗歌服务实现方法及系统
WO2020098086A1 (zh) 一种音乐自动生成方法、装置及计算机可读存储介质
CN107438961A (zh) 使用可听和声传送数据
CN109410972A (zh) 生成音效参数的方法、装置及存储介质
KR20160056104A (ko) 사용자 음색 분석 장치 및 음색 분석 방법
Groß-Vogt et al. The augmented floor-assessing auditory augmentation
CN109119089A (zh) 对音乐进行通透处理的方法及设备
KR20150110956A (ko) 인터넷 광고 제공 방법 및 이를 위한 장치
Slater Timbre and Non‐radical Didacticism in the Streets' A Grand Don't Come for Free: a Poetic‐Ecological Model
Martin et al. Data-Driven Analysis of Tiny Touchscreen Performance with MicroJam
US11609948B2 (en) Music streaming, playlist creation and streaming architecture
US20240168994A1 (en) Music selection system and method
Frisson et al. Multimodal guitar: Performance toolbox and study workbench
Lim et al. Randomized psychoacoustic model for mobile, panoramic, heritage-viewing applications
Ukolov Reviving the Sounds of Sacral Environments: Personalized Real-Time Auralization and Visualization of Location-Based Virtual Acoustic Objects on Mobile Devices
US20240112689A1 (en) Synthesizing audio for synchronous communication

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant