CN104768049B

CN104768049B - 一种用于同步音频数据和视频数据的方法、系统及计算机可读存储介质

Info

Publication number: CN104768049B
Application number: CN201410839671.7A
Authority: CN
Inventors: P·梅里尔
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2014-01-08
Filing date: 2014-12-29
Publication date: 2020-11-10
Anticipated expiration: 2034-12-29
Also published as: US20190228806A1; US20180261252A1; DE102014118075A1; US9972357B2; GB201500227D0; US20150195426A1; DE102014118075B4; CN104768049A; US10559323B2; GB2523635B; US10290322B2; GB2523635A

Abstract

本发明的各实施例涉及音频和视频同步感知模型。描述了一种基于个人如何感知音频和/或视频(例如，大脑如何处理声音和/或视觉内容)的音频和视频同步感知模型。与不同音频部分相关联的相对情感影响可被用来确定用来有助于音频数据向视频数据的自动同步的转变点以创造实现对收听者/观看者的特定总体情感效果的产物。感知模型的各种处理技术可以利用音频部分内的感知特性来确定用于与视频数据的自动同步的转变点。

Description

一种用于同步音频数据和视频数据的方法、系统及计算机可读存储介质

技术领域

本发明的各实施例涉及音频和视频处理，并且更特别地涉及音频和视频同步感知模型。

背景技术

用户越来越多地寻找集成音频和视频的方式。例如，用户可以向视频片段指派音频，诸如音乐。为了集成音频和视频，传统的技术可以分析音频的声音特性，而不考虑听到视频(特别是在与视频片段结合时)是否对收听者产生情感影响。另外，使用传统的技术来使音频和视频同步可能是耗时并且计算密集的，并且可能依赖于来自用户的输入。

发明内容

本发明内容以简化形式介绍了下面在具体实施方式中进一步描述的概念的选择。这样，本发明内容不是旨在于标识所要求保护的主题内容的基本特征，也不是旨在用作在确定所要求保护的主题内容的范围时的辅助。

描述了一种基于个人如何感知音频和/或视频(例如，大脑如何处理声音和/或视觉内容)的音频和视频同步感知模型。在一个实现方式中，标识指示一部分音频数据对收听者的情感影响(例如，怀旧效果或者戏剧效果)的该部分音频数据的感知特性。可以基于相应特性对在音频数据的不同部分之间的相对情感影响进行评估。与不同音频部分相关联的相对情感影响可被用来确定用来有助于音频数据与视频数据的自动同步的转变点以创造实现对收听者/观看者的特定总体情感效果的产物(production)。

附图说明

具体实施方式是参考附图来描述的。在附图中，标号的最左边的数字标识该标号首次出现于的附图。在说明书和附图中的不同实例中使用相同标号可指示类似或者相同的项目。在附图中表示的实体可以指示一个或多个实体并且因而可以在讨论中可互换地引用单数或者复数形式的实体。

图1是可操作来使用在此描述的技术的示例实现方式中的环境的例示。

图2是示例实现方式中的情境的表示，其中感知模型执行音频处理以自动地使音频数据和视频数据同步。

图3示出了使用在此描述的技术的示例感知模型。

图4是描绘了过程的流程图，在该过程中感知模型确定音频数据中在此处与用于产物的视频数据中的变化同步的转变点。

图5是描绘了过程的流程图，在该过程中感知模型选择音频数据中的转变点，该转变点当被与视频数据中的变化同步时产生收听者中的指明的情感响应。

图6是描绘了过程的流程图，在该过程中感知模型基于指示与音频信号的不同部分对应的感知特性的值对音频信号的不同部分排名。

图7图示了包括示例设备的示例系统，其代表是可以实施在此描述的各种技术的一个或多个计算系统和/或设备。

具体实施方式

概述

分析音乐以得出音乐的基本属性的传统模型未能考虑收听者如何感知音乐。因此，传统模型不是很好地适合于寻找音频中实现特定情感响应的点。

描述了一种基于个人如何感知音频和/或视频(例如，大脑如何处理声音和/或视觉内容)的音频和视频同步感知模型。在一个实现方式中，标识指示一部分音频数据对收听者的情感影响(例如，怀旧效果)的该部分音频数据的感知特性。这些感知特性例如可以反映在听到该一部分音频数据时的人类敏感性的测量。可以基于相应特性对在音频数据的不同部分之间的相对情感影响进行评估。与不同音频部分相关联的相对情感影响可被用来确定用来有助于音频数据与视频数据的自动同步的转变点以创造实现对收听者/观看者的特定总体情感效果的产物。

可以按照各种方式确定一部分音频数据的感知特性。例如，可以通过分析音频数据、生成图形地表示音频数据或者感知特性的频谱图和/或修改频谱图来标识感知特性。响应于标识感知特性，在一个实现方式中，指示感知特性的值被指派给音频数据的不同部分。

可以检测到音频数据中与一部分音频数据的指示情感影响的感知特性对应的转变点。例如，可以通过对被指派给音频数据的不同部分的指示感知特性的值进行过滤、正规化、应用阈值、比较和/或结合来检测转变点。转变点可被用来以各种方式使音频与视频数据同步。

例如，视频数据的呈现中的变化可被与音频中的转变点同步。视频数据可以表示图像、图像幻灯片放映、视频剪辑、视频片段和/或实况视频。例如，在幻灯片放映中，在不同图像之间的变化可被与检测的转变点同步。在视频片段示例中，在视频帧或者场景之间的变化被与音频中的转变点同步。在一个实现方式中，可以基于匹配在视频数据的变化之间的步幅(pace)与在音频数据中的转变点之间的步幅来使视频数据中的变化与检测的转变点同步。通过使视频数据的呈现中的变化与音频中的转变点同步，音频的戏剧、感情、兴奋和/或情绪被与视频数据的呈现中的潜在对应的戏剧、感情、兴奋和/或情绪匹配。

在以下讨论中，首先描述可使用在此描述的技术的示例环境。然后描述可在该示例环境以及其他环境中被执行的示例过程。因此，示例过程的执行不限于示例环境并且示例环境不限于示例过程的执行。

示例环境

图1是可操作来使用在此描述的技术的示例实现方式中的环境100的例示。所图示的环境100包括可以按照各种方式被配置的计算设备102和感知模型104。

计算设备102例如可被配置为台式计算机、膝上型计算机、移动设备(例如，假定诸如平板计算机或者移动电话之类的手持配置)，等等。因此，计算设备102的范围可以是从具有大量存储器和处理器资源的资源充足设备(例如，个人计算机、游戏机)到具有有限存储器和/或处理资源的资源不足设备(例如，移动设备)。此外，尽管示出了单个计算设备102，但是计算设备102可以表示多个不同设备，诸如如关于图7被进一步描述的被企业用来“在云上(over the cloud)”执行操作的多个服务器。

感知模型104被图示为包括信号处理模块106和同步模块108。在一个实现方式中，感知模型104可操作来使用用于标识指示对一部分音频数据的收听者的情感影响(例如，引起特定感觉或情绪的能力)的该部分音频数据的感知特性的技术。附加地或者备选地，感知模型104可操作来使用用于基于所确定的用于一部分音频数据的感知特性使该部分音频数据与视频数据中的变化同步的技术。例如，感知模型104可被配置为确定音频数据中基于感知特性的转变点并且自动地将产物配置为使视频数据中的变化与这些转变点同步。通过示例而非限制，当观看者观看使用在此描述的技术而使转变点与视频数据同步的视频片段时可引起快乐的感觉。

在至少一些实现方式中，感知模型104可被根据学习模型生成或者备选地通过学习模型而被更新。例如，感知模型104可以接收描述人脑如何处理声音的信息或者可以接收描述与特定声音相关联的人类敏感性或者人类感情的信息。使用接收的信息，感知模型104可被配置为寻找音频数据中产生期望感情的一部分。例如，感知模型104可以寻找音频数据中产生正向或者负向感情的一个或多个部分。在一个具体示例中，响应于接收到要寻找特定感情的输入，感知模型104标识音频中产生特定感情的至少一部分(例如，转变点)。

在一个或多个实现方式中，感知模型104生成接收的音频数据的表示以使得由感知模型104执行的技术被应用于音频数据的表示。

信号处理模块106可被配置为对与对应的音频信号相关联的音频数据进行处理以生成用于音频数据的不同部分(例如，音频数据内的时间点或者时间段)的感知特性。感知特性表示用于音频数据的每个不同部分的感知重要性的水平，并且在一个具体示例中可以包括影响值、节奏脉冲值，节奏值、旋律值或其组合。影响值例如可以表示个人在音乐中倾听什么(例如，内耳如何处理声音和/或大脑对单独音频出现的注意)。例如，影响值可以指示响亮和柔和音量的快速变化、在响亮部分之前或之后的安静部分，或其组合。在一个具体示例中，影响值表示对人类收听者的感情强度的测量。

节奏脉冲值例如可以表示在音频数据的各部分的频谱上相对均匀散布的声音。例如，节奏脉冲值可以指示相对于另一部分音频数据在一部分音频数据的频谱上相对均匀散布的响度。

例如，节奏值可以指示贡献于由收听者所感知的节奏的用于该部分音频数据的节奏或者和声(harmony)。同时，旋律值例如可以表示与该部分音频数据对应的旋律(例如，其上有泛音(overtone)的主导频率)或者和声特征随着时间的变化程度。

信号处理模块106可被配置为使用各种不同操作来处理音频数据以生成感知特性。这些操作的示例可以包括将音频信号转换为频谱图、将该频谱图映射到感知频率空间中、将该频谱图的动态范围正规化和/或处理从正规化得到的值(例如，向正规化的频谱图应用特定于频率的衰减函数或者阈值)。关于图2至图6进一步描述了感知特性的生成。

同步模块108可被配置为使音频数据与视频数据中的变化同步以创造实现引发对对收听者或者观看者的效果的特定总体感情、戏剧和/或关注的产物。在一个具体示例中，同步模块108可被配置为处理感知特性以确定、生成或者选择音频数据内产生收听者中的指明的感情响应的转变点。在一个具体示例中，对于音频数据的不同部分的影响值、节奏脉冲值、节奏值和/或旋律值被过滤以确定音频数据中的一个或多个转变点。

在至少一些实现方式中，同步模块108可以将产物自动配置为使视频数据中的变化与确定的一个或多个转变点同步。因此，在这一实现方式中，同步模块108将产物配置为在没有用户输入的情况下使视频数据中的变化与一个或多个转变点同步。备选地，在其他实现方式中，用户可以经由用户接口提供输入以使视频数据中的变化与一个或多个转变点同步。

在一个实现方式中，同步模块108可被配置为基于匹配在视频数据中的两个变化之间的步幅与在音频数据中的转变点之间的步幅来使视频数据中的变化与检测的转变点同步。在这一实现方式中，同步模块108基于在视频数据中的两个变化之间的步幅大体类似于在音频数据中的转变点之间的步幅而使视频数据中的变化与检测的转变点同步。

在另一种实现方式中，同步模块108可被配置为基于匹配在视频数据中的两个变化(例如，在视频帧或者场景之间的变化)之间的平滑度或者突然性(abruptness)与在音频数据中的转变点之间的平滑度或者突然性来使视频数据中的变化与检测的转变点同步。在这一实现方式中，同步模块108基于在视频数据中的两个变化之间的平滑度或者突然性大体类似于在音频数据中的转变点之间的平滑度或者突然性而使视频数据中的变化与检测的转变点同步。

尽管感知模型104被图示为被实现在计算设备102上，但是还预期到其中感知模型104被实现在诸如远程服务器、本地服务器或者其他远程计算设备之类的单独设备上的其他实现方式应当是显而易见的。另外，尽管被图示为由台式配置中的计算设备102提供，但是还预期到各种其他配置，诸如如关于图6进一步描述的作为web平台的一部分通过网络110远程提供。

不管在哪里被实现，感知模型104都表示被配置为处理音频数据以标识音频数据中对收听者产生特定感情效果的部分的功能。

图2在200处总体地描绘了其中图1的感知模型104执行音频处理以自动使音频数据和视频数据同步的示例实现方式中的情境的表示。如在图2中所示出的，可发生音频处理，其中音频信号202根据感知模型104被处理以确定用于音频信号的一个或多个转变点204。在一个实现方式中，一个或多个转变点204可被用于自动同步206，在自动同步206中与一个或多个转变点204相关联的音频数据被与视频数据同步。这里，音频数据和视频数据基于通过处理查明的转变点而被结合以创建同步的产物208。附加地或者备选地，在感知模型104执行音频处理并且确定转变点204之后，与一个或多个转变点204相关联的值可被存储在存储器中(例如，本地地或者远程地)以用于稍后使用。

特别地，音频信号202例如可以包括将被感知模型104处理的相关联的音频数据。音频信号202可以表示任何类型的声音(有或者没有语音)，诸如音乐(有或者没有节奏)。在一个具体实现方式中，音频信号202包括低解析度音频数据并且感知模型104处理该低解析度音频数据。

在自动同步206期间可以使用一个或多个转变点204。例如，感知模型104可以标识多个“潜在”转变点并且选择转变点中的一些或者全部以用于同步以实现收听者中的指明的感情响应(相对于潜在转变点集合中的其他非选中转变点)。在这一示例中，感知模型104可被配置为向转变点集合中的每个转变点指派分数和/或权重。在一些实例中，在处理转变点集合中的每个转变点(例如，调节或者修改确定的转变点)之后指派分数和/或权重。在下面关于图3描述了关于转变点的处理的附加细节。

自动同步206可被配置为通过对音频和视频数据中适合于根据所选择的转变点204使音频数据与视频数据中的一个或多个变化同步的部分进行插入、对准、接合、裁切、重新布置、修改和/或以其他方式执行操作来创建同步产物208。这例如可以由感知模型104来使能。因此，同步的产物208被配置为包括在转变点204处与视频变化同步的音频数据由此在该产物的收听者或者观看者中产生指明的感情响应。

图3描绘了使用在此描述的技术的示例感知模型300。例如，如所示，感知模型104包括信号处理模块106、同步模块108、感知特性生成器模块302、转变点生成器模块304、转变点处理模块306、转变点选择模块308和产物同步器模块310。

如所示，信号处理模块106包括感知特性生成器模块302。先前提到的信号处理模块106可被配置为处理与对应的音频信号相关联的音频数据以生成用于音频数据的不同部分的感知特性。感知特性表示用于音频数据的不同部分的感知重要性的水平。

感知特性生成器模块302生成用于音频数据的不同部分的感知特性。感知特性可以包括指示产物对用户的影响的一个或多个值，诸如与音频数据相关联的影响值、节奏脉冲值，节奏值和/或旋律值。各种不同操作可被用来生成感知特性。这些操作的示例可以包括但不限于将音频信号转换为频谱图、将该频谱图映射到感知频率空间(例如，感知频率刻度)中、将该频谱图的动态范围正规化和/或处理从正规化得到的值。在一个示例中，感知特性生成器302被配置为生成影响值、节奏脉冲值，节奏值和/或旋律值。

可以通过使绝对响度和响度中随着时间的变化相乘来生成影响值。这里，可以通过在感知频率空间中向频谱图应用映射函数来确定响度。在一些示例中，用于生成影响值的响度可被正规化为从0到1。

可以通过分析在音频频谱上散布的响度来生成节奏脉冲值。例如，可以通过在感知频率空间中向频谱图应用映射函数来确定响度。分析响度可以包括确定响度被多么均匀地散布在音频频谱上。附加地或者备选地，可以通过向频谱图应用传统滤波技术来生成节奏脉冲值。在这一示例中，可以以在大约25-50毫秒之间的采样分辨率来应用滤波器。在一个实现方式中，可以通过滤除旋律内容来生成节奏脉冲。

感知特性生成器302可以通过向正规化的频谱图的值应用阈值来确定或者生成节奏值。在另一示例中，感知特性生成器302可以通过向正规化的频谱图应用特定于频率的衰减函数来确定或者生成旋律值。附加地或者备选地，感知特性生成器302可以通过应用对音频数据的和声特征中在特定时间段内的变化程度进行分析的处理技术来确定或者生成旋律值。除了被配置为生成影响值、节奏脉冲值、节奏值和/或旋律值之外或者代替被配置为生成影响值、节奏脉冲值、节奏值和/或旋律值，感知特性生成器302还可被配置为得出指示产物对用户的影响的其他种类的感知特性。

在一个或多个实现方式中，感知特性被本地的存储在计算设备102处的存储装置中。附加地或者备选地，感知特性可被存储在远离计算设备102的存储装置(诸如在远程数据库或者远程服务器)中和/或可以从远离计算设备102的存储装置访问。

可以通过使用各种技术将音频信号转换为频谱图来生成感知特性。例如，转换可以包括通过向音频信号(或者对应的音频数据)应用快速傅立叶变换(FFT)来生成频谱图。另外，可以按照与音频信号或音频数据的编码格式匹配的时间分辨率来应用FFT。例如，仅举数例，编码格式可以包括MP3、高级音频编码(AAC)、WAV和/或WMA。

附加地或者备选地，可以通过将音频信号的频谱图映射到感知频率空间(这可以包括将频谱图映射到等价矩形带宽(ERB)空间)中来生成感知特性。这种方式可以包括将音频信号的频谱图的动态范围正规化，诸如通过在零和一的值之间或者使用另一指明正规化值范围将频谱图正规化。在一个或多个实现方式中，可以响应于触发事件(诸如将音频信号的频谱图映射到感知频率空间、将音频洗好转换为频谱图或者另一个触发器)而执行正规化。

继续用于生成感知特性的示例操作，感知特性生成器302可被配置为识别到音频信号的频谱图包括ERB轴和时间轴。响应于该识别，感知特性生成器302可以操作来计算沿着时间轴的一个或多个点处的沿着ERB轴的值中的每个值的差异。换言之，感知特性生成器302可以使用本领域中的标准技术计算沿着时间轴的第一导数。在一个或多个实现方式中，可以通过沿着ERB轴应用特定于频率的衰减函数来在每个时间对差异值中的每个差异值求总和。从这一求和得出的结果是在在此描述的技术中可被用作指示感知特性的一个值的旋律值。通过向对求上面提到的差异值中的每个差异值求和的结果应用阈值来确定指示感知特性的另一值。备选地，可以通过在对差异值中的每个差异值求和之前对沿着ERB轴的每个值应用阈值来确定节奏值。在两者中的任一情况下，从应用阈值得出的值在此被称作节奏值。被应用的阈值可以是值的范围，或是高于或者低于特定值的值。例如，阈值可以指定在0.1与0.4之间的值。

如进一步图示的，同步模块108包括转变点生成器模块304、转变点处理模块306、转变点选择模块308和产物同步器模块310。同步模块108被配置为使音频数据与视频数据中的变化同步以创造实现对收听者或者观看者的特定总体感情效果的产物。

转变点生成器模块304被配置为确定音频数据内的转变点。可以使用各种不同操作来标识或者确定转变点。在一个示例中，通过过滤由感知特性生成器模块302生成的感知特性中的一个或多个感知特性来使能标识转变点。例如，可以通过向一个或多个节奏脉冲值应用梳状滤波器或者以可比较的方式使用其他滤波器来检测与音频数据的不同部分相关联的感知特性来标识一个或多个转变点。在一个具体示例中，梳状滤波器可被应用于节奏脉冲值的数组。

附加地或者备选地，可以通过集成超过阈值的随着时间的两个或更多个感知特性来确定转变点。例如，响应于确定指示两个或更多个感知特性的值(例如，节奏脉冲值或者影响值)超过最小阈值，这两个或更多个感知特性被结合。用于音频的不同部分的结合的感知特性然后可被相互比较以选择满足指明的标准的转变点。

转变点处理模块306对确定的一个或多个转变点进行处理。对该一个或多个转变点的处理可以包括操作的组合，这些操作包括以下各项中的一项或多项：将转变点正规化为特定时间框架内的转变点的标准偏差(standard deviation)、使转变点突出(accentuate)、向转变点应用权重、比较与两个或更多个转变点相关联的分数和/或确定在两个或更多个转变点之间的步幅。通过处理一个或多个转变点，可以考虑到音量中的快速变化和/或在音频的响亮部分和柔和部分之间的间隔，由此允许处理的转变点相对于未处理的转变点反映对收听者的更大感知的感情影响。

另外，转变点处理模块306可被配置为将转变点正规化为特定时间框架内的转变点的标准偏差。一般而言，几秒或者几分之一秒级别的时间框架被使用(例如，0到5秒的范围中的间隔)，尽管更大的时间框架(例如，多于5秒)也可被选择。例如，转变点可被正规化为跨1.5秒时间段或者其他时间框架中的所有转变点的标准偏差。通过如上所述将转变点正规化，以模仿大脑很可能如何处理声音的方式扩大音量中的快速变化。

附加地或者备选地，转变点处理模块306可以使一个或多个转变点突出以放大收听者中的指明的感情响应。这例如可以通过调节与至少一个转变点对应的峰值能量值来完成。峰值能量值可以是表示供转变点产生收听者中的指明的感情响应的能力的数值。调节峰能量值例如可以包括增大或者减小用于相关联的产物的响度。

可以基于一个或多个标准向转变点应用权重。在一些示例中，可以基于与转变点相关联的响度或者无声、相对于另一转变点的响度或者无声的转变点的响度或者无声中的变化和/或对与转变点对应的峰值能量值的调节程度来向一个或多个转变点应用权重。附加地或者备选地，可以向转变点应用权重以指示该转变点与在转变点之间的期望步幅匹配得多么紧密。例如，可以向转变点应用权重以指示其与特定感情的关联。

转变点处理模块306的处理还可以包括比较与两个或更多个转变点相关联的分数。可以基于多个因素向转变点指派分数，该多个因素例如可以包括转变点的音量的强度或者转变点相对于另一个转变点(例如，在前或者在后的转变点)的音量中的变化。因此，被指派给转变点的分数在一些示例中可以反映转变点的“硬度”。例如，硬转换可以指示从一个转变点到另一个转变点的音量或者响度中的突然变化，而软转换可以指示从一个转变点到另一个转变点的音量或者响度中的缓慢变化。

附加地或者备选地，可以基于时间因素向转变点指派分数。例如，指派的分数可以基于在转变点之前和/或之后的特定时间段内的音量或者响度中的变化程度。在这一示例中，所指派的分数由于该分数反映了转变点捕捉收听者的注意的似然度而可被看作“流行(pop)”分数。例如，更高的“流行”分数可被指派给在特定时间段内具有更迅速的响度起始(onset)的转变点，而更低的“流行”分数可以被指派给在特定时间段内具有更慢的响度起始的转变点。在一个或多个实现方式中，指派的分数可以在0与1之间被正规化。通过相互比较与两个或更多个转变点相关联的分数，特定转变点(或者多个转变点)可被选择用于与上面和下面讨论的视频数据中的变化同步。

可选地，转变点处理模块306的处理还可以包括从预定转变点的集合删除一个或多个转变点以创造在两个转变点之间的期望的步幅。例如，彼此过于接近或者过于刺耳(例如，相对于邻近转变点展示音量中的快速变化)的转变点对于收听者可能不是令人愉快的。在这一示例中，转变点可被删除以使在转变点之间的“步幅放慢”以产生更加戏剧化或者令人愉快的转变点以用于同步。删除转变点在音频中的安静部分具有两个如此靠近在一起转变点以至于包括两者将出现刺耳时的示例中特别有帮助。为了选择用于删除的转变点，用于确定特定转变点的感知特性被与阈值相比较(例如，如果与转变点相关联的旋律值低于阈值，则该转变点被从确定的转变点的集合删除)。因此，可以通过选择性地删除一个或多个转变点来创造在转变点之间的期望的步幅。在一些示例中，在转变点之间的期望的步幅可以大体等于音频信号中最常见的频率。

响应于检测到或者处理转变点，感知模型104可被配置为使指示转变点的数据被保存以用以以各种方式使用。在一个具体示例中，至少部分地基于与其他转变点比较分数或者权重来保存指示转变点的数据。如提到的，指示转变点的数据可被本地存储和/或远程存储。此外，转变点可以(在保存或者不保存的情况下)被用来通过自动同步206生成同步的产物208。

特别地，转变点选择模块308可被配置为将转变点中的一个或多个转变点选择作为如下点，在该点处视频数据中的变化当在转变点处与音频数据同步时产生收听者中的指明的感情响应(例如，对收听者产生最大的感情和/或怀旧效果)。例如，可以通过比较指派给不同转变点的权重或者分数来选择转变点。在一个或多个实现方式中，转变点可以在如在这里描述的被选择之后被处理。

在一个或多个实现方式中，转变点可能已经被先前确定并存储为存储器中的数据(例如，本地或者远程的)。这里，先前确定的转变点可被感知模型104从本地存储器、远程数据库、远程服务器或者远程存储服务取回。在一个具体示例中，用户接口(本地或者远程的)可以向感知模型104发送对自动同步的请求，并且响应于接收到该请求，感知模型104取回先前确定的转变点并且使它们与视频数据中的变化同步。

转变点选择模块308还可被配置为基于在视频数据中的两个或更多个变化之间的步幅大体类似于在两个或更多个转变点之间的步幅来选择一个或多个转变点。在这种方式中，在两个转变点之间的期望的步幅被与在视频数据中的帧或者场景之间的步幅相匹配。

产物同步器模块310可被配置为创造使音频数据与视频数据的变化同步的产物。例如，产物同步模块310可以将产物自动配置为使视频数据中的变化与确定和/或突出的一个或多个转变点同步。例如，指派给一个或多个转变点的“流行”分数可以使得产物同步器模块310能够将产物自动配置为使视频数据中的变化同步。

在此讨论了由各种模块执行的各种动作，诸如分析、确定、接收、存储、生成、映射等等。应当领会到，各种模块可被按照具有功能的各种组合配置以使这些和其他动作被执行。与特定模块相关联的功能可以在不同模块之间被进一步划分和/或由多个模块所表示的功能可被一起组合为单个逻辑模块。另外，特定模块可被配置为直接由该特定模块造成动作的执行。附加地或者备选地，特定模块可以通过调用或者以其他方式访问其他组件或模块来执行特定动作(或者连同该特定模块执行这些动作)来造成特定动作。

示例过程

以下讨论描述了可以利用先前描述的系统和设备实现的感知模型技术。这些过程中的每个过程的方面可被以硬件、固件或软件或者其组合来实现。过程被示出为指定由一个或多个设备执行的操作的一组方框并且不一定限于所示出的由相应框执行操作的次序。另外，过程的任何一个或多个框在不同实现方式中可被组合在一起或者完全省略。另外，与不同的代表性过程和对应的附图相关联的框在这里可被一起应用。因此，跨各个不同过程规定的单独操作可被以任何合适组合使用并且不限于示例附图所表示的特定组合。在以下讨论的部分中，可以引用图1至图3的示例。

图4是描绘了过程400的流程图，在过程400中感知模型确定音频数据中的转变点，在这些转变点处与产用于物的视频数据中的变化同步。

音频数据被分析以检测指示对收听者的感情影响的感知特性(框402)。例如，感知模型104可以使用在此描述的技术中的任何技术来处理与音频信号202相关联的音频数据。处理可以包括感知模型104的信号处理模块106的操作：将音频信号转换为频谱图、将该频谱图映射到感知频率空间中、将该频谱图的动态范围正规化、向正规化的频谱图应用阈值和/或向正规化的频谱图应用特定于频率的衰减函数。感知模型104使用处理的音频数据在音频信号202内的不同点或者部分处检测指示对收听者的感情影响的感知特性。另外，检测到的指示对收听者的感情影响的感知特性可以包括影响值、节奏脉冲值、节奏值和/或旋律值以及指示感知特性的其他值。

至少部分地基于检测到的感知特性，在音频数据中检测到一个或多个转变点，在这一个或多个转变点处使用于产物的视频数据中的变化与音频数据同步(框404)。例如，感知模型104可以通过过滤感知特性中的一个或多个感知特性来确定音频数据中的转变点。在一个或多个实现方式中，确定的转变点可以如在这里描述的被进一步处理(例如，相互比较转变点的权重或者确定在转变点之间的步幅)。

产物被自动配置为使视频数据中的变化与确定的一个或多个转变点同步(框406)。例如，同步模块108可以将产物配置为以其示例在本文中被描述的各种方式使视频数据中的变化与确定的一个或多个转变点同步。在至少一些实现方式中，一个或多个转变点通过调节与至少一个转变点对应的峰值能量值而被修改为使对收听者的感情影响突出。调节峰能量值例如可以包括增大或者减小特定转变点处的响度。

图5是描绘了过程500的流程图，在过程500中感知模块选择音频数据中的转变点，该转变点当与视频数据中的变化同步时产生收听者中的指明的感情响应。

至少部分地基于被生成来表示感知特性的频谱图，向音频数据的不同部分指派指示感知特性的一个或多个值(框502)。例如，感知模型104可以基于由信号处理模块106所执行的操作来向音频数据的不同部分指派节奏脉冲值和/或影响值，其一些示例在上面关于图1至图4被讨论。

在音频数据中将转变点选择作为如下点，在该点处视频数据中的变化当在转变点处与音频数据同步时产生收听者中的指明的感情响应(框504)。例如，感知模型104可以将指示感知特性的相关联的值(例如，节奏脉冲值和/或影响值)相互比较以从所确定的转变点的集合选择转变点。产生收听者中的指明的感情响应可以包括选择与特定感情(例如，激动、快乐、冷静等)相关联的转变点。例如，可以基于指派的指示转变点与特定感情的关联的权重来选择转变点。

图6是描绘了过程600的流程图，在过程600中感知模型基于指示与音频信号的不同部分对应的感知特性的值对音频信号的不同部分排名。

指示与音频信号的不同部分对应的感知特性的值被查明(框702)。例如，感知模型104可以处理音频信号202并且生成指示感知特性的值，如在这里关于图2-图3以及在其他地方讨论的。

至少部分地基于查明的值，根据所感知的对收听者的感情影响对音频信号的不同部分排名(框604)。例如，感知模型104可以根据查明的指示引起对收听者的感知的感情影响的值对音频信号的不同部分排名。例如，感知模型104可以向查明的值中的两个或更多个查明的值指派分数并且然后比较分数以对查明的值排名。任何合适的评分技术都可以被用来实现本文中描述的技术。

基于音频信号的不同部分的排名，在音频信号中确定一个或多个转变点，在这一个或多个转变点处与视频数据中的变化同步(框606)。例如，同步模块108可以使用排名来自动确定音频信号中的在此处与视频数据中的变化同步的一个或多个转变点。然后以先前描述的方式创造同步的产物以用于输出给观看者。

示例系统和设备

图7描绘了通常包括示例计算设备702的示例系统700，该计算设备702代表的是可以实施在此描述的各种技术的一个或多个计算系统和/或设备。这是通过包含感知模型104被图示的，感知模型104可被配置为处理音频数据。计算设备702例如可以是服务提供商的服务器、与客户端相关联的设备(例如，客户端设备)、片上系统和/或任何其他合适的计算设备或计算系统。

示例计算设备702如图所示包括相互可通信地耦合的处理系统704、一个或多个计算机可读介质706以及一个或多个I/O接口708。尽管未被示出，但是计算设备702还可以包括使各个组件相互耦合的系统总线或者其他数据和命令传送系统。系统总线可以包括不同总线结构中的任何一个或者组合，诸如存储器总线或存储器控制器、外设总线、通用串行总线和/或使用了各种总线架构中的任一架构的处理器或本地总线。诸如控制和数据线路的各种其他示例也被预期。

处理系统704代表的是使用硬件执行一个或多个操作的功能。因此，处理系统704被示出为包括可被配置为处理器、功能块等的硬件元件710。这可以包括在作为专用集成电路或者使用一个或多个半导体形成的其他逻辑器件的硬件中的实现方式。硬件元件710不受形成该硬件元件的材料或是其内使用的处理机制的限制。例如，处理器可以包括一半导体和/或晶体管(例如，电子集成电路(IC))。在这样的上下文中，处理器可执行指令可以是电可运行指令。

计算机可读存储介质706被示出为包括存储器/存储组件712。存储器/存储组件712代表的是与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储组件712可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等等)。存储器/存储组件712可以包括固定介质(例如，RAM、ROM、固定硬盘驱动器等等)以及可移除介质(例如，闪存、可移除硬盘驱动器、光盘等等)。计算机可读介质706可以以如在下面进一步描述的各种其他方式被配置。

输入/输出接口708代表的是允许用户向计算设备702输入命令和信息并且还允许使用各种输入/输出设备来将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如，鼠标)、麦克风、扫描仪、触摸功能(例如，被配置为检测物理触摸的电容传感器或者其他传感器)、摄像头(例如，其可以使用可见波长或者诸如红外频率的不可见波长来识别作为不涉及触摸的姿势的移动)等等。输出设备的示例包括显示设备(例如，监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等等。因此，计算设备702可以以如在下面进一步描述的各种方式被配置以支持用户交互。

在这里，各种技术可以是在软件、硬件元件或程序模块的一般上下文中描述的。通常，此类模块包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、部件、组件、数据结构等等。这里所使用的术语“模块”、“功能”和“组件”通常表示软件、固件、硬件，或其组合。在此描述的技术的特征是独立于平台的，意味着可以在具有各种处理器的各种商业计算平台上实施这些技术。

所描述的模块和技术的实现方式可被保存在某种形式的计算机可读介质上或者通过此类介质来传送。计算机可读介质可以包括可被计算设备702访问的各种介质。作为示例而不是限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”可以是指与单纯的信号传输、载波或信号本身形成对比且使信息的持久性和/或非临时性存储成为可能的介质和/或设备。因此，计算机可读存储介质指的是非信号承载介质。计算机可读存储介质包括例如在适合存储信息的方法或技术中实施的易失和非易失、可移除和不可移除介质和/或存储设备的硬件，所述信息例如是计算机可读指令、数据结构、程序模块、逻辑部件/电路或其他数据。计算机可读存储介质的示例包括但不局限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多用途盘(DVD)或其他光学存储器、硬盘、磁带盒、磁带、磁盘存储器或其他磁存储设备，或是其他适合存储期望信息并且可以被计算机访问的存储设备、有形介质或制品。

“计算机可读信号介质”可以是指被配置成例如经由网络向计算设备702的硬件传送指令的信号承载介质。信号介质通常可以包括计算机可读指令、数据结构、程序模块或是诸如载波、数据信号或其他传输机制之类的调制数据信号中的其他数据。信号介质还包括任何信息递送介质。术语“调制数据信号”意指这样的信号，其特性中的一个或多个被以将信息编码在该信号中的方式而被设置和改变。作为示例而不是限制，通信介质包括有线介质，诸如有线网络或直接线路连接，以及包括无线介质，诸如如声学、RF、红外及其他无线介质。

如先前描述的，硬件元件710和计算机可读介质706代表的是在至少一些实现方式中可被用来实施在此描述的技术中的至少一些方面的诸如以执行一个或多个指令的以硬件形式实施的模块、可编程器件逻辑和/或固定器件逻辑。硬件可以包括集成电路或者片上系统的组件、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)，以及硅的其他实现方式或者其他硬件。在该上下文中，硬件可以作为处理设备而工作，该处理设备执行由指令定义的程序任务和/或由硬件以及用来存储供执行的指令的硬件(例如，先前描述的计算机可读存储介质)包含的逻辑。

前述的组合还可被用来实现在此描述的各种技术。相应地，软件、硬件或者可执行模块可以作为在某一形式的计算机可读存储介质上包含的一个或多个指令和/或逻辑而被实现并且/或者通过一个或多个硬件元件710而被实现。计算设备702可以被配置成实施与软件和/或硬件模块相对应的特定指令和/或功能。相应地，可由计算设备702作为软件运行的模块的实施方式可以至少部分地以硬件实现，例如，通过使用计算机可读存储介质和/或处理系统704的硬件元件710。这些指令和/或功能可以由一个或多个制品(例如，一个或多个计算设备702和/或处理系统704)运行/操作，以便实施在此描述的技术、模块和示例。

在此描述的技术可被计算设备702的各种配置支持并且不限于在此描述的技术的具体示例。该功能还可以全部或者部分地通过使用分布式系统(诸如经由如在下面描述的平台716通过“云”714)被实现。

云714包括并且/或者代表的是资源718的平台716。平台716使云714的硬件(例如，服务器)和软件资源的底层功能抽象化。资源718可以包括当在远离计算设备702的服务器上执行计算机处理时可以利用的应用和/或数据。资源718还可以包括通过因特网和/或通过订户网络(诸如蜂窝或Wi-Fi网络)提供的服务。

平台716可以使资源和功能抽象化以使计算设备702与其他计算设备连接。平台716还可以用来使资源的缩放抽象化，以向经由平台716实现的资源718所遇到的需求提供相应的规模层次。因此，在互连设备的实施例中，在此描述的功能的实现方式可以通过交换机700而被分发。例如，功能可以至少部分地在计算设备702上以及经由使云714的功能抽象化的平台716来实现。

结论

虽然已经用特定于结构特征和/或方法操作的语言描述了本技术，但是将会理解，在所附权利要求中定义的主题内容不一定局限于所描述的具体特征或动作。相反，这些具体特征和动作是作为实施所要求保护的主题内容的示例形式而被公开的。

Claims

1.一种用于同步音频数据和视频数据的方法，包括：

分析音频数据以检测指示对收听者的感情影响的感知特性；

向所述音频数据的不同部分指派指示检测到的所述感知特性的值；

至少部分地基于上述处理来确定所述音频数据中的一个或多个转变点，在所述一个或多个转变点处使视频数据中的变化与所述音频数据同步；以及

自动使所述视频数据中的所述变化与确定的所述一个或多个转变点同步以使得所述音频数据中的指示对所述收听者的所述感情影响的检测到的所述感知特性自动与所述视频数据中的所述变化同步，

其中所述方法还包括：

将待指派的、指示检测到的所述感知特性的所述值正规化；以及

通过向正规化的所述值应用阈值或者向正规化的所述值应用衰减函数中的一项来处理正规化的所述值。

2.根据权利要求1所述的方法，其中指示检测到的所述感知特性的所述值至少包括指示所述音频数据的节奏内容的节奏值。

3.根据权利要求1所述的方法，其中检测所述感知特性包括：

使用快速傅立叶变换(FFT)来生成所述音频数据的频谱图；

将所述频谱图映射到感知频率空间；以及

其中将所述值正规化包括：

响应于所述映射，将待指派的所述值正规化以使所述感知频率空间的动态范围正规化。

4.根据权利要求3所述的方法，其中通过向所述感知频率空间应用所述阈值来检测用于第一感知特性的值。

5.根据权利要求3所述的方法，其中通过向所述感知频率空间应用特定于频率的衰减函数来检测用于第二感知特性的值。

6.根据权利要求1所述的方法，通过执行转变点标识操作来确定所述音频数据中的一个或多个转变点，执行转变点标识操作包括：

过滤指示检测到的所述感知特性的指派的所述值；

集成超过所述阈值的两个或更多个感知特性；以及

比较用于所述音频数据的所述不同部分的组合的感知特性值。

7.根据权利要求1所述的方法，还包括，在自动使所述视频数据中的变化与所述一个或多个转变点同步之前，处理所述一个或多个转变点以使对所述收听者的所述感情影响突出。

8.根据权利要求7所述的方法，其中，处理所述一个或多个转变点包括以下各项中的一项或多项：

将所述一个或多个转变点正规化为所述一个或多个转变点在特定时间框架内的标准偏差；

调节与所述一个或多个转变点对应的峰值能量值；

向所述一个或多个转变点应用权重；

比较与两个或更多个转变点相关联的分数；或者

确定在两个或更多个转变点之间的步幅。

9.一种用于同步音频数据和视频数据的系统，包括：

在硬件中实现的一个或多个模块，所述一个或多个模块被配置为：

通过将音频数据转换为频谱图来生成所述频谱图，所述频谱图表示指示针对所述音频数据的不同部分对收听者的感情影响的感知特性；

使所述频谱图正规化；

至少部分地基于正规化的所述频谱图，向所述音频数据的所述不同部分指派指示所述感知特性的多个值；以及

基于对指派的指示所述感知特性的所述值的相互比较，将所述音频数据中的转变点选择为如下点，在该点处视频数据中的变化当与所述转变点处的所述音频数据同步时产生收听者中的指明的感情响应；以及

生成包括同步的音频数据和视频数据的数字内容，在所述同步的音频数据和视频数据中所述视频数据中的所述变化与所述转变点处的所述音频数据同步。

10.根据权利要求9所述的系统，其中指示所述感知特性的所述多个值包括表示对人类收听者的感情强度的测量的影响值。

11.根据权利要求9所述的系统，其中通过以与所述音频数据的编码格式相匹配的时间分辨率向所述音频数据进一步应用快速傅立叶变换来生成表示所述感知特性的所述频谱图。

12.根据权利要求9所述的系统，其中指示所述感知特性的所述多个值包括节奏脉冲值，所述节奏脉冲值表示由正规化的所述频谱图所指示的、在所述音频数据的相应部分处相对均匀散布的声音。

13.根据权利要求9所述的系统，其中所述一个或多个模块还被配置为至少部分地基于指示感知特性的指派的所述多个值来使所述音频数据的所述转变点与所述视频数据同步。

14.根据权利要求9所述的系统，其中对指派的所述多个值相互比较包括比较由正规化的所述频谱图所指示的用于每个相应值的峰值能量。

15.根据权利要求9所述的系统，其中所述一个或多个模块还被配置为使与选择的所述转变点对应的所述音频数据突出以放大所述收听者中的指明的所述感情响应。

16.根据权利要求9所述的系统，其中所述一个或多个模块还被配置为在对指派的所述多个值相互比较之前使指示所述感知特性的所述值中的两个或更多个值结合。

17.根据权利要求9所述的系统，其中所述频谱图进一步通过以下操作被生成：

将所述频谱图映射到感知频率空间中；

通过使所述感知频率空间的动态范围正规化来使所述频谱图正规化；以及

向正规化的所述频谱图应用特定于频率的衰减函数，

其中至少部分地基于正规化的所述频谱图，向所述音频数据的所述不同部分指派指示所述感知特性的多个值包括：

至少部分地基于被应用了所述特定于频率的衰减函数的正规化的所述频谱图，向所述音频数据的所述不同部分指派指示所述感知特性的多个值。

18.一种非瞬态计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令响应于由计算设备运行而使所述计算设备执行操作，所述操作包括：

将音频数据转换为频谱图，所述频谱图表示指示针对所述音频数据的不同部分对收听者的感知的感情影响的感知特性；

使所述频谱图正规化；

基于正规化的所述频谱图来查明指示与所述音频数据的所述不同部分对应的所述感知特性的值；

至少部分地基于查明的所述值，根据对所述收听者的所述感知的感情影响对所述音频数据的所述不同部分排名；

基于所述音频数据的所述不同部分的所述排名，确定所述音频数据中与视频数据中的变化同步的一个或多个转变点；以及

生成包括同步的音频数据和视频数据的数字内容，在所述同步的音频数据和视频数据中所述视频数据中的所述变化被与确定的转变点处的所述音频数据同步。

19.根据权利要求18所述的非瞬态计算机可读存储介质，其中所述指令使所述计算设备执行进一步操作，所述进一步操作包括调节所述音频数据中的至少一个转变点的能量值以改变在所述至少一个转变点的回放期间感知的对所述收听者的所述感情影响。

20.根据权利要求18所述的非瞬态计算机可读存储介质，其中所述指令使所述计算设备执行进一步操作，所述进一步操作包括对查明的所述值评分并且对分数相互比较，以使得所述排名基于所述评分和所述比较。