CN107682642A

CN107682642A - 识别视频特效触发时间点的方法、装置和终端设备

Info

Publication number: CN107682642A
Application number: CN201710852614.6A
Authority: CN
Inventors: 张辉
Original assignee: Guangzhou Aimei Network Science & Technology Co Ltd
Current assignee: Guangzhou Aimei Network Science & Technology Co Ltd
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2018-02-09

Abstract

本发明提出一种识别视频特效触发时间点的方法、装置和终端设备。所述方法包括：获取音频的时域信息；根据快速傅里叶变换，将时域信息转换为包括多个音节的频域信息；将预设的音节模型与频域信息中的音节对比，识别出所述音频中的至少两个音节；跟踪识别出的各音节在时域信息上的音高分布，得到各音节的音高关键点；确定每个音节的音高关键点对应时域中的触发时间点，把该触发时间点作为该音节的视频特效的触发时间点。本发明的方法可准确地识别音频中的特殊节奏点，以配合音频节奏加入对应的视频特效，提高了视频画面整体的美观性；无需用户细听音频和手动确定视频特效的触发时间点，提升了用户编辑和观看视频的互动体验。

Description

识别视频特效触发时间点的方法、装置和终端设备

技术领域

本发明涉及信息处理技术，尤其是一种识别视频特效触发时间点的方法、装置和终端设备。

背景技术

目前移动端的视频编辑app，通常带有添加滤镜，添加贴纸、字幕，某些功能丰富的产品还包含添加过渡动画等效果，一般来说，滤镜和贴纸、字幕等都是强个性化的功能，需要用户自己去选择和输入，软件程序不能替用户进行选择和描述，故用户需要手动选择过渡和动画效果；且，目前市面上暂无可按照音乐场景自动生成对应视频特效的功能。

编辑视频是一个复杂的操作，需要先通过听声音定位需要添加视频特效的位置，然后再将特效添加到特定的位置上。在移动设备的app上，需要通过手指触摸或拖动来定位添加特效的位置，由于手机屏幕尺寸的限制、以及手指触控操作的精确性问题，导致用户在听音之后，确认鼓点的位置等操作很不方便，难以在准确的节奏上编辑视频，用户体验差。由于手机尺寸和功能等限制，使其不能达到在PC机上采用鼠标操作的精确度，无法作为合适的视频编辑工具。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一，特别是针对用户难以通过手机等移动设备编辑或调整视频特效的触发时间点的问题。

本发明提供了一种识别视频特效触发时间点的方法，包括：

获取音频的时域信息；

根据快速傅里叶变换，将时域信息转换为包括多个音节的频域信息；

将预设的音节模型与频域信息中的音节对比，识别出所述音频中的至少两个音节；跟踪识别出的各音节在时域信息上的音高分布，得到各音节的音高关键点；

确定每个音节的音高关键点对应时域中的触发时间点，把该触发时间点作为该音节的视频特效的触发时间点。

优选地，得到各音节的音高关键点，包括：

根据各音节在时域信息上的音高分布，把音高在时域中的变化转折点确定为该音节的音高关键点。

优选地，所述把音高在时域中的变化转折点确定为该音节的音高关键点，包括：

计算当前变化转折点与前一个音高关键点在时域中的时间间隔，若所述时间间隔大于预置时长，把当前变化转折点作为音高关键点。

优选地，所述把该触发时间点作为该音节的视频特效的触发时间点之后，还包括：

根据每个音节的触发时间点，插入该音节的对应的视频特效；其中，每个音节设置对应该频段的视频特效。

优选地，所述插入该音节的对应的视频特效，包括：

获取所述音频对应的曲风，获取所述曲风中该音节对应的视频特效，插入所述视频特效，其中，每种曲风中的每个音节设置对应该音节的视频特效。

优选地，所述根据每个频段的触发时间点，插入预设的视频特效，包括：

以全部音节的触发时间点作为整体参考，计算当前触发时间点与前一个作为插入特效的触发时间点在时域中的时间间隔，若所述时间间隔大于预设时长，在当前触发时间点插入该触发时间点的音节的对应的视频特效。

优选地，所述根据每个音节的触发时间点，插入该音节的对应的视频特效，包括：根据每个音节的触发时间点，获取以当前触发时间点为参考的触发时间点变化方式，获取该变化方式对应的视频特效，在当前触发时间点插入所述视频特效。

优选地，所述获取以当前触发时间点为参考的触发时间点变化方式，包括：以全部音节的触发时间点作为整体参考，获取以当前触发时间点作为结束触发时间点的最近预置数量触发时间点，根据最近预置数量触发时间点之间的音节和/或时间间隔变化，确定触发时间点的变化方式；其中，每个变化方式设置对应的视频特效。

本发明还提出一种识别视频特效触发时间点的装置，包括：

获取模块，用于获取音频的时域信息；

信息转换模块，用于根据快速傅里叶变换，将时域信息转换为包括多个音节的频域信息；

识别模块，用于将预设的音节模型与频域信息对比，识别出所述音频中的至少两个音节；跟踪识别出的各音节在时域信息上的音高分布，得到各音节的音高关键点；

触发模块，用于确定每个音节的音高关键点对应时域中的触发时间点。

本发明还提出一种识别视频特效触发时间点的终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任意一项所述的识别视频特效触发时间点的方法。

本发明的有益效果如下：

1、本发明获取视频中音频的时域信息，或欲加入视频中的音频的时域信息，通过快速傅里叶变换将时域信息转换为频域信息后，可根据频域信息和时域信息同时识别和跟踪多个音节，进而获得多个音节所对应音高的时间分布，以得到各音节的音高关键点，并将所有音高关键点作为备选的视频特效的触发时间点，以得到最后的触发时间点。本发明的方法可准确地识别音频中的特殊节奏点，以配合音频节奏加入对应的视频特效，提高了视频画面整体的美观性；无需用户细听音频和手动确定视频特效的触发时间点，提升了用户编辑和观看视频的互动体验。当用户拍摄一段视频后，本发明可根据视频中的音频信息，自动识别视频特效的触发时间点；或，用户可为视频另行选取配乐，本发明可根据选取的配乐的音频信息，自动识别视频特效的触发时间点，无需用户反复听音和手动编辑触发点的操作。

2、本发明中的各个音节的音高关键点相互独立，同一个触发时间点，可同时对应于不同音节的多个音高关键点，以同时插入不同的视频特效，即：可在视频画面的同一节奏点或同一帧画面同时显示多个不同的视频特效；当然，在同一个触发时间点，对应于不同音节的多个音高关键点时，亦可在该触发时间点设置特别的混合视频特效，增强视频画面的娱乐效果。

3、根据计算各音高的当前变化转折点与前一个音高关键点在时域中的时间间隔，以及计算音频的当前触发时间点与前一个作为插入特效的触发时间点在时域中的时间间隔，本发明可控制添加的视频特效之间的时间间隔，以避免在短时间内添加过于密集的视频特效，从而影响视频的观感。

4、根据不同的音节，可设置对应该音节的视频特效，例如在低音鼓点时设置抖动特效，在高音钢琴音节加入闪光特效等；若音频为音乐，还可根据音乐的曲风，设置对应曲风的视频特效；进一步地，还可根据音乐节奏的变化方式设置对应的特效，即：以当前触发时间点为参考的触发时间点变化方式，获取该变化方式对应的视频特效，以加载至视频中；当然，用户亦可自行预设多个个性化特效。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明方法实施例的流程示意图；

图2为本发明方法优选实施例的流程示意图；

图3为本发明终端设备的实施例示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明提出一种识别视频特效触发时间点的方法，包括：

获取音频的时域信息；

如图1所示的实施例一，其中各步骤的具体含义如下：

S10：获取音频的时域信息；

所述音频可为PCM(Pulse Code Modulation脉码编码调制)音乐文件，以MP3、WAV、WMA、RAM、AIFF等常用压缩格式存储于终端设备上或网络存储器中，以便插入指定的视频文件中；所述音频亦可直接来源于视频文件，即读取视频文件中的音频信息，所述视频文件可为MPEG、AVI、RM、ASF、WMV等格式。获取音频时，可自终端设备的存储器中读取或通过网络读取。读取后，再通过音频解码等处理将压缩格式的音频转化为非压缩的纯波形文件来处理，该波形一般为按照时间变化的时域信息。

S20：根据快速傅里叶变换，将时域信息转换为包括多个音节的频域信息；

音频中的节奏点是插入视频特效的关键点，为识别这些关键点，须将音频的时域信息转化为频域信息，以根据频域信息中的各个音频分量识别音乐中的各个音节和音高。将音频的时域信息转化为频域信息主要通过傅立叶级数和傅立叶变换实现，由于拍摄视频时所录的音频或音乐音频一般为非周期性的音频，可采用快速傅里叶变换。变换时，可将音频的全部时域信息分解为包括多个音节信息的频域信息，或先将音频的全部时域信息分解为若干个局部时域信息，再将每个局部时域信息分解为包括多个音节的频域信息，以便后续识别各个音节。

S30：将预设的音节模型与频域信息中的音节对比，识别出所述音频中的至少两个音节；跟踪识别出的各音节在时域信息上的音高分布，得到各音节的音高关键点；

一段音乐中或某一帧音乐中，可能同时包括多种声音，例如鼓声、钢琴声、歌声等，这些声音在时域信息中难以区分，但频域信息可转化为多维度音频向量，可观测到时域信息中每一帧音频对应的频率，以及各个音节在时域上变化。本发明预设多个音节模型，每个音节模型分别对应特定乐器的某一音节。识别时，将预设的音节模型与频域信息中的音节对比，若频域信息中的某音节与预设的音节模型一致，则识别出该音节；在时域信息上，可跟踪识别出的音节，以获知该音节在时间上的变化规律，进而得到该音节在时域信息上的音高分布；以此类推，得到每个识别出的音节的音高分布。在频域范围上识别音节时，可只识别或选取某些特殊的音节，比如鼓声、钢琴声、电音触发点等，在每个八度内并非需要每个音高，这样在一条音轨上即可跟踪4-6个音高的变化。在得到各音节的音高关键点时，可根据每个音高的衰减变化，确定音节在时间上的触发时间分布，将符合预设规律的变化作为音高关键点。并非所有的音节均需要作为音高关键点，如果在每八度中都提取音高关键点，则可能导致音高关键点分布密集；本发明在跟踪各音节的音高分布时，可舍掉部分频率的音节，例如剔除人声更多的中频信息，保留更多的低频鼓声作为音频节点。

音频中音节的变化可能是快速的，例如：一个鼓声之后可能紧随着一个电音或者钢琴音，我们可同时识别这两个音高，并可能同时将之设置为音高关键点，且可同时在该音高关键点上设置视频特效。故在时域上，每个音节可能在一帧内同时出现多个视频特效，亦可在连续的若干帧画面中重复出现同一特效或多个特效，从而导致整个视频为特效的堆积或特效过于密集，难以产生美感。若将每一帧的视频特效控制为一个，或在预设的时间段内将视频特效控制为一个或预设的数量，则视频特效将变得单调乏味。

本步骤从各音节中分别获取音高关键点，以作为插入视频特效的参考点。例如：根据频率的高低，可将频率划分为高频段(1280-2560Hz)、中频段(160-1280Hz)和低频段(20Hz-160Hz)三个，分别识别这三个频段中各个音节的音高分布，分别得到三个音节的音高关键点；或，根据乐器与人声的频率特点，预设以低音鼓的敲击声频率(2.5KHz)作为参考点的节奏频段2KHz～3KHz，和以人声的基音频率区域500Hz～1KHz为参考的歌唱频段300Hz～1.1KHz，分别识别这两个频段中的各个音节的音高，得到两个频段的音高关键点。若某频段中的多个音高关键点对应时域中的同一个时间触发点，则在该时间触发点可同时触发多个视频特效。该步骤可通过音节的频段划分，控制同一时间点或同一帧画面中的视频特效数量，使同一时间点或同一帧画面中的视频特效数量最多不超过频段的数量，进而使视频特效不会过于密集，亦不会过于单调乏味。

所述每个频段中可包括多个所述音节，每个音节在时域中又可对应于多个音高关键点。

S40：确定每个音节的音高关键点对应时域中的触发时间点，把该触发时间点作为该音节的视频特效的触发时间点。

得到每个音节的音高关键点之后，将各个音高关键点分别对应至时域中，以确定对应时域中的各个触发时间点，从而使用户无需仔细倾听音乐的节奏点和手动编辑视频特效的触发时间点，简化了用户操作。当然，用户还可进一步编辑本发明识别的触发时间点，以使用户更准确地表达出特效效果。确定各视频特效的触发时间点后，或当前欲插入视频特效的触发时间点后，系统可自动插入预设的视频特效，或预加载备选的视频特效以供用户选择，从而达到在特定的节奏点添加视频特效的目的。

音频的时域信息转换为不同频率的多个谐波叠加的频域信息后，可识别出每个音节的频率，以及多个音节之间的变化规律；故所述音高关键点可为多个音节或音高变化规律的特殊点，亦可为单个音节的音高在时域中的变化转折点。

为控制同一帧画面中的视频特效数量或视频特效的间隔时间，本发明可控制各音节的音高关键点的时间间隔；例如，将频域信息中的音节频段分为低频段与高频段，所述低频段的音高关键点的时间间隔预设为2秒，高频段的音高关键点的时间间隔预设为1秒；当然，亦可根据情况，将该时间间隔设置为其它合适的数值。根据以上方案，本发明提出另一实施例，具体步骤如下：

S10：获取音频的时域信息；

S31：将预设的音节模型与频域信息中的音节对比，识别出所述音频中的至少两个音节；跟踪识别出的各音节在时域信息上的音高分布，根据各音节在时域信息上的音高分布，计算当前变化转折点与前一个音高关键点在时域中的时间间隔，若所述时间间隔大于预置时长，把当前变化转折点作为音高关键点；

当把各音节的音高在时域中的变化转折点确定为该音节的音高关键点时，若音高的变化转折点过于密集，则致使步骤S40中的视频特效的触发时间点过于密集；本实施例在步骤S31中，以前一个音高关键点作为参考，计算当前变化转折点与该参考的时间间隔，若所述时间间隔大于预置时长，才把当前变化转折点作为音高关键点；若小于或等于预设时长，则当前变化转折点不作为音高关键点，故保障了音高关键点的疏密程度。

在时域上，各音节的音高关键点相互独立，故在视频特效的同一触发时间点，可对应于不同音节的多个音高关键点，以同时插入不同的视频特效，或插入指定的混合视频特效。为保障视频特效的视觉效果，可分别预设各音节特有的视频特效，例如某音节特有的视觉特效可为抖动、闪现、淡入淡出等特效中的一个，或在该多个特效中以随机或轮循的方式出现；另一个音节的视觉特效为闪光、炸裂、移位、扭曲等特效中的一个，或在该多个特效中以随机或轮循的方式出现。该技术方案对应的实施例二如下：

S10：获取音频的时域信息；

S40：确定每个音节的音高关键点对应时域中的触发时间点，把该触发时间点作为该音节的视频特效的触发时间点；

S50：根据每个音节的触发时间点，插入该音节的对应的视频特效；其中，每个音节设置对应该音节的视频特效。

在本实施例中，仍以所述高频段的音节和低频段的音节为例，则在高频段的时间触发点上出现高频段的视频特效，在低频段的时间触发点上出现低频段的视频特效；若视频画面的同一帧中，同时有高频段和低频段的时间触发点，则可同时出现高频段和低频段的视频特效，或预设的高频段与低频段的时间触发点重合的混合视频特效。

在实施例二的基础上，本发明进一步根据视频中音频的曲风、或欲插入视频中的音频的曲风风格，提出又一实施例，步骤S50进一步优化为：

S51：根据每个音节的触发时间点，获取所述音频对应的曲风，获取所述曲风中该音节对应的视频特效，插入所述视频特效，其中，每种曲风中的每个音节设置对应该音节的视频特效。

每种曲风中每个音节对应的视频特效可预先存储于指定的特效库中，以供不同曲风的音频使用。例如，摇滚风格的音乐，可设置震动抖动等画面缩放、移位、扭曲特效，而舒缓的歌曲或音乐，采用淡入淡出、画面重叠混合、光影混合等画面波动不大的特效。

在前述实施例中，可针对根据某一音节的音高的当前变化转折点与前一个音高关键点在时域中的时间间隔，以确定当前变化转折点是否作为音高关键点。本发明还提出另一种控制视频特效整体间隔时间的方法优选实施例。该优选实施例的步骤如下：

S10：获取音频的时域信息；

S41：确定每个音节的音高关键点对应时域中的触发时间点；

S52：以全部音节的触发时间点作为整体参考，计算当前触发时间点与前一个作为插入特效的触发时间点在时域中的时间间隔，若所述时间间隔大于预设时长，在当前触发时间点插入该触发时间点的音节的对应的视频特效。

由于多个音节的视频特效的触发时间点互相独立，若以全部音节的触发时间点作为参考，则多个音节的各触发时间点的时间可能重合，或间隔较短时间。为避免特效的堆砌与杂乱，本发明不仅可在单个音节的时域内控制各音高关键点与触发时间点之间的时间间隔，通过本优选实施例，还可在所有音节的时域内，通过计算当前的视频特效触发时间点与前一个作为插入特效的触发时间点在时域中的时间间隔，来控制整体视频特效的疏密。例如前一个插入特效的触发时间点为5秒以前，预设的时间间隔为3秒，则当前的视频特效触发时间点满足预设时长，可作为触发时间点；若预设的时间为6秒，则当前的视频特效触发时间点小于预设时长，与前一个触发时间点的时间间隔过于密集，当前的视频特效触发时间点不可作为触发时间点。

视频特效的触发时间点不仅可以为单个音节的音高的变化点，还可以为多个音节的节奏变化方式，例如遇到一段特定节奏的音频，则触发特定的视频特效。故本发明在实施例二的基础上，还提出实施例三，将实施例二中的步骤S50优化为：

S53：所述根据每个音节的触发时间点，插入该音节的对应的视频特效，包括：

根据每个音节的触发时间点，获取以当前触发时间点为参考的触发时间点变化方式，获取该变化方式对应的视频特效，在当前触发时间点插入所述视频特效。

所述触发时间点变化方式可预设于系统内，亦可根据机器学习功能自我识别。例如当某一特定的触发时间点变化方式重复出现时，代表某一特定节奏重复出现，当该节奏重复出现至指定次数时，则将该节奏的最后一个触发时间点标记为特殊的触发时间点变化方式；当再次出现该特定节奏且播放至最后一个触发时间点时，则触发该变化方式对应的视频特效；所述对应的视频特效可预存于终端设备内，或自网络存储器中读取。本实施例可有效识别特定的或重复出现的节奏或旋律，以插入预设的视频特效，使音频信息与整体视频特效保持一致。

进一步地，识别所述触发时间点变化方式可以为识别预置时间段内的触发时间点的变化方式，或预置数量的触发时间点的变化方式。以预置数量的触发时间点的变化规律确定视频特效时，所述实施例三中的步骤S53可进一步优化如下：

S54：所述获取以当前触发时间点为参考的触发时间点变化方式，包括：以全部音节的触发时间点作为整体参考，获取以当前触发时间点作为结束触发时间点的最近预置数量触发时间点，根据最近预置数量触发时间点之间的音节和/或时间间隔变化，确定触发时间点的变化方式；其中，每个变化方式设置对应的视频特效。

即在全部音节的触发时间上，可自当前触发时间点向前依次追溯至最近预置数量触发时间点，例如：自当前触发时间点，在全部音节的整体触发时间点上，向前追溯六个触发时间点，若六个触发时间点之间的音节变化，或时间间隔变化，或音节与时间间隔二者同时变化的规律符合预设的某一特定变化方式，则在当前触发时间点加载该特定变化方式对应的特效。本实施例以预置数量触发时间点作为截取特定时长的节奏或旋律的参照，可控制触发时间点变化方式的时长，避免截取过长的特定时长从而难以识别特定旋律，或截取过短的时长而造成特效混乱。

由于部分视频特效的过场动画时间长短不一，具有一定的时间跨度，在部分情况下，可能出现某一触发时间点或视频画面的某一帧视频特效未播放完毕，则又切换至下一触发时间点的视频特效或下一帧的视频特效；若两个触发时间点或两帧视频画面中的视频特效相同，则用户将看到特效的延迟重复。在部分情况下，用户需要避免这样的效果，故本发明还提出另一实施例，以确保不同触发时间点或不同帧之间的视频特效不会重复出现并互相干扰。该实施例的具体方案如下：

S10：获取音频的时域信息；

S55：判断当前触发时间点所对应的视频画面中，是否已有相同的视频特效，若否，则插入当前触发时间点所属音节的对应的视频特效；

若是，则取消当前触发时间点所属音节的对应的视频特效；其中，每个音节设置对应该音节的视频特效。

为使用户尽快获知视频特效的插入效果，本发明还提出可预览视频特效的实施例，即在步骤S50中，所述插入该音节的对应的视频特效之前，还包括：

在视频画面中预览待插入的视频特效。

若用户确认该预览效果，则插入该视频特效；若用户不确认该效果，则可进一步编辑该效果的参数、或重新选择其它视频特效、或取消插入视频特效。

为方便用户选择，在各触发时间点插入该音节的对应的视频特效时，还可增设用户选择步骤，具体为：在步骤S50中，所述插入该音节的对应的视频特效之前，还包括：

在各触发时间点预加载多个候选视频特效；

获取用户自多个候选视频特效中指定的视频特效；

将指定的视频特效加载至视频画面。

根据以上各方法，本发明还提出一种识别视频特效触发时间点的装置，包括：

获取模块，用于获取音频的时域信息；

识别模块，用于将预设的音节模型与频域信息中的音节对比，识别出所述音频中的至少两个音节；跟踪识别出的各音节在时域信息上的音高分布，得到各音节的音高关键点；

触发模块，用于确定每个音节的音高关键点对应时域中的触发时间点，把该触发时间点作为该音节的视频特效的触发时间点。

参考图3，所述终端设备包括处理器、存储器、输入单元、显示单元等部件。本领域技术人员可以理解，图3中示出的终端设备结构并不构成对所有终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器可用于存储计算机程序以及各功能模块，处理器通过运行存储在存储器的计算机程序，从而执行终端设备的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如为识别视频特效触发时间点的功能)等；存储数据区可存储根据终端设备的使用所创建的数据(比如音频处理数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。

输入单元可用于接收用户输入的音频选择信息或音频编辑信息，以及产生与终端设备的用户设置以及功能控制有关的信号输入。具体地，输入单元可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元可用于显示用户输入的信息或提供给用户的信息以及终端设备的各种菜单。显示单元可采用液晶显示器、有机发光二极管等形式。处理器是终端设备的控制中心，利用各种接口和线路连接整个电脑的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

在本发明实施例中，该终端设备所包括的处理器还具有以下功能：

获取音频的时域信息；

此外，在本发明各个实施例中的各模块可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种识别视频特效触发时间点的方法，其特征在于，包括：

获取音频的时域信息；

2.根据权利要求1所述的识别视频特效触发时间点的方法，其特征在于，所述得到各音节的音高关键点，包括：

3.根据权利要求2所述的识别视频特效触发时间点的方法，其特征在于，所述把音高在时域中的变化转折点确定为该音节的音高关键点，包括：

4.根据权利要求1所述的识别视频特效触发时间点的方法，其特征在于，所述把该触发时间点作为该音节的视频特效的触发时间点之后，还包括：

根据每个音节的触发时间点，插入该音节的对应的视频特效；其中，每个音节设置对应该音节的视频特效。

5.根据权利要求4所述的识别视频特效触发时间点的方法，其特征在于，所述插入该音节的对应的视频特效，包括：

6.根据权利要求4所述的识别视频特效触发时间点的方法，其特征在于，所述根据每个音节的触发时间点，插入该音节的对应的视频特效，包括：

7.根据权利要求4所述的识别视频特效触发时间点的方法，其特征在于，所述根据每个音节的触发时间点，插入该音节的对应的视频特效，包括：

8.根据权利要求7所述的识别视频特效触发时间点的方法，其特征在于，所述获取以当前触发时间点为参考的触发时间点变化方式，包括：

以全部音节的触发时间点作为整体参考，获取以当前触发时间点作为结束触发时间点的最近预置数量触发时间点，根据最近预置数量触发时间点之间的音节和/或时间间隔变化，确定触发时间点的变化方式；其中，每个变化方式设置对应的视频特效。

9.一种识别视频特效触发时间点的装置，其特征在于，包括：

获取模块，用于获取音频的时域信息；

10.一种识别视频特效触发时间点的终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任意一项所述的识别视频特效触发时间点的方法。