CN104754395A

CN104754395A - 声感视觉特效系统及声感视觉特效处理方法

Info

Publication number: CN104754395A
Application number: CN201510053838.1A
Authority: CN
Inventors: 胡俊峰
Original assignee: Suzhou Lejuyitang Electronic Technology Co Ltd
Current assignee: Suzhou Lejuyitang Electronic Technology Co Ltd
Priority date: 2014-02-26
Filing date: 2015-02-01
Publication date: 2015-07-01
Also published as: TWI555013B; TW201533732A; CN104822085A; TW201629952A

Abstract

本发明涉及一种声感视觉特效系统与方法，上述系统包括：声音感测装置、控制主机及视觉特效输出装置；声音感测装置实时将声音感测信号发送给控制主机；控制主机获取与被播放的多媒体文件对应的视觉特效数据集，视觉特效数据集包括多个视觉特效标签，每个视觉特效标签包括时间设定数据及特效设定数据，控制主机同步从视觉特效数据集中获取与当前时间匹配的视觉特效标签，从中获取视觉设定数据，再根据声音感测信号共同生成与多媒体文件同步播放的视觉特效信号；视觉特效输出装置根据视觉特效信号输出视觉特效。上述声感视觉特效系统及方法可以结合事先设计的视觉效果和现场的声音效果，共同实现各种视觉特效功能。

Description

声感视觉特效系统及声感视觉特效处理方法

技术领域

本发明涉及视觉特效技术领域，特别涉及一种声感视觉特效系统及一种声感视觉特效处理方法。

背景技术

卡拉OK是一种伴奏系统，演唱者可以在预先录制的音乐伴奏下参与歌唱。卡拉OK能通过声音处理使演唱者的声音得到美化与润饰，当再与音乐伴奏有机结合时，就变成了浑然一体的立体声歌曲。这种伴奏方式，给歌唱爱好者们带来了极大的方便和愉悦，成为人们休闲娱乐的一种方式，而现在多称为KTV。

普通的KTV系统中，由于场地与设备的限制，一般并不会有专门的灯光特效设备。专业的舞台上虽然会有专门的灯光特效或者投影特效设备，然而这些设备一般需要专业人员来操作，除非大型演出场合，才有可能使用，整体的成本很高。因此，专业舞台上的灯光特效系统并无法运用至KTV系统中。

现有的声音感应视觉设备虽然可以通过柱状图或波形图等方案即时体现现场的声音效果，但效果单调。而基于不同歌曲而事先设计其视觉特效，虽然丰富多样，但却没有即时性，缺乏对演唱现场的响应。

发明内容

有鉴于此，有必要提供一种声感视觉特效系统及声感视觉特效处理方法，其可以结合事先设计的视觉效果和现场的声音响应，共同实现各种视觉特效功能。

本发明实施例提供一种声感视觉特效系统，包括：声音感测装置、控制主机及视觉特效输出装置；

所述声音感测装置实时检测外部的声音并生成所述的声音感测信号，并将所述声音感测信号发送给所述控制主机；

所述控制主机在播放多媒体文件时，或在外部设备播放多媒体文件时，获取与所述多媒体文件对应的视觉特效数据集，所述视觉特效数据集内包括多个视觉特效标签，每个视觉特效标签包括时间设定数据以及特效设定数据，所述控制主机同步从所述视觉特效数据集中获取与当前时间匹配的视觉特效标签，根据所述声音感测信号生成特效参数，并根据所述特效参数以及所述匹配的视觉特效标签的特效设定数据共同生成与所述多媒体文件同步播放的视觉特效信号；

所述视觉特效输出装置根据所述控制主机的视觉特效信号输出视觉特效。

在一个实施例中，所述视觉特效输出装置为多媒体视频输出设备，所述系统还包括视觉特效叠加设备，分别与所述控制主机及所述多媒体视频输出设备相连，所述视觉特效叠加设备用于：

将所述视觉特效信号叠加在所述多媒体文件的多媒体视频主画面上，并将叠加后的视频信号传输给所述多媒体视频输出设备输出。

在一个实施例中，所述视觉特效设备包括LED灯阵列，所述LED灯阵列布满房间的墙壁、屋顶与地面。

在一个实施例中，所述控制主机获取与所述多媒体文件对应的视觉特效数据集包括：

所述控制主机根据所述多媒体文件的标识向云端服务器系统发送获取所述对应的视觉特效数据集的请求；以及

接收所述云端服务器系统返回的所述视觉特效数据集。

在一个实施例中，所述控制主机获取与所述多媒体文件对应的视觉特效数据集还包括：

所述控制主机将身份认证信息发送给所述云端服务器系统，以使所述云端服务器系统统验证所述控制主机是否具有获取视觉特效数据集的权限；

所述云端服务器系统在所述控制主机具有获取视觉特效数据集的权限时才返回所述控制主机请求的视觉特效数据集。

在一个实施例中，还包括与所述控制主机相连的外部设备；

所述外部设备在播放多媒体文件时或者多媒体文件被加入播放列表时将对应的多媒体文件的标识发送给所述控制主机；

所述控制主机在接收到所述多媒体文件的标识后向云端服务器系统发送获取所述对应的视觉特效数据集的请求。

在一个实施例中，所述控制主机还接收所述云端服务器系统发送的用户个性化信息，所述视觉特效数据集中还包括视频替换特效标签，所述视频替换特效标签包括时间设定数据、用于在多媒体视频主画面中定义出预定形状的区域的形状数据以及与所述形状数据对应的类别数据，所述控制主机还将所述预定形状的区域内的内容替换为与所述类别数据对应的用户个性化信息。

在一个实施例中，所述控制主机还根据用户输入的选择指令分别获取不同版本的视觉特效数据集。

从所述多媒体文件内解析出内嵌在所述多媒体文件内的所述视觉特效数据集。

在一个实施例中，所述特效设定数据为：视频、矢量动画、或者用于生成视频或者矢量动画的中间数据，所述中间数据是根据预定的协议或者语言生成。

在一个实施例中，所述特效设定数据所描述的视觉特效是对应的时间设定数据所设定的时间区间内音乐节拍的视觉表达，所述特效设定数据是根据所对应的音乐节拍的快慢、高低、强弱等多项特征而设计的。

在一个实施例中，所述声音感测装置检测外部声音并生成相应的声音感测信号包括：实时采集外部声音的强度信号作为声音感测信号；

所述控制主机根据所述声音感测信号按预先设定的规则生成特效参数，调整灯光特效或视频特效的亮度、大小、位置或速度。

在一个实施例中，所述声音感测装置检测外部声音并生成相应的声音感测信号包括：将所述外部声音分为高、中、低3个频段，分别实时采集每个频段的声音强度信号作为声音感测信号；

所述控制主机根据所述三种声音感测信号按照预先设定的规则生成特效参数，调整灯光特效或视频特效内三个不同颜色红、绿、蓝的发光强度或发光强度比例。

在一个实施例中，所述声音感测装置检测外部声音并生成相应的声音感测信号包括：将声音频率分成多个频段，分别采集每个频段的声音强度信号作为声音感测信号；

所述视觉特效数据集还包括声音响应设定标签，用来定义某个时间段内多个声音感测信号与视觉特效数据集中的多个特效参数之间的对应关系，所述多个特效参数包括：灯光亮度、图案颜色、动画速度、灯光面积大小及位置；

所述控制主机根据所述声音感测信号生成特效参数包括：根据当前时间所对应的声音响应设定标签所定义的对应关系确定每个频段的声音感测信号所对应的特效参数，并进一步根据每个频段的声音感测信号生成对应的特效参数。此外，本发明实施例还提供一种声感视觉特效处理方法，包括：

通过声音感测装置实时感测外部声音并发送声音感测信号；

在播放多媒体文件时，或在外部设备播放多媒体文件时，获取与所述多媒体文件对应的视觉特效数据集，所述视觉特效数据集内包括多个视觉特效标签，每个视觉特效标签包括时间设定数据以及特效设定数据；

同步从所述视觉特效数据集中获取与当前时间匹配的视觉特效标签；

根据所述声音感测信号生成特效参数，并根据所述特效参数以及所述匹配的视觉特效标签的特效设定数据共同生成与所述多媒体文件同步播放的视觉特效信号；以及

根据所述视觉特效信号同步输出视觉特效。

上述技术方案的有益效果是：根据外部音频信号参数的变化，视觉特效中对应的参数就相应变化，从而可用视觉特效的方式表现出音频的变化，使得视觉特效与现场音频之间交相辉映，提升了演唱或者演奏现场的体验。而且整个过程是基于声音感测的方式自动实现的，现场无须依赖于专业特效人员，成本降低。另一方面，由于视觉特效是基于视觉特效数据集实现，针对不同的多媒体文件，可以采用单独设计的视觉特效数据集，每个多媒体文件的视觉特效是不同的，进一步提升了多媒体视觉特效的种类。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

图1为本发明第一实施例提供的声感视觉特效系统的架构示意图。

图2为本发明第二实施例提供的声感视觉特效系统的架构示意图。

图3为第二实施例提供的声感视觉特效系统进行视觉特效版本切换的示意图。

图4为本发明第三实施例提供的声感视觉特效系统的架构示意图。

图5为本发明第四实施例提供的声感视觉特效系统的架构示意图。

图6为第四实施例的声感视觉特效系统中云端服务器的模块图。

图7为本发明第五实施例提供的声感视觉特效系统的架构示意图。

图8为本发明第六实施例提供的声感视觉特效系统的架构示意图。

图9为本发明第七实施例提供的获取视觉特效数据集的方法的流程图。

图10为图9的方法中部分步骤的流程图。

图11为本发明第八实施例提供的获取视觉特效数据集的方法的流程图。

图12为本发明第九实施例提供的在视觉特效中替换用户的个性化信息的流程图。

图13为本发明第十实施例提供的声感视觉特效处理方法的流程图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如后。

第一实施例

参阅图1，其为本发明第一实施例提供的声感视觉特效系统的架构示意图。如图1所示，声感视觉特效系统100包括声音感测装置15、控制主机10以及视觉特效输出装置11。

控制主机10的具体实例包括，但并不限于，个人计算机、多媒体播放器、单片机、数据播放器、智能手机、专用的控制芯片。

声音感测装置15用于录取乐器发出的音乐声，或者录取演唱者的歌唱声。可以理解，一般在演出现场，乐器一般是由专门的演奏人员演奏。声音感测装置15的具体形式并不受任何限制，甚至可以从功放装置的某个端口获得声音，只要能够感测声音信号并将声间感测信号发送给控制主机10即可。

在一个具体的实施方式中，声音感测装置15为一个或多个麦克风。其通过有线或者无线的方式与控制主机10相连。

将演唱者手持的麦克风作为声音感测装置的时候，现场的视觉特效能够根据演唱者的音量甚至音阶而变化。这就让演唱者可以自行调整现场的视觉特效。

当声音感测设备对准乐器的时候，乐器的音量甚至音阶的变化就能调整现场视觉特效。

在一个具体的实施方式中，声音感测装置15为一个独立的电子装置，例如智能手机、平板电脑、可穿戴电子设备等等。此时，声音感测装置15可通过无线网络(包括WIFI网络、蓝牙、或者互联网)与所控制主机10相连。电子装置内置麦克风，且运行有特定的应用程序。此应用程序通过预定的网络端口向控制主机10同步麦克风感测到外部声音信号。

感测到声音感测信号后，声音感测装置15可将其同步给控制主机10。上述的声音感测信号可以是实时采样并同步发送给控制主机10，还可以是每一个采样周期内多次采样累计平均后同步给控制主机10。可以理解的，即使是一个采样周期内多次采样平均，当采样周期较小时，依然可以认为声音感测信号的发送是实时的。声音感测信号既可以是数据信号也可以是模拟信号。

声音感测装置15还可将声音频率分成多个频段，并分别采集每个频段的声音感测信号。例如，对应于每个频段，可能采集其音量作为上述的声音感测信号。例如，上述的多个频段可包括高、中、低3个频段。可以理解的是，此处的高、中、低频段可以任意设定，而无任何限制。高、中、低频段可以是连续的，覆盖整个乐器或人声的频段，也可以是仅从整个频段中选取的三个不连续的频率区间。

视觉特效输出装置11可为任意的可输出视频信号的显示设备，例如单个显示屏、多个显示屏构成的显示屏阵列、单个灯具(例如LED灯)、多个灯具构成的灯具阵列、单个投影仪、多个投影仪构成的投影仪阵列等等。

在一个具体的实例中，视觉特效输出装置11包括一个LED灯阵列，该LED灯阵列中的每个灯可以根据输入的不同信号分别输出不同的灯光，所有LED灯的灯光共同构成了整体的视觉特效。可以理解的是，视觉特效的形式并不受任何限制。上述的LED灯阵列可以布满房间所有的墙壁、屋顶以及地面，使得显示的视觉特效可以对房间实现全包围的效果，最大程度的提升现场舞台视觉特效。

在一个具体的实例中，视觉特效输出装置11包括一个或多个显示屏，每个显示屏可显示相同的显示信号，也可以被分别控制，即显示不同的显示信号。所有显示屏的显示共同构成了整体的视觉特效。

在一个具体的实例中，视觉特效输出装置11包括一个或多个投影仪，每个投影仪可显示相同的显示信号，也可以被分别控制，即显示不同的显示信号。所有投影仪的显示共同构成了整体视觉特效。

各种类型的视觉特效输出装置11还可以组合使用。例如，视觉特效输出装置11既可以包括一个LED灯阵列，还可以包括一个或多个投影仪或者显示屏。

控制主机10与视觉特效输出装置11之间可以通过有线或无线的方式连接，当采用有线方式连接的时候，例如可以通过数字视频接口(DVI接口)、高清晰度多媒体接口(HDMI接口)、视频图形阵列接口(VGA接口)连接，如此，可以直接传输视频信号。若控制主机10与视觉特效输出装置11之间通过无线方式连接，需要在视频特效输出装置11内置无线模块与信号转换模块，无线模块用于收发无线数据，信号转换模块用于将接收到的无线数据转换为预定格式的视频信号。

控制主机10在播放多媒体文件时，或者在外部设备播放多媒体文件时获取与所述多媒体文件对应视觉特效数据集。可以理解，若要在外部设备播放多媒体文件时获取视觉特效数据集，则外部设备在播放多媒体文件时需要向控制主机10发送一个信号，在上述信号内包括播放的多媒体文件的标识。

上述的外部设备与控制主机10可以通过有线网络或者无线网络相互连接，控制主机10内运行有特定的应用程序监听特定的网络端口。而外部设备在播放多媒体文件时可以向该特定的网络端口发送被播放的多媒体文件的标识以及开始播放多媒体文件的时间。如此，控制主机10即可接收到外部设备发送的多媒体文件的标识以及开始播放多媒体文件的时间。另外，控制主机10与外部设备还可以接入同一服务器系统中，外部设备在播放多媒体文件时，可以将播放的多媒体文件的识别信息以及开始播放的时间提交给服务器系统，由该服务器系统将上述信息推送给控制主机10或者由控制主机10主动向服务器系统查询得到上述的多媒体文件的标识以及开始播放多媒体文件的时间。

无论是控制主机10自行播放多媒体文件，还是外部设备在播放多媒体文件，在多媒体文件开始播放后，则控制主机10获取与被播放的多媒体文件对应的视觉特效数据集。

上述的视觉特效数据集，既可以是存储在控制主机10内，也可以是存储在云端服务器系统内。

视觉特效数据集内可包括多个视觉特效标签，每个视觉特效标签包括时间设定数据以及特效设定数据。时间设定数据设定对应的视觉特效标签的有效时间区间，而特效设定数据用于设定生成视觉特效的方式及其他参数。

可以理解的是，此处的视觉特效标签是指时间设定数据与特效设定数据逻辑上的关联性，但并不意味着视觉特效标签的具体数据结构以及存储结构，也就是同一视觉特效标签的时间设定数据以及特效设定数据并不限于一并保存。

特效设定数据集的存储方式即可以是以文件的形式存放，也可以是存储在数据库中。特效设定数据集是预先由人工或者自动化处理系统为每首歌曲定制生成的。

如果每一个视觉特效标签用来表示一个节拍，那么，一个具体的实施方式中，视觉特效数据集例如可如下：

[00：00.00]特效设定数据1

[00：24.88]特效设定数据2

[01：27.05]特效设定数据3

[02：30.39]特效设定数据4

……

其中的每一个时间设定数据，例如[00：24.88]，是一个节拍的视觉特效的起点时间，所述视觉特效在播放完毕后自然结束。

如果一个视觉特效标签中包含了多个节拍的视觉特效或者包含了静态的视觉特效，那么在一个具体的实施方式中，视觉特效数据集例如可如下：

[00：00.00]特效设定数据1

[00：24.88]特效设定数据2

[01：27.05]特效设定数据3

[02：30.39]特效设定数据4

……

对于此种格式中的特效设定数据，可以是由两个相邻的时间起点构成一个时间区间，例如，[00：00.00]-[00：24.88]构成的时间区间为特效设定数据1的有效时间区间。

可以理解的是，视觉特效标签的数据格式并不限于此，时间设定数据也可以包括更多的信息，例如直接指定出时间区间，如下：

[00：00.00-00：23.86]特效设定数据1

[00：24.88-01：00.90]特效设定数据2

[01：27.05-03：29.00]特效设定数据3

[03：30.39-05：38.86]特效设定数据4

方括号内第一个时间为开始时间，而后一个时间为结束时间。通过此种方式，可以定义出不连续的时间区间，其适应性比只包括开始时间的方式更加灵活。在此情况下，在所有时间区间外(例如在01：10.00时)都不会触发任何视觉特效。

此外，还可以是采用开始时间加上时间长度来定义每个视觉特效标签的有效时间区间，可如下：

[00：00.00，00：55.00]特效设定数据1

[00：24.00，01：03.00]特效设定数据2

[01：28.00，03：02.00]特效设定数据3

[04：30.00，01：08.00]特效设定数据4

从上述的数据定义可以看出，特效设定数据1与特效设定数据2对应的视觉特效的有效时间区间有重叠，因此，在本实施例中，两个不同的视觉特效是可以在同一个时间区间内并存。

进一步地，对应同一个时间区间，还可有多个视觉特效，此多个视觉特效可是相同类型的视觉特效，例如多个灯光特效，或者多个视频叠加特效，也可以是多个不同类型的视觉特效，例如，既包括灯光特效，也包括视频特效。此时，特效设定数据集例如可如下：

[00：00.00，00：55.00]特效设定数据1-1，特效设定数据1-2

[00：24.00，01：03.00]特效设定数据2

[01：28.00，03：02.00]特效设定数据3

[04：30.00，08：08.00]特效设定数据4-1，特效设定数据4-2。

可以理解的是，上述第一个视觉特效标签的设定方式等效于以下方式：

[00：00.00，00：55.00]特效设定数据1-1

[00：00.00，00：55.00]特效设定数据1-2

即，将包括多个特效的视觉特效标签拆分成多个有效时间区间相同的视觉特效标签。

在以上所列举的各个实施例中，时间的表征方式为时：分：秒，然而，本发明并不限于采用这种方式，例如，可以直接采用秒数、毫秒数、分钟数等任意的单位来表征。以开始时间00：24.00为例，换算成秒数则为1440，换算成毫秒数为1440000，直接以分钟数表示即为24。时间设定数据中所记录的时间数据还可以是对时间值进行了各种可逆运算的结果，甚至可以进行加密运算。以上述的秒数1440为例，例如可以将其除以2得到720。也就是说在时间设定数据中存储的是720，但实际上其表达的是1440秒。可以理解的是，经过此运算后，若要计算某个视觉特效标签的有效时间区间，需要进行逆向运算得到实际的时间区间。

可以理解的是，无论经过何种处理，其本质仍然是通过在视觉特效标签中定义一个时间起点或者一个时间区间，因此，所有的这些方式均应被包括在上述时间设定数据的范围内。

特效设定数据可以是视频、动画、图片、文字的源文件。

特效设定数据可以是用于设定生成视觉特效的方式及其他参数。此处的视觉特效可包括静态特效以及动态特效。静态特效例如可包括灯光颜色、灯光亮度、显示图案、显示文字等内容不变的特效。动态特效例如包括各种动画，例如颜色变换、亮度变化、图案变换、文字变化、动画或其组合。动态特效可以对应一个节拍，也可以对应一系列连续的节拍。上述的动画效果，例如可包括在伴唱多媒体视频主画面上叠加动画特效，比如显示全屏的鲜花、下雨、下雪、心形蛋糕等等。特效设定数据还可以是用于获取视觉特效的其他格式的数据，例如，视觉特效资源文件的识别符。而此处的视觉特效资源文件可以是预存储在与控制主机10相连的存储器内，或者存储在云端服务器内。控制主机10可以在存储器内读取与视觉特效资源文件的识别符对应的视觉特效资源文件，或者发起网络请求，从云端服务器处下载视觉特效资源文件。

优选地，特效设定数据所设定的视觉特效，是与音乐的节拍相关的，节拍的时间节点是通过上述的时间设定数据来控制。总体上来说，特效设定数据所设定的视觉特效，针对音乐当中的每一个节拍，在视觉特效上最好能够输出一个明显的视觉特效变化，而且视觉特效变化的幅度、速度、范围等等参数应该是与节拍的特点(通过对音频参数如音量、频率进行分析得到)相关的。因此，通过视觉特效就能够反应出音乐的变化，使得音乐除了声音外，还能够通过视觉特效的方式给人们以更丰富的刺激。换言之，本实施例中的视觉特效的目的是将音乐的节拍可视化，强化音乐的节拍感。

另一方面，控制主机10会监听声音感测装置发15发送的声音感测信号，即时调整视觉特效装置11所输出的视觉特效。

简单的，根据声音感测装置11的总的声音强度和预先设定的规则可以对应调整所有视觉特效信号的亮度、大小、位置或速度等，或者调整某些灯光特效的比例。进一步的，声音感测装置11可将声音频率分成多个频段采集。例如，对应于每个频段，可能采集其声音强度信号作为上述的声音感测信号。相应地，控制主机10在接收到多个频段的声音感测信号后，可将所述多个频段的声音感测信号分别映射至视觉特效信号的不同显示参数。

例如，上述的多个频段可包括高、中、低3个频段，控制主机10将所述高、中、低3个频段的声音感测信号的强度分别映射至所述视觉特效信号内三个不同颜色发光单元(例如三原色红、绿、蓝)的发光强度或发光强度比例。

进一步地，上述视觉特效数据集还可包括声音响应设定标签，用来定义某个时间段内多个声音感测信号与视觉特效数据集中的多个特效参数之间的对应关系，所述多个特效参数包括：灯光亮度、图案颜色、动画速度、灯光面积大小及位置。

从而控制主机10可根据当前时间所对应的声音响应设定标签所定义的对应关系确定每个频段的声音感测信号所对应的特效参数，并进一步根据每个频段的声音感测信号生成对应的特效参数。通过此种方式，在不同的时间区间内，同一声音感测信号可能触发不同的声感特效。

进一步地，上述的多个频段还可分别与多个带编号的图案一一对应。也就是说，控制主机10可将所述多个频段的声音感测信号分别对应于多个带编号的图案，并通过所述带编号的图案的各自亮度、位置和相互组合、拼接以反映当前外部音频的变化情况。

根据上述描述，可以理解，声感视觉特效的核心是在于建立外部音频信号的一项或多项参数与视觉特效的一项或多项参数之间的映射，从而根据外部音频信号参数的变化，视觉特效中对应的参数就相应变化，从而可以根据音频的特征对视觉特效做出一定范围的调整，使得视觉特效与现场音频之间交相辉映，提升了演唱或者演奏现场的体验。而且整个过程是基于声音感测的方式自动实现的，现场无须依赖于专业特效人员，成本降低。

另一方面，由于视觉特效是基于视觉特效标签集实现，针对不同的多媒体文件，可以使用单独设置的视觉特效标签集，每个多媒体文件的视觉特效是不同的，进一步提升了多媒体视觉特效的种类。

第二实施例

参阅图2，其为本发明第二实施例提供的声感视觉特效系统200的架构示意图。如图2所示，本实施例的声感视觉特效系统200与图1的声感视觉特效系统100相似，其不同之处在于还包括：音频输出装置12以及点歌面板13。

音频输出装置12例如可包括音箱、功放等音频输出设备。

点歌面板13提供点歌的界面，用户例如可以通过触控屏幕进行点歌，选择的歌曲被提交给控制主机10，控制主机10根据待播放的列表播放与被点歌曲对应的音频和/或视频文件，音频信号由音频输出装置12进行输出。

根据本实施例的技术方案，控制主机10既控制视觉特效的输出，也同时作为点歌系统的主机。也就是说，本实施例的声感视觉特效系统尤其适用于KTV的应用场景中。

此外，对应于每个多媒体文件，还有多个视觉特效数据集，分别对应视觉特效的多个版本，例如深情版本、搞笑版本、以及装萌版本。因此，参阅图3，控制主机10还可以在播放歌曲时显示选择菜单，提示用户可以切换视觉特效的不同版本。例如，当用户按下了遥控器的某个按键后，即用户输入了特定选择指令后，开始播放与该按键对应的视觉特效版本。可以理解的是，如图3所示的提示菜单并不是必须的，而可以在遥控器上设置对应的视觉特效版本切换按键，当切换按键被按下后，即可在不同版本的视觉特效之间进行切换。

第三实施例

参阅图4，其为本发明第三实施例提供的声感视觉特效系统300的示意图。如图4所示，本实施例的声感视觉特效系统300与图2的声感视觉特效系统200相似，其不同之处在于，还包括多媒体视频输出设备14。

多媒体视频输出设备14例如是电视机、投影仪或者显示屏。多媒体视频输出设备14用于输出多媒体文件的伴唱多媒体视频主画面。控制主机10在播放多媒体文件时，将多媒体视频主画面发送给多媒体视频输出设备14进行输出。

根据本实施例的技术方案，视觉特效通过视觉特效输出装置11进行输出，而多媒体视频主画面通过多媒体视频输出设备14进行输出，两者互不影响。

进一步地，可以理解的是，多媒体视频输出设备14中仍然可以用于输出视觉特效。当然，此时视觉特效是叠加在多媒体视频主画面中的。

也就是说，特效设定数据中所设定的视觉特效可包括分别由多种类型的设备输出的视觉特效。例如，灯光特效就由LED灯阵列进行输出，而视频叠加特效就由多媒体视频输出设备14进行输出。

第四实施例

参阅图5，其为本发明第四实施例提供的声感视觉特效系统400的示意图。本实施例的声感视觉特效系统400与图4的声感视觉特效系统300相似，其不同之处在于，还包括云端服务器系统20。

具体地，云端服务器系统20包括数据库22以及服务器24。其中，数据库22用于存储不同歌曲的视觉特效数据集。服务器24用于根据客户端(如控制主机10)的请求返回视觉特效数据集给客户端。

图6示出了上述的服务器24的一个实施例的结构框图。如图6所示，服务器包括存储器102、存储控制器104，一个或多个(图中仅示出一个)处理器106、外设接口108、以及网络模块110。这些组件通过一条或多条通讯总线/信号线相互通讯。

可以理解，图6所示的结构仅为示意，上述服务器还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。

存储器102可用于存储软件程序以及模块，如本发明实施例中的各方法及装置对应的程序指令/模块，处理器106通过运行存储在存储器102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。

存储器102可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器102可进一步包括相对于处理器106远程设置的存储器，这些远程存储器可以通过网络连接至上述服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。

外设接口108将各种输入/输出装置耦合至处理器106。处理器106运行存储器102内的各种软件、指令上述服务器执行各种功能以及进行数据处理。在一些实施例中，外设接口108、处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

网络模块110用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。在一个实例中，上述网络信号为有线网络信号。此时，网络模块110可包括处理器、随机存储器、转换器、晶体振荡器等元件。在一个实施例中，上述的网络信号为无线信号(例如射频信号)。此时网络模块110实质是射频模块，接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。射频模块可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。射频模块可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for MobileCommunication，GSM)、增强型移动通信技术(Enhanced Data GSMEnvironment，EDGE)，宽带码分多址技术(wideband code division multipleaccess，W-CDMA)，码分多址技术(Code division access，CDMA)、时分多址技术(time division multiple access，TDMA)，无线保真技术(Wireless，Fidelity，WiFi)(如美国电气和电子工程师协会标准IEEE802.11a，IEEE 802.11b，IEEE802.11g和/或IEEE 802.11n)、网络电话(Voice over internet protocal，VoIP)、全球微波互联接入(WorldwideInteroperability for Microwave Access，Wi-Max)、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

上述的软件程序以及模块包括：操作系统122、以及视觉特效服务模块124。操作系统122其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通讯，从而提供其他软件组件的运行环境。视觉特效服务模块124运行在操作系统122的基础上，用于实现对声感视觉特效系统的视觉特效数据集的传输控制功能，具体描述如下。

视觉特效服务模块124包括身份校验模块126、特效传输模块128以及信息传输模块130。

身份校验模块126用于客户端进行身份校验。在一个具体的实施方式中，每个控制主机10内存储有身份认证信息，例如，主机ID的加密字符串。在向视觉特效服务模块124发起视觉特效数据集获取请求前，控制主机10可以发起登陆请求，将身份认证信息发送给服务器24。相应地，服务器24的身份校验模块126根据预定的加密算法及密钥对身份认证信息进行解密，并验证该主机ID是否具有获取视觉特效数据集的权限。例如，检索该主机ID对应的缴费标记，若该主机ID并未缴纳视觉特效数据集的使用费，则该主机ID不具有获取视觉特效数据集的权限，控制主机10的身份认证不通过。相应地，特效传输模块128会拒绝控制主机10的获取视觉特效数据集的请求。

如果某个主机ID具有获取视觉特效数据集的权限时，特效传输模块128就会根据控制主机10的请求返回对应的视觉特效数据集。可以理解，控制主机10可以在开始播放某首歌曲或者其他多媒体文件的时候，或者歌曲进入播放列表后即发起上述的登陆校验请求以及视觉特效数据集获取请求，并将要播放的歌曲的识别符包括在上述的视觉特效数据集的获取请求内。

可以理解的是，从服务器24下载视觉特效数据集需要耗费一定的时间，因此如果歌曲开始播放时才开始下载上述的视觉特效数据集，则在视觉特效数据集下载完成后进行视觉特效播放时需要考虑去除下载时间对时间线的影响。具体地，如果歌曲播放后时间T时完成视觉特效数据集的下载并开始播放，则视觉特效的时间线会从时间T处开始，而不是从头开始以实现与多媒体文件的时间线的同步。这要求控制主机10记录多媒体文件开始播放的时间以及视觉特效数据集下载完成的时间，两者的时间差即为上述的时间T。

当每首多媒体文件一旦被添加至待播放列表里时，控制主机10就可以开始下载对应的视觉特效数据集。采用这种方式，只有播放列表里的第一首多媒体文件的视觉特效数据集需要调整时间线，而后续所有的歌曲的视觉特效数据集可以是在其他歌曲播放的同时在后台进行下载，因此，在要播放时其视觉特效数据集一般已经下载完成，视觉特效可以与视频、音频同步播放，无须再调整时间线。

可以理解的，当歌曲暂停时，控制主机同步会将视觉特效也暂停。

信息传输模块130用于传输除了视觉特效数据集外的一些附加信息。具体地，信息传输模块130可用于传输用户的个性化消息。可以理解，要让信息传输模块130传输用户的个性化信息，就需要让信息传输模块130能够知道当前的用户的身份信息。

在一个具体的实施方式中，控制主机10本身包括一个登陆模块，用于让用户输入用户名与密码以进行登陆操作后，控制主机10在接收到用户输入的用户名与密码后可将其上传至云端服务器处进行登陆验证，若登陆验证通过，则在每次向云端服务器发送网络请求时，可将当前登陆用户的身份信息包括在网络请求中，从而信息传输模块130就可以根据控制主机10上传的身份信息传输用户的个性化信息。

在另一个具体的实施方式中，控制主机10并不直接传输用户的身份信息，而只是传输控制主机10自身的标识符。如此，就需要让云端服务器能够通过控制主机10自身的标识符唯一确定对应的用户。也就是说，如果控制主机10只上传控制主机10自身的标识符，则需要预先建立控制主机10与当前用户的绑定关系。

例如，在控制主机10上、控制主机10所在的KTV房间内或者与控制主机10相连的电视机14的屏幕上设置有二维码，该二维码内可包括控制主机10的ID的加密字符串。当用户在某个特定的应用程序中对该二维码进行扫描后，由该应用程序向预定的网址发起网络请求，将应有程序当前用户的识别符与该加密字符串一并发送给服务器24。服务器24在接收到该网络请求后，解析出用户识别信息与主机ID后，建立两者之间的绑定关系。相应地，信息传输模块130可以将该用户的个性化信息例如，头像、姓名、用户编辑的其他信息传输给控制主机10。

可以理解，要实现对当前多媒体视频内容的替换，控制主机10需要知道在何时以及多媒体视频主画面的哪个位置进行替换操作。在一种实施方式中，控制主机10可以进行人脸识别操作，当在所播放的多媒体视频画面中识别出人脸的时候，即可将人脸替换成当前用户的人脸。

在另一种方式中，视觉特效数据集中除了视觉特效标签外，还包括视频替换特效标签，所述视频替换特效标签包括时间设定数据、用于在多媒体视频主画面中定义出预定形状的区域的形状数据以及与所述形状数据对应的类别数据。视频替换特效标签可以人工预先确定。形状数据定义出要进行视频或者文字替换的区域，类别数据定义出某个区域要替换的信息的类别，例如是替换成用户图像还是用户姓名或者任意其他类别的用户个性化信息。根据这种方式，视觉特效数据集中除了用于生成如上述实施例中所述的同步视觉特效的视觉特效标签外，还包括用于生成与时间线同步的视频替换特效的视频替换特效标签。

从而控制主机10可以在主画面上或者LED阵列中显示用户的个性化信息。例如，将主画面中的头像替换成用户的头像，或者将主画面中的文字替换成用户名。可以理解的是，为了防止用户信息的泄漏，需要在用户离开当前的用户房间后实现用户与控制主机10的解除绑定操作。

在一种实施方式中，每当控制主机10重新启动时，会向服务器24发送解除绑定请求，以解除所有与控制主机10的用户绑定。这个方案是基于所有声感视觉特效系统在不同用户使用前要进行重启实施的。

在另一种实施方式中，控制主机10与用户的绑定关系可以由用户使用绑定时所用的应用程序自行解除。因此，可以避免用户信息泄露。

根据本实施例的声感视觉特效系统，视觉特效数据集存储在云端服务器系统20中，可以保证视觉特效数据集仅供授权的用户访问，提升了视觉特效数据集的安全性。

第五实施例

参阅图7，其为本发明第五实施例提供的声感视觉特效系统500的示意图。本实施例的声感视觉特效系统500与图5的声感视觉特效系统400相似，其不同之处在于，还包括特效设备26。

本实施例中，视频特效的处理并不是直接由控制主机10来实现，而是由专门设置的特效设备26实现。具体地，特效设备26根据特效数据生成相应的视频信号，并将特效视频信号叠加在主画面上，或者输出给LED阵列进行显示。

特效设备26是具备灯光和/或视频显示功能，并具备特效处理功能的独立电子设备，通过有线或无线方式与所述控制主机10相连。

根据本实施例的声感视觉特效系统，视频特效由专门设置的特效设备26实现，可以降低控制主机10的复杂度。

第六实施例

参阅图8，其为本发明第五实施例提供的声感视觉特效系统600的示意图。本实施例的声感视觉特效系统600与图7所示的声感特效系统500相似，其不同之处在于，还包括外部设备40。

本实施例中，外部设备40例如为传统的多媒体播放系统中的主机，其实现点歌以及歌曲的播放控制功能。但相比于传统的多媒体播放系统，其进一步与控制主机10相连。每当外部设备40播放一首歌曲或者一首歌曲被添加至播放列表中时，外部设备40会将歌曲的标识发送给控制主机10。

可以理解，为了让外部设备40可以向控制主机10发送特定的信息，可以在控制主机10中公开特定的应用程序编程接口(API)，从而可让外部设备40进行调用，以向控制主机10发送上述的信息。每当外部设备40播放一首歌曲时外部设备40可将歌曲的标识以及开始播放的时间通过上述的API提交给控制主机10。当然，外部设备40要实现API的调用，需要对现有外部设备40中的程序稍做修改，使得在需要时通过API与控制主机10同步信息。

相应地，控制主机10根据歌曲的标识向云端服务器系统20请求获取视觉特效数据集。可以理解，控制主机10还可如前述实施例中所述的步骤进行身份验证操作。在获取到视觉特效数据集后，控制主机10根据视觉特效数据集中的视觉特效标签，生成相应的视频特效信号，并将生成的视觉特效信号发送给特效设备26。当然，考虑到网络下载的延时，控制主机10还可以进行视觉特效的时间调整，即给时间设定数据所定义的时间施加一个前向的偏移量，使得视觉特效的时间线与文件播放的进度同步。

特效设备26将视觉特效信号叠加在多媒体视频输出设备14的主画面上和/或输出至视觉特效输出装置11中。

根据本实施例的声感视觉特效系统，通过对现有多媒体播放系统中的外部设备40中的程序稍加改进，就可以加入与歌曲同步的视觉特效，可以最大程度的兼容现有多媒体播放系统中的设备，避免设备升级带来的成本增加。

以上实施例虽然是以KTV系统为例进行说明，然而上述的声感视觉特效系统还可应用于多媒体教室、舞厅和公园娱乐设施。

特别的，当控制主机10是一个智能电子设备(如智能手机)时，安装在所述智能电子设备中的软件，可以通过无线控制视觉特效输出装置11，也可以通过无线访问网络上的视觉特效数据集，同时，通过内置麦克风录取通过外部设备40播放出来的歌曲声音，再通过特征采样及特征匹配，直接识别出外部设备40所放的歌曲，从而无需与外部设备40通信就能够获得歌曲的标识，然后下载对应的视觉特效数据集，与歌曲同步播放视觉特效。

第七实施例

参阅图9，其为本发明第七实施例提供的获取视觉特效数据集的方法流程图。如图9所示，本实施的方法包括以下步骤：

步骤S101，播放多媒体文件；

多媒体文件例如可由控制主机10播放，或者由外部40进行播放。

步骤S102，获取与所述多媒体文件对应的视觉特效数据集。

视觉特效数据集例如可包括上述的视觉特效标签，每个视觉特效标签包括时间设定数据以及特效设定数据。当然，无论视觉特效数据集的内容为何，其获取过程是相似的。

具体地，步骤S102可包括：步骤S1022，从所述多媒体文件内解析出内嵌在所述多媒体文件内的所述视觉特效数据集。

根据这种方式，视觉特效数据集是内嵌在多媒体文件内，可以与多媒体文件一并保存，降低系统的复杂性。

另外，步骤S102还可包括：步骤S1024，从云端服务器处下载视觉特效数据集。

进一步参阅图10，步骤S1024具体可包括以下步骤：

步骤S201，将身份认证信息发送给所述云端服务器系统，以使所述云端服务器系统统验证是否具有获取视觉特效数据集的权限；

步骤S202，根据所述多媒体文件的标识向云端服务器系统发送获取所述对应的视觉特效数据集的请求；以及

步骤S203，接收所述云端服务器系统返回的所述视觉特效数据集；

根据这种方式，视觉特效数据集存储在云端服务器系统20中，可以保证只有授权的用户才能够访问视觉特效数据集，提升了视觉特效数据集的安全性。

根据本实施例的方法，在播放多媒体文件时，还获取与多媒体文件对应的视觉特效数据集，所述视觉特效数据集可用于与声音感测信号一起生成与多媒体文件同播放的视觉特效信号，进而可以同步输出视觉特效。

第八实施例

参阅图11，其为本发明第七实施例提供的获取视觉特效数据集的方法流程图。如图11所示，本实施的方法与图9的方法相似，其不同之处在于，在步骤S102之后还包括以下步骤：

步骤S103，接收用户输入的切换视觉特效版本的信号。

在步骤S103之后，重新执行步骤S102，也就是说，重新获取与多媒体文件对应的视觉特效数据集。但值得注意的是，此时与多媒体文件对应的视觉特效数据集已经发生了变化，获取的是用户所选择版本的视觉特效数据集。

可以理解，在切换视觉特效的版本后，可继续从当前时间同步输出视觉特效。

此外，可以理解的是，步骤S103并不限于在步骤S102之后执行，例如，在步骤S102之前，也可执行步骤S103，即在开始播放多媒体文件时，可让用户首先选择视觉特效的版本，在用户选择版本后，步骤S102中获取的就是用户选择版本的视觉特效数据集。

根据本实施例的技术方案，视觉特效具有多个不同的版本，从而可以提供更加丰富的视觉特效。

第九实施例

参阅图12，其为本发明第八实施例提供的在视觉特效中替换用户的个性化信息的流程图。如图12所示，本实施例的方法包括以下步骤：

步骤S301，将用户的身份信息或者用于确认用户身份的信息发送给云端服务器系统。

例如，控制主机10可让用户输入用户名与密码进行登陆，如此，在通过登陆验证后，控制主机10即可将用户的身份信息与请求获取视觉特效数据集的网络请求一并发送给云端服务器系统。控制主机10还可以是仅将其自身的标识符发送给云端服务器系统。此时，需要用户通过其他终端(如手机)向云端服务器系统发起绑定请求，以建立该终端的当前用户与控制主机10之间的绑定关系，如此，通过控制主机10的标识符也可以唯一确定对应的用户。

步骤S302，接收所述云端服务器系统发送的用户个性化信息。

所述视觉特效数据集中还包括与时间设定数据对应的视频替换特效标签，所述视频替换特效标签包括时间设定数据、用于在多媒体视频主画面中定义出预定形状的区域的形状数据以及与所述形状数据对应的类别数据。

步骤S303，将所述预定形状的区域内的内容替换为与所述类别数据对应的用户个性化信息。

根据本实施例的技术方案，可以将多媒体文件中的特定内容替换成用户的个性化信息，而此种替换操作也可以是与时间线同步的。

第十实施例

参阅图13，其为本发明第十实施例提供的声感视觉特效处理方法的流程图。如图13所示，本实施例的方法包括以下步骤：

步骤S401，通过声音感测装置感测声音并实时发送声音感测信号；

步骤S402，在播放多媒体文件时，或在外部设备播放多媒体文件时，获取与所述多媒体文件对应的视觉特效数据集，所述视觉特效数据集内包括多个视觉特效标签，每个视觉特效标签包括时间设定数据以及特效设定数据；

步骤S403，同步从所述视觉特效数据集中获取与当前时间匹配的视觉特效标签；

步骤S404，根据所述声音感测信号生成特效参数，并根据所述特效参数以及所述匹配的视觉特效标签的特效设定数据共同生成与所述多媒体文件同步播放的视觉特效信号；以及

步骤S405，根据所述视觉特效信号同步输出视觉特效。

根据上述描述，可以理解，声感视觉特效系统的核心是在于建立外部音频信号的一项或多项参数与视觉特效的一项或多项参数之间的映射，根据外部音频信号参数的变化，视觉特效中对应的参数就相应变化，从而可用音频的变化调整视觉特效，使得视觉特效与现场音频之间交相辉映，提升了演唱或者演奏现场的体验。而且整个过程是基于声音感测的方式自动实现的，现场无须依赖于专业特效人员，成本降低。

另一方面，由于声感视觉特效系统是基于视觉特效标签集实现，针对不同的多媒体文件，可以采用单独设置的视觉特效标签集，每个多媒体文件的视觉特效是不同的，进一步提升了多媒体视觉特效的种类。

此外，本发明实施例还提供一种计算机可读存储介质，其内存储有计算机可执行指令，上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述的计算机可执行指令用于让计算机或者类似的运算装置完成上述实施例中的方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种声感视觉特效系统，其特征在于，包括：声音感测装置、控制主机及视觉特效输出装置；

所述声音感测装置内置传感器，用于感测外部声音，所述声音感测装置还将所述声音感测信号实时发送给所述控制主机；

2.如权利要求1所述的声感视觉特效系统，其特征在于，所述视觉特效输出装置为多媒体视频输出设备，所述系统还包括视觉特效叠加设备，分别与所述控制主机及所述多媒体视频输出设备相连，所述视觉特效叠加设备用于：

3.如权利要求1所述的声感视觉特效系统，其特征在于，所述视觉特效设备包括LED灯阵列，所述LED灯阵列布满房间的墙壁、屋顶与地面。

4.如权利要求1所述的声感视觉特效系统，其特征在于，所述控制主机获取与所述多媒体文件对应的视觉特效数据集包括：

接收所述云端服务器系统返回的所述视觉特效数据集。

5.如权利要求4所述的声感视觉特效系统，其特征在于，所述控制主机获取与所述多媒体文件对应的视觉特效数据集还包括：

6.如权利要求4所述的声感视觉特效系统，其特征在于，还包括与所述控制主机相连的外部设备；

7.如权利要求1所述的声感视觉特效系统，其特征在于，所述声音感测装置检测外部声音并生成相应的声音感测信号包括：

实时采集外部声音的强度信号作为声音感测信号；

8.如权利要求1所述的声感视觉特效系统，其特征在于，所述声音感测装置检测外部声音并生成相应的声音感测信号包括：

将所述外部声音分为高、中、低3个频段，分别实时采集每个频段的声音强度信号作为声音感测信号；

9.如权利要求1所述的声感视觉特效系统，其特征在于，所述声音感测装置检测外部声音并生成相应的声音感测信号包括：

将声音频率分成多个频段，分别采集每个频段的声音强度信号作为声音感测信号；

所述视觉特效数据集还包括声音响应设定标签，用来定义某个时间段内多个声音感测信号与视觉特效数据集中的多个特效参数之间的对应关系，所述多个特效参数包括：灯光亮度、图案颜色、动画速度、灯光面积大小及位置，所述控制主机根据所述声音感测信号生成特效参数包括：

根据当前时间所对应的声音响应设定标签所定义的对应关系确定每个频段的声音感测信号所对应的特效参数，并进一步根据每个频段的声音感测信号生成对应的特效参数。

10.一种声感视觉特效处理方法，其特征在于，包括：

通过声音感测装置实时感测并生成相应的声音感测信号；

根据所述视觉特效信号同步输出视觉特效。