CN107368491B

CN107368491B - 影像制作系统及方法

Info

Publication number: CN107368491B
Application number: CN201610316291.4A
Authority: CN
Inventors: 刘承祥
Original assignee: Futaihua Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Futaihua Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2016-05-12
Filing date: 2016-05-12
Publication date: 2023-07-25
Anticipated expiration: 2036-05-12
Also published as: US20170330543A1; TWI672948B; TW201742431A; US10297240B2; CN107368491A

Abstract

一种影像制作系统，应用于包括第一显示屏及第二显示屏的KTV包厢，该影像制作系统包括信号处理单元及与信号处理单元通讯连接的影像采集单元、背景画布及智能话筒，信号处理单元用于接收影像采集单元采集的演唱者影像，根据演唱者的衣服颜色调节背景画布当前的背景颜色，使得演唱者的衣服颜色与背景画布当前的背景颜色不同，将所述第一显示屏中显示的明星MV影像中的歌词提取出来与所述演唱者影像合成为演唱者MV影像显示于第二显示屏上；确定智能话筒数量及提取演唱者人脸的目标模板，并根据提取的目标模板对演唱者人脸和演唱者握着的智能话筒进行追踪，根据演唱者人脸的几何中心与智能话筒发光环的几何中心之间的距离，调节演唱者MV影像画面的缩放。

Description

影像制作系统及方法

技术领域

本发明涉及数字影像技术，特别涉及一种KTV影像制作系统及方法。

背景技术

由于现代人喜爱以唱歌的方式达到纾解压力与自我娱乐的目的，因此一般的付费式唱歌场所，例如KTV，十分受欢迎，其中，有部分的唱歌场所会提供给消费者一种录制唱歌声音的服务，让消费者可反复回味欢唱时的情景。然而，此种录制处理仅仅只是录制了消费者的唱歌声音，并无法将消费者当时的欢唱影像摄录下来。

另外，虽然目前的KTV普遍都会配备两个显示屏，但这两个显示屏却显示了相同的画面，即仅仅具有明星MV和歌词提示功能。每一个在KTV纵声高歌的消费者在用歌声表达自己心情的同时更希望声音与个人影像以及现场能够完美结合，让自己身临其境的体验明星演唱的感觉。

发明内容

鉴于以上内容，有必要提出一种影像制作系统及方法，能够将演唱者的声音及影像结合制作成演唱者MV影像。

一种影像制作系统，应用于一KTV包厢，该KTV包厢设置有用于显示点歌菜单及明星MV影像画面的第一显示屏、与所述第一显示屏固定于同一面墙上的第二显示屏，该影像制作系统包括：信号处理单元、影像采集单元、背景画布及智能话筒，所述影像采集单元、背景画布及智能话筒分别无线通讯连接于所述信号处理单元，其中：

所述信号处理单元，用于接收所述影像采集单元采集的演唱者的影像；

所述信号处理单元，用于根据演唱者的衣服颜色调节所述背景画布当前的背景颜色，使得演唱者的衣服颜色与所述背景画布当前的背景颜色不同；

所述信号处理单元，还用于将所述第一显示屏中显示的明星MV影像中的歌词提取出来与所述演唱者影像合成为演唱者MV影像，并显示于所述第二显示屏上；

所述信号处理单元，还用于确定智能话筒数量及提取演唱者人脸的目标模板，并根据提取的目标模板对演唱者人脸和演唱者握着的智能话筒进行追踪，根据演唱者人脸的几何中心与智能话筒发光环的几何中心之间的距离，调节演唱者MV影像画面的缩放。

一种影像制作方法，应用于一KTV包厢，该KTV包厢包括所述的影像制作系统，所述方法包括：

采集包括所述背景画布在内的演唱者影像；

确定所述智能话筒的数量；

提取演唱者人脸的目标模板；

当侦测到用户建立了文件夹时，所述信号处理单元根据提取的演唱者人脸的目标模板对演唱者人脸和所述智能话筒进行追踪，根据演唱者人脸的几何中心与所述智能话筒的发光环的几何中心之间的距离，调节所述第二显示屏上的影像画面的缩放；

将所述第一显示屏中显示的明星MV歌词提取出来与所述演唱者影像合成为演唱者MV影像，并显示于所述第二显示屏上；及

当第一显示屏上的明星MV影像的歌曲结束时，保存制作的演唱者MV影像。

相对于现有技术，本发明所述的影像制作系统及方法，能够将演唱者的声音及影像结合制作成演唱者MV影像，不需要任何的人为操作，演唱者MV影像画面能够随着演唱者与环境的变化而变化，并且运用了人脸与智能话筒之间的距离智能控制演唱者MV影像画面的缩放。

附图说明

图1是本发明影像制作系统较佳实施方式之一的硬件架构图。

图2是本发明影像制作系统较佳实施方式之二的硬件架构图。

图3是本发明网络单元较佳实施方式的示意图。

图4是本发明背景画布较佳实施方式的示意图。

图5是本发明智能话筒较佳实施方式的示意图。

图6是本发明人脸及目标模板较佳实施方式的示意图。

图7是本发明影像制作方法较佳实施方式的流程图。

图8是本发明确定智能话筒数量较佳实施方式的流程图。

图9是本发明提取人脸目标模板较佳实施方式的流程图。

图10是本发明单人演唱时影像制作方法较佳实施方式的流程图。

图11是本发明双人演唱时影像制作方法较佳实施方式的流程图。主要元件符号说明

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

参阅图1所示，是本发明影像制作系统较佳实施方式的硬件架构图。

本实施例中，所述影像制作系统1安装于一KTV包厢内，该KTV包厢内包括一个第一显示屏601及一个第二显示屏602。在一些实施例中，所述第一显示屏601及第二显示屏602均装设于KTV包厢内正对面的墙壁上。所述第一显示屏601用于显示点歌菜单及显示带歌词提示的明星MV影像画面。在一些实施例中，所述第一显示屏601及第二显示屏602可以为触控式显示屏。

所述影像制作系统1包括，但不仅限于，影像采集单元10、信号处理单元30、网络单元40、背景画布50及智能话筒70，其中，所述信号处理单元30连接所述影像采集单元10、所述第二显示屏602、所述网络单元40、所述背景画布50及所述智能话筒70，所述网络单元40还连接所述第一显示屏601。本实施例中，所述连接为无线通讯连接。

在其他一些实施例中，该影像制作系统1还包括灯光辅助单元20，所述灯光辅助单元20装设于KTV包厢内的墙壁上且与所述信号处理单元30连接。所述灯光辅助单元20可以发出红、绿、蓝三种颜色的灯光，主要用于对KTV包厢内的光线进行调节，以达到令人绚烂的感觉。

请一并参阅图2所示，所述影像采集单元10在一些实施例中可以包括5个影像采集镜头，其是分别装设于KTV包厢内四个墙角之上的第一影像采集镜头101、第二影像采集镜头102、第三影像采集镜头103、第四影像采集镜头104，以及装设于第一显示屏601和第二显示屏602中间位置处的第五影像采集镜头105。应当说明的是，该第五影像采集镜头105采集的是包括所述背景画布50在内的演唱者影像。

上述包括5个影像采集镜头(101，102，103，104，105)的影像采集单元10可以360°的采集KTV包厢内的影像并将采集到的影像信号传输给所述信号处理单元30。所述信号处理单元30可以是计算机或者微处理器等。

所述灯光辅助单元20在一些实施例中可以包括第一灯具201、第二灯具202、第三灯具203、第四灯具204及第五灯具205。其中，所述第一灯具201、第二灯具202、第三灯具203及第四灯具204分别装设于KTV包厢内四个墙角之上。所述第五灯具205为专用的白光灯，用以辅助所述第五影像采集镜头105采集出清晰靓丽的人体和人脸影像。

所述灯光辅助单元20与所述影像采集单元10相隔预设距离，即5个灯具(201，202，203，204，205)分别装设于5个影像采集镜头(101，102，103，104，105)预设距离内。具体而言，所述第一灯具201装设于所述第一影像采集镜头101预设距离内，所述第二灯具202装设于所述第二影像采集镜头102预设距离内，所述第三灯具203装设于所述第三影像采集镜头103预设距离内，所述第四灯具204装设于所述第四影像采集镜头104预设距离内，所述第五灯具205装设于所述第五影像采集镜头105预设距离内。所述预设距离以保证所述灯光辅助单元20发出的灯光不影响所述影像采集单元10采集的画面质量为佳，例如30厘米。

所述信号处理单元30用于获取所述影像采集单元10采集之影像，并将所述影像编辑为演唱者MV影像显示于所述第二显示屏602上，令演唱者能够即时欣赏到唱歌的景况，增加唱歌之外的娱乐性。在其他实施例中，所述信号处理单元30还用于将编辑后的演唱者MV影像存储于所述网络单元40中。

在一些实施例中所述信号处理单元30包括数字图像处理硬件，例如专用于高清图像处理的数字信号处理芯片。所述信号处理单元30在另一实施例中包括数字图像处理软件，例如主要是对所述影像采集单元10采集的影像进行数据处理与分析。在其他一些实施例中该影像采集单元10可以同时包括数字图像处理硬件及软件。

所述网络单元40用以与移动通讯设备通讯连接。在一些实施例中，所述网络单元40包括一无线通讯模块401及一存储模块402，如图3所示。所述无线通讯模块401可以是WIFI模块。所述存储模块402可以包括至少一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、随机访问存储器、静态存储器或者只读存储器、点可擦除可编程只读存储器、可编程只读存储器、磁性存储器等等。

演唱者可以利用随身携带的移动通讯设备(例如智能手机、平板电脑等)与该网络单元40的无线通讯模块401进行无线通讯，自行选取所述存储模块402中存储的演唱者MV影像下载到移动通讯设备中带走。当演唱时间结束后可由用户自行删除所述网络单元40中的演唱者MV影像。在一些实施例中，为了更加保护用户的隐私，所述网络单元40在开启或关闭或重启时也可以自动删除所述存储模块402中存储的数据。

如图4所示为本发明背景画布较佳实施方式的示意图。

所述背景画布50包括位于上半部分的第一画布503及位于下半部分的第二画布504，所述第一画布503采用第一颜色，所述第二画布504采用第二颜色。在一些实施例中，所述第一画布503可以采用粗糙的且漫反射效果比较好的绿色，所述第二画布504可以采用粗糙的且漫反射效果比较好的蓝色。

所述背景画布50还包括第一卷轴501及第二卷轴502，所述第一卷轴501用于控制所述第一画布503卷起或展开，所述第二卷轴502用于控制所述第二画布504卷起或展开。所述第一卷轴501及第二卷轴502还分别连接一马达(图中未显示)，该马达与所述所述信号处理单元30无线通讯连接，所述马达在所述信号处理单元30的控制下分别驱动所述第一卷轴501或第二卷轴502卷动。本实施例中，所述背景画布50安装在与第五影像采集镜头105相对的墙壁上，以便于演唱者站于该背景画布50前时，所述第五影像采集镜头105能够采集包括背景画布50在内的演唱者影像。

本实施例中所述信号处理单元30能够根据演唱者的衣服颜色切换所述背景画布50的背景颜色。例如，当所述影像采集单元10采集到演唱者的衣服颜色为绿色或者趋向于绿色系的时候，所述第一卷轴501中的马达在所述信号处理单元30的控制下驱动所述第一卷轴501卷动从而将所述第一画布503卷起，则所述第二画布504被向上拉起，此时所述背景画布50的背景颜色被调节成蓝色；当演唱者的衣服颜色为蓝色或者趋向于蓝色系的时候，所述第二卷轴502中的马达在所述信号处理单元30的控制下驱动所述第二卷轴502卷动从而将所述第二画布504卷起，则所述第一画布503被向下拉动，此时所述背景画布50的背景颜色被调节成绿色。

如图5所示为本发明智能话筒较佳实施方式的结构示意图。

所述智能话筒70包括，但不仅限于，开关701、防尘罩702及发光环703。其中，所述发光环703设置于所述开关701的上方且设置于所述防尘罩702的下方。该发光环703由智能话筒70本身的供电系统进行供电，当开关701被打开时发光环703发出第三颜色的光。所述发光环703在一些实施例中可以为红色发光环，红色发光环发出的红色光易于与蓝色或者绿色的背景画布50区分开。本实施例中所述发光环703用于定位所述智能话筒70的位置，及确定演唱者的数量。通过所述发光环703确定所述智能话筒70位置及演唱者的数量的具体步骤参阅图8及相应描述所示。

如图6所示为本发明人脸及目标模板较佳实施方式的示意图。

所示影像采集单元10采集包括演唱者在内的影像并将采集到的影像信号传输给所述信号处理单元30，所述信号处理单元30识别演唱者人脸并进一步提取演唱者人脸的目标模板80。所述信号处理单元30提取演唱者人脸的目标模板80的具体过程参见图9及相应描述。

图7是本发明影像制作方法较佳实施方式的流程图。根据不同的需求，该图所示流程图中步骤的执行顺序可以改变，某些步骤可以省略。

步骤51：开启第五影像采集镜头105和第五灯具205，所述第一显示屏601显示明星MV影像画面，所述第二显示屏602实时显示第五影像采集镜头105采集的包括演唱者在内的影像画面。

本实施例中，所述第一显示屏601上还可以显示点歌菜单，演唱者通过该点歌菜单进行点歌。演唱者进行点歌时，所述信号处理单元30发送无线控制信号控制所述第五影像采集镜头105和第五灯具205开启。演唱者点歌完成后，所述第一显示屏601显示与所述演唱者点选的歌曲相对应的明星MV影像画面。

步骤52：调节所述背景画布50当前的背景颜色，以使该背景画布50当前的背景颜色与演唱者的衣服颜色不同。

本实施例中，所述第五影像采集镜头105采集包括所述背景画布50在内的演唱者影像，并将所采集的影像信号发送至所述信号处理单元30，该信号处理单元30通过分析该影像判断演唱者的衣服颜色进而调节所述背景画布50当前的背景颜色。

具体地，所述信号处理单元30先判断所述影像边角处(例如，左上角，或者右下角，或者左下角，或者右上角)的颜色来确定所述背景画布50当前的颜色，然后将影像的每一个像素值减去所述背景画布50当前的颜色的像素值之后再进行二值化及连通性处理，最后确定经过连通性处理之后的影像中空洞的数量，若空洞的数量小于阈值N，则说明演唱者的衣服颜色与所述背景画布50当前的颜色相同，所述信号处理单元30控制所述背景画布50切换画布当前的颜色。例如，背景画布50当前的颜色为绿色时，所述信号处理单元30控制背景画布50切换为蓝色，或者背景画布50当前的颜色为蓝色时，所述信号处理单元30控制背景画布50切换为绿色。

步骤53：确定智能话筒70的数量。

本实施例中，所述信号处理单元30通过检测智能话筒70发光环703发出的光的数量来确定智能话筒70的数量。具体过程参见图8及相应描述。

步骤54：提取演唱者人脸的目标模板80。

演唱者人脸的目标模板80如图6所示，所述信号处理单元30提取演唱者人脸的目标模板80的具体过程参见图9及相应描述。

步骤55：判断用户是否建立了文件夹。

如果用户在网络单元40中建立了文件夹，则执行步骤56；如果用户没有在网络单元40中建立文件夹，则继续执行步骤55。所述文件夹用于存放演唱者MV影像。

步骤56：所述信号处理单元30控制第一至第四影像采集镜头(101，102，103，104)及第一至第四灯具(201，202，203，204)全部开启，第一显示屏601显示明星MV影像画面。

本实施例中，所述信号处理单元30发送无线控制信号控制第一至第四影像采集镜头(101，102，103，104)及第一至第四灯具(201，202，203，204)全部开启。

步骤57：所述信号处理单元30根据提取的目标模板80对演唱者人脸和握着的智能话筒70进行追踪，判断演唱者人脸几何中心与发光环703的几何中心之间的距离，根据该距离控制所述第二显示屏602上的影像画面的缩放。。

具体地，判断演唱者人脸几何中心与智能话筒70发光环703的几何中心之间的距离，当演唱者人脸几何中心与发光环703的几何中心之间的距离小于等于第一预设距离值(例如r)时，说明演唱者此时唱的比较投入，可以将所述第二显示屏602上的影像画面围绕演唱者人脸区域进行放大显示。在一些实施例中，演唱者人脸几何中心与智能话筒70发光环703的几何中心之间的距离越小，所述第二显示屏602上的影像画面围绕演唱者人脸区域放的越大。

当演唱者人脸几何中心与发光环703的几何中心之间的距离大于所述第一预设距离值(例如r)且小于第二预设距离值(例如s)时，说明演唱者此时以平和的声调在唱歌，所述第二显示屏602上的影像画面不进行缩放显示，即在所述第二显示屏602上显示演唱者手握智能话筒70的半身影像。

当演唱者人脸几何中心与发光环703的几何中心之间的距离大于等于第二预设距离值(例如s)时，说明演唱者此时没有演唱，或站着或走动，可以将所述第二显示屏602上的影像画面围绕演唱者人脸区域进行缩小显示，即在第二显示屏602上显示演唱者的整个人身画面。

在其他实施例中，所述信号处理单元30还根据演唱者演唱的歌曲曲调的变换速率选用不同的变换特效。

演唱者演唱时的歌声由频率和幅度决定，本实施例中，所述信号处理单元30对演唱者的歌声进行抽样，例如对演唱者第1s内的歌声等距离抽样取样(抽样率大于c)计算，如果演唱者的歌声频率越来越快，幅度变化不大时，说明演唱者此时是说唱的节奏，可以将所述第二显示屏602上的影像画面进行平移显示；当演唱者的歌声频率越来越慢，幅度变化不大时，说明演唱者此时是趋向于歌声要结束的一小段节奏，可以将所述第五影像采集镜头105采集的影像画面与所述第一至第四任一影像采集镜头(101、102、103、104)采集的影像画面进行合成显示，以其中一个影像采集镜头采集的影像画面作为大画面，另一个影像采集镜头采集的影像画面作为小画面，以达到画中画的效果；当演唱者的歌声幅度变化大但频率不大时，说明演唱者的声音大小在不断的变化，可以调节所述第二显示屏602上的影像画面的RGB值及色度，以增加画面的效果。

步骤58：将明星MV影像中的歌词提取出来与包括演唱者在内的影像合成为演唱者MV影像显示于所述第二显示屏602上。

本实施例中，所述明星MV影像显示于所述第一显示屏601上，所述包括演唱者在内的影像是由所述第五影像采集镜头105采集的。

步骤59：判断歌曲是否结束。

具体地，通过判断所述第一显示屏601中明星MV影像的倒计时来判断歌曲是否结束。如果歌曲结束，执行步骤510。如果歌曲没有结束，继续执行步骤59。

步骤510：制作合成演唱者MV影像并保存于所述网络单元40中。

当演唱者MV影像合成完成后，演唱者可以从所述网络单元40中下载合成的演唱者MV影像。

演唱者可以事先通过服务人员处获知自身所在KTV包厢内的WIFI名称及WIFI密码。应当说明的是，为了保护演唱者个人隐私，防止其他KTV包厢内的用户窃取演唱者MV影像，可以为每个KTV包厢设置不同的WIFI账号及密码，并定期或不定期的更新WIFI账号及/或WIFI密码。当演唱者下载完所有保存的演唱者MV影像，可以选择手动删除所述网络单元40中所有的影像。在其他实施例中，所述信号处理单元30通过接收所述影像采集单元10采集的影像从而判断KTV包厢内是否还有演唱者，当KTV包厢内的演唱者全部离开房间超过一预设时间后，发送清除指令给所述网络单元40清除所有数据。

图8为本发明确定智能话筒数量较佳实施方式的流程图。根据不同的需求，该图所示流程图中步骤的执行顺序可以改变，某些步骤可以省略。

步骤71：演唱者打开所述智能话筒70。

本实施例中，当演唱者打开所述智能话筒70开始演唱时，需提起该智能话筒70至胸前位置，且不能遮挡住所述智能话筒70上的发光环703。

步骤72：第五影像采集镜头105采集包括演唱者在内的影像，并将采集的影像传送至信号处理单元30。

步骤73：提取所述影像中的一帧影像，对该提取的一帧影像进行直方图统计处理。

在一些实施例中，所述信号处理单元30接收所述第五影像采集镜头105采集包括演唱者在内的影像，根据预先设定的提取规则提取所述影像中的一帧影像。所述预先设定的提取规则可以是预定时间处的一帧影像或者预定位置处的一帧影像。在一些实施例中，所述信号处理单元30接收所述第五影像采集镜头105采集包括演唱者在内的影像，任意提取该影像中的一帧影像。

步骤74：对经过直方图统计处理后的一帧影像进行二值化处理和形态学运算。

本实施例中，所述二值化处理是指将经过直方图统计处理后的一帧影像中的红色像素设定为1，非红色像素设定为0，最后对进行二值化处理后的影像做形态学运算，例如腐蚀和膨胀运算以及连通性分析。

步骤75：确定智能话筒70的数量。

本实施例中，统计经过形态学运算之后的影像中包括的红色像素块的数量，即可得到所述发光环703发出的光的数量，发光环703发出的光的数量即为智能话筒70的数量及演唱者的数量。例如，统计经过形态学运算之后的影像中包括的红色像素块的数量为1，则表明发光环703发出的光的数量为1，因此，可以确定所述智能话筒70的数量及演唱者的数量均为1。本实施例中，确定所述智能话筒70的数量即可对该话筒70进行定位与跟踪。

图9为本发明提取演唱者人脸的目标模板的较佳实施方式的流程图。根据不同的需求，该图所示流程图中步骤的执行顺序可以改变，某些步骤可以省略。

步骤81：获取所述第五影像采集镜头105采集的包括演唱者在内的影像，提取该影像中的一帧影像。

步骤82：转换该提取的一帧影像的颜色空间。

由于人脸皮肤的像素比较特殊，所述信号处理单元30将影像的颜色空间由红绿蓝(Red，Green，Blue，RGB)空间模型转换为YCrCb模型。所述YCrCb颜色空间为现有技术，本发明在此不再叙述。由RGB颜色空间转换为YCrCb颜色空间的转换公式如下：

Y＝0.2990*R+0.5780*G+0.1140*B+0；

Cr＝0.5000*R-0.4187*G-0.0813*B+128；

Cb＝-0.1687*R-0.3313*G+0.5000*B+128。

步骤83：对转换颜色空间后的一帧影像进行二值化处理及形态学运算。

具体地，提取Cr分量在区间[140，160]的像素，并将该区间中的Cr分量二值化为1，该区间以外的Cr分量全部二值化为0，并对二值化后的图像进行去噪和形态学处理，例如腐蚀和膨胀运算以及连通性分析。

步骤84：确定演唱者的数量。

本实施例中，统计经过形态学运算之后的影像中的像素团的数量，所述像素团的数量即为演唱者的数量。

步骤85：提取演唱者人脸的目标模板80进行存储。

具体地，将影像中的每个像素团在X轴与Y轴上分别做投影，从而得到人脸的最小外接矩形，如图7中所示的矩形框，选取最小外接矩形中间的固定大小的像素块作为目标模板80。所述X轴是指水平方向，所述Y轴是指垂直方向。

本发明所述的影像制作系统1主要分为单人演唱和双人对唱两种情况。

图10为单人演唱时较佳实施例的流程图。根据不同的需求，该图所示流程图中步骤的执行顺序可以改变，某些步骤可以省略。

步骤910：开启第一至第四影像采集镜头(101，102，130，104)及一个智能话筒70。

本实施例中，在单人演唱的情况下，只需打开一个智能话筒70。

步骤911：追踪智能话筒70。

本实施例中，由于智能话筒70的发光环703发出的光非常显眼，利用四个影像采集镜头(101，102，130，104)采集所述发光环703的影像，从而可以对已打开的所述智能话筒70进行追踪与定位。

步骤912：确定获取演唱者人脸影像的影像采集镜头。

由于是四个影像采集镜头组成的360度全方位的采集，每个影像采集镜头的广角不需要特别大，所以智能话筒70只可能同时处于两个影像采集镜头中。同时演唱者在演唱的时候会将所述智能话筒70放置在胸前，所以正对着演唱者的两个影像采集镜头会采集到智能话筒70和演唱者人脸。

步骤913：利用存储的目标模板80搜索演唱者人脸。

提取演唱者人脸的目标模板80参阅图7及相应描述。利用抓取到所述智能话筒70的两个影像采集镜头采集包括演唱者在内的影像，运用已经存储的人脸目标模板80搜索演唱者人脸。

本实施例中，首先在采集到的影像画面中运用人脸检测算法找到可能的人脸区域，在一些实施例中，可以通过搜索算法，例如钻石搜索算法与十字形搜索算法相结合，搜索演唱者人脸，再利用目标匹配算法将目标模板80与搜索到的人脸进行目标匹配。在一些实施例中，目标匹配算法可以是差值的绝对值的均值算法。

步骤914：将匹配到的演唱者人脸分别在水平和垂直方向上做投影，从而得到演唱者人脸的几何中心，同时将采集的演唱者人脸面积最大的影像作为后续处理的原版图像。

步骤915：计算演唱者人脸几何中心与智能话筒70发光环703的几何中心之间的距离，根据该距离控制所述原版图像的缩放。

当演唱者人脸几何中心与智能话筒70发光环703的几何中心之间的距离小于等于第一预设距离值(例如r)时，说明演唱者此时唱的比较投入，可以将所述原版图像围绕人脸区域进行放大显示。在一些实施例中，演唱者人脸几何中心与智能话筒70发光环703的几何中心之间的距离越小，所述原版图像围绕人脸区域放的越大。

当演唱者人脸几何中心与智能话筒70发光环703的几何中心之间的距离大于所述第一预设距离值(例如r)且小于第二预设距离值(例如s)时，说明演唱者此时以平和的声调在唱歌，所述原版图像不进行缩放显示，即可以在第二显示屏602上显示显示演唱者手握智能话筒70的半身影像。

当演唱者人脸几何中心与智能话筒70发光环703的几何中心之间的距离大于等于第二预设距离值(例如s)时，说明演唱者此时没有演唱，或站着或走动，可以将所述原版图像围绕人脸区域进行缩小显示，即在第二显示屏602上显示演唱者的整个人身画面。

步骤916：根据演唱者人脸的转动切换第二显示屏602上显示的影像画面。

当演唱者在唱歌的时候转动头部和身子时，计算当前影像采集镜头采集的演唱者人脸面积确定演唱者所要转向的方向，同时将另一个影像采集镜头采集的影像画面作为第二显示屏602显示的下一帧影像画面。

在一些实施例中，还可以根据演唱者头部转动的速度控制画面特技效果。当演唱者头部转动的速度小于等于第一速度值(例如a)时，说明演唱者头部转动的比较慢，运用淡入淡出的效果会让画面衔接比较流畅。当演唱者头部转动的速度大于所述第一速度值(例如a)小于第二速度值(例如b)时，运用镜像特效；当演唱者头部转动的速度大于所述第二速度值(例如b)时，运用飞行特效实现画面的快速切换。

步骤917：根据演唱者的歌声控制第二显示屏602上显示的影像画面。

演唱者演唱时的歌声由频率和幅度决定，本实施例中，所述信号处理单元30根据歌曲曲调的变换速率显示不同的变换特效包括：对演唱者的歌声进行抽样，例如对演唱者第1s内的歌声等距离抽样取样(抽样率大于c)计算。如果演唱者的歌声频率越来越快，幅度变化不大时，说明演唱者此时是说唱的节奏，可以将所述第二显示屏602上的影像画面进行平移显示；当演唱者的歌声频率越来越慢，幅度变化不大时，说明演唱者此时是趋向于歌声要结束的一小段节奏，可以将所述第五影像采集镜头105采集的影像画面与所述第一至第四任一影像采集镜头(101、102、103、104)采集的影像画面进行合成显示，以其中一个影像采集镜头采集的影像画面作为大画面，另一个影像采集镜头采集的影像画面作为小画面，以达到画中画的效果；当演唱者的歌声幅度变化大但频率不大时，说明演唱者的声音大小在不断的变化，可以将所述第二显示屏602上的影像画面的RGB值及色度调节显示，以增加画面的效果。

步骤918：将所述第一显示屏601中的明星MV歌词提取出来与所述第五影像采集镜头105采集的影像合成为演唱者MV影像显示于第二显示屏602上。

当演唱者走到了背景画布50前面时，由第五影像采集镜头105采集包括背景画布及演唱者在内的影像，所述信号处理单元30将演唱者从第五影像采集镜头105采集的影像中抠出，与所述第一显示屏601中显示的明星MV的背景画面进行合成。特别是当演唱者跳舞和进行慢动作时，能够实现真正的人融入歌声与环境中。

步骤919：当歌曲结束时保存制作的演唱者MV影像。

本实施例中，通过判断所述第一显示屏601中明星MV的倒计时来判断歌曲是否结束。如果歌曲结束，将预存的歌词叠加到合成后的演唱者MV影像中，真正实现了演唱者MV影像的现场制作。

图11为双人演唱时较佳实施例的流程图。根据不同的需求，该图所示流程图中步骤的执行顺序可以改变，某些步骤可以省略。

步骤1010：开启第一至第四影像采集镜头(101，102，130，104)及两个智能话筒70。

本实施例中，在双人演唱的情况下，需要打开两个智能话筒70。

步骤1011：追踪智能话筒70。

步骤1012：确定获取演唱者人脸影像的影像采集镜头。

由于双人演唱时，每个人的角度可能不一样，因此四个影像采集镜头(101，102，130，104)都可以检测到智能话筒70。

步骤1013：利用存储的目标模板80搜索演唱者人脸。

步骤1014：将匹配到的演唱者人脸分别在水平与垂直方向上做投影，从而得到演唱者人脸的几何中心，同时将采集的演唱者人脸面积最大的影像作为后续处理的原版图像。

步骤1015：当两个演唱者的脸部图像面积最大的部分位于不同的影像采集镜头，此时可以将第二显示屏602显示的画面平均分成两部分，每一部分分别执行下面步骤1016-1020中的操作。

步骤1016：计算演唱者人脸几何中心与智能话筒70发光环703的几何中心之间的距离，根据该距离控制所述原版图像的缩放。

步骤1017：根据演唱者人脸的转动切换第二显示屏602上显示的影像画面。

当演唱者在唱歌的时候转动头部和身子时，计算当前影像采集镜头采集的演唱者人脸面积确定演唱者所要转向的方向，同时将另一个影像采集镜头采集的影像画面作为第二显示屏602显示的画面的下一帧影像。

步骤1018：根据演唱者的歌声控制第二显示屏602上显示的影像画面。

步骤1019：将所述第一显示屏601中的明星MV歌词提取出来与所述第五影像采集镜头105采集的影像合成为演唱者MV影像显示于第二显示屏602上。

步骤1020：当歌曲结束时保存制作的演唱者MV影像。

除此之外，本发明影像制作方法，其影像输出有三种模式可供选择，三种模式能带给演唱者三种不同的感觉。其中：

模式一仅开启第五影像采集镜头105及第五灯具205，所述第五灯具205发出白光，使得所述第五影像采集镜头105能够采集到高清的包括演唱者在内的影像。所述信号处理单元30根据所述第五影像采集镜头105采集的影像分析所述演唱者的衣服颜色，并根据演唱者的衣服颜色控制所述背景画布50的当前颜色。例如，当演唱者的衣服颜色为蓝色或者趋近于蓝色系时，控制所述背景画布50的当前颜色为绿色，目的在于使演唱者的衣服颜色与所述背景画布50的当前颜色形成明显的区别。同时，所述信号处理单元30将演唱者从所述背景画布50中抠出，与预设的场景进行合成为一演唱者MV影像，最后将从所述第一显示屏601中的明星MV影像中提取出来的歌词与该演唱者MV影像同步显示在所述第二显示屏602上。所述预设的场景是指与第一显示屏601显示的明星MV影像具有相同场景的虚拟场景。演唱者在模式一下，可以将自己的表情和动作与明星MV影像形成鲜明的对比，尽情的融入其中。在其他一些实施例中，模式一可在所述背景画布50大小允许的情况下，进行多人合唱。

模式二适合单人演唱，开启第五影像采集镜头105及第五灯具205，提取演唱者人脸的目标模板80后，关闭该第五影像采集镜头105及第五灯具205并同时打开第一至第四影像采集镜头(101，102，103，104)与灯具(201，202，203，204)。四个灯具(201，202，203，204)可以发出不同颜色的灯光，或者变换灯光的强弱，以用于渲染场景。四个影像采集镜头(101，102，103，104)可以采集不同角度或者方向的影像，以对演唱者人脸进行追踪。本实施例中，根据图7提取的目标模板80，配合目标跟踪算法(例如，空间直方图、十字搜索、钻石搜索算法等)追踪演唱者人脸。在追踪演唱者人脸的基础上还可以对四个影像采集镜头(101，102，103，104)采集的影像进行合成，通过调整影像的RGB值及透明度对图像进行色度的随机显示；也可以通过基于人脸的放大缩小以及物理运动来实现缩放、平移、旋转以及调整其缩放中心、旋转中心、缩放旋转角度等操作；也可以实现特技功能，例如镜头的推拉摇移、淡入淡出、镜像、飞行等特技画面；还可以综合使用四个影像采集镜头以实现画中画以及场景回放特技。模式二可对KTV包厢进行全方位的采集，并将编辑合成后的演唱者MV影像实时显示于第二显示屏602上，增强了画面的现场感，给人一种个人演唱会的感觉。

模式三为实时显示模式，仅开启第一至第四灯具(201，202，203，204)及第一影像采集镜头101、第二影像采集镜头102，其中该第一影像采集镜头101、第二影像采集镜头102与第一显示屏601、第二显示屏602位于同一面墙上。模式三为通过该第一影像采集镜头101、第二影像采集镜头102采集KTV包厢内的实时影像，信号处理单元30将采集到的影像实时合成为一个整体画面并输出到第二显示屏602进行显示。演唱者在模式三下，能够通过第二显示屏602的显示，不仅可以观看个人的舞姿，还可以同时了解KTV包厢内其他演唱者的活动画面，也方便人多的时候进行合唱或者在有人伴舞的情况下扩大视角范围，给人一种舞台的感觉，真正起到大家一起嗨的效果。

本发明所述的影像制作系统及方法，通过5个影像采集镜头(101，102，103，104及105)能够真正实现KTV包厢内的影像进行360度全方位的实时采集，不需要任何复杂的操作及后期的制作，随着歌曲的不同最终合成出带歌词提示的演唱者MV影像也会不同，保证了的制作的演唱者MV影像的多样性。通过对智能话筒70的追踪及演唱者人脸的追踪，智能的对演唱者人脸部分和演唱者进行取景，还可以通过判断智能话筒70发光环703的几何中心与演唱者人脸的几何中心的距离，智能调节影像画面的缩放，通过歌曲的曲调变化智能运用特效。三种模式的切换让演唱者体验不同的感觉。演唱者还可以通过网络单元自行选取并拷贝所需影像。在演唱结束时影像制作系统自行删除所存数据，保护了客户的隐私。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照以上较佳实施方式对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种影像制作系统，应用于一KTV包厢，该KTV包厢设置有用于显示点歌菜单及明星MV影像画面的第一显示屏、与所述第一显示屏固定于同一面墙上的第二显示屏，其特征在于，该影像制作系统包括：信号处理单元、影像采集单元、背景画布及智能话筒，所述影像采集单元、背景画布及智能话筒分别无线通讯连接于所述信号处理单元，所述背景画布包括第一颜色的第一画布和第二颜色的第二画布，该背景画布还包括第一卷轴及第二卷轴，所述第一卷轴在所述信号处理单元的控制下卷动从而带动所述第一颜色的第一画布卷起或展开，所述第二卷轴在所述信号处理单元的控制下卷动从而带动所述第二颜色的第二画布卷起或展开，其中：

所述信号处理单元，还用于确定智能话筒数量及提取演唱者人脸的目标模板，并根据提取的目标模板对演唱者人脸和演唱者握着的智能话筒进行追踪，根据演唱者人脸的几何中心与智能话筒发光环的几何中心之间的距离，调节演唱者MV影像画面的缩放，包括：当演唱者人脸几何中心与智能话筒发光环的几何中心之间的距离小于等于第一预设距离值时，将原版图像围绕人脸区域进行放大显示；当演唱者人脸几何中心与智能话筒发光环的几何中心之间的距离大于所述第一预设距离值且小于第二预设距离值时，所述原版图像不进行缩放显示；及当演唱者人脸几何中心与智能话筒发光环的几何中心之间的距离大于等于第二预设距离值时，将所述原版图像围绕人脸区域进行缩小显示，所述原版图像是指采集的演唱者人脸面积最大的影像。

2.如权利要求1所述的影像制作系统，其特征在于，所述影像采集单元包括5个影像采集镜头，其中，第一至第四影像采集镜头分别装设于KTV包厢内四个墙角之上，第五影像采集镜头装设于所述第一显示屏和所述第二显示屏中间位置处。

3.如权利要求2所述的影像制作系统，其特征在于，该系统还包括与所述信号处理单元连接的灯光辅助单元，该灯光辅助单元包括5个灯具，其中，第一至第四灯具分别装设于KTV包厢内四个墙角之上且分别与所述第一至第四影像采集镜头相隔预设距离，第五灯具装设于所述第五影像采集镜头预设距离内。

4.如权利要求1所述的影像制作系统，其特征在于，所述智能话筒的发光环发出第三颜色的光。

5.如权利要求1所述的影像制作系统，其特征在于，所述系统还包括网络单元，所述网络单元包括一用于存储演唱者MV影像的存储模块及一用于通讯连接移动通讯设备的无线通讯模块。

6.一种影像制作方法，应用于一KTV包厢，该KTV包厢包括如权利要求1-5任一项所述的影像制作系统，其特征在于，所述方法包括：

采集包括所述背景画布在内的演唱者影像；

根据演唱者的衣服颜色调节所述背景画布当前的背景颜色，使得演唱者的衣服颜色与所述背景画布当前的背景颜色不同；

确定所述智能话筒的数量；

提取演唱者人脸的目标模板；

7.如权利要求6所述的影像制作方法，其特征在于，所述根据演唱者的衣服颜色调节所述背景画布当前的背景颜色的步骤包括：

接收第五影像采集镜头采集的包括所述背景画布在内的演唱者影像；

判断所述影像边角处的颜色来确定所述背景画布当前的颜色；

将影像的每一个像素值减去所述背景画布当前的颜色的像素值之后再进行二值化及连通性处理；及

确定经过连通性处理之后的影像中空洞的数量，若空洞的数量小于阈值N，切换所述背景画布当前的颜色。

8.如权利要求7所述的影像制作方法，其特征在于，所述确定智能话筒数量的步骤包括：

获取影像采集单元采集的包括演唱者在内的影像；

提取所述影像中的一帧影像，对该提取的一帧影像进行直方图统计处理；

对经过直方图统计处理后的一帧影像进行二值化处理及形态学运算；及

统计经过形态学运算之后的影像中包括的预定颜色的像素块的数量，根据该预定颜色的像素块的数量确定所述智能话筒的数量。

9.如权利要求8所述的影像制作方法，其特征在于，所述提取演唱者人脸的目标模板的步骤包括：

获取影像采集单元采集的包括演唱者在内的影像；

提取该影像中的一帧影像；

转换该提取的一帧影像的颜色空间；

对转换颜色空间后的一帧影像进行二值化处理及形态学运算；

统计经过形态学运算之后的影像中的像素团的数量，所述像素团的数量即为演唱者人脸的数量；及

将影像中的每个像素团分别在水平和垂直方向上做投影，从而得到人脸的最小外接矩形，选取最小外接矩形中间的固定大小的像素块作为目标模板。

10.如权利要求9所述的影像制作方法，其特征在于，所述信号处理单元还根据演唱者头部转动的速度控制画面特技效果，当演唱者头部转动的速度小于等于第一速度值时，运用淡入淡出的效果；当演唱者头部转动的速度大于所述第一速度值小于第二速度值时，运用镜像特效；当演唱者头部转动的速度大于所述第二速度值时，运用飞行特效实现画面的快速切换。

11.如权利要求10所述的影像制作方法，其特征在于，所述信号处理单元还根据演唱者歌曲曲调的变换速率显示不同的变换特效：演唱者的歌声频率越来越快，将所述第二显示屏上的影像画面进行平移显示；当演唱者的歌声频率越来越慢，将所述第五影像采集镜头采集的影像画面与所述第一至第四任一影像采集镜头采集的影像画面进行合成显示，以其中一个影像采集镜头采集的影像画面作为大画面，另一个影像采集镜头采集的影像画面作为小画面；当演唱者的歌声幅度变化大但频率不大时，将所述第二显示屏上的影像画面的RGB值及色度调节显示。