CN111193957A

CN111193957A - 分析表演者影片的方法及增加表演效果的方法

Info

Publication number: CN111193957A
Application number: CN201811352766.0A
Authority: CN
Inventors: 白光华; 张致良
Original assignee: Giga Byte Technology Co Ltd
Current assignee: Giga Byte Technology Co Ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2020-05-22

Abstract

一种分析表演者影片的方法，包括：以摄像装置取得具有表演者的身体姿态的第一影像数据，以摄像装置取得具有表演者的脸部表情的第二影像数据，以收音装置取得具有表演者的声音的音频数据，以处理器基于第一影像数据产生多个体态类别，以处理器基于第二影像数据产生多个表情类别，以该处理器基于音频数据产生多个声音类别，以处理器依据一类别呈现顺序从这些体态类别、表情类别及声音类别中选取至少一类别，以及以存储装置存储此类别呈现顺序、被选取的至少一类别及一控制指令。

Description

分析表演者影片的方法及增加表演效果的方法

技术领域

本发明涉及影像及声音分析领域，特别是一种基于分析表演者影片后增加直播时表演效果的方法。

背景技术

在一个表演节目进行过程中，除了台上的表演者或是主持人，周围还有许多工作人员配合节目的流程提供必要的协助以增加表演时的观赏效果，例如播放登场音乐、插入罐头音效、舞台灯光的颜色或亮度控制或其他呈现于屏幕上的视觉效果。为了让整体的表演更加出色，工作人员们需要事前不断的排练与修正，才能让其所提供的辅助项目与表演者本身作一个完美的结合。

近年来，随着线上影音平台的蓬勃发展，在网络上实时地提供播出影像，即所谓的“直播”，更加受到大众欢迎。然而，对于个人式的直播而言，通常是单独一人包办表演内容构想到实际表演呈现，直播过程中没有其他助手协助相关事宜，自然也不方便一边进行表演一边操作灯光或音效装置制造表演效果以增加演出的丰富性。另一方面，即使有工作人员协助，对于强调实时性与互动性的直播而言，仍有可能因为工作人员准备时间不足而频频出错，导致表演辅助项目无法在适当且精确的时间点开始或结束。一旦时间同步上出现偏差，将严重影响表演的可看性。

发明内容

有鉴于此，本发明提出一种分析表演者影片的方法及增加表演效果的方法，借此解决上述提及的问题。

依据本发明一实施例的一种分析表演者影片的方法，包括：以摄像装置取得具有表演者的身体姿态的第一影像数据；以摄像装置取得具有表演者的脸部表情的第二影像数据；以收音装置取得具有表演者的声音的音频数据；以处理器基于第一影像数据产生多个体态类别；以处理器基于第二影像数据产生多个表情类别；以该处理器基于音频数据产生多个声音类别；以处理器依据一类别呈现顺序从这些体态类别、表情类别及声音类别中选取至少一类别；以及以存储装置存储此类别呈现顺序、被选取的至少一类别及一控制指令。

依据本发明一实施例的一种增加表演效果的方法，适用于具有表演者的直播影片，所述的方法包括：以处理器获取直播影片的片段，此片段包括多个讯框，每一讯框中具有表演者的身体姿态、脸部表情或声音；以处理器依据数据库中存储的多个控制排程比对讯框中的身体姿态、脸部表情或声音；其中每一控制排程包括从多个体态类别、多个表情类别及多个声音类别中选择至少一者并以一预设类别呈现顺序排列，以及一控制指令，当依据直播影片播放时间顺序排列这些身体姿态、脸部表情或声音中至少一者所构成的一播放顺序与与多个控制排程其中之一的预设类别呈现顺序相符时，以处理器输出对应于相符的控制排程的控制指令；以及以表演辅助装置依据此控制指令产生辅助效果。

本发明所公开的分析表演者影片的方法，以摄像装置与收音装置取得表演者的影音数据，通过可运行在电脑上的软件针对影片中表演者的人体框架、表情及声音进行分析。基于机器分类的演算法，可产生体态、表情及声音的多种类别。依据这些类别，表演者可自行定义多种表演情境，并各自设定对应的表演效果。因此在直播时，采用本发明所公开的增加表演效果的方法，可以自动在表演过程中检测表演内容而提供实时且适当的表演效果，提高表演与表演效果两者在时间上同步的准确率。同时，还能够减少工作人员数量的需求，从而降低因为人员训练不足导致提供的表演效果出现失误的几率。

以上的关于本公开内容的说明及以下的实施方式的说明是用以示范与解释本发明的构思与原理，并且提供本发明的专利申请范围更进一步的解释。

附图说明

图1是依据本发明一实施例所示出的分析表演者影片的流程图。

图2是依据本发明一实施例所示出的体态类别及其类别呈现顺序的示意图。

图3是依据本发明一实施例所示出的增加表演效果的流程图。

图4是依据本发明一实施例所示出的控制排程的示意图。

附图标记说明：

S11～S13、S21～S23、S3、S4 步骤

S5～S9 步骤

ID78、ID105、ID97、ID231 体态类别识别号

ID23 表情类别识别号

ID1113 声音类别识别号

ID57、ID1317 类别识别号

具体实施方式

以下在实施方式中详细叙述本发明的详细特征以及优点，其内容足以使任何熟习相关技艺者了解本发明的技术内容并据以实施，且根据本说明书所公开的内容、权利要求及附图，任何熟习相关技艺者可轻易地理解本发明相关的目的及优点。以下的实施例是进一步详细说明本发明的观点，但非以任何观点限制本发明的范围。

请参考图1，其是以流程图示出本发明一实施例的分析表演者影片的方法；其中，步骤S11～S13是通过外部装置及影音剪辑软件收集影音数据，步骤S21～23是通过软件程序进行影音数据的分析，步骤S3～S4是关联于控制命令的设置。后文将针对各步骤详细描述。

请参考步骤S11，取得第一影像数据。实务上，可通过摄像装置取得具有表演者身体姿态的第一影像数据。

请参考步骤S12，取得第二影像数据。类似于步骤S11，实务上，可通过相同的摄像装置取得具有表演者脸部表情的第二影像数据，或是从影像数据中获取具有表演者脸部表情的子画面。

请参考步骤S13，取得音频数据。具体而言，可通过收音装置取得具有表演者声音的音频数据，或是从影音数据中获取音频部分的文件作为音频数据。

在上述步骤S11～S13中，需注意的是：第一影像数据、第二影像数据及音频数据之中任两者的拍摄或收音时间可不相同。换句话说，在同一表演者录制第一、第二影像数据及音频数据时，表演者可在不同的时间点分别表演身体姿态、脸部表情及发出的声音。另外，亦可由三个相异表演者各自从第一影像数据、第二影像数据及音频数据中择一录制。本发明并不特别限制上述三种数据时必须为同一人在同一时间区段进行录制。

在上述步骤S11～S13中，另一种实施方式是表演者通过电脑中的影音剪辑软件从第一影像数据、第二影像数据及音频数据中分别获取第一影像片段、第二影像片段及音频片段，并以这些影像片段及音频片段作为后续步骤S14～16的输入数据。换言之，第一影像片段、第二影像片段及音频片段是在一指定时间区间内的第一影像数据、第二影像数据及音频数据。举例来说，当表演者录制完一段包含唱歌及跳舞的表演影片后，可以从整个演唱过程的影音文件中获取主歌的音频部分作为前述的音频片段，再获取演唱副歌时的脸部特写影像作为第二影像片段，以及获取跳舞过程中开头与结束动作的数个讯框(frame)作为前述的第一影像片段。本发明一实施例并不特别限制第一影像片段、第二影像片段及音频片段的时间长度。

请参考步骤S21，产生体态类别。具体而言，处理器基于第一影像数据产生多个体态类别。所述的处理器例如是一般个人电脑的中央处理器，可用以执行一软件程序。此软件程序从第一影像数据中识别人体骨胳框架，例如取头、颈、躯干中心，上肢取其肩、肘、掌，下肢取其臀、膝、足，一共将人体分为15个部分。处理器判别第一影像数据中属于上述15个部分的三维移动变化量。实务上，于步骤S21中可采用支持向量机(Support Vector Machine，SVM)这种分类器演算法针对上述多个多维度数据进行分类。分类完成后将产生多个体态类别。所述的体态类别例如欢呼、站立、斜躺、奔跑等姿势，其可反映表演影片中较具识别性的表演者的特征姿态。

请参考步骤S22，产生表情类别。具体而言，处理器基于第二影像数据产生多个表情类别。实务上，前述的软件程序亦可采用SVM分类器演算法对第二影像数据进行分类，进而产生出多个表情类别。所述的表情类别例如快乐、悲伤、惊讶、恐惧、愤怒、厌恶及无表情等。

请参考步骤S23，产生声音类别。详言之，处理器基于音频数据产生多个声音类别。所述的声音类别例如是经过语音识别程序所获得的多组关键词汇，或是依据音频的高低、响度的大小对音频数据进行分类。

上述的步骤S21～23中于实务上可选择性地执行其中至少一者。优选是执行全部步骤S21～S23以获取更多的表演类别，以便从其中建立更多样化的控制排程，具体细节将于后文中叙述。

请参考步骤S3，依据一类别呈现顺序选择至少一类别。具体而言，处理器可依据一类别呈现顺序从步骤S21～S23获得的体态类别、表情类别及声音类别中选取一或多个类别做为表演桥段。所选取的类别并不限制需要分属于不同类型或皆属于同一类型。实务上，前述的软件程序可提供一接口呈现基于体态类别、表情类别及声音类别的分类结果供表演者检视，并让使用者自行安排一顺序选择至少一类别，以此顺序本步骤S3所述的类别呈现顺序，因此使用者可事先建立适合加入表演辅助项目的多个表演桥段，以便于在直播进行到这些表演桥段时实时呈现出预设好的特效。

请参考图2，其是依据一类别呈现顺序选择四个体态类别的示意图。在图2中，以一欢呼动作的影片作为步骤S11的第一影像数据，在按序执行步骤S21之后，可得到欢呼的四个代表性姿势作为体态类别。在本说明范例中，体态类别下方的ID78、ID105、ID97、ID231分别为这四个体态类别的识别号。在步骤S3中，所述的类别呈现顺序以本说明范例而言是此四个体态类别按照在第一影像数据中出现的时间点先后排列。另外，ID78和ID105两个体态类别之间相隔0.31秒，ID105和ID97两个体态类别之间相隔0.25秒，ID97和ID231两个体态类别之间相隔0.85秒。

请参考步骤S4并承图2的范例说明，以电脑中的一存储装置存储被选取的四个体态类别、此四类别的识别号与类别呈现顺序(例如在图2中，四个识别号的类别呈现顺序为ID78、ID105、ID97、ID231)，以及在此类别呈现顺序上相邻的两个体态类别之间的一持续时间或一影像讯框数。存储两个类别之间的持续时间(或影像讯框数)的作用在于提高后续比对类别与影像片段时的正确率。特别是针对体态类别，通过持续时间的记录可确认表演者的动作确实符合存储于数据库中的体态类别。具体细节将于后文中叙述。所述的控制指令亦可由表演者自行定义，例如：产生一音效、播放一音乐，或是在一影片上添加关联于影片上表演者或另一表演者的身体姿态、脸部表情或声音的一物件。实务上，控制指令可用以驱动音效装置播放罐头音效、背景音乐，或通过处理器以影像合成的方式，在表演者的头、脸、躯干或四肢周围添加另一视觉化的影像。例如当表演者比出射击手势时，在画面上表演者的手部叠加一枪枝的影像。

依据本发明上述实施例介绍的分析表演者影片的方法，表演者可重复执行步骤S11～S4，通过影像数据和音频数据训练产生一表演效果数据库，并自行定义用于增加表演效果的多个控制指令。而除了由表演者自行决定每个控制指令所对应的类别呈现顺序之外，亦可由软件随机产生一类别呈现顺序以选取多个类别，并从现有的控制指令中随机挑选一者配合前述的随机产生的类别呈现顺序。如此一来，在后文述及的增加表演效果的方法的执行过程中，可增加表演者事前未预期的表演辅助项目，因而增加直播表演者即兴配合演出的趣味性。

请参考图3，其是以流程图示出本发明一实施例的增加表演效果的方法。所述的方法是适用于具有表演者的直播影片，或是预录好的影片，本发明一实施例对此不予限制。

请参考步骤S5，获取直播影片片段。详言之，以处理器基于一单位时间获取直播影片。所述的片段包括多个讯框，每一讯框中具有表演者的身体姿态、脸部表情或声音其中至少一者。在步骤S5中，用于获取影片片段的单位时间在本实施例并不特别限制。实务上，例如依据图1的步骤S3中所选择的至少一类别的累计总时间的最小值或以累计总讯框数的最小值作为获取直播影片片段时所采用的单位时间。

请参考步骤S6，比对影片片段及数据库。详言之，处理器在前述分析表演者影片的方法的实施例中已建立涵盖各种表演类别与控制指令的数据库。所述的数据库中存储多个控制排程，每一控制排程是各自以一类别呈现顺序连接多个姿态类别、表情类别及声音类别中至少一者。每一控制排程包括依据一预设类别呈现顺序排列的体态类别、表情类别及声音类别中至少一者，以及对应此预设类别呈现顺序的一控制指令。

请参考图4，其是示出多个具有不同识别号的类别及依据两个类别呈现顺序C1、C2所构成的第一控制指令和第二控制指令。实务上，处理器首先从步骤S5取得的影片片段中的第一个讯框(或时间点靠前的多个讯框)分析表演者的体态、表情或声音类别。然后依据分析出的类别查找数据库以判断是否有相符者。所述的查找操作是以处理器进行比对以得出影片中的类别与数据库中的类别两者的一相似比率。举例来说，若依据目前获取的直播影片的片段中的讯框所识别出表演者的身体姿态近似于图4中识别号为ID78的体态类别，则处理器进一步计算两者的相似程度是否超过一预设比率。实务上，可根据训练数据库的表演者与实际直播影片的表演者是否为同一人而选择性地调降预设比率值，借此达到较高的控制排程匹配成功率。

在步骤S6中，所述的比对方式例如可采用自动机理论(automata theory)中有限自动机(finite automaton)的形式进行。请继续参考图4。若处理器判断影片片段中的第一个(或时间点靠前的数个)讯框所代表的体态类别符合数据库中识别号为ID78的体态类别，则处理器记录控制排程C1的第一条比对路径成立，然后处理器继续取得下一个(或下一组)讯框以判断其中包含的体态类别是否符合数据库中识别号为ID105的体态类别。依此类推，若接下来依直播影片时间顺序获取的影像片段的数个(或数组)讯框经处理器分析判断后得到的体态类别与识别号为ID97及识别号为ID231的两个体态类别互相符合，则请参考图3的步骤S7至S8。处理器输出对应此控制排程C1的控制指令。换句话说，由于在本次获取的直播影片的片段中具有与控制排程C1的预设类别呈现顺序中记录的每个类别互相匹配的多个讯框；以实际表演情境而言，相当于在获取直播影片片段之前，表演者重复了先前记录在数据库中的欢呼动作。因此，步骤S7的判断结果为“是”，继续执行步骤S8。反之，若在比对过程中，影片片段的讯框经处理器分析后，发现具有不符合控制排程C1记录的体态类别(相似程度未达预设比率值)；则返回步骤S5，以处理器重新分析下一个(或下一组)讯框，或以处理器重新获取下一个单位时间的直播影片的片段，借此开始另一次新的数据库查找流程。

简言之，处理器分析直播影片片段中包含的身体姿态、脸部表情或声音。当这些身体姿态、脸部表情或声音中至少一者以直播影片播放顺序排列时，若与数据库中的某一控制排程相符，则可输出对应此控制排程的控制指令。

请参考步骤S9，依据控制指令产生辅助效果。实务上，例如是通过RS485接口发送所述的控制指令至支援DMX-512协定的舞台灯光装置，或是通过MPU401通信接口发送所述的控制指令至音乐合成器。上述的表演辅助装置(舞台灯光装置及音乐合成器)可依据控制指令产生一辅助效果。所述的辅助效果例如：产生一罐头音效、播放一背景音乐、启动灯光效果。所述的辅助效果亦可由处理器基于影像合成的技术在直播进行时候的影像上添加一物件，此物件关联于该表演者的身体姿态。举例来说，在检测到表演者的身体姿态符合数据库中定义的欢呼动作之后，于表演者头部上方显示彩球及彩带的图案。举另一例来说，在检测到表演者说出特定关键字之后，立即在影片上产生关联于此特定关键字的特效字幕。通过上述控制指令的实现方式，可增加直播影片的画面丰富程度。

请参考图3。在步骤S9执行完成后，返回步骤S5继续获取直播影片片段或分析下一个(组)讯框以检测表演者的体态、表情或声音。

另外需补充说明的是：数据库中任一体态类别、表情类别或声音类别可被多个控制排程所共用。举例来说，请参考图4。识别号为ID105的体态类别被控制排程C1及C2所共用。从另一角度观之，通过重新排列组合本发明一实施例的分析表演者影片的方法中所产生的类别，表演者在自行设定控制指令的触发条件时具有相当大的弹性及足够多的可能性。

综合以上所述，本发明所公开的分析表演者影片的方法，以摄像装置与收音装置取得表演者的影音数据，通过可运行在电脑上的软件针对影片中表演者的人体框架、表情及声音进行分析。基于机器分类的演算法，可产生体态、表情及声音的多种类别。依据这些类别，表演者可自行定义多种表演情境，并各自设定对应的表演效果。因此在直播时，采用本发明所公开的增加表演效果的方法，可以自动在表演过程中检测表演内容而提供实时且适当的表演效果，提高表演与表演效果两者在时间上同步的准确率。同时，还能够减少工作人员数量的需求，从而降低因为人员训练不足导致提供的表演效果出现失误的几率。

虽然本发明以前述的实施例公开如上，然其并非用以限定本发明。在不脱离本发明的构思和范围内，所为的变动与润饰，均属本发明的专利保护范围。关于本发明所界定的保护范围请参考权利要求。

Claims

1.一种分析表演者影片的方法，包括：

以一摄像装置取得具有一表演者的身体姿态的一第一影像数据；

以该摄像装置取得具有该表演者的脸部表情的一第二影像数据；

以一收音装置取得具有该表演者的声音的一音频数据；

以一处理器基于该第一影像数据产生多个体态类别；

以该处理器基于该第二影像数据产生多个表情类别；

以该处理器基于该音频数据产生多个声音类别；

以该处理器依据一类别呈现顺序从该些体态类别、该些表情类别及该些声音类别中选取至少一类别；以及

以一存储装置存储该类别呈现顺序、被选取的该至少一类别及一控制指令。

2.如权利要求1所述的分析表演者影片的方法，其中以该存储装置存储该类别呈现顺序、被选取的该至少一类别及该控制指令包括：

以该存储装置依据该类别呈现顺序存储该至少一类别各自的一识别号，并存储该至少一类别各自对应的一影像讯框数或一持续时间。

3.如权利要求1所述的分析表演者影片的方法，其中以该处理器基于该第一影像数据产生该些体态类别还包括：采用支持向量机演算法进行分类。

4.如权利要求1所述的分析表演者影片的方法，其中以该处理器基于该第二影像数据产生该些表情类别还包括：采用支持向量机演算法进行分类，且该些表情类别包括：快乐、悲伤、惊讶、恐惧、愤怒、厌恶或无表情。

5.如权利要求1所述的分析表演者影片的方法，其中该控制指令包括：产生一音效或播放一音乐。

6.如权利要求1所述的分析表演者影片的方法，其中该控制指令包括：在一影片上添加一物件，且该物件关联于该影片上该表演者或另一表演者的身体姿态。

7.如权利要求1所述的分析表演者影片的方法，其中该第一影像数据、该第二影像数据及该音频数据其中任两者的拍摄或收音时间不相同。

8.如权利要求1所述的分析表演者影片的方法，其中在以该处理器产生该些体态、表情及声音类别之前，还包括：

以该处理器从该第一影像数据、该第二影像数据及该音频数据各自获取一第一影像片段、一第二影像片段及一音频片段，其中该第一影像片段、该第二影像片段及该音频片段各自是在一指定时间区间之内的该第一影像数据、该第二影像数据及该音频数据。

9.一种增加表演效果的方法，适用于具有一表演者的一直播影片，所述的方法包括：

以一处理器获取该直播影片的一片段，该片段包括多个讯框，每一该些讯框中具有该表演者的一身体姿态、脸部表情或声音；

以该处理器依据一数据库中存储的多个控制排程比对该些身体姿态、脸部表情或声音，其中每一该控制排程包括多个体态类别、多个表情类别及多个声音类别中至少一者依据一预设类别呈现顺序排列，以及一控制指令；

当依据该直播影片播放时间顺序排列该些身体姿态、脸部表情或声音中至少一者所构成的一播放顺序与该些控制排程其中之一的该预设类别呈现顺序相符时，以该处理器输出对应于相符的该控制排程的该控制指令；以及

以一表演辅助装置依据该控制指令产生一辅助效果。

10.如权利要求9所述的增加表演效果的方法，其中该辅助效果包括：以该表演辅助装置产生一音效、播放一音乐或在该直播影片上添加一物件，且该物件关联于该表演者的该身体姿态。