CN111601433A - 舞台灯光效果控制策略的预测方法及装置 - Google Patents
舞台灯光效果控制策略的预测方法及装置 Download PDFInfo
- Publication number
- CN111601433A CN111601433A CN202010380443.3A CN202010380443A CN111601433A CN 111601433 A CN111601433 A CN 111601433A CN 202010380443 A CN202010380443 A CN 202010380443A CN 111601433 A CN111601433 A CN 111601433A
- Authority
- CN
- China
- Prior art keywords
- music
- played
- segment
- effect control
- control strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 230000000694 effects Effects 0.000 title claims abstract description 106
- 238000011217 control strategy Methods 0.000 title claims abstract description 95
- 230000008451 emotion Effects 0.000 claims abstract description 165
- 238000012545 processing Methods 0.000 claims abstract description 107
- 230000011218 segmentation Effects 0.000 claims abstract description 99
- 230000001795 light effect Effects 0.000 claims abstract description 98
- 238000002372 labelling Methods 0.000 claims abstract description 66
- 230000002996 emotional effect Effects 0.000 claims abstract description 59
- 239000012634 fragment Substances 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 31
- 238000012706 support-vector machine Methods 0.000 claims description 82
- 238000007781 pre-processing Methods 0.000 claims description 25
- 238000013145 classification model Methods 0.000 claims description 21
- 230000007704 transition Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 14
- 230000033764 rhythmic process Effects 0.000 description 88
- 239000013598 vector Substances 0.000 description 47
- 239000011159 matrix material Substances 0.000 description 42
- 238000004880 explosion Methods 0.000 description 39
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 37
- 241001342895 Chorus Species 0.000 description 31
- 238000004422 calculation algorithm Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 26
- 238000005070 sampling Methods 0.000 description 26
- 238000004458 analytical method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 23
- 238000002474 experimental method Methods 0.000 description 21
- 238000012549 training Methods 0.000 description 19
- 230000008859 change Effects 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 16
- 238000001228 spectrum Methods 0.000 description 14
- 238000005457 optimization Methods 0.000 description 12
- 238000000513 principal component analysis Methods 0.000 description 12
- 208000027418 Wounds and injury Diseases 0.000 description 9
- FFRBMBIXVSCUFS-UHFFFAOYSA-N 2,4-dinitro-1-naphthol Chemical compound C1=CC=C2C(O)=C([N+]([O-])=O)C=C([N+]([O-])=O)C2=C1 FFRBMBIXVSCUFS-UHFFFAOYSA-N 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 239000002245 particle Substances 0.000 description 6
- 208000020401 Depressive disease Diseases 0.000 description 5
- 235000009508 confectionery Nutrition 0.000 description 5
- 238000009432 framing Methods 0.000 description 5
- 208000024714 major depressive disease Diseases 0.000 description 5
- 201000003995 melancholia Diseases 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000006735 deficit Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000035876 healing Effects 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000002040 relaxant effect Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000012916 structural analysis Methods 0.000 description 3
- 238000010792 warming Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010048909 Boredom Diseases 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 244000044554 Elaeagnus pungens Species 0.000 description 1
- 235000013935 Elaeagnus pungens Nutrition 0.000 description 1
- 241001539473 Euphoria Species 0.000 description 1
- 206010015535 Euphoric mood Diseases 0.000 description 1
- 241001484259 Lacuna Species 0.000 description 1
- 206010051602 Laziness Diseases 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241001465382 Physalis alkekengi Species 0.000 description 1
- 206010037180 Psychiatric symptoms Diseases 0.000 description 1
- 206010040007 Sense of oppression Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000000889 atomisation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000035568 catharsis Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 108010069898 fibrinogen fragment X Proteins 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 235000019692 hotdogs Nutrition 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- GVYLCNUFSHDAAW-UHFFFAOYSA-N mirex Chemical compound ClC12C(Cl)(Cl)C3(Cl)C4(Cl)C1(Cl)C1(Cl)C2(Cl)C3(Cl)C4(Cl)C1(Cl)Cl GVYLCNUFSHDAAW-UHFFFAOYSA-N 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000007261 regionalization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 235000019615 sensations Nutrition 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 235000019605 sweet taste sensations Nutrition 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05B—ELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
- H05B47/00—Circuit arrangements for operating light sources in general, i.e. where the type of light source is not relevant
- H05B47/10—Controlling the light source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B20/00—Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
- Y02B20/40—Control techniques providing energy savings, e.g. smart controller or presence detection
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明提供一种舞台灯光效果控制策略的预测方法及装置,其中,该方法包括:将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段;对每一段待播放音乐片段进行结构标注处理,使得每一段待播放音乐片段具有一结构特征标识;对每一段结构标注处理后的待播放音乐片段进行情感标注处理,使得每一段待播放音乐片段具有一情感特征标识;根据结构特征标识和情感特征标识,预测对应的灯光效果控制策略;该灯光效果控制策略为在待播放音乐播放的过程中,控制舞台灯具工作以呈现灯光效果的依据。上述技术方案实现了自动高效地基于音乐情感的灯光效果增效,降低了灯光师的工作量以及舞台灯光效果处理的成本,提高了舞台灯光效果处理的效率。
Description
技术领域
本发明涉及舞台灯光效果处理技术领域,特别涉及一种舞台灯光效果控制策略的预测方法及装置。
背景技术
演唱节目中,舞台灯光和音乐共同为观众营造视听觉体验,二者和谐的搭配可进一步烘托演出效果。为达到视听情感表达一致,实现在中国流行音乐在听的维度对人的情感产生影响之外,进一步通过匹配与音乐情感相匹配的灯光效果,实现灯光效果的音乐情感增感效应,降低灯光师人工成本的目的,如何根据音乐自动设计灯光效果的问题被提出并关注。
灯光作为舞台艺术的灵魂,对舞台效果具有渲染和烘托的作用,它不仅要把舞台照亮,同时也要照得美,照得有特色。为达到与中国流行音乐情感相呼应的灯光效果,需进行灯光设计。但传统的灯光设计,存在效率低、过程复杂、周期长的缺点。例如,每一场完整的舞台灯效都需要灯光师在前期投入大量的工作,灯光师首先与演出导演进行总体构思的沟通,根据演出策划书,在特定的场景里利用各种区域各种功能的灯具设计出与各个演出场景相适应的灯光效果,在现场利用灯光控制台对灯光效果进行灯光编程、调试、修改、试运行等一系列复杂工作,从而设计出一整套灯光表演方案和完美的舞台效果。
上述灯光编程指的是对演出中需要的灯光效果进行编辑、存储,在正式演出时进行调用;调试是指灯具安装完成后对其进行检测;修改是对已编辑好的演出活动中灯光的某个场景和素材进行改正;试运行指在技术彩排中将所有已编辑好的演出活动中灯光的所有场景运行一遍以检查是否存在问题。但在实际工程应用中,灯光师完成上述工作的时间极其有限,有时甚至不到一天,这对于灯光师来说工作量巨大,往往造成灯光设计的效率不高,效果不佳,难以满足观众的需求。以上所有的灯光设计,通常都是通过电脑灯控制台来对灯光进行设计,这种传统的设计模式工作效率低,修改方案复杂,这给设计人员和操作人员带来诸多不便,成本高。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种舞台灯光效果控制策略的预测方法,用以实现自动高效地基于音乐情感的灯光效果增效,降低灯光师的工作量以及舞台灯光效果处理的成本,提高舞台灯光效果处理的效率,该方法包括:
将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段;
对每一段待播放音乐片段进行结构标注处理,使得每一段待播放音乐片段具有一结构特征标识;
对每一段结构标注处理后的待播放音乐片段进行情感标注处理,使得每一段待播放音乐片段具有一情感特征标识;
根据每一段待播放音乐片段的结构特征标识和情感特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系,及预先存储的情感特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识和情感特征标识对应的灯光效果控制策略;所述灯光效果控制策略为在所述待播放音乐播放的过程中,控制舞台灯具工作以呈现灯光效果的依据。
本发明实施例还提供了一种舞台灯光效果控制策略的预测装置,用以实现自动高效地基于音乐情感的灯光效果增效,降低灯光师的工作量以及舞台灯光效果处理的成本,提高舞台灯光效果处理的效率,该装置包括:
分段处理单元,用于将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段;
结构标注处理单元,用于对每一段待播放音乐片段进行结构标注处理,使得每一段待播放音乐片段具有一结构特征标识;
情感标注处理单元,用于对每一段结构标注处理后的待播放音乐片段进行情感标注处理,使得每一段待播放音乐片段具有一情感特征标识;
预测单元,用于根据每一段待播放音乐片段的结构特征标识和情感特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系,及预先存储的情感特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识和情感特征标识对应的灯光效果控制策略;所述灯光效果控制策略为在所述待播放音乐播放的过程中,控制舞台灯具工作以呈现灯光效果的依据。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述舞台灯光效果控制策略的预测方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述舞台灯光效果控制策略的预测方法的计算机程序。
本发明实施例提供的技术方案通过:将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段;对每一段待播放音乐片段进行结构标注处理,使得每一段待播放音乐片段具有一结构特征标识;对每一段结构标注处理后的待播放音乐片段进行情感标注处理,使得每一段待播放音乐片段具有一情感特征标识;根据结构特征标识和情感特征标识,预测对应的灯光效果控制策略;该灯光效果控制策略为在待播放音乐播放的过程中,控制舞台灯具工作以呈现灯光效果的依据,实现了自动高效地基于音乐情感的灯光效果增效,降低了灯光师的工作量以及舞台灯光效果处理的成本,提高了舞台灯光效果处理的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中舞台灯光效果控制策略的预测方法的流程示意图;
图2是本发明实施例中音乐处理部分的原理示意图;
图3是本发明实施例中音乐预处理部分的原理示意图;
图4是本发明实施例中音乐分段与结构标注处理总的原理示意图;
图5是本发明实施例中音乐分段部分的原理示意图;
图6是本发明实施例中基于直方图聚类的音乐分段的原理示意图;
图7是本发明实施例中音乐结构标注整体过程的原理示意图;
图8是本发明实施例中基于SVM分类的结构标注过程的原理示意图;
图9是本发明实施例中整体音乐特征分析的原理示意图;
图10是本发明实施例中情感词汇二维空间分布示意图;
图11是本发明实施例中情感特征识别的原理示意图;
图12是本发明实施例中速度特征识别的原理示意图;
图13是本发明实施例中特殊点与特殊段标记的原理示意图;
图14是本发明实施例中环境灯光效果匹配推理流程图;
图15是本发明实施例中音乐信息输入的原理示意图;
图16是本发明实施例中歌曲《煎熬》分段与结构标注的结果示意图;
图17是本发明实施例中灯具布置的示意图;
图18是本发明实施例中舞台灯光效果控制策略的预测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在介绍本发明实施例技术方案之前,首先对本发明实施涉及的名词、发明人发现的技术问题及基于此提出本发明实施例技术方案的思路进行介绍。
灯光效果包括人物灯光效果和环境灯光效果。人物灯光效果是利用各种灯位的灯具将演员塑造的更加形象、具体、立体;环境光是利用各类灯光颜色亮暗闪烁变化等,使观众沉浸在渲染的气氛中。本发明实施例主要给出的是环境光效果的匹配方法。
在灯光效果设计时,尤其是含音乐类演出时,环境光效果的变化必须伴随音乐的变化,基于音乐的变化灯光随之变化,也就是音乐特征的变化,且在上述特征下还包括子特征;不仅如此灯光效果也多种多样,灯光师根据自身对音乐特征的理解选择与之相匹配的灯光特征,这是一个非常浩大的工程,同时由于灯光师经验、水平各不相同,匹配的效果难以满足大众的心理需求。
传统灯光设计的具体步骤为:在筹备阶段,灯光师需要根据对音乐的理解,进行现场编辑灯光效果。这一过程受到演出设备(灯光、音响)、演员等的进场、装台、彩排时间的限制,往往需要在不到24小时内将一场演出中的十几个甚至是几十个节目的灯光效果进行编辑,在演出中进行执行。其具体过程可以描述为:
(1)装台:灯光团队根据提前设计好的灯位图、灯具总表将灯具安装、摆放到对应位置,摆放方位与角度一致,顺序也应与图表标注一致。
(2)拨地址码:根据灯具总表中每台灯具的DMX(数字多路复用协议,是灯光控制的标准协议)地址,将每台灯具的DMX地址分别手动拨码到对应地址。
(3)灯具配接:在灯光控制台上根据演出内容新建剧目进行如下操作:
1)新节目的添加和储存。2)创建编组、舞台、素材、效果、宏定义池等各类视图窗口,为灯光场景编程建立快捷窗口。3)灯具的配接:根据灯具总表对总表中所有灯具在控制台上分配地址、设备编号,在控制台中找寻对应灯库进行灯具配接。(4)对光:对所有灯具依次打开亮度通道,进行灯具光束位置的调节;根据投射光斑位置是否合适进行灯具摆放的二次调节;根据演员走位等编辑存储灯光光束投射的基本位置。(5)创建和使用素材:创建并使用灯具的各种场景素材、效果,供灯光编程使用。素材、效果、舞台、编组、宏等进行充分的编辑。(6)灯光编程:灯光师反复听待演节目音乐,根据对节目音乐情感的表达、音乐节拍的快慢变化等创作编辑灯光场景效果,每一个灯光场景记录为一个cue(cue是一个演出场景,一个演出场景有一个演出的灯光效果,如灯具从亮到暗,如灯具从左侧摆向右侧),利用配接好的灯具和提前创建的素材、效果进行灯光编程,将各种灯光场景存储在灯光执行推杆或按键上。将所有的演出灯光场景依次记录,形成演出cue表。(7)演出合成、演出彩排与正式演出:演员带妆排练并将灯光、机械、音响效果加入其中称为演出合成。根据演出合成效果进行灯光方案的局部调整后,进行演出彩排。演出彩排是演出前灯光与演出其他专业配合的最后“检阅”。完成彩排后,将在正式演出中根据cue表和记录每一个cue的执行推杆,在演出过程中,在恰当的时间执行对应的推杆,称为灯光执行。
针对以上现状,发明人提出如下技术问题:
1、如何自动对音乐进行分段,以获得一首音乐中对灯光效果场景进行变化的时间区间。2、如何对划分好的每个音乐区间自动识别其音乐情感、识别音乐的节奏和高音高潮。3、如何在上述1和2的基础上,为每一区间(段)带有具体情感的音乐匹配相应的环境光效果,实现增感,并针对节奏、高音高潮特征匹配相应的灯光特效。
由于发明人发现了上述技术问题,于是提出了:为了实现这三个问题的自动化实现,降低灯光师的时间成本,提高效率,为灯光师更高效的推荐灯光效果方案(例如灯光效果控制策略)。具体地,本发明实施例拟替代以上(5)-(7)步骤,实现输入一首流行歌曲音频文件,自动将音乐进行自动时间分段,并自动进行结构标注(分段标注),标注词为:前奏(Intro)、主歌(Verse)、副歌(Chorus)、过渡(Bridge)、尾声(Outro);然后对分段后的每段音乐片段进行自动情感标注;其中情感标注词为:E={Esad,Emoving,Ehappy,Epassion,Eheroic};然后对每段音乐实现速度、高音标注;然后依据完成的以上标注,依据音乐的结构标注、情感标注、速度级别和高音级别,适配与以上音乐特征相匹配的灯光效果,实现基于音乐(例如中国流行音乐)情感的灯光效果增效。
具体地,本发明实施例提供的技术方案旨在实现输入一首流行歌曲音频文件,自动输出与音乐分段、情感、速度、高音等音乐特征相匹配的灯光效果的方法。由于一首中国流行音乐分为前奏(Intro)、主歌(Verse)、副歌(Chorus)、过渡(Bridge)、尾声(Outro)等部分(结构),每部分的情感往往有很大差异,因此,本发明实施例首先自动对音乐进行分段,然后自动对每段进行情感分析与标注,实现基于每段的情感标注,对音乐的情感理解更加深入、更加细致,为匹配灯光效果提供了技术支撑;本发明实施例还提取了音乐的速度和高音特征,以速度值0-49为非常慢,50-79为慢,80-109为快,110-140+为非常快,将速度量化为四级后,将四级速度与灯光效果的变化速度进行特征匹配,实现音乐速度与灯光效果变化速度的匹配;在音高分析部分将歌唱中的High C调及以上作为高音,其物理频率为1046.4Hz,考虑到时频分析中分辨率较低引起的误差以及实际歌唱中的音准问题,将基频频率阈值定为990Hz,即副歌片段中基频频率高于990Hz可视为高音,即音乐的爆点部分(高音特征部分),然后自动获得爆点的时间节点,并在爆点时间节点自动匹配灯光的频闪效果。
下面对该舞台灯光效果控制策略的预测方案进行详细介绍。
图1是本发明实施例中舞台灯光效果控制策略的预测方法的流程示意图;如图1所示,该方法包括如下步骤:
步骤101:将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段;
步骤102:对每一段待播放音乐片段进行结构标注处理,使得每一段待播放音乐片段具有一结构特征标识;
步骤103:对每一段结构标注处理后的待播放音乐片段进行情感标注处理,使得每一段待播放音乐片段具有一情感特征标识;
步骤104:根据每一段待播放音乐片段的结构特征标识和情感特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系,及预先存储的情感特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识和情感特征标识对应的灯光效果控制策略;所述灯光效果控制策略为在所述待播放音乐播放的过程中,控制舞台灯具工作以呈现灯光效果的依据。
本发明实施例提供的舞台灯光效果控制策略的预测方法实现了自动高效地基于音乐情感的灯光效果增效,降低了灯光师的工作量以及舞台灯光效果处理的成本,提高了舞台灯光效果处理的效率。
具体实施时,本发明实施例提供的技术方案中的音乐可以为中国流行音乐。
下面结合附图2至图18,对发明实施例涉及的各个步骤进行详细介绍。
本发明实施例提供的技术方案主要包括两部分,音乐处理部分和灯光效果匹配部分。下面针对这两个部分进行详细介绍。
一、音乐处理部分
音乐处理部分如图2所示,包括音乐预处理模块、音乐分段与结构标注模块、音乐特征分析模块。
音乐处理部分的输入是音乐文件,输出是音乐数据包,包含音乐分段起止时间点、音乐结构与特征标注的数据和完成音乐结构与特征标注的音乐分段文件两部分。
音乐处理部分是指一个音乐文件输入系统后,首先通过音乐预处理模块进行音乐数据包的初始化以及音乐预处理(即在上述步骤101和102之前的预处理步骤),然后通过音乐分段与结构标注模块进行音乐分段和结构标注,按照计算得出的音乐分段点进行音乐分割形成若干音乐分段文件,更新音乐数据包中的音乐片段时间点与结构标注数据(即上述步骤101和102);接着可以利用音乐特征分析模块提取音乐片段的情感、速度、高音等特征,按照计算得出的高音部分对副歌进行再次分割形成若干音乐分段文件,更新音乐数据包中的音乐片段情感、速度、高音等特征标注数据(即上述步骤103,以及下文提到的速度标注处理和高音标注处理的步骤)。
下面将依次对音乐预处理模块、音乐分段与结构标注模块、音乐特征分析模块分别进行详细叙述,其中,先叙述音乐预处理模块、音乐分段与结构标注模块,再叙述音乐特征分析模块。
初始化:音乐名称,字段为:Name;第一次更新:分段起止时间点,更新字段为:Start_time,End_time;第二次更新:结构标注(分段标注),更新字段为:Struture;第三次更新:情感标注,更新字段为:Emotion;第四次更新:速度标注,更新字段为:Speed;第五次更新:高音标注,更新字段为:Pitch。该初始化的过程可以通过如下程序来实现:
M_data{Name,
Emotion,
Segment_data[n,5](Struture,Start_time,End_time,Pitch,Speed)}
1.首先,介绍音乐预处理模块,该模块用于实现对待播放音乐文件进行预处理的过程。
在一个实施例中,上述舞台灯光效果控制策略的预测方法还可以包括:对待播放音乐文件进行预处理,得到预处理后的待播放音乐文件;
将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段,可以包括:将预处理后的待播放音乐文件进行时间分段处理,得到多段待播放音乐片段。
具体实施时,在音乐分段前实施对对待播放音乐文件的预处理过程进一步提高了舞台灯光效果处理的效率。
音乐预处理模块(单元)的作用是一个音乐文件输入系统后,首先通过音乐预处理模块进行音乐数据包的初始化以及音乐预处理,如图3所示。该模块主要执行读取音乐文件、音乐数据包的初始化以及对音乐进行预处理的工作,预处理包括音乐格式转换与音乐声道合并。
具体地,音乐预处理模块首先读取音乐文件,支持的音乐文件格式为MP3格式与WAV格式。接下来获取音乐文件名,初始化一个音乐数据包。然后对音乐进行预处理,首先将MP3格式的文件转换为WAV格式,然后检测音乐文件的声道数,若是双声道,则将两声道合并为单声道,为下一模块(音乐分段和结构标注模块)做准备。
具体实施时,音乐数据包中的数据结构可以如下:
M_data{Name,
Emotion,
Segment_data[n,5](Struture,Start_time,End_time,Pitch,Speed)}
其中Name字段为音乐名称,Emotion字段为音乐情感,Segment_data字段为音乐分段信息,共包含n行5列,n为分段总数,每一行包含5个音乐片段的标注信息,其中Struture字段为音乐片段的结构,Start_time字段为音乐片段的起始时间,End_time字段为音乐片段的结束时间,Pitch字段为音乐片段的高音判别,Speed字段为音乐片段的速度。
Name:字符串,如yin tian;Emotion:字符串,如happy;Segment_data:数组,每行是一个五维向量,包Struture,Start_time:,End_time,pitch,Speed;其中,Struture:字符串,如Intro;Start_time:浮点数,如100.23s;End_time:浮点数,如122.23s;Pitch:0或1;Speed:0-200的整数。
以双声道MP3格式音乐文件为例,说明对音乐文件预处理的步骤:
(1)输入音乐“示例音乐.mp3”;(2)读取音乐的文件名至filename,音乐信号矩阵X[y1,y2](y1为左声道,y2为右声道),采样率Fs和采样位数N;(3)初始化音乐数据包中的数据M_data,其中Name字段值设为’示例音乐’,其余字段值设为null;(4)通过文件名filename后三位识别音乐格式为MP3,直接将音乐转换为WAV格式;(5)通过音乐信号X[y1,y2]的列数识别音乐为双声道,将y1、y2两路单声道矩阵变量进行合并与归一化处理,合成为一路声道矩阵变量y;(6)保存经过处理的音乐为“示例音乐.wav”,输出音乐流(包括音乐信号矩阵X(y),采样率Fs和采样位数N)以及音乐数据包M_data。
2.接着,介绍音乐分段与结构标注模块,该模块用于实现上述步骤101和步骤102。
具体实施时,音乐分段与结构标注模块由音乐分段部分与音乐结构标注部分组成,主要执行音乐的自动分段与音乐片段结构分析、标注工作,如图4所示。
具体实施时,音乐分段部分通过对提取的基于节拍的PCP特征进行一系列处理,对歌曲按结构进行分段点分析并得出分段时间点与每一片段的类别编号,第一次更新音乐数据包,更新数据包中的音乐片段起始时间与截止时间信息。
具体实施时,音乐结构标注部分提取每一个音乐片段的MFCC(Mel FrequencyCepstrum Coefficient,梅尔频率倒谱系数)特征和平均过零率特征,利用SVM(支持向量机)预先建立的分类模型进行分类预测,根据音乐分段得到的类别序列与SVM的预测分类结果按预定规则将音乐片段标注为前奏(Intro)、主歌(Verse)、副歌(Chorus)、过渡(Bridge)、尾声(Outro)5种标签之一(结构分析即通过相关方法将自动分段好的音乐片段自动标注该段音乐片段是前奏、主歌、副歌、过渡、尾声中的一个),第二次更新音乐数据包,更新数据包中的音乐片段的结构标注数据,将音乐文件根据音乐分段点分割为若干音乐片段文件。
下面对音乐分段与结构标注的详细过程进行介绍。
2.1首先介绍音乐分段的过程。
在一个实施例中,将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段,可以包括:
对待播放音乐文件进行节拍识别,提取基于节拍的十二维音级轮廓特征PCP特征;根据基于节拍的十二维音级轮廓特征PCP特征,采用基于直方图聚类的音乐分段方法,得到音乐分段点;根据音乐分段点,将待播放音乐文件分为多段待播放音乐片段,更新音乐文件中音乐片段的起始时间与截止时间信息。
具体实施时,上述音乐分段的实施方式提高了音乐分段的准确率。下面对该音乐分段的实施方式进行详细介绍。具体实施时,该部分首先对音乐信号进行节拍识别并提取基于节拍的12维PCP特征(音级轮廓特征PCP(pitch class profile)),然后采用基于直方图聚类的音乐分段算法进行音乐分段得到音乐分段点,更新音乐数据包中的音乐片段起始时间与截止时间信息,并输出音乐流提供后续音乐结构标注使用,如图5所示。
2.1.1提取基于节拍的12维PCP特征:
首先,提取12维PCP特征的具体步骤为:
(1)输入音乐信号矩阵X[y]和采样率Fs。
(2)提取基于节拍的PCP特征:
为了提取基于节拍的PCP特征,采用动态规划节拍跟踪算法(可以是现有方法)进行节拍识别,包括起始点能量包络、自相关最佳节奏估计和节拍检测三部分。
1)对音乐信号矩阵X[y]进行STFT变换(短时傅里叶变换(STFT,short-timeFourier transform,或short-term Fourier transform)),通过一个权重矩阵将频谱变换为40维Mel频谱(梅尔倒频谱(Mel-Frequency Spectrum,MFC)),计算每维频谱沿时间轴的一阶差分(只有起始点信息),然后将整个频谱内的值相加,滤除直流后得到起始能量包络O(t)。
2)对音频信号的起始能量O(t)进行自相关运算,并在自相关运算结果的对数域上加高斯窗获取单一主峰值,将自相关中最大的滞后值作为最佳速度估计。
3)利用起始能量包络和最佳速度信息,通过动态规划算法动态搜索最佳节拍点并估计获取节拍的时间位置信息T(ti),完成节拍识别。
接下来,提取基于节拍的PCP特征。PCP特征描述的是12个同性质的音高类之间的功率谱能量的分布,是音乐结构分析中较常使用的特征,提取方法是从对数频率尺度上的功率谱中提取12维的PCP向量。
1)对音乐信号矩阵X[y]分帧处理,每帧1024个采样点,进行短时傅里叶变换:
k表示频率坐标,0≤k≤N-1,n表示短时傅里叶变换窗口的中心,w(m)表示N=1024点的汉明窗函数。
2)频谱映射,将XSTFT(k,n)映射为p(k),它通常是由12维向量组成,每一维向量表示一个半音音级的强度。从频率到音级的映射,按照音乐理论中的平均律以对数方式计算。步长选择100ms,即每秒10个PCP帧,STFT中的K被映射为PCP中的p,映射公式如下:
其中,fsr为采样率。fsr/N表示STFT域频率的间隔间隙,于是fsr/N·k表示频域的每一个分量的频率。为参考频率对应PCP[0],也就是在十二平均律中人们需要用到的音阶中较低的一组的C1音,一般我们取在钢琴键盘能弹奏的最低一个C1音。因此表示每一个频率分量和fref的比值,也就是说忽略高八度和低八度的关系,只考虑把频域的能量分为12个频率带。
3)通过累加所有与某一特定音级相对应的频率点的频率值得到每个时间片段的各个PCP分量的值。具体公式如下:
PCP(p)=∑k:p(k)-p|X(K)|2 p=1,2,,…12。 (3)
4)根据节拍跟踪得到的节拍点T(ti)计算每个节拍间隔内PCP的平均值作为基于节拍的PCP特征:
其中M表示每个节拍内的帧数。
5)输出基于节拍的PCP特征向量序列PCP(ti)。
2.1.2基于直方图聚类的音乐分段:
基于直方图聚类的音乐分段算法分为三个步骤:相似特征单元聚类、初步分段和边界调整。
具体实施时,首先对PCP特征序列加窗得到特征向量单元,然后根据特征的相似度利用K-means++聚类算法(一种K均值聚类的机器学习算法)对特征向量单元进行聚类,得到每个特征向量的类别标签,接下来对特征向量单元的类别序列矩阵进行直方图聚类,如图6所示,得到初步的分段结果,然后采用合并短小片段的算法进行分段边界调整,最后将分析出的分段边界作为音乐分段点。
即在一个实施例中,根据基于节拍的十二维PCP特征,采用基于直方图聚类的音乐分段方法,得到音乐分段点,可以包括:
对PCP特征序列加窗得到特征向量单元;其中,根据发明人大量的经验发现:窗长的取值范围是2至30,根据参数寻优结果将其设为18,窗移的取值范围是1至30,根据参数寻优结果将其设为10,有利于提高音乐分段的效率和准确率;
根据PCP特征的相似度,利用K-means++聚类算法对特征向量单元进行聚类,得到每个特征向量的类别标签;其中,根据发明人大量的经验发现:聚类算法的参数K取值范围是40至60,根据参数寻优结果将其设为55,即聚类个数为55,有利于提高音乐分段的效率和准确率;
对特征向量单元的类别标签序列矩阵进行直方图聚类,得到初步的分段结果;其中,根据发明人大量的经验发现:聚类迭代次数的取值范围是1至1000,根据参数寻优结果将其设为600,有利于提高音乐分段的效率和准确率;
采用合并短小片段的算法进行分段边界调整后,将分析出的分段边界作为音乐分段点;其中,根据发明人大量的经验发现:在边界调整的过程中涉及时间阈值的取值范围是1至10秒,根据参数寻优结果将其设为6.7秒,有利于提高音乐分段的效率和准确率。
具体实施时,上述得到音乐分段点的详细实施方式,进一步提高了音乐分段的效率和准确率,进而进一步提高了舞台灯光效果处理的效率和准确率。
下面结合图6详细介绍基于直方图聚类的音乐分段过程。
(1)相似特征单元聚类
进行音乐结构分析首先要对提取到的特征向量序列进行相似特征单元聚类处理。按照特征的相似度,利用K-means++聚类算法对特征向量进行聚类,其中K-means++聚类算法的参数K取值范围是40至60,根据参数寻优结果将其设为55,即聚类个数为55,每个特征向量得到一个1-55的类别标签。算法如下:输入特征向量序列PCP(ti)作为聚类样本。
1)随机选择55个样本作为初始聚类中心;2)在第k次迭代中,对任意一个样本,求其到55个中心的欧式距离,将该样本归到距离最短的中心所在的类;3)利用均值等方法更新该类的中心值;4)对于所有的聚类中心,如果利用2)、3)的迭代法更新后,值保持不变(目标函数收敛),则迭代结束,否则继续迭代;5)输出聚类结果,即对应每个特征向量的类别标签序列C(ti)。
(2)初步分段(直方图聚类)
为了使特征单元形成较大的结构片段,对特征向量的类别序列进行直方图聚类,首先计算特征向量类别序列的直方图,然后通过SOM(self-organizing map自组织特征映射神经网络)聚类将相似特征单元划分为同一类别,得到初步的结构分析结果(类别数以及每一类别下的片段的起止时间)。
1)对类别标签序列C(ti)进行加窗,其中窗长的取值范围是2至30,根据参数寻优结果将其设为18,窗移的取值范围是1至30,根据参数寻优结果将其设为10,统计窗内各类别标签的数量,形成每个窗的类别分布矩阵Cwin(ti);2)输入Cwin(ti)作为聚类样本;3)神经网络初始化:权值使用较小的随机值进行初始化,并对输入样本和权值做归一化处理;4)计算样本与权值向量的欧式距离,距离最小的神经元赢得竞争记为获胜神经元;5)对获胜的神经元拓扑邻域内的神经元进行更新,并对学习后的权值重新归一化;6)更新学习速率η及拓扑邻域N;7)判断是否收敛。如果达到预设的迭代次数,则迭代结束,否则继续迭代,其中迭代次数的取值范围是1至1000,根据参数寻优结果将其设为600;8)输出聚类结果,即对应每个类别分布的类别标签序列Czft(ti)。
(3)边界调整(合并短小片段)
由于直方图聚类后可能会产生一些时间很短但不能独立成段的片段,因此采用合并短小片段的算法,将直方图聚类结果中小于一定时间阈值的短小片段,合并到与之相似距离最小的临近部分中,得到最终结构分析结果(类别以及每一类别下的片段的起止时间)。
1)计算Czft(ti)中每一类别变化点的时间tk,通过tk+1-tk计算出每一相同类别片段的时间长tl;2)若tl小于时间阈值t,则分别计算该类别片段与其前一片段以及后一片段的欧氏距离,将该片段的类别合并到计算出的欧氏距离较小的类别片段中,其中时间阈值t的取值范围是1至10秒,根据参数寻优结果将其设为6.7秒;3)重复2),直到序列中相同类别片段的时间长tl均大于时间阈值t;4)计算合并短小片段后的类别标签序列Czft(ti)中每一类别变化点的时间tk作为分段节点形成分段点序列T=[t0,t1,…,tk,…,tn],其中t0=0,tn为音乐总时长,n为音乐分段总数;
(4)第一次音乐数据包数据更新:
更新音乐数据包M_data的Segment_data字段中第n行Start_time值为tn-1,End_time值为tn,其余字段值设为null。
2.2音乐结构标注部分
该部分首先根据音乐分段点截取音乐片段,然后提取每段音乐片段的MFCC与平均过零率特征,接下来通过基于SVM分类的音乐结构标注方法标注每一个音乐片段的结构,最后更新音乐数据包中的音乐片段结构标注信息。
其中基于SVM分类的音乐结构标注方法,如图7所示,分为以下步骤:首先利用SVM通过预先建立的模型对输入的特征向量进行分类,如图8所示,先将音乐片段分为演奏部分与演唱部分,再将演唱部分的音乐片段分为主歌部分与副歌部分,然后进行前奏、过渡、尾声的标注,得到每一片段的结构标注。
在一个实施例中,对每一段待播放音乐片段进行结构标注处理,使得每一段待播放音乐片段具有一结构特征标识,可以包括:
根据音乐分段点截取待播放音乐片段;提取每一段待播放音乐片段的MFCC与平均过零率特征;根据每一段待播放音乐片段的MFCC与平均过零率特征,基于支持向量机SVM分类的音乐结构标注方法,为每一段待播放音乐片段标注结构特征标识;更新待播放音乐文件中的待播放音乐片段的结构特征标识。
具体实施时,上述结构标注处理的实施过程进一步提高了灯光效果处理的效率和准确率。下面进行详细介绍。
音乐结构标注部分的具体步骤如下:
(1)输入音乐流和音乐数据包:输入音乐信号矩阵X[y]和采样率Fs、音乐数据包M_data以及分段类别序列O(n)。(2)截取音乐片段:根据音乐数据包M_data的Segment_data字段中第n行的Start_time和End_time将音乐信号矩阵X[y]截取为音乐片段[X1,X2,…,Xn]。(3)提取MFCC特征和平均过零率特征:提取每一个音乐片段的MFCC特征和平均过零率特征。MFCC指Mel倒谱系数,提取方法如下:
1)对音乐信号矩阵Xn[y]进行短时傅里叶变换并求能量谱:
F是帧的大小,w(n)是汉明窗函数。
2)定义M个三角滤波器作为Mel滤波器,计算每个滤波器的输出能量:
wk(m)是与第k个Mel滤波器相关的三角形加权函数。
3)对输出能量分别取对数,并做离散余弦变换,求出12维MFCC系数:
4)对c[n]做一阶差分处理,与c[n]合并得到24维特征矩阵,最后求均值与方差得到48维特征向量MFCC作为MFCC特征输出。
具体实施时,平均过零率是一段音乐信号短时过零率的平均值,提取方法如下。
1)提取第n帧音乐信号的短时过零率:
sgn[x(m)]是x(m)的符号函数。
2)Zn求均值与方差得到2维特征向量Z作为平均过零率特征输出:
最后,将MFCC和Z合并得到50维音乐片段特征向量[MFCCZ]输出。
(4)基于SVM分类的音乐结构标注:
在一个实施例中,根据每一段待播放音乐片段的MFCC与平均过零率特征,基于支持向量机SVM分类的音乐结构标注方法,为每一段待播放音乐片段标注结构特征标识,可以包括:
将每一段待播放音乐片段的MFCC与平均过零率特征输入利用SVM预先训练好的第一分类模型,得到每一段待播放音乐片段的第一SVM分类预测结果;所述第一SVM分类预测结果包括演奏音乐片段和演唱音乐片段;
将演唱音乐片段的MFCC与平均过零率特征输入利用SVM预先训练好的第二分类模型,得到每一段演唱音乐片段的第二SVM分类预测结果;所述第二SVM分类预测结果包括主歌音乐片段和副歌音乐片段;
将演奏音乐片段的MFCC与平均过零率特征输入利用SVM预先训练好的第三分类模型,得到每一段演奏音乐片段的第三SVM分类预测结果;所述第三SVM分类预测结果包括前奏音乐片段、过渡音乐片段和尾声音乐片段;
根据第一SVM分类预测结果、第二SVM分类预测结果和第三SVM分类预测结果,为每一段待播放音乐片段标注结构特征标识。
基于上述可知,基于SVM分类的音乐结构标注包括以下三步,如图8所示。
1)第一次SVM分类(演奏部分和演唱部分的分类):
结构标注的第一步是将音乐片段分为演奏部分和演唱部分,其中演奏部分指歌曲中的伴奏,包括前奏、过渡、尾声部分;演唱部分包括主歌、副歌部分。分类过程首先引入利用SVM预先训练好的分类模型,然后将音乐片段的特征向量作为模型的输入,最后通过SVM得到模型的预测分类结果,将音乐片段分为演奏部分或演唱部分。其中预先进行的模型训练步骤如下:
对音乐数据库中的歌曲进行分段与结构标注。所有片段的60%作为训练集,40%作为测试集。对所有音乐片段按步骤(3)提取MFCC与平均过零率特征得到特征向量,将训练集的特征向量作为训练分类模型的输入,通过SVM对训练集歌曲的特征进行训练,得到演奏部分和演唱部分的分类模型M1。
分类步骤如下:a)将n个音乐片段的特征向量矩阵[MFCC(n)Z(n)]输入分类模型M1;b)经过模型预测,得到分类标签L1(n)。其中演奏部分标签为0,演唱部分标签为1。
2)第二次分类(主歌部分和副歌部分的分类):
结构标注的第二步是将音乐片段的演唱部分为主歌部分和副歌部分,分类过程与1)相似。首先引入利用SVM预先训练好的分类模型,然后将演唱部分音乐片段的特征向量作为模型的输入,最后通过SVM得到模型的预测分类结果,将音乐片段分为主歌部分或副歌部分。其中预先进行的模型训练步骤如下:
将音乐数据库中歌曲的演唱部分片段的60%作为训练集,40%作为测试集。将训练集的特征向量(MFCC和平均过零率)作为训练分类模型的输入,通过SVM对训练集歌曲的特征进行训练,得到主歌部分或副歌部分的分类模型M2。
分类步骤如下:a)将分类标签L1(n)中值为1的音乐片段特征向量[MFCC(n’)Z(n’)]输入分类模型M2,其中n’为演唱部分音乐片段数;b)经过模型预测,得到分类标签L2(n’)。其中主歌部分标签为2,副歌部分标签为3。
3)标注前奏、过渡、尾声:
结构标注的第三步是将音乐片段的演奏部分分为前奏、过渡和尾声部分,其中前奏应为所有片段时间顺序的第一个,尾声应为所有片段时间顺序的最后一个,其余演奏部分则为过渡。按以上规则得到演奏部分片段的分类标签L3(n”),其中n”为演奏部分音乐片段数,前奏标签为1,过渡标签为4,尾声标签为5。按照时间顺序合并分类标签L1、L2、L3成为最终结构标注结果L(n)。
(5)第二次音乐数据包数据更新与第一次音乐分段:
按照L(n)的值更新音乐数据包M_data的Segment_data字段中第n行Structure的值。其中L=1时,Structure=’前奏’,L=2时,Structure=’主歌’,L=3时,Structure=’副歌’,L=4时,Structure=’过渡’,L=5时,Structure=’尾声’。
将n个音乐片段[X1,X2,…,Xn]保存为n个WAV格式音乐文件,文件名为’示例音乐_音乐片段序号_结构标注.wav’。
3.接着,介绍整体音乐特征分析模块该模块,该模块用于实现对待播放音乐片段特征分析,进而进行情感标注处理、速度标注处理、高音标注处理。
音乐特征分析模块先读取音乐分段文件(上述2中输出的分段文件)与含有分段信息的音乐数据包(第二次更新后的数据包),通过音乐信号处理与机器学习的方式,分析整个系统所需的各片段音乐特征,并依次进行第三、四、五次音乐数据包的更新,更新内容分别为音乐数据包中的速度、高音、情感标注值,若副歌部分包含高音标注值为1的片段,则根据高音的起止时间点分割出高音片段,并输出分割后的音乐文件,分段信息也进行更新,整体流程如图9所示。下面结合附图9进行详细介绍。
3.1音乐情感识别模块,该情感识别模块实现了对待播放音乐片段进行情感标注处理。
该模块主要执行识别音乐情感工作,实现输出情感标签功能。该模块通过识别音乐副歌片段情感,将该情感定义为整首歌曲的主情感。只识别副歌片段情感,并以副歌情感为主情感的理由是:
1)大多数歌曲的情感从始至终是统一或比较统一的;
2)音乐情感主要与灯光色彩相关联,实际舞台演出中灯光颜色频繁大幅度变化影响舞台效果的美观性与和谐性;
3)歌曲情感发生变化,反复播放的副歌部分情感也出现更频繁、更深入人心。
情感标签定义可以为E={Esad,Emoving,Ehappy,Epassion,Eheroic}。其中,Esad表示伤感、孤独、寂寞、痛苦;Emoving表示舒缓、抒情、安静、治愈;Ehappy表示愉快、开心、甜蜜、浪漫;Epassion表示激情、兴奋、释放;Eheroic表示豪迈、励志、激昂、大气。
3.1.1情感标签五分类方法
本发明实施例中的情感划分为五类,即情感标签定义为E={Esad,Emoving,Ehappy,Epassion,Eheroic}。其中,Esad表示伤感、孤独、寂寞、痛苦;Emoving表示舒缓、抒情、安静、治愈;Ehappy表示愉快、开心、甜蜜、浪漫;Epassion表示激情、兴奋、释放;Eheroic表示豪迈、励志、激昂、大气。以上五类情感分类的获取方法包括以下步骤:(1)情感空间构建主观评价实验;(2)主成分分析(PCA)降维及可视化;(3)情感词K-means聚类;(4)情感词相关系数计算调整。
为合理构建中国流行音乐情感空间,首先筛选出一定量适合描述中国流行音乐情感的词汇,为中国流行音乐情感空间建立实验做准备。
具体实验步骤为:先收集并初步筛选音乐情感词汇。收集范围包括国内主流音乐软件情感分类词、Hevner情感环词汇、Thayer情感模型词汇、PAD情感模型词汇、MIREX情感模型词汇、专业音乐学家音乐情感对照单等,去除掉重复的词汇,收集词汇共139个,另外,在之后的主观评价实验中接受受试者补充的其他词汇。其中,被参考的国内主流音乐APP包括网易云音乐、酷我音乐、QQ音乐、酷狗音乐、虾米音乐等市场份额较大的音乐软件,其音乐内容以中国流行音乐为主,中国流行音乐在其曲库中有一定体量,而其中的情感分类描述词由APP运营人员通过对用户分析及数据支撑得出,因此十分有参考价值。其他情感模型词汇均采用认同度较高的翻译后的中文词汇。专业音乐学家音乐情感对照单包含300余词汇及其释义,由国家一级演奏家皆作曲家卞留念大师为视听技术与智能控制系统文化与旅游部重点实验室编撰,本实验收录了其中40个词汇。收集词汇及来源如表1所示。
表1:收集词汇及来源
之后,对词汇进行初步筛选,筛除不适合描述中国流行音乐情感的、语义引发歧义的、语义明显重复的词汇72个,删除词汇及删除该词汇的原因如下表2所示。
表2:筛除词汇及原因
再由受试者勾选中国流行音乐情感词。本实验汇集共17位受试者,其中男性受试者4位,女性受试者13位;音乐学专业受试者1位,声学实验室受试者1位,视听技术实验室受试者15位;20-30岁区间受试者15位,30-35岁区间受试者2位。
将筛选后66个词汇语义相近的归为一类,无近义词汇或少近义词汇的归为一类。
表3:实验词汇及语义分类
为避免极端情况,除最后一类,受试者需在每类中选择其认为适合描述中国流行音乐情感的词汇,选择数量占该类别总数的25%至75%。词汇共分为6类,具体如上表3。同时,受试者可补充其他词汇,并需填写其对中国流行音乐的喜好程度与听过中国流行音乐的种类丰富程度。
最后进行实验数据处理。对样本进行筛查,去除不符合实验要求的样本1例,该受试者选择词汇均超过3/4,去除后,剩余16例样本。计算各词汇被勾选的频次,得到结果如下表4所示。
表4:各情感词汇被选择频次
同时计算各样本与最终结果差异度,计算方法如公式所示
计算差异值发现被去除样本差异度最大,达26.449,有效样本中差异度最大达21.449,其余均在20以下。去除该样本后计算频次如下表5所示,可见和表3前31涵盖的词汇完全一致,主要差距集中在被选频次较少的词汇,包括恐怖、沉重、活泼等词汇,对最后选择词汇影响不大。
表5:去除部分样本后各情感词汇被选择频次
伤感 | 15 | 激情 | 10 | 慵懒 | 6 | 平静 | 4 | 激动 | 3 | 沉重 | 1 |
甜蜜 | 14 | 温暖 | 9 | 感动 | 6 | 安宁 | 4 | 昂扬 | 3 | 安详 | 1 |
孤独 | 11 | 快乐 | 9 | 清新 | 6 | 欢跳 | 4 | 崇高 | 3 | 欣喜 | 1 |
治愈 | 11 | 愉快 | 9 | 喜悦 | 6 | 宣泄 | 4 | 郁闷 | 2 | 暴躁 | 1 |
励志 | 11 | 忧郁 | 8 | 轻盈 | 6 | 肃穆 | 4 | 低落 | 2 | 威严 | 1 |
激昂 | 11 | 舒缓 | 8 | 惆怅 | 5 | 性感 | 4 | 颓废 | 2 | 幽默 | 1 |
豪迈 | 11 | 思念 | 8 | 安静 | 5 | 优雅 | 4 | 倦怠 | 2 | 恐惧 | 1 |
忧伤 | 10 | 浪漫 | 8 | 热情 | 5 | 愤怒 | 4 | 温柔 | 2 | 焦虑 | 1 |
寂寞 | 10 | 痛苦 | 7 | 滑稽 | 5 | 怪诞 | 4 | 狂欢 | 2 | 恐怖 | 1 |
压抑 | 10 | 轻松 | 7 | 哀愁 | 4 | 开心 | 3 | 紧张 | 2 | 严肃 | 0 |
抒情 | 10 | 兴奋 | 7 | 失落 | 4 | 活泼 | 3 | 忧虑 | 1 | 新奇 | 0 |
如以表5为准,选择词频50%及以上词汇,可获得20个词汇,按词频排序分别为伤感、甜蜜、治愈、励志、激昂、豪迈、忧伤、寂寞、孤独、抒情、激情、压抑、温暖、快乐、愉快、忧郁、舒缓、浪漫、压抑、思念。选择词频40%以上词汇,可获得25个词汇,在之前20个词汇基础上另有痛苦、慵懒、喜悦、兴奋、清新。选择词汇1/3以上词汇,可获得31个词汇,在之前25个词汇基础上另有惆怅、安静、感动、轻盈、热情、滑稽。
除以上词汇外,受试者还提出辽阔、燃烧、欢快、大气恢宏四个词汇,其中辽阔、燃烧、大气恢宏都有大气的含义,因此加上该词汇。
最终,选取26个词汇,即选择词频40%的词汇加上“大气”一词,词汇为:伤感、忧伤、忧郁、压抑、痛苦、孤独、寂寞、舒缓、慵懒、治愈、温暖、思念、抒情、愉快、快乐、喜悦、浪漫、清新、甜蜜、轻松、兴奋,豪迈、激昂、激情、励志、大气。
统计受试者对中国流行音乐的喜好程度(非常喜爱=7,非常不喜爱=1)和种类的丰富程度(非常丰富=7,非常不丰富=1),得出均值分别为5.25和4.375,中位数分别为5和4,均在中等偏上水平,可见受试者音乐素养可符合实验标准。
3.1.1.1情感空间构建主观评价实验
本发明实施例构建情感空间的思路是使用合适的维度,将相关性强的情感词汇进行集合,形成一个包含上述26个词汇,n维的情感模型。为判断情感词在描述音乐情感时的相关性,本文先进行一个主观评价试验。
主观评价试验的步骤如下:
1)数据库构建
首先选取72首音乐,该音乐库包含各种情感的中国流行音乐,其中有至少20首歌曲是情感归属不明确的,至少20首歌曲是情感归属十分明确的。该音乐库所有歌曲均从网易云音乐、酷狗音乐获取,格式均为mp3格式,采样率均为320bit/s。
由于在众多已有文献中,认为副歌部分可以较大可能性地表示整首歌曲的情感,同时,中国流行音乐的编曲理论也支持该观点。另外,本文的研究方法也是以音乐副歌部分情感作为整首歌的情感标签。同时,为了让实验顺利进行,避免过长的音乐播放影响受试者心情与实验体验,从而导致实验结果出现偏差。综合以上因素,本实验截取音乐一个完整的副歌片段作为数据样本。
将72个数据样本进行串联,经过多次实验,认为每两个数据样本间保留8秒间隔供受试者勾选情感词最为合理,既避免间隔时间过短导致受试者来不及感受与思考音乐情感,同时也避免间隔时间过长导致受试者在实验过程中无所事事导致厌烦与懈怠情绪。最终,将以上样本与间隔时间串联为共38分12秒唱的音乐段落,作为该主观评价实验的数据集。
本实验共有16名受试者,受试者被安排在专业的视听实验室进行实验室。实验前,向受试者详细介绍实验要求与注意事项,同时给受试者熟悉词汇与实验要求的时间,并播放一个音乐片段作为实验。特别强调的,由于本文研究仅围绕音乐特征展开,不考虑歌词的文本语义分析,因此在实验过程中,请受试者避免受到歌词干扰,选择与歌词而非与音乐匹配的情感。
实验过程中,受试者听音乐片段的同时,若认为该音乐片段包含26个情感描绘词中的某一种或某几种情感,则在该音乐对应的情感词后打勾。实验结束后对实验样本进行信度分析,无不符合要求的实验。
3.1.1.2主成分分析(PCA)降维及可视化
得到以上16个样本后,对样本进行均值计算,并把最终结果归一化至[0,1],便于后续处理。此时,得到一个26×72的矩阵。为选择该音乐情感模型的维数,首先对实验样本进行主成分分析。
PCA(Principal ComponentAnalysis),即主成分分析方法,是一种无监督学习算法,被广泛应用于数据降维、数据可视化等领域。基本思想是把n维特征通过最大化投影方差的方法映射到k维空间中,这k维即被称作主成分,是重新构造出的正交特征。
PCA的具体步骤为:
(1)输入原始数据集dataset;(2)按列计算数据集dataset的均值,并用每原数据集减均值;(3)计算协方差矩阵,求解协方差矩阵的特征值和特征向量;(4)将特征值从大到小排序,以其中最大的k个特征值对应的特征向量为列向量,组成特征向量矩阵W,即最佳投影空间;(5)将dataset投影到选取的特征向量上,得到降维后的数据集。
PCA的优点在于其在实现流程中不需要设置参数,且无需由经验模型干涉求解结果,结果只与数据有关,与实验者无关。其缺点在于,如果实验者事先就了解了数据的某些特征,具备一定的先验知识,却没法干涉求解过程,就有可能无法实现预期效果。考虑到PCA的局限性,后续将结合其他方法修正结果。
本实验使用PCA进行降维,同时记录使用不同维度进行情感模型构建时可保留的信息,结果如下表6。
表6:不同维度进行情感模型构建时可保留的信息
维数 | 保留信息(%) | 维数 | 保留信息(%) | 维数 | 保留信息(%) |
1 | 34.49 | 10 | 92.49 | 19 | 98.54 |
2 | 61.34 | 11 | 93.74 | 20 | 98.87 |
3 | 71.44 | 12 | 94.64 | 21 | 99.17 |
4 | 77.19 | 13 | 95.44 | 22 | 99.41 |
5 | 81.96 | 14 | 96.11 | 23 | 99.62 |
6 | 87.91 | 15 | 96.75 | 24 | 99.78 |
7 | 89.87 | 16 | 97.28 | 25 | 99.91 |
8 | 91.23 | 17 | 97.77 | 26 | 1 |
9 | 92.49 | 18 | 98.17 | / | / |
可见,随着维数的增加,保留的信息将逐渐增多。考虑该结果的实际使用场景,并与灯光师进行讨论,并不需要过高的维度去对音乐情感进行分类,在实际舞台灯光操控中考虑的情感一般在6种以内。另外,过高的维度一定程度上会影响音乐情感的标注与识别的准确率。结合实验结果,5维可保留80%以上的信息,6维可保留85%以上的信息,往后保留信息的增量则不再明显。本发明实施例最终决定保留5维情感空间。再将实验数据投射至二维空间,对情感形容词的分布进行可视化,图10所示。
沿用之前5维情感空间的结论,可见,可视化的数据可以比较清晰地分为5类,分别为第一类:伤感、忧伤、忧郁、压抑、痛苦、孤独、寂寞;第二类:舒缓、慵懒、治愈、温暖、思念、抒情;第三类:愉快、快乐、喜悦、浪漫、清新、甜蜜、轻松;第四类:兴奋;第五类:豪迈、激昂、激情、励志、大气。此时的分布结果只保留了61.34%的信息,有一定的信息遗失,因此通过其他算法对实验结果进行矫正。
3.1.1.3情感词K-means聚类
本章确定情感空间为5维后,通过聚类分析情感词的关联程度。聚类指在分类问题中通过学习自动找出其中规律并进行分类。在聚类中,由于具有出色的速度和良好的可扩展性,K-means聚类算法收到大量的青睐。本文使用的即K-means聚类算法。
K-means可以自动分配样本到不同的类,但无法决定划分为几个类。K-means的参数是类的重心位置和其内部观测值的位置,最优解以成本函数最小化为目标。K-means成本函数公式如式所示:
其中,μ为均值。K-means算法具体步骤为:(1)随机选取k个中心点;(2)将每个样本划分到最近的中心点;(3)计算每个类包含样本的位置平均值,并作为新的中心点;(4)重复步骤(2)(3),直到模型收敛。
对于K-means算法,k值的选取很重要。其简单易懂,易实现,收敛速度快,可扩展性高。其缺点在于无法适合的调节k值,对某些数据集收敛较难。使用K-means算法对以上26个词汇进行聚类,分别将k值设为4、5、6进行聚类,得出结果如下。
当k值为4时:第一类:伤感、忧郁、忧伤、寂寞、孤独、痛苦、压抑、抒情、思念;第二类:舒缓、轻松、慵懒、治愈、温暖、清新;第三类:快乐、愉快、喜悦、浪漫、甜蜜、兴奋;第四类:激情、励志、激昂、豪迈、大气。
当k值为5时:第一类:伤感、忧郁、忧伤、寂寞、孤独、痛苦、压抑、抒情、思念;第二类:轻松、慵懒、治愈、温暖、清新;第三类:快乐、愉快、喜悦、浪漫、甜蜜、兴奋;第四类:激情、励志、激昂、豪迈、大气;第五类:抒情、舒缓、思念。
当k值为6时:第一类:伤感、忧郁、忧伤、寂寞、孤独、痛苦、压抑;第二类:舒缓、慵懒、治愈、温暖;第三类:快乐、愉快、喜悦、浪漫、甜蜜、兴奋;第四类:激情、励志、激昂、豪迈、大气;第五类:轻松、清新;第六类:抒情。
当k值为4时,抒情、思念等词汇与明显有负面意义的痛苦、压抑等词划分一类,从描述词语义角度来看比较不合理。当k值为5时,抒情一类的三个形容词从音乐情感感受上,是一种在伤感与轻松之间的情感,伤感一类词汇的积极性偏低,而轻松一类词汇的的积极性偏高。当k值为6时,抒情一词被单独划出。
3.1.1.4情感词相关系数计算
除聚类方法外,可通过计算相关系数来判断各词汇间的关联性。
相关系数可反映变量间相关关系的密切程度,即线性关系的强度。常用的相关系数有皮尔逊积差,定义如下式所示:
其中,E是数学期望,cov表示协方差,可将该系数理解为协方差与其标准差的比值。由表达式可以看出,相关系数的值在-1至1之间。相关性越大,其相关系数则越接近1或-1。当变量相互独立时,其相关系数为0。
本发明实施例对归一化后26×72的矩阵的列向量进行相关系数计算,结果详见附录2。根据以上原理可知,相关系数越接近1,则说明两个词汇越相似,相关系数越接近-1,则说明两个词汇越相对。为构建情感模型,尽量将相关系数接近1的两个词汇划分为一类情感。
观察表中结果,通过反复尝试并根据词汇语义进行反向推导,将相关性大于0.5的词汇视为比较相关词汇,归纳总结出表格如表7。
表7:相关性较高词汇表
可见,结果基本与PCA可视化结果类似。特别地,观察兴奋一词,其与激情一次的相关系数为0.6638,相关性较高,与抒情一次的相关系数为-0.621,线性相关性也较高。同样的,与抒情一词相关系数趋近于-1的还有相关系数为-0.619的激情一次。对比其他数据,仍然可以看出激情一词语兴奋一词比较相似。因此,这里将激情一词与兴奋一词划分为一类。
结合以上,对原PCA可视化后的情感模型进行细节调整。最后得到中国流行音乐五类情感模型,情感模型包含五类情感词,每类的第一个情感词是对该类情感的概括,最终活得五类情感。
3.1.2音乐情感识别模块,模块流程图如图11所示。
(1)底层音乐特征提取:
该模块以标注为副歌的音乐片段作为输入,先提取该片段底层音乐特征。记音乐片段为X,音乐特征为feature。片段X的特征表示为,featurex={Energy,Zerocrossin g,Centroid,MFCC,LPCC}。
为使频谱更加平坦,先对音乐信号进行预加重。预加重方法为将转化为单声道后的WAV格式文件输入高通滤波器,滤波器如式X(z)=1-μz所示,其中μ为预加重系数,一般值的选取区间为0.9-1,本文选取0.935。为获得音乐短时特征,需再将音乐分为10ms-30ms片段,本文选择帧长为512采样点(约12ms),步长L为256采样点,该段中的参数设置有利于进一步提高音乐情感特征分析的效率和准确率。同时,为避免吉布斯效应,需在分帧过程中进行加窗操作,本发明实施例使用汉明窗,如下式所示:
Zerocrossing指短时过零率特征,第n帧音乐信号的短时过零率计算公式为:
式中,sgn[x(m)]是x(m)的符号函数。最后特征Zerocrossing为每帧能量的均值与方差。
MFCC指Mel倒谱系数特征,倒谱特征提取方法较为复杂。在音乐进行预处理后,先对信号进行短时傅里叶变换并求能量谱,设能量谱为Y(m),其计算方法为:
式中,F是帧的大小,w(n)是汉明窗函数。再定义M个三角滤波器作为Mel滤波器,计算每个滤波器的输出能量,计算方法为,式中,1≤k≤M,wk(m)与第k个Mel滤波器相关的三角形加权函数。最后对输出能量分别取对数,并做离散余弦变换,求出L个MFCC系数,系数计算方法为:
该操作中L取12。并求取12维一阶差分MFCC,最后特征MFCC和一阶差分MFCC的均值与方差。
LPCC指感知线性预测倒谱系数特征,对预处理后的音乐信号做傅里叶变换,计算短时功率谱p(w),p(w)=Re[X(w)]2+Im[X(w)]2。再将p(w)转换到易于人耳感知的Bark域,转换方法为,Ω(w)=6ln{w/1200π+[(w/1200π)2+1]0.5},式中,w是角频率,Ω(w)是Bark域频率,再将转换后功率谱与模拟临界带曲线Ψ(Ω)进行卷积,得到临界带功率谱,再利用等响曲线E(w)对Θ(Ωi)进行预加重,即Γ[Ω(w)]=E(w)Θ[Ω(w)]。然后对Θ(Ωi)做离散傅里叶逆变换,利用AR模型计算线性预测倒谱系数。该操作中L取12。并求取12维一阶差分LPCC,最后特征LPCC和一阶差分LPCC的均值与方差。
支持向量机训练
1)训练集底层特征提取:
对元数据库中的500首音乐片段标注情感标签并提取副歌部分,提取方法如前文音乐分段与结构标注模块所述。再对元数据库音乐进行预处理,预处理包括转化格式与转化单声道,具体操作与前文音乐分段模块中预处理方法一致。提取各副歌片段特征组成特征向量作为输入。
2)归一化
3)训练分类器并优化参数
通过SVM训练,并选取核函数RBF。使用PSO算法自动寻参,SVM中需要寻找优化的参数有c,gamma两个,使用PSO算法进行参数优化的具体操作流程如下:
a)初始化粒子参数。本发明实施例中进行3折交叉验证,粒子种群数s=10,学习因子c1=1.5,c2=1.7,最大迭代次数k=50,初始惯性权重ω1=0.9,最大迭代次数惯性权重ω2=0.2,需要调节的参数c的范围为[0.01,100],参数g的范围为[0.01,1000],该段中描述的迭代参数是发明人经过大量的实验得到,有利于提高情感音乐特征识别的准确率和效率。
b)评价每个粒子的适应度,将单个粒子位置和适应值存储于其Pbest,将所有Pbest中的最优个体位置和适应值存储于Gbest。
c)通过式vij(t+1)=ωvij(t)+c1r1[pij-xij(t)]+c2r2[pgj-xij(t)]更新粒子的速度,根据式xij(t+1)=xij(t)+vij(t+1),j=1,2,…,d更新粒子的位置,根据式w=wmax-t(wmax-wmin)/tmax更新惯性权重。
d)更新Pbest和Gbest的值。
e)当达到预设精度或迭代次数时,停止搜索。否则迭代次数加1,并重复c)和d)。
通过以上步骤训练得到中国流行音乐情感分类器model。这里的SVM中国流行音乐情感分类器是提前训练好的,只需训练一次,以后便可直接应用。
(2)识别音乐情感:
将得到的特征输入至预先训练好的SVM中国流行音乐情感分类器model,输出该歌曲的情感,为集合中的一种情感。根据以上算法计算得到识别出的情感,
(3)第三次更新数据包:将情感标签更新至音乐数据包emotion字段。
3.2音乐速度标注模块,该音乐速度标注模块实现了对待播放音乐片段进行速度标注处理
该模块主要计算分段后的各音乐片段速度,输出速度参数标签,作为与灯光闪烁频率、走灯频率的控制参量。速度识别方法为先计算自相关相位-熵序列,再进行速度估计,流程图如图12。
在一个实施例中,上述舞台灯光效果控制策略的预测方法,还可以包括:对每一段情感标注处理后的待播放音乐片段进行速度标注处理,使得每一段待播放音乐片段具有一速度特征标识;
因此在后续步骤中,根据每一段待播放音乐片段的结构特征标识和情感特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系,及预先存储的情感特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识和情感特征标识对应的灯光效果控制策略,可以包括:
根据每一段待播放音乐片段的结构特征标识、情感特征标识和速度特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系、预先存储的情感特征标识与灯光效果控制策略的关系、预先存储的速度特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识、情感特征标识和速度特征标识对应的灯光效果控制策略。
具体实施时,上述对待播放音乐片段进行速度标注处理的实施方式实现了音乐速度与灯光效果变化速度的匹配,进一步烘托舞台演出效果。
具体实施时,速度标注处理的详细过程如下:
(1)自相关熵序列计算
1)计算自相关相位矩阵
该模块先计算音乐片段的自相关相位矩阵A,
2)相位求和
再对自相关矩阵中每一个偏移点的所有不同相位求和,并求出熵序列H,
3)计算自相关熵序列
然后得到自相关相位-熵序列AH:
AH=Acf×H; (19)
其中Acf为降采样信号的自相关信号。
(2)速度估计
速度估计具体步骤为先对求得的自相关相位-熵序列加高斯窗,再求出加窗序列的最大峰值点所在的采样帧数m,最后估计出速度speed=60×1000/m(速度数值保存为0-200中的任意整数)。根据以上算法计算得到各片段速度值。
(3)第四次数据包更新:将该数据更新至音乐数据包对应片段的speed字段。
3.3音乐高音标注模块
该模块主要执行识别音乐最后一个副歌部分的高音片段及高音出现的起止时间,若副歌部分包含高音标注值为1的片段,则根据高音的起止时间点分割出高音片段,并输出分割后的音乐文件。具体实现流程如图13。
在一个实施例中,所述多段待播放音乐片段可以包括副歌片段;所述舞台灯光效果控制策略的预测方法还可以包括:
识别副歌片段中的高音片段;
对每一段高音片段进行高音标注处理,使得每一段高音片段具有一高音特征标识;
因此后续步骤中,根据每一段待播放音乐片段的结构特征标识和情感特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系,及预先存储的情感特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识和情感特征标识对应的灯光效果控制策略,可以包括:
根据每一段待播放音乐片段的结构特征标识、情感特征标识和高音特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系、预先存储的情感特征标识与灯光效果控制策略的关系、预先存储的高音特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识、情感特征标识和高音特征标识对应的灯光效果控制策略。
具体实施时,上述对待播放音乐片段进行高音标注处理的实施方式实现了音乐速度与灯光效果变化速度的匹配,进一步烘托舞台演出效果。
(1)基频计算
高音检测使用短时平均幅度差函数法波谷检测算法获得基频,判断音调高低。首先对经低通滤波后信号计算信号的平均幅度差函数,计算公式为:
对该函数进行谷值检测,计算谷值之间距离得到基音周期,求得单帧基音频率。
(2)音符音高计算
设一个音符由n帧组成,每帧的音高分别是P1,P2,...,Pn,则每一帧的权重定义为:
wi=1-cos(2π×i/(n+1)),1≤i≤n; (21)
累计具有相同音高的帧的权重,合计权重最大者为整个音符音高。
(3)对比高音阈值
当音符音高超过既定阈值,则记为高音,对应时间为高音点。参考声乐学原理,将歌唱中的High C调及以上作为高音,其物理频率为1046.4Hz,考虑到时频分析中分辨率较低引起的误差以及实际歌唱中的音准问题,将基频频率阈值定为990Hz,即副歌片段中基频频率高于990Hz可视为高音。
当出现连续高音时,将出现高音的起止区间视为高音片段。本专利先计算每0.05s的音高,对音高序列加窗分帧,每帧窗长为20,步长为6,物理意义为每0.3s截取一个1s的音高序列,当该序列中出现6个以上高音点,则取该帧为高音帧,将高音帧合并得到高音片段。
根据以上算法计算得到副歌部分的高音片段。
(4)第五次数据包更新
若该副歌片段不含高音片段,则音乐数据包中的pitch字段更新为0;若该副歌片段包含高音片段,则根据高音片段起止时间点对副歌片段进行再次分割,定义新的segment_data,根据原副歌起止时间点与高音片段起止时间点更新start_time、end_time字段,分割后的副歌高音片段pitch字段更新为1,副歌非高音片段pitch字段更新为0。非最后一个副歌部分的pitch字段仍为初始值null。
二、灯光效果匹配部分(环境灯光效果匹配推理模块)
环境灯光效果匹配推理部分分为音乐信息输入模块、推理匹配模块、环境光效果输出模块。整体流程如图14所示。
1、音乐信息输入模块,如图15所示。
该模块包括读取音乐数据包,解析数据包两部分。主要是提取音乐处理的结果,读取数据包,并通过音频特征解析模块获得该所需要的音乐输入信息。获得的信息包括情感、节奏、段落、爆点。情感信息包括悲伤、抒情、快乐、激情、豪迈;节奏信息包括非常快、快、非常慢、慢;段落信息包括前奏、主歌、过门、副歌、尾声;爆点信息是一段音乐中高音部分。本模块的方法是:
(1)读取音乐数据包:
主要是提取音乐处理的结果,读取数据包,数据包中包括情感、段落、起始时间、结束时间、速度、重音点、音高点。
(2)音乐特征解析模块
通过音频特征解析,获得该推荐系统所需要的音乐输入信息。将速度解析为节奏,以速度值0-49为非常慢,50-79为慢,80-109为快,110-140+为非常快。解析后的结果为情感、节奏、段落、爆点;并且用变量表示为:emotion、rhythm、paragraph、special。情感信息包括悲伤,抒情,快乐,激情,豪迈,并且用变量表示为:sad,lyrical,happy,excited,heroic;节奏信息包括非常快、快、非常慢、慢,并且用变量表示为:v-fast,fast,v-slow,slow;段落信息包括前奏、主歌、过门、副歌、尾声,并且用变量表示为:intro,verse,chorus,bridge,outro;爆点信息包括有爆点、无爆点,并且用变量表示为:special_yes、special_no。(以上解析出的各种状态均依据本发明实施例中音乐分段、特征与情感分析的模块)
具体为将数据包中的Name,Emotion,Segment_data[n,5](Struture,Start_time,End_time,Pitch,Speed)各个字段依次解析出具体数据,装载到灯光效果分析容器中,容器格式如下表8所示:
表8
Name | Emotion | Struture | Start_time | End_time | Pitch | Speed |
2、推理匹配模块
推理匹配模块首先存储有200条存储规则,这些规则存放在本发明实施例的音乐灯光关联规则库中,每条规则采用ifthen推理机制,即if为输入的音频特征条件,then为输出的灯光效果结果。推理规则如下:方法为:环境光效果输出模块;推理机制中包含环境光推理的所有推理规则;例如环境光推理规则:如果为快乐的歌、且为尾声、节奏慢、无爆点;则环境光位黄色,小幅度慢摇。推理规则建立的依据是灯光师的专家知识,形成知识规则库。推理过程中的输出划分为:
1)调光亮度:连续或离散;2)呼吸:亮度,亮度30-70,配合颜色,范围:整体,柔和的歌,会带一个基本颜色(dim),亮度30-70.主歌部分;3)频闪:异步频闪适用于连续的碎鼓点、同步频闪持续性长的高音;4)淡入淡出:灯光效果的淡入淡出;5)跑灯:灯光亮度的跑灯效果,速度依据于节奏特征确定跑灯速度是快中慢;6)慢摇:灯光摇动慢,灯具摇动的水平俯仰角值支持常见波形的变化,如按照正弦余弦、方波、锯齿波、抛物线、椭圆、锥形、三角、双曲线等,创新灯光效果的变换模式;7)快摇:灯光摇动快,灯具摇动的水平俯仰角值支持常见波形的变化,如按照正弦余弦、方波、锯齿波、抛物线、椭圆、锥形、三角、双曲线等,创新灯光效果的变换模式;8)颜色:常见65536中颜色可选;9)图案:电脑灯支持的图片任意选择;10)光束:棱镜开,棱镜开+自转;11)雾化:雾化效果的开闭。
以上输出效果与推理规则中输入关系的构建依据于对上百名流行音乐节目和普通音乐爱好者的调查综合获得的知识,具体表格如下表9:
表9
具体实施方法为:Step1:将装载入灯光效果分析容器的数据依次与200条存储规则中的if条件进行比对;Step2:依次比对后,判断获得与规则库中相同if条件了吗;Step3:若获得了,则读取该条规则的编号,并将该条规则then之后的效果数据发送给输出端,生成匹配的推荐效果;Step4:若未获得相同if条件,采用K-mean方法将容器中的存放条件与200条规则的if条件进行联合训练,从200条规则中获得距离容器中数据最近邻规则,将该条规则then之后的效果数据发送给输出端,生成匹配的推荐效果。其中,推理规则(上述预先存储的关系可以是这些规则)可以为:
如果为悲伤的歌、且为前奏、节奏快、有爆点;则爆点闪,蓝白色
如果为悲伤的歌、且为前奏、节奏快、无爆点;则蓝色,4棱镜快转
如果为悲伤的歌、且为前奏、节奏慢、有爆点;则慢摇,4棱镜,白色
如果为悲伤的歌、且为前奏、节奏慢、无爆点;则慢摇,淡入,蓝白色
如果为悲伤的歌、且为主歌、节奏快、有爆点;则爆点闪,白色
如果为悲伤的歌、且为主歌、节奏快、无爆点;则快跑灯,白色
如果为悲伤的歌、且为主歌、节奏慢、有爆点;则8棱镜慢转,紫色
如果为悲伤的歌、且为主歌、节奏慢、无爆点;则8棱镜慢转,白色
如果为悲伤的歌、且为副歌、节奏快、有爆点;则蓝色,4棱镜快转
如果为悲伤的歌、且为副歌、节奏快、无爆点;则蓝色,4棱镜,快跑灯
如果为悲伤的歌、且为副歌、节奏慢、有爆点;则蓝色,4棱镜慢转
如果为悲伤的歌、且为副歌、节奏慢、无爆点;则蓝白色,慢摇
如果为悲伤的歌、且为尾声、节奏快、有爆点;则紫色,4棱镜,淡出
如果为悲伤的歌、且为尾声、节奏快、无爆点;则紫色,淡出
如果为悲伤的歌、且为尾声、节奏慢、有爆点;则紫色,淡出
如果为悲伤的歌、且为尾声、节奏慢、无爆点;则紫蓝色,淡出
如果为抒情的歌、且为前奏、节奏快、有爆点;则蓝色光束
如果为抒情的歌、且为前奏、节奏快、无爆点;则蓝色,淡入
如果为抒情的歌、且为前奏、节奏慢、有爆点;则蓝色,慢摇,淡入
如果为抒情的歌、且为前奏、节奏慢、无爆点;则白色光束
如果为抒情的歌、且为主歌、节奏快、有爆点;则白色,爆点闪
如果为抒情的歌、且为主歌、节奏快、无爆点;则白色
如果为抒情的歌、且为主歌、节奏慢、有爆点;则蓝白色,慢跑灯
如果为抒情的歌、且为主歌、节奏慢、无爆点;则蓝白色,慢摇
如果为抒情的歌、且为副歌、节奏快、有爆点;则蓝白色,爆点闪
如果为抒情的歌、且为副歌、节奏快、无爆点;则蓝白色,8棱镜
如果为抒情的歌、且为副歌、节奏慢、有爆点;则蓝白色,12棱镜
如果为抒情的歌、且为副歌、节奏慢、无爆点;则白色,4棱镜,慢摇
如果为抒情的歌、且为尾声、节奏快、有爆点;则白色,4棱镜快转
如果为抒情的歌、且为尾声、节奏快、无爆点;则白色,4棱镜
如果为抒情的歌、且为尾声、节奏慢、有爆点;则白色,淡出
如果为抒情的歌、且为尾声、节奏慢、无爆点;则白色,淡出
如果为快乐的歌、且为前奏、节奏快、有爆点;则白色,频闪,淡入
如果为快乐的歌、且为前奏、节奏快、无爆点;则白色,4棱镜
如果为快乐的歌、且为前奏、节奏慢、有爆点;则白色,频闪
如果为快乐的歌、且为前奏、节奏慢、无爆点;则黄白色,小幅度慢摇
如果为快乐的歌、且为主歌、节奏快、有爆点;则黄色,爆点闪
如果为快乐的歌、且为主歌、节奏快、无爆点;则黄色,大幅度快摇
如果为快乐的歌、且为主歌、节奏慢、有爆点;则黄白色,慢跑灯
如果为快乐的歌、且为主歌、节奏慢、无爆点;则黄白色,小幅度慢摇
如果为快乐的歌、且为副歌、节奏快、有爆点;则黄色,红色,白色,频闪
如果为快乐的歌、且为副歌、节奏快、无爆点;则红色,白色,快跑灯
如果为快乐的歌、且为副歌、节奏慢、有爆点;则红白色,8棱镜慢转
如果为快乐的歌、且为副歌、节奏慢、无爆点;则红白色,大幅度慢摇
如果为快乐的歌、且为尾声、节奏快、有爆点;则蓝色,红色,快跑灯
如果为快乐的歌、且为尾声、节奏快、无爆点;则蓝色,红色,快摇
如果为快乐的歌、且为尾声、节奏慢、有爆点;则黄色,大幅度慢摇
如果为快乐的歌、且为尾声、节奏慢、无爆点;则黄色,小幅度慢摇
如果为激情的歌、且为前奏、节奏快、有爆点;则红色光束
如果为激情的歌、且为前奏、节奏快、无爆点;则红色,淡入
如果为激情的歌、且为前奏、节奏慢、有爆点;则红黄色,大幅度慢摇,淡入
如果为激情的歌、且为前奏、节奏慢、无爆点;则红白色光束
如果为激情的歌、且为主歌、节奏快、有爆点;则黄色,爆点闪
如果为激情的歌、且为主歌、节奏快、无爆点;则黄白色,快摇
如果为激情的歌、且为主歌、节奏慢、有爆点;则红白色,慢跑灯
如果为激情的歌、且为主歌、节奏慢、无爆点;则红白色,慢摇
如果为激情的歌、且为副歌、节奏快、有爆点;则黄白色,频闪
如果为激情的歌、且为副歌、节奏快、无爆点;则黄白色,8棱镜
如果为激情的歌、且为副歌、节奏慢、有爆点;则黄白色,12棱镜
如果为激情的歌、且为副歌、节奏慢、无爆点;则黄色,红色,4棱镜,慢摇
如果为激情的歌、且为尾声、节奏快、有爆点;则白色,4棱镜快转
如果为激情的歌、且为尾声、节奏快、无爆点;则黄白色,4棱镜
如果为激情的歌、且为尾声、节奏慢、有爆点;则黄白色,淡出
如果为激情的歌、且为尾声、节奏慢、无爆点;则红白色,淡出
如果为豪迈的歌、且为前奏、节奏快、有爆点;则金黄色光束
如果为豪迈的歌、且为前奏、节奏快、无爆点;则金黄色,淡入
如果为豪迈的歌、且为前奏、节奏慢、有爆点;则金黄色,慢摇,淡入
如果为豪迈的歌、且为前奏、节奏慢、无爆点;则黄色,慢摇
如果为豪迈的歌、且为主歌、节奏快、有爆点;则黄色,频闪
如果为豪迈的歌、且为主歌、节奏快、无爆点;则黄白色,快摇
如果为豪迈的歌、且为主歌、节奏慢、有爆点;则金黄色,慢跑灯
如果为豪迈的歌、且为主歌、节奏慢、无爆点;则金黄色,慢摇
如果为豪迈的歌、且为副歌、节奏快、有爆点;则黄白色,频闪
如果为豪迈的歌、且为副歌、节奏快、无爆点;则金黄色,黄白色,8棱镜
如果为豪迈的歌、且为副歌、节奏慢、有爆点;则黄白色,12棱镜
如果为豪迈的歌、且为副歌、节奏慢、无爆点;则金黄色,4棱镜,慢摇
如果为豪迈的歌、且为尾声、节奏快、有爆点;则黄色,4棱镜快转
如果为豪迈的歌、且为尾声、节奏快、无爆点;则黄白色,快跑灯
如果为豪迈的歌、且为尾声、节奏慢、有爆点;则黄白色,淡出
如果为豪迈的歌、且为尾声、节奏慢、无爆点;则金黄色,淡出
数据处理与输出:
该模块将推理机制后出来的结果通过USB-DMX线,并调用Sendchannels函数将对应的灯光效果指令传输到电脑灯上;也支持以灯光效果匹配方案的形式,将选择的匹配规则输出给灯光师,方便其优选。下面再举一例子,便于理解本发明如何实施。
音乐分段与结构标注部分用例(煎熬.mp3)。
1.音乐预处理模块
具体步骤:(1)输入音乐“煎熬.mp3”。(2)读取音乐文件名、音乐信号矩阵、采样率和采样位数信息:音乐文件名filename=’煎熬.mp3’,音乐信号矩阵为X,采样率Fs=44100,采样位数N=11560136。(3)初始化音乐数据包的数据M_data:
M_data{Name=’煎熬’,Emotion=null,Segment_data(1):[Struture=null,Start_time=null,End_time=null,Pitch=null,Speed=null]}。
(4)通过文件名filename后三位识别音乐格式为MP3,直接将音乐转换为WAV格式。(5)通过音乐信号X的列数识别音乐为双声道,将两路单声道矩阵变量进行合并与归一化处理,合成为一路声道矩阵变量Y。(6)保存经过处理的音乐为“煎熬.wav”,输出音乐流(包括音乐信号矩阵X(y),采样率Fs和采样位数N)以及音乐数据包的数据M_data。
2.音乐分段与结构标注模块
2.1音乐分段部分
具体步骤:(1)输入音乐信号矩阵Y和采样率Fs以及音乐数据包的数据M_data。
(2)提取基于节拍的PCP特征:
1)节拍识别,计算节拍的时间位置信息T。
2)提取PCP特征。
PCP(p)=∑k:p(k)-p|Y(K)|2p=1,2,,…12。
3)根据节拍跟踪得到的节拍点T计算每个节拍间隔内PCP的平均值作为基于节拍的PCP特征:
其中M表示每个节拍内的帧数。
4)输出基于节拍的PCP特征向量序列PCP。
(3)基于直方图聚类的音乐分段
1)相似特征单元聚类:
a)输入特征向量序列PCP作为聚类样本。b)随机选择55个样本作为初始聚类中心。c)在第k次迭代中,对任意一个样本,求其到55个中心的欧式距离,将该样本归到距离最短的中心所在的类。d)利用均值方法更新该类的中心值。e)对于所有的聚类中心,如果利用c)、d)的迭代法更新后,值保持不变(目标函数收敛),则迭代结束,否则继续迭代。f)输出聚类结果,即对应每个特征向量的类别标签序列C。
2)初步分段(直方图聚类):
a)对类别标签序列C进行加窗,窗长为18,窗移为10,统计窗内各类别标签的数量,形成每个窗的类别分布矩阵Cwin。b)输入Cwin作为聚类样本。c)神经网络初始化:权值使用较小的随机值进行初始化,并对输入样本和权值做归一化处理。d)计算样本与权值向量的欧式距离,距离最小的神经元赢得竞争记为获胜神经元。e)对获胜的神经元拓扑邻域内的神经元进行更新,并对学习后的权值重新归一化。f)更新学习速率及拓扑邻域。g)判断是否收敛。如果达到预设的迭代次数600,则迭代结束,否则继续迭代。h)输出聚类结果,即对应每个类别分布的类别标签序列Czft。
3)边界调整(合并短小片段):
a)计算Czft中每一类别变化点的时间tk=(19,24,28,33,54,56,62,87,90,93,131,135,143,149,176,178,236,237,256,259),通过tk+1-tk计算出每一相同类别片段时间长tl。b)若t1小于时间阈值t=6.7s,则分别计算该类别片段与其前一片段以及后一片段的欧氏距离,将该片段的类别合并到计算出的欧氏距离较小的类别片段中。c)重复b)至序列中相同类别片段的时间长tl均大于时间阈值t。d)计算合并短小片段后的类别标签序列Czft中每一类别变化点的时间tk作为分段节点形成分段点序列T=(0,33,62,93,135,149,178,237,259)。
(4)第一次音乐数据包数据更新:
更新音乐数据包M_data的Segment_data字段中第n行Start_time值为tn-1,End_time值为tn。
M_data{Name=’煎熬’,Emotion=null,
Segment_data(1):[Struture=null,Start_time=0,End_time=33,Pitch=null,Speed=null],
Segment_data(2):[Struture=null,Start_time=33,End_time=62,Pitch=null,Speed=null],
Segment_data(3):[Struture=null,Start_time=62,End_time=93,Pitch=null,Speed=null],
Segment_data(4):[Struture=null,Start_time=93,End_time=135,Pitch=null,Speed=null],
Segment_data(5):[Struture=null,Start_time=135,End_time=149,Pitch=null,Speed=null],
Segment_data(6):[Struture=null,Start_time=149,End_time=178,Pitch=null,Speed=null],
Segment_data(7):[Struture=null,Start_time=178,End_time=237,Pitch=null,Speed=null],
Segment_data(8):[Struture=null,Start_time=237,End_time=259,Pitch=null,Speed=null]}。
2.2音乐结构标注部分
具体步骤:(1)输入音乐信号矩阵Y和采样率Fs以及音乐数据包的数据M_data。(2)根据音乐数据包M_data的Segment_data字段中第N行的Start_time和End_time将音乐信号矩阵Y截取为8个音乐片段[Y1,Y2,…,Y8]。(3)提取每一个音乐片段的MFCC特征和平均过零率特征:
1)输入音乐片段YN。2)求出12维MFCC系数: 3)对c[n]做一阶差分处理,与c[n]合并得到24维特征矩阵,最后求均值与方差得到48维特征向量MFCCN。4)提取第n帧音乐信号的短时过零率:sgn[x(m)]是x(m)的符号函数。5)Zn求均值与方差得到2维特征向量ZN。6)判断N是否等于8,若是则结束循环,否则继续步骤a)至e)。7)最后将8个特征向量[MFCCNZN]合并得到8行50列的音乐片段特征向量矩阵[MFCCZ]输出。
(4)基于SVM分类的音乐结构标注:
1)演奏部分和演唱部分的分类:将8个音乐片段的特征向量矩阵[MFCCZ]输入分类模型M1;b)经过模型预测,得到分类标签L1=(0,1,1,1,0,1,1,0)。其中演奏部分标签为0,演唱部分标签为1。2)主歌部分和副歌部分的分类:将分类标签L1中值为1的音乐片段特征向量输入分类模型M2。b)经过模型预测,得到分类标签L2=(2,2,3,2,3)。其中主歌部分标签为2,副歌部分标签为3。3)标注前奏、过渡、尾声:将分类标签L1中值为1的音乐片段按位置得到演奏部分片段的分类标签L3=(1,4,5)。其中前奏标签为1,过渡标签为4,尾声标签为5。4)按照时间顺序合并分类标签L1、L2、L3成为最终结构标注结果L=(1,2,2,3,4,2,3,5)。(5)第二次音乐数据包数据更新以及第一次音乐分段:按照L的值更新音乐数据包M_data的Segment_data字段中第n行Structure的值。其中L=1时,Structure=’前奏’,L=2时,Structure=’主歌’,L=3时,Structure=’副歌’,L=4时,Structure=’过渡’,L=5时,Structure=’尾声’。
M_data{Name=’煎熬’,Emotion=null,
Segment_data(1):[Struture=’前奏’,Start_time=0,End_time=33,Pitch=null,Speed=null],
Segment_data(2):[Struture=’主歌’,Start_time=33,End_time=62,Pitch=null,Speed=null],
Segment_data(3):[Struture=’主歌’,Start_time=62,End_time=93,Pitch=null,Speed=null],
Segment_data(4):[Struture=’副歌’,Start_time=93,End_time=135,Pitch=null,Speed=null],
Segment_data(5):[Struture=’过渡’,Start_time=135,End_time=149,Pitch=null,Speed=null],
Segment_data(6):[Struture=’主歌’,Start_time=149,End_time=178,Pitch=null,Speed=null],
Segment_data(7):[Struture=’副歌’,Start_time=178,End_time=237,Pitch=null,Speed=null],
Segment_data(8):[Struture=’尾声’,Start_time=237,End_time=259,Pitch=null,Speed=null]}
将8个音乐片段[Y1,Y2,…,Y8]保存为8个WAV格式音乐文件(如图16):
3.1音乐情感标注模块
具体步骤:(1)输入第一个副歌片段音乐信号矩阵x和采样率fs;
(2)提取音乐底层特征:
1)对x进行预加重、分帧、加窗操作,分帧帧长为512采样点,步长为256采样点;2)提取每帧短时能量并求均值与方差,记为特征Energy;3)提取每帧短时过零率并求均值与方差,记为特征Zerocrossing;4)提取每帧Mel倒谱系数并求均值与方差,记为特征MFCC;5)提取每帧线性感知预测系数并求均值与方差,记为特征LPCC;6)将以上特征合并为featurex={Energy,Z erocrossin g,Centroid,MFCC,LPCC}。
(3)将特征向量与训练集数据进行归一化,并输入中国流行音乐情感分类器model(事先以通过SVM训练完成,并使用PSO算法调整参数完成的分类模型)进行预测,输出该片段预测音乐情感为伤感类。
(4)音乐数据包第三次更新,将emotion字段更新为伤感:
M_data
{Name=’煎熬’,Emotion=’伤感’,
Segment_data(1):[Struture=’前奏’,Start_time=0,End_time=33,Pitch=null,Speed=null],
Segment_data(2):[Struture=’主歌’,Start_time=33,End_time=62,Pitch=null,Speed=null],
Segment_data(3):[Struture=’主歌’,Start_time=62,End_time=93,Pitch=null,Speed=null],
Segment_data(4):[Struture=’副歌’,Start_time=93,End_time=135,Pitch=null,Speed=null],
Segment_data(5):[Struture=’过渡’,Start_time=135,End_time=149,Pitch=null,Speed=null],
Segment_data(6):[Struture=’主歌’,Start_time=149,End_time=178,Pitch=null,Speed=null],
Segment_data(7):[Struture=’副歌’,Start_time=178,End_time=237,Pitch=null,Speed=null],
Segment_data(8):[Struture=’尾声’,Start_time=237,End_time=259,Pitch=null,Speed=null]}
3.2音乐速度标注模块
具体步骤:(1)输入各片段的音乐信号矩阵xn和采样率fs;(2)自相关熵序列计算:计算音乐片段xn的自相关相位矩阵;再对自相关矩阵中每一个偏移点的所有不同相位求和,并求出熵序列;计算自相关熵序列,得到自相关相位-熵序列AH;(3)速度估计估计个音乐片段速度并取整为70BPM。(4)第四次更新音乐数据包:
M_data
{Name=’煎熬’,Emotion=’伤感’,
Segment_data(1):[Struture=’前奏’,Start_time=0,End_time=33,Pitch=null,Speed=70],
Segment_data(2):[Struture=’主歌’,Start_time=33,End_time=62,Pitch=null,Speed=70],
Segment_data(3):[Struture=’主歌’,Start_time=62,End_time=93,Pitch=null,Speed=70],
Segment_data(4):[Struture=’副歌’,Start_time=93,End_time=135,Pitch=null,Speed=70],
Segment_data(5):[Struture=’过渡’,Start_time=135,End_time=149,Pitch=null,Speed=70],
Segment_data(6):[Struture=’主歌’,Start_time=149,End_time=178,Pitch=null,Speed=70],
Segment_data(7):[Struture=’副歌’,Start_time=178,End_time=237,Pitch=null,Speed=70],
Segment_data(8):[Struture=’尾声’,Start_time=237,End_time=259,Pitch=null,Speed=70]}
3.3音乐高音标注模块
具体步骤:(1)输入最后一个副歌片段音乐信号矩阵xlast和采样率fs;(2)基频计算:对信号矩阵xlast分帧,取每256采样点为一帧,计算各帧基频;(3)音符音高计算:记每8帧为一个音符,即约0.05s为一音符,累计具有相同音高的帧的权重,合计权重最大者为整个音符音高。(4)对比音高阈值:将高于990Hz的音符视为高音。当出现连续高音时,将出现高音的起止区间视为高音片段。对音高序列加窗分帧,每帧窗长为20,步长为6,物理意义为每0.3s截取一个1s的音高序列,当该序列中出现6个以上高音点,则取该帧为高音帧,将高音帧合并得到高音片段。《煎熬》最后一个副歌部分包含的高音片段为该副歌部分的0.6-23.5s部分。(5)第五次音乐数据包更新:对该副歌音乐文件再次进行分割,分为0-0.6s部分、0.6-23.5s部分与23.5-59s部分,并对文件分别命名为《煎熬_07_3_1.wav》、《煎熬_07_3_2.wav》和《煎熬_07_3_3.wav》,第一个部分为非高音片段,音乐高音特征字段标注为0,第二个部分为高音片段,音乐高音特征字段标注为1,第三个部分为非高音片段,音乐高音特征字段标注为0。原本的Segment_data(7)分割为Segment_data(7)、Segment_data(8)与Segment_data(9)三个数组,start_time与end_time字段更新,Pitch字段更新。原本的Segment_data(8)顺延为Segment_data(10)。
M_data
{Name=’煎熬’,Emotion=’伤感’,
Segment_data(1):[Struture=’前奏’,Start_time=0,End_time=33,Pitch=null,Speed=70],
Segment_data(2):[Struture=’主歌’,Start_time=33,End_time=62,Pitch=null,Speed=70],
Segment_data(3):[Struture=’主歌’,Start_time=62,End_time=93,Pitch=null,Speed=70],
Segment_data(4):[Struture=’副歌’,Start_time=93,End_time=135,Pitch=null,Speed=70],
Segment_data(5):[Struture=’过渡’,Start_time=135,End_time=149,Pitch=null,Speed=70],
Segment_data(6):[Struture=’主歌’,Start_time=149,End_time=178,Pitch=null,Speed=70],
Segment_data(7):[Struture=’副歌’,Start_time=178,End_time=178.6,Pitch=0,Speed=70],
Segment_data(8):[Struture=’副歌’,Start_time=178.6,End_time=201.5,Pitch=1,Speed=70],
Segment_data(9):[Struture=’副歌’,Start_time=201.5,End_time=237,Pitch=0,Speed=70],
Segment_data(10):[Struture=’尾声’,Start_time=237,End_time=259,Pitch=null,Speed=70]}
灯光部分实施例:在一个长为20米,宽为20米,高为20米的矩形舞台即X=20,Y=20,Z=20,且一共有50盏灯具的舞台,灯具都为电脑灯,且型号都为标准16通道模式的PR-2352,灯具的摆放如图17所示。当读取《煎熬》时的推理如下:
首先第一段是前奏,情感为悲伤,速度为70,无高音,则运行”Ifthe music is sadand intro and slow and no then slow_shake and in and the colour is blue andpurple.”则(then)第一组1-8号灯输出颜色蓝色(colour=blue);第二组1、3、5号灯输出颜色紫色、P轴sin形式慢摇;第三组1、3、5号灯输出颜色紫色、P轴sin形式慢摇;
第二段是主歌,情感为悲伤,速度为70,无高音,则运行”Ifthe music is sad andverse and slow and no then 16p and in and the colour is purple.”则(then)第二组1、3、5号灯输出颜色紫色、16棱镜;第三组1、3、5号灯输出颜色紫色、16棱镜;
第三段是副歌,情感为悲伤,速度为70,无高音,则运行”Ifthe music is sad andchorus and slow and no then slow_shake and the colour is blue and white.”则(then)第一组1.3.5号灯输出颜色蓝色,T轴sin形式慢摇;第二组1、3、5号灯输出颜色白色、2、4、6输出蓝色;第三组1、3、5号灯输出颜色白色、2、4、6输出蓝色。
基于同一发明构思,本发明实施例中还提供了一种舞台灯光效果控制策略的预测装置,如下面的实施例所述。由于舞台灯光效果控制策略的预测装置解决问题的原理与舞台灯光效果控制策略的预测方法相似,因此舞台灯光效果控制策略的预测装置的实施可以参见舞台灯光效果控制策略的预测方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图18是本发明实施例中舞台灯光效果控制策略的预测装置的结构示意图,如图18所示,该预测装置包括:
分段处理单元01,用于将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段;
结构标注处理单元03,用于对每一段待播放音乐片段进行结构标注处理,使得每一段待播放音乐片段具有一结构特征标识;
情感标注处理单元05,用于对每一段结构标注处理后的待播放音乐片段进行情感标注处理,使得每一段待播放音乐片段具有一情感特征标识;
预测单元07,用于根据每一段待播放音乐片段的结构特征标识和情感特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系,及预先存储的情感特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识和情感特征标识对应的灯光效果控制策略;所述灯光效果控制策略为在所述待播放音乐播放的过程中,控制舞台灯具工作以呈现灯光效果的依据。
在一个实施例中,上述舞台灯光效果控制策略的预测装置还可以包括:速度标注处理单元,用于对每一段情感标注处理后的待播放音乐片段进行速度标注处理,使得每一段待播放音乐片段具有一速度特征标识;
所述预测单元具体可以用于:根据每一段待播放音乐片段的结构特征标识、情感特征标识和速度特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系、预先存储的情感特征标识与灯光效果控制策略的关系、预先存储的速度特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识、情感特征标识和速度特征标识对应的灯光效果控制策略。
在一个实施例中,所述多段待播放音乐片段可以包括副歌片段;所述舞台灯具控制装置还可以包括:
识别单元,用于识别副歌片段中的高音片段;
高音标注处理单元,用于对每一段高音片段进行高音标注处理,使得每一段高音片段具有一高音特征标识;
所述预测单元具体可以用于:根据每一段待播放音乐片段的结构特征标识、情感特征标识和高音特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系、预先存储的情感特征标识与灯光效果控制策略的关系、预先存储的高音特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识、情感特征标识和高音特征标识对应的灯光效果控制策略。
在一个实施例中,上述舞台灯光效果控制策略的预测装置还可以包括:预处理单元,用于对待播放音乐文件进行预处理,得到预处理后的待播放音乐文件;
所述分段处理单元具体可以用于:将预处理后的待播放音乐文件进行时间分段处理,得到多段待播放音乐片段。
在一个实施例中,所述分段处理单元具体可以用于:
对待播放音乐文件节拍识别,提取基于节拍的十二维音级轮廓特征PCP特征;
根据基于节拍的十二维PCP特征,采用基于直方图聚类的音乐分段方法,得到音乐分段点;
根据音乐分段点,将待播放音乐文件分为多段待播放音乐片段,更新音乐文件中的音乐片段起始时间与截止时间信息。
在一个实施例中,所述结构标注处理单元具体可以用于:
根据音乐分段点截取待播放音乐片段;
提取每一段待播放音乐片段的MFCC与平均过零率特征;
根据每一段待播放音乐片段的MFCC与平均过零率特征,基于支持向量机SVM分类的音乐结构标注方法,为每一段待播放音乐片段标注结构特征标识;
更新待播放音乐文件中的待播放音乐片段的结构特征标识。
在一个实施例中,根据每一段待播放音乐片段的MFCC与平均过零率特征,基于支持向量机SVM分类的音乐结构标注方法,为每一段待播放音乐片段标注结构特征标识,可以包括:
将每一段待播放音乐片段的MFCC与平均过零率特征输入利用SVM预先训练好的第一分类模型,得到每一段待播放音乐片段的第一SVM分类预测结果;所述第一SVM分类预测结果包括演奏音乐片段和演唱音乐片段;
将演唱音乐片段的MFCC与平均过零率特征输入利用SVM预先训练好的第二分类模型,得到每一段演唱音乐片段的第二SVM分类预测结果;所述第二SVM分类预测结果包括主歌音乐片段和副歌音乐片段;
将演奏音乐片段的MFCC与平均过零率特征输入利用SVM预先训练好的第三分类模型,得到每一段演奏音乐片段的第三SVM分类预测结果;所述第三SVM分类预测结果包括前奏音乐片段、过渡音乐片段和尾声音乐片段;
根据第一SVM分类预测结果、第二SVM分类预测结果和第三SVM分类预测结果,为每一段待播放音乐片段标注结构特征标识。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述舞台灯光效果控制策略的预测方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述舞台灯光效果控制策略的预测方法的计算机程序。
本发明实施例提供的技术方案的有益技术效果是:实现了自动高效地基于音乐情感的灯光效果增效,降低了灯光师的工作量以及舞台灯光效果处理的成本,提高了舞台灯光效果处理的效率和准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种舞台灯光效果控制策略的预测方法,其特征在于,包括:
将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段;
对每一段待播放音乐片段进行结构标注处理,使得每一段待播放音乐片段具有一结构特征标识;
对每一段结构标注处理后的待播放音乐片段进行情感标注处理,使得每一段待播放音乐片段具有一情感特征标识;
根据每一段待播放音乐片段的结构特征标识和情感特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系,及预先存储的情感特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识和情感特征标识对应的灯光效果控制策略;所述灯光效果控制策略为在所述待播放音乐播放的过程中,控制舞台灯具工作以呈现灯光效果的依据。
2.如权利要求1所述的舞台灯光效果控制策略的预测方法,其特征在于,还包括:对每一段情感标注处理后的待播放音乐片段进行速度标注处理,使得每一段待播放音乐片段具有一速度特征标识;
根据每一段待播放音乐片段的结构特征标识和情感特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系,及预先存储的情感特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识和情感特征标识对应的灯光效果控制策略,包括:
根据每一段待播放音乐片段的结构特征标识、情感特征标识和速度特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系、预先存储的情感特征标识与灯光效果控制策略的关系、预先存储的速度特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识、情感特征标识和速度特征标识对应的灯光效果控制策略。
3.如权利要求1所述的舞台灯光效果控制策略的预测方法,其特征在于,所述多段待播放音乐片段包括副歌片段;所述舞台灯光效果控制策略的预测方法还包括:
识别所述副歌片段中的高音片段;
对每一段高音片段进行高音标注处理,使得每一段高音片段具有一高音特征标识;
根据每一段待播放音乐片段的结构特征标识和情感特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系,及预先存储的情感特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识和情感特征标识对应的灯光效果控制策略,包括:
根据每一段待播放音乐片段的结构特征标识、情感特征标识和高音特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系、预先存储的情感特征标识与灯光效果控制策略的关系、预先存储的高音特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识、情感特征标识和高音特征标识对应的灯光效果控制策略。
4.如权利要求1所述的舞台灯光效果控制策略的预测方法,其特征在于,还包括:对待播放音乐文件进行预处理,得到预处理后的待播放音乐文件;
将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段,包括:将预处理后的待播放音乐文件进行时间分段处理,得到多段待播放音乐片段。
5.如权利要求1所述的舞台灯光效果控制策略的预测方法,其特征在于,将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段,包括:
对待播放音乐文件进行节拍识别,提取基于节拍的十二维音级轮廓特征PCP特征;
根据基于节拍的十二维PCP特征,采用基于直方图聚类的音乐分段方法,得到音乐分段点;
根据音乐分段点,将待播放音乐文件分为多段待播放音乐片段,更新音乐文件中音乐片段的起始时间与截止时间信息。
6.如权利要求1所述的舞台灯光效果控制策略的预测方法,其特征在于,对每一段待播放音乐片段进行结构标注处理,使得每一段待播放音乐片段具有一结构特征标识,包括:
根据音乐分段点截取待播放音乐片段;
提取每一段待播放音乐片段的梅尔频率倒谱系数MFCC与平均过零率特征;
根据每一段待播放音乐片段的MFCC与平均过零率特征,基于支持向量机SVM分类的音乐结构标注方法,为每一段待播放音乐片段标注结构特征标识;
更新待播放音乐文件中的待播放音乐片段的结构特征标识。
7.如权利要求6所述的舞台灯光效果控制策略的预测方法,其特征在于,根据每一段待播放音乐片段的MFCC与平均过零率特征,基于支持向量机SVM分类的音乐结构标注方法,为每一段待播放音乐片段标注结构特征标识,包括:
将每一段待播放音乐片段的MFCC与平均过零率特征输入利用SVM预先训练好的第一分类模型,得到每一段待播放音乐片段的第一SVM分类预测结果;所述第一SVM分类预测结果包括演奏音乐片段和演唱音乐片段;
将演唱音乐片段的MFCC与平均过零率特征输入利用SVM预先训练好的第二分类模型,得到每一段演唱音乐片段的第二SVM分类预测结果;所述第二SVM分类预测结果包括主歌音乐片段和副歌音乐片段;
将演奏音乐片段的MFCC与平均过零率特征输入利用SVM预先训练好的第三分类模型,得到每一段演奏音乐片段的第三SVM分类预测结果;所述第三SVM分类预测结果包括前奏音乐片段、过渡音乐片段和尾声音乐片段;
根据第一SVM分类预测结果、第二SVM分类预测结果和第三SVM分类预测结果,为每一段待播放音乐片段标注结构特征标识。
8.一种舞台灯光效果控制策略的预测装置,其特征在于,包括:
分段处理单元,用于将待播放音乐文件进行时间分段处理,得到多段待播放音乐片段;
结构标注处理单元,用于对每一段待播放音乐片段进行结构标注处理,使得每一段待播放音乐片段具有一结构特征标识;
情感标注处理单元,用于对每一段结构标注处理后的待播放音乐片段进行情感标注处理,使得每一段待播放音乐片段具有一情感特征标识;
预测单元,用于根据每一段待播放音乐片段的结构特征标识和情感特征标识,以及预先存储的结构特征标识与灯光效果控制策略的关系,及预先存储的情感特征标识与灯光效果控制策略的关系,预测与每一段待播放音乐片段的结构特征标识和情感特征标识对应的灯光效果控制策略;所述灯光效果控制策略为在所述待播放音乐播放的过程中,控制舞台灯具工作以呈现灯光效果的依据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7任一所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010380443.3A CN111601433B (zh) | 2020-05-08 | 2020-05-08 | 舞台灯光效果控制策略的预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010380443.3A CN111601433B (zh) | 2020-05-08 | 2020-05-08 | 舞台灯光效果控制策略的预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111601433A true CN111601433A (zh) | 2020-08-28 |
CN111601433B CN111601433B (zh) | 2022-10-18 |
Family
ID=72191048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010380443.3A Active CN111601433B (zh) | 2020-05-08 | 2020-05-08 | 舞台灯光效果控制策略的预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111601433B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112727704A (zh) * | 2020-12-15 | 2021-04-30 | 北京天泽智云科技有限公司 | 一种叶片前缘腐蚀的监测方法及系统 |
CN114927143A (zh) * | 2022-04-21 | 2022-08-19 | 厦门大学 | 一种基于深度学习的舞美效果自动生成方法及系统 |
CN115049814A (zh) * | 2022-08-15 | 2022-09-13 | 聊城市飓风工业设计有限公司 | 采用神经网络模型的护眼灯智能调节方法 |
CN116234127A (zh) * | 2023-05-05 | 2023-06-06 | 深圳市博视系统集成有限公司 | 一种基于z-wave的KTV灯光控制方法 |
CN116312636A (zh) * | 2023-03-21 | 2023-06-23 | 广州资云科技有限公司 | 电音基调分析方法、装置、计算机设备和存储介质 |
CN116528438A (zh) * | 2023-04-28 | 2023-08-01 | 广州力铭光电科技有限公司 | 一种灯具的智能调光方法和装置 |
CN116734220A (zh) * | 2023-08-11 | 2023-09-12 | 广州市升龙灯光设备有限公司 | 一种舞台灯校准方法及系统 |
CN118175705A (zh) * | 2024-05-07 | 2024-06-11 | 广州市锐丰文化传播有限公司 | 一种基于声音变化的舞台灯光智能控制方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050078840A1 (en) * | 2003-08-25 | 2005-04-14 | Riedl Steven E. | Methods and systems for determining audio loudness levels in programming |
EP1666967A1 (en) * | 2004-12-03 | 2006-06-07 | Magix AG | System and method of creating an emotional controlled soundtrack |
JP2006337914A (ja) * | 2005-06-06 | 2006-12-14 | Kddi Corp | 楽曲リミックス可能な音楽再生装置ならびに楽曲リミックス方法およびプログラム |
WO2006132596A1 (en) * | 2005-06-07 | 2006-12-14 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio clip classification |
CN103714806A (zh) * | 2014-01-07 | 2014-04-09 | 天津大学 | 一种结合svm和增强型pcp特征的和弦识别方法 |
CN106128479A (zh) * | 2016-06-30 | 2016-11-16 | 福建星网视易信息系统有限公司 | 一种演唱情感识别方法及装置 |
CN107220281A (zh) * | 2017-04-19 | 2017-09-29 | 北京协同创新研究院 | 一种音乐分类方法及装置 |
CN107464572A (zh) * | 2017-08-16 | 2017-12-12 | 重庆科技学院 | 多模式交互音乐感知系统及其控制方法 |
CN107580399A (zh) * | 2017-09-22 | 2018-01-12 | 上海韵焰智能科技有限公司 | 灯光控制方法及装置 |
CN108305604A (zh) * | 2018-01-30 | 2018-07-20 | 浙江省公众信息产业有限公司 | 音乐可视化方法、装置及计算机可读存储介质 |
CN108648767A (zh) * | 2018-04-08 | 2018-10-12 | 中国传媒大学 | 一种流行歌曲情感综合与分类方法 |
CN108877838A (zh) * | 2018-07-17 | 2018-11-23 | 黑盒子科技(北京)有限公司 | 音乐特效匹配方法及装置 |
CN109189982A (zh) * | 2018-07-30 | 2019-01-11 | 南京林业大学 | 一种基于svm主动学习的音乐情感分类方法 |
CN110377786A (zh) * | 2019-07-24 | 2019-10-25 | 中国传媒大学 | 音乐情感分类方法 |
-
2020
- 2020-05-08 CN CN202010380443.3A patent/CN111601433B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050078840A1 (en) * | 2003-08-25 | 2005-04-14 | Riedl Steven E. | Methods and systems for determining audio loudness levels in programming |
EP1666967A1 (en) * | 2004-12-03 | 2006-06-07 | Magix AG | System and method of creating an emotional controlled soundtrack |
JP2006337914A (ja) * | 2005-06-06 | 2006-12-14 | Kddi Corp | 楽曲リミックス可能な音楽再生装置ならびに楽曲リミックス方法およびプログラム |
WO2006132596A1 (en) * | 2005-06-07 | 2006-12-14 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio clip classification |
CN103714806A (zh) * | 2014-01-07 | 2014-04-09 | 天津大学 | 一种结合svm和增强型pcp特征的和弦识别方法 |
CN106128479A (zh) * | 2016-06-30 | 2016-11-16 | 福建星网视易信息系统有限公司 | 一种演唱情感识别方法及装置 |
CN107220281A (zh) * | 2017-04-19 | 2017-09-29 | 北京协同创新研究院 | 一种音乐分类方法及装置 |
CN107464572A (zh) * | 2017-08-16 | 2017-12-12 | 重庆科技学院 | 多模式交互音乐感知系统及其控制方法 |
CN107580399A (zh) * | 2017-09-22 | 2018-01-12 | 上海韵焰智能科技有限公司 | 灯光控制方法及装置 |
CN108305604A (zh) * | 2018-01-30 | 2018-07-20 | 浙江省公众信息产业有限公司 | 音乐可视化方法、装置及计算机可读存储介质 |
CN108648767A (zh) * | 2018-04-08 | 2018-10-12 | 中国传媒大学 | 一种流行歌曲情感综合与分类方法 |
CN108877838A (zh) * | 2018-07-17 | 2018-11-23 | 黑盒子科技(北京)有限公司 | 音乐特效匹配方法及装置 |
CN109189982A (zh) * | 2018-07-30 | 2019-01-11 | 南京林业大学 | 一种基于svm主动学习的音乐情感分类方法 |
CN110377786A (zh) * | 2019-07-24 | 2019-10-25 | 中国传媒大学 | 音乐情感分类方法 |
Non-Patent Citations (2)
Title |
---|
RONGSHU SUN: "Segmentation of Pop Music Based on Histogram Clustering", 《2018 11TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS (CISP-BMEI)》 * |
孙佳音: "音乐要素自动分析关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112727704A (zh) * | 2020-12-15 | 2021-04-30 | 北京天泽智云科技有限公司 | 一种叶片前缘腐蚀的监测方法及系统 |
CN114927143A (zh) * | 2022-04-21 | 2022-08-19 | 厦门大学 | 一种基于深度学习的舞美效果自动生成方法及系统 |
CN115049814A (zh) * | 2022-08-15 | 2022-09-13 | 聊城市飓风工业设计有限公司 | 采用神经网络模型的护眼灯智能调节方法 |
CN116312636A (zh) * | 2023-03-21 | 2023-06-23 | 广州资云科技有限公司 | 电音基调分析方法、装置、计算机设备和存储介质 |
CN116312636B (zh) * | 2023-03-21 | 2024-01-09 | 广州资云科技有限公司 | 电音基调分析方法、装置、计算机设备和存储介质 |
CN116528438A (zh) * | 2023-04-28 | 2023-08-01 | 广州力铭光电科技有限公司 | 一种灯具的智能调光方法和装置 |
CN116528438B (zh) * | 2023-04-28 | 2023-10-10 | 广州力铭光电科技有限公司 | 一种灯具的智能调光方法和装置 |
CN116234127A (zh) * | 2023-05-05 | 2023-06-06 | 深圳市博视系统集成有限公司 | 一种基于z-wave的KTV灯光控制方法 |
CN116234127B (zh) * | 2023-05-05 | 2023-08-01 | 深圳市博视系统集成有限公司 | 一种基于z-wave的KTV灯光控制方法 |
CN116734220A (zh) * | 2023-08-11 | 2023-09-12 | 广州市升龙灯光设备有限公司 | 一种舞台灯校准方法及系统 |
CN116734220B (zh) * | 2023-08-11 | 2023-10-31 | 广州市升龙灯光设备有限公司 | 一种舞台灯校准方法及系统 |
CN118175705A (zh) * | 2024-05-07 | 2024-06-11 | 广州市锐丰文化传播有限公司 | 一种基于声音变化的舞台灯光智能控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111601433B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111601433B (zh) | 舞台灯光效果控制策略的预测方法及装置 | |
US12064564B2 (en) | Enhancing music for repetitive motion activities | |
Lu et al. | Automatic mood detection and tracking of music audio signals | |
CN110085263B (zh) | 一种音乐情感分类和机器作曲方法 | |
Hsiao et al. | Methodology for stage lighting control based on music emotions | |
Tsatsishvili | Automatic subgenre classification of heavy metal music | |
Plewa et al. | Music mood visualization using self-organizing maps | |
CN113813609A (zh) | 游戏音乐风格分类方法、装置、可读介质及电子设备 | |
CN113257279A (zh) | 一种基于gtcn的实时语音情感识别方法及应用装置 | |
Panda | Emotion-based analysis and classification of audio music | |
CN117493678A (zh) | 一种音乐推送方法、装置、电子设备及存储介质 | |
Ranjan et al. | Oktoechos classification and generation of liturgical music using deep learning frameworks | |
Hu et al. | Chinese pop music emotion classification based on FA-SVM | |
Wang et al. | REMAST: Real-time Emotion-based Music Arrangement with Soft Transition | |
Delgado et al. | Learning Models for Query by Vocal Percussion: A Comparative Study | |
Bello et al. | Drum sound analysis for the manipulation of rhythm in drum loops | |
Sarkar | On multi-aspect classification of music data | |
Pavlín et al. | Ballroom Dance Recognition from Audio Recordings | |
Basu et al. | Identification of the Dawn or Dusk Ragas | |
Mahmud | Music Emotion Recognition with the Extraction of Audio Features Using Machine Learning Approaches | |
Pushparajan et al. | Data Augmentation for Improving the Performance of Raga (Music Genre) Classification Systems | |
Nam | Learning feature representations for music classification | |
Wu | Singing Detection System Based on RNN and CNN Depth Features | |
Dai | An Intelligent Evaluation Algorithm for the Matching Degree of Music Lyrics Based on LabVIEW Digital Image | |
Wang | Unsupervised Bayesian Musical Key and Chord Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |