CN112530470A

CN112530470A - 具有输入和输出的媒体内容增强系统，以及组成媒体产品的方法

Info

Publication number: CN112530470A
Application number: CN202011251264.6A
Authority: CN
Inventors: J·M·W·莱斯克
Original assignee: Matthew Tales Co ltd
Current assignee: Matthew Tales Co ltd; Mashtraxx Ltd
Priority date: 2015-06-22
Filing date: 2016-06-22
Publication date: 2021-03-19
Anticipated expiration: 2036-06-22
Also published as: GB202000715D0; CA2990320A1; CN112530471A; PL3311383T3; EP3311383B8; US20210027755A1; EP3671725A1; US20180322855A1; AU2021204836A1; US20220044663A1; GB2539875B; GB201712715D0; GB201510907D0; AU2021204836B2; TWI799720B; PT3311383T; US10467999B2; CN112530470B; GB2573597A; WO2016207625A2

Abstract

一种具有输入和输出的媒体内容增强系统，其包括处理系统，所述处理系统能够接收时间事件的时间性变化事件数据作为输入数据。所述处理系统被编排为：将所述时间性变化事件数据解析为多个分类的情境主题中的一个或多个；使所述分类的情境主题与至少一个参考媒体文档的元数据相关联，所述元数据提供针对被辨识为存在于所述至少一个参考媒体文档内的至少一个情境主题的开始时序和结束时序；并且之后将参考媒体文档的选定部分一起拼接或淡变，以在所述输出处生成媒体产品，所述媒体产品在其情境主题之间具有内容过渡，所述情境主题与所述输入数据中已辨识和选定的时间事件对齐。

Description

具有输入和输出的媒体内容增强系统，以及组成媒体产品的方法

本专利申请为分案申请；其原申请的申请日为2016年6月22日，申请号为201680036967.2，发明名称为“用于多媒体播放为音乐声频片段的交叉淡变的节奏性同步”。原申请是国际申请，其国际申请号为PCT/GB2016/051862，国际申请日为2016年6月22日，进入中国国家阶段日为2017年12月22日。

技术领域

本发明大体上涉及音乐系统，并特别适用于将数字声轨的片段(或切片)与现实世界的事件于情境上同步的系统和方法论，但不仅限于此。该些片段的特征描述是按照使用者的感受及/或机器执行的评估就所感知的“主题”(其是通过于该声频片段中检测或以其它方式辨识得的基本韵律或节拍向使用者或机器提示的)为每个声频片段分类。

背景技术

音乐、电影和游戏行业—特别是其涉及提供内容的范畴—正在演变。在这方面，在该些市场中，(例如)音乐或原声带的销售和发行，正在变成以串流或供下载的数字档案的形式为主导。这与根基已稳固的但正在萎缩的专门零售点销售的CD和DVD技术(或古旧的黑胶唱片)成对比。

虽然音乐的销售是商业性的而内容是属于感知和美学性质的，但却没有现成的、简单直接的机制可将情境上相关的声频内容辨识和分配给多个现实世界中的情境。实际上，已被公认的是，声频内容支持听者或使用者的情感、生理和/或心理上的投入，并因此提升听者或使用者的感官体验。因此业界面对的其中一个问题便是如何最佳地增强听者/使用者的体验，特别是在个人/个别人士的层面上的。实际上，长期以来一直已被公认的是，某段音乐与某事件之间的情境关联性或关系会勾起记忆或导出相应的情感反应，例如在电影中带来恐惧或悬疑的感觉或在电视广告中出现对某产品的联想。另一例子涉及于所谓的“spin”固定式脚踏车健身课堂中的间歇训练时常常使用的连续背景音乐，当中穿插着一些短而突发的音乐，其与通过在每时间单位腿部转数的增加而提高的心肺运动速率和增加的能量输出相关联。在《人机交互百科全书》2013年第2版(The Encyclopedia of Human-Computing Interaction,2013,2^nd Edition)中，其作者(M.Hassenzahl)形容了“由闹钟所引起的被唤醒体验”是如何“与太阳升起和喜悦的雀鸟所引起的体验实质上不同”，并随后提问是否可能“创造出了解日出和雀鸟的关键特点，并且即使当太阳拒绝照耀、雀鸟已飞往非洲时，仍能成功给出类似[日出和雀鸟]的体验的科技。”

因此，将数码内容和档案格式技术上适配，会给出以新颖和具创意的方法影响、塑造和/或设计使用者的体验(个别或整群的)的可能性。但技术上的适配无需局限于未来的作品中，而是亦可于储存于可存取的数据库中的固有音乐库上实施，例如在受控的持有许可的环境中和在用者自定的生活体验的情境中，令这样被储存的音乐等重获新生。

有多个现有的算法可执行关于音乐转录至曲谱或音乐诠译的任务。例如，以下技术论文指出可用于自动化的音乐资料检索(music information retrieval,“MIR”)的已知技术，因此可应用一个或多个这样的过程作为(如本文中说明的)本发明的一个或多个实施方案或应用中的构件：

i)于2000年于技术刊物《数字声效》(Digital Audio Effects,DAFX)中出现的文章，J·P·Bello着的《用于简单复音音乐的曲谱转录的黑板系统和自上而下处理法》(“Blackboard system and top-down processing for the transcription of simplepolyphonic music”)讨论了音高的检测算法。于2003年《IEEE工作坊：信号处理于声频和声学上的应用》(IEEE Workshop on Applications of Signal Processing to Audio andAcoustics)中P·Smaragdis和J·C·Brown着的《用于复音音乐的曲谱转录的非负数矩阵因子分解》(“Non-negative matrix factorization for polyphonic musictranscription”)这文章说明了第二种技术。

ii)于2003年于英国伦敦出版的《第六届数字声效国际会议》(6thInt.Conference on Digital Audio Effects(DAFx-03))中C·Duxbury等人着的文章《用于音乐讯号的复数域起始检测》(“Complex Domain Onset Detection For MusicalSignals”)讨论了起始和终止的检测。2005年的《IEEE工作坊：信号处理于声频和声学上的应用》(IEEE Workshop on Applications of Signal Processing to Audio andAcoustics)中M·Gainza、B·Lawlor和E·Coyle着的《采用梳状滤波器作起始检测》(“Onset Detection Using Comb Filters”)是于这技术领域中的另一文章。

iii)2004年巴塞罗那的《音乐资料检索国际研讨会》(International Symposiumon Music Information Retrieval)中S·Pauws着的《从声频提取音乐音调》(“Musicalkey extraction from audio”)，以及2005年伦敦的《音乐资料检索国际研讨会》(ISMIR)中W·Chai和B·Vercoe着的《于古典钢琴音乐中检测音调的转变》(“Detection Of KeyChange In Classical Piano Music”)讨论了音调估算。

iv)《美国声学协会期刊》(Journal of Acoust.Soc.Am.)1998年卷103(1)第588-601页中E·Scheirer着的《原声音乐讯号的速度和节拍分析》(“Tempo and Beat Analysisof Acoustic Musical Signals”)讨论了音乐速度的提取。2004年Pompeu Fabra大学视听研究所(Audiovisual Institute)于西班牙巴塞罗那出版的《音乐资料检索国际研讨会：会议纪要》(Proceedings of the International Conference on Music InformationRetrieval)中M·E·P·Davies和M·D·Plumbley着的文章《声频的遵因果性速度跟踪》(“Causal Tempo Tracking of Audio”)提供了另一种方法。

v)M·Gainza和E·Coyle合着或参着的文章讨论了拍子记号的检测，特别是：a)2007年奥地利维也纳，声频工程协会第122次大会(Audio Engineering Society 122ndConvention)中的《采用多解析度声频相似度矩阵检测拍子记号》(“Time SignatureDetection by Using a Multi-Resolution Audio Similarity Matrix”)；b)2007年十月于美国纽约，声频工程协会第123次大会中展示的大会论文《自动小节线分节》(“AutomaticBar Line Segmentation”)；以及c)2007年5月5-8日于奥地利维也纳，声频工程协会第122次大会中的《采用多解析度声频相似度矩阵检测拍子记号》。

电影企业(例如索尼娱乐(Sony Entertainment))所发行的电影明显具有经编辑并大体上与汇编至电影中的动作帧同步的声轨。实际上，移动的影像(例如电影和电视和电玩中的)常常需要音轨伴随。这过程被称为音乐同步。版权人和电影制作人聘请专业人士于具创意的大型音乐库存中执行搜索以找出适用于同步的音乐。然后进行费劲的编辑工作以将该段音乐配对至该段录像；这工作需要专业设备，而且并不能由最终使用者/看电影者自定。事实上，该音乐编制是由制片厂主观地汇编及核准的。其也不能相应实时发生的事件被动态地配置。

而且，另一问题涉及如何在林林种种具不同储存格式的不同数据库中存取和搜寻储藏的信息。在这方面，同步业界中采用的语言是多变数的而且涉及多种套路，其有时互相矛盾。事实上，同一术语在不同语境下可具不同意思，而语境却是动态和约定俗成的。如采用自然语言界面，会为使用者提供具意义的搜索系统。已被公认的是，近年数码音乐的极速膨胀令使用者面对复杂的难题，并且需求大量的知识管理技术和工具。

和电影媒体同步的情况类似，使用固定式健身脚踏车的所谓的“spin课堂”会以音乐伴随，但这音乐只是个人健身教练用于娱乐和协助课堂成员进行密集训练或主动复原的背景音乐。该背景音轨甚或播放音乐的声频广播系统皆无法变成动态并对实时的变化作出反应。如所有现有的声频广播或扬声系统般，其只是播放声轨，因此声轨完全跟随预录的音轨编排。

发明内容

根据本发明的第一方面，提供了用于在第一声频片段和作为目标的第二声频片段之间淡变的方法，其中该第一声频片段和该目标的声频片段各包含代表重大声频事件的起始，该方法包含：相对于共同的时间性参照点判断该第一声频片段和该目标声频片段中各自的起始点的相对时间性位置；相对于该共同的时间性参照点评估该第一声频片段和该目标声频片段中各自的起始，以确定哪个起始于时间上是最早发生的；以及在所述的最早起始的某上升处，促成该第一声频片段和该目标声频片段之间的交叉淡变，以致该目标声频片段代替该第一声频片段作为当前的声频输出，且其中该交叉淡变同时跨过该第一声频片段以及该目标声频片段地发生，以实现声频输出中无缝的节奏性过渡。

在本发明的另一方面，提供了声频系统，其包含：处理器；以及储存装置，其包含多个数字声频档案，其各皆被分隔成至少一个以情境主题作为特征的声频片段，而每个所述的至少一个声频片段皆具有代表重大声频事件的起始；其中该处理器被配置以：相对于共同的时间性参照点，判断第一声频片段和作为目标的第二声频片段中各自的起始点的相对时间性位置，其中该第一声频片段被可控地播放，而作为目标的第二声频片段会变成当前的及被播放；相对于该共同的时间性参照点，评估该第一声频片段和该作为目标的第二声频片段中各自的起始，以确定哪个起始于时间上是最早发生的；以及在所述的已判定为最早起始的某上升处，促成从该第一声频片段至该作为目标的第二声频片段的交叉淡变，以致该作为目标的第二声频片段代替该第一声频片段作为当前的声频输出，且其中该处理器被编排，令该交叉淡变在时域上于该第一声频片段以及该作为目标的第二声频片段中同时开始，且其中该处理器被进一步编排以在声频输出过渡至作为目标的第二声频片段后维持由第一声频片段于声频输出中确立的节奏模式。

在本发明的又另一方面，提供了用于判断于某声频讯号的某片段中起始的存在的方法，该方法包含：将该声频讯号的瞬变的部份从该声频讯号的相对静态的部份分离，以产生时域代表方式；产生瞬变部份的波幅包络；设定功率阈值并检测出波幅包络中超过该功率阈值的局部峰值点；以及对于该些局部峰值点，于由该瞬变波幅包络辨识出来的多个采样点分析该瞬变讯号，所述的分析于每个采样点进行，在该采样点之前及之后在某预定周期中测量某特征；以及将在该采样点之前及之后的该些预定周期之间所测量得的特征差异最大的采样点辨识为起始。

在本发明的又再另一方面，提供了声频系统，其包含：处理器；以及数据库，其包含多个数字声频档案，其各皆被分隔成至少一个以某情境主题作为特征的声频片段，而每个所述的至少一个声频片段皆具有代表重大声频事件的起始；其中该处理器被配置以：在数据库中的每个数字声频档案中将每个声频片段的瞬变的部份从该声频讯号的相对静态的部份分离，以产生时域代表方式；产生瞬变部份的波幅包络；设定功率阈值并检测出波幅包络中超过该功率阈值的局部峰值点；以及相对该些局部峰值点，于多个由该瞬变波幅包络辨识出来的采样点分析该瞬变讯号，所述分析于每个采样点之前及之后的某预定周期中测量某特征；以及将在该采样点之前及之后的该些预定周期之间测量所得的特征差异最大的采样点辨识为起始；以及采用所述已辨识的起始，以从第一情境主题过渡至第二情境主题。

在本发明的又再另一方面，提供了数据库，其包含多个可存取的档案，该数据库包含：数字声频档案的多个声频片段，每个声频片段被编配至相对于对应该声频片段的识别性的音乐时序而界定的情境主题，每个主题本身被编配至至少一个进入点和至少一个退出点，所述进入点和退出点支缓不同声频片段之间无缝的淡变过渡，且其中所述的至少一个进入点和所述的至少一个退出点各皆与该片段的某弱拍的事件关联，这是以拍子和小份(beats and fractions)的形式表达。

在本发明的又再另一方面，提供了将两个声频片段拼接在一起的方法，其中该两个声频片段具有与其相关的元数据所反映的、预先被辨识的情境主题，而该两个声频片段各皆具有与其被编配的主题相关的开始点和结束点，而该方法包含：通过将每个声频片段分隔成各具有已被辨识的速度的节奏性拍子，为所述两声频片段各自产生第一时基；通过将每个拍子分成拍子中的至少多个在时间上相等和等距的细份，将每个声频片段的每个拍子分隔成可测量的小份，从而产生第二时基；于被拟定跟随第一声频片段的目标声频片段中判定至少一个进入的弱拍，所述至少一个进入的弱拍相对于目标声频片段的开始点各自提供以拍子和小份表达的第一时移；于该第一声频片段中判定至少一个退出的弱拍，所述至少一个退出的弱拍相对于第一声频片段的结束点各自提供以拍子和小份表达的第二时移；将该第一时移和该第二时移对比，以辨识该第一时移和该第二时移之间是否有对应性；以及如果该第一时移和该第二时移之间没有对应性，便否决从该第一声频片段至该目标声频片段的拟定拼接，否则便认定该第一声频片段与该拟定的目标声频片段的拼接是相容的。

在本发明另一方面，提供了计算机程式产品，当其由处理器执行时，令该处理器执行如权利要求21至27之任一所述的将两声频片段拼接在一起的方法的程序。

在本发明的又一方面，提供了听感增强系统，其包含：如权利要求20所述的数据库；处理系统，其耦合至该数据库并对所述元数据有反应性；以及耦合至处理系统的输入，该输入将以时间性输入的形式呈现给处理系统，以辨识事件演变中的性质，其中每个事件以某主题分类；其中该处理系统被编排以确立所述的演变中的事件的已分类的主题与所述的声频片段的情境主题的相关性，并且还被编排以随着时间性的输入改变而自动选定声频片段和将其拼接在一起以反映所述的事件。

本发明的实施方案允许被辨识的乐句或主题被同步或以其它方式联接至现实世界的事件中。在这文义中，“乐句或主题”界定声频的“片段”，其具有一组可界定的特征，该些特征反映该些作为时间性输入呈现的、情境上被感知及辨识的事件的性质，或与其互补或以其它方式配合。因此该些声频片段“配合”该些事件的情境的“美学设计”。所得的同步有利地达成预先被辨识的乐句之间无缝的音乐性过渡—采用在时序的基础以准确地配对本来存在的但被辨识了的音乐拍子记号或拍子以达成该无缝音乐性过渡—该些预先被辨识的乐句可能是完全不同的，并具有不同的情感主题，该些主题由乐句各自的拍子记号、强度、音调、音乐韵律和/或音乐分句所界定。因此优选的实施方案通过动态地将声频片段改变、重新排序或重复，然后播放，从而增强现实世界中使用者的总体感官体验；这是在周围的实际环境中正在发生的事件的情境下进行的，例如，在踏步课堂的心肺健身过程的不同阶段期间，音乐速率和强度在冲刺时增加而在复原时期减小。配乐是自动地实时地被选择以配衬演变中的实际事件或本地环境事件，其中对声频采样的同步化导致该声频采样成为总体感官体验的不可分割而相辅相成的一部份。

有利地，本发明提供新颖、创新的数码格式科技。软件形式的编辑套装(其可选为以可下载的应用程序的形式提供)向消费者提供用以动态地、实时地将固有的音乐内容编辑和重新设计的工具，从而达致与使用者的体验同步。更具体地，该系统和方法论提供了将数码音乐内容与生活方式、活动和消费者选择同步化从而与其配合的契机，其中该同步化是基于某界定的声频片段中的主体的特征描述，以及随后基于该声频片段中的弱拍事件而确立对于该声频片段的合适进入点和退出点。该软件应用程序允许将(例如)某使用者最喜好的一些歌曲选择性地重新形象化和将该些音轨与特定的物理刺激同步化，以适配该一刻的情况，如跑步或散步的情况，或与视频片段的某场景调准，从而产生订制的、为个别使用者度身订造的体验。因此该系统产生复合媒体档并将其提供作例如即时播放或广播等用途；该复合媒体档将即时或演变中的现实世界事件与自订化的、使用者可选择的声频组份相关联，而该些声频组份是被设计以增强总体的感官体验的。

这样就达成了更高程度地将现有的数码音乐重用和重新编排以实时同步至多种媒体，其中该基于元数据的同步化适用于多个不同应用范畴，包括运动、电玩、个人视频编辑以及广告。基于环境中的变化，优选实施方案的系统创造音乐内容，更具体地是将以一个或更多个时间上分开的声频片段或声频档案展示的音乐内容编辑和重组以适应场合。因此，声频输出例如会随在某游戏中所感应的改变而改变，以致该声频输出是同步化的音乐，其配衬游戏中的动作，或配衬某DVD中的气氛和动作。所得出的音乐档案格式(包括以嵌入于元数据中的标签对音乐分段的特征描述)给予使用者将他们最喜好的一些音轨用于他们的视频和社交媒体应用程序中的能力。更具体地，可通过将系统连接至合适的、对环境情况的改变作动态反应的传感器，达成实时同步化。

本发明的如所附的权利要求和以下的说明所简介的多方面和多个实施方案皆可作为硬件和/或软件方案实施。

附图说明

现以参照附图说明本发明的示例性实施方案。在附图中：

图1的示图代表现实世界的事件与某段声频之间确立了的关系，声频例如为一段音乐，而其中该关系是根据本发明而确立的；

图2是根据本发明的优选实施方案的一系统的示意性示图；

图3是图2的系统中采用的片段汇编智能的功能示意图；

图4是根据一优选的创作过程的声轨汇编和元数据创建的功能示意图；

图5是于声频片段内从某音乐主题的退出点剪接至其它音乐主题的进入点的一优选的剪接策略的时域示图；

图6a、6b和6c示出当前的声频片段和目标声频片段之间的交叉淡变或剪接相对一共同时基以及相应的起始事件的关系，而该交叉淡变或剪接是根据一优选实施方案的；

图7由图7a至7c构成，其为不同音乐片段的频谱示图，该些片段具有根据本发明一优选实施方案判断退出点和进入点；

图8是时间性的示图，其示出不同音乐片段的不同拍子记号之间的相对时序；

图9由图9a至9d构成并示出判断起始点的一优选过程，优选的系统采用该过程执行于图6a至6c中示例化的交叉淡变或剪接；而

图10是根据一优选实施方案的声轨数据库的示例性配置。

具体实施方式

图1是示图10，其代表现实世界中的事件12与某段声轨的某音乐主题14之间确立了的关系，而其中该关系是根据本发明而确立的。例如，事件12可以被监察或以其它方式感应(例如通过在运动中的人佩带的传感器或遥测装置)，或可以是预录的并于某媒体上存在的(例如是某电影的一连串场景帧)。随着时间流逝，现实世界中的该些事件12改变，各事件12因此可被彼此分辨。

举一纯示例性的运动例子(或者是某人在运动的影片)，进行运动的人可于开始时间(零时)和第二分钟结尾之间经过一热身阶段、于第二分钟结尾和第六分钟结尾之间经过一剧烈运动阶段、于第六分钟结尾和第八分钟结尾之间经过一复原阶段，并最后于第八分钟结尾和第九分钟结尾之间经过一冷却运动阶段。这运动计划中不同的活动阶段多半会在伴随的情境音乐方面要求不同的对策。

上文对活动的时长以整数的分钟的形式形容，但这是纯示例性的，以秒或其它时段作基础亦完全没问题。例子中各运动活动之间的过渡时刻亦只是为了简化说明而被随意选定了，因此过渡其实可于任何合适的触发点发生。例如，该些过渡可以是传感器驱动的，该传感器可以是在某人的运动项目期间主动地在监察和报告那人的心率。就某电影而言，选定的过渡点可以是在某场景的结尾、与某人物的出现相连，或与某段语音的某特定部份相连。

在图1中，为了提供令人投入的效果，以连续的音轨14增强该活动12，音轨14跟随反映出演出者的原来录音的自然路径。但是，即使在开始时可宽松地和大约地把音轨的开始16与于零时刚刚开始的热身状态吻合，该音轨很快便和该事件脱节而变成一般的背景，即是说，那自然声频就支持或加强该与其勉强有点联系的现实世界的事件的用途而言是不理想的。

但是我们了解，(例如)一段音乐声轨的不同片段其实可和不同时间上的不同事件活动有直接相关性，而且期望于不同声频片段之间过渡(基于在该片段和该时间上的事件中辨识出的共同主题)以增强总体的感官体验。换言之，音乐编制的多个片段14中具有多个主题，而这些片段具有不同的时长和不同的情感特质，后者可由使用者或装置基于质化(和/或量化)的评估而被分类。因此“主题”这术语应被了解为概括的描述，其泛指使用者和/或MIR过程基于从某认定的声频片段所感知的情境意义而可编配给某音乐(或其它声频采样)片段的选定属性或感知到的特性。

因此，操作本发明的某实施方案以辨识出片段，并将经采样的音乐(或类似物)的分段储存于数据库中。每个片段14—其各可具不同时长T₁-T₄—编码期间皆加入元数据，其辨识该片段(及其主题)和/或尤其可从该片段14解析出的情境特质。存取和参照该些元数据允许随后将该些片段于时间上重新排序，让该些片段可与相关的现实世界事件调准。

优选地，该系统从不改动原本的声频档案，而是利用汇编好的元数据让播放引擎于合适地编码的档案中跳动，接近实时(除了一点儿合适的缓冲以允许进行处理)将其编辑和交叉淡变。

作为非限制性的例子，在运动的情境中，音轨可包括作为副歌的轻快节拍，该轻快节拍因此适合该运动的一冲刺部份期间较高能量输出速率所引致的较快心率。相反地，同一音轨可能包括半速(half-time)的片段。该半速的片段因此会较适合运动期间的主动复原阶段，而不适合冲刺阶段。现要求保护的发明因此从某声轨产生多种被辨识的片段(即切片)，其可在时间上被移动从而与外在驱动的活动更合适地调准。这时间上的移动可能引致片段次序被重组，即是说某原本的音轨中的自然连续的顺序可能给出T₁、T₂、T₃、T₁、T₅、T₆、T₁的顺序，其中T₁是重复的副歌而T₂至T₆是节、主题或乐章。这时间上的移动亦可能导致声频输出的总时长相对原本的音轨被延长或截短。将该片段的主题辨识并将与该片段相关的特征描述于元数据中储存可能可导致将片段(相对某电影)的次序重新排列，其产生的声频输出具有不同的顺序T₁、T₁、T₆、T₂、T₃、T₁、T₁、T₁。图1中的“Mashtraxx”声频频谱20代表了这次序重组，其示出了Matraxx片段的重新排序。优选地，邻接的片段是彼此连贯的，例如音乐韵率没可察觉的变化，和/或邻接片段之间没有可察觉的无声片段。下文参照图5和图7描述了用于当前的声轨采样片段和(同声轨或另一声轨的)另一储存的片段之间的淡变机制。

本发明的实施方案允许被辨识了的音乐片段被联接至现实世界的事件中并与其同步。该达成的同步包括可能是本质上完全不同的、预先被辨识了的片段之间的无缝、具音乐性的过渡，该些片段具不同的情感主题，其由各片段各自的拍子记号、音量、音调、音乐韵律和/或音乐分句限定；而该无缝过渡是通过使用时序上的偏移(例如相对的推前)达成的，其优选地用于准确地配合某原先存在但被辨识了的音乐拍子记号或节拍。因此，通过根据在周围实际环境中在发生的事情的情境于不同的音乐片段之间跳转(并因此于不同主题之间跳转)优选的实施方案加强整体的感官体验；例如，在踏步课堂的心肺健身过程的不同阶段期间音乐速率和强度在冲刺时期中增加而在复原时期中减小。伴随的音乐(或可听内容，例如声源不可见和声源可见的声效设计或非演奏式的纯声效)于实时内被自动选定以配衬在演变中的实际事件—其可于实时内被电子监察，例如以心律监测器监察—并从而形成整体感官体验的不可分割而相辅相成的一部份。除了实时监察外，还可将该伴随的声频采样(例如某段音乐)预编程以和某触发点(例如某电子游戏内的某场景转接)绑定并与其一起播放。

现转看图2，其示出根据本发明的一优选实施方案的一系统30的示意性示图。

如上所示，系统30撷取现实世界的外界事件12作为输入。这些可以是实时感应的事件或是储于媒体上的记录了的事件，它们通过通信接口32呈现给该系统的。处理环境34一般包括至少一个处理器，其运行储于记忆体中的程式代码36、38。

多种不同的平台皆可支援该处理环境34，包括经网络连接的服务器、平板电脑、私人电脑或智能手机。

记忆体36可以是处于处理环境34本地或处于某分布式系统的远端。储于记忆体36中的应用程序(“app”)允许对现实世界的事件作自动化的分析，并进一步允许对事件中的采样了的时域中的数据相对预先确立了的术语词汇38(其亦储于记忆体中)将其特征描述。实际上，对应某被监察或记录的外界事件12的输入信号可包含多个不同的特征，例如从实时监测器感应并报告的与运动和主动复原的不同阶段(如图1所示)关联的不同心律；或者是就某影片的情境而言，其可能具有的可辨识的不同面部表情、不同的像素亮度和/或某坨物体移动经过屏幕期间像素具有的不同移动速率。可界定其它反映某情感或活动的特征。

以上共同的特点是，可辨识的特征随时间改变，因为外界活动随时间改变，因为环境或个人的情感或物理状态随时间改变。因此，该事件输入—无论形式为何—便可被视为一组由采样的事件数据构成的多个连续的事件分段，其具有不同的但可辨识的主题。从功能而言，处理环境34被配置为以至少一个预储存的词汇字词描述每个事件分段，其中这描述或永久地或临时地与该事件分段记录在一起。对于每事件分段的词汇字词作为关键或“简报元素”，其可随后用于交叉参照和最后选定相关的声频片段，后者类似地被赋予特征描述，且具有相应或密切相关的词汇字词描述，其可以是被储于声轨的元数据中、储于相关联的档案中，最优选为被分成各自独立的部份地储于每段声频片段的标头中。除非特定的情境需要更狭义的诠释，否则术语“声频片段”、“分段”和“声频切片”应被视为同等的，同样是代表某数码声频档案中不同长度的采样。

作为对处理环境34的次级输入，可提供使用者界面40以允许使用者评价该外界事件输入12。这评价功能可以是独立于产生该些简报元素的自动分析的，或者是与其互补的。因此，该人工的评价亦给事件分段赋予词汇字词，因此提供了替代或增补性的产生简报元素的程序。

说回图2，该处理环境对外界事件执行的功能分析可包括：

i)外界事件12中的相对和/或实际的时序42。例如，时序上的分析可辨出满足某最低阈值的事件，具持续时长和/或击点的事件/特点。击点是指某游戏或电影的时间线上某给定的时刻，在该时刻发生某动作，其需要某音乐特征同时发生(“击”)。击点的另一业界名称为“Mickey Mousing”，例如在某Tom and Jerry卡通中某保龄球源某架滚动至掉在汤姆猫头上后，可能发出一大声的木块响声。替代地，某些时候击点具有给定的时长；更合适地应将这样的击点称为“持续特征”。例如，在该些保龄球掉在汤姆猫头上并弹走之后，汤姆猫不由自主地抖动三秒。因此，可以将尺子在桌子上拨弹时发出的声音实现相关的持续特征，其中该震动的声音持续三秒后被淡出或结束。

ii)强度44以及外界事件中强度的缩放。例如，强度可以是基于通过从该外界来源经输入32接收的相对的光照水平或音量，或某可监察的函数(例如心率)中的变化。强度亦可涉及某个以情感感知的强度，其辨识出某段声频中的某片段相对整段声频中的其它片段是有何重要性或者是如何从属于其它片段的；该整段声频可为一首完整的曲目或者是不同声频来源或录音的声轨合辑，例如是从不同的声频CD所得的不同声轨。因此，强度可为根据某使用者的口味或喜好设定的主观尺度。

iii)声频函数分析46，其包括但不限于节拍分析、拍子记号分析、性质(climatic)变化辨识、音量增加或减小、戏剧性急停(其中声频突然静止)、静态或韵律性分析、重复段的强调和辨识。

当对该些事件分段生成了字词，从而产生了简报元素后，可将这些事件分段经过网络串流，或将其储存50以供片段汇编智能52往后取回和使用。这片段汇编智能52是基于人工智能(“AI”)的处理支援的，并或可被称为“Mashtraxx框架”。该片段汇编智能52被配置了以提供额外的处理以及产生新的媒体样本(或称“复合媒体档”54)，其中新创的声频(例如新创的音轨)以无缝、顺序的方式加强现实世界事件中的事件分段。事实上，该新创的声频可增补或取代从现实世界事件撷取的声频采样。

该片段汇编智能52可对额外的输入有反应，该额外的输入即为加强的声轨58，其包含对于原声轨的分段或切片的Mashtraxx元数据58。实际上，该声轨可为从由使用者选定的多个声轨或单一录制的声频文件(其不一定要是音乐)所得的多个采样。声轨56可例如由

曲库提供，或从某音乐存库串流或以其它方式取得。下文将说明Mashtraxx元数据的产生。

下文将更详细地说明Mashtraxx元数据的产生，并具体地参照图4。但总括而言，Mashtraxx元数据提供声频分段的界定，包括声轨的拍子记号和其它音乐属性和/或函数，其被提供为与声轨关联的数据。对某声轨的经修改的数字声频档案可包括元数据标签，其嫁联至该声轨中的音乐性事件，例如击钹声和鼓声。替代地，可从于外部管理的数据库存取或串流该Mashtraxx元数据，通过于装置上运行的本地app进行存取。对于后者的情况，优选地安排了某基于装置中的app基于该原本具版权的艺术作品(即该声轨)相对该本地装置/使用者的记录状态而将Mashtraxx元数据从该远程数据库抽取。如该原声轨被视为非法复制的，可向其Mashtraxx元数据施加存取禁制和/或可让该app将该非法复制品标记或禁止播放该原声轨，直至该声轨/使用者由对应该原声轨的经认证的许可证验证。

在一优选的防伪的实施方案中，于本地安装的app通过对声频作指纹验证而检查本地内容；这可以是基于任何一种以至多种已知技术进行，包括声轨标头中的元数据和/或通过声频采样作声轨内的分析。该app被配置以致随后以包含Mashtraxx数据的中央数据库作核对，以揭示有没有现存的Mashtraxx数据对应所辨认出的声轨。如果有，该app则被配置以于app中将Mashtraxx数据作为Mashtraxx选项展示给使用者。

取得被授权的状态的方法是公知的，并一般是基于登记程序的。但登记使用版权的程序和本发明要处理的根本问题并不相关，特别是和创作所述的元数据标签并不相关(所述的元数据标签是用于将与补充演变中的现实世界事件的协调的声频关联的令人投入的感官体验加强)。

图3是图2的系统中所采用的片段汇编智能52的功能示意图。

某些声频片段是将要被插入的，而且其固有的主题的特征是已被预先描述的(为此，已于该些声频片段的相应元数据中置入标签，如下文将解释)；该片段汇编智能52对于这样的声频片段作出选择59和排序60以将其与现实世界事件对应。这样给出一组经排序的声频片段62，其可包括连续的、重复的音乐章节。要选出恰当的声频片段，须对元数据标签作考虑和分析64，而且可选但优选地也应评估66所选择的声频片段62本身是否具足够材料以供插入。判定材料不足够，将导致以下运作之至少其一：拒用该声频片段、决定重复(即循环)该声频分段以填满该现实世界事件的全部时长，和/或通过使用者界面(例如图2的使用者界面(在一般包括图形用户界面“GUI”的实施方案的情况下))通知使用者。循环可涉及由预先储存的元数据标签反映的片段内循环。这片段内循环允许于片段内部中确立循环，并因此限定于内部彼此一致的切点。

使用者可通过控制界面直接向系统输入简报笔记以指令声频分段的选择。该简报笔记指示变量的参数，包括但不限于时长、声轨内击点的性质以及声轨的气氛。替代地，可向使用者展示各具共同主题的多个可选的声轨选项，然后要求使用者指示其喜好。也可以完全自动化的系统替代。

除了实在执行从当前声轨淡变和/或直接剪接至目标声轨的过程(如特别参照图6a至6c而论述的)，该片段汇编智能52还与该过程独立地被配置以评估不同声轨中的片段是否根本上相容，和是否优选地相容至可被拼接或剪接在一起以在两者之间产生可听地为无缝的过渡。现将参照图7、8和10说明优选的过程。

图7是不同音乐片段的频谱示图，该些片段具有根据本发明一优选实施方案决定的退出和进入点。图7示出编辑点过程，其可被独立地执行以将选定的声频片段中相关的主题调准，并且是一预备过程，预备将选定的声频片段重新编排进入统一的数据格式，后来会将其与现实世界事件调准，从而通过加强向伴随的声音场景的贡献而加强感官的体验。

在图7a示出某声频片段(“声频片段1”)的声频频谱151，其中包络的变化被高度简化，并被示为具突然的过渡点的块件。读者会理解，频谱151具有时域的代表方式，其随时间改变。具音乐小节形式的时基(片段1的为“小节1”至“小节8”)将声频片段于名义上已辨识的“抽象”进入点152和于名义上已辨识的“抽象”退出点154之间分隔。因此该抽象进入点152和抽象退出点154限定该声频片段，而这些抽象点是以MIR程序和/或使用者输入而决定和选定的，从而辨识出例如一首歌的整个声轨中不同主题之间的、其特征可被描述的过渡点。因此“主题”是某声轨或某汇编合成的作品中情境不同的方面。主题可在所感知/辨识的相同和不同之处两方面将某片段的情境分类。因此，主题是被编码入与该声轨的片段相关的数据库内，并可被直接编码入赋予其的元数据内。

不幸地，已发现，因声频的本质使然，令抽象进入点152和抽象退出点154大有机会和某声频片段的实效，即实际的退出点162、164和进入点166、168时间不一。例如，于片段1(图7a中参照标号160)内，可具有一个或多个可能的抽象退出点154、155，而每个抽象退出点154、155具有一个或多个实际退出点162、164。在这示例性情况中，主题过渡可以是被辨识为于小节4和小节5之间的过渡点发生，而(将时基和节拍纳入考虑的)实际退出点162、164可于小节4中的不同时间发生。

因此，在可以于片段之间过渡之前，是必须寻找不同片段之间的相容性，以及提供实质上无缝的可听过渡的时序上的过渡。在第一例中，经辨识和施加的元数据标签可提供不同主题之间可接受的相关性的指示。例如，假设限定于一和八之间的主题指数，第一声频片段可具有“主题一”的特征描述，其可为代表慢调、忧郁的情境的。作为对比，第二声频片段可具有“主题二”的特征描述，其可为代表(相比第一声频片段)稍快的、情境上较强烈的气氛的。第三声频片段可能是给人很有活力的感觉的，因此可以是被描述为具有强度(即为使用者界定的级别)被测定为N级中的第八级(其中N为整数)的特征描述。在这例子中，从达成无缝的可听过渡的角度而言，于第一片段的主题一和另一音乐片段中的另一主题一之间过渡似乎是非常可行的。亦可能可以于第一片段和第二片段之间无缝过渡，因为两者的特征描述似乎相近。但实际上，如果只从第一声频片段和第三声频片段各自的根本主题的特征描述的评估的角度看，从第一片段过渡至第三声频片段可能是不可行的。但是，优选的实施方案对这样的无缝可听过渡问题提供解决方案。

因此，根据本发明，必须进一步研究于当前的声频片段和拟切入声频播放中的拟定目标声频片段之间的实际退出点和进入点的性质。实际退出点选自至少为一个、通常为数个的、联系至某被辨识了的弱拍(anacrusis)的合适的退出点。在编辑前，预先为每个声频片段辨识合适的退出和进入点(并将其储于数据库中)以致该智能处理环境52只需作最少量的缓冲便能汇编出编辑好的声频，其与外界事件刺激的可解析的流程是互补的。因此可实质上以实时达成声频之间的过渡，且无论是否随现实世界事件的发展动态地选择片段，声频的连续性也没有可辨的损失。

图7b是图7a的第4小节的放大视图。为了令说明清晰，再以简化的块件形式显示第4小节的声频频谱，其具有随时间变更的讯号冲程。第4小节被分成四拍(“第1拍”至“第4拍”)，每拍再细分为同等数量的小份(fraction)(f₁至f₄)—在这例子中每拍具四个同等的小份。相对抽象退出点155，实际可能的退出点将对应在与图7b所示的“可能的实际退出点B164”相关的某弱拍(可替代地并可互换地被称为“pickup”或“起始”(“onset”))处或紧接在其之前或之后的点。弱拍是处于一小节音乐的第一重拍之前的音符或一串音符。因此，通过MIR和/或使用者输入，于抽象退出点155附近辨识了对于实际退出点的弱拍。在图7b的示例中，弱拍处于抽象退出点前：i)在第一可能退出点162的例子中，距离为负一拍零小份；而ii)在第二可能退出点164的例子中，距离为零拍负两小份。

必须执行类似的评估以辨识进入某声频片段的进入点。现参照图7c。实际退出点选自至少一个，通常为数个的联系至某被辨识了的弱拍的合适的退出点。为了令说明清晰，再以简化的块件形式显示第0小节和第1小节的声频频谱，其中的讯号冲程随时间变更。小节0和小节1各被分成了四拍(“第1拍”至“第4拍”)，每拍再细分为同等数量的小份(f₁至f₄)—在这例子中每拍具四个同等的小份。相对抽象进入点152，实际可能的进入点166、168将对应在某弱拍处或紧接在其之前或之后的点。因此，通过MIR和/或使用者输入，于抽象进入点152附近辨识了对于实际进入点166、168的弱拍。在图7c的示例中，弱拍横跨抽象退出点：i)在第一可能进入点166的例子中，距离为正零拍零小份；而ii)在第二可能进入点168的例子中，距离为负一拍负0小份。

作为辨识声频片段内精确、实际的进入和退出点的位置的过程的摘要，优选的实施方案将声频的片段(其在其主题方面已被辨识)分隔成重复的时间单位，例如是跟随节奏的拍子(其可具有变量的时长)。每拍可具有其本身的“速度”(“tempo”)，这里“速度”这词语应被理解为意指每分钟的时间单位的数量。然后将这些拍子细分或“分份”为至少多个相等和等距的时间细份(其称为“小份”)。邻接的拍子之中的小份数量可以是不同的。但邻接的时间单位(“拍子”)的小份的时长可为彼此不同的，因为每个时间单位皆可能具有其独特的速度。因此，相对与拍子相关的第一时基以及第二时基的小份的第二量化时计，相对某辨识了的片段的开始/完结点决定某可能合适但重要的进入/退出点(即某弱拍)的大概位置。是这测定的距离弱拍的时移—其以拍子和小份表示—允许将一声频片段无缝地整合至另一不同的声频片段。更具体地，系统的处理智能寻找退出点和进入点—其以拍子和小份表示—其具有相同的测定时移(以拍子和小份地表示为相同的)，从而达成可听地为无缝的过渡。

因此，如图10所示，将数据库200组成并提供给于图2的系统中运作中的某装置。因此，数据库200将音轨与相关的声轨元数据关联。更具体地，该数据库将声频片段202编配至声轨206的已辨识的主题204，亦表达这些主题是如何相对于该片段中限定的时序208被定义的。最后，每个主题202被分解成至少一个，一般是多个适于编辑的进入点210和退出点212，其与弱拍事件关联(以拍子和小份表示)。

回到图7b和7c，因此，片段之间的剪接将为由当前声频片段于小节4、第4拍的开始(参照标号162)接至片段(X-1)、小节零、第4拍的位置(其对于进入点168具有一拍零小份的弱拍时移)。当然，亦会发生对于该弱拍的其它拍子和小份的时移的组合，这由声频主导。按需要采用缓冲以适应在时序上的滞后或推前，以将不同片段之间的剪接调准。

因此，图7的目的在于支援有效的编辑功能，并更具体地允许辨识编辑点，该辨识是相对于声频的节奏中的，距(与任一拍子记号相关的)小节转折点的特定的量化距离以及拍子和拍子的小份而言的。

图10的数据库至少储存声频片段的交叉参照的进入点和退出点，其中如要将它们无缝地拼接在一起，则必须使它们具有正确的调准的时序。实际上，在计算编辑点之前，需要满足配对的条件。通过起始检测(拍子检测)计算拍子，通过将拍子之间的时间平均细分以计算小份。“实际进入/退出”和“抽象进入/退出”并不对应“抽象小份位置”和“实际检测得的拍子”；没有这样的关系。

图8是时间性示图250，其示出在例如某音轨的不同片段之中不同拍子记号252、254之间的相对时序。例如，第一声频片段中的拍子记号可为复合6/8时间，而第二声频片段中的拍子记号可为简单4/4时间。由于拍子记号之间的时间不同，优选实施方案的系统必须评估某记录下来的退出点和进入点之间的时移(其以拍子和小份表示)是否实际对应。换言之，于片段之间的剪接必须顾及各片段不同的拍子记号。

在优选的实施方案中，通过确立对应一些脉冲的第三时基达成这评估，该些脉冲具有的时长取决于对于不同片段的相应的小节中的小份的最小公倍数，之后将各片段的小节分隔成相同数量的固定时长的脉冲。因此，不同片段的不同小份之间，小份中的脉冲数量可为不同的。因此，系统施加系数以将不同拍子记号调准，这系数为不同片段内的脉冲之间的比率。

在图8的例子中，在复合6/8时间下邻接的拍子之间会具有六个小份。在简单4/4时间下，邻接的拍子之间会具有四个小份。因此对于乘积所得出的最小公倍数提供的脉冲数量为六。因此，在相关性分析后，系数1.5表示(与合适的弱拍相关的)剪接点于(本例子中的)复合时间中存在于小节X、第1拍、第2八分音、第2小份，但于(本例子中的)简单时间中则位于小节Y、第3拍、第3小份。

该乘数系数令一个拍子记号中的时间弱拍可与其它的互换，这可以是复杂的。

将图8技术性地但从乐理角度地表达：

该简单的拍子记号是4/4/(16)。4/4的标号是标准的，而16是意指十六分音小份；因此，每个四分音拍子具有四个十六分音小份。该4/4/16简单拍子记号的实际退出点是从小节结尾计负一拍和负两2小份。在这情况中小节的结尾和抽象退出点对应。

该复合的拍子记号是6/8/(16)。6/8意指每小节具有两拍，每拍为附点四分音符。这意味着每个拍子具有三个八分音，与之相比该简单拍子记号中则只有个八分音。如是者，16分音小份的数量分别为6和4。

在图8的例子中，这意味着，要于某拍子的中间处编辑，需要将小份的数量乘1.5，以从4/4的小节至6/8的小节作同等的编辑。因此，要在拍子之间将编辑点对齐，将简单拍子记号的退出乘以1.5，或相反地，将复合拍子记号的最低组分除以1.5。这意味着得出一列24分音的脉冲，其中简单拍子记号中的一16分音等于三个脉冲，而复合拍子记号中的16分音等于两个脉冲。系统因此能以这样的脉冲测量所有的进入和退出，并将该数量乘以与拍子记号相关的给定系数。这里注明，在这例子中24分的脉冲是正确的，但在涉及其它拍子记号的其它情况中可以是不同的。在实践上就如系统智能说：“这里有一简单拍子记号的退出点，位于负一拍及负两小份，因此是位于-4-2＝-6个16分音小份处。这给出18个脉冲，而每个小份提供三个脉冲。对于复杂时间，该预先计算的退出点于负一拍负一八分音负一小份处发生。因此就是-6-2-1＝-9个16分音小份，这给出十八个脉冲以及每小份三个脉冲，但除以复合系数1.5。两者现皆被正常化至十八脉冲的长度，所以设有对于这进入的退出。

该片段汇编智能52被配置以对任何输入、上载或使用者通过使用者界面输入而提供的简报笔记执行分析。该片段汇编智能52操作以辨识和计算满足该简报笔记所需的音乐分段，其中该辨识是基于和片段关联的元数据进行。该简报笔记可以是在输出声轨期间可被动态更新的，以反映使用者通知的要求的变更。

随后，可用的声频片段62于音序器70中被提供68以作全面的音序处理，其中音序器70优选地是基于AI逻辑的。音序器70(其一般是经编程实施的)是被配置以选择合适的声频分段和将其与相应的事件调准。该音序处理是基于置于声频片段的元数据中的标签与该简报元素的相关性，其中该简报元素即Mashtraxx词汇字词，其被编配至要可听地被加强的外界事件的每部份。

在功能上，该音序器70是被配置或安排以将该音乐时段或功能72辨识和配对；为了声频片段之间无缝过渡这是必须的。此外，该音序器70操作以于不同的已辨识的主题之间将进入点和退出点74配合，其中是正在播放第一主题的某声频片段，而将要将第二主题的某声频片段切入该第一主题，同时(快速地)将第一主题淡出。这也是声频片段之间无缝过渡所必须的。最后，该音序器70配对音乐时序76。这些功能性可以是基于音乐资料检索(music information retrieval,“MIR”)算法(例如上文提及的)，但是通过提供界面解决MIR评估的低效率或错误的自动化分析这些问题，该界面让使用者可以输入、覆写或以其它方式指定于声频片段元数据中施加的标签，从而限定该声频/音乐片段的主题。这对于声频片段之间的无缝过渡也是必须的。如前述般，分段的限定是相对某听者/使用者对该片段中的声频感知的属性和/或通过MIR软件对该片段中的声频测量的量化和/或质化的参数而限定的。

该“主题”可以二进制编码的形式代表，或以基于字词的自然语言代表，其相比刚在上文提供的例子包括更多或更少信息。例如可使用使用者定义的启发式以为该简报笔记提供更高的精度和限定性，从而提供更具指定性的声频分段选择和组合。启发式可涉及例如i)歌曲顺序，即相对原歌曲或原声带中的歌节和副歌的次序，在所得出的声频输出中对其重新排序的程度，ii)分段的独特性，例如指示分段有多少重复或可否重复，以及iii)循环点，其确立将某指定声频分段延长时所需的用于“填充”的点。

在某极限上，该声频分段的元数据标签可以只是一个字，其与用于界定现正进行中的外界事件12的特征的Mashtraxx词汇具关联性。

声频生成器80与音序器70耦合。声频生成器80被配置以管理于正在播放的当前声频分段以及目标分段之间交叉淡变82，其中该目标分段是被编排和选定当外界事件改变时要播放的下一个声频分段。这功能包括辨识与某弱拍(其替代地和可互换地被称为“pickup”或“起始”(“onset”))关联的合适过渡，例如是在某小节音乐的第一重拍前的音符或一串音符。对于现要求保护的发明的实施方案，该起始–例如一重拍–是重要的，因为其欠缺或其时序上的错误皆是可被辨认的，且是代表声频的不自然的断处，而其存在则提供连续性和流动性。因此，优选的实施方案于弱拍处将当前声频分段和随后的一些声频分段拼接，该弱拍是紧接在现播放中的当前声轨或目标声轨中的最早的起始之前的，从而允许表达不同主题的不同声频分段被配对在一起。该系统因此运作以将弱拍钉定至某声频分段中的合适时间点并对其记录。

该声频生成器80优选地包括缓冲功能84以使声频传送更顺利并将延迟减至最短。作为其输出86，该声频生成器80可将该汇编而成的声频分段串流88，或将该声频分段传送至档案90。

图4是对于根据一优选的创作过程的声轨组成和元数据创作的功能性示图。因此图4代表施加至例如原音轨56以创建复合媒体档案(图1的参照标号54)的过程，该复合媒体档案包含对应原音轨56的Mashtraxx元数据。

对于上载至或提供至图3的系统的声轨，该声轨如上述般接受基于AI的MIR算法。通过优选地提供GUI、人工的对声轨的频谱性构成内容、拍子记号102(包括速度)和其它重要的音乐性事件的分析可被输入以限定或(进一步)优化主题和声频分段。因此，这基于人工的过程虽然只是优选的，但其可解决与该声轨特征的自动化诠释关联的不足或错误。例如，可通过GUI手动对某声频分段的期望的信号包络的开始点调节，从而更精确地将声频数据采样的开始与某特定音乐事件的开始调准(从而调准某与该要通过本发明的过程加强的外界事件相关的被辨识的主题)。

对于拍子记号的分析提供对小节和拍子的判断，还判断它们于组成该些选定的声频片段的采样之间发生的任何变化。这分析为(对于优选实施方案)描述的机制提供基础，从而将一个片段无缝地整合进另一片段，即使拍子记号和弱拍不同亦如是。

此外，于每个声频片段中，系统是被配置以检测104于不同时间点的起始。下文将更详细地描述于源切片(即当前在播放中的切片)和目标切片(即被选定为下一段播放的从而改变声频主题的声频分段)之间的剪接，其中将参照图5，而图9示出可决定起始的优选过程。

参照图9而解释的起始判断可独立地于如本文中说明般的其它实施方案和方面上实施，不过若其被包括在系统中其则提供全面的方案。音乐上的起始是指某音乐性(或其它重要的可听到的)事件开始的时间点。

于图9a中，某典型的声频讯号300被示出，其包含具不同波幅的组分302、304。对于起始检测，优选的实施方案先将声频讯号300的瞬变的部份(即声频讯号中快速演变的方面)从静态的部份(即声频讯号中稳定的方面)分离；这产生如图9b中所示的时域的代表方式310。瞬变一般更为与较高频率关联，以及与这些较高频率展示重大的能量增加的地方关联。然后判断该瞬变部份的波幅包络320；这一般是基于卷积函数进行的，如声频讯号处理技术熟练的读者所了解的般。

随后，相对功率阈值330地检测出波幅包络320中的峰值点。峰值点对应某局部区域中包络的最高点。然后，为了达至该起始的精确位置，该系统被配置以从峰值点于时间上往回头方向地处理该瞬变讯号以找出时间点X，在该点X前的该讯号的一周期的某特征与该点X后的该讯号的一周期的同一特征差异是最大的。特征包括但不限于点X前和点X后该瞬变讯号的第一阶导数(derivative)的标准差。换句话说，经过整个瞬变的波幅包络取样的各邻接时间点的功率值之间最大的比率提供起始点的最合适时间位置；这于图9d中描示。若再以不同方式表达，某起始的开始优选是通过寻找、辨识出采样点检测出来的，在该采样点前某周期中某被辨识的特征的改变速率的标准差与该点后该同一特征的相差是最大的。

采样周期可以是于约十毫秒至约五十毫秒的区域之中。作为起始的例子，击钹声大有可能代表起始，因为在其于声频讯号中出现的时间点处瞬态的改变大有可能是最大的。

再回到图4以及产生声轨元数据的过程，进一步的自动化声轨分析(其亦可视乎人手输入而作检讨)作用以解析出小节/拍子位置106。由于水平和因而起始之间的给定的关系，便可从起始检测104或基于起始检测104得出小节或拍子的检测。

对于系统中进行中的讯号处理，拍子记号分析102、起始检测104和小节/拍子检测106(以及任何从使用者110输入的监督性输入)被用于将该声轨切片或分段成具不同时长的主题，并与应用于将外界事件的性质分类(因此亦将声频加强的性质分类)的Mashtraxx词汇关联。在这方面，元标签器112(其优选地以AI逻辑实施)汇编出包括对应选定的声频片段的元数据标签的加强声轨58。如其指示或自推断的，这元数据至少为与该片段相关的主题辨识出音乐性功能和强度以及用于剪接和淡变的退出和进入点。该元数据标签化意味着可将采样和传送的声频帧(即切片或分段)精确地与某被辨识的外界事件12在时间上吻合，例如通过超过触发阈值或从某被编配的Mashtraxx词汇字词识别出某主题而将事件识别。

拍子记号或时间线生成允许以乐谱的方式描述声轨片段，这对于将声轨片段正确地配对是必要的。准确地辨识拍子记号允许采用可动的时间线，其支援自动对齐至最接近的拍子的功能。

该系统生成用于应数码声轨的时间线，其优选地是以拍子和小节形式创建的，并确保为编辑过程保留忠于音乐的乐谱。这对于要成功地将内容剪接、拼接和重新混音以致不损乐曲的音乐完整性，是基本要素。系统智能允许建立弹性的方案，其可根据要更改的声频输入而适应。例如，如检测出音乐速度下降，则可因应地调节时间线。这对于为重新混音和重新编辑的用途而将音乐形式解构是重要的。其导致可得出对声频如何在音乐上与时间线关联的实质的了解，并允许使用者于数码格式中维持对于音乐结构的实在触觉。

因此，声频片段创作是将声轨分成可被重新编排以形成新作品的片段的过程。优选地，将片段自动地对齐至小节。每个片段可属于某可以是可供使用者自订的群组，但优选地默认为是前奏、主歌、过渡、副歌、中间8小节或结尾之任一群组(如元标签所识别的)。每片段允许可自订的元数据属性，包括但不限于强度、音乐功能、乐器、语音和标签。

本发明的系统采用软件以保持以小节、拍子和小节小份的形式作传统的作曲上节奏性的分析。这允许使用者以传统的方式参与小节和拍子编写的分割和了解。这将维持作曲的直觉，以致构思的解构和重新编排变得音乐上是简单直接的。该系统还整合脉冲数据，这充分利用了数字声频的全部潜能，允许了将作曲上最小的小份被进一步分割为脉冲。该些脉冲的主要功能在于提供能应付用于在不同片段中的不同拍子记号之间剪接的不同拍子记号和系数所必须的最小精度。

因此，根据本发明，对于一完整声轨的元数据包含一组声频片段的描述，还包含对如何可将其过渡往任何另一片段或从任何另一片段过渡往该片段的解释。因此，每个声频片段包括广泛的元数据，其在提供有与外界事件的特征描述关联的使用者简报的情况下允许创建一系列的切片顺序。可选地，该元数据可包含对原声轨的参照，以允许正确的声轨从例如Spotify等在线音乐库中被寻出。这允许该元数据被独立于原声轨地被储存，并允许该片段汇编智能52把元数据和声轨两者皆串流或下载。

因此该元数据框架允许根据某些使用者界定的类别将音乐标签。例如，这些类别可包括；例如音乐流派、气氛、风格和速度，并可被用于创建可被搜索的声音数据库。在实效上，该系统导致不仅可以歌名和演出者搜索音乐，还可以声音、流派和音乐风格搜寻音乐。因此图10的数据库配置允许搜索个别片段的元标签，而不只是处理元数据的全局性方案。例如，优选地，该元标签系统可满足这样般的简报要求：“我想要一声轨，它是轻快、欢乐活泼的，它还要在某地方包括喇叭独奏、在某另一地方包括线床式乐器演奏的松弛片段。”固有的系统不能提供这样内容丰富和弹性的搜索。

优选地，元数据的系统法不单允许数据被归属于整个声轨，还促成对指定片段的高精度注解，从而对某首乐曲的重要特征提供描述性数据。每首乐曲皆具有一个或更多个(一般是多个)共同的所施加的音乐特征描述，这因此允许AI机制根据与辨识的(从现实世界)进来的事件的同步要求编辑某数字声频档案。因此该声频的情感元标签是独立于施加至每片段的主题的特征描述。搜寻不同的情感气氛将容许更换出不同的声频片段以满足同步的要求。因此一些重点特征包括音乐击点，以及关于以下方面的功能描述：

·高潮：音乐达至一高峰的地方

·静态片段：音乐在所感知的情境强度和或实际音量强度方面皆无增无减

·戏剧急停：音乐突然变成非常稀疏

·减弱淡变：音乐强度缓慢地减弱

·建立：音乐强度缓慢地增加

·背景音乐：对白和演出之下的低量声频

·流派

·乐器类别

一首乐曲的每个片段皆可在其形式功能方面被描述，即该片段如何于整首乐曲中运作，例如背景音乐、急停淡变和建立。因此，不管被施加至某片段的情感相关情境元标签为何，如果正在进来的事件数据可以所描述的音乐形式功能的形式被描述，则任何一首乐曲皆可被选用，并皆会符合同步的要求，无论由使用者对某首乐曲的特征描述引起的是什么主观地的情感的。这对于本发明的各实施方案中所描述的所施加的处理的功能性是重要的。

元标签不需被限于音乐，并可应用于其它声频来源(例如踢足球声)，以致可插入已标签至某被辨识的外界事件的某声频片段以增强声音场景。

图5是于声轨采样内从某些音乐主题的退出点剪接至其它音乐主题的进入点的一优选的剪接策略的时域示图130。

于图5中有两个时域频谱：第一个的当前“播放中的”声频分段132以及第二个的“目标”声频分段134，其用于引入主题的改变，以及第二个片段，其将要作为新的具相关性的声频输出被切入(即代替)该第一个的当前分段。优选的实施方案以接近无缝的方式达成这淡变/剪接。

两个时域频谱包括共同的特征，例如起始136a-136f。

就拍子记号或时基150方面而言，这在示图中是以垂直虚线表示，其将声频包络分隔成分段，该些分段可具有对应十六分音、四分音的时长或某另一选定的时间安排。在图5中，某示例性的代表方式指定某拍子分成四小份3.1、3.2、3.3和3.4，其将每个包络的相应部份分成四个同等的时间分区。这四小份实际上可能代表该声轨中的某音乐拍子、多个拍子或某其它周期。

参照图6a、6b和6c，就从第一个的当前播放中的声频分段132退出至第二的目标声频分段134而言，优选的淡变/剪接过程首先辨识第一个的当前播放中的声频分段中的相对起始起始_A以及第二个的目标声频分段中的相对起始起始_D，然后将两者对照，其中该评估是相对最接近的合适时基150而作出的。如两起始起始_A和起始_D于时间上彼此接近地被播出，或某预期的起始于时间上被显著地延迟，皆会引致声频的流畅性和主题之间的过渡中发生可察觉的断续。

因此，当要执行主题过渡时，优选的实施方案查看(当前和目标分段中各自的)第一起始之间的采样时间差异(s₁相对s₂的分别以及s₃相对s₄的分别)并选出各候选方案之中最早的方案。无论该起始于当前播放中的声轨还是目标声轨中发生，相对时基150时间上最早的起始的时间点皆是发生从当前播放中的片段交叉淡变—优选地更是瞬间剪接180—至目标分段之时。对于交叉淡变，一般的交叉淡变可能需时上至约五毫秒。交叉淡变是比瞬间剪接优选的，因为其避免因多半情况下出现的两讯号的电平不匹配而可能产生的声频“噗”声。除非特定的语境要求更限制性的解读，否则“剪接”这术语应被视为较快速发生的交叉淡变事件特例。

因此，在图6a中，从当前声频片段132至目标片段134的剪接180是与当前声频片段132中的起始开始上升的采样同时(或，如设有缓冲，比该采样早一点点)地被触发。然后将目标声轨播放，其变成当前声轨，直至需要另一个主题变更为止。因此，在图6b中，从当前声频片段132至目标片段134的剪接180是与目标声频片段132中的起始开始上升的采样同时(或，如设有缓冲，比该采样早一点点)地被触发。一般而言，采样率和时基以一秒的小份运作，所以完全的剪接(而不是较慢的淡变)也是无关重要的及不怎样可被察觉的。因此该过程允许一段声频被无缝、无止境地从新建构。设有缓冲是优选的，因为其允许预处理。

在图6c中，注明目标声频134中的起始于时基150之前发生，而在当前播放的片段中，起始被检测为在时基之后发生。因此在图6c中，剪接和交叉淡变的时间被定于目标片段134中检测得的起始之时，并采用缓冲以确保其时序会被维持。

通过将元数据从原声轨分离并将该元数据储存于具保安的数据库中，优选实施方案的系统可选择将内容的实质内容保持隐形，从而对授权和版权问题作出保护。因此，该分离的过程可消除P2P(对等网络)共享所需的大部份存取，这是因为该内容可以在每次有需要的时候被动态地产生。事实上，优选的实施方案的系统除了可保护原本的内容之外，还可保护由使用者输入和该同步过程所产生的新内容。

因此，本发明的系统和过程支援通过可实时操作的自动化过程作创造性编辑。如此地便可动态地编辑游戏的配乐以跟随游戏的剧情：包括其高潮低潮、成功与失败。由于游戏的体验永远是多变的，这意味着(图2的)智能框架52可操作以串流音乐，其中每首音乐皆对照各自的存取钥匙而被验证，从而杜绝没持有有效的存取钥匙的使用者盗用音乐。此外，使用声频的元标签和与现实世界事件的相关性允许使用者于例如个人的YouTube、Facebook和Vimeo视频上采用其最喜好的音乐。

作为总结，本发明提供方法以编辑具音乐性编作特征的数字声频信息，该方法允许实时性音乐同步。系统提供起始检测，还在退出以及进入性声频片段辨识弱拍事件，其促成可听地无缝的过渡。这先进的系统采用DSP和特制的AI算法以分析原始的声频数据并执行编辑性的操作，其以往是必须专业知识和经训练的音乐专业人士执行的。此外，这具适应性的系统在将声频数据分段的同时，尝试加入一组控制代码，其可被简单地调节以允许编辑性的变化。本发明发挥的作用包括将数字声频信息的在音乐上重要的参数转化。虽然波形成为了数字编辑的标准代表方式和导航界面，但其忽略了以小节和拍子的形式作出的传统作曲节奏性分析。这信息对于声轨的重新编排和重新混音是必须的，并且是自动化同步的不可分割的一部份。此外，这系统还支援将额外的描述性元数据编码在档案格式中，该些元数据涉及某首给定的乐曲的质感(texture)、弹道(trajectory)和强度(intensity)。现时并没有现存的用于捕捉某首乐曲的叙述性功能的元数据格式，而这会提供有条理地这样做的方法，并提供系统以将这高层次信息转换成低层次的可传送的数据格式。

从对最终使用者的功能性的角度看，该软件是被配置以允许最终使用者提供描述性数据，其将促成自动化地取回一组选定的声轨，其由片段汇编智能52自动重新混音以配合需要配乐的情境。最终使用者可通过所描述的存取界面提供指导(该指导可以是基于使用者想创造的气氛)甚至提议其期望音乐达成的故事叙述。该系统优选是被配置以减轻信息超载的现象，这是通过基于从使用者简单的输入决定只取回被估计为对于使用者相关的项目，简单的输入例如为对于某段影片数据的基本注解或关于音乐的拟定用途的信息。该系统是被配置以基于由分析员或注解员决定的全局指定规格和限定于声轨中的指定规格以选择相关的声轨，所述指定规格例如为通过自然语言或Mashtraxx词汇字词输入并与该外界事件关联的。这样的例子包括气氛、音乐的总体步伐/速度、关键乐器(如心目中有选定任何的)以及流派。

除非个别的编排是互斥的，否则本文中说明的各个实施方案皆是可以被组合的，以在有效地传送与感官相关的、同步的声频方面强化系统功能性和/或产生互补的功能。有见前文的说明是如何地全面，技术熟练的读者必能易于了解该些组合。同样地，在较有限的功能性编排是合适的情况下，亦可将优选实施方案的某些方面于独立的编排中实施。实际上，应了解，除非在特定优选实施方案中特定的特征被明文指明是互相不相容的，或前后文意暗示它们为互斥的并不能简单地以互补和/或互助的意味而被组合的，否则本公开的全文是考虑并设想该些互补的实施方案的特定特征是可被选择性地组合的，以提供一个或多个全面但稍为不同的技术方案。

本发明可以是以可下载的形式提供，或在其它电脑可读的媒体(例如CD ROM)上提供，其包含程式代码，当该些代码被体现时，其于网络服务器或类似物上执行该链接嵌入功能性。大家当然会了解，以上说明只是以例子形式提供，而于本发明的范围内是可作细节上的修改的。例如，优选实施方案是以运动的环境以及作为意境而被说明的，但该科技亦适用于声音的增强，例如与击打网球关联的被辨识的声音设定档。因此本发明的系统可被编排以通过在辨识网球被击打的时间点将某声频采样更替入声音混音中而将直播运动赛事的环境性体验增强。

除了将声频数据同步以增强被监察的事件之外，该辨识起始点的方法和系统(如特别是参照图9a至9d而说明的)实际上还可有更多的、进一步的应用范围。因此，该方法和系统还可被更全面地被应用于辨识任何音乐或声频内容档案中的起始，无论该音乐是否在情境主题方面被分类(无论是自动感知的或是通过使用者或专家评价的)。

虽然优选的实施方案是讨论如何将声频适配至外界事件，但相反也是可以的，即外界事件可被声频元数据触发或塑造。例如，外界事件可以是于某电影中连续的场景之间发生的视频过渡，或者是某电脑游戏的关卡中的新阶段(例如在游戏中新的角色登场的时刻，或获取新技能并将其首次向玩家展示的时刻等)。基于对(例如)强度、片段、小节、拍子和拍子的小份之其一或更多项(其在优选实施方案之中被判断)的了解，从各优选实施方案得出的声频元数据可被用以驱动所体验的事件中所观察得的时间性属性的改变，例如是于现场演出的舞台上灯光闪动或道具移动的时间性，或于电脑成像环境或录像中事件的时间性。

Claims

1.一种具有输入和输出的媒体内容增强系统，所述媒体内容增强系统包括：

处理系统，所述处理系统能够接收输入数据，所述输入数据含有针对一个或多个时间事件的时间性变化事件数据；

其中所述处理系统被编排为：

将所述时间性变化事件数据解析为多个分类的情境主题中的一个或多个；

使所述分类的情境主题与至少一个参考媒体文档的文档特定的元数据相关联，所述文档特定的元数据提供针对被辨识为存在于所述至少一个参考媒体文档内的至少一个情境主题的开始时序和结束时序；并且之后

将所述至少一个参考媒体文档的选定部分一起拼接或淡变，以在所述输出处生成媒体产品，所述媒体产品在其情境主题之间具有内容过渡，所述情境主题与所述输入数据中已辨识和选定的时间事件对齐，

并且其中所述时间性变化事件采取以下形式之一：

在持续特征的情况下的开始和结束，其中所述持续特征是形式功能和随时间变化的击点之一；以及

针对击点的特定时间点。

2.根据权利要求1所述的媒体内容增强系统，其中所述处理系统基本上实时地选择所述媒体文档或其部分，以伴随变化的物理或本地环境事件。

3.根据权利要求1或2所述的媒体内容增强系统，其中所述系统被编排为通过在所述分类的主题的情境下动态地改变、重新排序或重复然后播放选定媒体文档或其部分来增强在现实世界中使用者的整体感官体验，所述分类的主題与作为输入提供给所述处理系统的事件的变化性质相关联。

4.根据权利要求1、2或3所述的媒体内容增强系统，其中所述处理系统是一组分布式处理系统。

5.根据前述权利要求中任一项所述的媒体内容增强系统，其中分别进入和离开所述媒体文档或其部分的进入点和退出点支持片段之间的输出中的无缝节奏过渡。

6.根据前述权利要求中任一项所述的媒体内容增强系统，其中所述形式功能选自由以下组成的组之一：

静态片段；

急停；

强度淡变；

强度建立；以及

所述片段的相对强度。

7.根据权利要求1至5中任一项所述的媒体内容增强系统，其中所述随时间变化的击点选自由以下组成的组之一：

声效；

语音；

重复段；以及

乐器类型。

8.根据权利要求1至5中任一项所述的媒体内容增强系统，其中所述输入以强度为形式，由以下中至少一个引起：

光照水平的相对变化；

音量的相对变化；

在可监察的函数中的变化速率；以及

当前媒体文档或其部分与要被剪切或拼接到所述当前媒体文档或其部分中的新媒体文档或其部分之间特征上的相对变化。

9.根据权利要求1至5中任一项所述的媒体内容增强系统，其中所述输入以强度缩放的形式，由以下中至少一个引起：

光照水平的相对变化；

音量的相对变化；

在可监察的函数中的变化速率；以及

10.一种具有输入和输出的媒体内容增强系统，所述媒体内容增强系统包括：

处理系统，所述处理系统能够接收含有时间性变化事件数据的数据流；

其中所述处理系统被编排为：

将所述数据流解析为多个分类的情境主题中的一个或多个；

将所述分类的情境主题与元数据相关联，所述元数据与至少一个参考媒体文档的至少一部分相关联，所述至少一个参考媒体文件与所述多个分类的情境主题中的一个或多个相关；并且之后

将所述至少一个参考媒体文档的选定部分一起拼接或淡变，以反映所述数据流中的所述时间性变化事件数据，从而在所述输出处生成具有与所述数据流中的所述时间性变化事件对齐的内容过渡的媒体产品，

并且其中所述时间性变化事件采取以下形式之一：

在针对所述情境主题的持续特征的情况下的开始和结束，其中所述持续特征是形式功能和随时间变化的击点之一；以及

针对击点的特定时间点。

11.根据权利要求10所述的媒体内容增强系统，其中所述输入是声频文档。

12.一种将一个或多个数字媒体文档中的片段与时间性变化事件数据对齐以组成媒体产品的方法，所述方法包括：

在处理系统的输入处接收含有时间性变化事件数据的输入数据；

将所述时间性变化事件数据解析为多个分类的情境主题中的至少一个；

使所述分类的情境主题与至少一个参考媒体文档所相关联的文档特定的元数据相关联，所述文档特定的元数据提供针对被辨识为存在于所述至少一个参考媒体文档内的至少一个情境主题的开始时序和结束时序；并且

将所述至少一个参考媒体文档的选定片段一起拼接或淡变，以生成媒体产品作为输出，所述媒体产品在其情境主题之间具有与所述输入中已辨识和选定的时间事件对齐的内容过渡，

并且其中所述时间性变化事件采取以下形式之一：

针对击点的特定时间点。

13.根据权利要求12所述的方法，其中所述媒体文档被选择为伴随变化的物理或本地环境事件。

14.根据权利要求12或13所述的方法，其中所述方法通过在所述分类的主题的情境下动态地改变、重新排序或重复然后播放所述媒体文档的选定片段来增强在现实世界中使用者的整体感官体验，所述分类的主題与以时间性输入呈现给所述处理系统的事件的变化性质相关联。

15.一种生成媒体产品的方法，其中一个或多个数字媒体文档中的一个或多个片段与时间性变化事件数据对齐以组成所述媒体产品，所述方法包括：

将所述时间性变化事件数据解析为多个相关的分类的情境主题中的一个；

使所述分类的情境主题与至少一个参考媒体文档的片段所相关联的文档特定的元数据相关联，所述文档特定的元数据限定被辨识为存在于所述至少一个参考媒体文档内的至少一个情境主题；并且

将所述至少一个参考媒体文档的选定片段一起拼接或淡变以生成媒体产品，其中所述媒体产品内存在的情境主题之间的内容过渡与所述输入数据中已辨识和选定的时间事件对齐。

16.根据权利要求15所述的方法，其中所述媒体文档或其片段被选择为伴随变化的物理或本地环境事件。

17.根据权利要求15或16所述的方法，其中所述方法通过在所述分类的主题的情境下动态地改变、重新排序或重复然后实例化片段来增强在现实世界中使用者的整体感官体验，所述分类的主題与以时间性输入呈现给所述处理系统的事件的变化性质相关联。