CN100438633C - 用于扩充音频信号的方法和系统 - Google Patents

用于扩充音频信号的方法和系统 Download PDF

Info

Publication number
CN100438633C
CN100438633C CNB2003801074572A CN200380107457A CN100438633C CN 100438633 C CN100438633 C CN 100438633C CN B2003801074572 A CNB2003801074572 A CN B2003801074572A CN 200380107457 A CN200380107457 A CN 200380107457A CN 100438633 C CN100438633 C CN 100438633C
Authority
CN
China
Prior art keywords
media segment
story
audio signal
dramatic
dramatic parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2003801074572A
Other languages
English (en)
Other versions
CN1732692A (zh
Inventor
D·A·埃弗斯
R·S·科尔
C·托恩
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1732692A publication Critical patent/CN1732692A/zh
Application granted granted Critical
Publication of CN100438633C publication Critical patent/CN100438633C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明涉及一种方法和系统,其中依赖于从一个音频信号提取的特征将一个多媒体故事再现给消费者,该音频信号表示例如该消费者的音乐选择。诸如基调变化和音乐选择的拍子之类的特征与戏剧参数有关,该戏剧参数是通过故事弧、叙述性故事规则和电影或故事结构限定或与其相联系。在一个实施例中,几个音乐轨道的选择提供输入音频信号(602),从该音频信号提取(604)音乐特征,接着一个戏剧参数列表和时间线被产生(606)。接着媒体片断被获得(608),该片断具有与该戏剧参数有关的故事内容,并且该片断和该音乐选择一起输出(610)。

Description

用于扩充音频信号的方法和系统
技术领域
本发明涉及一种用于根据音频信号的提取特征来扩充所述音频信号的方法和系统。本发明可以具体应用于(但是不排它的)以下的系统,其确定并提取音频信号的音乐特征,诸如拍子和基调。
背景技术
已知用一个视频信号来扩充音频信号。这最普遍地出现在音乐视频工业中,其中一个特定的歌曲或歌曲选集具有一个为该音乐建立的视频序列,通常用于经过一个电视网络广播组合的音频和视频。该视频信号是手动地建立的,是利用多个人的经验和才能来选择和/或建立最好地增强该音乐的适合的视频序列而建立的。所涉及的人的技能是最终产品的质量的决定性因素。同时,事实上,扩充是一个漫长而昂贵的处理,并且对大量使用者来说,最终产品的适用性没有实际的保证。
允许一个家庭消费者根据用户的输入建立音乐和视频显示的消费者软件工具也是已知的。欧洲专利申请EP0403118描述在一个数据处理系统诸如一个家庭个人计算机(PC)中的音频/视频编辑。该系统包括程序库、音频和使一个用户能编辑一个音频/视频显示并将其输出的故事创作和编辑模块。国际专利申请WO01/18655公开了一种用于在一个计算机上产生音乐视频的方法和系统,该计算机包括一个编辑接口,该编辑接口包括近景、背景、引入工具和特殊效果按钮的选择,用于与音乐同步地建立用于图形图像组合的指令脚本的时间线,从而产生一个音乐视频设计。
这样已知的家庭/消费者系统使一个消费者能产生他们自己的视频来扩充一个音频信号。然而,如同在专业范围内的视频建立一样,这样的建立是消耗时间的并且又依赖于所涉及的消费者的技能。
典型地,这样的现有技术系统具有(如果有的话)也很有限的自动化性能,并且通常不能用视频故事序列自动地扩充一个输入特别音频信号,其中该视频故事序列依赖于并且遵循该音频信号的语义内容。
发明内容
因此本发明的目的是提供一种用于扩充一个音频信号的改进的方法和系统。
根据本发明的第一方面,提供一种用于扩充一个音频信号的方法,包括接收一个音频信号,从所述音频信号中提取特征,根据提取的特征产生一个戏剧参数的时间序列表,获得至少部分地依赖戏剧参数表的媒体片断,并且输出所述媒体片断。
根据本发明的第二方面,提供一种用于扩充一个音频信号的系统,包括用于接收一个音频信号的输入装置和用于从所接收的音频信号中提取特征、产生与所提取的特征相关的戏剧参数的时间序列表、获得至少部分地依赖所述戏剧参数表的媒体片断的处理装置,以及用于输出所述媒体片断的至少一个输出装置。
因上述缘故,从一个音频信号提取的音乐特征(诸如基调和拍子)与戏剧参数有关,该戏剧参数表示可以包含一个音频/视频数据文件的媒体片断的概要。例如一个快拍可以与具有高速度和激烈的追赶场景的媒体片断很好地匹配。
戏剧参数有利地表示故事的特征诸如风格、速度、事件等等。该戏剧参数也映射到所提取的音频信号的特征(诸如基调和拍子)上。
有利地,该媒体片断被存储在获得它们的数据库中。可替代地,该片断可以根据一个故事模板和适合的戏剧参数在运行时间产生,其中故事模板包括用于一个故事的一般的描述或叙述结构。
例如,一个浪漫的故事模板可以具有某个需要诸如与幸福(主基调(major key))或悲伤(次基调(minor key))相联系的音乐基调。一个描述浪漫的故事的进展的叙述弧(narrative arc)被提供在故事模板中。一个用于浪漫故事的示例弧可以包括以下内容:偶然相遇、关系的发展、悲剧和幸福的或者悲伤的结局。
因此,可能变成产生、获得和再现一个故事给消费者,该故事是基于消费者的音乐选择的。
例如,一个消费者可以选择四个音乐轨道,该音乐轨道被分析以便确定例如类型(或消费者可以输入一个优选的类型)并且从该轨道中提取出音乐特征。该特征被用于确定一个紧密匹配的故事模板,该故事模板接着被用于获得一个合适的匹配媒体片断。例如,接着可以获得具有表示主基调(幸福)或次基调(悲伤)的戏剧参数并且还包含浪漫内容的媒体片断以便组成该故事。
接着该媒体片断与消费者的音乐选择一起被再现给消费者。因此,消费者经历了与所选择的音乐合作并由其传达的故事经历。
有利地,音乐基调的组合(也许一个基调在一个音乐轨道范围内改变或者一个基调在音乐轨道之间不同)也可以用于确定戏剧时刻诸如一个紧张状态的积累和随后的释放。
在一个实施例中,该系统包括一个连接到数据库的个人计算机,该数据库存储媒体片断和故事模板。该计算机具有程序代码,其从表示一个音乐选择的音频信号中提取音乐特征,并且还具有表示一个故事建造模块的程序代码,其选择模板并且依赖于所确定的戏剧参数获得合适的媒体片断,其中该戏剧参数与提取的音乐特征有关。该戏剧参数以可配置的元语言诸如可扩展标记语言(XML)表示。该计算机程序与故事模板以及具有相关的戏剧参数标志的媒体片断匹配,并且将该故事再现给消费者。
有利地,计算机是具有输出装置的家庭网络的一部分,借助于此输出装置照明可以在识别的戏剧时刻改变,并且另一方面围绕消费者的体验环境可以被控制以便和音乐选择一起提供一个引人入胜的故事讲述经历。物理标记语言(PML)可被用于完成前面提到的内容。
由于本发明,可能扩充一个音频信号,而不需要人工输入,在某种意义上仍然产生了一个与音频有关并且对音频致意的扩充内容。
附图说明
现在将只通过示例的方式并参照附图描述本发明,其中:
图1是用于扩充一个音频信号的系统的示意图,
图2是将音乐特征与戏剧参数相联系的表,
图3是产生戏剧参数列表的示例,
图4是存储的故事模板的示例,
图5说明一个存储媒体片断的数据库,
图6是用于扩充一个音频信号的方法的流程图,
图7是用于扩克一个音频信号的PML方法的流程图。
应注意,该附图是概略性的并且不以比例画出。为了附图中简洁和方便起见,这些图的部分的相对的尺寸和比例已经被以放大的或缩小的尺寸示出。相同的附图标记一般用于表示改进的和不同的实施例中相应的或类似的特征。
具体实施方式
图1示出用于扩充一个音频信号的系统100的示意图。该系统100包括经过一个通用数据总线108连接到存储器(ROM)104和存储器(RAM)106的中央处理单元(CPU)102。在一个载体112上的计算机代码或软件110可以被存入RAM 106(或替代地提供在ROM 104中),该代码使CPU 102执行体现本发明一个方法或者方法的指令。该CPU102连接到一个存储器114以及输出装置116、118。一个用户接口(UI)120被提供。
系统100可以具体化为一个具有输出装置116的传统的家庭个人计算机(PC),该输出装置采取计算机监视器或显示器的形式。存储器114可以是通过一个网络连接(LAN或WAN)获得的一个远程数据库。类似地,在家庭网络(LAN)中该输出装置116、118可以分布在家庭周围并且包括例如一个安装在墙上的平板显示器、计算机控制的家庭照明单元、放置在家庭周围的音频扬声器等等。在CPU 102和其它装置116、118之间的连接可以是无线的(例如经过无线标准IEEE802.11、ZigBeeIEE802.15.4或蓝牙的通信)或者有线的(例如经过有线标准以太网、USB的通信)或者两者的组合。
系统100需要输入音频信号,从该音频信号中提取特征。从音频信号进行音乐特征的提取被描述在论文“Querying large collections ofmusic for similarity”(Matt Welsh等人,UC Berkeley Technical ReportUSB/CSD-00-1096,1999年11月)中,该论文的内容并入本文中。该论文描述如何从分析一个输入音频信号来确定特征诸如一个平均拍子、音量、噪声、以及音调过渡。在授权给Tsuruta等人的美国专利US5038658中描述了用于确定音频信号的音乐基调的方法,因此该专利并入本文中并且读者可以参阅其内容。
因此,在系统100中音频信号通过输入装置122被输入到CPU 102中。CPU 102接收该音频信号并且提取音乐特征,如在上述参考文件中描述的音量、拍子和基调。在该实施例中,音频信号经过PC的内部输入装置122诸如一个CD/DVD或硬盘驱动器而被提供。可替代地,音频信号可以借助于一条连接而被输入到网络家庭娱乐系统(Hi-Fi,家庭电影院等等)。
本领域的熟练技术人员将明白与使得这样的信号可用于所述系统100相比,精确的硬件/软件配置和提供输入音频信号的机械装置不是重要的。
为了简单起见并且只通过示例的方式,将使用系统100的PC实施例来描述示例数据结构和操作方法,以便说明本发明的各个方面。
图2示出用于通过计算机程序110使用的示例表200。该表说明预先确定的和限定的戏剧参数206(DP)与提取的音乐特征204(MF)之间的非穷尽关系。例如,众所周知通常音乐具有与幸福或振奋感觉相联系的主基调(MAJ基调),而以次基调(MIN基调)演奏的音乐倾向于更加悲伤和伤心的感觉。
此外,使用五度循环(circle of fifths)的图(对于那些学习音乐的人是公知的)可以确定有关的音乐基调,由于从一个基调到另一基调的过渡不会使消费者惊慌因而其是和谐的。通常,在圆上从一个基调到一个相邻的基调的过渡给消费者产生一种可接受的和谐的过渡,而在该表上从一个基调跳越到一个非相邻基调给用户产生一个听得到的撞击声。例如,C大调/A小调的靠近的相关的(相邻的)基调是F大调/d小调和G大调/e小调。因此,从所述C大调到E大调(非相邻)的基调的移动(在一个音乐轨道内或者从轨道到轨道)将产生用户听得到听觉的撞击声。这样的知识在开发规则时是有用的,对于这些规则来说音乐轨道适合于自动DJ应用中的彼此的内外交叉渐进。
这样的知识可以用于指示一个故事中的戏剧变化(例如,随着音乐加到故事经历中,一个幸福的结婚场景到一个悲伤不幸的场景)。因此,在图2中,相当于这样的非相邻基调改变组合的音乐特征通过具有戏剧参数CLASH的(NAK)表示。该表还说明一个FAST或SLOW的戏剧参数可以与一个提取的TEMPO(每分钟打击率-bpm)结果相联系。例如,大于120的bpm可被指定一个FAST戏剧参数,而具有较慢拍子的歌曲或轨道可被指定一个SLOW戏剧参数。因此,一般说来,根据音乐选择可以确定并显示风格、速度的改变和事件。
具有许多可能的以标记语言标志(例如以XML实现的)或其它属性的形式的戏剧参数,戏剧参数的示例只是用于说明性目的。例如,其它音乐特征诸如仪器类型(一个大提琴可被指定一个SAD/SLOW属性)和高级类型描述标志可被限定。许多音频CD或MP3档案文件具有与一个轨道或CD相联系的类型描述符,例如摇滚、浪漫的、锐舞的等等并且这些能被检索并且指定戏剧参数。WWW.gracenote.com是示例的音乐数据库和服务提供者,其中音乐被按照摇滚、电子/舞曲、爵士乐等等分类。从这样的一个服务中选出的电子/舞曲音乐可以与戏剧参数<FUTURE>或<CYBER>相联系,该戏剧参数<FUTURE>或<CYBER>通常表示可能适合的故事类型。
通过示例我们现在说明这样的标志是如何用于帮助建立一个音乐所传达的故事的。一个期望娱乐的消费者选择用于播放的三个音乐轨道,在它们的PC上的轨道1(TR1)、轨道2(TR2)和轨道3(TR3)。这些轨道的音频信号通过输入装置122而被输入到CPU 102,CPU 102从该音频信号中提取音乐特征并确定音乐特征。该CPU 102在来自计算机程序110的指令之下动作,使用表200(图2)使确定的音乐特征(MF)204与相关的戏剧参数(DP)206相互关联,并且随后建立图3中示出的表300。
表300,以时间排序(建立一个时间线TL 304),表示CPU 102已经确定轨道1以FAST拍子开始并且具有一个相关的戏剧参数HAPPY(也就是一个主基调)。后面的TR2撞击(clash)(确定的NAK特征)并且在一个次基调中(具有一个相当的戏剧参数SAD)。轨道3,与轨道1类似,已经被确定为是通常的FAST(高拍子),并且在一个主基调中(HAPPY)。
因此,音乐选择的高级概要被建立,其中针对轨道3,音乐显著地成为快(TEMPO TR1)、HAPPY(主基调)、一个撞击(NAK和表示悲伤的次基调TR2)以及拍子的增加和幸福基调。已经构建了该高级戏剧概要,接着该CPU 102连接到存储器114以便用一个约略的匹配戏剧概要搜索包含一个故事模板的数据结构。
图4示出用于使用系统100构建的故事模板的集合的示例。该集合可根据类型(GEN 1、GEN 2、GEN 3)设置成如表中示出的那样。该类型可以被消费者(经过UI 120)指示或者例如如本领域中公知的那样通过读取所选择的音乐的描述符标志来确定。GEN1可以例如表示简单的儿童故事、或恐怖、或浪漫或者任何其它被认为适合的故事分类类型。模板404也可以存储其它信息,诸如多少主要人物或主角是适合的(对于一个短的包含爱情三角关系的浪漫故事来说也许只需要3人)。
故事模板404每个具有与叙述的结构有关的相关的戏剧参数。例如,许多故事(特别是好莱坞电影)按照一个三-幕结构,其中幕I建立人物和故事,幕II发展故事并且在幕III该故事被解决。通常,在幕I的结尾存在一个煽动事件,其允许发展人物的新性格。因此,请求人意识到音乐的过渡或轨道改变可以被用于(例如经过一个NAK检测)叙述故事或电影剧本的状态。因此,在图4中,故事模板1(ST1)具有一个简单的叙述性结构,其中戏剧参数表示其中例如第一幕是快的故事弧,移动到幸福的幕II并且以快的场景或幕III的场景结束。一个也许适合这样的模板的示例故事可以是一个简单的儿童故事,其中动物朋友比赛,举行晚会庆祝胜利并且随后追赶着回家。
然而,ST2具有一个不同的故事弧,其中幕II具有与悲伤和慢场景有关的戏剧参数。该故事模板的可变性是可通过音乐特征阶段122确定的多个戏剧参数的功能。此外,故事模板可以存储与每幕(并且因此全部故事)的时间长度有关的信息,短故事具有的所说的幕大略等于一个或两个音乐轨道(6-8分钟或平均),而较长的故事可以具有较长的幕,这些较长的幕具有更多的戏剧参数DP,以便在一幕中表示场景变化的。那些本故事写作和脚本领域中有经验的人可以限定其它参数和与故事模板有关的人物规则。
操作中,CPU 102将故事模板的DP与那些从音乐选择(图3)所确定的DP相比较并且选择一个接近的匹配模板。例如,在图3中确定的DP与图4的ST2的比较显示一个匹配并且因此ST2被选择。已经选择了故事模板404,该CPU 102接着必须用实际的故事内容填克模板ST2。
图5示出以数据库500的形式的示例存储器114,其中数据库500存储多个媒体片断502。一个媒体片断是数据实体,包括例如一个电影的编码的片段(有时称作一个镜头并且其中几个镜头组成一个场景)。因此播放时该媒体片断具有某些相关的持续时间。该片断502通过与戏剧参数有关的标记的属性而被表征。
作为示例,该媒体片断可以被存储为一个XML记录,其包括场景的音频/视频内容的描述(例如类型-作用、幕1、开幕的汽车追赶、4分钟)和与场景的内容有关的戏剧参数。当然,在创建该片断时,整个故事可以发展几个不同的结局和开始(例如,一个故事可以一个汽车或自行车追赶场景开始),每个适合于不同的戏剧参数(TEMPO)。这使得故事的一些预示被保持,同时仍然使不同的片段依赖于为该音乐所确定的戏剧参数而被示出。具有不同的持续时间的相似的场景也可以被建立。
因此,计算机程序指示CPU 102搜索用于媒体片断502的数据库,该媒体片断依据持续时间、幕和戏剧参数约略地匹配所选择的故事模板。该片断被获得、排序并且存储在存储器106中(或硬盘驱动器中),并且随后与音乐一起输出。为方便起见,数据库500也可以可选择地存储故事模板400如图5所示。
例如,参照图3中产生的DP列表以及图4中选择的故事模板(ST2),并且其中儿童的类型已经被指示(也许由儿童自己经由UI 120指示)。具有儿童的类型标志的故事片断被搜索以便匹配确定的时间线(TL)和戏剧参数(DP)。假定轨道1持续4分钟,接着搜索一个具有一个DP组合(FAST-HAPPY)并且持续大约4分钟的开头媒体片断。相似地,用于幕II的具有较慢速度和悲伤主题的一个媒体片断(与第一选择的片断有关的)被搜索并且其将持续大约轨道2的持续时间。最后被标志为具有一个快的/幸福的结局并且与第一片断有关的媒体片断被选择用于再现轨道3。
因此,在该PC实施例中具有识别的和获得的适合的媒体片断502的该故事被输出在显示监视器116上。
图6说明示出上述步骤的流程图。在步骤602中,表示音乐选择的音频信号被输入(IAS)并且在步骤604音乐特征被提取(EMF)。在步骤606,产生一个表征该音乐的戏剧参数列表(GEN DP),接着在步骤608,一个故事模板被选择(ST)并且和该戏剧参数一起使用以便获得合适的媒体片断(OMF)。最后在步骤610,该故事与音乐选择一起输出(O/P)。
本领域的熟练技术人员将明白该故事可以不是连续的。以风格化的喜剧性的预定画面的形式的内容可以在媒体片断内使用,因此减轻了匹配需要的时间期间并且使得已选择的音乐中识别的戏剧时刻和场景输出的匹配更容易。这样的“固有的”喜剧性、卡通或计算机产生的视频内容可以相对快地建立和索引,这使得可以快速建立具有许多故事模板和可利用的媒体片断的相当大的数据库。该片断可以任何方便的方式存储,例如,作为与记录相关的MPEG文件,其依据戏剧参数、类型、人物等等来索引文件。
在上述示例中,依赖于具有大约匹配音乐选择的持续时间的时间线的故事模板,为一个用户重现固有的内容。然而,由于已经选择了一个特定故事模板,媒体片断可以通过处理器102在运行时间被计算机产生。例如,一个媒体片断可以包含计算机产生的内容,其具有用于儿童的简单卡通的形式。由于处理器102产生了实际的媒体片断和它的内容,接着该片断与音乐选择的时间线的匹配是相对简单的。当然,在这样的情况下,利用有助于产生组成故事的媒体片断的简单规则(ACT 1、ACT 2、ACT 3、DP-HAPPY、FAST、HAPPY),故事模板的需要可以被避免。
在另一个说明一个环境智能系统的有利方面的实施例中,在图1中以虚线124表示的模块被实施为一个具有到各种输出装置116、118的网络连接的家庭网络可拆卸(plug-in)模块124,其与标记语言以及设计成传送真实世界的感受的指令组兼容。这样的一个物理标记语言(PML)的示例被描述在申请人的未决申请WO 02/092183中。PML包括提供给终端用户的用于写作、通信和再现感受的装置,以便终端用户在某种程度上沉浸在真实的物理空间内。例如,启动诸如HI-FI以及照明系统的消费者装置的PML可以从一个主处理机网络装置接收指令(该指令可以嵌入在例如DVD视频流中),其促使这些装置输出灯光或声音被修改。因此一个电影中的黑暗场景使得消费者的家庭中的灯光适当地变暗。
PML通常是一个高级描述性标记语言,其可以在具有描述符的XML中实现,该描述符与真实的世界事件有关(<弱光>)。因此,PML启动家庭周围的装置以便以一个标准的方式增加消费者的感受。
图7示出体现本发明的多个方面的示例PML流程图。音频信号被输入(IAS)700并且被分析音乐特征(EMF)702。该特征被提供到故事建立模块124,其产生一个戏剧参数表和时间线,如前所述。依赖于所产生的表,该模块124选择一个故事模板400并且获得适合的媒体片断502。该片断(其可以是固有的或者在运行时间产生的)包括PML描述符以及戏剧参数。该片断接着通过模块124被组合,并且提供到PML解释器(PMLI)704。
因此,与该片断相联系的PML命令被解释并且随后送往在家庭网络上的PML启动的装置706、708、710。例如,装置706、708可以表示一个PML照明系统和一个PML投影机。该装置响应PML命令以便例如在与选择的音乐和获得的媒体片断相联系的叙述性的和音频感受中的某时刻投射变化的光级和色彩在墙上。可以依赖于戏剧特征来控制其它装置710,诸如桌上风扇、或空气调节和加热系统,以便进一步扩充输入音频信号并且输出故事感受。
以上描述了适合于通过提供一个叙述性故事感受来扩充音频信号的系统。该系统可以采取专用的模块124、或者通用计算机的形式,单独地操作或者与消费者网络中其它装置合作。提取的音乐特征诸如基调、基调变化、拍子等等被输入到计算机中,其接着将该特征与戏剧参数相联系。接着合适的媒体片断被获得并且随后输出并且再现给用户。其它输出装置可以用于进一步增强和扩充该故事。
通过阅读本发明,对于本领域的熟练技术人员来说其它的修改将是明显的。这样的修改可以包括该设计中已经公知的其它特征、制造和多媒体系统的使用和其组成部件,并且在不脱离本发明精神和范围的情况下,其可用来代替或者补充在此描述的特征。此外,叙述性的结构和媒体片断可以与在此描述的明确的示例不同,而不会脱离本发明的精神和范围。

Claims (21)

1、一种用于扩充一个音频信号的方法,其包括:
·接收一个音频信号,
·从所述音频信号中提取特征,
·根据该提取的特征产生一个戏剧参数的时间序列表,
·获得至少部分依赖于该戏剧参数的表的媒体片断,以及
·输出所述媒体片断。
2、根据权利要求1所述的方法,其中从所述音频信号提取的所述特征包括拍子、基调、音量中的一个或多个。
3、根据权利要求1或2所述的方法,其中所述戏剧参数的时间序列表的产生包括检索戏剧参数和有关的音频特征的列表,将该提取的特征与检索的有关音频特征进行比较和匹配,并且插入一个包括与该音频特征相关的戏剧参数的条目。
4、根据权利要求1或2所述的方法,其中所述戏剧参数包括风格、速度的改变、事件。
5、根据权利要求1或2所述的方法,其中获得所述媒体片断包括从一个存储器选择一个片断,所述片断与一个有关的戏剧参数一起存储,该片断与戏剧参数表中的相应条目匹配。
6、根据权利要求1或2所述的方法,其中获得所述媒体片断包括产生一个片断。
7、根据权利要求5所述的方法,并且进一步包括接收用户输入,所述用户输入影响所述获得。
8、根据权利要求6所述的方法,并且进一步包括接收用户输入,所述用户输入影响所述获得。
9、根据权利要求1或2所述的方法,其中所述媒体片断包括视频数据。
10、根据权利要求1或2所述的方法,其中所述输出包括存储所述媒体片断和所述音频信号。
11、根据权利要求1或2所述的方法,其中所述输出包括再现所述媒体片断和所述音频信号。
12、根据权利要求1或2所述的方法,并且进一步包括,在获得所述媒体片断之前,选择一个至少部分依赖于所述戏剧参数的表的故事模板,所述故事模板影响所述媒体片断的获得。
13、根据权利要求12所述的方法,其中所述故事模板包括与叙述性的故事结构有关的戏剧参数数据。
14、根据权利要求13所述的方法,其中该媒体片断的获得包括将所选择的故事模板的戏剧参数与媒体片断的那些戏剧参数匹配。
15、根据权利要求12所述的方法,其中用于选择的该故事模板是根据逻辑故事结构规则和戏剧参数列表而被产生的。
16、根据权利要求1或2所述的方法,其中该戏剧参数通过物理标记语言标志表示。
17、根据权利要求1或2所述的方法,其中提取的特征的组合具有相关的戏剧参数。
18、一种用于扩充一个音频信号的系统,其包括用于接收一个音频信号的输入装置,和用于从所接收的音频信号提取特征、产生与所提取的特征有关的戏剧参数的时间序列表、获得至少部分依赖于所产生的戏剧参数表的媒体片断的处理装置,以及用于输出所述媒体片断的至少一个输出装置。
19、根据权利要求18所述的系统,进一步包括用于存储所述媒体片断的存储器。
20、根据权利要求18或19所述的系统,其中所述至少一个输出装置包括在其上显示所述媒体片断的显示装置。
21、根据权利要求18或19所述的系统,其中所述至少一个输出装置对与所述戏剧参数有关的指令作出反应。
CNB2003801074572A 2002-12-24 2003-12-10 用于扩充音频信号的方法和系统 Expired - Fee Related CN100438633C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0230097.8A GB0230097D0 (en) 2002-12-24 2002-12-24 Method and system for augmenting an audio signal
GB0230097.8 2002-12-24

Publications (2)

Publication Number Publication Date
CN1732692A CN1732692A (zh) 2006-02-08
CN100438633C true CN100438633C (zh) 2008-11-26

Family

ID=9950380

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB2003801074093A Expired - Fee Related CN100559460C (zh) 2002-12-24 2003-12-10 用元数据标记音频信号的方法和系统
CNB2003801074572A Expired - Fee Related CN100438633C (zh) 2002-12-24 2003-12-10 用于扩充音频信号的方法和系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNB2003801074093A Expired - Fee Related CN100559460C (zh) 2002-12-24 2003-12-10 用元数据标记音频信号的方法和系统

Country Status (13)

Country Link
US (1) US8433575B2 (zh)
EP (1) EP1579698B1 (zh)
JP (2) JP2006512820A (zh)
KR (1) KR20050086942A (zh)
CN (2) CN100559460C (zh)
AT (1) ATE395789T1 (zh)
AU (1) AU2003285635A1 (zh)
BR (1) BR0317713A (zh)
DE (1) DE60321044D1 (zh)
ES (1) ES2305539T3 (zh)
GB (2) GB0230097D0 (zh)
RU (1) RU2322654C2 (zh)
WO (1) WO2004059986A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3987025B2 (ja) * 2002-12-12 2007-10-03 シャープ株式会社 マルチメディアデータ処理装置およびマルチメディアデータ処理プログラム
JP4513644B2 (ja) * 2005-05-13 2010-07-28 ヤマハ株式会社 コンテンツ配信サーバ
WO2007135585A1 (en) * 2006-05-19 2007-11-29 Ambx Uk Limited Ambient experience instruction generation
WO2008001350A2 (en) * 2006-06-29 2008-01-03 Nathan Bajrach Method and system of providing a personalized performance
KR101138396B1 (ko) 2007-09-11 2012-04-26 삼성전자주식회사 Iptv 단말기에서 컨텐츠 재생 방법 및 장치
CA2996784A1 (en) 2009-06-01 2010-12-09 Music Mastermind, Inc. System and method of receiving, analyzing, and editing audio to create musical compositions
US9310959B2 (en) 2009-06-01 2016-04-12 Zya, Inc. System and method for enhancing audio
US9251776B2 (en) 2009-06-01 2016-02-02 Zya, Inc. System and method creating harmonizing tracks for an audio input
US9177540B2 (en) 2009-06-01 2015-11-03 Music Mastermind, Inc. System and method for conforming an audio input to a musical key
US8785760B2 (en) 2009-06-01 2014-07-22 Music Mastermind, Inc. System and method for applying a chain of effects to a musical composition
US9257053B2 (en) * 2009-06-01 2016-02-09 Zya, Inc. System and method for providing audio for a requested note using a render cache
US8779268B2 (en) 2009-06-01 2014-07-15 Music Mastermind, Inc. System and method for producing a more harmonious musical accompaniment
US20130223818A1 (en) * 2012-02-29 2013-08-29 Damon Kyle Wayans Method and apparatus for implementing a story
US9431002B2 (en) 2014-03-04 2016-08-30 Tribune Digital Ventures, Llc Real time popularity based audible content aquisition
US9798509B2 (en) 2014-03-04 2017-10-24 Gracenote Digital Ventures, Llc Use of an anticipated travel duration as a basis to generate a playlist
US9454342B2 (en) 2014-03-04 2016-09-27 Tribune Digital Ventures, Llc Generating a playlist based on a data generation attribute
EP2963651A1 (en) 2014-07-03 2016-01-06 Samsung Electronics Co., Ltd Method and device for playing multimedia
CN105224581B (zh) * 2014-07-03 2019-06-21 北京三星通信技术研究有限公司 在播放音乐时呈现图片的方法和装置
WO2016019314A2 (en) 2014-07-31 2016-02-04 MindsightMedia, Inc. Method, apparatus and article for delivering media content via a user-selectable narrative presentation
WO2016115154A1 (en) 2015-01-14 2016-07-21 MindsightMedia, Inc. Data mining, influencing viewer selections, and user interfaces
US10261964B2 (en) 2016-01-04 2019-04-16 Gracenote, Inc. Generating and distributing playlists with music and stories having related moods
US10019225B1 (en) 2016-12-21 2018-07-10 Gracenote Digital Ventures, Llc Audio streaming based on in-automobile detection
US10565980B1 (en) 2016-12-21 2020-02-18 Gracenote Digital Ventures, Llc Audio streaming of text-based articles from newsfeeds
US10419508B1 (en) 2016-12-21 2019-09-17 Gracenote Digital Ventures, Llc Saving media for in-automobile playout
US11915722B2 (en) * 2017-03-30 2024-02-27 Gracenote, Inc. Generating a video presentation to accompany audio
JP7121988B2 (ja) * 2018-09-10 2022-08-19 株式会社クロスフェーダー 動画コンテンツ生成方法および生成プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5005459A (en) * 1987-08-14 1991-04-09 Yamaha Corporation Musical tone visualizing apparatus which displays an image of an animated object in accordance with a musical performance
JPH10304242A (ja) * 1997-04-23 1998-11-13 Nippon Telegr & Teleph Corp <Ntt> 劇的映像制作支援方法および装置
CN1319813A (zh) * 2000-01-25 2001-10-31 三星电子株式会社 用于创建多媒体文件的创作设备和创作方法
CN1356824A (zh) * 1997-06-02 2002-07-03 神通电脑股份有限公司 用以在-音乐伴唱装置产生-图像输出的方法与装置

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5038658A (en) * 1988-02-29 1991-08-13 Nec Home Electronics Ltd. Method for automatically transcribing music and apparatus therefore
CA2015215C (en) 1989-06-16 1994-01-11 Bradley James Beitel Computer-based, audio/visual creation and presentation system and method
JPH0668168A (ja) * 1992-08-17 1994-03-11 Nippon Telegr & Teleph Corp <Ntt> 音響キーワードによる映像検索方法および装置
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US5913259A (en) * 1997-09-23 1999-06-15 Carnegie Mellon University System and method for stochastic score following
US6504089B1 (en) * 1997-12-24 2003-01-07 Canon Kabushiki Kaisha System for and method of searching music data, and recording medium for use therewith
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
AUPP624698A0 (en) * 1998-09-29 1998-10-22 Canon Kabushiki Kaisha Method and apparatus for multimedia editing
JP3434223B2 (ja) * 1998-11-19 2003-08-04 日本電信電話株式会社 音楽情報検索装置,音楽情報蓄積装置,音楽情報検索方法,音楽情報蓄積方法およびそれらのプログラムを記録した記録媒体
JP3252282B2 (ja) * 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置
JP2000221988A (ja) * 1999-01-29 2000-08-11 Sony Corp データ処理装置、データ処理方法、プログラム提供媒体及び記録媒体
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
JP2000305578A (ja) * 1999-04-26 2000-11-02 Nippon Telegr & Teleph Corp <Ntt> 音楽データベース作成装置、作成方法およびそのプログラム記録媒体
AU5145700A (en) * 1999-05-19 2000-12-05 Digimarc Corporation Methods and systems employing digital watermarking in music and other media
US6321200B1 (en) * 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals
GB9918611D0 (en) * 1999-08-07 1999-10-13 Sibelius Software Ltd Music database searching
US6355869B1 (en) * 1999-08-19 2002-03-12 Duane Mitton Method and system for creating musical scores from musical recordings
JP4491700B2 (ja) * 1999-08-26 2010-06-30 ソニー株式会社 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
AU7329400A (en) 1999-09-03 2001-04-10 Benson, Iritte Method and system for music video generation
JP2001118689A (ja) * 1999-10-15 2001-04-27 Matsushita Electric Ind Co Ltd 照明制御方法
US7022905B1 (en) * 1999-10-18 2006-04-04 Microsoft Corporation Classification of information and use of classifications in searching and retrieval of information
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
JP3757719B2 (ja) * 1999-11-19 2006-03-22 松下電器産業株式会社 音響データ分析方法及びその装置
US6678680B1 (en) * 2000-01-06 2004-01-13 Mark Woo Music search engine
US6308154B1 (en) * 2000-04-13 2001-10-23 Rockwell Electronic Commerce Corp. Method of natural language communication using a mark-up language
EP2364067B1 (en) * 2000-06-21 2013-12-11 Philips Solid-State Lighting Solutions, Inc. Method and apparatus for controlling a lighting system in response to an audio input
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
JP2002117407A (ja) * 2000-10-10 2002-04-19 Satake Corp 動画像検索方法及びその装置
US6778226B1 (en) * 2000-10-11 2004-08-17 Koninklijke Philips Electronics N.V. Device cabinet with dynamically controlled appearance
JP2002215195A (ja) * 2000-11-06 2002-07-31 Matsushita Electric Ind Co Ltd 音楽信号処理装置
DE10164686B4 (de) * 2001-01-13 2007-05-31 Native Instruments Software Synthesis Gmbh Automatische Erkennung und Anpassung von Tempo und Phase von Musikstücken und darauf aufbauender interaktiver Musik-Abspieler
US8949878B2 (en) * 2001-03-30 2015-02-03 Funai Electric Co., Ltd. System for parental control in video programs based on multimedia content information
US7039585B2 (en) * 2001-04-10 2006-05-02 International Business Machines Corporation Method and system for searching recorded speech and retrieving relevant segments
GB0111431D0 (en) 2001-05-11 2001-07-04 Koninkl Philips Electronics Nv A real-world representation system and language
JP2002341888A (ja) * 2001-05-18 2002-11-29 Pioneer Electronic Corp ビート密度検出装置と情報再生装置
US6740803B2 (en) * 2001-11-21 2004-05-25 Line 6, Inc Computing device to allow for the selection and display of a multimedia presentation of an audio file and to allow a user to play a musical instrument in conjunction with the multimedia presentation
US20030107592A1 (en) * 2001-12-11 2003-06-12 Koninklijke Philips Electronics N.V. System and method for retrieving information related to persons in video programs
US6967275B2 (en) * 2002-06-25 2005-11-22 Irobot Corporation Song-matching system and method
JP4313563B2 (ja) * 2002-12-04 2009-08-12 パイオニア株式会社 楽曲検索装置及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5005459A (en) * 1987-08-14 1991-04-09 Yamaha Corporation Musical tone visualizing apparatus which displays an image of an animated object in accordance with a musical performance
JPH10304242A (ja) * 1997-04-23 1998-11-13 Nippon Telegr & Teleph Corp <Ntt> 劇的映像制作支援方法および装置
CN1356824A (zh) * 1997-06-02 2002-07-03 神通电脑股份有限公司 用以在-音乐伴唱装置产生-图像输出的方法与装置
CN1319813A (zh) * 2000-01-25 2001-10-31 三星电子株式会社 用于创建多媒体文件的创作设备和创作方法

Also Published As

Publication number Publication date
KR20050086942A (ko) 2005-08-30
JP4871592B2 (ja) 2012-02-08
AU2003285635A1 (en) 2004-07-22
CN100559460C (zh) 2009-11-11
CN1732510A (zh) 2006-02-08
GB0230097D0 (en) 2003-01-29
US8433575B2 (en) 2013-04-30
RU2005123387A (ru) 2006-03-20
JP2006512820A (ja) 2006-04-13
WO2004059986A1 (en) 2004-07-15
DE60321044D1 (de) 2008-06-26
ATE395789T1 (de) 2008-05-15
BR0317713A (pt) 2005-11-22
RU2322654C2 (ru) 2008-04-20
ES2305539T3 (es) 2008-11-01
GB0320578D0 (en) 2003-10-01
CN1732692A (zh) 2006-02-08
EP1579698A1 (en) 2005-09-28
EP1579698B1 (en) 2008-05-14
JP2006512625A (ja) 2006-04-13
US20060085182A1 (en) 2006-04-20

Similar Documents

Publication Publication Date Title
CN100438633C (zh) 用于扩充音频信号的方法和系统
CN112530471B (zh) 媒体内容增强系统以及组成媒体产品的方法
CN110603537B (zh) 增强的内容跟踪系统和方法
US7888582B2 (en) Sound sequences with transitions and playlists
US8229935B2 (en) Photo recommendation method using mood of music and system thereof
US10229669B2 (en) Apparatus, process, and program for combining speech and audio data
KR20120132465A (ko) 키워드 및 스트링 입력에 기초한 애니메이트된 미디어를 어셈블링하는 방법 및 시스템
JP2004206711A (ja) デジタルマルチメディア装置システムにおける音楽と画像の同期化
CN1643570A (zh) 具有“dj”模式的媒体播放器
CN101622641A (zh) 图像选择设备、图像选择方法和程序
Taberham A general aesthetics of American animation sound design
JP2000269840A (ja) コンテンツ再生/コンテンツ受信装置
Doudpota et al. Mining movies for song sequences with video based music genre identification system
JP7335175B2 (ja) カラオケ装置
Sibilla Dancing in the Dark. MTV, Music Videos, Bruce Springsteen and the Aesthetics of Rock in the Eighties
JP4836084B2 (ja) 番組制作システムと制作プログラム
JP3908058B2 (ja) 背景映像選択システムに特徴を有するカラオケ装置
CN117524179A (zh) 歌曲节拍数据的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090227

Address after: surrey

Patentee after: Berkvens Winfried Antonius Hen

Address before: Holland Ian Deho Finn

Patentee before: Koninklijke Philips Electronics N.V.

ASS Succession or assignment of patent right

Owner name: ANBULKISIN CO., LTD.

Free format text: FORMER OWNER: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Effective date: 20090227

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081126

Termination date: 20131210