CN102193992A

CN102193992A - 用于生成定制歌曲的系统和方法

Info

Publication number: CN102193992A
Application number: CN2011100992732A
Authority: CN
Inventors: 姜胡彬
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-03-11
Filing date: 2011-03-11
Publication date: 2011-09-21
Also published as: US20110219940A1

Abstract

本发明涉及用于生成定制歌曲的系统和方法。一种基于专家系统的系统，用于为系统用户定制歌曲。该系统包括：能访问因特网的歌曲获取模块，知识获取控制台，该知识获取控制台操作地连接到歌曲获取模块，特征提取模块，该特征提取模块操作地连接到知识获取模块，知识生成模块，该知识生成模块被配置为与知识获取控制台通信，知识库模块，该知识库模块被配置为与推理机模块一起工作并与知识获取控制台通信，被配置为使用知识库用于推理并与歌曲合成器通信的推理机模块；以及与系统用户对接的图形用户界面，以及根据系统用户需求生成歌曲的歌曲合成器。

Description

用于生成定制歌曲的系统和方法

技术领域

本文档涉及计算机实现的系统和方法，用于生成和分发定制歌曲和其他媒体。

背景技术

在过去，已做出努力来定制歌曲。近来的努力使用户能够操作音轨(music track)，将喜爱的歌曲定制成具体的偏好。音乐家们能够单独地录制音轨并通过因特网合作，以创作出一首歌曲，而从未面对面相见。现有的歌曲定制软件程序允许用户将之前录制的多个音轨合并而创造出一首定制歌曲。用户可以使用各种格式的预录制音轨，或者可替换地，可以录制原始音轨用于和预录制音轨结合而获得定制的最终结果。

为了定制歌曲，某些软件应用程序使用了歌曲歌词的卡拉OK型录制，用于之后插入或与之前录制的音轨合并。在这些应用中，应理解的是：当用户希望定制的歌曲正在演奏时，他或她必须演唱到麦克风中，以使得原始歌曲和用户的声音可被同时录制。其他应用软件提供了混合程序，允许用户将之前录制的音轨合并，以试图创作出独特的歌曲。然而这种录制系统常常是复杂的、昂贵的和耗时的，对于期望快速存取个性化的定制录制的用户来说需要相对高的技能水平。

专利号为6288319的美国专利提出了一种通过计算机网络创建具有定制音频混合的电子贺卡的方法。所提出的该方法包括步骤：从歌曲数据库中选择预录制歌曲；从歌曲数据库中、经由服务器计算机、跨过计算机网络而向客户端计算机下载预录制歌曲；在客户端计算机上录制有声(vocal)音轨，同时在客户端计算机上重放预录制歌曲；将有声音轨和预录制歌曲混合，因此创作出定制音频混合；将定制音频混合保存到服务器计算机上；将音频混合集合到电子贺卡格式中；并经由计算机网络向收件人发送电子贺卡。

专利号为6992245的美国专利提出：可以通过分析对应于声音合成单元的声音波形的频率来检测频谱，所述声音合成单元由音素(phoneme)或音素链组成。在频谱上检测局部峰值，并指定含有局部峰值的频谱分布区域。对于每个频谱分布区域，生成振幅谱数据和相位谱数据，振幅谱数据表示根据频率轴的振幅谱分布，相位谱数据表示根据频率轴的相位谱分布。调整振幅谱数据，基于输入音符(note)音高(pitch)，沿着频率轴移动由振幅谱数据所表示的振幅谱分布，并对应于该调整而调整相位谱数据。对应于想要的音色，谱密度被调节为随谱包络一起。所调节的振幅和相位谱数据被转换成合成的声音信号。

专利号为7124084的美国专利提出了一种歌声合成方法和装置，基于实时输入的性能数据，其能够执行接近人类歌声的自然歌声的合成。对于组成歌词的每个语音(phonetic)单元，输入性能数据来提供语音单元信息、开始演唱时间点信息、演唱长度信息等。在早于实际开始演唱的时间点的时间输入每个性能数据，并生成语音单元转换时间长度。通过使用语音单元转换时间、开始演唱时间点信息和演唱长度信息，确定第一和第二音素的开始演唱时间点和演唱持续时间。在歌声合成中，对于每个音素，在确定的开始演唱时间点上生成歌声，并在确定的演唱持续时间中继续生成。

专利号为7135636的美国专利提出了一种用于合成自然发声的歌声的方法，其将性能数据分为变调(transition)部和长声部。变调部由发音(音素链)数据表示，发音数据是从发音模板(articulation template)数据库中读取并被毫无修改地输出。对于长声部，通过线性内插变调部的特性参数并往那里增加固定数据的变化部分而生成一个新的特性参数，该变调部位于长声部的前面以及后面，该固定数据是从不变部分(固定)模板数据库中读取的。用于执行该歌声合成方法的相关装置包括：用于存储变调部的发音数据和长声部的固定数据的音素数据库、用于输出发音数据的第一设备以及用于输出长声部的新生成特性参数的第二设备。

专利号为7365260的美国专利提出：乐曲序列数据由多个事件数据组成，该事件数据包括演奏事件数据和用户事件数据，其被设计成将声音链接到乐曲的行进上。多个声音数据文件存储于存储器中，其与乐曲序列数据相分离。在乐曲再现时，乐曲序列数据的单个事件数据被顺序地读出，并且响应于演奏事件数据的每次读出而生成单音信号。同时，响应于用户事件数据的每次读出而输出声音再现指令。依照该声音再现指令，从存储于存储器中的声音数据文件中选择声音数据文件，并基于每个读出的声音数据而生成声音信号。

专利号为7408106的美国专利提出了一种电视卡拉OK的系统和方法，其使得用户能通过使用诸如蜂窝电话这样的终端而演奏和录制卡拉OK。卡拉OK演奏被录制为MMS消息，该消息随后允许用户将所录制的演奏发送给其他人。据说该系统允许用户在较少公开的论坛上录制他们的卡拉OK演奏，而不需要除蜂窝电话或个人电脑外的任何特殊设备。因为卡拉OK演奏被录制成MMS信息，所以在随后的时间，它能被编辑以用于结合各种媒体，并且能被发送给其他人。

公开号为2005/0254631的美国专利提出了一种电脑生成的个性化声音消息，该消息由级连音频数据文件而创建，所述文件被用个人声音预录制，所述个人的实时声音在声音消息的传递期间将被模拟。对一个人或个人列表的调用是由计算机发出的。被调用的每个人的共同标识符被从数据文件的数据库中读出，并与含有录制声音短句的分离数据库相匹配，每个所述短句是个人说话内容的数字化，该内容对应于标识符——例如个人的第一名字。所录制的声音短句音频与至少一个其他的音频文件相级连，其是将被传递给所调用人员的消息的数字化。

公开号为2006/0028951的美国专利提出了一种用于创建定制音轨的方法，该方法包括步骤：创建歌曲模板，之后定义插入区域，声音、声乐或类似物在该区域被插入到模板中。该方法包括步骤：生成插入清单，并预录制，或用其他方式获取每次插入的录制。当具体的插入被选择时，其被引进插入区，并且定制的音轨可被录制、流出、或以其他方式使用或传递给听众。该音轨可包含个性化的歌曲(使用适当的名称插入)或识别呼叫者的手机铃声。

公开号为2006/0123975A1的美国专利提出了用于创造性作品的个性化或剪辑(tailoring)技术。多个方法或系统可以创建个性化或剪辑的音频和/或视频作品。多个方法和系统可以从一个个体或多个个体中收集音频和/或视觉剪辑请求。该方法和系统可将请求关联到：一个声音或多个声音，一张图像或多张图像。该方法和系统可将请求关联到至少一则消息。该方法和系统可将声音和/或图像与一则消息或多则消息合并，并创建至少一个个性化的或剪辑的作品。通过一种或多种通信方法，该方法和系统可将个性化的或剪辑的作品发布到至少一个个体上。该方法和系统可存储个性化或剪辑的作品。

公开号为2008/0091571的美国专利提出了用于通过诸如因特网的计算机网络而定制媒体(例如，歌曲、文本、书籍、故事、视频、音频)的系统和方法。特别是，该系统和方法提供了在线社区的组建，在该在线社区中接收与演奏者节目相关的定制化媒体或代表性材料的定购，与在线社区相关的演奏者此后被分配为基于他们节目的定制化媒体的定购而工作。一旦由演奏者执行完定制化阶段，定制化媒体被发布给启动定购的用户，所述演奏者被分配为定购而工作并与所述在线社区相关。

尽管本领域有这些进步，但是仍需要一种能够改变歌曲歌词的系统和方法来产生定制歌曲，其给人以该歌曲是以原始方式演唱的印象。

发明内容

一方面，此处公开了一种基于专家系统的系统，用于为系统用户定制歌曲。该系统包括：能访问因特网或网络或其他歌曲源的歌曲获取模块，知识获取控制台(consol)，该知识获取控制台操作地连接到歌曲获取模块，特征提取模块，该特征提取模块操作地连接到歌曲获取模块，知识生成模块，该知识生成模块被配置为与知识获取控制台通信，知识库模块，该知识库模块被配置为与推理机模块一起工作并与知识获取控制台通信，被配置为使用知识库用于推理并与歌曲合成器通信的推理机模块；以及给系统用户对接的图形用户界面，以及根据系统用户需求和推理机模块的指示而生成歌曲的歌曲合成器。

在一种形式中，歌曲获取模块、知识获取控制台、特征提取模块、知识生成模块、知识库模块和推理机模块被配置为生成人工智能歌手(AIS)的集合，其拥有知名歌手或艺术家的所有知识和特征并共同地形成了AIS生成器(AISG)。

在另一形式中，该系统包括操作地连接到图形用户界面的歌曲传递模块。

在又一形式中，图形用户界面和歌曲传递模块合作，充当用户的界面，以请求和获得定制歌曲。

在又另一形式中，歌曲合成器被配置，以使得与AISG通信。

在另一形式中，该系统包括定制管理模块，通过与AISG、歌曲合成器、图形用户界面和传递模块通信，该定制管理模块有效地管理歌曲定制。

在又另一形式中，知识获取控制台被配置，以用于与知识工程师对接。

在又另一形式中，歌曲获取模块被配置，用以从网络、互联网或知识工程师中的任一个获得歌曲。

另一方面，此处公开了一种为用户定制歌曲的方法。该方法包括以下步骤：选择一首特定歌曲，其具有歌手所唱的歌词，获取该歌曲，分析该歌手的声音和歌唱特征，包括语音特征、所唱的字、音调特征，包括音高，将该歌手的声音特征存储在知识库中，作为知识生成模块所生成的知识，向用户显示该歌词，输入字替换来定制歌词，模拟艺术家的声音并替换该歌曲中的字，形成定制的歌曲，并将定制的歌曲文件传递给用户。

从关于附图而做出的详细说明中，这些特征和其他特征将是显而易见的。

附图说明

通过参考随后的说明书和附图例示、通过非限制性的示例的方式，可以获得进一步的解释，其中：

该图描绘了一种基于专家系统的系统，用于为系统用户定制歌曲，以此为依据。

具体实施方式

出于例示的目的，现在将根据所选的具体形式来描述各个方面。应该理解的是：此处公开的系统和方法的精神和范围并不局限于所选的形式。此外应注意的是：此处提供的图片并非画成任意特殊的比例或尺寸，以及可以在例示的形式上做许多变更。现在对附图做出注解。

以单数语法形式所写的以下每个术语：“一”、“一个”和“该”，正如此处使用的那样，可能还涉及和包括多个所陈述的实体或目标，除非此处特别定义或声明，或者除非上下文以另外方式清楚地指定。

下面的每个术语：“包括”、“含有”、“有”、“具有”、“包含”、和“组成”和它们的语言的或语法的变量、派生和/或变化，正如此处所使用的，意为“包含但不限于”。

在整个例示的说明书中，这些例子和所随附权利要求，参数的数值，特征，对象或尺寸，可能以数值范围的格式来陈述或说明。应该完全明白的是：所陈述的数值范围格式是为了举例说明此处所公开的形式实现而提供的，并不应该理解成或解释成对此处所公开形式的范围的不灵活限制。

此外，为了陈述或说明数值范围，短语“在大约第一数值和大约第二数值间的范围内”被认为等于，或意味与短语“从大约第一数值到大约第二数值的范围内”相同，并且因此这两个等效意义的短语可被交替使用。

需要明白的是：此处公开的各种形式并未将其应用局限于方法形式的操作或实现的步骤或过程、以及子步骤或子过程的顺序或时序、编号的细节，也不限于下列例示说明及实例中所提出的步骤的类型、排列和顺序的细节，除非此处以另外方式特别陈述。可根据其他各种可选的形式或以其他各种可选的方式来实施或执行此处公开的系统和方法。

还需要明白的是：此处在整个本公开中所使用的所有技术和科学词语、术语和/或短语，和本领域技术人员通常所理解的具有或者相同或者相似的意思，除非此处以另外方式特别定义或陈述。此处在整个本公开中所使用的措辞、术语和符号是出于说明的目的，并且不应该被认为是限制。

此处公开的是一种基于专家系统的系统，用于为系统用户定制歌曲。该系统包括：能访问因特网或网络或其他歌曲源的歌曲获取模块，知识获取控制台(consol)，该知识获取控制台操作地连接到歌曲获取模块上；特征提取模块，该特征提取模块操作地连接到歌曲获取模块上；知识生成模块，该知识生成模块被配置为与知识获取控制台相通信；知识库模块，该知识库模块被配置为：与推理机(inference engine)模块一起工作并与知识获取控制台通信，被配置为将知识库用作推理并与歌曲合成器通信的推理机模块；以及与系统用户提供对接的图形用户界面；以及根据系统用户的需求和推理机模块的指导而生成歌曲的歌曲合成器。

此处还公开的是一种为用户定制歌曲的方法。该方法包括步骤：选择具有歌手所唱歌词的特定歌曲，获取该歌曲，分析歌手的声音和歌唱特征，包括语音特征，所唱的歌词，音调特征，包括音高(pitch)，将歌手声音特性存储在知识库中，作为知识生成模块所生成的知识，向用户显示歌词，输入歌词替换来定制歌词，模拟艺术家的声音并在歌曲中替换歌词用以形成定制的歌曲，并将该定制的歌曲文件传递给用户。

正如本领域技术人员可以理解的：专家系统尝试提供问题的答案，或者阐明不确定性，其中通常将需要一个或多个人类专家以供咨询。专家系统在特殊问题领域中是最普通的，且是传统的应用和/或人工智能的子域。可使用各种各样的方法来模拟专家的工作，但是，大多数所共有的是：1)知识库的创建，所述知识库使用一些知识表示体系来捕捉主题专家(SME)的知识，以及2)将来自SME的知识聚集并根据体系将其编码的过程，这被称为知识工程。专家系统可能或不可能具有学习部件，但是第三个公共元素是：一旦该系统被开发，其通过被置于和人类SME同样的真实世界问题解决环境中来被证明，典型地作为人类工作者的辅助或某些信息系统的补充。

专家系统的特征和它们的结构包括这样的事实：所采取的用于得出结论的步骤顺序对于每种新的情况是动态合成的。当系统被建立时，其并未明确地被编程。对于任意的问题参数，专家系统能够处理多个值。这允许：不止一条推理线被追踪，以及未完成(未完全确定)的推理结果被呈现。通过应用具体的知识而非具体的技术来完成问题解决。在专家系统技术中这是一条关键的观念。它反映了这样的信念：人类专家和其他人相比并不会有差异地处理他们的知识，但是他们确实拥有不同的知识。利用这个原则，当一个人发现他们的专家系统并没有产生预期结果时，工作开始扩展知识库，而非改编该程序。

有各种专家系统，在这些系统中知识库或规则库和推理机合作，来模拟推理过程，该过程是人类专家在分析问题和得出结论时所实行的。在这些系统中，为了模拟人类推理过程，需要大量的知识存储于该知识库中。通常，这种专家系统的知识库包含了相对大量的“ifthen”型语句，该语句在某种方式上，至少在理论上是相互联系的，类似包含于人类推理过程中的思维步骤的顺序。

专家系统和传统问题解决程序的主要区别在于方式，问题相关的专门知识以该方式编码。在传统应用中，问题的专门知识兼用程序和数据结构而编码。在专家系统方法中，所有问题相关的专门知识只以数据结构编码；非问题特定的信息以程序结构编码。该组织方式具有多个好处。

专家系统的通常结构包括两个主要部件：被称作知识库或规则库的依赖于问题的数据声明的集合，以及被称为推理机的独立于问题(虽然高度依赖于数据结构)的程序。

通常有与专家系统具有交互的三个个体。这些个体中最主要的是终端用户；即使用系统用于其问题解决支持的个体。在系统的建立和保持中有两个另外的角色：建立和提供知识库的问题域专家，所述知识库提供域专门知识，以及知识工程师，其辅助专家确定其知识的表达，将此知识输入到解释模块中，并且定义推理技术，该技术被需要来用以获得有用的问题解决行为。通常，知识工程师将以规则的形式来表示问题解决行为，其被称为基于规则的专家系统。当这些规则从域专门知识中创建时，知识库存储专家系统的规则。

“推理规则(inference rule)”概念的理解对于理解专家系统是重要的。推理规则是含有两个部分的语句，“if”从句和“then”从句。此规则给予专家系统发现诊断和规定性问题的解决方案的能力。

专家系统规则库由多个这样的推理规则组成。它们作为单独的规则而被键入，并且是推理机一起使用了它们来得到结论。因为每条规则是一个单元，可以增或删规则而不会影响其他规则(虽然它应该影响达到哪个结论)。推理规则与传统编程相比的一个优点在于推理规则使用了更接近于类似人类推理的推理(reasoning)。因此当结论得出时，可能理解结论是如何得出的。另外，因为专家系统以与专家类似的方式使用知识，所以可更容易地从该专家检索此信息。

外壳(shell)是用于建立和保持基于知识的应用的完整开发环境。它提供了步进式方法，并为知识工程师理想地提供了诸如图形界面这样的用户友好界面，其允许域专家本身直接参与构造和编码知识。外壳的例子包括CLIPS和eGanges。CLIPS是用C写成的正向链基于规则的编程语言，其还提供了过程的和面向对象的编程工具，并可在www.sourceforge.net上获得。eGanges(电子注释对抗嵌套(electronic Glossed adversarial nested)图形专家系统)是一个专家系统外壳，主要用于法律、质量控制管理和教育的领域，并可在www.grayske.com上获得。

利用上面内容作为基于专家系统的系统的背景，现在对图做出注解，该图表示用于定制歌曲10的系统的一种形式。如所示的那样，系统10包括歌曲获取模块12，歌曲获取模块12得以直接或通过网络连接访问因特网。歌曲获取模块12操作地连接到知识获取控制台14和特征提取模块16。知识获取控制台14还被配置为：与知识生成模块18和知识库模块20通信。知识库模块20和推理机模块21合作而形成专家系统23。推理机21使用知识库20中的知识来执行推理任务。

配置歌曲获取模块12、知识获取控制台14、特征提取模块16、知识生成模块18以及包含知识库模块20和推理机21的专家系统23，用于生成人工智能歌手(AIS)的集合，其拥有知名歌手或艺术家的所有知识和特征。那些部件共同地称作AIS生成器(AISG)22。

为了与系统用户U对接，提供了图形用户界面24，图形用户界面24操作地连接到传递模块26。通过结合，这两个模块充当用户的界面，用以请求和获得他/她的定制歌曲。根据用户U设置的请求和来自专家系统23的指示，歌曲合成器28生成歌曲，并且该歌曲合成器被配置为与AISG 22通信。定制管理模块30通过其与AISG 22、歌曲合成器28、图形用户界面24和传递模块26的通信，管理歌曲定制的过程。

如图中所示的那样，AISG 22独立于用户U而工作，因为用户U没有控制AISG 22。通过不变地工作、或者只要系统操作员或知识工程师E请求其工作，AISG 22就创立一组人工智能歌手。在操作中，歌曲获取模块12从网络/因特网I、或通过知识工程师E的输入而获得一首歌曲，该歌曲具有基本的索引信息，例如歌曲歌手的名字，谁写的内容，谁谱的音乐，等等。也可由知识工程师E通过知识获取控制台14来提供歌曲。

当提供或获取歌曲时，该歌曲将被发送到特征提取模块16以用于分析，而歌手具体歌曲的特征被提取。特征提取模块16使用诸如利用小波变换方法的传统频谱分析器的算法来提取特征。

正如本领域技术人员将认识到的，小波变换是一种工具，该工具将数据或信号转换成不同的频率组件，之后用与其比例匹配的分辨率研究每个组件。通常，小波被有目的地构造以具有特殊的性质，该性质使得它们对于信号处理是有用的。使用被称作卷积的移位、乘法和加法技术，小波可与未知信号的部分组合，以从该未知信号中提取信息。

例如，小波可被创建成具有中央C音和大体是第32音符的短持续时间的频率。如果此小波在周期性时间间隔内与从歌曲录制中所创建的信号相卷积，则这些卷积的结果对于确定歌曲中何时演奏中央C音音符是有用的。数学上地，如果未知信号含有相似的频率信息，小波将共振，就像音叉和其特殊调谐频率的声波物理共振一样。

因为小波是个数学工具，所以它们可被用于从许多不同种类的数据中提取信息，该数据包括音频信号。通常需要小波集合来充分地分析数据。一组互补的小波将毫无间隙或重叠地解构(deconstruct)数据，因此该解构过程是数学可逆的。因此，互补小波集合在基于小波的压缩/解压缩算法中是有用的，其中需要用最小损耗来恢复原始信息。

更加技术性地讲，小波是用于将给定函数或连续时间信号划分成不同尺度分量的数学函数。通常可以分配频率范围到每个尺度分量。之后可用与其尺度匹配的分辨率来研究每个尺度分量。小波变换是用小波的函数表示法。小波是有限长度或快衰减振荡波形(通称母小波)的被改变比例和转换的拷贝，通称子小波。小波变换较之于传统的傅里叶变换在下列方面有优势：用于表示具有不连续性和尖峰的函数，以及用于精确地解构和重构有限的、非周期和/或不稳定的信号。

用于特征提取模块16的使用小波变换的频谱分析器是商业可获取的。合适的分析器包括但不限于小波变换谱分析器，可从www.sourceforge.net和MATLAB Wavelet Toolbox中获得，可从麻萨诸塞州Natick的MathWorks中获得。

这些特征包括歌曲的基础要素以及是用于采用不同歌词，好像由歌手原本唱的那样合成歌曲的必要组件。换句话说，基本特征的组合形成了歌曲，就像光可被分为三原色：红、蓝和黄。不同数量的三原色的组合形成了具有相异颜色的不同光束。这些所提取的特征将被发送到知识生成单元18中，所以它们可被转换成知识格式并被保存到知识库模块20中。知识库模块20将对所有的歌曲，它们的特征和关于歌手的知识进行索引和分类。

正如可以理解的那样，随着通过上述过程而获取更多的歌曲，知识库模块增长。但是，在多数情况中，从具体歌曲中提取的特征仅仅表示那首特定歌曲的特征。知识工程师E可以是一名了解特定歌手的专家。通过使用知识获取控制台14，他/她不仅将增加歌曲的特征，而且会将歌手的特点教给系统，例如歌手唱不同类型歌曲的技巧、不同的情绪(例如悲伤、快乐)、特殊演唱效果等。因此通过连续精炼知识，人工智能歌手将更接近类似真实的歌手。

通过下列过程来精炼人工智能歌手。

1)通过具体歌曲的获取来增长知识库模块20中的知识库。此过程包括下列步骤：

a.通过歌曲获取模块12的歌曲获取；

b.通过特征提取模块16的特征提取；

c.通过知识生成模块18的知识生成；以及

d.将该知识增添到知识库模块20的知识库中。

2)精炼具体歌曲的特征。此过程包括下列步骤：

a.通过知识获取控制台14由知识工程师输入/精炼；

b.通过特征提取模块16的特征提取；

c.通过知识生成模块18的知识生成；以及

d.将该知识增添到知识库模块20的知识库中。

3)精炼歌手的特点。此过程包括下列步骤：

a.通过知识获取控制台14由知识工程师输入/精炼；

b.通过知识生成模块18的知识生成；

c.将该知识增添到知识库模块20的知识库中；

d.通过使用正好存储于知识库20中的知识、通过推理机21的指导，知识工程师命令歌曲合成器28生成歌曲，比较由歌曲合成器28所生成的歌曲和其特点已被获悉的原始歌曲，调准该特点并更新知识库20中的知识，并重复该过程直到用户满意为止。

歌曲定制是通过下列过程实现的。首先，用户U已选定一首他/她想改变具体歌词的歌曲，并用所选定的歌词来取代它们，其将听起来好像它们是由原唱歌手或艺术家唱的。用户U利用可被操作地连接到计算机网络和因特网的图形用户界面24来用以：

1)为系统提供一首歌或从系统中选择一首歌；

2)如果提供歌曲，则详细说明歌手的名字、歌曲的对应内容和其他物流信息(logistics information)；

3)详细说明将被取代的歌词；以及

4)提交定制请求。

在这种情况下，其中用户U请求一首歌曲而该歌曲不在知识库模块20中，则定制管理模块30经由歌曲获取模块12获得该歌曲，并将所选的歌曲发送到特征提取模块16，以获取基础特征。通过遵循上述过程，所提取的特征被保存到知识库模块20的知识库中。如果给定的歌曲在知识库模块20的知识库中，则不需要任何提取。定制管理模块30将向推理机模块21提供某些高级需求并激活推理机模块21。推理机模块21将基于知识库20中的知识而执行推理，为歌曲合成器28提供指示或指令：关于如何混合特征，使用特征的数量，将使用什么特性，如何应用诸如顺序、音量，等等。仍以颜色作例子，我们可能需要创建一种颜色，该颜色具有诸如光泽和亮度的高级要求。推理机21将执行推理，决定红绿蓝三原色的数量(volume)或强度，加上用于色彩生成器的光泽和亮度的特征。之后定制管理模块30将指示歌曲合成器模块28生成具有所选歌曲基本特点的歌曲，该歌曲具有被替换的用户选择的歌词。传递模块26与用户U合作来通过电子邮件传递该歌曲，或存为一个文件，或使用由本领域技术人员所公知的其他通信方式。

例如，用户选择了一首部分内容为“我爱你”的歌曲。用户能够确定用“Hubin”取代歌曲中的“你”。按照此处描述的系统和方法所准备的定制歌曲将会唱“我爱Hubin.”，就好像原始歌曲是由所选的同一个歌手或艺术家所唱的那样。

在另一种形式中，提供乐谱来创建一首歌曲，该歌曲是由用户选定的歌手人工演唱的。正如可以理解的那样：该系统10将使用相似的过程生成该歌曲。

正如此处所描述，图形用户界面模块24允许用户改变所选歌曲的歌词，并根据他或她的需求而定制那首歌。为了将其实现，在系统10中使用文本到语音的引擎(text-to-speech engine)。各种各样的这类引擎是商业可获得的，并且对于这些目的来说足够了。其他商业可获得软件可能发现其在此处所述的系统和方法的实行中的效用。通过例示的方式，并不打算限制本发明，诸如塞浦路斯尼克西亚的Avnex有限公司发布的AV Voice Changer Software Diamond软件，可用于改变歌手或艺术家的听觉表现的音调特征，以及录制语音的音调变化或情绪，例如通过修改听觉表现的音高、拍子、速度、均衡和回响。

概括地说，此处公开的系统操作以用来1)从歌手的声音、歌曲和语音，分析歌手的声音和歌唱特征，包括语音特征，所唱的歌词，语调特征，包括音高(音符等)，2)创建将每个歌手的特征进行分类的知识库，建立用于多种特征的规则来虚构不同的情绪(悲伤、快乐等)，特殊演唱效果等，3)使用上述1)和2)来创建具有用户所选的歌曲的乐谱的任意歌曲，以生成由从系统中所选歌手演唱的定制歌曲，以及4)为了获得该歌曲的具体特征，分析给定歌曲，并且让用户提供内容来替换歌曲中的至少部分歌词，之后重建该歌曲，就像歌手在他/她的原始歌曲中唱用户所选的歌词那样。

定制歌曲可被传递给用户，以标准格式，例如WAV、MP3或其他传统的格式，正如本领域技术人员意识到的那样。所录制的声乐作品的传递例如可以是通过FTP、端到端联网、内容的电子邮件或上传到网站。

正如可以理解的那样，用于执行此处所公开的系统和方法的各个方面的典型环境包括计算机。该计算机包括处理单元、系统存储器和系统总线。该系统总线耦合系统部件到处理单元上，该系统部件包括但不限于系统存储器。该处理单元可以是任意各种可利用的处理器。双微处理器和其他多处理器结构也可用作处理单元。多个计算机当然可以用在此处所公开的系统和方法中。

系统总线可以是任意多种总线结构，包括存储器总线或存储控制器，外围总线或外部总线，和/或局部总线，使用任意各种的可用总线架构，包括但不限于：15位总线，工业标准架构(ISA)、微通道架构(MSA)、扩展ISA(EISA)、智能驱动电子器件(IDE)、VESA局部总线(VLB)、外设部件互联(PCI)、通用串行总线(USB)、加速图形接口(AGP)、个人计算机存储卡国际协会总线(PCMCIA)和小型计算机系统接口(SCSI)。

系统存储器包括易失性存储器和非易失性存储器。基本输入/输出系统(BIOS)存储于非易失性存储器中，BIOS包含基本程序，例如在启动期间在计算机内的元件间传输信息。通过例示的方式，但非限制，非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)或闪存。易失性存储器包括随机存取存储器(RAM)，其担当外部高速缓存存储器。通过例示的方式而非限制，RAM可以用许多形式获取，例如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链接DRAM(SLDRAM)和直接总线式RAM(DRRAM)。

在此处所公开的系统和方法的实施中有用的计算机还包括可移动/不可移动、易失性/非易失性计算机存储媒体，例如盘存储器。盘存储器包括但不限于，像磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡或存储棒的设备。此外，盘存储器可包括与其他存储媒体分离和结合的存储媒体，包含但不限于光盘驱动器，例如大容量只读光盘驱动器(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或数字多功能光盘ROM驱动器(DVD-ROM)。为了将盘存储设备便利地连接到系统总线上，典型地使用可移动或不可移动的接口，例如接口。

应该理解的是：软件被预期在用户和此处所述的基本计算机资源之间担当中间物。这种软件包括操作系统。这种操作系统可存储于盘存储器上，并用于控制和分配计算机系统的资源。通过程序模块和存储于系统存储器中或盘存储器上的程序数据，系统应用软件通过操作系统利用资源管理。应该理解的是：本发明可用各种操作系统或操作系统的组合来实现。

用户通过输入设备而键入命令或信息到计算机中。输入设备包括但不限于指示设备，例如鼠标、轨迹球、尖笔、触摸板、键盘，麦克风、操纵杆、游戏垫、卫星天线、扫描仪、电视调谐卡、数码相机、数字视频照相机、网络照相机，等等。这些和其他输入设备通过系统总线、经由接口端口而连接到处理单元上。例如，接口端口包括：串行端口、并行端口、游戏端口和通用串行总线(USB)。输出设备使用与输入设备端口相同类型中的一些。因此，例如，USB端口可用于提供输入到计算机，以及从计算机中输出信息到输出设备。可给输出设备提供输出适配器，像需要特殊适配器的其他输出设备中的监视器、扬声器和打印机。输出适配器包括，以例示的方式但非限制，在输出设备和系统总线之间提供连接手段的视频和声音卡。应该注意的是：其他设备和/或设备系统均提供输入和输出能力，例如远程计算机。

系统计算机能够使用到一个或多个远程的计算机，例如远程计算机的逻辑连接运作在网络环境中。远程计算机可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的应用，对等设备或其他公共网络节点等，并且典型地包括多个或所有与计算机相关描述的元件。远程计算机可通过网络接口而逻辑连接到系统计算机上，之后经由通信连接而物理连接。网络接口包含通信网络，例如局域网(LAN)和广域网(WAN)。LAN技术包括光纤分布式数据接口(FDDI)、铜线分布式数据接口(CDDI)、以太网/IEEE、令牌环/IEEE等等。WAN技术包括但不限于，点对点链路，像综合业务数字网(ISDN)及其变化的电路交换网络，分组交换网络和数字用户线路(DSL)。

通信连接包括被用于连接网络接口和总线的硬件/软件。仅仅出于示范的目的，用于连接到网络接口的必要硬件/软件包括内部和外部技术，例如包括常规电话级调制解调器，电缆调制解调器和DSL调制解调器的调制解调器，ISDN适配器和以太网卡。

应该理解的是：本发明的功能可使用JAVA、XML或其他任意合适的编程语言来实现。本发明可使用任意类似的、合适的语言来实现，该语言由当前现有编程语言进化而来或模仿当前现有编程语言。此外，此处公开的系统和方法可作为单机应用软件而实现，作为网页嵌入小应用程序而实现，或者通过任何其他合适的方法而实现。

此外，本领域技术人员应理解：本发明可单独在计算机网络上或者结合用于提交用于歌词定制的信息的其他方式而实现，包含但不限于：公用电话亭、传真或邮寄提交和语音电话网络。此外，通过在单机电脑上提供上述所有功能而非作为计算机网络的一部分，也可以实现本发明。

此处公开的系统可包含一个或多个客户端。该客户端可以是硬件和/或软件(例如线程、过程、计算设备)。该系统还可包括一个或多个服务器。该服务器也可以是硬件和/或软件(例如线程、过程、计算设备)。客户端和服务器之间的一个可能通信可以是数据分组的形式，该数据分组适于在两个或多个计算机过程之间传送。该系统可包括通信框架，可使用该通信框架来方便客户端和服务器之间的通信。客户端可被操作地连接到一个或多个客户端数据存储器上，该存储器可用于存储客户端的本地信息。同样地，服务器可被操作地连接到一个或多个服务器数据存储器上，该存储器可用于存储服务器的本地信息。

此处引用的所有专利、测试程序和其他文档，包括优先权文档，在此全部并入以供参考，直到这种程度，在这种程度上这种公开与本公开没有不一致的地方，并且用于全部权限，在所述权限中这种合并是允许的。

尽管已用精确细节而描述了此处所公开的说明性实施例，应该明白的是：其他各种修改将对本领域技术人员是显而易见的，并且可由本领域技术人员容易地做出而不会脱离本公开的精神和范围。因此，至此附加的权利要求的范围并不意图被限定于此处所提出的例子和描述，而是把权利要求构造成：包含存在于此处的可专利新颖性的所有特征，包括本公开所属领域的本领域技术人员能视为等价物的所有特征。

Claims

1.一种为用户定制歌曲的方法，包括步骤：

(a)选择一首特定歌曲，其具有歌手所唱的歌词；

(b)获取该歌曲；

(c)分析该歌手的声音和歌唱特征，包括语音特征，所唱的字，音调特征，包括音高；

(d)将该歌手的声音特征存储在知识库中；

(e)向用户显示该歌词；

(f)输入字替换，用以定制歌词；

(g)模拟艺术家的声音并替换该歌曲中的字，以形成定制的歌曲；以及

(h)将该定制的歌曲文件传递给用户。

2.如权利要求1所述的方法，其中所述传递步骤经由网站实现。

3.如权利要求1所述的方法，其中所述歌曲获取步骤由能访问因特网的歌曲获取模块实现。

4.如权利要求1所述的方法，其中所述歌曲获取步骤由知识工程师通过知识获取控制台对接实现。

5.如权利要求1所述的方法，其中所述分析歌手的声音和歌唱特征的步骤由特征提取模块和知识生成模块实现。

6.如权利要求1所述的方法，其中模拟艺术家的声音并替换该歌曲中的字以形成定制歌曲的步骤由推理机模块和歌曲合成器模块实现。

7.如权利要求6所述的方法，进一步包括步骤：经由知识工程师，命令歌曲合成器模块通过推理机的指导使用存储于知识库中的知识来生成歌曲，将歌曲合成器所生成的歌曲与其特点已被获悉的原始歌曲相比较，调谐所述特点并更新知识库中的知识，以及重复该过程直到用户满意为止。

8.如权利要求1所述的方法，进一步包括步骤：对接图形用户界面和歌曲传递模块，以请求和获得定制的歌曲。

9.如权利要求1所述的方法，进一步包括步骤：使用定制管理模块来管理歌曲定制。

10.如权利要求1所述的方法，其中所述获取歌曲的步骤通过从网络、因特网、媒体源或知识工程师中的任一个获得该歌曲而实现。

11.如权利要求10所述的方法，其中所述获取歌曲的步骤进一步包含获得基本索引信息，包括歌曲的歌手名字、歌曲创作者。

12.一种基于专家系统的系统，用于为系统用户定制歌曲，包括：

(a)能访问因特网的歌曲获取模块；

(b)知识获取控制台，所述知识获取控制台操作地连接到所述歌曲获取模块；

(c)特征提取模块，所述特征提取模块操作地连接到所述歌曲获取模块；

(d)知识生成模块，所述知识生成模块被配置为与所述知识获取控制台通信；

(e)知识库模块，所述知识库模块被配置为与所述知识获取控制台通信；以及与系统用户对接的图形用户界面；

(f)推理机模块，所述推理机模块被配置为使用所述知识库模块用于推理；以及

(g)用于根据系统用户需求而生成歌曲的歌曲合成器，所述歌曲合成器被配置为与所述推理机模块通信。

13.如权利要求12所述的系统，其中所述歌曲获取模块、所述知识获取控制台、所述特征提取模块、所述知识生成模块和所述知识库模块被配置，用以生成人工智能歌手(AIS)的集合，其拥有知名歌手或艺术家的所有知识和特征并共同地形成了AIS生成器(AISG)。

14.如权利要求13所述的系统，进一步包括操作地连接到所述图形用户界面的歌曲传递模块。

15.如权利要求14所述的系统，其中所述图形用户界面和所述歌曲传递模块合作，充当用户的界面，用以请求和获得定制歌曲。

16.如权利要求15所述的系统，其中所述歌曲合成器被配置，使得与所述AISG通信。

17.如权利要求16所述的系统，进一步包括定制管理模块，通过与所述AISG、所述歌曲合成器、所述图形用户界面和所述传递模块通信，所述定制管理模块有效地管理歌曲定制。

18.如权利要求12所述的系统，其中所述知识获取控制台被配置，用于与知识工程师对接。

19.如权利要求18所述的系统，其中所述歌曲获取模块被配置，用以从网络、媒体源、因特网或知识工程师中的任一个获得歌曲。

20.如权利要求18所述的系统，其中所述歌曲获取模块还获得基本索引信息，包括歌曲的歌手名字、歌曲创作者。

21.如权利要求20所述的系统，其中所述特征提取模块分析歌手和所提取的具体歌曲的特征。