CN111316350A

CN111316350A - 用于自动生成媒体的系统和方法

Info

Publication number: CN111316350A
Application number: CN201880055386.2A
Authority: CN
Inventors: M.M.塞尔勒蒂奇; B.巴兹列夫斯基; J.米彻尔; R.科瓦奇; P.伍德沃德; T.韦布; R.格罗夫斯; E.肖菲尔德; B.哈里森
Original assignee: Zya Inc
Current assignee: Zya Inc
Priority date: 2017-06-26
Filing date: 2018-06-22
Publication date: 2020-06-19
Also published as: CA3067097A1; WO2019005625A1; BR112019027726A2; EP3646315A4; EP3646315A1

Abstract

一种用于自动生成歌词视频的计算机实施的方法，其包括接收音频选择、确定所述音频选择的定时信息以及确定所述音频选择的歌词信息。所述方法包含接收所述音频选择的音调信息以及基于所述音频选择的所述定时信息、所述歌词信息和所述音调信息中的至少一个来生成视频内容。所述方法还包含基于所述视频内容和所述音频选择来渲染歌词视频。

Description

用于自动生成媒体的系统和方法

相关申请的交叉引用

本申请要求2017年6月26日提交的第62/524,838号美国临时专利申请的优先权。本申请也是2018年5月22日提交的第15/986,589号美国专利申请的部分接续申请。以上所列的每个公开案以全文引用的方式并入本文中。

技术领域

本公开大体上涉及音乐创建领域，更具体地说，涉及一种创建音乐视频的系统。

背景技术

随着智能手机、平板电脑以及能够快速便携地显示媒体的其它装置的普及，用户越来越多地使用这些装置来创建原创内容。用户和艺术家为自己或他人创建用以查看或者体验的歌曲、视频和其它内容。歌词视频是一种可将歌曲或其它音频选择设置成可视内容的媒体内容，这可包含随歌曲的音频播放及时显示的所有或一些歌曲的歌词。

期望为用户提供一种更容易地生成歌词视频和其它视频可视内容的系统。

发明内容

在实施例中，本公开描述一种用于自动生成歌词视频的计算机实施的方法。所述方法可包含接收音频选择、确定音频选择的定时信息并确定音频选择的歌词信息。所述方法可包含接收音频选择的音调信息，以及基于所述音频选择的定时信息、歌词信息和音调信息中的至少一个来生成视频内容。所述方法还可包含基于视频内容和音频选择来渲染歌词视频。

在另一实施例中，本公开描述一种用于自动生成歌词视频的计算机实施的方法。所述方法可包含通过数字通信网络接收音频选择。所述方法还可包含通过一个或多个处理器确定音频选择的定时信息。所述方法可包含：通过数字通信网络向歌词数据库请求音频选择的歌词信息；以及基于所述请求，通过数字通信网络从歌词数据库接收所述音频选择的歌词信息。所述方法还可包含：通过数字通信网络向音调数据库请求音频选择的音调信息；以及基于所述请求，通过数字通信网络从音调数据库接收所述音频选择的音调信息。所述音调信息可包含对应于所述音频选择的流派、节奏、情绪、艺术家或风格中的至少一个。所述方法可包含通过所述一个或多个处理器基于所述音频选择的定时信息、歌词信息和音调信息中的至少一个来生成视频内容。所述方法还可包含通过所述一个或多个处理器基于视频内容和音频选择来渲染歌词视频。

在另一实施例中，本公开描述一种用于自动生成歌词视频的计算机实施的方法。所述方法可包含通过数字通信网络从用户装置接收音频选择。所述方法可包含：通过一个或多个处理器确定音频选择的定时信息；以及通过所述一个或多个处理器确定音频选择的歌词信息。所述方法可包含通过所述一个或多个处理器对歌词信息执行歌词分析。所述方法可包含：通过数字通信网络向第三方数据库请求音频选择的音调信息；以及基于所述请求，通过数字通信网络从第三方数据库接收所述音频选择的音调信息。所述音调信息可包含对应于所述音频选择的流派、节奏、情绪、艺术家或风格中的至少一个。所述方法可包含通过所述一个或多个处理器基于所述音频选择的定时信息、歌词分析和音调信息中的至少一个来生成视频内容。所述方法可包含通过所述一个或多个处理器基于视频内容和音频选择来渲染歌词视频的至少一部分。所述方法还可包含通过数字通信网络将歌词视频的所述至少一部分传送给用户装置以用于播放。

附图说明

参考以下各图描述非限制性且非穷尽性的实施例。在图中，除非另外指明，否则相同的附图标号在所有不同的图中指代相同部分。

为了更好地理解本公开，将参考以下应联合附图阅读的具体实施方式，在附图中：

图1示出根据本公开的其中可实践歌词视频系统的网络配置的一个示范性实施例；

图2示出根据本公开的操作歌词视频系统的媒体生成系统的方法的实施例的流程图；

图3示出根据本公开的操作歌词视频系统的音频生成系统的方法实施例的流程图；

图4示出支持本公开的系统和过程的装置的框图；

图5示出根据本公开的操作歌词视频系统的动画生成系统的方法的实施例的流程图；以及

图6示出根据本公开的操作歌词视频系统的方法的实施例的流程图。

具体实施方式

现将参考附图在下文更充分地描述本发明，附图形成本发明的一部分并且以图解说明方式示出具体示范性实施例，本发明可通过所述具体示范性实施例实践。然而，本发明可以许多不同形式体现，并且不应被理解为限于本文中阐述的实施例；实际上，提供这些实施例以使本公开透彻和完整，并将使本发明的范围完全传达给所属领域的技术人员。除其它之外，本发明可体现为方法或装置。因此，本发明可采取完全硬件实施例、完全软件实施例或组合了软件和硬件方面的实施例的形式。因此，不应按限制性意义来看待以下详细描述。

在整个说明书和权利要求书中，除非上下文另外明确规定，否则以下术语采取本文明确相关的含义。如本文所使用，短语“在一个实施例中”未必是指同一实施例，但也可能是同一实施例。此外，如本文所使用，短语“在另一实施例中”未必是指不同实施例，但也可能是不同实施例。因此，如下文所描述，可在不脱离本发明的范围或精神的情况下轻易地组合本发明的各种实施例。

另外，如本文所使用，除非上下文另外明确规定，否则术语“或”是包含性的“或”操作符，并且相当于术语“和/或”。除非上下文另外明确规定，否则术语“基于”并非排他性的，允许基于未描述的额外因素。另外，在整个说明书中，“一”和“所述”的含义包含复数个指代物。“…中”的含义包含“…中”，并包含复数个指代物。“…中”的含义包含“…中”和“…上”。

本公开涉及一种用于基于用户输入自动创建歌词音乐视频的系统和方法，所述歌词音乐视频可观看、保存或通过SMS、MMS和电子邮件等各种消息接发格式传送给用户。还有可能通过Twitter^®、Facebook^®、Instagram^®、Snapchat^®或任何其它合适的媒体共享系统等各种社交媒体平台和格式发送此类乐曲消息。在某些实施例中，所公开的歌词视频系统可为用户提供直观便利的方式来基于用户输入自动创建、查看和发送原创歌词视频。例如，歌词视频系统可接收用户对由用户预录制或录制并提供的音乐作品或旋律的选择。所述选择可通过多种方式和用户接口——例如通过键盘或通过语音识别软件——接收为用户选择。在接收到用户选择后，歌词视频系统可分析和解析所选音乐作品和其歌词以创建所选或提供的音乐作品的原创歌词音乐视频，从而提供用户输入的文本的音乐增强版本。歌词视频系统的输出可基于歌词的定时来自动提供带有音乐选择的歌词的视觉表示的原创音乐视频，并且可包含反映音频选择的情绪或音调的视觉表示。然后，若愿意的话，用户可通过社交媒体、SMS或MMS消息接发或任何其它形式的文件共享或电子通信与他人共享歌词视频。

在一些实施例中，用户可另外录制视频以伴随自动生成的歌词视频的视觉描绘和视频输出。在一些实施例中，用户视频输入可连同由用户提供的文本输入的声音渲染一起实时录制，以便有效地将视频与由系统创建的歌词音乐视频中的歌词匹配。在其它实施例中，歌词视频可仅包含自动生成的图像、动画、视频以及由歌词视频系统生成的其它视觉效果。在此类实施例中，系统的结果可以是自动创建以在通过网络连接到服务器的智能手机或平板电脑等客户端装置上查看并且需要极少或不需要专用技术技能或知识的原创歌词视频。在一些实施例中，客户端装置不必连接到网络。下文更详细地描述歌词视频系统以及实施此类系统的方法。

图1示出其中可实施所公开的歌词视频系统100的网络配置的示范性实施例。然而，本文预期并不需要全部所示部件来实施歌词视频系统，并且可在不脱离本发明的范围的精神的情况下对部件的布置和类型进行改变。参考图1，歌词视频系统100的所示实施例包含局域网（“LAN”）/广域网（“WLAN”）（统称为网络106）、无线网络110、客户端装置101到105、服务器108、媒体数据库109以及外围输入/输出（I/O）装置111、112和113。虽然示出客户端装置的若干示例，但本文预期客户端装置101到105可包含能够处理并通过例如网络106、无线网络110等网络发送音频、视频或文本数据的几乎任何计算装置。在一些实施例中，无线网络110和网络106中的一者或两者可以是数字通信网络。客户端装置101到105还可包含配置成便携式的装置。因此，客户端装置101到105可包含能够连接到另一计算装置以及接收信息的几乎任何便携式计算装置。此类装置包含便携式装置，例如蜂窝电话、智能电话、显示寻呼机、射频（RF）装置、红外（IR）装置、个人数字助理（PDA）、手持式计算机、笔记本电脑、可穿戴计算机、平板电脑、组合了前述装置中的一个或多个的集成装置等等。

客户端装置101到105还可包含能够通过网络通信以发送和接收包含音轨信息和社交联网信息的信息、执行以可听方式生成的音轨搜索查询等等的几乎任何计算装置。此类装置的集合可包含通常使用有线或无线通信介质连接的装置，例如个人计算机、多处理器系统、基于微处理器的或可编程的消费电子产品、网络PC等等。在一个实施例中，客户端装置101到105中的至少一些可通过有线和/或无线网络操作。

客户端装置101到105可以是支持网络的，并且可包含配置成接收和发送网页、基于网络的消息等的浏览器应用程序。浏览器应用程序可配置成接收和显示图形、文本、多媒体、视频等，并且可使用几乎任何基于网络的语言，包含无线应用协议消息（WAP）等等。在一个实施例中，浏览器应用程序能够使用手持式装置标记语言（HDML）、无线标记语言（WML）、WMLScript、Javascript、标准通用25标记语言（SMGL）、超文本标记语言（HTML）、可扩展标记语言（XML）等，以显示并发送各种内容。在一个实施例中，客户端装置的用户可使用浏览器应用程序与例如文本消息接发客户端、电子邮件客户端等消息接发客户端交互，以发送和/或接收消息。

客户端装置101到105还可包含配置成从另一计算机装置接收内容的至少一个其它客户端应用程序。客户端应用程序可包含提供和接收例如文本内容、图形内容、音频内容、视频内容等多媒体内容的能力。客户端应用程序还可提供标识自身的信息，包含类型、能力、名称等。在一个实施例中，客户端装置101到105可通过各种机制中的任一种唯一地标识自身，包含电话号码、移动标识号码（MIN）、电子序列号（ESN）或其它移动装置标识符。信息还可指示移动装置能够使用的内容格式。此类信息可在例如网络包或其它合适的形式中提供、发送到服务器108或其它计算装置。媒体数据库109可配置成存储各种媒体，例如音乐剪辑、视频剪辑、图形文件、动画等，并且存储在媒体数据库中的信息可由服务器108存取，或在其它实施例中，由其它计算装置通过网络106或无线网络110直接存取。

客户端装置101到105还可配置成包含客户端应用程序，所述客户端应用程序使最终用户能够登录可由服务器108等另一计算装置管理的用户账户。此类用户账户例如可配置成使最终用户能够参与一个或多个社交联网活动，例如，提交音轨或多轨录音或视频、搜索音轨或录音、下载多媒体音轨或其它录音、流视频或音频内容，或参与在线音乐社区。然而，也可在不登录到用户账户的情况下参与各种联网活动。

无线网络110配置成将客户端装置103到105和其部件与网络106联接。无线网络110可包含各种无线子网中的任一种，其还可覆盖独立特设网络等，以向客户端装置103到105提供面向基础设施的连接。此类子网可包含网状网络、无线LAN（WLAN）网络、蜂窝网络等。无线网络110还可包含通过无线无线电链路或其它合适的无线通信协议连接的终端、网关、路由器等的自主系统。这些连接器可配置成自由、随机地移动并且任意地自行组织，使得无线网络110的拓扑结构可快速改变。

无线网络110还可使用多种接入技术，包含用于蜂窝系统、WLAN、无线路由器（WR）网格的第2代（2G）、第3代（3G）、第4代（4G）和4G长期演进（LTE）无线电接入，以及其它合适的接入技术。2G、3G、4G、4G LTE和未来接入网络等接入技术可实现具有各种移动性程度的客户端装置103到105等移动装置的广域覆盖。例如，无线网络110可通过例如全球移动通信系统（GSM）、通用包无线电服务（GPRS）、增强型数据GSM环境（EDGE）、宽带码分多址（WCDMA）等的无线电网络接入来实现无线电连接。本质上，无线网络110可包含几乎任何无线通信机制，信息可通过所述无线通信机制往来于客户端装置103到105与另一计算装置、网络等等之间。

网络106配置成将网络装置与包含服务器108、客户端装置101到102的其它计算装置联接，并通过无线网络110联接到客户端装置103到105。网络106能够使用任何形式的计算机可读介质来将信息从一个电子装置传达到另一电子装置。另外，除局域网（LAN）、广域网（WAN）、例如通过通用串行总线（USB）端口的直接连接、其它形式的计算机可读介质或其任何组合之外，网络106还可包含互联网。在包含基于不同架构和协议的LAN的一组互连的LAN上，路由器充当LAN之间的链路，使消息能够从一者发送到另一者。另外，LAN内的通信链路通常包含绞合线对或同轴线缆，而网络之间的通信链路可利用模拟电话线、包含T1、T2、T3和T4的全部或部分专用数字线、综合业务数字网（ISDN）、数字用户线（DSL）、包含卫星链路的无线链路或所属领域的技术人员已知的其它通信链路。此外，远程计算机和其它相关电子装置可通过调制解调器和临时电话链路远程连接到LAN或WAN。本质上，网络106包含任何通信方法，信息可通过所述通信方法往来于计算装置之间。

在某些实施例中，客户端装置101到105可例如使用对等配置直接通信。

另外，通信介质通常体现计算机可读指令、数据结构、程序模块或其它传输机制，并包含任何信息递送介质。举例来说，通信介质包含有线介质，例如双绞线、同轴线缆、光纤、波导以及其它有线介质和无线介质，例如声学、RF、红外线和其它无线介质。

包含I/O装置111到113的各种外围设备可附接到客户端装置101到105。例如，多点触控压力垫113可从用户接收物理输入并且可被分配为USB外围设备，但不限于USB，也可使用其它接口协议，包含但不限于紫蜂（ZIGBEE）、蓝牙（BLUETOOTH）或其它合适的连接。通过压力垫113的外部协议和接口协议传输的数据可包含例如MIDI格式化的数据，但其它格式的数据也可通过此连接来输送。类似的压力垫可替代地与移动装置104或105等客户端装置实体集成。头戴装置112可附接到客户端装置的音频端口或其它有线或无线I/O接口，从而提供示范性布置以供用户收听编写的消息的播放以及系统的其它可听输出。麦克风111也可通过音频输入端口或其它连接附接到客户端装置101到105。替代地，或除头戴装置112和麦克风111之外，一个或多个扬声器和/或麦克风可集成到客户端装置101到105或其它外围装置111到113中的一个或多个装置中。另外，外部装置可连接到压力垫113和/或客户端装置101到105，以提供声音样本、波形、信号或可通过外部控制重现的其它音乐输入的外部源。此类外部装置可以是MIDI装置，客户端装置103和/或压力垫113可将MIDI事件或其它数据路由到所述MIDI装置以便触发外部装置的音频播放。然而，预期此类外部装置可使用除MIDI外的格式。

图2是示出用于操作媒体生成系统的方法200的实施例的流程图，其中参考了图1所示的部件。在一些实施例中，操作媒体生成系统的方法200可用于生成与歌词视频系统100一起使用的音频选择。关于媒体生成系统的更多细节可参看共同拥有的2018年5月22日提交的第15/986,589号美国专利申请，其公开内容以引用的方式并入本文中。在202处开始，系统可在204处接收歌词输入。文本或歌词输入可由用户通过电子装置输入，所述电子装置例如PC、平板电脑或智能手机、参考图1描述的任何其它客户端装置101到105或其它合适的装置。可在这些装置中的任一个中以常见方式（例如使用软键盘或机械键盘、触摸屏键盘的手工输入、语音转文本转换）输入文本。在一些实施例中，通过使用客户端装置101到105接入的专用用户接口应用程序提供文本或歌词输入。或者，可通过用于使用客户端装置101到105传送基于文本的消息的通用应用程序来递送歌词输入。

在204处，所得歌词输入可通过无线通信网路110和/或网络106传送以由服务器108接收。在206处，系统可使用服务器108分析歌词输入以确定歌词输入的某些特性。然而，在一些实施例中，预期或可在客户端装置101到105自身而非服务器108上或与服务器108并行地对歌词输入进行分析。歌词输入的分析可包含各种数据处理技术和程序。例如，在一些实施例中，通过话语解析器将歌词输入解析成文本的话语要素。例如，在一些实施例中，话语解析器可标识重要的字词（例如爱、愤怒、发疯）、划分短句边界（例如“我想你。”“我爱你。”“让我们聚一下。”“音乐会超级棒。”）和/或标识俚语用语（例如出去浪、耍一耍）。被视为重要的字词可因区域或语言而不同，并且可随着时间推移更新以符合当代文化。类似地，俚语用语可在地理上和时间上各有不同，使得媒体生成系统可更新并且可定制。歌词输入中所用的标点或其它符号还可被标识并且归于可影响文本的分析性解析的某些语气或语调。例如，感叹号可指示开心或紧急感，而“伤心脸”表情符可指示悲伤或忧愁。在一些实施例中，还可通过将字词分成音节以及进一步通过将音节分成一系列音素来将歌词输入中输送的字词或歌词处理成其组成片段。在一些实施例中，音素用于创建歌词输入中的字词或歌词的音频播放。下文更详细地描述用于分析歌词输入的额外技术。

在208处，系统可接收从客户端装置101到105传送的音乐输入的选择。在一些实施例中，可实施用户界面以从预录制和编录的音乐作品或音乐作品剪辑的列表或库中选择音乐输入，所述音乐作品可包括一个或多个乐句（musical phrase）。在此上下文中，乐句可以是呈现类似于语言短语或句子的完整音乐“思想”的乐符或连接声的分组。为了促进用户在预录制的音乐作品或乐句之间的选择，可用音乐作品或乐句的列表可包含例如歌曲名称、演奏艺术家、流派和/或乐句设定的情绪的基于文本的描述，这只是列举可通过用户界面提供给用户的几个可能的信息片段。基于可用音乐作品或乐句的列表，用户可接着选择期望的音乐作品或剪辑以供媒体生成系统用以与歌词输入组合。在一个实施例中，可存在二十个或更多个预录制和选择的乐句来供用户选择。

在一些实施例中，预录制的音乐作品或乐句可以任何合适的计算机可读格式存储在服务器108或媒体数据库109上，并且可经由客户端装置101到105通过无线网络106和/或网络110进行存取。或者，在其它实施例中，预录制的音乐作品可直接存储到客户端装置101到105或另一本地存储器装置上，例如快闪驱动器或另一计算机存储器装置。不论存储位置如何，预录制的音乐作品的列表可随着时间推移更新、移除或添加音乐作品以向用户提供新选项和额外选择。

还预期个人用户可创建其自身的旋律以与媒体生成系统关联使用。可使用让渡给本申请的受让人的标题为“用于为确保和谐音乐伴奏的显示屏系统和方法产生更和谐音乐伴奏图形用户界面的系统和方法（System and Method for Producing a MoreHarmonious Musical Accompaniment Graphical User Interface for a DisplayScreen System and Method that Ensures Harmonious Musical Accompaniment）”的第8,779,268号美国专利中公开的技术来创建一个或多个旋律。此专利公开内容全部在此以引用的方式并入本文中。在其它实施例中，用户可使用输入装置111到113生成音乐输入，所述输入装置例如MIDI器具或用于输入用户创建的音乐作品或剪辑的其它装置。例如，在一些实施例中，用户可使用MIDI键盘生成音乐即兴重复乐段或整首歌以用作音乐输入。在一些实施例中，用户可通过钢琴或吉他等更传统的非MIDI器具创建录音播放音符。可接着分析录音的音高、节奏等以将所述录音用作音乐输入。

在另外的实施例中，可选择音乐输入选项列表中的各个表项以通过客户端装置101到105将（存储的或由用户提供的）预录制的音乐作品或其剪辑作为预览提供给用户。在此类实施例中，与选择音乐作品相关联的用户界面包含音频播放能力，以允许用户收听与其对作为音乐输入的一个音乐作品的选择相关联的音乐剪辑。在一些实施例中，此类播放能力可与播放滑动条相关联，所述播放滑动条以图形方式描绘进行中的音乐作品或剪辑的播放。无论用户是从存储在系统内的预录制音乐作品中还是从用户创建的一个或多个旋律中选择旋律，预期可向用户提供在音乐作品内选择起点和终点以限定音乐输入的功能。

在用户选择期望的音乐作品或剪辑以用作用户的音乐作品的音乐输入后，客户端装置101到105可通过无线网络106和/或网络110传送所述选择，所述选择可由服务器108接收作为图2的208处的音乐输入。在210处，可分析和处理音乐输入，以便标识与音乐输入相关联的某些特性和模式，从而更有效地将音乐输入与歌词输入匹配以产生用在消息中或以其它方式使用的原创乐曲。例如，在一些实施例中，音乐作品的分析和处理包含“缩减”或“加缀（embellish）”音乐作品。在一些实施例中，可解析所选音乐作品的特征，例如结构上重要的音符、节律特征和短句边界。在如上文所描述利用文本或话语解析器的实施例中，也可在音乐作品的分析中考虑文本或话语解析的结果。在分析和处理期间，每个音乐作品或剪辑可任选地进行加缀或缩减，以音乐方式添加数个音符到短句中（加缀）或将其移除（缩减），同时仍维持音乐输入中的原始旋律的想法和识别性。可执行这些加缀或缩减，以便通过将歌词输入中的文本短句和乐句的边界对齐来将所述文本短句和乐句对齐，并且还提供各个字词的音节与音符的对齐所必要的音乐素材，从而产生输入文本的天然音乐表达。在一些实施例中，预期可能已完成预录制音乐作品的全部或部分分析，从而使媒体生成系统能够仅仅从媒体数据库109检索预分析的数据以用于完成乐曲。下文更详细地阐述对音乐作品进行分析以准备与歌词输入匹配并用在音乐消息中的过程。

分析音乐输入之后，在212处，可基于对歌词输入和音乐输入的分析206和210来使歌词输入和音乐输入彼此相关。具体地说，在一些实施例中，将所选和分析的音乐作品的音符智能地且自动地指派到输入文本中的一个或多个音素，如下文更详细地描述。在一些实施例中，接着，在214处，可将歌词输入与音乐输入相关的所得数据格式化成合成器输入以输入到语音合成器中。接着在216处，可将呈文本音节-旋律音符对形式的格式化合成器输入发送到语音合成器，以创建用于原创音乐作品中的歌词输入的声音渲染，所述原创音乐作品融合了歌词输入和音乐输入的特性。接着在218处，可由服务器108接收音乐消息或声音渲染。在一些实施例中，可以音频文件形式接收生成的音乐作品，所述音频文件包含用户输入的与所选或创建的音乐输入的音乐/旋律相关的歌词输入的声音渲染。在一些实施例中，语音合成器可生成整个音乐作品，其包含歌词输入的声音渲染和来自音乐输入的音乐部分。在其它实施例中，语音合成器可仅生成基于合成器输入创建的输入文本的声音渲染，所述合成器输入可通过分析上文所描述的歌词输入和音乐输入而生成。在此类实施例中，基于音乐输入的音乐渲染或音乐输入本身可与声音渲染组合以生成音乐作品。

语音合成器可以是任何合适的声音渲染器。在一些实施例中，语音合成器可基于云，由提供安全、负载均衡并且能够接受入站消息且发送出站音乐加强消息的网络服务器支持。在其它实施例中，声音渲染器可在服务器108自身或客户端装置101到105上本地运行。在一些实施例中，语音合成器可渲染格式化的歌词输入数据以提供文本到语音转换以及歌唱语音合成。在一个实施例中，声音渲染器可向用户提供各种语音选择、各种语音合成器（包含但不限于基于HMM的、基于单音或单元选择的）或人类语言选择。歌唱语音的选择的一些示例有：性别（例如男/女），年龄（例如年轻/年老），国籍或口音（例如美国口音/英国口音），或其它区别性声音特性（例如清醒的/酣醉的、嘶喊的/低语的、诱人的、焦虑的、机器人等）。在一些实施例中，可通过一个或多个话语合成器实施这些语音选择，每个合成器使用一个或多个声音模型、音高、节奏以及可产生明显不同的演唱属性的其它变量。在一些实施例中，可由系统基于对歌词输入和/或音乐输入的指示情绪、音调或流派的特定字词或音乐风格的分析来自动进行语音合成器的选择。在某些实施例中，在语音合成器生成音乐消息之后，系统可提供和声来为旋律伴奏。此类伴奏可按上述以引用方式并入的待决第8,779,268号美国专利中公开的方式添加到消息中。

在一些实施例中，在219处，用户可选择添加图形元素到音乐作品。如果选择的话，可从存储在媒体数据库109处、客户端装置101到105自身上或这两者中的预先存在的元素库中选出图形元素。在另一实施例中，用户可创建其自身的图形元素以包含在生成的多媒体作品中。而在其它实施例中，可自动生成图形元素而无需用户对其进行专门选择。可生成以与音乐作品一起使用的图形的一些示例可以是对应于音乐作品中的音乐的颜色和闪光、拼写出用户输入的所有或部分文本消息或歌词的动图或字符，或可自动确定以与音乐输入的音调或与通过分析歌词输入而确定的歌词输入本身的音调对应的其它动画或颜色。如果用户选择或创建图形元素，则在220处，指示此选择的图形输入可传送到服务器108并由服务器108接收。接着，在222处，可使用用户所选的预先存在的元素、由系统基于歌词输入和/或音乐输入的分析而选择的自动元素或由用户提供的图形元素来生成图形元素。

在一些实施例中，在224处，用户可选择包含视频元素以与音乐作品配对或连同音乐作品一起存储在相同的媒体文件输出中。如果用户选择包含视频元素，则用户界面可激活可集成到客户端装置101到105中的一个或多个相机以捕捉视频输入，所述一个或多个相机例如智能手机或其它装置上的前置或后置相机。在一些实施例中，用户可操控客户端装置上的用户界面以录制待并入到生成的音乐中的视频输入。在一些实施例中，客户端装置101到105上显示的用户界面可在用户捕捉视频输入时提供生成的音乐作品的播放，从而允许用户将视频输入的特定特征与音乐作品的特定部分协调。在一个此类实施例中，用户界面可在装置的屏幕上显示歌词输入的文本，其中进度指示器在播放期间移动跨越文本，从而向用户提供视频捕捉期间音乐作品进度的视觉表示。在其它实施例中，用户界面可允许用户在音乐作品的播放全程中按需要停止以及开始视频捕捉，并且同时停止音乐作品的播放。提供此功能的一个此类方式可以是通过在用户触碰客户端装置101到105的触摸屏或其它输入时捕捉视频，并且至少在用户释放触摸屏或其它输入时暂时停止视频捕捉。在此类实施例中，系统可允许用户在音乐作品的第一部分期间捕捉视频输入的某些部分，在需要时暂停视频捕捉和音乐作品的播放，接着继续捕捉视频输入的另一部分以与音乐作品的第二部分对应。在完成视频捕捉之后，用户界面可通过重新捕捉视频输入的部分或全部来提供编辑视频输入的选项。

在一些实施例中，在完成视频输入的捕捉和编辑后，在226处，视频输入可传送到服务器108并由服务器108接收以进行处理。接着在228处，可处理视频输入以生成视频元素，然后可将视频元素并入到音乐作品中以生成多媒体音乐作品。在完成后，对应于用户捕捉视频输入的各部分的次序，可将视频元素连同音乐作品一起同步并进行播放。在其它实施例中，可在客户端装置101到105自身完成处理和视频元素生成，无需将视频输入传送到服务器108。

如果用户选择不将任何图形或视频元素添加到音乐作品，或一旦视频和/或图形元素已生成且并入到音乐作品中以生成多媒体作品，则在230处，可通过网络110和/或无线网络110将音乐作品或多媒体作品传送或输出到客户端装置101到105。在实施例中，在所有或大多数描述的步骤可在客户端装置104等单个装置上执行的情况下，音乐作品可输出到扬声器和/或与视觉显示器组合的扬声器。这种情况下，在一些实施例中，在232处，系统可向用户提供预览音乐或多媒体作品的选项。如果用户选择预览作品，则在234处，可通过客户端装置101到105播放音乐或多媒体作品以供用户查看。在此类实施例中，如果用户不满意音乐或多媒体作品，或出于任何原因希望创建替代作品，则用户可选择取消作品而不进行发送或存储，或进一步编辑作品。然而，如果用户赞同音乐或多媒体作品或选择不预览作品，则在235处，用户可将作品存储为媒体文件、将作品作为音乐或多媒体消息发送到所选消息接收者等。如上文所论述，只要消息接发服务/格式支持音频和/或视频文件的传送、递送和播放，就可使用各种通信和社交媒体平台，例如SMS或MMS消息接发、电子邮件、Facebook^®、Twitter^®和Instagram^®，来将音乐或多媒体作品发送到一个或多个接收者。

在一些实施例中，生成音乐作品的方法可另外包含接收对应于至少一个语音特性的歌手的选择。在一些实施例中，所述至少一个语音特性可指示具有特定可识别风格的特定现实或虚构歌手。例如，特定音乐家可因特定鼻音、假音、音域、颤音风格等而具有可识别语音。当系统接收到特定歌手的选择时，所述至少一个语音特性可并入到音乐作品的演奏中。在一些实施例中，预期可在图2中的方法200的216处发送到语音合成器的格式化数据中包含所述至少一个语音特性。然而，还预期所述至少一个语音特性可并入到从语音合成器接收的声音渲染中。

下文更详细地描述用于分析和处理由用户提供的歌词输入和音乐输入以创建音乐或多媒体作品的方法。具体地说，提供的细节涉及执行用于操作歌词视频系统100的媒体生成系统的方法200的步骤206和210到214的至少一个实施例。然而，应理解，本文涵盖用于执行图2的步骤的其它替代方法。还应理解，媒体生成系统可在通过用户的客户端装置接收到来自用户的歌词输入和音乐输入选择后自动执行以下操作。还应理解，本文公开的方法提供技术解决方案来解决将歌词输入与音乐输入相关所关联的技术问题，使得有效地匹配这两个输入的相关性的音乐输出。此外，本文所描述的方法和特征可用以提高计算机或服务器的功能能力，从而以一定方式处理某些类型的信息，使得计算机比原本在没有本文所描述的操作和系统的情况下可能达到的状态更可用且更有用。

媒体生成系统可搜集并操控文本和音乐输入，其方式使得确保系统灵活性、可扩展性和效力。在一些实施例中，实施收集和分析与歌词输入和音乐输入相关的数据点以提高计算机和系统将音乐输入和歌词输入有效地相关的能力。系统在例如步骤206中分析和处理歌词输入时所确定和使用的一些数据点可以是歌词输入中包含的字符数目或字符计数（“CC”）以及字词数目或字词计数（“WC ”）。任何合适的方法可用于确定CC和WC。例如，在一些实施例中，系统可通过计数字符群组之间的空格或通过参考特定语言或一批语言的已知字词的数据库而识别字符群组中的字词来确定WC。由系统在歌词输入的分析期间确定的其它数据点可以是音节数目或音节计数（“TC”）以及句子数目或句子计数（“SC”）。可以任何合适方式，例如通过分析SC的标点和间隔或参考存储在媒体数据库109中或别处的字词数据库将字词解析成音节，来确定TC和SC。在接收到可由用户通过客户端装置101到105供应的歌词输入后，系统可分析和解析输入文本以确定CC、WC、TC和SC等值。在一些实施例中，这种解析可在服务器108处进行，但还预期在一些实施例中，可在客户端装置101到105上进行输入文本的解析。在某些实施例中，在分析期间，系统可在每个字词、音节和句子的开端和结尾处插入已编码的开始标记和结束标记，从而标记在分析期间作出的确定。例如，句子开端处的开始标记的位置可称作句子开始（“SS”），而句子结尾处的结束标记的位置可称作句子结束（“SE”）。另外，预期在分析期间,可标记歌词输入的字词或音节以用于文本强调。用于识别其中字词或音节应进行文本强调的此类例子的系统方法可基于语言或可具有文化特异性。

在一些实施例中，由系统对输入文本进行的另一分析可以是确定CC和WC中的每一者的短句类别（phrase class，“PC”）。字符计数的短句类别将称为CCPC，而字词计数的短句类别将称为WCPC。短句类别的值可以是表示增大的CC或WC值集的依序编索引的群组集。例如，CC为0的歌词输入可具有CCPC 1，而WC为0的歌词输入可具有WCPC 1。此外，CC在1与6之间的歌词输入可具有CCPC 2，而WC为1的歌词输入可具有WCPC 2。接着，CCPC和WCPC可分别随着CC或WC增大而依序增大。

仅出于示范性和非限制性目的，下文表1示出基于歌词输入中的CC和WC的可能的CCPC和WCPC分类。

基于CCPC和WCPC，系统可确定用户的整个歌词输入的总体短句类别，或用户短句类别（“UPC”）。可通过分别为CCPC和WCPC的不同值给定不同权重来作出此确定。在一些实施例中，在确定UPC时，比起CCPC，可将较大权重给予WCPC，但应理解，也可使用其它的或相同的权重。一个示例给予CCPC 40%的权重并给予WCPC 60%的权重，如下式所表示：

式1 UPC = 0.4(CCPC) + 0.6(WCPC)

因此，基于上文短句类别的示范表1以及示范方程式1，CC为27且WC为3的歌词输入可具有CCPC 5和WCPC 3，从而如下得到UPC 3.8：

式2 UPC = 0.4(5) + 0.6(3) = 3.8

应注意，本文解释的短句类别系统和加权系统可基于情绪、流派、风格等与所选音乐输入相关的若干因素或与歌词输入分析期间所确定的重要字词或短句等歌词输入相关的其它因素而变。

以类似方式，在分析和处理期间，例如在图2的步骤210中，可解析由用户选择或提供的音乐输入。在一些实施例中，系统可解析用户所选或提供的音乐输入以确定各种数据点。分析中确定的一个数据点可以是特定音乐输入中的音符数目或音符计数（“NC”）。

可对音乐输入进行的分析的另一结果可包含确定整个音乐输入中的乐句开始和结束。乐句可类似于语言句子，因为乐句是输送音乐思想的乐符分组。因此，在一些实施例中，对所选音乐输入的分析和处理可涉及标记音乐输入中每个标识的乐句的开端和结尾。类似于上文所描述的歌词输入的短句类别（UPC），可例如基于音乐输入中标识的乐句数目和音符计数来确定源音乐输入的短句类别，也称为源短句类别（“SPC”）。

每个乐句开端可称作短句开始（“PS”），而每个乐句的结尾可称作短句结束（“PE”）。音乐输入中的PS和PE可类似于歌词输入中的句子开始（SS）和句子结束（SE）。在一些实施例中，与预先存在的音乐作品相关联的PS和PE可预录制并存储在服务器108或客户端装置101到105上，其中所述PS和PE可供用户选择用作音乐输入。在此类实施例中，音乐输入的PS和PE的位置可以是预定的，并且音乐输入的分析涉及从媒体数据库109等存储位置检索此类信息。然而，在其它实施例中，或在音乐输入由用户提供而未预录制和存储的实施例中，进行进一步分析以辨别音乐输入中的乐句并且因此确定每个标识的乐句的对应PS和PE。

在一些实施例中，比较歌词输入和音乐输入的短句类别以确定这两个输入之间的对等性或差异。应理解，尽管本公开使用短句类别来描述对应歌词输入和音乐输入的比较，但本文还涵盖用于在歌词输入与音乐输入之间进行比较的其它方法。可在例如基于相应分析而在步骤212将音乐输入与歌词输入相关后进行短句类别比较。

在某些实施例中，通过确定用户提供的对应歌词输入与音乐输入之间的短句差（“PD”）来分析歌词输入与音乐输入之间的对等性。确定PD的一个示例是通过将用户短句类别（UPC）除以源短句类别（SPC），如下文方程式3所示：

式3 PD = UPC/SPC

在此示例中，歌词输入与音乐输入之间完美的短句对等性将得到PD 1.0，其中UPC和SPC相等。如果歌词输入比音乐输入“短”，则PD可具有小于1.0的值，而如果歌词输入比音乐输入“长”，则PD可具有大于1.0的值。所属领域的技术人员应认识到，可通过将SPC除以UPC或利用其它合适的比较方法来获得类似结果。

歌词输入与音乐输入之间的对等性还可通过用户提供的歌词输入与音乐输入之间的“音符”差（“ND”）确定。确定ND的一个示例是通过获取音符计数（NC）与歌词输入的类似音节计数（TC）之间的差值。例如：

式4 ND = NC - TC

在此示例中，歌词输入与音乐输入之间完美的短句对等性将是ND 0，其中NC和TC相等。如果歌词输入比音乐输入“短”，则ND可大于或等于1，而如果歌词输入比音乐输入“长”，则ND可小于或等于-1。所属领域的技术人员应认识到，可通过从TC减去NC或利用其它合适的比较方法来获得类似结果。

使用这些或合适的替代比较方法确立给定歌词输入与提供的或所选的音乐输入的合适程度。PD=1和ND=0的短句对等性可表示两个输入之间的高度对等性，其中比1大得多或小得多的PD或比零大得多或小得多的ND可表示低程度的对等性，即，不一致。在一些实施例中，当将音乐输入与歌词输入相关以创建音乐作品时，如果对等性完美或接近完美（即，高对等性），则歌词输入的句子开始（SS）和句子结束（SE）可分别与音乐输入的短句开始（PS）和短句结束（PE）对齐。然而，当对等性不完美时，在将SS和PS设置成彼此对齐时，SE和PE可能无法很好地对齐。基于在分析期间确定的对等性/差异程度，可利用处理音乐输入和歌词输入的各种方法来为音乐作品提供最优结果。在一些实施例中，这些技术或编辑工具可由系统自动应用，或可由用户手动应用。

将文本输入和音乐输入相关的一个解决方案示例是音节匹配。当对等性完美时，即，音符差（ND）为零、音符计数（NC）和音节计数（TC）相同或短句差（PD）为1.0，则音节匹配可涉及仅仅将文本输入中的音节匹配到音乐输入中的音符和/或将文本输入句子匹配到音乐输入乐句。

然而，在一些实施例中，如果PD略微大于或小于1.0和/或ND处于例如1与5或-1与-5之间，则旋律缩减或加缀可分别用于提供输入之间的相关性。旋律缩减涉及缩减音乐输入中播放的音符数目，并且可在NC略微大于TC（例如ND处于大约1与5之间）或音乐源短句类别（SPC）略微大于用户短句类别（UPC）（例如PD略微小于1.0）时使用。缩减音乐输入中的音符可缩短音乐输入的总长度，并且使得NC更接近或等于文本输入的TC，从而增大短句对等性。从音乐输入移除的音符越少，所述缩减对选为音乐输入的音乐作品的影响将越小，并且因此在完成后，音乐消息中的音乐元素将更可识别。类似地，旋律加缀涉及添加音符到（即，加缀）音乐输入。在一些实施例中，在NC略微小于TC（例如ND处于-1与-5之间）或SPC略微小于UPC（例如PD略微大于1.0）时使用旋律加缀。在音乐输入中添加音符可加长音乐输入，这可使NC或SPC增加，并且因此增大输入之间的对等性。使用旋律加缀添加的音符越少，所述加缀对选为音乐输入的音乐作品的影响将越小，并且因此在生成后，音乐消息中的音乐元素将更可识别。在一些实施例中，添加到音乐作品的额外音符可通过分析音乐作品中的原始音符并添加有音乐意义的音符来确定。例如，在一些实施例中，系统可能仅添加与原始音乐作品相同乐调的音符或维持原始作品的节奏或其它特征的音符，从而协助保持原始作品可识别。应理解，尽管在音乐输入与文本输入之间的略微短句差异的上下文中描述旋律缩减和加缀，但还预期在较大或较小短句差异中使用旋律缩减和加缀。

用于音频生成的系统可由或结合歌词视频系统使用。在此类实施例中，总的来说，所述系统可从多个源接收定时信息，但最终可转换为MIDI和MusicXML数据或其它合适的数据格式。可在系统模仿人类技术人员略微调整音高和定时信息以匹配定时源——即，歌曲或其它录音——的原始意图的阶段来创建定时数据的演奏。接着，系统可基于与定时数据相关联的输入确定合适的语音模型。所述输入可以是音乐艺术家名称、作品的名称、说话者的性别、乐调等。在一些实施例中，演奏可连同MusicXML和语音模型ID一起转换为合适的数据格式。可将这些输入一起传送到可输出声音音频的合成级。

图3示出用于可与所述歌词视频系统结合使用的音频生成的方法300的实施例的流程图。系统可在302处接收音频定时信息，在304处接收例如呈MusicXML格式的数字乐谱，或在306处针对特定音频选择接收来源于母带或其它录音源的歌曲音频音轨。在每种情况下，接收到的数据可转换成或保持为例如MusicXML数据，或另一合适的数字格式。在308处，系统可接收歌曲数据，例如艺术家、流派、节奏、歌曲名称、调号、音调等。在312处，系统可基于接收到的歌曲数据来确定歌手性别、风格或理想语音模型。在310处，系统可基于MusicXML数据生成用于音频选择的MIDI数据。在314处，基于在310和312处的MIDI和理想语音模型确定，系统可进行MIDI演奏操控。例如，在一些实施例中，系统可基于语音数据和歌曲数据来调整音符的音高或长度以符合演奏MIDI的要求。在316处，系统可进行MIDI定时操控。例如，系统可基于理想语音模型、歌曲数据等调整音符定时/长度以符合演奏MIDI的要求。在318处，系统可接收歌词输入，所述歌词输入可从本地或第三方歌词数据库或从用户输入接收到。在322处，系统可基于来自318的歌词输入和来自316的MIDI定时信息生成文本到音乐MusicXML。上文描述了关于可将歌词文本数据与音乐或音乐输入数据匹配的方法的更多细节，并且还在同在申请中的第15/986,589号美国专利申请中进行了描述。在320处，系统可基于314中的MIDI演奏操控结果和来自312的理想语音模型数据而使用例如歌曲驱动合成器来生成音高曲线。在324处，可基于来自312的理想语音模型数据、在322处生成的文本到音乐MusicXML以及来自320的音高曲线而生成声音音频。

在一些实施例中，歌词视频系统可将上文参考图2和媒体生成系统或图3和音频生成系统所描述的方法用作歌词视频系统100的音频选择。在其它实施例中，音频选择可以是用户、第三方预录制的歌曲，或可以是市售歌曲或其它音频。例如，音频选择可选自第三方音乐数据库，例如Apple iTunes^® Store、Spotify^®、Amazon Music^®或任何其它第三方数据库。所述音频选择可以是存储在用户装置101到105上或存储在可通过互联网或其它网络访问的第三方远程服务器或云平台上的歌曲或音频文件。

不论音频选择的来源如何，所述歌词视频系统的动画生成系统可生成数字电影文件，所述数字电影文件可包含例如带有歌词动画的视频。在一些实施例中，动画生成系统可通过与相对于图3描述的音频生成系统中所用的相同或类似来源的定时数据开始。基于歌词输入以及定时数据，系统可最终生成可与数字电影文件音频配对的视觉动画以完成最终数字电影文件。在一些实施例中，可分析歌词输入的逻辑停顿处，如小节或歌曲部分。在上文并且还相对于以引用的方式并入本文中的同在申请中的第15/986,589号美国专利申请描述了这种类型的文本分析的示例。基于此分析，系统可将动画插入到所确定的小节或歌曲部分上，或歌词输入中标识的关键词上。在一些实施例中，可与第三方系统共享关于歌词输入的信息以检索额外信息，所述额外信息可帮助系统确定适合于歌曲或歌词的调色板、图像和动画。在一些实施例中，可基于流派、情绪、节奏和文本/字词长度而引入和选择主题化的动画池。最后，在一些实施例中，可在系统接收信息时实时渲染动画。接着，可组合音频和动画以渲染最终数字电影文件。

图5示出用于使用歌词视频系统的动画生成系统的方法500的实施例。在502处，系统可接收音频选择的数字乐谱。在一些实施例中，可从乐谱仓等第三方存储库或其它数据库接收所述数字乐谱。在其它实施例中，数字乐谱可存储在本地系统数据库、云存储中或用户装置上。在504处，在一些实施例中，系统可例如从MusicXML仓或其它数据库直接接收MusicXML数据作为音频输入。在506处，在一些实施例中，系统可接收来源于母带或来自包含云流媒体服务、第三方数据库、本地存储等任何合适的源的歌曲音频轨。在502或506中的任一处，可从数字乐谱或从歌曲音频轨生成MusicXML或其它合适的数据格式。基于502、504和506中的任一者，系统可在508处生成旋律MIDI。在一些实施例中，旋律MIDI可基于以MusicXML格式或以其它方式包含在音频选择中的定时信息而在音频选择中包含主音的定时和音高。在510处，系统可接收音频选择中可为歌词文本的歌词输入。在一些实施例中，歌词输入可以是第三方歌曲的字词，或其可以是用户在上文参考图2所描述的过程期间提供的歌词的文本输入。在任何情况下，在512处，系统可进行歌词分析以基于所述分析来生成歌词时间线并指派歌词特征。在一些实施例中，歌词特征可包含基于歌词输入中的特定字词的含义或上下文来分析所述字词并指派颜色、图像、动画或其它图形或视频特征。例如，如果歌词输入包含字词“爱”，则歌词分析可将红色指派给所述字词、小节、行或含有所述字词的音频选择部分。在其它实施例中，系统可基于歌词输入中的某些其它关键词或重复字词来指派某些图像或动画。

在514处，系统可基于MusicXML或更一般化地音频选择标识中的信息将歌曲或音频选择标识符传送到第三方数据库或索引。接着，系统可接收关于音频选择的音调信息。例如，第三方数据库可传送可由系统接收的音调信息，包含流派、情绪、节奏、音调、风格、显著性、艺术家或歌曲的情境分组信息等。在一些实施例中，音调信息可容易地在本地在用户装置或云上获得，或可来自第三方。系统可基于来自514的音调信息来确定匹配的或者最合适的图形图像，并且可将图形图像与在508处在旋律MIDI中生成的主音的定时进行匹配。图形图像可以是例如调色板、动画或反映音频选择的特定语气、音调或上下文的其它图像。在518处，系统可基于514中接收到的音调信息以及定时信息而确定要并入歌词视频中的主题动画。在一些实施例中，主题动画可选自Java脚本对象记法（JSON）主题动画池，其可基于流派、情绪、节奏和情境分组并且基于在定时数据中确定的字长而确定。在520处，在一些实施例中，系统可针对音频选择渲染动画序列以生成歌词视频。在一些实施例中，可实时生成动画，从而允许用户几乎即时的播放和查看。在此类实施例中，系统可基于逐行或逐部分来执行图5的分析，因此歌词视频可在整个音频选择可能被渲染之前开始播放。在其它实施例中，系统可渲染整个音频选择，之后进行播放，并且保留歌词视频以供用户选择性播放。

歌词视频可包含基于由系统接收到或确定的音调信息、歌词分析以及定时信息而确定的颜色背景。在歌词视频的播放期间，构成音频选择的歌词的字词的视觉描绘可在它们在音频选择播放中演奏时跨屏幕闪烁。可用因图5中的分析而变大、缩小、移动或以其它方式调整和改变的变化字体、风格、颜色和动画来描绘字词。歌词视频还可包含根据方法500中的分析而改变、偏移或闪烁的背景颜色。此外，歌词视频可包含所选的与音频选择的音乐主题、流派、歌词、音调等对应的主题化动画。因此，基于从用户接收到音频选择，系统可生成原创歌词视频。

图6示出使用歌词视频系统的方法600的另一实施例的流程图。在602处，系统可例如在本地通过用户装置或通过网络从用户接收音频选择。在一些实施例中，用户可从列表选择音频选择，或可通过搜索或其它输入来输入音频选择。在一些实施例中，音频选择可在Apple iTunes Store®、Amazon Music®或Spotify®等第三方应用或数据库中进行选择。在一些实施例中，系统可通过歌曲ID或其它合适的通知或标识来接收音频选择。在一些实施例中，音频选择可由系统实时播放和捕捉。在接收音频选择后，在604处，系统可确定音频选择的定时信息。在一些实施例中，可连同音频选择一起接收到定时信息。在一些实施例中，可通过查询数字乐谱数据库或MusicXML数据库等本地或第三方数据库来确定定时信息。除其它之外，音频选择的定时信息还可包含歌词定时，例如每个字词或音节何时在歌曲中播放/演唱，以及音符定时。在一些实施例中，可实施使用上文参考图2所描述的方法解析音频选择以确定定时信息的至少部分。在一些实施例中，可基于音频选择的定时信息和/或MusicXML数据来生成MIDI文件。

在606处，系统可确定音频选择的歌词信息，即，音频选择中所用或演唱的字词。在一些实施例中，可通过数字乐谱、歌词数据库（第三方或本地）或另一合适的歌词源来确定歌词信息。在一些实施例中，系统可使用语音识别，例如通过将音频选择中的口头言语或演唱字词转换成文本，来标识歌词信息。这种转换可由系统自身或通过使用第三方源来完成，并且接收回到系统中以供分析。在608处，系统可分析音频选择的歌词信息。例如，系统可确定歌词信息当中指示风格、情绪或时常重复的术语的关键词。系统还可标识通常指示特定情绪或流派的字词。在歌词分析期间，系统可创建时间线，所述时间线基于歌词分析将颜色指派给歌词的各行或小节。在一些实施例中，歌词分析可包含插入与特定歌词、短句、行或小节相关联的特定图像和/或动画。在一些实施例中，可实施使用上文参考图2所描述的方法解析音频选择来进行歌词分析的至少部分。在610处，系统可接收音频选择的音调信息。在一些实施例中，系统可包含歌曲数据库和相关联的流派、情绪、节奏、情境分组、艺术家、风格等。在其它实施例中，系统可将音频选择（通过歌曲ID或以其它方式）传送到第三方数据库或应用程序，从而请求音频选择的音调信息。在此类实施例中，系统可接着从第三方数据库或应用程序接收音调信息，例如流派、情绪、节奏、情境分组、艺术家、风格等。

在612处，系统可基于定时信息、歌词分析和歌词信息中的一个或全部以及音调信息来确定歌词视频的视频内容。由系统自动选择的视频内容可至少部分地通过音调信息确定。例如，如果确定音调信息为积极的、快乐的、在大调中等，则系统可从包含具有明亮颜色的快乐、积极的可视内容的主题动画池中选择动画或图形。在另一示例中，如果确定音调信息为忧郁的、缓慢的、在小调中等，则系统可选择具有对应的更深色或单调色的悲伤或缓慢动画或图形来匹配音调。所属领域的技术人员将理解，基于音调信息匹配调色板、动画和图像可基于文化标准或音乐和视频标准而以若干不同方式来完成。在一些实施例中，还可至少部分地基于音频选择的定时信息来选择视频内容。例如，视频内容中所选的可视内容以及可视内容的定时可基于歌词的字长和定时。在一些实施例中，系统可针对歌词中的特定字词的长度来匹配视频内容中要显示的并在歌词结束后移除或替换为另一图形或动画的图形或图像。在一些实施例中，视频内容选择或确定可至少部分地基于歌词分析。例如，系统可确定特定歌词可通常与特定可视内容或动画相关联，例如词语“爱”与心或花相关联，或其它的关联。在614处，系统可基于视频内容来渲染歌词视频或歌词视频的部分。在一些实施例中，歌词视频可以是视频文件，所述视频文件包含连同由系统确定的视频内容一起播放的音频选择的音频。视频内容可包含动画、图形、图像和其它可视内容，以及对音频选择的歌词的视觉描绘。歌词可在歌词视频中以与音频选择的播放中那些歌词的出现相匹配的定时来显示。在一些实施例中，歌词的视觉描绘可依据上文完成的分析而移动、改变字体或大小，或改变颜色以符合音调信息、歌词分析和定时信息。然而，在一些实施例中，歌词自身可能不在视频内容中显示，或有时仅某些歌词将选用于可视化。在一些实施例中，视频内容的图形、动画或其它可视内容可与音频选择的定时相关，例如与节拍、节奏、歌词定时等相关。在一些实施例中，歌词视频可被一次性全部渲染并且保存为可播放或传送给另一用户或装置的视频文件。在一些实施例中，系统可基本上实时以音频选择的歌词、行、短句或部分为单位来渲染歌词视频。在此类实施例中，有可能在系统结束针对整个音频选择渲染视频内容之前播放歌词视频。

在一些实施例中，系统可应用机器学习技术或其它自动分析以确定定时信息、歌词信息和分析以及音调信息而无需从第三方源接收信息。例如，在此类实施例中，系统可使用参考数据库和机器学习技术来接收音频选择或输入、自动导出歌词、定时信息、歌词分析和音调信息。接着，系统可基于导出的信息选择视频内容并且相应地渲染歌词视频。

所属领域的技术人员将理解，本文所描述的歌词视频系统和用于操作此类歌词视频系统的方法可在客户端装置104或服务器108等单个客户端装置上执行，或可在各种装置上执行，每个装置包含系统的不同部分并且执行方法的不同部分。例如，在一些实施例中，客户端装置104或服务器108可执行图2中所示的大多数步骤，但语音合成可由另一装置或另一服务器执行。下文包含对可配置成包含本文所描述的歌词视频系统的单个装置的一个实施例的描述，但应理解，所述单个装置替代地可以是多个装置。

图4示出可部署于图1的各种装置101到105或108中的任一个上或一起工作的多个装置上的系统100的一个实施例，出于说明性目的，所述装置可以是任何多用途计算机（101、102）、手持式计算装置（103到105）和/或服务器（108）。出于说明的目的，图4描绘在图1的装置104上操作的系统100。但所属领域的技术人员将理解，系统100可部署为安装在单个装置上或者各自执行系统的操作的一部分的多个装置上的应用程序。或者，所述系统可在http浏览器环境内操作，所述环境可任选地利用网络插件技术扩展浏览器的功能以实现与系统100相关联的功能。装置104可包含比图4中示出的部件多许多或较少的部件。然而，所属领域的技术人员应理解，某些部件对于系统100的操作并非是必要的，而处理器、视频显示器和音频扬声器等其它部件对于实践本发明的各方面是重要的。

如图4中所示，装置104包含处理器402，所述处理器可以是通过总线406与大容量存储器404通信的CPU。如阅读本说明书、附图和权利要求书的所属领域的技术人员将理解，处理器402还可包括单独的或彼此组合的一个或多个通用处理器、数字信号处理器、其它专用处理器和/或ASIC。装置104还包含电源408、一个或多个网络接口410、音频接口412、显示驱动器414、用户输入处理程序416、照明器418、输入/输出接口420、任选触觉接口422和任选全球定位系统（GPS）接收器424。装置104还可包含使视频能够被获取和/或与特定音乐消息相关联的相机。来自相机或其它源的视频还可进一步提供到在线社交网络和/或在线音乐社区。装置104还可任选地与基站或图1的服务器108通信，或直接与另一计算装置通信。其它计算装置，例如基站或图1的服务器108，可包含额外音频相关部件，例如专业音频处理器、生成器、放大器、扬声器、XLR连接器和/或电源。

继续看图4，电源408可包括可充电或非可充电电池，或可由AC适配器或也可对电池进行补充和/或再充电的通电对接托架等外部电源提供。网络接口410包含用于将装置104联接到一个或多个网络的电路系统，并且构造成结合一个或多个通信协议和技术使用，所述通信协议和技术包含但不限于全球移动通信系统（GSM）、码分多址（CDMA）、时分多址（TDMA）、用户数据报协议（UDP）、传输控制协议/互联网协议（TCP/IP）、SMS、通用包无线电服务（GPRS）、WAP、超宽带（UWB）、IEEE 802.16全球微波接入互操作性（WiMax）、SIP/RTP，或各种其它无线通信协议中的任一种。因此，网络接口410可包含作为收发器的收发装置或网络接口卡（NIC）。

音频接口412（图4）布置成产生和接收音频信号，例如人类语音的声音。显示驱动器414（图4）布置成产生视频信号以驱动各种类型的显示器。例如，显示驱动器414可驱动视频监控显示器，所述显示器可以是基于液晶、气体等离子体或发光二极管（LED）的显示器，或可与计算装置一起使用的任何其它类型的显示器。或者，显示驱动器414可驱动手持式触敏屏幕，所述触敏屏幕还将布置成接收来自触控笔等物体的输入或借助用户输入处理程序416的来自人手的数字输入。

装置104还包括用于与头戴装置、扬声器或其它输入或输出装置等外部装置通信的输入/输出接口420。输入/输出接口420可利用一种或多种通信技术，例如USB、红外、Bluetooth™等等。任选触觉接口422布置成向装置104的用户提供触觉反馈。例如，在装置104是移动或手持式装置的实施例中，例如图1所示的那样，任选触觉接口422可用于例如在另一计算装置用户呼叫时使装置以特定方式振动。

任选GPS收发器424可确定装置101在地球表面上的物理坐标，所述任选GPS收发器通常将位置输出为经度纬度值。GPS收发器424还可使用其它地理定位机制，包含但不限于三角测量、辅助GPS（AGPS）、E-OTD、CI、SAI、ETA、BSS等等，以进一步确定装置104在地球表面上的物理位置。然而，在一个实施例中，移动装置可通过其它部件提供可用以确定装置的物理位置的其它信息，包含例如MAC地址、IP地址等等。

如图4中所示，大容量存储器404包含RAM 423、ROM 426和其它存储构件。大容量存储器404示出用于存储计算机可读指令、数据结构、程序模块或其它数据等信息的计算机可读存储介质的示例。大容量存储器404存储用于控制装置104的低等级操作的基本输入/输出系统（“BIOS”）428。大容量存储器还存储用于控制装置104的操作的操作系统430。应了解，此部件可包含通用操作系统，例如一定版本的MAC OS、WINDOWS、UNIX、LINUX，或专用操作系统，例如Xbox 360系统软件、Wii IOS、Windows MobileTM、iOS、安卓、webOS、QNX或Symbian®操作系统。操作系统可包含或介接Java虚拟机模块，所述Java虚拟机模块通过Java应用程序实现对硬件部件和/或操作系统操作的控制。操作系统还可包含还通常称为“沙盒”的安全虚拟容器，其实现Flash和Unity等应用程序的安全执行。

一个或多个数据存储模块可存储在装置104的存储器404中。如阅读本说明书、附图和权利要求书的所属领域的技术人员将理解，存储在数据存储模块中的一部分信息还可存储在与装置104相关联的磁盘驱动器或其它存储介质上。这些数据存储模块可存储多个音轨记录、MIDI文件、WAV文件、音频数据样本以及各种其它数据和/或数据格式，或呈上述任一格式的输入旋律数据。数据存储模块还可存储描述系统100的各种能力的信息，所述信息可例如在通信期间在请求后或响应于某些事件等而作为标头的部分发送到其它装置。此外，数据存储模块还可用于存储社交联网信息，包含地址簿、好友列表、别名、用户简档信息等等。

装置104可存储并选择性地执行数个不同应用程序，包含根据系统100使用的应用程序。例如，根据系统100使用的应用程序可包含音频转换器模块、录制会话实时循环（Recording Session Live Looping，RSLL）模块、多接自动排序器（Multiple Take Auto-Compositor，MTAC）模块、泛音器（Harmonizer）模块、音轨共享器模块、声音搜索器模块、流派匹配器模块以及和弦匹配器模块。在上文已通过引用方式并入的第8,779,268号美国专利中更详细地描述了这些应用程序的功能。

装置104上的应用程序还可包含信使（messenger）434和浏览器436。信使434可配置成使用包含但不限于电子邮件、短消息服务（SMS）、即时消息（IM）、多媒体消息服务（MMS）、互联网中继交谈（IRC）、mIRC、RSS馈送和/或其类似者的各种消息接发通信中的任一种发起和管理消息接发会话。例如，在一个实施例中，信使434可配置为IM消息接发应用程序，例如AOL的即时通（AOL Instant Messenger）、雅虎通（Yahoo! Messenger）、NETMessenger Server、ICQ等等。在另一实施例中，信使434可以是配置成整合和使用各种消息接发协议的客户端应用程序。在一个实施例中，信使434可与浏览器436交互以管理消息。浏览器436可包含配置成接收和显示使用几乎任何基于网络的语言的图形、文本、多媒体等的几乎任何应用程序。在一个实施例中，浏览器应用程序能够使用手持式装置标记语言（HDML）、无线标记语言（WML）、WMLScript、Javascript、标准通用标记语言（SMGL）、超文本标记语言（HTML）、可扩展标记语言（XML）等，以显示并发送消息。然而，可使用各种其它基于网络的语言中的任一种，包含Python、Java和第三方网络插件。

装置104还可包含其它应用程序438，例如计算机可执行指令，其在由客户端装置104执行时传送、接收和/或另外处理消息（例如SMS、MMS、IM、电子邮件和/或其它消息）、音频、视频，并且实现与另一客户端装置的另一用户的远程通信。应用程序的其它示例包含日历、搜索程序、电子邮件客户端、IM应用程序、SMS应用程序、VoIP应用程序、联系管理器、任务管理器、转码器、数据库程序、文字处理程序、安全应用程序、电子表格程序、游戏、搜索程序等。上文所描述的每个应用程序可在装置104上嵌入或替代地下载并执行。

当然，虽然上文所论述的各种应用程序示为在装置104上实施，但在替代实施例中，这些应用程序中的每一者的一个或多个部分可在一个或多个远程装置或服务器上实施，其中每个部分的输入和输出通过一个或多个网络在装置104与一个或多个远程装置或服务器之间传递。替代地，应用程序中的一个或多个可被打包以在外围装置上执行或从外围装置下载。

前文描述和附图仅解释和示出本发明，而本发明不限于此。虽然相对于某些实施方案或实施例描述了本说明书，但许多细节是出于说明的目的而阐述。因此，前述内容仅示出本发明的原理。例如，在不脱离本发明精神或基本特性的情况下，本发明可具有其它特定形式。描述的布置是说明性的，不具限制性。对于所属领域的技术人员来说，本发明容许额外实施方案或实施例，并且在不脱离本发明的基本原理的情况下，可对本申请中描述的某些这些细节进行相当大的改变。因此应了解，所属领域的技术人员将能够设计出各种布置，这些布置虽然未在本文中明确描述或示出但体现本发明的原理，并且因此处于本发明的精神和范围内。

Claims

1.一种用于自动生成歌词视频的计算机实施的方法，所述方法包括：

接收音频选择；

通过一个或多个处理器确定所述音频选择的定时信息；

通过所述一个或多个处理器确定所述音频选择的歌词信息；

接收所述音频选择的音调信息；

通过所述一个或多个处理器基于所述音频选择的所述定时信息、所述歌词信息和所述音调信息中的至少一个来生成视频内容；以及

通过所述一个或多个处理器基于所述视频内容和所述音频选择来渲染歌词视频。

2.根据权利要求1所述的方法，还包括向第三方数据库传送请求，其中所述请求包含所述音频选择的歌曲标识，并且其中接收所述音频选择的所述音调信息包含基于所述请求而从所述第三方数据库接收所述音调信息。

3.根据权利要求1所述的方法，还包括从第三方数据库接收所述音调信息。

4.根据权利要求1所述的方法，还包括通过数字通信网络将所述歌词视频传送给用户装置。

5.根据权利要求1所述的方法，还包括至少部分地基于所述音频选择的所述定时信息来生成旋律MIDI。

6.根据权利要求1所述的方法，其中音调信息包含对应于所述音频选择的流派、节奏、情绪、艺术家或风格中的至少一个。

7.根据权利要求1所述的方法，其中生成所述视频内容包含基于所述音调信息、所述歌词信息或所述定时信息中的至少一个来自动选择动画、图形或可视内容中的至少一个。

8.根据权利要求1所述的方法，还包括对所述歌词信息执行歌词分析以确定所述歌词信息中的至少一个关键词。

9.根据权利要求8所述的方法，其中生成视频内容包含至少部分地基于所述歌词分析来自动选择动画、图形或可视内容中的至少一个。

10.根据权利要求1所述的方法，还包括通过所述一个或多个处理器基于所述音调信息来确定用于所述歌词视频的至少一部分的调色板。

11.一种用于自动生成歌词视频的计算机实施的方法，所述方法包括：

通过数字通信网络接收音频选择；

通过一个或多个处理器确定所述音频选择的定时信息；

通过所述数字通信网络向歌词数据库请求所述音频选择的歌词信息；

基于所述请求，通过所述数字通信网络从所述歌词数据库接收所述音频选择的所述歌词信息；

通过所述数字通信网络向音调数据库请求所述音频选择的音调信息；

基于所述请求，通过所述数字通信网络从所述音调数据库接收所述音频选择的所述音调信息，所述音调信息包含对应于所述音频选择的流派、节奏、情绪、艺术家或风格中的至少一个；

12.根据权利要求11所述的方法，其中向所述音调数据库请求所述音频选择的所述音调信息包含将歌曲标识传送给第三方。

13.根据权利要求11所述的方法，其中根据数字乐谱确定所述音频选择的所述定时信息。

14.根据权利要求11所述的方法，还包括至少部分地基于所述音频选择的所述定时信息来生成旋律MIDI。

15.根据权利要求11所述的方法，其中生成所述视频内容包含基于所述音调信息、所述歌词信息或所述定时信息中的至少一个来自动选择动画、图形或可视内容中的至少一个。

16.根据权利要求11所述的方法，还包括对所述歌词信息执行歌词分析以确定所述歌词信息中的至少一个关键词。

17.根据权利要求16所述的方法，其中生成视频内容包含至少部分地基于所述歌词分析来自动选择动画、图形或可视内容中的至少一个。

18.根据权利要求11所述的方法，还包括通过所述一个或多个处理器基于所述音调信息来确定用于所述歌词视频的至少一部分的调色板。

19.一种用于自动生成歌词视频的计算机实施的方法，所述方法包括：

通过数字通信网络从用户装置接收音频选择；

通过一个或多个处理器确定所述音频选择的定时信息；

通过所述一个或多个处理器确定所述音频选择的歌词信息；

通过所述一个或多个处理器对所述歌词信息执行歌词分析；

通过所述数字通信网络向第三方数据库请求所述音频选择的音调信息；

基于所述请求，通过所述数字通信网络从所述第三方数据库接收所述音频选择的所述音调信息，所述音调信息包含对应于所述音频选择的流派、节奏、情绪、艺术家或风格中的至少一个；

通过所述一个或多个处理器基于所述音频选择的所述定时信息、所述歌词分析和所述音调信息中的至少一个来生成视频内容；

通过所述一个或多个处理器基于所述视频内容和所述音频选择来渲染歌词视频的至少一部分；以及

通过所述数字通信网络将所述歌词视频的所述至少一部分传送给所述用户装置以用于播放。

20.根据权利要求19所述的方法，其中生成所述视频内容包含基于所述音调信息、所述歌词信息或所述定时信息中的至少一个来自动选择动画、图形或可视内容中的至少一个。