CN107076631A

CN107076631A - 用于将文本消息自动地转换成音乐作品的系统和方法

Info

Publication number: CN107076631A
Application number: CN201580045194.XA
Authority: CN
Inventors: M.M.塞尔勒蒂奇; B.巴兹列夫斯基; J.米契尔; R.科瓦奇; P.伍德沃; T.韦布; R.格罗夫斯
Original assignee: Baron Co
Current assignee: Baron Co
Priority date: 2014-08-22
Filing date: 2015-08-24
Publication date: 2017-08-18
Also published as: EP3183550A1; US20160055838A1; KR20170081160A; JP2017532608A; US20170154615A1; US10529310B2; EP3183550B1; CA2958251A1; WO2016029217A1; EP3183550A4; US9570055B2

Abstract

用于将文本消息转换成音乐消息的方法包括接收文本输入和接收音乐输入选择。方法包括分析文本输入以确定文本特性和分析对应于音乐输入选择的音乐输入以确定音乐特性。基于文本特性和音乐特性，方法包括使文本输入与音乐输入相关以生成合成器输入和将合成器输入发送给语音合成器。方法包括从语音合成器接收文本输入的有声呈现、根据有声呈现和音乐输入生成音乐消息，以及输出音乐消息。

Description

用于将文本消息自动地转换成音乐作品的系统和方法

对相关申请的交叉引用

本申请要求2014年8月22日提交的美国临时专利申请号62/040,842以及2015年2月27日提交的美国临时专利申请号62/121,803的优先权，这两个美国临时专利申请被整体地通过引用结合到本文中。

技术领域

本公开一般地涉及音乐创作领域，并且更具体地涉及将文本转换成音乐作品的系统。

背景技术

经由书面文本的通信在现今的社会中已经变得普通。除现在和将来可用的其他方法之外，可以经由电子邮件、MMS消息、SMS消息、即时消息传送、在线聊天、各种社交媒体出口（诸如Twitter®和Facebook®消息传送）将这样的文本通信传输到（或以其他方式使这样的文本通信可用于）一个或多个接收者。

随着文本通信随时间过去已经变得更普遍，该形式的消息传送已经失去其原始吸引力中的一些。一些文本通信应用已经在尝试恢复吸引力中的一些中引入附加特征。例如，某些文本平台允许用户将表情符号或其他图形（例如，GIF文件）添加到其消息。即使如此，由于其增长地普遍的使用，图形也已经随时间过去而丢失其吸引力中的一些。此外，预先存在的图形和表情符号的数目实际上受限制，并且从零开始创建这样的图形增强对于普通用户而言可能是困难或不切实际的。类似地，一些应用已经给用户提供用于将音频/音乐文件嵌入使用某些格式传输的消息中的有限选项。

给用户提供方便的平台来以更有创造力和有趣的方式创作和通过各种介质递送基于文本的通信将是所期望的。

发明内容

在实施例中，本公开描述了一种用于将文本消息自动地转换成音乐消息的计算机实现的方法。该计算机实现的方法包括接收文本输入以及接收音乐输入选择。方法还包括经由一个或多个处理器分析文本输入以确定文本输入的至少一个文本特性，以及经由所述一个或多个处理器分析对应于音乐输入选择的音乐输入以确定音乐输入的至少一个音乐特性。基于所述至少一个文本特性和所述至少一个音乐特性，方法还包括经由所述一个或多个处理器使文本输入与音乐输入相关以生成合成器输入，以及将合成器输入发送给语音合成器。方法包括从语音合成器接收文本输入的有声（vocal）呈现、根据文本输入的有声呈现和音乐输入生成音乐消息、输出音乐消息。

在另一实施例中，本公开描述了一种装置，其包括至少一个处理器以及存储计算机可读指令的至少一个存储器。当执行时，指令使装置至少执行接收文本输入和接收音乐输入选择。指令还使装置执行经由所述至少一个处理器分析文本输入以确定文本输入的至少一个文本特性以及经由所述至少一个处理器分析对应于音乐输入选择的音乐输入以确定音乐输入的至少一个音乐特性。基于所述至少一个文本特性和所述至少一个音乐特性，指令还使装置执行经由所述至少一个处理器使文本输入与音乐输入相关以生成合成器输入并且将合成器输入发送给语音合成器。指令还使装置执行从语音合成器接收文本输入的有声呈现、根据文本输入的有声呈现和音乐输入生成音乐消息，以及输出音乐消息。

在另一实施例中，本公开描述了一种存储指令的非暂时性计算机可读介质，所述指令在被执行时使装置至少执行接收文本输入和接收音乐输入选择。指令还使装置执行经由一个或多个处理器分析文本输入以确定文本输入的至少一个文本特性，以及经由所述一个或多个处理器分析对应于音乐输入选择的音乐输入以确定音乐输入的至少一个音乐特性。基于所述至少一个文本特性和所述至少一个音乐特性，指令还使装置执行经由所述一个或多个处理器使文本输入与音乐输入相关以生成合成器输入并且将合成器输入发送给语音合成器。指令还使装置执行从语音合成器接收文本输入的有声呈现、根据文本输入的有声呈现和音乐输入生成音乐消息，以及输出音乐消息。

附图说明

参考下图描述了非限制性和非穷举性实施例。在图中，同样的参考数字贯穿所有各种图指的是同样的部分，除非被另外指定。

为了更好地理解本公开，将参考要与附图相关联地阅读的以下详细描述，在所述附图中：

图1图示了根据本公开的其中可以实践音乐消息传送系统的网络配置的一个示例性实施例；

图2图示了根据本公开的操作音乐消息传送系统的方法的实施例的流程图；

图3图示了根据本公开的回放滑动条的实施例；以及

图4图示了支持本公开的系统和过程的设备的框图。

具体实施方式

现在将在此后参考附图更充分地描述本发明，所述附图形成本发明的一部分并且其通过图示的方式示出了可以通过其实践本发明的具体示例性实施例。然而，本发明可以以许多不同形式体现并且不应该解释为限于本文中阐述的实施例；相反，这些实施例被提供使得本公开将是透彻和完整的，并且将向本领域技术人员充分地传达本发明的范围。除其他之外，本发明可以体现为方法或设备。相应地，本发明可以采取完全硬件实施例、完全软件实施例或者组合软件和硬件方面的实施例的形式。因此，不要在限制性的意义上解释以下详细描述。

贯穿说明书和权利要求书，以下术语采取本文中明确地相关联的含义，除非上下文另外清楚地指示。如本文中使用的短语“在一个实施例中”不一定指的是同一实施例，尽管其可能。此外，如本文中使用的短语“在另一实施例中”不一定指的是不同的实施例，尽管其可能。因此，如下面描述的那样，本发明的各种实施例可以容易地组合，而不脱离本发明的范围或精神。

此外，如本文中所使用的那样，术语“或”是包括性的“或”运算符并且等同于术语“和/或”，除非上下文另外清楚地指示。术语“基于”不是排他性的并且虑及基于没有描述的附加因素，除非上下文另外清楚地指示。此外，贯穿说明书，“一”、“一个”和“该”的含义包括复数引用。“在……中”的含义包括“在……中”并且包括复数引用。“在……中”的含义包括“在……中”和“在……上”。

本公开涉及用于创建包含可听音乐和/或视频作品的消息的系统和方法，所述消息可以经由诸如SMS、MMS和电子邮件之类的多种消息传送格式而传输给用户。还可以可能的是，经由诸如Twitter®、Facebook®、Instagram®或任何其他适合的媒体共享系统之类的各种社交媒体平台和格式来发送这样的音乐作品消息。在某些实施例中，所公开的音乐消息传送系统给用户提供直观且方便的方式来基于无限变化的用户输入而自动地创作和发送原始作品。例如，所公开的音乐消息传送系统可以从用户接收以文本链的形式的文本输入连同用户对由用户预先录制或录制和提供的音乐作品或旋律的选择。一旦接收到这些输入，音乐消息传送系统就可以分析和解析文本链和所选音乐作品二者来创作与音乐作品的版本配对的文本链的有声呈现以提供通过用户的文本输入的音乐增强版本。音乐消息传送系统的输出可以提供大量多种音乐输出而同时维持所选音乐作品的用户识别。如果其选择，则用户然后可以经由社交媒体、SMS或MMS消息传送或任何其他形式的文件共享或电子通信来与其他人共享音乐消息。

在一些实施例中，用户可以附加地录制视频以伴随音乐增强文本。可以实时地录制视频连同由用户提供的文本输入的有声呈现以便将视频与由系统创建的音乐消息有效地匹配。在其他实施例中，可以选择预先录制的视频并且将其与音乐消息匹配。在这样的实施例中，系统的结果是仅使用客户端设备（诸如经由网络连接到服务器的智能电话或平板）并且要求很少或者不要求专门技术技能或知识创建的原始抒情视频。下面更详细地描述音乐消息传送系统以及实现这样的系统的方法。

图1图示了其中可以实现所公开的音乐消息传送系统100的网络配置的示例性实施例。然而，在本文中设想可以不要求所有图示的组件来实现音乐消息传送系统，并且可以做出组件的布置和类型方面的变化而不脱离本发明的范围的精神。参考图1，音乐消息传送系统100的图示实施例包括局域网（“LAN”）/广域网（“WAN”）（共同地，网络106）、无线网络110、客户端设备101-105、服务器108、媒体数据库109以及外围输入/输出（I/O）设备111、112和113。虽然图示了客户端设备的若干示例，但是在本文中设想客户端设备101-105可以实质上包括能够处理音频、视频或文本数据和通过诸如网络106、无线网络110等的网络发送所述音频、视频或文本数据的任何计算设备。在一些实施例中，无线网络110和网络106中的一个或两个可以是数字通信网络。客户端设备101-105还可以包括被被配置成便携式的设备。因此，客户端设备101-105可以实质上包括能够连接到另一计算设备并且接收信息的任何便携式计算设备。这样的设备包括便携式设备，诸如蜂窝电话、智能电话、显示寻呼机、射频（RF）设备、红外（IR）设备、个人数字助理（PDA）、手持计算机、膝上型计算机、可穿戴计算机、平板计算机、组合前述设备中的一个或多个的集成设备，等等。

客户端设备101-105还可以实质上包括能够通过网络通信以发送和接收信息（包括轨迹信息和社交联网信息）、执行可听地生成的音轨搜索查询等的任何计算设备。这样的设备的集合可以包括典型地使用有线或无线通信介质连接的设备，诸如个人计算机、微处理器系统、基于微处理器的或可编程的消费者电子设备、网络PC等。在一个实施例中，客户端设备101-105中的至少一些可以在有线和/或无线网络上操作。

客户端设备101-105可以是使能web的并且可以包括被被配置成接收和发送web页面、基于web的消息等的浏览器应用。浏览器应用可以被被配置成接收和显示图形、文本、多媒体、视频等，并且可以实质上采用任何基于web的语言，包括无线应用协议消息（WAP）等。在一个实施例中，使得浏览器应用能够采用手持设备标记语言（HDML）、无线标记语言（WML）、WMLScript、JavaScript、标准通用25标记语言（SMGL）、超文本标记语言（HTML）、可扩展标记语言（XML）等来显示和发送各种内容。在一个实施例中，客户端设备的用户可以采用浏览器应用与诸如文本消息传送客户端、电子邮件客户端等的消息传送客户端交互以发送和/或接收消息。

客户端设备101-105还可以包括被被配置成接收来自另一计算设备的内容的至少一个其他客户端应用。该客户端应用可以包括提供和接收多媒体内容的能力，所述多媒体内容诸如文本内容、图形内容、音频内容、视频内容等。该客户端应用可以进一步提供标识其本身的信息，包括类型、能力、名称等。在一个实施例中，客户端设备101-105可以通过多种机制中的任何机制来唯一地标识它们本身，所述多种机制包括电话号码、移动标识号码（MIN）、电子序列号码（ESN）或者其他移动设备标识符。该信息还可以指示使得移动设备能够采用的内容格式。这样的信息可以以例如网络分组或其他适合的形式来提供，发送给服务器108或其他计算设备。媒体数据库109可以被配置成存储诸如音乐片段和文件等的各种媒体，并且存储在媒体数据库中的信息可以由服务器108访问，或者在其他实施例中由其他计算设备通过网络106或无线网络110直接地访问。

客户端设备101-105可以进一步被配置成包括使得终端用户能够登录到可以由另一计算设备（诸如服务器108）管理的用户账户中的客户端应用。这样的用户账户例如可以被配置成使得终端用户能够参加一个或多个社交联网活动，诸如提交音轨或多音轨录音或视频、搜索音轨或录音、下载多媒体音轨或其他录音以及参加在线音乐社区。然而，还可以在没有登录到用户账户中的情况下执行参加各种联网活动。

无线网络110被配置成将客户端设备103-105及其组件与网络106耦合。无线网络110可以包括可以进一步覆盖独立的自组织网络等的多种无线子网络中的任何无线子网络以提供用于客户端设备103-105的面向基础设施的连接。这样的子网络可以包括网状网络、无线LAN（WLAN）网络、蜂窝网络等。无线网络110可以进一步包括通过无线无线电链接或者其他适合的无线通信协议而连接的终端、网关、路由器等的自治系统。这些连接器可以被配置成自由地且随机地移动并且任意地组织它们本身，使得无线网络110的拓扑可以快速地改变。

无线网络110可以进一步采用多个接入技术，包括用于蜂窝系统的第二代（2G）、第三代（3G）、第四代（4G）以及4G长期演进（LTE）无线电接入、WLAN、无线路由器（WR）网以及其他适合的接入技术。诸如2G、3G、4G、4G LTE之类的接入技术以及将来的接入网络可以使能对移动设备的广域覆盖，所述移动设备诸如具有各种移动性程度的客户端设备103-105。例如，无线网络110可以使能通过无线电网络接入的无线电连接，所述无线电网络接入诸如全球移动通信系统（GSM）、通用分组无线电业务（GPRS）、增强的数据GSM环境（EDGE）、宽带码分多址（WCDMA）等。本质上，无线网络110可以实质上包括信息可以通过其在客户端设备103-105和另一计算设备、网络等之间传播的任何无线通信机制。

网络106被配置成将网络设备与包括服务器108、客户端设备101-102的其他计算设备耦合，并且通过无线网络110耦合到客户端设备103-105。使得网络106能够采用任何形式的计算机可读介质用于从一个电子设备向另一电子设备传送信息。而且，除局域网（LAN）、广域网（WAN）、诸如通过通用串行总线（USB）端口之类的直接连接、其他形式的计算机可读介质或者其任何组合之外，网络106还可以包括因特网。在包括基于不同架构和协议的那些LAN的LAN互连集合上，路由器充当LAN之间的链接，从而使得消息能够从一个发送到另一个。此外，LAN内的通信链接典型地包括双绞线或同轴电缆，而网络之间的通信链接可以利用模拟电话线、完整或部分的专用数字线（包括T1、T2、T3和T4）、综合业务数字网络（ISDN）、数字订户线（DSL）、无线链接（包括卫星链接）或者为本领域技术人员所知的其他通信链接。此外，远程计算机和其他相关电子设备可以经由调制解调器和临时电话链接远程地连接到或者LAN或者WAN。本质上，网络106包括信息可以通过其在计算设备之间传播的任何通信方法。

在某些实施例中，客户端设备101-105可以例如使用点对点配置直接地通信。

附加地，通信介质典型地体现计算机可读指令、数据结构、程序模块或其他传输机制并且包括任何信息递送介质。作为示例，通信介质包括诸如双绞线、同轴电缆、光纤、波导和其他有线介质之类的有线介质以及诸如声学、RF、红外和其他无线介质之类的无线介质。

包括I/O设备111-113的各种外围设备可以附连到客户端设备101-105。例如，多点触摸压力板113可以从用户接收物理输入并且作为USB外围设备来分配，但是不限于USB，并且其他接口协议也可以被使用，包括但不限于ZIGBEE、蓝牙或其他适合的连接。通过压力板113的外部和接口协议传输的数据可以包括例如MIDI格式化数据，但是也可以通过该连接传达其他格式的数据。类似的压力板可以替代地与诸如移动设备104或105之类的客户端设备实体集成。耳机112可以附连到客户端设备的音频端口或者其他有线或无线I/O接口，从而提供用于使用户倾听所创作的消息的回放连同系统的其他可听输出的示例性布置。麦克风111也可以经由音频输入端口或者其他连接而附连到客户端设备101-105。替代地或者除耳机112和麦克风111之外，一个或多个扬声器和/或麦克风可以集成到客户端设备101-105或者其他外围设备111-113中的一个或多个中。而且，外部设备可以连接到压力板113和/或客户端设备101-105以提供可以通过外部控制重现的声音样本、波形、信号或其他音乐输入的外部源。这样的外部设备可以是MIDI设备，客户端设备103和/或压力板113可以将MIDI事件或其他数据路由到MIDI设备以便触发来自外部设备的音频的回放。然而，设想这样的外部设备可以采用不同于MIDI的格式。

图2是图示了用于操作音乐消息传送系统100的方法200的实施例的流程图，其中参考图1中示出的组件。在202处开始，系统可以在204处接收文本输入。用于用户期望发送的消息的文本输入可以由用户经由诸如PC、平板或智能电话之类的电子设备、参考图1描述的客户端设备101-105中的任何其他或者其他适合的设备输入。在这些设备中的任何设备中可以以常见方式输入文本（例如，使用软键盘或机械键盘、触摸屏键盘、言语到文本转换的人工输入）。在一些实施例中，通过使用客户端设备101-105访问的专门用户接口应用来提供文本输入。替代地，文本输入可以经由一般应用来递送以用于使用客户端设备101-105传输基于文本的消息。

所得文本输入可以通过无线通信网络110和/或网络106传输以由服务器108在204处接收。在206处，系统使用服务器108分析文本输入以确定文本输入的某些特性。然而，在一些实施例中，设想对文本消息的分析可以替代地发生在客户端设备101-105本身而不是服务器108上或者与服务器108并行地发生。对文本输入的分析可以包括多种数据处理技术和过程。例如，在一些实施例中，利用言语解析器将文本输入解析成文本的言语元素。例如，在一些实施例中，言语解析器可以标识重要的词（例如，喜爱、生气、疯狂）、标定短语边界（例如，“我想你”、“我爱你”、“我们见面吧”、“那是个很棒的演唱会”）和/或标识俚语（例如，寒冷（chill）、悬挂（hang））。被视为重要的词可以按照地区或语言而变化，并且可以随时间过去更新以与当代文化一致。类似地，俚语可以地理上和时间上变化使得音乐消息传送系统100是可更新和可定制的。在文本输入中使用的标点符号或其他符号也可以被标识并且归因于可能影响对文本的分析解析的某些情绪或音调。例如，感叹号可以指示幸福或紧急，而“愁容”表情符号可以指示悲伤或悲痛。在一些实施例中，也可以通过将词分解成音节以及进一步地通过将音节分解成一系列音位来将文本输入中传达的消息处理成其组分块。在一些实施例中，音位用于创建文本输入中的消息的音频回放。下面更详细地描述用于分析文本输入的附加技术。

在208处，系统接收从客户端设备101-105传输的对音乐输入的选择。在一些实施例中，用户接口可以实现成从预先录制且编有目录的音乐作品的列表或库或者可以包括一个或多个乐句的音乐作品的片段选择音乐输入。在该上下文中，乐句是展现完整音乐“想法”的音符或连接的声音的组合，类似于语言短语或句子。为了促进用户在预先录制的音乐作品或乐句之间的选择，可用音乐作品或乐句的列表可以包括例如对通过短语设置的歌曲名称、表演艺术家、流派和/或情绪的基于文本的描述，仅举几个可以经由用户接口提供给用户的可能的信息块。基于可用音乐作品或乐句的列表，用户然后可以选择期望的音乐作品或片段用于使音乐消息传送系统将其与文本输入进行组合。在一个实施例中，可以存在二十个或者更多个预先录制和选择的乐句用于使用户从中选择。

在一些实施例中，预先录制的音乐作品或乐句以任何适合的计算机可读格式存储在服务器108或媒体数据库109上，并且经由客户端设备101-105通过无线网络106和/或网络110来访问。替代地，在其他实施例中，预先录制的音乐作品直接地存储到客户端设备101-105或者诸如闪存驱动器或其他计算机存储器设备之类的另一本地存储器设备上。不管存储位置，预先录制的音乐作品的列表可以随时间过去被更新，从而移除或添加音乐作品以便给用户提供新的选项和附加选择。

还设想各个用户可以创作其自身的旋律以用于与音乐消息传送系统关联地使用。可以使用在转让给本申请的受让人的题为“System and Method for Producing a MoreHarmonious Musical Accompaniment Graphical User Interface for a DisplayScreen System and Method that Ensures Harmonious Musical Accompaniment”的美国专利号8,779,268中公开的技术来创作一个或多个旋律。这样的专利公开借此通过引用被全部结合。

在进一步的实施例中，音乐输入选项的列表中的各个条目是可选的以经由客户端设备101-105向用户提供预先录制的音乐作品或其片段作为预览。在这样的实施例中，与选择音乐作品相关联的用户接口包括音频回放能力以允许用户倾听与其对作为音乐输入的音频作品中的一个的选择相关联的音乐片段。在一些实施例中，这样的回放能力可以与回放滑动条相关联，所述回放滑动条以图形形式描绘音乐作品或片段的进度回放。不管用户是从存储在系统内的预先录制的音乐作品还是从用户创作的一个或多个旋律选择旋律，设想可以给用户提供用以选择音乐作品内开始和结束的点来限定音乐输入的功能。

在图3中示出回放滑动条300的一个说明性示例。所图示的回放滑动条300包括开始302、结束304以及布置在开始和结束之间的进度条306。然而，应理解在其他实施例中设想其他适合的配置。在图3中所图示的实施例中，所选音乐作品或片段的总长度为14.53秒，如在结束304处所示，但是应理解任何合适长度的音乐作品或片段被设想。当所选音乐通过回放前进时，进度指示符308跨过进度条306从开始302向结束304移动。在所图示的实施例中，进度条在进度指示符308横移时“填满”，从而导致布置在开始302与进度指示符之间的已播放部分310以及布置在进度指示符和音乐片段的结束304之间的未播放部分312。在图3中所图示的实施例中，进度指示符308已经跨过进度条306前进至所选音乐片段中的6.10秒标记。尽管在图3中图示的实施例示出了进度条306在进度指示符308跨过其移动时被填满，但是在本文中用于指示音乐作品或片段的回放进度的其他合适的机制也被设想。

在一些实施例（诸如在图3中图示的实施例）中，用户可以沿着进度条306在所选乐句/旋律的子集周围放置括号，诸如第一括号314和第二括号316。括号314、316指示被用作图2中的208处的音乐输入的音乐作品或片段的部分。例如，第一括号314可以指示所选音乐输入的“开始”点，并且第二括号316可以指示“结束”点。可以代替在图3的回放滑动条300的实施例或者结合所述实施例地使用可以促进乐句的子集的用户回放和选择的其他潜在用户接口。

如其面前具有本说明书的本领域技术人员将理解的那样，对于用户而言以下将是可能：首先选择音乐作品、乐句或旋律并且然后随后输入其期望的文本或反之亦然，同时仍获得本发明的本质。

一旦用户选择要用作用户的音乐消息的音乐输入的期望的音乐作品或片段，客户端设备101-105就通过无线网络106和/或网络110传输选择，其由服务器108在图2的208处作为音乐输入而接收。在图2的210处，分析和处理音乐输入以便标识与音乐输入相关联的某些特性和模式，从而更有效地使音乐输入与文本输入匹配以产生用于作为音乐消息使用的原始音乐作品。例如，在一些实施例中，对音乐作品的分析和处理包括“简化”或“修饰”音乐作品。在一些实施例中，针对诸如结构上重要的音符、节奏调号和乐句边界之类的特征解析所选音乐作品。在利用如上面描述的文本或言语解析器的实施例中，也可以在音乐作品的分析中考虑到文本或言语解析的结果。在分析和处理期间，每个音乐作品或片段可以被可选地修饰或简化，或者以音乐方式向乐句添加许多音符（修饰）或者移除它们（简化），同时仍维持原始旋律的思想和识别。执行这些修饰或简化以便通过对准文本输入中的文本短语与乐句的边界而使文本输入中的文本短语与乐句对准，并且还以便提供使各个词的音节与音符对准所必要的音乐材料，从而导致输入文本的自然音乐表达。设想在一些实施例中，预先录制的音乐作品的全部或部分分析将已经完成，从而使得音乐消息传送系统能够仅从媒体数据库109检索预先分析的数据以用于在完成音乐作品时使用。下面更详细地阐述在为与文本输入进行匹配和为在音乐消息中使用做准备而分析音乐作品的过程。

在对音乐输入的分析之后，在212处，基于206和210处的对文本输入和音乐输入二者的分析而使文本输入和音乐输入相互相关。具体地，在一些实施例中，智能地并且自动地将经选择和分析的音乐作品的音符分配给输入文本中的一个或多个音位，如下面更详细地描述的那样。在一些实施例中，然后在214处将使输入文本消息与音乐输入旋律相关的所得数据格式化成合成器输入以用于输入到语音合成器中。然后在216处将以文本音节-旋律音符对的形式的经格式化的合成器输入发送给语音合成器以创建用于在结合文本输入和音乐输入的特性的原始音乐消息中使用的文本输入的有声呈现。音乐消息或有声呈现然后由服务器108在218处接收。在一些实施例中，接收以音频文件的形式的音乐消息，所述音乐消息包括对用户在文本输入中输入的文本消息的有声呈现，其被设置成所选音乐输入的音乐。在一些实施例中，语音合成器可以生成整个音乐消息，包括文本输入的有声呈现和来自音乐输入的音乐部分。在其他实施例中，语音合成器可以仅生成基于合成器输入而创建的输入文本的有声呈现，其通过分析上面描述的文本输入和音乐输入而生成。在这样的实施例中，基于音乐输入的音乐呈现或者音乐输入本身可以与有声呈现组合以生成音乐消息。

语音合成器可以是任何适合的有声呈现器。在一些实施例中，语音合成器是基于云的，其具有来自web服务器的支持，所述web服务器提供安全、负载均衡以及接受入站消息和发送出站音乐增强消息的能力。在其他实施例中，有声呈现器在服务器108本身上本地运行或者在客户端设备101-105上运行。在一些实施例中，语音合成器呈现经格式化的消息数据以提供文本到言语转换以及唱歌言语合成。在一个实施例中，有声呈现器可以给用户提供多种语音、多种语音合成器（包括但不限于基于HMM的、双音或者基于单元选择的）的选择或者人类语言的选择。唱歌语音的选择的一些示例是性别（例如，男性/女性）、年龄（例如，年轻/年长）、国籍或口音（例如，美国口音和/或英国口音）或者其他可区别的有声特性（例如，清醒的/喝醉的、叫喊/耳语、诱惑的、焦虑的、呆板的等）。在一些实施例中，通过一个或多个言语合成器来实现这些语音选择，每个言语合成器使用一个或多个有声模型、音高、节奏以及导致感知上不同的唱歌属性的其他变量。在一些实施例中，语音合成器的选择由系统基于对指示情绪、音调或流派的具体词或音乐风格的文本输入和/或音乐输入的分析而自动地做出。在某些实施例中，在语音合成器生成音乐消息之后，系统可以提供伴随旋律的和声。这样的伴随可以以在上面通过引用结合的未决美国专利号8,779,268中公开的方式添加到消息中。

在一些实施例中，用户具有在219处将图形元素添加到音乐消息的选项。如果被选择，则图形元素可以选自存储在媒体数据库109处、客户端设备101-105本身上或二者的预先存在的元素的库。在另一实施例中，用户可以创建其自己的图形元素以用于包括在音乐文本消息中。在其他实施例中，图形元素自动地生成而不需要用户具体地选择它们。可以被生成以供音乐消息使用的图形的一些示例是对应于音乐消息中的音乐的颜色和灯闪烁、拼出由用户输入文本消息中的全部或部分的动画图或字符，或者自动地确定成与所选音乐作品的音调或如通过对文本输入的分析所确定的文本输入本身的音调对应的其他动画或颜色。如果用户选择或创建图形元素，则指示该选择的图形输入被传输到服务器108并且在220处由服务器108接收。然后在222处使用由用户选择的预先存在的元素、由系统基于对文本输入和/或音乐输入的分析而选择的自动元素或者由用户提供的图形元素来生成图形元素。

在一些实施例中，用户可以在224处选择使音乐消息包括视频元素。如果用户选择包括视频元素，则用户接口可以激活集成到客户端设备101-105中的一个或多个相机以捕获视频输入，所述一个或多个相机诸如智能电话或其他设备上的前置或后置相机。用户可以操纵客户端设备上的用户接口录制视频输入以结合到音乐消息中。在一些实施例中，在客户端设备101-105上显示的用户接口可以在用户捕获视频输入时提供音乐消息的回放，使得用户可以使视频输入的特定特征与音乐消息的特定部分协调。在一个这样的实施例中，用户接口可以在屏幕上显示文本输入的文本，其中进度指示符在回放期间跨过文本移动，以便在视频捕获期间给用户提供音乐消息的进度的视觉表示。在其他实施例中，用户接口给用户提供如贯穿音乐消息的回放所期望的停止和开始视频捕获的点而同时停止音乐消息的回放的能力。提供该功能的一种这样的方式是通过在用户触摸客户端设备101-105的触摸屏或其他输入端时捕获视频并且在用户释放触摸屏或其他输入端时至少临时地暂停视频捕获。在这样的实施例中，系统允许用户在音乐消息的第一部分期间捕获视频输入的某些部分，在期望时暂停音乐消息的视频捕获和回放，并且然后继续捕获视频输入的另一部分以与音乐消息的第二部分对应。在视频捕获完成之后，用户接口提供通过再捕获视频输入的部分或整体来编辑视频输入的选项。

在一些实施例中，一旦视频输入的捕获和编辑完成，视频输入就被传输给服务器108并且由服务器108在226处接收用于处理。然后可以处理视频输入以在228处生成视频元素，并且然后将视频元素结合到音乐消息中。一旦完成，视频元素可以与和用户捕获视频输入的部分的顺序对应的音乐消息一起同步和播放。在其他实施例中，处理和视频元素生成可以在客户端设备101-105本身上完成，而不需要向服务器108传输视频输入。

如果用户选择不向音乐消息添加任何图形或视频元素，或者一旦视频和/或图形元素被生成并且结合到音乐消息中，则在230处通过网络110和/或无线网络110向客户端设备101-105传输或输出音乐消息。在其中在单个设备（诸如客户端设备104）上执行描述的步骤中的全部或大部分的实施例中，可以将音乐消息输出到扬声器和/或与视觉显示器组合的扬声器。在该点处，在一些实施例中，系统可以给用户提供在232处预览音乐消息的选项。如果用户选择预览消息，则在234处经由客户端设备101-105播放音乐消息以用于使用户预览。在这样的实施例中，如果用户不满意音乐消息或者出于不管什么原因想要创建替代消息，则给用户提供在音乐消息没有发送的情况下取消音乐消息或者编辑消息的选项。然而，如果用户赞同音乐消息或者选择不预览音乐消息，则用户可以在235处向所选消息接收者发送音乐消息。如上面讨论的那样，可以使用多种通信和社交媒体平台将音乐消息发送给一个或多个消息接收者，所述多种通信和社交媒体平台诸如SMS或MMS消息传送、电子邮件、Facebook®、Twitter®和Instagram®，只要消息传送服务/格式支持音频和/或视频文件的传输、递送和回放即可。

以下提供对在分析和处理由用户提供的文本输入和音乐输入中使用以创建音乐消息的方法的更详细描述。具体地，所提供的细节涉及执行方法200的步骤206和210-214以用于操作在图2中图示的音乐消息传送系统100的至少一个实施例。然而，应理解在本文中设想用于执行图2的步骤的其他替代方法。还应理解音乐消息传送系统可以在经由用户的客户端设备从用户接收到文本输入和对音乐输入的选择时自动地执行以下操作。应进一步理解本文中公开的方法提供对与使文本输入与音乐输入相关相关联的技术问题的技术解决方案，使得有效地匹配两个输入的相关的音乐输出。进一步地，本文中描述的方法和特征可以操作成改进计算机或服务器以以下方式处理某些类型的信息的功能能力：使计算机比在没有本文中描述的操作和系统的情况下将另外可能的情况更可用和更具功能。

音乐消息传送系统以用以确保系统灵活性、可扩展性和有效性的这样的方式来搜集和操纵文本和音乐输入。在一些实施例中，实现涉及文本输入和音乐输入的数据点的收集和分析以改进计算机和系统使音乐输入和文本输入有效地相关的能力。由系统在分析和处理文本输入中（诸如在图2的步骤206中）确定和使用的一些数据点是文本输入中包括的字符的数目或者字符计数（“CC”），以及词的数目或者词计数（“WC”）。可以使用任何适合的方法来确定CC和WC。例如，在一些实施例中，系统通过对字符的组之间的空格进行计数或者通过参考以特定语言或语言选择的已知词的数据库而识别字符的组中的词来确定WC。由系统在文本输入的分析期间确定的其他数据点是音节的数目或者音节计数（“TC”）以及句子的数目或句子计数（“SC”）。可以以任何合适的方式（例如通过分析SC的标点符号和间隔，或者通过参考存储在媒体数据库109或其他地方中的词数据库而将词解析成音节）确定TC和SC。在经由客户端设备101-105接收到由用户供应的文本输入时，系统分析和解析输入文本以确定诸如CC、WC、TC和SC之类的值。在一些实施例中，该解析在服务器108处进行，但是还设想在一些实施例中在客户端设备101-105上进行输入文本的解析。在某些实施例中，在分析期间，系统将经编码的开始标志和结束标志插入在每个词、音节和句子的开始和结束处以标记在分析期间做出的确定。例如在句子的开始处的开始标志的位置可以称为句子开始（“SS”），并且在句子的结束处的结束标志的位置可以称为句子结束（“SE”）。附加地，设想可以在分析期间针对文本重点标示文本输出的词或音节。用于识别其中词或音节应该接收文本重点的这样的实例的系统方法可以基于语言或者是文化特定的。

在一些实施例中，由系统对输入文本进行的另一分析是确定CC和WC中的每个的短语种类（“PC”）。字符计数的短语种类将称为CCPC，并且词计数的短语种类将称为WCPC。短语种类的值是组的顺序编索引的集合，其表示CC或WC的值的增加的集合。例如，具有CC 0的文本输入可以具有CCPC 1，并且具有WC 0的文本输入可以具有WCPC 1。进一步地，具有1和6之间的CC的文本输入可以具有CCPC 2，并且具有WC 1的文本输入可以具有WCPC 2。CCPC和WCPC然后可以分别随着CC或WC增加而顺序地增加。

下面，表格1仅出于示例性且非限制性目的而图示了基于文本输入中的CC和WC的CCPC和WCPC的可能分类。

。

基于CCPC和WCPC，系统可以确定由用户输入的整个文本的总体短语种类，或者用户短语种类（“UPC”）。该确定可以通过分别向CCPC和WCPC的不同值给予不同权重来做出。在一些实施例中，在确定UPC时向WCPC给予比CCPC大的权重，但是应理解也可以使用其他或相等的权重。一个示例给予CCPC 40%权重并且给予WCPC 60%权重，如通过以下等式表示的那样：

等式1 UPC=0.4(CCPC)+0.6(WCPC)

因此，基于上面短语种类的示例性表格1和示例性等式1，具有CC 27和WC 3的文本输入将具有CCPC 5和WCPC 3，从而导致如下的UPC 3.8：

等式2 UPC=0.4(5)+0.6(3)= 3.8

应注意，本文中解释的短语种类系统和加权系统可以基于与所选音乐输入相关的若干因素（诸如，情绪、流派、风格等）或者与文本输入相关的其他因素（诸如如在文本输入的分析期间所确定的重要的词或短语）而可变。

以类似方式，可以在诸如在图2的步骤210中的分析和处理期间解析由用户选择或提供的音乐输入。在一些实施例中，系统解析由用户选择或提供的音乐输入以确定多种数据点。在分析中确定的一个数据点是特定音乐输入中的音符的数目或者音符计数（“NC”）。

对音乐输入做的分析的另一产物包括确定贯穿音乐输入的乐句的开始和结束。乐句类似于语言句子，因为乐句是传达音乐想法的音符的组合。因此，在一些实施例中，对所选音乐输入的分析和处理涉及标示音乐输入中的每个所标识的乐句的开始和结束。类似于上面描述的文本输入的短语种类（UPC），可以例如基于在音乐输入中标识的乐句的数目和音符计数来确定称为源短语种类（“SPC”）的源音乐输入的短语种类。

每个乐句的开始可以称为乐句开始（“PS”），并且每个乐句的结束可以称为乐句结束（“PE”）。音乐输入中的PS和PE类似于文本输入中的句子开始（SS）和句子结束（SE）。在一些实施例中，与预先录制且存储在服务器108或客户端设备101-105上并且可用于由用户作为音乐输入选择的音乐作品相关联的PS和PE可以是预先确定的。在这样的实施例中，音乐输入的PS和PE的位置是预先确定的，并且对音乐输入的分析涉及从存储位置（诸如媒体数据库109）检索这样的信息。然而，在其他实施例中，或者在其中音乐输入由用户提供并且不被预先录制和存储的实施例中，进行进一步的分析以区分音乐输入中的乐句，并且因此确定每个所标识的乐句的对应PS和PE。

在一些实施例中，比较文本输入和音乐输入的短语种类以确定两个输入之间的同等或不等。应理解，尽管本公开描述了使用短语种类来比较对应的文本输入和音乐输入，但是在本文中设想用于做出文本输入和音乐输入之间的比较的其他方法。短语种类比较可以发生在基于相应分析而使音乐输入与文本输入相关时，诸如在图2的步骤212处。

在某些实施例中，通过确定由用户提供的对应文本输入和音乐输入之间的短语差异（“PD”）来分析文本输入和音乐输入之间的同等。确定PD的一个示例是通过将用户短语种类（UPC）除以源短语种类（SPC），如下面在以下等式3中所示：

等式3 PD=UPC/SPC

在该示例中，文本输入和音乐输入之间的完美短语同等将导致PD 1.0，其中UPC和SPC相等。如果文本输入比音乐输入“短”，则PD具有小于1.0的值，并且如果文本输入比音乐输入“长”，则PD具有大于1.0的值。本领域技术人员将认识到，可以通过将SPC除以UPC或者利用其他适合的比较方法获得类似结果。

还可以通过由用户提供的文本输入和音乐输入之间的“音符”差异（“ND”）来确定文本输入和音乐输入之间的同等。确定ND的一个示例是通过取音符计数（NC）和文本输入的类似音节计数（TC）之间的差异。例如：

等式4 ND=NC–TC

在该示例中，文本输入和音乐输入之间的完美短语同等将是ND 0，其中NC和TC相等。如果文本输入比音乐输入“短”，则ND将大于或等于1，并且如果文本输入比音乐输入“长”，则ND将小于或等于-1。本领域技术人员将认识到，可以通过从TC减去NC或者利用其他适合的比较方法获得类似结果。

使用这些或合适的替代比较方法确立给定文本输入多么适合于所提供或选择的音乐输入。PD=1和ND=0的短语同等表示两个输入之间的高水平的同等，其中远大于或小于1的PD或者远大于或小于零的ND表示低水平的同等，即不等。在一些实施例中，当使音乐输入与文本输入相关以创建音乐消息时，文本输入的句子开始（SS）和句子结束（SE）将理想地分别与音乐输入的乐句开始（PS）和乐句结束（PE）对准，如果同等完美或接近完美（即，高同等）的话。然而，当同等不完美时，SE和PE可能在SS和PS设置成相互对准时没有良好地对准。基于在分析期间所确定的同等/不等的水平，可以利用处理音乐输入和文本输入的各种方法来提供用于音乐消息的最佳结果。

使文本输入和音乐输入相关的解决方案的一个示例是音节匹配。当同等完美时，所述同等完美即音符差异（ND）为零，音符计数（NC）和音节计数（TC）相等或者短语差异（PD）为1.0，音节匹配可以涉及简单地使文本输入中的音节与音乐输入中的音符匹配和/或使文本输入句子与音乐输入乐句匹配。

然而，在一些实施例中，如果PD稍微大于或小于1.0和/或ND在例如1和5或者-1和-5之间，则可以分别使用旋律简化或修饰来提供输入之间的相关。旋律简化涉及减少在音乐输入中播放的音符的数目，并且可以在NC稍微大于TC（例如，ND在近似1和5之间）或者音乐源短语种类（SPC）稍微大于用户短语种类（UPC）（例如，PD稍微小于1.0）时使用。简化音乐输入中的音符可以缩短音乐输入的总体长度并且导致NC更接近或等于文本输入的TC，从而增加短语同等。从音乐输入移除的音符越少，简化将对作为音乐输入选择的音乐作品的有越小的影响，并且因此，音乐消息的音乐元素将在完成时更可识别。类似地，旋律修饰涉及向音乐输入添加音符（即，“修饰”）。在一些实施例中，当NC稍微小于TC（例如，ND在-1和-5之间）或者SPC稍微小于UPC（例如，PD稍微大于1.0）时，使用旋律修饰。在音乐输入中添加音符可以加长音乐输入，其可以添加到NC或SPC，并且因此增加输入之间的同等。使用旋律修饰添加的音符越少，修饰将对作为音乐输入选择的音乐作品有越小的影响，并且因此，音乐消息的音乐元素将在完成时更可识别。在一些实施例中，通过分析音乐作品中的原始音符以及添加在音乐上有意义的音符来确定添加到音乐作品的附加音符。例如，在一些实施例中，系统可以仅在与原始音乐作品相同的音乐调中添加音符，或者维持原始作品的节拍或其他特征以便帮助保持音乐作品可识别的音符。应理解尽管已经在音乐输入和文本输入之间的轻微短语不等的背景下描述了旋律简化和修饰，但是还设想在更大或更小短语不等中的旋律简化和修饰的使用。

解决音乐输入和文本输入之间的不等的另一解决方案是口吃效应（stuttereffect）。在一些实施例中，口吃效应可以用于解决中等不等差异——例如，近似0.75和1.5之间的PD。口吃效应涉及相对快速连续地切割和重复音乐或有声作品的相对短的位。口吃效应可以以有声口吃效应的形式应用于或者音乐输入或者文本输入以便加长一个或其他输入以更紧密地匹配对应的音乐或文本输入。例如，如果音乐输入比对应文本输入短（例如，PD近似为1.5），则可以通过快速连续地重复音乐输入的一个或多个小部分来加长音乐输入。类似过程可以供文本输入使用，从而相对快速连续地重复文本输入的一个或多个音节以便加长文本输入。作为口吃效应的结果，可以使音乐输入和文本输入之间的短语差异更接近于最佳水平。应理解，尽管已经在音乐输入和文本输入之间的中等短语不等的背景下描述了口吃效应，但是还设想在更大或更小短语不等中的口吃效应的使用。

解决音乐输入和文本输入之间的不等的其他解决方案是重复和装饰音。在一些实施例中，重复和装饰音用于解决音乐输入和文本输入之间的相对大的短语差异——例如，小于0.5或大于2.0的PC。重复包括不止一次地重复或者文本输入或者音乐输入，同时将对应音乐或文本输入播放一次。例如，如果PD为0.5，则这将指示音乐输入是文本输入的两倍长。在这样的情景中，文本输入可以仅重复一次（即，播放两次）以基本上匹配音乐输入的长度。类似地，PD 2.0将指示文本输入基本上是音乐输入的两倍长。在这样的情景中，音乐输入可以循环播放两次以与较长文本输入的单个回放相关。

装饰音是可以用于解决音乐输入和对应文本输入之间的不等的另一解决方案。在一些实施例中，当文本输入比音乐输入短时使用装饰音以使得文本输入与音乐输入更紧密地匹配。具体地，装饰音在来自文本输入的单个音节在音乐输入的多个音符上伸展时发生。例如，如果音节计数（TC）为12并且音符计数（NC）为13，则系统可以分配来自文本输入的一个音节以在音乐输入中的两个音符上播放或“唱”。装饰音可以应用在贯穿文本输入的多个分离的音节上，诸如在音乐输入的开始、中间和结束处。在一些实施例中，系统可以基于对文本输入中的词的分析和/或基于选择为音乐输入的音乐作品的音调或情绪来选择应该向哪些词或音节应用哪个装饰音。

对文本输入和音乐输入之间的不等的另一解决方案是识别音乐输入中的主乐调。本领域技术人员将认识到，主乐调是乐句的相对较小的元素，其仍包括可以由倾听者辨别的一些“相同性”。“相同性”可以是贯穿乐句重复的类似或相同的韵律和音乐间隔的组合。例如，主乐调可以是乐句内的遵循类似音符模式或音符韵律的音符的组合，并且这些主乐调可以由系统在分析期间识别或者可以针对预先录制的音乐作品来预先确定。在任一情况下，可以指出和标记贯穿音乐输入的主乐调位置。在一些实施例中，当分析音乐输入时，主乐调然后可以用作文本重点或重复的优先化目标以解决音乐输入和文本输入之间的不等。

本领域技术人员将理解，在某些实施例中，音乐消息传送系统可以单独地使用各个解决方案中的任何解决方案，同时使音乐输入与文本输入相关，或者可以顺序地或者同时地实现本文中描述的各种解决方案以优化音乐消息的输出质量。例如，系统可以使用修饰来加长音乐输入，使得其变为文本输入的长度的一半，接着通过使用经修饰的音乐输入的重复来更紧密地与文本输入匹配起来。在本文中还设想解决方案的其他组合以实现使音乐输入与文本输入相关的任务，使得最终的音乐消息被优化。还设想可以实现与本公开一致的其他技术以在将文本输入和音乐输入变换成最终音乐消息时有效地使音乐输入与文本输入相关。

本领域技术人员将理解，本文中描述的音乐消息传送系统以及用于操作这样的音乐消息传送系统的方法可以在诸如客户端设备104的单个客户端设备或服务器108之类上执行，或者可以在多种设备上执行，每个设备包括系统的不同部分并且执行方法的不同部分。例如，在一些实施例中，客户端设备104或服务器108可以执行在图2中图示的步骤中的大部分，但是语音合成可以由另一设备或者另一服务器执行。以下包括对可以被配置成包括本文中描述的音乐消息传送系统的单个设备的一个实施例的描述，但是应理解单个设备可以替代地为多个设备。

图4示出了可以部署在来自图1的多种设备101-105或108中的任何设备上或者一起工作的多个设备上的系统100的一个实施例，其出于说明性目的可以为任何多目的计算机（101、102）、手持计算设备（103-105）和/或服务器（108）。出于说明的目的，图4描绘了在来自图1的设备104上操作的系统100，但是本领域技术人员将理解，可以将系统100部署或者作为安装在单个设备上的应用，或者替代地在每个执行系统的操作的一部分的多个设备上。替代地，系统可以在http浏览器环境内操作，其可以可选地利用web插件技术来扩展浏览器的功能以使能与系统100相关联的功能。设备104可以包括比图4中示出的那些组件多得多或少得多的组件。然而，本领域普通技术人员应理解，某些组件未必用以操作系统100，而诸如处理器、视频显示器和音频扬声器之类的其他组件对于实践本发明的方面是重要的。

如图4中所示，设备104包括经由总线406与大容量存储器404通信的处理器402，其可以是CPU。如其面前具有本说明书、附图和权利要求书的本领域普通技术人员将理解的那样，处理器402还可以单独地或者彼此组合地包括一个或多个通用处理器、数字信号处理器、其他专门处理器和/或ASIC。设备104还包括电力供应408、一个或多个网络接口410、音频接口412、显示驱动414、用户输入处理机416、照明器418、输入/输出接口420、可选的触觉接口422以及可选的全球定位系统（GPS）接收机424。设备104还可以包括相机，其使得能够获取视频和/或使得视频能够与特定音乐消息相关联。来自相机或其他源的视频还可以进一步提供给在线社交网络和/或在线音乐社区。设备104还可以可选地与来自图1的基站或服务器108通信，或者直接地与另一计算设备通信。其他计算设备，诸如来自图1的基站或服务器108，可以包括附加音频相关组件，诸如专业音频处理器、发生器、放大器、扬声器、XLR连接器和/或电力供应。

继续图4，电力供应408可以包括可再充电或不可再充电的电池，或者可以由外部电源提供，所述外部电源诸如还可以补充电池和/或为电池再充电的AC适配器或者供电坞接架（powered docking cradle）。网络接口410包括用于将设备104耦合到一个或多个网络的电路，并且被构造用于供一个或多个通信协议和技术使用，所述一个或多个通信协议和技术包括但不限于全球移动通信系统（GSM）、码分多址（CDMA）、时分多址（TDMA）、用户数据报协议（UDP）、传输控制协议/因特网协议（TCP/IP）、SMS、通用分组无线电业务（GPRS）、WAP、超宽带（UWB）、IEEE 802.16全球微波接入互操作性（WiMax）、SIP/RTP或者多种其他无线通信协议中的任何协议。相应地，网络接口410可以包括如收发机、收发设备或者网络接口卡（NIC）。

音频接口412（图4）被布置成产生和接收音频信号，诸如人类语音的声音。显示驱动414（图4）被布置成产生视频信号来驱动各种类型的显示器。例如，显示驱动414可以驱动视频监控显示器，其可以是基于液晶、气体等离子体或者发光二极管（LED）的显示器，或者可以供计算设备使用的任何其他类型的显示器。显示驱动414可以替代地驱动手持、触敏屏幕，其还将被布置成从诸如触笔之类的对象接收输入或者经由用户输入处理机416从人手接收数字。

设备104还包括输入/输出设备420以用于与诸如耳机、扬声器或者其他输入或输出设备之类的外部设备进行通信。输入/输出设备420可以利用一个或多个通信技术，诸如USB、红外、Bluetooth^TM等。可选的触觉接口422被布置成向设备104的用户提供触知反馈。例如，在实施例（诸如在图1中示出的实施例）中，其中设备104是移动或手持设备，可选的触觉接口422可以用来使设备以特定方式（诸如例如在计算设备的另一用户在呼叫时）振动。

可选的GPS收发机424可以确定设备100在地球表面上的物理坐标，其典型地将位置输出为经度和纬度值。GPS收发机424还可以采用其他地理定位机制，包括但不限于三角测量、辅助式GPS（AGPS）、E-OTD、CI、SAI、ETA、BSS等，以进一步确定设备104在地球表面上的物理位置。然而，在一个实施例中，移动设备可以通过其他组件提供可以用来确定设备的物理位置的其他信息，包括例如MAC地址、IP地址等。

如在图4中所示，大容量存储器404包括RAM 423、ROM 426和其他存储部件。大容量存储器404图示了用于诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的计算机可读存储介质的示例。大容量存储器404存储用于控制设备104的低级操作的基本输入/输出系统（“BIOS”）428。大容量存储器还存储用于控制设备104的操作的操作系统430。将领会，该组件可以包括诸如一个版本的MAX OS、WINDOWS、UNIX、LINUX之类的通用操作系统，或者诸如例如Xbox 360系统软件、Wii IOS、Windows MobileTM、iOS、Android、webOS、QNX或Symbian®操作系统之类的专门操作系统。操作系统可以包括Java虚拟机模块或者与其对接，所述Java虚拟机模块使得能够经由Java应用程序控制硬件组件和/或操作系统操作。操作系统还可以包括一般地还称为“沙盒”的安全虚拟容器，其使能例如Flash和Unity的应用的安全执行。

一个或多个数据存储模块可以存储在设备104的存储器404中。如其面前具有本说明书、附图和权利要求书的本领域普通技术人员所将理解的那样，存储在数据存储模块中的信息的一部分还可以存储在与设备104相关联的盘驱动器或其他存储介质上。这些数据存储模块可以存储以上面讨论的任何格式的多个音轨录音、MIDI文件、WAV文件、音频数据的样本以及多种其他数据和/或数据格式或输入旋律数据。数据存储模块还可以存储描述系统100的各种能力的信息，其可以例如在通信期间、在请求时或者响应于某些事件等作为报头的部分发送给其他设备。此外，数据存储模块还可以用来存储社交联网信息，包括地址簿、好友列表、别名、用户简档信息等。

设备104可以存储和选择性地执行许多不同的应用，包括用于根据系统100使用的应用。例如，用于根据系统100使用的应用可以包括音频转换器模块、录制会话实况循环（RSLL）模块、多取自动编排器（MTAC）模块、泛音器模块、音轨共享器模块、声音搜索器模块、流派匹配器模块以及和弦匹配器模块。在上面已经通过引用结合的美国专利号8,779,268中更详细地描述了这些应用的功能。

设备104上的应用还可以包括信使434和浏览器436。信使434可以被配置成使用多种消息传送通信中的任何传送消息通信发起和管理消息传送会话，所述多种消息传送通信包括但不限于电子邮件、短消息服务（SMS）、即时消息（IM）、多媒体消息服务（MMS）、互联网中继聊天（IRC）、mIRC、RSS种子和/或类似物。例如，在一个实施例中，信使434可以被配置为IM消息传送应用，诸如AOL即时信使、Yahoo！信使、.NET信使服务器、ICQ等。在另一实施例中，信使434可以是客户端应用，其被配置成集成和采用多种消息传送协议。在一个实施例中，信使434可以与浏览器436交互以用于管理消息。浏览器436实质上可以包括被配置成接收和显示图形、文本、多媒体等的任何应用，其实质上采用任何基于web的语言。在一个实施例中，使得浏览器应用能够采用手持设备标记语言（HDML）、无线标记语言（WML）、WMLScript、JavaScrip、标准通用标记语言（SMGL）、超文本标记语言（HTML）、可扩展标记语言（XML）等，以显示和发送消息。然而，可以采用多种其他基于web的语言中的任何语言，包括Python、Java和第三方web插件。

设备104还可以包括其他应用438，诸如计算机可执行指令，其在由客户端设备104执行时传输、接收和/或以其他方式处理消息（例如，SMS、MMS、IM、电子邮件和/或其他消息）、音频、视频并且使能与另一客户端设备的另一用户的电信。应用程序的其他示例包括日程表、搜索程序、电子邮件客户端、IM应用、SMS应用、VoIP应用、联系管理器、任务管理器、代码转换器、数据库程序、字处理程序、安全应用、电子表程序、游戏、搜索程序等。上面描述的每个应用可以嵌入在设备104上或者替代地下载在设备104上并且在设备104上执行。

当然，虽然上面讨论的各种应用被示出为在设备104上实现，但是在替代实施例中，这些应用中的每个的一个或多个部分可以在一个或多个远程设备或服务器上实现，其中通过一个或多个网络在设备104与所述一个或多个远程设备或服务器之间传递每个部分的输入和输出。替代地，应用中的一个或多个可以被封装以用于在外围设备上执行或者从外围设备下载。

前面的描述和附图仅解释和图示本发明并且本发明不限于其。虽然关于某些实现或实施例描述了本说明书，但是出于说明的目的而阐述了许多细节。因此，前述仅说明本发明的原理。例如，本发明可以具有其他具体形式而不脱离其精神或本质特性。所描述的布置是说明性且非限制性的。对于本领域技术人员而言，本发明易受附加实现或实施例的影响，并且在该申请中描述的这些细节中的某些可以相当大地变化而不脱离本发明的基本原理。因此将领会，本领域技术人员将能够设计各种布置，其尽管没有在本文中明确地描述或示出，但是体现了本发明的原理并且因此处于本发明的范围和精神内。

Claims

1.一种用于将文本消息自动地转换成音乐消息的计算机实现的方法，所述计算机实现的方法包括：

接收文本输入；

接收音乐输入选择；

经由一个或多个处理器分析文本输入以确定文本输入的至少一个文本特性；

经由所述一个或多个处理器分析对应于音乐输入选择的音乐输入以确定音乐输入的至少一个音乐特性；

基于所述至少一个文本特性和所述至少一个音乐特性，经由所述一个或多个处理器使文本输入与音乐输入相关以生成合成器输入；

将合成器输入发送给语音合成器；

从语音合成器接收文本输入的有声呈现；

根据文本输入的有声呈现和音乐输入生成音乐消息；以及

输出音乐消息。

2.权利要求1的方法，其中接收文本输入进一步包括经由数字通信网络从客户端设备接收文本输入。

3.权利要求1的方法，其中输出音乐消息进一步包括经由数字通信网络向客户端设备发送音乐消息。

4.权利要求1的方法，其中使文本输入与音乐输入相关包括经由所述一个或多个处理器比较所述至少一个文本特性与所述至少一个音乐特性。

5.权利要求1的方法，其中所述至少一个文本特性是音节计数并且所述至少一个音乐特性是音符计数。

6.权利要求5的方法，其中使文本输入与音乐输入相关包括比较文本输入的音节计数与音乐输入的音符计数以确定音符差异。

7.权利要求6的方法，其中使文本输入与音乐输入相关进一步包括至少部分地基于音符差异来生成合成器输入。

8.权利要求1的方法，进一步包括：

经由所述一个或多个处理器基于所述至少一个文本特性确定用户短语种类；

经由所述一个或多个处理器基于所述至少一个音乐特性确定源短语种类；以及

比较用户短语种类与源短语种类以确定短语差异。

9.权利要求8的方法，进一步包括至少部分地基于短语差异来生成合成器输入。

10.一种装置，包括：

至少一个处理器；以及

存储计算机可读指令的至少一个存储器，所述计算机可读指令在被执行时使装置至少执行：

接收文本输入；

接收音乐输入选择；

经由所述至少一个处理器分析文本输入以确定文本输入的至少一个文本特性；

经由所述至少一个处理器分析对应于音乐输入选择的音乐输入以确定音乐输入的至少一个音乐特性；

基于所述至少一个文本特性和所述至少一个音乐特性，经由所述至少一个处理器使文本输入与音乐输入相关以生成合成器输入；

将合成器输入发送给语音合成器；

从语音合成器接收文本输入的有声呈现；

根据文本输入的有声呈现和音乐输入来生成音乐消息；以及

输出音乐消息。

11.权利要求10的装置，其中接收文本输入进一步包括经由数字通信网络从客户端设备接收文本输入。

12.权利要求10的装置，其中输出音乐消息进一步包括经由数字通信网络向客户端设备发送音乐消息。

13.权利要求10的装置，其中使文本输入与音乐输入相关包括经由所述至少一个处理器比较所述至少一个文本特性与所述至少一个音乐特征。

14.权利要求10的装置，其中所述至少一个文本特性是音节计数并且所述至少一个音乐特性是音符计数，并且其中使文本输入与音乐输入相关包括比较文本输入的音节计数与音乐输入的音符计数以确定音符差异。

15.权利要求14的装置，其中使文本输入与音乐输入相关进一步包括至少部分地基于音符差异来生成合成器输入。

16.权利要求10的装置，其中指令在被执行时进一步使装置至少执行：

经由所述至少一个处理器基于所述至少一个文本特性确定用户短语种类；

经由所述至少一个处理器基于所述至少一个音乐特性确定源短语种类；以及

比较用户短语种类与源短语种类以确定短语差异。

17.一种存储指令的非暂时性计算机可读介质，所述指令在被执行时使装置至少执行：

接收文本输入；

接收音乐输入选择；

将合成器输入发送给语音合成器；

从语音合成器接收文本输入的有声呈现；

根据文本输入的有声呈现和音乐输入来生成音乐消息；以及

输出音乐消息。

18.权利要求17的非暂时性计算机可读介质，其中接收文本输入进一步包括经由数字通信网络从客户端设备接收文本输入，并且其中输出音乐消息进一步包括经由数字通信网络向客户端设备发送音乐消息。

19.权利要求17的非暂时性计算机可读介质，其中所述至少一个文本特性是音节计数并且所述至少一个音乐特性是音符计数，并且其中使文本输入与音乐输入相关包括：

比较文本输入的音节计数与音乐输入的音符计数以确定音符差异；以及

至少部分地基于音符差异来生成合成器输入。

20.权利要求17的非暂时性计算机可读介质，其中指令在被执行时进一步使装置至少执行：

经由所述一个或多个处理器基于所述至少一个音乐特性确定源短语种类；

比较用户短语种类与源短语种类以确定短语差异；以及

至少部分地基于短语差异来生成合成器输入。