BR112019027726A2 - sistema e método para geração automática de mídia - Google Patents

sistema e método para geração automática de mídia Download PDF

Info

Publication number
BR112019027726A2
BR112019027726A2 BR112019027726-9A BR112019027726A BR112019027726A2 BR 112019027726 A2 BR112019027726 A2 BR 112019027726A2 BR 112019027726 A BR112019027726 A BR 112019027726A BR 112019027726 A2 BR112019027726 A2 BR 112019027726A2
Authority
BR
Brazil
Prior art keywords
information
audio selection
lyrics
lyric
video
Prior art date
Application number
BR112019027726-9A
Other languages
English (en)
Inventor
Matthew Michael Serletic
Bo Bazylevsky
James Mitchell
Ricky Kovac
Patrick Woodward
Thomas Webb
Ryan Groves
Ed Schofield
Brett Harrison
Original Assignee
Zya, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/986,589 external-priority patent/US20180268792A1/en
Application filed by Zya, Inc. filed Critical Zya, Inc.
Publication of BR112019027726A2 publication Critical patent/BR112019027726A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/125Library distribution, i.e. distributing musical pieces from a central or master library
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Um método implementado por computador para gerar automaticamente vídeos de letras de música que compreendem o recebimento de uma seleção de áudio, a determinação de informações de sincronia da seleção de áudio e a determinação de informações de letra de música da seleção de áudio. O método inclui o recebimento de informações de tom da seleção de áudio e a geração de conteúdo de vídeo com base em pelo menos uma das informações de sincronia, informações de letra de música e informações de tom da seleção de áudio. O método também inclui a renderização de um vídeo de letra de música com base no conteúdo de vídeo e na seleção de áudio.

Description

“SISTEMA E MÉTODO PARA GERAÇÃO AUTOMÁTICA DE MÍDIA” REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[0001] Este pedido reivindica prioridade sobre o Pedido de Patente Provisório US nº 62/524.838, depositado em 26 de junho de 2017. Este pedido é também uma continuação em parte do Pedido de Patente US nº 15/986.589, depositado em 22 de maio de 2018. Cada uma das divulgações listadas acima é incorporada por referência em sua totalidade neste documento.
CAMPO TÉCNICO
[0002] A presente divulgação refere-se geralmente ao campo de criação de música e, mais especificamente, a um sistema de criação de clipes musicais.
FUNDAMENTOS
[0003] Com a proliferação de smartphones, tablets e outros dispositivos portáteis capazes de exibir uma mídia rapidamente, usuários estão cada vez mais usando esses dispositivos para criar conteúdo original. Usuários e artistas criam canções, vídeos e outros conteúdos para visualização ou experiência deles mesmos ou de terceiros. Vídeos de letra de música (lyric videos) são um tipo de conteúdo de mídia em que uma música ou outra seleção de áudio pode ser definida para visualizações, que podem incluir toda ou uma parte da letra da música exibida no tempo com a reprodução de áudio da música.
[0004] Seria desejável fornecer aos usuários um sistema para geração mais simples de vídeos de letra de música e outros tipos de visualização de vídeo.
SUMÁRIO
[0005] Em uma modalidade, a divulgação descreve um método implementado por computador para geração automática de vídeos de letra de música. O método pode incluir o recebimento de uma seleção de áudio, determinação das informações de sincronia da seleção de áudio e determinação das informações da letra de música da seleção de áudio. O método pode incluir o recebimento de uma informação de tom da seleção de áudio e a geração de conteúdo de vídeo com base em, pelo menos, uma dentre informações de sincronia, informações de letra de música e informações de tom da seleção de áudio. O método também pode incluir a criação de um vídeo de letra de música com base no conteúdo de vídeo e na seleção de áudio.
[0006] Em outra modalidade, a divulgação descreve um método implementado por computador para geração automática de vídeos de letra de música. O método pode incluir o recebimento, através de uma rede de comunicação digital, de uma seleção de áudio. O método também pode incluir a determinação, através de um ou mais processadores, das informações de sincronia da seleção de áudio. O método pode incluir a solicitação, através da rede de comunicação digital, de informações sobre a letra de música da seleção de áudio a partir de um banco de dados de letra de música e o recebimento, através da rede de comunicação digital, das informações de letra de música da seleção de áudio a partir do banco de dados de letra de música com base na solicitação. O método pode incluir a solicitação, através da rede de comunicação digital, de informações de tom da seleção de áudio a partir de um banco de dados de tom e o recebimento, através da rede de comunicação digital, das informações de tom da seleção de áudio a partir do banco de dados de tom com base na solicitação. As informações de tom podem incluir pelo menos um dentre um gênero, um andamento, um humor, um artista ou um estilo correspondente à seleção de áudio. O método pode incluir a geração, por meio de um ou mais processadores, de conteúdo de vídeo com base em pelo menos uma das informações sobre sincronia, informações sobre letra de música e informações de tom da seleção de áudio. O método também pode incluir a renderização, por meio de um ou mais processadores, de um vídeo de letra de música com base no conteúdo de vídeo e na seleção de áudio.
[0007] Em outra modalidade, a divulgação descreve um método implementado por computador para geração automática de vídeos de letra de música. O método pode incluir o recebimento, por meio de uma rede de comunicação digital, de uma seleção de áudio a partir de um dispositivo do usuário. O método pode incluir a determinação, por meio de um ou mais processadores, de informações sobre a sincronia da seleção de áudio e a determinação, através de um ou mais processadores, de informações sobre a letra de música da seleção de áudio. O método pode incluir a execução, através de um ou mais processadores, de uma análise da letra de música com base nas informações sobre a letra da música. O método pode incluir a solicitação, através da rede de comunicação digital, de informações de tom da seleção de áudio a partir de um banco de dados de terceiros e o recebimento, através da rede de comunicação digital, das informações de tom da seleção de áudio a partir do banco de dados de terceiros com base na solicitação. As informações de tom podem incluir pelo menos um dentre um gênero, um andamento, um humor, um artista ou um estilo correspondente à seleção de áudio. O método pode incluir a geração, por meio de um ou mais processadores, de conteúdo de vídeo com base em pelo menos uma das informações sobre sincronia, informações sobre a análise da letra de música e informações de tom da seleção de áudio. O método também pode incluir a renderização, por meio de um ou mais processadores, de pelo menos uma parte do vídeo de letra de música com base no conteúdo de vídeo e na seleção de áudio. O método também pode incluir a transmissão, através da rede de comunicação digital, de pelo menos uma porção do vídeo de letra de música ao dispositivo do usuário para reprodução.
BREVE DESCRIÇÃO DAS FIGURAS
[0008] Modalidades não limitantes e não exaustivas são descritas com referência às figuras a seguir. Nas figuras, números de referência semelhantes referem-se a partes semelhantes através de todas as diversas figuras, a menos que especificado de outra forma.
[0009] Para uma melhor compreensão da presente divulgação, será feita uma referência à seguinte descrição detalhada, que deve ser lida em associação com as figuras anexas, em que:
[0010] A FIG. 1 ilustra um exemplo de modalidade de uma configuração de rede em que um sistema de vídeo de letra de música pode ser praticado de acordo com a divulgação;
[0011] A FIG. 2 ilustra um diagrama de fluxo de uma modalidade de um método de operação do sistema de geração de mídia do sistema de vídeo de letra de música de acordo com a divulgação;
[0012] A FIG. 3 ilustra um diagrama de fluxo de uma modalidade de um método de operação de um sistema de geração de áudio do sistema de vídeo de letra de música de acordo com a divulgação;
[0013] A FIG. 4 ilustra um diagrama de blocos de um dispositivo que suporta os sistemas e processos da divulgação;
[0014] A FIG. 5 ilustra um diagrama de fluxo de outra modalidade de um método de operação de um sistema de geração de animação do sistema de vídeo de letra de música de acordo com a divulgação;
[0015] A FIG. 6 ilustra um diagrama de fluxo de uma modalidade de um método de operação do sistema de vídeo de letra de música de acordo com a divulgação;
DESCRIÇÃO DETALHADA
[0016] A presente invenção será agora descrita mais detalhadamente com referência as figuras anexas, que formam uma parte deste documento e que mostram, a título de ilustração, exemplos de modalidades específicas pelas quais a invenção pode ser praticada. Esta invenção pode, no entanto, ser realizada de muitas formas diferentes e não deve ser interpretada como limitada às modalidades estabelecidas neste documento; em vez disso, essas modalidades são fornecidas de modo que esta divulgação será completa e transmitirá totalmente o escopo da invenção para aqueles versados na técnica. Entre outras coisas, a presente invenção pode ser incorporada como métodos ou dispositivos. Consequentemente, a presente invenção pode assumir a forma de uma modalidade inteiramente de hardware, uma modalidade inteiramente de software ou uma modalidade combinando aspectos de software e hardware. A seguinte descrição detalhada, portanto, não deve ser tomada em um sentido limitante.
[0017] Ao longo do relatório descritivo e reivindicações, os seguintes termos levam os significados explicitamente associados neste documento, a menos que o contexto indique claramente o contrário. A frase "em uma modalidade", como utilizado neste documento, não se refere necessariamente à mesma modalidade, embora isso seja possível. Além disso, a frase "em outra modalidade", como usado neste documento, não se refere necessariamente a uma modalidade diferente, embora isso seja possível. Assim, como descrito abaixo, várias modalidades da invenção podem ser prontamente combinadas, sem se afastar do escopo ou espírito da invenção.
[0018] Além disso, como usado neste documento, o termo "ou" é um operador "ou" inclusivo e é equivalente ao termo "e/ou", a menos que o contexto indique claramente o contrário. O termo "baseado em" não é exclusivo e permite ser baseado em fatores adicionais não descritos, a menos que o contexto indique claramente o contrário. Além disso, em todo o relatório descritivo, o significado de "um", "uma" e "o(a)" inclui referências plurais. O significado de "em" inclui "em" e inclui referências plurais. O significado de "em" inclui "em" e "sobre".
[0019] A presente divulgação refere-se a um sistema e método para criação automática de um vídeo de letra de música com base nas entradas do usuário que podem ser visualizadas, salvas ou transmitidas aos usuários através de uma variedade de formatos de mensagem, tais como SMS, MMS e e-mail. Também pode ser possível enviar essas mensagens de composição musical por meio de várias plataformas de mídia social e formatos, como Twitterº, Facebookº, Instagramº, Snapchatº ou qualquer outro sistema de compartilhamento de mídia adequado. Em certas modalidades, o sistema de vídeo de letra de música divulgado fornece aos usuários uma maneira intuitiva e conveniente de criar, visualizar e enviar automaticamente vídeos de letra de música com base nas entradas de usuário. Por exemplo, o sistema de vídeo de letra de música pode receber uma seleção do usuário de uma obra musical ou melodia que é pré-gravada ou gravada e fornecida pelo usuário. A seleção pode ser recebida como a seleção de usuário em uma variedade de maneiras e interfaces de usuário, tais como por meio de um teclado ou por meio de software de reconhecimento de voz. Uma vez que as seleções de usuário são recebidas, o sistema de vídeo de letra de música pode analisar a obra musical selecionada e sua letra para criar um vídeo de letra de música original da obra musical selecionada ou fornecida para fornecer uma versão musicalmente melhorada do texto inserido pelo usuário. A saída do sistema de vídeo de letra de música pode automaticamente fornecer um vídeo de letra de música original com representações visuais da letra da seleção de música com base na sincronia da letra de música e pode incluir representações visuais que refletem o humor ou tom da seleção de áudio. O usuário pode, então, se escolher, compartilhar o vídeo de letra de música com outras pessoas através de mídias sociais, nensagens SMS ou MMS ou qualquer outra forma de compartilhamento de arquivos ou comunicação eletrônica.
[0020] Em algumas modalidades, o usuário pode ainda gravar o vídeo para acompanhar as representações visuais e a geração de vídeo do vídeo de letra de música gerado automaticamente. Em algumas modalidades, a entrada de vídeo do usuário pode ser gravada em tempo real juntamente com uma renderização vocal da entrada de texto fornecida pelo usuário, a fim de sincronizar efetivamente o vídeo à letra no vídeo de letra de música criado pelo sistema. Em outras modalidades, o vídeo de letra de música pode incluir apenas imagens geradas automaticamente, animações, vídeo e outros visuais gerados pelo sistema de vídeo de letra de música. O resultado do sistema, em tais modalidades, pode ser um vídeo de letra de música original criado automaticamente para visualização em um dispositivo do cliente, tal como um smartphone ou tablet conectado a um servidor através de uma rede, exigindo pouca ou nenhuma habilidade ou conhecimento técnico especializado. Em algumas modalidades, o dispositivo do cliente não precisa estar conectado a uma rede. O sistema de vídeo de letra de música e os métodos de implementação desse sistema são descritos em mais detalhes abaixo.
[0021] A FIG. 1 ilustra um exemplo de modalidade de uma configuração de rede na qual o sistema de vídeo de letra de música divulgado 100 pode ser implementado. É contemplado neste documento, no entanto, que nem todos os componentes ilustrados podem ser necessários para implementar o sistema de vídeo de letra de música e que variações no arranjo e tipos de componentes podem ser feitas sem se afastar do espírito e escopo da invenção. Referindo-se à FIG. 1, a modalidade ilustrada do sistema de vídeo de letra de música 100 inclui redes de área local ("LANs")/redes de área ampla ("WANs") (coletivamente rede 106), rede sem fio 110, dispositivos de cliente 101-105, servidor 108, banco de dados de mídia 109 e dispositivos periféricos de entrada/saída (I/O) 111, 112 e 113. Enquanto vários exemplos de dispositivos de cliente são ilustrados, é contemplado neste documento que os dispositivos de cliente 101-105 podem incluir praticamente qualquer dispositivo de computação capaz de processar e enviar áudio, vídeo ou dados textuais através
7I43 de uma rede, tal como rede 106, rede sem fio 110, etc. Em algumas modalidades, uma ou ambas dentre a rede sem fio 110 e a rede 106 podem ser uma rede de comunicação digital. Os dispositivos de cliente 101-105 também podem incluir dispositivos configurados para serem portáteis. Assim, os dispositivos de cliente 101- 105 podem incluir praticamente qualquer dispositivo de computação portátil capaz de se conectar a outro dispositivo de computação e receber informações. Tais dispositivos incluem dispositivos portáteis, tais como telefones celulares, smartphones, —pagers, dispositivos de radiofrequência (RF), dispositivos infravermelhos (IR), assistentes digitais pessoais (PDAs), computadores portáteis, computadores laptop, dispositivos de computação vestíveis, tablet, dispositivos integrados que combinam um ou mais dos dispositivos anteriores e similares.
[0022] Os dispositivos de cliente 101-105 também podem incluir praticamente qualquer dispositivo de computação capaz de se comunicar através de uma rede para enviar e receber informações, incluindo informações de rastreamento e informações de rede social, executar consultas de pesquisa de faixa feitas por áudio ou similares. O conjunto de tais dispositivos pode incluir dispositivos que normalmente se conectam usando um meio de comunicação com ou sem fio, como computadores pessoais, sistemas multiprocessadores, componentes eletrônicos de consumo programáveis ou baseados em microprocessador, PCs em rede ou similares. Em uma modalidade, pelo menos alguns dos dispositivos de cliente 101-105 podem operar através de rede com fio e/ou sem fio.
[0023] Um dispositivo de cliente 101-105 pode ser ativado pela internet e pode incluir um aplicativo de navegador que é configurado para receber e enviar páginas da internet, mensagens pela internet e similares. O aplicativo de navegador pode ser configurado para receber e exibir gráficos, texto, multimídia, vídeo, etc., e pode empregar praticamente qualquer linguagem de internet, incluindo mensagens de protocolo de aplicativo sem fio (WAP) e similares. Em uma modalidade, o aplicativo de navegador é habilitado para empregar a linguagem de marcação de dispositivo portátil (HDML), linguagem de marcação sem fio (WML), WMLScript, Javascript, linguagem de marcação padrão generalizada 25 (SMGL), linguagem de marcação de hipertexto (HTML), linguagem de marcação extensível (XML) e similares para exibir e enviar vários conteúdos. Em uma modalidade, um usuário do dispositivo de cliente pode empregar o aplicativo de navegador para interagir com um cliente por mensagens, tal como enviar mensagens de texto, um e-mail ou similares a um cliente, enviar e/ou receber mensagens.
[0024] Os dispositivos de cliente 101-105 também podem incluir pelo menos um outro aplicativo do cliente que seja configurado para receber conteúdo de outro dispositivo de computação. O aplicativo de cliente pode incluir uma capacidade de fornecer e receber conteúdo multimídia, como conteúdo textual, conteúdo gráfico, conteúdo de áudio, conteúdo de vídeo, etc. O aplicativo de cliente pode ainda fornecer informações de identificação, incluindo um tipo, capacidade, nome e similares. Em uma modalidade, os dispositivos de cliente 101-105 podem exclusivamente identificar- se através de qualquer variedade de mecanismos, incluindo um número de telefone, Número de Identificação Móvel (MIN), um número de série eletrônico (ESN) ou outro identificador de dispositivo móvel. As informações também podem indicar um formato de conteúdo que o dispositivo móvel está habilitado para empregar. Tais informações podem ser fornecidas em, por exemplo, um pacote de rede ou outro formulário adequado, enviado ao servidor 108 ou outros dispositivos de computação. O banco de dados de mídia 109 pode ser configurado para armazenar vários meios, tais como clipes musicais, clipes de vídeo, arquivos gráficos, animação etc., e as informações armazenadas no banco de dados de mídia podem ser acessadas pelo servidor 108 ou, em outras modalidades, acessadas diretamente por outro dispositivo de computação através da rede 106 ou rede sem fio 110.
[0025] Os dispositivos de cliente 101-105 podem ainda ser configurados para incluir um aplicativo de cliente que permite que o usuário final faça login em uma conta de usuário que pode ser gerenciada por outro dispositivo de computação, tal como o servidor 108. Essa conta de usuário, por exemplo, pode ser configurada para permitir que o usuário final participe de uma ou mais atividades de rede social, como enviar uma faixa ou uma gravação ou vídeo com várias faixas, pesquise por faixas ou gravações, baixe uma faixa multimídia ou outra gravação, faça streaming de um conteúdo de vídeo ou áudio ou participe de uma comunidade de música online. No entanto, a participação em várias atividades de rede também pode ser realizada sem login na conta de usuário.
[0026] A rede sem fio 110 é configurada para acoplar os dispositivos de cliente 103-105 e seus componentes com a rede 106. A rede sem fio 110 pode incluir qualquer uma de uma variedade de sub-redes sem fio que podem ainda sobrepor redes ad-hoc autônomas e similares, para fornecer uma conexão com infraestrutura para os dispositivos de cliente 103-105. Tais sub-redes podem incluir redes de malha (ou redes mesh), redes de LAN sem fio (WLAN), redes de celular e similares. A rede sem fio 110 pode incluir ainda um sistema autônomo de terminais, gateways, roteadores, etc., conectados por links de rádio sem fio ou outros protocolos de comunicação sem fio adequados. Esses conectores podem ser configurados para mover-se livremente e aleatoriamente e organizar-se arbitrariamente, de modo que a topologia da rede sem fio 110 pode mudar rapidamente.
[0027] A rede sem fio 110 pode ainda empregar uma pluralidade de tecnologias de acesso incluindo acesso por rádio para sistemas de celular por 2º (2G), 3º (3G), 4º (4G) geração e 4G (LTE, Evolução de Longo Prazo), WLAN, malha de roteador sem fio (WR) e outras tecnologias de acesso adequadas. Tecnologias de acesso, tais como 2G, 3G, 4G, 4G LTE e redes de acesso futuras podem permitir cobertura de área ampla para dispositivos móveis, tais como dispositivos de cliente 103-105 com vários graus de mobilidade. Por exemplo, a rede sem fio 110 pode permitir uma conexão de rádio através de um acesso de rede de rádio tal como o Sistema Global para Comunicações Móveis (GSM), Serviços Gerais de Pacote por Rádio (GPRS), Ambiente de GSM de Dados Avançados (EDGE), Acesso Múltiplo de Divisão de Código de Banda Larga (WCDMA), etc. Na essência, a rede sem fio 110 pode incluir praticamente qualquer mecanismo de comunicação sem fio pelo qual as informações podem viajar entre os dispositivos de cliente 103-105 e outro dispositivo de computação, rede e similares.
[0028] A rede 106 é configurada para acoplar dispositivos de rede com outros dispositivos de computação, incluindo, servidor 108, dispositivos de cliente 101-102 e através da rede sem fio 110 para dispositivos de cliente 103-105. A rede 106 é habilitada para empregar qualquer forma de mídia legível por computador para comunicar informações de um dispositivo eletrônico para outro. Além disso, a rede 106 pode incluir a Internet além de redes de área local (LAN), redes de área ampla (WANs), conexões diretas, tais como através de uma porta de barramento serial universal (USB), outras formas de mídia legível por computador ou qualquer combinação destas. Em um conjunto interconectado de LANs, incluindo aquelas baseadas em diferentes arquiteturas e protocolos, um roteador age como um link entre LANs, permitindo que as mensagens sejam enviadas de um para outro. Além disso, links de comunicação dentro de LANs normalmente incluem cabo de fio torcido ou cabo coaxial, enquanto links de comunicação entre redes podem utilizar linhas de telefone analógicas, linhas digitais dedicadas completas ou fracionárias, incluindo T1, T2, T3 e T4, Redes Digitais de Serviços Integrados (ISDns), Linhas Digitais de Assinante (DSLs), links sem fio, incluindo links de satélite ou outros links de comunicação conhecidos para aqueles versados na técnica. Além disso, computadores remotos e outros dispositivos eletrônicos relacionados podem ser conectados remotamente a LANs ou WANs através de um modem e um link telefônico temporário. Essencialmente, a rede 106 inclui qualquer método de comunicação pelo qual as informações podem viajar entre os dispositivos de computação.
[0029] Em certas modalidades, os dispositivos de cliente 101-105 podem se comunicar diretamente, por exemplo, usando uma configuração de ponto a ponto (P2P).
[0030] Além disso, o meio de comunicação normalmente incorpora instruções legíveis por computador, estruturas de dados, módulos de programa ou outro mecanismo de transporte e inclui qualquer mídia de distribuição de informações. A título de exemplo, o meio de comunicação inclui meios com fio, como par torcido, cabo coaxial, fibra óptica, guias de ondas e outros meios com fio e mídias sem fio, como meios acústicos, RF, infravermelho e outros meios sem fio.
[0031] Vários periféricos, incluindo os dispositivos I/O 111-113 podem ser anexados aos dispositivos de cliente 101-105. Por exemplo, a almofada sensível a pressão e multitoque 113 pode receber entradas físicas de um usuário e ser distribuída como um periférico USB, embora não sendo limitada a USB e outros protocolos de interface também podem ser usados, incluindo, mas não limitado a ZIGBEE, BLUETOOTH ou outras conexões adequadas. Os dados transportados por um protocolo externo e o protocolo de interface da almofada sensível a pressão 113 podem incluir, por exemplo, dados de MIDI formatados, embora dados de outros formatos possam ser transmitidos por esta conexão também. Uma almofada de pressão semelhante pode ser alternativamente integrada de modo físico com um dispositivo de cliente, tal como os dispositivos móveis 104 ou 105. Um fone de ouvido 112 pode ser anexado a uma porta de áudio ou outra interface de I/O com ou sem fio de um dispositivo de cliente, fornecendo um exemplo de arranjo para um usuário ouvir a reprodução de uma composição, juntamente com outros resultados audíveis do sistema. O microfone 111 pode ser anexado a um dispositivo de cliente 101-105 através de uma porta de entrada de áudio ou de outra conexão. Alternadamente ou além do fone de ouvido 112 e do microfone 111, um ou mais alto-falantes e/ou microfones podem ser integrados em um ou mais dos dispositivos de cliente 101-105 ou outros dispositivos periféricos 111-113. Além disso, um dispositivo externo pode ser conectado à almofada de pressão 113 e/ou aos dispositivos de cliente 101-105 para fornecer uma fonte externa de amostras sonoras, formas de onda, sinais ou outras entradas musicais que podem ser reproduzidas por um controle externo. Tal dispositivo externo pode ser um dispositivo MIDI ao qual um dispositivo de cliente 103 e/ou almofada de pressão 113 pode rotear eventos MIDI ou outros dados a fim de acionar a reprodução de áudio do dispositivo externo. No entanto, é contemplado que formatos diferentes de MIDI podem ser empregados pelo dispositivo externo.
[0032] AFIG.2é um fluxograma que ilustra uma modalidade de um método 200 para operar um sistema de geração de mídia, com referências feitas aos componentes mostrados na FIG. 1. Em algumas modalidades, o método 200 de operação de um sistema de geração de mídia pode ser usado para gerar uma seleção de áudio para uso com o sistema de vídeo de letra de música 100. Mais detalhes sobre o sistema de geração de mídia podem ser encontrados no Pedido de Patente US nº 15/986.589,
depositado em 22 de maio de 2018, cuja divulgação é incorporada por referência neste documento. Começando em 202, o sistema pode receber uma entrada lírica em 204. O texto ou entrada lírica podem ser inseridos pelo usuário através de um dispositivo eletrônico, tal como um PC, tablet ou smartphone, qualquer outro dentre os dispositivos de cliente 101-105 descritos em referência à FIG. 1 ou outros dispositivos adequados. O texto pode ser inserido da forma habitual em qualquer um desses dispositivos (por exemplo, entrada manual usando teclados virtuais ou mecânicos, teclados de tela sensível ao toque ou conversão de fala para texto). Em algumas modalidades, o texto ou a entrada lírica são fornecidos através de um aplicativo de interface de usuário especializado acessado usando o dispositivo de cliente 101-105. Alternativamente, a entrada lírica poderia ser fornecida através de um aplicativo geral para transmissão de mensagens baseadas em texto usando o dispositivo de cliente 101-105.
[0033] A entrada lírica resultante pode ser transmitida através da rede de comunicações sem fio 110 e/ou rede 106 a ser recebida pelo servidor 108 em 204. Em 206, o sistema pode analisar a entrada lírica usando o servidor 108 para determinar certas características da entrada lírica. Em algumas modalidades, no entanto, é contemplado que a análise da entrada lírica poderia ocorrer alternativamente no próprio dispositivo do cliente 101-105 em vez de ou paralelamente ao servidor 108. A análise da entrada lírica pode incluir uma variedade de técnicas e procedimentos de processamento de dados. Por exemplo, em algumas modalidades, a entrada lírica é analisada em elementos de fala do texto com um analisador de fala. Por exemplo, em algumas modalidades, o analisador de fala pode identificar palavras importantes (por exemplo, amor, raiva, loucura), demarcar limites de frase (por exemplo, "Sinto saudades", "Eu te amo", "Vamos nos encontrar", "O show foi incrível") e/ou identificar gírias (por exemplo, "relaxa", "vamos dar uma volta"). Palavras consideradas como importantes podem variar por região ou idioma e podem ser atualizadas ao longo do tempo para coincidir com a cultura contemporânea. Da mesma forma, as gírias podem variar geograficamente e temporalmente, de modo que o sistema de geração de mídia é atualizável e personalizável. A pontuação ou outros símbolos usados na entrada lírica também podem ser identificados e atribuídos a certos estados de humor ou tons que podem influenciar a análise do texto. Por exemplo, um ponto de exclamação pode indicar felicidade ou urgência, enquanto um emoticon "de carinha triste" poderia indicar tristeza ou pesar. Em algumas modalidades, as palavras ou letra de música transmitidas na entrada lírica também podem ser processadas em suas peças componentes pela separação de palavras em sílabas e também pela separação das sílabas em uma série de fonemas. Em algumas modalidades, os fonemas são usados para criar reprodução de áudio das palavras ou da letra de música contidas na entrada lírica. As técnicas adicionais usadas para analisar a entrada lírica são descritas mais detalhadamente abaixo.
[0034] Em 208, o sistema pode receber uma seleção de uma entrada musical transmitida a partir do dispositivo de cliente 101-105. Em algumas modalidades, uma interface de usuário pode ser implementada para selecionar a entrada musical de uma lista ou biblioteca de obras musicais pré-gravadas e catalogadas ou clipes de obras musicais que podem compreender uma ou mais frases musicais. Neste contexto, uma frase musical pode ser um agrupamento de notas musicais ou sons conectados que exibem um "pensamento" musical completo, análogo a uma frase ou período linguístico. Para facilitar a escolha do usuário entre as obras ou frases musicais pré- gravadas, a lista de obras ou frases musicais disponíveis pode incluir, por exemplo, uma descrição com base em texto do título da música, artistas, gênero e/ou estado de humor exprimido pela frase, esses sendo apenas exemplos dos tipos de informação que podem ser fornecidos aos usuários por meio da interface de usuário. Com base na lista de obras musicais ou frases disponíveis, o usuário pode então escolher a obra musical ou clipe desejado para o sistema de geração de mídia combinar com a entrada lírica. Em uma modalidade, pode haver vinte ou mais frases musicais pré-gravadas e selecionadas para o usuário escolher.
[0035] Em algumas modalidades, as obras ou frases musicais pré-gravadas podem ser armazenadas no servidor 108 ou banco de dados de mídia 109 em qualquer formato legível por computador apropriado e acessadas através do dispositivo de cliente 101-105 através da rede sem fio 106 e/ou rede 110.
Alternativamente, em outras modalidades, as obras musicais pré-gravadas podem ser armazenadas diretamente no dispositivo de cliente 101-105 ou em outro dispositivo de memória local, tal como uma unidade flash ou outro dispositivo de memória de computador. Independentemente da localização de armazenamento, a lista de obras musicais pré-gravadas pode ser atualizada ao longo do tempo, removendo ou adicionando obras musicais para fornecer novas opções e opções adicionais ao usuário.
[0036] Também é possível que usuários individuais possam criar suas próprias melodias para uso em associação com o sistema de geração de mídia. Uma ou mais melodias podem ser criadas usando a tecnologia divulgada na Patente US nº
8.779.268, intitulada “System and Method for Producing a More Harmonious Musical Accompaniment Graphical User Interface for a Display Screen System and Method that Ensures Harmonious Musical Accompaniment” atribuído ao designado do presente pedido. Tal divulgação de patente é incorporada por meio deste documento por referência, integralmente. Em outras modalidades, um usuário pode gerar uma entrada lírica usando um dispositivo de entrada 111-113, tal como um instrumento MIDI ou outro dispositivo para inserir obras musicais ou clipes criados por usuário. Por exemplo, em algumas modalidades, um usuário pode usar teclado MIDI para gerar um riff musical ou toda a canção a ser usada como a entrada musical. Em algumas modalidades, um usuário pode criar uma gravação de áudio que executa notas com um instrumento mais tradicional, não MIDI, tal como um piano ou uma guitarra. À gravação de áudio pode então ser analisada em relação à altura, ao andamento, etc., para utilizar a gravação de áudio como a entrada musical.
[0037] Em outras modalidades, as entradas individuais na lista de opções de entrada musical são selecionáveis para fornecer, através do dispositivo de cliente 101- 105, uma obra musical pré-gravada (armazenada ou fornecida pelo usuário) ou um clipe da mesma como uma pré-visualização para o usuário. Em tais modalidades, a interface de usuário associada à seleção de uma obra musical inclui capacidades de reprodução de áudio para permitir que o usuário escute o clipe musical em associação com a seleção de uma obra musical como a entrada musical... Em algumas modalidades, essa capacidade de reprodução pode ser associada a uma barra de reprodução deslizante que representa graficamente a reprodução progressiva da obra ou clipe musical. Se o usuário selecionar a melodia a partir das obras musicais pré- gravadas armazenadas dentro do sistema ou dentre uma ou mais melodias criadas pelo usuário, é contemplado que uma funcionalidade para seleção dos pontos iniciais e finais dentro da obra musical para definir a entrada musical pode ser fornecida ao usuário.
[0038] Uma vez que um usuário seleciona a obra ou clipe musical desejado a ser usado como a entrada musical para a obra musical do usuário, o dispositivo de cliente 101-105 pode transmitir a seleção através da rede sem fio 106 e/ou rede 110, que pode ser recebida pelo servidor 108 como a entrada musical em 208 da FIG. 2. Em 210, a entrada musical pode ser analisada e processada a fim de identificar certas características e padrões associados à entrada musical, de modo a combinar de forma mais eficaz a entrada musical com a entrada lírica para produzir uma composição musical original para uso em uma mensagem ou similares. Por exemplo, em algumas modalidades, a análise e o processamento da obra musical incluem "reduzir" ou “ornamentar” a obra. Em algumas modalidades, a obra musical selecionada pode ser analisada para recursos tais como notas estruturalmente importantes, assinaturas rítmicas e limites de frase. Nas modalidades que utilizam um analisador de texto ou de fala conforme descrito acima, os resultados da análise de texto ou fala podem ser considerados na análise da obra musical também. Durante a análise e o processamento, cada obra ou clipe musical pode opcionalmente ser aprimorado ou reduzido, seja pela adição de notas à frase de uma maneira musical (aprimorar) ou pela remoção das mesmas (reduzir), enquanto ainda mantém a ideia e o reconhecimento da melodia original contidos na entrada musical. Esses ornamentos ou reduções podem ser realizados a fim de alinhar as frases textuais na entrada lírica com as frases musicais pelo alinhamento de seus limites e também para fornecer o material musical necessário para o alinhamento das sílabas de palavras individuais com notas, resultando em uma expressão musical natural do texto inserido. É contemplado que, em algumas modalidades, toda ou parte da análise das obras musicais pré-gravadas pode já ter sido concluída, permitindo que o sistema de geração de mídia meramente recupere os dados pré-analisados do banco de dados de mídia 109 para uso na conclusão da composição musical. O processo de análise da obra musical em preparação para correspondência com a entrada lírica e para uso na mensagem musical é estabelecido com mais detalhes abaixo.
[0039] Posteriormente à análise da entrada musical, em 212, a entrada lífica e a entrada musical podem ser correlacionadas à outra com base nas análises tanto da entrada lírica quanto da entrada musical 206 e 210. Especificamente, em algumas modalidades, as notas da obra musical selecionada e analisada são atribuídas de forma inteligente e automática a um ou mais fonemas no texto inserido, conforme descrito em mais detalhes abaixo. Em algumas modalidades, os dados resultantes que correlacionam a entrada lírica à entrada musical podem então ser formatados em uma entrada de sintetizador em 214 para entrada em um sintetizador de voz. A entrada de sintetizador formatada, na forma de pares de observação melódica de texto, pode então ser enviada para um sintetizador de voz em 216 para criar uma renderização vocal da entrada lírica para uso em uma obra musical original que incorpora características da entrada lírica e da entrada musical. A mensagem musical ou renderização vocal pode então ser recebida pelo servidor 108 em 218. Em algumas modalidades, a obra musical gerada pode ser recebida na forma de um arquivo de áudio incluindo uma renderização vocal da entrada lírica inserida pelo usuário, correlacionando-se à música/melodia da entrada musical, seja ela selecionada ou criada. Em algumas modalidades, o sintetizador de voz pode gerar toda a obra musical, incluindo a renderização vocal da entrada lírica e a porção musical da entrada musical. Em outras modalidades, o sintetizador de voz pode gerar apenas uma renderização vocal do texto inserido criado com base na entrada de sintetizador, que pode ser gerada pela análise da entrada lírica e da entrada musical descrita acima. Em tais modalidades, uma renderização musical baseada na entrada musical ou a própria entrada musical pode ser combinada com a renderização vocal para gerar uma obra musical.
[0040] O sintetizador de voz pode ser qualquer renderizador vocal adequado. Em algumas modalidades, o sintetizador de voz pode ser baseado em nuvem com o suporte de um servidor da web que fornece segurança, balanceamento de carga e a capacidade de aceitar mensagens e enviar mensagens aprimoradas musicalmente. Em outras modalidades, o renderizador vocal pode ser executado localmente no próprio servidor 108 ou no dispositivo de cliente 101-105. Em algumas modalidades, o sintetizador de voz pode processar os dados de entrada lírica formatados para fornecer uma conversão de texto para fala, bem como uma síntese de fala cantada. Em uma modalidade, o renderizador vocal pode fornecer ao usuário uma variedade de vozes, uma variedade de sintetizadores de voz (incluindo, mas não limitado a sintetizadores de voz à base de HMM, à base de formato de difone ou de seleção de unidade) ou línguas humanas. Alguns exemplos das escolhas de vozes de canto são gênero (por exemplo, masculino/feminino), idade (por exemplo, jovem/velho), nacionalidade ou sotaque (por exemplo, sotaque americano/britânico), ou outras características vocais distintas (por exemplo, sóbria/bêbada, grito/sussurro, sedutora, ansiosa, robótica, etc.). Em algumas modalidades, essas escolhas de vozes podem ser implementadas através de um ou mais sintetizadores de fala, cada um usando um ou mais modelos vocais, alturas, cadências e outras variáveis que podem resultar em atributos de canto perceptivamente diferentes. Em algumas modalidades, a escolha do sintetizador de voz pode ser feita automaticamente pelo sistema com base na análise da entrada lírica e/ou na entrada musical para palavras específicas ou estilos musicais indicando estado de humor, tom ou gênero. Em certas modalidades, após o sintetizador de voz gerar a mensagem musical, o sistema pode fornecer harmonização para acompanhar a melodia. Esse acompanhamento pode ser adicionado na mensagem da maneira divulgada na Patente US nº 8.779.268, incorporada por referência acima.
[0041] Em algumas modalidades, o usuário pode ter a opção de adicionar elementos gráficos à obra musical em 219. Se selecionados, os elementos gráficos podem ser escolhidos de uma biblioteca de elementos pré-existentes armazenados no banco de dados de mídia 109, no próprio dispositivo do cliente 101-105 ou em ambos. Em outra modalidade, o usuário pode criar seu próprio elemento gráfico para inclusão em uma obra multimídia gerada. Ainda em outras modalidades, os elementos gráficos podem ser gerados automaticamente sem o usuário precisar selecioná-los especificamente. Alguns exemplos de gráficos que podem ser gerados para uso com a obra musical podem ser cores e flashes de luz que correspondem à música na obra musical, figuras ou caracteres animados que soletram toda ou partes da mensagem textual ou entrada lírica pelo usuário ou outras animações ou cores que podem ser automaticamente determinadas para corresponder ao tom da entrada musical ou ao tom da própria entrada lírica, conforme determinado pela análise da entrada lírica. Se o usuário selecionar ou criar um elemento gráfico, uma entrada gráfica indicando esta seleção pode ser transmitida e recebida pelo servidor 108 em 220. O elemento gráfico pode então ser gerado em 222 usando os elementos preexistentes selecionados pelo usuário, os elementos automáticos escolhidos pelo sistema com base na análise da entrada lírica e/ou na entrada musical ou um elemento gráfico fornecido pelo usuário.
[0042] Em algumas modalidades, o usuário pode escolher, em 224, incluir um elemento de vídeo a ser combinado com a obra musical ou ser armazenado juntamente com a obra musical no mesmo resultado de arquivo de mídia. Se o usuário escolher incluir um elemento de vídeo, a interface de usuário pode ativar uma ou mais câmeras que podem ser integradas no dispositivo de cliente 101-105 para capturar a entrada de vídeo, como câmeras frontais ou traseiras em um smartphone ou outro dispositivo. Em algumas modalidades, o usuário pode manipular a interface de usuário no dispositivo de cliente para registrar entradas de vídeo a serem incorporadas à obra musical gerada. Em algumas modalidades, a interface de usuário exibida no dispositivo de cliente 101-105 pode fornecer a reprodução da obra musical gerada enquanto o usuário captura as entradas de vídeo, permitindo que o usuário coordene determinadas características das entradas de vídeo com determinadas partes da obra musical. Em tal modalidade, a interface de usuário pode exibir o texto da entrada lírica na tela do dispositivo com um indicador de progresso que se move pelo texto durante a reprodução, de modo a fornecer ao usuário uma representação visual do progresso da obra musical durante a captura de vídeo. Ainda em outras modalidades, a interface de usuário pode permitir que o usuário pare e inicie a captura de vídeo conforme desejado durante a reprodução da obra musical, enquanto interrompe simultaneamente a reprodução da obra musical. Uma das formas de fornecer essa funcionalidade pode ser pela captura de vídeo enquanto o usuário toca uma tela sensível ao toque ou acessa outra entrada do dispositivo de cliente 101-105, pausando pelo menos temporariamente a captura de vídeo quando o usuário solta a tela sensível ao toque ou outra entrada. Em tais modalidades, o sistema pode permitir que o usuário capture certas partes da entrada de vídeo durante uma primeira parte da obra musical, pause a captura de vídeo e reprodução da obra musical quando desejado e, em seguida, continue a captura de outra parte da entrada de vídeo para corresponder a uma segunda parte da obra musical. Após a captura de vídeo ser concluída, a interface de usuário pode fornecer a opção de edição da entrada de vídeo ao capturar novamente partes da ou a totalidade da entrada de vídeo.
[0043] Em algumas modalidades, uma vez que a captura e edição da entrada de vídeo está completa, a entrada de vídeo pode ser transmitida e recebida pelo servidor 108 para processamento em 226. A entrada de vídeo pode então ser processada para gerar um elemento de vídeo em 228 e o elemento de vídeo pode então ser incorporado à obra musical para gerar uma obra musical multimídia. Uma vez concluído, o elemento de vídeo pode ser sincronizado e reproduzido juntamente com a obra musical correspondente a uma ordem na qual o usuário capturou as partes da entrada de vídeo. Em outras modalidades, o processamento e a geração de elementos de vídeo podem ser concluídos no próprio dispositivo do cliente 101-105 sem a necessidade de transmitir a entrada de vídeo para o servidor 108.
[0044] Se o usuário optar por não adicionar nenhum gráfico ou elementos de vídeo à obra musical ou depois que os elementos gráficos e/ou o vídeo tiverem sido gerados e incorporados à obra musical para gerar uma obra multimídia, a obra musical ou a obra multimídia pode ser transmitida ou emitida, em 230, para o dispositivo de cliente 101-105 através da rede 110 e/ou da rede sem fio 110. Nas modalidades em que todas ou a maioria das etapas descritas podem ser executadas em um único dispositivo, tal como o dispositivo de cliente 104, a obra musical pode ser emitida para alto-falantes e/ou alto-falantes combinados com um visor. Nesse ponto, em algumas modalidades, o sistema pode fornecer ao usuário a opção de visualizar a obra musical ou obra multimídia em 232. Se o usuário escolher uma pré-visualização da obra, a obra musical ou obra multimídia pode ser reproduzida em 234 através do dispositivo de cliente 101-105 para uma análise do usuário. Em tais modalidades, se o usuário não estiver satisfeito com a obra musical ou multimídia ou quiser criar uma obra alternativa por qualquer motivo, o usuário pode ter a opção de cancelar a obra sem enviar, armazenar ou editar a mesma. Se, no entanto, o usuário aprovar a obra musical ou multimídia ou optar por não pré-visualizar a obra, o usuário pode armazenar a obra como um arquivo de mídia, enviar a obra como uma mensagem musical ou multimídia para um destinatário de mensagem selecionado, etc., em 235. Como discutido acima, a obra musical ou multimídia pode ser enviada a um ou mais destinatários usando uma variedade de comunicações e plataformas de mídia social, como mensagens SMS ou MMS, e-mail, Facebookº, Twitterº e Instagramº, desde que o serviço/formato de mensagens suporte a transmissão, entrega e reprodução de arquivos de áudio e/ou vídeo.
[0045] Em algumas modalidades, um método de geração de uma obra musical pode incluir ainda receber uma seleção de um cantor correspondente a pelo menos uma característica de voz. Em algumas modalidades, a pelo menos uma característica de voz pode ser indicativa de um determinado cantor da vida real ou fictício com um estilo reconhecível específico. Por exemplo, um músico específico pode ter uma voz reconhecível devido a um twang, falsete, amplitude vocal, vibrato, etc. específico. Quando o sistema recebe uma seleção do determinado cantor, a pelo menos uma característica vocal pode ser incorporada à performance da obra musical. É contemplado que, em algumas modalidades, a pelo menos uma característica de voz pode ser incluída nos dados formatados enviados para o sintetizador de voz em 216 do método 200 na FIG. 2. No entanto, também é contemplado que a pelo menos uma característica vocal pode ser incorporada na renderização vocal recebida do sintetizador de voz.
[0046] O que se segue fornece uma descrição mais detalhada da metodologia usada na análise e processamento da entrada lírica e da entrada musical fornecidas pelo usuário para criar uma obra musical ou multimídia. Especificamente, os detalhes fornecidos pertencem a pelo menos uma modalidade de execução das etapas 206 e 210-214 do método 200 para operar o sistema de geração de mídia do sistema de vídeo de letra de música 100. Deve ser compreendido, no entanto, que outras metodologias alternativas para executar as etapas da FIG. 2 são contempladas neste documento. Também deve ser compreendido que o sistema de geração de mídia pode executar as seguintes operações automaticamente ao receber uma entrada lírica e uma seleção de entrada musical de um usuário através do dispositivo de cliente do usuário. Deve ser compreendido ainda que a metodologia divulgada neste documento fornece soluções técnicas para problemas técnicos associados à correlação de entradas líricas às entradas musicais, de modo que o resultado musical da correlação das duas entradas seja correspondido efetivamente. Além disso, os métodos e recursos descritos neste documento podem operar para melhorar a capacidade funcional do computador ou servidor de processar certos tipos de informações de uma forma que torna o computador mais utilizável e funcional do que seria possível sem as operações e sistemas descritos neste documento.
[0047] O sistema de geração de mídia pode reunir e manipular textos e entradas musicais de modo a garantir flexibilidade, escalabilidade e eficácia do sistema. Em algumas modalidades, a coleta e análise de pontos de dados relacionados à entrada lírica e à entrada musical são implementadas para melhorar o computador e a capacidade do sistema de correlacionar efetivamente as entradas líricas e musicais. Alguns pontos de dados determinados e usados pelo sistema na análise e processamento de uma entrada lírica, como na etapa 206, podem ser o número de caracteres ou contagem de caracteres ("CC") e o número de palavras ou contagem de palavras ("WC", do original word count) incluídos na entrada lírica. Qualquer método adequado pode ser usado para determinar a CC e a WC. Por exemplo, em algumas modalidades, o sistema pode determinar a WC pela contagem de espaços entre grupos de caracteres ou pelo reconhecimento de palavras em grupos de caracteres por referência a um banco de dados de palavras conhecidas em uma determinada linguagem ou seleção de linguagens. Outros pontos de dados determinados pelo sistema durante a análise da entrada lírica podem ser o número de sílabas ou contagem de sílabas ("TC") e o número de períodos ou contagem de períodos ("SC", do original sentence count). As TC e SC podem ser determinadas de qualquer maneira adequada, por exemplo, pela análise da pontuação e espaçamento para a SC ou pela análise de palavras em sílabas por referência a um banco de dados de palavras armazenado no banco de dados de mídia 109 ou em outro lugar. Após o recebimento da entrada lírica que pode ser fornecida por um usuário através do dispositivo de cliente 101-105, o sistema pode analisar o texto inserido para determinar valores tais como a CC, WC, TC e SC. Em algumas modalidades, esta análise pode ser conduzida no servidor 108, mas também é contemplado que, em algumas modalidades, a análise do texto inserido pode ser conduzida no dispositivo de cliente 101-105. Em certas modalidades, durante a análise, o sistema pode inserir sinalizadores de início e sinalizadores de fim codificados no início e no fim de cada palavra, sílaba e período para marcar a determinação feita durante a análise. A localização de um sinalizador de início no início de um período, por exemplo, pode ser referida como o início do período (“SS”, do original sentence start) e a localização do sinalizador de fim no final de um período pode ser referida como o fim do período (“SE”, do original sentence end). Além disso, é contemplado que, durante a análise, palavras ou sílabas da entrada lírica podem ser sinalizadas para uma ênfase textual. A metodologia do sistema para reconhecer tais casos em que palavras ou sílabas devem receber ênfase textual pode ser baseada na linguagem ou ser culturalmente específica.
[0048] Em algumas modalidades, outra análise conduzida pelo sistema no texto inserido pode ser determinar a classe de frase ("PC", do original phrase class) de cada uma dentre a CC e a WC. A classe de frase da contagem de caracteres será referida como CCPC e a classe de frase da contagem de palavras será referida como o WCPC. O valor da classe de frase pode ser um conjunto sequencialmente indexado de grupos que representam conjuntos crescentes de valores de CC ou WC. Por exemplo, uma entrada lírica com uma CC de O pode ter uma CCPC de 1 e uma entrada lírica com uma WC de O pode ter uma WCPC de 1. Além disso, uma entrada lírica com uma CC entre 1 e 6 pode ter uma CCPC de 2 e uma entrada lírica com uma WC de 1 pode ter uma WCPC de 2. A CCPC e a WCPC podem então aumentar sequencialmente conforme a CC ou a WC aumenta, respectivamente.
[0049] Abaixo, a Tabela 1 ilustra, para fins exemplificativos e não limitantes apenas, uma possível classificação de CCPC e WCPC com base em CC e WC em uma entrada lírica. Poe o sementagames Tabela 1
[0050] Com base na CCPC e na WCPC, o sistema pode determinar uma classe de frase geral para toda a entrada lírica pelo usuário ou a classe de frase do usuário ("UPC" do original user phrase class). Esta determinação pode ser feita dando diferentes pesos para diferentes valores de CCPC e WCPC, respectivamente. Em algumas modalidades, um peso maior pode ser dado à WCPC do que à CCPC na determinação da UPC, mas deve ser compreendido que outros pesos ou os mesmos pesos também podem ser usados. Um exemplo dá à CCPC um peso de 40% e à WCPC um peso de 60%, conforme representado pela seguinte equação: EQ. 1 UPC = 0,4(CCPC) + 0,6(WCPC)
[0051] Assim, com base no exemplo da Tabela 1 de classes de frases e no exemplo de equação 1 acima, uma entrada lírica com uma CC de 27 e uma WC de 3 pode ter uma CCPC de 5 e uma WCPC de 3, resultando em uma UPC de 3,8 como a seguir: EQ. 2 UPC = 0,4(5) + 0,6(3) =3,8
[0052] Deve ser notado que o sistema de classe de frase e o sistema de ponderação explicado neste documento é variável com base em vários fatores relacionados à entrada musical selecionada, como estado de humor, gênero, estilo, etc. ou outros fatores relacionados à entrada lírica, tais como palavras ou frases importantes, conforme determinado durante a análise da entrada lírica.
[0053] De forma análoga, a entrada musical selecionada ou fornecida pelo usuário pode ser analisada durante a análise e o processamento, como na etapa 210 da FIG.
2. Em algumas modalidades, o sistema pode analisar a entrada musical selecionada ou fornecida pelo usuário para determinar uma variedade de pontos de dados. Um ponto de dados determinado na análise pode ser o número de notas ou contagem de notas ("NC" do original note count) na determinada entrada musical.
[0054] Outro produto da análise que pode ser feito na entrada musical pode incluir determinar o início e o fim das frases musicais ao longo da entrada musical. Uma frase musical pode ser análoga a um período linguístico em que uma frase musical é um agrupamento de notas musicais que transmite um pensamento musical. Assim, em algumas modalidades, a análise e o processamento da entrada musical selecionada podem envolver a sinalização dos inícios e fins de cada frase musical identificada em uma entrada musical. Analogamente à classe da frase da entrada lírica (UPC) descrita acima, uma classe de frase da entrada musical de origem, chamada de classe de frase de origem ("SPC" do original source phrase class) pode ser determinada, por exemplo, com base no número de frases musicais e na contagem de notas identificadas na entrada musical.
[0055] O início de cada frase musical pode ser referido como o início da frase ("PS" do original phrase start) e o final de cada frase musical pode ser referido como o fim da frase ("PE" do original phrase end). O PS e o PE na entrada musical podem ser análogos ao início do período (SS) e ao fim do período (SE) na entrada lírica. Em algumas modalidades, o PS e PE associados às obras musicais preexistentes podem ser pré-gravados e armazenados no servidor 108 ou no dispositivo de cliente 101-105, onde eles podem estar disponíveis para seleção pelo usuário como uma entrada musical. Em tais modalidades, as localizações de PS e PE para a entrada musical podem ser predeterminadas e a análise da entrada musical envolve recuperar tais informações de um local de armazenamento, tal como o banco de dados de mídia
109. Em outras modalidades, no entanto ou em modalidades em que a entrada musical é fornecida pelo usuário e não pré-gravada e armazenada, uma análise adicional é conduzida para distinguir frases musicais na entrada musical e, assim, determinar o PS e o PE correspondentes para cada frase musical identificada.
[0056] Em algumas modalidades, as classes de expressão da entrada lírica e da entrada são comparadas para determinar a paridade ou disparidade entre as duas entradas. Deve ser compreendido que, embora a divulgação descreva a comparação de entradas líricas e entradas musicais correspondentes usando classes de frase, outras metodologias para fazer comparações entre entradas líricas e entradas musicais são contempladas neste documento. A comparação da classe de frase pode ocorrer após a correlação da entrada musical com a entrada lírica com base nas respectivas análises, como na etapa 212.
[0057] Em certas modalidades, a paridade entre uma entrada lírica e uma entrada musical é analisada pela determinação do diferencial de frase ("PD" do original phrase differential) entre as entradas líricas e entradas musicais correspondentes fornecidas pelo usuário. Um exemplo de determinação do PD é dividir a classe de frase de usuário (UPC) pela classe de frase de origem (SPC), como mostrado na Equação 3 abaixo: EQ. 3 PD = UPC/SPC
[0058] Neste exemplo, a paridade de frase perfeita entre a entrada lírica e a entrada musical resultaria em um PD de 1,0, onde a UPC e a SPC são iguais. Se a entrada lírica for "mais curta" do que a entrada musical, o PD pode ter um valor inferior a 1,0 e se a entrada lírica for "mais longa" do que a entrada musical, o PD pode ter um valor maior que 1,0. Aqueles versados na técnica reconhecerão que resultados semelhantes poderiam ser obtidos pela divisão da SPC pela UPC ou com outros métodos de comparação adequados.
[0059] A paridade entre a entrada lírica e a entrada musical também pode ser determinada pelo diferencial de "nota" ("ND", do original note differential) entre a entrada lírica e a entrada musical fornecidas pelo usuário. Um exemplo de determinação do ND é tirar a diferença entre a contagem de nota (NC) e a contagem de sílaba (TC) análoga da entrada lírica. Por exemplo: EQ. 4 ND =NC-TC
[0060] Neste exemplo, a paridade de frase perfeita entre a entrada lírica e a entrada musical seria um ND de O, onde a NC e a TC são iguais. Se a entrada lírica for "mais curta" do que a entrada musical, o ND pode ser maior ou igual a 1 e sea entrada lírica for "mais longa" do que a entrada musical, o ND pode ser menor ou igual a -1. Aqueles versados na técnica reconhecerão que resultados semelhantes poderiam ser obtidos pela subtração da NC a partir da TC, ou com outros métodos de comparação adequados.
[0061] A utilização desses métodos adequados ou de comparação alternativos estabelece o quanto uma determinada entrada lírica é adequada para uma entrada musical fornecida ou selecionada. A paridade de frase de PD=1 e ND=0 pode representar um alto nível de paridade entre as duas entradas, onde PD sendo muito maior ou menor que 1 ou ND sendo muito maior ou menor que zero pode representar um baixo nível de paridade, ou seja, disparidade. Em algumas modalidades, ao correlacionar a entrada musical e a entrada lírica para criar uma obra musical, o início do período (SS) e o fim do período (SE) da entrada lírica podem se alinhar com o início da frase (PS) e o final da frase (PE), respectivamente, da entrada musical se a paridade for ideal ou próxima disso (isto é, alta paridade). No entanto, quando a paridade não é ideal, o SE e o PE podem não se alinhar bem quando o SS e o PS estiverem alinhados uns com os outros. Com base no nível de paridade/disparidade determinado durante a análise, vários métodos de processamento da entrada musical e da entrada lírica podem ser utilizados para fornecer um resultado ideal para a obra musical. Em algumas modalidades, estas técnicas ou ferramentas de edição podem ser aplicadas automaticamente pelo sistema ou podem ser aplicadas manualmente por um usuário.
[0062] Um exemplo de uma solução para correlacionar o texto e as entradas musicais é a correspondência silábica. Quando a paridade é ideal, isto é, o diferencial de nota (ND) é zero, a contagem de nota (NC) e a contagem de sílabas (TC) podem ser iguais ou o diferencial de frase (PD) é 1,0, a correspondência silábica pode envolver a simples combinação das sílabas na entrada de texto para as notas na entrada musical e/ou a combinação das sentenças da entrada de texto com as frases musicais da entrada musical.
[0063] Em algumas modalidades, no entanto, se PD for ligeiramente maior ou menor que 1,0 e/ou ND está entre, por exemplo, 1 e 5 ou -1 e -5, a redução melódica ou o ornamento, respectivamente, podem ser usados para fornecer correlação entre as entradas. A redução melódica envolve reduzir o número de notas executadas na entrada musical e pode ser usada quando a NC for ligeiramente maior do que a TC (por exemplo, ND está aproximadamente entre 1 e 5) ou a classe de frase de origem musical (SPC) é ligeiramente maior do que a classe de frase do usuário (UPC) (por exemplo, PD sendo ligeiramente menor do que 1,0). A redução das notas na entrada musical pode diminuir a duração total da entrada musical e resultar na NC estando mais próxima ou igual à TC da entrada de texto, aumentando a paridade da frase. Quanto menos notas forem removidas da entrada musical, menos impacto a redução terá sobre a obra musical selecionada como a entrada musical e, portanto, o elemento musical da obra musical será mais reconhecível quando a obra estiver completa. Da mesma forma, o ornamento melódico envolve adicionar notas à entrada musical. Em algumas modalidades, o ornamento melódico é usado quando a NC é ligeiramente menor do que a TC (por exemplo, ND está entre -1 e -5) ou a SPC é ligeiramente menor do que a UPC (por exemplo, a PD é ligeiramente maior do que 1,0). A adição de notas na entrada musical pode prolongar a entrada musical, que pode adicionar à NC ou SPC e, assim, aumentar a paridade entre as entradas. Quanto menos notas forem adicionadas usando o ornamento melódico, menos impacto o ornamento terá sobre a obra musical selecionada como a entrada musical e, portanto, o elemento musical da mensagem musical será mais reconhecível após a conclusão. Em algumas modalidades, as notas adicionais adicionadas à obra musical são determinadas pela análise das notas originais na obra musical e pela adição de notas que fazem sentido musicalmente. Por exemplo, em algumas modalidades, o sistema pode adicionar apenas notas na mesma chave musical que a obra original na obra musical ou notas que mantenham o andamento ou outros recursos da obra original, de modo a auxiliar para que a obra musical fique reconhecível... Deve ser compreendido que, embora a redução melódica e o ornamento tenham sido descritos no contexto de uma ligeira disparidade de frase entre as entradas musicais e de texto, o uso de redução melódica e ornamento em uma disparidade de frase maior ou menor também é contemplado.
[0064] Um sistema para geração de áudio pode ser usado por ou em conjunto com o sistema de vídeo de letra de música. Em tais modalidades, geralmente, o sistema pode receber informações de sincronia de várias fontes, mas pode, em última análise, ser convertido em dados MIDI e MusicXML ou outros formatos de dados adequados. Um desempenho dos dados de sincronia pode ser criado em uma fase em que o sistema imita um técnico humano ao ajustar ligeiramente as informações de altura e sincronia para corresponder à intenção original da fonte de sincronia, ou seja, uma canção ou outra gravação de áudio. O sistema pode então determinar um modelo de voz apropriado com base nas entradas associadas aos dados de sincronia. As entradas podem ser um nome de um artista musical, título da obra, sexo da pessoa que está falando, nota musical, etc. Em algumas modalidades, o desempenho pode ser convertido em um formato de dados adequado juntamente com o MusicXML e um ID de modelo de voz. Juntas, essas entradas podem ser transmitidas a uma fase de síntese, que pode emitir o áudio vocal.
[0065] AFIG. 3 mostra o fluxograma de uma modalidade de um método para geração de áudio 300 que pode ser usada em conjunto com o sistema de vídeo de letra de música. O sistema pode receber informações de sincronia de áudio em 302, receber partituras digitais, tal como no formato MusicXML em 304 ou receber a faixa de áudio da música originada de uma fonte principal ou outra fonte de gravação em 306 para uma determinada seleção de áudio. Em cada caso, os dados recebidos podem ser convertidos para ou permanecem como dados MusicXML, por exemplo ou outro formato digital adequado. Em 308, o sistema pode receber dados de música, como artista, gênero, andamento, título da música, nota, tom, etc. Em 312, o sistema pode determinar um gênero do vocalista, estilo ou modelo de voz ideal com base nos dados de música recebidos. Em 310, o sistema pode gerar dados de MIDI para a seleção de áudio com base nos dados de MusicXML. Em 314, com base em MIDI e na determinação do modelo de voz ideal em 310 e 312, o sistema pode conduzir a manipulação do desempenho de MIDI. Por exemplo, em algumas modalidades, o sistema pode ajustar a altura ou a duração de uma nota para atender aos requisitos para um desempenho de MIDI com base nos dados de voz e nos dados de música. Em 316, o sistema pode conduzir a manipulação da sincronia de MIDI. Por exemplo, o sistema pode ajustar a sincronia/duração da nota para atender aos requisitos para uma base de desempenho de MIDI no modelo de voz ideal, dados de música, etc. Em 318, o sistema pode receber uma entrada lírica, que pode ser recebida de um banco de dados de letra de música local, de terceiros ou de uma entrada do usuário. Em 322, o sistema pode gerar um MusicXML de texto para música com base na entrada lírica 318 e nas informações de sincronia de MIDI 316. Mais detalhes sobre métodos pelos quais os dados de texto de letra de música podem ser combinados com música ou dados de entrada musical são descritos acima e também no Pedido de Patente co- pendente US nº 15/986.589. Em 320, o sistema pode gerar uma curva de altura com base na manipulação de desempenho de MIDI em 314 e os dados de modelo de voz ideais de 312 usando, por exemplo, um sintetizador acionado por música. Em 324, o áudio vocal pode ser gerado com base nos dados do modelo de voz ideal de 312, no MusicXML texto para música gerado em 322 e na curva de altura de 320.
[0066] Em algumas modalidades, o sistema de vídeo de letra de música pode utilizar os métodos conforme descrito acima com referência à FIG. 2 e o sistema de geração de mídia da FIG. 3 e o sistema de geração de áudio como a seleção de áudio para o sistema de vídeo de letra de música 100. Em outras modalidades, a seleção de áudio pode ser uma canção pré-gravada, seja pelo usuário, terceiros ou pode ser uma canção comercialmente disponível ou outra parte de um áudio. Por exemplo, a seleção de áudio pode ser selecionada de um banco de dados de música de terceiros, como Apple iTunesº Store, Spotifyº, Amazon Musicº ou qualquer outro banco de dados de terceiros. A seleção de áudio pode ser um arquivo de música ou áudio armazenado em um dispositivo do usuário 101-105 ou que esteja armazenado em uma plataforma de servidor ou nuvem remota de terceiros, acessível por Internet ou outra rede.
[0067] Independentemente da fonte da seleção de áudio, um sistema de geração de animação do sistema de vídeo de letra de música pode gerar um arquivo de filme digital que pode incluir, por exemplo, um vídeo com animações com a letra da música. Em algumas modalidades, o sistema de geração de animação pode começar com os dados de sincronia originados da mesma maneira ou similarmente aos usados no sistema de geração de áudio descrito em relação à FIG. 3. Com base em uma entrada lírica, juntamente com os dados de sincronia, o sistema pode, em última análise, gerar uma animação visual que pode ser sincronizada com um áudio de arquivo de vídeo digital para gerar um arquivo de vídeo digital final... Em algumas modalidades, a entrada lírica pode ser analisada para rupturas lógicas como estrofes ou seções da música. Exemplos deste tipo de análise textual são descritos acima e em relação ao Pedido de Patente co-pendente US nº 15/986.589, incorporado por referência neste documento. Com base nesta análise, o sistema pode inserir animações nas estrofes determinadas ou seções da música ou em palavras-chave identificadas na entrada lífica. Em algumas modalidades, as informações sobre a entrada lírica podem ser compartilhadas com um sistema de terceiros para recuperar informações adicionais que podem ajudar o sistema a determinar uma paleta de cores, imagens e animações adequadas à música ou letra. Em algumas modalidades, bancos de animações temáticas podem ser introduzidos e selecionados com base no gênero, humor, andamento e duração do texto/palavra. Finalmente, em algumas modalidades, a animação pode ser processada em tempo real à medida que o sistema recebe informações. O áudio e a animação podem ser combinados para produzir um arquivo de vídeo digital final.
[0068] A FIG. 5 mostra uma modalidade de um método 500 para usar o sistema de geração de animação do sistema de vídeo de letra de música. Em 502, o sistema pode receber uma partitura digital de uma seleção de áudio. Em algumas modalidades, a partitura digital pode ser recebida de um repositório de terceiros, tal como um depósito de partituras ou outro banco de dados. Em outras modalidades, a partitura digital pode ser armazenada em um banco de dados do sistema local, armazenamento em nuvem ou em um dispositivo do usuário. Em 504, em algumas modalidades, o sistema pode receber dados de MusicXML diretamente como a entrada de áudio, por exemplo, de um depósito de MusicXML ou outro banco de dados. Em 506, em algumas modalidades, o sistema pode receber uma faixa de áudio de música originada de uma fonte principal ou de qualquer fonte adequada, incluindo serviços de streaming de nuvem, bancos de dados de terceiros, armazenamento local, etc. Em qualquer um de 502 ou 506, MusicXML ou outro formato de dados adequado pode ser gerado a partir da música da partitura digital ou da faixa de áudio de música. Com base em qualquer um de 502, 504 e 506, o sistema pode gerar uma melodia de MIDI em 508. Em algumas modalidades, a melodia de MIDI pode incluir sincronia e altura do vocal principal na seleção de áudio com base nas informações de sincronia incluídas na seleção de áudio seja no formato MusicXML ou em outro formato. Em 510, o sistema pode receber uma entrada lírica que pode ser o texto das letras de música na seleção de áudio. Em algumas modalidades, a entrada lírica pode ser as palavras para uma música de terceiros ou pode ser a entrada de texto para letras de música fornecidas por um usuário durante o processo descrito acima com referência à FIG. 2. Em qualquer caso, em 512, o sistema pode realizar uma análise da letra da música para gerar um cronograma de letra de música e atribuir características de letra de música com base na análise. Em algumas modalidades, as características da letra de música podem incluir a análise de palavras específicas em uma entrada lírica e atribuir cores, imagens, animação ou outros recursos gráficos ou de vídeo com base nos significados ou contexto das palavras. Por exemplo, se a entrada lírica inclui a palavra "amor", a análise da letra pode atribuir a cor vermelha à palavra, à estrofe, ao verso ou à seção da seleção de áudio contendo a palavra. Em outras modalidades, o sistema pode atribuir certas imagens ou animação com base em certas outras palavras-chave ou repetidas na entrada lírica.
[0069] Em 514, o sistema pode transmitir um identificador de seleção de música ou áudio para um banco de dados ou índice de terceiros com base nas informações do MusicXML ou na identificação de seleção de áudio de uma maneira mais ampla.
O sistema pode então receber informações de tom sobre a seleção de áudio. Por exemplo, o banco de dados de terceiros pode transmitir informações de tom incluindo gênero, humor, andamento, tom, estilo, importância, informações agrupadas situacionais do artista ou música etc., que podem ser recebidas pelo sistema. Em algumas modalidades, as informações de tom podem estar prontamente disponíveis em um dispositivo do usuário ou nuvem ou podem ser provenientes de terceiros. O sistema pode determinar imagens gráficas que correspondem com ou são mais apropriadas com base nas informações de tom de 514 e podem corresponder às imagens gráficas à sincronia dos vocais principais gerados na melodia MID! em 508. As imagens gráficas podem ser, por exemplo, paleta de cores, animações ou outras imagens que refletem humores, tons ou contextos específicos da seleção de áudio. Em 518, o sistema pode determinar a animação temática a ser incorporada em um vídeo de letra de música com base nas informações de tom recebidas em 514 e nas informações de sincronia. Em algumas modalidades, a animação temática pode ser selecionada dentre bancos de animações temáticas de JSON (Java Script Object Notation), que podem ser determinados com base no gênero, humor, andamento e agrupamento situacional e com base na duração da palavra que é determinada nos dados de sincronia. Em 520, em algumas modalidades, o sistema pode renderizar uma sequência de animação para que a seleção de áudio gere um vídeo de letra de música. Em algumas modalidades, a animação pode ser gerada em tempo real, permitindo a reprodução e visualização quase imediata por um usuário. Em tais modalidades, o sistema pode executar a análise da FIG. 5 verso a verso ou seção por seção, de modo que o vídeo de letra de música pode iniciar a reprodução antes que toda a seleção de áudio possa ser renderizada. Em outras modalidades, o sistema pode renderizar uma seleção de áudio inteira antes da reprodução e preservar o vídeo de letra de música para reprodução seletiva por um usuário.
[0070] O vídeo de letra de música pode incluir uma for de fundo determinada com base em informações de tom, análise da letra de música e informações de sincronia recebidas ou determinadas pelo sistema. Durante a reprodução do vídeo de letra de música, as representações visuais das palavras que compõem a letra de uma seleção de áudio podem piscar por toda tela conforme são executadas na reprodução de seleção de áudio. As palavras podem ser representadas em diferentes fontes, estilos, cores e animações que crescem, diminuem, se movem ou são ajustadas e variadas como resultado da análise na FIG. 5. O vídeo de letra de música também pode incluir cores de fundo que mudam, se alteram ou piscam de acordo com a análise no método
500. Além disso, o vídeo de letra de música pode incluir animações temáticas selecionadas para corresponder aos temas da música, gênero, letra, tom, etc., da seleção de áudio. Assim, com base no recebimento de uma seleção de áudio de um usuário, o sistema pode gerar um vídeo de letra de música original.
[0071] AFIG.6 mostra um fluxograma de outra modalidade de um método 600 de uso do sistema de vídeo de letra de música. Em 602, o sistema pode receber uma seleção de áudio de um usuário, por exemplo, através de um dispositivo do usuário, seja localmente ou através de uma rede. Em algumas modalidades, o usuário pode selecionar a seleção de áudio de uma lista ou pode inserir a seleção de áudio através de uma pesquisa ou outra entrada. Em algumas modalidades, a seleção de áudio pode ser selecionada em um aplicativo ou banco de dados de terceiros, como Apple Itunes Store&, Amazon Music& ou Spotify&. Em algumas modalidades, o sistema pode receber a seleção de áudio através de um ID da música ou outra notificação ou identificação adequada. Em algumas modalidades, a seleção de áudio pode ser executada em tempo real e capturada pelo sistema. Ao receber a seleção de áudio, o sistema pode, em 604, determinar as informações de sincronia da seleção de áudio. Em algumas modalidades, as informações de sincronia podem ser recebidas juntamente com a seleção de áudio. Em algumas modalidades, as informações de sincronia podem ser determinadas consultando um banco de dados local ou de terceiros, tal como um banco de dados de música de partitura digital ou banco de dados de MusicXML. Entre outras coisas, as informações de sincronia da seleção de áudio podem incluir a sincronia da letra de música, tal como quando cada palavra ou sílaba é reproduzida/cantada na canção e sincronia da nota. Em algumas modalidades, a análise da seleção de áudio usando métodos descritos acima com referência à FIG. 2 pode ser implementada para determinar pelo menos porções das informações de sincronia. Em algumas modalidades, um arquivo de MIDI pode ser gerado com base nas informações de sincronia e/ou dados de MusicXML da seleção de áudio.
[0072] Em 606, o sistema pode determinar a informação de letra de música da seleção de áudio, ou seja, as palavras usadas ou cantadas na seleção de áudio. Em algumas modalidades, as informações de letra de música podem ser determinadas através de partitura digital, um banco de dados de letra de música (ou seja, de terceiros ou local) ou outra fonte de letra de música adequada. Em algumas modalidades, o sistema pode identificar as informações de letra de música usando reconhecimento de voz, tal como pela conversão das palavras faladas ou cantadas na seleção de áudio em texto. Essa conversão pode ser feita pelo próprio sistema ou usando fontes de terceiros e recebida de volta ao sistema para análise. Em 608, o sistema pode analisar a informação da letra de música da seleção de áudio. Por exemplo, o sistema pode determinar palavras-chave entre as informações de letra de música que indicam o estilo, o humor ou termos repetidos frequentemente. O sistema também pode identificar palavras que normalmente indicam determinados humores ou gêneros. Durante a análise da letra de música, o sistema pode criar um cronograma que atribui cores a versos ou estrofes da letra com base na análise da letra de música. Em algumas modalidades, a análise da letra de música pode incluir a inserção de imagens e/ou animações específicas associadas a determinadas letras, frases, versos ou estrofes. Em algumas modalidades, a análise da seleção de áudio usando os métodos descritos acima com referência à FIG. 2 pode ser implementada para conduzir pelo menos partes da análise da letra de música. Em 610, o sistema pode receber informações de tom da seleção de áudio. Em algumas modalidades, o sistema pode incluir um banco de dados de músicas e gênero, humor, andamento, agrupamento situacional, artista, estilo, etc. associados. Em outras modalidades, o sistema pode transmitir a seleção de áudio (por meio do ID da música ou semelhante) para um banco de dados ou aplicativo de terceiros, solicitando informações de tom da seleção de áudio. Em tais modalidades, o sistema pode então receber informações de tom do banco de dados ou aplicativo de terceiros, como gênero, humor,
andamento, agrupamento situacional, artista, estilo, etc.
[0073] Em 612, o sistema pode determinar o conteúdo de vídeo para um vídeo de letra de música com base em uma ou todas as informações de sincronia, na análise e nas informações da letra de música e nas informações de tom. O conteúdo de vídeo selecionado automaticamente pelo sistema pode ser pelo menos parcialmente determinado pelas informações de tom. Por exemplo, se as informações de tom forem determinadas como animadas, felizes, em uma nota maior, etc., o sistema pode selecionar uma animação ou desenhos de um banco de animações temáticas que inclui visualizações felizes e animadas com cores vivas. Em outro exemplo, se as informações de tom forem determinadas como sendo melancólicas, lentas, em uma nota menor, etc, o sistema pode selecionar uma animação ou desenhos correspondentes que sejam mais tristes ou lentos, com cores mais escuras e opacas para combinar com o tom. Aquele versado na técnica poderá compreender que a combinação da paleta de cores, animação e imagens com base nas informações de tom pode ser feita de várias maneiras diferentes, com base em normas culturais ou padrões musicais e de vídeo. Em algumas modalidades, o conteúdo de vídeo também pode ser selecionado pelo menos parcialmente com base nas informações de sincronia da seleção de áudio. Por exemplo, as visualizações escolhidas e a sincronia das visualizações no conteúdo de vídeo podem ser baseadas na duração da palavra e na sincronia da letra da música. Em algumas modalidades, o sistema pode combinar um desenho ou imagem ao conteúdo de vídeo a ser exibido pela duração de uma determinada palavra na letra da música e que será removido ou substituído por outro desenho ou animação assim que a letra da música terminar. Em algumas modalidades, a seleção ou determinação do conteúdo de vídeo pode ser baseada, pelo menos parcialmente, na análise da letra de música. Por exemplo, o sistema pode determinar que a letra específica pode ser normalmente associada a determinadas visualizações ou animações, como por exemplo a palavra "amor" ser associada a corações ou flores ou outras associações. Em 614, o sistema pode renderizar o vídeo de letra de música ou partes do vídeo de letra de música com base no conteúdo do vídeo. Em algumas modalidades, o vídeo de letra de música pode ser um arquivo de vídeo incluindo áudio da seleção de áudio executada juntamente com o conteúdo de vídeo determinado pelo sistema. O conteúdo do vídeo pode incluir animações, desenhos, imagens e outras visualizações juntamente com as descrições visuais da letra de música da seleção de áudio. A letra pode ser exibida no vídeo de letra de música com a sincronia que combina a ocorrência dessa letra na reprodução da seleção de áudio. Em algumas modalidades, a representação visual da letra de música pode estar se movendo, variando fontes ou tamanhos dependendo da análise feita acima ou ter diferentes cores para se ajustar às informações de tom, análise da letra de música e informações de sincronia. Em algumas modalidades, no entanto, a própria letra pode não ser exibida no conteúdo do vídeo ou algumas vezes apenas certas partes da letra serão selecionadas para visualização. — Em algumas modalidades, os desenhos, animação ou outras visualizações do conteúdo de vídeo podem ser correlacionados com o momento da seleção de áudio, tal como para a batida, andamento, sincronia da letra de música, etc. Em algumas modalidades, o vídeo de letra de música pode ser processado de uma só vez e salvo como um arquivo de vídeo que pode ser reproduzido ou transferido para outro usuário ou dispositivo. Em algumas modalidades, o sistema pode renderizar o vídeo de letra de música em tempo real, estrofe por estrofe, verso por verso, frase por frase ou seção por seção da seleção de áudio. Em tais modalidades, a reprodução do vídeo de letra de música pode ser possível antes que o sistema termine de renderizar o conteúdo de vídeo para toda a seleção de áudio.
[0074] Em algumas modalidades, o sistema pode aplicar técnicas de aprendizado de máquina ou outras análises automáticas para determinar informações de sincronia, informações e análise de letra de música e informações de tom sem a necessidade de receber informações de fontes de terceiros. Por exemplo, em tal modalidade, o sistema pode receber uma seleção ou entrada de áudio, obter automaticamente letras de música, informações de sincronia, análise da letra de música e informações de tom usando bancos de dados de referência e técnicas de aprendizado de máquina. O sistema pode então selecionar o conteúdo de vídeo com base nas informações derivadas e renderizar o vídeo de letra de música em conformidade.
[0075] Aquele versado na técnica compreenderá que o sistema de geração de letra de música e o método para operar tal sistema de vídeo de letra de música descrito neste documento podem ser realizados em um único dispositivo de cliente, tal como o dispositivo de cliente 104 ou servidor 108 ou podem ser executados em uma variedade de dispositivos, cada dispositivo incluindo diferentes partes do sistema e executando diferentes partes do método. Por exemplo, em algumas modalidades, o dispositivo de cliente 104 ou servidor 108 pode executar a maioria das etapas ilustradas na FIG. 2, mas a síntese de voz pode ser realizada por outro dispositivo ou outro servidor. O seguinte inclui uma descrição de uma modalidade de um único dispositivo que poderia ser configurado para incluir o sistema de vídeo de letra de música descrito neste documento, mas deve ser compreendido que o dispositivo único poderia ser múltiplos dispositivos, alternativamente.
[0076] A FIG. 4 mostra uma modalidade do sistema 100 que pode ser implantada em qualquer uma de uma variedade de dispositivos 101-105 ou 108 da FIG. 1 ou em uma pluralidade de dispositivos que trabalham juntos, que podem ser, para fins ilustrativos, qualquer computador de múltiplos fins (101, 102), dispositivo de computação portátil (103-105) e/ou servidor (108). Para fins de ilustração, a FIG. 4 mostra o sistema 100 operando no dispositivo 104 da FIG. 1, mas aquele versado na técnica compreenderá que o sistema 100 pode ser implantado como um aplicativo instalado em um único dispositivo ou, alternativamente, em uma pluralidade de dispositivos que executam uma parte da operação do sistema. Alternativamente, o sistema pode ser operado dentro de um ambiente de navegador http, que pode opcionalmente utilizar o plug-in em tecnologia para expandir a funcionalidade do navegador para permitir a funcionalidade associada ao sistema 100. O dispositivo 104 pode incluir mais ou menos componentes do que aqueles mostrados na FIG. 4. No entanto, deve ser compreendido por aqueles versados na técnica que certos componentes não são necessários para operar o sistema 100, enquanto outros, tais como processador, monitor de vídeo e alto-falantes de áudio, são importantes para os aspectos da prática da presente invenção.
[0077] Como mostrado na FIG. 4, o dispositivo 104 inclui um processador 402, que pode ser uma CPU, em comunicação com uma memória de massa 404 através de um barramento 406. Como será compreendido por aqueles versados na técnica de posse do presente relatório descritivo, das figuras e reivindicações, o processador 402 também poderia compreender um ou mais processadores gerais, processadores de sinal digital, outros processadores especializados e/ou ASICs, sozinhos ou em combinação um com o outro. O dispositivo 104 também inclui uma fonte de alimentação 408, uma ou mais interfaces de rede 410, uma interface de áudio 412, um acionador do display 414, um controlador de entrada do usuário 416, um iluminador 418, uma interface de entrada/saída 420, uma interface tátil opcional 422 e um receptor de sistemas de posicionamento global (GPS) opcional 424. O dispositivo 104 também pode incluir uma câmera, permitindo que o vídeo seja captado e/ou associado a uma mensagem musical específica. O vídeo da câmera, ou outra fonte, também pode ser fornecido a uma rede social online e/ou uma comunidade de música online. O dispositivo 104 também pode opcionalmente se comunicar com uma estação base ou servidor 108 da FIG. 1 ou diretamente com outro dispositivo de computação. Outro dispositivo de computação, tal como a estação base ou servidor 108 da FIG. 1, pode incluir componentes relacionados a áudio adicionais, tais como um processador de áudio profissional, gerador, amplificador, alto-falante, conectores XLR e/ou fonte de alimentação.
[0078] Continuando com a FIG. 4, a fonte de alimentação 408 pode compreender uma bateria recarregável ou não recarregável ou pode ser fornecida por uma fonte de energia externa, tal como um adaptador de CA ou uma base de carregamento com bateria que também poderia complementar e/ou recarregar a bateria. A interface de rede 410 inclui circuitos para o dispositivo de acoplamento 104 a uma ou mais redes e é construída para uso com um ou mais protocolos de comunicação e tecnologias, incluindo, mas não limitado a, sistema global para comunicação móvel (GSM), acesso múltiplo por divisão de código (CDMA), acesso múltiplo por divisão de tempo (TDMA), user datagram protocol (protocolo UDP), protocolo de controle de transmissão/protocolo de internet (TCP/IP), SMS, serviços gerais de pacote por rádio (GPRS), WAP, banda ultra larga (UWB), interoperabilidade mundial para acesso de micro-ondas IEEE 802.16 (WiMax), SIP/RTP ou qualquer um dentre uma variedade de outros protocolos de comunicação sem fio. Consequentemente, a interface de rede 410 pode incluir um transceptor, um dispositivo de transceptor ou cartão de interface de rede (NIC).
[0079] A interface de áudio 412 (FIG. 4) é disposta para produzir e receber sinais de áudio como o som de uma voz humana. O acionador do display 414 (FIG. 4) é concebido para produzir sinais de vídeo para acionar vários tipos de visores. Por exemplo, o acionador do display 414 pode acionar um display de monitor de vídeo, que pode ser um visor com base em cristal líquido, plasma de gás ou diodo emissor de luz (LED) ou qualquer outro tipo de visor que pode ser usado com um dispositivo de computação. O acionador do display 414 pode alternativamente acionar uma tela sensível ao toque portátil, que também seria disposta para receber a entrada de um objeto, como uma caneta Stylus ou a digital de um usuário, através do controlador de entrada do usuário 416.
[0080] O dispositivo 104 também compreende a interface de entrada/saída 420 para comunicação com dispositivos externos, como um fone de ouvido, um alto- falante ou outros dispositivos de entrada ou saída. A interface de entrada/saída 420 pode utilizar uma ou mais tecnologias de comunicação, tais como USB, infravermelho, Bluetooth'Y ou similares. A interface tátil opcional 422 é disposta para fornece feedback tátil para um usuário do dispositivo 104. Por exemplo, em uma modalidade, como mostrado na FIG. 1, onde o dispositivo 104 é um dispositivo móvel ou portátil, a interface tátil opcional 422 pode ser empregada para vibrar o dispositivo de uma determinada forma, tal como, por exemplo, quando outro usuário de um dispositivo de computação está ligando.
[0081] O transceptor de GPS opcional 424 pode determinar as coordenadas físicas do dispositivo 101 na superfície da Terra, que normalmente emite um local, tal como valores de latitude e longitude. O transceptor de GPS 424 também pode empregar outros mecanismos de posicionamento, incluindo, mas não limitado a triangulação, GPS assistido (AGPS), E-OTD, CI, SAI, ETA, BSS ou similares, para determinar ainda mais a localização física do dispositivo 104 na superfície da Terra.
Em uma modalidade, no entanto, o dispositivo móvel pode, através de outros componentes, fornecer outras informações que podem ser empregadas para determinar um local físico do dispositivo, incluindo, por exemplo, um endereço MAC, endereço de |P ou similares.
[0082] — Como mostrado na FIG. 4, a memória de massa 404 inclui uma RAM 423, uma ROM 426 e outros meios de armazenamento. A memória de massa 404 ilustra um exemplo de mídia de armazenamento legível por computador para armazenamento de informações como instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados. A memória de massa 404 armazena um sistema básico de entrada/saída ("BIOS") 428 para controlar a operação de baixo nível do dispositivo 104. A memória de massa também armazena um sistema operacional 430 para controlar a operação do dispositivo 104. Será apreciado que este componente pode incluir um sistema operacional de uso geral, tal como uma versão de MAC OS, WINDOWS, UNIX, LINUX ou um sistema operacional especializado, tal como, por exemplo, software do sistema Xbox 360, Wii IOS, Windows MOobilEtM, iOS, Android, webOS, QNX ou os sistemas operacionais Symbian€O. O sistema operacional pode incluir ou fazer interface com um módulo de máquina virtual Java que permite o controle de componentes de hardware e/ou operações de sistema operacional através de programas de aplicativo Java. O sistema operacional também pode incluir um recipiente virtual seguro, também chamado de "sandbox", que permite a execução segura de aplicativos, por exemplo, Flash e Unity.
[0083] Um ou mais módulos de armazenamento de dados podem ser armazenados na memória 404 do dispositivo 104. Como seria entendido por aqueles versados na técnica com em posse do presente relatório descritivo, figuras e reivindicações, uma porção das informações armazenadas nos módulos de armazenamento de dados também pode ser armazenada em uma unidade de disco ou outro meio de armazenamento associado ao dispositivo 104. Esses módulos de armazenamento de dados podem armazenar várias gravações de faixa, arquivos MID], arquivos WAV, amostras de dados de áudio e uma variedade de outros dados e/ou formatos de dados ou dados de melodia inseridos em qualquer um dos formatos discutidos acima. Os módulos de armazenamento de dados também podem armazenar informações que descrevem várias capacidades do sistema 100, que podem ser enviadas para outros dispositivos, por exemplo, como parte de um cabeçalho durante uma comunicação, mediante solicitação ou em resposta a determinados eventos ou similares. Além disso, os módulos de armazenamento de dados também podem ser empregados para armazenar informações de rede social, incluindo catálogos de endereços, listas de amigos, pseudônimos, informações de perfil de usuário ou similares.
[0084] O dispositivo 104 pode armazenar e executar seletivamente um número de diferentes aplicativos, incluindo aplicativos para uso de acordo com o sistema 100. Por exemplo, o aplicativo para uso de acordo com o sistema 100 pode incluir um Módulo Conversor de Áudio, RSLL, MTAC, Módulo de Harmonizador, Módulo de Compartilhamento de Faixa, Módulo de Busca de Som, Módulo de Combinação de Gênero e Módulo de Combinação de Acorde. As funções destes aplicativos são descritas em mais detalhes na Patente US nº 8.779.268, que foi incorporada por referência acima.
[0085] Os aplicativos no dispositivo 104 também podem incluir envio de mensagens 434 e um navegador 436. O envio de mensagens 434 pode ser configurado para iniciar e gerenciar uma sessão de mensagens usando qualquer uma dentre uma variedade de comunicações de mensagens, incluindo, mas não limitado a e-mail, Serviço de Mensagens Curtas (SMS), Mensagem Instantânea (IM), Serviço de Mensagem Multimidia (MMS), internet relay chat (IRC), MirC, feeds RSS e/ou similares. Por exemplo, em uma modalidade, o envio de mensagens 434 pode ser configurado como um aplicativo de mensagens IM, como AOL Instant Messenger, Yahoo! Messenger, .NET Messenger Server, ICQ ou similares. Em outra modalidade, o envio de mensagens 434 pode ser um aplicativo de cliente configurado para integrar e empregar uma variedade de protocolos de mensagem. Em uma modalidade, o envio de mensagens 434 pode interagir com o navegador 436 para gerenciar mensagens. O navegador 436 pode incluir praticamente qualquer aplicativo configurado para receber e exibir gráficos, texto, multimídia e similares, empregando praticamente qualquer linguagem baseada na web. Em uma modalidade, o aplicativo de navegador é habilitado para empregar a linguagem de marcação de dispositivo portátil (HDML), linguagem de marcação sem fio (WML), WMLScript, Javascript, linguagem de marcação padrão generalizada (SMGL), linguagem de marcação de hipertexto (HTML), linguagem de marcação extensível (XML) e similares para exibir e enviar uma mensagem. No entanto, qualquer um dentre uma variedade de outras linguagens baseadas na Web, incluindo os plugins Python, Java e terceiros, pode ser empregado.
[0086] O dispositivo 104 também pode incluir outros aplicativos 438, tais como instruções executáveis por computador que, quando executadas pelo dispositivo de cliente 104, transmitem, recebem e/ou processam mensagens (por exemplo, SMS, MMS, IM, e-mail e/ou outras mensagens), áudio, vídeo e permitem telecomunicações com outro usuário de outro dispositivo de cliente. Outros exemplos de programas de aplicativo incluem calendários, programas de busca, clientes de e-mail, aplicativos IM, aplicativos SMS, aplicativos VoIP, gerentes de contatos, gerentes de tarefas, transcoders, programas de banco de dados, programas de processamento de palavras, aplicativos de segurança, programas de planilha, jogos, programas de busca e assim por diante. Cada um dos aplicativos descritos acima pode ser incorporado Ou, alternadamente, baixado e executado no dispositivo 104.
[0087] Obviamente, embora os vários aplicativos discutidos acima sejam mostrados como sendo implementados no dispositivo 104, em modalidades alternativas, uma ou mais porções de cada um desses aplicativos podem ser implementados em um ou mais dispositivos ou servidores remotos, em que entradas e saídas de cada porção são passadas entre o dispositivo 104 e um ou mais dispositivos ou servidores remotos sobre uma ou mais redes. Alternativamente, um ou mais dos aplicativos podem ser dispostos para execução em ou baixados a partir de um dispositivo periférico.
[0088] A descrição anterior e as figuras meramente explicam e ilustram a invenção e a invenção não está limitada às mesmas. Embora o relatório descritivo seja descrito em relação a certas implementações ou modalidades, muitos detalhes são estabelecidos com a finalidade de ilustração.
Assim, o que foi exposto anteriormente ilustra os princípios da invenção.
Por exemplo, a invenção pode ter outras formas específicas sem se afastar de seu espírito ou característica essencial.
Os arranjos descritos são ilustrativos e não restritivos.
Para aqueles versados na técnica, a invenção é suscetível a implementações ou modalidades adicionais e alguns desses detalhes descritos neste pedido podem variar consideravelmente sem se afastar dos princípios básicos da invenção.
Será assim apreciado que aqueles versados na técnica serão capazes de conceber vários arranjos que, embora não explicitamente descritos ou mostrados neste documento, incorporam os princípios da invenção e, assim, estão dentro de seu escopo e espírito.

Claims (20)

REIVINDICAÇÕES
1. Método implementado por computador para gerar automaticamente vídeos de letras de música, o método caracterizado pelo fato de que compreende: receber uma seleção de áudio; determinar, através de um ou mais processadores, informações de sincronia da seleção de áudio; determinar, por meio de um ou mais processadores, informações de letra de música da seleção de áudio; receber informações de tom da seleção de áudio; gerar, por meio de um ou mais processadores, conteúdo de vídeo com base em pelo menos uma das informações de sincronia, das informações de letra de música e das informações de tom da seleção de áudio; e renderizar, por meio de um ou mais processadores, um vídeo de letra de música com base no conteúdo do vídeo e na seleção de áudio.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de compreender ainda a transmissão de uma solicitação a um banco de dados de terceiros, em que a solicitação inclui uma identificação de música da seleção de áudio, e em que o recebimento das informações de tom da seleção de áudio inclui o recebimento das informações de tom a partir do banco de dados de terceiros com base na solicitação.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de compreender ainda o recebimento das informações de tom a partir de um banco de dados de terceiros.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de compreender ainda a transmissão do vídeo de letra de música para um dispositivo de usuário através de uma rede de comunicação digital.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de compreender ainda a geração de uma melodia MIDI com base, pelo menos parcialmente, nas informações de sincronia da seleção de áudio.
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que as informações de tom incluem pelo menos um dentre um gênero, um andamento, um humor, um artista ou um estilo correspondente à seleção de áudio.
7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a geração do conteúdo de vídeo inclui selecionar automaticamente pelo menos uma dentre uma animação, um gráfico ou uma visualização com base em pelo menos uma das informações de tom, informações de letra de música ou informações de sincronia.
8. Método, de acordo com a reivindicação 1, caracterizado pelo fato de compreender ainda a realização de uma análise de letra de música das informações de letra de música para determinar pelo menos uma palavra-chave nas informações de letra de música.
9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que a geração de conteúdo de vídeo inclui selecionar automaticamente pelo menos uma dentre uma animação, um gráfico ou uma visualização pelo menos parcialmente com base na análise da letra de música.
10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de compreender ainda a determinação, por um ou mais processadores, uma paleta de cores para pelo menos uma porção do vídeo de letra de música com base nas informações de tom.
11. Método implementado por computador para gerar automaticamente vídeos de letras de música, o método caracterizado pelo fato de que compreende: receber, através de uma rede de comunicação digital, uma seleção de áudio; determinar, através de um ou mais processadores, informações de sincronia da seleção de áudio; solicitar, através da rede de comunicação digital, informações de letra de música da seleção de áudio de um banco de dados de letra de música; receber, através da rede de comunicação digital, as informações de letra de música da seleção de áudio do banco de dados de letra de música com base na solicitação; solicitar, através da rede de comunicação digital, informações de tom da seleção de áudio de um banco de dados de tons; receber, por meio da rede de comunicação digital, as informações de tom da seleção de áudio a partir do banco de dados de tons com base na solicitação, as informações de tom, incluindo pelo menos um de um gênero, um andamento, um humor, um artista ou um estilo correspondente à seleção de áudio; gerar, por meio de um ou mais processadores, conteúdo de vídeo com base em pelo menos uma das informações de sincronia, das informações de letra de música e das informações de tom da seleção de áudio; e renderizar, por meio de um ou mais processadores, um vídeo de letra de música com base no conteúdo de vídeo e na seleção de áudio.
12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que solicitar as informações de tom da seleção de áudio a partir do banco de dados de tons inclui transmitir uma identificação de música a um terceiro.
13. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que, adicionalmente, as informações de sincronia da seleção de áudio são determinadas a partir de partituras digitais.
14. Método, de acordo com a reivindicação 11, caracterizado pelo fato de compreender , adicionalmente, a geração de uma melodia MIDI com base, pelo menos parcialmente, nas informações de sincronia da seleção de áudio.
15. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que a geração do conteúdo de vídeo inclui selecionar automaticamente pelo menos uma dentre uma animação, um gráfico ou uma visualização com base em pelo menos uma das informações de tom, informações de letra de música ou informações de sincronia.
16. Método, de acordo com a reivindicação 11, caracterizado pelo fato de compreender, adicionalmente, a realização de uma análise de letra de música das informações de letra de música para determinar pelo menos uma palavra-chave nas informações de letra de música.
17. Método, de acordo com a reivindicação 16, caracterizado pelo fato de que a geração de conteúdo de vídeo inclui selecionar automaticamente pelo menos uma dentre uma animação, um gráfico ou uma visualização pelo menos parcialmente com base na análise da letra de música.
18. Método, de acordo com a reivindicação 11, caracterizado pelo fato de compreender ainda a determinação, por um ou mais processadores, de uma paleta de cores para pelo menos uma porção do vídeo de letra de música com base nas informações de tom.
19. Método implementado por computador para gerar automaticamente vídeos de letras de música, o método caracterizado pelo fato de que compreende: receber, através de uma rede de comunicação digital, uma seleção de áudio de um dispositivo do usuário; determinar, através de um ou mais processadores, informações de sincronia da seleção de áudio; determinar, por meio de um ou mais processadores, informações de letra de música da seleção de áudio; realizar, por meio de um ou mais processadores, uma análise de letra de música das informações de letra de música; solicitar, através da rede de comunicação digital, informações de tom da seleção de áudio a partir de um banco de dados de terceiros; receber, através da rede de comunicação digital, as informações de tom da seleção de áudio a partir do banco de dados de terceiros com base na solicitação, as informações de tom incluindo pelo menos um de um gênero, um andamento, um humor, um artista ou um estilo correspondente à seleção de áudio; gerar, por meio dos um ou mais processadores, conteúdo de vídeo com base em pelo menos um dentre as informações de sincronia, análise de letra de música e informações de tom da seleção de áudio; renderizar, por meio de um ou mais processadores, pelo menos uma parte de um vídeo de letra de música com base no conteúdo de vídeo e na seleção de áudio; e transmitir, através da rede de comunicação digital, a pelo menos parte do vídeo de letra de música para o dispositivo do usuário para reprodução.
20. Método, de acordo com a reivindicação 19, caracterizado pelo fato de que a geração do conteúdo de vídeo inclui selecionar automaticamente pelo menos uma dentre uma animação, um gráfico ou uma visualização com base em pelo menos uma das informações de tom, informações de letra de música ou informações de sincronia.
BR112019027726-9A 2017-06-26 2018-06-22 sistema e método para geração automática de mídia BR112019027726A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762524838P 2017-06-26 2017-06-26
US62/524,838 2017-06-26
US15/986,589 US20180268792A1 (en) 2014-08-22 2018-05-22 System and method for automatically generating musical output
US15/986,589 2018-05-22
PCT/US2018/039093 WO2019005625A1 (en) 2017-06-26 2018-06-22 SYSTEM AND METHOD FOR AUTOMATICALLY GENERATING MEDIA

Publications (1)

Publication Number Publication Date
BR112019027726A2 true BR112019027726A2 (pt) 2020-08-18

Family

ID=64742625

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112019027726-9A BR112019027726A2 (pt) 2017-06-26 2018-06-22 sistema e método para geração automática de mídia

Country Status (5)

Country Link
EP (1) EP3646315A4 (pt)
CN (1) CN111316350A (pt)
BR (1) BR112019027726A2 (pt)
CA (1) CA3067097A1 (pt)
WO (1) WO2019005625A1 (pt)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600034B (zh) * 2019-09-12 2021-12-03 广州酷狗计算机科技有限公司 歌声生成方法、装置、设备及存储介质
CN111768755A (zh) * 2020-06-24 2020-10-13 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质
CN112184861B (zh) * 2020-12-01 2021-07-30 成都极米科技股份有限公司 歌词编辑、显示方法、装置及存储介质
CN113709548B (zh) * 2021-08-09 2023-08-25 北京达佳互联信息技术有限公司 基于图像的多媒体数据合成方法、装置、设备及存储介质
CN117956247B (zh) * 2023-12-27 2024-08-27 北京信息科技大学 一种音乐驱动的视频自动生成方法、系统、设备及介质
CN117932110A (zh) * 2024-03-20 2024-04-26 深圳市海勤科技有限公司 一种歌词自动处理方法、计算机设备和蓝牙音响

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3239897B1 (ja) * 2001-03-14 2001-12-17 ヤマハ株式会社 作詞作曲装置及びプログラム
JP4159961B2 (ja) * 2003-09-30 2008-10-01 ヤマハ株式会社 カラオケ装置
US8996538B1 (en) * 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
AU2014204540B1 (en) * 2014-07-21 2015-08-20 Matthew Brown Audio Signal Processing Methods and Systems

Also Published As

Publication number Publication date
CA3067097A1 (en) 2019-01-03
CN111316350A (zh) 2020-06-19
EP3646315A4 (en) 2021-07-21
WO2019005625A1 (en) 2019-01-03
EP3646315A1 (en) 2020-05-06

Similar Documents

Publication Publication Date Title
US20180374461A1 (en) System and method for automatically generating media
US10529310B2 (en) System and method for automatically converting textual messages to musical compositions
US20190147838A1 (en) Systems and methods for generating animated multimedia compositions
US20180268792A1 (en) System and method for automatically generating musical output
BR112019027726A2 (pt) sistema e método para geração automática de mídia
US12046225B2 (en) Audio synthesizing method, storage medium and computer equipment
CN106652997B (zh) 一种音频合成的方法及终端
CN105917404B (zh) 用于实现数字个人助理的方法、设备和系统
CN107516511A (zh) 意图识别和情绪的文本到语音学习系统
JP2018537727A5 (pt)
CA2764042C (en) System and method of receiving, analyzing, and editing audio to create musical compositions
WO2018217790A1 (en) System and method for automatically generating musical output
CN110491365A (zh) 为纯文本文档生成音频
US20140046667A1 (en) System for creating musical content using a client terminal
US20150279347A1 (en) Text-to-Speech for Digital Literature
EP2737474A1 (en) System and method for providing audio for a requested note using a render cache
CA2929213A1 (en) System and method for enhancing audio, conforming an audio input to a musical key, and creating harmonizing tracks for an audio input
CA2843437A1 (en) System and method for producing a more harmonious musical accompaniment and for applying a chain of effects to a musical composition
CA2941921A1 (en) Method of providing a user with feedback on performance of a karaoke song
WO2020010329A1 (en) Systems and methods for generating animated multimedia compositions
US20240303888A1 (en) Systems and methods for generating content containing automatically synchronized video, audio, and text
CN112669849A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN118762712A (zh) 剧场音频作品的生成方法、装置、设备、介质和程序产品
KR20240033535A (ko) 대화 맥락에 어울리는 음원을 생성하여 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
TW202309875A (zh) 透過歌聲轉換設計個人化虛擬歌手的方法及裝置

Legal Events

Date Code Title Description
B25G Requested change of headquarter approved

Owner name: ZYA, INC. (US)

B11A Dismissal acc. art.33 of ipl - examination not requested within 36 months of filing
B350 Update of information on the portal [chapter 15.35 patent gazette]
B11Y Definitive dismissal - extension of time limit for request of examination expired [chapter 11.1.1 patent gazette]