BR102022009538A2

BR102022009538A2 - Método para identificar e transformar a voz de um personagem com a voz de um usuário

Info

Publication number: BR102022009538A2
Application number: BR102022009538-8A
Authority: BR
Inventors: Rodrigo Oliveira; Luis Uebel
Original assignee: Samsung Eletrônica da Amazônia Ltda.; Sidia Instituto De Ciência E Tecnologia
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-11-28

Abstract

A presente invenção descreve um método para identificar, de forma automática, a voz de um ou mais personagens com base no áudio de um reprodutor de mídia e, após a identificação, transformar a voz dos um ou mais personagens com a voz de um ou mais usuários previamente armazenada em uma memória.

Description

Campo técnico

[001] A presente invenção descreve um método para identificação de voz de personagem de um programa, detecção de voz ativa, técnicas adaptativas de redução de ruído e transformação de voz. Mais especificamente, a presente invenção descreve um método para realizar a identificação de um personagem de um programa com base no áudio do programa sendo exibido em um dispositivo reprodutor de mídia e transformar a voz do personagem na voz de um usuário previamente armazenada.

Antecedentes da invenção

[002] O uso de tecnologias híbridas da ciência da voz, como conceitos de identificação de personagens falando e transformação de voz ajudaram a desenvolver diversos recursos para o campo do entretenimento doméstico. Como exemplo, um algoritmo de transformação de voz permite mascarar a identidade da voz de um assinante de telefone usando uma voz virtual. Além disso, esta técnica permite modificar características prosódicas de um sinal de fala de um personagem e torná-las semelhantes às características de um personagem diferente. Com isso, também é possível mudar a voz de um personagem para a voz de outro personagem.

[003] Ao usar essa tecnologia, é possível desenvolver uma transformação de voz em tempo real para ser usada em um reprodutor de mídia. Para isso, é necessário identificar os personagens falando no programa (vozes de atores de filmes, novelas, séries etc.) em tempo real, a fim de transformar a voz de acordo com as necessidades do usuário. Este método permite gravar as características de voz de vários usuários para "substituir" a voz dos personagens usando as vozes dos ditos usuários. O método pode detectar os personagens com base na técnica de identificação do personagem falando e, depois disso, transformar a voz do personagem pela voz dos usuários do reprodutor de mídia. Assim, personagens e usuários de reprodutores de mídia precisam treinar seus próprios modelos de referência para serem usados neste método. Normalmente, os sistemas de transformação de voz geram modelos treinados (arquivos) com propriedades de voz necessárias para o recurso de transformação de voz. Este processo é feito apenas uma vez e o modelo gerado pode ser utilizado para todos os filmes que os personagens participarem, o mesmo para usuários de reprodutores de mídia.

[004] Nesse sentido, o estado da técnica apresenta algumas soluções que utilizam os métodos acima mencionados.

[005] O documento WO2016/037440, intitulado “VIDEO VOICE CONVERSION METHOD AND DEVICE AND SERVER”, publicado em 17 de março de 2016, propõe um método para reduzir o custo de tradução usando um aparelho multimídia de voz para voz. No entanto, tal documento não trabalha com ruído, música e múltiplas pessoas simultâneas onde um usuário pode selecionar um determinado ator ou atriz em um filme e selecionar partes do áudio para não serem convertidas.

[006] O documento KR101666930, intitulado “TARGET SPEAKER ADAPTIVE VOICE CONVERSION METHOD USING DEEP LEARNING MODEL AND VOICE CONVERSION DEVICE IMPLEMENTING THE SAME“, publicado em 24 de outubro de 2016, descreve um método para converter uma voz usando uma rede neural profunda. No entanto, esse documento não descreve sobre como identificar a voz de um ator e convertê-la automaticamente para uma voz alvo de uma voz previamente treinada com a voz do usuário.

[007] O documento US8949123, intitulado “DISPLAY APPARATUS AND VOICE CONVERSION METHOD THEREOF, publicado em 11 de outubro de 2012, descreve um método para sincronizar a voz com o movimento dos lábios. No entanto, muitos filmes, séries e eventos não mostram claramente o movimento dos lábios ao mesmo tempo em que a pessoa está falando. Em oposição, a presente invenção é baseada na detecção ativa de voz para classificar o tipo de áudio (voz, ruído ou música) e separar a voz do ruído para melhor convertê-la. Se for detectado um som que não é voz, não é necessário fazer nada, pois a transformação de voz funcionará apenas em partes de áudio com voz. O filtro de ruído adaptativo separa o sinal em muitos fluxos para conversão de voz para substituir melhor a voz de um personagem.

[008] O documento US2019043472, intitulado “AUTOMATIC SPEECH IMITATION”, publicado em 7 de fevereiro de 2019, descreve métodos e dispositivos para imitação automática de fala. A Figura 1 desse documento ilustra um sistema de imitação de fala que inclui uma plataforma computadorizada que pode ser, por exemplo, um reprodutor de mídia. O sistema fornece um uso geral eficaz de padrões de fala complexos e únicos e/ou de comportamentos de fala em contexto envolvendo, por exemplo, variação de padrão de fala (por exemplo, gaguejar, repetição de palavra, pausas dramáticas, inflexões exageradas, fala em terceira pessoa, etc.), fraseologia (por exemplo, ditados culturais, regionais, familiares e/ou específicos de caracteres, terminologia, expressões etc.), ajuste de fala (por exemplo, efeitos sonoros, preenchimentos, mistura de vários idiomas, etc.), gatilhos (por exemplo, ambiente, emoção, etc.) e assim por diante. No entanto, em nenhum momento esse documento ensina como realizar detecção de voz ativa para classificar o tipo de áudio e separar voz de ruído.

[009] O documento US10930263, intitulado “AUTOMATIC VOICE DUBBING FOR MEDIA CONTENT LOCALIZATION”, publicado em 23 de fevereiro de 2021, descreve técnicas para replicar características da voz de um personagem falando em diferentes línguas. Dessa forma, essas técnicas permitem a geração automática de dublagem, para conteúdo de vídeo em diversas línguas, com cada personagem tendo as mesmas características na voz que na versão original do conteúdo de vídeo. No entanto, esse documento não ensina como os usuários podem selecionar um ou mais personagens que desejam trocar a voz em uma reprodução de mídia e também não ensina como realizar detecção de voz ativa para classificar o tipo de áudio e separar voz de ruído.

[0010] O documento US2018342256A1, intitulado “SYSTEM AND METHOD FOR VOICE-TO-VOICE CONVERSION”, publicado em 29 de novembro de 2018, descreve um sistema que permite conversão de voz em tempo real ou quase real de uma voz fonte para uma voz alvo. Para atingir esse objetivo, o sistema compreende um extrator de característica de voz que recebe amostras de fala a partir de uma pluralidade de vozes e extrai componentes de frequência associados a cada som feito por cada voz. O sistema compreende aprendizado de máquina, configurado para comparar a voz alvo com outras vozes e refinar os componentes de frequência sintéticos para imitar a voz de forma ótima. Consequentemente, os usuários do sistema podem inserir segmentos de fala, selecionar a voz alvo e transformar o segmento de fala na voz alvo. No entanto, em nenhum momento esse documento ensina como realizar detecção de voz ativa para classificar o tipo de áudio e separar voz de ruído.

[0011] Portanto, um problema da técnica anterior consiste no fato de que ela não descreve soluções que mantêm a interpretação do personagem quando da transformação da voz pela voz do usuário.

[0012] Outro problema da técnica anterior consiste no fato de que ela não permite a transformação da voz de diversos personagens de um programa pela voz de diversos usuários.

Sumário

[0013] Um objetivo da presente invenção consiste em prover um método que supere os problemas da técnica anterior.

[0014] Este objetivo é alcançado por meio de um método para identificar, de forma automática, as vozes de um ou mais indivíduos falantes com base no áudio de um reprodutor de mídia e, após a identificação, trocar a voz dos ditos um ou mais indivíduos falantes pela voz de um ou mais usuários previamente armazenada em uma memória, compreendendo: a) um processo de gravação de voz de usuário, compreendendo as seguintes etapas: - gravar com um aplicativo de transformação de voz de um aparelho reprodutor de mídia, a voz de um usuário para extrair características da sua voz, em que técnicas de aprendizado de máquina e redes neurais são utilizadas para gerar um modelo de voz de usuário treinado com as características da voz do usuário; - verificar se a extração das características da voz do usuário foi realizada com sucesso; - caso a extração tenha sido realizada com sucesso, armazenar as características da voz do usuário em um modelo de voz de usuário; e - verificar se há voz de usuário adicional a ser gravada e armazenada; b) um processo de seleção e indexação de voz de usuário e de voz de personagem, compreendendo a seguintes etapas: - exibir, no aplicativo do aparelho reprodutor de mídia, uma lista de personagens disponíveis em um programa sendo exibido no dispositivo reprodutor de mídia e uma lista com modelos de voz de usuários que podem ter a voz trocada com a voz dos personagens; e - selecionar e associar, a partir da lista de personagens e da lista com modelos de voz de usuários, um personagem e um modelo de voz de usuário que terão as vozes trocadas; e c) um processo de transformação de voz, compreendendo as seguintes etapas: - realizar um método de detecção de voz ativa para encontrar voz humana em um áudio sendo reproduzido em um dispositivo reprodutor de mídia; - detectar personagens falando no áudio; - verificar se as vozes do personagens foram detectadas; e - trocar as vozes dos personagens com as vozes dos usuários.

[0015] Convenientemente, as etapas de gravar, com um aplicativo de transformação de voz de um aparelho reprodutor de mídia, a voz de um usuário para extrair característica de sua voz, verificar se a extração das características da voz do usuário foi realizada com sucesso, e caso a extração tenha sido realizada com sucesso, armazenar as características da voz do usuário em um modelo de voz de usuário compreende adicionalmente um subprocesso para extrair e armazenar as características da voz do usuário em um modelo de voz de usuário, compreendendo as seguintes etapas: - obter uma amostra da voz do usuário a partir de uma fonte de voz predefinida; - validar a amostra da voz do usuário; - verificar se a amostra da voz do usuário foi validada; - simultaneamente: parametrizar os dados da amostra da voz do usuário; extrair as características numéricas, prosódia e vícios de linguagem da voz na amostra; e converter em transcrição fonética as amostras da voz do usuário; - calcular os parâmetros da arquitetura de aprendizado de máquina; e - gerar um modelo de voz de usuário treinado.

[0016] A etapa de realizar um método de detecção de voz ativa para encontrar voz humana em um áudio sendo reproduzido em um dispositivo reprodutor de mídia do presente pedido, compreende ainda as seguintes etapas: - receber o fluxo de áudio sendo reproduzido no dispositivo reprodutor de mídia; - parametrizar o fluxo de áudio para remover redundância e informações de voz desnecessárias; - classificar voz humana, silêncio, ruído puro e alguém cantando no fluxo de áudio parametrizado; e - detectar porções com presença de voz humana no fluxo de áudio parametrizado.

[0017] Além disso, a etapa de detectar personagens falando no áudio e verificar se as vozes dos personagens falando foram detectadas do método da presente invenção, compreende adicionalmente: - detectar voz humana; - parametrizar a voz humana detectada; - identificar um personagem falando com base na voz humana parametrizada; e - segmentar um segmento de voz que foi identificado como sendo de determinado personagem falando.

[0018] A etapa de trocar as vozes dos personagens falando com as vozes dos usuários do método da presente invenção compreende adicionalmente: - receber o segmento de voz; - parametrizar o segmento de voz; - separar ruído de voz humana; - transformar a voz do personagem falando na voz do usuário; - adicionar o ruído à voz transformada; e - liberar o áudio.

[0019] Uma vantagem do método de acordo com a presente invenção consiste em transformar a voz do personagem falando com a voz de usuário mantendo a interpretação do personagem.

[0020] Uma vantagem adicional do método de acordo com a presente invenção compreende permitir a transformação da voz de múltiplos personagens por voz de usuários.

Breve descrição dos desenhos

[0021] Os objetivos e vantagens da presente invenção irão se tornar mais claros através da seguinte descrição detalhada dos exemplos e desenhos não-limitativos apresentados no final deste documento:

[0022] A Figura 1 apresenta fluxogramas usados para treinar o modelo de voz de usuário, associar usuário e personagem e transformar voz de acordo com a presente invenção.

[0023] A Figura 2 apresenta um fluxograma que descreve o método usado para extrair as características de voz da fonte de áudio de acordo com a presente invenção.

[0024] A Figura 3 apresenta um fluxograma que descreve o método utilizado para realizar o método de detecção de voz ativa de acordo com a presente invenção.

[0025] A Figura 4 apresenta um fluxograma que descreve o método utilizado para realizar a identificação do personagem de acordo com a presente invenção.

[0026] A Figura 5 apresenta um fluxograma que descreve o método usado para transformar a voz do personagem com a voz do usuário de acordo com a presente invenção.

[0027] A Figura 6 apresenta um exemplo de usuário gravando voz para gerar modelo de troca de voz usando um controle remoto de acordo com a presente invenção.

[0028] A Figura 7 apresenta um exemplo de usuário gravando voz para gerar modelo de troca de voz usando um dispositivo móvel de acordo com a presente invenção.

[0029] A Figura 8 apresenta aplicação residente indexando cada usuário com algum personagem específico para realizar transformação de voz de acordo com a presente invenção.

[0030] A Figura 9 apresenta alguns exemplos de casos de uso com personagens atuando com vozes de usuários de acordo com a presente invenção.

Descrição detalhada

[0031] Embora a presente invenção possa ser suscetível a diferentes concretizações, é mostrado na seguinte discussão detalhada uma concretização preferida com o entendimento de que a presente descrição deve ser considerada uma exemplificação dos princípios da invenção e não pretende limitar a presente invenção ao que foi ilustrado e descrito aqui.

[0032] A presente invenção descreve um método para realizar a identificação, de forma automática, de um ou mais personagens (por exemplo, atores de filmes ou desenhos) de um programa (por exemplo, filme ou desenho) com base no áudio programa sendo exibido em um dispositivo reprodutor de mídia (por exemplo, TV, celular, etc.) e, após a dita identificação, transformar a voz do personagem pela voz de um usuário previamente armazenada em um banco de dados.

[0033] Existem vários métodos para realizar essas tarefas. Entre eles podem ser utilizados diversos tipos de redes neurais profundas (FFNNs - Feed Forward Neural Networks, RNNs - Recurrent Neural Networks, CNN - Convolution Neural Networks, LSTM - Long Short-Term Memory, GAN - Generative Adversarial Networks, e outros tipos de redes de redes neurais) e outras técnicas de aprendizado de máquina como, mas não se limitando a HMMs - Hidden Markov Models, Gaussian Process, baseado em probabilidade Bayesiana. As técnicas de aprendizado de máquina citadas podem ser usadas com para selecionar, otimizar e treinar os parâmetros das redes neurais, para melhorar a classificação, regressão e clustering.

[0034] O método proposto na presente invenção pode detectar qual é o tipo de áudio transmitido, gravado ou gerado. O áudio de entrada pode ser entregue por transmissão aérea (MPEG-TS), transmissão de dados (2G - segunda geração, 3G - terceira geração, 4G - quarta geração, 5G - quinta geração, 6G - sexta geração, Internet, Wi-Fi, Bluetooth, fibra óptica, feixes de laser, microondas, Zibgee, mas não limitado a essas tecnologias de áudio, transmissão de vídeo, sinalização e controle) ou transmissão de rede (RTP, RTSP, streaming A/V, WEBRTC, etc.).

[0035] Após a separação do áudio de quaisquer outras partes do vídeo, o dito áudio é classificado na seguinte classe: sinal de voz puro (produzido por humanos em qualquer idioma falado); ruído puro (carros, aviões, máquinas pesadas, ruído branco, ruído colorido, etc.); música produzida por qualquer tipo de instrumento musical; música com voz; voz com conversa de bolha (“bubble talk”), em que muitas vozes indistinguíveis são faladas ao fundo; voz com barulho de coquetel (“cocktail party noise”), em que é possível ouvir as pessoas falando. Esse método que produz essa separação é chamado de detecção de voz ativa. Na presente invenção, uma classificação extra melhora a substituição das vozes dos personagens pelas vozes dos usuários.

[0036] A identificação do personagem falando classifica a voz de interesse de um determinado personagem que o usuário deseja substituir. O método de identificação de personagem falando usa redes neurais e/ou técnicas de aprendizado de máquina anteriormente descritas para identificar corretamente se há vozes de interesse no áudio. Se houver uma voz de interesse, essa voz será substituída pela voz do usuário. Se houver várias vozes, simultâneas ou não, apenas as vozes de interesse serão substituídas pelas vozes de usuários. Além disso, é possível uma ou todas as vozes de interesse sejam substituídas por uma única voz de usuário. O usuário pode adicionar alterações apenas para vozes de interesse específicas ou múltiplas. As vozes de usuários, que substituem as vozes de personagens, podem ter entonações distintas, sotaques, gírias, jargões, palavras de parada, palavras sociais e outros complementos linguísticos. As características distintivas podem ser extraídas da voz do usuário, tal como idioma, sotaque, dialeto e características linguísticas ou podem ser pré- configuradas a partir de um armazenamento em um banco de dados com essas características particulares. O método pode misturar a voz do usuário, idioma, sotaque, dialeto e características linguísticas com características predefinidas de um banco de dados anterior. A mistura entre usuário e outras características pode ser feita no aplicativo do dispositivo do usuário ou em um ambiente de nuvem. O método de acordo com a presente invenção pode separar o ruído de qualquer voz de personagem usando as redes neurais e as técnicas de aprendizado de máquina descritas anteriormente.

[0037] Nesse sentido, a Figura 1 ilustra um fluxograma com as etapas do método de acordo com a presente invenção, o dito método sendo dividido em três processos que podem ser executados sequencialmente ou em momentos diferentes: I) processo de gravação de voz de usuário; II) processo de seleção e indexação de voz de usuário e de voz de personagem; e III) processo de transformação de voz.

[0038] O processo de gravação de voz de usuário inicia na etapa 100, em que o usuário ativa o recurso de gravação no menu de um aplicativo de dispositivo de reprodução de mídia.

[0039] Após a etapa 100, na etapa 101 o aplicativo mostra uma fonte de voz predefinida (sequência de frases a serem repetidas pelo usuário para extrair características de voz e/ou qualquer sequência definida pelo usuário ou um áudio pré-gravado do usuário ou mesmo de áudio de uma voz alvo) que o usuário deve falar para extrair características da voz do usuário (tom, frequência fundamental da voz, timbre, velocidade da fala, gírias, expressões locais, sotaque, vícios de linguagem - uso inadequado de vocabulário, cacofonia - consistindo na repetição de sons ou sílabas em palavras próximas causando um efeito sonoro desagradável, solecismo - erro sintático evidente na estrutura da frase em relação à concordância, pleonasmo - adição de palavras que não são necessárias em uma frase, neologismo - usar palavras de outras línguas de forma excessiva ou desnecessária, vulgarismo - expressão fonética ou sintática utilizada no lugar da palavra correta e que não é considerada parte da chamada linguagem culta, e outros vícios de linguagem).

[0040] Após a etapa 101, a etapa 102 verifica se a extração das características da voz do usuário foi finalizada com sucesso. Caso não tenha sido finalizada com sucesso, a etapa 101 é realizada novamente. Caso tenha sido finalizada com sucesso, o processo avança para a etapa 103.

[0041] Na etapa 103, as características da voz do usuário são armazenadas em um modelo de voz de usuário (o modelo pode ser armazenado, por exemplo, em memória interna do dispositivo reprodutor de mídia, local de armazenamento em nuvem, etc.).

[0042] Após a etapa 103, há uma etapa de 104 em que o método verifica se existe outro usuário para extrair características de voz. Se nenhum outro usuário desejar extrair características de voz, o processo de gravação é concluído. Caso contrário, se houver outro usuário para extrair características de voz, o processo retorna para a etapa 101 e é repetido até que não haja mais usuários adicionais.

[0043] A Figura 2 apresenta um fluxograma que ilustra um subprocesso realizado durante as etapas 101, 102 e 103, utilizado para extrair e armazenar as características da voz do usuário em um modelo de voz de usuário. Inicialmente, a primeira etapa 200 consiste em obter uma amostra da voz do usuário a partir de uma fonte de voz pré- definida que o usuário deve falar. Após isso, esse áudio deve ser validado na etapa 201, a dita validação consistindo em verificar se a amostra da voz do usuário está correta (por exemplo, taxa de amostragem correta, número correto de bits, formato de arquivo correto, verificar se não há presenças de vozes de usuários diferentes, ninguém está cantando, frases sendo leitura de forma correta, com baixo nível de ruído, etc.). Caso a amostra do usuário não esteja correta, o subprocesso retorna para a etapa 200, e caso a amostra esteja correta o subprocesso prossegue para etapa 202. Na etapa 202, é verificado se todas as amostras da voz do usuário foram validadas. Se algumas amostras de voz não foram validadas, o subprocesso retorna para a etapa 200. Caso contrário, se todas as amostras de voz foram validadas, o subprocesso prossegue para as etapas 203, 204 e 205, que ocorrem simultaneamente. Na etapa 203, os dados são parametrizados para remover redundância e informações das amostras desnecessárias. A parametrização pode ser realizada através de diferentes métodos (por exemplo, LPC, PLP, MFCC, etc.) usando parâmetros estáticos e de regressão. Na etapa 204, as características numéricas da voz na amostra (tom, frequência fundamental da voz, timbre, velocidade da fala, etc.), prosódia e vícios de linguagem das características da voz (gírias, expressões locais, sotaque, cacofonia, solecismo, pleonasmo, neologismo, vulgarismo e outros vícios de linguagem) são extraídas. A saída dessa etapa são vetores com números relacionados com as características numéricas da voz comentadas acima e palavras ou expressões relacionadas com vícios de linguagem e prosódia. Na etapa 205, as amostras de voz de usuário validadas são convertidas em transcrição fonética, a transcrição fonética é um sistema de transcrição de fonemas (é qualquer som de fala distinto) que ocorrem em uma língua. A saída desta etapa é a representação fonética. Após as etapas 203, 204 e 205, a etapa 206 é realizada. A etapa 206 calcula e/ou estima os parâmetros da arquitetura de aprendizado de máquina. Para isso, técnicas simples ou múltiplas podem ser utilizadas para calcular e/ou estimar usando diferentes abordagens. Dentre elas, mas não se limitando às técnicas descritas nesta proposta, podem ser utilizados diversos tipos de redes neurais profundas (FFNNs - Feed Forward Neural Networks, RNNs - Recurrent Neural Networks, CNN - Convolution Neural Networks, LSTM - Long Short-Term Memory, GAN - Generative Adversarial Networks, e outros tipos de redes neurais), outras técnicas de aprendizado de máquina como, mas não se limitando a, HMMs - Hidden Markov Models, Gaussian Process, baseado em probabilidade Bayesiana. As técnicas de aprendizado de máquina citadas são usadas para selecionar, otimizar e treinar os parâmetros das redes neurais, para melhorar a classificação, regressão e clustering. No final desse subprocesso, o sistema gera um modelo de voz de usuário treinado na etapa 207, que é armazenado (por exemplo, em memória interna, local de armazenamento em nuvem, etc.). O modelo treinado é a arquitetura e a estrutura da rede neural profunda ou outra técnica de aprendizado de máquina usada e os parâmetros (por exemplo, pesos, média, variância ou covariância, mas não limitada, etc.) do modelo.

[0044] Conforme pode ser observado na Figura 1, o processo de seleção e indexação de voz de usuário e de voz de personagem inicia na etapa 300, em que o usuário ativa o recurso de seleção e indexação no menu do aplicativo do dispositivo de reprodução de mídia.

[0045] Após a ativação na etapa 300, na etapa 301 o aplicativo mostra uma lista com os modelos de vozes de personagens disponíveis no aplicativo, essa lista está sempre relacionada com programa exibido no dispositivo reprodutor de mídia, ou seja, somente personagens que fazem parte do programa sendo exibido fazem parte da lista. O aplicativo também mostra uma lista com os modelos de vozes dos usuários. Após a exibição dessas listas, na etapa 302 um personagem e um usuário, que terão as vozes trocadas, deverão ser selecionados e associados. Após essa seleção, na etapa 303, se não houver mais usuários para associar aos personagens, o processo termina. Caso contrário, se houver mais usuários para associar aos personagens, o processo retorna para a etapa 302 e é repetido até que não haja mais usuários adicionais.

[0046] Ainda de acordo com a Figura 1, o processo de transformação de voz inicia na etapa 400, em que o usuário ativa o recurso de transformação de voz no menu dispositivo reprodutor de mídia.

[0047] Após a habilitação, na etapa 401 o processo realiza um método de detecção de voz ativa, o dito método consistindo em encontrar voz humana a partir de um fluxo de áudio sendo reproduzido em um dispositivo reprodutor de mídia. Outras características, como silêncio, ruído puro ou alguém cantando, também presentes no fluxo de áudio, são ignoradas.

[0048] A Figura 3 apresenta um fluxograma com mais detalhes do método de detecção de voz ativa. De acordo com a Figura 3, na etapa 500 o método de detecção de voz ativa recebe o fluxo de áudio atual do dispositivo de mídia. Depois disso, na etapa 501, o fluxo de áudio é parametrizado para remover redundância e informações de voz desnecessárias. A parametrização usa a mesma estratégia descrita na etapa 203 já comentada anteriormente. A saída do áudio parametrizado é utilizada na etapa 502 para ser classificada pelo método de detecção de voz ativa. O dito método utiliza um modelo de detecção de voz ativa previamente treinado que será utilizado para classificar, neste caso, voz humana, silêncio, ruído puro e alguém cantando. Para isso, é necessário inserir um áudio com essas quatro “aulas” durante o treinamento do modelo de detecção de voz ativa. A detecção de voz ativa usa técnicas semelhantes às descritas na etapa 206, mas a arquitetura, estrutura e parâmetro não são os mesmos, uma vez que aqui foram definidas apenas quatro classes: voz humana 503, silêncio 504, ruído puro 505 e alguém cantando 506. Após este processo de classificação, o método detecta porções no áudio com presença de voz humana 507 para auxiliar a etapa 402 seguinte de identificação de voz e ignora porções com presença de silêncio 508, ruído puro 509 e alguém cantando 510.

[0049] Após a realização do método de detecção de voz ativa, na etapa 402 ocorre um método de identificação de personagem falando, que identifica vozes de personagens no áudio e a etapa 403 verifica se vozes-alvo (vozes-alvos são as vozes dos personagens que o usuário selecionou para serem transformadas no processo de seleção e indexação de voz de usuário e de voz de personagem) dos personagens foram detectadas.

[0050] A Figura 4 apresenta um fluxograma com mais detalhes do processo de identificação de personagem falando, realizado na etapa 402, e a verificação, realizada na etapa 403. A primeira etapa 600 ocorre com a detecção de voz humana. Na etapa 601 seguinte, a voz humana é parametrizada com base nas mesmas técnicas utilizadas nas etapas 203 e 501. A saída da etapa 601 é utilizada na etapa 602, em que ocorre a identificação do personagem falando com base na voz humana parametrizada. A identificação do personagem falando usa técnicas semelhantes, mas arquitetura, estrutura e parâmetros diferentes usados na etapa 502. Normalmente, para treinar esses modelos, é usada uma classe de rejeição que é treinada com vários personagens falando que o modelo não deseja identificar e personagens falando que o modelo deseja identificar para fazer um modelo de identificação de personagem falando. Após a identificação, o segmento de voz 603 que foi identificado como sendo de determinado personagem, é segmentado.

[0051] Se nenhum personagem falando for detectado, o processo retorna para a etapa 401 e é repetido. Caso contrário, se os personagens foram detectados, o processo prossegue para a etapa 404, em que as vozes de usuários associadas às vozes dos personagens são transformadas. Na etapa 405 é verificado se o recurso de transformação de voz ainda está habilitado. Se sim, o processo volta para a etapa 401 e é repetido. Caso contrário, o recurso é desabilitado e o processo termina.

[0052] A Figura 5 apresenta um fluxograma com mais detalhes do método de transformação da voz do personagem com a voz do usuário associada, realizado na etapa 404. Na primeira etapa 700 há o recebimento do segmento de voz da etapa 603. Na etapa seguinte 701, o segmento de voz, com informações de identificação do personagem falando, é parametrizado com base nas mesmas técnicas utilizadas nas etapas 203, 501 e 601. Após isso, a saída da etapa 701 é utilizada na etapa 702, em que o ruído é separado da voz humana. Para isso, técnicas simples ou múltiplas podem ser utilizadas para calcular e/ou estimar usando diferentes abordagens. Dentre elas, mas não se limitando às técnicas descritas nesta proposta, podem ser utilizados diversos tipos de redes neurais profundas (FFNNs - Feed Forward Neural Networks, RNNs - Recurrent Neural Networks, CNN - Convolution Neural Networks, LSTM - Long Short-Term Memory, GAN - Generative Adversarial Networks, e outros tipos de redes de redes neurais), outras técnicas de aprendizado de máquina como, mas não se limitando a HMMs - Hidden Markov Models, Gaussian Process, baseado em probabilidade Bayesiana. As saídas da etapa 702 são um ruído 703 e uma voz 704. A voz 704 é utilizada na etapa 705, onde é realizada a transformação de voz utilizando os modelos treinados pelo usuário na etapa 207 e as mesmas técnicas utilizadas na etapa 206. A saída deste processo é a voz transformada, utilizando a voz do usuário em vez da voz do personagem. Após isso, na etapa 706, o ruído 703 é adicionado (misturado com a voz transformada) e na etapa 707 há a saída de áudio.

[0053] A Figura 6 apresenta um exemplo de uma concretização da presente invenção, em que o usuário gera um modelo de voz para persistir na memória de uma TV. O usuário é orientado por um aplicativo de aparelho de TV 803 a repetir em voz alta 800 uma sequência de frases necessárias para gerar seu modelo de voz. Neste processo, o sistema orienta o usuário a completar a sequência de frases para gerar o dito modelo.

[0054] Para que essa gravação seja possível, um dispositivo de controle 801 (tal como um controle remoto ou um smartphone) grava a voz do usuário e envia o sinal de voz para o aplicativo de aparelho de TV 803. O aparelho de TV 803 executa um aplicativo capaz de realizar a identificação de personagens falando e a transformação de voz com base em arquivos de modelo de transformação de voz.

[0055] A Figura 7 apresenta um exemplo opcional de interação, em que o usuário gera um modelo de voz usando um dispositivo móvel. O usuário é orientado pelo dispositivo móvel a repetir em voz alta 911 uma sequência de frases necessárias para gerar seu próprio modelo de transformação de voz. Nesse processo, o aplicativo de treinamento é executado em um dispositivo móvel. Após o usuário ter gerado o arquivo de modelo, ele é enviado para o aparelho de TV através de uma conexão de rede 912 com o aparelho de TV 803.

[0056] A Figura 8 mostra uma interface do aplicativo usado para indexar cada usuário com algum personagem específico para realizar a transformação de voz. A indexação é uma etapa necessária deste método que permite a indexação dos usuários com os personagens. Dessa forma, é possível trocar a seleção atual 1000 de determinado ator por meio dos cursores 1001, 1002, que guiam o usuário durante a interação por meio do dispositivo de controle. O aplicativo também permite que o usuário navegue na lista de usuários conforme feito na lista de atores. Dessa forma, é possível trocar a seleção atual 1004 de determinado usuário por meio dos cursores 1005, 1006, que guiam o usuário durante a interação por meio do dispositivo de controle.

[0057] Após a seleção do usuário e do personagem, o usuário deve indexar 1008 o usuário selecionado com o personagem selecionado para transformação de voz.

[0058] A Figura 9 apresenta um conjunto de exemplos em que as vozes dos atores são transformadas pelas vozes dos usuários gerenciadas pelo aplicativo de TV. Em um primeiro exemplo 1100, é ilustrado o aplicativo transformando em tempo real a voz do personagem 1 pela voz do usuário 2. Nesse caso, o modelo está considerando que os modelos de voz do personagem 1 e do usuário 2 já estão armazenados na memória da TV. Nesse primeiro exemplo 1100, a voz do personagem 4 permanece com o áudio original. No segundo exemplo 1104, é ilustrado o aplicativo transformando em tempo real a voz do personagem 2 pela voz do usuário 4. Nesse segundo exemplo, a voz do personagem 4 permanece com o áudio original. Em um terceiro exemplo 1108, é ilustrado o aplicativo transformando em tempo real a voz do personagem 5 pela voz do usuário 3. Nesse terceiro exemplo, a voz do personagem 2 permanece com o áudio original. Em um quarto exemplo 1112, ambos os personagens têm suas vozes transformadas em tempo real, a voz do personagem 6 pela voz do usuário 1 a voz do personagem 3 pela voz do usuário 5.

[0059] Além das concretizações apresentadas anteriormente, o mesmo conceito inventivo poderá ser aplicado a outras alternativas ou possibilidades de utilização da invenção. Por exemplo, em smartphones, Tablets, smartwatchs (relógio inteligente), aparelho reprodutor de mídia ou computador.

[0060] Embora a presente invenção tenha sido descrita em relação a certas concretizações preferidas, deve ser entendido que não se pretende limitar a invenção a essas concretizações particulares. Ao contrário, pretende-se abranger todas as alternativas, modificações e equivalências possíveis dentro do espírito e escopo da invenção, conforme definido pelas reivindicações anexas.

Claims

1. Método para identificar, de forma automática, a voz de um ou mais personagens com base no áudio de um reprodutor de mídia e, após a identificação, transformar a voz dos um ou mais personagens com a voz de um ou mais usuários previamente armazenada em uma memória, o método sendo caracterizado pelo fato de que compreende: a) um processo de gravação de voz de usuário, compreendendo as seguintes etapas: - gravar (101) com um aplicativo de transformação de voz de um aparelho reprodutor de mídia, a voz de um usuário para extrair característica da sua voz, em que técnicas de aprendizado de máquina e redes neurais são utilizadas para gerar um modelo de voz de usuário treinado com as características da voz do usuário; - verificar (102) se a extração das características da voz do usuário foi realizada com sucesso; caso a extração tenha sido realizada com sucesso, armazenar (103) as características da voz do usuário em um modelo de voz de usuário; e - verificar (104) se há voz de usuário adicional a ser gravada e armazenada; b) um processo de seleção e indexação de voz de usuário e de voz de personagem, compreendendo a seguintes etapas: - exibir (301) no aplicativo do aparelho reprodutor de mídia, uma lista de personagens disponíveis em um programa sendo exibido no dispositivo reprodutor de mídia e uma lista com modelos de voz de usuários que podem ter a voz trocada com a voz dos personagens; e - selecionar e associar (302), a partir da lista de personagens e da lista com modelos de voz de usuários, um personagem e um modelo de voz de usuário que terão as vozes trocadas; e c) um processo de transformação de voz, compreendendo as seguintes etapas: - realizar (401) um método de detecção de voz ativa para encontrar voz humana em um áudio sendo reproduzido em um dispositivo reprodutor de mídia; - detectar (402) personagens falando no áudio; - verificar (403) se as vozes do personagens foram detectadas; e - trocar (404) as vozes dos personagens com as vozes dos usuários.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que as etapas de gravar (101) com um aplicativo de transformação de voz de um aparelho reprodutor de mídia, a voz de um usuário para extrair características da sua voz, verificar (102) se a extração das características da voz do usuário foi realizada com sucesso, e caso a extração tenha sido realizada com sucesso, armazenar (103) as características da voz do usuário em um modelo de voz de usuário, compreende adicionalmente um subprocesso para extrair e armazenar as características da voz do usuário em um modelo de voz de usuário, compreendendo as seguintes etapas: - obter (200) uma amostra da voz do usuário a partir de uma fonte de voz pré-definida; - validar (201) a amostra da voz do usuário; - verificar (202) se a amostra da voz do usuário foi validada; - simultaneamente: parametrizar (203) os dados da amostra da voz do usuário; extrair (204) as características numéricas, prosódia e vícios de linguagem da voz na amostra; e converter (205) em transcrição fonética as amostras da voz do usuário; - calcular (206) os parâmetros da arquitetura de aprendizado de máquina; e - gerar um modelo de voz de usuário treinado (207).

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de realizar (401) um método de detecção de voz ativa para encontrar voz humana em um áudio sendo reproduzido em um dispositivo reprodutor de mídia, compreende adicionalmente um método de detecção de voz ativa compreendendo as seguintes etapas: - receber (500) o fluxo de áudio sendo reproduzido no dispositivo reprodutor de mídia; - parametrizar (501) o fluxo de áudio para remover redundância e informações de voz desnecessárias; - classificar (502) voz humana, silêncio, ruído puro e alguém cantando no fluxo de áudio parametrizado; e - detectar (507) porções com presença de voz humana no fluxo de áudio parametrizado.

4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de detectar (402) personagens falando no áudio e verificar (403) se as vozes dos personagens falando foram detectadas, compreende adicionalmente: - detectar (600) voz humana; - parametrizar (601) a voz humana detectada; - identificar (602) um personagem falando com base na voz humana parametrizada; e - segmentar (603) um segmento de voz que foi identificado como sendo de determinado personagem falando.

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de trocar (404) as vozes dos personagens falando com as vozes dos usuários compreende adicionalmente: - receber (700) o segmento de voz; - parametrizar (701) o segmento de voz; - separar (702) ruído de voz humana; - transformar (705) a voz do personagem falando na voz do usuário; - adicionar (703) o ruído à voz transformada; e - liberar (707) o áudio.