BR112016016310B1 - Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros - Google Patents

Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros Download PDF

Info

Publication number
BR112016016310B1
BR112016016310B1 BR112016016310-9A BR112016016310A BR112016016310B1 BR 112016016310 B1 BR112016016310 B1 BR 112016016310B1 BR 112016016310 A BR112016016310 A BR 112016016310A BR 112016016310 B1 BR112016016310 B1 BR 112016016310B1
Authority
BR
Brazil
Prior art keywords
parameters
frame
speech
segment
parameter
Prior art date
Application number
BR112016016310-9A
Other languages
English (en)
Other versions
BR112016016310A2 (pt
Inventor
Yingyi Tan
Aravind Ganapathiraju
Felix Immanuel Wyss
Original Assignee
Interactive Intelligence Group, Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interactive Intelligence Group, Inc filed Critical Interactive Intelligence Group, Inc
Publication of BR112016016310A2 publication Critical patent/BR112016016310A2/pt
Publication of BR112016016310B1 publication Critical patent/BR112016016310B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Document Processing Apparatus (AREA)

Abstract

SISTEMA PARA SINTETIZAR DISCURSO PARA UM TEXTO PROVIDO E MÉTODO PARA GERAR PARÂMETROS Um sistema e método são apresentados para a síntese de discurso a partir de um texto provido. Particularmente, a geração de parâmetros dentro do sistema é realizada como uma aproximação contínua a fim de imitar o fluxo natural do discurso, em oposição a uma aproximação passo a passo do fluxo de recurso. Texto provido pode ser particionado, e parâmetros podem ser gerados usando um modelo de discurso. Os parâmetros gerados a partir do modelo de discurso podem ser usados em uma etapa de pós-processamento para obter um novo conjunto de parâmetros para a aplicação na síntese de discurso.

Description

[0001] A presente invenção refere-se, em geral, aos sistemas e métodos de telecomunicação, bem como à síntese de discurso. Mais particularmente, a presente invenção refere-se à síntese de discurso a partir de texto provido usando geração de parâmetro.
RESUMO
[0002] Um sistema e método são apresentados para a síntese de discurso a partir de um texto provido. Particularmente, a geração de parâmetros dentro do sistema é realizada como uma aproximação contínua a fim de imitar o fluxo natural do discurso, em oposição a uma aproximação passo a passo do fluxo de parâmetro. Texto provido pode ser particionado, e parâmetros podem ser gerados usando um modelo de discurso. Os parâmetros gerados a partir do modelo de discurso podem ser usados em uma etapa de pós-processamento para obter um novo conjunto de parâmetros para a aplicação na síntese de discurso.
[0003] Em uma modalidade, um sistema é apresentado para sintetizar discurso para texto provido compreendendo: meios para gerar etiquetas de contexto para dito texto provido; meios para gerar um conjunto de parâmetros para as etiquetas de contexto geradas para dito texto provido usando um modelo de discurso; meios para processamento de dito conjunto de parâmetros gerado, em que ditos meios para processamento são capazes de dimensionamento de variância; e meios para sintetizar discurso para dito texto provido, em que ditos meios para sintetizar discurso são capazes de aplicar o conjunto de parâmetros processados para sintetizar discurso.
[0004] Em outra modalidade, um método para gerar parâmetros usa um fluxo de recurso contínuo no texto provido para uso na síntese de discurso é apresentado, compreendendo as etapas de: particionar dito texto provido em uma sequência de frases; gerar parâmetros para dita sequência de frases usando um modelo de discurso; e processar os parâmetros gerados para obter um outro conjunto de parâmetros, em que dito outro conjunto de parâmetros é passível de uso na síntese de discurso para texto fornecido.
Breve descrição das figuras
[0005] A figura 1 é um diagrama ilustrando uma modalidade de um sistema para sintetizar discurso.
[0006] A figura 2 é um diagrama ilustrando uma modalidade modificada de um sistema para sintetizar discurso.
[0007] A figura 3 é um fluxograma ilustrando uma modalidade de geração de parâmetro.
[0008] A figura 4 é um diagrama ilustrando uma modalidade de um parâmetro gerado.
[0009] A figura 5 é um fluxograma ilustrando uma modalidade de um processo para geração de parâmetro f0.
[00010] A figura 6 é um fluxograma ilustrando uma modalidade de um processo para geração de MCEPs.
DESCRIÇÃO DETALHADA
[00011] Com a finalidade de promover uma compreensão dos princípios da invenção, agora será feita referência às modalidades ilustradas nas figuras e linguagem específica será usada para descrever as mesmas. Não obstante, será compreendido que nenhuma limitação do escopo da invenção é, desse modo, pretendida. Quaisquer alterações e modificações adicionais nas modalidades descritas e quaisquer outras aplicações dos princípios da invenção conforme descrito neste documento são contempladas, como normalmente ocorreria a um versado na técnica à qual se refere à invenção.
[00012] Em um sistema de texto para discurso (TTS) tradicional, a língua escrita, ou texto, pode ser automaticamente convertido em especificação linguística. A especificação linguística indexa a forma armazenada de um corpus de discurso, ou o modelo de corpus de discurso a fim de gerar forma de onda de discurso. Um sistema de discurso paramétrico estatístico não armazena qualquer discurso em si, mas sim o modelo de discurso. O modelo do corpus de discurso e a saída da análise linguística podem ser usados para estimar um conjunto de parâmetros que são usados para sintetizar o discurso de saída. O modelo do corpus de discurso compreende a média e a covariância da função de probabilidade em que se encaixam os parâmetros de discurso. O modelo obtido pode gerar parâmetros espectrais, tais como frequência fundamental (f0) e mel- cepstral (MCEPs), para representar o sinal de discurso. Estes parâmetros, no entanto, são para uma taxa de quadros fixa, e são derivados de uma máquina de estados. Uma aproximação passo a passo dos resultados do fluxo de parâmetro, os quais não imitam o fluxo natural da fala. Discurso natural é contínuo, e não por etapas. Em uma modalidade, são divulgados um sistema e método que converte a aproximação passo a passo dos modelos para um fluxo contínuo a fim de imitar o fluxo natural do discurso.
[00013] A figura 1 é um diagrama ilustrando uma modalidade de um sistema tradicional para sintetizar discurso, indicado, geralmente, em 100. Os componentes básicos de um sistema de síntese de discurso podem compreender um módulo de treinamento 105, que pode compreender um corpus de discurso 106, especificação linguística 107, um módulo de parametrização 108, e um módulo de síntese 110 que pode compreender texto 111, etiquetas de contexto 112, um modelo estatístico paramétrico 113 e um módulo de síntese de discurso 114.
[00014] O módulo de treinamento 105 pode ser usado para treinar o modelo paramétrico estatístico 113. O módulo de treinamento 105 pode compreender um corpus de discurso 106, especificações linguísticas 107 e um módulo de parametrização 108. O corpus de discurso 106 pode ser convertido em especificações linguísticas 107. O corpus de discurso pode compreender a língua escrita ou texto que foi escolhido para cobrir sons feitos em uma língua, no contexto de sílabas e palavras que compõem o vocabulário da língua. A especificação linguística 107 indexa a forma armazenada de um corpus de discurso, ou o modelo de corpus de discurso, a fim de gerar forma de onda de discurso. Discurso em si não é armazenado, mas o modelo do discurso é armazenado. O modelo compreende a média e a covariância da função de probabilidade em que se encaixam os parâmetros de discurso.
[00015] O módulo de sintetização 110 pode armazenar o modelo de discurso e gerar discurso. O módulo de sintetização 110 pode compreender texto 111, etiquetas de contexto 112, um modelo paramétrico estatístico 113, e um módulo de síntese de discurso 114. Etiquetas de contexto 112 representam as informações contextuais no texto 111, as quais podem ser de uma granularidade variada, tais como informações sobre sons do ambiente, palavras do ambiente, frases do ambiente, etc. As etiquetas de contexto 112 podem ser geradas para o texto provido a partir de um modelo de linguagem. O modelo paramétrico estatístico 113 pode compreender a média e a covariância da função de probabilidade em que se encaixam os parâmetros de discurso.
[00016] O módulo de síntese de discurso 114 recebe os parâmetros de discurso para o texto 111 e transforma os parâmetros em discurso sintetizado. Isso pode ser feito usando métodos padrões para transformar informações espectrais em sinais de domínio de tempo, tais como um filtro de aproximação de espectro mel log (MILSA).
[00017] A figura 2 é um diagrama ilustrando uma modalidade modificada de um sistema para sintetizar discurso usando geração de parâmetro, indicada geralmente em 200. Os componentes básicos de um sistema podem compreender componentes similares na figura 1, com a adição de um módulo de geração de parâmetro 205. Em um sistema de síntese de discurso paramétrico estatístico, o sinal de discurso é representado como um conjunto de parâmetros a uma taxa de quadros fixa. O módulo de geração de parâmetro 205 recebe o sinal de áudio do modelo de parâmetro estatístico 113 e o transforma. Em uma modalidade, o sinal de áudio no domínio do tempo foi transformado matematicamente para outro domínio, tal como o domínio espectral, para processamento mais eficiente. A informação espectral é então armazenada na forma de coeficientes de frequência, tais como f0 e MCEPs para representar o sinal de discurso. A geração de parâmetro é tal que tem um modelo de discurso indexado como entrada, e os parâmetros espectrais como saída. Em uma modalidade, são utilizadas técnicas Hidden Markov Model (HMM). O modelo 113 compreende não apenas a distribuição estatística dos parâmetros, também chamados coeficientes estáticos, mas também suas taxas de mudança. A taxa de mudança pode ser descrita como tendo derivados de primeira ordem chamados coeficientes delta e derivados de segunda ordem, chamados coeficientes de delta-delta. Os três tipos de parâmetros são empilhados juntos em um vetor de observação único para o modelo. O processo de geração de parâmetros é descrito mais detalhadamente abaixo.
[00018] No modelo estatístico tradicional dos parâmetros, apenas a média e a variância do parâmetro são consideradas. O parâmetro médio é usado para cada estado a fim de gerar parâmetros. Isto, por partes, gera trajetórias de parâmetro constante, o que altera o valor abruptamente em cada transição de estado, e é contrario ao comportamento do som natural. Adicionalmente, as propriedades estatísticas do coeficiente estático só são consideradas, e não a velocidade com que os parâmetros alteram valor. Assim, as propriedades estatísticas dos derivados de primeira e segunda ordem devem ser consideradas, tal como na modalidade modificada descrita na figura 2.
[00019] O parâmetro geração de probabilidade máxima (MLPG) é um método que considera as propriedades estatísticas dos coeficientes estáticos e os derivados. No entanto, este método tem um grande custo computacional, o que aumenta com o comprimento da sequência, e, portanto, é impraticável implementar em um sistema de tempo real. Um método mais eficiente é descrito abaixo, o qual gera parâmetros baseados em segmentos linguísticos ao invés da mensagem de texto completa. Um segmento linguístico pode referir-se a qualquer grupo de palavras ou sentenças que possam ser separados por etiquetas de contexto "pausa" em um sistema TTS.
[00020] A figura 3 é um fluxograma ilustrando uma modalidade de trajetórias de geração de parâmetro, indicadas, geralmente, em 300. Trajetórias de parâmetro são geradas com base em segmentos linguísticos ao invés de mensagem de texto completa. Anterior à geração do parâmetro, uma sequência de estado pode ser escolhida usando um modelo de duração presente no modelo de parâmetro estatístico 113. Isto determina quantos quadros serão gerados a partir de cada estado no modelo de parâmetro estatístico. Como hipotetizado pelo módulo de geração de parâmetro, os parâmetros não variam enquanto no mesmo estado. Essa trajetória irá resultar em um sinal de discurso de má qualidade. No entanto, se uma trajetória mais suave é estimada usando informações a partir de parâmetros delta e delta-delta, a saída de síntese de discurso é mais natural e inteligível.
[00021] Na operação 305, a sequência de estado é escolhida. Por exemplo, a sequência de estado pode ser escolhida usando o modelo de parâmetro estatístico 113, o que determina quantos quadros serão gerados a partir de cada estado no modelo 113. O controle é passado para a operação 310 e o processo 300 continua.
[00022] Na operação 310, segmentos são particionados. Em uma modalidade, a partição de segmento é definida como uma sequência de estados englobadas pelo modelo de pausa. O controle é passado para pelo menos uma das operações 315a e 315b e o processo 300 continua.
[00023] Nas operações 315a e 315b, parâmetros espectrais são gerados. Os parâmetros espectrais representam o sinal de discurso e compreendem pelo menos um da frequência fundamental 315a e MCEPs, 315b. Estes processos são descritos mais detalhadamente abaixo nas figuras 5 e 6. O controle é passado para a operação 320 e o processo 300 continua.
[00024] Na operação 320 a trajetória de parâmetro é criada. Por exemplo, a trajetória de parâmetro pode ser criada ao concatenar cada fluxo de parâmetro através de todos os estados ao longo do domínio de tempo. Com efeito, cada dimensão no modelo paramétrico terá uma trajetória. Uma ilustração de uma criação de trajetória de parâmetro para uma dimensão tal é geralmente provida na figura 4. Figura 4 (copiada de: KING, Simon, “A beginners’ guide to statistical parametric speech synthesis” The Centre for Speech Technology Research, University of Edinburgh, UK, 24 julho 2010, página 9) é uma modalidade generalizada a partir de uma trajetória da MLPG que tenha sido suavizada.
[00025] A figura 5 é um fluxograma ilustrando uma modalidade de um processo para geração de parâmetro espectral fundamental, geralmente indicado em 500. O processo pode ocorrer no módulo de geração de parâmetro 205 (figura 2), após o texto de entrada ser dividido em segmentos linguísticos. Parâmetros são previstos para cada segmento.
[00026] Na operação 505, o quadro é incrementado. Por exemplo, um quadro pode ser examinado para segmentos linguísticos que podem conter vários segmentos vozeados. O fluxo de parâmetro pode ser baseado em unidades de quadro tais que i = 1 representa o primeiro quadro, i = 2 representa o segundo quadro, etc. Para incremento de quadro, o valor para "i" é aumentado por um intervalo desejado. Em uma modalidade, o valor para "i" pode ser aumentado por 1 de cada vez. O controle é passado à operação 510 e o processo 500 continua.
[00027] Na operação 510, é determinado se segmentos linguísticos estão presentes no sinal ou não. Se for determinado que esses segmentos linguísticos estão presentes, controle é passado para operação 515 e o processo 500 continua. Se for determinado que segmentos linguísticos não estão presentes, controle é passado para operação 525 e o processo 500 continua.
[00028] A determinação na operação 510 pode ser feita com base em quaisquer critérios adequados. Em uma modalidade, a partição de segmento dos segmentos linguísticos é definida como uma sequência de estados englobada pelo modelo de pausa.
[00029] Na operação 515, um ajuste de variação global é realizado. Por exemplo, a variância global pode ser usada para ajustar a variância do segmento linguístico. A trajetória f0 pode tender a ter um intervalo dinâmico menor se em comparação ao som natural devido ao uso da média de coeficiente estático e do coeficiente delta na geração de parâmetro. Dimensionamento de variância pode expandir o intervalo dinâmico da trajetória f0 para que o sinal sintetizado soe mais vívido. O controle é passado para a operação 520 e o processo 500 continua.
[00030] Na operação 520, uma conversão para o domínio de frequência linear é realizada na frequência fundamental de domínio de registro e o processo 500 termina.
[00031] Na operação 525, é determinado se a vocalização já começou ou não. Se for determinado que a vocalização não começou, controle é passado para operação 530 e o processo 500 continua. Se for determinado que vocalização começou, controle é passado para operação 535 e o processo 500 continua.
[00032] A determinação na operação 525 pode ser baseada em quaisquer critérios adequados. Em uma modalidade, quando o modelo f0 prevê valores válidos para f0, o segmento é considerado um segmento vozeado, e quando o modelo f0 prevê zeros, o segmento é considerado um segmento desvozeado.
[00033] Na operação 530, o quadro foi determinado como sendo desvozeados. O parâmetro espectral para esse quadro é 0, tal que f0(i) = 0. O controle é passado novamente à operação 505 e o processo 500 continua.
[00034] Na operação 535, o quadro foi determinado como sendo vozeado, e é determinado, adicionalmente, se a vocalização está no primeiro quadro ou não. Se for determinado que a vocalização está no primeiro quadro, controle é passado para operação 540 e o processo 500 continua. Se for determinado que a vocalização não está no primeiro quadro, controle é passado para operação 545 e o processo 500 continua.
[00035] A determinação na operação 535 pode ser baseada em quaisquer critérios adequados. Em uma modalidade, isto é baseado em valores f0 previstos, e, em outra modalidade, ele poderia basear-se em um modelo específico para prever a vocalização.
[00036] Na operação 540, o parâmetro espectral para o primeiro quadro é a média do segmento, tal que f0(i)=f0_mean(i). O controle é passado novamente à operação 505 e o processo 500 continua.
[00037] Na operação 545, é determinado se o valor de delta precisa ser ajustado ou não. Se for determinado que o valor de delta precisa ser ajustado, controle é passado para operação 550 e o processo 500 continua. Se for determinado que o valor de delta não precisa ser ajustado, controle é passado para operação 555 e o processo 500 continua.
[00038] A determinação na operação 545 pode ser baseada em quaisquer critérios adequados. Por exemplo, pode ser preciso realizar um ajuste a fim de controlar a mudança de parâmetro para cada quadro para um nível desejado.
[00039] Na operação 550, o delta é fixado. O f0_deltaMean(i) pode ser representado como f0_new_deltaMean(i) após fixação. Se a fixação não for realizada, então o f0_new_deltaMean(i) é equivalente a f0_deltaMean(i). O objetivo de fixar o delta é garantir que a mudança de parâmetro para cada quadro seja controlada a um nível desejado. Se a mudança for muito grande e perdurar ao longo de vários quadros, o intervalo da trajetória de parâmetro não será no intervalo natural desejado do som. O controle é passado à operação 555 e o processo 500 continua.
[00040] Na operação 555, o valor do parâmetro atual é atualizado para ser o valor previsto mais o valor de delta para o parâmetro, tal que f0(i) = f0(i-1) + f0_new_deltaMean(i). Isto ajuda a trajetória a deslocar-se acima ou abaixo, conforme o modelo. O controle é então passado à operação 560 e o processo 500 continua.
[00041] Na operação 560, é determinado se a voz já começou ou não. Se for determinado que a voz não começou, controle é passado para operação 505 e o processo 500 continua. Se for determinado que a voz terminou, controle é passado para operação 565 e o processo 500 continua.
[00042] A determinação na operação 560 pode ser determinada em quaisquer critérios adequados. Em uma modalidade, se os valores f0 tornarem-se zero em um número de quadros consecutivos, isto pode indicar que a voz terminou.
[00043] Na operação 565, uma mudança de média é executada. Por exemplo, uma vez que todos os quadros de voz, ou segmentos vozeados, tenham terminado, a média do segmento de voz pode ser ajustada para o valor desejado. Ajuste de média também pode fazer com que a trajetória de parâmetro entre no intervalo natural desejado do som. O controle é passado à operação 570 e o processo 500 continua.
[00044] Na operação 570 o segmento de voz é suavizado. Por exemplo, a trajetória de parâmetro gerados pode ter abruptamente mudado em algum ponto, o que faz o discurso sintetizado soar chilreada e saltitante. Função de janela pode fazer a trajetória f0 mais suave e o som de discurso sintetizado mais natural. O controle é passado novamente à operação 505 e o processo 500 continua. O processo pode ficar em ciclo continuamente por qualquer número de vezes necessárias. Cada quadro pode ser processado até o segmento linguístico terminar, segmentos tais que podem conter vários segmentos vozeados. A variância do segmento linguístico pode ser ajustada com base na variância global. Devido ao meio de coeficientes estáticos e coeficientes delta serem usados na geração de parâmetro, a trajetória de parâmetro pode ter intervalo dinâmico menor se comparado ao som natural. Um método de dimensionamento de variância pode ser utilizado para expandir o intervalo dinâmico da trajetória de parâmetro para que o sinal sintetizado não seja abafado. Os parâmetros espectrais podem ser convertidos a partir do domínio de registro para o domínio linear.
[00045] A figura 6 é um fluxograma ilustrando uma modalidade geração de MCEPs, indicada, geralmente, em 600. O processo pode ocorrer no módulo de geração de parâmetro 205 (figura 2).
[00046] Na operação 605, o valor do parâmetro de saída é inicializado. Em uma modalidade, o parâmetro de saída pode ser inicializado no momento i = 0 porque o valor do parâmetro de saída é dependente do parâmetro gerado para o quadro anterior. Assim, o mcep(0) inicial = mcep_mean(1). O controle é passado à operação 610 e o processo 600 continua.
[00047] Na operação 610 o quadro é incrementado. Por exemplo, um quadro pode ser examinado para segmentos linguísticos que podem conter vários segmentos vozeados. O fluxo de parâmetro pode ser baseado em unidades de quadro tais que i = 1 representa o primeiro quadro, i = 2 representa o segundo quadro, etc. Para incremento de quadro, o valor para "i" é aumentado por um intervalo desejado. Em uma modalidade, o valor para "i" pode ser aumentado por 1 de cada vez. O controle é passado à operação 615 e o processo 600 continua.
[00048] Na operação 615 é determinado se o segmento já terminou ou não. Se for determinado que o segmento terminou, controle é passado para operação 620 e o processo 600 continua. Se for determinado que o segmento não começou, controle é passado para operação 630 e o processo continua.
[00049] A determinação na operação 615 é feita usando as informações do módulo linguístico, bem como a existência de pausa.
[00050] Na operação 620 o segmento de voz é suavizado. Por exemplo, a trajetória de parâmetro gerados pode ter abruptamente mudado em algum ponto, o que faz o discurso sintetizado soar chilreada e saltitante. Função de janela pode fazer a trajetória mais suave e o som de discurso sintetizado mais natural. O controle é passado à operação 625 e o processo 600 continua.
[00051] Na operação 625, um ajuste de variação global é realizado. Por exemplo, a variância global pode ser usada para ajustar a variância do segmento linguístico. A trajetória pode tender a ter um intervalo dinâmico menor se em comparação ao som natural devido ao uso da média de coeficiente estático e do coeficiente delta na geração de parâmetro. Dimensionamento de variância pode expandir o intervalo dinâmico da trajetória para que o sinal sintetizado não soe abafado. O processo 600 termina.
[00052] Na operação 630, é determinado se a vocalização já começou ou não. Se for determinado que a vocalização não começou, controle é passado para operação 635 e o processo 600 continua. Se for determinado que vocalização começou, controle é passado para operação 540 e o processo 600 continua.
[00053] A determinação na operação 630 pode ser feita com base em quaisquer critérios adequados. Em uma modalidade, quando o modelo f0 prevê valores válidos para f0, o segmento é considerado um segmento vozeado, e quando o modelo f0 prevê zeros, o segmento é considerado um segmento desvozeado.
[00054] Na operação 635, o parâmetro espectral é determinado. O parâmetro espectral para o quadro torna-se mcep(i) = (mcep(i- 1)+mcep_mean(i))/2. O controle é passado novamente à operação 610 e o processo 600 continua.
[00055] Na operação 640 o quadro foi determinado como sendo vozeado, e é determinado, adicionalmente, se a voz está no primeiro quadro ou não. Se for determinado que a voz está no primeiro quadro, controle é passado novamente para a operação 635 e o processo 600 continua. Se for determinado que a voz não está no primeiro quadro, controle é passado para operação 645 e o processo 500 continua.
[00056] Na operação 645 a voz não está no primeiro quadro e o parâmetro espectral torna-se mcep(i) = (mcep(i- 1)+mcep_delta(i)+mcep_mean(i))/2. O controle é passado novamente à operação 610 e o processo 600 continua. Em uma modalidade, MCEPs múltiplos podem estar presentes no sistema. O processo 600 pode ser repetido qualquer número de vezes até que todos os MCEPs forem processados.
[00057] Embora a invenção tenha sido ilustrada e descrita em detalhes nas figuras e descrição acima, a mesma é para ser considerada como ilustrativa e não restritiva em caráter, subentendendo-se que somente a modalidade preferencial foi mostrada e descrita e que todas as equivalentes, alterações e modificações que vêm dentro do espírito da invenção conforme descritas neste documento e/ou pelas seguintes reivindicações que se deseja que sejam protegidas.
[00058] Portanto, o escopo apropriado da presente invenção deve ser determinado apenas pela interpretação mais ampla das reivindicações anexas de modo a abranger todas as tais modificações, bem como todas as relações equivalentes àquelas ilustradas nas figuras e descritas na especificação.

Claims (25)

1. Sistema (110) para sintetizar discurso para um texto provido (111) caracterizado pelo fato de que compreende: a. meios para gerar etiquetas de contexto (112) para dito texto provido (111), em que os meios para gerar etiquetas de contexto (112) são configurados para particionar dito texto provido em uma sequência de frases e cada frase em uma pluralidade de quadros; b. meios para gerar (113) um conjunto de parâmetros para as etiquetas de contexto (112) geradas para dito texto provido (111) usando um modelo de discurso, em que os meios para gerar (113) um conjunto de parâmetros são configurados para gerar um conjunto de parâmetros compreendendo um meio, uma variância, um coeficiente delta e um coeficiente delta-delta para cada um da pluralidade dos quadros; c. meios para processar (205) dito conjunto de parâmetros gerado, em que ditos meios para processar são capazes de dimensionamento de variância, em que os meios para processar (205) dito conjunto de parâmetros gerados são configurados para gerar um conjunto de parâmetros processados compreendendo pelo menos um coeficiente delta fixado de forma a controlar a mudança de parâmetro para cada quadro para um nível desejado; e d. meios para sintetizar discurso (114) para dito texto provido (111), em que os ditos meios para sintetizar discurso são capazes de aplicar o conjunto de parâmetros processados para sintetizar discurso.
2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o dito modelo de discurso compreende pelo menos uma distribuição estatística de parâmetros espectrais e uma taxa de mudança de ditos parâmetros espectrais.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o dito modelo de discurso compreende um modelo paramétrico estatístico preditivo.
4. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que os ditos meios para gerar etiquetas de contexto (112) para um texto provido compreendem um modelo de linguagem.
5. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que os ditos meios para sintetizar discurso (114) são capazes de transformar informações espectrais nos sinais de domínio de tempo.
6. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que os meios para processamento (205) de um conjunto de parâmetros são capazes de determinar a taxa de mudança de ditos parâmetros e gerar uma trajetória dos parâmetros.
7. Método para gerar parâmetros, caracterizado pelo fato de que usa um fluxo de recurso contínuo no texto provido para uso na síntese de discurso e compreende as etapas de: a. particionar dito texto provido em uma sequência de frases e cada frase em uma pluralidade de quadros; b. gerar parâmetros para a dita sequência de frases usando um modelo de discurso, os parâmetros gerados compreendendo um meio, uma variância, um coeficiente delta, e um coeficiente delta-delta para cada quadro da pluralidade de quadros; e c. processar os parâmetros gerados para obter um outro conjunto de parâmetros, em que dito outro conjunto de parâmetros tem uma trajetória mais suave do que os parâmetros gerados determinaram de acordo com o coeficiente delta e o coeficiente delta-delta dos parâmetros gerados, e em que o processo compreende a fixação do coeficiente delta de forma a controlar a mudança de parâmetro de cada quadro para um nível desejado.
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o dito particionamento é realizado com base em conhecimento linguístico.
9. Método, de acordo com a reivindicação 7, caracterizado pelo fato de o que dito modelo de discurso compreende um modelo paramétrico estatístico preditivo.
10. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que os parâmetros para as frases compreendem parâmetros espectrais.
11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que os parâmetros espectrais compreendem um ou mais dos seguintes: valores de parâmetro espectral baseados em frase, taxa de mudança de parâmetros espectrais, valores da envolvente espectral e taxa de variação da envolvente espectral.
12. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que as frases compreendem um agrupamento de palavras capaz de ser separado por pelo menos uma dentre: pausas linguísticas e pausas acústicas
13. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o dito particionamento de um texto provido em uma sequência de frases compreende, adicionalmente, as etapas de: a. gerar um parâmetro de saída com base em parâmetros previstos, em que ditos parâmetros previstos são determinados por um modelo de corpus de discurso como parâmetros que representam o texto; b. incrementar um valor de incremento de quadro; e c. determinar o estado de uma frase, em que 1. se a frase tiver começado, determinar se vocalização começou ao prever valores para f0; determinar que vocalização começou em resposta a prever valores diferente de zero para f0; e determinar que vocalização não começou em resposta a prever valores zero para f0; 1) Se a vocalização começou, ajustar o vetor com base nos parâmetros de fonemas vozeados e reiniciar a etapa (c); caso contrário; e 2) Se a vocalização terminou, ajustar o vetor com base nos parâmetros de fonemas desvozeados e reiniciar a partir da etapa (c); e ii. se a frase terminou, suavizar o parâmetro de saída e realizar um ajuste de variação global ao realizar dimensionamento de variância para expandir a extensão dinâmica da trajetória.
14. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que gerar parâmetros compreende gerar uma trajetória de parâmetro, a qual compreende, adicionalmente, as etapas de: a. inicializar um primeiro elemento de uma pluralidade de parâmetros de saída gerados; b. determinar um valor de incremento de quadro; e c. determinar se um segmento linguístico está presente, o segmento linguístico se referindo a uma ou mais palavras separadas por uma etiqueta de contexto de “pausa” em um sistema de texto para discurso, em que i. se o segmento linguístico não estiver presente, determinar se vocalização começou ao prever valores para f0; determinar que vocalização começou em resposta a prever valores diferente de zero para f0; e determinar vocalização não começou em reposta a prever valores zero para f0; 1) se a vocalização não começou, ajustar os parâmetros de saída com base nos parâmetros de fonemas vozeados e reiniciar o processo a partir da etapa (a); 2) Se a vocalização começou, determinar se a voz está em um primeiro quadro, em que, se a voz está no primeiro quadro, configurar a frequência fundamental do primeiro quadro para um meio da frequência fundamental do segmento, e se a voz não está no primeiro quadro, realizar uma fixação da frequência fundamental do quadro. ii. se o segmento linguístico está presente, remover mudanças abruptas da trajetória de parâmetro e realizar um ajuste de variação global ao realizar dimensionamento de variância para expandir a extensão dinâmica da trajetória.
15. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que a etapa c.i. compreende, adicionalmente, a etapa de determinar se vocalização terminou, em que, se vocalização não terminou, repete-se o método a partir da etapa a.; e, se a vocalização terminou, ajusta-se o coeficiente médio para um valor desejado e realiza-se uma função de janela no segmento.
16. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que a dita inicialização é realizada em tempo zero.
17. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que o valor de incremento de quadro compreende um número inteiro desejado.
18. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que o dito número inteiro desejado é 1.
19. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que determinar se um quadro é vozeado compreende examinar valores previstos para os parâmetros espectrais, em que um segmento vozeado compreende valores válidos.
20. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que determinar se um segmento linguístico está presente compreende examinar uma sequência de estados para a partição do segmento.
21. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o método para gerar parâmetros compreende, ainda, a geração de parâmetros mel-cepstral, que por sua vez compreende as etapas de: a. inicializar um primeiro elemento de um vetor do parâmetro gerado; b. determinar um valor de incremento de quadro; e c. determinar se o quadro é vozeado, em que i. se o segmento for desvozeado, aplicar a equação matemática: mcep(i) = (mcep(i-1)+mcep_mean(i))/2; ii. se o segmento é vozeado e está em um primeiro quadro, aplica-se a equação matemática: mcep(i) = (mcep(i-1)+mcep_mean(i))/2; e iii. se o segmento é vozeado e não está em um primeiro quadro, aplica-se a equação matemática: mcep(i) = (mcep(i- 1)+mcep_delta(i)+mcep_mean(i))/2; e d. Determinar se um segmento linguístico terminou, em que i. Se o segmento linguístico terminou, remover mudanças abruptas da trajetória de parâmetro e realizar um ajuste de variação global; e ii. Se o segmento linguístico não terminou, repetir o início do processo com etapa (a).
22. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que a dita inicialização é realizada em tempo zero.
23. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que o valor de incremento de quadro compreende um número inteiro desejado.
24. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que o dito número inteiro desejado é 1.
25. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que determinar se um quadro é vozeado compreende examinar valores previstos para os parâmetros espectrais, em que um segmento vozeado compreende valores válidos.
BR112016016310-9A 2014-01-14 2015-01-14 Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros BR112016016310B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461927152P 2014-01-14 2014-01-14
US61/927,152 2014-01-14
PCT/US2015/011348 WO2015108935A1 (en) 2014-01-14 2015-01-14 System and method for synthesis of speech from provided text

Publications (2)

Publication Number Publication Date
BR112016016310A2 BR112016016310A2 (pt) 2017-08-08
BR112016016310B1 true BR112016016310B1 (pt) 2022-06-07

Family

ID=53521887

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016016310-9A BR112016016310B1 (pt) 2014-01-14 2015-01-14 Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros

Country Status (9)

Country Link
US (2) US9911407B2 (pt)
EP (1) EP3095112B1 (pt)
JP (1) JP6614745B2 (pt)
AU (2) AU2015206631A1 (pt)
BR (1) BR112016016310B1 (pt)
CA (1) CA2934298C (pt)
CL (1) CL2016001802A1 (pt)
WO (1) WO2015108935A1 (pt)
ZA (1) ZA201604177B (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724685B (zh) 2015-09-16 2024-04-02 株式会社东芝 语音合成模型学习装置、语音合成模型学习方法及存储介质
US10249314B1 (en) * 2016-07-21 2019-04-02 Oben, Inc. Voice conversion system and method with variance and spectrum compensation
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
CN108962217B (zh) * 2018-07-28 2021-07-16 华为技术有限公司 语音合成方法及相关设备
CN109285535A (zh) * 2018-10-11 2019-01-29 四川长虹电器股份有限公司 基于前端设计的语音合成方法
CN109785823B (zh) * 2019-01-22 2021-04-02 中财颐和科技发展(北京)有限公司 语音合成方法及系统
US11587548B2 (en) * 2020-06-12 2023-02-21 Baidu Usa Llc Text-driven video synthesis with phonetic dictionary
WO2021248473A1 (en) 2020-06-12 2021-12-16 Baidu.Com Times Technology (Beijing) Co., Ltd. Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0764939B1 (en) * 1995-09-19 2002-05-02 AT&T Corp. Synthesis of speech signals in the absence of coded parameters
US6567777B1 (en) * 2000-08-02 2003-05-20 Motorola, Inc. Efficient magnitude spectrum approximation
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
US6792407B2 (en) * 2001-03-30 2004-09-14 Matsushita Electric Industrial Co., Ltd. Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems
GB0113570D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Audio-form presentation of text messages
US20030028377A1 (en) * 2001-07-31 2003-02-06 Noyes Albert W. Method and device for synthesizing and distributing voice types for voice-enabled devices
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US7096183B2 (en) * 2002-02-27 2006-08-22 Matsushita Electric Industrial Co., Ltd. Customizing the speaking style of a speech synthesizer based on semantic analysis
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
WO2004032112A1 (en) * 2002-10-04 2004-04-15 Koninklijke Philips Electronics N.V. Speech synthesis apparatus with personalized speech segments
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US8886538B2 (en) 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
WO2005071663A2 (en) * 2004-01-16 2005-08-04 Scansoft, Inc. Corpus-based speech synthesis based on segment recombination
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US20100030557A1 (en) * 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
JP4455610B2 (ja) * 2007-03-28 2010-04-21 株式会社東芝 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP5457706B2 (ja) * 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
EP2507794B1 (en) * 2009-12-02 2018-10-17 Agnitio S.L. Obfuscated speech synthesis
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
CN102651217A (zh) 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
JP5631915B2 (ja) * 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
CA2939117C (en) 2014-03-04 2022-01-18 Interactive Intelligence Group, Inc. Optimization of audio fingerprint search

Also Published As

Publication number Publication date
AU2020203559B2 (en) 2021-10-28
US20180144739A1 (en) 2018-05-24
JP6614745B2 (ja) 2019-12-04
ZA201604177B (en) 2018-11-28
US20150199956A1 (en) 2015-07-16
EP3095112A1 (en) 2016-11-23
AU2015206631A1 (en) 2016-06-30
AU2020203559A1 (en) 2020-06-18
CA2934298C (en) 2023-03-07
EP3095112A4 (en) 2017-09-13
JP2017502349A (ja) 2017-01-19
WO2015108935A1 (en) 2015-07-23
BR112016016310A2 (pt) 2017-08-08
CL2016001802A1 (es) 2016-12-23
US9911407B2 (en) 2018-03-06
CA2934298A1 (en) 2015-07-23
US10733974B2 (en) 2020-08-04
NZ721092A (en) 2021-03-26
EP3095112B1 (en) 2019-10-30

Similar Documents

Publication Publication Date Title
AU2020203559B2 (en) System and method for synthesis of speech from provided text
US20170309271A1 (en) Speaking-rate normalized prosodic parameter builder, speaking-rate dependent prosodic model builder, speaking-rate controlled prosodic-information generation device and prosodic-information generation method able to learn different languages and mimic various speakers' speaking styles
US9972300B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
Ma et al. Incremental text-to-speech synthesis with prefix-to-prefix framework
WO2016172871A1 (zh) 基于循环神经网络的语音合成方法
AU2020205275B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
Pradhan et al. A syllable based statistical text to speech system
Mustafa et al. Emotional speech acoustic model for Malay: iterative versus isolated unit training
Oshima et al. Non-native speech synthesis preserving speaker individuality based on partial correction of prosodic and phonetic characteristics
Mustafa et al. Developing an HMM-based speech synthesis system for Malay: a comparison of iterative and isolated unit training
Kubo et al. Grapheme-to-phoneme conversion based on adaptive regularization of weight vectors.
Jokisch et al. Multi-level rhythm control for speech synthesis using hybrid data driven and rule-based approaches
Anumanchipalli et al. A style capturing approach to F0 transformation in voice conversion
NZ721092B2 (en) System and method for synthesis of speech from provided text
Astrinaki et al. sHTS: A streaming architecture for statistical parametric speech synthesis
Matsuda et al. Applying generation process model constraint to fundamental frequency contours generated by hidden-Markov-model-based speech synthesis
Hentschel et al. Exploiting imbalanced textual and acoustic data for training prosodically-enhanced RNNLMs
Shah et al. Deterministic annealing EM algorithm for developing TTS system in Gujarati
Wu et al. Development of hmm-based malay text-to-speech system
Sulír et al. The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model
Kuczmarski Overview of HMM-based Speech Synthesis Methods
Petrov et al. Structured Acoustic Models for Speech Recognition
Majji Building a Tamil Text-to-Speech Synthesizer using Festival
Kameoka Probabilistic Modeling of Pitch Contours Toward Prosody Synthesis and Conversion
Sazhok Phoneme Recognition Output Post-Processing for Word Sequences Decoding

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 14/01/2015, OBSERVADAS AS CONDICOES LEGAIS