BR112016016310B1 - Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros - Google Patents
Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros Download PDFInfo
- Publication number
- BR112016016310B1 BR112016016310B1 BR112016016310-9A BR112016016310A BR112016016310B1 BR 112016016310 B1 BR112016016310 B1 BR 112016016310B1 BR 112016016310 A BR112016016310 A BR 112016016310A BR 112016016310 B1 BR112016016310 B1 BR 112016016310B1
- Authority
- BR
- Brazil
- Prior art keywords
- parameters
- frame
- speech
- segment
- parameter
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 14
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 17
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims description 47
- 230000003595 spectral effect Effects 0.000 claims description 25
- 230000008859 change Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 241000269627 Amphiuma means Species 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000003278 mimic effect Effects 0.000 abstract description 4
- 238000012805 post-processing Methods 0.000 abstract description 2
- 230000003068 static effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Document Processing Apparatus (AREA)
Abstract
SISTEMA PARA SINTETIZAR DISCURSO PARA UM TEXTO PROVIDO E MÉTODO PARA GERAR PARÂMETROS Um sistema e método são apresentados para a síntese de discurso a partir de um texto provido. Particularmente, a geração de parâmetros dentro do sistema é realizada como uma aproximação contínua a fim de imitar o fluxo natural do discurso, em oposição a uma aproximação passo a passo do fluxo de recurso. Texto provido pode ser particionado, e parâmetros podem ser gerados usando um modelo de discurso. Os parâmetros gerados a partir do modelo de discurso podem ser usados em uma etapa de pós-processamento para obter um novo conjunto de parâmetros para a aplicação na síntese de discurso.
Description
[0001] A presente invenção refere-se, em geral, aos sistemas e métodos de telecomunicação, bem como à síntese de discurso. Mais particularmente, a presente invenção refere-se à síntese de discurso a partir de texto provido usando geração de parâmetro.
[0002] Um sistema e método são apresentados para a síntese de discurso a partir de um texto provido. Particularmente, a geração de parâmetros dentro do sistema é realizada como uma aproximação contínua a fim de imitar o fluxo natural do discurso, em oposição a uma aproximação passo a passo do fluxo de parâmetro. Texto provido pode ser particionado, e parâmetros podem ser gerados usando um modelo de discurso. Os parâmetros gerados a partir do modelo de discurso podem ser usados em uma etapa de pós-processamento para obter um novo conjunto de parâmetros para a aplicação na síntese de discurso.
[0003] Em uma modalidade, um sistema é apresentado para sintetizar discurso para texto provido compreendendo: meios para gerar etiquetas de contexto para dito texto provido; meios para gerar um conjunto de parâmetros para as etiquetas de contexto geradas para dito texto provido usando um modelo de discurso; meios para processamento de dito conjunto de parâmetros gerado, em que ditos meios para processamento são capazes de dimensionamento de variância; e meios para sintetizar discurso para dito texto provido, em que ditos meios para sintetizar discurso são capazes de aplicar o conjunto de parâmetros processados para sintetizar discurso.
[0004] Em outra modalidade, um método para gerar parâmetros usa um fluxo de recurso contínuo no texto provido para uso na síntese de discurso é apresentado, compreendendo as etapas de: particionar dito texto provido em uma sequência de frases; gerar parâmetros para dita sequência de frases usando um modelo de discurso; e processar os parâmetros gerados para obter um outro conjunto de parâmetros, em que dito outro conjunto de parâmetros é passível de uso na síntese de discurso para texto fornecido.
[0005] A figura 1 é um diagrama ilustrando uma modalidade de um sistema para sintetizar discurso.
[0006] A figura 2 é um diagrama ilustrando uma modalidade modificada de um sistema para sintetizar discurso.
[0007] A figura 3 é um fluxograma ilustrando uma modalidade de geração de parâmetro.
[0008] A figura 4 é um diagrama ilustrando uma modalidade de um parâmetro gerado.
[0009] A figura 5 é um fluxograma ilustrando uma modalidade de um processo para geração de parâmetro f0.
[00010] A figura 6 é um fluxograma ilustrando uma modalidade de um processo para geração de MCEPs.
[00011] Com a finalidade de promover uma compreensão dos princípios da invenção, agora será feita referência às modalidades ilustradas nas figuras e linguagem específica será usada para descrever as mesmas. Não obstante, será compreendido que nenhuma limitação do escopo da invenção é, desse modo, pretendida. Quaisquer alterações e modificações adicionais nas modalidades descritas e quaisquer outras aplicações dos princípios da invenção conforme descrito neste documento são contempladas, como normalmente ocorreria a um versado na técnica à qual se refere à invenção.
[00012] Em um sistema de texto para discurso (TTS) tradicional, a língua escrita, ou texto, pode ser automaticamente convertido em especificação linguística. A especificação linguística indexa a forma armazenada de um corpus de discurso, ou o modelo de corpus de discurso a fim de gerar forma de onda de discurso. Um sistema de discurso paramétrico estatístico não armazena qualquer discurso em si, mas sim o modelo de discurso. O modelo do corpus de discurso e a saída da análise linguística podem ser usados para estimar um conjunto de parâmetros que são usados para sintetizar o discurso de saída. O modelo do corpus de discurso compreende a média e a covariância da função de probabilidade em que se encaixam os parâmetros de discurso. O modelo obtido pode gerar parâmetros espectrais, tais como frequência fundamental (f0) e mel- cepstral (MCEPs), para representar o sinal de discurso. Estes parâmetros, no entanto, são para uma taxa de quadros fixa, e são derivados de uma máquina de estados. Uma aproximação passo a passo dos resultados do fluxo de parâmetro, os quais não imitam o fluxo natural da fala. Discurso natural é contínuo, e não por etapas. Em uma modalidade, são divulgados um sistema e método que converte a aproximação passo a passo dos modelos para um fluxo contínuo a fim de imitar o fluxo natural do discurso.
[00013] A figura 1 é um diagrama ilustrando uma modalidade de um sistema tradicional para sintetizar discurso, indicado, geralmente, em 100. Os componentes básicos de um sistema de síntese de discurso podem compreender um módulo de treinamento 105, que pode compreender um corpus de discurso 106, especificação linguística 107, um módulo de parametrização 108, e um módulo de síntese 110 que pode compreender texto 111, etiquetas de contexto 112, um modelo estatístico paramétrico 113 e um módulo de síntese de discurso 114.
[00014] O módulo de treinamento 105 pode ser usado para treinar o modelo paramétrico estatístico 113. O módulo de treinamento 105 pode compreender um corpus de discurso 106, especificações linguísticas 107 e um módulo de parametrização 108. O corpus de discurso 106 pode ser convertido em especificações linguísticas 107. O corpus de discurso pode compreender a língua escrita ou texto que foi escolhido para cobrir sons feitos em uma língua, no contexto de sílabas e palavras que compõem o vocabulário da língua. A especificação linguística 107 indexa a forma armazenada de um corpus de discurso, ou o modelo de corpus de discurso, a fim de gerar forma de onda de discurso. Discurso em si não é armazenado, mas o modelo do discurso é armazenado. O modelo compreende a média e a covariância da função de probabilidade em que se encaixam os parâmetros de discurso.
[00015] O módulo de sintetização 110 pode armazenar o modelo de discurso e gerar discurso. O módulo de sintetização 110 pode compreender texto 111, etiquetas de contexto 112, um modelo paramétrico estatístico 113, e um módulo de síntese de discurso 114. Etiquetas de contexto 112 representam as informações contextuais no texto 111, as quais podem ser de uma granularidade variada, tais como informações sobre sons do ambiente, palavras do ambiente, frases do ambiente, etc. As etiquetas de contexto 112 podem ser geradas para o texto provido a partir de um modelo de linguagem. O modelo paramétrico estatístico 113 pode compreender a média e a covariância da função de probabilidade em que se encaixam os parâmetros de discurso.
[00016] O módulo de síntese de discurso 114 recebe os parâmetros de discurso para o texto 111 e transforma os parâmetros em discurso sintetizado. Isso pode ser feito usando métodos padrões para transformar informações espectrais em sinais de domínio de tempo, tais como um filtro de aproximação de espectro mel log (MILSA).
[00017] A figura 2 é um diagrama ilustrando uma modalidade modificada de um sistema para sintetizar discurso usando geração de parâmetro, indicada geralmente em 200. Os componentes básicos de um sistema podem compreender componentes similares na figura 1, com a adição de um módulo de geração de parâmetro 205. Em um sistema de síntese de discurso paramétrico estatístico, o sinal de discurso é representado como um conjunto de parâmetros a uma taxa de quadros fixa. O módulo de geração de parâmetro 205 recebe o sinal de áudio do modelo de parâmetro estatístico 113 e o transforma. Em uma modalidade, o sinal de áudio no domínio do tempo foi transformado matematicamente para outro domínio, tal como o domínio espectral, para processamento mais eficiente. A informação espectral é então armazenada na forma de coeficientes de frequência, tais como f0 e MCEPs para representar o sinal de discurso. A geração de parâmetro é tal que tem um modelo de discurso indexado como entrada, e os parâmetros espectrais como saída. Em uma modalidade, são utilizadas técnicas Hidden Markov Model (HMM). O modelo 113 compreende não apenas a distribuição estatística dos parâmetros, também chamados coeficientes estáticos, mas também suas taxas de mudança. A taxa de mudança pode ser descrita como tendo derivados de primeira ordem chamados coeficientes delta e derivados de segunda ordem, chamados coeficientes de delta-delta. Os três tipos de parâmetros são empilhados juntos em um vetor de observação único para o modelo. O processo de geração de parâmetros é descrito mais detalhadamente abaixo.
[00018] No modelo estatístico tradicional dos parâmetros, apenas a média e a variância do parâmetro são consideradas. O parâmetro médio é usado para cada estado a fim de gerar parâmetros. Isto, por partes, gera trajetórias de parâmetro constante, o que altera o valor abruptamente em cada transição de estado, e é contrario ao comportamento do som natural. Adicionalmente, as propriedades estatísticas do coeficiente estático só são consideradas, e não a velocidade com que os parâmetros alteram valor. Assim, as propriedades estatísticas dos derivados de primeira e segunda ordem devem ser consideradas, tal como na modalidade modificada descrita na figura 2.
[00019] O parâmetro geração de probabilidade máxima (MLPG) é um método que considera as propriedades estatísticas dos coeficientes estáticos e os derivados. No entanto, este método tem um grande custo computacional, o que aumenta com o comprimento da sequência, e, portanto, é impraticável implementar em um sistema de tempo real. Um método mais eficiente é descrito abaixo, o qual gera parâmetros baseados em segmentos linguísticos ao invés da mensagem de texto completa. Um segmento linguístico pode referir-se a qualquer grupo de palavras ou sentenças que possam ser separados por etiquetas de contexto "pausa" em um sistema TTS.
[00020] A figura 3 é um fluxograma ilustrando uma modalidade de trajetórias de geração de parâmetro, indicadas, geralmente, em 300. Trajetórias de parâmetro são geradas com base em segmentos linguísticos ao invés de mensagem de texto completa. Anterior à geração do parâmetro, uma sequência de estado pode ser escolhida usando um modelo de duração presente no modelo de parâmetro estatístico 113. Isto determina quantos quadros serão gerados a partir de cada estado no modelo de parâmetro estatístico. Como hipotetizado pelo módulo de geração de parâmetro, os parâmetros não variam enquanto no mesmo estado. Essa trajetória irá resultar em um sinal de discurso de má qualidade. No entanto, se uma trajetória mais suave é estimada usando informações a partir de parâmetros delta e delta-delta, a saída de síntese de discurso é mais natural e inteligível.
[00021] Na operação 305, a sequência de estado é escolhida. Por exemplo, a sequência de estado pode ser escolhida usando o modelo de parâmetro estatístico 113, o que determina quantos quadros serão gerados a partir de cada estado no modelo 113. O controle é passado para a operação 310 e o processo 300 continua.
[00022] Na operação 310, segmentos são particionados. Em uma modalidade, a partição de segmento é definida como uma sequência de estados englobadas pelo modelo de pausa. O controle é passado para pelo menos uma das operações 315a e 315b e o processo 300 continua.
[00023] Nas operações 315a e 315b, parâmetros espectrais são gerados. Os parâmetros espectrais representam o sinal de discurso e compreendem pelo menos um da frequência fundamental 315a e MCEPs, 315b. Estes processos são descritos mais detalhadamente abaixo nas figuras 5 e 6. O controle é passado para a operação 320 e o processo 300 continua.
[00024] Na operação 320 a trajetória de parâmetro é criada. Por exemplo, a trajetória de parâmetro pode ser criada ao concatenar cada fluxo de parâmetro através de todos os estados ao longo do domínio de tempo. Com efeito, cada dimensão no modelo paramétrico terá uma trajetória. Uma ilustração de uma criação de trajetória de parâmetro para uma dimensão tal é geralmente provida na figura 4. Figura 4 (copiada de: KING, Simon, “A beginners’ guide to statistical parametric speech synthesis” The Centre for Speech Technology Research, University of Edinburgh, UK, 24 julho 2010, página 9) é uma modalidade generalizada a partir de uma trajetória da MLPG que tenha sido suavizada.
[00025] A figura 5 é um fluxograma ilustrando uma modalidade de um processo para geração de parâmetro espectral fundamental, geralmente indicado em 500. O processo pode ocorrer no módulo de geração de parâmetro 205 (figura 2), após o texto de entrada ser dividido em segmentos linguísticos. Parâmetros são previstos para cada segmento.
[00026] Na operação 505, o quadro é incrementado. Por exemplo, um quadro pode ser examinado para segmentos linguísticos que podem conter vários segmentos vozeados. O fluxo de parâmetro pode ser baseado em unidades de quadro tais que i = 1 representa o primeiro quadro, i = 2 representa o segundo quadro, etc. Para incremento de quadro, o valor para "i" é aumentado por um intervalo desejado. Em uma modalidade, o valor para "i" pode ser aumentado por 1 de cada vez. O controle é passado à operação 510 e o processo 500 continua.
[00027] Na operação 510, é determinado se segmentos linguísticos estão presentes no sinal ou não. Se for determinado que esses segmentos linguísticos estão presentes, controle é passado para operação 515 e o processo 500 continua. Se for determinado que segmentos linguísticos não estão presentes, controle é passado para operação 525 e o processo 500 continua.
[00028] A determinação na operação 510 pode ser feita com base em quaisquer critérios adequados. Em uma modalidade, a partição de segmento dos segmentos linguísticos é definida como uma sequência de estados englobada pelo modelo de pausa.
[00029] Na operação 515, um ajuste de variação global é realizado. Por exemplo, a variância global pode ser usada para ajustar a variância do segmento linguístico. A trajetória f0 pode tender a ter um intervalo dinâmico menor se em comparação ao som natural devido ao uso da média de coeficiente estático e do coeficiente delta na geração de parâmetro. Dimensionamento de variância pode expandir o intervalo dinâmico da trajetória f0 para que o sinal sintetizado soe mais vívido. O controle é passado para a operação 520 e o processo 500 continua.
[00030] Na operação 520, uma conversão para o domínio de frequência linear é realizada na frequência fundamental de domínio de registro e o processo 500 termina.
[00031] Na operação 525, é determinado se a vocalização já começou ou não. Se for determinado que a vocalização não começou, controle é passado para operação 530 e o processo 500 continua. Se for determinado que vocalização começou, controle é passado para operação 535 e o processo 500 continua.
[00032] A determinação na operação 525 pode ser baseada em quaisquer critérios adequados. Em uma modalidade, quando o modelo f0 prevê valores válidos para f0, o segmento é considerado um segmento vozeado, e quando o modelo f0 prevê zeros, o segmento é considerado um segmento desvozeado.
[00033] Na operação 530, o quadro foi determinado como sendo desvozeados. O parâmetro espectral para esse quadro é 0, tal que f0(i) = 0. O controle é passado novamente à operação 505 e o processo 500 continua.
[00034] Na operação 535, o quadro foi determinado como sendo vozeado, e é determinado, adicionalmente, se a vocalização está no primeiro quadro ou não. Se for determinado que a vocalização está no primeiro quadro, controle é passado para operação 540 e o processo 500 continua. Se for determinado que a vocalização não está no primeiro quadro, controle é passado para operação 545 e o processo 500 continua.
[00035] A determinação na operação 535 pode ser baseada em quaisquer critérios adequados. Em uma modalidade, isto é baseado em valores f0 previstos, e, em outra modalidade, ele poderia basear-se em um modelo específico para prever a vocalização.
[00036] Na operação 540, o parâmetro espectral para o primeiro quadro é a média do segmento, tal que f0(i)=f0_mean(i). O controle é passado novamente à operação 505 e o processo 500 continua.
[00037] Na operação 545, é determinado se o valor de delta precisa ser ajustado ou não. Se for determinado que o valor de delta precisa ser ajustado, controle é passado para operação 550 e o processo 500 continua. Se for determinado que o valor de delta não precisa ser ajustado, controle é passado para operação 555 e o processo 500 continua.
[00038] A determinação na operação 545 pode ser baseada em quaisquer critérios adequados. Por exemplo, pode ser preciso realizar um ajuste a fim de controlar a mudança de parâmetro para cada quadro para um nível desejado.
[00039] Na operação 550, o delta é fixado. O f0_deltaMean(i) pode ser representado como f0_new_deltaMean(i) após fixação. Se a fixação não for realizada, então o f0_new_deltaMean(i) é equivalente a f0_deltaMean(i). O objetivo de fixar o delta é garantir que a mudança de parâmetro para cada quadro seja controlada a um nível desejado. Se a mudança for muito grande e perdurar ao longo de vários quadros, o intervalo da trajetória de parâmetro não será no intervalo natural desejado do som. O controle é passado à operação 555 e o processo 500 continua.
[00040] Na operação 555, o valor do parâmetro atual é atualizado para ser o valor previsto mais o valor de delta para o parâmetro, tal que f0(i) = f0(i-1) + f0_new_deltaMean(i). Isto ajuda a trajetória a deslocar-se acima ou abaixo, conforme o modelo. O controle é então passado à operação 560 e o processo 500 continua.
[00041] Na operação 560, é determinado se a voz já começou ou não. Se for determinado que a voz não começou, controle é passado para operação 505 e o processo 500 continua. Se for determinado que a voz terminou, controle é passado para operação 565 e o processo 500 continua.
[00042] A determinação na operação 560 pode ser determinada em quaisquer critérios adequados. Em uma modalidade, se os valores f0 tornarem-se zero em um número de quadros consecutivos, isto pode indicar que a voz terminou.
[00043] Na operação 565, uma mudança de média é executada. Por exemplo, uma vez que todos os quadros de voz, ou segmentos vozeados, tenham terminado, a média do segmento de voz pode ser ajustada para o valor desejado. Ajuste de média também pode fazer com que a trajetória de parâmetro entre no intervalo natural desejado do som. O controle é passado à operação 570 e o processo 500 continua.
[00044] Na operação 570 o segmento de voz é suavizado. Por exemplo, a trajetória de parâmetro gerados pode ter abruptamente mudado em algum ponto, o que faz o discurso sintetizado soar chilreada e saltitante. Função de janela pode fazer a trajetória f0 mais suave e o som de discurso sintetizado mais natural. O controle é passado novamente à operação 505 e o processo 500 continua. O processo pode ficar em ciclo continuamente por qualquer número de vezes necessárias. Cada quadro pode ser processado até o segmento linguístico terminar, segmentos tais que podem conter vários segmentos vozeados. A variância do segmento linguístico pode ser ajustada com base na variância global. Devido ao meio de coeficientes estáticos e coeficientes delta serem usados na geração de parâmetro, a trajetória de parâmetro pode ter intervalo dinâmico menor se comparado ao som natural. Um método de dimensionamento de variância pode ser utilizado para expandir o intervalo dinâmico da trajetória de parâmetro para que o sinal sintetizado não seja abafado. Os parâmetros espectrais podem ser convertidos a partir do domínio de registro para o domínio linear.
[00045] A figura 6 é um fluxograma ilustrando uma modalidade geração de MCEPs, indicada, geralmente, em 600. O processo pode ocorrer no módulo de geração de parâmetro 205 (figura 2).
[00046] Na operação 605, o valor do parâmetro de saída é inicializado. Em uma modalidade, o parâmetro de saída pode ser inicializado no momento i = 0 porque o valor do parâmetro de saída é dependente do parâmetro gerado para o quadro anterior. Assim, o mcep(0) inicial = mcep_mean(1). O controle é passado à operação 610 e o processo 600 continua.
[00047] Na operação 610 o quadro é incrementado. Por exemplo, um quadro pode ser examinado para segmentos linguísticos que podem conter vários segmentos vozeados. O fluxo de parâmetro pode ser baseado em unidades de quadro tais que i = 1 representa o primeiro quadro, i = 2 representa o segundo quadro, etc. Para incremento de quadro, o valor para "i" é aumentado por um intervalo desejado. Em uma modalidade, o valor para "i" pode ser aumentado por 1 de cada vez. O controle é passado à operação 615 e o processo 600 continua.
[00048] Na operação 615 é determinado se o segmento já terminou ou não. Se for determinado que o segmento terminou, controle é passado para operação 620 e o processo 600 continua. Se for determinado que o segmento não começou, controle é passado para operação 630 e o processo continua.
[00049] A determinação na operação 615 é feita usando as informações do módulo linguístico, bem como a existência de pausa.
[00050] Na operação 620 o segmento de voz é suavizado. Por exemplo, a trajetória de parâmetro gerados pode ter abruptamente mudado em algum ponto, o que faz o discurso sintetizado soar chilreada e saltitante. Função de janela pode fazer a trajetória mais suave e o som de discurso sintetizado mais natural. O controle é passado à operação 625 e o processo 600 continua.
[00051] Na operação 625, um ajuste de variação global é realizado. Por exemplo, a variância global pode ser usada para ajustar a variância do segmento linguístico. A trajetória pode tender a ter um intervalo dinâmico menor se em comparação ao som natural devido ao uso da média de coeficiente estático e do coeficiente delta na geração de parâmetro. Dimensionamento de variância pode expandir o intervalo dinâmico da trajetória para que o sinal sintetizado não soe abafado. O processo 600 termina.
[00052] Na operação 630, é determinado se a vocalização já começou ou não. Se for determinado que a vocalização não começou, controle é passado para operação 635 e o processo 600 continua. Se for determinado que vocalização começou, controle é passado para operação 540 e o processo 600 continua.
[00053] A determinação na operação 630 pode ser feita com base em quaisquer critérios adequados. Em uma modalidade, quando o modelo f0 prevê valores válidos para f0, o segmento é considerado um segmento vozeado, e quando o modelo f0 prevê zeros, o segmento é considerado um segmento desvozeado.
[00054] Na operação 635, o parâmetro espectral é determinado. O parâmetro espectral para o quadro torna-se mcep(i) = (mcep(i- 1)+mcep_mean(i))/2. O controle é passado novamente à operação 610 e o processo 600 continua.
[00055] Na operação 640 o quadro foi determinado como sendo vozeado, e é determinado, adicionalmente, se a voz está no primeiro quadro ou não. Se for determinado que a voz está no primeiro quadro, controle é passado novamente para a operação 635 e o processo 600 continua. Se for determinado que a voz não está no primeiro quadro, controle é passado para operação 645 e o processo 500 continua.
[00056] Na operação 645 a voz não está no primeiro quadro e o parâmetro espectral torna-se mcep(i) = (mcep(i- 1)+mcep_delta(i)+mcep_mean(i))/2. O controle é passado novamente à operação 610 e o processo 600 continua. Em uma modalidade, MCEPs múltiplos podem estar presentes no sistema. O processo 600 pode ser repetido qualquer número de vezes até que todos os MCEPs forem processados.
[00057] Embora a invenção tenha sido ilustrada e descrita em detalhes nas figuras e descrição acima, a mesma é para ser considerada como ilustrativa e não restritiva em caráter, subentendendo-se que somente a modalidade preferencial foi mostrada e descrita e que todas as equivalentes, alterações e modificações que vêm dentro do espírito da invenção conforme descritas neste documento e/ou pelas seguintes reivindicações que se deseja que sejam protegidas.
[00058] Portanto, o escopo apropriado da presente invenção deve ser determinado apenas pela interpretação mais ampla das reivindicações anexas de modo a abranger todas as tais modificações, bem como todas as relações equivalentes àquelas ilustradas nas figuras e descritas na especificação.
Claims (25)
1. Sistema (110) para sintetizar discurso para um texto provido (111) caracterizado pelo fato de que compreende: a. meios para gerar etiquetas de contexto (112) para dito texto provido (111), em que os meios para gerar etiquetas de contexto (112) são configurados para particionar dito texto provido em uma sequência de frases e cada frase em uma pluralidade de quadros; b. meios para gerar (113) um conjunto de parâmetros para as etiquetas de contexto (112) geradas para dito texto provido (111) usando um modelo de discurso, em que os meios para gerar (113) um conjunto de parâmetros são configurados para gerar um conjunto de parâmetros compreendendo um meio, uma variância, um coeficiente delta e um coeficiente delta-delta para cada um da pluralidade dos quadros; c. meios para processar (205) dito conjunto de parâmetros gerado, em que ditos meios para processar são capazes de dimensionamento de variância, em que os meios para processar (205) dito conjunto de parâmetros gerados são configurados para gerar um conjunto de parâmetros processados compreendendo pelo menos um coeficiente delta fixado de forma a controlar a mudança de parâmetro para cada quadro para um nível desejado; e d. meios para sintetizar discurso (114) para dito texto provido (111), em que os ditos meios para sintetizar discurso são capazes de aplicar o conjunto de parâmetros processados para sintetizar discurso.
2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o dito modelo de discurso compreende pelo menos uma distribuição estatística de parâmetros espectrais e uma taxa de mudança de ditos parâmetros espectrais.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o dito modelo de discurso compreende um modelo paramétrico estatístico preditivo.
4. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que os ditos meios para gerar etiquetas de contexto (112) para um texto provido compreendem um modelo de linguagem.
5. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que os ditos meios para sintetizar discurso (114) são capazes de transformar informações espectrais nos sinais de domínio de tempo.
6. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que os meios para processamento (205) de um conjunto de parâmetros são capazes de determinar a taxa de mudança de ditos parâmetros e gerar uma trajetória dos parâmetros.
7. Método para gerar parâmetros, caracterizado pelo fato de que usa um fluxo de recurso contínuo no texto provido para uso na síntese de discurso e compreende as etapas de: a. particionar dito texto provido em uma sequência de frases e cada frase em uma pluralidade de quadros; b. gerar parâmetros para a dita sequência de frases usando um modelo de discurso, os parâmetros gerados compreendendo um meio, uma variância, um coeficiente delta, e um coeficiente delta-delta para cada quadro da pluralidade de quadros; e c. processar os parâmetros gerados para obter um outro conjunto de parâmetros, em que dito outro conjunto de parâmetros tem uma trajetória mais suave do que os parâmetros gerados determinaram de acordo com o coeficiente delta e o coeficiente delta-delta dos parâmetros gerados, e em que o processo compreende a fixação do coeficiente delta de forma a controlar a mudança de parâmetro de cada quadro para um nível desejado.
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o dito particionamento é realizado com base em conhecimento linguístico.
9. Método, de acordo com a reivindicação 7, caracterizado pelo fato de o que dito modelo de discurso compreende um modelo paramétrico estatístico preditivo.
10. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que os parâmetros para as frases compreendem parâmetros espectrais.
11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que os parâmetros espectrais compreendem um ou mais dos seguintes: valores de parâmetro espectral baseados em frase, taxa de mudança de parâmetros espectrais, valores da envolvente espectral e taxa de variação da envolvente espectral.
12. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que as frases compreendem um agrupamento de palavras capaz de ser separado por pelo menos uma dentre: pausas linguísticas e pausas acústicas
13. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o dito particionamento de um texto provido em uma sequência de frases compreende, adicionalmente, as etapas de: a. gerar um parâmetro de saída com base em parâmetros previstos, em que ditos parâmetros previstos são determinados por um modelo de corpus de discurso como parâmetros que representam o texto; b. incrementar um valor de incremento de quadro; e c. determinar o estado de uma frase, em que 1. se a frase tiver começado, determinar se vocalização começou ao prever valores para f0; determinar que vocalização começou em resposta a prever valores diferente de zero para f0; e determinar que vocalização não começou em resposta a prever valores zero para f0; 1) Se a vocalização começou, ajustar o vetor com base nos parâmetros de fonemas vozeados e reiniciar a etapa (c); caso contrário; e 2) Se a vocalização terminou, ajustar o vetor com base nos parâmetros de fonemas desvozeados e reiniciar a partir da etapa (c); e ii. se a frase terminou, suavizar o parâmetro de saída e realizar um ajuste de variação global ao realizar dimensionamento de variância para expandir a extensão dinâmica da trajetória.
14. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que gerar parâmetros compreende gerar uma trajetória de parâmetro, a qual compreende, adicionalmente, as etapas de: a. inicializar um primeiro elemento de uma pluralidade de parâmetros de saída gerados; b. determinar um valor de incremento de quadro; e c. determinar se um segmento linguístico está presente, o segmento linguístico se referindo a uma ou mais palavras separadas por uma etiqueta de contexto de “pausa” em um sistema de texto para discurso, em que i. se o segmento linguístico não estiver presente, determinar se vocalização começou ao prever valores para f0; determinar que vocalização começou em resposta a prever valores diferente de zero para f0; e determinar vocalização não começou em reposta a prever valores zero para f0; 1) se a vocalização não começou, ajustar os parâmetros de saída com base nos parâmetros de fonemas vozeados e reiniciar o processo a partir da etapa (a); 2) Se a vocalização começou, determinar se a voz está em um primeiro quadro, em que, se a voz está no primeiro quadro, configurar a frequência fundamental do primeiro quadro para um meio da frequência fundamental do segmento, e se a voz não está no primeiro quadro, realizar uma fixação da frequência fundamental do quadro. ii. se o segmento linguístico está presente, remover mudanças abruptas da trajetória de parâmetro e realizar um ajuste de variação global ao realizar dimensionamento de variância para expandir a extensão dinâmica da trajetória.
15. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que a etapa c.i. compreende, adicionalmente, a etapa de determinar se vocalização terminou, em que, se vocalização não terminou, repete-se o método a partir da etapa a.; e, se a vocalização terminou, ajusta-se o coeficiente médio para um valor desejado e realiza-se uma função de janela no segmento.
16. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que a dita inicialização é realizada em tempo zero.
17. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que o valor de incremento de quadro compreende um número inteiro desejado.
18. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que o dito número inteiro desejado é 1.
19. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que determinar se um quadro é vozeado compreende examinar valores previstos para os parâmetros espectrais, em que um segmento vozeado compreende valores válidos.
20. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que determinar se um segmento linguístico está presente compreende examinar uma sequência de estados para a partição do segmento.
21. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o método para gerar parâmetros compreende, ainda, a geração de parâmetros mel-cepstral, que por sua vez compreende as etapas de: a. inicializar um primeiro elemento de um vetor do parâmetro gerado; b. determinar um valor de incremento de quadro; e c. determinar se o quadro é vozeado, em que i. se o segmento for desvozeado, aplicar a equação matemática: mcep(i) = (mcep(i-1)+mcep_mean(i))/2; ii. se o segmento é vozeado e está em um primeiro quadro, aplica-se a equação matemática: mcep(i) = (mcep(i-1)+mcep_mean(i))/2; e iii. se o segmento é vozeado e não está em um primeiro quadro, aplica-se a equação matemática: mcep(i) = (mcep(i- 1)+mcep_delta(i)+mcep_mean(i))/2; e d. Determinar se um segmento linguístico terminou, em que i. Se o segmento linguístico terminou, remover mudanças abruptas da trajetória de parâmetro e realizar um ajuste de variação global; e ii. Se o segmento linguístico não terminou, repetir o início do processo com etapa (a).
22. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que a dita inicialização é realizada em tempo zero.
23. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que o valor de incremento de quadro compreende um número inteiro desejado.
24. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que o dito número inteiro desejado é 1.
25. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que determinar se um quadro é vozeado compreende examinar valores previstos para os parâmetros espectrais, em que um segmento vozeado compreende valores válidos.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461927152P | 2014-01-14 | 2014-01-14 | |
US61/927,152 | 2014-01-14 | ||
PCT/US2015/011348 WO2015108935A1 (en) | 2014-01-14 | 2015-01-14 | System and method for synthesis of speech from provided text |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112016016310A2 BR112016016310A2 (pt) | 2017-08-08 |
BR112016016310B1 true BR112016016310B1 (pt) | 2022-06-07 |
Family
ID=53521887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112016016310-9A BR112016016310B1 (pt) | 2014-01-14 | 2015-01-14 | Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros |
Country Status (9)
Country | Link |
---|---|
US (2) | US9911407B2 (pt) |
EP (1) | EP3095112B1 (pt) |
JP (1) | JP6614745B2 (pt) |
AU (2) | AU2015206631A1 (pt) |
BR (1) | BR112016016310B1 (pt) |
CA (1) | CA2934298C (pt) |
CL (1) | CL2016001802A1 (pt) |
WO (1) | WO2015108935A1 (pt) |
ZA (1) | ZA201604177B (pt) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724685B (zh) | 2015-09-16 | 2024-04-02 | 株式会社东芝 | 语音合成模型学习装置、语音合成模型学习方法及存储介质 |
US10249314B1 (en) * | 2016-07-21 | 2019-04-02 | Oben, Inc. | Voice conversion system and method with variance and spectrum compensation |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
CN108962217B (zh) * | 2018-07-28 | 2021-07-16 | 华为技术有限公司 | 语音合成方法及相关设备 |
CN109285535A (zh) * | 2018-10-11 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于前端设计的语音合成方法 |
CN109785823B (zh) * | 2019-01-22 | 2021-04-02 | 中财颐和科技发展(北京)有限公司 | 语音合成方法及系统 |
US11587548B2 (en) * | 2020-06-12 | 2023-02-21 | Baidu Usa Llc | Text-driven video synthesis with phonetic dictionary |
WO2021248473A1 (en) | 2020-06-12 | 2021-12-16 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0764939B1 (en) * | 1995-09-19 | 2002-05-02 | AT&T Corp. | Synthesis of speech signals in the absence of coded parameters |
US6567777B1 (en) * | 2000-08-02 | 2003-05-20 | Motorola, Inc. | Efficient magnitude spectrum approximation |
US6970820B2 (en) * | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
US6792407B2 (en) * | 2001-03-30 | 2004-09-14 | Matsushita Electric Industrial Co., Ltd. | Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems |
GB0113570D0 (en) * | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Audio-form presentation of text messages |
US20030028377A1 (en) * | 2001-07-31 | 2003-02-06 | Noyes Albert W. | Method and device for synthesizing and distributing voice types for voice-enabled devices |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US7096183B2 (en) * | 2002-02-27 | 2006-08-22 | Matsushita Electric Industrial Co., Ltd. | Customizing the speaking style of a speech synthesizer based on semantic analysis |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
WO2004032112A1 (en) * | 2002-10-04 | 2004-04-15 | Koninklijke Philips Electronics N.V. | Speech synthesis apparatus with personalized speech segments |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
US8886538B2 (en) | 2003-09-26 | 2014-11-11 | Nuance Communications, Inc. | Systems and methods for text-to-speech synthesis using spoken example |
WO2005071663A2 (en) * | 2004-01-16 | 2005-08-04 | Scansoft, Inc. | Corpus-based speech synthesis based on segment recombination |
US7693719B2 (en) * | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
US20100030557A1 (en) * | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
JP4455610B2 (ja) * | 2007-03-28 | 2010-04-21 | 株式会社東芝 | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 |
JP5457706B2 (ja) * | 2009-03-30 | 2014-04-02 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
EP2507794B1 (en) * | 2009-12-02 | 2018-10-17 | Agnitio S.L. | Obfuscated speech synthesis |
US20120143611A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Trajectory Tiling Approach for Text-to-Speech |
CN102651217A (zh) | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
CN102270449A (zh) * | 2011-08-10 | 2011-12-07 | 歌尔声学股份有限公司 | 参数语音合成方法和系统 |
JP5631915B2 (ja) * | 2012-03-29 | 2014-11-26 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 |
CA2939117C (en) | 2014-03-04 | 2022-01-18 | Interactive Intelligence Group, Inc. | Optimization of audio fingerprint search |
-
2015
- 2015-01-14 JP JP2016542126A patent/JP6614745B2/ja active Active
- 2015-01-14 AU AU2015206631A patent/AU2015206631A1/en not_active Abandoned
- 2015-01-14 CA CA2934298A patent/CA2934298C/en active Active
- 2015-01-14 WO PCT/US2015/011348 patent/WO2015108935A1/en active Application Filing
- 2015-01-14 US US14/596,628 patent/US9911407B2/en active Active
- 2015-01-14 BR BR112016016310-9A patent/BR112016016310B1/pt active IP Right Grant
- 2015-01-14 EP EP15737007.3A patent/EP3095112B1/en active Active
-
2016
- 2016-06-21 ZA ZA2016/04177A patent/ZA201604177B/en unknown
- 2016-07-14 CL CL2016001802A patent/CL2016001802A1/es unknown
-
2018
- 2018-01-18 US US15/874,612 patent/US10733974B2/en active Active
-
2020
- 2020-05-29 AU AU2020203559A patent/AU2020203559B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
AU2020203559B2 (en) | 2021-10-28 |
US20180144739A1 (en) | 2018-05-24 |
JP6614745B2 (ja) | 2019-12-04 |
ZA201604177B (en) | 2018-11-28 |
US20150199956A1 (en) | 2015-07-16 |
EP3095112A1 (en) | 2016-11-23 |
AU2015206631A1 (en) | 2016-06-30 |
AU2020203559A1 (en) | 2020-06-18 |
CA2934298C (en) | 2023-03-07 |
EP3095112A4 (en) | 2017-09-13 |
JP2017502349A (ja) | 2017-01-19 |
WO2015108935A1 (en) | 2015-07-23 |
BR112016016310A2 (pt) | 2017-08-08 |
CL2016001802A1 (es) | 2016-12-23 |
US9911407B2 (en) | 2018-03-06 |
CA2934298A1 (en) | 2015-07-23 |
US10733974B2 (en) | 2020-08-04 |
NZ721092A (en) | 2021-03-26 |
EP3095112B1 (en) | 2019-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020203559B2 (en) | System and method for synthesis of speech from provided text | |
US20170309271A1 (en) | Speaking-rate normalized prosodic parameter builder, speaking-rate dependent prosodic model builder, speaking-rate controlled prosodic-information generation device and prosodic-information generation method able to learn different languages and mimic various speakers' speaking styles | |
US9972300B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
Ma et al. | Incremental text-to-speech synthesis with prefix-to-prefix framework | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
AU2020205275B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
Pradhan et al. | A syllable based statistical text to speech system | |
Mustafa et al. | Emotional speech acoustic model for Malay: iterative versus isolated unit training | |
Oshima et al. | Non-native speech synthesis preserving speaker individuality based on partial correction of prosodic and phonetic characteristics | |
Mustafa et al. | Developing an HMM-based speech synthesis system for Malay: a comparison of iterative and isolated unit training | |
Kubo et al. | Grapheme-to-phoneme conversion based on adaptive regularization of weight vectors. | |
Jokisch et al. | Multi-level rhythm control for speech synthesis using hybrid data driven and rule-based approaches | |
Anumanchipalli et al. | A style capturing approach to F0 transformation in voice conversion | |
NZ721092B2 (en) | System and method for synthesis of speech from provided text | |
Astrinaki et al. | sHTS: A streaming architecture for statistical parametric speech synthesis | |
Matsuda et al. | Applying generation process model constraint to fundamental frequency contours generated by hidden-Markov-model-based speech synthesis | |
Hentschel et al. | Exploiting imbalanced textual and acoustic data for training prosodically-enhanced RNNLMs | |
Shah et al. | Deterministic annealing EM algorithm for developing TTS system in Gujarati | |
Wu et al. | Development of hmm-based malay text-to-speech system | |
Sulír et al. | The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model | |
Kuczmarski | Overview of HMM-based Speech Synthesis Methods | |
Petrov et al. | Structured Acoustic Models for Speech Recognition | |
Majji | Building a Tamil Text-to-Speech Synthesizer using Festival | |
Kameoka | Probabilistic Modeling of Pitch Contours Toward Prosody Synthesis and Conversion | |
Sazhok | Phoneme Recognition Output Post-Processing for Word Sequences Decoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 14/01/2015, OBSERVADAS AS CONDICOES LEGAIS |