BR112016027537B1 - Método para criar um banco de dados de pulso glotal a partir de um sinal de discurso, em um sistema de síntese de discurso, método para criar modelos paramétricos para o uso no treinamento do sistema de síntese de discurso executado por um processador de computador genérico, e método para sintetizar o discurso usando o texto de entrada - Google Patents

Método para criar um banco de dados de pulso glotal a partir de um sinal de discurso, em um sistema de síntese de discurso, método para criar modelos paramétricos para o uso no treinamento do sistema de síntese de discurso executado por um processador de computador genérico, e método para sintetizar o discurso usando o texto de entrada Download PDF

Info

Publication number
BR112016027537B1
BR112016027537B1 BR112016027537-3A BR112016027537A BR112016027537B1 BR 112016027537 B1 BR112016027537 B1 BR 112016027537B1 BR 112016027537 A BR112016027537 A BR 112016027537A BR 112016027537 B1 BR112016027537 B1 BR 112016027537B1
Authority
BR
Brazil
Prior art keywords
glottal
speech
pulse
database
signal
Prior art date
Application number
BR112016027537-3A
Other languages
English (en)
Other versions
BR112016027537A2 (pt
Inventor
Rajesh Dachiraju
Aravind Ganapathiraju
Original Assignee
Interactive Intelligence, Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interactive Intelligence, Inc filed Critical Interactive Intelligence, Inc
Publication of BR112016027537A2 publication Critical patent/BR112016027537A2/pt
Publication of BR112016027537B1 publication Critical patent/BR112016027537B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

método para criar um banco de dados de pulso glotal a partir de um sinal de discurso, para formar modelos paramétricos e para sintetizar o discurso usando o texto de entrada. um método é apresentado para formar o sinal de excitação para um modelo de pulso glotal com base no sistema de síntese de discurso paramétrico. em uma modalidade, valores de frequência fundamental são usados para formar o sinal de excitação. a excitação é modelada usando um pulso de fonte de voz selecionado a partir de um banco de dados de um determinado falante. o sinal de fonte de voz é segmentado em segmentos glotais, os quais são usados em representação de vetor para identificar o pulso glotal usado para formação do sinal de excitação. uso de uma nova métrica de distância e preservação dos sinais originais extraídos das amostras de voz de falantes ajuda a capturar informações de baixa frequência do sinal de excitação. além disso, artefatos de borda de segmento são removidos ao se aplicar um método de junção de segmento único para melhorar a qualidade do discurso sintético ao criar uma verdadeira representação da qualidade de voz de um falante.

Description

FUNDAMENTOS
[0001] A presente invenção diz respeito, em geral, aos sistemas e métodos de telecomunicação, bem como à síntese de discurso. Mais particularmente, a presente invenção refere-se à formação do sinal de excitação em um modelo oculto de Markov com base no sistema de síntese de discurso paramétrico estatístico.
RESUMO
[0002] Um método é apresentado para formar o sinal de excitação para um modelo de pulso glotal com base no sistema de síntese de discurso paramétrico. Em uma modalidade, valores de frequência fundamental são usados para formar o sinal de excitação. A excitação é modelada usando um pulso de fonte de voz selecionado a partir de um banco de dados de um determinado falante. O sinal de fonte de voz é segmentado em segmentos glotais, os quais são usados em representação de vetor para identificar o pulso glotal usado para formação do sinal de excitação. Uso de uma nova métrica de distância e preservação dos sinais originais extraídos das amostras de voz de falantes ajuda a capturar informações de baixa frequência do sinal de excitação. Além disso, artefatos de borda de segmento são removidos ao se aplicar um método de junção de segmento único para melhorar a qualidade do discurso sintético ao criar uma verdadeira representação da qualidade de voz de um falante.
[0003] Em uma modalidade, um método é apresentado para criar um banco de dados de pulso glotal de um sinal de discurso, compreendendo as etapas de: realização de pré-filtragem no sinal de discurso para obter um sinal pré-filtrado; análise do sinal pré-filtrado para obter parâmetros de filtragem inversa; execução de filtragem inversa do sinal de discurso usando os parâmetros de filtragem inversa; cálculo de um sinal residual de previsão linear integrada usando o sinal de discurso inversamente filtrado; identificação dos limites de segmento glotal no sinal de discurso; segmentação do sinal residual de previsão linear integrada em pulsos glotais usando os limites de segmento glotal identificados a partir do sinal de discurso; execução de normalização dos pulsos glotais; e formação do banco de dados de pulso glotal ao se coletar todos os pulsos glotais normalizados obtidos para o sinal de discurso.
[0004] Em outra modalidade, um método é apresentado para formar modelos paramétricos, compreendendo as etapas de: cálculo de uma métrica de distância de pulso glotal entre um número de pulsos glotais; agrupamento do banco de dados de pulso glotal em um número de grupos para determinar pulsos glotais centroides; formação de um banco de dados de vetor correspondente ao se associar um vetor com cada pulso glotal no banco de dados de pulso glotal, em que os pulsos glotais centroides e a métrica de distância são definidos matematicamente para determinar a associação; determinação de vetores próprios (Eigenvectors) do banco de dados de vetor; e formação de modelos paramétricos ao se associar um pulso glotal do banco de dados de pulso glotal para cada vetor próprio (Eigenvector) determinado.
[0005] Ainda em outra modalidade, um método é apresentado para sintetizar o discurso usando texto de entrada, compreendendo as etapas de: a) conversão do texto de entrada em legendas de telefone dependentes de contexto; b) processamento das legendas de telefone criadas na etapa (a) usando modelos paramétricos treinados para prever valores de frequência fundamental, duração do discurso sintetizado e recursos espectrais das legendas de telefone; c) criação de um sinal de excitação usando um pulso glotal próprio e dito um ou mais previstos dentre: valores de frequência fundamental, recursos espectrais de legendas de telefone e duração do discurso sintetizado; e d) combinação do sinal de excitação com os recursos espectrais das legendas de telefone usando um filtro para criar a saída de discurso sintético.
BREVE DESCRIÇÃO DOS DESENHOS
[0006] A Figura 1 é um diagrama ilustrando uma modalidade de um modelo oculto de Markov com base no sistema de texto para discurso.
[0007] A Figura 2 é um diagrama ilustrando uma modalidade de um sinal.
[0008] A Figura 3 é um diagrama ilustrando uma modalidade de criação de sinal de excitação.
[0009] A Figura 4 é um diagrama ilustrando uma modalidade de criação de sinal de excitação.
[0010] A Figura 5 é um diagrama ilustrando uma modalidade de limites de sobreposição.
[0011] A Figura 6 é um diagrama ilustrando uma modalidade de criação de sinal de excitação.
[0012] A Figura 7 é um diagrama ilustrando uma modalidade de identificação de pulso glotal.
[0013] A Figura 8 é um diagrama ilustrando uma modalidade de criação de banco de dados de pulso glotal.
DESCRIÇÃO DETALHADA
[0014] Com a finalidade de promover uma compreensão dos princípios da invenção, agora será feita referência às modalidades ilustradas nos desenhos e linguagem específica será usada para descrever os mesmos. Não obstante, será compreendido que nenhuma limitação do escopo da invenção é, desse modo, pretendida. Quaisquer alterações e modificações adicionais nas modalidades descritas e quaisquer outras aplicações dos princípios da invenção conforme descrito neste documento são contempladas, como normalmente ocorreria a um versado na técnica à qual se refere à invenção.
[0015] Assume-se que excitação seja, em geral, uma sequência quase periódica de impulsos para regiões com som. Cada sequência é separada da sequência anterior por alguma duração, tal como ,
Figure img0001
em HJ que representa o período de campo e representa a frequência fundamental. A excitação, em regiões sem som, é modelada como ruído branco. Em regiões com som, a excitação não é, na verdade, sequências de impulso. A excitação é, em vez disso, uma sequência de pulsos de fonte de voz, os quais ocorrem devido à vibração das pregas vocais. Os formatos dos pulsos podem variar dependendo de vários fatores, tais como o falante, o humor do falante, o contexto linguístico, emoções etc.
[0016] Pulsos de fonte foram tratados matematicamente como vetores pela normalização de comprimento (através de reamostragem) e alinhamento de impulso, conforme descrito na patente europeia EP 2242045 (concedida em 27 de junho de 2012, inventores Thomas Drugman, et al.). O comprimento final do sinal de pulso de fonte normalizada é reamostrado para atender o campo alvo. O pulso de fonte não é escolhido a partir de um banco de dados, mas obtido ao longo de uma série de cálculos que comprometem as características de pulso no domínio de frequência. Além disso, o sinal de excitação aproximado usado para criar um banco de dados de pulso não captura conteúdo de fonte de baixa frequência como não há nenhuma pré-filtragem feita ao determinar os coeficientes de previsão linear (LP), que são usados para filtragem inversa.
[0017] Em síntese de discurso paramétrico estatístico, sinais unitários de discurso são representados por um conjunto de parâmetros que podem ser usados para sintetizar o discurso. Os parâmetros podem ser aprendidos por modelos estatísticos, tais como HMMs, por exemplo. Em uma modalidade, o discurso pode ser representado como um modelo de filtro de origem, em que a fonte/excitação é um sinal que, quando passado através de um filtro apropriado, produz um determinado som. A Figura 1 é um diagrama ilustrando uma modalidade de um modelo oculto de Markov (HMM) com base no sistema de texto para discurso (TTS). Uma modalidade de um sistema exemplar pode conter duas fases, por exemplo, a fase de treinamento e a fase de síntese.
[0018] O banco de dados de discurso 105 pode conter uma quantidade de dados de discurso para uso na síntese de discurso. Durante a fase de treinamento, um sinal de discurso 106 é convertido em parâmetros. Os parâmetros podem ser compostos de parâmetros de excitação e parâmetros espectrais. Extração de parâmetro de excitação 110 e extração de parâmetro espectral 115 ocorre a partir do sinal de discurso 106 que viaja do banco de dados de discurso 105. Um modelo oculto de Markov 120 pode ser treinado usando estes parâmetros extraídos e os rótulos 107 do banco de dados de discurso 105. Qualquer número de modelos de HMM pode resultar do treinamento e esses HMMs dependentes de contexto são armazenados em um banco de dados 125.
[0019] A fase de síntese começa à medida que os HMMs dependentes de contexto 125 são usados para gerar parâmetros 140. A geração de parâmetro 140 pode utilizar entrada de um corpus de texto 130 a partir do qual discurso deve ser sintetizado. O texto 130 pode se submeter à análise 135 e os rótulos extraídos 136 são usados na geração de parâmetros 140. Em uma modalidade, excitação e parâmetros espectrais podem ser gerados em 140
[0020] Os parâmetros de excitação podem ser usados para gerar o sinal de excitação 145, o qual é introduzido, juntamente com os parâmetros espectrais, em um filtro de síntese 150. Parâmetros de filtro são, em geral, coeficientes cepstrais de frequência Mel (MFCC) e são frequentemente modelados por uma série de tempo estatístico ao se usar HMMs. Os valores previstos do filtro e a frequência fundamental como valores de série de tempo, podem ser usados para sintetizar o filtro ao se criar um sinal de excitação a partir dos valores de frequência fundamental e os valores de MFCC usados para formar o filtro.
[0021] Discurso sintetizado 155 é produzido quando o sinal de excitação passa através do filtro. A formação do sinal de excitação 145 é integral à qualidade do discurso de saída 155, ou sintetizado. Informações de baixa frequência da excitação não são capturadas. Deste modo, será apreciado que uma abordagem é necessária para capturar o conteúdo de fonte de baixa frequência do sinal de excitação e para melhorar a qualidade de discurso sintético.
[0022] A Figura 2 é uma ilustração gráfica de uma modalidade das regiões de sinal de um segmento de discurso, indicado, em geral, em 200. O sinal foi dividido em segmentos com base nos valores de frequência fundamental para categorias, tais como segmentos com som, sem som e em pausa. O eixo vertical 205 ilustra a frequência fundamental em Hertz (Hz) enquanto o eixo horizontal 210 representa a passagem de milissegundos (ms). A série de tempo 215, F0, representa a frequência fundamental. A região com som 220 pode ser vista como uma série de picos e pode ser referida como um segmento diferente de zero. Os segmentos diferentes de zero 220 podem ser concatenados para formar um sinal de excitação para o discurso inteiro, como descrito mais detalhadamente abaixo. A região sem som 225 é vista como não tendo nenhum pico na ilustração gráfica 200 e pode ser referida como segmentos zero. Os segmentos zero podem representar uma pausa ou um determinado segmento sem som pelas legendas de telefone.
[0023] A Figura 3 é um diagrama ilustrando uma modalidade de criação de sinal de excitação indicado, em geral, em 300. A Figura 3 ilustra a criação do sinal de excitação tanto para segmentos sem som quanto em pausa. Os valores de série de tempo de frequência fundamental, representados como F0, representam regiões de sinal 305 que são divididas em segmentos com som, sem som e em pausa com base nos valores F0.
[0024] Um sinal de excitação 320 é criado para segmentos sem som e em pausa. Onde pausas ocorrem, zeros (0) são colocados no sinal de excitação. Em regiões sem som, ruído branco de energia apropriada (em uma modalidade, esta pode ser determinada empiricamente por testes de audição) é usado como o sinal de excitação.
[0025] As regiões de sinal, 305, juntamente com o pulso glotal 310 são usados para geração de excitação 315 e posterior geração do sinal de excitação 320. O pulso glotal 310 compreende um pulso glotal próprio que foi identificado a partir do banco de dados de pulso glotal, cuja criação é descrita mais detalhadamente na Figura 8 abaixo.
[0026] A Figura 4 é um diagrama ilustrando uma modalidade de criação de sinal de excitação para um segmento com som indicado, em geral, em 400. Assume-se que um pulso glotal próprio foi identificado a partir do banco de dados de pulso glotal (descrito mais detalhadamente na Figura 7 abaixo). A região de sinal 405 compreende valores F0, os quais podem ser previstos por modelos, a partir do segmento com som. Os comprimentos dos segmentos F0, que podem ser representados por , são usados para determinar o comprimento do sinal de excitação usando a equação matemática:
[0027]
Figure img0002
[0028] Em que, representa a frequência de amostragem do sinal. Em um exemplo não limitante, o valor de 5/1000 representa o intervalo de durações de 5 ms para o qual os valores F0 são determinados. Deve notar-se que qualquer intervalo de uma duração designada de um tempo unitário pode ser usado. Outra matriz, designada como , é obtida ao se interpolar de forma linear a matriz .
[0029] A partir dos valores F0, limites glotais são criados, 410, os quais marcam os limites de campo do sinal de excitação dos segmentos com som na região de sinal 405. A matriz de período de campo pode ser calculada usando a seguinte equação matemática:
[0030]
Figure img0003
[0031] Limites de campo podem, então, ser calculados usando a matriz de período de campo determinado da seguinte maneira:
[0032]
Figure img0004
[0033] Em que 1
Figure img0005
e em que P(K+1) só cruza o comprimento da matriz
Figure img0006
.
[0034] O pulso glotal 415 é usado juntamente com os limites glotais identificados 410 na adição de sobreposição 420 de um início de pulso glotal em cada limite glotal. O sinal de excitação 425 é, então, criado através do processo de "costura", ou junção de segmento, para evitar efeitos de limite que são adicionalmente descritos nas Figuras 5 e 6.
[0035] A Figura 5 é um diagrama ilustrando uma modalidade de limites de sobreposição, indicado, em geral, em 500. A ilustração 500 representa uma série de pulsos glotais 515 e pulsos glotais de sobreposição 520 no segmento. O eixo vertical 505 representa a amplitude de excitação. O eixo horizontal 510 pode representar o número de quadro.
[0036] A Figura 6 é um diagrama ilustrando uma modalidade de criação de sinal de excitação para um segmento com som indicado, em geral, em 600. "Costura" pode ser usada para formar o sinal de excitação final de segmentos dublados (a partir da Figura 4), o qual é idealmente desprovido de efeitos de limite. Em uma modalidade, qualquer número de sinais de excitação diferentes pode ter sido formado através do método de adição de sobreposição ilustrado na Figura 4 e no diagrama 500 (Figura 5). Os sinais de excitação diferentes podem ter uma quantidade constantemente crescente de alterações em limites glotais 605 e uma quantidade igual de alteração circular à esquerda 630 para o sinal de pulso glotal. Em uma modalidade, se o sinal de pulso glotal 615 for de um comprimento menor do que o período de campo correspondente, então, o pulso glotal pode ser estendido de zero 625 para o comprimento do período de campo antes de alteração circular à esquerda 630 ser executada. Diferentes matrizes de limites de campo (representadas como )
Figure img0007
são formadas com cada um dentre o comprimento igual a . As matrizes são calculadas usando a seguinte equação matemática:
[0037]
Figure img0008
[0038] Em que é, em geral, tomado como 1 msec ou, em termos de amostras,
Figure img0009
Para uma frequência de amostragem de = 16.000, = 16, por exemplo. O maior período de campo presente no determinado segmento de voz é representado como Pulsos glotais são criados e associados a cada matriz de limite de campo . Os pulsos glotais 620 podem ser obtidos a partir do sinal de pulso glotal de algum comprimento N pelo primeiro zero estendendo-o ao período de campo e, então, alteração circular à esquerda alterando-o por amostras .
[0039] Para cada conjunto de limites de quadro, um sinal de excitação 635 é formado ao se inicializar os pulsos glotais a zero (0). Adição de sobreposição 610 é usada para adicionar o pulso glotal 620 às primeiras amostras N da excitação, a partir de cada valor de limite de campo da matriz
Figure img0010
O sinal formado é como uma excitação costurada única, correspondente à alteração, .
[0040] Em uma modalidade, a média aritmética de todos os sinais de excitação costurados únicos é, então, calculada 640, o que representa o sinal de excitação final para o segmento com som 645.
[0041] A Figura 7 é um diagrama ilustrando uma modalidade de identificação de pulso glotal indicado, em geral, em 700. Em uma modalidade, quaisquer dois determinados pulsos glotais podem ser usados para calcular a métrica de distância/dissimilaridade entre eles. Estes são retirados do banco de dados de pulso glotal 840 criado no processo 800 (adicionalmente descrito na Figura 8 abaixo). O cálculo pode ser executado ao se decompor os dois determinados pulsos glotais em componentes de sub-banda e
Figure img0011
O determinado pulso glotal pode ser transformado no domínio de frequência ao se usar um método, tal como transformada discreta de cosseno (DCT), por exemplo. A banda de frequência pode ser dividida em um número de bandas, as quais são demoduladas e convertidas no domínio de tempo.
[0042] A métrica de distância de sub-banda é então calculada entre os componentes de sub-banda correspondentes de cada pulso glotal; indicada como , ). A métrica de sub-banda, a qual pode ser representada como
Figure img0012
em que representa a distância entre os dois componentes de sub-banda , pode ser calculada como descrito nos parágrafos a seguir.
[0043] A função de correlação transversal circular normalizada entre é calculada. Em uma modalidade, esta pode ser indicada como
Figure img0013
em que ' ' indica a operação de correlação transversal circular normalizada entre dois sinais. O período para correlação cruzada circular é tomada como sendo o maior dos comprimentos dos dois sinais . O menor sinal é zero estendido. O transformada discreta de Hilbert de correlação transversal circular normalizada é calculada e indicada como
Figure img0014
Usando a correlação transversal circular normalizada e a transformada discreta de Hilbert da correlação transversal circular normalizada, o sinal pode ser determinado como:
[0044]
Figure img0015
[0045] O cosseno do ângulo entre os dois sinais pode ser determinado usando a equação matemática:
[0046] cos (f,g) = valor máximo do sinal Hf,g (n) ao longo de todo o n.
[0047] A métrica de sub-banda,
Figure img0016
entre os dois componentes de sub-banda , pode ser determinada como:
[0048]
Figure img0017
[0049] Finalmente, a métrica de distância entre os pulsos glotais é determinada matematicamente como:
[0050]
[0051] O banco de dados de pulso glotal 840 pode ser agrupado em um número de grupos, por exemplo 256 (ou M), usando um algoritmo de k-médias modificado 705. Em vez de usar a métrica da distância euclidiana, a métrica de distância definida acima é usada. Os centroides de um grupo são, então, atualizados com esse elemento do grupo cuja soma dos quadrados das distâncias de todos os outros elementos desse grupo seja mínima de tal modo que:
[0052]
Figure img0018
é mínimo para m = c, o centroide de grupo.
[0053] Em uma modalidade, as iterações de agrupamento são encerradas quando não há nenhuma alteração em qualquer um dos centroides dos grupos k.
[0054] Um vetor, um conjunto de números reais N, por exemplo, 256, é associado com cada pulso glotal 710 no banco de dados de pulso glotal 840 para formar um banco de dados de vetor correspondente 715. Em uma modalidade, a associação é executada para um determinado pulso glotal , um vetor
Figure img0019
em que
Figure img0020
e é um pulso glotal fixo do banco de dados e
Figure img0021
representa o quadrado da métrica de distância definida acima entre dois pulsos glotal e assumindo que
Figure img0022
são os pulsos glotais centroides determinados pelo agrupamento.
[0055] Deste modo, o vetor associado com o determinado pulso glotal pode ser calculado com a equação matemática:
[0056]
Figure img0023
[0057] Na etapa 720, análise de componente principal (PCA) é executada para calcular vetores próprios do banco de dados de vetor 715. Em uma modalidade, qualquer um vetor próprio pode ser escolhido 725. O vetor correspondente mais próximo 730 ao vetor próprio escolhido a partir do banco de dados de vetor 715 é determinado no sentido da distância euclidiana. O pulso glotal do banco de dados de pulso 840, o qual corresponde ao vetor correspondente mais próximo 730, é considerado como o pulso glotal próprio resultante 735 associado a um vetor próprio.
[0058] A Figura 8 é um diagrama ilustrando uma modalidade de criação de banco de dados de pulso glotal indicado, em geral, em 800. Um sinal de discurso, 805, submete-se à pré-filtragem, tal como pré-ênfase 810. Análise de previsão linear (LP), 815, é executada usando o sinal pré-filtrado para obter os coeficientes de LP. Deste modo, informações de baixa frequência da excitação podem ser capturadas. Uma vez que os coeficientes são determinados, eles são usados para filtragem inversa, 820, do sinal de discurso original, 805, o qual não é pré-filtrado, para calcular o sinal residual de previsão linear integrado (ILPR) 825. O sinal ILPR 825 pode ser usado como uma aproximação ao sinal de excitação, ou sinal de fonte de voz. O sinal ILPR 825 é segmentado 835 em pulsos glotais usando os limites de segmento/ciclo glotal que foram determinados a partir do sinal de discurso 805. A segmentação 835 pode ser executada usando a técnica de filtragem de frequência zero (ZFF). Os pulsos glotais resultantes podem, então, ser energia normalizada. Todos os pulsos glotais para os dados de treinamento de discurso inteiro são combinados a fim de formar o banco de dados de pulso glotal 840.
[0059] Embora a invenção tenha sido ilustrada e descrita em detalhes nos desenhos e descrição acima, a mesma deve ser considerada como ilustrativa e não restritiva em caráter, compreendendo-se que apenas a modalidade preferencial foi mostrada e descrita e que todas as equivalentes, alterações e modificações que abrangem o espírito da invenção conforme descritas neste documento e/ou pelas seguintes reivindicações que se deseja que sejam protegidas.
[0060] Portanto, o escopo apropriado da presente invenção deve ser determinado apenas pela interpretação mais ampla das reivindicações anexas de modo a abranger todas as tais modificações, bem como todas as relações equivalentes àquelas ilustradas nas figuras e descritas no relatório descritivo.

Claims (35)

1. Método para criar um banco de dados de pulso glotal a partir de um sinal de discurso, em um sistema de síntese de discurso em que o sistema compreende pelo menos um banco de dados de discurso, o método caracterizado pelo fato de compreender as etapas de: a. pré-ênfase do sinal de discurso para obter um sinal pré-filtrado; b. análise do sinal pré-filtrado, usando previsão linear, para obter parâmetros de filtragem inversa; c. execução de filtragem inversa do sinal de discurso usando os parâmetros de filtragem inversa; d. determinação de um sinal residual de previsão linear integrada usando o sinal de discurso inversamente filtrado; e. identificação dos limites de segmento glotal no sinal de discurso; f. segmentação do sinal residual de previsão linear integrada em pulsos glotais usando os limites de segmento glotal identificado do sinal de discurso; g. normalização dos pulsos glotais; h. formação do banco de dados de pulso glotal ao se coletar todos os pulsos glotais normalizados obtidos para o sinal de discurso; e i. aplicação do banco de dados de pulso glotal formado para formar um sinal de excitação, em que o sinal de excitação é aplicado no sistema de síntese de discurso para sintetizar o discurso.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os parâmetros de filtragem inversa na etapa (b) compreendem coeficientes de previsão linear.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a identificação da etapa (e) é executada usando a técnica de filtragem de frequência zero.
4. Método para criar modelos paramétricos para o uso no treinamento do sistema de síntese de discurso executado por um processador de computador genérico, em que o sistema compreende pelo menos um banco de dados de pulso glotal, o método caracterizado pelo fato de compreender as etapas de: a. determinação de uma métrica de distância de pulso glotal entre um número de pulsos glotais; b. agrupamento do banco de dados de pulso glotal em um número de grupos para determinar pulsos glotais centroides; c. formação de um banco de dados de vetor correspondente ao se associar um vetor com cada pulso glotal no banco de dados de pulso glotal, em que o vetor associado com cada pulso glotal é definido com base no pulso glotal, os pulsos glotais centroides e a métrica de distância; d. determinação de vetores próprios (Eigenvectors) do banco de dados de vetor; e. criação de modelos paramétricos ao se associar um pulso glotal do banco de dados de pulso glotal para cada vetor próprio determinado; e f. aplicação dos modelos paramétricos criados ao sistema de síntese de discurso a fim de treinar o sistema de síntese de discurso.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o número de pulsos glotais é dois.
6. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que a etapa (a) compreende, adicionalmente, as etapas de: a. decomposição do número de pulsos glotais em componentes de sub-banda correspondentes; b. cálculo de uma métrica de distância de sub-banda entre os componentes de sub-banda correspondentes de cada pulso glotal; e c. cálculo da métrica de distância de pulso glotal matematicamente usando as métricas de distância de sub-banda.
7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que o cálculo da etapa (c) é executado usando a equação matemática
Figure img0024
em que
Figure img0025
representa a métrica de distância e
Figure img0026
representa as métricas de distância de sub-banda.
8. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o número de grupos é 256.
9. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o agrupamento da etapa (b) é executado usando um cálculo de k-médias modificado que utiliza a métrica de distância de pulso glotal.
10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que o cálculo de k-médias modificado compreende, adicionalmente, atualizar um centroide de um grupo com um elemento do grupo cuja soma dos quadrados das distâncias de todos os outros elementos desse grupo seja mínima.
11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que compreende, adicionalmente, encerrar as iterações de agrupamento quando não há nenhuma alteração em qualquer um dos centroides dos grupos.
12. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que a determinação de vetores próprios da etapa (d) é executada usando análise de componente principal.
13. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que etapa (e) compreende, adicionalmente, as etapas de: a. determinação do vetor próprio; b. determinação do vetor correspondente mais próximo a partir do banco de dados de vetor ao vetor próprio; c. determinação do pulso glotal correspondente mais próximo do banco de dados de pulso glotal; e d. nomeação do pulso glotal a partir do banco de dados de pulso glotal que é o correspondente mais próximo ao vetor próprio como o pulso glotal próprio associado ao vetor próprio.
14. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o treinamento compreende, adicionalmente, as etapas de: a. definição de um corpus de texto de treinamento; b. obtenção de dados de discurso ao gravar um talento de voz falando o texto de treinamento; c. conversão do texto de treinamento em legendas de telefone dependentes de contexto; d. determinação dos recursos espectrais dos dados de discurso usando as legendas de telefone; e. estimativa da frequência fundamental dos dados de discurso; e f. execução da estimativa de parâmetro em um fluxo de áudio usando os recursos espectrais, a frequência fundamental, e a duração do fluxo de áudio.
15. Método para sintetizar o discurso usando o texto de entrada, caracterizado pelo fato de compreender as etapas de: a. conversão do texto de entrada em legendas de telefone dependentes de contexto; b. processamento das legendas de telefone criadas na etapa (a) usando modelos paramétricos treinados para prever valores de frequência fundamental, duração do discurso sintetizado, e recursos espectrais das legendas de telefone; c. criação de um sinal de excitação usando um pulso glotal próprio e dito um ou mais previstos dentre: valores de frequência fundamental, recursos espectrais de legendas de telefone, e a duração do discurso sintetizado; d. divisão de regiões de sinal de excitação em categorias de segmentos que compreendem uma ou mais dentre: com som, sem som, e/ou em pausa; e. criação de excitação para cada categoria; e f. combinação do sinal de excitação com os recursos espectrais das legendas de telefone usando um filtro para criar a saída de discurso sintético.
16. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que a divisão é executada com base no valor da frequência fundamental.
17. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que o filtro da etapa (d) compreende um filtro de aproximação de espectro de registro Mel.
18. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que a etapa de criação de um sinal de excitação compreende colocar ruído branco nos segmentos sem som.
19. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que a etapa de criação de um sinal de excitação para segmentos em pausa compreende colocar um zero no segmento.
20. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que o sinal de excitação é criado para segmentos com som compreendendo as etapas de: a. criação de limites glotais, usando o valor de frequência fundamental previsto a partir de um modelo, em que os limites glotais marcam limites de campo do sinal de excitação; b. adição de um início de pulso glotal em cada limite glotal usando um método de adição de sobreposição; c. evitar efeitos de limite no sinal de excitação, em que o evitar compreende, adicionalmente, as etapas de: i. criação de um número de excitações diferentes formadas através do método de adição de sobreposição com uma quantidade constantemente crescente de alterações nos limites glotais e uma quantidade igual de alteração circular à esquerda para o pulso glotal, em que, se o pulso glotal for de um comprimento menor que o período de campo correspondente, então, o pulso glotal é zero estendido ao comprimento de período de campo antes da alteração à esquerda, ii. determinação da média aritmética do número de sinais de excitação diferentes, e iii. declaração da média aritmética do sinal de excitação final para o segmento com som.
21. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que o pulso glotal próprio é identificado a partir de um banco de dados de pulso glotal, a identificação compreendendo as etapas de: a. cálculo de uma métrica de distância de pulso glotal entre um número de pulsos glotais; b. agrupamento do banco de dados de pulso glotal em um número de grupos para determinar pulsos glotais centroides; c. formação de um banco de dados de vetor correspondente ao se associar um vetor com cada pulso glotal no banco de dados de pulso glotal, em que os pulsos glotais centroides e a métrica de distância são definidos matematicamente para determinar a associação; d. determinação de vetores próprios do banco de dados de vetor; e e. formação de modelos paramétricos ao se associar um pulso glotal do banco de dados de pulso glotal para cada vetor próprio determinado para formar modelos paramétricos.
22. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que o número de pulsos glotais é dois.
23. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que etapa (a) compreende, adicionalmente, as etapas de: a. decomposição do número de pulsos glotais em componentes de sub-banda correspondentes; b. cálculo de uma métrica de distância de sub-banda entre os componentes de sub-banda correspondentes de cada pulso glotal; e c. cálculo da métrica de distância matematicamente usando as métricas de distância de sub-banda.
24. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que o cálculo da etapa (c) é executado usando a equação matemática:
Figure img0027
em que
Figure img0028
representa a métrica de distância e
Figure img0029
representa as métricas de distância de sub-banda.
25. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que o número de grupos é 256.
26. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que o agrupamento da etapa (b) é executado usando um cálculo de k-médias modificado que utiliza a métrica de distância de pulso glotal.
27. Método, de acordo com a reivindicação 26, caracterizado pelo fato de que o cálculo de k-médias modificado compreende, adicionalmente, atualizar um centroide de um grupo com um elemento do grupo cuja soma dos quadrados das distâncias de todos os outros elementos do grupo seja mínima.
28. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que compreende, adicionalmente, encerrar as iterações de agrupamento quando não há nenhuma alteração em qualquer um dos centroides dos grupos.
29. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que a determinação de vetores próprios da etapa (d) é executada usando análise de componente principal.
30. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que etapa (e) compreende, adicionalmente, as etapas de: a. determinação do vetor próprio; b. determinação do vetor correspondente mais próximo a partir do banco de dados de vetor do vetor próprio; c. determinação do pulso glotal correspondente mais próximo a partir do banco de dados de pulso glotal; e d. nomeação do pulso glotal a partir do banco de dados de pulso que é o correspondente mais próximo ao vetor próprio como o pulso glotal próprio associado ao vetor próprio.
31. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que compreende, adicionalmente, construir o banco de dados de pulso glotal a partir de um sinal de discurso, a construção compreendendo as etapas de: a. execução de pré-filtragem do sinal de discurso para obter um sinal pré-filtrado; b. análise do sinal pré-filtrado para obter parâmetros de filtragem inversa; c. execução de filtragem inversa do sinal de discurso usando os parâmetros de filtragem inversa; d. cálculo de um sinal residual de previsão linear integrada usando o sinal de discurso inversamente filtrado; e. identificação dos limites de segmento glotal no sinal de discurso; f. segmentação do sinal residual de previsão linear integrada em pulsos glotais usando os limites de segmento glotal identificado do sinal de discurso; g. execução de normalização dos pulsos glotais; e h. formação do banco de dados de pulso glotal ao se coletar todos os pulsos glotais normalizados obtidos para o sinal de discurso.
32. Método, de acordo com a reivindicação 31, caracterizado pelo fato de que a análise da etapa (b) é executada usando previsão linear.
33. Método, de acordo com a reivindicação 31, caracterizado pelo fato de que os parâmetros de filtragem inversa na etapa (b) compreendem coeficientes de previsão linear.
34. Método, de acordo com a reivindicação 31, caracterizado pelo fato de que a identificação da etapa (e) é executada usando a técnica de filtragem de frequência zero.
35. Método, de acordo com a reivindicação 31, caracterizado pelo fato de que a pré-filtragem da etapa (a) compreende pré-ênfase.
BR112016027537-3A 2014-05-28 2014-05-28 Método para criar um banco de dados de pulso glotal a partir de um sinal de discurso, em um sistema de síntese de discurso, método para criar modelos paramétricos para o uso no treinamento do sistema de síntese de discurso executado por um processador de computador genérico, e método para sintetizar o discurso usando o texto de entrada BR112016027537B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2014/039722 WO2015183254A1 (en) 2014-05-28 2014-05-28 Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system

Publications (2)

Publication Number Publication Date
BR112016027537A2 BR112016027537A2 (pt) 2017-08-15
BR112016027537B1 true BR112016027537B1 (pt) 2022-05-10

Family

ID=54699420

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016027537-3A BR112016027537B1 (pt) 2014-05-28 2014-05-28 Método para criar um banco de dados de pulso glotal a partir de um sinal de discurso, em um sistema de síntese de discurso, método para criar modelos paramétricos para o uso no treinamento do sistema de síntese de discurso executado por um processador de computador genérico, e método para sintetizar o discurso usando o texto de entrada

Country Status (8)

Country Link
EP (1) EP3149727B1 (pt)
JP (1) JP6449331B2 (pt)
AU (2) AU2014395554B2 (pt)
BR (1) BR112016027537B1 (pt)
CA (2) CA3178027A1 (pt)
NZ (1) NZ725925A (pt)
WO (1) WO2015183254A1 (pt)
ZA (1) ZA201607696B (pt)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10014007B2 (en) 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10255903B2 (en) 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10614814B2 (en) 2016-06-02 2020-04-07 Interactive Intelligence Group, Inc. Technologies for authenticating a speaker using voice biometrics
JP2018040838A (ja) * 2016-09-05 2018-03-15 国立研究開発法人情報通信研究機構 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
EP2279507A4 (en) * 2008-05-30 2013-01-23 Nokia Corp METHOD, DEVICE AND COMPUTER PROGRAM PRODUCT FOR IMPROVED LANGUAGE SYNTHESIS
JP5075865B2 (ja) * 2009-03-25 2012-11-21 株式会社東芝 音声処理装置、方法、及びプログラム
DK2242045T3 (da) * 2009-04-16 2012-09-24 Univ Mons Talesyntese og kodningsfremgangsmåder
JP5085700B2 (ja) * 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation

Also Published As

Publication number Publication date
AU2014395554B2 (en) 2020-09-24
ZA201607696B (en) 2019-03-27
WO2015183254A1 (en) 2015-12-03
EP3149727A1 (en) 2017-04-05
BR112016027537A2 (pt) 2017-08-15
CA2947957C (en) 2023-01-03
AU2020227065B2 (en) 2021-11-18
EP3149727A4 (en) 2018-01-24
JP6449331B2 (ja) 2019-01-09
CA2947957A1 (en) 2015-12-03
AU2020227065A1 (en) 2020-09-24
NZ725925A (en) 2020-04-24
AU2014395554A1 (en) 2016-11-24
JP2017520016A (ja) 2017-07-20
EP3149727B1 (en) 2021-01-27
CA3178027A1 (en) 2015-12-03

Similar Documents

Publication Publication Date Title
CN110364140B (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
Le Cornu et al. Reconstructing intelligible audio speech from visual speech features.
AU2020227065B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
JP2004522186A (ja) 音声合成器の音声固有化
US10014007B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
Chien et al. Evaluation of glottal inverse filtering algorithms using a physiologically based articulatory speech synthesizer
JP2022544984A (ja) ヒト話者の埋め込みを会話合成に適合させるためのシステムおよび方法
Roebel et al. Analysis and modification of excitation source characteristics for singing voice synthesis
CN109346107B (zh) 一种基于lstm的独立说话人语音发音逆求解的方法
JP2017520016A5 (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法
Kannan et al. Voice conversion using spectral mapping and TD-PSOLA
Saloni et al. Disease detection using voice analysis: A review
Omar et al. Feature fusion techniques based training MLP for speaker identification system
Milner et al. Reconstructing intelligible audio speech from visual speech features
Drioli et al. Speaker adaptive voice source modeling with applications to speech coding and processing
JP5660437B2 (ja) 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Chandra et al. Towards the development of accent conversion model for (l1) bengali speaker using cycle consistent adversarial network (cyclegan)
Vasudev et al. Speaker identification using FBCC in Malayalam language
Thomas et al. Synthesizing intonation for Malayalam TTS
Sulír et al. The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model
Gremes et al. Synthetic Voice Harmonization: A Fast and Precise Method
Pan et al. Comprehensive voice conversion analysis based on DGMM and feature combination
Khorram et al. Context-dependent deterministic plus stochastic model

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 28/05/2014, OBSERVADAS AS CONDICOES LEGAIS