BR112016004544B1 - Método para processamento de um sinal de fala compreendendo uma pluralidade de quadros e aparelho de processamento de fala - Google Patents

Método para processamento de um sinal de fala compreendendo uma pluralidade de quadros e aparelho de processamento de fala Download PDF

Info

Publication number
BR112016004544B1
BR112016004544B1 BR112016004544-0A BR112016004544A BR112016004544B1 BR 112016004544 B1 BR112016004544 B1 BR 112016004544B1 BR 112016004544 A BR112016004544 A BR 112016004544A BR 112016004544 B1 BR112016004544 B1 BR 112016004544B1
Authority
BR
Brazil
Prior art keywords
speech
verbalized
parameter
speech signal
current frame
Prior art date
Application number
BR112016004544-0A
Other languages
English (en)
Other versions
BR112016004544A2 (pt
Inventor
Yang Gao
Original Assignee
Huawei Technologies Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co., Ltd filed Critical Huawei Technologies Co., Ltd
Publication of BR112016004544A2 publication Critical patent/BR112016004544A2/pt
Publication of BR112016004544B1 publication Critical patent/BR112016004544B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

MÉTODO PARA PROCESSAMENTO DE FALA E APARELHO DE PROCESSAMENTO DE FALA. De acordo com uma modalidade da presente invenção, um método para processamento de fala inclui determinar (1312) um parâmetro não verbalizado/verbalizado que reflete uma característica de fala não verbalizada/verbalizada em um quadro atual de um sinal de fala que compreende uma pluralidade de quadros. Um parâmetro suavizado não verbalizado/verbalizado é determinado (1314) para incluir informações do parâmetro não verbalizado/verbalizado em um quadro antes do quadro atual do sinal de fala. Uma diferença entre o parâmetro não verbalizado/verbalizado e o parâmetro suavizado não verbalizado/verbalizado é computada (1316). O método inclui ainda determinar (1318) se o quadro atual compreende fala não verbalizada ou fala verbalizada com uso da diferença computada como um parâmetro de decisão.

Description

CAMPO DA TÉCNICA
[001] De modo geral, a presente invenção refere-se ao campo de processamento de fala e, em particular, à decisão verbalizada/não verbalizada para processamento de fala.
ANTECEDENTES
[002] A codificação de fala refere-se a um processo que reduz a taxa de bits de um arquivo de fala. A codificação de fala é um aplicativo de compressão de dados de fala contendo sinais de áudio digital. A codificação de fala usa estimativa de parâmetro de fala específica que usa técnicas de processamento de sinal de áudio para modelar o sinal de fala em combinação com compressão genérica de algoritmos de dados para representar os parâmetros modelados resultantes em um fluxo de bits compacto. O objetivo da codificação de fala é alcançar economias no espaço de armazenamento de memória exigido, na largura de banda de transmissão e na potência de transmissão reduzindo-se o número de bits por amostra, de modo que a fala decodificada (descomprimida) seja perceptivelmente indistinguível da fala original.
[003] No entanto, os codificadores de fala são codificadores com perdas, isto é, o sinal decodificado é diferente do original. Portanto, um dos objetivos da codificação de fala é minimizar a distorção (ou perda perceptível) em uma determinada taxa de bits ou minimizar a taxa de bits para alcançar uma determinada distorção.
[004] A codificação de fala se difere de outras formas de codificação de áudio em que a fala é um sinal muito mais simples do que a maioria dos outros sinais de áudio, e várias informações mais estatísticas estão disponíveis sobre as propriedades de fala. Como resultado, algumas informações auditivas que são relevantes para a codificação de áudio podem ser desnecessárias no contexto de codificação de fala. Na codificação de fala, o critério mais importante é a preservação de inteligibilidade e "prazer" de fala, com uma quantidade restrita de dados transmitidos.
[005] A inteligibilidade de fala inclui, além do conteúdo literal atual, também a identidade de locutor, emoções, entonação, timbre etc., que são todos importantes para a inteligibilidade perfeita. O conceito mais resumido de prazer de fala degradada é uma propriedade diferente da inteligibilidade, visto que é possível que fala degradada seja completamente inteligível, mas subjetivamente irritante para o ouvinte.
[006] A redundância de formas de onda de fala pode ser considerada em relação a inúmeros tipos diferentes de sinal de fala, como sinais de fala verbalizada e não verbalizada. Os sons verbalizados, por exemplo, ‘a’, ‘b’, se devem essencialmente a vibrações das cordas vocais e são oscilatórios. Portanto, em curtos períodos de tempo, os mesmos são bem moldados por somas de sinais periódicos, como sinusoides. Em outras palavras, para fala verbalizada, o sinal de fala é essencialmente periódico. No entanto, essa periodicidade pode ser variável em relação à duração de um segmento de fala, e o formato da onda periódica de modo geral, muda gradualmente de segmento para segmento. Uma codificação de fala de taxa de bits baixa poderia se beneficiar enormemente da exploração dessa periodicidade. O período de fala verbalizada também é chamado de passo, e a previsão de passo, muitas vezes, é chamada de Previsão de Longo Prazo (LTP). Em contraste, sons não verbalizados como ‘s’, ‘sh’, são mais semelhantes a ruídos. Isso se deve ao fato de que o sinal de fala não verbalizada é mais semelhante a um ruído aleatório e tem uma quantidade menor de previsibilidade.
[007] Tradicionalmente, todos os métodos de codificação de fala paramétricos fazem uso da redundância inerente ao sinal de fala para reduzir a quantidade de informações que deve ser enviada e para estimar os parâmetros de amostras de fala de um sinal em intervalos curtos. Essa redundância se origina, principalmente, da repetição de formatos de onda de fala em uma taxa quase periódica e do envelope espectral de alteração lenta de sinal de fala.
[008] A redundância de formas de onda de fala pode ser considerada em relação a inúmeros tipos diferentes de sinal de fala, como verbalizada e não verbalizada. Embora o sinal de fala seja essencialmente periódico para fala verbalizada, essa periodicidade pode ser variável em relação à duração de um segmento de fala e o formato da onda periódica geralmente muda gradualmente de segmento para segmento. Uma codificação de fala de taxa de bits baixa poderia se beneficiar enormemente da exploração dessa periodicidade. O período de fala verbalizada também é chamado de passo, e a previsão de passo, muitas vezes, é chamada de Previsão de Longo Prazo (LTP). Assim como para fala não verbalizada, o sinal é mais semelhante a um ruído aleatório e tem uma quantidade menor de previsibilidade.
[009] Em qualquer caso, a codificação paramétrica pode ser usada para reduzir a redundância dos segmentos de fala separando-se o componente de sinal de fala de excitação do componente de envelope espectral. O envelope espectral de alteração lenta pode ser representado por Codificação de Previsão Linear (LPC), também chamada de Previsão de Curto Prazo (STP). Uma codificação de fala de taxa de bits baixa também poderia se beneficiar da exploração dessa Previsão de Curto Prazo. A vantagem da codificação advém da taxa lenta na qual os parâmetros se alteram. No entanto, é incomum que os parâmetros sejam significativamente diferentes dos valores retidos dentro de poucos milissegundos. Consequentemente, na taxa de amostragem de 8 kHz, 12,8 kHz ou 16 kHz, o algoritmo de codificação de fala é tal que a duração de quadro nominal está na faixa de dez a trinta milissegundos. Uma duração de quadro de vinte milissegundos é a escolha mais comum.
[010] Nos padrões bem conhecidos mais recentes como G. 723.1, G. 729, G. 718, Taxa Total Aprimorada (EFR), Vocoder de Modo Selecionável (SMV), Multitaxa Adaptável (AMR), Banda Larga de Multimodo de Taxa Variável (VMR-WB) ou Banda Larga de Multitaxa Adaptável (AMR-WB), Técnica de Previsão Linear de Código Excitado ("CELP") foram adotados. A CELP é comumente entendida como uma combinação técnica de Excitação Codificada, Previsão de Longo Prazo e Previsão de Curto Prazo. Conforme mencionado anteriormente, a CELP é usada principalmente para codificar sinal de fala, beneficiando-se das características de voz humana específicas ou do modelo de produção vocal de voz humana. A Codificação de fala por CELP é um princípio de algoritmo muito popular na área de compressão de fala, embora os detalhes de CELP para codecs diferentes sejam significativamente diferentes. Devido a sua popularidade, o algoritmo de CELP foi usado em vários padrões ITU-T, MPEG, 3GPP e 3GPP2. As variáveis de CELP incluem CELP algébrica, CELP reduzida, CELP com pouco atraso e previsão linear excitada de soma de vetor, e outros. A CELP é um termo genérico para uma classe de algoritmos e não para um codec particular.
[011] O algoritmo de CELP é baseado em quatro ideias principais. Primeiro, um modelo de filtro de fonte de produção de fala através de previsão linear (LP) é usado. O modelo de filtro de fonte de produção de fala modela a fala como uma combinação de uma fonte de som, como as cordas vocais, e um filtro acústico linear, o trato vocal (e característica de radiação). Na implantação do modelo de filtro de fonte de produção de fala, a fonte de som, ou o sinal de excitação, muitas vezes, é modelada como um trem de impulsos periódico, para fala verbalizada, ou ruído branco para fala não verbalizada. Segundo, um livro de código adaptável e um livro de código fixado são usados como a entrada (excitação) do modelo de LP. Terceiro, uma busca é realizada em circuito fechado em um “domínio ponderado de modo perceptível”. Quarto, a quantificação de vetor (VQ) é aplicada.
SUMÁRIO
[012] De acordo com uma modalidade da presente invenção, um método para processamento de fala inclui determinar um parâmetro não verbalizado/verbalizado que reflita uma característica de fala não verbalizada/verbalizada em um quadro atual de um sinal de fala que compreende uma pluralidade de quadros. Um parâmetro suavizado não verbalizado/verbalizado é determinado para incluir informações do parâmetro não verbalizado/verbalizado em um quadro antes do quadro atual do sinal de fala. Uma diferença entre o parâmetro não verbalizado/verbalizado e o parâmetro suavizado não verbalizado/verbalizado é computada. Adicionalmente, o método inclui gerar um ponto de decisão não verbalizada/verbalizada para determinar se o quadro atual compreende fala não verbalizada ou fala verbalizada com uso da diferença computada como um parâmetro de decisão.
[013] Em uma modalidade alternativa, um aparelho de processamento de fala compreende um processador e um meio de armazenamento legível por computador que armazena programação para execução pelo processador. A programação inclui instruções para determinar um parâmetro não verbalizado/verbalizado que reflita uma característica de fala não verbalizada/verbalizada em um quadro atual de um sinal de fala que compreende uma pluralidade de quadros, e determinar que um parâmetro suavizado não verbalizado/verbalizado inclua informações do parâmetro não verbalizado/verbalizado em um quadro antes do quadro atual do sinal de fala. Adicionalmente, a programação inclui instruções para computar uma diferença entre o parâmetro não verbalizado/verbalizado e o parâmetro suavizado não verbalizado/verbalizado, e gerar um ponto de decisão não verbalizado/verbalizado para determinar se o quadro atual compreende fala não verbalizada ou fala verbalizada com uso da diferença computada como um parâmetro de decisão.
[014] Em uma modalidade alternativa, um método para processamento de fala compreende fornecer uma pluralidade de quadros de um sinal de fala e determinar, para um quadro atual, um primeiro parâmetro para uma primeira banda de frequência a partir de um primeiro envelope de energia do sinal de fala no domínio de tempo e um segundo parâmetro para uma segunda banda de frequência a partir de um segundo envelope de energia do sinal de fala no domínio de tempo. Um primeiro parâmetro suavizado e um segundo parâmetro suavizado são determinados a partir dos quadros anteriores do sinal de fala. O primeiro parâmetro é comparado ao primeiro parâmetro suavizado e o segundo parâmetro é comparado ao segundo parâmetro suavizado. Um ponto de decisão não verbalizado/verbalizado é gerado para determinar se o quadro atual compreende fala não verbalizada ou fala verbalizada com uso da comparação como um parâmetro de decisão.
BREVE DESCRIÇÃO DOS DESENHOS
[015] Para uma compreensão mais completa da presente invenção e das vantagens da mesma, será feita referência agora às descrições a seguir, tomadas em conjunção com os desenhos anexos, nos quais: A Figura 1 ilustra uma avaliação de energia de domínio de tempo de um sinal de fala de banda de frequência baixa de acordo com as modalidades da presente invenção; A Figura 2 ilustra uma avaliação de energia de domínio de tempo de sinal de fala de banda de frequência alta de acordo com as modalidades da presente invenção; A Figura 3 ilustra operações realizadas durante a codificação de uma fala original com uso de um codificador CELP convencional que implanta uma modalidade da presente invenção. A Figura 4 ilustra operações realizadas durante a decodificação de uma fala original com uso de um decodificador CELP convencional que implanta uma modalidade da presente invenção; A Figura 5 ilustra um codificador CELP convencional usado para implantar as modalidades da presente invenção; A Figura 6 ilustra um decodificador CELP básico correspondente ao codificador na Figura 5, de acordo com uma modalidade da presente invenção; A Figura 7 ilustra vetores candidatos semelhantes a ruído para construir livro de código de excitação codificada ou livro de código fixado de codificação de fala por CELP; A Figura 8 ilustra vetores candidatos semelhantes ao pulso para construir livro de código de excitação codificada ou livro de código fixado de codificação de fala por CELP; A Figura 9 ilustra um exemplo de espectro de excitação para fala verbalizada; A Figura 10 ilustra um exemplo de um espectro de excitação para fala não verbalizada; A Figura 11 ilustra um exemplo de espectro de excitação paro sinal de ruído de fundo;
[016] As Figuras 12A e 12B ilustram exemplos de codificação/decodificação de domínio de frequência com extensão de largura de banda, em que a Figura 12A ilustra o codificador com informações de lado de BWE, ao passo que a Figura 12B ilustra o decodificador com BWE; As Figuras 13A a 13C descrevem as operações de processamento de fala, de acordo com várias modalidades descritas acima; A Figura 14 ilustra um sistema de comunicação 10, de acordo com uma modalidade da presente invenção; e A Figura 15 ilustra um diagrama de blocos de um sistema de processamento que pode ser usado para implantar os dispositivos e métodos revelados no presente documento.
DESCRIÇÃO DETALHADA DE MODALIDADES ILUSTRATIVAS
[017] No sistema de comunicação por sinal digital de áudio/fala moderno, um sinal digital é comprimido em um codificador e as informações comprimidas ou o fluxo de bits pode ser empacotado e enviado para um decodificador quadro por quadro através de um canal de comunicação. O decodificador recebe e decodifica as informações comprimidas para obter o sinal digital de áudio/fala.
[018] A fim de codificar o sinal de fala de maneira mais eficiente, o sinal de fala pode ser classificado em classes diferentes e cada classe é codificada de uma maneira diferente. Por exemplo, em alguns padrões como G. 718, VMR-WB, ou AMR-WB, o sinal de fala é classificado como NÃO VERBALIZADO, TRANSIÇÃO, GENÉRICO, VERBALIZADO e RUÍDO.
[019] O sinal de fala verbalizada é um tipo de sinal quase periódico que, em geral, tem mais energia em área de baixa frequência do que em área de alta frequência. Em contraste, o sinal de fala não verbalizada é um sinal semelhante a ruído que, em geral, tem mais energia em área de alta frequência do que em área de baixa frequência. A classificação não verbalizada/verbalizada ou a decisão não verbalizada é amplamente usada no campo de codificação de sinal de fala, na extensão de largura de banda de sinal de fala (BWE), no aprimoramento de sinal de fala e redução de ruído de fundo de sinal de fala (NR).
[020] Na codificação de fala, o sinal de fala não verbalizada e o sinal de fala verbalizada podem ser codificados/decodificados de uma maneira diferente. Na extensão de largura de banda de sinal de fala, a energia de sinal de banda alta estendida de sinal de fala não verbalizada pode ser controlada de maneira diferente da do sinal de fala verbalizada. Na redução de ruído de fundo de sinal de fala, o algoritmo NR pode ser diferente para o sinal de fala não verbalizada e para o sinal de fala verbalizada. Portanto, uma decisão não verbalizada robusta é importante para os tipos de aplicações acima.
[021] As modalidades da presente invenção aprimoram a precisão de classificação de um sinal de áudio como um sinal verbalizado ou um sinal não verbalizado antes da codificação de fala, extensão de largura de banda e/ou operações de aprimoramento de fala. Portanto, as modalidades da presente invenção podem ser aplicadas para codificação de sinal de fala, extensão de largura de banda de sinal de fala, aprimoramento de sinal de fala e redução de ruído de fundo de sinal de fala. Em particular, as modalidades da presente invenção podem ser usadas para aprimorar o padrão de codificador de fala de ITU-T AMR-WB na extensão de largura de banda.
[022] Uma ilustração das características do sinal de fala usadas para aprimorar a precisão da classificação de sinal de áudio em sinal verbalizado ou sinal não verbalizado, de acordo com as modalidades da presente invenção, será ilustrada com uso das Figuras 1 e 2. O sinal de fala é avaliado em dois regimes: uma banda de frequência baixa e uma banda de frequência alta nas ilustrações abaixo.
[023] A Figura 1 ilustra uma avaliação de energia de domínio de tempo de um sinal de fala de banda de frequência baixa de acordo com as modalidades da presente invenção.
[024] O envelope de energia de domínio de tempo 1101 da banda de frequência baixa fala é um envelope de energia suavizado com o tempo, e inclui uma primeira região de ruído de fundo 1102 e uma segunda região de ruído de fundo 1105 separadas pelas regiões de fala não verbalizada 1103 e pela região de fala verbalizada 1104. O sinal de fala verbalizada de baixa frequência da região de fala verbalizada 1104 tem uma energia mais alta que o sinal de fala não verbalizada de baixa frequência nas regiões de fala não verbalizada 1103. Adicionalmente, o sinal de fala não verbalizada de baixa frequência tem energia mais alta ou mais próxima em comparação com o sinal de ruído de fundo de baixa frequência.
[025] A Figura 2 ilustra uma avaliação de energia de domínio de tempo de sinal de fala de banda de frequência alta de acordo com as modalidades da presente invenção.
[026] Em contraste à Figura 1, o sinal de fala de alta frequência tem características diferentes. O envelope de energia de domínio de tempo do sinal de fala de banda alta 1201, que é o envelope de energia suavizado com o tempo, inclui uma primeira região de ruído de fundo 1202 e uma segunda região de ruído de fundo 1205 separadas por regiões de fala não verbalizada 1203 e uma região de fala verbalizada 1204. O sinal de fala verbalizada de alta frequência tem energia mais baixa do que o sinal de fala não verbalizada de alta frequência. O sinal de fala não verbalizada de alta frequência tem energia muito mais alta em comparação com o sinal de ruído de fundo de alta frequência. No entanto, o sinal de fala não verbalizada de alta frequência 1203 tem uma duração relativamente mais curta do que a fala verbalizada 1204.
[027] As modalidades da presente invenção influenciam essa diferença nas características entre a fala verbalizada e a fala não verbalizada em bandas de frequência diferentes no domínio de tempo. Por exemplo, um sinal no quadro presente pode ser identificado como um sinal verbalizado determinando-se que a energia do sinal seja mais alta que o sinal não verbalizado correspondente em banda baixa, mas não em banda alta. De forma semelhante, um sinal no presente quadro pode ser identificado como um sinal não verbalizado identificando-se que a energia do sinal é inferior ao sinal verbalizado correspondente em banda baixa, porém mais alto que o sinal verbalizado correspondente em banda alta.
[028] Tradicionalmente, dois parâmetros maiores são usados para detectar sinal de fala não verbalizada/verbalizada. Um parâmetro representa periodicidade de sinal e outro parâmetro indica inclinação espectral, que é o grau ao qual a intensidade cai à medida que a frequência aumenta.
[029] Um parâmetro de periodicidade de sinal popular é fornecido abaixo na Equação (1).
Figure img0001
[030] Na Equação (1), sw (n) é um sinal de fala ponderado, o numerador é uma correlação, e o denominador é um fator de normalização de energia. O parâmetro de periodicidade também é chamado de “correlação de passo” ou “vozeamento”. Outro parâmetro verbalizado exemplificativo é fornecido abaixo na equação (2).
Figure img0002
[031] Em (2), ep(n) e ec(n) são sinais de componente de excitação, e serão descritos em mais detalhes abaixo. Em várias aplicações, algumas variáveis das equações (1) e (2) podem ser usadas, mas ainda podem representar a periodicidade de sinal.
[032] O parâmetro de inclinação espectral mais popular é fornecido abaixo na equação (3).
Figure img0003
[033] Na equação (3), s(n) é sinal de fala. Se a energia de domínio de frequência estiver disponível, o parâmetro de inclinação espectral poderá ser conforme descrito na equação (4).
Figure img0004
[034] Na equação (4), ELB é a energia de banda de frequência baixa e EHB é a energia de banda de frequência alta.
[035] Outro parâmetro que pode refletir a inclinação espectral é chamado de Taxa de Cruzamento por Zeros (ZCR). A ZCR conta taxa de alteração de sinal positivo/negativo em um quadro ou subquadro. Geralmente, quando a energia de banda de frequência alta está alta em relação à energia de banda de frequência baixa, a ZCR também está alta. De outro modo, quando a energia de banda de frequência alta está baixa em relação à energia de banda de frequência baixa, a ZCR também está baixa. Em aplicações reais, algumas variáveis das equações (3) e (4) podem ser usadas, mas ainda podem representar inclinação espectral.
[036] Conforme mencionado anteriormente, a classificação não verbalizada/verbalizada ou decisão não verbalizada/verbalizada é amplamente usada no campo de codificação de sinal de fala, extensão de largura de banda de sinal de fala (BWE), aprimoramento de sinal de fala e redução de ruído de fundo de sinal de fala (NR).
[037] Na codificação de fala, o sinal de fala não verbalizada pode ser codificado usando-se excitação semelhante a ruído, e o sinal de fala verbalizada pode ser codificado com excitação semelhante a pulso, conforme será ilustrado subsequentemente. Na extensão de largura de banda de sinal de fala, a energia de sinal de banda alta estendida de sinal de fala não verbalizada pode ser aumentada, enquanto a energia de sinal de banda alta estendida de sinal de fala verbalizada pode ser reduzida. Na redução de ruído de fundo de sinal de fala (NR), o algoritmo NR pode ser menos agressivo para o sinal de fala não verbalizada e mais agressivo para o sinal de fala verbalizada. Por conseguinte, uma decisão não verbalizada ou verbalizada robusta é importante para os tipos de aplicações acima. Com base nas características de fala não verbalizada e fala verbalizada, tanto o parâmetro de periodicidade Pvoicing quanto o parâmetro de inclinação espectral Ptilt, ou seus parâmetros variáveis, são usados principalmente para detectar classes não verbalizadas/verbalizadas. No entanto, os inventores deste pedido identificaram que os valores “absolutos” do parâmetro de periodicidade Pvoicing e do parâmetro de inclinação espectral Ptilt, ou seus parâmetros variáveis, são influenciados por equipamento de gravação de sinal de fala, nível de ruído de fundo e/ou alto-falantes. Essas influências são difíceis de ser pré-determinadas, o que resulta, possivelmente, em uma detecção fala não verbalizada/verbalizada não robusta.
[038] As modalidades da presente invenção descrevem uma detecção de fala não verbalizada/verbalizada aprimorada que usa os valores “relativos” do parâmetro de periodicidade Pvoicing e do parâmetro de inclinação espectral Ptilt, ou seus parâmetros variáveis, ao invés dos valores “absolutos”. Os valores “relativos” são muito mais influenciados do que os valores “absolutos” por equipamento de gravação de sinal de fala, nível de ruído de fundo e/ou alto-falantes, o que resulta em uma detecção de fala não verbalizada/verbalizada mais robusta.
[039] Por exemplo, um parâmetro combinado não verbalizado poderia ser definido como na equação (5) abaixo.
Figure img0005
[040] Os pontos no fim da equação (11) indicam que outros parâmetros podem ser adicionados. Quando o valor “absoluto” de Pc_unvoicing torna-se grande, provavelmente é um sinal de fala não verbalizada. Um parâmetro de vozeamento combinado poderia ser descrito conforme na Equação (6) abaixo.
Figure img0006
[041] Os pontos no fim da equação (6) indicam de modo semelhante que outros parâmetros podem ser adicionados. Quando o valor “absoluto” de Pc_unvoicing torna-se grande, provavelmente é um sinal de fala não verbalizada. Antes de os valores “relativos” de Pc_unvoicing ou Pc_voicing serem definidos, um parâmetro altamente suavizado de Pc_unvoicing ou Pc_voicing é definido primeiro. Por exemplo, o parâmetro para o quadro atual pode ser suavizado a partir de um quadro anterior, conforme descrito por desigualdade abaixo na equação (7).
Figure img0007
[042] Na equação (7), Pc_unvoicing_sm é um valor altamente suavizado de Pc_unvoicing.
[043] De forma semelhante, o parâmetro verbalizado combinado suavizado Pc_voicing_sm pode ser determinado com o uso da desigualdade abaixo com uso da Equação (8).
Figure img0008
[044] Aqui, na equação (8), Pc_voicing_sm é um valor altamente suavizado de Pc_voicing.
[045] O comportamento de fala verbalizada estatístico é diferente do comportamento da fala não verbalizada e, portanto, em várias modalidades, os parâmetros para decidir a desigualdade acima (por exemplo, 0,9, 0,99, 7/8, 255/256) podem ser decididos e mais refinados, caso necessário, com base nos experimentos.
[046] Os valores “relativos” de Pc_unvoicing ou Pc_voicing podem ser definidos como nas Equações (9) e (10) descritas abaixo.
Figure img0009
Pc_unvoicing_diff é o valor “relativo” de Pc_unvoicing; de forma semelhante,
Figure img0010
[047] A desigualdade abaixo é uma modalidade exemplificativa de aplicar uma detecção não verbalizada. Nessa modalidade exemplificativa, configurar o sinalizador unvoiced_flag como VERDADEIRO indica que o sinal de fala é uma fala não verbalizada, ao passo que configurar o sinalizador unvoiced_flag como FALSO indica que o sinal de fala não é fala não verbalizada.
Figure img0011
[048] A desigualdade abaixo é uma modalidade exemplificativa alternativa de aplicação de uma detecção verbalizada. Nessa modalidade exemplificativa, configurar voiced_flag como VERDADEIRO indica que o sinal de fala é fala verbalizada, ao passo que configurar voiced_flag como FALSO indica que o sinal de fala não é fala verbalizada.
Figure img0012
[049] Após identificar o sinal de fala como uma classe VERBALIZADA, o sinal de fala pode ser codificado com abordagem de codificação de domínio de tempo como CELP. As modalidades da presente invenção também podem ser aplicadas para reclassificar um sinal NÃO VERBALIZADO como um sinal VERBALIZADO antes da codificação.
[050] Em várias modalidades, o algoritmo de detecção não verbalizada/verbalizada aprimorado acima pode ser usado para aprimorar AMR-WB-BWE e NR.
[051] A Figura 3 ilustra operações realizadas durante a codificação de uma fala original com uso de um codificador CELP convencional que implanta uma modalidade da presente invenção.
[052] A Figura 3 ilustra um codificador CELP inicial convencional, em que um erro ponderado 109 entre uma fala sintetizada 102 e uma fala original 101 é minimizado, muitas vezes, usando uma abordagem de síntese por análise, o que significa que a codificação (análise) é realizada otimizando-se de modo perceptível o sinal decodificado (síntese) em um circuito fechado.
[053] O princípio básico que todos os codificadores de fala exploram é o fato de que os sinais de fala são formas de onda altamente correlacionadas. Como uma ilustração, a fala pode ser representada com uso de um modelo autorregressivo (AR) como na equação (11) abaixo.
Figure img0013
[054] Na equação (11), cada amostra é representada como uma combinação linear das amostras L anteriores mais um ruído branco. Os coeficientes ponderados a1, a2,... aL, são chamados de Coeficientes de Previsão linear (LPCs). Para cada quadro, os coeficientes ponderados a1, a2,... aL, são escolhidos, de modo que o espectro de {X1, X2,..., XN}, gerado usando o modelo acima seja perfeitamente compatível com o espectro do quadro de fala de entrada.
[055] Alternativamente, os sinais de fala também podem ser representados por uma combinação de um modelo harmônico e um modelo de ruído. A parte harmônica do modelo é efetivamente uma representação de série de Fourier do componente periódico do sinal. Em geral, para sinais verbalizados, o modelo harmônico mais o modelo de fala de ruído é composto por uma mistura tanto de harmonia quanto de ruído. A proporção de harmonia e ruído em uma fala verbalizada depende de vários fatores, incluindo as características de locutor (por exemplo, até que extensão uma voz do locutor é normal ou ofegante); o caractere de segmento de fala (por exemplo, até que extensão um segmento de fala é periódico) e na frequência. As frequências de fala verbalizada mais altas têm uma proporção maior de componentes semelhantes a ruído.
[056] O modelo de previsão linear e o modelo de ruído harmônico são os dois métodos principais para modelagem e codificação de sinais de fala. O modelo de previsão linear, em particular, é bom na modelagem do envelope de fala espectral, ao passo que o modelo de ruído harmônico é bom na modelagem da estrutura de fala fina. Os dois métodos podem ser combinados para tirar vantagem de suas forças relativas.
[057] Conforme indicado anteriormente, antes da codificação CELP, o sinal de entrada para o microfone do fone é filtrado e testado, por exemplo, em uma taxa de 8.000 amostras por segundo. Cada amostra é quantificada, por exemplo, com 13 bits por amostra. A fala amostrada é segmentada em segmentos ou quadros de 20 ms (por exemplo, nesse caso, 160 amostras).
[058] O sinal de fala é analisado, e seu modelo LP, seus sinais de excitação e seu passo são extraídos. O modelo LP representa o envelope de fala espectral. O mesmo é convertido em um conjunto de coeficientes de frequências espectrais em linha (LSF), que é uma representação alternativa de parâmetros de previsão linear, visto que os coeficientes LSF têm boas propriedades de quantificação. Os coeficientes LSF podem ser quantizados de modo escalar ou, de maneira mais eficiente, os mesmos podem ser vetor quantizado com uso de livros de código de vetor LSF treinados anteriormente.
[059] A excitação de código inclui um livro de código que compreende vetores de código que têm componentes que são todos escolhidos independentemente, de modo que cada vetor de código possa ter um espectro ‘branco’ aproximado. Para cada subquadro de fala de entrada, cada um dos vetores de código é filtrado através do filtro de previsão linear de curto prazo 103 e do filtro de previsão de longo prazo 105, e a saída é comparada às amostras de fala. Em cada subquadro, o vetor de código cuja saída é mais compatível com a fala de entrada (erro minimizado) é escolhido para representar esse subquadro.
[060] A excitação codificada 108 normalmente compreende sinal semelhante a pulso ou sinal semelhante a ruído que são matematicamente construídos ou salvos em um livro de código. O livro de código está disponível tanto para o codificador quanto para o decodificador de recepção. A excitação codificada 108, a qual pode ser um livro de código estocástico ou fixado, pode ser um dicionário de quantificação de vetor que é (implícita ou explicitamente) codificado permanentemente no codec. Esse livro de código fixado pode ser uma previsão linear excitada por código algébrico ou pode ser armazenado explicitamente.
[061] Um vetor de código a partir do livro de código é dimensionado por um ganho apropriado para tornar a energia igual à energia da fala de entrada. Consequentemente, a saída da excitação codificada 108 é dimensionada por um ganho Gc 107 antes de passar através dos filtros lineares.
[062] O filtro de previsão linear de curto prazo 103 forma o espectro ‘branco’ do vetor de código para se assemelhar ao espectro da fala de entrada. De maneira equivalente, em domínio de tempo, O filtro de previsão linear de curto prazo 103 incorpora correlações de curto prazo (correlação com amostras anteriores) na sequência branca. O filtro que forma a excitação tem um modelo do tipo “todos os polos” (all-pole) da forma 1/A (z) (filtro de previsão linear de curto prazo 103), em que A (z) é chamado de o filtro de previsão e pode ser obtido com uso da previsão linear (por exemplo, Algoritmo de Levinson- Durbin). Em uma ou mais modalidades, um filtro do tipo “todos os polos" (all-pole) pode ser usado, visto que é uma boa representação do trato vocal humano e é fácil de computar.
[063] O filtro de previsão linear de curto prazo 103 é obtido analisando-se o sinal original 101 e representado por um conjunto de coeficientes:
Figure img0014
[064] Conforme descrito anteriormente, as regiões de fala verbalizada exibem periodicidade de longo prazo. Esse período, conhecido como passo, é introduzido no espectro sintetizado pelo filtro de passo 1/ (B (z)). A saída do filtro de Previsão de Longo Prazo 105 depende de passo e ganho de passo. Em uma ou mais modalidades, o passo pode ser estimado a partir do original sinal, sinal residual ou do sinal original ponderado. Em uma modalidade, a função de Previsão de Longo Prazo (B (z)) pode ser expressa com uso da Equação (13) da seguinte forma.
Figure img0015
[065] O filtro ponderado 110 é relacionado ao filtro de Previsão de Curto Prazo acima. Um dos filtros ponderados típicos pode ser representado conforme descrito na equação (14) .
Figure img0016
em que β<α, 0<β<1, 0<α≤1.
[066] Em outra modalidade, o filtro ponderado W (z) pode ser derivado do filtro LPC pelo uso de expansão de largura de banda, conforme ilustrado em uma modalidade na equação (15) abaixo.
Figure img0017
[067] Na equação (15), Y1 > Y2, os quais são os fatores com quais os polos são movidos em direção à origem.
[068] Consequentemente, para cada quadro de fala, os LPCs e passo são computados e os filtros são atualizados. Para cada subquadro de fala, o vetor de código que produz a saída ‘mais bem’ filtrada é escolhido para representar o subquadro. O valor quantificado correspondente de ganho precisa ser transmitido para o decodificador para decodificação adequada. Os LPCs e os valores de passo também precisam ser quantificados e enviados a cada quadro para reconstruir os filtros no decodificador. Consequentemente, o índice de excitação codificada, o índice de ganho quantificado, o índice de parâmetro de Previsão de Longo Prazo quantificado, e o índice de parâmetro de Previsão de Curto Prazo quantificado são transmitidos para o decodificador.
[069] A Figura 4 ilustra operações realizadas durante a decodificação de uma fala original com uso de um decodificador CELP de acordo com uma modalidade da presente invenção.
[070] O sinal de fala é reconstruído no decodificador passando os vetores de código recebidos através dos filtros correspondentes. Consequentemente, cada livro, exceto o livro de pós-processamento, tem a mesma definição, conforme descrito no codificador da Figura 3.
[071] O fluxo de bits de CELP codificado é recebido e desempacotado 80 em um dispositivo receptor. Para cada subquadro recebido, o índice de excitação codificada, o índice de ganho quantificado, o índice de parâmetro de Previsão de Longo Prazo quantificado e o índice de parâmetro de Previsão de Curto Prazo quantificado recebidos são usados para encontrar os parâmetros correspondentes com uso de decodificadores correspondentes, por exemplo, decodificador de ganho 81, decodificador de Previsão de Longo Prazo 82 e decodificador de Previsão de Curto Prazo 83. Por exemplo, as posições e os sinais de amplitude dos pulsos de excitação e do vetor de código algébrico da excitação de código 402 podem ser determinados a partir do índice de excitação codificada recebido.
[072] Em referência à Figura 4, o decodificador é uma combinação de vários livros que inclui excitação codificada 201, Previsão de Longo Prazo 203, Previsão de Curto Prazo 205. Adicionalmente, o decodificador inicial inclui livro de pós-processamento 207 após uma fala sintetizada 206. O pós-processamento pode compreender ainda um pós- processamento de curto prazo e um pós-processamento de longo prazo.
[073] A Figura 5 ilustra um codificador CELP convencional usado para implantar a modalidades da presente invenção.
[074] A Figura 5 ilustra um codificador CELP básico com uso de um livro de código adaptável adicional para aprimorar previsão linear longo prazo. A excitação é produzida somando as contribuições de um livro de código adaptável 307 e de uma excitação de código 308, o qual pode ser um livro de código estocástico ou fixo conforme descrito anteriormente. As entradas no livro de código adaptável compreendem versões atrasadas da excitação. Isso torna possível codificar de maneira eficiente sinais periódicos como sons verbalizados.
[075] Em referência à Figura 5, um livro de código adaptável 307 compreende uma excitação pós-sintetizada 304 ou ciclo de passo excitação passada repetitivo em período de passo. Um atraso (lag) de passo poderá ser codificado em valor de número inteiro quando for grande ou longo. O atraso de passo, muitas vezes, é codificado em valor fracionário mais preciso, quando é pequeno ou curto. As informações periódicas de passo são empregadas para gerar o componente adaptável da excitação. Esse componente de excitação é dimensionado por um ganho Gp 305 (também chamado ganho de passo).
[076] A Previsão de Longo Prazo desempenha um papel muito importante na codificação de fala verbalizada, posto que a fala verbalizada tem periodicidade forte. Os ciclos de fala verbalizada de passo adjacentes são semelhantes entre si, o que significa que, matematicamente, o ganho de passo Gp na expressão de excitação seguinte é maior ou próximo a 1. A excitação resultante pode ser expressa na equação (16) como combinação das excitações individuais.
Figure img0018
em que, ep(n) é um subquadro de série de amostra indexado por n, que vem do livro de código adaptável 307 que compreende a excitação passada 304 através do laço de realimentação (Figura 5). ep(n) pode ser filtrado passa- baixa de maneira adaptável, posto que a área de baixa frequência, muitas vezes, é mais periódica ou mais harmônica do que a área de alta frequência. ec(n) é do livro de código de excitação codificada 308 (também chamado de livro de código fixado) que é uma contribuição de excitação atual. Adicionalmente, ec(n) também pode ser aprimorado como pelo uso de aprimoramento de filtragem passa-baixa, aprimoramento de passo, aprimoramento de dispersão, aprimoramento de formato e outros.
[077] Para fala verbalizada, a contribuição de ep(n) a partir do livro de código adaptável 307 pode ser dominante e o ganho de passo Gp 305 está próximo a um valor 1. Geralmente, a excitação é atualizada para cada subquadro. O tamanho de quadro típico é de 20 milissegundos e o tamanho de subquadro típico é de 5 milissegundos.
[078] Conforme descrito na Figura 3, a excitação codificada fixada 308 é dimensionada por um ganho Gc 306 antes de passar através dos filtros lineares. Os dois componentes de excitação dimensionados a partir da excitação codificada fixada 108 e do livro de código adaptável 307 são adicionados conjuntamente antes da filtragem através do filtro de previsão linear de curto prazo 303. Os dois ganhos (Gp e Gc) são quantificados e transmitidos para um decodificador. Consequentemente, o índice de excitação codificada, o índice de livro de código adaptável, os índices de ganho quantificados e o índice de parâmetro de Previsão de Curto Prazo quantificado são transmitidos para o dispositivo receptor de áudio.
[079] O fluxo de bits CELP codificado com uso de um dispositivo ilustrado na Figura 5 é recebido em um dispositivo receptor. A Figura 6 ilustra o decodificador correspondente do dispositivo receptor.
[080] A Figura 6 ilustra um decodificador CELP básico correspondente ao codificador na Figura 5, de acordo com uma modalidade da presente invenção. A Figura 6 inclui um bloco de pós-processamento 408 que recebe a fala sintetizada 407 a partir do decodificador principal. Esse decodificador é semelhante ao da Figura 2, exceto pelo livro de código adaptável 307.
[081] Para cada subquadro recebido, o índice de excitação codificada recebido, o índice de ganho de excitação codificada quantificado, o índice de passo quantificado, o índice de ganho de livro de código adaptável quantificado e o índice de parâmetro de Previsão de Curto Prazo quantificado são usados para encontrar os parâmetros correspondentes com uso de decodificadores correspondentes, por exemplo, decodificador de ganho 81, decodificador de passo 84, decodificador de ganho de livro de código adaptável 85 e decodificador de Previsão de Curto Prazo 83.
[082] Em várias modalidades, o decodificador CELP é uma combinação de vários livros, e compreende excitação codificada 402, livro de código adaptável 401, Previsão de Curto Prazo 406, e pós-processamento 408. Cada livro, exceto o livro de pós-processamento, tem a mesma definição, conforme descrito no codificador da Figura 5. O pós- processamento pode incluir ainda pós-processamento de curto prazo e pós-processamento de longo prazo.
[083] Conforme mencionado anteriormente, a CELP é usada principalmente para codificar sinal de fala, beneficiando- se das características de voz humana específicas ou do modelo de produção vocal de voz humana. A fim de codificar o sinal de fala de maneira mais eficiente, o sinal de fala pode ser classificado em classes diferentes e cada classe é codificada de uma maneira diferente. A classificação verbalizada/não verbalizada ou a decisão não verbalizada pode ser uma classificação importante e básica entre todas as classificações de classes diferentes. Para cada classe, o filtro LPC ou STP sempre é usado para representar o envelope espectral. A excitação para o filtro LPC, por sua vez, pode ser diferente. Os sinais não verbalizados podem ser codificados com uma excitação semelhante a ruído. Por outro lado, os sinais verbalizados podem ser codificados com uma excitação semelhante a pulso.
[084] O bloco de excitação de código (citado com rótulo 308 na Figura 5 e 402 na Figura 6) ilustra a localização de Livro de código fixado (FCB) para uma codificação CELP geral. Um vetor de código selecionado de FCB é dimensionado por um ganho, muitas vezes, representado como Gc 306.
[085] A Figura 7 ilustra vetores candidatos semelhantes a ruído para construir livro de código de excitação codificada ou livro de código fixado de codificação de fala CELP.
[086] Um FCB contendo vetores semelhantes a ruído pode ser a melhor estrutura para sinais não verbalizados a partir do ponto de vista de qualidade de percepção. Isso se deve ao fato de que a contribuição de livro de código adaptável ou a contribuição de LTP seria pequena ou inexistente, e a principal contribuição de excitação contaria com o componente de FCB paro sinal de classe não verbalizada. Nesse caso, se um FCB semelhante a pulso for usado, o sinal de fala sintetizada de saída poderia soar agressivo, posto que há vários zeros no vetor de código selecionado a partir de FCB semelhante a pulso projetado para codificação de taxas de bits baixas.
[087] Em referência à Figura 7, uma estrutura de FCB inclui vetores candidatos semelhantes a ruído para construir uma excitação codificada. O FCB semelhante a ruído 501 seleciona um vetor de código particular semelhante a ruído 502 que é dimensionado pelo ganho 503.
[088] A Figura 8 ilustra vetores candidatos semelhantes ao pulso para construir livro de código de excitação codificada ou livro de código fixado de codificação de fala CELP.
[089] Um FCB semelhante a pulso fornece melhor qualidade do que um FCB semelhante a ruído para sinal de classe verbalizada a partir do ponto de vista de percepção. Isso se deve ao fato de que a contribuição de livro de código adaptável ou a contribuição de LTP seria dominante para o sinal de classe verbalizada altamente periódico e a principal contribuição de excitação não contaria com o componente de FCB paro sinal de classe verbalizada. Se um FCB semelhante a ruído for usado, o sinal de fala sintetizada de saída pode soar ruidoso ou menos periódico, posto que é mais difícil ter uma boa forma de onda compatível com uso do vetor de código selecionado a partir do FCB semelhante a ruído projetado para codificação de taxas de bits baixas.
[090] Em referência à Figura 8, uma estrutura de FCB pode incluir uma pluralidade de vetores candidatos semelhantes ao pulso para construir uma excitação codificada. Um vetor de código semelhante a pulso 602 é selecionado dentre o FCB semelhante a pulso 601 e dimensionado pelo ganho 603.
[091] A Figura 9 ilustra um exemplo de espectro de excitação para fala verbalizada. Após remover o envelope espectral de LPC 704, o espectro de excitação 702 fica quase plano. O espectro de excitação de banda baixa 701 é, de modo geral, mais harmônico que o espectro de banda alta 703. Teoricamente, o espectro de excitação de banda alta ideal ou não quantificado pode ter quase a mesma energia nível do espectro de excitação de banda baixa. Na prática, caso tanto a banda baixa quanto a banda alta seja codificada com tecnologia CELP, o espectro de banda alta sintetizado ou quantificado pode ter um nível mais baixo de energia do que o espectro de banda baixa sintetizado ou quantificado por pelo menos duas razões. Primeiro, a codificação CELP de circuito fechado enfatiza mais a banda baixa do que a banda alta. Segundo, a compatibilização de forma de onda com o sinal de banda baixa é mais fácil do que com o sinal de banda alta, não apenas devido à alteração mais rápida do sinal de banda alta, mas também devido à característica mais semelhante a ruído do sinal de banda alta.
[092] Na codificação CELP de taxa de bits baixa, como AMR-WB, a banda alta geralmente não é codificada, mas gerada no decodificador com uma tecnologia de extensão de largura de banda (BWE). Nesse caso, o espectro de excitação de banda alta pode ser copiado simplesmente do espectro de excitação de banda baixa, enquanto um pouco de ruído aleatório é adicionado. O envelope espectral de energia de banda alta pode ser previsto ou estimado a partir do envelope espectral de energia de banda baixa. O controle adequado da energia de sinal de banda alta torna-se importante quando a BWE é usada. Diferente do sinal de fala não verbalizada, a energia do sinal de fala de banda alta verbalizada gerada precisa ser reduzida corretamente para alcançar a melhor qualidade de percepção.
[093] A Figura 10 ilustra um exemplo de um espectro de excitação para fala não verbalizada.
[094] No caso de fala não verbalizada, o espectro de excitação 802 é quase plano após remover o envelope espectral de LPC 804. Tanto o espectro de excitação de banda baixa 801 quanto o espectro de banda alta 803 é semelhante a ruído. Teoricamente, o espectro de excitação de banda alta ideal ou não quantificado pode ter quase a mesma energia nível do espectro de excitação de banda baixa. Na prática, caso tanto a banda baixa quanto a banda alta sejam codificadas com tecnologia CELP, o espectro de banda alta sintetizado ou quantificado terá o mesmo nível de energia, ou terá o nível de energia ligeiramente mais alto do que o espectro de banda baixa sintetizado ou quantificado por duas razões. Primeiro, a codificação CELP de circuito fechado enfatiza mais a área de energia mais alta. Segundo, embora a compatibilização da forma de onda com o sinal de banda baixa seja mais fácil do que com o sinal de banda alta, é sempre difícil ter uma boa forma de onda compatível com sinais semelhantes a ruído.
[095] Semelhante à codificação de fala verbalizada, para codificação CELP de taxa de bits baixa não verbalizada, como AMR-WB, a banda alta geralmente não é codificada, mas sim gerada no decodificador com uma tecnologia BWE. Nesse caso, o espectro de excitação de banda alta não verbalizado pode ser copiado simplesmente do espectro de excitação de banda baixa não verbalizado, enquanto um pouco ruído aleatório é adicionado. O envelope espectral de energia de banda alta de sinal de fala não verbalizada pode ser previsto ou estimado a partir do envelope espectral de energia de banda baixa. Controlar a energia do sinal de banda alta não verbalizado corretamente é especialmente importante quando a BWE é usada. Diferente do sinal de fala verbalizada, a energia do sinal de fala de banda alta não verbalizada gerado é melhor para realizar o aumento corretamente a fim de alcançar uma qualidade de percepção melhor.
[096] A Figura 11 ilustra um exemplo de espectro de excitação paro sinal de ruído de fundo.
[097] O espectro de excitação 902 fica quase plano após remover o envelope espectral de LPC 904. O espectro de excitação de banda baixa 901 geralmente é semelhante a ruído como o espectro de banda alta 903. Teoricamente, o espectro de excitação de banda a ideal ou não quantificado de sinal de ruído de fundo poderia ter quase o mesmo nível de energia do espectro de excitação de banda baixa. Na prática, caso tanto a banda baixa quanto a banda alta sejam codificadas com tecnologia CELP, o espectro de banda alta de sinal de ruído de fundo sintetizado ou quantificado poderá ter um nível de energia mais baixo do que o espectro de banda baixa sintetizado ou quantificado por duas razões. Primeiro, a codificação CELP de circuito fechado enfatiza mais a banda baixa que tem energia mais alta do que a banda alta. Segundo, a compatibilização de forma de onda com o sinal de banda baixa é mais fácil do que com o sinal de banda alta. Semelhante à codificação de fala verbalizada, para codificação CELP de taxa de bits baixa não verbalizada como AMR-WB, a banda alta geralmente não é codificada, mas sim gerada no decodificador com uma tecnologia BWE. Nesse caso, o espectro de excitação de banda alta de sinal de ruído de fundo pode ser copiado simplesmente a partir do espectro de excitação de banda baixa, enquanto um pouco de ruído aleatório é adicionado; o envelope espectral de energia de banda alta de sinal de ruído de fundo pode ser previsto ou estimado a partir do envelope espectral de energia de banda baixa. O controle do sinal de banda alta de ruído de fundo pode ser diferente do sinal de fala quando a BWE é usada. Diferente do sinal de fala, a energia do sinal de banda alta gerado de fala de ruído de fundo é melhor para estabilizar com o tempo a fim de alcançar uma qualidade de percepção melhor.
[098] As Figuras 12A e 12B ilustram exemplos de codificação/decodificação de domínio de frequência com extensão de largura de banda. A Figura 12A ilustra o codificador com informações de lado de BWE, ao passo que a Figura 12B ilustra o decodificador com BWE.
[099] Em referência primeiro à Figura 12A, o sinal de banda baixa 1001 é codificado em domínio de frequência com uso de parâmetros de banda baixa 1002. Os parâmetros de banda baixa 1002 são quantificados e o índice de quantificação é transmitido para um dispositivo de acesso receptor de áudio através do canal de fluxo de bits 1003. O sinal de banda alta extraído do sinal de áudio 1004 é codificado com quantidade pequena de bits usando os parâmetros de lado de banda alta 1005. Os parâmetros de lado de banda alta quantificados (índice de informações de lado de HB) são transmitidos para o dispositivo de acesso receptor de áudio através do fluxo de bits canal 1006.
[100] Em referência à Figura 12B, no decodificador, o fluxo de bits de banda baixa 1007 é usado para produzir um sinal de banda baixa decodificado 1008. O fluxo de bits lateral de banda alta 1010 é usado para decodificar e gerar os parâmetros de lado de banda alta 1011. O sinal de banda alta 1012 é gerado a partir do sinal de banda baixa 1008 com a ajuda dos parâmetros de lado de banda alta 1011. O sinal de áudio final 1009 é produzido combinando o sinal de banda baixa e o sinal de banda alta. O domínio de frequência BWE também precisa de um controle de energia adequado do sinal de banda alta gerado. Os níveis de energia podem ser configurados de maneira diferente para sinais não verbalizados, verbalizados e sinais de ruído. Por conseguinte, uma classificação de sinal de fala de alta qualidade também é necessário para o domínio de frequência BWE.
[101] Os detalhes relevantes do algoritmo de redução de ruído de fundo são descritos abaixo. Em geral, devido ao fato de que o sinal de fala não verbalizada é semelhante a ruído, a redução de ruído de fundo (NR) em área não verbalizada deve ser menos agressiva do que na área verbalizada, beneficiando-se do efeito de mascarar ruído. Em outras palavras, um mesmo nível de ruído de fundo é mais audível em área verbalizada do que em área não verbalizada, de modo que NR deve ser mais agressiva em área verbalizada do que em área não verbalizada. Nesse caso, uma decisão não verbalizada/verbalizada de alta qualidade é necessária.
[102] Em geral, o sinal de fala não verbalizada é o sinal semelhante a ruído que não tem periodicidade. Adicionalmente, o sinal de fala não verbalizada tem mais energia em área de alta frequência do que em área de baixa frequência. Em contraste, o sinal de fala verbalizada tem características opostas. Por exemplo, o sinal de fala verbalizada é um tipo de sinal quase periódico que tem, em geral, mais energia em área de baixa frequência do que em área de alta frequência (consulte também as Figuras 9 e 10).
[103] As Figuras 13A a 13C são ilustrações esquemáticas de processamento de fala com uso de várias modalidades de processamento de fala descritas acima.
[104] Em referência à Figura 13A, um método para processamento de fala inclui receber uma pluralidade de quadros de um sinal de fala que serão processados (caixa 1310). Em várias modalidades, a pluralidade de quadros de um sinal de fala pode ser gerada dentro do mesmo dispositivo de áudio, por exemplo, que compreende um microfone. Em uma modalidade alternativa, o sinal de fala pode ser recebido em um dispositivo de áudio, como um exemplo. Por exemplo, o sinal de fala pode ser codificado ou decodificado subsequentemente. Para cada quadro, um parâmetro não verbalizado/verbalizado que reflete uma característica de fala não verbalizada/verbalizada no quadro atual é determinado (caixa 1312). Nas várias modalidades, o parâmetro não verbalizado/verbalizado pode incluir um parâmetro de periodicidade, um parâmetro de inclinação espectral ou outras variáveis. O método inclui ainda determinar um parâmetro suavizado não verbalizado para incluir informações do parâmetro não verbalizado/verbalizado em quadros anteriores do sinal de fala (caixa 1314). Uma diferença entre o parâmetro não verbalizado/verbalizado e o parâmetro suavizado não verbalizado/verbalizado é obtida (caixa 1316). Alternativamente, um valor relativo (por exemplo, razão) entre o parâmetro não verbalizado/verbalizado e o parâmetro suavizado não verbalizado/verbalizado pode ser obtido. Quando se toma decisão se um quadro atual é mais adequado para ser manuseado como uma fala não verbalizada/verbalizada, a decisão não verbalizado/verbalizado é tomada com uso da diferença determinada como um parâmetro de decisão (caixa 1318).
[105] Em referência à Figura 13B, um método para processamento de fala inclui receber uma pluralidade de quadros de um sinal de fala (caixa 1320). A modalidade é descrita com uso de um parâmetro verbalizado, mas aplica-se igualmente ao uso de um parâmetro não verbalizado. Um parâmetro verbalizado combinado é determinado para cada quadro (caixa 1322). Em uma ou mais modalidades, o parâmetro verbalizado combinado pode ser um parâmetro de periodicidade e um parâmetro de inclinação e um parâmetro verbalizado combinado suavizado. O parâmetro verbalizado combinado suavizado pode ser obtido suavizando o parâmetro verbalizado combinado em um ou mais quadros anteriores do sinal de fala. O parâmetro verbalizado combinado é comparado ao parâmetro verbalizado combinado suavizado (caixa 1324). O quadro atual é classificado como um sinal de fala verbalizada ou um sinal de fala não verbalizada com uso da comparação na tomada de decisão (caixa 1326). O sinal de fala pode ser processado, por exemplo, codificado ou decodificado, de acordo com a classificação determinada do sinal de fala (caixa 1328).
[106] Em seguida, em referência à Figura 13C, em outra modalidade exemplificativa, um método para processamento de fala compreende receber uma pluralidade de quadros de um sinal de fala (caixa 1330). Um primeiro envelope de energia do sinal de fala no domínio de tempo é determinado (caixa 1332). O primeiro envelope de energia pode ser determinado dentro de uma primeira banda de frequência, por exemplo, uma banda de frequência baixa de até 4.000 Hz. Uma energia de banda de frequência baixa suavizada pode ser determinada a partir do primeiro envelope de energia com uso dos quadros anteriores. Uma diferença ou uma primeira razão da energia de banda de frequência baixa do sinal de fala para a energia de banda de frequência baixa suavizada é computada (caixa 1334). Um segundo envelope de energia do sinal de fala é determinado no domínio de tempo (caixa 1336). O segundo envelope de energia é determinado dentro de uma segunda banda de frequência. A segunda banda de frequência é uma banda de frequência diferente da primeira banda de frequência. Por exemplo, a segunda frequência pode ser uma banda de frequência alta. Em um exemplo, a segunda banda de frequência pode estar entre 4.000 Hz e 8.000 Hz. Uma energia de banda de frequência alta suavizada em um ou mais dos quadros anteriores do sinal de fala é computada. Uma diferença ou uma segunda razão é determinada com uso do segundo envelope de energia para cada quadro (caixa 1338). A segunda razão pode ser computada como a razão entre a energia de banda de frequência alta do sinal de fala no quadro atual para a energia de banda de frequência alta suavizada. O quadro atual é classificado como um sinal de fala verbalizada ou um sinal de fala não verbalizada com uso da primeira razão e da segunda razão na tomada de decisão (caixa 1340). O sinal de fala classificado é processado, por exemplo, codificado, decodificado e outros, de acordo com a classificação determinada do sinal de fala (caixa 1342).
[107] Em uma ou mais modalidades, o sinal de fala pode ser codificado/decodificado com uso de excitação semelhante a ruído quando o sinal de fala é determinado como um sinal de fala não verbalizada e em que o sinal de fala é codificado/decodificado com excitação semelhante a pulso quando o sinal de fala é determinado como um sinal verbalizado.
[108] Nas modalidades adicionais, o sinal de fala pode ser codificado/decodificado no domínio de frequência quando o sinal de fala é determinado como um sinal não verbalizado e em que o sinal de fala é codificado/decodificado no domínio de tempo quando o sinal de fala é determinado como um sinal verbalizado.
[109] Consequentemente, as modalidades da presente invenção podem ser usadas para aprimorar decisão não verbalizada/verbalizada para codificação de fala, extensão de largura de banda e/ou aprimoramento de fala.
[110] A Figura 14 ilustra um sistema de comunicação 10, de acordo com uma modalidade da presente invenção.
[111] O sistema de comunicação 10 tem dispositivos de acesso de áudio 7 e 8 acoplados a uma rede 36 através de ligações de comunicação 38 e 40. Em uma modalidade, o dispositivo de acesso de áudio 7 e 8 são dispositivos de voz por protocolo de internet (VOIP) e a rede 36 é uma rede de área ampla (WAN), rede telefônica pública comutada (PTSN) e/ou a internet. Em outra modalidade, as ligações de comunicação 38 e 40 são conexões de banda larga com fio e/ou sem fio. Em uma modalidade alternativa, os dispositivos de acesso de áudio 7 e 8 são telefones celulares ou telefones móveis, as ligações 38 e 40 são canais de telefone sem fio e a rede 36 representa uma rede de telefone móvel.
[112] O dispositivo de acesso de áudio 7 usa um microfone 12 para converter som, como música ou uma voz da pessoa em um sinal de entrada de áudio analógico 28. Uma interface de microfone 16 converte o sinal de áudio analógico de entrada 28 em um sinal de áudio digital 33 para inserir em um codificador 22 de um codec 20. O codificador 22 produz sinal de áudio codificado TX para transmissão para uma rede 26 através de uma interface de rede 26, de acordo com as modalidades da presente invenção. Um decodificador 24 dentro do codec 20 recebe sinal de áudio codificado RX a partir da rede 36 através de interface de rede 26 e converte sinal de áudio codificado RX em um sinal de áudio digital 34. A interface de alto- falante 18 converte o sinal de áudio digital 34 no sinal de áudio 30 adequado para acionar o altifalante 14.
[113] Nas modalidades da presente invenção, nas quais o dispositivo de acesso de áudio 7 é um dispositivo VOIP, alguns ou todos os componentes dentro do dispositivo de acesso de áudio 7 são implantados dentro de um fone. Em algumas modalidades, no entanto, o microfone 12 e o alto- falante 14 são unidades separadas e a interface de microfone 16, a interface de alto-falante 18, o CODEC 20 e a interface de rede 26 são implantadas dentro de um computador pessoal. O CODEC 20 pode ser implantado tanto em software em execução em um computador quanto em um processador dedicado ou por hardware dedicado, por exemplo, em um circuito integrado de aplicação específica (ASIC). A interface de microfone 16 é implantada por um conversor de analógico para digital (UM/D), bem como outro conjunto de circuitos de interface localizado dentro do fone e/ou dentro do computador. Da mesma forma, a interface de alto- falante 18 é implantada por um conversor de analógico para digital e outro conjunto de circuitos de interface localizado dentro do fone e/ou dentro do computador. Nas modalidades adicionais, o dispositivo de acesso de áudio 7 pode ser implantado e particionado de outras maneiras conhecidas na técnica.
[114] Nas modalidades da presente invenção, nas quais o dispositivo de acesso de áudio 7 é um telefone celular ou telefone móvel, os elementos dentro do dispositivo de acesso de áudio 7 são implantados dentro de um fone de celular. O CODEC 20 é implantado por software em execução em um processador dentro do fone ou por hardware dedicado. Nas modalidades adicionais da presente invenção, o dispositivo de acesso de áudio pode ser implantado em outros dispositivos como sistemas de comunicação digital ponto-a-ponto com fio e sem fio, como comunicações internas e fones de rádio. Nas aplicações como dispositivos de áudio de consumidor, o dispositivo de acesso de áudio pode conter um codec com apenas um codificador 22 ou um decodificador 24, por exemplo, em um sistema de microfone digital ou dispositivo de reprodução de música. Em outras modalidades da presente invenção, o CODEC 20 pode ser usado sem microfone 12 e alto-falante 14, por exemplo, em estações- base de celular que acessam a PTSN.
[115] O processamento de fala para aprimorar classificação não verbalizada/verbalizada descrita em várias modalidades da presente invenção, pode ser implantado no codificador 22 ou no decodificador 24, por exemplo. O processamento de fala para aprimorar classificação não verbalizada/verbalizada pode ser implantado em hardware ou software em várias modalidades. Por exemplo, o codificador 22 ou o decodificador 24 pode ser parte de um chip de processamento de sinal digital (DSP).
[116] A Figura 15 ilustra um diagrama de blocos de um sistema de processamento que pode ser usado para implantar os dispositivos e métodos revelados no presente documento. Os dispositivos específicos podem utilizar todos os componentes mostrados ou apenas um subconjunto dos componentes e os níveis de integração podem variar de dispositivo para dispositivo. Ademais, um dispositivo pode conter múltiplas partes de um componente, como múltiplas unidades de processamento, processadores, memórias, transmissores, receptores, etc. O sistema de processamento pode compreender uma unidade de processamento equipada com um ou mais dispositivos de entrada/saída, como um alto- falante, microfone, mouse, tela sensível ao toque, teclado numérico, teclado, impressora, visor e similares. A unidade de processamento pode incluir uma Unidade Central de Processamento (CPU), uma memória, um dispositivo de armazenamento em massa, um adaptador de vídeo e uma interface de I/O conectada a um barramento.
[117] O barramento pode ser um ou mais dentre qualquer tipo das inúmeras arquiteturas de barramentos, inclusive um barramento de memória ou controlador de memória, um barramento periférico, barramento de vídeo ou similares. A unidade de processamento pode incluir uma Unidade Central de Processamento (CPU), uma memória, um dispositivo de armazenamento em massa, um adaptador de vídeo e uma interface de I/O conectada a um barramento. A memória pode compreender qualquer tipo de memória de sistema como memória de acesso aleatório estática (SRAM), memória de acesso aleatório dinâmica (DRAM), DRAM síncrona (SDRAM), memória somente leitura (ROM), uma combinação das mesmas ou similares. Em uma modalidade, a memória pode incluir ROM para uso em inicialização e DRAM para armazenamento de programa e dados para uso enquanto executar programas.
[118] O dispositivo de armazenamento em massa pode compreender qualquer tipo de dispositivo de armazenamento configurado para armazenar dados, programas e outras informações e para tornar os dados, programas e outras informações acessíveis através do barramento. O dispositivo de armazenamento em massa pode compreender, por exemplo, uma ou mais dentre uma unidade de estado sólido, uma unidade de disco rígido, uma unidade de disco magnético, uma unidade de disco óptico ou similares.
[119] O adaptador de vídeo e a interface de I/O fornecem interfaces para acoplar dispositivos de entrada e saída externos à unidade de processamento. Conforme ilustrado, os exemplos de dispositivos de entrada e saída incluem o visor acoplado ao adaptador de vídeo e o mouse/teclado/impressora acoplados à interface de I/O. Outros dispositivos podem ser acoplados à unidade de processamento e podem ser utilizados menos ou mais cartões de interface. Por exemplo, uma interface serial como Barramento Serial Universal (USB) (não mostrado) pode ser usada para fornecer uma interface para uma impressora.
[120] A unidade de processamento também inclui uma ou mais interfaces de rede que podem compreender ligações com fio, como um cabo de Ethernet ou similares e/ou ligações sem fio para acessar nós ou redes diferentes. A interface de rede permite que a unidade de processamento se comunique com unidades remotas através das redes. Por exemplo, a interface de rede pode fornecer comunicação sem fio através de um ou mais transmissores/antenas de transmissão e um ou mais receptores/antenas receptoras. Em uma modalidade, a unidade de processamento é acoplada a uma rede de área local ou a uma rede de área ampla para processamento de dados e comunicações com dispositivos remotos, como outras unidades de processamento, a Internet, instalações de armazenamento remotas ou similares.
[121] Embora essa invenção tenha sido descrita com referência a modalidades ilustrativas, esta descrição não se destina a ser interpretada em um sentido limitante. Várias modificações e combinações das modalidades ilustrativas, bem como outras modalidades da invenção, serão evidentes para pessoas versadas na técnica por meio da referência à descrição. Por exemplo, várias modalidades descritas acima podem ser combinadas entre si.
[122] Embora a presente invenção e suas vantagens tenham sido descritas em detalhes, deve-se compreender que várias mudanças, substituições e alterações podem ser feitas no presente documento sem que se afaste do espírito e escopo da invenção, conforme definido pelas reivindicações anexas. Por exemplo, vários recursos e funções discutidos acima podem ser implantados em software, hardware ou firmware ou em uma combinação dos mesmos. Ademais, o escopo do presente pedido não se destina a ser limitado pelas modalidades particulares do processo, máquina, fabricação, composição de matéria, meios, métodos e etapas descritos no relatório descritivo. Como alguém com habilidade normal na técnica irá observar prontamente a partir da revelação da presente invenção, os processos, máquinas, fabricação, composições de matéria, meios, métodos ou etapas, pré-existentes ou que serão desenvolvidos posteriormente, os quais realizam substancialmente a mesma função ou alcançam substancialmente o mesmo resultado das modalidades correspondentes descritas no presente documento podem ser utilizados de acordo com a presente invenção. Consequentemente, as reivindicações anexas se destinam a incluir em seu escopo esses processos, máquinas, fabricação, composições de matéria, meios, métodos ou etapas.

Claims (9)

1. Método para processamento de um sinal de fala compreendendo uma pluralidade de quadros, caracterizado pelo fato de que o método compreende: determinar (1312) um parâmetro não verbalizado para um quadro atual do sinal de fala, em que o parâmetro não verbalizado reflete uma característica de fala não verbalizada no quadro atual; em que o parâmetro não verbalizado é determinado com base em um produto de (1- Pvoicing) e (1- Ptilt), Pvoicing é um parâmetro de periodicidade e Ptilt é um parâmetro de inclinação espectral; suavizar o parâmetro não verbalizado para o quadro atual a partir de um quadro anterior ao quadro atual do sinal de fala, para obter um parâmetro suavizado não verbalizado para o quadro atual; computar (1316) uma diferença entre o parâmetro não verbalizado para o quadro atual e o parâmetro suavizado não verbalizado para o quadro atual; e determinar (1318) se o quadro atual do sinal de fala é um sinal de fala não verbalizada com uso da diferença computada como um parâmetro de decisão.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o parâmetro não verbalizado é um parâmetro combinado que reflete pelo menos duas características de fala não verbalizada.
3. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que determinar se o quadro atual do sinal de fala é um sinal de fala não verbalizada compreende: quando a diferença computada for maior que 0,1, determinar que o quadro atual do sinal de fala é um sinal de fala não verbalizada; ou quando a diferença computada for menor que 0,05, determinar que o quadro atual do sinal de fala não é um sinal de fala não verbalizada; ou quando a diferença computada não for menor que 0,05 e não maior que 0,1, determinar que o quadro atual do sinal de fala tem o mesmo tipo de fala que o quadro anterior ao quadro atual.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que o parâmetro suavizado não verbalizado para o quadro atual é computado da seguinte forma:
Figure img0019
5. Método, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que o quadro atual e o quadro anterior ao quadro atual são quadros ou subquadros do sinal de fala.
6. Aparelho de processamento de fala, caracterizado pelo fato de que o aparelho compreende: um processador; e um meio de armazenamento legível por computador que armazena programação para execução pelo processador, a programação inclui instruções para: determinar um parâmetro não verbalizado para um quadro atual do sinal de fala, em que o parâmetro não verbalizado reflete uma característica de fala não verbalizada no quadro atual; suavizar o parâmetro não verbalizado para o quadro atual a partir de um quadro anterior ao quadro atual do sinal de fala, para obter um parâmetro suavizado não verbalizado para o quadro atual; computar uma diferença entre o parâmetro não verbalizado para o quadro atual e o parâmetro suavizado não verbalizado para o quadro atual; e determinar se o quadro atual do sinal de fala é um sinal de fala não verbalizada com uso da diferença computada como um parâmetro de decisão.
7. Aparelho, de acordo com a reivindicação 6, caracterizado pelo fato de que o parâmetro não verbalizado é um parâmetro combinado que reflete pelo menos duas características de fala não verbalizada.
8. Aparelho, de acordo com a reivindicação 6 ou 7, caracterizado pelo fato de que o parâmetro suavizado não verbalizado para o quadro atual forma:
Figure img0020
9. Aparelho, de acordo com qualquer uma das reivindicações 6 a 8, caracterizado pelo fato de que o quadro atual e o quadro anterior ao quadro atual são quadros ou subquadros do sinal de fala.
BR112016004544-0A 2013-09-09 2014-09-05 Método para processamento de um sinal de fala compreendendo uma pluralidade de quadros e aparelho de processamento de fala BR112016004544B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361875198P 2013-09-09 2013-09-09
US61/875,198 2013-09-09
US14/476,547 2014-09-03
US14/476,547 US9570093B2 (en) 2013-09-09 2014-09-03 Unvoiced/voiced decision for speech processing
PCT/CN2014/086058 WO2015032351A1 (en) 2013-09-09 2014-09-05 Unvoiced/voiced decision for speech processing

Publications (2)

Publication Number Publication Date
BR112016004544A2 BR112016004544A2 (pt) 2017-08-01
BR112016004544B1 true BR112016004544B1 (pt) 2022-07-12

Family

ID=52626401

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016004544-0A BR112016004544B1 (pt) 2013-09-09 2014-09-05 Método para processamento de um sinal de fala compreendendo uma pluralidade de quadros e aparelho de processamento de fala

Country Status (16)

Country Link
US (4) US9570093B2 (pt)
EP (2) EP3005364B1 (pt)
JP (2) JP6291053B2 (pt)
KR (3) KR102007972B1 (pt)
CN (2) CN105359211B (pt)
AU (1) AU2014317525B2 (pt)
BR (1) BR112016004544B1 (pt)
CA (1) CA2918345C (pt)
ES (2) ES2908183T3 (pt)
HK (1) HK1216450A1 (pt)
MX (1) MX352154B (pt)
MY (1) MY185546A (pt)
RU (1) RU2636685C2 (pt)
SG (2) SG10201701527SA (pt)
WO (1) WO2015032351A1 (pt)
ZA (1) ZA201600234B (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9972334B2 (en) 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
WO2017196422A1 (en) * 2016-05-12 2017-11-16 Nuance Communications, Inc. Voice activity detection feature based on modulation-phase differences
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
RU2668407C1 (ru) * 2017-11-07 2018-09-28 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи
CN108447506A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音处理方法和语音处理装置
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN109119094B (zh) * 2018-07-25 2023-04-28 苏州大学 一种利用声带建模反演的嗓音分类方法
WO2021156375A1 (en) * 2020-02-04 2021-08-12 Gn Hearing A/S A method of detecting speech and speech detector for low signal-to-noise ratios
CN112885380A (zh) * 2021-01-26 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JPH06110489A (ja) * 1992-09-24 1994-04-22 Nitsuko Corp 音声信号処理装置及びその方法
JP3655652B2 (ja) * 1993-09-02 2005-06-02 シーメンス アクチエンゲゼルシヤフト 自動的通話方向切換のための方法および回路装置
JPH07212296A (ja) * 1994-01-17 1995-08-11 Japan Radio Co Ltd Vox制御通信装置
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
KR20000022285A (ko) 1996-07-03 2000-04-25 내쉬 로저 윌리엄 음성 액티비티 검출기 및 검출 방법
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6415029B1 (en) * 1999-05-24 2002-07-02 Motorola, Inc. Echo canceler and double-talk detector for use in a communications unit
JP3454214B2 (ja) * 1999-12-22 2003-10-06 三菱電機株式会社 パルス雑音除去装置およびこれを含む中波am音声放送受信機
JP3689616B2 (ja) * 2000-04-27 2005-08-31 シャープ株式会社 音声認識装置及び音声認識方法、音声認識システム、並びに、プログラム記録媒体
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
RU2331933C2 (ru) * 2002-10-11 2008-08-20 Нокиа Корпорейшн Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7519530B2 (en) * 2003-01-09 2009-04-14 Nokia Corporation Audio signal processing
US7698141B2 (en) * 2003-02-28 2010-04-13 Palo Alto Research Center Incorporated Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
KR100744352B1 (ko) 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
JP2007149193A (ja) * 2005-11-25 2007-06-14 Toshiba Corp ディフェクト信号生成回路
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
JP2007292940A (ja) * 2006-04-24 2007-11-08 Toyota Motor Corp 音声識別装置及び音声識別方法
US8010352B2 (en) * 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
MY144271A (en) * 2006-10-20 2011-08-29 Dolby Lab Licensing Corp Audio dynamics processing using a reset
US7817286B2 (en) * 2006-12-22 2010-10-19 Hitachi Global Storage Technologies Netherlands B.V. Iteration method to improve the fly height measurement accuracy by optical interference method and theoretical pitch and roll effect
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
EP2162880B1 (en) 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
CN101221757B (zh) 2008-01-24 2012-02-29 中兴通讯股份有限公司 高频杂音处理方法及分析方法
CN101261836B (zh) * 2008-04-25 2011-03-30 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
US20110123121A1 (en) * 2009-10-13 2011-05-26 Sony Corporation Method and system for reducing blocking artefacts in compressed images and video signals
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
TWI403304B (zh) * 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
CN102655480B (zh) 2011-03-03 2015-12-02 腾讯科技(深圳)有限公司 相似邮件处理系统和方法
KR101352608B1 (ko) * 2011-12-07 2014-01-17 광주과학기술원 음성 신호의 대역폭 확장 방법 및 그 장치
US8909539B2 (en) 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
US20130151125A1 (en) * 2011-12-08 2013-06-13 Scott K. Mann Apparatus and Method for Controlling Emissions in an Internal Combustion Engine
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
CN102664003B (zh) * 2012-04-24 2013-12-04 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
US8924209B2 (en) * 2012-09-12 2014-12-30 Zanavox Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing

Also Published As

Publication number Publication date
EP3352169A1 (en) 2018-07-25
US20180322895A1 (en) 2018-11-08
CN110097896B (zh) 2021-08-13
MX352154B (es) 2017-11-10
JP2018077546A (ja) 2018-05-17
AU2014317525A1 (en) 2016-02-11
US20170110145A1 (en) 2017-04-20
ZA201600234B (en) 2017-08-30
SG11201600074VA (en) 2016-02-26
CN105359211B (zh) 2019-08-13
SG10201701527SA (en) 2017-03-30
EP3005364A4 (en) 2016-06-01
WO2015032351A1 (en) 2015-03-12
HK1216450A1 (zh) 2016-11-11
RU2636685C2 (ru) 2017-11-27
KR102007972B1 (ko) 2019-08-06
ES2908183T3 (es) 2022-04-28
MX2016002561A (es) 2016-06-17
US10347275B2 (en) 2019-07-09
KR20180095744A (ko) 2018-08-27
KR20170102387A (ko) 2017-09-08
JP6291053B2 (ja) 2018-03-14
US10043539B2 (en) 2018-08-07
MY185546A (en) 2021-05-19
RU2016106637A (ru) 2017-10-16
ES2687249T3 (es) 2018-10-24
KR101774541B1 (ko) 2017-09-04
JP2016527570A (ja) 2016-09-08
US20200005812A1 (en) 2020-01-02
US20150073783A1 (en) 2015-03-12
AU2014317525B2 (en) 2017-05-04
JP6470857B2 (ja) 2019-02-13
US11328739B2 (en) 2022-05-10
BR112016004544A2 (pt) 2017-08-01
CA2918345A1 (en) 2015-03-12
EP3005364B1 (en) 2018-07-11
US9570093B2 (en) 2017-02-14
KR20160025029A (ko) 2016-03-07
EP3352169B1 (en) 2021-12-08
CA2918345C (en) 2021-11-23
CN110097896A (zh) 2019-08-06
KR101892662B1 (ko) 2018-08-28
CN105359211A (zh) 2016-02-24
EP3005364A1 (en) 2016-04-13

Similar Documents

Publication Publication Date Title
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
US11328739B2 (en) Unvoiced voiced decision for speech processing cross reference to related applications
BR112016030056B1 (pt) Aperfeiçoamento de classificação entre codificação de domínio de tempo e codificação de domínio de frequência
CN105765653B (zh) 自适应高通后滤波器

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 05/09/2014, OBSERVADAS AS CONDICOES LEGAIS