BRPI0807703B1 - Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador - Google Patents
Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador Download PDFInfo
- Publication number
- BRPI0807703B1 BRPI0807703B1 BRPI0807703-7A BRPI0807703A BRPI0807703B1 BR PI0807703 B1 BRPI0807703 B1 BR PI0807703B1 BR PI0807703 A BRPI0807703 A BR PI0807703A BR PI0807703 B1 BRPI0807703 B1 BR PI0807703B1
- Authority
- BR
- Brazil
- Prior art keywords
- speech
- fact
- audio
- level
- processing
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 49
- 230000006870 function Effects 0.000 claims description 48
- 230000006835 compression Effects 0.000 claims description 27
- 238000007906 compression Methods 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 11
- 230000007774 longterm Effects 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 2
- 230000001052 transient effect Effects 0.000 claims 2
- 230000005236 sound signal Effects 0.000 abstract description 20
- 230000006872 improvement Effects 0.000 abstract description 14
- 230000000694 effects Effects 0.000 description 16
- 230000009466 transformation Effects 0.000 description 11
- 208000016354 hearing loss disease Diseases 0.000 description 10
- 230000010370 hearing loss Effects 0.000 description 9
- 231100000888 hearing loss Toxicity 0.000 description 9
- 206010011878 Deafness Diseases 0.000 description 8
- 230000001965 increasing effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 208000032041 Hearing impaired Diseases 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000053208 Porcellio laevis Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/937—Signal energy in various frequency bands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Receiver Circuits (AREA)
Abstract
aperfeiçoamento da fala em audio de entretenimento. a presente invenção refere-se a processamento de sinal de audio. mais especificamente, a invenção refere-se a aperfeiçoamento de audio de entretenimento, como audio de televisão, aperfeiçoar a clareza e inteligibilidade da fala, como diálogo e narrativa de audios. a invenção refere-se a métodos, aparelho para executar tais métodos, e a software armazenado em um meio legível de computador para causar a um computador a executar tais métodos.
Description
[0001] A presente invenção refere-se a processamento de sinal de áudio. Mais especificamente, a invenção refere-se a processamento de áudio de entretenimento, como áudio de televisão, para aperfeiçoar a clareza e inteligibilidade da fala, tais como diálogo e narrativa de áudio. A invenção refere-se a métodos, a aparelho para executar tais métodos, e a software armazenado em um meio legível de computador para causar a um computador a executar tais métodos.
[0002] O entretenimento audiovisual evoluiu dentro de uma rápida sequência compassada de diálogo, narrativa, música, e efeitos. O alto realismo realizável com tecnologias modernas de áudios de entretenimento e métodos de saída encorajou o uso de estilos conversacionais de falar na televisão que diferem substancialmente da apresentação como estágio anunciado claramente do passado. Esta situação coloca um problema não somente para a população crescente de espectadores de idade avançada que, em face da diminuição sensorial e das habilidades de processamento de linguagem, devem se esforçar para seguir a programação, mas também para pessoas com audição normal, por exemplo, quando escutando em níveis acústicos baixos.
[0003] Como a fala é entendida depende de vários fatores. Exemplos são o cuidado de saída da fala (fala clara ou conversacional), a taxa da fala, e a audibilidade da fala. O idioma falado é notavelmente robusto e pode ser entendido sob condições menores do que as ideais. Por exemplo, ouvintes de audição prejudicada podem, tipicamente,seguir fala clara até mesmo quando eles não puderem ouvir partes da fala devido a acuidade de audição diminuída. No entanto, enquanto a taxa da fala aumenta e a saída da fala torna-se menos precisa, escutar e compreender exige esforço crescente, particularmente se partes do espectro da fala são inaudíveis.
[0004] Devido ao fato de que públicos de televisão não podem fazer nada para afetar a clareza da fala de radiodifusão, os ouvintes de audição prejudicada podem tentar compensar a audibilidade inadequada aumentando o volume de escutar. Aparte de ser censurável para pessoas de audição normal na mesma sala ou para vizinhos, esta abordagem é somente parcialmente eficaz. Isto é assim porque a maior parte das perdas de audição não são uniformes através das frequências; elas afetam frequências altas mais do que baixas e médias frequências. Por exemplo, a habilidade típica de um macho de 70 anos de ouvir sons a 6 kHz é mais ou menos 50 dB pior do que aquela de uma pessoa jovem, mas em frequências abaixo de 1 kHz a desvantagem de audição da pessoa mais velha é menos do que 10 dB (ISO 7029, Acoustics - Statistical distribution of hearing thresolds as a function of age). Aumentar o volume torna sons de frequência baixa e média mais altos sem aumentar significativamente sua contribuição para a inteligibilidade porque para aquelas frequências a audibilidade já é adequada. Aumentar o volume também faz pouco para superar a perda de audição significativa em frequências altas. Uma correção mais apropriada é um controle de tom, como que provido por um equalizador gráfico.
[0005] Embora uma melhor opção do que simplesmente aumentar o controle de volume, um controle de tom é ainda insuficiente para a maior parte das perdas de audição. O grande ganho requerido de frequência alta para tornar passagens suaves audíveis para o ouvinte de audição prejudicada é provável ser desconfortavelmente alto durante as passagens de nível alto e pode até sobrecarregar a cadeia de reprodução de áudio. Uma solução melhor é amplificar dependendo do nível do sinal, provendo ganhos maiores para partes de sinal de baixo nível e ganhos menores (ou nenhum ganho mesmo) para partes de nível alto. Tais sistemas, conhecidos como controles de ganho automático (AGC) ou compressores dinâmicos de faixa (DRC) são usados na ajuda de audição e seu uso para aperfeiçoar a inteligibilidade para a audição prejudicada em sistemas de telecomunicação foi proposta (por exemplo, patente US 5,388,185, Patente US 5,539,806, e Patente US 6,061,43 1).
[0006] Devido a que perda de audição desenvolve-se geralmente gradualmente, a maioria dos ouvintes com dificuldades de audição cresceu acostumado a suas perdas. Como resultado, eles frequentemente objetam a qualidade de som de áudio de entretenimento quando ele é processado para compensar por sua deterioração de audição. Públicos de audição prejudicada são mais prováveis de aceitar a qualidade de som de áudio compensado quando ele provê um benefício tangível para eles, tal como quando ele aumenta a inteligibilidade de diálogo e narrativa ou reduz o esforço mental requerido para compreensão. Portanto é vantajoso limitar a aplicação compensação de perda de audição para aquelas partes do programa de áudio que são dominados por fala. Fazendo assim, otimiza a escolha entre modificações de qualidade de som potencialmente censuráveis de música e sons ambientes por um lado e os benefícios de inteligibilidade desejáveis no outro.
[0007] De acordo com um aspecto da invenção, a fala no áudio de entretenimento pode ser aperfeiçoada processando, em resposta a um ou mais controles, o áudio de entretenimento para aperfeiçoar a clareza e inteligibilidade de partes da fala do áudio de entretenimento, gerar um controle para o processamento, a geração incluindo caracterizar segmentos de tempo do áudio de entretenimento como (a) fala ou não-fala ou (b) como provável de ser fala ou não-fala, e responder a mudanças no nível do áudio de entretenimento para prover um controle para o processamento, em que tais mudanças são respondidas dentro de um período de tempo menor do que os segmentos de tempo, e um critério de decisão da resposta é controlado pela caracterização. Cada um do processamento e da resposta podem operar em faixas de frequência múltipla correspondente, a resposta provendo um controle para o processamento para cada uma das faixas de frequência múltipla.
[0008] Aspectos da invenção podem operar em uma maneira de "olhar adiante" tal que quando existe acesso a uma evolução de tempo do áudio de entretenimento antes e depois de um ponto de processamento, e em que o gerar um controle responde a pelo menos algum áudio depois do ponto de processamento.
[0009] Aspectos da invenção podem empregar separação temporal e/ou espacial tais que passos do processamento, como caracterizar e responder são executados em tempos diferentes ou em lugares diferentes. Por exemplo, a caracterização pode ser executada em um primeiro tempo ou lugar, o processamento e resposta podem ser executados em um segundo tempo ou lugar, e informação sobre a caracterização de segmentos de tempo pode ser armazenada ou transmitida para controlar os critérios de decisão da resposta.
[00010] Aspectos da invenção podem incluir codificar também o áudio de entretenimento conforme um esquema de codificação perceptiva ou um esquema de codificação sem perda, e decodificar o áudio de entretenimento de acordo com o mesmo esquema de codificação empregado pela codificação, em que passos do processamento, como caracterizar e responder são executados junto com a codificação ou a decodificação. A caracterização pode ser executada junto com a codificação e o processamento e/ou a resposta pode ser executado junto com a decodificação.
[00011] De acordo com aspectos acima mencionados da invenção, o processamento pode operar de acordo com um ou mais parâmetros de processamento. O ajuste de um ou mais parâmetros podem ser em resposta ao áudio de entretenimento de tal forma que uma métrica de inteligibilidade da fala do áudio processado é ou maximizado ou impulsionado acima de um nível de limite desejado. De acordo com aspectos da invenção, o áudio de entretenimento pode compreender canais múltiplos de áudio nos quais um canal é principalmente fala e o um ou mais outros canais são principalmente de não-fala, em que a métrica da intelibilidade de fala é baseada no nível do canal da fala e o nível no um ou mais outros canais. A métrica da inteligibilidade de fala pode ser também baseada no nível de ruído no ambiente de escutar em que o áudio processado é reproduzido. O ajuste de um ou mais parâmetros pode ser em resposta a um ou mais descritos a longo prazo do áudio de entretenimento. Os exemplos de descritores a longo prazo incluem o nível médio de diálogo do áudio de entretenimento e uma estimativa de processamento já aplicado ao áudio de entretenimento. O ajuste de um ou mais parâmetros podem ser de acordo com uma fórmula prescritiva, em que a fórmula prescritiva relaciona a acuidade de audição de um ouvinte ou grupo de ouvintes a um ou mais parâmetros. Alternativamente, ou adicionalmente, o ajuste de um ou mais parâmetros pode ser de acordo com as preferências de um ou mais ouvintes.
[00012] De acordo com os aspectos acima mencionados da invenção o processamento pode incluir funções múltiplas atuando em paralelo. Cada uma das funções múltiplas pode operar em uma das faixas de frequência múltipla. Cada uma das funções múltiplas pode fornecer, individualmente ou coletivamente, controle dinâmico de faixa, equalização dinâmica, estreitamento espectral, transposição de frequência, extração de fala, redução de ruído, ou outra ação de aperfeiçoamento de fala. Por exemplo, o controle dinâmico de faixa pode ser provido por funções ou dispositivos múltiplos de compressão/expansão, em que cada um processa uma região de frequência do sinal de áudio.
[00013] A parte do processamento inclui ou não funções múltiplas atuando em paralelo, o processo pode prover controle dinâmico de faixa, equalização dinâmica, estreitamento espectral, transposição de frequência, extração de fala, redução de ruído, ou outra ação de aperfeiçoamento de fala. Por exemplo, o controle dinâmico de faixa pode ser provido por uma função ou dispositivo de compressão/expansão dinâmico de faixa.
[00014] Um aspecto da invenção é controlar o aperfeiçoamento da fala adequado para compensação de perda de audição de tal forma que, idealmente, opera somente nas partes da fala de um programa de áudio e não opera nas partes restante (não-fala) de programa, assim tendendo a não mudar o timbre (distribuição espectral) ou sonoridade percebida das partes restantes (não-fala) do programa.
[00015] De acordo com outro aspecto da invenção, aperfeiçoar a fala em áudio de entretenimento inclui analisar o áudio de entretenimento para classificar segmentos de tempo do áudio como sendo fala ou outro áudio, e aplicar compressão dinâmica de faixa a uma ou múltiplas faixas de frequência do áudio de entretenimento durante segmentos de tempo classificados como fala.
[00016] A Figura 1a é um diagrama de bloco funcional esquemático ilustrando uma implementação exemplificativa de aspectos da invenção.
[00017] A Figura 1b é um diagrama de bloco funcional esquemático mostrando uma implementação exemplificativa de uma versão modificada da Figura 1a na qual dispositivos e/ou funções podem ser separados temporalmente e/ou espacialmente.
[00018] A Figura 2 é um diagrama de bloco funcional esquemático mostrando uma implementação exemplificativa de uma versão modificada da Figura 1a na qual o controle de aperfeiçoamento da fala é derivado de uma maneira de "olhar adiante".
[00019] As Figuras 3a-c são exemplos de transformações de ganho de potência úteis no entendimento do exemplo da Figura 4.
[00020] A Figura 4 é um diagrama de bloco funcional esquemático mostrando como o ganho no aperfeiçoamento da fala em uma faixa de frequência pode ser derivado da estimativa de potência do sinal daquela faixa de acordo com aspectos da invenção.
[00021] As técnicas para classificar áudio em fala e não-fala (como música) são conhecidas na técnica e são às vezes conhecidas como um discriminador de fala-versus-outro ("SVO"). Ver, por exemplo, as Patentes US 6,785,645 e 6,570,991 como também os Pedidos de Patente Publicados US 20040044525, e as referências contidas nelas. Os discriminadores de áudio fala-versus-outros analisam segmentos de tempo de um sinal de áudio e extraem um ou mais descritores de sinal (características) de todo segmento de tempo. Tais características são passadas a um processador que tanto produz uma estimativa de probabilidade de o segmento de tempo ser fala, quanto toma uma árdua decisão de fala/não-fala. A maioria das características refletem a evolução de um sinal com o passar do tempo. Exemplos típicos de características são a taxa na qual o espectro de sinal muda com o passar do tempo ou a inclinação da distribuição da taxa na qual a polaridade do sinal muda. Para refletir as características distintas da fala confiavelmente, os segmentos de tempo devem ser de comprimento suficiente. Devido a que muitas características são baseadas em características de sinal que refletem as transições entre sílabas adjacentes, os segmentos de tempo tipicamente cobrem pelo menos a duração de duas sílabas (isto é, mais ou menos 250 ms) para capturar uma tal transição. Porém, segmentos de tempo são frequentemente mais longos (por exemplo, por um fator de cerca de 10) obter estimativas mais confiáveis. Embora relativamente lento em operação, os SVOs são razoavelmente confiáveis e precisos em classificar áudio em fala e não-fala. Porém, para aperfeiçoar a fala seletivamente, em um programa de áudio de acordo com aspectos da presente invenção, é desejável controlar o aperfeiçoamento da fala em uma escala de tempo mais fina do que a duração dos segmentos de tempo analisados por um discriminador de fala-versus-outro.
[00022] Outra classe de técnicas, algumas vezes conhecidas como detectores de atividade de voz (VADs) indicam a presença ou ausência da fala em um fundo de ruído relativamente estável. Os VADs são usados extensivamente como parte de esquemas de redução de ruído em aplicações de comunicação da fala. Diferentemente dos discriminadores fala-versus-outros, os VADs normalmente têm uma resolução temporal que é adequada para o controle de aperfeiçoamento da fala conforme aspectos da presente invenção. Os VADs interpretam um aumento súbito da potência de sinal como o início de um som da fala e uma diminuição súbita da potência de sinal como o fim de um som de fala. Fazendo assim, eles sinalizam a demarcação entre fala e fundo quase instantaneamente (isto é, dentro de uma janela de integração temporal para medir a potência de sinal, por exemplo, mais ou menos 10 ms). No entanto, devido a que os VADs reagem a qualquer mudança súbita da potência de sinal, eles não podem diferenciar entre fala e outros sinais dominantes, tal como música. Portanto, se usados sozinhos, os VADs não são adequados para controlar o aperfeiçoamento da fala para aperfeiçoar a fala seletivamente de acordo com a presente invenção.
[00023] É um aspecto da invenção combinar a especificidade fala versus não-fala de discriminadores fala-versus-outro (SVO) com a acuidade temporal de detectores de atividade de voz (VADs) para facilitar o aperfeiçoamento da fala que responde seletivamente a fala em um sinal de áudio com uma resolução temporal que é mais fina do que a encontrada em discriminadores de fala-versus-outro da técnica anterior.
[00024] Embora, em princípio, aspectos da invenção possam ser implementados em domínios analógicos e/ou digitais, implementações práticas são prováveis de serem implementadas no domínio digital em que cada um dos sinais de áudio são representados por amostras individuais ou amostras dentro de blocos de dados.
[00025] Referindo-se agora à Figura 1a, é mostrado um diagrama de bloco funcional esquemático ilustrando aspectos da invenção na qual um sinal de entrada de áudio 1 é passado para uma função ou dispositivo de aperfeiçoamento da fala ("Aperfeiçoamento da Fala ') 102 que, quando habilitado por um sinal de controle 103, produz um sinal de saída de áudio de fala aperfeiçoada 104. O sinal de controle é gerado por uma função ou dispositivo de controle "Controlador de Aperfeiçoamento da Fala") 105 que opera em segmentos de tempo armazenados em buffer do sinal de entrada de áudio 101. O Controlador de Aperfeiçoamento da Fala 105 inclui uma função ou dispositivo discriminador de fala-versus-outro ("SVO") 107 e um conjunto de um ou mais funções ou dispositivos detectores de atividade ("VAD") 108. O SVO 107 analisa o sinal ao longo de uma duração de tempo que é mais longa do que aquela analisada pelo VAD. O fato de que o SVO 107 e o VAD 108 operam ao longo do tempo com durações de tempo de comprimentos diferentes é ilustrado por meio da ilustração de um parêntese acessando uma região larga (associado com o SVO 107) e outro parêntese acessando uma região mais estreita (associado com o VAD 108) de uma função ou dispositivo de armazenamento de ("Buffer") 106. A região larga e a região mais estreita são esquemáticas e não em escala. No caso de uma implementação digital em que os dados de áudio são transportados em blocos, cada parte do Buffer 106 pode armazenar um bloco de dados de áudio. A região acessada pelo VAD inclui as partes mais recentes do armazenamento de sinal no Buffer 106. A probabilidade de a seção de sinal atual ser fala, como determinado pelo SVO 107, serve para controlar 109 o VAD 108. Por exemplo, ele pode controlar um critério de decisão do VAD 108, assim desviando as decisões do VAD.
[00026] O buffer 106 simboliza memória inerente ao processamento e pode ou não pode ser implementada diretamente. Por exemplo, se o processamento é executado em um sinal de áudio que é armazenado em um meio com acesso de memória randomica, aquele meio pode servir como buffer. Similarmente, a história da entrada de áudio pode ser refletida no estado interno do discriminador de fala-versus-outro 107 e o estado interno do detector de atividade de voz, em cujo caso nenhum buffer separado é necessitado.
[00027] O aperfeiçoamento da fala 102 pode ser composto de múltiplos dispositivos ou funções de processamento de áudio que trabalham em paralelo para aperfeiçoar a fala. Cada dispositivo ou função pode operar em uma região de frequência do sinal de áudio em que a fala é para ser aperfeiçoada. Por exemplo, os dispositivos ou funções podem prover, individualmente ou como um todo, controle dinâmico de faixa, equalização dinâmica, estreitamento espectral, transposição de frequência, extração da fala, redução de ruído, ou outra ação de aperfeiçoar fala. Nos exemplos detalhados de aspectos da invenção, o controle dinâmico de faixa provê compressão e/ou expansão em faixas de frequência do sinal de áudio. Deste modo, por exemplo, o aperfeiçoamento da Fala 102 pode ser um banco de compressores/expansores de faixa ou funções de compressão/expansão dinâmica, em que cada um processa uma região de frequência do sinal de áudio (um compressor/expansor ou função de compressão/expansão de faixa múltipla). A especificidade de frequência disposta por compressão/expansão de faixa múltipla é útil não somente porque ela permite costurar o padrão de aperfeiçoamento da fala ao padrão de uma dada perda de audição, mas também porque permite responder ao fato de que em qualquer dado momento pode estar presente fala em uma região de frequência mas ausente em outra.
[00028] Para tomar vantagem plena da especificidade de frequência oferecida por compressão de faixa múltipla, cada faixa de compressão/expansão pode ser controlada por seu próprio detector de atividade de voz ou função de detecção de voz. Em tal caso, cada detector de atividade de voz ou função de detecção de voz pode sinalizar atividade de voz na região de frequência associada com a faixa de compressão/expansão que ele controla. Embora existam vantagens no Aperfeiçoamento da Fala 102 sendo composto de vários dispositivos ou funções de processamento de áudio que trabalham em paralelo, simples versões de aspectos da invenção podem empregar um Aperfeiçoamento da Fala 2 que é composto de somente um dispositivo ou função de processamento de áudio.
[00029] Até mesmo quando existem muitos detectores de atividade de voz, pode haver somente um discriminador de fala-versus-outro 107 gerando uma saída única 9 para controlar todos os detectores de atividade de voz que estão presentes. A escolha para usar somente um discriminador de fala-versus-outro reflete duas observações. Uma é que a taxa em que o padrão de banda passante da atividade de voz muda com o tempo é tipicamente muito mais rápida do que a resolução temporal do discriminador de fala-versus-outro. A outra observação é que as características usadas pelo discriminador de fala-versus-outro são tipicamente derivadas de características espectrais que podem ser observadas melhor em um sinal de banda larga. Ambas as observações tornam o uso de discriminadores de fala de faixa específica-versus-outro impraticáveis.
[00030] Uma combinação de SVO 107 e VAD 108 como ilustrada no Controlador de Aperfeiçoamento da Fala 105 pode ser também usado para propósitos outros do que para aperfeiçoar fala, por exemplo para estimar a sonoridade da fala em um programa de áudio, ou para medir a taxa de fala.
[00031] O esquema de aperfeiçoamento da fala acabado de ser descrito pode ser desdobrado de muitas formas. Por exemplo, o esquema inteiro pode ser implementado dentro de uma televisão ou um conversor set-top box para operar sobre o sinal de áudio recebido de uma radiodifusão de televisão. Alternativamente, pode ser integrado com um codificador perceptivo de áudio (por exemplo, AC-3 ou AAC) ou ele pode ser integrado com uma codificador de áudio sem perda.
[00032] Aperfeiçoamento da Fala de acordo com aspectos da presente invenção podem ser executados em tempos diferentes ou em lugares diferentes. Considere um exemplo no qual o aperfeiçoamento da fala é integrado ou associado com um codificador de áudio ou processamento de codificação. Em tal caso, a parte do discriminador de fala-versus outro (SVO) 107 do Controlador de Aperfeiçoamento da Fala 105, o qual é frequentemente computacionalmente caro, pode ser integrado ou associado com o codificador de áudio ou processamento de codificação. A saída 109 do SVO, por exemplo uma bandeira indicando a presença de fala, pode ser embutida na corrente de áudio codificada. Tal informação embutida em um fluxo de áudio codificado é frequentemente referido como meta dados. O Aperfeiçoamento da fala 102 e o VAD 108 do Controlador do Aperfeiçoamento da Fala 105 pode ser integrado ou associado com um decodificador de áudio e operar no áudio previamente codificado. O conjunto de um ou mais detectores de atividade de voz (VAD) 108 usa também a saída 109 do discriminador de fala-versus-outro (SVO) 107, que ele extrai do fluxo de áudio codificado.
[00033] A Figura 1b mostra uma implementação exemplificativa de uma tal versão modificada da Figura 1a. Dispositivos ou funções na Figura 1b que correspondem àquelas na Figura 1 recebem os mesmos números de referência. O sinal de entrada de áudio 101 é passado para um codificador ou função de codificação ("codificador") 110 e a um Buffer 106 que cobre a duração de tempo requerida pelo SVO 107. O codificador 110 pode ser parte de um sistema perceptivo ou de codificação sem perda. A saída do codificador 110 é passada para um multiplexador ou função de multiplexar ("Multiplexador") 112. A saída do SVO (109 na Figura 1a) é mostrada como sendo aplicada 109a ao codificador 110 ou, alternativamente, aplicada 109b ao Multiplexador 112 que recebe também a saída do codificador 110. A saída do SVO, tal como uma bandeira como na Figura 1a, é tanto transportada na saída de fluxo de bits do codificador 110 (como metadados, por exemplo) ou é multiplexado com a saída de codificador 110 para prover um pacote e fluxo de bits montado 114 para armazenamento ou transmissão a um demultiplexador ou função de demultiplexar ("Demultiplexador") 116 que desempacota o fluxo de bits 114 para passar a um decodificador ou uma função de decodificação 118. Se a saída do SVO 107 foi passada 109b para ao Multiplexador 112, então ela é recebida 109b' do Demultiplexador 116 e passada ao VAD 108. Alternativamente, se a saída do SVO 107 foi passada 109a para o codificador 110, então ela é recebida 109a' do Decodificador 118. Como no exemplo da Figura 1a, o VAD 108 pode compreender múltiplas funções ou dispositivos de atividade de voz. Uma função ou dispositivo de buffer de sinal ("Buffer") 120 alimentado pelo Decodificador 118 que cobre a duração de tempo requerida pelo VAD 108 prove outra alimentação para o VAD 108. A saída do VAD 103 é passada para um Aperfeiçoamento de fala 102 que prove a saída de áudio de fala aperfeiçoada como na Figura 1a. Embora mostrada separadamente por clareza na apresentação, o SVO 107 e/ou Buffer 106 pode ser integrado com o codificador 110. Semelhantemente, embora mostrada separadamente por clareza na apresentação, o VAD 108 e/ou Buffer 120 podem ser integrados com o Decodificador 118 ou Aperfeiçoamento de fala 102.
[00034] Se o sinal de áudio a ser processado foi pré-gravado, por exemplo como quando reproduzindo de um DVD em uma casa do consumidor ou quando processando fora de linha em um ambiente de radiodifusão, o discriminador de fala-versus-outro e/ou o detector de atividade de voz podem operar em seções de sinal que incluem partes de sinal que, durante a reprodução, acontece depois da amostra sinal atual ou bloco de sinal. Isto é ilustrado na Figura 2, onde o buffer de sinal simbólico 201 contém seções de sinal que, durante a reprodução, acontece depois da amostra de sinal atual ou bloco de sinal ("olhar adiante"). Ainda que o sinal não esteve pré-gravado, olhar adiante pode ainda ser usado quando o codificador de áudio tem um atraso de processamento inerente significativo.
[00035] Os parâmetros de processamento de Aperfeiçoamento de fala 102 podem ser atualizados em resposta ao sinal de áudio processado em uma taxa que é mais baixa do que a taxa de resposta dinâmica do compressor. Existem vários objetivos que se pode perseguir quando atualizando os parâmetros de processador. Por exemplo, o parâmetro de processamento de função de ganho do processador de aperfeiçoamento de fala pode ser ajustado em resposta ao nível médio da fala do programa para assegurar que a mudança do espectro médio de fala de longo prazo é independente do nível da fala. Para entender o efeito de tal ajuste e a necessidade dele, considere o exemplo seguinte. O aperfeiçoamento da fala é aplicado somente a uma parte de frequência alta de um sinal. Em um dado nível médio da fala, a estimativa de potência 301 da parte de sinal de frequência alta é a média P1, onde P1 é maior do que a potência limite de compressão 304. O ganho associado com esta estimativa de potência é G1, que é o ganho médio aplicado à parte de alta frequência do sinal. Devido a que a parte de baixa frequência não recebe nenhum ganho, o espectro médio da fala é conformado para ser G1 dB mais alto nas frequências altas do que nas frequências baixas. Agora considera-se o que acontece quando o nível médio da fala aumenta por uma certa quantia, ΔL. Um aumento do nível médio da fala por AL dB aumenta a estimativa de potência média 301 da parte de sinal de alta frequência para P2 = P1 + AL. Como pode ser visto da Figura 3a, a estimativa de potência mais alta P2 dá aumento a um ganho, G2 que é menor do que G1 . Consequentemente, o espectro médio da fala do sinal processado mostra a ênfase menor de frequência alta quando o nível médio da entrada é alto do que quando ele é baixo. Devido a que ouvintes compensam para diferenças no nível médio da fala com seu controle de volume, a dependência de nível da ênfase de alta frequência média é indesejável. Pode ser eliminada modificando a curva de ganho das Figuras 3a-c em resposta ao nível médio da fala. As Figuras 3a-c são discutidas abaixo.
[00036] Os parâmetros de processamento de Aperfeiçoamento de fala 102 podem ser também ajustados para assegurar que uma métrica de inteligibilidade da fala é ou maximizada ou impulsionada acima de um nível limite desejado. A métrica de inteligibilidade da fala pode ser computada dos níveis relativos do sinal de áudio e um som competindo no ambiente de escutar (tal como ruído de cabina de aeronave). Quando o sinal de áudio é um sinal de áudio de multicanal com fala em um canal e sinais de não-fala nos canais restantes, a métrica de inteligibilidade da fala pode ser computada, por exemplo, dos níveis relativos de todos os canais e a distribuição de energia espectral neles. Métricas de inteligibilidade adequadas são bem-conhecidas [por exemplo, ANSI S3.5-1997 "Method for Calculation of the Speech Intelligibility Index", American National Standards Institute, 1997; ou Musch e Buus, "Using statistical decision theory to predict speech inteligibility" J Model Structure," Journal of the Acoustical Society of America, (2001) 109, pp 2896 - 2909].
[00037] Aspectos da invenção mostrados nos diagramas de bloco funcional da Figura 1a e 1b e descritos aqui podem ser implementados como no exemplo das Figuras 3a-c e 4. Neste exemplo, a amplificação de compressão de conformar frequência de componentes da fala e liberação do processamento para os componentes de não-fala podem ser realizadas através de um processador dinâmico de faixa de multibanda (não mostrado) que implementa ambas as características compressivas e expansivas. Tal processador pode ser caracterizado por um conjunto de funções de ganho. Cada função de ganho relaciona-se à potência de entrada em uma faixa de frequência para um ganho de faixa correspondente, a qual pode ser aplicada aos componentes de sinal naquela faixa. Uma tal relação é ilustrada nas Figuras 3a-c.
[00038] Referindo-se à Figura 3a, a estimativa da potência de potência de entrada de faixa 301 é relacionada a um ganho de faixa desejado 302 por uma curva de ganho. Aquela curva de ganho é tomada como o mínimo de duas curvas constituintes. Uma curva constituinte, mostrada pela linha sólida, tem uma característica de compressão com uma relação de compressão apropriadamente escolhida ("CR") 303 para estimativas de potência 301 acima de um limite de compressão 304 e um ganho constante para estimativas de potência abaixo do limite de compressão. A outra curva constituinte, mostrada pela linha tracejada, tem uma característica expansiva com uma relação de expansão apropriadamente escolhida ("ER") 305 para estimativas de potência acima do limite de expansão 306 e um ganho de zero para a estimativas de potência abaixo. A curva de ganho final é tomada como o mínimo destas duas curvas constituintes.
[00039] O limite de compressão 304, a relação de compressão 303, e o ganho no limite de compressão são parâmetros fixos. Sua escolha determina como o envelope e espectro do sinal da fala são processados em uma faixa particular. Idealmente eles são selecionados de acordo com uma fórmula prescritiva que determina relações de ganho e compressão apropriadas em faixas respectivas para um grupo de ouvintes dada a sua acuidade de audição. Um exemplo de tal fórmula prescritiva é NAL-NLI, que foi desenvolvida pelo Laboratório Nacional de Acústica, Austrália, e é descrita por H. Dillon em "Prescribing hearing aid performance" [H. Dillon (Ed.), Hearing Aids (pp. 249-261); Sydney; Boomerangue Press, 2001.] No entanto, eles podem ser também baseados simplesmente na preferência de ouvinte. O limite de compressão 304 e a relação de compressão 303 em uma faixa particular pode adicionalmente depender de parâmetros específicos para um dado programa de áudio, tal como o nível médio de diálogo em uma trilha sonora de filme.
[00040] Considerando que o limite de compressão pode ser fixo, o limite de expansão 306 é preferencialmente adaptável e varia em resposta ao sinal de entrada. O limite de expansão pode assumir qualquer valor dentro da faixa dinâmica do sistema, incluindo valores maiores do que o limite de compressão. Quando o sinal de entrada é dominado por fala, um sinal de controle descrito abaixo aciona o limite de expansão em direção a níveis baixos de forma que o nível de entrada é mais alto do que a faixa de estimativas de potências para as quais a expansão é aplicada (veja Figuras 3a e 3b). Naquela condição, os ganhos aplicados ao sinal são dominados pela característica de compressão do processador. A Figura 3b apresenta um exemplo de função de ganho representando tal condição.
[00041] Quando o sinal de entrada é dominado por áudio diferente da fala, o sinal de controle aciona o limite de expansão para níveis altos de forma que o nível de entrada tende a ser mais baixo do que o limite de expansão. Naquela condição a maioria dos componentes do sinal não recebe nenhum ganho. A Figura 3c apresenta um exemplo de função de ganho representando tal condição.
[00042] As estimativas de potência de faixa da discussão precedente podem ser derivadas analisando as saídas de um banco de filtro ou a saída de uma transformação de domínio de tempo-para-frequência, tal como a DFT (transformada de Fourier discreta), MDCT (transformada de cosseno discreta modificada) ou transformadas de wavelet. As estimativas de potência podem ser também substituídas por medidas que são relacionadas à força de sinal tal como o valor absoluto médio do sinal, a energia de Teager, ou por medidas perceptivas tais como sonoridade. Adicionalmente, as estimativas da potência de faixa podem ser suavizadas no tempo para controlar a taxa na qual ganho muda.
[00043] De acordo com um aspecto da invenção, o limite de expansão é idealmente colocado de tal forma que quando o sinal é de fala o nível de sinal está acima da região expansiva da função de ganho e quando o sinal é de áudio diferente da fala o nível de sinal está abaixo da região expansiva da função de ganho. Como é explicado abaixo, isto pode ser obtido monitorando o nível de áudio de não-fala e colocando o limite de expansão em relação àquele nível.
[00044] Certos monitores de nível da técnica anterior fixam um limite abaixo do qual a expansão descendente (ou silenciador ("squelch")) é aplicada como parte de um sistema de redução de ruído que busca discriminar entre ruído de áudio desejável e indesejável. Veja, por exemplo, as Patentes US 3803357, 5263091,
[00045] 5774557, e 6005953. Em contraste, aspectos da presente invenção requerem diferenciar entre fala por um lado e todos os restantes sinais de áudio, como música e efeitos, no outro. O ruído monitorado na técnica anterior é caracterizado por envelopes temporais e espectrais que flutuam muito menos do que aqueles de áudios desejáveis. Adicionalmente, o ruído tem frequentemente formas espectrais distintivas que são conhecidas a priori. Tais características distintivas são exploradas por monitores de ruído na técnica anterior. Em contraste, aspectos da presente invenção monitoram o nível de sinais de áudio de não-fala. Em muitos casos, tais sinais de áudio de não-fala exibem variações em seu envelope e forma espectral que são pelo menos tão grandes quanto aqueles de sinais de áudio da fala. Consequentemente, um monitor de nível empregado na presente invenção requer analisar características de sinal adequadas para a distinção entre áudio de fala e não-fala ao invés de entre fala e ruído.
[00046] A Figura 4 mostra como o ganho de aperfeiçoamento da fala em uma faixa de frequência pode ser derivado da estimativa de potência de sinal daquela faixa. Referindo-se agora à Figura 4, uma representação de um sinal de uma faixa limitada 401 é passada para um estimador de potência ou dispositivo de estimação ("Estimativa de Potência") 402 que gera uma estimativa de potência de sinal 403 naquela faixa de frequência. Aquela estimativa de potência de sinal é passada para uma transformação de potência para ganho ou função de transformação ("Curva de Ganho") 404, que pode ser da forma do exemplo ilustrado nas Figuras 3a-c. A transformação de potência para-ganho ou função de transformação 404 gera um ganho de faixa 405 que pode ser usado para modificar a potência de sinal na faixa (não-mostrado).
[00047] A estimativa de potência de sinal 403 é também passada para um dispositivo ou função ("Monitor de Nível") 406 que monitora o nível de todos os componentes de sinal na faixa que são de não-fala. O monitor de nível 406 pode incluir um circuito ou função de manter mínimo vazamento ("Manter Mínimo") 407 com uma taxa de vazamento adaptável. Esta taxa de vazamento é controlada por uma constante de tempo 408 que tende a ser baixa quando a potência do sinal é dominada por fala e alta quando a potência do sinal é dominado por áudio diferente da fala. A constante de tempo 408 pode ser derivada de informação contida na estimativa de potência de sinal 403 na faixa. Especificamente, a constante de tempo pode ser monotonicamente relacionada à energia do envelope de sinal de faixa na faixa de frequência entre 4 e 8 Hz. Aquela característica pode ser extraída por um filtro de banda de passagem apropriadamente sintonizado ou função de filtragem ("Banda de passagem") 409.
[00048] A saída da Banda de passagem 409 pode ser relacionada à constante de tempo 408 por uma função de transferência ("Constante de Potência-para-Tempo") 410. A estimativa de nível dos componentes de não-fala 411, que é gerado pelo Monitorador de Nível 406, é a entrada para uma transformação ou função de transformação ("Limite de Potência-para-Expansão") 412 que relaciona a estimativa do nível de fundo para um limite de expansão 414. A combinação do monitorador de nível 406, transformação 412, e expansão descendente (caracterizada pela relação de expansão 305) corresponde ao VAD 108 das Figuras 1a e 1b.
[00049] A transformação 412 pode ser uma simples adição, isto é, o limite de expansão 306 pode ser um número fixo de decibéis acima do nível estimado do áudio de não-fala 411. Alternativamente, a transformação 412 que relaciona o nível de fundo estimado 411 ao limite de expansão 306 pode depender de uma estimativa independente da probabilidade do sinal de banda que se fala 413. Deste modo, quando a estimativa 413 indica uma probabilidade alta do sinal ser falada, o limite de expansão 306 é abaixado. Reciprocamente, quando a estimativa 413 indicar uma probabilidade baixa do sinal ser fala, o limite de expansão 306 é aumentado. A estimativa de probabilidade de fala 413 pode ser derivada de uma única característica de sinal ou de uma combinação de características de sinal que distinguem fala de outros sinais. Ela corresponde à saída 109 da SVO 107 nas FIGS 1a e 1b.
[00050] Características de sinal adequados e métodos de processá-los para derivar uma estimativa de probabilidade de fala 413 são conhecidas por aqueles qualificados na técnica. Exemplos são descritos nas Patentes US 6,785,645 e 6,570,991, bem como também no pedido de patente 20040044525, e nas referências contidas nelas. Incorporação por Referência
[00051] As seguintes patentes, pedidos e publicações de patentes, são por este meio incorporadas por referência, cada uma em sua totalidade.
[00052] Patente dos Estados Unidos 3,803,357; Sacks, 9 de abril de 1974, "Noise Filter".
[00053] Patente dos Estados Unidos 5,263,091; Waller, Jr., 16 de novembro de 1993, "Intelligent automatic threshold circuit".
[00054] Patente dos Estados Unidos 5,388,185; Terry, e outros, 7 de fevereiro de 1995, "System for adaptive processing of telephone voice signals".
[00055] Patente dos Estados Unidos 5,539,806; Allen, e outros, 23 de julho de 1996, "Method for customer selection of telephone sound enhancement".
[00056] Patente dos Estados Unidos 5,774,557; Slater, 30 de junho de 1998, "Autotracking microphone squelch for aircraft intercom systems".
[00057] Patente dos Estados Unidos 6,005,953; Stuhlfelner, 21 de dezembro de 1999, "Circuit arrangement for improving the signal-to-noise ratio".
[00058] Patente dos Estados Unidos 6,061,431; Knappe, e outros, 9 de maio de 2000, "Method for hearing loss compensation in telephony systems based on telephone number resolution".
[00059] Patente dos Estados Unidos 6,570,991; Scheirer, e outros, 27 de maio de 2003, "Multi-feature speech/music discrimination system".
[00060] Patente dos Estados Unidos 6,785,645; Khalil, e outros, 31 de agosto de 2004, "Real-time speech and music classifier".
[00061] Patente dos Estados Unidos 6,914,988; Irwan, e outros, July 5, 2005, "Áudio reproducing device".
[00062] Pedido de Patente Publicado US 2004/0044525; Vinton, Mark Stuart, e outros, 4 de março de 2004 "Controlling loudness of speech in signals that contain speech and other types of áudio material".
[00063] "Dynamic Range Control via Metadata" by Charles Q.Robinson and Kenneth Gundry, Convention Paper 5028, 107th Áudio Engineering Society Convention, New York, 24-27 de setembro de 1999.
[00064] A invenção pode ser implementada em hardware ou software, ou uma combinação de ambos (por exemplo, conjuntos lógicos programáveis). A menos que especificado em contrário, os algoritmos incluídos como parte da invenção não são inerentemente relacionados a qualquer computador ou outro aparelho em particular. Em particular, várias máquinas de propósito geral podem ser usadas com programas escritos de acordo com os preceitos deste, ou pode ser mais conveniente construir aparelhos mais especializados (por exemplo, circuitos integrados) para executar os passos requeridos pelo método. Deste modo, a invenção pode ser implementada em um ou mais programas de computador executando em um ou mais sistemas de computador programáveis, cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (incluindo memória volátil e não volátil e/ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada, e pelo menos um dispositivo ou porta de saída. O código de programa é aplicado aos dados de entrada executar as funções descritas aqui e gerar informação de saída. A informação de saída é aplicada a um ou mais dispositivos de saída, em um modo conhecido.
[00065] Cada um de tais programas pode ser implementado em qualquer linguagem de computador desejada (incluindo, de máquina, de montagem, ou procedimento de alto nível, lógica, ou linguagens de programação orientadas a objeto) para comunicar com um sistema de computador. Em qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.
[00066] Cada um de tais programas de computador é preferencialmente armazenado em um meio ou dispositivo de armazenamento ou carregado nele (por exemplo, memória de estado sólido, ou meio magnético ou ótico) legível por um computador programável de propósito geral ou especial, para configurar e operar o computador quando o meio ou dispositivo de armazenamento é lido pelo sistema de computador para executar os procedimentos descritos aqui. O sistema inventivo pode ser também considerado para ser implementado como um meio de armazenamento legível por computador, configurado com um programa de computador, onde o meio de armazenamento assim configurado causa um sistema de computador a operar em uma maneira específica e predefinida para executar as funções descritas aqui.
[00067] Foram descritas um grande número de versões da invenção. Não obstante, será entendido que várias modificações possam ser feitas sem se afastar do espírito e escopo da invenção. Por exemplo, alguns dos passos descritos aqui podem ser independentes de ordem, e deste modo podem ser executados em uma ordem diferente daquela descrita.
Claims (28)
- Método para aperfeiçoar a fala em áudio de entretenimento, compreendendo as etapas de:
processar, em resposta a um ou mais controles, o áudio de entretenimento para aperfeiçoar a clareza e inteligibilidade de partes da fala do áudio de entretenimento, o processamento incluindo
variar o nível do áudio de entretenimento em cada uma das faixas de frequência múltipla de acordo com uma característica de ganho que relaciona o nível de sinal de faixa ao ganho, e
gerar um controle para variar a característica de ganho em cada faixa de frequência, a geração incluindo
caracterizar segmentos de tempo do áudio de entretenimento como (a) fala ou não-fala ou (b) como provável para ser fala ou não-fala, em que as caracterizações operam em uma única faixa de frequência banda larga,
obter, em cada uma das faixas da frequência múltipla, uma estimativa da potência do sinal, caracterizado pelo fato de que o método compreende ainda:
monitorar, em cada uma das faixas da frequência múltipla, o mínimo do nível de áudio na faixa, o tempo de resposta do monitoramento respondendo à estimativa da potência do sinal,
transformar o mínimo monitorado em cada faixa em um correspondente nível de limite adaptativo, e
desviar cada correspondente nível de limite adaptativo com o resultado da caracterização para produzir o controle para cada faixa. - Método, de acordo com a reivindicação 1, caracterizado pelo fato de que existe acesso a uma evolução de tempo do áudio de entretenimento antes e depois de um ponto de processamento, e em que a geração de um controle responde a pelo menos algum áudio depois do ponto de processamento.
- Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o processamento opera de acordo com um ou mais parâmetros de processamento.
- Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o ajuste de um ou mais parâmetros é em resposta ao áudio de entretenimento de tal forma que uma métrica inteligibilidade da fala do áudio processado é tanto maximizado quanto impulsionado acima de um nível de limite desejado.
- Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o áudio de entretenimento compreende múltiplos canais de áudio nos quais um canal é principalmente de fala e o um ou mais outros canais são principalmente de não-fala, em que a métrica da inteligibilidade da fala é baseada no nível do canal da fala e o nível no um ou mais outros canais.
- Método, de acordo com a reivindicação 5, caracterizado pelo fato de que a métrica de inteligibilidade da fala é também baseada no nível de ruído em um ambiente de escutar em que o áudio processado é reproduzido.
- Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o ajuste de um ou mais parâmetros é em resposta a um ou mais descritores de longo prazo do áudio de entretenimento.
- Método, de acordo com a reivindicação 7, caracterizado pelo fato de que um descritor de termo longo é o nível médio de diálogo do áudio de entretenimento.
- Método, de acordo com a reivindicação 7, caracterizado pelo fato de que um descritor de longo termo é uma estimativa de processamento já aplicada ao áudio de entretenimento.
- Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o ajuste de um ou mais parâmetros está de acordo com uma fórmula prescritiva, em que a fórmula prescritiva relaciona a acuidade de audição de um ouvinte ou grupo de ouvintes ao um ou mais parâmetros.
- Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o ajuste de um ou mais parâmetros está de acordo com as preferências de um ou mais ouvintes.
- Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o processamento provê controle dinâmico de faixa, equalização dinâmica, estreitamento espectral, extração da fala, redução de ruído, ou outra ação de aperfeiçoar a fala.
- Método, de acordo com a reivindicação 12, caracterizado pelo fato de que o controle dinâmico de faixa é provido por uma função de compressão/expansão de faixa.
- Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a caracterização compreende receber caracterizações dos segmentos de tempo como (a) fala ou não-fala ou (b) como provável para ser fala ou não-fala.
- Método, de acordo com a reivindicação 14, caracterizado pelo fato de que existe acesso a uma evolução de tempo do áudio de entretenimento antes e depois de um ponto de processamento, e em que a geração de um controle responde a pelo menos algum áudio depois do ponto de processamento.
- Método, de acordo com a reivindicação 14, caracterizado pelo fato de que o processamento opera de acordo com um ou mais parâmetros de processamento.
- Método, de acordo com a reivindicação 16, caracterizado pelo fato de que o ajuste de um ou mais parâmetros é em resposta ao áudio de entretenimento de tal forma que uma métrica inteligibilidade da fala do áudio processado é tanto maximizado quanto impulsionado acima de um nível de limite desejado.
- Método, de acordo com a reivindicação 17, caracterizado pelo fato de que o áudio de entretenimento compreende múltiplos canais de áudio nos quais um canal é principalmente de fala e o um ou mais outros canais são principalmente de não-fala, em que a métrica da inteligibilidade da fala é baseada no nível do canal da fala e o nível no um ou mais outros canais.
- Método, de acordo com a reivindicação 18, caracterizado pelo fato de que a métrica de inteligibilidade da fala é também baseada no nível de ruído em um ambiente de escutar em que o áudio processado é reproduzido.
- Método, de acordo com a reivindicação 16, caracterizado pelo fato de que o ajuste de um ou mais parâmetros é em resposta a um ou mais descritores de longo prazo do áudio de entretenimento.
- Método, de acordo com a reivindicação 20, caracterizado pelo fato de que um descritor de termo longo é o nível médio de diálogo do áudio de entretenimento.
- Método, de acordo com a reivindicação 20, caracterizado pelo fato de que um descritor de longo termo é uma estimativa de processamento já aplicada ao áudio de entretenimento.
- Método, de acordo com a reivindicação 16, caracterizado pelo fato de que o ajuste de um ou mais parâmetros está de acordo com uma fórmula prescritiva, em que a fórmula prescritiva relaciona a acuidade de audição de um ouvinte ou grupo de ouvintes ao um ou mais parâmetros.
- Método, de acordo com a reivindicação 16, caracterizado pelo fato de que o ajuste de um ou mais parâmetros está de acordo com as preferências de um ou mais ouvintes.
- Método, de acordo com a reivindicação 14, caracterizado pelo fato de que o processamento provê controle dinâmico de faixa, equalização dinâmica, estreitamento espectral, extração da fala, redução de ruído, ou outra ação de aperfeiçoar a fala.
- Método, de acordo com a reivindicação 25, caracterizado pelo fato de que o controle dinâmico de faixa é provido por uma função de compressão/expansão de faixa.
- Meio de armazenamento não-transitório legível por computador, caracterizado pelo fato de que é codificado com um método para fazer com que um computador execute as etapas do método conforme definido na reivindicação 1.
- Meio de armazenamento não-transitório legível por computador, caracterizado pelo fato de que é codificado com um método para fazer com que um computador execute as etapas do método conforme definido na reivindicação 14.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US90339207P | 2007-02-26 | 2007-02-26 | |
| US60/903,392 | 2007-02-26 | ||
| PCT/US2008/002238 WO2008106036A2 (en) | 2007-02-26 | 2008-02-20 | Speech enhancement in entertainment audio |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| BRPI0807703A2 BRPI0807703A2 (pt) | 2014-05-27 |
| BRPI0807703B1 true BRPI0807703B1 (pt) | 2020-09-24 |
Family
ID=39721787
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| BRPI0807703-7A BRPI0807703B1 (pt) | 2007-02-26 | 2008-02-20 | Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador |
Country Status (8)
| Country | Link |
|---|---|
| US (8) | US8195454B2 (pt) |
| EP (1) | EP2118885B1 (pt) |
| JP (2) | JP5530720B2 (pt) |
| CN (1) | CN101647059B (pt) |
| BR (1) | BRPI0807703B1 (pt) |
| ES (1) | ES2391228T3 (pt) |
| RU (1) | RU2440627C2 (pt) |
| WO (1) | WO2008106036A2 (pt) |
Families Citing this family (90)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100789084B1 (ko) * | 2006-11-21 | 2007-12-26 | 한양대학교 산학협력단 | 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법 |
| RU2440627C2 (ru) | 2007-02-26 | 2012-01-20 | Долби Лэборетериз Лайсенсинг Корпорейшн | Повышение разборчивости речи в звукозаписи развлекательных программ |
| EP2232700B1 (en) | 2007-12-21 | 2014-08-13 | Dts Llc | System for adjusting perceived loudness of audio signals |
| US8639519B2 (en) * | 2008-04-09 | 2014-01-28 | Motorola Mobility Llc | Method and apparatus for selective signal coding based on core encoder performance |
| AU2009274456B2 (en) * | 2008-04-18 | 2011-08-25 | Dolby Laboratories Licensing Corporation | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
| US8712771B2 (en) * | 2009-07-02 | 2014-04-29 | Alon Konchitsky | Automated difference recognition between speaking sounds and music |
| US9215538B2 (en) * | 2009-08-04 | 2015-12-15 | Nokia Technologies Oy | Method and apparatus for audio signal classification |
| US8538042B2 (en) * | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
| EP2486567A1 (en) | 2009-10-09 | 2012-08-15 | Dolby Laboratories Licensing Corporation | Automatic generation of metadata for audio dominance effects |
| CN104485118A (zh) | 2009-10-19 | 2015-04-01 | 瑞典爱立信有限公司 | 用于语音活动检测的检测器和方法 |
| US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
| DK2352312T3 (da) * | 2009-12-03 | 2013-10-21 | Oticon As | Fremgangsmåde til dynamisk undertrykkelse af omgivende akustisk støj, når der lyttes til elektriske input |
| TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
| CN102812636B (zh) | 2010-03-18 | 2016-06-08 | 杜比实验室特许公司 | 用于具有音质保护的失真减少多频带压缩器的技术 |
| US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
| US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
| JP5834449B2 (ja) * | 2010-04-22 | 2015-12-24 | 富士通株式会社 | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
| US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
| US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
| JP5652642B2 (ja) * | 2010-08-02 | 2015-01-14 | ソニー株式会社 | データ生成装置およびデータ生成方法、データ処理装置およびデータ処理方法 |
| KR101726738B1 (ko) * | 2010-12-01 | 2017-04-13 | 삼성전자주식회사 | 음성처리장치 및 그 방법 |
| EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
| CN103503065B (zh) | 2011-04-15 | 2015-08-05 | 瑞典爱立信有限公司 | 用于衰减低精确度重构的信号区域的方法和解码器 |
| US8918197B2 (en) | 2012-06-13 | 2014-12-23 | Avraham Suhami | Audio communication networks |
| FR2981782B1 (fr) * | 2011-10-20 | 2015-12-25 | Esii | Procede d’envoi et de restitution sonore d’informations audio |
| JP5565405B2 (ja) * | 2011-12-21 | 2014-08-06 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
| US20130253923A1 (en) * | 2012-03-21 | 2013-09-26 | Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry | Multichannel enhancement system for preserving spatial cues |
| CN103325386B (zh) * | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
| US9633667B2 (en) | 2012-04-05 | 2017-04-25 | Nokia Technologies Oy | Adaptive audio signal filtering |
| US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
| US8843367B2 (en) * | 2012-05-04 | 2014-09-23 | 8758271 Canada Inc. | Adaptive equalization system |
| WO2014046916A1 (en) * | 2012-09-21 | 2014-03-27 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
| JP2014106247A (ja) * | 2012-11-22 | 2014-06-09 | Fujitsu Ltd | 信号処理装置、信号処理方法および信号処理プログラム |
| EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
| WO2014108222A1 (en) * | 2013-01-08 | 2014-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Improving speech intelligibility in background noise by sii-dependent amplification and compression |
| CA3012134C (en) * | 2013-01-08 | 2019-10-15 | Dolby International Ab | Model based prediction in a critically sampled filterbank |
| CN103079258A (zh) * | 2013-01-09 | 2013-05-01 | 广东欧珀移动通信有限公司 | 一种提高语音识别准确性的方法及移动智能终端 |
| US9933990B1 (en) | 2013-03-15 | 2018-04-03 | Sonitum Inc. | Topological mapping of control parameters |
| US10506067B2 (en) | 2013-03-15 | 2019-12-10 | Sonitum Inc. | Dynamic personalization of a communication session in heterogeneous environments |
| CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
| CN104079247B (zh) | 2013-03-26 | 2018-02-09 | 杜比实验室特许公司 | 均衡器控制器和控制方法以及音频再现设备 |
| CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
| CN105164918B (zh) | 2013-04-29 | 2018-03-30 | 杜比实验室特许公司 | 具有动态阈值的频带压缩 |
| TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
| WO2014210284A1 (en) * | 2013-06-27 | 2014-12-31 | Dolby Laboratories Licensing Corporation | Bitstream syntax for spatial voice coding |
| US9031838B1 (en) | 2013-07-15 | 2015-05-12 | Vail Systems, Inc. | Method and apparatus for voice clarity and speech intelligibility detection and correction |
| US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
| CN103413553B (zh) | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
| EP3503095A1 (en) | 2013-08-28 | 2019-06-26 | Dolby Laboratories Licensing Corp. | Hybrid waveform-coded and parametric-coded speech enhancement |
| ES2732304T3 (es) * | 2013-10-22 | 2019-11-21 | Fraunhofer Ges Forschung | Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio |
| JP6361271B2 (ja) * | 2014-05-09 | 2018-07-25 | 富士通株式会社 | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム |
| CN105336341A (zh) | 2014-05-26 | 2016-02-17 | 杜比实验室特许公司 | 增强音频信号中的语音内容的可理解性 |
| WO2016040885A1 (en) | 2014-09-12 | 2016-03-17 | Audience, Inc. | Systems and methods for restoration of speech components |
| RU2696952C2 (ru) * | 2014-10-01 | 2019-08-07 | Долби Интернешнл Аб | Аудиокодировщик и декодер |
| WO2016050740A1 (en) | 2014-10-01 | 2016-04-07 | Dolby International Ab | Efficient drc profile transmission |
| US10163453B2 (en) | 2014-10-24 | 2018-12-25 | Staton Techiya, Llc | Robust voice activity detector system for use with an earphone |
| CN104409081B (zh) * | 2014-11-25 | 2017-12-22 | 广州酷狗计算机科技有限公司 | 语音信号处理方法和装置 |
| JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
| EP3203472A1 (en) * | 2016-02-08 | 2017-08-09 | Oticon A/s | A monaural speech intelligibility predictor unit |
| US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
| RU2620569C1 (ru) * | 2016-05-17 | 2017-05-26 | Николай Александрович Иванов | Способ измерения разборчивости речи |
| RU2676022C1 (ru) * | 2016-07-13 | 2018-12-25 | Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" | Способ повышения разборчивости речи |
| US10362412B2 (en) | 2016-12-22 | 2019-07-23 | Oticon A/S | Hearing device comprising a dynamic compressive amplification system and a method of operating a hearing device |
| WO2018152034A1 (en) * | 2017-02-14 | 2018-08-23 | Knowles Electronics, Llc | Voice activity detector and methods therefor |
| EP3662470B1 (en) | 2017-08-01 | 2021-03-24 | Dolby Laboratories Licensing Corporation | Audio object classification based on location metadata |
| WO2019027812A1 (en) | 2017-08-01 | 2019-02-07 | Dolby Laboratories Licensing Corporation | CLASSIFICATION OF AUDIO OBJECT BASED ON LOCATION METADATA |
| EP3477641A1 (en) * | 2017-10-26 | 2019-05-01 | Vestel Elektronik Sanayi ve Ticaret A.S. | Consumer electronics device and method of operation |
| EP3827429B1 (en) * | 2018-07-25 | 2024-11-20 | Dolby Laboratories Licensing Corporation | Compressor target curve to avoid boosting noise |
| US11335357B2 (en) * | 2018-08-14 | 2022-05-17 | Bose Corporation | Playback enhancement in audio systems |
| CN110875059B (zh) * | 2018-08-31 | 2022-08-05 | 深圳市优必选科技有限公司 | 收音结束的判断方法、装置以及储存装置 |
| US10795638B2 (en) * | 2018-10-19 | 2020-10-06 | Bose Corporation | Conversation assistance audio device personalization |
| US12087317B2 (en) | 2019-04-15 | 2024-09-10 | Dolby International Ab | Dialogue enhancement in audio codec |
| US11164592B1 (en) * | 2019-05-09 | 2021-11-02 | Amazon Technologies, Inc. | Responsive automatic gain control |
| US11146607B1 (en) * | 2019-05-31 | 2021-10-12 | Dialpad, Inc. | Smart noise cancellation |
| US12272376B2 (en) | 2019-08-27 | 2025-04-08 | Dolby Laboratories Licensing Corporation | Dialog enhancement using adaptive smoothing which depends exponentially on a smoothing factor |
| RU2726326C1 (ru) * | 2019-11-26 | 2020-07-13 | Акционерное общество "ЗАСЛОН" | Способ повышения разборчивости речи пожилыми людьми при приеме звуковых программ на наушники |
| KR102898575B1 (ko) | 2019-12-09 | 2025-12-10 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 잡음 메트릭 및 스피치 명료도 메트릭에 기초한 오디오 및 비-오디오 특징의 조정 |
| KR102845224B1 (ko) | 2019-12-09 | 2025-08-12 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
| WO2021183916A1 (en) * | 2020-03-13 | 2021-09-16 | Immersion Networks, Inc. | Loudness equalization system |
| WO2021195429A1 (en) * | 2020-03-27 | 2021-09-30 | Dolby Laboratories Licensing Corporation | Automatic leveling of speech content |
| EP4158627A1 (en) * | 2020-05-29 | 2023-04-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an initial audio signal |
| WO2022093702A1 (en) * | 2020-10-27 | 2022-05-05 | Ambiq Micro, Inc. | Improved voice activity detection using zero crossing detection |
| US11790931B2 (en) | 2020-10-27 | 2023-10-17 | Ambiq Micro, Inc. | Voice activity detection using zero crossing detection |
| US11595730B2 (en) * | 2021-03-08 | 2023-02-28 | Tencent America LLC | Signaling loudness adjustment for an audio scene |
| CN113113049A (zh) * | 2021-03-18 | 2021-07-13 | 西北工业大学 | 一种联合语音增强的语音活动检测方法 |
| CN115346544B (zh) * | 2021-05-14 | 2025-12-05 | 广州视源电子科技股份有限公司 | 音频信号处理方法、装置、存储介质和程序产品 |
| US12374348B2 (en) | 2021-07-20 | 2025-07-29 | Samsung Electronics Co., Ltd. | Method and electronic device for improving audio quality |
| EP4134954B1 (de) * | 2021-08-09 | 2023-08-02 | OPTImic GmbH | Verfahren und vorrichtung zur audiosignalverbesserung |
| KR102628500B1 (ko) * | 2021-09-29 | 2024-01-24 | 주식회사 케이티 | 대면녹취단말장치 및 이를 이용한 대면녹취방법 |
| WO2025111794A1 (zh) * | 2023-11-28 | 2025-06-05 | 瑞声科技(南京)有限公司 | 语音检测方法、装置、设备及存储介质 |
Family Cites Families (125)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3803357A (en) | 1971-06-30 | 1974-04-09 | J Sacks | Noise filter |
| US4661981A (en) | 1983-01-03 | 1987-04-28 | Henrickson Larry K | Method and means for processing speech |
| DE3370423D1 (en) * | 1983-06-07 | 1987-04-23 | Ibm | Process for activity detection in a voice transmission system |
| US4628529A (en) | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
| US4912767A (en) | 1988-03-14 | 1990-03-27 | International Business Machines Corporation | Distributed noise cancellation system |
| CN1062963C (zh) | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
| US5632005A (en) | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
| CA2077662C (en) | 1991-01-08 | 2001-04-17 | Mark Franklin Davis | Encoder/decoder for multidimensional sound fields |
| EP0810601B1 (en) | 1991-05-29 | 2002-08-14 | Pacific Microsonics, Inc. | Improvements in hidden code side channels |
| US5388185A (en) | 1991-09-30 | 1995-02-07 | U S West Advanced Technologies, Inc. | System for adaptive processing of telephone voice signals |
| US5263091A (en) | 1992-03-10 | 1993-11-16 | Waller Jr James K | Intelligent automatic threshold circuit |
| US5251263A (en) | 1992-05-22 | 1993-10-05 | Andrea Electronics Corporation | Adaptive noise cancellation and speech enhancement system and apparatus therefor |
| US5734789A (en) | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
| US5425106A (en) | 1993-06-25 | 1995-06-13 | Hda Entertainment, Inc. | Integrated circuit for audio enhancement system |
| US5400405A (en) | 1993-07-02 | 1995-03-21 | Harman Electronics, Inc. | Audio image enhancement system |
| US5471527A (en) | 1993-12-02 | 1995-11-28 | Dsc Communications Corporation | Voice enhancement system and method |
| US5539806A (en) | 1994-09-23 | 1996-07-23 | At&T Corp. | Method for customer selection of telephone sound enhancement |
| US5623491A (en) | 1995-03-21 | 1997-04-22 | Dsc Communications Corporation | Device for adapting narrowband voice traffic of a local access network to allow transmission over a broadband asynchronous transfer mode network |
| US5727119A (en) | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
| US5812969A (en) * | 1995-04-06 | 1998-09-22 | Adaptec, Inc. | Process for balancing the loudness of digitally sampled audio waveforms |
| US6263307B1 (en) * | 1995-04-19 | 2001-07-17 | Texas Instruments Incorporated | Adaptive weiner filtering using line spectral frequencies |
| US5661808A (en) | 1995-04-27 | 1997-08-26 | Srs Labs, Inc. | Stereo enhancement system |
| JP3416331B2 (ja) | 1995-04-28 | 2003-06-16 | 松下電器産業株式会社 | 音声復号化装置 |
| US5774557A (en) | 1995-07-24 | 1998-06-30 | Slater; Robert Winston | Autotracking microphone squelch for aircraft intercom systems |
| FI102337B (fi) * | 1995-09-13 | 1998-11-13 | Nokia Mobile Phones Ltd | Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi |
| FI100840B (fi) | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
| DE19547093A1 (de) * | 1995-12-16 | 1997-06-19 | Nokia Deutschland Gmbh | Schaltungsanordnung zur Verbesserung des Störabstandes |
| US5689615A (en) | 1996-01-22 | 1997-11-18 | Rockwell International Corporation | Usage of voice activity detection for efficient coding of speech |
| US5884255A (en) * | 1996-07-16 | 1999-03-16 | Coherent Communications Systems Corp. | Speech detection system employing multiple determinants |
| US6570991B1 (en) | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
| DE19703228B4 (de) * | 1997-01-29 | 2006-08-03 | Siemens Audiologische Technik Gmbh | Verfahren zur Verstärkung von Eingangssignalen eines Hörgerätes sowie Schaltung zur Durchführung des Verfahrens |
| JPH10257583A (ja) * | 1997-03-06 | 1998-09-25 | Asahi Chem Ind Co Ltd | 音声処理装置およびその音声処理方法 |
| US5907822A (en) | 1997-04-04 | 1999-05-25 | Lincom Corporation | Loss tolerant speech decoder for telecommunications |
| US6208637B1 (en) | 1997-04-14 | 2001-03-27 | Next Level Communications, L.L.P. | Method and apparatus for the generation of analog telephone signals in digital subscriber line access systems |
| FR2768547B1 (fr) | 1997-09-18 | 1999-11-19 | Matra Communication | Procede de debruitage d'un signal de parole numerique |
| US6169971B1 (en) * | 1997-12-03 | 2001-01-02 | Glenayre Electronics, Inc. | Method to suppress noise in digital voice processing |
| US6104994A (en) | 1998-01-13 | 2000-08-15 | Conexant Systems, Inc. | Method for speech coding under background noise conditions |
| AU750605B2 (en) | 1998-04-14 | 2002-07-25 | Hearing Enhancement Company, Llc | User adjustable volume control that accommodates hearing |
| US6122611A (en) | 1998-05-11 | 2000-09-19 | Conexant Systems, Inc. | Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise |
| US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
| US6223154B1 (en) | 1998-07-31 | 2001-04-24 | Motorola, Inc. | Using vocoded parameters in a staggered average to provide speakerphone operation based on enhanced speech activity thresholds |
| US6188981B1 (en) | 1998-09-18 | 2001-02-13 | Conexant Systems, Inc. | Method and apparatus for detecting voice activity in a speech signal |
| US6061431A (en) | 1998-10-09 | 2000-05-09 | Cisco Technology, Inc. | Method for hearing loss compensation in telephony systems based on telephone number resolution |
| US6993480B1 (en) | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
| US6256606B1 (en) | 1998-11-30 | 2001-07-03 | Conexant Systems, Inc. | Silence description coding for multi-rate speech codecs |
| US6208618B1 (en) | 1998-12-04 | 2001-03-27 | Tellabs Operations, Inc. | Method and apparatus for replacing lost PSTN data in a packet network |
| US6289309B1 (en) | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
| US6922669B2 (en) | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
| US6246345B1 (en) * | 1999-04-16 | 2001-06-12 | Dolby Laboratories Licensing Corporation | Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding |
| US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
| US6633841B1 (en) | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
| US6910011B1 (en) * | 1999-08-16 | 2005-06-21 | Haman Becker Automotive Systems - Wavemakers, Inc. | Noisy acoustic signal enhancement |
| CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
| US6813490B1 (en) * | 1999-12-17 | 2004-11-02 | Nokia Corporation | Mobile station with audio signal adaptation to hearing characteristics of the user |
| US6449593B1 (en) | 2000-01-13 | 2002-09-10 | Nokia Mobile Phones Ltd. | Method and system for tracking human speakers |
| US6351733B1 (en) * | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
| US7962326B2 (en) | 2000-04-20 | 2011-06-14 | Invention Machine Corporation | Semantic answering system and method |
| US7246058B2 (en) | 2001-05-30 | 2007-07-17 | Aliph, Inc. | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
| US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
| US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
| US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
| US7020605B2 (en) * | 2000-09-15 | 2006-03-28 | Mindspeed Technologies, Inc. | Speech coding system with time-domain noise attenuation |
| US6615169B1 (en) * | 2000-10-18 | 2003-09-02 | Nokia Corporation | High frequency enhancement layer coding in wideband speech codec |
| JP2002169599A (ja) * | 2000-11-30 | 2002-06-14 | Toshiba Corp | ノイズ抑制方法及び電子機器 |
| US6631139B2 (en) | 2001-01-31 | 2003-10-07 | Qualcomm Incorporated | Method and apparatus for interoperability between voice transmission systems during speech inactivity |
| US6694293B2 (en) * | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
| US20030028386A1 (en) | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
| ATE318062T1 (de) | 2001-04-18 | 2006-03-15 | Gennum Corp | Mehrkanal hörgerät mit übertragungsmöglichkeiten zwischen den kanälen |
| CA2354755A1 (en) * | 2001-08-07 | 2003-02-07 | Dspfactory Ltd. | Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank |
| US6885988B2 (en) * | 2001-08-17 | 2005-04-26 | Broadcom Corporation | Bit error concealment methods for speech coding |
| US20030046069A1 (en) * | 2001-08-28 | 2003-03-06 | Vergin Julien Rivarol | Noise reduction system and method |
| EP1430749A2 (en) * | 2001-09-06 | 2004-06-23 | Koninklijke Philips Electronics N.V. | Audio reproducing device |
| US6937980B2 (en) | 2001-10-02 | 2005-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition using microphone antenna array |
| US6785645B2 (en) | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
| US7328151B2 (en) | 2002-03-22 | 2008-02-05 | Sound Id | Audio decoder with dynamic adjustment of signal modification |
| US7167568B2 (en) | 2002-05-02 | 2007-01-23 | Microsoft Corporation | Microphone array signal enhancement |
| US7072477B1 (en) * | 2002-07-09 | 2006-07-04 | Apple Computer, Inc. | Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file |
| CN1640191B (zh) * | 2002-07-12 | 2011-07-20 | 唯听助听器公司 | 助听器和提高语言清晰度的方法 |
| US7454331B2 (en) | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
| US7283956B2 (en) * | 2002-09-18 | 2007-10-16 | Motorola, Inc. | Noise suppression |
| CN1703736A (zh) | 2002-10-11 | 2005-11-30 | 诺基亚有限公司 | 用于源控制可变比特率宽带语音编码的方法和装置 |
| US7174022B1 (en) * | 2002-11-15 | 2007-02-06 | Fortemedia, Inc. | Small array microphone for beam-forming and noise suppression |
| DE10308483A1 (de) | 2003-02-26 | 2004-09-09 | Siemens Audiologische Technik Gmbh | Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät |
| US7343284B1 (en) * | 2003-07-17 | 2008-03-11 | Nortel Networks Limited | Method and system for speech processing for enhancement and detection |
| US7398207B2 (en) * | 2003-08-25 | 2008-07-08 | Time Warner Interactive Video Group, Inc. | Methods and systems for determining audio loudness levels in programming |
| US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
| SG119199A1 (en) * | 2003-09-30 | 2006-02-28 | Stmicroelectronics Asia Pacfic | Voice activity detector |
| US7539614B2 (en) * | 2003-11-14 | 2009-05-26 | Nxp B.V. | System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes |
| US7483831B2 (en) * | 2003-11-21 | 2009-01-27 | Articulation Incorporated | Methods and apparatus for maximizing speech intelligibility in quiet or noisy backgrounds |
| CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
| FI118834B (fi) | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
| CA3026267C (en) | 2004-03-01 | 2019-04-16 | Dolby Laboratories Licensing Corporation | Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters |
| US7492889B2 (en) | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
| US7451093B2 (en) | 2004-04-29 | 2008-11-11 | Srs Labs, Inc. | Systems and methods of remotely enabling sound enhancement techniques |
| US8788265B2 (en) | 2004-05-25 | 2014-07-22 | Nokia Solutions And Networks Oy | System and method for babble noise detection |
| AU2004320207A1 (en) | 2004-05-25 | 2005-12-08 | Huonlabs Pty Ltd | Audio apparatus and method |
| US7649988B2 (en) | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
| FI20045315L (fi) | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
| EP2204796B1 (en) | 2004-08-30 | 2017-07-12 | QUALCOMM Incorporated | Adaptive De-Jitter buffer for voice over IP |
| JP5166030B2 (ja) | 2004-09-06 | 2013-03-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号のエンハンスメント |
| US7383179B2 (en) * | 2004-09-28 | 2008-06-03 | Clarity Technologies, Inc. | Method of cascading noise reduction algorithms to avoid speech distortion |
| US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
| US20090070118A1 (en) | 2004-11-09 | 2009-03-12 | Koninklijke Philips Electronics, N.V. | Audio coding and decoding |
| RU2284585C1 (ru) * | 2005-02-10 | 2006-09-27 | Владимир Кириллович Железняк | Способ измерения разборчивости речи |
| US20060224381A1 (en) | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
| PL1875463T3 (pl) | 2005-04-22 | 2019-03-29 | Qualcomm Incorporated | Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia |
| US8566086B2 (en) | 2005-06-28 | 2013-10-22 | Qnx Software Systems Limited | System for adaptive enhancement of speech signals |
| US20070078645A1 (en) | 2005-09-30 | 2007-04-05 | Nokia Corporation | Filterbank-based processing of speech signals |
| US20070147635A1 (en) | 2005-12-23 | 2007-06-28 | Phonak Ag | System and method for separation of a user's voice from ambient sound |
| EP1640972A1 (en) | 2005-12-23 | 2006-03-29 | Phonak AG | System and method for separation of a users voice from ambient sound |
| US20070198251A1 (en) | 2006-02-07 | 2007-08-23 | Jaber Associates, L.L.C. | Voice activity detection method and apparatus for voiced/unvoiced decision and pitch estimation in a noisy speech feature extraction |
| US8204754B2 (en) * | 2006-02-10 | 2012-06-19 | Telefonaktiebolaget L M Ericsson (Publ) | System and method for an improved voice detector |
| ATE527833T1 (de) | 2006-05-04 | 2011-10-15 | Lg Electronics Inc | Verbesserung von stereo-audiosignalen mittels neuabmischung |
| US8032370B2 (en) * | 2006-05-09 | 2011-10-04 | Nokia Corporation | Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes |
| CN100578622C (zh) * | 2006-05-30 | 2010-01-06 | 北京中星微电子有限公司 | 一种自适应麦克阵列系统及其语音信号处理方法 |
| US20080071540A1 (en) | 2006-09-13 | 2008-03-20 | Honda Motor Co., Ltd. | Speech recognition method for robot under motor noise thereof |
| US20100119077A1 (en) | 2006-12-18 | 2010-05-13 | Phonak Ag | Active hearing protection system |
| RU2440627C2 (ru) * | 2007-02-26 | 2012-01-20 | Долби Лэборетериз Лайсенсинг Корпорейшн | Повышение разборчивости речи в звукозаписи развлекательных программ |
| EP2232700B1 (en) * | 2007-12-21 | 2014-08-13 | Dts Llc | System for adjusting perceived loudness of audio signals |
| US8175888B2 (en) | 2008-12-29 | 2012-05-08 | Motorola Mobility, Inc. | Enhanced layered gain factor balancing within a multiple-channel audio coding system |
| CN102044243B (zh) * | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
| WO2012083555A1 (en) * | 2010-12-24 | 2012-06-28 | Huawei Technologies Co., Ltd. | Method and apparatus for adaptively detecting voice activity in input audio signal |
| CN102801861B (zh) * | 2012-08-07 | 2015-08-19 | 歌尔声学股份有限公司 | 一种应用于手机的语音增强方法和装置 |
| ES2661924T3 (es) * | 2012-08-31 | 2018-04-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Método y dispositivo para detectar la actividad vocal |
| US20140126737A1 (en) * | 2012-11-05 | 2014-05-08 | Aliphcom, Inc. | Noise suppressing multi-microphone headset |
-
2008
- 2008-02-20 RU RU2009135829/08A patent/RU2440627C2/ru active
- 2008-02-20 US US12/528,323 patent/US8195454B2/en active Active
- 2008-02-20 JP JP2009551991A patent/JP5530720B2/ja active Active
- 2008-02-20 WO PCT/US2008/002238 patent/WO2008106036A2/en not_active Ceased
- 2008-02-20 EP EP08725831A patent/EP2118885B1/en active Active
- 2008-02-20 CN CN2008800099293A patent/CN101647059B/zh active Active
- 2008-02-20 BR BRPI0807703-7A patent/BRPI0807703B1/pt active IP Right Grant
- 2008-02-20 ES ES08725831T patent/ES2391228T3/es active Active
-
2012
- 2012-05-03 US US13/463,600 patent/US8271276B1/en active Active
- 2012-08-10 US US13/571,344 patent/US8972250B2/en active Active
- 2012-12-26 JP JP2012283295A patent/JP2013092792A/ja active Pending
-
2015
- 2015-01-26 US US14/605,003 patent/US9368128B2/en active Active
- 2015-05-01 US US14/701,622 patent/US9418680B2/en active Active
-
2016
- 2016-07-11 US US15/207,155 patent/US9818433B2/en active Active
-
2017
- 2017-10-12 US US15/730,908 patent/US10418052B2/en active Active
-
2019
- 2019-07-19 US US16/516,634 patent/US10586557B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| EP2118885A2 (en) | 2009-11-18 |
| EP2118885B1 (en) | 2012-07-11 |
| WO2008106036A2 (en) | 2008-09-04 |
| US10418052B2 (en) | 2019-09-17 |
| US20150142424A1 (en) | 2015-05-21 |
| US20150243300A1 (en) | 2015-08-27 |
| WO2008106036A3 (en) | 2008-11-27 |
| US20190341069A1 (en) | 2019-11-07 |
| US8195454B2 (en) | 2012-06-05 |
| JP5530720B2 (ja) | 2014-06-25 |
| BRPI0807703A2 (pt) | 2014-05-27 |
| US20180033453A1 (en) | 2018-02-01 |
| US20160322068A1 (en) | 2016-11-03 |
| US20120221328A1 (en) | 2012-08-30 |
| CN101647059A (zh) | 2010-02-10 |
| RU2009135829A (ru) | 2011-04-10 |
| JP2010519601A (ja) | 2010-06-03 |
| RU2440627C2 (ru) | 2012-01-20 |
| US9818433B2 (en) | 2017-11-14 |
| ES2391228T3 (es) | 2012-11-22 |
| CN101647059B (zh) | 2012-09-05 |
| US8271276B1 (en) | 2012-09-18 |
| US10586557B2 (en) | 2020-03-10 |
| JP2013092792A (ja) | 2013-05-16 |
| US20100121634A1 (en) | 2010-05-13 |
| US20120310635A1 (en) | 2012-12-06 |
| US8972250B2 (en) | 2015-03-03 |
| US9418680B2 (en) | 2016-08-16 |
| US9368128B2 (en) | 2016-06-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| BRPI0807703B1 (pt) | Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador | |
| JP6896135B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
| CN115699172B (zh) | 用于处理初始音频信号的方法和装置 | |
| US9384759B2 (en) | Voice activity detection and pitch estimation | |
| WO2010087171A1 (ja) | 補聴器および補聴処理方法 | |
| EP2823481A2 (en) | Formant based speech reconstruction from noisy signals | |
| US20230395079A1 (en) | Signal-adaptive Remixing of Separated Audio Sources | |
| Brouckxon et al. | Time and frequency dependent amplification for speech intelligibility enhancement in noisy environments | |
| Master et al. | Dialog Enhancement via Spatio-Level Filtering and Classification | |
| JP2006171663A (ja) | 復調音響信号レベル判定方式 | |
| Chang et al. | Audio dynamic range control for set-top box | |
| HK1212808A1 (zh) | 用於音频分类和处理的装置和方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| B15K | Others concerning applications: alteration of classification |
Ipc: G10L 25/78 (2013.01), G10L 19/012 (2013.01), G10L |
|
| B06F | Objections, documents and/or translations needed after an examination request according art. 34 industrial property law | ||
| B06U | Preliminary requirement: requests with searches performed by other patent offices: suspension of the patent application procedure | ||
| B06A | Notification to applicant to reply to the report for non-patentability or inadequacy of the application according art. 36 industrial patent law | ||
| B09A | Decision: intention to grant | ||
| B16A | Patent or certificate of addition of invention granted |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 24/09/2020, OBSERVADAS AS CONDICOES LEGAIS. |