BR112016025850B1 - Métodos para codificar um sinal de áudio e para discriminação de sinal de áudio, codificador para codificação de um sinal de áudio, discriminador de sinal de áudio, dispositivo de comunicação, e, meio de armazenamento legível por computador - Google Patents

Métodos para codificar um sinal de áudio e para discriminação de sinal de áudio, codificador para codificação de um sinal de áudio, discriminador de sinal de áudio, dispositivo de comunicação, e, meio de armazenamento legível por computador Download PDF

Info

Publication number
BR112016025850B1
BR112016025850B1 BR112016025850-9A BR112016025850A BR112016025850B1 BR 112016025850 B1 BR112016025850 B1 BR 112016025850B1 BR 112016025850 A BR112016025850 A BR 112016025850A BR 112016025850 B1 BR112016025850 B1 BR 112016025850B1
Authority
BR
Brazil
Prior art keywords
audio signal
peak
coefficients
spectral
encoding
Prior art date
Application number
BR112016025850-9A
Other languages
English (en)
Other versions
BR112016025850A2 (pt
Inventor
Erik Norvell
Volodya Grancharov
Original Assignee
Telefonaktiebolaget Lm Ericsson (Publ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget Lm Ericsson (Publ) filed Critical Telefonaktiebolaget Lm Ericsson (Publ)
Publication of BR112016025850A2 publication Critical patent/BR112016025850A2/pt
Publication of BR112016025850B1 publication Critical patent/BR112016025850B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

MÉTODOS PARA CODIFICAR UM SINAL DE ÁUDIO E PARA DISCRIMINAÇÃO DE SINAL DE ÁUDIO, CODIFICADOR PARA CODIFICAÇÃO DE UM SINAL DE ÁUDIO, DISCRIMINADOR DE SINAL DE ÁUDIO, DISPOSITIVO DE COMUNICAÇÃO, E, PORTADOR. A invenção refere-se a um codec e a um discriminador e métodos do mesmo para discriminação e codificação de sinal de áudio. Modalidades de um método realizado por um codificador compreendem, para um segmento do sinal de áudio: identificar um conjunto de picos espectrais; determinar uma distância média S entre picos no conjunto; e determinar uma razão, PNR, entre um envelope de pico e um envelope de piso de ruído. O método compreende adicionalmente selecionar um modo de codificação, além de uma pluralidade de modos de codificação, com base pelo menos na distância média S e na razão PNR; e aplicar o modo de codificação selecionado para codificação do segmento do sinal de áudio.

Description

CAMPO TÉCNICO
[001] A tecnologia proposta geralmente refere-se a codecs e métodos para codificação de áudio.
FUNDAMENTOS
[002] Codecs de áudio modernos consistem de esquemas de compressão múltiplos otimizados para sinais com propriedades diferentes. Praticamente sem exceção, sinais do tipo conversação são processados com codecs no domínio do tempo, enquanto sinais de música são processados com codecs no domínio de transformada. Esquemas de codificação que se supõe que processem ambos sinais de conversação e sinais de música requerem um mecanismo para reconhecer se o sinal de entrada compreende voz ou música e comutar entre os modos de codec apropriados. Tal mecanismo pode ser referido como um classificador de conversão-música, ou discriminador. Uma ilustração de visão geral de um codec de áudio multimodo usando lógica de decisão de modo com base no sinal de entrada, é mostrada na figura 1a.
[003] De uma maneira similar, entre a classe de sinais de música,pode-se discriminar mais ruído como sinais de música a partir de sinais de música harmônicos, e construir um classificador e um esquema de codificação ótimo para cada um destes grupos. Esta abstração de criar um classificador para determinar a classe de um sinal, que então controla a decisão de modo é ilustrada na figura 1b.
[004] Há uma variedade de classificadores de conversação-música no campo de codificação de áudio. Entretanto, estes classificadores não podem discriminar entre diferentes classes no espaço de sinais de música. De fato, muitos classificadores conhecidos não fornecem resolução suficiente para serem capazes de discriminar entre classes de música, de um modo que é necessário para aplicação em um codec multimodo complexo.
SUMÁRIO
[005] O problema de discriminar entre, por exemplo, segmentos de música como ruído é equacionado aqui, pelo uso de uma nova métrica, calculada diretamente nos coeficientes no domínio da frequência. A métrica é com base na distribuição de candidatos a picos espectrais pré-selecionados e a razão de piso de pico para ruído média.
[006] A solução proposta permite que segmentos de música harmônicos e do tipo ruído sejam identificados, o que por sua vez permite a codificação ótima destes tipos de sinais. Este conceito de codificação fornece uma qualidade superior à dos esquemas de codificação convencionais. As modalidades descritas neste documento tratam de encontrar um classificador melhor para discriminação de sinais de música harmônicos e do tipo ruído.
[007] De acordo com um primeiro aspecto, é fornecido um método para codificar um sinal de áudio, que deve ser executado por um codificador de sinal de áudio. O método compreende, para um segmento de um sinal de áudio, identificar um conjunto de picos espectrais e determinar uma distância média S entre picos no conjunto. O método adicionalmente compreende determinar uma razão, PNR, entre um envelope de pico e um envelope de piso de ruído; selecionar um modo de codificação dentre uma pluralidade de modos de codificação, com base pelo menos na distância média S e na razão PNR; e aplicar o modo de codificação selecionado.
[008] De acordo com um segundo aspecto, um codificador é fornecido para codificar um sinal de áudio. O codificador é configurado para, em um segmento do sinal de áudio, identificar um conjunto de picos espectrais e determinar uma distância média S entre picos no conjunto. O codificador é adicionalmente configurado para determinar uma razão, PNR, entre um envelope de pico e um envelope de piso de ruído; selecionar um modo de codificação dentre uma pluralidade de modos de codificação, com base na distância média S e na razão PNR; e adicionalmente aplicar o modo de codificação selecionado.
[009] De acordo com um terceiro aspecto, é fornecido um método para discriminação de sinal, que deve ser executado por um discriminador de sinal de áudio. O método compreende, para um segmento de um sinal de áudio, identificar um conjunto de picos espectrais e determinar uma distância média S entre picos no conjunto. O método adicionalmente compreende determinar uma razão, PNR, entre um envelope de pico e um envelope de piso de ruído. O método adicionalmente compreende determinar a qual classe de sinais o segmento pertence, com base pelo menos na distância média S e na razão PNR.
[0010] De acordo com um quarto aspecto, é fornecido um discriminador de sinal de áudio. O discriminador é configurado para, em um segmento de um sinal de áudio, identificar um conjunto de picos espectrais e determinar uma distância média S entre picos no conjunto. O discriminador é adicionalmente configurado para determinar uma razão, PNR, entre um envelope de pico e um envelope de piso de ruído, e adicionalmente determinar a qual classe de sinal de áudio de áudio, dentre uma pluralidade de classes de sinal de áudio, o segmento pertence, com base pelo menos na distância média S e na razão PNR.
[0011] De acordo com um quinto aspecto, é fornecido um dispositivo de comunicação compreendendo um codificador de acordo com o segundo aspecto.
[0012] De acordo com um sexto aspecto, é fornecido um dispositivo de comunicação compreendendo um discriminador de sinal de áudio de acordo com o quarto aspecto.
[0013] De acordo com um sétimo aspecto, é fornecido um programa de computador compreendendo instruções que, quando executadas pelo menos em um processador, fazem com que pelo menos um processador execute o método de acordo com o primeiro e/ou o terceiro aspecto.
[0014] De acordo com um oitavo aspecto, é fornecido um portador, contendo o programa de computador da reivindicação prévia, em que o portador é um dentre um sinal eletrônico, um sinal óptico, um sinal de rádio ou um meio de armazenamento legível por computador.
BREVE DESCRIÇÃO DOS DESENHOS
[0015] Os precedentes e outros objetivos, recursos e vantagens da tecnologia aqui descrita serão aparentes a partir da seguinte descrição mais particular das modalidades, conforme ilustrado nos desenhos que as acompanham. Os desenhos não são necessariamente em escala, sendo dada ênfase, ao invés disso, em ilustrar os princípios da tecnologia aqui descrita.
[0016] A figura 1a é uma ilustração esquemática de um codec de áudio onde modalidades da invenção poderiam ser aplicadas; figura 1b é uma ilustração esquemática de um codec de áudio mostrando explicitamente um classificador de sinal. a figura 2 é um fluxograma ilustrando um método de acordo com um exemplo de modalidade; a figura 3a é um diagrama ilustrando valores de um algoritmo de seleção de pico e pico instantâneo e piso de ruído de acordo com um exemplo de modalidade; a figura 3b é um diagrama ilustrando distâncias de pico di de acordo com um exemplo de modalidade; a figura 4 ilustra um diagrama de Venn de decisões de acordo com um exemplo de modalidade; as figuras 5a-c ilustram implementações de um codificador de acordo com exemplos de modalidades; a figura 5d ilustra uma implementação de um discriminador de acordo com um exemplo de modalidade; a figura 6 ilustra uma modalidade de um codificador.
DESCRIÇÃO DETALHADA
[0017] A tecnologia proposta pode ser aplicada a um codificador e/ou decodificador, por exemplo, de um terminal de usuário ou equipamento de usuário, que pode ser um dispositivo com fio ou sem fio. Todos os dispositivos e nós alternativos descritos neste documento estão resumidos no termo "dispositivo de comunicação", no qual a solução aqui descrita poderia ser aplicada.
[0018] Conforme usado neste documento, os termos não limitantes "Equipamento de Usuário" e "dispositivo sem fio" podem se referir a um telefone móvel, um telefone celular, um Assistente Digital Pessoal (PDA) equipado com capacidades de rádio comunicação, um telefone inteligente, um laptop ou Computador Pessoal (PC), equipado com um modem de faixa larga interno ou externo, um PC tablet com capacidades de rádio comunicação, um dispositivo alvo, um UE de dispositivo a dispositivo, uma máquina tipo UE ou UE capaz de comunicação de máquina a máquina, iPAD, equipamento de premissas do usuário, CPE, equipamento embutido no laptop, LEE, equipamento montado no laptop, LME, dongle USB, um dispositivo de rádio comunicação eletrônica portátil, um dispositivo sensor equipado com capacidades de rádio comunicação ou similares. Em particular, o termo "UE" e o termo "dispositivo sem fio" deveriam ser interpretados como termos não limitantes compreendendo qualquer tipo de dispositivo sem fio comunicandose com um nó de rede de rádio em um sistema de comunicação celular ou móvel ou qualquer dispositivo equipado com conjunto de circuitos de rádio para comunicação sem fio, de acordo com qualquer padrão relevante para comunicação com um sistema de comunicação celular ou móvel.
[0019] Conforme usado aqui, o termo "dispositivo com fio" pode referir-se a qualquer dispositivo configurado ou preparado para conexão com fio a uma rede. Em particular, o dispositivo com fio pode ser pelo menos algum dos dispositivos acima, com ou sem capacidade de rádio comunicação, quando configurado para conexão com fio.
[0020] A tecnologia proposta pode também ser aplicada a um codificador e/ou decodificador de um nó de rede de rádio. Conforme usado aqui, o termo não limitante "nó de rede de rádio" pode referir-se a estações base, nós de controle de rede tais como controladores de rede, controladores de rede de rádio, controladores de estação base e similares. Em particular, o termo "estação base" pode abranger diferentes tipos de estações rádio base incluindo estações base padronizadas tais como o Node Bs, ou Node BS, evoluído, eNBs e também macro/micro/pico estações rádio base, estações base domésticas também conhecidas como estações femto base, nó de retransmissão, repetidores, pontos de acesso rádio, estações de transceptor base, BTSs e ainda nós de controle rádio controlando uma ou mais Unidades de Rádio Remotas (RRUs) ou similares.
[0021] As modalidades da solução descrita neste documento são adequadas para uso com um codec de áudio. Portanto, as modalidades serão descritas no contexto de um exemplo de codec de áudio, que opera sobre blocos curtos, por exemplo, de 20 ms, da forma de onda de entrada. Deveria ser observado que a solução descrita neste documento também pode ser usada com outros codecs de áudio operando em outros tamanhos de bloco. Adicionalmente, as modalidades apresentadas mostram exemplos de valores numéricos, que são preferidos para a modalidade disponível. Deveria ser entendido que estes valores numéricos são dados somente como exemplos e podem ser adaptados ao codec de áudio disponível.
Exemplos de modalidades
[0022] Abaixo, exemplos de modalidades relacionadas a um método para codificar um sinal de áudio, serão descritos com referência à figura 2. O método deve ser realizado por um codificador. O codificador pode ser configurado para ser conforme a um ou mais padrões para codificação de áudio. O método compreende, para um segmento do sinal de áudio: identificar 201 um conjunto de picos espectrais; determinar 202 uma distância média S entre picos no conjunto; e determinar 203 uma razão, PNR, entre um envelope de pico e um envelope de piso de ruído. O método compreende adicionalmente selecionar 204 um modo de codificação, além de uma pluralidade de modos de codificação, com base pelo menos na distância média S e na razão PNR; e aplicar 205 o modo de codificação selecionado.
[0023] Os picos espectrais podem ser identificados de modos diferentes, o que também será descrito em mais detalhe abaixo. Por exemplo, coeficientes espectrais cuja magnitude excede um limite definido poderiam ser identificados como pertencendo a um pico. Ao determinar a distância média S entre picos, cada pico pode ser representado por um único coeficiente espectral. Este coeficiente único preferivelmente seria o coeficiente espectral tendo a amplitude quadrática máxima dos coeficientes espectrais (se houver mais de um) sendo associados ao pico. Isto é, quando mais de um coeficiente espectral é identificado como associado a um pico espectral, um dos diversos coeficientes associados ao pico pode então ser selecionado para representar o pico, ao determinar a distância média S. Isto poderia ser visto na figura 3b, e será adicionalmente descrito abaixo. A distância média S pode também ser referida, por exemplo, como a "dispersão de pico".
[0024] No sentido de determinar uma razão entre um envelope de pico e um envelope de piso de ruído, estes envelopes necessitam ser estimados. O envelope de piso de ruído pode ser estimado com base em valores absolutos de coeficientes espectrais e um fator de ponderação enfatizando a contribuição de coeficientes de baixa energia. Correspondentemente, o envelope de pico pode ser estimado com base em valores absolutos de coeficientes espectrais e um fator de ponderação enfatizando a contribuição dos coeficientes de alta energia. As figuras 3a e 3b mostram exemplos de envelopes de piso de ruído (tracejado curto) e envelopes de pico (tracejado longo) estimados. Por coeficientes de "baixa energia" e "alta energia", deveriam ser entendidos os coeficientes tendo uma amplitude com uma certa relação para um limite, onde coeficientes de baixa energia seriam tipicamente coeficientes tendo uma amplitude abaixo (ou possivelmente igual a) um certo limite, e coeficientes de alta energia seriam tipicamente coeficientes tendo uma amplitude acima (ou possivelmente igual a) um certo limite.
[0025] De acordo com um exemplo de modalidade, a forma de onda de entrada, isto é, o sinal de áudio, é pré enfatizado, por exemplo, com o filtro passa baixa de primeira ordem H(z) = 1 - 0,68z-1, antes de executar análise espectral. Isto pode ser feito, por exemplo, no sentido de diminuir a precisão de modelagem para a região de alta frequência, porém deveria ser observado que não é essencial para a invenção disponível.
[0026] Uma transformada de Fourier discreta (DFT) pode ser usada para converter o sinal de áudio filtrado para o domínio transformado ou da frequência. Em um exemplo específico, a análise espectral é realizada uma vez por quadro, usando uma transformada de Fourier rápida (FFT) de 256 pontos.
[0027] Uma FFT é executada na janela do sinal de entrada, pré enfatizado, isto é, sobre um segmento do sinal de áudio, para obter um conjunto de parâmetros espectrais como:
Figure img0001
onde k = 0, ..., 255, é um índice de coeficientes de frequência ou coeficientes espectrais, e n é um índice de amostras de forma de onda. Deveria ser observado que qualquer extensão N da transformada pode ser usada. Os coeficientes poderiam também ser referidos como coeficientes de transformada.
[0028] Um objetivo da solução descrita neste documento é obter um classificador ou discriminador, que não só possa discriminar entre conversação e música, como também discriminar entre diferentes tipos de música. Abaixo, será descrito em mais detalhe como este objetivo pode ser alcançado, de acordo com um exemplo de modalidade de um discriminador.
[0029] O exemplo de discriminador requer conhecimento da localização, por exemplo, na frequência, de picos espectrais de um segmento do sinal de áudio de entrada. Picos espectrais são aqui definidos como coeficientes com um valor absoluto acima de um limite adaptável, o que é com base, por exemplo, na razão dos envelopes de pico e piso de ruído.
[0030] Um algoritmo de estimativa de piso de ruído que opera sobre os valores absolutos de coeficientes de transformada |X(k)| podem ser usados. Energias de piso de ruído instantâneas Enf (k) podem ser estimadas de acordo com a recursão:
Figure img0002
[0031] A forma particular do fator de ponderação α minimiza o efeito de coeficientes de transformada de alta energia e enfatiza a contribuição de Ê f coeficientes de baixa energia. Finalmente, o nível de ruído de piso né é estimado simplesmente obtendo a média de energias instantâneas Enf .
Figure img0003
[0032] Uma modalidade do algoritmo de "captura de pico" apresentada aqui requer conhecimento de um nível de energia de piso de ruído e um nível de energia médio de picos espectrais. O algoritmo de estimativa de energia de pico usado neste documento é similar ao algoritmo de estimativa de piso de ruído acima, porém ao invés de baixa energia este rastreia altas energias espectrais como:
Figure img0004
[0033] Neste caso, o fator de ponderação β minimiza o efeito dos coeficientes de transformada de baixa energia e enfatiza a contribuição dos p coeficientes de alta energia. A energia de pico total P é estimada aqui pela média das energias instantâneas como:
Figure img0005
[0034] Quando os níveis de pico e piso de ruído são calculados, um nível de limite T pode ser formado como:
Figure img0006
com Y configurado para o exemplo de valor Y = 0,88579. Coeficientes de transformada de um segmento do sinal de áudio de entrada são então comparados com o limite, e aqueles com uma amplitude excedendo o limite formam um vetor de candidatos a pico. Isto é, um vetor compreendendo os coeficientes que são supostos pertencerem a picos espectrais.
[0035] Um valor limite alternativo, θ (k), que pode requerer menos complexidade computacional do que t, poderia ser usado para detectar picos. Em uma modalidade, θ (k) é encontrado como o nível de envelope de pico instantâneo, Ep (k), com um fator de escalamento fixo. Aqui, o fator de escalamento 0,64 é usado como um exemplo, de tal modo que:
Figure img0007
[0036] Ao usar o limite alternativo, θ, os candidatos a pico são definidos para serem todos os coeficientes com uma amplitude quadrática acima do valor limite instantâneo, como:
Figure img0008
onde P denota o conjunto ordenado em frequência de posições de candidatos a pico. Considerando o espectral da FFT, alguns picos serão largos e constituirão de diversos coeficientes de transformada, embora outros sejam estreitos e sejam representados por um único coeficiente. No sentido de obter uma representação de pico de coeficientes individuais, isto é, um coeficiente por pico, coeficientes candidatos a pico em posições consecutivas são supostos fazerem parte de um pico mais largo. Encontrando a amplitude quadrática máxima |X(k)|2 dos coeficientes de transformada em uma faixa de posições de candidatos a pico consecutivas ... k-1, k, k+1, ..., um conjunto refinado P é criado, onde os picos largos são representados pela posição máxima em cada faixa, isto é, pelo coeficiente tendo o maior valor de |X(k)|2 na faixa, o que poderia também ser denotado como o coeficiente tendo a maior magnitude espectral na faixa. A figura 3a ilustra o desvio do envelope de pico e envelope de piso de ruído, e o algoritmo de seleção de pico.
[0037] Os cálculos acima servem para gerar dois recursos que são usados para formar uma decisão do classificador: a saber, uma estimativa da diversidade de pico S e uma razão de piso de pico para ruído PNR. A diversidade de pico S pode ser representada ou definida usando a distância média di entre picos como:
Figure img0009
onde Nd é o número de picos refinados no conjunto PNR pode ser calculada como
Figure img0010
[0038] A decisão do classificador pode ser formada usando estes recursos em combinação com um limite de decisão. Podemos nomear estas decisões como "issparse" e "isclean", como:
Figure img0011
[0039] O resultado destas decisões pode ser usado para formar diferentes classes de sinais. Uma ilustração destas classes é mostrada na figura 4. Quando a classificação é com base em duas decisões binárias, o número total de classes pode ser no máximo 4. Como uma próxima etapa, a decisão de codec pode ser formada usando a informação de classe, que é ilustrada na Tabela 1.
[0040] Tabela 1: Classes possíveis formadas usando duas decisões de recurso.
Figure img0012
[0041] Na etapa seguinte no codec de áudio, é tomada uma decisão de quais etapas de processamento aplicar a qual classe. Isto é, um modo de codificação deve ser selecionado com base pelo menos em S e PNR. Esta seleção ou mapeamento dependerá das características e capacidades dos diferentes modos de codificação ou etapas de processamento disponíveis. Como um exemplo, talvez o Codec modo 1 processasse a Classe A e a Classe C, enquanto o Codec modo 2 processasse a Classe B e a Classe D. A decisão do modo de codificação pode ser a saída final do classificador, para guiar o processo de codificação. A decisão do modo de codificação tipicamente seria transferida no fluxo de bit, juntamente com os parâmetros do codec a partir do modo de codificação escolhido.
[0042] Deveria ser entendido que as classes acima podem ser adicionalmente combinadas com outras decisões de classificador. A combinação pode resultar em um número maior de classes ou estas podem ser combinadas usando uma ordem de prioridade, de tal modo que o classificador apresentado pode ser revogado por um outro classificador, ou vice-versa, que o classificador apresentado pode revogar um outro classificador.
[0043] A solução descrita aqui fornece um discriminador de tipo de música de alta resolução, que pode, com vantagem, ser aplicado na codificação de áudio. A decisão lógica do discriminador é com base em estatística da distribuição posicional dos coeficientes de frequência com energia proeminente.
Implementações
[0044] O método e técnicas descritos acima podem ser implementados em codificadores e/ou decodificadores, que podem fazer parte, por exemplo, de dispositivos de comunicação.
Codificador, figuras 5a-5c
[0045] Um exemplo de modalidade de um codificador é ilustrado de uma maneira geral, na figura 5a. Por codificador, é referido um codificador configurado para codificar sinais de áudio. O codificador poderia possivelmente adicionalmente configurado para codificar outros tipos de sinais. O codificador 500 é configurado para realizar pelo menos uma das modalidades do método descritas acima, por exemplo, com referência à figura 2. O codificador 500 está associado aos mesmos recursos técnicos, objetivos e vantagens que as modalidades do método descrita previamente. O codificador pode ser configurado para ser conforme a um ou mais padrões para codificação de áudio. O codificador será descrito brevemente, no sentido de evitar repetição desnecessária.
[0046] O codificador pode ser implementado e/ou descrito conforme segue:
[0047] O codificador 500 é configurado para codificação de um sinal de áudio. O codificador 500 compreende conjunto de circuitos de processamento, ou meios de processamento 501 e uma interface de comunicação 502. O conjunto de circuitos de processamento 501 são configurados para fazer com que o codificador 500, para um segmento do sinal de áudio: identifique um conjunto de picos espectrais; determine uma distância média S entre picos no conjunto; e determine uma razão, PNR, entre um envelope de pico e um envelope de piso de ruído. O conjunto de circuitos de processamento 501 são adicionalmente configurados para fazer com que o codificador selecione um modo de codificação, além de uma pluralidade de modos de codificação, com base pelo menos na distância média S e na razão PNR; e aplique o modo de codificação selecionado. A interface de comunicação 502, que pode também ser denotada, por exemplo, como interface de Entrada/Saída (I/O), inclui uma interface para enviar dados para e receber dados de outras entidades ou módulos.
[0048] O conjunto de circuitos de processamento 501 poderiam, conforme ilustrado na figura 5b, compreender meios de processamento, tal como um processador 503, por exemplo, uma CPU, e uma memória 504 para armazenar ou manter instruções. A memória compreenderia então instruções, por exemplo, na forma de um programa de computador 505 que, quando executadas pelos meios de processamento 503 fazem com que o codificador 500 execute as ações descritas acima.
[0049] Uma implementação alternativa do conjunto de circuitos de processamento 501 é mostrada na figura 5c. O conjunto de circuitos de processamento compreendem uma unidade de identificação 506, configurada para identificar um conjunto de picos espectrais para/de um segmento do sinal de áudio. O conjunto de circuitos de processamento compreendem adicionalmente uma primeira unidade de determinação 507, configurada para fazer com que o codificador 500 determine uma distância média S entre picos no conjunto. O conjunto de circuitos de processamento compreendem adicionalmente uma segunda unidade de determinação 508 configurada para fazer com que o codificador determine uma razão, PNR, entre um envelope de pico e um envelope de piso de ruído. O conjunto de circuitos de processamento compreendem adicionalmente uma unidade de seleção 509, configurada para fazer com que o codificador selecione um modo de codificação, além de uma pluralidade de modos de codificação, com base pelo menos na distância média S e na razão PNR. O conjunto de circuitos de processamento compreendem adicionalmente uma unidade de codificação 510, configurada para fazer com que o codificador aplique o modo de codificação selecionado. O conjunto de circuitos de processamento 501 poderiam compreender mais unidades, tais como uma unidade de filtro configurada para fazer com que o codificador filtre o sinal de entrada. Esta tarefa, quando executada, poderia alternativamente ser executada por uma ou mais das outras unidades.
[0050] Os codificadores, ou codecs, descritos acima, poderiam ser configurados para as diferentes modalidades do método descritas neste documento, tais como usando diferentes limites para detectar picos. Pode ser suposto que o codificador 500 compreenda funcionalidade adicional para realizar funções de codificador regulares.
[0051] Exemplos de conjunto de circuitos de processamento incluem, porém não estão limitados a um ou mais microprocessadores, um ou mais Processadores de Sinal Digital (DSPs), uma ou mais Unidades de Processamento Central (CPUs), hardware de aceleração de vídeo e/ou qualquer conjunto de circuitos de lógica programável adequados tais como um ou mais Arranjos de Porta Programáveis em Campo (FPGAs) ou um ou mais Controladores Lógicos Programáveis (PLCs).
[0052] Deveria ser entendido que pode ser possível reutilizar as capacidades de processamento geral de qualquer dispositivo convencional ou unidade, na qual a tecnologia proposta é implementada. Pode também ser possível reutilizar software existente, por exemplo, reprogramando o software existente ou adicionando novos componentes de software.
Discriminador, figura 5d
[0053] A figura 5d mostra um exemplo de implementação de um discriminador, ou classificador, que poderia ser aplicado em um codificador ou decodificador. Conforme ilustrado na figura 5d, o discriminador descrito neste documento poderia ser implementado, por exemplo, por um ou mais de um processador e software adequado com armazenamento ou memória adequadas para isso, no sentido de executar a ação discriminatória do sinal de entrada, de acordo com as modalidades descritas neste documento. Na modalidade ilustrada na figura 5d, um sinal de entrada é recebido por uma entrada (IN) à qual o processador e a memória são conectados e a representação discriminatória de um sinal de áudio (parâmetros) obtida a partir do software é emitida na saída (OUT).
[0054] O discriminador poderia discriminar entre diferentes tipos de sinais de áudio, para um segmento de um sinal de áudio, identificar um conjunto de picos espectrais e determinar uma distância média S entre picos no conjunto. Adicionalmente, o discriminador poderia determinar uma razão PNR, entre um envelope de pico e um envelope de piso de ruído, e então determinar a qual classe de sinais de áudio, além de uma pluralidade de classes de sinal de áudio, o segmento pertence, com base pelo menos na distância média S e na razão PNR. Realizando este método, o discriminador habilita, por exemplo, uma seleção adequada de um método de codificação ou outro método relacionado de processamento de sinal para o sinal de áudio.
[0055] A tecnologia descrita acima pode ser usada, por exemplo, em um remetente, que pode ser usada em um dispositivo móvel (por exemplo, telefone móvel, laptop) ou um dispositivo estacionário, tal como um computador pessoal, conforme mencionado previamente.
[0056] Uma visão geral de um exemplo de discriminador de sinal de áudio pode ser vista na figura 6. A figura 6 mostra um diagrama em blocos esquemático de um codificador, com um discriminador, de acordo com um exemplo de modalidade. O discriminador compreende uma unidade de entrada configurada para receber um sinal de entrada representando um sinal de áudio a ser processado, uma unidade de Enquadramento, uma unidade de Pré-ênfase opcional, uma unidade de transformação de Frequência, uma unidade de análise de envelope de Pico/Ruído, uma unidade de seleção de candidato a Pico, uma unidade de refinamento de candidato a Pico, uma unidade de cálculo de Recurso, uma unidade de decisão de Classe, uma unidade de decisão de modo de Codificação, uma unidade de codificador Multimodo, uma Corrente de Bit/Armazenamento e uma unidade de saída para o sinal de áudio. Todas estas unidades poderiam ser implementadas em hardware. Há numerosas variações de elementos de conjunto de circuitos que podem ser usadas e combinadas para obter as funções das unidades do codificador. Tais variações são abrangidas pelas modalidades. Exemplos particulares de implementação de hardware do discriminador são implementação em hardware de processador de sinal digital (DSP) e tecnologia de circuito integrado, incluindo ambos o conjunto de circuitos eletrônicos de finalidade geral e o conjunto de circuitos específicos da aplicação.
[0057] Um discriminador de acordo com uma modalidade descrita neste documento poderia ser uma parte de um codificador, conforme descrito previamente, e um codificador de acordo com uma modalidade descrita neste documento poderia ser uma parte de um dispositivo ou um nó. Conforme mencionado previamente, a tecnologia descrita aqui pode ser usada, por exemplo, em um remetente, que pode ser usada em um dispositivo móvel, tal como um telefone móvel ou um laptop; ou em um dispositivo estacionário, tal como um computador pessoal.
[0058] Deve ser entendido que a escolha de unidades ou módulos interagindo, bem como a denominação das unidades são apenas para finalidade de exemplo, e podem ser configurados em uma pluralidade de maneiras alternativas, no sentido de ser capaz de executar as ações do processo descrito.
[0059] Deveria também ser observado que as unidades ou módulos descritos nesta descrição devem ser visualizados como entidades lógicas e não com necessidade de entidades físicas separadas. Será verificado que o escopo da tecnologia descrita neste documento abrange plenamente outras modalidades que podem se tornar óbvias aos versados na técnica, e que o escopo desta descrição é consequentemente para não ser limitado.
[0060] Referência a um elemento no singular não é destinada a significar "um e somente um" a menos que seja explicitamente assim declarado, mas ao invés disso "um ou mais". Todos equivalentes estruturais e funcionais para os elementos das modalidades acima descritas que são conhecidos daqueles versados na técnica são expressamente incorporados neste documento por referência e são destinados a serem abrangidos pela presente. Ainda mais, não é necessário que um dispositivo ou método equacione cada e todo problema visualizado para ser resolvido pela tecnologia descrita neste documento, para que este seja abrangido pela presente.
[0061] Na presente descrição, para fins de explicação e não limitação, detalhes específicos são relatados tais como arquiteturas, interfaces, técnicas particulares, etc., no sentido de fornecer um entendimento direto da tecnologia descrita. Entretanto, será aparente aos versados na técnica que a tecnologia descrita pode ser praticada em outras modalidades e/ou combinações de modalidades que se afastam destes detalhes específicos. Isto é, aqueles versados na técnica serão capazes de visualizar vários arranjos que, embora não descritos explicitamente ou mostrados neste documento, realizam os princípios da tecnologia descrita. Em algumas situações, descrições detalhadas de dispositivos, circuitos e métodos bem conhecidos são omitidas, de modo a não obscurecer a descrição da tecnologia descrita com detalhe desnecessário. Todas as declarações neste documento enumerando princípios, aspectos e modalidades da tecnologia descrita, bem como exemplos específicos desta, são destinados as abranger ambos equivalentes estruturais e funcionais desta. Adicionalmente, é pretendido que tais equivalentes incluam ambos equivalentes conhecidos atualmente bem como equivalentes desenvolvidos no futuro, por exemplo, quaisquer elementos desenvolvidos que executem a mesma função, independentemente da estrutura.
[0062] Assim, por exemplo, será verificado pelos versados na técnica que as figuras neste documento podem representar visualizações conceituais de conjunto de circuitos ilustrativos ou outras unidades funcionais realizando os princípios da tecnologia, e/ou vários processos que podem ser substancialmente representados no meio legível por computador e executados por um computador ou processador, embora tal computador ou processador possa não ser explicitamente mostrado nas figuras.
[0063] As funções dos vários elementos incluindo blocos funcionais podem ser fornecidas através do uso de hardware, tal como hardware de circuito e/ou hardware capaz de executar software na forma de instruções codificadas armazenadas em meio legível por computador. Então, tais funções e blocos funcionais ilustrados devem ser entendidos como sendo implementados em hardware e/ou implementados por computador, e então implementados em máquina.
[0064] As modalidades descritas acima devem ser entendidas como uns poucos exemplos ilustrativos da presente invenção. Será entendido pelos versados na técnica que várias modificações, combinações e alterações podem ser feitas nas modalidades, sem se afastar do escopo da presente invenção. Em particular, soluções de parte diferente, nas diferentes modalidades podem ser combinadas em outras configurações, onde possível tecnicamente. ABREVIAÇÕES DFT Transformada de Fourier Discreta FFT Transformada de Fourier Rápida MDCT Transformada de Cosseno Discreta Modificada PNR Razão de Pico para piso de ruído

Claims (15)

1. Método para codificar um sinal de áudio, o método caracterizado pelo fato de que compreende: para um segmento de um sinal de áudio: - identificar (201) um conjunto de picos espectrais; - determinar (202) uma distância média S entre picos no conjunto; - determinar (203) uma razão, PNR, entre uma energia de pico e uma energia de piso de ruído; - selecionar (204) um modo de codificação, dentre uma pluralidade de modos de codificação, com base em pelo menos na distância média S e na razão PNR; e - aplicar (205) o modo de codificação selecionado.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que, ao determinar S, cada pico é representado por um coeficiente espectral, o coeficiente espectral tendo a amplitude quadrática máxima dos coeficientes espectrais associados ao pico.
3. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a energia de piso de ruído é estimada com base em valores absolutos de coeficientes espectrais e um fator de ponderação enfatizando a contribuição de coeficientes de baixa energia se comparados a coeficientes de alta energia.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que a energia de pico é estimada com base em valores absolutos de coeficientes espectrais e um fator de ponderação enfatizando a contribuição de coeficientes de alta energia se comparados a coeficientes de baixa energia.
5. Método, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que picos espectrais são detectados em relação a um nível de energia de pico instantâneo multiplicado por um fator de escalamento fixo.
6. Codificador (500) para codificação de um sinal de áudio, o codificador caracterizado pelo fato de que é configurado para: para um segmento do sinal de áudio: - identificar um conjunto de picos espectrais; - determinar uma distância média S entre picos no conjunto; - determinar uma razão, PNR, entre uma energia de pico e uma energia de piso de ruído; - selecionar um modo de codificação dentre uma pluralidade de modos de codificação, com base pelo menos na distância média S e na razão PNR; e para - aplicar o modo de codificação selecionado.
7. Codificador, de acordo com a reivindicação 6, caracterizado pelo fato de que, ao determinar a distância média S, cada pico é representado por um coeficiente espectral, o coeficiente espectral tendo a amplitude quadrática máxima dos coeficientes espectrais associados ao pico.
8. Codificador, de acordo com a reivindicação 6 ou 7, caracterizado pelo fato de que é configurado para estimar a energia de piso de ruído com base em valores absolutos de coeficientes espectrais e um fator de ponderação enfatizando a contribuição de coeficientes de baixa energia se comparados a coeficientes de alta energia.
9. Codificador, de acordo com qualquer uma das reivindicações 6 a 8, caracterizado pelo fato de que é configurado para estimar a energia de pico com base em valores absolutos de coeficientes espectrais e um fator de ponderação enfatizando a contribuição de coeficientes de alta energia se comparados a coeficientes de baixa energia.
10. Codificador, de acordo com qualquer uma das reivindicações 6 a 9, caracterizado pelo fato de que é configurado para detectar picos espectrais em relação a um nível de energia de pico instantâneo multiplicado por um fator de escala fixo.
11. Método para discriminação de sinal de áudio, o método caracterizado pelo fato de que compreende: para um segmento de um sinal de áudio: - identificar um conjunto de picos espectrais; - determinar uma distância média S entre picos no conjunto; - determinar uma razão, PNR, entre uma energia de pico e uma energia de piso de ruído; - determinar a qual classe de sinais de áudio, dentre uma pluralidade de classes de sinal de áudio, o segmento pertence, com base pelo menos na distância média S e na razão PNR.
12. Discriminador de sinal de áudio, caracterizado pelo fato de que é configurado para: para um segmento de um sinal de áudio: - identificar um conjunto de picos espectrais; - determinar uma distância média S entre picos no conjunto; - determinar uma razão, PNR, entre uma energia de pico e uma energia de piso de ruído; - determinar a qual classe de sinais de áudio, dentre uma pluralidade de classes de sinal de áudio, o segmento pertence, com base pelo menos na distância média S e na razão PNR.
13. Dispositivo de comunicação, caracterizado pelo fato de que compreende um codificador como definido em qualquer uma das reivindicações 6 a 10.
14. Dispositivo de comunicação, caracterizado pelo fato de que compreende um discriminador de sinal, como definido na reivindicação 12.
15. Meio de armazenamento legível por computador, caracterizado pelo fato de que compreende instruções que, quando executadas em pelo menos um processador, fazem com que o pelo menos um processador execute o método como definido em qualquer uma das reivindicações 1 a 5 e o método como definido na reivindicação 11.
BR112016025850-9A 2014-05-08 2015-05-07 Métodos para codificar um sinal de áudio e para discriminação de sinal de áudio, codificador para codificação de um sinal de áudio, discriminador de sinal de áudio, dispositivo de comunicação, e, meio de armazenamento legível por computador BR112016025850B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461990354P 2014-05-08 2014-05-08
US61/990354 2014-05-08
PCT/SE2015/050503 WO2015171061A1 (en) 2014-05-08 2015-05-07 Audio signal discriminator and coder

Publications (2)

Publication Number Publication Date
BR112016025850A2 BR112016025850A2 (pt) 2017-08-15
BR112016025850B1 true BR112016025850B1 (pt) 2022-08-16

Family

ID=53200274

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016025850-9A BR112016025850B1 (pt) 2014-05-08 2015-05-07 Métodos para codificar um sinal de áudio e para discriminação de sinal de áudio, codificador para codificação de um sinal de áudio, discriminador de sinal de áudio, dispositivo de comunicação, e, meio de armazenamento legível por computador

Country Status (11)

Country Link
US (3) US9620138B2 (pt)
EP (3) EP3140831B1 (pt)
CN (3) CN110619892B (pt)
BR (1) BR112016025850B1 (pt)
DK (2) DK3140831T3 (pt)
ES (3) ES2874757T3 (pt)
HU (1) HUE046477T2 (pt)
MX (2) MX356883B (pt)
MY (1) MY182165A (pt)
PL (2) PL3594948T3 (pt)
WO (1) WO2015171061A1 (pt)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101782278B1 (ko) 2013-10-18 2017-10-23 텔레폰악티에볼라겟엘엠에릭슨(펍) 스펙트럼의 피크 위치의 코딩 및 디코딩
US9620138B2 (en) * 2014-05-08 2017-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Audio signal discriminator and coder
ES2838006T3 (es) * 2014-07-28 2021-07-01 Nippon Telegraph & Telephone Codificación de señal de sonido
CN110211580B (zh) * 2019-05-15 2021-07-16 海尔优家智能科技(北京)有限公司 多智能设备应答方法、装置、系统及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999062189A2 (en) * 1998-05-27 1999-12-02 Microsoft Corporation System and method for masking quantization noise of audio signals
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
KR100762596B1 (ko) * 2006-04-05 2007-10-01 삼성전자주식회사 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법
US20070282601A1 (en) * 2006-06-02 2007-12-06 Texas Instruments Inc. Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
JP5395066B2 (ja) * 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
KR101599875B1 (ko) * 2008-04-17 2016-03-14 삼성전자주식회사 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
PL2346030T3 (pl) * 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
EP2210944A1 (en) 2009-01-22 2010-07-28 ATG:biosynthetics GmbH Methods for generation of RNA and (poly)peptide libraries and their use
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
KR101754970B1 (ko) * 2010-01-12 2017-07-06 삼성전자주식회사 무선 통신 시스템의 채널 상태 측정 기준신호 처리 장치 및 방법
US9652999B2 (en) * 2010-04-29 2017-05-16 Educational Testing Service Computer-implemented systems and methods for estimating word accuracy for automatic speech recognition
EP2593937B1 (en) * 2010-07-16 2015-11-11 Telefonaktiebolaget LM Ericsson (publ) Audio encoder and decoder and methods for encoding and decoding an audio signal
RU2010152225A (ru) * 2010-12-20 2012-06-27 ЭлЭсАй Корпорейшн (US) Обнаружение музыки с использованием анализа спектральных пиков
CN102982804B (zh) * 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
CN102522082B (zh) * 2011-12-27 2013-07-10 重庆大学 一种公共场所异常声音的识别与定位方法
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
KR101733326B1 (ko) 2012-06-28 2017-05-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US9620138B2 (en) * 2014-05-08 2017-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Audio signal discriminator and coder
WO2015168925A1 (en) 2014-05-09 2015-11-12 Qualcomm Incorporated Restricted aperiodic csi measurement reporting in enhanced interference management and traffic adaptation
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法

Also Published As

Publication number Publication date
CN106463141B (zh) 2019-11-01
US20170178660A1 (en) 2017-06-22
EP3140831A1 (en) 2017-03-15
EP3379535B1 (en) 2019-09-18
ES2763280T3 (es) 2020-05-27
DK3379535T3 (da) 2019-12-16
BR112016025850A2 (pt) 2017-08-15
CN110619891B (zh) 2023-01-17
US9620138B2 (en) 2017-04-11
MX2018007257A (es) 2022-08-25
EP3594948B1 (en) 2021-03-03
EP3594948A1 (en) 2020-01-15
EP3140831B1 (en) 2018-07-11
HUE046477T2 (hu) 2020-03-30
CN106463141A (zh) 2017-02-22
WO2015171061A1 (en) 2015-11-12
US10242687B2 (en) 2019-03-26
PL3140831T3 (pl) 2018-12-31
CN110619891A (zh) 2019-12-27
EP3379535A1 (en) 2018-09-26
DK3140831T3 (en) 2018-10-15
CN110619892A (zh) 2019-12-27
MX356883B (es) 2018-06-19
CN110619892B (zh) 2023-04-11
US20160086615A1 (en) 2016-03-24
PL3594948T3 (pl) 2021-08-30
MX2016014534A (es) 2017-02-20
US20190198032A1 (en) 2019-06-27
ES2874757T3 (es) 2021-11-05
US10984812B2 (en) 2021-04-20
MY182165A (en) 2021-01-18
ES2690577T3 (es) 2018-11-21

Similar Documents

Publication Publication Date Title
US10984812B2 (en) Audio signal discriminator and coder
US9837095B2 (en) Audio signal classification and coding
BR112014017708B1 (pt) Método e aparelho para detectar atividade de voz na presença de ruído de fundo, e, memória legível por computador
WO2019001252A1 (zh) 时延估计方法及装置
CN106452627B (zh) 一种用于宽带频谱感知的噪声功率估计方法和装置
JP2020505813A (ja) 符号化方法及び符号化装置
CN113420688A (zh) 自适应人脸识别处理方法、装置、电子设备及存储介质
CN108599882B (zh) 一种基于自编码器的宽带频谱感知方法和装置
CN110858984B (zh) 一种确定目标用户的方法及装置
Treeumnuk et al. Energy detector with adaptive sensing window for improved spectrum utilization in dynamic cognitive radio systems
CN105187143A (zh) 一种基于二项分布的快速频谱感知方法和装置
Abbas et al. Enabling accurate indoor localization using a machine learning algorithm
Song et al. Voice Activity Detection Based on Generalized Normal-Laplace Distribution Incorporating Conditional MAP
US11710492B2 (en) Speech encoding using a pre-encoded database
Liu Traffic-Aware Spectrum Sharing Protocols
CN117612286A (zh) 一种楼堂馆所门禁管理系统及其控制方法
Zhang et al. Dynamic-Dual-Threshold Cooperative Spectrum Sensing Algorithm Based on DS Evidence Theory
CN117034188A (zh) 多模态特征对齐方法、模型训练方法及相关装置
CN117040661A (zh) 频域信号的信噪比测量方法、装置、电子设备及存储介质
Kopytov et al. Persistent Short Time Series Data Acquisition Algorithm for Wireless Smart Sensor Networks
CN117376972A (zh) 一种移动网络流量压抑的检测方法、装置、设备及介质
CN114257339A (zh) Pdcch盲检方法、装置、电子设备和存储介质
Wen et al. Deformation analysis of dam with the improved wavelet threshold

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 07/05/2015, OBSERVADAS AS CONDICOES LEGAIS