BRPI0607247B1 - método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüências de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado - Google Patents

método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüências de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado Download PDF

Info

Publication number
BRPI0607247B1
BRPI0607247B1 BRPI0607247-0A BRPI0607247A BRPI0607247B1 BR PI0607247 B1 BRPI0607247 B1 BR PI0607247B1 BR PI0607247 A BRPI0607247 A BR PI0607247A BR PI0607247 B1 BRPI0607247 B1 BR PI0607247B1
Authority
BR
Brazil
Prior art keywords
samples
signal
sample
frames
fact
Prior art date
Application number
BRPI0607247-0A
Other languages
English (en)
Inventor
Vang Andersen Soren
Original Assignee
Skype
Skype Ltd
Sonorit Aps
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=59285473&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0607247(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Skype, Skype Ltd, Sonorit Aps filed Critical Skype
Publication of BRPI0607247A2 publication Critical patent/BRPI0607247A2/pt
Publication of BRPI0607247B1 publication Critical patent/BRPI0607247B1/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Complex Calculations (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Communication Control (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Dc Digital Transmission (AREA)
  • Noise Elimination (AREA)
  • Superconductors And Manufacturing Methods Therefor (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüências de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado. um método para gerar uma seqúéncia de saída de amostras em resposta a um primeira e uma segunda subseqúências de amostra, o método incluindo: aplicar um procedimento de adição com superposição ponderada à primeira e segunda subseqtiências para gerar a seqúéncia de saída de amostras; otimizar uma função de ponderação envolvida no procedimento de adição com superposição ponderada em resposta a uma medida de casamento entre a seqúéncia de saída de amostras e uma ou mais seqúências visadas de amostras.

Description

A presente invenção relaciona-se a processamento de sinais. Mais particularmente, a presente invenção relaciona-se a um método, um dispositivo, e um arranjo que diminuem artefatos de sinal que surgem em adição com superposição ponderada de subseqüências de sinal. Aplicações incluem manipulações de sinal tal como supressão de ruído, intensificação, codificação, encobrimento e síntese. Como um exemplo, aplicações de fala e supressão de ruído de áudio, intensificação, codificação, encobrimento e síntese são melhoradas pela presente invenção. A presente invenção é aplicada vantajosamente com relação a sistemas para diminuir os efeitos de perda e/ou instabilidade de atraso e/ou desvio de relógio de pacotes de sinal em telecomunicações e sistemas de telecomunicação sem fios.
Fundamento da Invenção
A invenção é aqui motivada de sua aplicação em sistemas de telecomunicação, particularmente com relação a sua aplicação em diminuir os efeitos de perda e/ou instabilidade de atraso e/ou desvio de relógio de pacotes de sinal. Como será óbvio a uma pessoa qualificada na técnica de ler o resumo de invenção, concretizações preferidas, figuras, e reivindicações, a presente invenção tem aplicações vantajosas geralmente onde um procedimento de adição com superposição ponderada é aplicado no processamento digital de sinais.
Telecomunicações modernas são baseadas em transmissão digital de sinais. Por exemplo, na Figura 1, um transmissor 200 coleta um sinal de som de uma fonte 100. Esta fonte pode ser o resultado de uma ou mais pessoas falando e outras fontes de onda acústica coletadas por um microfone, ou pode ser um armazenamento de sinal de som ou sistema de geração tal como uma síntese de texto para fala ou sistema de diálogo. Se o 5 sinal de fonte for analógico, ele é convertido a uma representação digital por meio de um conversor analógico para digital. A representação digital é codificada subsequentemente e colocada em pacotes seguindo um formato adequado para o canal digital 300. Os pacotes são transmitidos através do canal digital. O canal digital tipicamente inclui múltiplas camadas de |0 abstração.
Na camada de abstração na Figura 1, o canal digital toma uma seqüência de pacotes como entrada e entrega uma seqüência de pacotes como saída. Devido a degradações no canal, tipicamente causadas em ruído, imperfeições, e sobrecarga no canal, a seqüência de pacote de saída é 15 tipicamente contaminada com perda de alguns dos pacotes e atraso de tempo de chegada e instabilidade de atraso para outros pacotes. Além disso, diferença em relógio do transmissor e do receptor pode resultar em desvio de relógio. É a tarefa do receptor 400 decodificar os pacotes de dados recebidos e converter as representações digitais decodificadas do fluxo de pacote e 20 decodificar isto em representações de sinal digitais e ademais converter estas representações em um sinal de som decodificado em um formato adequado para saída ao recebedor de sinal 500. Este recebedor de sinal pode ser uma ou mais pessoas que são apresentadas ao sinal de som decodificado, por exemplo, um ou mais alto-falantes. Altemativamente, o recebedor de sinal 25 pode ser um sistema de armazenamento de fala ou áudio ou uma sistema de diálogo de fala ou áudio ou reconhecedor.
É a tarefa do receptor reproduzir precisamente um sinal que pode ser apresentado ao recebedor. Quando a recebedor inclui diretamente ou indiretamente ouvintes humanos, um objetivo do receptor é obter uma representação do sinal de som que, quando apresentado aos ouv intes humanos, reproduz precisamente a impressão percebida humanamente e informação do sinal acústico da fonte ou fontes. Para assegurar esta tarefa no caso comum, onde o canal degrada a seqüência recebida de pacotes com perda, atraso, instabilidade de atraso, e desvio de relógio pode além disso estar presente, um encobrimento eficiente é necessário como parte do subsistema de receptor.
Como um exemplo, uma possível implementação de um subsistema de receptor para realizar esta tarefa é ilustrada na Figura 2. Como indicado nesta figura, pacotes entrantes são armazenados em uma memóna temporária de instabilidade 410, donde uma unidade de decodificação e encobrimento 420 adquire representações de sinal codificadas recebidas, e decodifica e encobre estas representações de sinal codificadas para obter representações de sinal adequadas para armazenamento em uma memória temporária de representação 430 e representação subseqüente. O controle de quando iniciar encobrimento e quais parâmetros específicos deste encobrimento, tal como comprimento do sinal encoberto, pode, como um exemplo, ser efetuado por uma unidade de controle 440, que monitora os conteúdos da memória temporária de instabilidade e da memória temporária de representação e controla a ação da unidade de decodificação e encobrimento 420.
Encobrimento também pode ser realizado como parte de um subsistema de canal. Figura 3 ilustra um exemplo de um subsistema de canal no qual pacotes são remetidos de um canal 310 para um canal 330 por um 25 subsistema 320, que nós para referência posterior chamamos a retransmissão.
Em sistemas práticos, a função de retransmissão pode ser realizada por unidades, que podem levar uma variedade de nomes dependentes de contexto, tais como tipos diversos de roteadores, servidores de procuração, servidores de borda, controladores de acesso de rede, controladores de rede de área local
ΟΥ sem fios, portais de Voz através de IP, portais de mídia, controladores de rede não licenciada, e outros nomes. No presente contexto, todos estes são exemplos de sistemas de retransmissão.
Um exemplo de um sistema de retransmissão que é capaz de fazer encobrimento de áudio é ilustrado na Figura 4. Como ilustrado nesta figura, pacotes são remetidos de uma memória temporária de entrada 310 para uma memória temporária de saída 360 por subsistemas de comutação de pacote 320 e 350. A unidade de controle 370 monitora as memórias temporárias de entrada e saída, e como resultado desta monitoração, toma decisões se 35 transcodificação e encobrimento são necessários. Se este for o caso, as chaves dirigem os pacotes pela unidade de transcodificação e encobrimento 330. Se este não for o caso, as chaves dirigem os pacotes pelo subsistema de ação de protocolo mínimo 340, que fará um mínimo de operações nos cabeçalhos de pacote para permanecer complacente com protocolos aplicados. Isto pode incluir etapas de alterar número de seqüência e marca de tempo dos pacotes.
Em transmissão de sinais de áudio usando sistemas exemplificados por, mas não limitado, as descrições anteriores, há a necessidade por encobrimento de perda, atraso, instabilidade de atraso, desvio 20 de relógio e/ou em sinais representativos, ou parcialmente representativos, do sinal de som.
Métodos de repetição de passo, às vezes concretizados no modelo de oscilador, são baseados em uma estimativa do período de passo em fala articulada, ou altemativamente na estimação da freqüência fundamental 25 correspondente do sinal de fala articulada. Dado o período de passo, um quadro de encobrimento é obtido por leitura repetida do último período de passo. Descontinuidades no princípio e fim do quadro de encobrimento e entre cada repetição do período de passo podem ser niveladas usando um procedimento de adição com superposição em janela. Veja Patente número
WO 0148736 e recomendação da União de Telecomunicações Internacional ITU-T G.711 Apêndice 1 para exemplos do método de repetição de passo. Sistemas da técnica anterior integram encobrimento baseado em repetição de passo com decodifícadores baseados no princípio de codificação preditiva linear. Nestes sistemas, a repetição de passo é tipicamente realizada no domínio de excitação preditiva linear por uma leitura do preditor de longo prazo ou malha de livro-código adaptável. Veja Patente número US5699481, recomendação da União de Telecomunicações Internacional ITU-T G.729, e Pedido Para Comentários 3951 da Força-tarefa de Engenharia da Internet para exemplos de encobrimento baseado em repetição de passo no domínio de excitação preditiva linear. Os métodos anteriores aplicam para encobrir uma perda ou um atraso crescente, isto é, uma instabilidade de atraso positiva, e situações sub-fluxo de entrada ou memória temporária de instabilidade ou perto de sub-fluxo, por exemplo devido a desvio de relógio. Para encobrir um atraso decrescente, uma instabilidade de atraso negativa, ou um transbordamento de memória temporária de entrada ou instabilidade ou perto de transbordamento, da geração de um sinal de encobrimento encurtado é precisada. Métodos baseados em passo realizam isto por um procedimento de adição com superposição entre um período de passo e um período de passo anterior. Veja Patente número WO 0148736 para um exemplo deste método. Novamente, isto pode ser realizado enquanto explorando instalações presentes em decodifícadores preditivos lineares. Como um exemplo, Patente número US5699481 expõe um método pelo qual vetores de contribuição de livrocódigo fixos são simplesmente descartados do sinal de reprodução, se confiando no estado do livro-código adaptável para assegurar periodicidade de passo no sinal reproduzido. Com relação a métodos de repetição de passo, um objetivo é uma continuação de sinal sem costura do quadro de encobrimento para o próximo quadro. Patente n° WO 0148736 expõe um método para alcançar este objetivo. Pela invenção exposta em WO 0148736, este objetivo é alcançado por meio de quadros de encobrimento de comprimento variado em tempo e possivelmente dependente de sinal. Enquanto isto pode assegurar eficazmente continuação de sinal sem costura com relação a encobrimento de instabilidade de atraso e desvio de relógio, esta solução introduz uma deficiência com relação a sistemas do tipo descrito na Figura 4: Seguindo este tipo de encobrimento, uma codificação do encobrimento em quadros de comprimento prefixado fixo que conecta sem costura com os quadros já codificadas que são retransmitidos preferivelmente pela ação de protocolo mínimo 340, não pode ser garantida.
Então, um objetivo importante é obter quadros de encobrimento de comprimento prefixado igual ao comprimento de quadros de sinal regulares. Um método de encobrimento com comprimento prefixado é realizar urna adição com superposição lisa entre amostras que ultrapassam o comprimento de quadro prefixado vezes o número de quadros de encobrimento com um subconjunto anexo de amostras do quadro seguindo os quadros de encobrimento. Este método é bem conhecido do estado da técnica e usado por exemplo na recomendação da União de Telecomunicações Internacional ITU-T G.711 Apêndice 1. Em princípio, este método também podería ser aplicado quando concatenando um quadro com outro quadro, onde os dois quadros se relacionam a quadros não consecutivos no sinal de áudio original. Assim, uma pessoa qualificada na técnica pode realizar isto obtendo um quadro de encobrimento como uma continuação do primeiro quadro e entrar com este quadro de encobrimento no procedimento de adição com superposição com o segundo quadro, por esse meio reduzindo parcialmente as descontinuidades que se originam no limite entre a última amostra do primeiro quadro e a primeira amostra do segundo quadro.
As soluções anteriores para estes cenários são problemáticas. Isto é por causa de, dependendo do aspecto de forma de onda atual dos dois ou mais sinais que entram neste procedimento de adição com superposição,
V) uma descontinuidade notável permanecerá no sinal de áudio resultante. Esta descontinuidade é observada pelo ouvinte humano como um batida ou um enfraquecimento no sinal.
No primeiro cenário, onde um ou mais quadros de encobrimento estão envolvidas, uma re-amostragem destes quadros de encobrimento foi proposta na literatura. Veja por exemplo Valenzuela and Animalu, A new voice-packet reconstruction technique, IEEE, 1989, para um tal método. Este método não provê uma solução quando o objetivo é concatenação de dois quadros existentes em lugar de concatenação com um quadro de encobrimento, ademais, para a concatenação de um quadro de encobrimento e um quadro seguinte, este método ainda é problemático. Isto é porque uma re-amostragem precisada para diminuir a descontinuidade como percebida por um ouvinte humano pode ao invés introduzir uma distorção de frequência significante, isto é, um deslocamento de frequência, que também é percebido pelo ouvinte humano como um artefato irritante.
Sumário da Invenção
A invenção exposta, ou melhor concretizações dela, diminuem efetivamente as limitações identificadas acima em soluções conhecidas, como também outras deficiências não especificadas nas soluções conhecidas, e soluções para problemas relacionados em outros sistemas para processamento digital de sinais. De acordo com a presente invenção, estes objetivos são alcançados por um método, um dispositivo de armazenamento de programa, e um arranjo todos dos quais são aspectos diferentes da presente invenção, tendo as características como definidas nas reivindicações anexas.
A invenção exposta provê técnicas para executar uma concatenação lisa de subseqüências de sinal usando uma adição com superposição ponderada entre subseqüências. Tipicamente, mas não sempre, estas subseqüências são semelhantes, mas não idênticas de acordo com uma medida pertinente de semelhança ou medida de distorção. Especificamente, comparando com métodos conhecidos de adição com superposição empregando uma dada função de janela de ponderação independente de sinal, a invenção exposta provê técnicas para concatenar quadros de sinal com dessemelhança inerente, com significativamente menos artefato perceptível do que é conhecido do estado da técnica. Por esse meio, a invenção exposta alivia uma limitação de sistemas do estado da técnica como qualidade percebida diretamente melhorada como um resultado.
As definições seguintes serão usadas ao longo da presente exposição. Por uma amostra é compreendida uma amostra que se origina de um sinal digitalizado ou de um sinal derivado dele ou coeficientes ou parâmetros representativos de tais sinais, estes coeficientes ou parâmetros sendo escalares ou vetor avaliado. Por um quadro é compreendido um conjunto de amostras consecutivas, usando a definição de amostra acima. Por subseqüência é compreendido um conjunto de uma ou mais amostras consecutivas, usando a definição anterior de amostra. No caso de uso de por exemplo adição com superposição, duas subseqüências consecutivas podem incluir amostras superpostas. Dependendo da escolha de quadros, uma subseqüência pode se estender entre dois quadros consecutivos.
Em um primeiro aspecto, a invenção provê um método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüência de amostras, o método incluindo:
aplicar um procedimento de adição com superposição ponderada à primeira e segunda subseqüências de modo a gerar a seqüência de saída de amostras;
otimizar uma função de ponderação envolvida no procedimento de adição com superposição ponderada em resposta a uma medida de casamento entre a seqüência de saída de amostras e uma ou mais seqüências visadas de amostras.
A função de ponderação pode ser otimizada em resposta a
duas ou três seqüências visadas de amostras.
Preferivelmente, a otimização inclui ajustar pelo menos uma função de ponderação envolvida no procedimento de adição com superposição ponderada, tal como ajustar duas ou três funções de ponderação envolvidas no procedimento de adição com superposição ponderada.
A pelo menos uma função de ponderação envolvida no procedimento de adição com superposição ponderada pode ser representada por um conjunto de parâmetros. O conjunto de parâmetros pode ser baseado em uma decomposição de uma forma temporal de pelo menos uma função de ponderação em uma combinação linear de formas de janela básicas. O conjunto de parâmetros pode ser baseado em uma decomposição de uma forma temporal de pelo menos uma função de ponderação em uma combinação linear de duas ou três formas de janela básicas. Geração fora do conjunto de parâmetros pode incluir aplicar pelo menos pelo menos uma linha de atraso com derivações a pelo menos uma da primeira e segunda subseqüências de amostras. Geração do conjunto de parâmetros pode incluir aplicar duas linhas de atraso com derivações à primeira e segunda subseqüências de amostras. Geração do conjunto de parâmetros pode incluir aplicar três linhas de atraso com derivações.
Uma função de ponderação envolvida no procedimento de adição com superposição ponderada pode ser modificada em resposta a uma medida de distância entre a seqüência de saída de amostras e a pelo menos uma seqüência visada de amostras. Tal medida de distância pode ser baseada em um erro ao quadrado somado, tal como um erro ao quadrado somado ponderado. A medida de distância pode ser minimizada de acordo com um procedimento de mínimos quadrados, tal como um procedimento de mínimos quadrados ponderados.
As amostras da primeira e segunda subseqüências representam amostras de áudio digitalizadas, tal como um sinal de áudio incluindo fala.
Uma da primeira e segunda subseqüências de amostras pode
ser uma seqüência de amostras de encobrimento.
Assim, a presente invenção provê um método de aplicar procedimento de adição com superposição ponderada para concatenar duas ou mais subseqüências de sinal. As funções de ponderação na adição com superposição são otimizadas em resposta a uma medida de distorção entre a saída do procedimento de adição com superposição e uma ou mais subseqüências visadas. As subseqüências visadas constituem aproximações da saída desejada, ou parcialmente desejada, do procedimento de adição com superposição. Vantajosamente, a medida de distorção pesa estes objetivos. As funções de ponderação na presente invenção são funções gerais com respostas de freqüência e/ou tempo plano ou não plano. Uma concretização simples da presente invenção constitui uma ponderação escalar otimizada de uma forma de janela predefmida tal como otimizar semelhança entre a saída do procedimento de adição com superposição e um sinal visado. Concretizações mais avançadas vantajosamente introduzem mais sinais visados e ademais parametrizações vantajosas das funções de ponderação. Tais parametrizações vantajosas incluem a aplicação de uma ponderação escalar em mais de uma função de ponderação; inclui a decomposição de uma ou mais funções de ponderação em uma combinação linear de formas de janela básicas; e/ou inclui uma linha de atraso com derivações em uma ou mais das funções de ponderação. Vantajosamente, uma medida de erro ao quadrado somado ou erro ao quadrado somado ponderado é minimizada na otimização, e vantajosamente um método de mínimos quadrados ou mínimos quadrados 25 ponderados é aplicado para esta minimização.
Em um segundo aspecto, a invenção provê um código de programa executável por computador adaptado para executar o método de acordo com o primeiro aspecto. Tal código de programa pode ser escrito em uma forma dependente de máquina ou independente de máquina e em qualquer linguagem de programação tal como código de máquina ou linguagem de programação de nível mais alto.
Em um terceiro aspecto, a invenção provê um dispositivo de armazenamento de programa incluindo uma seqüência de instruções para um microprocessador, tal como um microprocessador de propósito geral, para executar o método do primeiro aspecto. 0 dispositivo de armazenamento pode ser qualquer tipo de meio de armazenamento de dados tais como discos, cartões de memória ou hastes de memória, discos rígidos, etc.
Em um quarto aspecto, a invenção provê um arranjo, por exemplo um dispositivo ou aparelho, para receber um sinal de áudio digitalizado, o arranjo incluindo:
meio de memória para armazenar as amostras representativas de um sinal de áudio digitalizado recebido; e meio de processador para executar o método do primeiro aspecto.
Implementando esta invenção com meios adequados, tais como os descritos para as concretizações preferidas abaixo, habilita um sistema de processo de sinal concatenar eficientemente subseqüências semelhantes, mas não idênticas diminuindo artefatos conhecidos da adição com superposição ponderada do estado da técnica. Por esse meio, nossa invenção habilita entre outras coisas, comunicação de áudio bidirecional de alta qualidade em situações com desvio de relógio severo, perda de canal e/ou instabilidade de atraso.
Breve Descrição dos Desenhos
No seguinte, a invenção é descrita em mais detalhes com referência às figuras acompanhantes, das quais:
Figura 1 é um diagrama de bloco ilustrando um sistema de transmissão de som comutado por pacote de ponta a ponta conhecido sujeito aos efeitos de perda, atraso, instabilidade de atraso e/ou desvio de relógio;
Figura 2 é um subsistema de receptor exemplar realizando memorização de instabilidade, decodificação e encobrimento e memorização de representação sob o controle de uma unidade de controle;
Figura 3 é um diagrama de bloco ilustrando um subsistema de retransmissão de um canal comutado por pacote, sujeito aos efeitos de desvio de relógio, perda, atraso e instabilidade de atraso;
Figura 4 é um subsistema de retransmissão exemplar realizando memorização de entrada, memorização de saída, e quando necessário, transcodificação e encobrimento sob o controle de uma unidade de controle;
Figura 5 é um diagrama de bloco ilustrando um conjunto de concretizações preferidas da presente invenção;
Figura 5A é um esboço ilustrativo de subseqüências em quadros de encobrimento começando com subseqüências sendo baseadas nas últimas subseqüências de memória temporária em ordem de tempo inversa;
Figura 5B ilustra outro exemplo de uma seqüência maior de subseqüências em quadros de encobrimento começando com as últimas duas subseqüências de memória temporária em ordem de tempo inversa, e onde subseqüências consecutivas são baseadas em subseqüências de memória temporária ademais atrás em tempo;
Figura 5C ilustra os índices de contagem de amostra em um padrão de indexação formatado por recuos e comprimentos de leitura;
Figura 6 é um esboço ilustrativo de sinais envolvidos na função de indexação e interpelação;
Figura 7 é um fluxograma ilustrando um possível modo para implementar uma lógica de decisão para critérios de parada;
Figura 8 é um fluxograma ilustrando um possível modo para realizar uma otimização associada iterativa de nivelamento e equalização, critérios de parada e o número de repetições permitidas;
Figura 9 ilustra o uso de deslocamento circular e adição com superposição com relação a iniciar e alimentar um filtro de ajuste de fase; e
Figura 10 ilustra uma concretização do procedimento de adição com superposição ponderada.
Enquanto a invenção é suscetível a várias modificações e formas alternativas, concretizações específicas foram mostradas por meio de exemplo nos desenhos e serão descritas em detalhes aqui. Deveria ser entendido, porém, que a invenção não é pretendida ser limitada às formas particulares expostas. Em lugar disso, a invenção é para cobrir todas as |0 modificações, equivalentes e alternativas caindo dentro do espírito e extensão da invenção como definida pelas reivindicações anexas.
Descrição das Concretizações Preferidas
No seguinte, a invenção é descrita em combinação com geração de quadros de encobrimento. Porém, como será entendido da 15 extensão das reivindicações, o método de concatenação inventivo tem uma gama de aplicações muito mais ampla que isso.
O método inventivo é ativado na unidade de decodificação e encobrimento 420 de um receptor tal como o na Figura 2 ou é ativado na unidade de transcodificação e encobrimento 330 de uma retransmissão tal 20 como a na Figura 4 ou em qualquer outro local em um sistema de comunicação onde sua ação é adequada. Nestes locais, vários quadros de sinal de memória temporária estão disponíveis e vários quadros de encobrimento são queridos. Os quadros de sinal disponíveis e quadros de encobrimento queridos podem consistir em amostras de domínio de tempo de um sinal de 25 áudio, por exemplo um sinal de fala, ou elas podem consistir em amostras derivas disso, tais como amostras de excitação de predição linear, ou elas podem consistir em outros coeficientes derivados do sinal de áudio e representativos completamente ou parcialmente de quadros de sinal de som. Exemplos de tais coeficientes são coeficientes de domínio de freqüência, coeficientes de modelo senoidal, coeficientes de codificação preditiva linear, coeficientes de interpolação de forma de onda, e outros conjuntos de coeficientes que são representativos completamente ou parcialmente das amostras de sinal de áudio.
Figura 5 ilustra uma concretização preferida da invenção. Seguindo a Figura 5, os quadros de sinal 595 disponíveis, que podem ser recebidos e decodificados ou quadros de sinal transcodificados ou quadros de encobrimento de operação anterior disto ou outros métodos para gerar quadros de encobrimento ou uma combinação dos supracitados tipos de quadros de sinal, são armazenados em uma memória temporária de quadro 600. O sinal no memória temporária de quadro é analisado por um gerador de padrão de índice 660. O gerador de padrão de índice pode vantajosamente fazer uso de estimativas de passo de sinal 596 e articulação 597. Dependendo do projeto de sistema global, estas estimativas podem estar disponíveis para entrada de outros processos tal como um processo de codificação, decodificação ou transcodificação ou eles são calculados por outros meios usando preferivelmente métodos do estado da técnica para análise de sinal. Além disso, o gerador de padrão de índice toma como entrada o número 598 de quadros de sinal de encobrimento para gerar e ponteiros 599 para o começo e fim dos quadros de sinal particulares na memória temporária de quadro que o quadro ou quadros de encobrimento são para substituição. Como um exemplo, se estas memórias temporárias apontarem para o fim da memória temporária de quadro, então isto significa que o quadro ou quadros de encobrimento deveríam ser feitos adequados para seguir o smal armazenado no memória temporária de quadro. Como outro exemplo, se estes ponteiros mostrarem um subconjunto não vazio de quadros consecutivos na memória temporária de quadro, então isto significa que o quadro ou quadros de encobrimento deveríam ser feitos para substituir estes quadros na seqüência de quadro representativa ou parcialmente representativa do smal de
Α som.
Para ilustrar isto ademais, assuma que a memória temporária de quadro 600 contém quadros de sinal A, B, C, D, E, e que o número de quadros de encobrimento 598 é dois. Então, se os ponteiros paro quadros para substituir 599 pontos ao fim da memória temporária de quadro, isto significa que dois quadros de sinal de encobrimento deveriam ser feitos seguirem em seqüência depois de quadro de sinal E. Reciprocamente, se os ponteiros 599 mostrarem quadros de sinal B, C, D, os dois quadros de encobrimento deveriam ser feitos substituir os quadros de sinal B, C, D e seguirem em seqüência depois de quadro de sinal A e serem seguidos em seqüência por quadro de sinal E.
Métodos interessados para determinar o número de quadros de encobrimento 598 e o subconjunto de quadros que os quadros de encobrimento deveriam substituir eventualmente, isto é, os ponteiros 599, métodos do estado da técnica deveriam ser usados preferivelmente. Assim, os dados 596, 597, 598, e 599 junto com os quadros de sinal 595 constituem entradas para o dispositivo de método e arranjo da presente invenção.
Em certos projetos de sistema global, o comprimento ou dimensão de um quadro de sinal de som mantido vantajosamente como uma constante durante a execução da unidade de encobrimento. Entre outros cenários, este é tipicamente o caso quando a unidade de encobrimento é integrada em um sistema de retransmissão, onde o resultado do encobrimento deveria ser posto em pacotes representativos de sinal de som dentro de um intervalo de tempo de comprimento prefixado, este comprimento prefixado sendo determinado em outro lugar. Como um exemplo, este comprimento prefixado pode ser determinado durante as negociações de protocolo durante uma chamada estabelecida em um sistema de Voz através de IP, e pode ser alterado durante a conversação em resposta a por exemplo mecanismos de controle de congestão de rede. Algumas concretizações da presente invenção, como ficará claro mais tarde, satisfazem este requisito de trabalhar com um comprimento prefixado de um quadro de sinal de um modo vantajoso. Porém, a inovação como tal não está limitada a estes requisitos de sistema, outras concretizações da presente inovação podem trabalhar com encobrimentos que 5 são um número não inteiro de quadros, e quadros de encobrimento que têm comprimentos variados em tempo, e onde estes comprimentos podem ser funções do conteúdo específico na memória temporária de quadro, possivelmente em combinação com outros fatores.
Concretizações da presente invenção podem vantajosamente jLO fazer uso de uma operação de nivelamento e equalizaçào 610 operando no sinal 605 da memória temporária de quadro. Este nivelamento e equahzação gera um sinal 615, em que quadros mais cedo em tempo que o quadro ou quadros de encobrimento têm uma semelhança aumentada com o quadro ou quadros de sinal que o quadro ou quadros de encobrimento substituem ou um 15 quadro imediatamente antes disso. Altemativamente, se o quadro ou quadros de encobrimento forem inseridos em seqüência com os quadros existentes sem substituição, semelhança é com o quadro ou quadros imediatamente antes da posição planejada do quadro ou quadros de encobrimento. Para referência posterior, nós simplesmente chamamos ambos estes casos como semelhança. 20 Semelhança é como interpretado por um ouvinte humano. O nivelamento e equalizaçào obtém um sinal com semelhança aumentada, enquanto ao mesmo tempo preservando uma evolução naturalmente sonora do sinal 615. Exemplos de operações crescentes de semelhança que são executadas vantajosamente pelo nivelamento e equalizaçào 610 incluem suavidade 25 aumentada e semelhança em parâmetros tais como envelope de energia, contorno de passo, grau de articulação, corte de articulação e envelope espectral, e outros parâmetros perceptivamente importantes.
Relativo a cada um destes parâmetros, transientes abruptos em evolução do parâmetro dentro dos quadros a serem nivelados e equalizados são filtrados fora e o nível médio do parâmetro nestes quadros é modificado suavemente para se tomar mais semelhante no significado de semelhança definido acima. Vantajosamente, semelhança só é introduzida a uma extensão que ainda preserva uma evolução naturalmente sonora do sinal. Sob o 5 controle do gerador de padrão de índice 660, o nivelamento e equalização podem vantajosamente diminuir transientes e descontinuidades que podem caso contrário ocorrer na operação de indexação e interpolação 620 seguinte. Além disso, o nivelamento e equalização de contorno de passo pode ser vantajosamente controlados pelo gerador de padrão de índice 660 de tal modo 10 a minimizar a distorção que é introduzida eventualmente caso contrário nos quadros de encobrimento mais tarde pelo filtro de fase 650. A operação de nivelamento e equalização pode vantajosamente fazer uso de sinal ou substituição de parâmetro, mistura, interpolação e/ou fusão com quadros de sinal (ou parâmetros derivados dele) achados ademais atrás em tempo na 15 memória temporária de quadro 600. A operação de nivelamento e equalização
610 pode ser omitida do sistema sem desviar da extensão geral da presente invenção. Neste caso, o sinal 615 iguala ao sinal 605 e a entrada de sinal 656 e saída de controle 665 do gerador de padrão de índice 660 podem nesse caso ser omitidas do projeto de sistema.
A operação de indexação e interpolação 620 toma como entrada, possivelmente nivelado e equalizado, o sinal 615, e um padrão de índice 666. Além disso, em algumas concretizações vantajosas da presente invenção, a operação de indexação e interpolação leva um indicador de qualidade de casamento 667 como entrada. O indicador de qualidade de 25 casamento pode ser um valor escalar por instante de tempo ou pode ser uma função de ambos tempo e freqüência. O propósito do indicador de qualidade de casamento se tomará aparente mais tarde nesta descrição. O padrão de índice 666 parametriza a operação da função de indexação e interpolação.
Figura 5A ilustra um exemplo de como um padrão de índice pode indexar subseqüências nas amostras de memória temporária, BS1, BS2, BS3. BS4. gradualmente para trás em tempo na síntese de um ou mais quadros de encobrimento. No exemplo mostrado, subseqüências consecutivas CS1, CS2, CS3, CS4, CS5, CS6, CS7 nos quadros de encobrimento CF1, CF2, CF3 são baseadas em subseqüências de memória temporária BS1, BS2, BS3 e BS4 de amostras em quadros BF1, BF2. Como visto, as subseqüências de encobrimento CS1-CS7 são indexadas das subseqüências de memória temporária BS1-BS4 com um ponteiro de localização que se move gradualmente para trás e então gradualmente adiante em tempo como expresso pela notação funcional CS1(BS4), CS2(BS3), CS3(BS2), significando que CS1 é baseado em BS4, e assim por diante. Assim, Figura 5A serve como um exemplo de ilustrar como subseqüências consecutivas em quadros de encobrimento podem seguir uma a outra, baseado em subseqüências de memória temporária consecutivas, mas reordenadas em tempo. Como visto, as primeiras quatro subseqüências de encobrimento CS1(BS4), CS2(BS3), CS3(BS2) e CS4(BS1) são escolhidas para serem baseadas nas últimas quatro subseqüências de amostras de memória temporária BS1, BS2, BS3, BS4, em ordem consecutiva, mas em ordem de tempo inversa, assim começando com a ultima subseqüencia de memória temporária BS1. Depois das primeiras quatro subseqüências em ordem de tempo inversa, três subseqüências CS5, CS6, CS7 seguem que são todas baseadas em subseqüências de memória temporária consecutivas em ordem de tempo, isto é BS2, BS3 e BS4, respectivamente. O padrão de índice preferido é um resultado do gerador de padrão de índice 660 e pode variar grandemente com entradas 656, 596, 597, 598 e 599 para este bloco. Figura 5B dá, seguindo a notação da Figura 5A, outro exemplo ilustrativo de como subseqüências de encobrimento CS 1-CS 11 podem ser baseadas em subseqüências de memória temporária BS1-BS4 que reordenação em tempo. Como visto, subseqüências de encobrimento posteriores são baseadas gradualmente em subseqüências de memória temporária ademais atrás em tempo. Por exemplo, as primeiras duas subseqüências de encobrimento consecutivas CS1 e CS2 são baseadas nas últimas duas subseqüências de memória temporária BS3, BS4, em ordem de tempo inversa, enquanto uma 5 subseqüência encobrimento posterior por exemplo, CS10 é baseada em BS1, isto é, uma subseqüência de memória temporária ademais atrás em tempo que aquelas usadas para calcular CS1 e CS2. Assim, Figura 5B serve para ilustrar que subseqüências de encobrimento consecutivas são baseadas em subseqüências de memória temporária indexadas adiante e para trás em tempo 10 de uma maneira de forma que a indexação evolua gradualmente para trás em tempo.
Em concretizações vantajosas da presente invenção, esta evolução gradual para trás em tempo é formalizada como uma seqüência do que nós para o propósito desta descrição chamamos recuos e uma seqüência do que nós para 15 o propósito desta descrição chamamos comprimentos de leitura. Em concretizações simples deste formato do padrão de índice, um ponteiro para sinalizar amostras, ou parâmetros ou coeficientes representativos disso, é movido para trás por uma quantidade igual a um primeiro recuo depois do qual, uma quantidade de amostras, ou parâmetros ou coeficientes 20 representativos disso, são inseridos no quadro de encobrimento, esta quantidade sendo igual a um primeiro comprimento de leitura. Depois disso, o ponteiro é movido para trás com uma quantidade igual a um segundo recuo e uma quantidade de amostras, ou parâmetros ou coeficientes representativos disso, igual a um segundo comprimento de leitura é lido, e assim 25 sucessivamente.
Figura 5C ilustra um exemplo deste processo reordenando uma primeira enumeração de amostras indexadas. Esta primeira enumeração é listada no eixo de tempo de sinal enquanto a lista de enumeração no eixo de tempo de encobrimento da Figura 5C corresponde à reordenação das amostras originais como elas são colocadas no quadro de encobrimento. Para este exemplo ilustrativo, o primeiro, segundo e terceiro recuos eram escolhidos arbitranamente como 5, 6, 5, respectivamente, e o primeiro, segundo e terceiro comprimentos de leitura eram escolhidos igualmente arbitrariamente 5 como 3, 4, 3, respectivamente. Neste exemplo, as subseqüências com conjuntos de índice de tempo {6,7,8}, {3,4,5,6} e {2,3,4}, respectivamente, são subseqüências que evoluem gradualmente para trás em tempo. As seqüências de recuos e comprimentos de leitura são escolhidas aqui puramente para o propósito de ilustração. Com amostras de fala residuais jLO amostradas a 16 kHz como um exemplo, valores típicos de recuos estão na faixa de 40 a 240, mas não estão limitados a esta faixa, e valores típicos para os comprimentos de leitura estão na faixa de 5 a 1000 amostras, mas não estão limitados a esta faixa. Em concretizações mais avançadas deste formato, a transição de uma seqüência dirigida adiante (por exemplo, tempo original ou 15 uma subseqüência indexada atrás em tempo) para outra seqüência dirigida adiante, um recuo ademais em tempo, é feita gradualmente por uma interpolação gradualmente deslocada.
Figura 6 ilustra a operação de uma concretização simples da função de indexação e interpolação em resposta a um recuo e um 20 comprimento de leitura correspondente e indicador de qualidade de casamento. Só para o propósito de ilustração, quadros de sinal consistem aqui em amostras de áudio de domínio de tempo. A interpolação gradualmente deslocada se aplica na definição geral de amostra usada nesta descrição, isto é, incluindo coeficientes escalares ou vetor avaliado ou parâmetros 25 representativos das amostras de áudio de domínio de tempo, de uma maneira semelhante e por esse meio direta. Nesta figura, 700 ilustra um segmento do sinal 615. O ponteiro 705 é o instante de tempo de amostra seguindo o instante de tempo de amostra da última amostra gerada no sinal de saída de indexação e interpolação 625. O intervalo de tempo 750 tem um comprimento >10 igual ao comprimento de leitura. O intervalo de tempo 770 também tem um comprimento igual ao comprimento de leitura. O intervalo de tempo 760 tem um comprimento igual ao recuo. As amostras de sinal em 700 a partir de tempo 705 e comprimento de leitura adiante em tempo são um por um multiplicados com uma função de janela 720. Também as amostras de sinal em 700 começando em um local uma amostra depois de recuo antes do local 706 e amostras de comprimento de leitura à frente de lá são multiplicadas uma por uma com uma função de janela 710. As amostras resultantes de multiplicação com janela 710 e com janela 720 são adicionadas uma por uma 730 para resultar nas amostras 740 que constituem um novo lote de amostras para a saída 625 da operação de indexação e interpolação. Na conclusão desta operação, o ponteiro 705 se move para o local 706.
Em concretizações simples da presente invenção, as funções de janela 710 e 720 são funções simples do comprimento de leitura 750. Uma tal função simples é escolher a janela 710 e a janela 720 como a primeira e segunda metades, respectivamente, de uma janela de Hanning de comprimento duas vezes o comprimento de leitura. Enquanto uma ampla gama de funções pode ser escolhida aqui, observe que para tais funções serem significantes no contexto da presente invenção, elas devem realizar uma interpolação ponderada entre as amostras no segmento indicado por 750 e as amostras indicadas por 770 de tal modo que nós gradualmente, mas não necessariamente monotonicamente, movamos de um peso alto no segmento indicado por 750 a um peso alto no segmento indicado por 770.
Em outras concretizações da presente invenção, as funções de janela 710 e 720 são funções do indicador de qualidade de casamento. Um exemplo simples de uma tal função é que, dependendo de um limiar em correlação normalizada nos segmentos do sinal 700 indicado por intervalos de tempo 750 e 770, uma operação de interpolação é escolhida para tanto somar a unidade em amplitudes ou em potências. Outro exemplo de tal função evita o constrangimento para englobar amplitudes ou potências a um, mas ao invés só otimiza pesos de janela como uma função da medida de casamento. Refinamento adicional deste método toma o valor real da correlação normalizada e otimiza a operação de interpolação em resposta a ele, por 5 exemplo usando métodos de estimação linear clássicos. Porém, exemplos de métodos preferidos são descritos no seguinte. Nestes exemplos, o limiar, respectivamente o valor atual de correlação normalizada dá exemplos de informação vantajosa levada pelo indicador de qualidade de casamento 667. De acordo com concretizações preferidas descritas no seguinte, a operação de 10 interpolação pode ser feita para implementar ponderações diferentes a freqüências diferentes. Neste caso, o indicador de qualidade de casamento 667 pode vantajosamente fazer medições de casamento como uma função de freqüência. Em concretizações vantajosas, esta ponderação como uma função de freqüência é implementada como uma linha de atraso com derivações ou 15 outra forma de filtro paramétrico que pode ser otimizado para maximizar o critério de casamento.
Na Figura 6, uma ilustração é dada da operação de indexação e interpolação quando o sinal 615 (e portanto o segmento de sinal 700) contém amostras que são representativas de amostras de domínio de tempo de um 20 sinal de som ou de um sinal de domínio de tempo derivado dele. Como mencionado acima, amostras em quadros 595, e por esse meio em sinais 605 e 615, podem ser vantajosamente tais que cada amostra seja um vetor (amostras avaliadas de vetor) onde um tal vetor contém coeficientes ou parâmetros que são representativos ou parcialmente representativos do sinal de som.
Exemplos de tais coeficientes são freqüências espectrais de linha, coeficientes de domínio de freqüência, ou coeficientes definindo um modelo de sinal senoidal, tais como conjuntos de amplitudes, freqüências e fases. Com uma base nesta descrição detalhada de concretizações preferidas da presente invenção, o projeto de operações de interpolação que são aplicadas ιΙΟ vantajosamente a amostras avaliadas de vetor é possível a uma pessoa qualificada na técnica, como os detalhes restantes podem ser achados descritos na literatura geral para cada um dos casos específicos de tais amostras avaliadas de vetor.
É vantajoso para a compreensão da presente invenção observar que quando a operação de indexação e interpolação é aplicada repetidamente com um comprimento de leitura que é menor do que o recuo, então o resultado será que as amostras no sinal 625 se tomam representativas de amostras de sinal que são gradualmente adicionais e ademais de volta no sinal 615. Quando então o recuo ou comprimento de leitura é mudado tal que o comprimento de leitura fique maior que o recuo, então este processo virará e amostras no sinal 625 agora se tomam representativas de amostras de sinal que são gradualmente cada vez mais adiante no sinal 615. Por escolha vantajosa da seqüência de recuos e da seqüência de comprimentos de leitura, um sinal de encobrimento longo com variação rica e natural pode ser obtido sem pedir amostras à frente em tempo do quadro de sinal recebido mais recente na memória temporária de quadro 600 ou até mesmo sem pedir amostras à frente de outro instante de tempo prefixado, que pode ser localizado mais cedo que a amostra mais recente no quadro recebido mais recente na memória temporária de quadro 600. Por esse meio, encobrimento de picos de atraso em um sistema com representação de baixo atraso ou programação de memória temporária de saída se toma possível com a presente invenção. Na formulação da presente descrição, a evolução temporal retrógrada simples rígida do sinal, que pode ser útil para pensar de como um elemento em uma concretização simples da presente invenção, é realizada por uso repetido de um comprimento de leitura de uma amostra, um recuo de duas amostras e uma janela 720 incluindo uma única amostra de valor 0 e uma janela 710 incluindo uma única amostra de valor 1,0.
O objetivo primário do gerador de padrão de índice 660 é .Ι\ controlar a ação da operação de indexação e interpolação 620. Em um conjunto de concretizações preferidas, este controle é formalizado dentro e padrão de indexação 666, que pode consistir em uma seqüência de recuos e uma seqüência de comprimentos de leitura. Este controle pode ser aumentado 5 ademais com uma seqüência de indicações de qualidade de casamento, que por sua vez podem ser funções por exemplo de freqüência. Uma característica adicional, que pode ser saída do gerador de padrão de índice, e qual uso se tomará claro mais tarde nesta descrição é uma contagem de repetição 668. O significado de contagem de repetição é o número de vezes que uma evolução 10 recuada em tempo é iniciada na construção do quadro ou quadros de encobrimento. O gerador de padrão de índice obtém estas seqüências de uma base em informação, que pode incluir o sinal nivelado e equalizado 656 saído da operação de nivelamento e equalização 610; uma estimativa de passo 596, uma estimativa de articulação 597, um número 598 de quadros de 15 encobrimento para gerar e ponteiros 599 para os quadros a substituir. Em uma concretização do gerador de padrão de índice, ele entrará em modos diferentes dependendo do indicador de articulação. Tais modos são exemplificados abaixo.
Como um exemplo vantajosamente usado no domínio de 70 excitação preditiva linear, se o indicador de articulação indicar robustamente que o sinal é fala não articulada ou que nenhuma fala ativa está presente no sinal, isto é, o sinal consiste em ruído de fundo, o gerador de padrão de índice pode entrar em um modo no qual uma reversão simples da evolução temporal das amostras de sinal é iniciada. Como descrito anteriormente, isto pode ser 25 realizado por exemplo submetendo uma seqüência de valores de recuo igual a dois e uma seqüência de valores de comprimento de leitura igual a um (esta descrição é baseada na escolha de projeto que a própria operação de indexação e interpolação identificará estes valores e aplicará a função de janela adequada como descrito acima). Em alguns casos, esta seqüência pode continuar até que uma evolução temporal inversa do sinal tenha sido implementada para metade do número de amostras novas precisadas no quadro ou quadros de encobrimento, depois do que, os valores na seqüência de recuo podem mudar a 0, por meio de que uma evolução temporal dianteira 5 do sinal é começada, e continuar até que o ponteiro 706 esteja efetivamente atrás no ponto de partida para o ponteiro 705 na primeira aplicação do recuo. Porém, este procedimento simples não será sempre suficiente paro quadros de encobrimento de alta qualidade. Uma tarefa importante do gerador de padrão de índice é a monitoração de critérios de parada adequados. No exemplo IO anterior, a evolução temporal inversa pode retomar o ponteiro 706 a uma posição no sinal a qual o som, como interpretado por um ouvinte humano, é significativamente diferente do ponto de partida. Antes que isto ocorra, a evolução temporal deveria ser virada.
Concretizações preferidas da presente invenção podem aplicar 15 um conjunto de critérios de parada baseado em um conjunto de medidas. O seguinte exemplifica algumas destas medidas e critérios de parada. Se a articulação indicar que o sinal no ponteiro 706 é articulado, então no exemplo anterior começando de não articulada, a direção de evolução temporal pode ser virada vantajosamente, também se a energia de sinal em uma área ao redor 20 ao ponteiro 706 for diferente (como determinado por um limiar absoluto ou relativo) da energia de sinal no ponto de partida para o ponteiro 705, a direção de evolução temporal pode ser vantajosamente virada. Como um terceiro exemplo, a diferença espectral entre uma região ao redor do ponto de partida para o ponteiro 705 e a posição atual do ponteiro 706 podem exceder um 25 limiar e a direção de evolução temporal deveria ser virada.
Um segundo exemplo de um modo pode ser evocado quando o sinal não pode ser determinado robustamente como não articulado ou não contendo nenhuma fala ativa. Neste modo, a estimativa de passo 596 constitui uma base para determinar o padrão de índice. Um procedimento para fazer isto é que cada recuo seja pesquisado para dar uma correlação normalizada maximizada entre o sinal de ponteiro 705 e um ciclo de passo à frente em tempo e o sinal de um ponto que está recuado mais cedo que o ponteiro 705 e um ciclo de passo à frente. A pesquisa para valores potenciais de recuo pode 5 ser vantajosamente constrangida a uma região. Esta região pode ser fixada vantajosamente a mais ou menos 10 por cento ao redor do recuo previamente achado ou o atraso de passo se nenhum recuo foi achado. Uma vez que o recuo foi determinado, o valor de comprimento de leitura determinará se a evolução de sinal temporal deveria evoluir para trás ou adiante em tempo, e J 0 quão rápida esta evolução deveria acontecer. Uma evolução lenta é obtida por uma escolha de comprimento de leitura perto do valor identificado de recuo. Uma evolução rápida é obtida por uma escolha de comprimento de leitura que é muito menor ou muito maior que o recuo no caso de evolução para trás e adiante, respectivamente. Um objetivo do gerador de padrão de índice é 15 selecionar o comprimento de leitura para otimizar a qualidade de som como interpretado por um ouvinte humano. Selecionar o comprimento de leitura perto demais ao recuo pode em alguns sinais, tais como sinais que não são suficientemente periódicos, resultar em artefatos perceptivamente irritantes tais como sons de corda. Selecionar o comprimento de leitura longe demais 20 do recuo, implica que um intervalo de tempo maior na memória temporária de quadro é varrido finalmente durante a evolução temporal do quadro ou quadros de encobrimento, altemativamente que a direção de evolução temporal tem que ser virada mais vezes antes que a quantidade suficiente de amostras para o quadro ou quadros de encobrimento tenha sido gerada.
O primeiro caso pode em alguns sinais, tais como sinais que não são suficientemente estacionários (altemativamente não suficientemente lisos e equalizados), resultar em um tipo de artefatos perceptivamente irritantes que têm certa semelhança com um gaguejar no som do quadro ou quadros de encobrimento. No segundo caso, artefatos como som de corda podem ocorrer. Uma característica de concretizações vantajosas da presente invenção é que o comprimento de leitura pode ser determinado como uma função do recuo e da correlação normalizada, que é otimizada na pesquisa para o recuo ótimo. Uma escolha simples, contudo vantajosa, desta função em 5 concretizações da presente invenção trabalhando em sinais de fala e quando quadros de sinal contém 20 ms de sinal de excitação preditiva linear amostrada a 16 kHz, é como um exemplo dada pela função seguinte:
ReadLength = [(0,2 + NormalizedCorrelation/3) * StepBack]
Onde colchetes [] são usados para indicar arredondamento ao (10 inteiro mais próximo e onde símbolos ReadLength, NormalizedCorrelation, e StepBack são usados para denotar o comprimento de leitura que a correlação normalizada obteve para o recuo ótimo e o recuo correspondente, respectivamente. A função anterior só está incluída como um exemplo para levar uma escolha vantajosa em algumas concretizações da presente invenção. 15 Qualquer escolha de comprimento de leitura incluindo qualquer relação funcional para obter este comprimento de leitura é possível sem desviar do espírito da presente invenção. Em particular, métodos vantajosos para selecionar o comprimento de leitura incluem o uso de controle 665 para parametrizar a operação de nivelamento e equalização 610 tal como alcançar ^0 uma minimização associada de artefatos como gaguejar e como som de corda em um quadro de encobrimento intermediário 625. Isto explica por que o gerador de padrão de índice 660 toma o sinal intermediário 656 como entrada em lugar da saída 615 da operação de nivelamento e equalização: o sinal 656 representa versões potenciais do sinal final 615 sob o controle 665, e habilita 25 o gerador de padrão de índice a aproximar a tarefa de otimização por meio de repetições. Como é o caso para o modo de fala não articulada e não ativo acima, os critérios de parada são essenciais neste modo também. Todos os exemplos de critérios de parada postos adiante no modo acima se aplicam a este modo igualmente. Adicionalmente, neste modo, critérios de parada de •θ ο
medir no passo e correlação normalizada pode fazer vantajosamente parte de concretizações da presente invenção.
Figura 7 ilustra, como um exemplo, uma lógica de decisão vantajosa para uma combinação de critérios de parada. Na Figura 7, os sinais de referência indicam o seguinte:
800: Identifique se o sinal é tipo de alta correlação, tipo de baixa correlação ou nenhum destes. Determine o nível de energia inicial;
801: Determine próximo recuo e correlação normalizada e comprimento de leitura;
802: Determine se o sinal entrou em tipo de baixa correlação;
803: Determine se o sinal entrou em tipo de alta correlação;
804: Sinal é de tipo de alta correlação?;
805: Sinal é de tipo de baixa correlação?;
806: Energia está abaixo de limiar mínimo relativo ou acima de limiar máximo relativo?;
807: Correlação está normalizada abaixo de limiar para tipo de alta correlação?;
808: Correlação está normalizada acima de limiar para tipo de baixa correlação?;
809: Amostras suficientes foram geradas?
No caso de operação no domínio de excitação preditiva linear de fala amostrada a 16 kHz, os limiares tratados na Figura 7 podem ser escolhidos vantajosamente como segue: tipo de alta correlação pode ser entrado quando uma correlação normalizada maior que 0,8 é encontrada; um limiar para permanecer em tipo de alta correlação pode ser fixado a 0,5 em correlação normalizada; tipo de baixa correlação pode ser entrado quando uma correlação normalizada mais baixa que 0,5 é encontrada; um limiar para permanecer em tipo de baixa correlação pode ser fixado a 0,8 em correlação normalizada; uma energia relativa mínima pode ser fixada a 0,3; e uma φΐΟ ™20 energia relativa máxima pode ser fixada a 3,0. Além disso, outras lógicas podem ser usadas e outros critérios de parada podem ser usados no contexto da presente invenção sem desviar do espírito e extensão da presente invenção.
A aplicação de critérios de parada significa que uma única evolução, para trás em tempo até qualquer amostra suficiente, é gerada ou um critério de parada é cumprido e então adiante em tempo novamente, não é garantido dar o número precisado de amostras para as quadros de encobrimento. Portanto, mais evoluções, para trás e adiante em tempo, podem ser aplicadas pelo gerador de padrão de índice. Porém, evoluções demais atrás e adiante podem em alguns sinais criar artefatos como som de corda. Portanto, concretizações preferíveis da presente invenção podem otimizar juntamente os critérios de parada, a função aplicada em cálculo dos comprimentos de leitura, o controle de nivelamento e equalização 665, e o número de evoluções atrás e adiante, isto é, a contagem de repetição 668, e se habilitado pelos ponteiros aos quadros a substituir 599, também o número de amostras que nós evoluímos adiante em tempo antes que cada evolução para trás em tempo seja iniciada. Para este fim, a operação de nivelamento e equalização também pode ser controlada vantajosamente de modo a modificar ligeiramente o contorno de passo do sinal. Além disso, a otimização associada pode levar em conta a operação do filtro de fase 650, e fazer mudanças leves ao contorno de passo tal como resultar em um padrão de índice que minimize a distorção introduzida no filtro de fase juntamente com os outros parâmetros mencionados acima. Com uma base na descrição de concretizações preferidas para a presente invenção, uma pessoa qualificada na técnica entende que uma variedade de ferramentas de otimização geral se aplica a esta tarefa, estas ferramentas incluem otimização iterativa, processos de decisão de Markov, métodos de Viterbi e outros. Qualquer de quais é aplicável a esta tarefa sem desviar da extensão da presente invenção.
Figura 8 ilustra por meio de um gráfico de fluxo um exemplo de um procedimento iterativo para realizar uma otimização simples, contudo eficiente, destes parâmetros. Na Figura 8, os sinais de referência indicam o seguinte:
820: Inicie controles para nivelamento e equalizaçào 665;
821: Obtenha novo sinal liso 656;
822: Inicie critérios de parada;
823: Inicie o número permitido de repetições:
824: Identifique o padrão de índice para uma seqüência de evoluções atrás e adiante distribuída uniformemente através dos quadros 10 disponíveis indicados por ponteiros 599 ou se apontando para fim de quadros disponíveis, evoluções para trás seguindo diretamente depois de evoluções adiante;
825: A quantidade de amostras é suficiente para o número de quadros de encobrimento 598 gerados?;
826: O número máximo de repetições é alcançado?;
827: Aumente o número de repetições;
828: O limiar mais frouxo é para critérios de parada alcançados?;
829: Afrouxe os limiares para critérios de parada;
830: Mude controles para aumentar o impacto de nivelamento e equalizaçào.
Note que uma evolução para trás e adiante em tempo e uma evolução seguinte para trás e adiante em tempo, no caso que sinal suficiente não tinha sido sintetizado na evolução ou evoluções prévias para trás e adiante 25 em tempo, pode diferir vantajosamente. Como exemplos, as seqüências recuos, comprimentos de leitura, e funções de interpolação, e também o ponteiro de localização de fim depois de evolução para trás e adiante em tempo deveria ser idealizado tal a minimizar artefatos de periodicidade que caso contrário resultam de uma repetição de padrões de índice semelhantes.
Com amostras de domínio residual de fala articulada a 16 kHz como um exemplo, uma evolução para trás e adiante em tempo, gerando aproximadamente, digamos, 320 amostras, pode terminar preferivelmente aproximadamente 100 amostras ademais atrás no sinal que uma evolução 5 anterior para trás e adiante em tempo.
As concretizações expostas até este ponto diminuem eficazmente os problemas de sons de corda artificialmente soando conhecidos de métodos da técnica anterior, enquanto ao mesmo tempo habilitam encobrimento eficiente de picos de instabilidade de atraso abruptos e perdas ^0 de pacote repetidas ocorrendo abruptamente. Porém, em condições de rede adversas, como encontradas por exemplo em alguns sistemas sem fios e redes ad hoc sem fios e redes de melhor esforço e outros cenários de transmissão, ate mesmo o método exposto pode em alguns casos introduzir componentes leves de tonalidade nos quadros de encobrimento. Uma operação de mistura 15 de ruído secundária 630 e 640 um filtro de atenuação suave portanto podem ser aplicados vantajosamente em algumas concretizações da presente invenção. As técnicas gerais de mistura de ruído e atenuação são bem conhecidas a uma pessoa qualificada na técnica. Isto inclui o uso vantajoso de evolução temporal dependente de ffeqüência da potência do componente de 20 ruído e evolução temporal dependente de ffeqüência da função de atenuação.
Uma característica específica ao uso de mistura de ruído e atenuação no contexto da presente invenção é o uso explícito do padrão de índice 666, a medida de qualidade de casamento 667 e/ou a contagem de repetição 668 para parametrização adaptável das operações de mistura e atenuação de ruído.
Especificamente, o padrão de indexação indexa onde amostras de sinal inalteradas são colocadas no quadro de encobrimento e onde as amostras do quadro de encobrimento resultam de uma operação de interpolação. Além disso, a relação de recuo relativo a comprimento de leitura em combinação com a medida de qualidade de casamento são indicativos da qualidade perceptiva resultando da operação de mterpolação. Assim, pouco ou nenhum ruído pode ser misturado vantajosamente nas amostras originais, mais ruído pode ser misturado vantajosamente nas amostras que resultam de um processo de interpelação e a quantidade de ruído misturada nestas amostras pode ser vantajosamente uma função da medida de qualidade de casamento, vantajosamente de uma maneira diferenciada em freqüência. Além disso, o valor do comprimento de leitura relativo ao recuo também é indicativo da quantidade de periodicidade que pode ocorrer, a mistura de ruído pode vantajosamente incluir esta medida na determinação de quantidade de ruído a misturar no sinal de encobrimento. O mesmo princípio se aplica à atenuação; uma atenuação suave é vantajosamente usada, mas menos atenuação pode ser introduzida para amostras que são representativas de amostras de sinal originais e mais atenuação pode ser introduzida para amostras que resultam da operação de interpolação. Além disso, a quantidade de atenuação nestas amostras pode ser vantajosamente uma função da indicação de qualidade de casamento e vantajosamente de uma maneira diferenciada em freqüência. Novamente, o valor do comprimento de leitura relativo ao recuo é indicativo da quantidade de periodicidade que pode ocorrer; a operação de atenuação pode vantajosamente incluir esta medida no projeto da atenuação.
Como tratado no fundo para a presente invenção, um objetivo importante de um subconjunto de concretizações da presente invenção obtém quadros de encobrimento de comprimento prefixado igual ao comprimento de quadros de sinal regulares. Quando isto é querido de uma perspectiva de sistema, os meios para este fim podem ser vantajosamente um filtro de fase 650. Uma operação computacionalmente simples, aproximada mas freqüentemente suficiente deste bloco é realizar suma adição com superposição lisa entre amostras que ultrapassam o comprimento de quadro prefixado vezes o número de quadros de encobrimento com um subconjunto de amostras do quadro seguindo os quadros de encobrimento. Visto isolado, φο
este método é bem conhecido do estado da técnica e usado poi exemplo na recomendação da União de Telecomunicações Internacional ITU-T G.711 Apêndice 1. Quando prático de uma perspectiva de sistema, o procedimento simples de adição com superposição ponderada pode ser melhorado por uma multiplicação de quadros subseqüentes com -1 sempre que isto aumentar a correlação na região de adição com superposição. Porém, outros métodos podem ser usados vantajosamente, por exemplo na transição entre quadros de sinal falado, para diminuir ademais o efeito de descontinuidades nos limites de quadro. Um tal método é uma re-amostragem dos quadros de encobrimento. Visto como um método isolado, isto também é bem conhecido do estado da técnica. Veja por exemplo, Valenzuela e Animalu, A new voice-packet reconstruction technique, IEEE, 1989. Assim, diminuir descontinuidades em limites de quadro pode ser executado por uma pessoa qualificada na técnica. Porém, em concretizações preferidas da invenção expostas com isto, a re-amostragem pode ser vantajosamente continuada nos quadros seguido o último quadro de encobrimento. Por este meio, o declive de mudança temporal e assim o deslocamento de freqüência, que é uma conseqüência da técnica de re-amostragem, pode ser feito imperceptível quando interpretado por um ouvinte humano. Ademais, em lugar de reamostragem, o uso de filtros passa-todas variados em tempo para diminuir descontinuidades em limites de quadro é exposto com a presente invenção. Uma concretização disto, é como dada pela equação de filtro:
H_L(z,t) = (alpha_l(t) + alpha_2(t)*zA(-L))/(alpha_2(t) + alphaj (t) * zA(-L))
A função de qual é explicada como segue. Suponha que uma varredura de um atraso de L amostras para uma atraso de 0 amostras é querida através de um intervalo de varredura, que pode incluir todas ou parte das amostras em todos ou parte dos quadros de encobrimento; e em quadros antes dos quadros de encobrimento; e em quadros depois dos quadros de encobrimento. Então, no princípio do intervalo de varredura, alpha_l(t) é
fixado a zero e alpha_2(t) é fixado a 1,0 de modo a implementar um atraso de L amostras. Quando a varredura através de t começa, alpha_l(t) deveria aumentar gradualmente para 0,5 e alpha_2(t) deveria diminuir gradualmente para 0,5. Quando, no fim do intervalo de varredura alpha_l(t) iguala alpha_2(t), o filtro H_L(z,t) introduz um atraso de zero. Reciprocamente, se uma varredura de um atraso de zero amostras a um atraso de L amostras for querida através de um intervalo de varredura, que pode incluir todas ou parte das amostras em todos ou parte dos quadros de encobrimento; e em quadros antes dos quadros de encobrimento; e em quadros depois dos quadros de encobrimento. Então, no princípio do intervalo de varredura, alpha_l(t) é fixado a 0,5 e alpha_2(t) é fixado a 0,5 de modo a implementar um atraso de 0 amostras. Quando a varredura através de t começa, alpha_l(t) deveria diminuir gradualmente para 0 e alpha_2(t) deveria aumentar gradualmente para 1,0. Quando, no fim do intervalo de varredura alpha_l(t) iguala 0 e alpha_2(t) iguala 1,0, o filtro H_L(z,t) introduz um atraso de L amostras.
A filtragem anterior é computacionalmente simples, porém tem uma resposta de fase não linear. Por razões perceptivas, esta fase não linear limita seu uso a L relativamente pequeno. Vantajosamente, L < 10 para fala a uma taxa de amostra de 16 kHz. Um método para realizar a filtragem para valores maiores de L inicial é iniciar vários filtros para valores de L menores que englobam o valor de L total desejado, estes vários filtros podem ser iniciados vantajosamente a instantes diferentes de tempo e varrer sua gama de alfa através de intervalos diferentes de tempo. Um outro método para aumentar a gama de L no qual este filtro é aplicável, é exposto no seguinte. Uma estrutura que implementa um mesma funcionalmente de filtragem como a anterior é dividir o sinal em L polifases e conduzir a seguinte filtragem em cada uma destas polifases:
H_l(z,t) = (alpha_l(t) + alpha_2(t)*zA(-l))/(alpha_2(t) + alphaj(t) * zA(-1))
Pela presente invenção, a filtragem polifásica é implementada vantajosamente por uso de sobre-amostragem. Um modo para fazer isto vantajosamente é sobre-amostrar cada polifase com um fator K e conduzir a filtragem H_l(z,t) K vezes em cada polifase sobre-amostrada antes de subamostragem com um fator K e reconstrução do sinal modificado em fase das 5 polifases. O fator K pode ser escolhido vantajosamente como K=2. Pelo procedimento de sobre-amostragem, uma resposta de fase, que é mais perto de linear, é obtida. Por este meio, a qualidade percebida como interpretada por um ouvinte humano é melhorada.
O ajuste de fase descrito acima através de múltiplos quadros é aplicável quando quadros de encobrimento são inseridos em uma seqüência de quadros recebidas sem perda. Também é aplicável quando quadros são retirados da seqüência de sinal a fim de reduzir atraso de reprodução de quadros subseqüentes. E é aplicável quando quadros são perdidos e zero ou mais quadros de encobrimento são inseridos entre os quadros recebidos antes 15 e os quadros recebidos depois da perda. Nestes casos, um método vantajoso para adquirir o sinal de entrada para este filtro e achar a atraso L é como segue:
1) Nos quadros mais cedo em tempo que o ponto de descontinuidade, um método de encobrimento, o exposto com isto ou qualquer outro, é continuado ou iniciado.
2) nos quadros mais tarde em tempo que a descontinuidade várias amostras L_test são inseridas no começo de quadro por um método de encobrimento, o exposto com isto ou qualquer outro, mas com uma indexação invertida das amostras de tempo.
3) Uma medida casamento, tal como correlação normalizada, é aplicada entre o quadro ou quadros de encobrimento de 1) e o quadro ou quadros de 2) incluindo as amostras L_test de cabeçalho.
4) O L_test que maximiza a medida de casamento é selecionado como L.
5) Ο quadro ou quadros de encobrimento de 2) e o quadro ou quadros de 3) sào agora somados usando juntos um procedimento de adição com superposição ponderada. Enquanto esta adição com superposição ponderada pode ser executada como conhecido por uma pessoa qualificada na técnica, pode ser preferivelmente otimizada como exposto mais tarde nesta descrição;
6) O quadro ou quadros resultantes são usados como entrada à filtragem de adaptação de fase descrita acima, iniciada com o determinado valor L. Se L for maior que um limiar, então vários filtros são iniciados e coeficiente varrido em instantes de tempo diferentes e intervalos de tempo, com seus valores L englobando o determinado valor L.
Vantajosamente, em fala ou resíduo de fala amostrada a 8 ou 16 kHz, o limiar anterior pode ser escolhido a um valor na gama de 5 a 50. Ademais vantajosamente, em fala articulada ou resíduo de fala articulada, as amostras de encobrimento L_test e sua continuação no quadro seguinte são obtidas por deslocamento circular das amostras do primeiro período de passo do quadro. Por esse meio, uma medida de correlação sem normalização, correlatando o período de passo completo, pode ser usada vantajosamente como medida de casamento para achar o deslocamento circular preferido L.
Figura 9 ilustra uma concretização de tal método. Nesta figura, o ajuste de fase cria uma transição lisa entre um quadro de sinal 900 e os quadros seguintes. Isto é realizado como segue: Do quadro de sinal 900 e quadros anteriores, um sinal de encobrimento 910 é gerado. Este sinal de encobrimento pode ser gerado usando os métodos expostos com isso, ou usando outros métodos que são bem conhecidos do estado da técnica. O sinal de encobrimento é multiplicado com uma janela 920 e somado 925 com outra janela 930, que é multiplicada com um sinal gerado como segue: Um sinal de encobrimento 940 é gerado, de amostras seguintes 950 e possivelmente 960, aplicando efetivamente um método de encobrimento tal como o exposto com isso, ou usando outros métodos que são bem conhecidos do estado da técnica, e concatenados com as amostras seguintes 950. O número de amostras no encobrimento 940 é otimizado tal como a maximizar o casamento entre o encobrimento 910 e a concatenação de 940 e as amostras seguintes 950.
Vantajosamente, correlação normalizada pode ser usada como uma medida deste casamento. Ademais, para reduzir complexidade de computacional, o casamento pode para fala articulada ou resíduo de fala articulada ser limitado para incluir um período de passo. Neste caso, as amostras de encobrimento podem 940 ser obtidas como uma primeira parte de um deslocamento circular de um período de passo, e a medida de correlação através de período de passo agora não precisa ser normalizada. Por este meio, computações para cálculo do fator de normalização são evitadas. Como para a operação de indexação e interpolação descrita anteriormente nesta descrição detalhada de concretizações preferidas, as janelas vantajosamente podem ser novamente uma função de um indicador de qualidade de casamento e/ou uma função de ffeqüência e vantajosamente implementada como uma linha de atraso com derivações. A operação do filtro 970 é como segue. As primeiras amostras L resultando do procedimento de adição com superposição são passadas diretamente a sua saída, e usadas para estabelecer o estado inicial do filtro. Depois disso, os coeficientes de filtro são iniciados como descrito acima, e como o filtro filtra de amostra L+l e remete estes coeficientes são ajustados gradualmente, tal como para remover gradualmente de atraso, como exposto acima.
Novamente, no procedimento descrito acima, otimizar os pesos das janelas de acordo com maximizar casamento, como descrito acima, se aplica, e também a generalização das funções de janela a pesos dependentes de ffeqüência e a filtros casados na forma de linhas de atraso com derivações ou outras formas de filtro paramétrico. Em concretizações vantajosas, a evolução temporal do peso de as
L amostras método de critério de filtro dependente de frequência é obtida por uma seqüência de três seqüências de adição com superposição, primeiro desvanece o quadro ou quadros de encobrimento anteriores, segundo amplia uma versão filtrada destes com um filtro tal como para casar os quadros de encobrimento obtidos tempo indexado 5 inverso, então desvanece isto novamente, terceiro amplia o quadro ou quadros mais tarde em tempo. Em outro conjunto de concretizações vantajosas, a evolução temporal do peso de filtro dependente de freqüência é obtida por uma seqüência de quatro seqüências de adição com superposição, primeiro desvanece o quadro ou quadros de encobrimento de quadros anteriores, 10 segundo amplia uma versão filtrada destes com um filtro tal como a casar os quadros de encobrimento de quadros posteriores obtidos em tempo indexado inverso, então desvanece isto novamente, terceiro amplia uma versão filtrada dos quadros mais tarde em tempo, tal como para ademais melhorar este casamento, e desvanece isso novamente, e quarto finalmente amplia o quadro 15 ou quadros mais tarde em tempo. Concretizações vantajosas adicionais de métodos de adição com superposição ponderada são expostas mais tarde nesta descrição.
Relativo à operação de nivelamento e equalização 610 em concretizações onde amostras de domínio residuais são usadas como uma 20 parte da informação representativa para o sinal de fala, nivelamento e equalização podem ser aplicados vantajosamente neste sinal residual usando filtragem adaptada de passo, tal como um filtro de pente ou um filtro de entalhe periódico. Além disso, filtragem de Wiener ou Kalman com um filtro de correlação de longo prazo mais ruído como um modelo para o resíduo não 25 filtrado podem ser aplicados vantajosamente. Neste modo de aplicar o filtro de Wiener ou Kalman, a variância do ruído no modelo se aplica para ajustar a quantidade de nivelamento e equalização. Isto é um uso algo contra-intuitivo, como este componente é tradicionalmente em teoria de filtragem de Wiener e Kalman aplicado para modelar a existência de um componente de ruído como feitos estão indesejado. Quando aplicado na presente inovação, o propósito é fixar o nível de nivelamento e equalizaçào. Como uma alternativa a filtragem de pente adaptada de passo ou de entalhe e filtragem do tipo de Wiener ou Kalman, um terceiro método é vantajosamente aplicado para nivelamento e equalizaçào de sinais residuais no contexto da presente inovação. Por este terceiro método, tanto amplitudes de amostra, como vantajosamente aplicadas por exemplo para fala não articulada, ou vetores consecutivos de amostras, vantajosamente aplicados, por exemplo, para fala articulada, são similares crescentemente. Possíveis procedimentos para realizar isto esboçados abaixo para vetores de fala articulada e amostras de fala não articulada, respectivamente.
Para fala articulada, amostras consecutivas de fala ou resíduo são juntados em vetores com várias amostras em cada vetor igual a um período de passo. Para conveniência de descrição, nós aqui denotamos este vetor como v(k). Agora, o método obtém um vetor de resto r(k) como um componente de v(k) que não pôde por algum meio ser achado em vetores circunvizinhos v(k-Ll), v(k-Ll+l),..., v(k-l) e v(k+l), v(k+2),..., v(k+L2). Para conveniência de descrição, o componente achado em vetores circunvizinhos é denotado a(k). O de vetor de resto r(k) é manipulado subseqüentemente de alguma maneira linear ou não linear de modo a reduzir sua audibilidade, enquanto preservando naturalidade do vetor reconstruído resultante, que é obtido re-inserindo o componente a(k) na versão manipulada de r(k).
Isto conduz à versão nivelada e equalizado de fala articulada ou fala residual articulada. Uma concretização simples do princípio descrito acima, usando para conveniência notação de matriz de vetor e para simplicidade de exemplo, a noção de combinação linear e mínimos quadrados para definir a(k) é dada abaixo. Isto serve somente como um exemplo de uma única concretização simples do princípio geral anterior para nivelamento e equalização.
Para o propósito deste exemplo, deixe a matriz M(k) ser definida como:
M(k) “ [v(k-Ll) v(k-LHl).... v(k-l) v(k+l) v(k+2).... V(k+L2)]
De qual a(k) pode ser calculado por exemplo como a estimativa de mínimos quadrados de v(k) dado M(k):
a(k) = M(k) inv(trans(M(k)) M(k)) v(k), onde 'inv ()' denota inversão de matriz ou pseudo-inversão e 'trans ()' denota transposição de matriz. Agora, o resto r(k) pode ser calculado por exemplo por subtração.
r(k) - v(k) - a(k)
Um exemplo de manipular r(k) é cortando picos fora neste vetor, por exemplo, tal como a limitar o valor absoluto máximo de uma amostra a um nível igual à amplitude máxima do vetor r(k) mais perto do ponto de partida do procedimento de encobrimento retrógrado-dianteiro, ou a algum fator vezes a amplitude da amostra na mesma posição em vetor, mas no vetor mais perto do ponto de partida do procedimento de encobrimento retrógrado-dianteiro. O resto manipulado rm(k) é combinado subseqüentemente com o vetor a(k) para reconstruir a versão equalizada de v(k), para conveniência aqui denotada por ve(k). Esta combinação pode como um exemplo ser realizada por adição simples:
ve(k) ~ alpha*rm(k) + a(k)
O parâmetro alfa neste exemplo pode ser fixado a 1,0 ou pode ser selecionado vantajosamente para ser menor que 1,0, uma escolha vantajosa para alfa é 0,8.
Para fala não articulada, outro método de equalização e nivelamento pode ser usado com vantagem. Um exemplo de nivelamento e equalização para fala não articulada calcula uma adaptação polinomial a
amplitudes de smal residual em domínio iogarítmico. Como um exemplo, um polinòmio de segunda ordem e em domínio de logm pode ser usado. Depois de converter a adaptação polinomial de domínio Iogarítmico de volta para domínio linear, a curva de adaptação é normalizada vantajosamente a 1,0 no ponto que corresponde ao ponto de partida para o procedimento retrógradodianteiro. Subseqüentemente, a curva de adaptação é limitada inferior, por exemplo, a 0,5, onde depois as amplitudes do sinal residual podem ser divididas com a curva de adaptação tal como para equalizar suavemente fora as variações em amplitude do sinal residual não articulado.
Relativo a procedimentos de adição com superposição ponderada, algumas, mas não todas as aplicações de quais são expostas mais cedo nesta descrição, isto é, a operação de indexação e interpolação 620 e o método para iniciar o sinal de entrada para a filtragem de ajuste de fase 970, procedimentos podem ser executados como conhecido por uma pessoa qualificada na técnica. Porém, em concretizações preferidas de procedimentos de adição com superposição ponderada, os métodos expostos no seguinte podem ser usados vantajosamente.
Em uma concretização simples de um procedimento de adição com superposição ponderada modificada em resposta a um indicador de qualidade de casamento, nós consideramos uma primeira janela multiplicada com uma primeira subseqüência e uma segunda janela multiplicada com uma segunda subseqüência, e estes dois produtos entram em uma operação de adição com superposição. Agora, como um exemplo, nós deixamos a primeira janela ser uma janela de derivação abaixo, tal como uma função monotonicamente decrescente, e nós deixamos a segunda janela ser uma janela de derivação à cima, tal como um função monotonicamente crescente. Em segundo lugar, para o propósito de um exemplo simples, nós deixamos a segunda janela ser parametrizada por um forma de janela básica vezes um multiplicador escalar. Nós agora definimos: objetivo como dita primeira subseqüência; wjarget como dita primeira subseqüência multiplicada amostra por amostra com dita janela de derivação abaixo: wregressor como dita segunda subseqüência multiplicada amostra por amostra com dita forma de janela básica para a janela de derivação à cima; e coef como dito 5 multiplicador de escalar. Agora, o componente de multiplicador de escalar da segunda janela pode ser otimizado tal como a minimizar um erro ao quadrado somado entre objetivo e o resultado da operação de adição com superposição. Usando por conveniência uma notação de matriz-vetor, o problema pode ser formulado como minimizando a diferença quadrada somada entre objetivo e a quantidade:
w_target + w_regressor*coef
Definindo daqui vetores T e H como:
T = objetivo - wjarget
H = wregressor
A solução para esta otimização é dada como:
coef = inv(trans(H)*H)*trans(H)*T
Em que ’inv ()' denota inversão de escalar ou matriz, 'trans ()' denota a transposição de uma matriz ou vetor e * é multiplicação de matriz ou vetor. Agora, como componentes centrais nas invenções expostas com isso, este método pode ser expandido para otimizar a forma atual de uma janela. Um modo para obter isto é como segue. Nós definimos um conjunto de formas para as quais a janela querida é obtida como uma combinação linear de elementos neste conjunto. Nós agora definimos H tal que cada coluna de H seja uma forma desta amostra por amostra fixa através multiplicado com dita segunda subseqüência, e nós definimos coef como um vetor de coluna contendo os pesos desconhecidos destas formas na função de janela otimizada. Com estas definições, as equações anteriores formulando o problema e sua solução, agora se aplicam a resolver para uma forma de janela mais geral. Naturalmente, o papel da primeira e a segunda janelas pode ser trocado no anterior, tal que agora seja a primeira janela para qual otimização acontece.
Uma concretização mais avançada da presente invenção otimiza juntamente ambas as formas de janela. Isto é feito definindo um segundo conjunto de formas de janela básicas, possivelmente equivalente com o primeiro fixado de formas de janela, e vantajosamente selecionado como uma indexação invertida em tempo das amostras em cada uma das formas de janela no primeiro conjunto de formas de janela. Agora defina o w_target como uma matriz, em que cada coluna é uma forma de janela básica de dito segundo conjunto de formas de janela multiplicado amostra por amostra com a primeira subseqüência e definem coef como um vetor de coluna contendo os pesos para a primeira janela e segundo os pesos para a segunda janela. Então, o problema mais geral pode ser formulado como minimizar a diferença quadrada somada entre o objetivo e a quantidade:
[w_target w_regressor]*coef, onde colchetes quadrados [] são usados para formar uma matriz de sub-matrizes ou vetores. Agora, definindo daqui vetores T e H como:
T = objetivo
H = [w_target wjregressor]
A solução para esta otimização é dada como:
coef= inv(trans(H)*H)*trans(H)*T
Ademais, uma concretização mais avançada da presente invenção não só formas de janela instantâneas, mas janelas com uma ponderação dependente de freqüência otimizada. Uma concretização desta invenção aplica a forma de uma linha de atraso com derivações, entretanto a invenção geral não está por nenhum meio limitada a esta forma. Um modo para realizar esta generalização é substituir, na definição de w_target e w_regressor acima, cada coluna com várias colunas multiplicando cada amostra por amostra com a forma de janela básica correspondendo à coluna que elas substituem, mas onde esta forma de janela básica é agora multiplicada amostra por amostra com a subseqüência pertinente atrasada correspondendo a uma posição específica em uma linha de atraso com derivações.
Vantajosamente, otimizações de coeficientes nestes métodos levam em conta uma ponderação, constrangimento, ou cálculo sequencial dos coeficientes sem diferir da invenção exposta com isso. Tais ponderações podem incluir vantajosamente ponderação para mais peso em coeficientes correspondendo a baixos valores de atraso absoluto. Tal cálculo seqüencial pode vantajosamente calcular coeficientes para baixos valores de atraso absoluto primeiro, tal como para minimizar a soma de erro ao quadrado só usando esses coeficientes, e então repetindo subseqüentemente este processo para valores de atraso crescentes, mas só no erro restante das etapas anteriores neste processo.
Em geral, concretizações desta invenção tomam várias subseqüências como objetivos da otimização. A otimização em termos gerais minimiza uma função de distorção, que é uma função destas subseqüências visadas e a saída do sistema adição com superposição ponderada. Esta otimização pode sem desviar da presente invenção, aplicar vários constrangimentos na seleção de formas básicas e atrasos e sua ponderação na adição com superposição global. Dependendo da seleção exata de formas, o efeito do adição com superposição é vantajosamente gradualmente aumentado de subseqüências seguindo a região de adição com superposição em tempo.
Figura 10 ilustra uma concretização do método exposto de adição com superposição. Esta figura é só para o propósito de ilustrar uma concretização desta invenção, como a invenção não está limitada à estrutura exata nesta figura. Na Figura 10, um subseqüência 1000 entra na adição com superposição otimizada em forma de tempo e freqüência com outra
W10 subseqüência 1010. Cada uma destas subseqüências entra em uma linha de atraso separada, onde na figura, z designa um avanço de tempo de uma amostra e z-1 designa um atraso de tempo de uma amostra, e onde os atrasos selecionados de 1, -1, e 0 são puramente para o propósito de ilustração: outros atrasos, mais e menos, podem ser usados vantajosamente com relação à presente invenção. Cada versão atrasada de cada subseqüência é multiplicada agora com várias formas de janela básicas, e o resultado de cada uma destas é multiplicado com um coeficiente a ser achado juntamente com os outros coeficientes no curso da otimização. Depois de multiplicação com estes coeficientes, as subseqüências resultantes são somados para produzir a saída 1020 da adição com superposição otimizada em forma de tempo e freqüência.
A otimização 1030 de coeficientes toma, no exemplo da Figura 10, subseqüências 1040 e 1050 como entrada, e minimiza uma função de distorção, que é uma função de 1040 e 1050 e a saída 1020.
Nas reivindicações, sinais de referência para as figuras são incluídos só por razões de clareza. Estas referências a concretizações exemplares nas figuras não deveríam de qualquer forma ser interpretadas como limitando a extensão das reivindicações.

Claims (18)

  1. REIVINDICAÇÕES
    1. Método para gerar uma sequência de saída de amostras (1020) em resposta a uma primeira (1000) e uma segunda (1010) subsequência de amostras, representando amostras de áudio digitalizadas, o método compreendendo as etapas de:
    aplicar um procedimento de adição com sobreposição ponderada à primeira e segunda subsequências (1000,1010), de modo a gerar a sequência de saída das amostras;
    caracterizado pelo fato de que ainda compreende:
    otimizar uma função de ponderação (1030) envolvida no procedimento de adição com sobreposição ponderada em resposta a uma medida de correspondência entre a sequência de saída de amostras (1020) e uma ou mais sequências-alvo de amostras (1040,1050).
  2. 2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a função de ponderação (1030) é optimizada em resposta a duas ou três sequências-alvo de amostras (1040,1050).
  3. 3. Método de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a otimização inclui ajustar pelo menos uma função de ponderação (1030) envolvida no procedimento de adição com sobreposição ponderada.
  4. 4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que a otimização inclui ajustar duas ou três funções de ponderação (1030) envolvidas no procedimento de adição com sobreposição ponderada.
  5. 5. Método, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que pelo menos uma função de ponderação (1030) envolvida no procedimento de adição com sobreposição ponderada é representada por um conjunto de parâmetros.
  6. 6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o conjunto de parâmetros é baseado em uma decomposição de uma forma temporal de pelo menos uma função de ponderação em uma combinação linear de
    Petição 870180137769, de 04/10/2018, pág. 4/9 formas de janela básicas.
  7. 7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que o conjunto de parâmetros é baseado em uma decomposição de uma forma temporal de pelo menos uma função de ponderação (1030) em uma combinação linear de duas ou três formas de janela básicas.
  8. 8. Método, de acordo com qualquer uma das reivindicações 5 a 7, caracterizado pelo fato de que gerar o conjunto de parâmetros inclui aplicar pelo menos uma linha de atraso derivado a pelo menos uma das primeira e segunda subsequências de amostras (1000,1010).
  9. 9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que gerar o conjunto de parâmetros inclui aplicar duas linhas de atraso derivadas à primeira e segunda subsequências de amostras (1000,1010).
  10. 10. Método, de acordo com a reivindicação 8 ou 9, caracterizado pelo fato de que gerar o conjunto de parâmetros inclui aplicar três linhas de atraso derivadas.
  11. 11. Método, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado pelo fato de que uma função de ponderação (1030) envolvida no procedimento de adição com sobreposição ponderada é modificada em resposta a uma medida da distância entre a sequência de saída de amostras (1020) e a pelo menos uma sequência-alvo de amostras (1040,1050).
  12. 12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que a medida da distância é baseada em um erro quadrado somado.
  13. 13. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que a medida da distância é baseada em um erro quadrado somado ponderado.
  14. 14. Método, de acordo com qualquer uma das reivindicações 11 a 13, caracterizado pelo fato de que a medida da distância é minimizada de acordo com um procedimento de mínimos quadrados.
  15. 15. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que a medida da distância é minimizada de acordo com um procedimento de mí
    Petição 870180137769, de 04/10/2018, pág. 5/9 nimos quadrados ponderados.
  16. 16. Método, de acordo com qualquer uma das reivindicações 1 a 15, caracterizado pelo fato de que as amostras da primeira e segunda subsequências (1000,1010) representam amostras de áudio digitalizadas.
    5
  17. 17. Método, de acordo com qualquer das reivindicações 1 a 16, caracterizado pelo fato de que uma das primeira e segunda subsequências de amostras (1000,1010) é uma sequência de amostras de encobrimento.
  18. 18. Arranjo para receber um sinal de áudio digitalizado caracterizado pelo fato de que inclui:
    10 meios de memória (600) para armazenar quadros (595) representativos de um sinal de áudio digitalizado recebido, e meio de processador para executar o método conforme definido em qualquer uma das reivindicações 1-17.
BRPI0607247-0A 2005-01-31 2006-01-31 método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüências de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado BRPI0607247B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DKPA200500146 2005-01-31
DKPA200500146 2005-01-31
PCT/DK2006/000054 WO2006079349A1 (en) 2005-01-31 2006-01-31 Method for weighted overlap-add

Publications (2)

Publication Number Publication Date
BRPI0607247A2 BRPI0607247A2 (pt) 2010-03-23
BRPI0607247B1 true BRPI0607247B1 (pt) 2019-10-29

Family

ID=59285473

Family Applications (3)

Application Number Title Priority Date Filing Date
BRPI0607246-1 BRPI0607246B1 (pt) 2005-01-31 2006-01-31 método para gerar uma seqüência de amostras de encobrimento com relação à transmissão de um sinal de áudio digitalizado, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
BRPI0607251A BRPI0607251A2 (pt) 2005-01-31 2006-01-31 método para concatenar um primeiro quadro de amostras e um segundo quadro subseqüente de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
BRPI0607247-0A BRPI0607247B1 (pt) 2005-01-31 2006-01-31 método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüências de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado

Family Applications Before (2)

Application Number Title Priority Date Filing Date
BRPI0607246-1 BRPI0607246B1 (pt) 2005-01-31 2006-01-31 método para gerar uma seqüência de amostras de encobrimento com relação à transmissão de um sinal de áudio digitalizado, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
BRPI0607251A BRPI0607251A2 (pt) 2005-01-31 2006-01-31 método para concatenar um primeiro quadro de amostras e um segundo quadro subseqüente de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado

Country Status (15)

Country Link
US (5) US9047860B2 (pt)
EP (3) EP1846921B1 (pt)
JP (4) JP2008529073A (pt)
KR (3) KR101203348B1 (pt)
CN (3) CN101120398B (pt)
AU (3) AU2006208528C1 (pt)
BR (3) BRPI0607246B1 (pt)
CA (3) CA2596337C (pt)
ES (1) ES2625952T3 (pt)
HK (1) HK1108760A1 (pt)
IL (3) IL184864A (pt)
NO (3) NO338798B1 (pt)
RU (3) RU2417457C2 (pt)
WO (3) WO2006079348A1 (pt)
ZA (3) ZA200706261B (pt)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047860B2 (en) * 2005-01-31 2015-06-02 Skype Method for concatenating frames in communication system
TWI285568B (en) * 2005-02-02 2007-08-21 Dowa Mining Co Powder of silver particles and process
WO2007086380A1 (ja) * 2006-01-26 2007-08-02 Pioneer Corporation 高音質化装置及び方法、並びにコンピュータプログラム
JP2007316254A (ja) * 2006-05-24 2007-12-06 Sony Corp オーディオ信号補間方法及びオーディオ信号補間装置
EP2080194B1 (fr) * 2006-10-20 2011-12-07 France Telecom Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information
JP4504389B2 (ja) * 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
US8280539B2 (en) * 2007-04-06 2012-10-02 The Echo Nest Corporation Method and apparatus for automatically segueing between audio tracks
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
CN101207665B (zh) * 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN101437009B (zh) 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统
JP5336522B2 (ja) * 2008-03-10 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 瞬間的事象を有する音声信号の操作装置および操作方法
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
RU2475868C2 (ru) * 2008-06-13 2013-02-20 Нокиа Корпорейшн Способ и устройство для маскирования ошибок кодированных аудиоданных
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
JP5664291B2 (ja) * 2011-02-01 2015-02-04 沖電気工業株式会社 音声品質観測装置、方法及びプログラム
JP5849106B2 (ja) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
RU2585999C2 (ru) * 2011-02-14 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Генерирование шума в аудиокодеках
CN103534754B (zh) 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PL3239978T3 (pl) 2011-02-14 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio
CN103503062B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用对齐的前瞻部分将音频信号编码及解码的装置与方法
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
CA2827249C (en) 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
US9008170B2 (en) 2011-05-10 2015-04-14 Qualcomm Incorporated Offset type and coefficients signaling method for sample adaptive offset
FR2977439A1 (fr) * 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
US8935308B2 (en) * 2012-01-20 2015-01-13 Mitsubishi Electric Research Laboratories, Inc. Method for recovering low-rank matrices and subspaces from data in high-dimensional matrices
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
KR102259112B1 (ko) 2012-11-15 2021-05-31 가부시키가이샤 엔.티.티.도코모 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
CN103888630A (zh) * 2012-12-20 2014-06-25 杜比实验室特许公司 用于控制声学回声消除的方法和音频处理装置
WO2014118139A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for coding mode switching compensation
AU2014211544B2 (en) * 2013-01-29 2017-03-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in perceptual transform audio coding
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
BR112015017222B1 (pt) 2013-02-05 2021-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Método e decodificador configurado para ocultar um quadro de áudio perdido de um sinal de áudio recebido, receptor, e, meio legível por computador
KR102238376B1 (ko) * 2013-02-05 2021-04-08 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
US9406308B1 (en) 2013-08-05 2016-08-02 Google Inc. Echo cancellation via frequency domain modulation
US10728298B2 (en) * 2013-09-12 2020-07-28 Qualcomm Incorporated Method for compressed sensing of streaming data and apparatus for performing the same
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
CN104751851B (zh) * 2013-12-30 2018-04-27 联芯科技有限公司 一种基于前后向联合估计的丢帧差错隐藏方法及系统
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
EP3090574B1 (en) * 2014-01-03 2019-06-26 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
US10157620B2 (en) 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
NO2780522T3 (pt) 2014-05-15 2018-06-09
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
GB2547877B (en) * 2015-12-21 2019-08-14 Graham Craven Peter Lossless bandsplitting and bandjoining using allpass filters
WO2017153300A1 (en) 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame
WO2017153299A2 (en) * 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
JP6652469B2 (ja) * 2016-09-07 2020-02-26 日本電信電話株式会社 復号装置、復号方法及びプログラム
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
EP3984026A1 (en) * 2019-06-13 2022-04-20 Telefonaktiebolaget LM Ericsson (publ) Time reversed audio subframe error concealment
EP3901950A1 (en) * 2020-04-21 2021-10-27 Dolby International AB Methods, apparatus and systems for low latency audio discontinuity fade out

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2102254B (en) * 1981-05-11 1985-08-07 Kokusai Denshin Denwa Co Ltd A speech analysis-synthesis system
EP0123616B1 (en) * 1983-04-20 1987-03-04 Nippon Telegraph And Telephone Corporation Interframe coding method and apparatus therefor
FR2606239A1 (fr) 1986-10-30 1988-05-06 Bull Sa Procede et dispositif de transmission de donnees numeriques
US5007094A (en) * 1989-04-07 1991-04-09 Gte Products Corporation Multipulse excited pole-zero filtering approach for noise reduction
US5371853A (en) 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
US5995539A (en) 1993-03-17 1999-11-30 Miller; William J. Method and apparatus for signal transmission and reception
SE503547C2 (sv) 1993-06-11 1996-07-01 Ericsson Telefon Ab L M Anordning och förfarande för döljande av förlorade ramar
JP3520555B2 (ja) * 1994-03-29 2004-04-19 ヤマハ株式会社 音声符号化方法及び音声音源装置
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
TW294867B (pt) 1994-12-23 1997-01-01 Qualcomm Inc
US5699481A (en) 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
CA2206652A1 (en) 1996-06-04 1997-12-04 Claude Laflamme Baud-rate-independent asvd transmission built around g.729 speech-coding standard
JP3623056B2 (ja) 1996-09-10 2005-02-23 ソニー株式会社 動画像圧縮装置
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6766300B1 (en) 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
JP3596841B2 (ja) 1997-01-24 2004-12-02 株式会社ルネサステクノロジ 受信データ伸長装置
US6233550B1 (en) 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
DE69836785T2 (de) 1997-10-03 2007-04-26 Matsushita Electric Industrial Co., Ltd., Kadoma Audiosignalkompression, Sprachsignalkompression und Spracherkennung
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6415253B1 (en) 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
SE513520C2 (sv) * 1998-05-14 2000-09-25 Ericsson Telefon Ab L M Förfarande och anordning för maskering av fördröjda paket
US6292454B1 (en) 1998-10-08 2001-09-18 Sony Corporation Apparatus and method for implementing a variable-speed audio data playback system
US6456964B2 (en) 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6418408B1 (en) 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system
US6765931B1 (en) 1999-04-13 2004-07-20 Broadcom Corporation Gateway with voice
KR100633720B1 (ko) 1999-04-19 2006-10-16 에이티 앤드 티 코포레이션 패킷 손실 또는 프레임 삭제 은폐를 수행하는 방법 및 장치
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US6665317B1 (en) 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
JP2001142477A (ja) * 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd 有声音形成装置とそれを用いた音声認識装置
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
SE517156C2 (sv) 1999-12-28 2002-04-23 Global Ip Sound Ab System för överföring av ljud över paketförmedlade nät
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
AU2001290882A1 (en) * 2000-09-15 2002-03-26 Lernout And Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
US6661842B1 (en) 2000-09-22 2003-12-09 General Dynamics Decision Systems, Inc. Methods and apparatus for error-resilient video coding
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
EP1217613A1 (fr) 2000-12-19 2002-06-26 Koninklijke Philips Electronics N.V. Reconstitution de trames manquantes ou mauvaises en téléphonie cellulaire
US7069208B2 (en) 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
KR100591350B1 (ko) 2001-03-06 2006-06-19 가부시키가이샤 엔.티.티.도코모 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체
ATE323935T1 (de) 2001-04-09 2006-05-15 Koninkl Philips Electronics Nv Adpcm sprachkodiersystem mit phasenfaltungs und - entfaltungsfiltern
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
WO2002095731A1 (fr) 2001-05-22 2002-11-28 Fujitsu Limited Processeur de signaux vocaux
FI20011392A (fi) * 2001-06-28 2002-12-29 Nokia Corp Mekanismi multicast-jakelua varten tietoliikennejärjestelmässä
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7711563B2 (en) 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6681842B2 (en) * 2001-12-03 2004-01-27 Agilent Technologies, Inc. Cooling apparatus
SE521600C2 (sv) * 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
US20040002856A1 (en) 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4022427B2 (ja) 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
US7496086B2 (en) 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4089347B2 (ja) 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
BR0316963A (pt) * 2002-12-04 2005-10-25 Thomson Licensing Sa Codificação de fusões de vìdeo usando predição ponderada
KR20060011854A (ko) 2003-05-14 2006-02-03 오끼 덴끼 고오교 가부시끼가이샤 소거된 주기 신호 데이터를 은닉하는 장치 및 방법
JP4233931B2 (ja) 2003-06-17 2009-03-04 日本電信電話株式会社 音声・音響信号再生調整方法、装置、および音声・音響信号再生調整プログラム、そのプログラムを記録した記録媒体
US7356748B2 (en) 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
JP2005315973A (ja) * 2004-04-27 2005-11-10 Seiko Epson Corp 半導体集積回路
TWI273562B (en) 2004-09-01 2007-02-11 Via Tech Inc Decoding method and apparatus for MP3 decoder
US7676362B2 (en) 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US9047860B2 (en) * 2005-01-31 2015-06-02 Skype Method for concatenating frames in communication system
US7359409B2 (en) * 2005-02-02 2008-04-15 Texas Instruments Incorporated Packet loss concealment for voice over packet networks
US9160382B2 (en) * 2013-10-08 2015-10-13 Blackberry Limited Phase noise mitigation for wireless communications

Also Published As

Publication number Publication date
JP2014038347A (ja) 2014-02-27
KR20080002757A (ko) 2008-01-04
ZA200706261B (en) 2009-09-30
CN101120398B (zh) 2012-05-23
CA2596341A1 (en) 2006-08-03
KR20080001708A (ko) 2008-01-03
WO2006079350A1 (en) 2006-08-03
JP5420175B2 (ja) 2014-02-19
IL184864A0 (en) 2007-12-03
NO20074349L (no) 2007-10-18
NO340871B1 (no) 2017-07-03
CN101120400B (zh) 2013-03-27
CA2596337A1 (en) 2006-08-03
KR101203244B1 (ko) 2012-11-20
EP1846921A1 (en) 2007-10-24
EP1849156B1 (en) 2012-08-01
AU2006208528B2 (en) 2011-08-18
CN101120400A (zh) 2008-02-06
HK1108760A1 (en) 2008-05-16
RU2007132728A (ru) 2009-03-10
US9047860B2 (en) 2015-06-02
RU2417457C2 (ru) 2011-04-27
AU2006208529A1 (en) 2006-08-03
US9270722B2 (en) 2016-02-23
KR101237546B1 (ko) 2013-02-26
NO20074418L (no) 2007-08-29
CN101120399A (zh) 2008-02-06
NO338702B1 (no) 2016-10-03
AU2006208530B2 (en) 2010-10-28
CN101120399B (zh) 2011-07-06
CA2596341C (en) 2013-12-03
EP1849156A1 (en) 2007-10-31
RU2007132729A (ru) 2009-03-10
CA2596338A1 (en) 2006-08-03
RU2007132735A (ru) 2009-03-10
EP1846921B1 (en) 2017-10-04
US20150207842A1 (en) 2015-07-23
BRPI0607251A2 (pt) 2017-06-13
KR101203348B1 (ko) 2012-11-20
NO338798B1 (no) 2016-10-24
US20100161086A1 (en) 2010-06-24
US8918196B2 (en) 2014-12-23
ZA200706534B (en) 2008-07-30
EP1846920A1 (en) 2007-10-24
WO2006079348A1 (en) 2006-08-03
RU2405217C2 (ru) 2010-11-27
BRPI0607246A2 (pt) 2010-03-23
US20080275580A1 (en) 2008-11-06
IL184864A (en) 2011-01-31
AU2006208529B2 (en) 2010-10-28
ZA200706307B (en) 2008-06-25
US20120158163A1 (en) 2012-06-21
BRPI0607247A2 (pt) 2010-03-23
ES2625952T3 (es) 2017-07-21
AU2006208528A1 (en) 2006-08-03
EP1846920B1 (en) 2017-04-19
IL184948A0 (en) 2007-12-03
CA2596337C (en) 2014-08-19
US8068926B2 (en) 2011-11-29
NO20074348L (no) 2007-10-21
RU2407071C2 (ru) 2010-12-20
IL184948A (en) 2012-07-31
WO2006079349A1 (en) 2006-08-03
IL184927A0 (en) 2007-12-03
JP2008529073A (ja) 2008-07-31
AU2006208530A1 (en) 2006-08-03
BRPI0607246B1 (pt) 2019-12-03
CA2596338C (en) 2014-05-13
US20080154584A1 (en) 2008-06-26
IL184927A (en) 2016-06-30
AU2006208528C1 (en) 2012-03-01
JP2008529072A (ja) 2008-07-31
JP2008529074A (ja) 2008-07-31
KR20080002756A (ko) 2008-01-04
CN101120398A (zh) 2008-02-06
JP5925742B2 (ja) 2016-05-25
JP5202960B2 (ja) 2013-06-05

Similar Documents

Publication Publication Date Title
BRPI0607247B1 (pt) método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüências de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado

Legal Events

Date Code Title Description
B06G Technical and formal requirements: other requirements [chapter 6.7 patent gazette]

Free format text: SOLICITA-SE A REGULARIZACAO DA PROCURACAO, UMA VEZ QUE BASEADO NO ARTIGO 216 1O DA LPI, O DOCUMENTO DE PROCURACAO DEVE SER APRESENTADO EM SUA FORMA AUTENTICADA; OU SEGUNDO MEMO/INPI/PROC/NO 074/93, DEVE CONSTAR UMA DECLARACAO DE VERACIDADE, A QUAL DEVE SER ASSINADA POR UMA PESSOA DEVIDAMENTE AUTORIZADA A REPRESENTAR O INTERESSADO, DEVENDO A MESMA CONSTAR NO INSTRUMENTO DE PROCURACAO, OU NO SEU SUBSTABELECIMENTO.

B25G Requested change of headquarter approved

Owner name: SONORIT APS (DK)

Free format text: ENDERECO ALTERADO CONFORME SOLICITADO NA PETICAO NO 020110002297/RJ DE 07/01/2011.

B25A Requested transfer of rights approved

Owner name: SKYPE LIMITED (IS)

Free format text: TRANSFERIDO DE: SONORIT APS

B25D Requested change of name of applicant approved

Owner name: SKYPE (IE)

B06T Formal requirements before examination [chapter 6.20 patent gazette]
B15K Others concerning applications: alteration of classification

Ipc: G10L 19/005 (2013.01), H04L 29/06 (2006.01), H04M

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 29/10/2019, OBSERVADAS AS CONDICOES LEGAIS. (CO) 10 (DEZ) ANOS CONTADOS A PARTIR DE 29/10/2019, OBSERVADAS AS CONDICOES LEGAIS

B25A Requested transfer of rights approved

Owner name: MICROSOFT TECHNOLOGY LICENSING, LLC (US)

B21F Lapse acc. art. 78, item iv - on non-payment of the annual fees in time

Free format text: REFERENTE A 18A ANUIDADE.

B24J Lapse because of non-payment of annual fees (definitively: art 78 iv lpi, resolution 113/2013 art. 12)

Free format text: EM VIRTUDE DA EXTINCAO PUBLICADA NA RPI 2759 DE 21-11-2023 E CONSIDERANDO AUSENCIA DE MANIFESTACAO DENTRO DOS PRAZOS LEGAIS, INFORMO QUE CABE SER MANTIDA A EXTINCAO DA PATENTE E SEUS CERTIFICADOS, CONFORME O DISPOSTO NO ARTIGO 12, DA RESOLUCAO 113/2013.