"MÉTODO PARA GERAR UMA SEQÜÊNCIA DE SAÍDA DE AMOSTRAS EM RESPOSTA A UMA PRIMEIRA E UMA SEGUNDA SUBSEQÜÊNCIAS DE AMOSTRAS, CÓDIGO DE PROGRAMA EXECUTÁVEL POR COMPUTADOR, DISPOSITIVO DE ARMAZENAMENTO DE PROGRAMA, E, ARRANJO PARA RECEBER UM SINAL DE ÁUDIO DIGITALIZADO"
Campo da Invenção
A presente invenção relaciona-se a processamento de sinais. Mais particularmente, a presente invenção relaciona-se a um método, um dispositivo, e um arranjo que diminuem artefatos de sinal que surgem em adição com superposição ponderada de subseqüências de sinal. Aplicações incluem manipulações de sinal tal como supressão de ruído, intensificação, codificação, encobrimento e síntese. Como um exemplo, aplicações de fala e supressão de ruído de áudio, intensificação, codificação, encobrimento e síntese são melhoradas pela presente invenção. A presente invenção é aplicada vantajosamente com relação a sistemas para diminuir os efeitos de perda e/ou instabilidade de atraso e/ou desvio de relógio de pacotes de sinal em telecomunicações e sistemas de telecomunicação sem fios.
Fundamento da Invenção
A invenção é aqui motivada de sua aplicação em sistemas detelecomunicação, particularmente com relação a sua aplicação em diminuir os efeitos de perda e/ou instabilidade de atraso e/ou desvio de relógio de pacotes de sinal. Como será óbvio a uma pessoa qualificada na técnica de ler o resumo de invenção, concretizações preferidas, figuras, e reivindicações, apresente invenção tem aplicações vantajosas geralmente onde um procedimento de adição com superposição ponderada é aplicado no processamento digital de sinais.
Telecomunicações modernas são baseadas em transmissão digital de sinais. Por exemplo, na Figura 1, um transmissor 200 coleta umsinal de som de uma fonte 100. Esta fonte pode ser o resultado de uma ou mais pessoas falando e outras fontes de onda acústica coletadas por um microfone, ou pode ser um armazenamento de sinal de som ou sistema de geração tal como uma síntese de texto para fala ou sistema de diálogo. Se o sinal de fonte for analógico, ele é convertido a uma representação digital por meio de um conversor analógico para digital. A representação digital é codificada subseqüentemente e colocada em pacotes seguindo um formato adequado para o canal digital 300. Os pacotes são transmitidos através do canal digital. O canal digital tipicamente inclui múltiplas camadas de abstração.
Na camada de abstração na Figura 1, o canal digital toma uma seqüência de pacotes como entrada e entrega uma seqüência de pacotes como saída. Devido a degradações no canal, tipicamente causadas em ruído, imperfeições, e sobrecarga no canal, a seqüência de pacote de saída é tipicamente contaminada com perda de alguns dos pacotes e atraso de tempo de chegada e instabilidade de atraso para outros pacotes. Além disso, diferença em relógio do transmissor e do receptor pode resultar em desvio de relógio. É a tarefa do receptor 400 decodificar os pacotes de dados recebidos e converter as representações digitais decodificadas do fluxo de pacote e decodificar isto em representações de sinal digitais e ademais converter estas representações em um sinal de som decodificado em um formato adequado para saída ao recebedor de sinal 500. Este recebedor de sinal pode ser uma ou mais pessoas que são apresentadas ao sinal de som decodificado, por exemplo, um ou mais alto-falantes. Alternativamente, o recebedor de sinal pode ser um sistema de armazenamento de fala ou áudio ou uma sistema de diálogo de fala ou áudio ou reconhecedor.
É a tarefa do receptor reproduzir precisamente um sinal que pode ser apresentado ao recebedor. Quando a recebedor inclui diretamente ou indiretamente ouvintes humanos, um objetivo do receptor é obter umarepresentação do sinal de som que, quando apresentado aos ouvintes humanos, reproduz precisamente a impressão percebida humanamente e informação do sinal acústico da fonte ou fontes. Para assegurar esta tarefa no caso comum, onde o canal degrada a seqüência recebida de pacotes com 5 perda, atraso, instabilidade de atraso, e desvio de relógio pode além disso estar presente, um encobrimento eficiente é necessário como parte do subsistema de receptor.
Como um exemplo, uma possível implementação de um subsistema de receptor para realizar esta tarefa é ilustrada na Figura 2. Como indicado nesta figura, pacotes entrantes são armazenados em uma memória temporária de instabilidade 410, donde uma unidade de decodificação e encobrimento 420 adquire representações de sinal codificadas recebidas, e decodifica e encobre estas representações de sinal codificadas para obter representações de sinal adequadas para armazenamento em uma memória temporária de representação 430 e representação subseqüente. O controle de quando iniciar encobrimento e quais parâmetros específicos deste encobrimento, tal como comprimento do sinal encoberto, pode, como um exemplo, ser efetuado por uma unidade de controle 440, que monitora os conteúdos da memória temporária de instabilidade e da memória temporáriade representação e controla a ação da unidade de decodificação e encobrimento 420.
Encobrimento também pode ser realizado como parte de um subsistema de canal. Figura 3 ilustra um exemplo de um subsistema de canal no qual pacotes são remetidos de um canal 310 para um canal 330 por umsubsistema 320, que nós para referência posterior chamamos a retransmissão. Em sistemas práticos, a função de retransmissão pode ser realizada por unidades, que podem levar uma variedade de nomes dependentes de contexto, tais como tipos diversos de roteadores, servidores de procuração, servidores de borda, controladores de acesso de rede, controladores de rede de área localsem fios, portais de Voz através de IP, portais de mídia, controladores de rede não licenciada, e outros nomes. No presente contexto, todos estes são exemplos de sistemas de retransmissão.
Um exemplo de um sistema de retransmissão que é capaz de fazer encobrimento de áudio é ilustrado na Figura 4. Como ilustrado nesta figura, pacotes são remetidos de uma memória temporária de entrada 310 para uma memória temporária de saída 360 por subsistemas de comutação de pacote 320 e 350.
A unidade de controle 370 monitora as memórias temporárias de entrada e saída, e como resultado desta monitoração, toma decisões se 35 transcodificação e encobrimento são necessários. Se este for o caso, as chaves dirigem os pacotes pela unidade de transcodificação e encobrimento 330. Se este não for o caso, as chaves dirigem os pacotes pelo subsistema de ação de protocolo mínimo 340, que fará um mínimo de operações nos cabeçalhos de pacote para permanecer complacente comprotocolos aplicados. Isto pode incluir etapas de alterar número de seqüência e marca de tempo dos pacotes.
Em transmissão de sinais de áudio usando sistemas exemplificados por, mas não limitado, as descrições anteriores, há a necessidade por encobrimento de perda, atraso, instabilidade de atraso, desviode relógio e/ou em sinais representativos, ou parcialmente representativos, do sinal de som.
Métodos de repetição de passo, às vezes concretizados no modelo de oscilador, são baseados em uma estimativa do período de passo em fala articulada, ou alternativamente na estimação da freqüência fundamental correspondente do sinal de fala articulada. Dado o período de passo, um quadro de encobrimento é obtido por leitura repetida do último período de passo. Descontinuidades no princípio e fim do quadro de encobrimento e entre cada repetição do período de passo podem ser niveladas usando um procedimento de adição com superposição em janela. Veja Patente númeroWO 0148736 e recomendação da União de Telecomunicações Internacional ITU-T G.711 Apêndice 1 para exemplos do método de repetição de passo. Sistemas da técnica anterior integram encobrimento baseado em repetição de passo com decodifícadores baseados no princípio de codificação preditiva linear. Nestes sistemas, a repetição de passo é tipicamente realizada no domínio de excitação preditiva linear por uma leitura do preditor de longo prazo ou malha de livro-código adaptável.
Veja Patente número US5699481, recomendação da União de Telecomunicações Internacional ITU-T G.729, e Pedido Para Comentários 3951 da Força-tarefa de Engenharia da Internet paraexemplos de encobrimento baseado em repetição de passo no domínio de excitação preditiva linear. Os métodos anteriores aplicam para encobrir uma perda ou um atraso crescente, isto é, uma instabilidade de atraso positiva, e situações sub-fluxo de entrada ou memória temporária de instabilidade ou perto de sub-fluxo, por exemplo devido a desvio de relógio.
Para encobrir um atraso decrescente, uma instabilidade de atraso negativa, ou um transbordamento de memória temporária de entrada ou instabilidade ou perto de transbordamento, da geração de um sinal de encobrimento encurtado é precisada.
Métodos baseados em passo realizam isto por um procedimento de adição com superposição entre um período de passo e um período de passo anterior. Veja Patente número WO 0148736 para um exemplo deste método. Novamente, isto pode ser realizado enquanto explorando instalações presentes em decodifícadores preditivos lineares. Como um exemplo, Patente número US5699481 expõe um método pelo qual vetores de contribuição de livro-código fixos são simplesmente descartados do sinal de reprodução, se confiando no estado do livro-código adaptável para assegurar periodicidade de passo no sinal reproduzido. Com relação a métodos de repetição de passo, um objetivo é uma continuação de sinal sem costura do quadro de encobrimento para o próximo quadro. Patente n° WO 0148736 expõe um método para alcançar este objetivo. Pela invenção exposta em WO 0148736,este objetivo é alcançado por meio de quadros de encobrimento de comprimento variado em tempo e possivelmente dependente de sinal. Enquanto isto pode assegurar eficazmente continuação de sinal sem costura com relação a encobrimento de instabilidade de atraso e desvio de relógio, esta solução introduz uma deficiência com relação a sistemas do tipo descrito na Figura 4: Seguindo este tipo de encobrimento, uma codificação do encobrimento em quadros de comprimento prefixado fixo que conecta sem costura com os quadros já codificadas que são retransmitidos preferivelmente pela ação de protocolo mínimo 340, não pode ser garantida.
Então, um objetivo importante é obter quadros deencobrimento de comprimento prefixado igual ao comprimento de quadros de sinal regulares. Um método de encobrimento com comprimento prefixado é realizar uma adição com superposição lisa entre amostras que ultrapassam o comprimento de quadro prefixado vezes o número de quadros deencobrimento com um subconjunto anexo de amostras do quadro seguindo os quadros de encobrimento. Este método é bem conhecido do estado da técnica e usado por exemplo na recomendação da União de Telecomunicações Internacional ITU-T G.711 Apêndice 1. Em princípio, este método também poderia ser aplicado quando concatenando um quadro com outro quadro, ondeos dois quadros se relacionam a quadros não consecutivos no sinal de áudio original. Assim, uma pessoa qualificada na técnica pode realizar isto obtendo um quadro de encobrimento como uma continuação do primeiro quadro e entrar com este quadro de encobrimento no procedimento de adição com superposição com o segundo quadro, por esse meio reduzindo parcialmente asdescontinuidades que se originam no limite entre a última amostra do primeiro quadro e a primeira amostra do segundo quadro.
As soluções anteriores para estes cenários são problemáticas. Isto é por causa de, dependendo do aspecto de forma de onda atual dos dois ou mais sinais que entram neste procedimento de adição com superposição,uma descontinuidade notável permanecerá no sinal de áudio resultante. Esta descontinuidade é observada pelo ouvinte humano como um "batida" ou um "enfraquecimento" no sinal.
No primeiro cenário, onde um ou mais quadros de encobrimento estão envolvidas, uma re-amostragem destes quadros de encobrimento foi proposta na literatura. Veja por exemplo Valenzuela and Animalu, "A new voice-packet reconstruction technique", IEEE, 1989, para um tal método. Este método não prove uma solução quando o objetivo é concatenação de dois quadros existentes em lugar de concatenação com umquadro de encobrimento, ademais, para a concatenação de um quadro de encobrimento e um quadro seguinte, este método ainda é problemático. Isto é porque uma re-amostragem precisada para diminuir a descontinuidade como percebida por um ouvinte humano pode ao invés introduzir uma distorção de freqüência significante, isto é, um deslocamento de freqüência, que também é percebido pelo ouvinte humano como um artefato irritante. Sumário da Invenção
A invenção exposta, ou melhor concretizações dela, diminuem efetivamente as limitações identificadas acima em soluções conhecidas, como também outras deficiências não especificadas nas soluções conhecidas, esoluções para problemas relacionados em outros sistemas para processamento digital de sinais. De acordo com a presente invenção, estes objetivos são alcançados por um método, um dispositivo de armazenamento de programa, e um arranjo todos dos quais são aspectos diferentes da presente invenção, tendo as características como definidas nas reivindicações anexas.
A invenção exposta prove técnicas para executar uma concatenação lisa de subseqüências de sinal usando uma adição com superposição ponderada entre subseqüências. Tipicamente, mas não sempre, estas subseqüências são semelhantes, mas não idênticas de acordo com uma medida pertinente de semelhança ou medida de distorção. Especificamente,comparando com métodos conhecidos de adição com superposição empregando uma dada função de janela de ponderação independente de sinal, a invenção exposta prove técnicas para concatenar quadros de sinal com dessemelhança inerente, com significativamente menos artefato perceptível 5 do que é conhecido do estado da técnica. Por esse meio, a invenção exposta alivia uma limitação de sistemas do estado da técnica como qualidade percebida diretamente melhorada como um resultado.
As definições seguintes serão usadas ao longo da presente exposição. Por uma "amostra" é compreendida uma amostra que se origina deum sinal digitalizado ou de um sinal derivado dele ou coeficientes ou parâmetros representativos de tais sinais, estes coeficientes ou parâmetros sendo escalares ou vetor avaliado. Por um "quadro" é compreendido um conjunto de amostras consecutivas, usando a definição de amostra acima. Por "subseqüência" é compreendido um conjunto de uma ou mais amostrasconsecutivas, usando a definição anterior de amostra. No caso de uso de por exemplo adição com superposição, duas subseqüências consecutivas podem incluir amostras superpostas. Dependendo da escolha de quadros, uma subseqüência pode se estender entre dois quadros consecutivos.
Em um primeiro aspecto, a invenção prove um método paragerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüência de amostras, o método incluindo:
aplicar um procedimento de adição com superposição ponderada à primeira e segunda subseqüências de modo a gerar a seqüência de saída de amostras;
otimizar uma função de ponderação envolvida noprocedimento de adição com superposição ponderada em resposta a uma medida de casamento entre a seqüência de saída de amostras e uma ou mais seqüências visadas de amostras.
A função de ponderação pode ser otimizada em resposta aduas ou três seqüências visadas de amostras.
Preferivelmente, a otimização inclui ajustar pelo menos uma função de ponderação envolvida no procedimento de adição com superposição ponderada, tal como ajustar duas ou três funções de ponderação envolvidas no procedimento de adição com superposição ponderada.
A pelo menos uma função de ponderação envolvida no procedimento de adição com superposição ponderada pode ser representada por um conjunto de parâmetros.
O conjunto de parâmetros pode ser baseado em uma decomposição de uma forma temporal de pelo menos uma função deponderação em uma combinação linear de formas de janela básicas. O conjunto de parâmetros pode ser baseado em uma decomposição de uma forma temporal de pelo menos uma função de ponderação em uma combinação linear de duas ou três formas de janela básicas.
Geração fora do conjunto de parâmetros pode incluir aplicar pelo menos pelo menos uma linha de atraso com derivações a pelo menos uma da primeira e segunda subseqüências de amostras. Geração do conjunto de parâmetros pode incluir aplicar duas linhas de atraso com derivações à primeira e segunda subseqüências de amostras. Geração do conjunto de parâmetros pode incluir aplicar três linhas de atraso com derivações.
Uma função de ponderação envolvida no procedimento deadição com superposição ponderada pode ser modificada em resposta a uma medida de distância entre a seqüência de saída de amostras e a pelo menos uma seqüência visada de amostras.
Tal medida de distância pode ser baseada em um erro ao quadrado somado, tal como um erro ao quadrado somado ponderado. A medida de distância pode ser minimizada de acordo com um procedimento de mínimos quadrados, tal como um procedimento de mínimos quadrados ponderados.
As amostras da primeira e segunda subseqüências representam amostras de áudio digitalizadas, tal como um sinal de áudio incluindo fala.Uma da primeira e segunda subseqüências de amostras pode ser uma seqüência de amostras de encobrimento.
Assim, a presente invenção prove um método de aplicar procedimento de adição com superposição ponderada para concatenar duas ou mais subseqüências de sinal. As funções de ponderação na adição com superposição são otimizadas em resposta a uma medida de distorção entre a saída do procedimento de adição com superposição e uma ou mais subseqüências visadas. As subseqüências visadas constituem aproximações da saída desejada, ou parcialmente desejada, do procedimento de adição comsuperposição. Vantajosamente, a medida de distorção pesa estes objetivos. As funções de ponderação na presente invenção são funções gerais com respostas de freqüência e/ou tempo plano ou não plano. Uma concretização simples da presente invenção constitui uma ponderação escalar otimizada de uma forma de janela predefinida tal como otimizar semelhança entre a saída doprocedimento de adição com superposição e um sinal visado. Concretizações mais avançadas vantajosamente introduzem mais sinais visados e ademais parametrizações vantajosas das funções de ponderação. Tais parametrizações vantajosas incluem a aplicação de uma ponderação escalar em mais de uma função de ponderação; inclui a decomposição de uma ou mais funções de ponderação em uma combinação linear de formas de janela básicas; e/ou inclui uma linha de atraso com derivações em uma ou mais das funções de ponderação. Vantajosamente, uma medida de erro ao quadrado somado ou erro ao quadrado somado ponderado é minimizada na otimização, e vantajosamente um método de mínimos quadrados ou mínimos quadradosponderados é aplicado para esta minimização.
Em um segundo aspecto, a invenção prove um código de programa executável por computador adaptado para executar o método de acordo com o primeiro aspecto. Tal código de programa pode ser escrito em uma forma dependente de máquina ou independente de máquina e emqualquer linguagem de programação tal como código de máquina ou linguagem de programação de nível mais alto.
Em um terceiro aspecto, a invenção prove um dispositivo de armazenamento de programa incluindo uma seqüência de instruções para um microprocessador, tal como um microprocessador de propósito geral, para executar o método do primeiro aspecto. O dispositivo de armazenamento pode ser qualquer tipo de meio de armazenamento de dados tais como discos, cartões de memória ou hastes de memória, discos rígidos, etc.
Em um quarto aspecto, a invenção prove um arranjo, por exemplo um dispositivo ou aparelho, para receber um sinal de áudio digitalizado, o arranjo incluindo:
meio de memória para armazenar as amostras representativas de um sinal de áudio digitalizado recebido; e
meio de processador para executar o método do primeiro aspecto.
Implementando esta invenção com meios adequados, tais como os descritos para as concretizações preferidas abaixo, habilita um sistema de processo de sinal concatenar eficientemente subseqüências semelhantes, mas não idênticas diminuindo artefatos conhecidos da adição com superposição ponderada do estado da técnica. Por esse meio, nossa invenção habilita entre outras coisas, comunicação de áudio bidirecional de alta qualidade em situações com desvio de relógio severo, perda de canal e/ou instabilidade de atraso.
Breve Descrição dos Desenhos
No seguinte, a invenção é descrita em mais detalhes com referência às figuras acompanhantes, das quais:
Figura 1 é um diagrama de bloco ilustrando um sistema de transmissão de som comutado por pacote de ponta a ponta conhecido sujeito aos efeitos de perda, atraso, instabilidade de atraso e/ou desvio de relógio;Figura 2 é um subsistema de receptor exemplar realizando memorização de instabilidade, decodificação e encobrimento e memorização de representação sob o controle de uma unidade de controle;
Figura 3 é um diagrama de bloco ilustrando um subsistema de retransmissão de um canal comutado por pacote, sujeito aos efeitos de desvio de relógio, perda, atraso e instabilidade de atraso;
Figura 4 é um subsistema de retransmissão exemplar realizando memorização de entrada, memorização de saída, e quando necessário, transcodificação e encobrimento sob o controle de uma unidade de controle;
Figura 5 é um diagrama de bloco ilustrando um conjunto de concretizações preferidas da presente invenção;
Figura 5 A é um esboço ilustrativo de subseqüências em quadros de encobrimento começando com subseqüências sendo baseadas nas últimas subseqüências de memória temporária em ordem de tempo inversa;
Figura 5B ilustra outro exemplo de uma seqüência maior de subseqüências em quadros de encobrimento começando com as últimas duas subseqüências de memória temporária em ordem de tempo inversa, e onde subseqüências consecutivas são baseadas em subseqüências de memória temporária ademais atrás em tempo;
Figura 5C ilustra os índices de contagem de amostra em um padrão de indexação formatado por recuos e comprimentos de leitura;
Figura 6 é um esboço ilustrativo de sinais envolvidos na função de indexação e interpolação;
Figura 7 é um fluxograma ilustrando um possível modo para implementar uma lógica de decisão para critérios de parada;
Figura 8 é um fluxograma ilustrando um possível modo para realizar uma otimização associada iterativa de nivelamento e equalização, critérios de parada e o número de repetições permitidas;Figura 9 ilustra o uso de deslocamento circular e adição com superposição com relação a iniciar e alimentar um filtro de ajuste de fase; e
Figura 10 ilustra uma concretização do procedimento de adição com superposição ponderada.
Enquanto a invenção é suscetível a várias modificações eformas alternativas, concretizações específicas foram mostradas por meio de exemplo nos desenhos e serão descritas em detalhes aqui. Deveria ser entendido, porém, que a invenção não é pretendida ser limitada às formas particulares expostas. Em lugar disso, a invenção é para cobrir todas asmodificações, equivalentes e alternativas caindo dentro do espírito e extensão da invenção como definida pelas reivindicações anexas. Descrição das Concretizações Preferidas
No seguinte, a invenção é descrita em combinação com geração de quadros de encobrimento. Porém, como será entendido daextensão das reivindicações, o método de concatenação inventivo tem uma gama de aplicações muito mais ampla que isso.
O método inventivo é ativado na unidade de decodificação e encobrimento 420 de um receptor tal como o na Figura 2 ou é ativado na unidade de transcodificação e encobrimento 330 de uma retransmissão talcomo a na Figura 4 ou em qualquer outro local em um sistema de comunicação onde sua ação é adequada. Nestes locais, vários quadros de sinal de memória temporária estão disponíveis e vários quadros de encobrimento são queridos. Os quadros de sinal disponíveis e quadros de encobrimento queridos podem consistir em amostras de domínio de tempo de um sinal deáudio, por exemplo um sinal de fala, ou elas podem consistir em amostras derivas disso, tais como amostras de excitação de predição linear, ou elas podem consistir em outros coeficientes derivados do sinal de áudio e representativos completamente ou parcialmente de quadros de sinal de som. Exemplos de tais coeficientes são coeficientes de domínio de freqüência,coeficientes de modelo senoidal, coeficientes de codificação preditiva linear, coeficientes de interpolação de forma de onda, e outros conjuntos de coeficientes que são representativos completamente ou parcialmente das amostras de sinal de áudio.
Figura 5 ilustra uma concretização preferida da invenção.
Seguindo a Figura 5, os quadros de sinal 595 disponíveis, que podem ser recebidos e decodificados ou quadros de sinal transcodificados ou quadros de encobrimento de operação anterior disto ou outros métodos para gerar quadros de encobrimento ou uma combinação dos supracitados tipos dequadros de sinal, são armazenados em uma memória temporária de quadro 600. O sinal no memória temporária de quadro é analisado por um gerador de padrão de índice 660. O gerador de padrão de índice pode vantajosamente fazer uso de estimativas de passo de sinal 596 e articulação 597.
Dependendo do projeto de sistema global, estas estimativas podem estar disponíveis paraentrada de outros processos tal como um processo de codificação, decodificação ou transcodificação ou eles são calculados por outros meios usando preferivelmente métodos do estado da técnica para análise de sinal.
Além disso, o gerador de padrão de índice toma como entrada o número 598 de quadros de sinal de encobrimento para gerar e ponteiros 599 para o começo e fim dos quadros de sinal particulares na memória temporária de quadro que o quadro ou quadros de encobrimento são para substituição. Como um exemplo, se estas memórias temporárias apontarem para o fim da memória temporária de quadro, então isto significa que o quadro ou quadros de encobrimento deveriam ser feitos adequados para seguir o sinal armazenado no memória temporária de quadro. Como outro exemplo, se estes ponteiros mostrarem um subconjunto não vazio de quadros consecutivos na memória temporária de quadro, então isto significa que o quadro ou quadros de encobrimento deveriam ser feitos para substituir estes quadros na seqüência de quadro representativa ou parcialmente representativa do sinal desom.
Para ilustrar isto ademais, assuma que a memória temporária de quadro 600 contém quadros de sinal A, B, C, D, E, e que o número de quadros de encobrimento 598 é dois. Então, se os ponteiros paro quadros para substituir 599 pontos ao fim da memória temporária de quadro, isto significa que dois quadros de sinal de encobrimento deveriam ser feitos seguirem em seqüência depois de quadro de sinal E. Reciprocamente, se os ponteiros 599 mostrarem quadros de sinal B, C, D, os dois quadros de encobrimento deveriam ser feitos substituir os quadros de sinal B, C, D e seguirem emseqüência depois de quadro de sinal A e serem seguidos em seqüência por quadro de sinal E.
Métodos interessados para determinar o número de quadros de encobrimento 598 e o subconjunto de quadros que os quadros de encobrimento deveriam substituir eventualmente, isto é, os ponteiros 599,métodos do estado da técnica deveriam ser usados preferivelmente. Assim, os dados 596, 597, 598, e 599 junto com os quadros de sinal 595 constituem entradas para o dispositivo de método e arranjo da presente invenção.
Em certos projetos de sistema global, o comprimento ou dimensão de um quadro de sinal de som mantido vantajosamente como uma constante durante a execução da unidade de encobrimento. Entre outros cenários, este é tipicamente o caso quando a unidade de encobrimento é integrada em um sistema de retransmissão, onde o resultado do encobrimento deveria ser posto em pacotes representativos de sinal de som dentro de um intervalo de tempo de comprimento prefixado, este comprimento prefixado sendo determinado em outro lugar. Como um exemplo, este comprimento prefixado pode ser determinado durante as negociações de protocolo durante uma chamada estabelecida em um sistema de Voz através de IP, e pode ser alterado durante a conversação em resposta a por exemplo mecanismos de controle de congestão de rede. Algumas concretizações da presente invenção,como ficará claro mais tarde, satisfazem este requisito de trabalhar com um comprimento prefixado de um quadro de sinal de um modo vantajoso. Porém, a inovação como tal não está limitada a estes requisitos de sistema; outras concretizações da presente inovação podem trabalhar com encobrimentos que são um número não inteiro de quadros, e quadros de encobrimento que têm comprimentos variados em tempo, e onde estes comprimentos podem ser funções do conteúdo específico na memória temporária de quadro, possivelmente em combinação com outros fatores.
Concretizações da presente invenção podem vantajosamentefazer uso de uma operação de nivelamento e equalização 610 operando no sinal 605 da memória temporária de quadro. Este nivelamento e equalização gera um sinal 615, em que quadros mais cedo em tempo que o quadro ou quadros de encobrimento têm uma semelhança aumentada com o quadro ou quadros de sinal que o quadro ou quadros de encobrimento substituem ou umquadro imediatamente antes disso.
Alternativamente, se o quadro ou quadros de encobrimento forem inseridos em seqüência com os quadros existentes sem substituição, semelhança é com o quadro ou quadros imediatamente antes da posição planejada do quadro ou quadros de encobrimento. Para referência posterior, nós simplesmente chamamos ambos estes casos como semelhança.
Semelhança é como interpretado por um ouvinte humano. O nivelamento e equalização obtém um sinal com semelhança aumentada, enquanto ao mesmo tempo preservando uma evolução naturalmente sonora do sinal 615.
Exemplos de operações crescentes de semelhança que são executadas vantajosamente pelo nivelamento e equalização 610 incluem suavidade aumentada e semelhança em parâmetros tais como envelope de energia, contorno de passo, grau de articulação, corte de articulação e envelope espectral, e outros parâmetros perceptivamente importantes.
Relativo a cada um destes parâmetros, transientes abruptos em evolução do parâmetro dentro dos quadros a serem nivelados e equalizadossão filtrados fora e o nível médio do parâmetro nestes quadros é modificado suavemente para se tornar mais semelhante no significado de semelhança definido acima. Vantajosamente, semelhança só é introduzida a uma extensão que ainda preserva uma evolução naturalmente sonora do sinal. Sob o controle do gerador de padrão de índice 660, o nivelamento e equalização podem vantajosamente diminuir transientes e descontinuidades que podem caso contrário ocorrer na operação de indexação e interpolação 620 seguinte. Além disso, o nivelamento e equalização de contorno de passo pode ser vantajosamente controlados pelo gerador de padrão de índice 660 de tal modoa minimizar a distorção que é introduzida eventualmente caso contrário nos quadros de encobrimento mais tarde pelo filtro de fase 650. A operação de nivelamento e equalização pode vantajosamente fazer uso de sinal ou substituição de parâmetro, mistura, interpolação e/ou fusão com quadros de sinal (ou parâmetros derivados dele) achados ademais atrás em tempo namemória temporária de quadro 600. A operação de nivelamento e equalização 610 pode ser omitida do sistema sem desviar da extensão geral da presente invenção. Neste caso, o sinal 615 iguala ao sinal 605 e a entrada de sinal 656 e saída de controle 665 do gerador de padrão de índice 660 podem nesse caso ser omitidas do projeto de sistema.
A operação de indexação e interpolação 620 toma comoentrada, possivelmente nivelado e equalizado, o sinal 615, e um padrão de índice 666. Além disso, em algumas concretizações vantajosas da presente invenção, a operação de indexação e interpolação leva um indicador de qualidade de casamento 667 como entrada. O indicador de qualidade decasamento pode ser um valor escalar por instante de tempo ou pode ser uma função de ambos tempo e freqüência. O propósito do indicador de qualidade de casamento se tornará aparente mais tarde nesta descrição. O padrão de índice 666 parametriza a operação da função de indexação e interpolação.
Figura 5A ilustra um exemplo de como um padrão de índicepode indexar subseqüências nas amostras de memória temporária, BS1, BS2, BS3, BS4, gradualmente para trás em tempo na síntese de um ou mais quadros de encobrimento. No exemplo mostrado, subseqüências consecutivas CS1, CS2, CS3, CS4, CS5, CS6, CS7 nos-quadros de encobrimento CF1, CF2, CF3 são baseadas em subseqüências de memória temporária BS1, BS2, BS3 e BS4 de amostras em quadros BF1, BF2.
Como visto, as subseqüências de encobrimento CS1-CS7 são indexadas das subseqüências de memória temporária BS1-BS4 com um ponteiro de localização que se move gradualmente para trás e então gradualmente adiante em tempo comoexpresso pela notação funcional CS1(BS4), CS2(BS3), CS3(BS2), significando que CS1 é baseado em BS4, e assim por diante.
Assim, Figura 5 A serve como um exemplo de ilustrar como subseqüências consecutivas em quadros de encobrimento podem seguir uma a outra, baseado em subseqüências de memória temporária consecutivas, mas reordenadas em tempo. Como visto, as primeiras quatro subseqüências de encobrimento CS1(BS4), CS2(BS3), CS3(BS2) e CS4(BS1) são escolhidas para serem baseadas nas últimas quatro subseqüências de amostras de memória temporária BS1, BS2, BS3, BS4, em ordem consecutiva, mas em ordem de tempo inversa, assim começando com a última subseqüência de memória temporária BS1. Depois das primeiras quatro subseqüências em ordem de tempo inversa, três subseqüências CS5, CS6, CS7 seguem que são todas baseadas em subseqüências de memória temporária consecutivas em ordem de tempo, isto é BS2, BS3 e BS4, respectivamente.
O padrão de índice preferido é um resultado do gerador de padrão de índice 660 e pode variargrandemente com entradas 656, 596, 597, 598 e 599 para este bloco. Figura 5B dá, seguindo a notação da Figura 5A, outro exemplo ilustrativo de como subseqüências de encobrimento CS 1-CS 11 podem ser baseadas em subseqüências de memória temporária BS1-BS4 que reordenação em tempo. Como visto, subseqüências de encobrimento posteriores são baseadasgradualmente em subseqüências de memória temporária ademais atrás em tempo. Por exemplo, as primeiras duas subseqüências de encobrimento consecutivas CS1 e CS2 são baseadas nas últimas duas subseqüências de memória temporária BS3, BS4, em ordem de tempo inversa, enquanto uma subseqüência encobrimento posterior por exemplo, CS 10 é baseada em BS1, isto é, uma subseqüência de memória temporária ademais atrás em tempo que aquelas usadas para calcular CS1 e CS2. Assim, Figura 5B serve para ilustrar que subseqüências de encobrimento consecutivas são baseadas em subseqüências de memória temporária indexadas adiante e para trás em tempo de uma maneira de forma que a indexação evolua gradualmente para trás em tempo.
Em concretizações vantajosas da presente invenção, esta evolução gradual para trás em tempo é formalizada como uma seqüência do que nós para o propósito desta descrição chamamos recuos e uma seqüência do que nós parao propósito desta descrição chamamos comprimentos de leitura. Em concretizações simples deste formato do padrão de índice, um ponteiro para sinalizar amostras, ou parâmetros ou coeficientes representativos disso, é movido para trás por uma quantidade igual a um primeiro recuo depois do qual, uma quantidade de amostras, ou parâmetros ou coeficientesrepresentativos disso, são inseridos no quadro de encobrimento, esta quantidade sendo igual a um primeiro comprimento de leitura. Depois disso, o ponteiro é movido para trás com uma quantidade igual a um segundo recuo e uma quantidade de amostras, ou parâmetros ou coeficientes representativos disso, igual a um segundo comprimento de leitura é lido, e assimsucessivamente.
Figura 5C ilustra um exemplo deste processo reordenando uma primeira enumeração de amostras indexadas. Esta primeira enumeração é listada no eixo de tempo de sinal enquanto a lista de enumeração no eixo de tempo de encobrimento da Figura 5C corresponde à reordenação das amostrasoriginais como elas são colocadas no quadro de encobrimento. Para este exemplo ilustrativo, o primeiro, segundo e terceiro recuos eram escolhidos arbitrariamente como 5, 6, 5, respectivamente, e o primeiro, segundo e terceiro comprimentos de leitura eram escolhidos igualmente arbitrariamente como 3, 4, 3, respectivamente.
Neste exemplo, as subseqüências com conjuntos de índice de tempo {6,7,8}, {3,4,5,6} e {2,3,4}, respectivamente, são subseqüências que evoluem gradualmente para trás em tempo. As seqüências de recuos e comprimentos de leitura são escolhidas aqui puramente para o propósito de ilustração.
Com amostras de fala residuais amostradas a 16 kHz como um exemplo, valores típicos de recuos estão na faixa de 40 a 240, mas não estão limitados a esta faixa, e valores típicos para os comprimentos de leitura estão na faixa de 5 a 1000 amostras, mas não estão limitados a esta faixa.
Em concretizações mais avançadas deste formato, a transição de uma seqüência dirigida adiante (por exemplo, tempo original ou uma subseqüência indexada atrás em tempo) para outra seqüência dirigida adiante, um recuo ademais em tempo, é feita gradualmente por uma interpolação gradualmente deslocada.
Figura 6 ilustra a operação de uma concretização simples da função de indexação e interpolação em resposta a um recuo e um comprimento de leitura correspondente e indicador de qualidade de casamento. Só para o propósito de ilustração, quadros de sinal consistem aqui em amostras de áudio de domínio de tempo. A interpolação gradualmente deslocada se aplica na definição geral de "amostra" usada nesta descrição, isto é, incluindo coeficientes escalares ou vetor avaliado ou parâmetros representativos das amostras de áudio de domínio de tempo, de uma maneira semelhante e por esse meio direta. Nesta figura, 700 ilustra um segmento do sinal 615. O ponteiro 705 é o instante de tempo de amostra seguindo o instante de tempo de amostra da última amostra gerada no sinal de saída de indexação e interpolação 625. O intervalo de tempo 750 tem um comprimentoigual ao comprimento de leitura. O intervalo de tempo 770 também tem um comprimento igual ao comprimento de leitura. O intervalo de tempo 760 tem um comprimento igual ao recuo. As amostras de sinal em 700 a partir de tempo 705 e comprimento de leitura adiante em tempo são um por um multiplicados com uma função de janela 720. Também as amostras de sinal em 700 começando em um local uma amostra depois de recuo antes do local 706 e amostras de comprimento de leitura à frente de lá são multiplicadas uma por uma com uma função de janela 710. As amostras resultantes de multiplicação com janela 710 e com janela 720 são adicionadas uma por uma 730 para resultar nas amostras 740 que constituem um novo lote de amostras para a saída 625 da operação de indexação e interpolação. Na conclusão desta operação, o ponteiro 705 se move para o local 706.
Em concretizações simples da presente invenção, as funções de janela 710 e 720 são funções simples do comprimento de leitura 750. Uma tal função simples é escolher a janela 710 e a janela 720 como a primeira e segunda metades, respectivamente, de uma janela de Hanning de comprimento duas vezes o comprimento de leitura. Enquanto uma ampla gama de funções pode ser escolhida aqui, observe que para tais funções serem significantes no contexto da presente invenção, elas devem realizar uma interpolação ponderada entre as amostras no segmento indicado por 750 e as amostras indicadas por 770 de tal modo que nós gradualmente, mas não necessariamente monotonicamente, movamos de um peso alto no segmento indicado por 750 a um peso alto no segmento indicado por 770.
Em outras concretizações da presente invenção, as funções de janela 710 e 720 são funções do indicador de qualidade de casamento. Um exemplo simples de uma tal função é que, dependendo de um limiar em correlação normalizada nos segmentos do sinal 700 indicado por intervalos de tempo 750 e 770, uma operação de interpolação é escolhida para tanto somar a unidade em amplitudes ou em potências. Outro exemplo de tal função evitao constrangimento para englobar amplitudes ou potências a um, mas ao invés só otimiza pesos de janela como uma função da medida de casamento. Refinamento adicional deste método toma o valor real da correlação normalizada e otimiza a operação de interpolação em resposta a ele, por exemplo usando métodos de estimação linear clássicos. Porém, exemplos de métodos preferidos são descritos no seguinte. Nestes exemplos, o limiar, respectivamente o valor atual de correlação normalizada dá exemplos de informação vantajosa levada pelo indicador de qualidade de casamento 667. De acordo com concretizações preferidas descritas no seguinte, a operação deinterpolação pode ser feita para implementar ponderações diferentes a freqüências diferentes. Neste caso, o indicador de qualidade de casamento 667 pode vantajosamente fazer medições de casamento como uma função de freqüência. Em concretizações vantajosas, esta ponderação como uma função de freqüência é implementada como uma linha de atraso com derivações ououtra forma de filtro paramétrico que pode ser otimizado para maximizar o critério de casamento.
Na Figura 6, uma ilustração é dada da operação de indexação e interpolação quando o sinal 615 (e portanto o segmento de sinal 700) contém amostras que são representativas de amostras de domínio de tempo de umsinal de som ou de um sinal de domínio de tempo derivado dele. Como mencionado acima, amostras em quadros 595, e por esse meio em sinais 605 e 615, podem ser vantajosamente tais que cada amostra seja um vetor (amostras avaliadas de vetor) onde um tal vetor contém coeficientes ou parâmetros que são representativos ou parcialmente representativos do sinal de som.
Exemplos de tais coeficientes são freqüências espectrais de linha, coeficientes de domínio de freqüência, ou coeficientes definindo um modelo de sinal senoidal, tais como conjuntos de amplitudes, freqüências e fases. Com uma base nesta descrição detalhada de concretizações preferidas da presente invenção, o projeto de operações de interpolação que são aplicadasvantajosamente a amostras avaliadas de vetor é possível a uma pessoaqualificada na técnica, como os detalhes restantes podem ser achadosdescritos na literatura geral para cada um dos casos específicos de taisamostras avaliadas de vetor.
É vantajoso para a compreensão da presente invenção observarque quando a operação de indexação e interpolação é aplicada repetidamentecom um comprimento de leitura que é menor do que o recuo, então oresultado será que as amostras no sinal 625 se tornam representativas deamostras de sinal que são gradualmente adicionais e ademais de volta no sinal615. Quando então o recuo ou comprimento de leitura é mudado tal que ocomprimento de leitura fique maior que o recuo, então este processo virará eamostras no sinal 625 agora se tomam representativas de amostras de sinalque são gradualmente cada vez mais adiante no sinal 615. Por escolhavantajosa da seqüência de recuos e da seqüência de comprimentos de leitura,um sinal de encobrimento longo com variação rica e natural pode ser obtidosem pedir amostras à frente em tempo do quadro de sinal recebido maisrecente na memória temporária de quadro 600 ou até mesmo sem pediramostras à frente de outro instante de tempo prefixado, que pode serlocalizado mais cedo que a amostra mais recente no quadro recebido maisrecente na memória temporária de quadro 600. Por esse meio, encobrimentode picos de atraso em um sistema com representação de baixo atraso ouprogramação de memória temporária de saída se torna possível com apresente invenção. Na formulação da presente descrição, a evolução temporalretrógrada simples rígida do sinal, que pode ser útil para pensar de como umelemento em uma concretização simples da presente invenção, é realizada poruso repetido de um comprimento de leitura de uma amostra, um recuo de duasamostras e uma janela 720 incluindo uma única amostra de valor 0 e umajanela 710 incluindo uma única amostra de valor 1,0.
O objetivo primário do gerador de padrão de índice 660 écontrolar a ação da operação de indexação e interpolação 620. Em umconjunto de concretizações preferidas, este controle é formalizado dentro epadrão de indexação 666, que pode consistir em uma seqüência de recuos euma seqüência de comprimentos de leitura. Este controle pode ser aumentadoademais com uma seqüência de indicações de qualidade de casamento, quepor sua vez podem ser funções por exemplo de freqüência. Uma característicaadicional, que pode ser saída do gerador de padrão de índice, e qual uso setornará claro mais tarde nesta descrição é uma contagem de repetição 668. Osignificado de contagem de repetição é o número de vezes que uma evoluçãorecuada em tempo é iniciada na construção do quadro ou quadros deencobrimento. O gerador de padrão de índice obtém estas seqüências de umabase em informação, que pode incluir o sinal nivelado e equalizado 656 saídoda operação de nivelamento e equalização 610; uma estimativa de passo 596,uma estimativa de articulação 597, um número 598 de quadros deencobrimento para gerar e ponteiros 599 para os quadros a substituir. Em umaconcretização do gerador de padrão de índice, ele entrará em modos diferentesdependendo do indicador de articulação. Tais modos são exemplificadosabaixo.
Como um exemplo vantajosamente usado no domínio deexcitação preditiva linear, se o indicador de articulação indicar robustamenteque o sinal é fala não articulada ou que nenhuma fala ativa está presente nosinal, isto é, o sinal consiste em ruído de fundo, o gerador de padrão de índicepode entrar em um modo no qual uma reversão simples da evolução temporaldas amostras de sinal é iniciada. Como descrito anteriormente, isto pode serrealizado por exemplo submetendo uma seqüência de valores de recuo igual adois e uma seqüência de valores de comprimento de leitura igual a um (estadescrição é baseada na escolha de projeto que a própria operação deindexação e interpolação identificará estes valores e aplicará a função dejanela adequada como descrito acima). Em alguns casos, esta seqüência podecontinuar até que uma evolução temporal inversa do sinal tenha sidoimplementada para metade do número de amostras novas precisadas noquadro ou quadros de encobrimento, depois do que, os valores na seqüênciade recuo podem mudar a 0, por meio de que uma evolução temporal dianteirado sinal é começada, e continuar até que o ponteiro 706 esteja efetivamenteatrás no ponto de partida para o ponteiro 705 na primeira aplicação do recuo.Porém, este procedimento simples não será sempre suficiente paro quadros deencobrimento de alta qualidade. Uma tarefa importante do gerador de padrãode índice é a monitoração de critérios de parada adequados. No exemploanterior, a evolução temporal inversa pode retornar o ponteiro 706 a umaposição no sinal a qual o som, como interpretado por um ouvinte humano, ésignificativamente diferente do ponto de partida. Antes que isto ocorra, aevolução temporal deveria ser virada.
Concretizações preferidas da presente invenção podem aplicarum conjunto de critérios de parada baseado em um conjunto de medidas. Oseguinte exemplifica algumas destas medidas e critérios de parada. Se aarticulação indicar que o sinal no ponteiro 706 é articulado, então no exemploanterior começando de não articulada, a direção de evolução temporal podeser virada vantajosamente, também se a energia de sinal em uma área ao redorao ponteiro 706 for diferente (como determinado por um limiar absoluto ourelativo) da energia de sinal no ponto de partida para o ponteiro 705, a direçãode evolução temporal pode ser vantajosamente virada. Como um terceiroexemplo, a diferença espectral entre uma região ao redor do ponto de partidapara o ponteiro 705 e a posição atual do ponteiro 706 podem exceder umlimiar e a direção de evolução temporal deveria ser virada.
Um segundo exemplo de um modo pode ser evocado quando osinal não pode ser determinado robustamente como não articulado ou nãocontendo nenhuma fala ativa. Neste modo, a estimativa de passo 596 constituiuma base para determinar o padrão de índice. Um procedimento para fazeristo é que cada recuo seja pesquisado para dar uma correlação normalizadamaximizada entre o sinal de ponteiro 705 e um ciclo de passo à frente emtempo e o sinal de um ponto que está recuado mais cedo que o ponteiro 705 eum ciclo de passo à frente. A pesquisa para valores potenciais de recuo pode ser vantajosamente constrangida a uma região. Esta região pode ser fixadavantajosamente a mais ou menos 10 por cento ao redor do recuo previamenteachado ou o atraso de passo se nenhum recuo foi achado.
Uma vez que o ecuo foi determinado, o valor de comprimento de leitura determinará se aevolução de sinal temporal deveria evoluir para trás ou adiante em tempo, equão rápida esta evolução deveria acontecer. Uma evolução lenta é obtida poruma escolha de comprimento de leitura perto do valor identificado de recuo.Uma evolução rápida é obtida por uma escolha de comprimento de leitura queé muito menor ou muito maior que o recuo no caso de evolução para trás eadiante, respectivament.
Um objetivo do gerador de padrão de índice éselecionar o comprimento de leitura para otimizar a qualidade de som comointerpretado por um ouvinte humano. Selecionar o comprimento de leituraperto demais ao recuo pode em alguns sinais, tais como sinais que não sãosuficientemente periódicos, resultar em artefatos perceptivamente irritantestais como sons de corda. Selecionar o comprimento de leitura longe demais do recuo, implica que um intervalo de tempo maior na memória temporária dequadro é varrido finalmente durante a evolução temporal do quadro ouquadros de encobrimento, alternativamente que a direção de evoluçãotemporal tem que ser virada mais vezes antes que a quantidade suficiente deamostras para o quadro ou quadros de encobrimento tenha sido gerada.
O primeiro caso pode em alguns sinais, tais como sinais quenão são suficientemente estacionários (alternativamente não suficientementelisos e equalizados), resultar em um tipo de artefatos perceptivamenteirritantes que têm certa semelhança com um gaguejar no som do quadro ouquadros de encobrimento. No segundo caso, artefatos como som de cordapodem ocorrer. Uma característica de concretizações vantajosas da presenteinvenção é que o comprimento de leitura pode ser determinado como umafunção do recuo e da correlação normalizada, que é otimizada na pesquisapara o recuo ótimo. Uma escolha simples, contudo vantajosa, desta função emconcretizações da presente invenção trabalhando em sinais de fala e quandoquadros de sinal contém 20 ms de sinal de excitação preditiva linearamostrada a 16 kHz, é como um exemplo dada pela função seguinte:
ReadLength = [(0,2 + NormalizedCorrelation/3) * StepBack]
Onde colchetes [] são usados para indicar arredondamento aointeiro mais próximo e onde símbolos ReadLength, NormalizedCorrelation, eStepBack são usados para denotar o comprimento de leitura que a correlaçãonormalizada obteve para o recuo ótimo e o recuo correspondente,respectivamente. A função anterior só está incluída como um exemplo paralevar uma escolha vantajosa em algumas concretizações da presente invenção.
Qualquer escolha de comprimento de leitura incluindo qualquer relaçãofuncional para obter este comprimento de leitura é possível sem desviar doespírito da presente invenção. Em particular, métodos vantajosos paraselecionar o comprimento de leitura incluem o uso de controle 665 paraparametrizar a operação de nivelamento e equalização 610 tal como alcançaruma minimização associada de artefatos como gaguejar e como som de cordaem um quadro de encobrimento intermediário 625. Isto explica por que ogerador de padrão de índice 660 toma o sinal intermediário 656 como entradaem lugar da saída 615 da operação de nivelamento e equalização: o sinal 656representa versões potenciais do sinal final 615 sob o controle 665, e habilitao gerador de padrão de índice a aproximar a tarefa de otimização por meio derepetições. Como é o caso para o modo de fala não articulada e não ativoacima, os critérios de parada são essenciais neste modo também. Todos osexemplos de critérios de parada postos adiante no modo acima se aplicam aeste modo igualmente. Adicionalmente, neste modo, critérios de parada demedir no passo e correlação normalizada pode fazer vantajosamente parte deconcretizações da presente invenção.
Figura 7 ilustra, como um exemplo, uma lógica de decisãovantajosa para uma combinação de critérios de parada. Na Figura 7, os sinaisde referência indicam o seguinte:
800: Identifique se o sinal é tipo de alta correlação, tipo debaixa correlação ou nenhum destes. Determine o nível de energia inicial;
801: Determine próximo recuo e correlação normalizada ecomprimento de leitura;
802: Determine se o sinal entrou em tipo de baixa correlação;
803: Determine se o sinal entrou em tipo de alta correlação;
804: Sinal é de tipo de alta correlação?;
805: Sinal é de tipo de baixa correlação?;
806: Energia está abaixo de limiar mínimo relativo ou acimade limiar máximo relativo?;
807: Correlação está normalizada abaixo de limiar para tipo dealta correlação?;
808: Correlação está normalizada acima de limiar para tipo debaixa correlação?;
809: Amostras suficientes foram geradas?
No caso de operação no domínio de excitação preditiva linearde fala amostrada a 16 kHz, os limiares tratados na Figura 7 podem serescolhidos vantajosamente como segue: tipo de alta correlação pode serentrado quando uma correlação normalizada maior que 0,8 é encontrada; umlimiar para permanecer em tipo de alta correlação pode ser fixado a 0,5 emcorrelação normalizada; tipo de baixa correlação pode ser entrado quandouma correlação normalizada mais baixa que 0,5 é encontrada; um limiar parapermanecer em tipo de baixa correlação pode ser fixado a 0,8 em correlaçãonormalizada; uma energia relativa mínima pode ser fixada a 0,3; e umaenergia relativa máxima pode ser fixada a 3,0. Além disso, outras lógicaspodem ser usadas e outros critérios de parada podem ser usados no contextoda presente invenção sem desviar do espírito e extensão da presente invenção.
A aplicação de critérios de parada significa que uma únicaevolução, para trás em tempo até qualquer amostra suficiente, é gerada ou umcritério de parada é cumprido e então adiante em tempo novamente, não égarantido dar o número precisado de amostras para as quadros deencobrimento. Portanto, mais evoluções, para trás e adiante em tempo, podemser aplicadas pelo gerador de padrão de índice. Porém, evoluções demais atráse adiante podem em alguns sinais criar artefatos como som de corda. Portanto,concretizações preferíveis da presente invenção podem otimizar juntamenteos critérios de parada, a função aplicada em cálculo dos comprimentos deleitura, o controle de nivelamento e equalização 665, e o número de evoluçõesatrás e adiante, isto é, a contagem de repetição 668, e se habilitado pelosponteiros aos quadros a substituir 599, também o número de amostras que nósevoluímos adiante em tempo antes que cada evolução para trás em tempo sejainiciada. Para este fim, a operação de nivelamento e equalização tambémpode ser controlada vantajosamente de modo a modificar ligeiramente ocontorno de passo do sinal. Além disso, a otimização associada pode levar emconta a operação do filtro de fase 650, e fazer mudanças leves ao contorno depasso tal como resultar em um padrão de índice que minimize a distorçãointroduzida no filtro de fase juntamente com os outros parâmetrosmencionados acima. Com uma base na descrição de concretizações preferidaspara a presente invenção, uma pessoa qualificada na técnica entende que umavariedade de ferramentas de otimização geral se aplica a esta tarefa, estasferramentas incluem otimização iterativa, processos de decisão de Markov,métodos de Viterbi e outros. Qualquer de quais é aplicável a esta tarefa semdesviar da extensão da presente invenção.
Figura 8 ilustra por meio de um gráfico de fluxo um exemplode um procedimento iterativo para realizar uma otimização simples, contudoeficiente, destes parâmetros. Na Figura 8, os sinais de referência indicam oseguinte:
820: Inicie controles para nivelamento e equalização 665;
821: Obtenha novo sinal liso 656;
822: Inicie critérios de parada;
823: Inicie o número permitido de repetições;
824: Identifique o padrão de índice para uma seqüência deevoluções atrás e adiante distribuída uniformemente através dos quadrosdisponíveis indicados por ponteiros 599 ou se apontando para fim de quadrosdisponíveis, evoluções para trás seguindo diretamente depois de evoluçõesadiante;
825: A quantidade de amostras é suficiente para o número dequadros de encobrimento 598 gerados?;
826: O número máximo de repetições é alcançado?;
827: Aumente o número de repetições;
828: O limiar mais frouxo é para critérios de paradaalcançados?;
829: Afrouxe os limiares para critérios de parada;
830: Mude controles para aumentar o impacto de nivelamentoe equalização.
Note que uma evolução para trás e adiante em tempo e umaevolução seguinte para trás e adiante em tempo, no caso que sinal suficientenão tinha sido sintetizado na evolução ou evoluções prévias para trás e adianteem tempo, pode diferir vantajosamente. Como exemplos, as seqüênciasrecuos, comprimentos de leitura, e funções de interpolação, e também oponteiro de localização de fim depois de evolução para trás e adiante emtempo deveria ser idealizado tal a minimizar artefatos de periodicidade quecaso contrário resultam de uma repetição de padrões de índice semelhantes.Com amostras de domínio residual de fala articulada a 16 kHz como umexemplo, uma evolução para trás e adiante em tempo, gerandoaproximadamente, digamos, 320 amostras, pode terminar preferivelmenteaproximadamente 100 amostras ademais atrás no sinal que uma evolução anterior para trás e adiante em tempo.
As concretizações expostas até este ponto diminuemeficazmente os problemas de sons de corda artificialmente soando conhecidosde métodos da técnica anterior, enquanto ao mesmo tempo habilitamencobrimento eficiente de picos de instabilidade de atraso abruptos e perdas de pacote repetidas ocorrendo abruptamente. Porém, em condições de redeadversas, como encontradas por exemplo em alguns sistemas sem fios e redesad hoc sem fios e redes de melhor esforço e outros cenários de transmissão,ate mesmo o método exposto pode em alguns casos introduzir componentesleves de tonalidade nos quadros de encobrimento.
Uma operação de mistura de ruído secundária 630 e 640 um filtro de atenuação suave portanto podemser aplicados vantajosamente em algumas concretizações da presenteinvenção. As técnicas gerais de mistura de ruído e atenuação são bemconhecidas a uma pessoa qualificada na técnica.
Isto inclui o uso vantajoso deevolução temporal dependente de freqüência da potência do componente deruído e evolução temporal dependente de freqüência da função de atenuação.Uma característica específica ao uso de mistura de ruído e atenuação nocontexto da presente invenção é o uso explícito do padrão de índice 666, amedida de qualidade de casamento 667 e/ou a contagem de repetição 668 paraparametrização adaptável das operações de mistura e atenuação de ruído.
Especificamente, o padrão de indexação indexa onde amostras de sinalinalteradas são colocadas no quadro de encobrimento e onde as amostras doquadro de encobrimento resultam de uma operação de interpolação. Alémdisso, a relação de recuo relativo a comprimento de leitura em combinaçãocom a medida de qualidade de casamento são indicativos da qualidadeperceptiva resultando da operação de interpolação. Assim, pouco ou nenhumruído pode ser misturado vantajosamente nas amostras originais, mais ruídopode ser misturado vantajosamente nas amostras que resultam de um processode interpolação e a quantidade de ruído misturada nestas amostras pode servantajosamente uma função da medida de qualidade de casamento,vantajosamente de uma maneira diferenciada em freqüência. Além disso, ovalor do comprimento de leitura relativo ao recuo também é indicativo daquantidade de periodicidade que pode ocorrer, a mistura de ruído podevantajosamente incluir esta medida na determinação de quantidade de ruído amisturar no sinal de encobrimento. O mesmo princípio se aplica à atenuação;uma atenuação suave é vantajosamente usada, mas menos atenuação pode serintroduzida para amostras que são representativas de amostras de sinaloriginais e mais atenuação pode ser introduzida para amostras que resultam daoperação de interpolação. Além disso, a quantidade de atenuação nestasamostras pode ser vantajosamente uma função da indicação de qualidade decasamento e vantajosamente de uma maneira diferenciada em freqüência.Novamente, o valor do comprimento de leitura relativo ao recuo é indicativoda quantidade de periodicidade que pode ocorrer; a operação de atenuaçãopode vantajosamente incluir esta medida no projeto da atenuação.
Como tratado no fundo para a presente invenção, um objetivoimportante de um subconjunto de concretizações da presente invenção obtémquadros de encobrimento de comprimento prefixado igual ao comprimento dequadros de sinal regulares. Quando isto é querido de uma perspectiva desistema, os meios para este fim podem ser vantajosamente um filtro de fase650. Uma operação computacionalmente simples, aproximada masfreqüentemente suficiente deste bloco é realizar suma adição comsuperposição lisa entre amostras que ultrapassam o comprimento de quadroprefixado vezes o número de quadros de encobrimento com um subconjuntode amostras do quadro seguindo os quadros de encobrimento. Visto isolado,este método é bem conhecido do estado da técnica e usado por exemplo narecomendação da União de Telecomunicações Internacional ITU-T G.711Apêndice 1. Quando prático de uma perspectiva de sistema, o procedimentosimples de adição com superposição ponderada pode ser melhorado por umamultiplicação de quadros subseqüentes com -1 sempre que isto aumentar acorrelação na região de adição com superposição. Porém, outros métodospodem ser usados vantajosamente, por exemplo na transição entre quadros desinal falado, para diminuir ademais o efeito de descontinuidades nos limitesde quadro.
Um tal método é uma re-amostragem dos quadros deencobrimento. Visto como um método isolado, isto também é bem conhecidodo estado da técnica. Veja por exemplo, Valenzuela e Animalu, "A newvoice-packet reconstruction technique", IEEE, 1989. Assim, diminuirdescontinuidades em limites de quadro pode ser executado por uma pessoaqualificada na técnica.
Porém, em concretizações preferidas da invenção expostas com isto, a re-amostragem pode ser vantajosamente continuada nosquadros seguido o último quadro de encobrimento. Por este meio, o declive demudança temporal e assim o deslocamento de freqüência, que é umaconseqüência da técnica de re-amostragem, pode ser feito imperceptívelquando interpretado por um ouvinte humano.
Ademais, em lugar de re-amostragem, o uso de filtros passa-todas variados em tempo para diminuirdescontinuidades em limites de quadro é exposto com a presente invenção.Uma concretização disto, é como dada pela equação de filtro:H_L(z,t) = (alpha_l(t) + alpha_2(t)*zA(-L))/(alpha_2(t) + alpha_l(t) * zA(-L))
A função de qual é explicada como segue. Suponha que umavarredura de um atraso de L amostras para uma atraso de 0 amostras é queridaatravés de um intervalo de varredura, que pode incluir todas ou parte dasamostras em todos ou parte dos quadros de encobrimento; e em quadros antesdos quadros de encobrimento; e em quadros depois dos quadros deencobrimento. Então, no princípio do intervalo de varredura, alpha_l(t) éfixado a zero e alpha_2(t) é fixado a 1,0 de modo a implementar um atraso deL amostras. Quando a varredura através de t começa, alpha_l(t) deveriaaumentar gradualmente para 0,5 e alpha_2(t) deveria diminuir gradualmentepara 0,5. Quando, no fim do intervalo de varredura alpha_l(t) igualaalpha_2(t), o filtro H_L(z,t) introduz um atraso de zero. Reciprocamente, seuma varredura de um atraso de zero amostras a um atraso de L amostras forquerida através de um intervalo de varredura, que pode incluir todas ou partedas amostras em todos ou parte dos quadros de encobrimento; e em quadrosantes dos quadros de encobrimento; e em quadros depois dos quadros deencobrimento. Então, no princípio do intervalo de varredura, alpha_l(t) éfixado a 0,5 e alpha_2(t) é fixado a 0,5 de modo a implementar um atraso de 0amostras. Quando a varredura através de t começa, alpha_l(t) deveriadiminuir gradualmente para 0 e alpha_2(t) deveria aumentar gradualmentepara 1,0. Quando, no fim do intervalo de varredura alpha_l(t) iguala 0 ealpha_2(t) iguala 1,0, o filtro H_L(z,t) introduz um atraso de L amostras.
A filtragem anterior é computacionalmente simples, porémtem uma resposta de fase não linear. Por razões perceptivas, esta fase nãolinear limita seu uso a L relativamente pequeno. Vantajosamente, L < 10 parafala a uma taxa de amostra de 16 kHz. Um método para realizar a filtragempara valores maiores de L inicial é iniciar vários filtros para valores de Lmenores que englobam o valor de L total desejado, estes vários filtros podemser iniciados vantajosamente a instantes diferentes de tempo e varrer suagama de alfa através de intervalos diferentes de tempo. Um outro método paraaumentar a gama de L no qual este filtro é aplicável, é exposto no seguinte.
Uma estrutura que implementa um mesma funcionalmente de filtragem comoa anterior é dividir o sinal em L polifases e conduzir a seguinte filtragem emcada uma destas polifases:
H_l(z,t) = (alpha_l(t) + alpha_2(t)*zA(-l))/(alpha_2(t) + alpha_l(t) * zA(-l))
Pela presente invenção, a filtragem polifásica é implementadavantajosamente por uso de sobre-amostragem. Um modo para fazer istovantajosamente é sobre-amostrar cada polifase com um fator K e conduzir afiltragem H_l(z,t) K vezes em cada polifase sobre-amostrada antes de sub-amostragem com um fator K e reconstrução do sinal modificado em fase daspolifases. O fator K pode ser escolhido vantajosamente como K=2. Peloprocedimento de sobre-amostragem, uma resposta de fase, que é mais pertode linear, é obtida. Por este meio, a qualidade percebida como interpretadapor um ouvinte humano é melhorada.
O ajuste de fase descrito acima através de múltiplos quadros éaplicável quando quadros de encobrimento são inseridos em uma seqüênciade quadros recebidas sem perda. Também é aplicável quando quadros sãoretirados da seqüência de sinal a fim de reduzir atraso de reprodução dequadros subseqüentes. E é aplicável quando quadros são perdidos e zero oumais quadros de encobrimento são inseridos entre os quadros recebidos antese os quadros recebidos depois da perda. Nestes casos, um método vantajosopara adquirir o sinal de entrada para este filtro e achar a atraso L é comosegue:
1) Nos quadros mais cedo em tempo que o ponto dedescontinuidade, um método de encobrimento, o exposto com isto ouqualquer outro, é continuado ou iniciado.
2) nos quadros mais tarde em tempo que a descontinuidadevárias amostras L_test são inseridas no começo de quadro por um método deencobrimento, o exposto com isto ou qualquer outro, mas com uma indexaçãoinvertida das amostras de tempo.
3) Uma medida casamento, tal como correlação normalizada, éaplicada entre o quadro ou quadros de encobrimento de 1) e o quadro ouquadros de 2) incluindo as amostras L_test de cabeçalho.
4) O L_test que maximiza a medida de casamento éselecionado como L.5) O quadro ou quadros de encobrimento de 2) e o quadro ouquadros de 3) são agora somados usando juntos um procedimento de adiçãocom superposição ponderada. Enquanto esta adição com superposiçãoponderada pode ser executada como conhecido por uma pessoa qualificada natécnica, pode ser preferivelmente otimizada como exposto mais tarde nestadescrição;
6) O quadro ou quadros resultantes são usados como entrada àfiltragem de adaptação de fase descrita acima, iniciada com o determinadovalor L. Se L for maior que um limiar, então vários filtros são iniciados ecoeficiente varrido em instantes de tempo diferentes e intervalos de tempo,com seus valores L englobando o determinado valor L.
Vantajosamente, em fala ou resíduo de fala amostrada a 8 ou16 kHz, o limiar anterior pode ser escolhido a um valor na gama de 5 a 50.Ademais vantajosamente, em fala articulada ou resíduo de fala articulada, asamostras de encobrimento L_test e sua continuação no quadro seguinte sãoobtidas por deslocamento circular das amostras do primeiro período de passodo quadro. Por esse meio, uma medida de correlação sem normalização,correlatando o período de passo completo, pode ser usada vantajosamentecomo medida de casamento para achar o deslocamento circular preferido L.
Figura 9 ilustra uma concretização de tal método. Nesta figura,o ajuste de fase cria uma transição lisa entre um quadro de sinal 900 e osquadros seguintes. Isto é realizado como segue: Do quadro de sinal 900 equadros anteriores, um sinal de encobrimento 910 é gerado.
Este sinal de encobrimento pode ser gerado usando os métodos expostos com isso, ou usando outros métodos que são bem conhecidos do estado da técnica. O sinalde encobrimento é multiplicado com uma janela 920 e somado 925 com outrajanela 930, que é multiplicada com um sinal gerado como segue: Um sinal deencobrimento 940 é gerado, de amostras seguintes 950 e possivelmente 960,aplicando efetivamente um método de encobrimento tal como o exposto comisso, ou usando outros métodos que são bem conhecidos do estado da técnica,e concatenados com as amostras seguintes 950. O número de amostras noencobrimento 940 é otimizado tal como a maximizar o casamento entre oencobrimento 910 e a concatenação de 940 e as amostras seguintes 950.
Vantajosamente, correlação normalizada pode ser usada comouma medida deste casamento. Ademais, para reduzir complexidade decomputacional, o casamento pode para fala articulada ou resíduo de falaarticulada ser limitado para incluir um período de passo. Neste caso, asamostras de encobrimento podem 940 ser obtidas como uma primeira parte deum deslocamento circular de um período de passo, e a medida de correlaçãoatravés de período de passo agora não precisa ser normalizada. Por este meio,computações para cálculo do fator de normalização são evitadas. Como para aoperação de indexação e interpolação descrita anteriormente nesta descriçãodetalhada de concretizações preferidas, as janelas vantajosamente podem sernovamente uma função de um indicador de qualidade de casamento e/ou umafunção de freqüência e vantajosamente implementada como uma linha deatraso com derivações. A operação do filtro 970 é como segue. As primeirasamostras L resultando do procedimento de adição com superposição sãopassadas diretamente a sua saída, e usadas para estabelecer o estado inicial dofiltro. Depois disso, os coeficientes de filtro são iniciados como descritoacima, e como o filtro filtra de amostra L+l e remete estes coeficientes sãoajustados gradualmente, tal como para remover gradualmente as L amostrasde atraso, como exposto acima.
Novamente, no procedimento descrito acima, o método deotimizar os pesos das janelas de acordo com maximizar o critério decasamento, como descrito acima, se aplica, e também a generalização dasfunções de janela a pesos dependentes de freqüência e a filtros casados naforma de linhas de atraso com derivações ou outras formas de filtroparamétrico. Em concretizações vantajosas, a evolução temporal do peso defiltro dependente de freqüência é obtida por uma seqüência de três seqüênciasde adição com superposição, primeiro desvanece o quadro ou quadros deencobrimento anteriores, segundo amplia uma versão filtrada destes com umfiltro tal como para casar os quadros de encobrimento obtidos tempo indexadoinverso, então desvanece isto novamente, terceiro amplia o quadro ou quadrosmais tarde em tempo.
Em outro conjunto de concretizações vantajosas, aevolução temporal do peso de filtro dependente de freqüência é obtida poruma seqüência de quatro seqüências de adição com superposição, primeirodesvanece o quadro ou quadros de encobrimento de quadros anteriores,segundo amplia uma versão filtrada destes com um filtro tal como a casar osquadros de encobrimento de quadros posteriores obtidos em tempo indexadoinverso, então desvanece isto novamente, terceiro amplia uma versão filtradados quadros mais tarde em tempo, tal como para ademais melhorar estecasamento, e desvanece isso novamente, e quarto finalmente amplia o quadroou quadros mais tarde em tempo. Concretizações vantajosas adicionais demétodos de adição com superposição ponderada são expostas mais tarde nestadescrição.
Relativo à operação de nivelamento e equalização 610 emconcretizações onde amostras de domínio residuais são usadas como uma parte da informação representativa para o sinal de fala, nivelamento eequalização podem ser aplicados vantajosamente neste sinal residual usandofiltragem adaptada de passo, tal como um filtro de pente ou um filtro deentalhe periódico.
Além disso, filtragem de Wiener ou Kalman com um filtrode correlação de longo prazo mais ruído como um modelo para o resíduo nãofiltrado podem ser aplicados vantajosamente. Neste modo de aplicar o filtrode Wiener ou Kalman, a variância do ruído no modelo se aplica para ajustar aquantidade de nivelamento e equalização. Isto é um uso algo contra-intuitivo,como este componente é tradicionalmente em teoria de filtragem de Wiener eKalman aplicado para modelar a existência de um componente de ruídoindesejado. Quando aplicado na presente inovação, o propósito é fixar o nívelde nivelamento e equalização. Como uma alternativa a filtragem de penteadaptada de passo ou de entalhe e filtragem do tipo de Wiener ou Kalman, umterceiro método é vantajosamente aplicado para nivelamento e equalização desinais residuais no contexto da presente inovação. Por este terceiro método,tanto amplitudes de amostra, como vantajosamente aplicadas por exemplopara fala não articulada, ou vetores consecutivos de amostras, comovantajosamente aplicados, por exemplo, para fala articulada, são feitossimilares crescentemente. Possíveis procedimentos para realizar isto estãoesboçados abaixo para vetores de fala articulada e amostras de fala nãoarticulada, respectivamente.
Para fala articulada, amostras consecutivas de fala ou resíduosão juntados em vetores com várias amostras em cada vetor igual a umperíodo de passo. Para conveniência de descrição, nós aqui denotamos estevetor como v(k). Agora, o método obtém um vetor de resto r(k) como umcomponente de v(k) que não pôde por algum meio ser achado em vetorescircunvizinhos v(k-Ll), v(k-Ll+l),..., v(k-l) e v(k+l), v(k+2),..., v(k+L2).Para conveniência de descrição, o componente achado em vetorescircunvizinhos é denotado a(k). O de vetor de resto r(k) é manipuladosubseqüentemente de alguma maneira linear ou não linear de modo a reduzirsua audibilidade, enquanto preservando naturalidade do vetor reconstruídoresultante, que é obtido re-inserindo o componente a(k) na versão manipuladade r(k).
Isto conduz à versão nivelada e equalizado de fala articuladaou fala residual articulada. Uma concretização simples do princípio descritoacima, usando para conveniência notação de matriz de vetor e parasimplicidade de exemplo, a noção de combinação linear e mínimos quadradospara definir a(k) é dada abaixo. Isto serve somente como um exemplo de umaúnica concretização simples do princípio geral anterior para nivelamento eequalização.
Para o propósito deste exemplo, deixe a matriz M(k) serdefinida como:
M(k) = [v(k-Ll) v(k-Ll+l).... v(k-l) v(k+l) v(k+2).... V(k+L2)]
De qual a(k) pode ser calculado por exemplo como aestimativa de mínimos quadrados de v(k) dado M(k):
a(k) = M(k) inv(trans(M(k)) M(k)) v(k),
onde 'inv ( )' denota inversão de matriz ou pseudo-inversão e'trans ()' denota transposição de matriz. Agora, o resto r(k) pode ser calculadopor exemplo por subtração.
r(k) = v(k)-a(k)
Um exemplo de manipular r(k) é cortando picos fora nestevetor, por exemplo, tal como a limitar o valor absoluto máximo de umaamostra a um nível igual à amplitude máxima do vetor r(k) mais perto doponto de partida do procedimento de encobrimento retrógrado-dianteiro, ou aalgum fator vezes a amplitude da amostra na mesma posição em vetor, mas novetor mais perto do ponto de partida do procedimento de encobrimentoretrógrado-dianteiro. O resto manipulado rm(k) é combinadosubseqüentemente com o vetor a(k) para reconstruir a versão equalizada dev(k), para conveniência aqui denotada por ve(k). Esta combinação pode comoum exemplo ser realizada por adição simples:ve(k) = alpha*rm(k) + a(k)
O parâmetro alfa neste exemplo pode ser fixado a 1,0 ou podeser selecionado vantajosamente para ser menor que 1,0, uma escolhavantajosa para alfa é 0,8.
Para fala não articulada, outro método de equalização enivelamento pode ser usado com vantagem. Um exemplo de nivelamento eequalização para fala não articulada calcula uma adaptação polinomial aamplitudes de sinal residual em domínio logarítmico. Como um exemplo, umpolinômio de segunda ordem e em domínio de logio pode ser usado.
Depois de converter a adaptação polinomial de domínio logarítmico de volta paradomínio linear, a curva de adaptação é normalizada vantajosamente a 1,0 noponto que corresponde ao ponto de partida para o procedimento retrógrado-dianteiro. Subseqüentemente, a curva de adaptação é limitada inferior, porexemplo, a 0,5, onde depois as amplitudes do sinal residual podem serdivididas com a curva de adaptação tal como para equalizar suavemente foraas variações em amplitude do sinal residual não articulado.
Relativo a procedimentos de adição com superposiçãoponderada, algumas, mas não todas as aplicações de quais são expostas maiscedo nesta descrição, isto é, a operação de indexação e interpolação 620 e ométodo para iniciar o sinal de entrada para a filtragem de ajuste de fase 970,procedimentos podem ser executados como conhecido por uma pessoa qualificada na técnica. Porém, em concretizações preferidas de procedimentosde adição com superposição ponderada, os métodos expostos no seguintepodem ser usados vantajosamente.
Em uma concretização simples de um procedimento de adiçãocom superposição ponderada modificada em resposta a um indicador de qualidade de casamento, nós consideramos uma primeira janela multiplicadacom uma primeira subseqüência e uma segunda janela multiplicada com umasegunda subseqüência, e estes dois produtos entram em uma operação deadição com superposição.
Agora, como um exemplo, nós deixamos a primeirajanela ser uma janela de derivação abaixo, tal como uma função monotonicamente decrescente, e nós deixamos a segunda janela ser umajanela de derivação à cima, tal como um função monotonicamente crescente.Em segundo lugar, para o propósito de um exemplo simples, nós deixamos asegunda janela ser parametrizada por um forma de janela básica vezes ummultiplicador escalar. Nós agora definimos: objetivo como dita primeirasubseqüência; w_target como dita primeira subseqüência multiplicadaamostra por amostra com dita janela de derivação abaixo; wjregressor comodita segunda subseqüência multiplicada amostra por amostra com dita formade janela básica para a janela de derivação à cima; e coef como ditomultiplicador de escalar. Agora, o componente de multiplicador de escalar dasegunda janela pode ser otimizado tal como a minimizar um erro ao quadradosomado entre objetivo e o resultado da operação de adição com superposição.Usando por conveniência uma notação de matriz-vetor, o problema pode serformulado como minimizando a diferença quadrada somada entre objetivo e aquantidade:
w_target + w_regressor*coefDefinindo daqui vetores T e H como:T = objetivo - w_targetH = wjregressorA solução para esta otimização é dada como:
coef = inv(trans(H)*H)*trans(H)*T
Em que 'inv ( )' denota inversão de escalar ou matriz, 'trans ( )'denota a transposição de uma matriz ou vetor e * é multiplicação de matriz ouvetor. Agora, como componentes centrais nas invenções expostas com isso,este método pode ser expandido para otimizar a forma atual de uma janela.Um modo para obter isto é como segue. Nós definimos um conjunto deformas para as quais a janela querida é obtida como uma combinação linearde elementos neste conjunto. Nós agora definimos H tal que cada coluna de Hseja uma forma desta amostra por amostra fixa através multiplicado com ditasegunda subseqüência, e nós definimos coef como um vetor de colunacontendo os pesos desconhecidos destas formas na função de janelaotimizada. Com estas definições, as equações anteriores formulando oproblema e sua solução, agora se aplicam a resolver para uma forma de janelamais geral. Naturalmente, o papel da primeira e a segunda janelas pode sertrocado no anterior, tal que agora seja a primeira janela para qual otimizaçãoacontece.
Uma concretização mais avançada da presente invençãootimiza juntamente ambas as formas de janela. Isto é feito definindo umsegundo conjunto de formas de janela básicas, possivelmente equivalente como primeiro fixado de formas de janela, e vantajosamente selecionado comouma indexação invertida em tempo das amostras em cada uma das formas dejanela no primeiro conjunto de formas de janela. Agora defina o w_targetcomo uma matriz, em que cada coluna é uma forma de janela básica de ditosegundo conjunto de formas de janela multiplicado amostra por amostra coma primeira subseqüência e definem coef como um vetor de coluna contendo ospesos para a primeira janela e segundo os pesos para a segunda janela. Então,o problema mais geral pode ser formulado como minimizar a diferençaquadrada somada entre o objetivo e a quantidade:
[w_target w_regressor]*coef,
onde colchetes quadrados [] são usados para formar umamatriz de sub-matrizes ou vetores. Agora, definindo daqui vetores T e Hcomo:
T = objetivo
H = [w_target w_regressor]
A solução para esta otimização é dada como:
coef = inv(trans(H)*H)*trans(H)*T
Ademais, uma concretização mais avançada da presenteinvenção não só formas de janela instantâneas, mas janelas com umaponderação dependente de freqüência otimizada. Uma concretização destainvenção aplica a forma de uma linha de atraso com derivações, entretanto ainvenção geral não está por nenhum meio limitada a esta forma. Um modopara realizar esta generalização é substituir, na definição de w_target ew_regressor acima, cada coluna com várias colunas multiplicando cadaamostra por amostra com a forma de janela básica correspondendo à colunaque elas substituem, mas onde esta forma de janela básica é agoramultiplicada amostra por amostra com a subseqüência pertinente atrasadacorrespondendo a uma posição específica em uma linha de atraso comderivações.
Vantajosamente, otimizações de coeficientes nestes métodoslevam em conta uma ponderação, constrangimento, ou cálculo seqüencial doscoeficientes sem diferir da invenção exposta com isso.
Tais ponderações podem incluir vantajosamente ponderação para mais peso em coeficientes correspondendo a baixos valores de atraso absoluto. Tal cálculo seqüencialpode vantajosamente calcular coeficientes para baixos valores de atrasoabsoluto primeiro, tal como para minimizar a soma de erro ao quadrado sóusando esses coeficientes, e então repetindo subseqüentemente este processopara valores de atraso crescentes, mas só no erro restante das etapas anteriores neste processo.
Em geral, concretizações desta invenção tomam váriassubseqüências como objetivos da otimização.
A otimização em termos geraisminimiza uma função de distorção, que é uma função destas subseqüênciasvisadas e a saída do sistema adição com superposição ponderada. Estaotimização pode sem desviar da presente invenção, aplicar váriosconstrangimentos na seleção de formas básicas e atrasos e sua ponderação naadição com superposição global. Dependendo da seleção exata de formas, oefeito do adição com superposição é vantajosamente gradualmente aumentadode subseqüências seguindo a região de adição com superposição em tempo.
Figura 10 ilustra uma concretização do método exposto deadição com superposição. Esta figura é só para o propósito de ilustrar umaconcretização desta invenção, como a invenção não está limitada à estruturaexata nesta figura. Na Figura 10, um subseqüência 1000 entra na adição comsuperposição otimizada em forma de tempo e freqüência com outrasubseqüência 1010. Cada uma destas subseqüências entra em uma linha deatraso separada, onde na figura, z designa um avanço de tempo de umaamostra e z-1 designa um atraso de tempo de uma amostra, e onde os atrasosselecionados de 1, -1, e 0 são puramente para o propósito de ilustração: outrosatrasos, mais e menos, podem ser usados vantajosamente com relação àpresente invenção. Cada versão atrasada de cada subseqüência é multiplicadaagora com várias formas de janela básicas, e o resultado de cada uma destas émultiplicado com um coeficiente a ser achado juntamente com os outroscoeficientes no curso da otimização. Depois de multiplicação com estescoeficientes, as subseqüências resultantes são somados para produzir a saída1020 da adição com superposição otimizada em forma de tempo e freqüência.A otimização 1030 de coeficientes toma, no exemplo da Figura 10,subseqüências 1040 e 1050 como entrada, e minimiza uma função dedistorção, que é uma função de 1040 e 1050 e a saída 1020.
Nas reivindicações, sinais de referência para as figuras sãoincluídos só por razões de clareza. Estas referências a concretizaçõesexemplares nas figuras não deveriam de qualquer forma ser interpretadascomo limitando a extensão das reivindicações.