"MARCA D'ÁGUA ESCONDIDA DE SINAIS DE AUDIO USANDOMODIFICAÇÕES DE FASE"
Campo da Invenção
A invenção refere-se a um método e a um aparelhopara transmitir ou recuperar dados de marca d'água embutidosem um sinal de áudio usando modificações da fase do dito si-nal de áudio.
Fundamentos da Invenção
A marca d'água de sinais de áudio pretende manipu-lar o sinal de áudio de uma forma que as mudanças no conteú-do de áudio não possam ser reconhecidas pelo sistema auditi-vo humano. A maior parte das tecnologias de marca d'água deáudio adiciona ao sinal de áudio original um sinal do espec-tro disperso cobrindo todo o espectro de freqüência do sinalde áudio, ou insere no sinal de áudio original uma ou maisportadoras que são moduladas com um sinal do espectro dis-perso. Existem muitas possibilidades de marca d'água para umgrau mais ou menos audível, e em uma forma mais ou menos ro-busta. A tecnologia atualmente mais importante usa um espec-tro disperso formado de forma psicoacústica, ver, por exem-plo, WO-A-97/333 91 e US-A-6061793. Esta tecnologia ofereceum bom compromisso entre a acuidade auditiva e a robustez,embora sua robustez não seja ótima.
Em uma outra tecnologia, os dados codificados, is-to é, a marca d'água, são escondidos na fase do sinal de áu-dio original por codificação de fase: W. Bender, D. Gruhl,N. Morimoto, A. Lu, "Técnicas de Ocultação de Dados", Jornalde Sistema IBM 35, N°s. 3&4, 1996, pág. 313-336.Uma tecnologia adicional é a modulação em fase:S.S. Kuo, J. D. Johnston, W. Turin, S.R. Quackenbusch, "Con-versão da Marca D'água de Áudio usando Modulação em Fase deMultibanda Independente do Sinal Sintonizado Perceptivamen-te" , Conferência Internacional IEEE sobre Acústica, Fala eProcessamento de Sinais (ICASSP) , em maio de 2002, volume 2,IEEE Press, pág. 1753-1756.
Sumário da Invenção
Entretanto, para alguns tipos de sinais de áudionão possível restaurar e decodificar o espectro disperso nodecodificador. Se portadoras moduladas com as seqüências deespectro disperso são usadas, é possível facilmente removeras portadoras aplicando-se filtros de entalhe.
Uma desvantagem da técnica de codificação de faseacima é que ela nem é robusta contra cortes nem alcança umataxa de dados aceitável, e ambas as técnicas relacionadas afases necessitam do sinal de áudio original para decodifica-ção e, portanto, o detector trabalha de uma maneira não es-condida.
0 problema a ser resolvido pela invenção é aumen-tar a confiabilidade de detecção da marca d'água no decodi-ficador e melhorar a robustez do sinal de marca d'água, des-se modo ainda permitindo a operação escondida do detector nodecodificador. Este problema é resolvido pelos métodos des-critos nas reivindicações 1 e 3 . Aparelhos que utilizam es-tes métodos são descritos nas reivindicações 2 e 4.
A invenção usa modificação em fase do sinal de áu-dio para embutir os dados do sinal de marca d'água. Uma de-tecção escondida no decodificador é possível, isto é, o si-nal de áudio original não é solicitado para decodificar osinal de marca d'água. No domínio de espectro, a fase do si-nal de áudio pode ser manipulada pela fase de uma seqüênciade fase de referência (por exemplo, uma seqüência de espec-tro disperso ou uma seqüência m ou uma distribuição pseudo-aleatória de valores de fase entre e incluindo λ-π' e λ+π').
Isto pode incluir a divisão do sinal de áudio em blocos su-perpostos, transformando estes blocos com a transformada deFourier ou qualquer outra transformada no domínio do tempopara freqüência e mudando a fase original baseada em númerospseudo-aleatórios de uma seqüência de fase de referência eum modelo do sistema auditivo humano, transformando inversa-mente (Fourier) o espectro de fase mudada de volta no domí-nio do tempo e executando uma sobreposição/adição nos blo-cos. 0 sinal de áudio mudado resultante parece o original.
Como a uma mudança da fase do sinal de áudio pelafaixa de freqüência total pode ser audível, uma forte mani-pulação de fase (por exemplo, -π/+π) é executada somentedentro de uma ou mais pequenas faixas de freqüência que es-tão localizadas nas freqüências mais altas e/ou nas seçõesde sinais de áudio de ruído, as faixas de freqüência corres-pondentes foram determinadas de acordo com os princípiospsicoacústicos.
Em uma modalidade adicional, nas faixas de fre-qüência restantes, os valores de fase podem ser mudados,também, a extensão permissível das mudanças de fase foi con-trolada de acordo com os princípios psicoacústicos. Adicio-nalmente, a amplitude da caixa espectral (menos audível) po-de ser mudada de acordo com os princípios psicoacústicos demodo a permitir mudanças de fase ainda maiores (não audí-veis).
O sinal de áudio com marca d'água é decodificadono decodificador correlacionando o sinal de áudio recebidocom a seqüência de fase de referência candidata transformadainversamente (Fourier) correspondente que foi usada na codi-ficação, ou usando um filtro combinado ao contrário da cor-relação.
A invenção alcança um bom compromisso entre a acu-idade auditiva e a robustez, alcança uma alta taxa de dados,facilita um processamento em tempo real e é adequada parasistemas embutidos.
Em princípio, o método inventivo é adequado paradados de marca d'água embutidos em um sinal de áudio usandomodificações da fase do dito sinal de áudio, o dito métodoinclui as etapas de:
- controlar através do valor de um bit correntedos ditos dados de marca d'água a seleção ou a geração deuma seqüência de dados de referência correspondente;
- modificar, de acordo com a dita seqüência de da-dos de referência correspondente, os valores de fase em umbloco corrente convertido no domínio do tempo para freqüên-cia do dito sinal de áudio, onde dentro do dito bloco cor-rente a faixa ou faixas de freqüência permitida para a ditamodificação do valor de fase através de uma quantidade máxi-ma pré-determinada são determinadas por cálculos psicoacús-ticos relacionados;
- converter no domínio da freqüência para tempo aversão modificada do dito bloco corrente do dito sinal deáudio;
- emitir a seção correspondente do sinal de áudiocom marca d'água.
Em princípio, o aparelho inventivo é adequado paradados de marca d'água embutidos em um sinal de áudio usandomodificações da fase do dito sinal de áudio, o dito aparelhoinclui:
- dispositivos adaptados para controlar através dovalor de um bit corrente dos ditos dados de marca d'água, aseleção ou a geração de uma seqüência de dados de referênciacorrespondente;
- dispositivos adaptados para modificar, de acordocom a dita seqüência de dados de referência correspondente,os valores de fase em um bloco corrente convertido no domí-nio do tempo para freqüência do dito sinal de áudio, ondedentro do dito bloco corrente, a faixa ou faixas de freqüên-cia permitidas para a dita modificação do valor de fase a-través de uma quantidade máxima pré-determinada são determi-nadas por cálculos psicoacústicos relacionados;
- dispositivos adaptados para converter no domínioda freqüência para tempo, a versão modificada do dito blococorrente do dito sinal de áudio, e para emitir a seção cor-respondente do sinal de áudio com marca d'água.
Em princípio, a decodificação de marca d'água in-ventiva é adequada para restaurar os dados de marca d'águaque foram embutidos em um sinal de áudio usando modificaçõesda fase do dito sinal de áudio, onde o valor de um bit cor-rente dos ditos dados de marca d'água foi controlado pelaseleção ou geração de uma seqüência de dados de referênciacorrespondente e, de acordo com esta, os valores de fase emum bloco corrente convertido no domínio do tempo para fre-qüência do dito sinal de áudio foram modificados, onde den-tro do dito bloco corrente, a faixa ou faixas de freqüênciapermitidas para a dita modificação do valor de fase atravésde uma quantidade máxima pré-determinada foram determinadaspor cálculos psicoacústicos relacionados, e a versão modifi-cada do dito bloco corrente do dito sinal de áudio foi con-vertida no domínio de freqüência para tempo tal como paraformar uma seção correspondente do sinal de áudio com marcad'água, o dito método inclui as etapas de:
- correlacionar ou combinar um bloco corrente dodito sinal de áudio com marca d'água com uma versão conver-tida no domínio de freqüência para tempo de candidatas dasditas seqüências de dados de referência;
- determinar a partir do resultado da correlaçãoou combinação um valor de bit dos ditos dados de marcad'água.
Em princípio, o aparelho de decodificação de marcad'água inventivo é adequado para restaurar os dados de marcad'água que foram embutidos em um sinal de áudio usando modi-ficações da fase do dito sinal de áudio, onde o valor de umbit corrente dos ditos dados de marca d'água foi controladoatravés da seleção ou geração de uma seqüência de dados dereferência correspondente e, de acordo com ela, os valoresde fase em um bloco corrente convertido no domínio do tempopara freqüência do dito sinal de áudio foram modificados,onde dentro do dito bloco corrente, a faixa ou faixas defreqüência permitidas para a dita modificação do valor defase através de uma quantidade máxima pré-determinada foramdeterminadas por cálculos psicoacústicos relacionados, e aversão modificada do dito bloco corrente do dito sinal deáudio foi convertida no domínio de freqüência para tempo talcomo para formar uma seção correspondente do sinal de áudiocom marca d'água, o dito aparelho inclui:
- dispositivos adaptados para gerar ou armazenaras versões convertidas no domínio de freqüência para tempodas ditas seqüências de dados de referência;
- dispositivos adaptados para correlacionar oucombinar um bloco corrente do dito sinal de áudio com marcad'água com uma versão convertida no domínio de freqüênciapara tempo das candidatas das ditas seqüências de dados dereferência; e
para determinar a partir do resultado da correla-ção ou combinação um valor de bit dos ditos dados de marcad'água.
As modalidades adicionais vantajosas da invençãosão descritas nas respectivas reivindicações dependentes.
Breve Descrição dos Desenhos
Modalidades exemplificadas da invenção são descri-tas com relação aos desenhos em anexo, que mostram:
A Fig. 1 ilustra o diagrama de bloco simplificadode um codificador e decodificador de marca d'água inventivo;
A Fig. 2 ilustra o diagrama de bloco mais detalha-do de um codificador de marca d'água;
A Fig. 3 ilustra o sinal de áudio original e commarca d'água no domínio do tempo;
A Fig. 4 ilustra o diagrama de bloco do decodifi-cador de marca d'água;
A Fig. 5 ilustra o resultado da correlação;
A Fig. 6 ilustra as mudanças de fase sim/não emáreas específicas do espectro do sinal de áudio;
A Fig. 7 ilustra as mudanças de fase adicionaiscontroladas de forma psicoacústica em outras áreas do espec-tro do sinal de áudio;
A Fig. 8 ilustra as mudanças de fase aumentadas noespectro de sinal de áudio baseadas nas mudanças de amplitu-de nesse mesmo espectro.
Descrição Detalhada das Modalidades Exemplificadas
Na Fig. 1, no lado do codificador, um sinal de en-trada de áudio original AUI é alimentado (no sentido do qua-dro ou no sentido do bloco) em um módulo de mudança de fasePHCHM e em uma calculadora psicoacústica PSYA na qual aspropriedades psicoacústicas correntes do sinal de entrada deáudio são determinadas e que controla em qual faixa ou fai-xas de freqüência e/ou em quais instantes de tempo, o está-gio PHCHM é permitido a atribuir informação de marca d'águaà fase do sinal de áudio. As modificações de fase no estágioPHCHM são transmitidas no domínio da freqüência e o sinal deáudio modificado é convertido de volta para o domínio detempo antes que ele saia. Essas conversões no domínio dafreqüência e no domínio do tempo podem ser executadas usandoum FFT e um FFT inverso, respectivamente. As seções de fasecorrespondentes do sinal de áudio são manipuladas no estágioPHCHM, de acordo com a fase de uma seqüência de espectrodisperso (por exemplo, uma seqüência m) armazenada ou geradaem um estágio de seqüência de dispersão SPRSEQ. A informaçãode marca d'água, isto é, os dados de carga útil PD, é ali-mentada em um estágio de modulação de valor de bit BVMOD quecontrola o estágio SPRSEQ correspondentemente. No estágioBVMOD, um valor de bit dos dados PD é usado para modular aseqüência de pseudo-ruído do codificador no estágio SPRSEQ.Por exemplo, se o valor de bit corrente é igual a λ1', a se-qüência de pseudo-ruído de codificador é deixada inalterada,se o valor de bit corrente é igual a xO', a seqüência depseudo-ruído de codificador é invertida. Essa seqüência con-siste de uma distribuição 'aleatória' de valores e preferen-cialmente tem um comprimento correspondente àquele dos qua-dros de sinal de áudio.
A faixa ou faixas de freqüência corrente que sãousadas para as mudanças de fase dependem do sinal de áudiocorrente AUI e são dinamicamente determinadas pelo modelopsicoacústico. A manipulação de fase pode ser executada emdiferentes faixas de freqüência de modo a prevenir um cortedessas áreas.
É também possível adicionalmente adicionar um si-nal com marca d'água de espectro disperso 'normal' à ampli-tude do sinal de áudio no domínio do tempo ou da freqüência.O módulo de mudança de fase PHCHM emite um sinalde áudio com marca d'água correspondente WMAU.
No lado do decodif icador, o sinal de áudio commarca d'água WMAU passa (no sentido do quadro ou no sentidodo bloco) através de um correlator CORR no qual sua fase écorrelacionada com uma ou mais versões convertidas no domí-nio de freqüência para tempo das seqüências de dispersão dodecodificador candidato ou das seqüências de pseudo-ruído(uma das quais foi usada no codificador) armazenadas ou ge-radas em um estágio de seqüência de dispersão do decodifica-dor DSPRSEQ. 0 correlator fornece um valor de bit do sinalde saída com marca d'água correspondente WMO.
Vantajosamente, a saída de correlação no lado dodecodificador contém sempre um pico significativo (corres-pondente a um bit de informação de marca d'água), que não éfreqüentemente o caso se uma seqüência de dispersão (forma-da) foi adicionada à amplitude do sinal de áudio.
Não é possível remover esse tipo de marca d'águado sinal de áudio sem destruir drasticamente a qualidade dosinal de áudio. A robustez da marca d'água é, portanto, au-mentada.
Ao contrário da modificação da fase na faixa oufaixas de freqüência específicas e/ou em instantes de tempoespecíficos somente, sob certas condições, a faixa de fre-qüência total pode ser submetida a modificações de fase.
Uma implementação exemplificada desta modalidade écomo segue. Dois diferentes vetores de fase p_0 e p_l sãocriados, cada um compreende 513 números pseudo-aleatóriosentre -π e π (na prática o primeiro e o último valor nuncasão usados, porém por motivo de simplicidade este fato é o-mitido aqui).
Na Fig. 2, o sinal de entrada de áudio AUI é cor-tado em blocos ou quadros de amostras de comprimento 1024 emum estágio de janelas WND. O primeiro bloco é transformadona transformada de Fourier FTR no domínio espectral usandoFFT, que resulta em um vetor s(amplitude, fase) de compri-mento 513. Baseado em leis psicoacústicas, em uma calculado-ra de limite de fase PHLC para cada caixa do bloco espectralcorrente, um deslocamento de fase máximo permitido é calcu-lado, o qual pode ser aplicado a seu valor de fase sem setornar audível, resultando no vetor m (somente fase). Como ocoeficiente ou binário localizado na freqüência zero não temvalor de fase, o primeiro e o último elemento do vetor m sãoiguais a zero.
Se um bit de dados de carga útil (isto é, marcad'água) fosse igual a 'zero', um vetor ρ (fase somente) égerado em um estágio de seção de fase de referência RPHS comρ = p_0, se um bit de dados de marca d'água 1Um' deve sertransmitido, um vetor ρ é gerado com ρ = p_l.
Um novo vetor d é calculado em um estágio de modi-ficação de fase PHCH por d = ρ - fase(s), e para cada biná-rio j do vetor d uma etapa de normalização é executada:
se d(j) < -π, então d(j) =2π + d(j)
senão se d(j) > π então d(j) = -2π + d(j)
senão d(j) permanece inalteradofim.A seguir, os limites psicoacústicos que foram ve-rificados no estágio PHLC são levados em consideração no es-tágio PHCH através do cálculo para cada binário i:
se d(j) < -m(j), então d(j) = -m(j)
senão se d(j) > m(j), então d(j) = m(j)
senão d(j) permanece inalteradofim.
Na próxima etapa um sinal de áudio modificado y écalculado em um estágio da transformada inversa de FourierIFTR como
y = IFFT ( I s I ei(fase(s) + d)) , onde i indica o númeroimaginário. Esse sinal de áudio modificado parece o sinaloriginal, porém contém um bit de dados de marca d'água.
Artefatos de bloqueio podem ser reduzidos em umestágio de sobrepor-e-adicionar OADD através da sobreposiçãode blocos, por exemplo, com uma janela de seno bem conhecida.
A Fig. 3 mostra um gráfico exemplificado da faseoriginal de um bloco de sinal s e da fase modificada marcadapor 'o' desse bloco de sinal, onde um modelo psicoacústicomuito bruto foi usado, o qual permite no máximo um desloca-mento de fase de 10 graus a cada binário de freqüência.
A Fig. 4 mostra um fluxo de dados no decodificadorde marca d'água inventivo. 0 sinal de áudio com marca d'águaWMAU passa (no sentido de quadro ou no sentido de bloco) a-través de um estágio de modelagem opcional SHP para um cor-relator CORR. A modelagem amplifica ou atenua o sinal de áu-dio recebido tal que seu nivel de amplitude se torna plano,ou recebe um valor igual a λ1' . Para os valores de fase dereferência representados pelos vetores ρ = p_0 e ρ = p_1(que são conhecidos no lado do decodificador) os valores deamplitude plana (por exemplo, '1') são atribuídos e os con-juntos ou seqüências resultantes de números complexos são,portanto, transformados IFFT em um estágio de fases de refe-rência REFPH resultando em vetores ou seqüências de referên-cia w_0 e w_1, ou já estão armazenados neste formato trans-formado IFFT no estágio REFPH, isto é:
W_0 = IFFT (eip-°) , w_1 = IFFTieip-1).
Esses dois vetores ou seqüências de pseudo-ruído
w_0 e w_1 são correlacionados no domínio do tempo no corre-lator CORR com o sinal de áudio com marca d'água modelado.
Uma correlação de um sinal de áudio com marcad'água com uma seqüência w_0 ou w_1 que tem o mesmo vetor defase, como o bit de dados de marca d'água embutido, mostraráum pico PK no resultado da correlação, onde uma correlaçãodaquele sinal de áudio com marca d'água com a outra seqüên-cia w_l ou w_l, respectivamente, mostra somente ruído no re-sultado da correlação. O correlator atribui os valores debit correspondentes e fornece desse modo o sinal de saídacom marca d'água resultante WMO.
A Fig. 5 mostra o resultado da correlação para osinal de fase exemplificado da Fig. 3. 0 "CPH" marca partedo sinal de fase correta onde "WPH" marca parte do sinal defase errada.
Na Fig. 1 e na Fig. 4, o correlator CORR pode sersubstituido pox um filtro combinado apropriado, levando aomesmo resultado.Teoricamente, é suficiente usar somente um vetorde fase única para a transmissão de um bit de dados de marcad'água, e usar, por exemplo, o vetor original para transmi-tir um 'ura' e o mesmo vetor sintonizado por Λπ' para trans-mitir um vzero'. Porém experimentos têm mostrado que o pro-cessamento é muito mais robusto se dois vetores de fase di-ferentes são usados.
É possível transmitir vários bits de dados demarca d'água por bloco de sinal de áudio no caso em que vá-rios vetores de fase aleatória diferentes por bloco são usa-dos e cada valor é mapeado para um vetor de fase.
A tecnologia básica do processamento inventivo po-de ser combinada com características conhecidas da marcad'água de espectro disperso:
- dividindo a carga útil em quadros independentesque se iniciam com blocos de sincronização seguidos por bitsde carga útil que são protegidos por correção de erro;
- codificando o mesmo valor de carga útil com di-ferentes vetores de fase que dependem do conteúdo correntedo sinal de áudio;
- pulando os quadros de sinal de áudio que depen-dem do conteúdo de sinal de áudio corrente e sinalizando es-te pulo ao decodificador.
Uma melhoria adicional pode ser alcançada não so-mente considerando a fase, mas também a amplitude do sinalde áudio. Por exemplo, na implementação descrita, o módulopsicoacústico PSYA ou PHLC determina que em um certo bináriode freqüência um deslocamento de fase de 10 graus não é au-divel. Um módulo psicoacústico melhorado determinará que odeslocamento de fase de 10 graus não é audível somente com adada amplitude corrente, porém se uma amplitude correntefosse metade de um deslocamento de fase de 15 graus, seriapermissível ainda sem ser audível. Nesse caso, o valor de ouvalores amplitude do espectro original seriam divididos nametade e seus valores de fase correspondentes seriam mudadosem 15°.
As Figs. 6 à 8 ilustram três modalidades da invenção.
A Fig. 6 mostra, em uma apresentação potênciaP/freqüência f, a amplitude de espectro de áudio originalASA em um bloco de áudio corrente. Nas faixas de freqüênciaespecíficas do espectro de sinal de áudio, os valores de fa-se são configurados para um valor de deslocamento de fasemáximo pré-determinado de sinal de áudio ASPH. A escala naborda direita mostra a mudança de fase relativa RPH.
Na Fig. 7 existem mudanças de fase adicionais ASPHem outras faixas de freqüência do espectro de sinal de áu-dio, a quantidade dos deslocamentos de fase é determinada deacordo com os cálculos psicoacústicos. Em outras palavras,no bloco corrente, no domínio da freqüência, na faixa oufaixas de freqüência restantes além da faixa ou faixas defreqüência com modificação do valor da fase máximo (por e-xemplo, -π/+π), a fase do sinal de áudio é modificada deforma adaptativa usando cálculos psicoacústicos através deuma quantidade que é menor que a quantidade máxima.
A Fig. 8 mostra ainda adicionalmente mudanças defase aumentadas no espectro de sinal de áudio baseadas nasmudanças de amplitude ASPH no espectro de sinal de áudio, emresposta a uma amplitude mudada de sinal áudio ASCHA (aquantidade da qual é exagerada no desenho) . A escala mais àdireita mostra a mudança de amplitude ACH.