BR102014023647B1

BR102014023647B1 - Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz

Info

Publication number: BR102014023647B1
Application number: BR102014023647-3A
Authority: BR
Inventors: José Augusto Stuchi; Ricardo Paranhos Velloso Violato
Original assignee: Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes
Priority date: 2014-09-24
Filing date: 2014-09-24
Publication date: 2022-12-06
Also published as: BR102014023647A2; WO2016046652A1

Abstract

MÉTODO E SISTEMA PARA DETECÇÃO DE FRAUDES EM APLICAÇÕES BASEADAS EM PROCESSAMENTO DE VOZ , que detectam ataques de spoofings em sinais de fala, utilizando a informação de fase do sinal no domínio da frequência. A invenção se aplica, principalmente, a sistemas que utilizam biometria por voz, com o objetivo de evitar que um sinal que já foi usado como entrada no sistema, em cadastros ou em reconhecimentos do usuário, seja reutilizado, ainda que esse sinal sofra alterações ou apenas uma parte dele seja reaproveitada. A invenção é capaz de detectar uma ampla gama de ataques, com foco em replay, quando um áudio (parcial ou completo, com ou sem alterações) já utilizado pelo usuário legítimo é novamente apresentado por outro usuário ao sistema. Uma forma alternativa de realização da invenção amplia, ainda mais, a detecção de fraudes para casos de distorção na escala do tempo do áudio.

Description

Campo de aplicação

[0001] A presente invenção se aplica a sistemas que utilizam biometria por voz, porém não se limita apenas a esses casos.

Termos e Expressões

[0002] Para um melhor entendimento deste Relatório Descritivo, apresentam-se a seguir algumas expressões e termos utilizados no contexto desta invenção: •

[0003] DFT: Discrete Fourier Transform (Transformada Discreta de Fourier). •

[0004] !DFT: Inverse Discrete Fourier Transform (Transformada Discreta de Fourier Inversa).

Estado da técica

[0005] O uso de técnicas automáticas de reconhecimento biométrico já está razoavelmente difundido, tendo sido aplicado a serviços como o controle de acesso físico, vigilância ou autenticação, sendo a impressão digital e a face, os traços biométricos mais recorrentes.

[0006] No que diz respeito à voz, apesar de constituir um campo de estudo bastante prolífico, ainda são raras as aplicações que utilizam biometria de voz (ou de locutor) embora o uso da voz, ao invés de outro traço, não seja novo.

[0007] Um sistema de reconhecimento biométrico pode operar em dois modos: Modo Verificação e Modo Identificação.

[0008] No Modo Verificação, o usuário fornece sua identidade e uma amostra biométrica ao sistema que, então, compara-a com o modelo previamente calculado do usuário. A Figura 1 apresenta, de forma simplificada, o funcionamento de um sistema de reconhecimento de locutor operando no modo verificação, mostrando as fases de treinamento do modelo do usuário e de operação.

[0009] Já no Modo Identificação, o usuário fornece apenas uma amostra biométrica e o sistema a compara com os modelos de todos os usuários cadastrados para identificá-lo ou rejeitá-lo, caso não seja similar a nenhum dos modelos. Sistemas de identificação biométrica mais sofisticados podem reduzir o número de comparações usando alguma estratégia de agrupamento, por exemplo. Assim, um sistema capaz de identificar o sexo do usuário a partir de sua voz, poderia primeiro executar essa tarefa para então realizar a busca biométrica apenas na base de usuário do sexo esperado.

[0010] Além disso, no caso da biometria de voz, um sistema de reconhecimento biométrico pode ser dependente ou independente de texto. No primeiro caso, o sistema espera que o usuário vocalize uma fala específica. No segundo, o reconhecimento não está atrelado a uma fala específica.

[0011] A invenção ora proposta se aplica aos sinais de fala usados como entrada em um sistema de reconhecimento biométrico por voz, esteja ele operando no modo verificação ou identificação e seja ele dependente ou independente de texto.

[0012] Algumas abordagens já foram propostas para aplicações de reconhecimento de locutor, como as redes neurais artificiais, técnicas de quantização vetorial e técnicas baseadas em modelos ocultos de Markov ou HMM (Hidden Markov Models).

[0013] Mais recentemente, a literatura da área tem sido dominada por técnicas baseadas em modelos de misturas gaussianas, ou GMMs (Gaussian Mixture Models), para modelar os dados, normalmente a partir de um UBM (Universal Background Model), seguidas de outras técnicas de classificação, tais como SVM (Support Vector Machines), JFA (Joint Factor Analysis) e iVector. Essa abordagem é utilizada em diversas aplicações de aprendizado de máquina, sendo que, em um sistema de reconhecimento de locutor, um GMM é usado como um modelo probabilístico genérico, capaz de representar densidades multivariáveis arbitrárias. Um GMM busca modelar uma distribuição qualquer de dados multidimensionais como uma combinação linear de distribuições normais, ou gaussianas.

[0014] No caso da fala, os dados são geralmente obtidos por um processo de divisão do sinal de fala em quadros, normalmente com sobreposição nos quadros adjacentes e janelamento do quadro, atenuando as bordas e evitando, assim, a inserção de distorções principalmente de alta frequência, seguido da extração de parâmetros propriamente dita. A duração do quadro costuma estar na ordem de dezenas de milissegundos, enquanto sua freqüência encontra-se na ordem de alguns quilohertzes.

[0015] Os parâmetros mais largamente utilizados nas aplicações de reconhecimento de locutor são, sem dúvida, os coeficientes mel- cepstrais, ou MFCCs (Mel Frequency Cepstral Coefficients), os quais podem ser obtidos, por exemplo, através da técnica conhecida como análise por banco de filtros. Tal técnica é bastante difundida e conhecida na literatura de processamento de voz. Os coeficientes mel-cepstrais são a transformada discreta de cosseno (DCT - Discrete Cosine Transform) do logaritmo da energia do sinal resultante da filtragem do sinal original, por um banco de filtros passa-faixa, onde cada filtro define uma banda crítica (por isso, muitas vezes, esses filtros passa-faixa são também chamados de filtros de banda-crítica), espaçados uniformemente na escala mel e cobrindo o espectro de interesse do sinal.

[0016] O método ora proposto independe das técnicas utilizadas para reconhecimento de locutor, sejam elas na etapa de extração dos parâmetros, de modelagem dos dados, de classificação ou em qualquer outra etapa do processo de reconhecimento em si.

[0017] De uma maneira geral, os sistemas de autenticação existem para garantir ou para se certificar que certo recurso está sendo acessado por pessoas autorizadas para tal. A autenticação de pessoas pode ser baseada em algo que a pessoa sabe, por exemplo, uma senha; em algo que a pessoa possui, como, por exemplo, um cartão; ou em algo que a pessoa é, sendo esse o caso da biometria. Esses fatores podem ainda ser combinados, geralmente aumentando a segurança da autenticação. Entretanto, na maioria das vezes, a combinação de fatores acaba comprometendo a usabilidade do sistema.

[0018] Contudo, tais sistemas estão sujeitos a ações de fraudadores, que tentam acessar o recurso sem que tenham a devida autorização. No caso da biometria não é diferente.

[0019] Uma das formas de ataque a um sistema de reconhecimento biométrico é praticada utilizando-se uma amostra do traço biométrico de um usuário autêntico, para se passar pelo mesmo. No caso de face, por exemplo, uma foto poderia ser utilizada. Já no caso da biometria de locutor, uma gravação do usuário autêntico poderia ser utilizada para burlar o sistema.

[0020] Esse tipo de ataque é conhecido como spoofing e as contra-medidas para combatê-lo de anti-spoofing. O termo spoofing é usado em diversas áreas do conhecimento para designar uma situação em que dados falsos são usados, por pessoas ou programas, para obter alguma vantagem ilegítima. Podemos destacar alguns exemplos: spoofing de protocolo, de e-mail, de caller ID e até mesmo de sinal de GPS.

[0021] Spoofing de biometria é, portanto, o ataque em que um fraudador apresenta uma amostra biométrica falsa, forjada ou copiada, a um sistema de reconhecimento biométrico com o intuito de se fazer passar por um usuário autêntico.

[0022] Compreendem o estado da técnica diversos documentos de patente revelando métodos pertinentes ao assunto anti-spoofing.

[0023] O documento de patente US2012173239 A1 “Method for verifying the identity of a speaker, system therefore and computer readable medium” apresenta uma sequência de passos bastante genérica de um processo de verificação biométrica, incluindo uma etapa de verificação de similaridade entre duas amostras biométricas para efeito de detecção de fraude. Tal verificação seria realizada usando-se “características biométricas da voz”, mas não descreve quais seriam essas características. Na patente US2012173239 A1, é definido o intervalo válido de tamanho da janela de análise e o de número de atributos considerados, incluindo suas primeiras derivadas apenas, sendo estes procedimentos considerados padrão no estado da arte. Também define que a similaridade pode ser obtida a partir de dynamic time warping (DTW) ou de “correlações”. Apresentando apenas descrições genéricas e conhecidas do estado da arte, a patente, contudo, não descreve como o sinal de fala deve ser analisado para se detectar uma fraude.

[0024] O documento de patente WO2010066435 A1 “Cut and paste spoofing detection using dynamic time wraping” descreve um método para comparar duas vocalizações, dado um texto. O método se baseia na técnica dynamic time warping (DTW), listando quais tipos de atributos e quais métricas de distância podem ser considerados para o cálculo, sendo esses atributos e métricas de uso comum no estado da técnica. A patente WO2010066435 A1 não descreve como a DTW é calculada. No que diz respeito à aplicação, é alegado que o método pode ser usado para autenticar um usuário e detectar ataques de spoofing do tipo “cut and paste”, mas não é descrito como essa análise deveria ser feita para se detectar uma fraude no sinal.

[0025] O documento de patente CA2465650 A1 “Method for preventing user identity spoofing or impersonation in voice biometric authentication systems” apresenta uma sequência simples de passos para comparar duas amostras biométricas de voz. Tal sequência se aplica a sistemas de autenticação biométrica de voz dependentes e independentes de texto, operando no modo verificação ou identificação, e que deve ser baseada em informações do domínio da frequência. No entanto, a sequência apresentada é óbvia para um especialista da área e a análise do sinal de fala no domínio da frequência é o procedimento padrão do estado da técnica. Assim como as referências mencionadas acima, a patente CA2465650 A1 não descreve como o sinal de fala deve ser analisado para se detectar uma fraude.

[0026] Ainda, existem descrições mais genéricas relacionadas ao problema de spoofing presentes no estado da técnica. Tais descrições, apesar de não estarem diretamente relacionadas ao problema de spoofing de voz, apresentam ideias interessantes e são exibidas na sequência.

[0027] A patente US 8681783 B2, “Prevention of cal spoofing in a Voice over Internet Protocol (VoIP) network” de março de 2014, baseia-se em marcadores com informações de rede e padrões nas chamadas VOIP para determinar se uma ligação representa uma chamada falsificada ou não. Nesse caso, busca-se identificar se uma determinada chamada foi originada de um equipamento diferente daquele que está informado nos cabeçalhos do protocolo envolvido. Uma das aplicações mais diretas para esse método é o combate a trotes aos serviços de polícia, por exemplo, 911 (U.S.), em que normalmente o falsificador não deseja ter sua origem reconhecida. Apesar de também entrar no mérito de ataques de falsificação, essa patente não tem relação com a falsificação de voz, no qual um locutor deseja se passar por outro em um sistema de autenticação biométrica por voz, por exemplo.

[0028] Na patente US 20110254942, “Spoofing detection system, spoofing detection method and spoofing detection program”, de outubro de 2011, é apresentado um método para detectar falsificação em biometria facial. Nesse caso, deseja-se que um usuário impostor não seja reconhecido como autêntico em um sistema de autenticação por face, quando ele faz o uso de fotos impressas ou imagens do usuário autêntico em um monitor. Baseia-se na extração de características das imagens e, a partir delas, é verificado se o usuário é autêntico ou não a partir de um limiar definido. Difere da presente invenção uma vez que está limitada à biometria facial. Além disso, a patente US 20110254942 faz o uso de características das imagens para a verificação, enquanto que o método atual faz um processamento do sinal de fala no domínio da frequência, sendo o espectro de fase analisado.

[0029] De acordo com as análises realizadas, não foram encontrados documentos de patente que descrevam como um ataque de spoofing em sinais de fala pode ser detectado de fato, ou seja, como o sinal de fala deve ser analisado para se concluir que não se trata de um sinal autêntico. Os documentos encontrados apenas apresentam etapas genéricas e bastante conhecidas para um especialista da área.

[0030] No entanto, na literatura científica da área, é possível encontrar a descrição de técnicas para detecção de ataques de spoofing em sinais de fala. Sem a pretensão de apresentar uma lista completa de artigos científicos dessa área de estudo, que tem atraído bastante atenção da comunidade, são apresentados aqui os trabalhos que mais se aproximam da proposta da presente invenção, trabalhos estes recentes e publicados nas conferências científicas mais prestigiadas da área de processamento de fala e que, portanto, caracterizam o estado da técnica.

[0031] No artigo “Detecting replay attacks in audiovisual identity verification”, ICASSP 2006, os autores propõem um sistema de detecção de ataques de replay, fazendo a combinação de informações de áudio e imagem. Nessa abordagem, é verificado se a energia do sinal de voz possui correlação com as características de abertura da boca do locutor. Busca-se, por exemplo, identificar atrasos no sinal ou ainda distorção na escala do tempo. Diferente do apresentado aqui, o autor compara dois sinais de características diferentes (áudio e imagem) utilizando o algoritmo de correlação cruzada. No caso da presente patente, o sinal de fala apresentado ao sistema é comparado com uma base de fala daquele usuário levando em consideração informações do espectro de fase do sinal.

[0032] No artigo “Detecting Converted Speech and Natural Speech for Anti-Spoofing Attack in Speaker Recognition” Interspeech 2012, e no artigo “Synthetic Speech Detection Using Temporal Modulation Feature” ICASSP 2013, os autores propõem um método para distinção entre voz sintética e natural, cujo objetivo é detectar ataques de spoofing. Esse artigo também utiliza o espectro de fase do sinal” mas utiliza a técnica conhecida como MGDCC (Modified Group Delay Cepstral Coefficients) para extrair características da fala. A partir dessas características obtidas” dois modelos são treinados: um representando a voz natural sem alterações e o outro representando a voz sintética. Usando como base de comparação tais modelos” um áudio de teste é então verificado e classificado em natural ou sintético. A ideia desse artigo difere da ideia da presente invenção” uma vez que apenas detecta se uma voz é sintética ou não” diferente do proposto na presente invenção em que se detecta se um áudio (ou parte dele) pertence a um usuário específico e já foi utilizado no passado. Além disso” a forma para se verificar se um áudio representa um ataque é baseada em dois modelos diferentes (modelo para voz natural e modelo para voz sintética)” enquanto que o proposto aqui se baseia no simples processamento e comparação do sinal atual com outros sinais de referência já utilizados por aquele usuário” sem a necessidade de treinamento anterior.

[0033] No artigo “A new speaker verification spoofing countermeasure based on local binary patterns”” Interspeech 2013” os autores usam técnicas de processamento de imagem para reconhecer ataques de falsificação em sistemas de biometria por voz. No entanto” diferente do apresentado na presente invenção” a técnica utilizada é a LBP (“Local Binary Patterns”) para biometria independente de texto. Além dessas diferenças” a presente invenção tem seu foco em ataques de replay” quando um áudio já utilizado pelo usuário legítimo é novamente apresentado ao sistema (parcial ou completo” com ou sem alterações)” enquanto que o artigo apresentado no Interspeech tem seu foco no ataque por conversão de voz. "#$etivos da in%enção

[0034] Diante do exposto” conforme o contexto geral da invenção ilustrado na Figura 1, são seus objetivos: •

[0035] Prover um Método para Detecção de Fraudes em Aplicações Baseadas em Processamento de Voz, que se aplique a sinais de fala usados como entrada em um sistema de reconhecimento biométrico por voz, operando tanto em modo Verificação ou quanto em modo Identificação, dependente ou independente de texto, através de processamento do sinal de fala no domínio da frequência e análise do espectro de fase. •

[0036] Prover um método que proporcione maior segurança a sistemas que recebam sinais de fala como entrada, impedindo que tais sinais sejam reutilizados inteira ou parcialmente, com ou sem alterações, o que caracteriza um spoofing de sinal de fala. •

[0037] Garantir que esse método independa de técnicas utilizadas para reconhecimento de locutor, sejam elas empregadas na etapa de extração de parâmetros, de modelagem de dados, de classificação ou em qualquer outra etapa do processo de reconhecimento em si. •

[0038] Garantir a simplicidade desse método. Enquanto que a maioria dos métodos existentes no estado da técnica impõe a necessidade de treinamento anterior de um modelo de áudio autêntico e outro modelo para áudios não autênticos, o presente método deve basear-se no simples processamento do sinal atual de áudio com outros sinais de referência já utilizados por aquele usuário, sem a necessidade de prévio treinamento, o que demanda bastante tempo. •

[0039] Dotar esse método de capacidade para detectar uma ampla gama de ataques na reutilização de parte ou do todo de sinais de áudio, com ou sem alterações/manipulações. •

[0040] Garantir que esse método foque em ataques de replay, quando um áudio (parcial ou completo, com ou sem alterações) já utilizado pelo usuário legítimo é novamente apresentado por outro usuário ao sistema.

[0041] Prover um sistema computacional que implemente o método proposto.

Descrição das &i‘uras

[0042] A invenção poderá ser mais bem entendida com a descrição das seguintes figuras:

[0043] A Figura 1 ilustra o funcionamento de um sistema de reconhecimento de locutor típico, contido no estado da técnica.

[0044] A Figura 2 apresenta as etapas do presente método.

[0045] A Figura 3 apresenta um resultado obtido com a execução das etapas da Figura 2, para o caso em que um áudio não é detectado como um ataque de replay.

[0046] A Figura 4 apresenta um resultado obtido com a execução das etapas da Figura 2, para o caso em que um áudio é detectado como um ataque de replay.

[0047] A Figura 5 apresenta um exemplo de spoofing em que o atacante, possuindo um áudio original, adiciona um ruído gaussiano sobre o sinal.

[0048] A Figura 6 apresenta um exemplo de spoofing em que o atacante desloca as amostras do sinal no tempo, visando burlar sistemas de detecção de fraudes.

[0049] A Figura 7 apresenta um exemplo de spoofing em que o atacante utiliza a técnica de recorte e colagem.

[0050] A Figura 8 apresenta um exemplo de spoofing em que o atacante utiliza a mesma técnica de recorte e colagem ilustrada na Figura 7, adicionando, ainda, um ruído gaussiano para dificultar a detecção.

[0051] A Figura 9 apresenta as etapas de uma forma alternativa de realização do presente método.

[0052] A Figura 10 apresenta um exemplo de spoofing em que o atacante utiliza a técnica de distorção na escala do tempo do sinal original.

[0053] A Figura 11 apresenta um exemplo de spoofing em que o atacante utiliza a técnica de distorção na escala do tempo do sinal original, adicionando, ainda, um ruído gaussiano para dificultar a detecção.

Descrição ‘eral da in%enção

[0054] Os objetivos acima descritos são alcançados pelo Método para Detecção de Fraudes em Aplicações Baseadas em Processamento de Voz, que opera tanto em modo Verificação quanto em modo Identificação, podendo ser dependente ou independente de texto, por meio de processamento do sinal de fala no domínio da frequência e análise do espectro de fase, compreendendo as seguintes etapas, conforme ilustrado na Figura 2.

[0055] A partir do Áudio a ser verificado (10) e do Áudio de referência (30) são calculadas as respectivas transformadas de Fourier (20).

[0056] Em seguida, o Produto espectral cruzado entre os dois sinais é calculado (40), assim como a transformada inversa do produto espectral (50), que é processada por um método de detecção de picos (60), gerando um resultado, que é analisado de forma quantitativa para afirmar se o ataque de replay é caracterizado ou não.

Descriçãodeal(ada

[0057] Como já mencionado, a detecção de fraudes em sinal de áudio proposta pela presente invenção é realizada a partir da informação de fase do espectro no domínio frequência do sinal, uma vez que a correlação de fase do sinal é praticamente insensível a ruídos e a não uniformidades, bastante comuns em sinais de áudio. Além disso, o custo computacional dessa correlação é bastante baixo se comparado com outros métodos de correlação, como a correlação cruzada.

[0058] A correlação de fase baseia-se no teorema do deslocamento de Fourier, sendo que boa parte das aplicações descritas no estado da técnica, que se utiliza dessa abordagem, está relacionada ao processamento e registro de imagens. Calcula-se o produto espectral cruzado entre a transformada da imagem de referência e a imagem a ser registrada, procurando picos na matriz resultante no domínio do espaço.

[0059] Considerando uma imagem f1(x,y) como imagem referência e f2(x,y) uma imagem a ser registrada, sendo que f2(x,y) é a imagem fi(x,y) transladada por um ofsetde (xo,yo) em relação a (x,y), tem-se a Equação I:

[0060] f2(x,y)=f1 (x-x0 ,y-y0) (I)

[0061] A propriedade do deslocamento de Fourier afirma que um deslocamento da imagem no espaço resulta em um deslocamento na fase do sinal na freqüência dado pela Equação II:

[0062] f(x-a,y-b) ^ F(wx,Wy)e-i(“x a+“ y b) (II)

[0063] Assim, no domínio da frequência, tem-se:

[0064] F2(Wx,Wy) = F1 (Wx,Wy)e-i(“x xo+“ y yo) (III)

[0065] A partir dessa propriedade, o fator de deslocamento de fase exponencial pode ser calculado pelo produto espectral cruzado, G(wx,wy), expresso pela Equação IV:

[0066] G(Wx,Wy) = (F1(Wx,Wy)F2*(tóx,Wy)) / |(F1(Wx,Wy)F2*(tóx,Wy))| = ei(“x x0+“ y y0) (IV)

[0067] Possuindo G(wx,wy) no domínio da frequência, pode-se calcular a transformada inversa, obtendo-se g(x,y), conhecida como matriz de offset espacial, dada pela Equação V:

[0068] g(x,y) = δ(x-xo ,y-yo) (V)

[0069] Sendo a função g(x,y) o impulso unitário centrado em (xo,yo), basta agora encontrar a localização do pulso, sendo esse o ponto de máxima correlação entre as duas imagens e que indica o quanto uma imagem está deslocada em relação a outra. Na prática, o que se obtém como resultado é uma matriz com certa dispersão e com um pico na posição de máxima correlação entre as duas imagens. Dessa forma, para localizar o offset entre elas, basta encontrar o ponto de máximo valor da matriz g(x,y).

[0070] Estendendo essa teoria para sinais de voz, substituem- se as matrizes bidimensionais de entradas e saídas por vetores unidimensionais. Nesse caso, a saída da correlação é um vetor unidimensional que possui um pico de alta correlação, caso um ataque esteja sendo realizado.

[0071] Assim, a presente invenção estende a aplicação da correlação de fase para sinais de áudio, visando à detecção de ataques de spoofing.

[0072] Como ilustrado na Figura 2, que apresenta as etapas empregadas pelo presente método, o Áudio a ser verificado (10) e o Áudio de referência (30) já utilizado pelo usuário legítimo são apresentados para a detecção. A partir desses sinais, as respectivas transformadas de Fourier são calculadas (20).

[0073] Visando a isolar a componente relativa à fase, o Produto espectral cruzado entre os dois sinais é calculado (40), conforme exibido na equação IV. Em seguida, a transformada inversa do produto espectral é calculada (50), resultando no sinal exibido na equação V. A saída desta computação representa a correlação entre os sinais, conforme exibido de forma ilustrativa nas Figuras 3 e 4. Caso o sinal não apresente um pico, como exibido na Figura 3, a chance de ser um ataque de spoofing é bastante baixa; no entanto, caso apresente um pico, como exibido na Figura 4, a probabilidade de se caracterizar um ataque de spoofing é alta.

[0074] Dessa forma, o resultado da correlação é processado por um método de detecção de picos (60) que gera um resultado, o qual pode ser analisado de forma quantitativa para afirmar se o ataque de replay é caracterizado ou não.

[0075] As Figuras 3 e 4 exibem o uso de um limiar que, caso excedido pela curva de correlação, determina que o sinal apresentado não é autêntico. Esse é apenas um exemplo de como o pico pode ser detectado, mas a presente invenção não se limita a ele, sendo que qualquer técnica de detecção de pico pode ser utilizada. No exemplo das Figuras 3 e 4, o valor do limiar, representado pela linha tracejada, é o mesmo.

[0076] O áudio a ser verificado deve ser confrontado não apenas com um áudio referência, como exibido na Figura 2, mas sim com uma base de áudios já utilizados pelo usuário que está autenticando no sistema.

[0077] Visando a exemplificar alguns tipos de ataques que o método proposto possui capacidade de detectar, as figuras de 5 a 8 são apresentadas.

[0078] Essas figuras apresentam ilustrativamente o sinal original na parte superior e o sinal reutilizado com algum tipo de adulteração na parte inferior.

[0079] A Figura 5 exibe o caso em que um usuário malicioso obteve o sinal original e fez uma adição de ruído gaussiano para dificultar a atuação de métodos anti-spoofing. Um resultado parecido ocorre no áudio quando um usuário malicioso grava a elocução de um usuário autêntico, devido a ruídos adicionados pelo microfone e caixas de som.

[0080] O método e sistema apresentados na presente invenção são competentes para detecção desse tipo de ataque, mesmo com nível de ruído bastante alto presente nos sinais de voz. Vale ressaltar que, caso o sinal idêntico seja apresentado (por exemplo, em um ataque de man-in-the-middie em que o atacante faz um replay direto dos dados capturados), a saída da correlação é caracterizada por uma raia centrada em zero, sendo esse o caso trivial para a detecção utilizando o método e sistema aqui propostos.

[0081] A Figura 6 apresenta o caso em que o usuário malicioso realiza um deslocamento temporal no sinal original. Nesse caso, como resultado da correlação de fase, o pico estaria deslocado da origem em uma quantidade de amostras idênticas ao deslocamento realizado pelo atacante. Novamente, o método e sistema propostos têm competência para detectar esse tipo de ataque, bem como para detectar quando há, ainda, adição de ruído sobre este sinal deslocado.

[0082] As figuras 7 e 8 abordam, de forma ilustrativa, o ataque conhecido como recorte e colagem, em que o usuário malicioso recorta trechos da fala do usuário legítimo para gerar um novo áudio que será utilizado em uma tentativa de autenticação. Nesse exemplo, o atacante recortou três componentes da onda triangular do sinal original, adicionando um sinal diferente (de forma trapezoidal) entre elas, visando a dificultar a detecção por métodos de anti-spoofing. Ainda, conforme exibido na Figura 8, um ruído gaussiano foi adicionado visando a dificultar ainda mais a detecção. Da mesma forma que os exemplos anteriores, o método e sistema propostos na presente invenção possuem capacidade de detectar esse tipo de ataque.

[0083] Visando a complementar a capacidade de detecção do método e sistema propostos, uma forma alternativa de realização é apresentada. Essa forma alternativa amplia a detecção para os casos de distorção da escala do tempo do áudio. Nesse caso, por exemplo, o atacante remove ou adiciona amostras ao áudio original, objetivando burlar o sistema através do uso de um áudio que possui uma sutil alteração temporal (mais lento ou mais rápido) em relação ao áudio de referência.

[0084] Nessa forma alternativa de realização, a correlação de fase também é utilizada, porém agora para detecção de alteração de escala e não apenas de deslocamento no tempo.

[0085] Utilizando novamente a teoria de processamento de imagens, considere que o sinal f2 é uma representação do sinal f1 escalado em c no eixo x e em d no eixo y, conforme exibido na equação VI:

[0086] f2(x,y) = f1 (xc,yd) (VI)

[0087] Pela propriedade da similaridade da Transformada de Fourier, tem-se:

[0088] f(xc,yd) ^ 1/|cd| F (wx/c, Wy/d) (VII)

[0089] Dessa forma, chega-se na seguinte equação para a transformada de f2:

[0090] F2 (wx, wy) = 1/|cd| F1 (wx/c, wy/d) (VIII)

[0091] Como a imagem pode também estar deslocada no tempo, toma-se apenas a magnitude do sinal para isolar a influência da escala, uma vez que, conforme exibido na equação III, o deslocamento no tempo afeta apenas a fase do sinal. Dessa forma, chega-se na seguinte equação da magnitude:

[0092] M2 (wx, wy) = M1 (wx /c, wy/d) (IX)

[0093] Usando essa relação entre as magnitudes dos dois sinais, aplica-se a escala logarítmica à imagem, aproveitando-se da seguinte propriedade da divisão logarítmica:

[0094] log (x/y) = log(x) - log(y) (X)

[0095] Usando essa propriedade, chega-se na equação XI para as magnitudes das imagens:

[0096] M2(log(wx),log(wy)) = M1(log(wx)-log(c),log(wy)-log(d)) (XI)

[0097] Analisando a equação XI, verifica-se que a mesma é similar à equação I, porém em escala logarítmica, em que x = log (wx), y = log ( wy), a = log (c) e b = log (d).

[0098] Dessa forma, a correlação de fase pode ser aplicada sobre as magnitudes das imagens em escala logarítmica (Equação XI), o que resultará em um pico na posição (log (c), log (d)), em caso de falsificação.

[0099] Novamente, estendendo essa teoria para sinais de voz, substituem-se as matrizes bidimensionais de entradas e saídas por vetores unidimensionais. A saída é um vetor unidimensional que possui a correlação entre os dois sinais.

[0100] A Figura 9 apresenta a seqüência de etapas para essa forma alternativa de realização. A partir do Áudio a ser verificado (10) e do Áudio referência (30), calcula-se a transformada de Fourier de ambos (20). A seguir, a Magnitude do espectro dos sinais é calculada (70), através da Equação IX, e a escala é convertida para a Escala Logarítmica (80), através da Equação XI.

[0101] Em seguida, o método de correlação de fase é aplicado, conforme exibido para a forma preferencial de realização, calculando-se a transformada de Fourier (20), o Produto Espectral Cruzado (40), através da Equação IV, e a transformada de Fourier inversa (50). Por fim, o resultado é apresentado a um detector de picos (60).

[0102] Analogamente à forma preferencial de realização, caso o sinal tenha sido alterado com uma distorção na escala do tempo do áudio, um gráfico similar à Figura 4 é obtido; caso contrário, o gráfico obtido é parecido com o exibido na Figura 3.

[0103] Objetivando exemplificar alguns tipos de ataques que a forma alternativa de realização é capaz de detectar, as Figuras 10 e 11 são apresentadas. Na Figura 10, a escala do tempo do sinal original foi distorcida, deixando-o mais lento. Já na Figura 11, foi adicionado ruído ao sinal original, também distorcido na escala do tempo, o que dificulta ainda mais a detecção da fraude. Para ambos os casos, a forma alternativa de realização é eficaz na detecção.

[0104] Conforme descrito anteriormente, os exemplos apresentados são apenas ilustrativos, sendo que o método e sistema propostos são capazes de detectar esses e outros tipos de ataques, bem como a combinação deles, para sinais reais de voz.

[0105] Uma vez descritas as etapas do método proposto, é apresentado a seguir um sistema de software que implementa esse método. Esse sistema constitui uma forma de realização da presente invenção.

[0106] O Sistema para Detecção de Fraudes em Aplicações Baseadas em Processamento de Voz implementa as etapas do método, conforme ilustrado na Figura 2, sendo que cada etapa é implementada por uma atividade do sistema.

[0107] Esse sistema segue estritamente os princípios e os objetivos do método proposto, sendo formado pelos seguintes componentes:

[0108] Processador: um PC convencional com sistema operacional ou um smartphone, tablet, servidor ou ainda algum sistema embarcado de propósito específico;

[0109] Ferramentas de cálculo: uma ferramenta de cálculo específica, como o Matlab, ou implementadas em qualquer linguagem de programação, como Python, Java ou C; •

[0110] Funcionalidades (atividades) -

[0111] Leitura do áudio a ser verificado: o sinal de áudio contendo a fala pode estar armazenado em um arquivo, usando algum formato específico de áudio (tais como: .wav, .mp3, .raw, .ogg, etc), ou já estar carregado em memória; -

[0112] Leitura do áudio referência: o sinal de áudio contendo a fala pode ser obtido da mesma forma que o áudio a ser verificado; -

[0113] Cálculo das respectivas transformadas de Fourier dos áudios: geralmente o algoritmo mais usado é a FFT (Fast Fourier Transform), mas podem ser calculadas de outras formas, utilizando uma ferramenta de cálculo específica, como o Matlab, ou pode ser implementado em qualquer linguagem de programação, como Python, Java ou C, utilizando bibliotecas de processamento de sinais como a Blitz++ e OpenCV.; -

[0114] Cálculo do produto espectral cruzado das transformadas: o produto espectral, caracterizado pela equação IV, pode ser implementado por uma ferramenta de cálculo específica, como o Matlab, ou ainda por linguagens de programação, como Python, Java ou C; -

[0115] Cálculo da transformada inversa do produto espectral: geralmente o algoritmo mais utilizado é a IFFT (Inverse Fast Fourier Transform) que pode ser computado por uma ferramenta de cálculo específica, como o Matlab, ou ainda por linguagens de programação como Python, Java ou C, ainda podendo fazer o uso de bibliotecas de processamento de sinais como Blitz++ e OpenCV; -

[0116] Processamento do sinal resultante da transformada inversa do produto espectral por um método de detecção de picos, gerando um resultado: a identificação do pico pode ser realizada por uma ferramenta de cálculo específica, como o Matlab, ou pode ser implementada em qualquer linguagem de programação, como Python, Java ou C.

Generalizações

[0117] Finalmente, vale ressaltar que essa forma preferencial de realização da presente invenção não tem a intenção de ser exaustiva quanto às inúmeras possibilidades de sua aplicação e não deve ser tomada como restritiva ou limitante, de acordo com o quadro reivindicatório apresentado.

Claims

1. Método para Detecção de Fraudes em Aplicações Baseadas em Processamento de Voz, caracterizado por operar tanto em modo Verificação quanto em modo Identificação, dependente ou independente de texto, e processar o sinal de fala no domínio da frequência e análise do espectro de fase, compreendendo as etapas: • Cálculo das transformadas de Fourier (20) do Áudio a ser verificado (10) e do Áudio de referência (30); • Cálculo do Produto espectral cruzado (40) entre os ditos sinais; • Cálculo da transformada inversa (50) do dito Produto espectral; • Processamento da dita transformada (50) inversa por um método de detecção de picos (60), gerando um resultado.

2. Método para Detecção de Fraudes em Aplicações Baseadas em Processamento de Voz, de acordo com a reivindicação 1, é caracterizado por operar tanto em modo Verificação quanto em modo Identificação, dependente ou independente de texto, e processar o sinal de fala no domínio da frequência e análise do espectro de fase, compreendendo as etapas: • Cálculo das transformadas de Fourier (20) do Áudio a ser verificado (10) e do Áudio de referência (30); • Cálculo da Magnitude do espectro (70) dos ditos sinais e conversão da escala para a Escala Logarítmica (80) das respectivas magnitudes do espectro; • Cálculo das transformadas de Fourier (20) das ditas conversões; • Cálculo do Produto espectral cruzado (40) entre as ditas transformadas obtidas na etapa anterior; • Cálculo da transformada inversa (50) do dito Produto espectral; • Processamento da dita transformada inversa por um método de detecção de picos (60), gerando um resultado.