BR112016020457B1

BR112016020457B1 - Método de busca por impressões digitais de áudio armazenadas em um banco de dados dentro de um sistema de detecção de impressões digitais de áudio

Info

Publication number: BR112016020457B1
Application number: BR112016020457-3A
Authority: BR
Inventors: Felix Immanuel Wyss; Ananth Nagaraja Iyer; Srinath Cheluvaraja
Original assignee: Interactive Intelligence Group, Inc
Priority date: 2014-03-04
Filing date: 2015-03-03
Publication date: 2022-09-06
Also published as: ZA201605550B; US11294955B2; US20190236101A1; AU2020200997B2; US10303800B2; JP6587625B2; CL2016002219A1; BR112016020457A8; CA2939117A1; EP3114584A4; AU2015224564B2; WO2015134452A1; EP3114584B1; CA2939117C; BR112016020457A2; NZ722874A; AU2015224564A1; US20150254338A1; JP2017512333A; AU2020200997A1

Abstract

MÉTODO DE BUSCA POR IMPRESSÕES DIGITAIS DE ÁUDIO ARMAZENADAS EM UM BANCO DE DADOS DENTRO DE UM SISTEMA DE DETECÇÃO DE IMPRESSÕES DIGITAIS DE ÁUDIO São apresentados um método e sistema para otimização de busca de impressão digital de áudio. Em uma modalidade, as impressões digitais de áudio são organizadas em uma árvore recursiva com diferentes ramos que contém conjuntos de impressões digitais que são diferentes entre si. A árvore é construída usando um algoritmo de clusterização com base em uma medida de similaridade. A medida de similaridade pode compreender uma distância de Hamming para uma impressão digital binária ou uma distância euclidiana para impressões digitais de valor contínuo. Em outra modalidade, cada impressão digital é armazenada em uma pluralidade de resoluções e clusterização é executada hierarquicamente. O reconhecimento de uma entrada de impressão digital começa pela raiz da árvore e continua por seus ramos até que uma compatibilidade ou incompatibilidade seja declarada. Em outra modalidade, uma definição de impressão digital é generalizada para incluir informações de áudio mais detalhadas do que na definição anterior.

Description

FUNDAMENTOS

[0001] A presente invenção refere-se geralmente a sistemas e métodos de telecomunicações, bem como reconhecimento de fala. Mais particularmente, a presente invenção refere-se a impressões digitais de áudio.

RESUMO

[0002] São apresentados um método e sistema para otimização de busca de impressão digital de áudio. Em uma modalidade, as impressões digitais de áudio são organizadas em uma árvore recursiva com diferentes ramos que contém conjuntos de impressões digitais que são diferentes entre si. A árvore é construída usando um algoritmo de clusterização com base em uma medida de similaridade. A medida de similaridade pode compreender uma distância de Hamming para uma impressão digital binária ou uma distância euclidiana para impressões digitais de valor contínuo. Em outra modalidade, cada impressão digital é armazenada em uma pluralidade de resoluções e clusterização é executado hierarquicamente. O reconhecimento de uma entrada de impressão digital começa pela raiz da árvore e continua por seus ramos até que uma compatibilidade ou incompatibilidade seja declarada. Em outra modalidade, uma definição de impressão digital é generalizada para incluir informações de áudio mais detalhadas do que na definição anterior.

[0003] Em uma modalidade, um método de busca por impressões digitais de áudio em um banco de dados dentro de um sistema de detecção de impressão digital de áudio é apresentado, o método compreendendo as etapas de: dividir arquivos de áudio conhecidos em quadros que se sobrepõem; extrair impressões digitais de áudio para cada quadro dos arquivos de áudio conhecidos; arquivar impressões digitais de áudio no banco de dados; e comparar e classificar um fluxo de áudio entrado desconhecido em que dita comparação e classificação baseia-se na medida da correspondência das impressões digitais do fluxo de áudio desconhecido com as impressões digitais arquivadas no banco de dados.

[0004] Em outra modalidade, um método de busca por impressões digitais de áudio armazenadas em um banco de dados dentro de um sistema de detecção de impressão digital de áudio é apresentado, o método compreendendo as etapas de: dividir arquivos de áudio conhecidos em quadros que se sobrepõem; extrair impressões digital de áudio para cada quadro dos arquivos de áudio conhecidos; arquivar as impressões digitais de áudio no banco de dados, em que cada impressão digital é arquivada em uma pluralidade de resoluções; e comparar e classificar um fluxo de entrada de áudio desconhecido, em que dita comparação e classificação se baseia na medida da correspondência das impressões digitais do fluxo de áudio desconhecido com as impressões digitais arquivadas no banco de dados, e no qual a correspondência é realizada com base em resolução.

Breve descrição das figuras

[0005] A figura 1 é um fluxograma ilustrando um processo para uma modalidade de um sistema de impressão digital de áudio.

[0006] A figura 2 é um fluxograma ilustrando uma modalidade de um processo para a criação de uma árvore de impressão digital.

[0007] A figura 3 é um fluxograma ilustrando uma modalidade de um processo para clusterização.

[0008] A figura 4 é um fluxograma ilustrando uma modalidade de um processo para reconhecimento de impressão digital.

DESCRIÇÃO DETALHADA

[0009] Com a finalidade de promover uma compreensão dos princípios da invenção, agora será feita referência às modalidades ilustradas nas figuras e linguagem específica será usada para descrever as mesmas. Não obstante, será compreendido que nenhuma limitação do escopo da invenção é, desse modo, pretendida. Quaisquer alterações e modificações adicionais nas modalidades descritas e quaisquer outras aplicações dos princípios da invenção conforme descrito neste documento são contempladas, como normalmente ocorreria a um versado na técnica à qual se refere a invenção.

[0010] Uma impressão digital de áudio pode ser definida como um volume de memória pequeno. É uma representação dimensional baixa dos valores contínuos tomados por um frame de áudio que compreende música, discurso ou outras características e deve ser robusto em relação a alterações na escala (volume, pequenas mudanças e quedas, distorções introduzidas por codecs e passagem de dados em roteadores de rede.

[0011] O algoritmo de Philips (conforme descrito na seguinte referência: Haitsma, Jaap, and Antonius Kalker, “A Highly Robust Audio FingerprintingSystem”, International Symposium on Music Information Retrieval (ISMIR)2002, pp. 107-115) pode ser usado para construir uma impressão digital binária que é implementada com uma máscara binária correspondente que rotula a parte informativa da impressão digital, melhorando consideravelmente a razão sinal / ruído do sistema de impressões digitais. Para obter mais informações, este processo pode ser encontrado em Patente U.S. 8.681.950, emitida em 25 de março de 2014, intitulado “System and Method for FingerprintingDatasets”, sendo os inventores Kevin Vlack e Felix I. Wyss. A impressão digital compreende um fluxo binário de 16 bits para cada quadro de áudio correspondente ao tempo e energia derivados de valores de banco de filtro perceptivos (17 bancos de filtro perceptíveis e 16 diferenças consecutivas). As oito impressões digitais sucessivas são combinadas em um bloco de impressão digital (128 bits e 160 ms em tempo) que é a unidade básica usada para identificação de impressões digitais.

[0012] Sistemas de detecção de impressão digital de áudio podem ser usadas para reconhecer e classificar arquivos de áudio em diferentes tipos para diversas aplicações. Tais aplicativos podem incluir identificação de álbum de música, identificação de artista e classificação de chamada telefônica em subtipos (por exemplo, alto-falante ao vivo, secretária eletrônica, mensagens de rede, tons ocupados), para citar alguns exemplos não limitantes. Estes sistemas dividem cada arquivo de áudio em quadros sobrepostos e extraem uma impressão digital para cada quadro. As impressões digitais extraídas são arquivadas em um banco de dados contra o qual um fluxo de áudio desconhecido entrando é comparado e classifica-se dependendo da extensão da correspondência de sua impressão digital com os arquivos presentes no arquivo.

[0013] A forma de armazenamento do arquivo digital pode ter um efeito sobre os tempos de busca por correspondência e recuperação das impressões digitais. Recuperação de uma impressão digital compatível do arquivo também deve ser rápida e tem influência direta sobre a forma de armazenar e representar as impressões digitais.

[0014] Sistemas de impressões digitais de áudio devem ser capazes de pesquisar grandes conjuntos de impressões digitais disponíveis. Assim, os sistemas podem se beneficiar de abordagens de pesquisa otimizadas que reduzem os tempos de busca e melhoram o desempenho em tempo real de detecção de impressão digital, ao reduzir falsos positivos (correspondências erradas) e falsos negativos (perdas).

[00015] A figura 1 é um fluxograma ilustrando um processo para uma modalidade de um sistema de impressão digital de áudio. O fluxo global de um sistema de impressões digitais pode ser visto geralmente na Fig. 1. Em uma modalidade, o buffer de retorno compreende impressões digitais de 160 ms de comprimento. No entanto, as modalidades discutidas neste documento podem ser adaptadas para outras definições de impressão digital usando picos espectrais e duas imagens dimensionais armazenadas usando coeficientes de ondeletas, entre outras adaptações.

[0016] Na operação 105, é dada entrada a um arquivo de áudio. O controle passa para a operação 110 e o processo 100 continua.

[0017] Na operação 110, a decomposição de quadro é executada no arquivo de áudio. Por exemplo, o arquivo de áudio de entrada pode ser decomposto em quadros de dados que não se sobrepõem, cada um dos quais tendo 20ms (por exemplo, 160 amostras, supondo que a amostragem é de 8 KHz) em tamanho, e cada quadro completo é analisado. O controle passa para a operação 115 e o processo 100 continua.

[0018] Na operação 115, é determinado se os quadros passam por análise ou não. Se for determinado que os quadros devem passar por análise, controle é passado para operação 125, e o processo 100 continua. Se for determinado que os quadros não precisam passar por análise, o controle é passado para a operação 120 e o processo 100 termina.

[0019] A determinação na operação 115 pode ser baseada em quaisquer critérios adequados. Por exemplo, a conclusão dos quadros é examinada. Se um quadro é incompleto, especialmente o último fragmento do quadro, este quadro é ignorado e análise não é realizada.

[0020] Na operação 125, uma impressão digital é extraída. A impressão digital pode compreender uma impressão digital de 16 bits. Em uma modalidade, uma impressão digital compreende uma sequência de caracteres binária representativa de um pedaço de áudio e robusta para pequenas mudanças no volume e presença de ruído. Um conjunto de bits mascarados pode ser utilizado (conforme discutido na patente Vlack mencionada anteriormente) que provê esta robustez. O controle passa para a operação 130 e o processo 100 continua.

[0021] Na operação 130, o buffer da impressão digital é atualizado. Em uma modalidade, o buffer de impressão digital armazena os oito quadros de áudio mais recentes que são necessários para obter um bloco de impressão digital composto de impressões digitais de áudio 8 consecutivas. O bloco de impressão digital é, desta maneira, de 128 bits em comprimento e identifica 8 segmentos de áudio consecutivos (160 ms). O controle passa para a operação 135 e o processo 100 continua.

[0022] Na operação 135, é determinado se o buffer está cheio ou não. Se for determinado que o buffer está cheio, controle é passado para operação 140, e o processo 100 continua. Se for determinado que o buffer não está cheio, controle é passado de volta para a operação 115 e o processo continua.

[0023] A determinação na operação 135 pode ser baseada em quaisquer critérios adequados. Por exemplo, quando o buffer está cheio, o elemento mais antigo do buffer é descartado para abrir caminho para a impressão digital de áudio mais recente. Isso garante que o buffer compreende pelo menos 8 impressões digitais necessárias para formar um bloco de impressão digital completo. Após os primeiros 8 quadros, o buffer é preparado para análise contínua até que a última impressão digital completa seja analisada.

[0024] Na operação 140, uma árvore de impressão digital é pesquisada e é criada uma lista de correspondências possíveis para o mais recente bloco de impressão digital. Em uma modalidade, a árvore de impressão digital que é pesquisada pode ser construída no processo descrito mais abaixo na Figura 3. Correspondências possíveis geradas anteriormente também são estendidas se for determinado que o atual bloco de impressão digital se estende em um já existente. O controle passa para a operação 145 e o processo 100 continua.

[0025] Na operação 145, é determinado se uma correspondência pode ser identificada ou não. Se for determinado que uma correspondência pode ser identificada, o controle é passado para a operação 150 e a busca termina. Se for determinado que uma correspondência não pode ser identificada, o controle é passado de volta para operação 115 e o processo continua.

[0026] Em uma modalidade, a decisão de declarar uma correspondência é feita depois de calcular a importância da correspondência, que compreende a probabilidade da correspondência ocorrer por acaso. Se essa probabilidade cai abaixo de um certo limite, é declarado um resultado. O significado de uma correspondência é calculado a partir da taxa de erro de bit (BER) que se presume que segue uma distribuição normal. O BER poderá ser calculado a partir da distância de Hamming.

[0027] na operação 150, uma correspondência é retornada e o processo termina.

[0028] A figura 2 é um fluxograma ilustrando uma modalidade de um processo para a criação de uma árvore de impressão digital. A árvore de impressão digital pode ser pesquisada na operação 140 da Figura 1 para gerar uma lista de resultados possíveis.

[0029] Na operação 205, uma lista de arquivos de áudio é compilada. Por exemplo, os arquivos de áudio podem ser arquivados e extraídos ao usar-se os processos descritos anteriormente nas referências Haitsma e Vlack. O controle passa para a operação 210 e o processo 200 continua.

[0030] Na operação 210, uma lista de impressão digital é formada a partir de arquivos de áudio. Em uma modalidade, cada arquivo de áudio pode ser dividido em quatro segmentos iguais e os blocos de impressão digital do início de cada segmento são acumulados em uma lista. Este procedimento é ainda mais detalhado na patente Vlack mencionada anteriormente. O controle passa para a operação 215 e o processo 200 continua.

[0031] Na operação 215, clusterização recursiva da lista de impressão digital é realizada com parâmetros de árvore escolhidos como entrada. Em uma modalidade, clusterização pode ser realizado usando um mais próximo cluster de k-means vizinho usando a distância de Hamming como uma medida de distância. Em uma modalidade, a máscara de impressão digital não é usada nesta fase de clusterização. O centroide de cluster de um conjunto de impressões digitais é escolhido para ser a sequência de bits que representa o valor de bit de maioria em cada posição de bit. Clusters são atribuídos a diferentes ramos de uma árvore e a construção do cluster pode ser repetida até à obtenção de uma árvore de uma determinada profundidade. Os fatores de profundidade da árvore e ramificação são escolhidos apropriadamente para obter um determinado nível de desempenho. Os parâmetros de entrada incluem o fator de ramificação em cada cluster (ou nó) e a profundidade máxima da árvore. O controle passa para a operação 220 e o processo 200 continua.

[0032] Na operação 220, a árvore de impressão digital é gerada e o processo termina. Em uma modalidade, a formação de árvore pode ser interrompida se o tamanho do cluster se torna muito pequeno. A árvore não precisa ser equilibrada e pode ter qualquer formato, mas árvores bem equilibradas podem ser mais vantajosas. Ponteiros ou etiquetas para cada arquivo de áudio são passados para baixo na árvore em tempo de criação para permitir acesso rápido a arquivos individuais tais conforme a lista de impressão digital torna-se mais aleatoriamente embaralhada durante o processo de clusterização. Em uma modalidade, a construção de árvore ocorre off-line e não afeta o desempenho em tempo real de detecção de impressão digital.

[0033] A figura 3 é um fluxograma ilustrando uma modalidade de um processo para clusterização. Clusterização pode ocorrer em única ou múltiplas resoluções para a criação da árvore de impressão digital em operação 215 da Figura 2. Em uma modalidade, o fator de ramificação e a profundidade máxima são os únicos parâmetros necessários para construir a árvore. Como as impressões digitais de áudio são distribuídas aleatoriamente para uma boa aproximação, a operação de cluster representa um padrão em blocos do conjunto de impressão digital inteiro. Únicas impressões digitais em um bloco em particular e os seus vizinhos imediatos são agrupados em clusters. O resultado da Figura 3 é uma árvore de impressão digital tal que impressões digitais semelhantes entre si formam clusters em nós da árvore. Cada cluster é recursivamente quebrado até que a árvore tenha uma certa profundidade máxima.

[0034] Na operação 305, parâmetros de árvore e impressões digitais de um banco de dados são introduzidas. Em uma modalidade, parâmetros de árvore são escolhidos para um determinado conjunto de impressão digital, ao ajustá-la para níveis desejados de precisão e velocidade de busca. O controle passa para a operação 310 e o processo 300 continua.

[0035] Na operação 310, uma lista de impressão digital é formada a partir de arquivos de áudio. Cada arquivo de áudio é dividido em quatro segmentos iguais e os blocos de impressão digital do início de cada segmento são acumulados em uma lista. Este procedimento é ainda mais detalhado na patente Vlack mencionada anteriormente. O controle passa para a operação 315 e o processo 300 continua.

[0036] Na operação 315, é determinado se uma impressão digital está disponível ou não. Se for determinado que uma impressão digital está disponível, então o controle é passado à operação 320 e o processo 300 continua. Se for determinado que uma impressão digital não está disponível, então controle é passado à operação 325 e processo 300 continua.

[0037] A determinação na operação 315 pode ser baseada em quaisquer critérios adequados. Por exemplo, determinar se uma impressão digital está disponível pode ser feito por iteração pela lista gerada na operação 310.

[0038] Em operação 320, a impressão digital é atribuída a um cluster ao calcular a distância de Hamming dos centroides de cluster e escolher o mais próximo desta. O controle passa de volta para a operação 315 e o processo 300 continua.

[0039] Na operação 325, centroides de cluster são determinados. Em uma modalidade, o centroide de um conjunto de impressões digitais é o binário equivalente de sua média e consiste do valor binário que ocorre mais frequentemente em cada local de impressão digital em um determinado cluster. Os centroides de cluster são determinados a partir dos clusters criados no final da operação 315. O controle passa para a operação 330 e o processo 300 continua.

[0040] Na operação 330, é determinado se iterações estão terminadas ou não. Se for determinado que iterações estão terminadas ou alcançadas, o controle é passado para operação 335 e o processo 300 continua. Se for determinado que as iterações não estão terminadas ou alcançadas, o controle é passado para operação 310 e o processo 300 continua.

[0041] A determinação na operação 330 pode ser feita com base em quaisquer critérios adequados. Por exemplo, o número máximo de iterações pode ser predeterminado. Quando esse número é obtido, o controle passa para a operação 335. Cada nova iteração repete o processo com a mesma lista de impressão digital de antes, mas com os centroides de cluster mais recentemente calculados. Centroides de cluster podem ser escolhidos aleatoriamente a partir do conjunto inicial de impressão digital e o número de clusters para formar é referido como o fator de ramificação.

[0042] Na operação 335, clusters são rotulados e a profundidade da árvore é aumentada. Em uma modalidade, parâmetros de profundidade máxima de árvore podem ser escolhidos adequadamente para obter um determinado nível de desempenho. Uma lista de clusters é formada e clusterização de k-means é aplicada ao conteúdo de cada cluster. Este procedimento recursivamente quebra uma lista de clusters em clusters menores, formando uma árvore e paradas até que uma certa profundidade máxima especificada seja atingida. O controle passa para a operação 340 e o processo 300 continua.

[0043] Na operação 340, é determinado se existem, ou não, grupos disponíveis. Se for determinado que existem clusters disponíveis, então o controle é passado à operação 345 e o processo 300 continua. Se for determinado que não existem clusters disponíveis, então controle é passado à operação 350 e processo 300 continua.

[0044] A determinação na operação 340 pode ser feita com base em quaisquer critérios adequados. Em uma modalidade, a lista de clusters é iterada pela procura por clusters disponíveis.

[0045] Na operação 345, é determinado se a profundidade da árvore é menor que a profundidade máxima. Se for determinado que a profundidade da árvore é menor que a profundidade máxima, controle é passado para operação 310 e o processo 300 continua. Se for determinado que a profundidade da árvore não é menor do que a profundidade máxima, controle é passado para operação 335 e o processo 300 continua.

[0046] A determinação na operação 345 pode ser feita com base em quaisquer critérios adequados. Em uma modalidade, cada vez que um cluster é formado de um já existente, ou desde o início, sua profundidade é aumentada por um. A profundidade da lista de impressão digital antes da construção da árvore é zero e toda vez que uma determinada lista é quebrada em clusters, cada profundidade de filho aumenta em um. Em uma modalidade, o cluster na parte inferior da árvore tem a profundidade máxima.

[0047] Na operação 350, é determinado se a profundidade é equivalente a um ou não. Se a profundidade é equivalente a um, o controle é passado para operação 355 e o processo 300 termina. Se a profundidade não é equivalente a um, controle é passado para a operação 360 e o processo 300 continua.

[0048] A determinação na operação 350 pode ser feita com base em quaisquer critérios adequados. Em uma modalidade, o processo para depois que o último filho da raiz foi processado e isto tem uma profundidade de um. Isto representa o último cluster no topo da árvore.

[0049] Na operação 360, a profundidade da árvore é diminuída. Em uma modalidade, o decréscimo pode ser feito por um. Este processo corresponde a subir a árvore por uma etapa e pesquisar o próximo cluster nesse nível. O controle é passado de volta para a operação 340 e o processo 300 continua.

[0050] Em uma modalidade da abordagem de multiresolução, cada impressão digital é armazenada em uma pluralidade de resoluções. Em uma modalidade, pelo menos duas resoluções são usadas. Uma resolução pode ser mais elevada e a outra resolução menor, tal como de 16 bits e 2 bits, por exemplo.

[0051] Em uma modalidade, a árvore pode ser ramificada primeiro por clusterização das impressões digitais em resolução baixa (por exemplo, 2 bits correspondentes às diferenças de 3 bancos de filtro perceptual), e em seguida armazenamento dos ramos individuais contendo as impressões digitais na resolução maior (16 bits). Estes são divididos adicionalmente em clusters menores se for necessário.

[0052] Em uma modalidade da etapa de reconhecimento, cada entrada de impressão digital é extraída em resoluções baixas e altas. A impressão digital de baixa resolução é correspondida com o centroide de nó, como descrito anteriormente e usado para identificar o cluster ao qual ele pertence. A correspondência de impressões digitais de alta resolução, em seguida, é executada dentro dos clusters apropriados. Em resoluções mais altas, a máscara de impressão digital pode ser usada para calcular o BER. Construção da árvore de multirresolução é offline e não afeta o desempenho em tempo real. Em outra modalidade, impressões digitais em várias resoluções (tais como 2, 4 e 16 bits) podem ser usadas para construir árvores hierárquicas. Resoluções podem ser escolhidas para obter um determinado nível de desempenho.

[0053] A figura 4 é um fluxograma ilustrando uma modalidade de um processo para reconhecimento de impressão digital. Em uma modalidade, o processo de reconhecimento é para um bloco de impressão digital compreendendo 128bits. Em uma modalidade, uma árvore preexistente com um parâmetro de limite adicional para ignorar um cluster é necessária. A busca começa do topo e continua para baixo até que uma folha, o membro mais inferior da árvore, seja alcançada. Em uma modalidade, a busca é organizada como uma pesquisa primeiramente de profundidade em que todos os filhos em um nó específico são pesquisados antes de passar para o próximo filho. Limiares podem ser escolhidas apropriadamente para obter um determinado nível de desempenho.

[0054] Na operação 405, parâmetros de árvore e impressões digitais de um banco de dados são introduzidas. Em uma modalidade, parâmetros de árvore são escolhidos para um determinado conjunto de impressão digital, ao ajustá-la para níveis desejados de precisão e velocidade de busca. O controle passa para a operação 410 e o processo 400 continua.

[0055] Na operação 410, uma lista de impressão digital é formada. Em uma modalidade, uma impressão digital sendo introduzida (desconhecida) é combinada com os membros na profundidade atual de uma árvore de impressão digital. Esta profundidade é inicialmente definida como 1 (que corresponde ao valor mais baixo, mas nível mais alto) da árvore. O controle passa para a operação 415 e o processo 400 continua.

[0056] Na operação 415, é determinado membros estão disponíveis, ou não. Se for determinado que um membro está disponível, então o controle é passado à operação 445 e o processo 400 continua. Se for determinado que um membro não está disponível, então controle é passado à operação 420 e processo 400 continua.

[0057] A determinação na operação 415 pode ser feita com base em quaisquer critérios adequados. Por exemplo, determinar se membros estão disponíveis pode ser feito por iteração pela lista gerada na operação 410.

[0058] Na operação 420, é determinado se a profundidade da árvore é maior ou não do que um. Se for determinado que a profundidade é maior que um, controle é passado para operação 430 e o processo 400 continua. Se for determinado que a profundidade não é maior do que um, o controle é passado para operação 425 e a processo termina.

[0059] A determinação na operação 420 pode ser feita com base em quaisquer critérios adequados. Em uma modalidade, cada membro da árvore é um cluster (nó) e cada cluster tem uma profundidade entre 1 e o valor máximo. Depois de pesquisar todos os membros com profundidade de 1, a árvore é totalmente pesquisada e não há nada mais para pesquisar.

[0060] Na operação 430, a profundidade da posição de pesquisa é reduzida. O controle passa para a operação 410 e o processo 400 continua.

[0061] Na operação 445 é determinado se o membro é uma folha ou não. Se for determinado que o membro é uma folha, então o controle é passado à operação 450 e o processo 400 continua. Se for determinado que o membro não é uma folha, então controle é passado à operação 460 e processo 400 continua.

[0062] A determinação na operação 445 pode ser feita com base em quaisquer critérios adequados. Por exemplo, uma folha pode ser definida como um nó que não é quebrado em sub-clusters e, portanto, não tem nenhum nó filho. Um nó de árvore armazena cada impressão digital para a resolução desejada. Em várias árvores de resolução, os nós de árvore armazenam cada impressão digital a uma pluralidade de resoluções.

[0063] Na operação 450, a impressão digital é combinada com todos os membros da folha. Em uma modalidade, impressões digitais dentro de um nó de folha são verificadas ao aplicar-se a máscara definida na patente Vlack mencionada anteriormente. Em uma modalidade, a taxa BER é calculada apenas para os bits mascarados. A impressão digital de mais alta resolução só é correspondida depois de aplicar a máscara correspondente às folhas da árvore. A resolução de impressão digital utilizada para a busca de um cluster que não é uma folha varia com a profundidade da árvore. O controle passa para a operação 455 e o processo 400 continua.

[0064] Na operação 455, uma lista de correspondências possíveis é gerada para a impressão digital. O controle passa de volta para a operação 415 e o processo 400 continua.

[0065] Na operação 460, a impressão digital é comparada com o centroide. Em uma modalidade, a distância de impressão digital do centroide do nó é calculada e o valor resultante é comparado com um limiar. O controle passa para a operação 465 e o processo 400 continua.

[0066] Na operação 465, é determinado se uma correspondência foi encontrada ou não. Se for determinado que a correspondência não foi encontrada, controle é passado para operação 415 e o processo 400 continua. Se for determinado que uma correspondência foi encontrada, controle é passado para operação 470 e o processo 400 continua.

[0067] A determinação na operação 465 pode ser feita com base em quaisquer critérios adequados. Em uma modalidade, a distância centroide-impressão digital é determinada e comparada com um limiar para determinar correspondências.

[0068] Na operação 470, a profundidade da árvore é aumentada e o conteúdo do nó filho é explorado. Em uma modalidade, a distância de Hamming calculada é examinada. Se a distância centroide- impressão digital cai abaixo de um limiar, todos os nós filhos são, por sua vez, explorados. A distância de Hamming, que pode ser definida como o número de operações de alternância cumulativas para combinar duas sequências de caracteres binárias é implementada usando XOR de alta velocidade e rotinas de popcount. Se a distância centroide-impressão digital exceder o limiar, todos os nós filhos são ignorados. O controle é passado de volta à operação 410 e o processo 400 continua.

[0069] O método mencionado anteriormente em Haitsma só mede diferenças direcionais de amplitudes de banco de filtro perceptuais sucessivas sobre instantes de tempo sucessivos. Ele não mede valores reais. Registram-se os valores reais destas amplitudes ao manter-se conjuntos paralelos de valores binários para diferentes pontos fortes. Por exemplo, um 1 bit resultante de uma diferença positiva (ou 0 bit de negativa) poderia ser mais detalhado como um 0 ou 1, dependendo dos intervalos de diferença de valor. Dependendo do nível de detalhe retido, fluxos de bit paralelos adicionais são gerados junto com suas respectivas máscaras que são calculadas da mesma forma que descrito na patente Vlack mencionada anteriormente. Se duas impressões digitais têm uma distância de Hamming que é inferior ao BER, a distância de Hamming entre o fluxo de bit paralelo detalhado é medida para confirmar ou rejeitar a correspondência no próximo nível de detalhe.

[0070] Na abordagem de resolução de múltiplas, cada nó da árvore armazena as impressões digitais em duas ou mais resoluções. O processo de pesquisa começa a partir do nível superior por impressões digitais correspondentes nos nós superiores na resolução mais baixa e pelo uso de progressivamente maiores resoluções em profundidades maiores. Correspondências de resolução mais altas são executadas somente nos nós de folha. A impressão digital sendo introduzida também terá que estar disponível em duas ou mais resoluções. Várias árvores de resolução podem tornar-se bastante complexas quando várias resoluções estão presentes mas árvores com apenas duas resoluções (2,16 ou 4,16) são bastante eficazes nesta abordagem. As etapas no processo 400 permanecem inalteradas com a única diferença na operação 460, onde a comparação de centroide é feita em uma resolução dependendo da profundidade da árvore. Os parâmetros de entrada e as impressões digitais da operação 405 precisam estar disponíveis em várias resoluções, o que reduz o número total de impressões digitais disponíveis e reduz automaticamente o espaço de busca sem adversamente afetar a precisão.

[0071] Embora a invenção tenha sido ilustrada e descrita em detalhes nas figuras e descrição acima, a mesma deve ser considerada como ilustrativa e não restritiva em caráter, subentendendo-se que somente a modalidade preferencial foi mostrada e descrita e que todas as equivalentes, alterações e modificações que vêm dentro do espírito da invenção conforme descritas neste documento e/ou pelas seguintes reivindicações que se deseja que sejam protegidas.

[0072] Portanto, o escopo apropriado da presente invenção deve ser determinado apenas pela interpretação mais ampla das reivindicações anexas de modo a abranger todas as tais modificações, bem como todas as relações equivalentes àquelas ilustradas nas figuras e descritas na especificação.

Claims

1. Método de busca por impressões digitais de áudio armazenadas em um banco de dados dentro de um sistema de detecção de impressões digitais de áudio, o método caracterizado pelo fato de que compreende as etapas de: a. dividir arquivos de áudio conhecidos em quadros que se sobrepõem; b. extrair impressões digitais de áudio para cada quadro dos arquivos de áudio conhecidos, cada impressão digital de áudio compreendendo uma pluralidade de valores extraídos em pelo menos uma primeira resolução e uma segunda resolução, a segunda resolução tendo uma resolução maior do que a primeira resolução; c. arquivar impressões digitais de áudio no banco de dados; e d. comparar e classificar um fluxo de áudio desconhecido sendo introduzido, em que dita comparação e classificação são com base na medida de correspondência das impressões digitais do fluxo de áudio desconhecido com as impressões digitais arquivadas no banco de dados, o banco de dados compreendendo uma árvore de impressão digital compreendendo uma pluralidade de nós, cada nó dentre a pluralidade de nós sendo associado com: um cluster de impressões digitais semelhantes de acordo com uma distância de Hamming; e um centroide correspondente a uma média de impressões digitais do cluster, em que as impressões digitais correspondentes compreendem: i. computar, usando a distância de Hamming, uma distância de impressão digital entre uma pluralidade de primeiros valores de resolução de uma impressão digital das impressões digitais do fluxo de áudio desconhecido e o centroide de um nó, j. . comparar uma pluralidade de segundos valores de resolução da impressão digital das impressões digitais do fluxo de áudio desconhecido com nós filhos do nó em resposta para determinar que a distância de impressão digital atende um limiar, cada um dentre os nós filhos sendo associados com um sub-cluster de impressões digitais do cluster do nó; k. i. repetir as etapas (i) e (ii) até que um nó sem nós filhos seja atingido; aplicar uma máscara para verificar as impressões digitais dentro do nó atingido na etapa (iii); e v. retornar correspondências para o sistema.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os quadros têm um comprimento de 20 ms.

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de arquivamento (c) compreende adicionalmente: a. atribuir as impressões digitais a clusters; b. atribuir os clusters a ramos da árvore de impressão digital; e c. repetir as etapas (a) e (b) até que uma profundidade desejada seja obtida a partir da árvore de impressão digital.

4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o centroide compreende um valor binário que ocorre frequentemente em cada local de impressão digital no cluster.

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o limiar é composto por diferenças direcionais de amplitudes de banco de filtro perceptuais sucessivas sobre instantes sucessivos.

6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o limiar compreende diferenças direcionais de valores de amplitude de banco de filtro perceptual sucessivos.

7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que os valores são registrados ao manter-se conjuntos de valores binários paralelos para diferentes pontos fortes.

8. Método de busca por impressões digitais de áudio armazenadas em um banco de dados dentro de um sistema de detecção de impressões digitais de áudio, o método caracterizado pelo fato de que compreende as etapas de: a. dividir arquivos de áudio conhecidos em quadros que se sobrepõem; b. extrair impressões digitais de áudio para cada quadro dos arquivos de áudio conhecidos, cada impressão digital de áudio compreendendo uma pluralidade de valores extraídos em pelo menos uma primeira resolução e uma segunda resolução, a segunda resolução tendo uma resolução maior do que a primeira resolução; c. arquivar impressões digitais de áudio no banco de dados, em que cada impressão digital é arquivada em uma pluralidade de resoluções; e d. comparar e classificar um fluxo de áudio desconhecido sendo introduzido, em que dita comparação e classificação são com base na medida de correspondência das impressões digitais do fluxo de áudio desconhecido com as impressões digitais arquivadas no banco de dados, o banco de dados compreendendo uma árvore de impressão digital compreendendo uma pluralidade de nós, cada nó dentre a pluralidade de nós sendo associado com: um cluster de impressões digitais semelhantes de acordo com uma distância de Hamming; e um centroide correspondente a uma média de impressões digitais do cluster, em que as impressões digitais correspondentes compreendem: i. computar, usando a distância de Hamming, uma distância de impressão digital entre uma pluralidade de primeiros valores de resolução de uma impressão digital das impressões digitais do fluxo de áudio desconhecido e o centroide de um nó; ii. comparar uma pluralidade de segundos valores de resolução da impressão digital das impressões digitais do fluxo de áudio desconhecido com nós filhos do nó em resposta para determinar que a distância de impressão digital atende um limiar, cada um dentre os nós filhos sendo associados com um sub-cluster de impressões digitais do cluster do nó; iii. repetir as etapas (i) e (ii) até que um nó sem nós filhos seja atingido; iv. aplicar uma máscara para verificar as impressões digitais dentro do nó atingido na etapa (iii); e v. retornar correspondências para o sistema.

9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que os quadros têm um comprimento de 20 ms.

10. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que a etapa de arquivamento (c) compreende adicionalmente: a. atribuir as impressões digitais em clusters, em que as impressões digitais são atribuídas com base na resolução; b. atribuir os clusters a ramos de uma árvore de impressão digital; e c. repetir as etapas (a) e (b) até que uma profundidade desejada seja obtida a partir da árvore de impressão digital.

11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que a resolução compreende uma resolução alta e uma resolução baixa.

12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que a resolução alta compreende 16 bits.

13. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que a resolução baixa compreende 2 bits.

14. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que o centroide compreende um valor binário que ocorre frequentemente em cada local de impressão digital no cluster.

15. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que a correspondência é realizada ao começar com as impressões digitais de resolução baixa e progredir para as impressões digitais de resolução mais alta.

16. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que é aplicada uma máscara de impressão digital ao realizar a correspondência em resoluções mais altas.