BR112020018915A2

BR112020018915A2 - Método para identificação de um objeto em uma imagem e dispositivo móvel para execução do método

Info

Publication number: BR112020018915A2
Application number: BR112020018915-4A
Authority: BR
Inventors: Jesus Aragon
Original assignee: Identy Inc.
Priority date: 2018-03-16
Filing date: 2019-03-15
Publication date: 2020-12-29
Also published as: US11495050B2; EP3540633A1; US20220335748A1; ES2828358T3; JP7386545B2; CA3098286C; US11508184B2; KR20220125377A; MX2020009382A; BR112020021946A2; KR102554724B1; EP3540635B1; US20210103749A1; PE20240541A1; US20230011257A1; MX2020011313A; ZA202006256B; JP2021517330A; AU2022202817B2; KR20200130440A

Abstract

método para identificação de usuário usando uma imagem de um objeto do usuário que tem uma característica biométrica do usuário, como uma impressão digital ou um conjunto de impressões digitais de pontas de dedos, o método compreendendo: a obtenção, por um sensor óptico de um dispositivo móvel, da imagem do objeto; provisão da imagem para uma rede neural; o processamento da imagem pela rede neural, identificando a posição do objeto e o objeto na imagem; extração, a partir do objeto identificado, da característica biométrica; armazenamento da característica biométrica em um dispositivo de armazenamento e/ou provisão de pelo menos a característica biométrica como entrada de um meio de identificação, compreendendo o processamento da entrada para determinação se a característica biométrica identifica o usuário.

Description

“MÉTODO PARA IDENTIFICAÇÃO DE UM OBJETO EM UMA IMAGEM E DISPOSITIVO MÓVEL PARA EXECUÇÃO DO MÉTODO”

[0001] A presente invenção se refere a um método para identificação de um usuário que utiliza um objeto em uma imagem tendo uma característica biométrica que identifique o usuário, de acordo com a reivindicação 1, e um dispositivo móvel adaptado para executar um método correspondente, de acordo com a reivindicação 15. Técnica Anterior

[0002] No geral, os reconhecimentos de imagem são difundidos e permitem uma pluralidade de aplicações. Por exemplo, reconhecimento de pessoas e rostos específicos ou objetos em imagens é usado pelas redes sociais e demais mídias de forma excessiva. Além disso, nos smartphones mais recentes, também são usadas tecnologias de identificação para identificar o usuário por, por exemplo, sensores de impressão digital.

[0003] As técnicas anteriores exigem uma quantidade significativa de recursos informáticos para atingir a identificação de objetos em imagens, independentemente de usarem “força bruta” ou redes mais novas que são especificamente treinadas para identificar objetos.

[0004] No entanto, mais recentemente foi provida a tecnologia “You Only Look Once” [Você só olha uma vez] que permite a identificação de objetos em imagens significativamente mais rápida, embora confiável. Os princípios básicos desta tecnologia são explicados nos artigos “You Only Look Once: Unified, Real-Time Object Detection” por Redmon et al. e “YOLO9000: Better, Faster, Stronger” por Redmon et al.

[0005] O conceito básico da tecnologia “You Only Look Once” (doravante denominada tecnologia YOLO”) é separar uma imagem obtida em grades e usar uma rede neural treinada a fim de identificar objetos em uma ou mais das células ao usar uma rede neural que compreende uma pluralidade de camadas de redução e camadas convolucionais que processam, cada uma, a imagem obtida.

[0006] Apesar das redes neurais obterem resultados apropriados também enquanto realizam detecção em tempo real mesmo para imagens em movimento (vídeos) para uma pluralidade de objetos, verifica-se que, para outras identificações de objetos muito específicos, como a ponta de dedos, elas ainda não são adaptadas adequadamente. Isso resulta em um tempo mais longo necessário para identificar os objetos.

[0007] Além disso, devido à rede neural comparativamente complexa, são necessários recursos informáticos significativos para permitir a identificação em tempo real de objetos, o que, adicionalmente, torna a aplicação da tecnologia YOLO inadequada para os dispositivos móveis do estado atual, como smartphones e tablets. Objetivo

[0008] Em vista do exposto acima, é objetivo da presente invenção prover métodos e sistemas que permitam a identificação rápida de usuários enquanto proveem precisão de detecção significativa e, ao mesmo tempo, simplifica a interação do usuário com o dispositivo móvel usado para identificação. Além disso, seria vantajoso reduzir os recursos informáticos exigidos para a identificação, de modo que a identificação possa ser implementada nos dispositivos móveis da presente geração. Solução

[0009] Este objetivo é solucionado pelo método implementado em um dispositivo informático móvel, de acordo com a reivindicação 1, e dispositivo informático móvel, de acordo com a reivindicação 15. As realizações preferidas da invenção são fornecidas nas reivindicações dependentes.O método, de acordo com a invenção, para identificação de um usuário usando uma imagem de um objeto do usuário que possua uma característica biométrica do usuário, como uma impressão digital ou um conjunto de impressões digitais de ponta de dedos, o método compreendendo: obtenção, por um sensor óptico de um dispositivo móvel, da imagem do objeto; provisão da imagem a uma rede neural; processamento da imagem pela rede neural, identificando assim a posição do objeto e o objeto na imagem; extração da característica biométrica a partir do objeto identificado; armazenamento da característica biométrica em um dispositivo de armazenamento e/ou provisão pelo menos da característica biométrica como entrada a um meio de identificação, compreendendo o processamento da entrada para determinar se a característica biométrica identifica o usuário.

[0011] Aqui, o dispositivo de armazenamento pode ser qualquer dispositivo tanto associado ao próprio dispositivo móvel quanto um dispositivo de armazenamento remoto provido fora do dispositivo móvel. Por exemplo, o dispositivo de armazenamento pode ser um armazenamento associado a um servidor de uma empresa à qual a característica biométrica deve ser encaminhada através de meios de transferência de dados, como internet móvel ou outro meio de transferência.

[0012] A provisão da característica biométrica ao meio de identificação pode compreender igualmente o encaminhamento da característica biométrica de forma interna no dispositivo móvel, por exemplo, a um aplicativo específico, ou encaminhamento através de meio de transferência adequada da característica biométrica a um meio de identificação remoto, como um servidor de login de um banco, rede social ou similar.

[0013] A etapa de obtenção das imagens é realizada preferencialmente por meio de uma imagem tirada livremente ou aplicativo que permita a tirada livremente de uma imagem de uma mão ou dedo. Isso significa que nenhuma máscara é provida por tal aplicativo que indique ao usuário a forma que este deve dispor sua mão ou dedos a fim de tirar a imagem para identificação.

[0014] Este método permite a identificação fácil e confiável de um usuário enquanto o usuário está liberado de quaisquer restrições de como se comportar ou interagir com o dispositivo móvel para a identificação.

[0015] Em uma concretização, o objeto é pelo menos uma ponta de dedo e a característica biométrica é uma impressão digital da ponta de dedo e em que o processamento da entrada pelo meio de identificação compreende a extração da característica biométrica a partir da impressão digital, como, por exemplo, a localização e tipo da minúcia, e comparação da característica biométrica extraída com uma característica biométrica armazenada em um dispositivo de armazenamento, em que caso a diferença entre a característica biométrica extraída e a característica biométrica armazenada seja inferior a um limiar, o meio de identificação determine que o usuário seja identificado pela impressão digital e, caso a diferença entre a característica biométrica e a característica biométrica armazenada seja superior a um limiar, o meio de identificação determine que o usuário não seja identificado pela impressão digital.

[0016] A característica biométrica pode ser qualquer característica que permita uma identificação biométrica de um usuário ou possa, pelo menos, auxiliar na identificação do usuário com a característica biométrica e potencialmente outras características.

[0017] O limiar pode ser um valor numérico que indique se, e o quanto, a característica biométrica tirada ou obtida usando a imagem corresponde à característica biométrica armazenada. Por exemplo, o limiar pode ser um número real x, em que 0 < x < 1. Aqui, um x grande significa que a característica biométrica obtida e a característica biométrica armazenada são permitidas para diferir significativamente uma da outra enquanto ainda permite uma identificação do usuário. Quanto menor o x, melhor a característica biométrica obtida deve corresponder à característica biométrica armazenada a fim de obter uma identificação.

[0018] Ao definir o limiar para um valor como necessário, pode-se elevar a segurança da identificação.

[0019] Em uma execução mais específica desta concretização, a imagem compreende mais de uma ponta de dedo e o método compreende ainda a identificação da posição de cada ponta de dedo na imagem e uso da impressão digital de cada ponta de dedo para identificação do usuário pelo meio de identificação.

[0020] Ao usar, por exemplo, todos os dedos para identificação, o método para identificação do usuário está menos propenso a falha, pois a falsificação de mais de uma impressão digital exige recursos significativos e é menos provável.

[0021] Em uma implementação desta concretização, o meio de identificação determina que um usuário seja identificado pelas impressões digitais da ponta de dedos ao determinar que uma precisão de identificação combinada das impressões digitais de todas as pontas de dedos na imagem esteja acima de um determinado limiar ou o meio de identificação determine que um usuário seja identificado pelas impressões digitais da ponta de dedos ao determinar se, para cada ponta de dedo, uma diferença entre uma característica biométrica da impressão digital da ponta de dedo e uma característica biométrica armazenada da impressão digital da ponta de dedo seja inferior a um limiar e determinando que o usuário seja identificado pelas impressões digitais da ponta de dedos apenas caso todas as diferenças determinadas sejam inferiores ao limiar correspondente.

[0022] A precisão de identificação combinada deve ser compreendida como uma combinação das precisões de identificação de cada característica biométrica tomadas em isolamento. Isso significa, por exemplo, que a característica biométrica de impressão digital é avaliada isolada de outras impressões digitais. Na concretização acima, uma característica biométrica será considerada por corresponder a uma característica biométrica armazenada caso a diferença seja inferior a um determinado limiar. Um valor de correspondência relativa entre a característica biométrica obtida e a característica biométrica armazenada pode representar uma precisão de identificação. Por exemplo, caso a característica biométrica obtida e a característica biométrica armazenada de uma ponta de dedo correspondam em 99,9%, a precisão de identificação pode ter um valor de 0,999. A soma de todas as precisões de identificação podem então ser tomadas e, caso esteja acima de um limiar que, por exemplo, pode depender do limiar que indica se uma única característica biométrica obtida é considerada por corresponder a uma característica biométrica armazenada, o usuário é considerado identificado pelas características biométricas obtidas.

[0023] Em uma concretização, a imagem é obtida por uma câmera como sensor óptico do dispositivo móvel. Isso torna o método inventivo aplicável aos dispositivos móveis da geração atual, como smartphones, uma vez que quase todo smartphone atualmente disponível possui pelo menos uma câmera.

[0024] Em uma concretização, o processamento da imagem como entrada pela rede neural compreende o processamento por uma primeira camada da rede neural, a entrada para criar uma primeira saída intermediária e processamento por cada camada seguinte da saída da camada anterior, em que a rede neural compreende uma pluralidade de camadas, cada camada sendo uma convolução separável em profundidade compreendendo, na ordem de processamento da entrada na camada, uma camada convolucional em profundidade, um primeiro normalizador de lote, uma primeira unidade linear retificada, uma camada convolucional em ponto, um segundo normalizador de lote e uma segunda unidade linear retificada; em que, ao processar a entrada usando a pluralidade de camadas, a rede neural obtém, como uma saída, uma identificação do objeto e localização do objeto na imagem.

[0025] A camada convolucional em profundidade, como pretendida, utiliza uma multiplicação ou produto interno do mapa de característica (matriz) que corresponde à imagem original com um núcleo sendo a matriz no tamanho de, por exemplo, 3 x 3 para calcular uma matriz adicional. O uso destas camadas é mais eficiente em relação à eficiência de identificação. Isso ocorre especificamente devido às camadas de agrupamento máximo poderem resultar em perda de informações, o que, por sua vez, exigirá mais iterações. Em vista disto, as camadas convolucionais em profundidade, como propostas na concretização acima, são mais eficientes em relação à sensibilidade de seus parâmetros que as camadas convolucionais comumente usadas.

[0026] A camada convolucional em profundidade e a camada convolucional em ponto também podem ser denominadas subcamada convolucional em profundidade e subcamadas convolucional em ponto. Na verdade, são “camadas em uma camada” da rede neural, constituindo assim as subcamadas.

[0027] Ao aplicar esta concretização específica da camada convolucional em profundidade, junto à camada convolucional em ponto, o normalizador de lote e as unidades lineares retificadas, como providas na concretização acima, os recursos informáticos exigidos pela rede neural para realizar a identificação em tempo real de objetos que portam características biométricas, como a ponta de dedos nas imagens, são reduzidos significativamente em comparação à tecnologia neural atualmente conhecida, uma vez que a tecnologia YOLO conhecida se baseia em camadas de agrupamento máximo como um do grupo de camadas na rede neural usada.

[0028] Em uma concretização, a criação da saída compreende a separação da imagem durante o processamento em uma grade que compreende um quadriculado Q x R, em que pelo menos uma caixa delimitadora é criada dentro de cada célula, a caixa delimitadora tendo uma posição predeterminada dentro da quadriculado e características geométricas predeterminadas, em que a criação da saída compreende ainda a modificação da posição e das características geométricas da caixa delimitadora para obter uma caixa delimitadora resultante, em que a caixa delimitadora resultante é a caixa delimitadora que possui uma posição resultante e características geométricas resultantes que mais correspondente com a localização do objeto.

[0029] A separação da imagem obtida em células com caixas delimitadoras predefinidas permite a exibição adequada e provê retroalimentação sobre os objetos identificados pelo uso de caixas delimitadoras no resultado final para assinalar a localização do objeto e o próprio objeto.

[0030] Em uma execução mais específica desta concretização, a posição da caixa delimitadora é calculada em relação a um centro da célula em duas dimensões e as características geométricas da caixa delimitadora compreendem altura e largura da caixa delimitadora, em que ainda uma probabilidade do objeto estar dentro da caixa delimitadora é associada a cada caixa delimitadora.

[0031] A associação das caixas delimitadoras a probabilidades correspondentes permite a provisão de uma matriz ou vetor que represente a caixa delimitadora e possa ser manuseada por unidades de processamento gráfico com eficiência precisa ao ter que combinar isso a outros objetos representados na forma de uma matriz ou vetor. Assim, os recursos informáticos necessários são reduzidos mais ainda.

[0032] Mais especificamente, a saída pode ser um tensor T de dimensão Q x R x B x A, em que A é o número de diferentes caixas delimitadoras em cada célula e B é um vetor associado a cada caixa delimitadora que possui a dimensão 5 e é representada como B= ( )

[0033] O tensor resultante pode ser processado pelas unidades de processamento gráfico de forma altamente eficiente. Além disso, a provisão da identificação resulta na forma que tal tensor permite a dedução fácil dos resultados que apresentam a maior probabilidade de identificar um objeto específico.

[0034] Além disso, a produção da saída pode compreender exibir a imagem e as caixas delimitadoras resultantes em cada célula que possui a maior probabilidade entre as caixas delimitadoras na célula.

[0035] Ao prover apenas as células que possuem a maior probabilidade, o usuário recebe uma identificação da posição e do objeto através da caixa delimitadora, inclusive o objeto respectivamente identificado, o que provê uma retroalimentação facilmente reconhecível. Além disso, a caixa delimitadora resultante representa apenas um vetor no tensor resultante provido como saída na concretização anterior e pode, assim, ser facilmente extraída pelo usuário ou outro programa e usada para processamento adicional ao tomar apenas as respectivas coordenadas da caixa delimitadora resultante.

[0036] Embora esta forma de identificação da posição da ponta de dedo na imagem possa ser preferida, pois acaba consumindo menos recurso que os demais métodos, também podem ser contemplados outros métodos. Por exemplo, inicialmente poderia ser feita uma proposta para uma área em que a ponta de dedo deve estar presente. Estas propostas poderiam então ser mais processadas para descobrir se de fato existe um objeto como a ponta de dedo presente na proposta para a área ou não.

[0037] Em uma concretização adicional, o processamento da imagem pela rede neural compreende a criação a partir da imagem de pelo menos uma matriz I que representa um valor de cor para cada pixel na imagem e provisão da matriz como entrada para a rede neural, em que a imagem compreende pixels N x M e a matriz I é uma matriz que compreende valores N x M, em que as entradas da matriz I são determinadas por Iij, em que i e j são números inteiros e i = 1...N e j = 1...M.

[0038] Esta separação da imagem em uma matriz para cada um dos valores de cor permite o processamento dos valores de cor separadamente, aumentando assim, vantajosamente, a eficiência de identificação enquanto reduz os recursos informáticos necessários.

[0039] Mais especificamente, cada camada convolucional em profundidade aplica um núcleo K predefinido à matriz I, o núcleo K sendo uma matriz de tamanho S x T, em que S,T < N; S,T < M compreendendo as entradas Sab, em que a aplicação do núcleo à matriz compreende o cálculo do produto interno da matriz K com cada matriz R de tamanho reduzido (N x M)S,T de uma matriz Z, em que a matriz R possui a mesma dimensão do núcleo K, e a matriz Z possui o tamanho ((N + 2Pw) x (M + 2Ph)) e as entradas da matriz Zcd com c,d ∈ ℕ+ são determinadas por { e provê uma matriz P como saída, em que a matriz P possui o – tamanho ( ) ( ), em que Ww e Wh definem a largura do passo e cada entrada Pij da matriz P é o valor do produto interno da matriz R reduzida a (i,j) com o núcleo K, em que a matriz P é provida como saída pela camada convolucional em profundidade ao primeiro normalizador de lote.

[0040] O núcleo permite ponderar adequadamente as informações obtidas de pixels adjacentes no mapa de característica enquanto não se perde nenhuma informação, aumentando assim a eficiência com a qual as camadas consecutivas na rede neural podem suportar a identificação do objeto. Para tanto, o núcleo compreende entradas que correspondem a pesos ou parâmetros específicos obtidos antes do recebimento da imagem, ou seja, durante treinamento da rede neural.

[0041] É um achado da presente invenção que, no caso deste treinamento ser realizado antes do dispositivo móvel ser realmente equipado com um aplicativo ou outro programa que possa realizar o respectivo método de acordo com as realizações acima, os recursos informáticos necessários possam ser vantajosamente reduzidos no dispositivo móvel.

[0042] Apesar de ser um achado da presente invenção que é mais vantajoso implementar a convolução separável usando uma camada convolucional em profundidade e uma camada convolucional em ponto, devido a esta combinação mostrar desempenho melhorado em relação à identificação e aos recursos informáticos necessários, ainda pode-se contemplar que a camada convolucional em profundidade seja substituída com uma camada convolucional especificamente adaptada à identificação de dedos ou ponta de dedos. Portanto, embora a descrição da invenção foque no uso da camada convolucional em profundidades, também é possível implementar a invenção usando uma camada convolucional.

[0043] Em uma concretização adicional, o normalizador de lote calcula um valor médio V a partir da matriz P ao calcular ∑ e cria uma matriz P’ com lote normalizado com entradas P’ij = Pij - V.

[0044] Ao aplicar esta normalização, os efeitos não pretendidos como superexposição podem ser filtrados através do processamento da imagem por meio das respectivas camadas, permitindo assim um aumento de eficiência de identificação do objeto na imagem.

[0045] Além disso, o tamanho S e T do núcleo pode ser igual para todas as camadas convolucionais ou ser diferente para pelo menos uma camada convolucional.

[0046] Ao escolher um núcleo idêntico para cada uma das camadas convolucionais (ou seja, para cada uma das camadas convolucionais em profundidades), o programa resultante instalado no dispositivo móvel correspondente pode ser reduzido de tamanho. Por outro lado, caso seja usado um núcleo que difira em pelo menos uma das camadas convolucionais, as questões conhecidas em relação a falhas de identificação podem ser evitadas caso o núcleo seja adequadamente adaptado. Por exemplo, usar um núcleo maior (correspondendo a um tamanho S e T maior) no início do procedimento de identificação pode permitir tomar e focar as porções mais importantes de uma imagem, aumentando assim a eficiência de identificação.

[0047] Em uma concretização específica, o tamanho S,T = 3 é igual para todas as camadas convolucionais em profundidade e em que pelo menos uma das entradas Sa’b’ ≠ Sa≠a’, b≠b’.

[0048] É um achado da presente invenção que um núcleo correspondente represente a melhor troca entre o tamanho do núcleo, a eficiência de identificação e os recursos informáticos para implementação do respectivo método, aumentando assim a eficiência geral em relação à precisão de identificação e aos recursos informáticos necessários.

[0049] Em uma concretização adicional, o normalizador de lote provê a matriz reduzida normalizada P' para a unidade linear retificada e a unidade linear retificada aplica uma função de retificação a cada entrada P’ij, em que a função de retificação calcula uma nova matriz ̅ com entradas ̅ { e a matriz ̅ é provida como saída à camada convolucional em ponto caso a unidade linear retificada seja a primeira unidade linear retificada ou à próxima camada da rede neural caso a unidade linear retificada seja a segunda unidade linear retificada.

[0050] Esta função de retificação permite filtrar, após cada camada na rede neural, as porções na imagem que potencialmente influenciam negativamente a precisão de identificação. Assim, o número de falsas identificações e correspondentemente o número de iterações necessário para chegar a uma precisão de identificação adequada podem ser reduzidos, poupando assim recursos informáticos.

[0051] Também pode ser provido que a camada convolucional em ponto aplica um peso α à matriz I, P, P' ou ̅ recebida da camada anterior ao multiplicar cada entrada na matriz P, P' ou ̅ pelo peso α.

[0052] Embora a cada um dos pontos no mapa de características seja aplicado o mesmo peso α, esta concretização permite amortecer de forma eficiente as porções na imagem (correspondendo às entradas na matriz que não influenciarão significativamente a identificação). Este amortecimento é atingido ao reduzir a contribuição absoluta destas porções na matriz e, junto à unidade linear retificada, classificar as porções no ciclo seguinte.

[0053] Em uma concretização preferida, cada etapa dos métodos explicados acima é realizada no dispositivo móvel.

[0054] Isso pode compreender pelo menos as etapas dos métodos descritos acima, que envolvem o processamento da imagem e identificação do usuário. O armazenamento da imagem ou recursos biométricos ou características biométricas ainda pode ser realizado por qualquer dispositivo de armazenamento interno ou externo ao dispositivo móvel. Além disso, ainda é contemplado que a etapa de identificação do usuário seja realizada em um dispositivo diferente do dispositivo móvel, como, por exemplo, um servidor de uma empresa.

[0055] Ao realizar exclusivamente as respectivas etapas no dispositivo móvel, deixa de ser necessário manter um canal para transmissão de dados, por exemplo, para um servidor aberto no qual executa-se realmente o processo de identificação. Assim, o objeto identificação também pode ser usado em áreas em que o acesso à rede móvel ou uma rede de área local está indisponível.

[0056] O dispositivo móvel, de acordo com a invenção, compreende um sensor óptico, um processador e uma unidade de armazenamento que armazena instruções executáveis que, quando executadas pelo processador do dispositivo móvel, pode fazer com que o processor execute o método de quaisquer das realizações descritas acima. Breve Descrição dos Desenhos

[0057] A Figura 1 mostra uma visão geral do método para identificar um usuário, de acordo com a invenção.

[0058] A Figura 2 mostra um fluxograma mais específico de concretização da identificação usando uma característica biométrica extraída da imagem.

[0059] A Figura 3 mostra um esquema que representa o fluxo de processamento geral de identificação de um objeto em uma imagem, de acordo com uma concretização.

[0060] A Figura 4 mostra esquematicamente a estrutura de uma camada na rede neural, de acordo com uma concretização e o processamento de dados nesta camada.

[0061] A Figura 5 é uma representação esquemática do processamento de uma imagem de uma mão usando caixas delimitadoras.

[0062] A Figura 6 mostra o processo de treinamento da rede neural.

[0063] A Figura 7 mostra um dispositivo móvel para obtenção de uma imagem e identificação de um objeto naquela imagem, de acordo com uma concretização. Descrição Detalhada da Invenção

[0064] A Figura 1 mostra uma visão geral do método, de acordo com a invenção, para identificar um usuário que usa uma imagem de um objeto do usuário. O método inicia-se na etapa 11 onde uma imagem de tal objeto é obtida. Este objeto do usuário terá uma característica biométrica que permite a identificação do usuário com esta característica biométrica. Especificamente, o objeto pode ser uma ponta de dedo ou a mão do usuário ou uma pluralidade de pontas de dedos e a característica biométrica obtida desta imagem pode ser a impressão digital de pelo menos uma ponta de dedo ou ainda um conjunto de impressões digitais, por exemplo, de duas, três ou quatro ponta de dedos.

[0065] A imagem pode ser obtida ao usar um sensor óptico, como uma câmera. Mais preferencialmente, este sensor óptico é um sensor óptico de um dispositivo móvel como um smartphone comumente disponível. A câmera pode ser uma câmera capaz de obter imagens de alta definição com um megapixel ou mais.

[0066] A imagem obtida é então provida para processamento na etapa 12 para uma rede neural, a qual será explicada mais detalhadamente a seguir. A provisão da imagem à rede neural pode compreender encaminhamento ou transferência da imagem tanto internamente dentro do dispositivo móvel para um aplicativo correspondente que realize a rede neural quanto ao prover a imagem a um local remoto. Este pode ser um servidor ou outra entidade informática. No entanto, prefere-se que a imagem seja provida à rede neural que reside no dispositivo móvel.

[0067] Na etapa 13, a imagem é então processada pela rede neural, como será explicado mais detalhadamente abaixo em relação às figuras 3 a 6. Em qualquer caso, o processamento da imagem pela rede neural resultará na identificação da posição do objeto que possui a característica biométrica e do próprio objeto na imagem. Isso significa que, por exemplo, no caso de o objeto ser uma ponta de dedo, a rede neural identificará a ponta de dedo dentro da imagem (ou seja, determinará que a ponta de dedo está presente na imagem) e identificará sua posição na imagem. A identificação da posição da ponta de dedo na imagem pode, por exemplo, compreender a identificação de todos os pixels pertencentes à ponta de dedo ou pelo menos identificar uma subseção na imagem que não seja idêntica a toda imagem, por exemplo, assim uma seção correspondendo a um décimo da área geral da imagem.

[0068] Na etapa 14 seguinte, a característica biométrica é extraída do objeto identificado. Esta extração pode compreender, por exemplo, apenas aquelas porções de extração da ponta de dedo identificada que, na verdade, constituem a impressão digital.

[0069] Esta característica biométrica pode então ser processada adicionalmente. Isso é mostrado com as etapas 15 e 16.

[0070] Na etapa 15, a característica biométrica é meramente armazenada. O armazenamento da característica biométrica pode compreender o armazenamento da característica biométrica em um dispositivo de armazenamento não volátil preferível. Este dispositivo de armazenamento pode ser um dispositivo de armazenamento como um armazenamento em estado sólido no próprio dispositivo móvel ou um local de armazenamento remoto. O local de armazenamento remoto pode ser servidor de uma empresa ou qualquer outro local de armazenamento remoto. Neste caso, a característica biométrica é encaminhada na forma de um pacote de dados (como uma imagem ou PDF ou valores numéricos, ou similares) através de meio de transferência de dados como uma conexão LAN ou conexão WLAN ou através da internet móvel.

[0071] Além do armazenamento da característica biométrica em qualquer forma ou, alternativamente, armazenamento da característica biométrica de acordo com a etapa 15, a característica biométrica pode ser encaminhada de acordo com a etapa 16 a um meio de identificação, como entrada. Este meio de identificação pode ser um aplicativo que resida no dispositivo móvel com o qual a imagem do objeto do usuário que possui a característica biométrica foi tirada ou também pode ser um meio de identificação remoto, como um registro em servidor ou outra entidade que usa a característica biométrica para identificar o usuário e realiza etapas adicionais, como registro em uma rede social, conta de banco ou similar.

[0072] A Figura 2 mostra uma explicação mais detalhada de como um usuário pode ser identificado usando a característica biométrica no caso da característica biométrica ser uma impressão digital, em que o objeto seria então pelo menos uma ponta de dedo.

[0073] O método na figura 2 inicia-se com a etapa 21, em que a característica biométrica é extraída da ponta de dedo e, consequentemente, estas etapas são realizadas pelo menos após a etapa de extração, a partir do objeto identificado, da característica biométrica na etapa 14 explicada na figura

1.

[0074] A extração das características biométricas a partir da ponta de dedo pode, por exemplo, compreender a extração de local e o tipo de minúcia da impressão digital. Também pode compreender a extração apenas de tipos de minúcia muito específicos (por exemplo, a intersecção de duas ou mais linhas na impressão digital).

[0075] Para identificar o usuário usando-se estas informações, obviamente é necessário que uma referência esteja disponível na forma de uma característica biométrica correspondente. Por este motivo, pode ser o caso em que o meio de identificação, como explicado anteriormente em relação à figura 1, é associado a um dispositivo de armazenamento ou compreende um dispositivo de armazenamento no qual as características biométricas são armazenadas para usuários específicos. Por exemplo, para cada usuário, pode existir um arquivo no qual uma ou mais característica biométricas são armazenadas na forma de, por exemplo, imagens, valores numéricos ou outra estrutura de dados.

[0076] Na etapa 22 seguinte, a característica biométrica obtida da impressão digital é comparada a uma característica biométrica correspondentemente armazenada. Isso pode compreender, no caso de a característica biométrica armazenada ser representada por diversos locais da minúcia, comparação dos locais correspondentes na característica biométrica extraída. Outros meios para a comparação de característica biométrica obtida com a característica biométrica armazenada são conhecidos e podem ser usadas, por exemplo, tecnologias de reconhecimento de imagem, transformações de frequência ou similares. A comparação da característica biométrica obtida e da característica biométrica armazenada é realizada, de acordo com a invenção, de modo que um grau de correspondência entre a característica biométrica obtida e a característica biométrica armazenada possa ser calculado. Em outras palavras, esta comparação resultará em um cálculo da diferença entre a característica biométrica armazenada e a característica biométrica obtida. Esta diferença pode ser um número real único ou um tensor ou um vetor ou qualquer outra estrutura matemática. Também pode ser uma imagem de diferença obtida pela subtração de uma imagem de característica biométrica armazenada, uma imagem de característica biométrica obtida em uma forma de pixel por pixel.

[0077] Pode-se prover um limiar que pode ser usado para determinar se a característica biométrica obtida corresponde à característica biométrica armazenada e, assim, permite a identificação do usuário.

[0078] Correspondentemente, na etapa 23, determinou-se se a diferença entre a característica biométrica obtida e a característica biométrica armazenada está abaixo ou acima deste limiar. Caso esteja abaixo deste limiar, determina-se, na etapa 25, que o usuário seja identificado pela característica biométrica. Caso a diferença esteja acima do limiar, determina-se na etapa 24,

ao contrário, que o usuário não seja identificado pela característica biométrica.

[0079] Então, isso resultará no meio de identificação que determina que o usuário seja identificado pela impressão digital obtida ou o usuário não seja identificado pela impressão digital obtida.

[0080] As Figuras 1 e 2 descreveram a forma de identificação do usuário usando a característica biométrica obtida da imagem originalmente tirada no caso de apenas uma ponta de dedo ser usada para identificar o usuário e essa ponta de dedo estar presente na imagem.

[0081] No entanto, também se contempla que o meio de identificação não apenas pode avaliar uma única ponta de dedo, mas avaliar mais de uma ponta de dedo, como duas pontas de dedos ou ainda todas as pontas de dedos disponíveis na imagem a fim de identificar o usuário. A forma na qual uma característica biométrica obtida de uma única ponta de dedo ou impressão digital da pluralidade de ponta de dedos é correspondida com a característica biométrica armazenada pelo meio de identificação corresponde àquela descrita em relação à figura 2.

[0082] Entretanto, no caso de mais de uma impressão digital ser avaliada, pode ser que o usuário seja apenas identificado no caso da precisão de identificação combinada da característica biométricas estar acima de um determinado limiar ou o usuário ser identificado apenas no caso, para cada ponta de dedo obtida, da comparação da característica biométrica obtida com a característica biométrica armazenada, como explicado nas etapas 22 e 23 da figura 2, levar ao resultado na etapa 25.

[0083] O último caso é simples, visto que o método explicado em relação à figura 2 é realizado em toda impressão digital na imagem e, apenas se a diferença entre a característica biométrica obtida e a característica biométrica armazenada para cada impressão digital obtida estiver abaixo do limiar determinado, o usuário é identificado. Em qualquer outro caso, o usuário pode não ser identificado.

[0084] No entanto, no caso do usuário ser identificado em caso de uma precisão de identificação combinada da impressões digitais de todas as pontas de dedos na imagem estar acima de um determinado limiar, não é necessário que, para cada ponta de dedo, a comparação da característica biométrica obtida e a característica biométrica armazenada resulte na diferença abaixo do limiar em conformidade com a etapa 23 da figura 2.

[0085] Por exemplo, considerando a precisão de identificação de uma característica biométrica como o número que varia de 0 (sem identificação) a 1 (correspondência completa entre a característica biométrica obtida e a característica biométrica armazenada), a precisão de identificação combinada pode ter um valor de menos de quatro (correspondendo com a precisão de identificação perfeita para quatro impressões digitais) no caso da precisão de identificação combinada ser determinada pela soma das precisões de identificação isoladas obtidas para cada característica biométrica isoladamente.

[0086] Por exemplo, o limiar correspondente para a precisão de identificação combinada pode ser 3,5. Neste caso, será suficiente identificar o usuário no caso de, por exemplo, as precisões de identificação para cada impressão digital serem aproximadamente 0,9, uma vez que a soma destas precisões de identificação (ou seja, a precisão de identificação combinada) é 3,6 e, portanto, acima do respectivo limiar. Como outro exemplo, considerando que as três impressões digitais são identificadas com uma precisão de identificação de 0,95, será suficiente caso os quatro dedos sejam identificados apenas com uma precisão de 0,75.

[0087] Observou-se que a precisão de identificação pode ser vista como o grau relativo de similaridade ou correspondência entre a característica biométrica obtida e a característica biométrica armazenada. Assim, no caso de a característica biométrica obtida corresponder a 90% à característica biométrica armazenada, a precisão de identificação (ou seja, quão preciso o usuário pode ser identificado com esta característica biométrica) será 0,9.

[0088] Fica claro também que outros valores para a precisão de identificação ou ainda também para outros valores para o limiar possam ser usados. Além disso, também há outro meio de como a precisão de identificação combinada pode ser determinada. Por exemplo, a precisão de identificação combinada pode ser calculada ao determinar o valor médio das precisões de identificação ou ao determinar o produto das precisões de identificação.

[0089] Nas figuras a seguir, o processamento da imagem originalmente obtida para a extração final da característica biométrica em conformidade com as etapas 12 a 14 será descrito mais detalhadamente e, ainda, será fornecida uma explicação sobre como a rede neural pode ser treinada para poder identificar a ponta de dedos com alta precisão.

[0090] A Figura 3 representa um fluxograma de uma implementação das etapas 12 a 14 da figura 1, de acordo com uma concretização. O método explicado agora pretende permitir a identificação de um objeto que porta a característica biométrica de um usuário na imagem obtida. No sentido da invenção, esta imagem é obtida na primeira etapa 101 (correspondendo à etapa 11 na figura 1) preferencialmente por um sensor óptico de um dispositivo informático móvel. Este dispositivo informático móvel pode ser um smartphone ou um computador tablet ou outro dispositivo correspondente. Assim, o sensor óptico geralmente será uma câmera, mas também poderia ser uma câmera infravermelha ou outro sensor óptico. Esta câmera pode ser uma câmera que possui uma resolução de 1 megapixel (MP) ou pode ser uma câmera HD ou pode ainda ter uma resolução mais baixa. Preferencialmente, a resolução da imagem obtida é de pelo menos 224 x 224 com três valores de cor por pixel.

[0091] A imagem obtida pode incluir um objeto que, de acordo com a invenção, deve ser identificado não apenas em relação ao objeto como tal (por exemplo, uma ponta de dedo), mas também em relação à sua posição na imagem. O objeto é destinado a portar ou ter uma característica biométrica do usuário que permita a identificação adequada do usuário. Isso significa que o objeto deve ser um objeto como uma ponta de dedo ou um conjunto de ponta de dedos que possuem impressões digitais. Sabe-se que as impressões digitais podem ser usadas para identificar um usuário individualmente, ou seja, além de alguns casos muitos especiais, a ponta de dedo é exclusiva a cada pessoa e, portanto, permite a diferenciação entre duas pessoas com base nas impressões digitais obtidas.

[0092] Embora faça-se referência em relação à figura 1 e às figuras seguintes a “uma imagem”, a invenção permite a identificação de objeto em tempo real e, portanto, o tempo de processamento está na área de poucos milissegundos, permitindo assim também a identificação adequada de objetos em imagens consecutivas, como em um vídeo ou transmissão ao vivo, obtidas pelo sensor óptico. Portanto, o termo “imagem” deve ser compreendido não apenas por se referir a uma única imagem, mas também a imagens obtidas em sucessão em um período muito curto, como uma transmissão de vídeo.

[0093] Na verdade, como é comum para smartphones, ao ativar a câmera, o usuário do smartphone é provido com uma visão real da câmera sem ao menos tirar uma fotografia. Esta “visão preliminar” é, portanto, constituída de uma pluralidade de imagens que são tiradas pela câmera, geralmente com resolução mais baixa. Mesmo para aquelas imagens, o método inventivo descrito pode ser usado.

[0094] Em uma segunda etapa 102 do método, a imagem obtida (ou as imagens obtidas em sucessão uma após a outra) é provida à rede neural em conformidade com a etapa 12 da figura 1, onde a rede neural preferencialmente, mas não necessariamente, reside no dispositivo móvel.

[0095] A rede neural pode ser implementada em um aplicativo (app) ou em qualquer outro programa que seja executado no dispositivo móvel. Em uma concretização preferida da invenção, o processamento adicional realizado pela rede neural e quaisquer outras etapas realizadas no método inventivo é realizado sem ter que encaminhar a qualquer entidade informática fora do dispositivo móvel, também permitindo assim a concretização do método em um modo “offline” do dispositivo móvel.

[0096] A etapa 102 pode ser realizada ao encaminhar a imagem sem qualquer processamento adicional da imagem ou sem qualquer pré- processamento adicional da imagem diretamente à rede neural. No entanto, esta etapa também pode compreender um pré-processamento da imagem em que, por exemplo, a resolução da imagem originalmente obtida é alterada, especificamente reduzida. É um achado da presente invenção que especificamente no caso de identificação da ponta de dedos em uma imagem, é suficiente ter uma resolução comparavelmente baixa de 224 x 224 x 3 (o “3” corresponde aos três valores de cor da imagem, ou seja, azul, vermelho e verde). No caso de a imagem obtida possuir uma resolução que seja muito maior que a resolução de imagem de 224 x 224 necessária para a identificação da ponta de dedos, a etapa 102 ou uma etapa provida entre as etapas 102 e 103 pode compreender a redução da resolução da imagem. Este pré- processamento também pode compreender outras etapas, como alteração das condições de brilho, alteração do valor gama na imagem ou provisão de qualquer outro pré-processamento considerado adequado.

[0097] Após a imagem ter sido provida como entrada à rede neural na etapa 102, esta entrada é processada na etapa 103 pela rede neural de modo que seja criada uma saída que permita a identificação do objeto e/ou o local do objeto na imagem. No caso do objeto ser uma ponta de dedo, isso significa que pelo menos uma ponta de dedo presente na imagem pode ser identificada (por exemplo, na forma de um rótulo) e seu local (por exemplo, as coordenadas dos pixels que constituem a ponta de dedo) também pode ser, de alguma modo, provido na saída. Como será explicado posteriormente, isso pode ser obtido ao prover uma caixa delimitadora que circunde e inclua a ponta de dedo identificada em um local que corresponda à ponta de dedo e em que a caixa delimitadora seja sobreposta sobre a ponta de dedo. As coordenadas desta caixa delimitadora em relação à imagem podem então ser usadas como a posição da ponta de dedo.

[0098] O processamento da entrada (ou seja, essencialmente a imagem recebida) na etapa 103 pode ser facilitado em uma pluralidade de formas ao usar a rede neural. Em qualquer caso, pretende-se que a rede neural seja uma rede neural treinada, especialmente treinada para identificar os objetos pretendidos que portam a característica biométrica. Mais preferencialmente, a rede neural é treinada para identificar, em uma imagem de entrada, a ponta de dedos independentemente de seu local e disposição em relação ao sensor óptico, contanto que o sensor óptico possa tirar uma imagem de pelo menos uma ponta de dedo. O processamento pode envolver, como explicado posteriormente, o processamento da entrada através de uma pluralidade de camadas da rede neural.

[0099] De acordo com a invenção, isso compreende pelo menos que a entrada seja processada por uma primeira camada da rede neural para criar uma primeira saída intermediária, que é então processada pela camada seguinte à primeira camada na direção de processamento da rede neural para criar uma segunda saída intermediária. Esta segunda saída intermediária é então encaminhada à camada seguinte na rede neural, onde é processada para criar uma terceira saída intermediária, e assim por diante, até todas as camadas na rede neural terem processado sua saída intermediária correspondentemente recebida. A última camada na rede neural proverá uma saída “final”, que pode posteriormente ser a saída na etapa 104, como será explicado abaixo.

[0100] Além disso, de acordo com a invenção, cada camada da rede neural é constituída de duas camadas convolucionais, de modo que cada camada da rede neural represente um filtro de convolução separável em profundidade, também denominado convolução separável em profundidade. Esta convolução separável em profundidade (ou seja, a camada da rede neural) compreende, na ordem de processamento da entrada através da convolução separável em profundidade, uma camada convolucional em profundidade, um primeiro normalizador de lote e uma primeira unidade linear retificada. Na ordem de processamento após a primeira unidade linear retificada, são providos uma camada convolucional em ponto, um segundo normalizador de lote e uma segunda unidade linear retificada, em que a segunda unidade linear retificada ou módulo de processamento que recebe a saída da unidade linear retificada encaminharão a saída intermediária para a camada seguinte na rede neural.

[0101] Após o processamento da imagem através de todas as camadas da rede neural, cria-se uma saída que finalmente identificará a posição e o próprio objeto.

[0102] Isso é realizado de acordo com a etapa 104, em que a saída da rede neural é a saída. De acordo com as realizações preferidas da invenção, esta saída pode ser uma “imagem modificada”, em que esta imagem pode ser ampliada com uma caixa delimitadora que circunda a ponta de dedo identificada a fim de fornecer uma retroalimentação ao usuário sobre o objeto identificado e sua posição.

[0103] No entanto, a saída não precisa ser exibida em um monitor do dispositivo móvel ou qualquer monitor associado ao dispositivo móvel. Na verdade, a saída também pode ser provida na forma de uma matriz ou um tensor, como será explicado abaixo, que identifica corretamente a posição da ponta de dedo na imagem (especificamente as coordenadas dos pixels na imagem que constituem a ponta de dedo) e esta matriz ou tensor podem ser encaminhados a um módulo de processamento adicional que utiliza estas informações, especificamente as coordenadas que identificam a ponta de dedo, para aplicar processamento adicional à ponta de dedo identificada. Posteriormente, a saída pode ser usada para a extração da característica biométrica do objeto identificado, em conformidade com a etapa 14 de acordo com a figura 1.

[0104] Este processamento adicional pode incluir preferencialmente que a ponta de dedo identificada seja avaliada a fim de identificar a impressão digital do usuário. Por exemplo, considerando-se uma imagem de alta resolução tirada da ponta de dedo, o método inventivo pode compreender que, em uma primeira etapa, a posição da ponta de dedo na imagem seja identificada usando o método que compreender as etapas 101 a 104, como explicado acima, e a saída final seja então encaminhada a um componente de processamento de imagem adicional que utiliza a saída que identifica a ponta de dedo e seu local para avaliar a imagem de alta resolução a fim de identificar a impressão digital. Isso pode ser usado para identificar o usuário, aumentando assim, por exemplo, a segurança de processos adicional, como explicado em referência à figura 2. Por exemplo, caso o usuário utilize o método inventivo para se identificar para uma transferência bancária com seu dispositivo móvel, o método inventivo pode aumentar a segurança da transferência bancária ao permitir uma identificação correta e exclusiva do respectivo usuário, uma vez que a impressão digital de um usuário identifica exclusivamente esta pessoa.

[0105] A invenção não está limitada à concretização de transferências bancárias que usam um método correspondente para a identificação de uma ponta de dedo, mas também pode ser usada para identificar o usuário para, por exemplo, acessar funções do dispositivo móvel ou qualquer outra atividade que exija identificação e autenticação do usuário.

[0106] A Figura 4 mostra o processamento interno de uma entrada recebida em uma camada 200 da rede neural, de acordo com uma concretização da invenção. Esta camada 200 pode ser uma camada que seja, na ordem de processamento da entrada original através da rede neural, a primeira camada que recebe a entrada original após a etapa 102, explicada acima, ou qualquer camada intermediária disposta entre duas camadas adicionais 240 e 250 da rede neural ou a camada 200 pode ainda ser a última camada da rede neural que, no final, proverá uma saída, de acordo com a etapa 104, como explicado em referência à figura 1.

[0107] Em qualquer caso, a camada 200 receberá uma entrada 230 que correspondente, pelo menos de algum modo, à imagem originalmente obtida. Esta entrada é provida preferencialmente na forma de pelo menos uma matriz que possua a dimensão N x M, em que N e M são números inteiros superiores a 0. A matriz pode, por exemplo, representar os pixels na imagem para pelo menos um valor de cor (por exemplo, vermelho). As entradas nesta matriz podem ter, assim, valores que correspondam ao valor da respectiva cor (no caso exemplar, vermelho) deste pixel específico. Como ficará evidente a partir do texto a seguir, a entrada pode não ser idêntica à imagem obtida, mas pode ser uma matriz P obtida da matriz que representa a imagem original por meio de algum processamento através das camadas na rede neural ou ainda por algum pré-processamento (por exemplo, redução da resolução, como explicado acima).

[0108] Para facilitar a discussão, no entanto, presume-se que a entrada 230 corresponda à matriz N x M, que representa a imagem originalmente obtida e cada entrada nesta matriz N x M corresponde a um valor de uma cor (por exemplo, vermelho) de um pixel na respectiva imagem. A aplicação deste ensinamento a qualquer matriz transformada que se origina da matriz original N x M e seja obtida através do processamento desta matriz em camadas da rede neural é simples.

[0109] Seguindo agora o processo exemplificado na figura 4, a entrada 230 é recebida pela camada convolucional em profundidade 211 para processamento. A seguir, um exemplo comparavelmente simples será fornecido em relação a como a matriz de entrada 230 pode ser processada pela camada convolucional em profundidade. Isso envolverá o uso de um núcleo K para calcular os produtos internos com a matriz. O núcleo é executado sobre a matriz nos assim denominados “passos”. Embora o exemplo a seguir usará os valores para o passo horizontal e vertical de larguras 1, qualquer outro valor superior a 1 pode ser usado, contanto que as larguras do passo sejam números inteiros superiores a 0. O núcleo K é de tamanho S x T, em que S e T são números inteiros e menores que N e M.

[0110] Além disso, presume-se que apenas a matriz de entrada original I (ou seja, a matriz de entrada 230) de tamanho N x M seja usada para calcular o produto interno com o núcleo. No entanto, também se contempla que uma matriz estendida Z possa ser usada para calcular os produtos internos com o núcleo. Esta matriz estendida Z é obtida ao “fixar”, à matriz original I, as linhas e colunas acima da primeira linha e abaixo da última linha, bem como esquerda para a primeira coluna e direita para a última coluna.

[0111] Isso é denominado “preenchimento”. O preenchimento geralmente compreenderá que um número Pw de linhas seja adicionado na direção da linha e um número Ph de colunas seja adicionado à direção de coluna. O número Pw pode se igualar a S-1 e o número Ph pode se igualar a T-1, de modo que qualquer produto interno calculado entre Z e o núcleo contenha pelo menos uma entrada da matriz original I. Assim, a matriz resultante Z será de tamanho (N + 2Pw) x (M + 2Ph). Em vista do exposto, a matriz Z terá as seguintes entradas: {

[0112] Neste contexto, segue que a nova matriz obtida pelo cálculo de todos os produtos internos e dispondo-os adequadamente, de acordo com as – linhas e colunas, geralmente será de tamanho ( ) ( ), em que Ww e Wh definem a largura de passo na direção das linhas e na direção das colunas, respectivamente. Fica claro que apenas aqueles preenchimentos e aquelas larguras de passo são permitidos para um determinado núcleo K com tamanho S x T que resulte em números inteiros para o tamanho da nova matriz. Além disso, as larguras de passo Ww e Wh são preferencialmente menores que S e T, respectivamente, já que de outro modo o número seria movido sobre a matriz I de modo que algumas linhas e colunas da matriz original sejam deixadas fora do cálculo da nova matriz.

[0113] Para facilitar a discussão, será presumido a seguir que nenhum preenchimento é provido à matriz original I e a largura de passo é 1 para os passos horizontal e vertical. Além disso, será presumido que o núcleo é uma matriz com tamanho S x S, ou seja, o caso especial em que S=T será assumido. A aplicação das explicações determinadas abaixo ao preenchimento e largura de passo arbitrários, bem como a qualquer tamanho de núcleo, é simples com o ensinamento provido abaixo.

[0114] Na camada convolucional em profundidade 211, a matriz entrada recebida 230 é usada para formar um produto interno com o núcleo K que possui o tamanho S x S, em que S < N,M. O produto interno é calculado para cada matriz reduzida da matriz original N x M, em que a matriz reduzida é de tamanho S x S e contém entradas coerentes na matriz original N x M. Por exemplo, considerando-se S=3, a primeira matriz reduzida R da matriz original N x M compreende as entradas i = 1, 2, 3; j = 1, 2, 3, de modo que a matriz reduzida (N x M)s seja compreendida de nove entradas e o produto interno com o núcleo K seja calculado, o que resulta em um único número. A próxima matriz reduzida nas direções das linhas da matriz original N x M é a matriz onde i é aumento em 1, de modo que a próxima matriz nesta direção seja constituída dos itens na matriz original N x M, em que i = 2, 3, 4; j = 1, 2, 3. Esta matriz pode então ser usada para calcular o próximo produto interno com o núcleo. Observou-se que o exemplo determinado da matriz S x S com S = 3 é apenas um exemplo e, também, podem ser usados outros núcleos.

[0115] Para calcular a próxima matriz reduzida R do tamanho (N x M)S na direção das linhas/colunas, o índice j de itens na matriz original N x M é aumentado em 1. Isso é realizado até a última matriz reduzida na direção das linhas, onde i = N - S + 1, N - S + 2, N - S + 3 no caso de S = 3. Para as colunas, isso é realizado de modo correspondente, onde j = M - S + 1, M - S + 2, M - S + 3. Ao calcular estes produtos internos, a nova matriz, a matriz P é calculada, a qual possui o tamanho (N - S + 1) x (M - S + 1). Suas entradas Pij correspondem ao respectivo produto interno calculado com a matriz reduzida correspondente da matriz original N x M e núcleo K. Observou-se que uma matriz deste tamanho, na verdade, será encaminhada para a camada convolucional em ponto da camada 200.

[0116] O núcleo K constitui as entradas obtidas através de um processo de ensino, em que a rede neural é treinada para identificar adequadamente os objetos pretendidos. O núcleo K usado na camada 200 da rede neural não é necessariamente idêntico em tamanho e entradas aos núcleos usados em outras camadas da respectiva rede neural. Além disso, as entradas no núcleo não precisam ser idênticas entre si, mas pelo menos constituir números maiores ou iguais a 0. As entradas podem ser consideradas para representar “pesos” obtidos através do ensino da rede neural.

[0117] O resultado do processamento da matriz 230 pela camada convolucional em profundidade é a matriz 231 que possui, como explicado acima, o tamanho (N - S + 1) x (M - S + 1) no caso em que o núcleo é movido nos passos sobre a matriz original N x M que possuem uma distância de Δi = 1 na direção das linhas Δj = 1 na direção das colunas. No entanto, caso aqueles passos possuam uma distância maior, como Δi = 2 ou Δi = 3 (e potencialmente correspondentemente para as colunas), a dimensão do resultado 231 mudará subsequentemente, como explicado acima.

[0118] No processamento adicional, este resultado 231 é encaminhado ao primeiro normalizador de lote 212, que segue na ordem de processamento representada com setas na figura 4 após a camada convolucional em profundidade 211. O normalizador de lote tenta normalizar a matriz de resultado recebida 231. Isso é atingido ao calcular a soma sobre cada uma das entradas na matriz (N - S + 1) x (M - S + 1) e dividi-la pelo número de entradas na matriz (N - S + 1) x (M - S + 1). O valor médio V para (N - S + 1) x (M - S + 1) (indicado como P a seguir, com matriz Pij de itens correspondentes é indicado como ∑ em que n e m representam o número de linhas e colunas/fileiras na matriz N x M ou o número de linhas e colunas na matriz P. Os itens Pij são as entradas da matriz P, em que um determinado item Pij é o elemento na matriz na linha i e coluna j.

[0119] O normalizador de lote então calcula a matriz reduzida P' ao subtrair, de cada entrada Pij na matriz original, o valor médio V, de modo que P’ij = Pij -

V. Assim, os valores na matriz reduzida P' são normalizados, de modo que as anomalias em uma ou outra direção (valores extremamente grandes ou valores extremamente baixos) sejam filtradas.

[0120] O resultado 232 criado pelo primeiro normalizador de lote 212 é uma matriz que ainda possui (no exemplo determinado na figura 4) o tamanho (N - S + 1) x (M - S + 1), uma vez que até o momento nenhuma outra redução dimensional da matriz foi realizada.

[0121] O resultado 232 é então provido à primeira unidade linear retificada 213, que segue o primeiro normalizador de lote 212.

[0122] A unidade linear retificada modifica mais cada entrada na matriz 232 ao calcular as novas entradas de matriz ̅ ij, em que ̅ {

[0123] Isso resulta em valores que seriam menores que 0 após terem passado pelo normalizador de lote para ser estabelecidos em 0, tendo assim nenhuma outra influência sobre o processamento adicional na camada convolucional em profundidade, que será explicado a seguir. Isso significa que, por exemplo, os valores de cor abaixo do valor médio calculado no normalizador de lote não são considerados mais e apenas os valores que pelo menos correspondem ao valor médio V têm influência sobre o resultado da próxima etapa no cálculo.

[0124] Portanto, o resultado 233 produzido pela primeira unidade linear retificada 213 ainda é uma matriz de formato/tamanho (N - S + 1) x (M - S + 1) e esta matriz é encaminhada à camada convolucional em ponto 221.

[0125] Esta camada convolucional em ponto 221 cria um resultado 234. Este resultado 234 é criado pela camada convolucional em ponto 221 ao pegar cada entrada na matriz (N - S + 1) x (M - S + 1) 233 e multiplicando esta entrada pelo peso α. Preferencialmente, α é um número maior que 0 em qualquer caso e este número é idêntico para cada entrada na matriz (N - S + 1) x (M - S + 1). Portanto, o resultado 234 obtido da camada convolucional em ponto 221 é uma matriz que possui o mesmo tamanho (N - S + 1) x (M - S + 1), mas em que cada entrada é multiplicada pelo peso α.

[0126] O resultado 234 é então provido ao segundo normalizador de lote 222, onde é normalizado da forma explicada para o primeiro normalizador de lote 212 e a matriz normalizada P' da mesma dimensão, uma vez que o resultado 235 é calculado e essa matriz/resultado 235 é encaminhada/o para a segunda unidade linear retificada 223, onde aplica-se uma função de retificação para se obter um resultado/matriz ̅ 236, que é então encaminhado para a próxima camada na rede neural ou, caso nenhuma outra camada siga na rede neural, o resultado 236 é provido como uma saída.

[0127] É um achado da presente invenção que, para identificar a ponta de dedos, treze camadas idênticas à camada 200 explicada na figura 4 são mais apropriadas, já que resultam em uma precisão de identificação comparavelmente elevada da ponta de dedos e sua localização, enquanto apenas exige recursos informáticos reduzidos para a implementação do respectivo método, o que o torna mais aplicável a dispositivos móveis.

[0128] A Figura 5 mostra uma concretização adicional que estende o conceito descrito na figura 4 para permitir uma identificação de uma ponta de dedo (especificamente os pixels na imagem original que constituem a ponta de dedo) usando diversas caixas delimitadoras e uma separação da imagem original em grades. Observou-se que as etapas descritas a seguir podem ser realizadas após terem processado a imagem original em cada camada da rede neural ou apenas após a imagem ter sido processada na camada final da rede neural, assim imediatamente antes de produzir a saída de acordo com a etapa 104 da figura 3.

[0129] A concretização descrita na figura 5 assume uma rede neural já aprendida, que é perfeitamente capaz de identificar ponta de dedos ou outros objetos com alta precisão, em conformidade com a invenção, com base na saída recebida de uma camada da rede neural.

[0130] Em conformidade com a concretização da figura 5, será presumido que a saída recebida da camada da rede neural ainda pode, de algum modo, ser representada na forma de uma imagem 300 de uma mão 350 que compreende uma ponta de dedo. Portanto, a referência será feita apenas à “imagem”, embora seja claro que, em vez da imagem, também uma das matrizes de saída, como explicado na figura 2, pode ser usada.

[0131] Em uma primeira etapa, a imagem 300 recebida é separada em uma pluralidade de células 310, 311 e 313. O número de células em cada direção não é limitado, mas em uma concretização preferida, a imagem 300 é separada em 13 células na direção horizontal e 13 células na direção vertical, de modo que, em vez de uma grade geral Q x R, cria-se uma grade de 13 x 13.

[0132] Em uma etapa seguinte, o ponto central 330 de cada célula é identificado e usado para estabelecer a origem de um sistema de coordenada para cada uma das células separadas de quaisquer outras células. Em torno deste centro 330, pelo menos uma caixa delimitadora 331 e 332, que geralmente terá o formato de um retângulo, é disposta onde, como pode ser observado no quadriculado 313, possui uma altura inicial h0 e uma largura ou amplitude b0. Para uma pluralidade de caixas delimitadoras em cada célula, estes valores podem ser diferentes entre si. Por exemplo, os valores iniciais h0 e b0 podem ser assumidos para a menor caixa delimitadora por célula e aqueles valores podem ser elevados em um fator de 1,5 ou 2 ou qualquer outro valor para se calcular as dimensões das outras caixas delimitadoras na respectiva célula.

[0133] Observou-se que a posição de uma caixa delimitadora, por exemplo, a caixa delimitadora 331 no sistema de coordenada da respectiva célula, será representada pela posição do ponto central da caixa delimitadora 331 em relação ao ponto central 330, ou seja, origem do respectivo sistema de coordenada, na respectiva célula. Assim, a posição da respectiva caixa delimitadora na célula 311 pode ser representada por duas coordenadas x e y. A largura e altura da caixa delimitadora são consideradas para representar características geométricas da caixa delimitadora, que podem ser representadas por dois valores maiores que 0.

[0134] Como aquelas caixas delimitadoras serão usadas posteriormente para identificar a posição de uma ponta de dedo, também é adequado associar, a cada uma daquelas caixas delimitadoras, um quinto valor que é a probabilidade de a caixa delimitadora incluir a respectiva ponta de dedo a ser identificada.

[0135] Portanto, cada caixa delimitadora pode ser representada por um vetor de dimensão 5 na forma b= ( )

[0136] Isso significa que as células, junto às suas respectivas caixas delimitadoras, podem ser representadas na forma de um tensor T que possui as dimensões Q x R x B x A, em que A é o número de caixas delimitadoras por célula. No caso mais preferido para identificação de ponta de dedos, Q = R = 13, B = 5 (a dimensão do vetor b) e A pode ser estabelecido para um número inteiro entre 3 e 10, mais preferencialmente 5.

[0137] Como explicado acima, presume-se que a rede neural já seja perfeitamente aprendida para identificar um objeto específico, de preferência uma ponta de dedo. Isso envolve que a rede neural seja capaz de identificar um padrão específico de pixels que mais provavelmente represente uma ponta de dedo. Isso pode se referir a padrões específicos de valores de cor ou outras características, como brilho destes pontos. No entanto, fica claro que a imagem 300 pode mostrar arbitrariamente uma ponta de dedo que pode não corresponder em tamanho e disposição a uma ponta de dedo usada para estudar a rede neural.

[0138] Com o auxílio das caixas delimitadoras e da grade, no entanto, é possível à rede neural identificar a caixa delimitadora específica que mais provavelmente compreende a ponta de dedo. Para identificar esta caixa delimitadora específica, a rede neural (ou um componente associado que processa a imagem 300) compara os valores dos pixels dentro de cada caixa delimitadora de cada célula com um padrão de pixels que corresponde a uma ponta de dedo, como foi aprendido anteriormente pela rede neural. Neste primeiro estágio, é mais pouco provável que seja encontrada uma correspondência perfeita, mas haverá caixas delimitadoras que mais provavelmente já contêm pelo menos uma porção de uma ponta de dedo que outras caixas delimitadoras.

[0139] No caso representado na figura 5, por exemplo, a caixa delimitadora 341 centrada em torno do ponto M na célula 313 inclui uma porção da ponta de dedo da mão 350. Em contraste a isso, nenhuma das células 310 e 311 compreende caixas delimitadoras que incluem uma porção de uma ponta de dedo. Quando o método continua a avaliar os valores de pixel dentro da caixa delimitadora 341 e potencialmente da caixa delimitadora 340, o processo pode determinar que a caixa delimitadora 341 inclui ainda mais de um padrão que corresponde a uma ponta de dedo que a caixa delimitadora 340.

[0140] Em vista disso, o método pode concluir que nenhuma das caixas delimitadoras 331 e 332 (e potencialmente outras caixas delimitadoras nas outras células) inclui uma ponta de dedo e pode estabelecer seu valor de probabilidade no seu vetor B correspondente a 0.

[0141] Como ambas as caixas delimitadoras 340 e 341 centradas em torno do ponto M compreendem pelo menos uma porção de uma ponta de dedo, podem ser consideradas, na verdade, prováveis de compreender uma ponta de dedo e o valor de probabilidade será superior a 0 em uma primeira etapa.

[0142] Apesar da menor célula 340 ser quase completamente preenchida com um padrão que poderia corresponder a uma ponta de dedo, apenas a borda esquerda da maior caixa delimitadora 341 pode ser considerada pelo processo para incluir um padrão que corresponda a uma ponta de dedo.

[0143] Com isso, o método pode continuar a calcular uma função de perda que determina a diferença entre o padrão identificado em cada uma das caixas delimitadoras 341 e 340 com um padrão obtido do aprendizado que de fato corresponda a uma ponta de dedo.

[0144] Na etapa seguinte, o método tentará minimizar esta diferença ao modificar o tamanho e a posição das respectivas caixas delimitadoras. Nesse aspecto, pode ser estabelecido que a maior caixa delimitadora 341 é usada como o ponto inicial e sua posição e formatos modificados ou a menor caixa delimitadora 340 são usados como o ponto inicial e sua posição e tamanho são modificados a fim de minimizar as diferenças para o padrão aprendido.

[0145] Esse processo de minimização pode primeiramente compreender a modificação da posição da caixa delimitadora (a seguir será presumido que a caixa delimitadora 341 é usada para os cálculos adicionais) ao mover uma pequena quantidade nas direções ortogonais primeiro ao longo do eixo x e então o longo do eixo y (ou vice-versa), como representado na figura 3, em torno do ponto central M da respectiva célula. O movimento será ao longo do eixo x e eixo y positivo e negativo e em cada posição será feita uma comparação para determinar uma função diferente entre o padrão obtido do aprendizado e o padrão real identificado na imagem. Isso permite o cálculo de uma função bidimensional que representa a diferença d(x, y), dependendo das coordenadas.

[0146] Com base nisso, um gradiente xyd pode ser calculado, o que permite determinar em qual direção no sistema de coordenada a caixa delimitadora deve ser movida para aumentar e preferencialmente maximizar a correspondência com o padrão aprendido (correspondendo à minimização do valor da função d(x,y)). Isso será o caso para xyd = 0.

[0147] Isso pode resultar na caixa delimitadora sendo movida ao longo da direção r para um novo ponto central M', onde a função d(x,y) possui o mínimo. Em uma próxima etapa, o tamanho da respectiva caixa delimitadora na posição M' pode ser aumentado e reduzido para determinar se o aumento ou redução do tamanho em uma ou duas direções (ou seja, a altura e/ou a largura) altera o valor de uma função de diferença adicional em comparação ao padrão original, que pode ser representado com e(h, b), dependendo da altura h e da largura b.

Esta função é minimizada de modo que, para um caixa delimitadora específica, tendo uma posição M' e tendo uma altura hf e uma largura bf, a diferença para o padrão aprendido é minimizada.

[0148] Esta caixa delimitadora será então usada como a caixa delimitadora final, que possui a mais alta probabilidade p de identificar aquelas porções da imagem 300 que contém a respectiva ponta de dedo. O vetor de saída para esta caixa delimitadora terá então a forma ( )

[0149] Como resultado deste processo, um tensor T com dimensão Q x R x B x A é produzido, em que, para cada caixa delimitadora em cada célula, a posição x e y em relação ao centro da célula, bem como a largura e a altura da respectiva caixa delimitadora e sua probabilidade de identificar ou compreender uma ponta de dedo, são fornecidas.

[0150] Para prevenir o movimento das caixas delimitadoras da célula adjacente na mesma direção que se sobrepõem e para evitar que as caixas delimitadoras de diferentes células se movam para outras células, o método pode ser provido de modo que o movimento do centro de uma caixa delimitadora só seja possível em sua célula original.

[0151] Portanto, o resultado será um tensor que compreende uma pluralidade de vetores B, em que um ou mais destes vetores possuem uma alta probabilidade de identificar a ponta de dedo, ao passo que outros possuem uma baixa probabilidade. Aqueles com uma baixa probabilidade podem ser negligenciados completamente ao estabelecer todos os seus valores correspondentes a 0, reduzindo assim o esforço de processamento necessário no processamento do tensor.

[0152] Os vetores B com maior probabilidade serão então usados para permitir o processamento adicional da imagem e especificamente aquelas porções da imagem que identificam uma ponta de dedo, por exemplo, para identificar o usuário do dispositivo móvel pelo processamento da ponta de dedo para identificar a impressão digital.

[0153] Apesar da abordagem acima permitir a identificação adequada da caixa delimitadora que será usada para processar mais a característica biométrica identificada, como uma impressão digital, será fornecida uma explicação adicional sobre as caixas delimitadoras que devem ser descartadas.

[0154] Como explicado acima, o vetor b de uma caixa delimitadora compreende uma probabilidade p, que indica a probabilidade de a respectiva caixa delimitadora incluir ou representar uma ponta de dedo. Isso pode ser usado para classificar todas as caixas delimitadoras (ou seus vetores, respectivamente) em ordem decrescente iniciando com aqueles vetores b que possuem o maior valor de probabilidade p.

[0155] Ao fazê-lo, a lista pode ser percorrida em ordem decrescente iniciando com a caixa delimitadora que possui o maior valor p. Este percurso pode incluir a seleção de uma caixa delimitadora específica com o valor p da lista e ao calcular, para esta caixa delimitadora específica, a quantidade de interseção com todas as caixas delimitadoras restantes. Isso significa que a área da caixa delimitadora específica, ou seja, selecionada, é comparada à área das caixas delimitadoras restantes e quaisquer áreas que possuam em comum (ou seja, onde as caixas delimitadoras se cruzam) contribuem para a intersecção calculada.

[0156] A quantidade de intersecção pode ser calculada como uma proporção em relação à área da caixa delimitadora selecionada. Assim, obtém- se um valor adimensional para cada intersecção calculada que varia de 0 (sem intersecção) a 1 (a caixa delimitadora restante considerada completamente cruzada ou que cobre a área da caixa delimitadora selecionada).

[0157] Em uma próxima etapa, um limiar preestabelecido pode ser usado para negligenciar ou descartar caixas delimitadoras ou classificá-las. No exemplo acima, o limiar deve ser uma intersecção calculada de 0,75. Para cada par calculado de uma caixa delimitadora selecionada e uma caixa delimitadora restante para a qual a intersecção excede este limiar, a caixa delimitadora tendo o menor valor p pode ser negligenciada ou classificada a partir da lista mencionada acima.

[0158] Isso finalmente resultará apenas em uma caixa delimitadora restante, a qual representará a ponta de dedo. Obviamente, isso pode resultar em até quatro caixas delimitadoras restantes, dependendo de quantos dedos estão visíveis na imagem.

[0159] Na figura 6, será fornecida uma explicação sobre como a rede neural pode ser adequadamente treinada, de modo que os pesos do núcleo K e o peso α explicado em relação à figura 4, bem como os padrões que de fato identificam uma ponta de dedo, são aprendidos pela rede neural.

[0160] O método da figura 6 se inicia com a provisão dos dados de treinamento 401 e caixas delimitadoras preestabelecidas 408. Os dados de treinamento podem ser constituídos de uma pluralidade de imagens de, por exemplo, ponta de dedos ou uma pluralidade de dedos representados em uma imagem junto a outros objetos. As imagens podem ser multiplicadas ao usar, a partir da mesma imagem, cópias giradas, destacadas, escurecidas, ampliadas ou de outro modo modificadas que são introduzidas como dados de treinamento. As caixas delimitadoras providas de acordo com o item 408 são caixas delimitadoras que correspondem à sua respectiva imagem nos dados de treinamento, em que estas caixas delimitadoras são as caixas delimitadoras corretamente associadas ao objeto a ser identificado, ou seja, possuem o tamanho e posição corretos e um valor de probabilidade correspondente, como explicado em relação à figura 5. Estas caixas delimitadoras são providas para toda e qualquer imagem nos dados de treinamento.

[0161] Na próxima etapa, uma imagem de entrada específica 402 é provida à rede neural em um ambiente de treinamento, em que, além da rede neural, são providos um otimizador 407 e uma calculadora de função de perda 406.

[0162] A imagem de entrada é, em uma primeira rodada, processada usando a camada convolucional em profundidade e o primeiro normalizador de lote,

bem como a primeira unidade linear retificada 403, resumida como DCBR, e é então transferida para a camada convolucional em ponto, o segundo normalizador de lote e a segunda unidade linear retificada, resumida como PCBR, onde é processada em conformidade com a descrição fornecida na figura 4. Isso significa que as etapas ou as seções 403 e 404 representadas na figura 6 seguem preferencialmente treze vezes, conforme descrito em referência à figura 4 usando, em cada seção 403 e 404, os pesos correspondentes para a camada convolucional em ponto (PC) e o núcleo K da camada convolucional em profundidade (DC). O primeiro e segundo normalizador de lotes, bem como as unidades lineares retificadas dos itens 403 e 404, atuam da forma explicada em relação à figura 5.

[0163] Como resultado, em conformidade com a figura 5, a saída será um primeiro tensor T de tamanho Q x R x B x A com as primeiras entradas Tqrba em conformidade com a figura 5. Esse resultado será então provido para a função de perda, onde será comparado às caixas delimitadoras preestabelecidas para identificar as diferenças entre o resultado 405 e as caixas delimitadoras corretas obtidas de 408. Esta diferença obtida pela função de perda 406 é então provida ao otimizador 407 que, por sua vez, modificará os pesos de cada camada convolucional em ponto e cada camada convolucional em profundidade, ou seja, α e as entradas no núcleo K. Isso significa que, para todas as camadas na rede imediatamente ou para cada camada em isolamento, o peso α da camada convolucional em ponto e as entradas no núcleo K da camada convolucional em profundidade são manipulados.

[0164] Com estes novos valores, o ciclo é repetido para a mesma imagem e o tensor resultante T' com entradas T'qrba é provido para a função de perda e comparado às caixas delimitadoras corretas, cujo resultado é então provido ao otimizador 407 que, mais uma vez, modifica os pesos.

[0165] Este procedimento é realizado contanto que a diferença entre o tensor resultante T(n) e especificamente as caixas delimitadoras identificadas em comparação às caixas delimitadoras predefinidas do item 408 exceda um determinado limiar que, em essência, corresponde à precisão de identificação pretendida.

[0166] Após isso, a próxima imagem de entrada 402 é tirada dos dados de treinamento 401 e as caixas delimitadoras correspondentes são providas para a função de perda. Então, o processo explicado é novamente repetido para a nova imagem e os pesos ideais para a camada convolucional em ponto e a camada convolucional em profundidade são obtidos. Isso é repetido até uma combinação específica de pesos resultar em precisão de identificação adequada para todas as imagens de entrada. A combinação de pesos obtidos é produzida como pesos finais 410.

[0167] Estes pesos finais são então introduzidos no aplicativo que executa o método inventivo no dispositivo móvel.

[0168] Portanto, no conceito da presente invenção, a rede neural provida ao dispositivo móvel já está totalmente adaptada para a identificação de objetos específicos que portam uma característica biométrica, preferencialmente ponta de dedos e pode, assim, ser empregada sem qualquer aprendizado adicional necessário, o que reduz mais os recursos informáticos exigidos nos dispositivos móveis.

[0169] No total, ao usar as camadas convolucionais em ponto, as camadas convolucionais em profundidade e os normalizadores de lote, bem como as unidades lineares retificadas, como explicado acima em referência às figuras 3 e 4 e ao usar a separação da imagem original em células e identificando as caixas delimitadoras correspondentes em conformidade com a descrição da figura 3, pode-se prover um aplicativo menor que um megabyte, permitindo assim a utilização em um dispositivo móvel em isolamento, mesmo sem qualquer acesso a vias de dados adicionais pela internet ou similar. Isso torna adequado o aplicativo em ambientes onde não é possível nenhum acesso a redes sem fio ou similares. Além disso, a energia do processador necessária para executar este aplicativo é reduzida a um mínimo enquanto ainda gera resultados adequados de identificação da ponta de dedos, que podem ser usados posteriormente para realizar a identificação do usuário pelas impressões digitais associadas à ponta de dedos, como explicado anteriormente.

[0170] As explicações acima focam nas imagens de uma mão ou dedos que mostram a lateral dos dedos que portam as impressões digitais. No entanto, um usuário também pode acidental ou voluntariamente apresentar um ou mais dedos a partir de outra lateral, ou seja, as costas da mão, ao sensor óptico. A partir de tal imagem de um dedo, não se pode extrair uma impressão digital, já que não está visível.

[0171] Para distinguir uma imagem de uma ponta de dedo que porta a impressão digital de uma imagem de uma ponta de dedo que não mostra a impressão digital, mas a unha ou articulações, pode-se usar o procedimento a seguir que pode estender os métodos explicados acima para aumentar a precisão de identificação.

[0172] Nos exemplos acima, a caixa delimitadora foi caracterizada pelo vetor ( ) e o treinamento foi realizado usando apenas imagens de dedos que mostram a lateral da ponta de dedos que portam as impressões digitais.

[0173] Ao permitir que as imagens sejam tiradas de ambos os lados das pontas de dedos (ou seja, lateral que porta a impressão digital e a lateral que porta as unhas ou articulações), é vantajoso considerar duas classes de objetos identificados nas imagens, a saber aqueles objetos que constituem ponta de dedos mostrando impressões digitais e aqueles objetos que constituem ponta de dedos mostrando unhas ou articulações.

[0174] Neste caso, o vetor mencionado acima pode ser estendido por uma dimensão c de modo que

( ) em que c representa uma assim denominada classe. Uma primeira classe pode representar identificação positiva (uma ponta de dedo com uma impressão digital pode ser identificada) e a segunda classe pode representar uma identificação negativa (a ponta de dedo porta uma unha ou articulação). A classe pode ser representada pelos valores, por exemplo, 1 para a identificação positiva e 0 para a identificação negativa. Fica claro que, em contraste com os valores restantes no vetor b, a classe é um valor discreto e só pode assumir um número limitado de valores diferentes que correspondem ao número de classes.

[0175] O treinamento mencionado acima pode ser então realizado de modo que a rede neural seja provida com identificações positivas e negativas (em vez de apenas dados de treinamento que mostram imagens com ponta de dedos portando impressões digitais e caixas delimitadoras 408) para poder ser distinguido entre imagens que pertencem à primeira ou segunda classe. Neste contexto, pode-se imaginar uma pluralidade de imagens de dedos que mostram algo, mas não a impressão digital. Todos estes “objetos” podem ser classificados na segunda classe (ou seja, identificação negativa) de modo que a rede neural seja treinada para distinguir imagens de ponta de dedos portando impressões digitais de “quaisquer outras” imagens de ponta de dedos. As caixas delimitadoras providas para treinamento também compreenderão, obviamente, a classe correta c para permitir treinamento adequado da rede.

[0176] Para identificar todas as pontas de dedos em uma imagem que porta impressões digitais, o processo descrito acima negligenciará todas as caixas delimitadoras que representam a posição de uma ponta de dedo e que são consideradas pertencentes à segunda classe (ou seja, identificação negativa),

evitando assim processamento adicional de imagens ou porções de imagens de ponta de dedos que não mostram a característica biométrica.

[0177] A fim de fornecer um contexto em que o método inventivo pode ser realizado, a figura 7 representa um dispositivo móvel na forma de um smartphone de acordo com uma concretização da invenção.

[0178] O dispositivo móvel 500 é incorporado como um smartphone atualmente conhecido. Ele compreende um sensor óptico 520 preferencialmente na lateral traseira da câmera, que é oposta à lateral do dispositivo móvel 500 na qual a tela 530 é provida. A câmera pode ser uma câmera que possui uma resolução de 1 MP, 2 MP ou ainda maior, assim, por exemplo, uma câmera HD. Pode ser provida com uma lanterna, mas não precisa. Pode ser adaptada também para tirar imagens em tempo real com uma resolução reduzida e, assim que a câmera é ativada, a tela 530 pode mostrar uma representação do que a câmera realmente “vê”. Isso pode ser, por exemplo, uma mão 510.

[0179] Em uma concretização da invenção, assim que o método inventivo é realizado para uma imagem tirada, as caixas delimitadoras 511 a 514 identificando a ponta de dedos da mão são ampliadas sobre a imagem da mão exibida na tela 530. Como foi explicado ainda acima, as caixas delimitadoras identificadas não precisam ser exibidas, mas também podem ser processadas ainda internamente ao dispositivo móvel para, por exemplo, processar as porções da imagem que correspondem à ponta de dedos, de modo que o usuário seja identificado pela identificação das impressões digitais associadas às pontas de dedos.

Claims

Reivindicações

1. Método para identificação de um objeto em uma imagem e dispositivo móvel para execução do método que possui uma característica biométrica do usuário, como uma impressão digital ou um conjunto de impressões digitais da ponta dos dedos, caracterizado por compreender: obtenção, por um sensor óptico de um dispositivo móvel, da imagem do objeto; provisão da imagem a uma rede neural; processamento da imagem por rede neural, identificando assim a posição do objeto e o objeto na imagem; extração da característica biométrica a partir do objeto identificado; armazenamento da característica biométrica em um dispositivo de armazenamento e/ou provisão pelo menos da característica biométrica como entrada em um meio de identificação, que compreende o processamento da entrada a fim de determinar se a característica biométrica identifica o usuário.

2. Método, de acordo com a reivindicação 1, caracterizado pelo objeto ser pelo menos uma ponta de dedo e a característica biométrica ser uma impressão digital da ponta de dedo e em que o processamento da entrada pelo meio de identificação compreende a extração de uma característica biométrica a partir da impressão digital, como, por exemplo, o local e tipo de minúcia, e comparação da característica biométrica extraída com uma característica biométrica armazenada em um dispositivo de armazenamento, em que caso a diferença entre a característica biométrica extraída e a característica biométrica armazenada esteja abaixo de um limiar, o meio de identificação determina que o usuário seja identificado pela impressão digital e, caso a diferença entre a característica biométrica e a característica biométrica armazenada esteja acima de um limiar, o meio de identificação determina que o usuário não seja identificado pela impressão digital.

3. Método, de acordo com a reivindicação 2, caracterizado por a imagem compreender mais de uma ponta de dedo e o método compreender ainda a posição de cada ponta de dedo na imagem e uso da impressão digital de cada ponta de dedo para identificação do usuário pelo meio de identificação.

4. Método, de acordo com a reivindicação 3, caracterizado pelo meio de identificação determinar que um usuário seja identificado pelas impressões digitais da ponta de dedos ao determinar que a precisão de uma identificação combinada das impressões digitais de todas as pontas de dedos na imagem esteja acima de um determinado limiar ou o meio de identificação determinar que um usuário seja identificado pelas impressões digitais das pontas de dedos ao determinar se, para cada ponta de dedo, uma diferença entre uma característica biométrica da impressão digital da ponta de dedo e uma característica biométrica armazenada da impressão digital da ponta de dedo esteja abaixo de um limiar e determinar que o usuário seja identificado pelas impressões digitais das pontas de dedos apenas caso todas as diferenças determinadas estejam abaixo do limiar correspondente.

5. Método, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pela imagem ser obtida por uma câmera como sensor óptico do dispositivo móvel.

6. Método, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por o processamento da imagem como entrada pela rede neural compreender processamento, por uma primeira camada da rede neural, da entrada para criar uma primeira saída intermediária e processamento, por cada camada seguinte à saída da camada anterior, em que a rede neural compreende uma pluralidade de camadas, sendo cada camada uma convolução separável em profundidade compreendendo, na ordem de processamento da entrada na camada, uma camada convolucional em profundidade, um primeiro normalizador de lote, uma primeira unidade linear retificada, uma camada convolucional em ponto, um segundo normalizador de lote e uma segunda unidade linear retificada; em que, ao processar a entrada usando a pluralidade de camadas, a rede neural obtém, como uma saída, uma identificação do objeto e a localização do objeto dentro da imagem.

7. Método, de acordo com qualquer uma das reivindicações 1 a 6, caracterizada por a identificação da posição do objeto compreender a separação da imagem em uma grade que compreende um quadriculado Q x R, em que pelo menos uma caixa delimitadora é criada dentro de cada célula, a caixa delimitadora tendo uma posição predeterminada dentro do quadriculado e características geométricas predeterminas, em que a criação da saída compreende ainda modificação da posição e características geométricas da caixa delimitadora para obter uma caixa delimitadora resultante, em que a caixa delimitadora resultante é a caixa delimitadora que possui uma posição e características geométricas resultantes mais próximas de corresponder à localização do objeto.

8. Método, de acordo com a reivindicação 7, caracterizado pela posição da caixa delimitadora ser calculada em relação a um centro da célula em duas dimensões e as características geométricas da caixa delimitadora compreendem uma altura e uma largura da caixa delimitadora, em que ainda associa-se uma probabilidade do objeto estar dentro da caixa delimitadora a cada caixa delimitadora.

9. Método, de acordo com a reivindicação 8, caracterizado por compreender ainda exibição da imagem e das caixas delimitadoras que identificam a posição da ponta de dedo.

10. Método, de acordo com qualquer uma das reivindicações 6 a 9, caracterizado por o processamento da imagem pela rede neural compreender a criação, a partir da imagem, de pelo menos uma matriz I que representa valor de cor para cada pixel na imagem e a provisão da matriz como entrada para a rede neural, em que a imagem compreende pixels N x M e a matriz I é uma matriz que compreende valores N x M, em que as entradas da matriz I são determinadas por Iij, em que i e j são número inteiros e i = 1...N e j = 1...M.

11. Método, de acordo com a reivindicação 10, caracterizado por cada camada convolucional em profundidade aplicar um núcleo K predefinido à matriz I, o núcleo K sendo uma matriz de tamanho S x T, onde S,T < N; S,T <

M compreendendo entradas Sab, em que a aplicação do núcleo à matriz compreende o cálculo do produto interno da matriz K com cada matriz R reduzida em tamanho (N x M)S,T de uma matriz Z, em que a matriz R possui o mesmo tamanho do núcleo K, e a matriz Z possui o tamanho ((N + 2Pw) x (M + 2Ph)) e as entradas da matriz Zcd com c,d ∈ ℕ+ são determinadas por { e provê uma matriz P como saída, em que a matriz P possui o tamanho – ( ) ( ), em que Ww e Wh definem a largura do passo e cada entrada Pij da matriz P é o valor do produto interno da matriz R reduzida à (i,j) com o núcleo K, em que a matriz P é provida como saída pela camada convolucional em profundidade ao primeiro normalizador de lote.

12. Método, de acordo com a reivindicação 11, caracterizado pelo tamanho S e T do núcleo ser igual para todas as camadas convolucionais em profundidade ou ser diferente para pelo menos uma camada convolucional em profundidade e/ou pelo menos uma das entradas no núcleo K Sa’b’ ≠ Sa≠a’, b≠b’.

13. Método, de acordo com qualquer uma das reivindicações 10 a 12, caracterizado pelo normalizador de lote prover uma matriz P' reduzida normalizada à unidade linear retificada e a unidade linear retificada aplicar uma função de retificação a cada entrada P'ij, em que a função de retificação calcula uma nova matriz ̅ com entradas ̅ { e a matriz ̅ é provida como saída à camada convolucional em ponto caso a unidade linear retificada seja a primeira unidade linear retificada ou à próxima camada da rede neural caso a unidade linear retificada seja a segunda unidade linear retificada; e/ou em que a camada convolucional em ponto aplica um peso α à matriz I, P, P' ou ̅ recebida da camada anterior ao multiplicar cada entrada na matriz P, P' ou ̅ com o peso α.

14. Método, de acordo com qualquer uma das reivindicações 1 a 13, caracterizado por cada etapa do método ser realizada no dispositivo móvel.

15. Dispositivo móvel, caracterizado por compreender um sensor óptico, um processador e uma unidade de armazenamento que armazena instruções executáveis que, quando executadas pelo processador do dispositivo móvel, fazem com que o processador execute o método conforme definido em qualquer uma das reivindicações 1 a 14.