BR112021014182A2

BR112021014182A2 - Método implementado por computador para gerar uma região de interesse em uma imagem digital de um flanco de um pneu, método para leitura de marcações em relevo e/ou gravadas em um flanco de um pneu, aparelho de processamento de dados, programa de computador, e, meio de armazenamento legível por computador

Info

Publication number: BR112021014182A2
Application number: BR112021014182-0A
Authority: BR
Inventors: Syed Wajahat Ali Shah Kazmi; Ian Thomas Nabney; George Vogiatzis; Alexander Paul CODD
Original assignee: Wheelright Limited
Priority date: 2019-01-23
Filing date: 2020-01-20
Publication date: 2021-09-21
Also published as: CN112740223A; EP3915042A1; GB201900915D0; AU2020211766A1; GB2580675A; JP2022517471A; CA3110975A1; EP3915042C0; PL3915042T3; US20220058417A1; AU2020211766B2; KR20210114383A; JP7198922B2; US11922683B2; ZA202104551B; WO2020152440A1; EP3915042B1; ES2947935T3

Abstract

método implementado por computador para gerar uma região de interesse em uma imagem digital de um flanco de um pneu, método para leitura de marcaçõesem relevo e/ou gravadas em um flanco de um pneu, aparelho de processamento de dados, programa de computador, e, meio de armazenamento legível por computador. é provido um método implementado por computador para gerar uma região de interesse em uma imagem digital de um flanco de um pneu, o flanco tendo uma ou mais marcações em relevo e/ou gravadas. o método compreende a geração de um histograma de mapa de recursos de gradientes orientados da imagem digital, a introdução do histograma de mapa de recursos de gradientes orientados em uma rede neural convolucional treinada, em que a dita rede neural convolucional treinada é configurada para emitir uma primeira probabilidade com base no histograma de mapa de recursos de gradientes orientados de entrada de que uma região de pixels da imagem digital contém as marcações em relevo e/ou gravadas, e se a primeira probabilidade estiver em ou acima de um primeiro limiar predeterminado, a aceitação da dita região de pixels como a dita região de interesse.

Description

1 / 32

MÉTODO IMPLEMENTADO POR COMPUTADOR PARA GERAR UMA REGIÃO DE INTERESSE EM UMA IMAGEM DIGITAL DE UM FLANCO DE UM PNEU, MÉTODO PARA LEITURA DE MARCAÇÕES EM RELEVO E/OU GRAVADAS EM UM FLANCO DE UM PNEU, APARELHO DE PROCESSAMENTO DE DADOS, PROGRAMA DE COMPUTADOR, E, MEIO DE ARMAZENAMENTO LEGÍVEL POR COMPUTADOR CAMPO TÉCNICO

[001] A presente invenção refere-se a um método de leitura de marcações em relevo e/ou gravadas em um flanco de um pneu e, mais particularmente, a um método implementado por computador para gerar uma região de interesse.

FUNDAMENTOS

[002] A face externa dos pneus de veículos, conhecida como flanco do pneu, carrega um código baseado em texto. O código contém informações sobre, por exemplo, a marca do pneu, fábrica, idade, tipo de pneu, carga pretendida, classificação de velocidade e tamanho, informações do lote de fabricação, detalhes do fabricante e outras informações do produto. O código pode compreender, por exemplo, uma mistura de uma ou mais letras, números, logotipos, símbolos, pictogramas e/ou qualquer outra representação visual da informação. Para usuários de veículos, especialmente operadores de frotas, esta informação é crítica, pois provê uma maneira consistente e confiável de rastrear o uso e as condições dos pneus em uma frota de veículos, aumentando significativamente a capacidade do operador da frota de realizar análises de dados sobre o estoque da frota de pneus e detectar quando os pneus desenvolvem uma falha e/ou estão começando a falhar.

[003] Houve tentativas de automatizar o processo de leitura do flanco de um pneu, no entanto, tais sistemas são sistemas baseados em scanner 3D para uso em tarefas de inspeção internas e controladas

2 / 32 (disponíveis na MicroEpsilon, Cognex e Numetrix) ou dispositivos a laser portáteis para uso interno e externo formulários. Esses sistemas são caros de fabricar devido aos componentes estruturados de luz laser serem difíceis de calibrar, propensos a quebrar e/ou adicionalmente requererem assistência humana do operador, desta forma, não podem ser considerados verdadeiramente automatizados e econômicos.

[004] Aplicar o reconhecimento óptico de caracteres (OCR) em imagens obtidas sem luz estruturada reduziria significativamente os custos de hardware. No entanto, porque o uso de pneus ao ar livre leva ao desgaste do texto do flanco (por exemplo, devido à erosão do material, poeira, secura e/ou umidade), e porque o texto tem um contraste muito baixo (preto sobre preto) que é por muitas vezes desafiador até mesmo para observadores humanos decifrar, quanto mais para um sistema automatizado, tentativas anteriores baseadas em cores ou OCR de imagens em tons de cinza não tiveram sucesso.

[005] Um desafio na produção de tal sistema é que ele é desejavelmente rápido o suficiente para ler o texto tanto em um pneu de veículo em movimento quando ele passa pelo sistema ou em um pneu estacionário quando o campo de visão do sistema é movido sobre o pneu. É também desejavelmente capaz de compensar condições variáveis (por exemplo, diferentes condições climáticas ao ar livre e/ou condições empoeiradas/sujas em um depósito de frota) e produzir resultados precisos e reproduzíveis sem a ajuda de um operador humano.

[006] Um sistema de formação de imagem que provê imagens de contraste melhoradas é proposto no documento WO2017060739 A1. Em particular, para ler texto em relevo ou gravado, como um código do flanco de um pneu, a iluminação é importante porque o contraste e, portanto, a legibilidade do texto, podem ser melhorados através da projeção de sombras. Embora o documento WO2017060739 A1 proponha o uso de software de análise de imagem para realizar o OCR em tais imagens para ler marcações

3 / 32 em relevo, as técnicas convencionais de OCR, conforme descrito no documento WO2017060739 A1, não funcionam bem porque são muito lentas e/ou têm baixa precisão em configurações não ideais não laboratoriais.

[007] Desenvolvimentos recentes na categorização de imagens baseada em aprendizagem profunda e reconhecimento de texto levaram as redes neurais convolucionais (CNNs) profundas para o topo das tabelas de desempenho para reconhecimento de texto de conjuntos de dados de referência, de modo que quase todos os resultados mais bem classificados em processamento de imagem agora usam aprendizagem profunda de recursos feitos à mão. No entanto, as redes neurais convolucionais profundas que têm alta classificação nas tabelas de desempenho são ajustadas para funcionar bem em conjuntos de dados de referência que não incluem dados de imagem de pneus. Na verdade, isso não significa que tais redes terão sucesso quando forem usadas em dados como imagens de pneus obtidas de câmeras no campo. Essas redes profundas têm sido usadas para detectar e ler texto em estado selvagem (ou seja, em ambientes de alto ruído), mas, nesses casos, os dados usados exibiram um grau razoável de contraste e diferença de cor entre o texto que está sendo lido e o fundo da imagem. Portanto, é necessário um sistema e método aprimorados de reconhecimento de texto em um flanco de um pneu.

DECLARAÇÃO DA INVENÇÃO

[008] Em termos gerais, a invenção se refere a um método de identificação mais precisa e eficiente de regiões de interesse em imagens que têm baixo contraste e baixa diferença de cor, como imagens de paredes laterais de pneus. O método combina a técnica de Histograma de Gradientes Orientados (HOG) com camadas de rede neural convolucional para melhorar a eficiência e a precisão em comparação com as técnicas conhecidas, apesar do baixo contraste e diferença de cor.

[009] Ao identificar regiões de interesse em imagens de baixo

4 / 32 contraste e baixa diferença de cor com mais precisão e eficiência, falhas como rasgos perto das marcações em relevo e/ou gravadas do pneu que de outra forma teriam sido perdidas podem ser mais facilmente identificadas, associadas a um pneu específico, e rastreados, proporcionando assim o efeito de melhorar a segurança do pneu. Além disso, um banco de dados central de informações de identificação de pneus e falhas de pneus associadas e/ou informações de segurança podem ser atualizadas. Ele pode então ser usado para determinar quando um pneu precisa ser reparado ou substituído.

[0010] Mais particularmente, a invenção se refere a um método para gerar uma região de interesse associada a uma sequência de caracteres especificada pelo usuário em um flanco de um pneu, em que um HOG da imagem de entrada é gerado para obter um mapa de recursos de HOG que é usado como uma entrada para uma rede neural convolucional que classifica a partir dos recursos de HOG para determinar se a sequência de caracteres especificada pelo usuário está presente ou não. Em uma modalidade, os recursos de HOG podem ser gerados externamente e separadamente para a rede neural convolucional usando, por exemplo, um dos dois métodos providos pela biblioteca de código aberto VLFeat (DalalTriggs e UoCTTI). Em outra modalidade, eles podem ser gerados usando uma aproximação de HOG implementada por CNN, tal como descrito em Mahendran e Vedaldi (2015), Understanding Deep Image Representations by Inverting Them, IEEE Conference on Computer Vision and Pattern Recognition, IEEE Compt. Soc. Este artigo indica que a geração de recursos de HOG usando uma CNN é numericamente indistinguível da abordagem de geração de recursos de HOG provida pela biblioteca de código aberto VLFeat, exceto que também permite o cálculo de derivados de recursos de HOG que vantajosamente reduz a complexidade de quaisquer operações de processamento subsequentes. Os termos recursos de HOG e HOG são usados neste documento para significar aqueles gerados usando a abordagem, como a provida pela biblioteca de

5 / 32 código aberto VLFeat e/ou a abordagem de CNN, como a estabelecida em Mahendran e Vedaldi (2015) e os outros documentos ditos ao mesmo.

[0011] Além disso, os seguintes termos, conforme usados neste documento, recebem as seguintes definições: “dados gerados sinteticamente/sintéticos” - dados gerados usando um algoritmo e usados para aumentar o volume total de dados disponíveis para treinamento, por exemplo, quando apenas dados limitados de outras fontes estão disponíveis; “detecção de pneus” - identificar quais pixels em uma imagem de um pneu correspondem ao pneu e quais pixels correspondem ao fundo, como uma calota ou carroceria do veículo; “não distorção” - mapeamento de uma imagem do flanco de um pneu curvado para uma imagem onde a curva foi removida ou endireitada; “pilha de filtros convolucionais” - uma cascata de operações de processamento de imagem, incluindo filtros convolucionais, formando em conjunto uma ou parte de uma rede neural convolucional; “camadas convolucionais totalmente conectadas” - um filtro convolucional cujo tamanho da máscara em altura, largura e o número de canais é igual ao tamanho do mapa de feições na camada anterior. Ele produz o mesmo tamanho de saída do mapa de feições que uma camada totalmente conectada faria.

BREVE DESCRIÇÃO DOS DESENHOS

[0012] A Figura 1 ilustra um método de cinco estágios de acordo com uma modalidade.

[0013] A Figura 2 mostra um esquema de não distorção no qual os raios interno e externo do pneu são indicados.

[0014] A Figura 3 é um fluxograma de um método gerador de proposta/região de interesse de acordo com uma modalidade.

[0015] A Figura 4 é um fluxograma de um método de geração de um

6 / 32 histograma de gradientes orientados e mapa de recursos correspondente com uma arquitetura HOG-CNN de acordo com uma modalidade.

[0016] A Figura 5 é um fluxograma de um método de geração de um histograma de gradientes orientados e mapa de recursos correspondente com uma arquitetura HOG-MLP de acordo com uma modalidade.

[0017] A Figura 6(a) é um diagrama de blocos da arquitetura de CNN de acordo com uma modalidade.

[0018] A Figura 6(b) é um diagrama de blocos da arquitetura de CNN de acordo com uma modalidade.

[0019] A Figura 6(c) é um diagrama de blocos da arquitetura de CNN de acordo com uma modalidade.

[0020] A Figura 7 é um fluxograma de um método para verificar regiões de interesse de acordo com uma modalidade.

[0021] A Figura 8(a) é um diagrama de blocos da arquitetura de rede de acordo com uma modalidade.

[0022] A Figura 8(b) é um diagrama de blocos da arquitetura de rede de acordo com uma modalidade.

[0023] A Figura 9 é um fluxograma de um método para localizar/verificar o código do flanco do pneu de acordo com uma modalidade.

[0024] A Figura 10 é um diagrama de blocos da arquitetura de rede de acordo com uma modalidade.

[0025] A Figura 11 é um diagrama de blocos da arquitetura de rede de acordo com uma modalidade.

DESCRIÇÃO DETALHADA

[0026] Um método de cinco estágios que é uma modalidade da invenção é proposto como mostrado na Figura 1, compreendendo iluminação de objeto e aquisição de imagem de alta taxa de quadros 101, detecção de pneu 102, não distorção de pneu 103, detecção de texto 104 (em que o texto

7 / 32 em um flanco do pneu é localizado encontrando uma sequência de caracteres especificada pelo usuário, como “D”, “O”, “T”) e leitura de código 105 (em que o código do flanco do pneu contendo informações do produto relativas ao pneu é detectado e reconhecido).

[0027] Os estágios podem ser usados juntos como um único sistema ou usados individualmente e/ou combinados com sistemas não descritos neste documento, como com o sistema de formação de imagem descrito no documento WO2017060739 A1, ou com um sistema de formação de imagem móvel que usa uma câmera e flash de um telefone inteligente, tablet ou outro dispositivo semelhante. Em outros casos, onde a luz do dia provê iluminação suficiente, um flash pode ser totalmente omitido.

[0028] Em particular, no estágio de detecção de texto 104, um método gerador de proposta 104a (isto é, região de interesse) é provido, o qual identifica regiões de interesse que podem conter a sequência de caracteres especificada pelo usuário. Como será descrito em mais detalhes abaixo, em uma primeira etapa, o método gerador de proposta 104a gera a partir de uma imagem de entrada de um flanco de um pneu, um mapa de recursos de Histograma de Gradientes Orientados (HOG), cada recurso sendo um HOG, usando um método como o provido pela biblioteca de código aberto VLFeat ou usando uma CNN. Em uma segunda etapa, os recursos de HOG são inseridos em uma arquitetura de classificador de CNN. Ao gerar primeiro os recursos de HOG e usá-los como uma entrada para a arquitetura do classificador de CNN, o gerador de propostas superou os métodos baseados exclusivamente em recursos feitos à mão com um classificador separado em precisão ou baseado apenas em uma CNN profundo em eficiência.

[0029] Além disso, por ter recursos de HOG gerados a priori e entrada na arquitetura de CNN, a tarefa de aprendizagem é reduzida para classificar entradas HOG em uma ou mais classes para gerar uma região de interesse, em vez de classificar imagens preto sobre preto de baixo contraste

8 / 32 cujas recursos, ou seja, valores de pixel, são desafiadoras para determinar e aprender padrões neles. Isso significa que o sistema como um todo é muito mais capaz de generalizar para conjuntos de dados invisíveis, como aqueles encontrados na natureza. Em contraste, se uma arquitetura de CNN pura (sem uma entrada HOG) receber imagens preto sobre preto de baixo contraste, a arquitetura se torna mais complexa (por exemplo, mais camadas e/ou conexões mais complexas entre as camadas) para que a CNN seja capaz de aprender os recursos da imagem. O aumento da complexidade resulta em aumento da sobrecarga de recursos computacionais, aumento da sobrecarga de recursos de memória e eficiência reduzida. Assim, embora as arquiteturas de CNN puras e profundas adicionalmente possam superar as arquiteturas de HOG e CNN combinadas atualmente propostas como medidas puramente por precisão, elas falham em termos de eficiência para aplicações em tempo real e sistemas de baixa memória quando aplicadas ao problema do mundo real de paredes laterais de pneus. Além disso, em termos de uso de recursos, o uso de uma CNN profundo para fins de geração de propostas aumenta muito a sobrecarga de recursos do sistema, portanto não é um uso eficiente de recursos em um sistema de poucos recursos, particularmente quando a arquitetura de HOG-CNN proposta aqui descrita pode gerar propostas igualmente relevantes com uma melhoria de ordem de magnitude na eficiência computacional e redução no consumo de memória, superando assim a necessidade de GPUs caras, memória e outro hardware necessário para arquiteturas de CNN profundas.

[0030] Prevê-se que o método gerador de proposta 104a descrito neste documento pode, assim, melhorar o desempenho de qualquer sistema que gere regiões de interesse em um flanco de um pneu com base em marcações em relevo e/ou gravadas. Os inventores consideram seu uso como uma invenção autônoma e/ou para uso com quaisquer técnicas de OCR conhecidas.

[0031] Os detalhes dos outros estágios: iluminação do objeto e

9 / 32 aquisição de imagem de alta taxa de quadros 101, detecção de pneu 102, não distorção 103, a verificação 104b das regiões de interesse propostas pelo gerador de proposta e leitura de texto 105 não são essenciais para permitir as vantagens providas pelo método gerador de proposta 104a. Os detalhes dessas etapas serão descritos abaixo antes de uma implementação exemplar do método gerador de propostas ser explicada em mais detalhes. Aquisição de imagem 101

[0032] Conforme descrito acima, um sistema de formação de imagem tal como o proposto pelo documento WO2017060739 A1 pode ser usado para obter uma imagem digital do flanco de um pneu no qual texto ou marcações em relevo e/ou gravados estão presentes. Este sistema captura apenas uma parte do flanco do pneu em qualquer imagem, de modo que uma série de imagens é normalmente obtida conforme o pneu rola para garantir que toda a circunferência do flanco do pneu seja capturada e, assim, que qualquer parte do flanco tendo as marcações em relevo e/ou gravadas também sejam capturadas. Detecção de Pneus 102 e Não Distorção 103

[0033] Uma vez que a imagem ou imagens são adquiridas, o segmento circular do pneu pode ser detectado (ou seja, seus raios interno e externo são localizados) usando uma Transformada de Hough Circular (CHT) ou outras técnicas adequadas. Antes de realizar o CHT, a imagem pode ser pré-processada usando um filtro Diferença de Gaussiano (DoG) que não apenas normaliza a iluminação, mas também realça as bordas. Como parte do pré-processamento, as imagens podem, opcionalmente, ser submetidas à redução de amostra entre 1/4 e 1/8 do tamanho original, o que melhora a eficiência e a precisão da detecção de pneus. As imagens submetidas à redução de amostra são então preenchidas com pixels pretos, já que o centro do pneu pode ficar fora do quadro da imagem capturado pela câmera (ou seja, pixels pretos são adicionados para prover um sistema de coordenadas de

10 / 32 tamanho adequado no qual o CHT pode identificar o centro do pneu). Uma vez ocorrido o pré-processamento, o CHT é então usado para detectar a junção circular da calota e, assim, ele detecta o do pneu. raio interno 204 com algum deslocamento seguro e o raio externo 203 como ilustrado na Figura 2 (a) que correspondem ao raio interno real 201 e raio externo 202 do pneu como mostrado na Figura 2 (b). No entanto, às vezes um círculo errado é detectado devido à presença de outra circularidade dominante na imagem (como um arco de roda ou circularidade de uma calota, conforme indicado na Figura 2 (b)) que pode ser, às vezes, mais dominante como um resultado de maior contraste. Para evitar esta situação, todas as imagens capturadas associadas a um determinado pneu (eixo de rodas) são processadas para intervalos de n raios (em roscas paralelas). Os círculos detectados são então usados para gerar um histograma de alcance do raio. O raio correspondente ao bin de alcance de raio com o maior número de círculos detectados nele é selecionado como o melhor raio de pneu interno detectado 201. Esta abordagem é simples (ou seja, eficiente em termos de recursos) e é capaz de remover quaisquer discrepâncias com eficácia e sucesso devido ao consenso que surge do pneu em movimento, onde a circularidade do pneu domina como resultado do campo de visão de uma determinada imagem.

[0034] Uma vez que a junção da calota e pneu (isto é, o raio do pneu interno 201) é detectada, um segundo círculo correspondente ao raio externo 202 do pneu 200 é escolhido em um deslocamento fixo do primeiro raio. Isso é suficiente para cobrir a área em que o texto do flanco do pneu (por exemplo, o texto de um código DOT) é esperado que apareça, uma vez que o texto do flanco do pneu geralmente cai perto do raio interno ou no meio, em vez de perto da banda de rodagem perto do raio externo 202 do pneu 200. Devido à sua proximidade com o raio interno, o raio interno detectado também é reduzido por um número fixo de pixels, conforme mostrado na Figura 2 (a), para garantir que os casos limítrofes sejam tratados adequadamente.

11 / 32

[0035] Após a detecção do pneu, o patch da imagem radial entre os raios interno 201 e externo 202 não é distorcido para uma rede retangular usando um mapeamento polar para cartesiano. Isso não apenas remove a distorção, mas também corta apenas a parte necessária da imagem, o que melhora a eficiência das próximas etapas.

[0036] Os primeiros três estágios do pipeline, a saber, iluminação de objeto e aquisição de imagem 101, detecção de pneu 102 e não distorção 103, podem ser implementados em qualquer linguagem de computador adequada implementando todos os algoritmos do zero ou, de um modo preferido, usando OpenCV. Mas outras bibliotecas de visão por computador e técnicas de processamento de visão também podem ser usadas. Detecção de texto: detecção DOT 104

[0037] No estágio de detecção de texto 104, uma abordagem baseada em aprendizado de máquina para detecção e localização de texto é empregada. Imagens não distorcidas do estágio de não distorção do pneu 103 são usadas. Devido aos regulamentos da indústria, a maioria dos códigos de paredes laterais de pneus comerciais são precedidos pela sequência de caracteres “D”, “O” e “T” que significa Departamento de Transporte, EUA. No presente exemplo, a sequência de caracteres DOT é usada como uma âncora para localizar o texto relacionado ao código do flanco do pneu. No entanto, prevê-se que outras sequências de caracteres, letras, números, logotipos, símbolos, pictogramas e/ou qualquer outra representação visual da informação também possam ser usados como uma âncora com a qual o texto do código do flanco do pneu pode ser localizado. Por exemplo, se um operador de frota usa apenas uma marca de pneu, um logotipo de marca ou marca comercial associada pode ser usado para localizar o texto em um flanco do pneu.

[0038] O objetivo da âncora é restringir o espaço de busca, já que na maioria dos casos ela precede o texto do resto do código do flanco do pneu. O

12 / 32 estágio de detecção de texto 104 tem duas cascatas, isto é, conjuntos de operações de processamento de imagem subsequentes: geração de proposta (isto é, região de interesse) 104a seguida por verificação ou localização de texto 104b. Conforme descrito acima, prevê-se que o método gerador de proposta 104a conforme descrito neste documento possa ser usado como um método autônomo com sua saída processada separadamente (por exemplo, usando equipamento de propriedade de terceiros) usando técnicas de processamento de imagem conhecidas que dependem da proposta (ou seja, região de interesse) geração para detectar e/ou reconhecer texto nas paredes laterais dos pneus. Geração de Proposta 104a

[0039] Como o texto é de muito baixo contraste, para a geração de propostas, abordagens baseadas em recursos de baixo nível (como caixas de borda propostas por “Zitnick and Dollar, Edge Boxes: Locating object Proposals from Edges, ECCV, European Conference on Computer Vision, 2014”) foram consideradas pelos inventores inadequadas porque as bordas fortes de outros segmentos do pneu dominam (a maioria dos quais não contém texto), resultando em um grande número de propostas que não contêm nenhum texto. Determinar quais dessas propostas contém ou não texto aumenta significativamente a sobrecarga de recursos.

[0040] Além disso, embora recursos feitos à mão tenham sido usados com sucesso para detecção de texto (como descrito em, por exemplo, “Wang et al, End-to-end Scene Text Recognition, Proceedings of the 2011 International Conference on Computer Vision, IEEE Computer Society, Washington, ICCV ’11 págs. 1457-1464 DOI 10.1109/ICCV.2011.6126402”, “Mishra et al, Top-down and bottom-up cues for scene text recognition, 2012 IEEE Conference on Computer Vision and Pattern Recognition, págs. 2687- 2694, DOI 10.1109/CVPR.2012.6247990”, e “Mishra et al, Image Retrieval Using Textual Cues, 2013 IEEE International Conference on Computer

13 / 32 Vision and Pattern Recognition, págs. 3040-3047), tais técnicas são muito lentas para a aplicação industrial de reconhecimento de texto do flanco do pneu em estado selvagem em um tempo razoável.

[0041] Em particular, quando os inventores tentaram usar HOG combinado com um classificador de Máquina de Vetores de Suporte (SVM) de um modo de janela deslizante, ele produziu resultados razoavelmente precisos para a detecção de texto (ou seja, detectando a sequência de caracteres “D”, “O”, “T” ), mas o tamanho da imagem (500 x 2.000 a 4.000 pixels) adicionalmente significa que leva alguns minutos para digitalizar cada imagem, sendo que cada pneu tem várias imagens associadas a ele. Esta escala de tempo é muito longa e é inaceitável para aplicações industriais onde um operador de frota de veículos não pode razoavelmente esperar por um tempo de varredura tão longo para cada pneu se o sistema for superior a um sistema onde um operador humano lê e registra códigos do flanco do pneu manualmente. Idealmente, um sistema prático requer resultados completos em menos de um minuto. Além disso, tal sistema deve ser capaz de funcionar apenas com processamento baseado em CPU (porque os custos de GPUs podem ser proibitivamente caros para este aplicativo). Imagens de resolução mais baixa, como as por meio de câmeras de resolução mais baixa ou as com redução de amostra de imagens de alta resolução, não são adequadas para esse reconhecimento de texto pequeno e de baixo contraste.

[0042] Arquiteturas ramificadas baseadas em Deep-CNN, como Faster-RCNN (conforme descrito por exemplo em “Ren et al, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Advances in Neural Information Processing Systems 28, Curran Associates, Inc., págs. 91-99, 2015”) que usam uma Rede de Proposta de Região para digitalizar uma imagem e produzir propostas para a filial de localização são uma abordagem alternativa. O Faster-RCNN demonstrou ser preciso, ao mesmo tempo que mantém a eficiência nas GPUs. Mas usar redes centrais

14 / 32 profundas, como aquelas normalmente exigidas pelo Faster-RCNN (como VGG16 ou ResNet50) para o mapa de recursos e geração de propostas nos tamanhos das imagens usadas na formação de imagem do flanco do pneu seria muito caro em uma CPU, então exigiria um grande GPU de memória (11 GB ou mais), que aumenta o custo total do sistema ao ponto em que seria mais econômico para um operador de frota de veículos empregar um operador humano para ler e registrar os códigos do flanco do pneu manualmente. As GPUs também podem exigir arranjos de resfriamento extras que podem limitar seu uso em cenários externos em clima quente.

[0043] Conforme descrito acima, a presente invenção provê uma solução para este problema combinando a geração de recursos de HOG com um classificador baseado em CNN para gerar propostas de forma eficiente. Em uma arquitetura, os recursos de HOG são gerados usando métodos conhecidos, como aqueles providos pela biblioteca de código aberto VLFeat e, em seguida, inseridos em um classificador baseado em CNN. Em outra arquitetura, os recursos de HOG são gerados por uma CNN e inseridos no classificador baseado em CNN. A primeira arquitetura é aqui descrita HOG- MLP (perceptron de multicamadas), a segunda como HOG-CNN. Execuções de treinamento

[0044] Todas as execuções de treinamento CNN discutidas aqui usam Stochastic Gradient Descent como otimizador com retropropagação em Matlab usando a biblioteca MatConvNet de A. Vedaldi e Lenc (2015), conforme descrito em A Vedadi and Lenc (2015) MatConvNet- Convolutional Neural Networks for Matlab, Proceedings of the ACM, Int. Conf. on Multimedia. No entanto, prevê-se que quaisquer técnicas alternativas adequadas de treinamento e otimização e bibliotecas, como TensorFlow, Caffe, Torch, etc., também possam ser usadas. Além disso, em um exemplo, os dados de treinamento da classe de texto podem ser gerados sinteticamente, ao passo que os dados de treinamento da classe fundamental podem ser

15 / 32 extraídos de imagens de pneus reais. No entanto, prevê-se que a geração de dados sintéticos pode não ser necessária de todo, por exemplo, quando dados suficientes de imagens reais de pneus estão disponíveis. Além disso, as camadas de diluição podem ser usadas para evitar o sobreajuste. Além disso, embora as redes aqui descritas usem uma ou mais camadas de diluição de 50% durante o treinamento para evitar o sobreajuste, prevê-se que outras técnicas usadas para prevenir o sobreajuste também possam ser usadas em vez disso, tais como validação cruzada, treinamento com mais dados, removendo recursos, parando antecipadamente a regularização e outros. A filtragem de diferença de Gauss (DoG) foi aplicada aos dados de entrada para normalização de iluminação e aprimoramento de borda. Outras técnicas de normalização de contraste, como equalização de histograma ou equalização de histograma adaptativa, também podem ser usadas. Geração de dados sintéticos

[0045] Conforme descrito acima, se não houver dados de imagem real suficientes disponíveis, a geração de dados sintéticos pode, opcionalmente, ser usada. Como um leitor de texto de flanco de pneu automatizado implantado em estado selvagem terá que ler o texto de flanco em várias condições de luz, clima e desgaste, uma quantidade substancial de dados de treinamento pode ser necessária para alcançar uma boa generalização. Reunir um grande conjunto de dados em estado selvagem é um processo muito caro e demorado. Em vez disso, os dados de treinamento podem ser gerados sinteticamente usando várias fontes diferentes e um mecanismo de renderização de texto. Inicialmente, uma máscara de texto em preto e branco é criada usando várias fontes em tamanhos aleatórios. A máscara pode então ser manchada de forma incremental (adicionando várias cópias ou mudando a posição de renderização em uma pequena vizinhança (pixels dx, dy)). Isso ocorre em diferentes direções (para representar as sombras giratórias) e comprimentos (para representar diferentes comprimentos de sombra). A

16 / 32 máscara de imagem é então fundida com fundos de pneus para produzir imagens de texto realistas em relevo/gravado como deveriam aparecer nas imagens reais do flanco do pneu. Dado que histogramas de recursos de gradiente orientados são usados como entrada para o classificador de CNN, os dados de treinamento podem, em algumas modalidades, compreender uma pluralidade de histogramas de mapas de recursos de gradiente orientados gerados a partir de uma pluralidade de imagens digitais de paredes laterais de pneus. Implementando o método gerador de proposta 104a

[0046] A Figura 3 é um fluxograma que mostra as etapas de um método de gerador de proposta 304, que é uma modalidade da invenção correspondente à etapa de geração de proposta 104a na Figura 1. Uma imagem digital 300 de uma porção de um flanco de pneu não distorcida obtida, por exemplo, como descrito acima, é usada como uma entrada. O flanco do pneu tem uma ou mais marcações em relevo e/ou gravadas, como um código do flanco do pneu. Um histograma de gradientes orientados e seu mapa de recursos associados da imagem digital é gerado 301. O histograma gerado de gradientes orientados é inserido em uma rede neural convolucional treinada 302. A rede neural convolucional treinada é configurada para emitir uma primeira probabilidade 303, com base no histograma de entrada de gradientes orientados e seu mapa de recursos associados, de que uma região de pixels da imagem digital contém as marcações em relevo e/ou gravadas. Se a primeira probabilidade é igual ou superior a um primeiro limite predeterminado 305a, a região de pixels é aceita como uma região de interesse e emitida 306. Caso contrário, é rejeitado 305b. Desta forma, o método gerador de proposta 104a pode gerar regiões de interesse na imagem digital associada a uma ou mais marcações em relevo e/ou gravadas.

[0047] Conforme descrito acima, duas maneiras alternativas de gerar recursos de HOG são providas. Na primeira, os recursos de HOG são gerados

17 / 32 externamente e separadamente do classificador de CNN treinado (por exemplo, usando os métodos providos pela biblioteca de código aberto VLFeat). Isso é descrito aqui como HOG-MLP. Em uma segunda, os recursos de HOG são gerados por uma CNN. Isso é descrito aqui como HOG-CNN.

[0048] A Figura 4 é um fluxograma de um método de geração de um histograma de gradientes orientados 401 e seu mapa de recursos com uma CNN de acordo com a arquitetura HOG-CNN descrita acima. Em particular, depois de receber uma entrada 400 de uma imagem digital de uma porção do flanco de um pneu, uma pilha de filtros convolucionais 402 é usada para gerar um histograma de gradientes orientados e o mapa de recursos de HOG correspondente que é emitido 403.

[0049] A Figura 5 é um fluxograma de um método de geração de um histograma de gradientes orientados 501 e um mapa de recursos de HOG correspondente com um gerador HOG externo separado 502 de acordo com a arquitetura HOG-MLP descrita acima. Em particular, depois de receber uma entrada 500 de uma imagem digital de uma porção do flanco de um pneu, o gerador HOG é usado para gerar um histograma de gradientes orientados e mapa de recursos de HOG correspondente que é enviado 503.

[0050] Um efeito provido pela combinação de recursos de HOG com um classificador de CNN é que o número total de propostas/regiões de interesse geradas é significativamente menor e há menos falsos positivos do que para técnicas puramente artesanais, como HOG + SVM (ou seja, uma máquina de vetor de suporte classificador de um modo de janela espacialmente deslizante). Outra vantagem é que os tempos gerais de varredura/computação são muito mais curtos devido ao fato de que a geração de recursos de HOG é mais superficial e/ou mais eficiente para calcular do que tentar gerar propostas/regiões de interesse apenas com redes convolucionais profundas. Conforme descrito acima, os inventores acreditam que uma razão para isso é que a geração de HOG provê a subestrutura de

18 / 32 imagem (ou mapa de recursos) para o classificador de CNN sem que o classificador de CNN tenha que aprendê-lo a partir dos dados de imagem brutos. Assim, efetivamente evitando a necessidade de uma arquitetura de CNN profunda. Uma arquitetura profunda precisaria aprender a subestrutura da imagem apenas com os dados de treinamento, o que é particularmente difícil onde as imagens têm um baixo contraste entre o primeiro e o segundo plano, pois isso exigirá uma ordem para ampliar mais dados e tempo de treinamento. Em contraste, o treinamento de um HOG-CNN pode ser executado com um conjunto de dados relativamente muito menor e ser executado de forma muito eficiente com uma CPU. HOG-CNN

[0051] A Figura 6(a) é um diagrama de blocos da arquitetura HOG- CNN de acordo com uma modalidade. Uma rede convolucional totalmente conectada é conectada ao final de uma pilha de filtros convolucionais, ou seja, uma cascata de operações de processamento de imagem terminando em uma camada de decomposição HOG que compõe as camadas de geração de recursos de HOG. Em conjunto, isso provê uma arquitetura de CNN completa que termina em uma camada de perda de entropia cruzada (para treinamento) ou camada softmax (para teste ou aplicação ou operação) que gera a probabilidade de que uma determinada imagem de entrada contenha marcações em relevo e/ou gravadas. Essa rede é rasa, com menos camadas convolucionais e canais do que redes profundas, como aquelas em que as camadas de CNN são usadas para produzir recursos profundos. A profundidade rasa da rede, portanto, provê uma melhoria significativa na velocidade, tornando-a muito mais adequada para a leitura de texto do flanco do pneu em estado selvagem.

[0052] Embora as camadas de CNN para HOG conforme descritas em “Mahendran and Vedaldi (2015), Understanding Deep Image Representations by Inverting Them, IEEE Conference on Computer Vision

19 / 32 and Pattern Recognition, IEEE Compt. Soc” sejam usadas, prevê-se que qualquer implementação de camada de HOG baseada em CNN adequada possa ser usada em seu lugar. Além disso, qualquer um dos métodos de HOG descritos em “Dalal and Triggs (2005), Histograms of Oriented Gradients for Human Detection, Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’o5) – Volume 1 – págs. 886-893, DOI 10.1109/CVPR.2005.177”, e “Felzenszwalb et al (2010), UoCTTI, Object Detection with Discriminatively Trained Part- Based Models, IEEE Transactions on Pattern Analysis and Machine Intelligence 32(9):1627-1645, DOI 10.1109/TPAMI.2009.167” também pode ser usado.

[0053] A arquitetura de exemplo mostrada na Figura 6 tem uma imagem 601 de entrada de texto DOT de 60 x 130 pixels pré-processada usando uma diferença da técnica gaussiana, conforme discutido anteriormente. Conforme descrito em “Mahendran and Vedaldi (2015), Understanding Deep Image Representations by Inverting Them, IEEE Conference on Computer Vision and Pattern Recognition, IEEE Compt. Soc”, os recursos de HOG são extraídos usando uma pilha de filtros convolucionais em que um filtro direcional é aplicado em K = 2 vezes o número de orientações (O), onde K é um índice K=1, ... k. O K-ésimo filtro direcional é dado por: (1) (2)

[0054] O filtro direcional lança a projeção da entrada ao longo do vetor de direção uk como guk (onde g é uma constante). Após a filtragem

20 / 32 direcional, a classificação de dados de HOG 602 pode ser executada pela seguinte função de ativação: (3)

[0055] A pilha de filtros convolucionais é mostrada na Figura 6(a) como começando com uma arquitetura Conv (3x3x1x2*O) 601, no entanto, será apreciado que outras arquiteturas de filtro também podem ser usadas. (por exemplo, Conv (5x5x1x2*O) ou Conv (7x7x1x2*O)). Outros exemplos de filtros podem ser encontrados nas implementações de HOG citadas acima.

[0056] Na extração de recursos de HOG, os gradientes que são submetidos à classificação de dados são agrupados em células que são combinadas em 2 x 2 blocos. Isso é feito por meio de uma pilha de filtros lineares 603. Após a normalização 604 (norma L2), os blocos são decompostos de volta para a estrutura da célula e os valores são fixados 605 em 0,2 (ou seja, máx.{x, 0,2}). No exemplo de implementação aqui descrito, gradientes direcionados são submetidos à classificação de dados por duas vezes o número de orientações (hdo) dentro do intervalo [0,2π) junto com um conjunto de gradientes não direcionados (huo). Assim, um total de 3 × O canais são usados na camada de decomposição de HOG 606.

[0057] Usando o exemplo acima, para uma imagem de entrada com 60(A) x 130(L) pixels, o HOG baseado em CNN produziu um mapa de recursos de 7 x 16 x 27 para um tamanho de célula de 8 x 8 e 9 orientações. Outros tamanhos de células e número de orientações também podem ser usados.

[0058] Esta saída HOG é então inserida em um classificador baseado em CNN (por exemplo, um Multi Layered Perceptron ou MLP) 607a, 607b. No presente exemplo, o classificador de CNN 607a, 607b compreende camadas convolucionais 607a totalmente conectadas (FC) inicializadas

21 / 32 aleatoriamente com um tamanho de máscara de 7 x 16 x 27 CHs (CHs representa o número de canais na camada atual). Isso foi seguido por uma diluição de 50% e outra camada FC 607b, conforme mostrado na Figura 6(a). A diluição é uma técnica de regularização que evita o sobreajuste simplesmente pulando alguns neurônios. Prevê-se que outras técnicas para evitar que sobreajustes também possam ser aplicados, exemplos das quais são descritos acima, como validação cruzada, treinamento com mais dados, remoção de recursos, parada antecipada, regularização e outros. Uma vez que a geração de recursos de HOG e a classificação subsequente são realizadas com CNNs conectadas entre si como uma arquitetura de CNN unificada, o termo HOG-CNN é usado.

[0059] Uma camada final de perda de entropia cruzada 608 também é provida para treinar o classificador de CNN por meio de retropropagação para identificar o texto ‘DOT’ 609. De maneira semelhante a OverFeat (Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., & Lecun, Y. (2014). Overfeat: Integrated recognition, localization and detection using convolutional networks. In International Conference on Learning Representations (ICLR2014)), a arquitetura na Figura 6(a) usa camadas convolucionais como camadas FC e a rede HOG-CNN pode varrer a imagem inteira se for maior do que o tamanho mínimo exigido, ou seja, 60x130 pixels.

[0060] O treinamento dessa rede pode ser difícil, pois poucas camadas são predefinidas enquanto o classificador final é inicializado aleatoriamente. No caso presente, ele foi treinado em um conjunto de dados contendo menos de 600K de imagens (de tamanho 60x130 pixels) no total com a classe DOT gerada sinteticamente. O conjunto de treinamento continha uma classe DOT gerada sinteticamente e uma classe fundamentais composta por uma mistura de texto não DOT, bordas, texturas e planos de fundo simples. Um total de 80-90 épocas de treinamento foram consideradas suficientes quando um ponto de saturação foi atingido. Continuar o treinamento tende a se ajustar ao

22 / 32 modelo. No entanto, como a rede é superficial e usa filtros esparsos, ela pode ser treinada com eficiência mesmo em uma CPU (com um tempo de treinamento de aproximadamente menos de 5 horas).

[0061] Será apreciado que a arquitetura de exemplo acima é para fins ilustrativos.

[0062] Como explicado acima, o problema de alta sobrecarga computacional e despesa de técnicas como HOG + SVM (de um modo de janela espacialmente deslizante) ou de técnicas profundas de CNN para reconhecer texto do flanco do pneu em estado selvagem pode, portanto, ser resolvido usando o conceito de entrada a saída de uma implementação de HOG em uma CNN rasa. HOG-MLP

[0063] Para HOG-MLP, em vez de usar uma arquitetura de CNN unificada, os recursos de HOG podem ser extraídos da entrada 601 usando uma implementação de HOG independente 610, como a da biblioteca VLFeat (Vedaldi e Fulkerson 2008, An Open and Portable Library of Computer Vision Algorithms, ver (0.9.16), p, http://www.vlfeat.org) e então alimentados em uma rede MLP multiclasse baseada em CNN (HOG-MLP) como mostrado na Figura 6(b). Na implementação de VLFeat de HOG 610 usada no presente exemplo, gradientes são submetidos à classificação de dados para componentes de textura 3*O + 4. Portanto, para um tamanho de imagem 601 de entrada de 60(A) x 130 (L), um tamanho de célula de HOG de 8 x 8 e 12 orientações (40 componentes no total), a primeira camada 611 na rede CNN era de 8 x 16 x 40 CHs. O tamanho da célula e o número de orientações foram escolhidos por meio de pesquisa sistemática para alcançar a melhor precisão de detecção possível em um conjunto de dados de validação cruzada. Outros tamanhos de células e número de orientações também podem ser usados. Foi treinado em um conjunto de dados de 11 classes (nC = 11) de mais de um milhão de imagens contendo 7 classes DOT sintetizadas para fontes

23 / 32 redondas/quadradas/finas e largas, aparência clara e difusa, sombras longas e curtas, espaçamento simples e duplo entre os caracteres e outras variações, junto com 4 classes fundamentais divididas entre planos de fundo simples, texto não DOT e bordas/texturas. Uma segunda camada 612 também foi provida, juntamente com uma camada de perda de entropia cruzada 613. A saída 614 foi mapeada para uma probabilidade de classe binária, isto é, DOT/não DOT por predeterminação de quais das classes de saída da camada de perda de entropia cruzada correspondem a um código DOT e quais não. Esta representação multiclasse permite a incorporação de conhecimento prévio ao treinamento e, assim, aumenta a generalização da rede, por exemplo, para que possa lidar com as mudanças na configuração de iluminação da aquisição de imagem, por exemplo, durante a instalação, calibração e/ou desenvolvimento de produtos de hardware.

[0064] Se nenhuma alteração na aquisição de imagem e/ou iluminação for necessária, as direções de luz/sombra nas imagens adquiridas são mais consistentes. Em tal cenário, um exemplo ilustrativo alternativo de um gerador de proposta HOG-MLP é provido como mostrado na Figura 6(c) com tamanho de célula = 8 x 8, O = 16 (perfazendo um total de 52 componentes), mas com apenas quatro classes de saída nC = 4 (ou seja, DOT, plano de fundo simples, borda/textura, texto não DOT). As saídas 615 são novamente mapeadas para uma classificação binária (DOT/não DOT). Neste exemplo, a rede foi treinada em um conjunto de dados de pouco mais de um milhão de imagens com a classe DOT gerada sinteticamente conforme descrito acima. Para ambas as redes HOG-MLP ilustrativas, resultados satisfatórios foram obtidos após o treinamento por 30-50 épocas. Assim como o HOG-CNN, essas redes esparsas também podem ser treinadas com eficiência em uma CPU, algo que não é possível de forma eficiente com uma implementação de CNN profunda.

[0065] Tal como acontece com HOG-CNN, será apreciado que os

24 / 32 exemplos acima de arquiteturas de HOG-MLP são para fins ilustrativos. A alta sobrecarga computacional e despesas de, por exemplo, HOG + SVM (classificador de Máquina de Vetor de Suporte de um modo de janela espacialmente deslizante) ou técnicas profundas de CNN para reconhecer o texto do flanco do pneu em estado selvagem podem, assim, ser resolvidas usando o conceito de entrada da saída de um Implementação de HOG em uma CNN rasa. Comparação

[0066] Na comparação dos dois métodos de geração de propostas, HOG-CNN versus HOG MLP, os tempos de varredura para uma imagem de 500 x 3000 pixels foram em torno de 550 e 250 ms, respectivamente, em uma CPU Intel Corei7 3,6 GHz. Para HOG-CNN e HOG-MLP, isso é significativamente mais rápido do que a ordem de magnitude dos minutos de implementações HOG + SVM feitas à mão em uma janela deslizante ou implementações baseadas em CNN profundas.

[0067] No HOG-MLP, não é possível retropropagar por meio do estágio de extração de recursos, uma vez que a parte HOG da arquitetura não faz parte da arquitetura de CNN. Em contraste, no HOG-CNN, a retropropagação através de toda a rede é possível, aumentando assim a capacidade da implementação de HOG-CNN de se adaptar às variações nos dados.

[0068] Os inventores observaram que as precisões de ambas as arquiteturas de HOG-CNN e HOG-MLP usando os mesmos tamanhos de células e número de orientações são comparáveis, embora HOG-CNN gere menos propostas e, portanto, generalize melhor (por exemplo, devido à retropropagação) do que HOG-MLP. Localização de texto: localização DOT 104b

[0069] Para finalmente localizar e verificar o texto do flanco do pneu (ou seja, o código DOT do flanco do pneu) das propostas filtradas, um

25 / 32 classificador pode ser aplicado à(s) região(ões) de interesse gerada(s) para aceitar ou rejeitar um ou mais deles como um falso positivo.

[0070] A Figura 7 é um fluxograma que mostra um método 704 de acordo com uma modalidade correspondente à etapa 104b na Figura 1. As regiões de saída de interesse 700 do método gerador de proposta 104a são inseridas em um classificador 701. O classificador 701 localiza o texto dentro das regiões de interesse e, assim, verifica regiões de interesse genuínas, bem como falsos positivos. Em outras palavras, para cada região de interesse, ele determina quais são falsos positivos e quais não são. Os falsos positivos são descartados, enquanto as regiões de interesse genuínas são selecionadas. O classificador 701 pode ser uma rede neural profunda que emite uma probabilidade 702 de que uma determinada região de interesse realmente contém as marcações em relevo/gravadas (como a sequência de caracteres “D”, “O”, “T” descrita acima). Se a probabilidade estiver abaixo de um limite predeterminado, a região de interesse dada é determinada como um falso positivo e rejeitada 703b. Caso contrário, é aceito 703a como uma região de interesse genuína e produzido 704.

[0071] Um exemplo ilustrativo de uma rede profunda 801 que pode ser usada como um classificador 701 é mostrado na Figura 8(a). Prevê-se que outras arquiteturas semelhantes, como a descrita em “Jaderberget al (2016), Reading Text in the Wild with Convolutional Neural Networks, International Journal of Computer Vision 116(1):1-20 DOI 10.1007/s11263-015-0823-z” pode ser usado. Na verdade, o método com o qual os falsos positivos são rejeitados é independente e não é essencial para permitir as vantagens providas pela etapa 104a. Para comparar as probabilidades de detecção com um limite predefinido, uma camada Softmax no final do classificador de CNN pode ser usada.

[0072] O conjunto de treinamento para esta rede ilustrativa 801 continha várias classes DOT e fundamentais (1,6 milhões de imagens em 10

26 / 32 classes: 7 classes de DOT e 3 classes fundamentais para plano de fundo simples, bordas/textura e texto não DOT). No exemplo mostrado na Figura 14(a), uma imagem de texto DOT de entrada 800 de 32 x 100 pixels é usada, ou seja, o resultado da detecção do HOG-CNN ou HOG-MLP é de 60x130 pixels que é submetido à redução de amostra para 32x100 pixels. Os resultados da classificação 802 são então mapeados para uma saída binária (DOT/não DOT). Semelhante ao HOG-MLP, quando a configuração de formação de imagem e iluminação não requer mais alterações durante, por exemplo, instalação, calibração e/ou desenvolvimento de produto de hardware e conjuntos de dados são tornados mais consistentes, a rede de localização de texto 1001 pode ser reduzida a um classificador de 4 vias 803 (DOT, plano de fundo simples, texto não DOT e bordas/texturas) conforme mostrado na Figura 8(b). Como resultado, muitos falsos positivos gerados pelo gerador de propostas podem ser rejeitados e apenas alguns candidatos fortes são mantidos. Falsos positivos que vazam nesta fase podem ser resolvidos por reconhecimento de texto na fase de leitura de código 105, caso seja necessário. Leitura de código 105

[0073] A leitura de código 105 pode consistir em dois estágios, conforme ilustrado na Figura 1: texto ou detecção/localização de caracteres 105a (em que os caracteres do código são localizados) e texto ou reconhecimento de caracteres 105b (em que os caracteres são reconhecidos e emitidos). As etapas 105a e 105b podem ser realizadas pelo mesmo classificador em uma única etapa ou por classificadores separados. O patch de código (ou seja, a parte da imagem que contém o código DOT e os caracteres que seguem a posição âncora ‘DOT’) da imagem é primeiro pré-processado para cortá-lo até a altura do texto usando filtragem de borda de baixo nível. Em seguida, a altura do patch é redimensionada para 40-50 pixels de acordo com o avanço da rede de detecção de código (número de pixels pulados entre

27 / 32 duas janelas de detecção consecutivas na imagem de entrada).

[0074] A Figura 9 é um fluxograma de um método 901 usado para localizar e/ou classificar o código do flanco do pneu (ou seja, para ler as marcações em relevo e/ou gravadas do flanco do pneu) usando um único classificador que corresponde a ambas as etapas 105a e 105b da Figura 1. As áreas adjacentes às regiões verificadas de interesse são selecionadas e inseridas no único classificador 901. O classificador 901 pode então localizar os caracteres/símbolos do código dentro da área selecionada e produzir uma probabilidade 903 de que um determinado caractere/símbolo seja reconhecido como, por exemplo, um caractere como uma letra ou um número, a partir do qual uma emissão de leitura das marcações em relevo e/ou gravadas (ou seja, o código do flanco do pneu) pode ser provida.

[0075] Alternativamente, as Figuras 10 e 11 ilustram redes separadas que podem realizar as etapas 105a e 105b separadamente. Será apreciado que existem numerosas técnicas de OCR e prevê-se que tais técnicas possam ser utilizadas uma vez que as propostas/regiões de interesse tenham sido geradas conforme descrito na etapa 104a.

[0076] Com referência à Figura 10, uma vez que o texto tem contraste muito baixo em relação ao fundo, um mecanismo de previsão denso é necessário, como aquele provido pela arquitetura 1001 mostrada na Figura 10. Nas CNNs, camadas máximas de agrupamento reduzem a amostra da imagem, o que aumenta o avanço da rede. A remoção de camadas máximas de agrupamento permitirá previsões densas (pixel por pixel), mas aumentará enormemente o espaço de parâmetros, o que afetará tanto a eficiência quanto a precisão. As técnicas de regularização, como DropOuts em combinação com as ativações MaxOut, são úteis para melhorar a precisão. Portanto, conforme mostrado na Figura 10, MaxOuts foram usados nesta arquitetura. Os inventores observaram que se um ReLU precede as camadas MaxOut, a rede converge rapidamente para um mínimo durante o treinamento. A entrada

28 / 32 1000 da Figura 10 é ilustrada como uma imagem de DoG com tamanho de 32 x 32 pixels. Outras arquiteturas de rede também estão previstas, como, por exemplo, aquelas descritas em “Goodfellow et al (2013), MaxOut Networks, Proceedings of the 30th International Conference on Machine Learning - Volume 28, JMLR.org, ICML’13, páginas III-1319-III-1327” e “Jaderberg et al (2014), Deep Features for Text Spotting, European Conference on Computer Vision”. Finalmente, da mesma forma que em HOG-CNN e HOG- MLP, camadas totalmente conectadas (FC) compostas por camadas convolucionais permitem que a rede deslize sobre todo o patch de código, detectando e localizando texto no trajeto e evitando qualquer necessidade de um mecanismo de janela deslizante espacial.

[0077] No presente exemplo, o treinamento foi feito em um conjunto de dados de imagem de 700K com classe de texto gerada sinteticamente conforme descrito acima. A classe fundamental foi extraída de patches de pneus reais. Este continha bordas simples, padrões de crista, formas fundidas ou moldadas e um plano de fundo simples. A saída foi mapeada para uma probabilidade de classe binária, ou seja, texto/não texto. O detector de caracteres produziu caixas delimitadoras por varredura convolucional de todo o patch de código, conforme discutido anteriormente. As caixas assim detectadas são centralizadas nas regiões com as maiores probabilidades de presença de texto. A supressão não máxima foi aplicada às caixas detectadas para filtrar as propostas. Um classificador de caracteres também pode ser usado opcionalmente para a detecção de caracteres. No entanto, os inventores descobriram que um classificador dedicado para detecção de caracteres de código que é separado de um classificador de caracteres para reconhecimento de texto de código tem melhor desempenho.

[0078] Conforme descrito acima, uma rede separada de reconhecimento de caracteres 1101, como mostrado na Figura 11, é usada neste exemplo ilustrativo para realizar a etapa 105b. Após a localização ter

29 / 32 sido realizada na etapa 105a usando, por exemplo, a arquitetura mostrada na Figura 10, os locais de caracteres de código detectados são usados para extrair caracteres que são alimentados em uma rede classificadora de caracteres

1101. Outros classificadores de caracteres também podem ser usados, como o descrito por “Jaderberget al (2016), Reading Text in the Wild with Convolutional Neural Networks, International Journal of Computer Vision 116(1):1-20 DOI 10.1007/s11263-015-0823-z”. Esta rede tem classes para números de 0 a 9, alfabetos maiúsculos A a Z (excluindo I, Q, S e O que não são usados nos códigos DOT de pneus) e sete classes fundamentais, formando um classificador de 39 vias que é mapeado para 33 classes (32 caracteres e 1 classe fundamental). O modelo foi treinado no conjunto de dados de caracteres sintéticos dos inventores de cerca de 700.000 imagens. Um classificador também pode ser treinado para reconhecer marcas, logotipos ou símbolos específicos encontrados no código do flanco do pneu, caso seja necessário. Vantagens

[0079] Como o sistema proposto é um sistema industrial, tanto a precisão quanto a eficiência são igualmente importantes. Em particular, o gerador de proposta/região de interesse descrito acima na etapa 104a provê um aumento significativo na eficiência de um sistema de leitura do flanco do pneu sem sofrer uma queda perceptível na precisão. Os inventores preveem que o gerador de propostas/região de interesse pode, assim, ser usado com qualquer visão computacional conhecida e técnicas de OCR aplicadas à leitura do flanco de pneus cujos métodos requerem a geração de propostas/regiões de interesse. Precisão

[0080] Embora a precisão dependa, em última análise, da amostra de dados que está sendo analisada. O erro de treinamento das arquiteturas aqui descritas foi inferior a 5%. O sobreajuste através das redes pode ser

30 / 32 adicionalmente mais reduzido se dados de treinamento sintéticos forem misturados com dados de imagem real e/ou se o aumento de dados de tempo de treinamento, como deformações afins, for adicionado. HOG-CNN e HOG- MLP proveem, portanto, uma taxa de falso positivo de menos de 5% para a região de geração de interesse no texto do flanco do pneu. Isso apesar das grandes variações na altura, raio e posição do pneu em relação ao arco de roda. Eficiência

[0081] Para um sistema industrial, com um usuário final esperando pelos resultados, a eficiência é crucial. As GPUs (unidades de processamento gráfico) têm sido amplamente utilizadas em sistemas baseados em aprendizado profundo, mas implantar GPUs significa aumentar o custo total do sistema, à medida que são implantadas em cada local de formação de imagem. Com uma demanda crescente e cada local exigindo duas unidades (uma para o lado direito e para lado esquerdo do veículo), manter o custo total baixo torna-se um atributo chave. Assim, conforme descrito acima, um sistema baseado em CPU é idealmente procurado.

[0082] A varredura de toda a imagem não distorcida (tamanho médio de 500 x 3000 pixels) com uma rede profunda leva mais de 20 segundos em uma CPU com Core i7 de 3,6 GHz (requer memória de parâmetro de 496 MB). De fato, quando alguns dos algoritmos de melhor desempenho para detecção de objeto/texto (ou seja, aqueles que têm uma alta classificação em conjuntos de dados de referência) são aplicados para formação de imagem do texto do flanco do pneu, eles rapidamente se tornam um gargalo computacional.

[0083] Em contraste, a rede rasa proposta (HOG-CNN ou HOG-MLP) requer uma memória de parâmetro de apenas 1 a 3 MB. Quando é seguido por uma varredura profunda apenas das propostas assim geradas, o tempo total de varredura é reduzido para cerca de 3 segundos. Esta é uma melhoria de uma

31 / 32 ordem de magnitude em termos de eficiência (quase 95% de aumento de velocidade), bem como uma redução significativa no custo total do sistema e complexidade (por ter apenas operações baseadas em CPU), sem qualquer comprometimento aparente na precisão já que a revocação de HOG-CNN ou HOG-MLP é quase 100%. Com isso, os resultados de ponta a ponta para o processamento de uma imagem para detecção e não distorção do pneu e, em seguida, a varredura de uma imagem resultante não distorcida de 500 x 3000 pixels em três escalas diferentes, seguida pela detecção e leitura do código, leva em média 3 a 5 segundos na CPU mencionada acima.

[0084] Embora a invenção tenha sido descrita em termos de modalidades preferidas conforme estabelecido acima, deve ser entendido que essas modalidades são apenas ilustrativas e que as reivindicações não estão limitadas a essas modalidades. Aqueles versados na técnica serão capazes de fazer modificações e alternativas em vista da descrição que são contempladas como caindo dentro do escopo das reivindicações anexas. Cada recurso descrito ou ilustrado na presente especificação pode ser incorporado na invenção, seja sozinho ou em qualquer combinação apropriada com qualquer outro recurso descrita ou ilustrado aqui.

[0085] Por exemplo, enquanto a Figura 6(a) prevê duas camadas convolucionais totalmente conectadas 607a, 607b, esta pode ser reduzida a uma camada para reduzir adicionalmente mais a sobrecarga computacional ao custo da precisão. Em outras palavras, a rede neural convolucional pode compreender uma ou duas camadas convolucionais totalmente conectadas. Alternativamente, para aumentar a precisão, o número de camadas totalmente conectadas pode ser aumentado para três ou mais camadas ao custo da complexidade computacional. No entanto, prevê-se que o uso de mais de duas camadas pode aumentar a complexidade computacional a tal ponto que o tempo de computação é aumentado para níveis inaceitáveis para um operador de frota e/ou que GPUs sejam requeridas, reduzindo assim ou eliminando

32 / 32 totalmente qualquer vantagem obtida usando HOG-CNN ou HOG-MLP.

Embora isso possa não ser problemático para ambientes ideais de laboratório, é para um sistema industrial onde custo e eficiência são prioridades e, portanto, onde redes rasas oferecem vantagens muito maiores.

Claims

REIVINDICAÇÕES

1. Método implementado por computador para gerar uma região de interesse em uma imagem digital de um flanco de um pneu, o flanco tendo uma ou mais marcações em relevo e/ou gravadas, o método caracterizado pelo fato de que compreende: gerar um histograma de mapa de recursos de gradientes orientados da imagem digital; inserir o histograma de mapa de recursos de gradientes orientados em uma rede neural treinada, em que a dita rede neural treinada é configurada para emitir uma primeira probabilidade com base no entrada do histograma de mapa de recursos de gradientes orientados de que uma região de pixels da imagem digital contém as marcações em relevo e/ou gravadas; e se a primeira probabilidade estiver igual ou acima de um primeiro limite predeterminado, aceitar a dita região de pixels como a dita região de interesse.

2. Método implementado por computador de acordo com a reivindicação 1, caracterizado pelo fato de que a dita geração de um histograma de mapa de recursos de gradientes orientados é realizada por uma pilha de filtros convolucionais em uma rede neural convolucional treinada.

3. Método implementado por computador de acordo com a reivindicação 1, caracterizado pelo fato de que a dita geração de um histograma de mapa de recursos de gradientes orientados é realizada por um histograma de gerador de gradientes orientados separado da dita rede neural treinada.

4. Método implementado por computador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que a dita rede neural treinada compreende uma ou duas camadas totalmente conectadas.

5. Método implementado por computador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que a dita rede neural convolucional treinada é treinada em dados de treinamento compreendendo uma pluralidade de histogramas de mapas de recursos de gradientes orientados gerados a partir de uma pluralidade de imagens digitais de paredes laterais de pneus.

6. Método implementado por computador de acordo com a reivindicação 5, caracterizado pelo fato de que os ditos dados de treinamento compreendem adicionalmente dados sintéticos.

7. Método implementado por computador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que compreende adicionalmente se a primeira probabilidade estiver abaixo do primeiro limite predeterminado, rejeitar a dita região de pixels como uma região de interesse.

8. Método implementado por computador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que compreende adicionalmente a aplicação de um classificador à dita região de interesse; em que o dito classificador está configurado para emitir uma segunda probabilidade de que a dita região de interesse contém as marcações em relevo e/ou gravadas; e se a segunda probabilidade estiver abaixo de um segundo limite predeterminado, determinar a dita região de interesse como um falso positivo.

9. Método para leitura de marcações em relevo e/ou gravadas em um flanco de um pneu, o método caracterizado pelo fato de que compreende: prover uma imagem digital do flanco do pneu; não distorcer a imagem digital; gerar uma região de interesse na imagem digital;

aplicar um classificador para determinar se a dita região de interesse é um falso positivo, e se a dita região de interesse for um falso positivo, descartar a dita região de interesse, ou se a dita região de interesse não for um falso positivo, selecionar a dita região de interesse; selecionar uma área da imagem digital adjacente à região selecionada de interesse; aplicar um classificador à dita área da imagem digital adjacente à região de interesse para ler as ditas marcações em relevo e/ou gravadas, em que a dita geração de uma região de interesse compreende: gerar um histograma de mapa de recursos de gradientes orientados da imagem digital; inserir o histograma de mapa de recursos de gradientes orientados em uma rede neural treinada, em que a dita rede neural treinada é configurada para emitir uma probabilidade com base no entrada do histograma de mapa de recursos de gradientes orientados de que uma região de pixels da imagem digital contém as marcações em relevo e/ou gravadas; e se a probabilidade estiver igual ou acima de um limite predeterminado, aceitar a dita região de pixels como a dita região de interesse.

10. Método de acordo com a reivindicação 9, caracterizado pelo fato de que a dita geração de um histograma de mapa de recursos de gradientes orientados é realizada por uma pilha de filtros convolucionais em uma rede neural convolucional treinada.

11. Método de acordo com a reivindicação 9, caracterizado pelo fato de que a dita geração de um histograma de mapa de recursos de gradientes orientados é realizada por um histograma de gerador de gradientes orientados separado da dita rede neural treinada.

12. Aparelho de processamento de dados, caracterizado pelo fato de que compreende meios para realizar as etapas de qualquer um dos métodos como definidos nas reivindicações 1 a 11.

13. Aparelho de processamento de dados de acordo com a reivindicação 12, caracterizado pelo fato de que as ditas etapas são realizadas por uma unidade de processamento de processador central (CPU).

14. Programa de computador, caracterizado pelo fato de que compreende instruções que, quando o programa é executado por um computador, fazem com que o computador execute as etapas de qualquer um dos métodos como definidos nas reivindicações 1 a 11.

15. Meio de armazenamento legível por computador, caracterizado pelo fato de ter armazenado no mesmo um programa de computador como definido na reivindicação 14.