BR102018068976A2

BR102018068976A2 - Sistemas e métodos para inferência automatizada de alterações nas imagens espaço-temporais

Info

Publication number: BR102018068976A2
Application number: BR102018068976-2A
Authority: BR
Inventors: Prakruti Vinodchandra Bhatt; Sanat Sarangi; Srinivasu Pappula
Original assignee: Tata Consultancy Services Limited
Priority date: 2018-01-15
Filing date: 2018-09-18
Publication date: 2019-07-30
Also published as: CO2018010023A1; JP2019125340A; CN110046631A; CN110046631B; ZA201806145B; US10679330B2; US20190220967A1; JP6935377B2

Abstract

sistemas e métodos para inferência automatizada de alterações nas imagens espaço-temporais a presente revelação trata o problema técnico de permitir a inferência automatizada das alterações nas imagens espaço-temporais ao alavancar os recursos robustos de alto nível extraídos de uma rede neural de convolução (cnn) treinada nos contextos variados, ao invés de métodos de recurso dependentes de dados. o agrupamento não supervisionado sobre os recursos de alto nível elimina a exigência inconveniente de rotular as imagens. já que os modelos não são treinados em qualquer contexto específico, qualquer imagem pode ser aceita. a inferência em tempo real é permitida por determinada combinação de agrupamento não supervisionado e classificação supervisionada. uma topologia de borda de nuvem garante a inferência em tempo real mesmo quando a conectividade não está disponível ao garantir que os modelos atualizados de classificação sejam organizados na borda. criar uma ontologia de conhecimento com base na aprendizagem adaptável permite a inferência de uma imagem de entrada com níveis variáveis de precisão. a agricultura de precisão pode ser uma aplicação da presente revelação.

Description

SISTEMAS E MÉTODOS PARA INFERÊNCIA AUTOMATIZADA DE ALTERAÇÕES NAS IMAGENS ESPAÇO-TEMPORAIS” REIVINDICAÇÃO DE PRIORIDADE [001] O presente pedido reivindica prioridade de: Pedido de Patente Indiano N° 201821001685, depositado em 15 de janeiro de 2018. Todo o conteúdo do pedido acima mencionado é aqui incorporado por referência.

CAMPO TÉCNICO [002] A revelação aqui geralmente se refere ao processamento e classificação de imagem, e mais, particularmente, refere-se aos sistemas e métodos para inferência automatizada de alterações nas imagens espaço-temporais.

HISTÓRICO [003] Desenvolver um sistema que pode aprender e adaptar as exigências de visão de computador com intervenção humana mínima para determinado cenário agrícola é uma tarefa complexa. Tais capacidades são, entretanto, exigidas para Internet de organizações de objetos (IoT), especialmente com câmeras que são usadas para monitoramento contínuo de plantas. O desafio especificamente é para rastrear eventos associados aos processos biológicos de plantas, tais como, aqueles associados ao crescimento e saúde. A identificação tempestiva e localizada do estágio de crescimento ou uma condição de saúde em um estágio particular é muito importante para melhorar o rendimento. Considerando a variedade diferente de safras, seus padrões de crescimento e diferença nas manifestações nas aparências físicas devido ao envelhecimento ou fatores externos, tais como, uma doença ou deficiência, é não trivial para identificar e assinalar somente as alterações na aparência de uma safra durante seu ciclo de vida. A capacidade de fazer isso, entretanto, é essencial, por exemplo, com a finalidade de etiquetas e encaminhar os eventos essenciais dos sistemas de aquisição de imagem na fazenda para a nuvem ao invés de periodicamente encaminhar as imagens redundantes.

[004] A classificação de imagem tipicamente envolve um desafio principal de intervenção humana para rotular conjuntos de dados de imagem para classificação supervisionada. As Redes Neurais de Convolução Profundas (CNNs) comprovaram

Petição 870180131755, de 18/09/2018, pág. 8/51 / 28 fornecer uma exatidão superior para extração de recurso. Elas, entretanto, precisam de uma quantidade maior de conjunto de dado rotulado para treinar os modelos de classificação.

[005] Para organizações de IoT envolvendo sensores de câmera ou cenários equivalentes de sensoriamento participativo, configurar uma solução de visão de computador para atender as exigências específicas de sensoriamento do contexto sendo monitorado, torna-se um desafio. Além do mais, conduzir a interpretação em tempo real de uma imagem submetida a uma plataforma de IoT para processamento na borda é um desafio onde a conectividade não está facilmente disponível, especialmente nas áreas rurais de país em desenvolvimento.

SUMÁRIO [006] As realizações da presente revelação apresentam melhorias tecnológicas como soluções para um ou mais dos problemas técnicos acima mencionados reconhecidos pelos inventores nos sistemas convencionais.

[007] Em um aspecto, é fornecido um método implantado por processador compreendendo: receber uma pluralidade de imagens, em um ou mais intervalos de tempo, referentes a um contexto sob consideração, as imagens recebidas sendo correlacionadas e associadas a pelo menos um de uma informação espacial e temporal; inteligentemente identificar e transmitir, em um ou mais intervalos de tempo, pelo menos um subconjunto das imagens recebidas com base na informação espacial ou temporal e um limite adaptável; extrair recursos das imagens recebidas, ao passar por encaminhamento as imagens recebidas através de um modelo de rede neural pré-treinado em um conjunto de dado de uma pluralidade de imagens referentes aos contextos variados; realizar um primeiro nível de inferência, ao agrupar as imagens recebidas em uma ou mais classes usando os recursos extraídos, a etapa de agrupamento compreendendo: determinar um número ideal de uma ou mais classes usando um coeficiente de Silhouette; identificar uma ou mais classes com base na similaridade detectada entre as imagens recebidas ao realizar pelo menos um de: computar uma primeira medida de distância representada por uma distância esférica de cada uma das imagens recebidas com cada outra imagem nas imagens recebidas;

Petição 870180131755, de 18/09/2018, pág. 9/51 / 28 computar uma possibilidade de cada imagem nas imagens recebidas de pertencer a uma classe usando uma distribuição de classe com base em uma probabilidade A Posteriori Máxima (MAP); e computar uma segunda medida de distância representada por uma distância esférica entre cada uma das imagens recebidas e um centroide de cada de uma ou mais classes; em que o número de uma ou mais classes é igual ao número ideal determinado; e validar a qualidade de uma ou mais classes usando um ou mais de um escore de Informação Mútua Normalizada (NMI), um Índice de Rand e uma medida de pureza; e associar uma ou mais classes com uma etiqueta com base no contexto sob consideração.

[008] Em outro aspecto, é fornecido um sistema compreendendo: um ou mais dispositivos internos de armazenamento de dados operativamente acoplados a um ou mais processadores de hardware para armazenar instruções configuradas para execução por um ou mais processadores de hardware, as instruções sendo compreendidas em: um modelo de entrada configurado para: receber uma pluralidade de imagens, em um ou mais intervalos de tempo, referente a um contexto sob consideração, as imagens recebidas sendo correlacionadas e associadas a pelo menos um de uma informação espacial e temporal; e inteligentemente identificar e transmitir, em um ou mais intervalos de tempo, pelo menos um subconjunto das imagens recebidas com base na informação espacial ou temporal e um limite adaptável; um extrator de recurso configurado para extrair recursos das imagens recebidas, ao passar por encaminhamento as imagens recebidas através de um modelo de rede neural pré-treinado em um conjunto de dado de uma pluralidade de imagens referente aos contextos variados; um módulo de agrupamento configurado para realizar um primeiro nível de inferência por agrupamento das imagens recebidas em uma ou mais classes usando os recursos extraídos, a etapa de agrupamento compreendendo: determinar um número ideal de uma ou mais classes usando um coeficiente de Silhouette; identificar uma ou mais classes com base na similaridade detectada entre as imagens recebidas ao realizar pelo menos um de: computar uma primeira medida de distância representada por uma distância esférica de cada uma das imagens recebidas com cada outra imagem nas imagens recebidas; computar uma

Petição 870180131755, de 18/09/2018, pág. 10/51 / 28 probabilidade de cada imagem nas imagens recebidas para pertencer a uma classe usando uma distribuição de classe com base em uma probabilidade A Posteriori Máxima (MAP); e computar uma segunda medida de distância representada por uma distância esférica entre cada uma das imagens recebidas e um centroide de cada uma ou mais classes; em que o número de uma ou mais classes é igual ao número ideal determinado; e validar a qualidade de uma ou mais classes usando um ou mais de um escore de Informação Mútua Normalizada (NMI), um Índice de Rand e uma medida de pureza; e associar uma ou mais classes com uma etiqueta com base no contexto sob consideração.

[009] Em ainda outro aspecto, é fornecido um produto de programa de computador compreendendo uma mídia legível por computador não transitória tendo um programa legível por computador lá incorporado, em que o programa legível por computador, quando executado em um dispositivo de computação, faz com que o dispositivo de computação: receba uma pluralidade de imagens, em um ou mais intervalos de tempo, referente a um contexto sob consideração, as imagens recebidas sendo correlacionadas e associadas a pelo menos um de uma informação espacial e temporal; inteligentemente identificar e transmitir, em um ou mais intervalos de tempo, pelo menos um subconjunto das imagens recebidas com base na informação espacial ou temporal e um limite adaptável; extrair recursos das imagens recebidas, ao passar por encaminhamento as imagens recebidas através de um modelo de rede neural pré-treinado em um conjunto de dado de uma pluralidade de imagens referente aos contextos variados; realizar um primeiro nível de inferência, por agrupamento das imagens recebidas em uma ou mais classes usando os recursos extraídos, a etapa de agrupamento compreendendo: determinar um número ideal de uma ou mais classes usando um coeficiente de Silhouette; identificar uma ou mais classes com base na similaridade detectada entre as imagens recebidas ao realizar pelo menos um de: computar uma primeira medida de distância representada por uma distância esférica de cada uma das imagens recebidas com cada outra imagem nas imagens recebidas; computar uma probabilidade de cada imagem nas imagens recebidas para pertencer a uma classe usando uma distribuição de classe com base em

Petição 870180131755, de 18/09/2018, pág. 11/51 / 28 uma probabilidade A Posteriori Máxima (MAP); e computar uma segunda medida de distância representada por uma distância esférica entre cada uma das imagens recebidas e um centroide de cada uma ou mais classes; em que o número de uma ou mais classes é igual ao número ideal determinado; e validar a qualidade de uma ou mais classes usando um ou mais de um escore de Informação Mútua Normalizada (NMI), um Índice de Rand e uma medida de pureza; e associar uma ou mais classes com uma etiqueta com base no contexto sob consideração.

[010] Em uma realização da presente revelação, o modelo de entrada é ainda configurado para obter pelo menos algum metadado associado às imagens recebidas; e atualizar o metadado associado às imagens recebidas com base nas etiquetas associadas.

[011] Em uma realização da presente revelação, o sistema acima explicado ainda compreende um módulo de pré-processamento configurado para pré-processar as imagens recebidas, antes de extrair os recursos, ao realizar pelo menos um de (i) um primeiro nível de pré-processamento, para aprimorar a qualidade das imagens recebidas, ao realizar um ou mais de normalização, Branqueamento de Análise de Componentes Principais (PCA), correção de brilho, padronização e segmentação; e (ii) um segundo nível de pré-processamento, para adaptar as imagens recebidas para passar por encaminhamento ao modelo de rede neural, ao realizar um ou mais de rotação, corte, mudança, escalonamento e zoom.

[012] Em uma realização da presente revelação, o extrator de recurso é ainda configurado para anexar os recursos extraídos pelo modelo de rede neural, com recursos adicionais incluindo recursos morfológicos e recursos relacionados à cor para derivar um conjunto mestre de recurso; e comprimir o conjunto mestre de recurso usando os métodos de redução de dimensionalidade.

[013] Em uma realização da presente revelação, o módulo de agrupamento é ainda configurado para realizar o primeiro nível de inferência dentro de um ou mais de uma ou mais classes.

[014] Em uma realização da presente revelação, o sistema explicado acima ainda compreende um módulo de classificação configurado para realizar um segundo nível

Petição 870180131755, de 18/09/2018, pág. 12/51 / 28 de inferência ao classificar uma ou mais classes em uma ou mais subclasses, a etapa de classificar compreendendo: obter uma pluralidade de modelos de etiquetador prétreinados associada a uma ou mais subclasses correspondentes a uma ou mais classes referentes ao contexto sob consideração, em que os modelos de etiquetador prétreinados são treinados pelo conjunto mestre de recurso; classificar uma ou mais classes a partir do primeiro nível de inferência em uma ou mais subclasses com base na pluralidade de modelos de etiquetador pré-treinados; computar um nível de confiança para uma ou mais subclasses classificadas; retreinar a pluralidade de modelos de etiquetador pré-treinados com as imagens associados ao nível de confiança abaixo de um limite pré-definido para obter uma pluralidade de modelos de classificação; e criar uma ontologia de conhecimento dos modelos de classificações com base em uma ou mais classes, uma ou mais subclasses nelas e seus interrelacionamentos.

[015] Em uma realização da presente revelação, o módulo de classificação é ainda configurado para avaliar as imagens recebidas associadas com o nível de confiança abaixo do limite pré-definido com o metadado associado, antes de retreinar os modelos de etiquetador pré-treinados.

[016] Em uma realização da presente revelação, o sistema acima explicado ainda compreende um banco de dados configurado para armazenar as imagens recebidas e seu metadado associado; uma ou mais classes; uma ou mais subclasses, a pluralidade de modelos de classificação e ontologia de conhecimento.

[017] Em uma realização da presente revelação, o modelo de entrada é ainda configurado para inteligentemente identificar e transmitir pelo menos um subconjunto das imagens recebidas ao realizar um ou mais de: determinar se as imagens recebidas são válidas com base em um valor de entropia associado a elas; e comparar as imagens recebidas com um número pré-determinado de imagens anteriores para determinar se as imagens recebidas ajustam-se em uma ou mais subclasses associadas a elas, em que o número pré-determinado de imagens anteriores é o limite adaptável com base no contexto sob consideração.

[018] Em uma realização da presente revelação, o sistema é configurado em um

Petição 870180131755, de 18/09/2018, pág. 13/51 / 28 topologia de borda de nuvem tendo (i) o modelo de entrada servindo como um portão de IoT; (ii) o módulo de agrupamento, o módulo de classificação, os modelos de etiquetador pré-treinados e o banco de dados são implantados como dispositivos com base em nuvem; (iii) o módulo de pré-processamento é implantado tanto como um dispositivo de extremidade de nuvem, bem como, um dispositivo de extremidade de borda; e (iv) o extrator de recurso e os modelos de classificação são implantados como dispositivos de extremidade de nuvem e são organizados na extremidade de borda de modo que a extremidade de borda seja atualizada com sua versão atual.

[019] Fica entendido que tanto a descrição geral precedente e a seguinte descrição detalhada são exemplares e explicativas apenas e não são restritivas das realizações da presente revelação, conforme reivindicada.

BREVE DESCRIÇÃO DOS DESENHOS [020] Os desenhos anexados, os quais são incorporados e constituem uma parte desta revelação, ilustram as realizações exemplares e, junto com a descrição, servem para explicar os princípios revelados.

[021] A FIG.1 ilustra uma representação esquemática exemplar de uma topologia de borda de nuvem, conforme conhecida na técnica.

[022] A FIG.2 ilustra um diagrama de bloco exemplar com módulos funcionais de um sistema para inferência automatizada das alterações nas imagens espaço-temporais que podem ser configuradas na topologia de borda de nuvem da FIG.1, em conformidade com uma realização da presente revelação.

[023] A FIG.3 ilustra um diagrama de bloco exemplar dos módulos funcionais implantados na extremidade de nuvem do sistema da FIG.2 e suas interconexões, em conformidade com uma realização da presente revelação.

[024] A FIG.4 ilustra um diagrama de bloco exemplar ilustrando o fluxo de método envolvido na etapa de realizar um primeiro nível de inferência, em conformidade com uma realização da presente revelação.

[025] A FIG.5 ilustra um diagrama de bloco exemplar ilustrando o fluxo de método envolvido na etapa de um segundo nível de inferência, em conformidade com uma

Petição 870180131755, de 18/09/2018, pág. 14/51 / 28 realização da presente revelação.

[026] A FIG.6 ilustra um diagrama de bloco exemplar representando a organização dos modelos de classificação na borda da topologia de borda de nuvem da FIG.1 e inferência subsequente, em conformidade com uma realização da presente revelação.

[027] A FIG.7 é um fluxograma exemplar ilustrando um método implantado por computador para inferência automatizada das alterações nas imagens espaçotemporais, em conformidade com uma realização da presente revelação.

[028] Deve ser apreciado por aqueles com habilidade na técnica que qualquer diagrama de bloco aqui representa as visões conceituais dos sistemas ilustrativos incorporando os princípios do presente objeto. De modo semelhante, será apreciado que quaisquer fluxogramas, diagramas de fluxo, diagramas de transição de estado, pseudocódigo e semelhantes representam diversos processos que podem ser substancialmente representados na mídia legível por computador e assim executados por um dispositivo de computação ou processador, se ou não tal dispositivo de computação ou processador é explicitamente mostrado.

DESCRIÇÃO DETALHADA [029] As realizações exemplares são descritas com referência aos desenhos anexados. Nas figuras, o(s) dígito(s) mais à esquerda de um número de referência identifica a figura em que o número de referência primeiramente aparece. Sempre que conveniente, os mesmos números de referência são usados por todos os desenhos para referirem-se às mesmas partes ou partes iguais. Enquanto os exemplos e recursos dos princípios revelados são aqui descritos, as modificações, adaptações e outras implantações são possíveis sem desviar do espírito e escopo das realizações reveladas. É pretendido que a seguinte descrição detalhada seja considerada somente como exemplar, com o escopo e espírito autênticos sendo indicados pelas reivindicações a seguir.

[030] A presente revelação fornece uma estrutura de distribuição de extremidade a extremidade que analisa as imagens correlacionadas para um contexto particular e deriva as inferências relevantes. O contexto pode referir-se à agricultura, tráfego, vigilância de segurança, monitoramento de animais, monitorar saúde de estruturas e

Petição 870180131755, de 18/09/2018, pág. 15/51 / 28 semelhantes. Embora a descrição doravante seja fornecida com referência ao contexto agrícola, pode ser entendido que os sistemas e métodos doravante descritos podem ser aplicados a qualquer tal contexto sem desviar do espírito da revelação.

[031] No contexto da presente revelação, a expressão “imagens correlacionadas” refere-se às imagens contextualmente relacionadas. Novamente, a expressão “imagens espaço-temporais” doravante denominada refere-se às imagens coletadas em um espaço particular em determinado tempo. Pode ser observado que a expressão “imagens”, no contexto da presente revelação, refere-se às imagens fixas obtidas diretamente ou extraídas dos vídeos.

[032] As Redes Neurais de Convolução Profundas (CNNs) são comprovadas por fornecer recursos robustos do que permitir a classificação supervisionada. Entretanto, um grande banco de dados dos dados específicos de contexto que é etiquetado por intervenção humana é necessário. Também é imperativo que as imagens fornecidas para classificação sejam capturadas nos ambientes controlados e modelos usados para classificação sejam treinadas em dados específicos sem os quais a classificação supervisionada pode não ser possível. O monitoramento em tempo real dos dispositivos conectados é fundamental para coletar dados. Tais dados coletados em tempo real têm insights extremamente valiosos para aplicações, como, agricultura de precisão. Os sistemas e métodos da presente revelação facilitam a marcação inteligente dos dados coletados na forma de imagens para determinado contexto, na fonte, para permitir a inferência de um modo escalonável, a escalabilidade sendo associada não somente ao número de imagens que os sistemas e métodos da presente revelação pode manusear e possível hierarquia das classificações, porém também possíveis classes de imagens que podem ser manuseadas. Os desafios enfrentados no cálculo de recurso robusto das imagens capturadas através de diferentes câmeras e obtidas em condições não controladas também são tratados. A presente revelação facilita a inferência automatizada das alterações nas imagens espaço-temporais por determinada combinação de categorização não supervisionada e supervisionada. Os sistemas e métodos da presente revelação também permitem a inferência em tempo real de uma imagem obtida em uma borda na ausência de conectividade.

Petição 870180131755, de 18/09/2018, pág. 16/51 / 28 [033] Com referência agora aos desenhos, e mais particularmente às FIGS. 1 até 7, onde os caracteres semelhantes de referência denotam recursos correspondentes consistentemente por todas as figuras, são mostradas as realizações preferidas e essas realizações são descritas no contexto do seguinte sistema e método exemplares.

[034] A FIG.1 ilustra uma representação esquemática exemplar de uma topologia de borda de nuvem 100, conforme conhecida na técnica, e a FIG.2 ilustra um diagrama de bloco exemplar com módulos funcionais de um sistema 200 para detecção de falhas nos sinais enganadores e computando sua gravidade, em conformidade com uma realização da presente revelação. Em uma realização, o sistema 200 pode residir em um ou mais computadores e incluir um ou mais processadores (não mostrados), interface de comunicação ou interface de entrada/saída (I/O) (não mostrada), e memória ou um ou mais dispositivos internos de armazenamento de dados (não mostrados) operativamente acoplados a um ou mais processadores. Um ou mais dispositivos internos de armazenamento de dados podem ser denominados de modo intercambiável como memória ou banco de dados no contexto da presente revelação. Um ou mais processadores 104 que são processadores de hardware podem ser implantados como um ou mais microprocessadores, microcomputadores, microcontroladores, processadores de sinal digital, unidades de processamento central, máquinas de estado, controladores gráficos, circuitos de lógica e/ou quaisquer dispositivos que manipulam sinais com base nas instruções operacionais. Entre outras capacidades, o(s) processador(s) é(são) configurado(s) para pegar e executar instruções legíveis por computador armazenadas na memória para execução das etapas do método 300 da presente revelação ilustradas na forma de um fluxograma exemplar na FIG.7.

[035] Em uma realização, o sistema 200 pode ser implantado envolvendo uma variedade de sistemas de computação, tais como, um computador laptop, um computador de mesa, um notebook, uma estação de trabalho, um computador central, um servidor, um servidor de rede, nuvem, dispositivo portátil e semelhante. Os sistemas de computação constituindo cliente 120 estão em comunicação com os sistemas de computação constituindo servidor 130 via qualquer tipo de rede 110. A

Petição 870180131755, de 18/09/2018, pág. 17/51 / 28 interface de I/O pode incluir uma variedade de interfaces de software e hardware, por exemplo, uma interface de web, uma interface de usuário gráfico e semelhante e pode facilitar múltiplas comunicações dentro de uma ampla variedade de redes 110 e tipos de protocolo, incluindo redes com fio, por exemplo, LAN, cabo, etc., e redes sem fio, tais como, WLAN, celular, ou satélite. Em uma realização, a interface de I/O pode incluir uma ou mais portas para conectar inúmeros dispositivos entre si ou com outro servidor. A memória pode incluir qualquer mídia legível por computador conhecida na técnica, incluindo, por exemplo, memória volátil, tal como, memória estática de acesso aleatório (SRAM) e memória dinâmica de acesso aleatório (DRAM) e/ou memória não volátil, tal como, memória de somente leitura (ROM), ROM programável apagável, memórias flash, discos rígidos, discos óticos e fitas magnéticas. Em uma realização, a memória pode incluir a memória local empregada durante a execução real do código de programa, armazenamento a granel e memórias cache que fornecem armazenamento temporário de pelo menos algum código de programa com a finalidade de reduzir o número de vezes que o código deve ser recuperado do armazenamento a granel durante a execução. Em uma realização, os diversos módulos funcionais (Consultar FIG.2) do sistema 200 podem ser armazenados na memória.

[036] A FIG.7 é um fluxograma exemplar ilustrando um método implantado por computador 300 para inferência automatizada das alterações nas imagens espaçotemporais, em conformidade com uma realização da presente revelação. As etapas do método 300 serão agora explicadas em detalhes com referência aos componentes do sistema 200 da FIG.2 e detalhes apresentados nas FIGS. 3 até 6, em que a FIG.3 ilustra um diagrama de bloco exemplar dos módulos funcionais implantados na extremidade de nuvem do sistema da FIG.2 e suas interconexões, em conformidade com uma realização da presente revelação; A FIG.4 ilustra um diagrama de bloco exemplar ilustrando o fluxo de método envolvido na etapa de realizar um primeiro nível de inferência, em conformidade com uma realização da presente revelação; A FIG.5 ilustra um diagrama de bloco exemplar ilustrando o fluxo de método envolvido na etapa de um segundo nível de inferência, em conformidade com uma realização da presente revelação; e a FIG.6 ilustra um diagrama de bloco exemplar representando a

Petição 870180131755, de 18/09/2018, pág. 18/51 / 28 organização dos modelos de classificação na borda da topologia de borda de nuvem da FIG. 1 e inferência subsequente, em conformidade com uma realização da presente revelação. Embora as etapas de processo, etapas de método, técnicas ou semelhantes possam ser descritos em ordem sequencial, tais processos, métodos e técnicas podem ser configurados para funcionar em ordens alternativas. Em outras palavras, qualquer sequência ou ordem de etapas que pode ser descrita não necessariamente indica uma exigência que as etapas sejam realizadas naquela ordem. As etapas de processos aqui descritos podem ser realizadas em qualquer ordem prática. Além disso, algumas etapas podem ser realizadas simultaneamente.

[037] Em uma realização da presente revelação, o sistema 200 da presente revelação conforme ilustrado na FIG.2 é configurado na topologia de borda de nuvem 100 conforme ilustrada na FIG.1, em que uma extremidade de borda da topologia de borda de nuvem 100 é geralmente representada pelo numeral de referência 120 e uma extremidade de nuvem da topologia de borda de nuvem 100 é geralmente representada pelo numeral de referência 130, uma rede 110 conectando a extremidade de borda 120 à extremidade de nuvem 130. Em uma realização, a topologia de borda de nuvem 100 pode ser uma implantação de IoT. Um ou mais dispositivos de extremidade de borda, cada referente a um contexto sob consideração e geralmente representado como Borda 1, ...Borda n podem ser configurados na extremidade de borda 120. Da mesma forma, um ou mais dispositivos de extremidade de nuvem geralmente representados como Sistema 1, .Sistema n podem ser configurados na extremidade de nuvem 130. Os módulos funcionais exemplares constituindo o sistema 200 podem incluir um modelo de entrada 120a que pode servir como um portão de loT ligando a lacuna de comunicação entre os dispositivos de loT e a extremidade de nuvem 130. Um módulo de agrupamento (130e), um módulo de classificação (130f), modelos de etiquetador pré-treinados (130a) e um banco de dados (130g) podem ser implantados como dispositivos de extremidade de nuvem. Um módulo de pré-processamento (120b) pode ser implantado tanto como um dispositivo de extremidade de nuvem, bem como, o dispositivo de extremidade de borda. Um extrator de recurso (130c) e modelos de classificação (130d) podem ser implantados

Petição 870180131755, de 18/09/2018, pág. 19/51 / 28 como dispositivos de extremidade de nuvem e então são organizados na extremidade de borda (120c, 120d) de modo que a extremidade de borda é atualizada com uma versão atual dos dispositivos de extremidade de nuvem.

[038] A estrutura distribuída ilustrada permite a aprendizagem efetiva e filtragem das imagens redundantes recebidas na extremidade de borda 120 da implantação de IoT e melhora a eficiência do sistema. Conforme a execução na extremidade de borda é uma parte da estrutura, a inferência em tempo real de uma imagem recebida pode ser obtida na extremidade de borda 120 mesmo na ausência de conectividade e as imagens podem ser carregadas na extremidade de nuvem 130 sempre que a conectividade de dados estiver disponível. Além de facilitar a inferência em tempo real, a estrutura distribuída também regula o tráfego na extremidade de nuvem 130.

[039] Pode ser entendido por aquele com habilidade na técnica que, embora a estrutura distribuída seja uma estrutura preferida para inferência em tempo real e gerenciamento de tráfego, os módulos funcionais da presente revelação podem ser integrados em um único sistema de processamento.

[040] Correspondentemente, em uma realização da presente revelação, o modelo de entrada 120a pode ser configurado para receber, na etapa 302, uma pluralidade de imagens, em um ou mais intervalos de tempo, referente a um contexto sob consideração, digamos, o contexto agrícola. As imagens recebidas na extremidade de borda 120 são correlacionadas e associados com pelo menos um de uma informação espacial e temporal. As imagens podem ser capturadas dos sensores de câmera instalados em um campo associado ao contexto sob consideração. As imagens também podem ser obtidas como parte das aplicações de sensoriamento participativo. Em uma realização, pelo menos algum metadado pode ser associado às imagens recebidas. Já que as imagens seriam amplamente obtidas de múltiplos usuários / fontes onde a informação de suporte para as imagens é provável de estar incompleta, o metadado de imagem pode ser não estrutura, incorreto ou insuficiente. Em uma realização, o metadado pode ser associado por uma intervenção de perito para um número limitado de iterações iniciais na ausência de inteligência na extremidade de borda 120. Em uma realização, uma interface ou um console pode ser apresentado para a intervenção de

Petição 870180131755, de 18/09/2018, pág. 20/51 / 28 perito por um ser humano ou um sistema de perito.

[041] Em uma realização, o modelo de entrada pode ser ainda configurado para transmitir, em um ou mais intervalos de tempo, na etapa 304, pelo menos um subconjunto das imagens recebidas com base na informação espacial ou temporal e um limite adaptável. Em uma primeira iteração, como parte da inicialização, na ausência de inteligência na extremidade de borda 120, todas as imagens recebidas podem ser transmitidas à extremidade de nuvem 130. Subsequentemente, conforme o sistema 200 aprende sozinho e enriquece o banco de dados 130g na extremidade de nuvem 130, a etapa 304 também pode compreender inteligentemente identificar e transmitir um subconjunto das imagens recebidas conforme explicado posteriormente na descrição.

[042] Em uma realização, as imagens recebidas e metadado associado podem ser armazenados no banco de dados 130g após serem transmitidos à extremidade de nuvem 130 na etapa 314.

[043] Em uma realização da presente revelação, o extrator de recurso (130c) na extremidade de nuvem 130 pode ser configurado para extrair recursos das imagens recebidas, na etapa 306, ao passar por encaminhamento as imagens recebidas através de um modelo de rede neural. A presente revelação facilita alavancar recursos robustos de alto nível extraídos usando o modelo de rede neural. Entretanto, diferente dos sistemas convencionais, em que o modelo de rede neural é pré-treinados em um grande banco de dados dos dados específicos de contexto, em conformidade com a presente revelação, o modelo de rede neural é pré-treinado em um conjunto de dado de uma pluralidade de imagens referente aos contextos variados, assim tornando a etapa 306 de extração de recurso agnóstica do domínio sob consideração. Novamente, já que o modelo de rede neural não é treinado em um conjunto de dado específico, o sistema 200 é capaz de analisar as imagens de todos os tipos, capturadas através de diferentes câmeras ou imagens obtidas em condições não controladas como diferente brilho, fundo, com oclusão e ângulos variáveis.

[044] Em conformidade com uma realização, a etapa 306 compreendendo a extração de recurso pode ser precedida pelo pré-processamento das imagens recebidas pelo

Petição 870180131755, de 18/09/2018, pág. 21/51 / 28 módulo de pré-processamento (130b) na extremidade de nuvem. Em uma realização, o pré-processamento pode envolver realizar pelo menos um de (i) um primeiro nível de pré-processamento, para aprimorar a qualidade das imagens recebidas, ao realizar um ou mais de normalização, Branqueamento de Análise de Componentes Principais (PCA), correção de brilho, padronização e segmentação; e (ii) um segundo nível de préprocessamento, para adaptar as imagens recebidas para passar por encaminhamento ao modelo de rede neural, ao realizar um ou mais de rotação, corte, mudança, escalonamento e zoom.

[045] Em uma realização, o extrator de recurso 130c pode ser ainda configurado para anexar os recursos extraídos pelo modelo de rede neural com recursos adicionais, tais como, recursos morfológicos e recursos relacionados à cor para derivar um conjunto mestre de recurso. Em uma realização, o conjunto mestre de recurso também pode ser comprimido usando os métodos de redução de dimensionalidade.

[046] Em conformidade com a presente revelação, um modo hierárquico de classificação é realizado envolvendo um primeiro nível de classificação não refinada que permite identificar os estágios nas imagens recebidas e características associadas. No segundo nível de classificação mais fina, os eventos podem ser identificados dentro de cada um dos estágios identificados. Em uma realização, as classificações podem ser aninhadas para múltiplos níveis, por exemplo, encontrar anormalidades específicas na aparência de uma safra a partir de numerosas imagens relacionadas, assim permitindo níveis variáveis de precisão nas capacidades de inferência dos sistemas e métodos da presente revelação. Pode ser observado que uma classificação de imagem em cascata para cada classe ou categoria fornece uma melhor exatidão conforme comparado a um único nível de classificação para todas as categorias conjuntamente.

[047] Em uma realização, os métodos conhecidos de agrupamento selecionados a partir do grupo consistindo em K-meio (KM), K-meio de mini lote (MBKM), eixo médio (MS), propagação de afinidade (AP), DBSCAN, Agrupamento Aglomerado (AC) e BIRCH podem ser empregados para agrupamento. Entretanto, os métodos conhecidos podem não fornecer agrupamento eficiente conforme conhecido na técnica já que o modelo de rede neural é treinado sobre contextos variados em conformidade com a

Petição 870180131755, de 18/09/2018, pág. 22/51 / 28 presente revelação e pode resultar em dimensões muito grandes dos recursos extraídos tornando o agrupamento ineficiente. As grandes dimensões dos recursos extraídos também impedem o uso de medidas de distância linear para detectar similaridade. Em conformidade com a presente revelação, uma medida de distância esférica é, portanto, empregada conforme aqui explicado abaixo.

[048] Portanto, em uma realização da presente revelação, o módulo de agrupamento 103e pode ser configurado para realizar um primeiro nível de inferência, na etapa 308, por agrupamento das imagens recebidas em uma ou mais classes usando os recursos extraídos por um método em que, primeiramente, na etapa 308a, um número ideal de classes é determinado usando um coeficiente de Silhouette. Uma ou mais classes são então identificadas, na etapa 308b, com base na similaridade detectada entre as imagens recebidas. Em uma realização, a detecção de similaridade envolve realizar pelo menos uma das três etapas 308b-1, etapa 308b-2 e etapa 308b-3. Como parte da inicialização, em uma primeira iteração, a detecção de similaridade é com base em uma primeira medida de distância representada por uma distância esférica de cada uma das imagens recebidas com cada outra imagem nas imagens recebidas é computada na etapa 308b-1. Nas iterações subsequentes, conforme a(s) nova(s) imagem(ns) é(são) recebida(s), pelo menos um de 308b-2 e etapa 308b-3 pode ser realizada, em que, na etapa 308b-2, uma probabilidade de cada imagem nas imagens recebidas pertencente a uma classe usando uma distribuição de classe com base em uma probabilidade A Posteriori Máxima (MAP) é computada; e, na etapa 308b-3, uma segunda medida de distância representada por uma distância esférica entre cada uma das imagens recebidas e um centroide de cada uma de uma ou mais classes identificada na etapa 308b-1 é computada. A computação da segunda medida de distância na etapa 308b-3 elimina a necessidade de tratar cada imagem individualmente e lida somente com o centroide de uma ou mais classes, assim reduzindo o tempo de processamento e tornando o método eficiente. Em conformidade com a presente revelação, o número de uma ou mais classes é igual ao número ideal determinado na etapa 308a. Em uma realização, o módulo de agrupamento 103e pode ser configurado para realizar o primeiro nível de inferência

Petição 870180131755, de 18/09/2018, pág. 23/51 / 28 dentro de uma ou mais de uma ou mais classes como parte dos níveis aninhados de agrupamento aqui declarados acima. Por exemplo, as imagens de diferentes estágios de crescimento de uma safra particular, por exemplo, muda, extensão de caule, fase vegetativa, germinação, floração, fruta, maturação, murchamento, secagem, etc., cada agrupada em uma classe, podem ser ainda classificadas para eventos como doença / identificação de praga. A etapa 308 do agrupamento também pode marcar uma nova classe na ausência de similaridade entre os recursos extraídos das imagens recebidas e recursos associados a uma ou mais classes identificadas na etapa 308b-1.

[049] Em conformidade com a presente revelação, assim que o primeiro nível de inferência é realizado na etapa 308, a qualidade associada a uma ou mais classes identificadas é validada, na etapa 308c, ao usar um ou mais de um escore de Informação Mútua Normalizada (NMI), um Índice de Rand e uma medida de pureza. Se a verificação de validade falhar, uma ou mais classes podem ser reagrupadas. O reagrupamento também pode ser iniciado quando a(s) nova(s) imagem(ns) é(são) recebida(s) e nem a probabilidade computada na etapa 308b-2 nem a segunda medida de distância computada na etapa 308b-3 fornecem uma indicação clara para facilitar o agrupamento.

[050] Em contraste com abordagens convencionais que envolvem o uso dos modelos de rede neural para classificação supervisionada, a abordagem não supervisionada de agrupamento, em conformidade com a presente revelação, elimina a necessidade de rotulagem inconveniente de imagem das imagens recebidas que tipicamente é dependente da intervenção humana.

[051] Em uma realização da presente revelação, a interface ou console pode ser apresentado, na etapa 310, para intervenção de perito por um ser humano ou um sistema de perito para marcação de uma ou mais classes com base no contexto sob consideração. Pode ser observado que esta intervenção pode ser necessária somente durante a inicialização. O metadado associado às imagens recebidas pode ser atualizado com base nas etiquetas associadas.

[052] Em uma realização da presente revelação, o módulo de classificação 130f pode ser configurado para realizar um segundo nível de inferência, na etapa 312, ao

Petição 870180131755, de 18/09/2018, pág. 24/51 / 28 classificar uma ou mais classes em uma ou mais subclasses. Para a classificação mais fina, uma pluralidade de modelos de etiquetador pré-treinados 130a referente ao contexto sob consideração é obtida na etapa 312a. Os modelos de etiquetador prétreinados 130a são associados a uma ou mais subclasses correspondentes a uma ou mais classes referentes ao contexto sob consideração e são treinados pelo mesmo conjunto mestre de recurso extraído antes da etapa 308 do agrupamento acima explicado. Novamente, pré-treinamento dos modelos de etiquetador 130a envolve usar um conjunto limitado de imagens específicas de contexto, em que o conjunto de imagens pode ser parte das imagens recebidas no modelo de entrada 120a. Os modelos de etiquetador pré-treinados 130a facilitam a classificação de uma ou mais classes identificadas no primeiro nível de classificação em uma ou mais subclasses na etapa 312b. Em uma realização, um nível de confiança pode ser computado para uma ou mais subclasses classificadas, na etapa 312c, com base nas quais os modelos de etiquetador pré-treinados 130a podem ser retreinados, na etapa 312d, usando as imagens associadas ao nível de confiança abaixo de um limite pré-definido. Os modelos de etiquetador retreinados representam os modelos de classificação 130d. O retreinamento e autoaprendizagem associados tornam o sistema 200 inteligente e adaptável para exigências de visão de computador com intervenção humana mínima que somente ocorre nas iterações iniciais. Em uma realização da presente revelação, a interface ou console apresentado, na etapa 310, para intervenção de perito por um ser humano ou um sistema de perito pode envolver a marcação de uma ou mais subclasses associadas com uma ou mais classes com base no contexto sob consideração. Após poucas iterações, e retreinamento, a validação de perito e marcação podem não ser necessárias e as imagens recebidas podem ser auto etiquetadas pelo sistema 200 e metadado associado também pode ser atualizado no banco de dados 130g. Desse modo, pode ser observado que a pluralidade de modelos de etiquetador pré-treinados 130a pode coletivamente capturar toda uma taxonomia do contexto sob consideração.

[053] Em uma realização, o módulo de classificação 130f pode ser ainda configurado para avaliar as imagens recebidas associadas ao nível de confiança abaixo do limite

Petição 870180131755, de 18/09/2018, pág. 25/51 / 28 pré-definido com o metadado obtido antes de retreinar os modelos de etiquetador pré-treinados 130a na etapa 312d para garantir um motivo válido para o retreinamento com base na marcação de perito.

[054] Em uma realização, o módulo de classificação 130f pode ser ainda configurado para criar uma ontologia de conhecimento, na etapa 312e, com base em uma ou mais classes, uma ou mais subclasses nelas e seus inter-relacionamentos. Criar uma ontologia de conhecimento a partir das imagens recebidas ao adaptavelmente aprender deles permite aos sistemas e métodos da presente revelação não somente classificar uma nova imagem recebida, porém também identificar as alterações nas características de um objeto na imagem em um espaço e/ou tempo particular. A qualidade das características identificadas pode depender do nível de metadado disponível para a imagem. Pode ser observado que a autoaprendizagem e retreinamento dos modelos de etiquetador pré-treinados 130a contribuem para enriquecer o modelo de conhecimento ao adicionar inteligência com cada iteração e eliminar a dependência em peritos humanos. Com relação ao contexto agrícola sob consideração, os modelos de classificação para diversas safras, seus estágios de crescimento e condições de saúde disponíveis na forma de uma ontologia de conhecimento abrangente ajuda a interpretar a safra nas imagens capturadas usando os sistemas e métodos da presente revelação. Por exemplo, se um fazendeiro capturar uma imagem de uma safra dente através de uma aplicação móvel, os sistemas da presente revelação podem detectar o estágio de crescimento da planta e safra afetada por doença dentro daquele estágio. Isso, por sua vez, pode ajudar a sugerir os remédios necessários que podem ser implantados para proteger a safra. Além do mais, ao monitorar uma safra usando os sensores de câmera, o ciclo de crescimento e saúde das plantas em determinadas condições de crescimento também podem ser aprendidos. Isso adiciona ao conhecimento que pode ser compartilhado com o fazendeiro sobre como um tipo particular de safra cresce e em quais condições.

[055] Em uma realização, uma ou mais classes, uma ou mais subclasses, a pluralidade de modelos de classificação e a ontologia de conhecimento podem ser armazenadas no banco de dados 130g como parte da etapa 314, em que as imagens recebidas e

Petição 870180131755, de 18/09/2018, pág. 26/51 / 28 metadado associado foram armazenados.

[056] Como parte da estrutura distribuída, quando o sistema 200 é implantado na topologia de borda de nuvem, o extrator de recurso 130c e modelos de classificação 130d na extremidade de nuvem 130 são organizados na extremidade de borda como o extrator de recurso 120c e modelos de classificação 120d para garantir que as versões atuais desses módulos funcionais estejam disponíveis na extremidade de borda 120 para inferência em tempo real na borda para as imagens recebidas sem dependência da conectividade entre a extremidade de borda 120 e a extremidade de nuvem 130.

[057] Os módulos funcionais atualizados na extremidade de borda 120 fornecem a inteligência ao modelo de entrada 120a para permitir a identificação inteligente e transmissão de um subconjunto das imagens recebidas à extremidade de nuvem 130 nas iterações subsequentes. A identificação inteligente primeiramente envolve determinar se as imagens recebidas são válidas com base em um valor de entropia associado às imagens recebidas. As imagens recebidas válidas são então comparadas com um número pré-determinado de imagens anteriores para determinar se as imagens recebidas se ajustam em uma ou mais subclasses associadas com às imagens anteriores, em que o número pré-determinado das imagens anteriores é o limite adaptável com base no contexto sob consideração.

[058] Convencionalmente, diferentes métodos de classificação são conhecidos, porém os sistemas e métodos da presente revelação facilitam a classificação e marcação das imagens no banco de dados com rotulagem mínima e intervenção de perito, ainda com exatidão superior. A intervenção de perito humano para marcação pode ser invocada somente nas iterações iniciais e que também para um conjunto limitado de imagens, após o qual a autoaprendizagem e retreinamento dos módulos de etiquetador pré-treinados fornecem as capacidades adaptáveis aos sistemas e métodos da presente revelação. Os sistemas e métodos da presente revelação facilitam automaticamente adquirir imagens, classificar as imagens de um modo hierárquico, auto-aprender e retreinar usando determinada combinação de agrupamento não supervisionado e classificação supervisionada para categorizar e adequadamente rotular um grande número de imagens, assim fornecendo sistemas e

Petição 870180131755, de 18/09/2018, pág. 27/51 / 28 métodos exatos, escalonáveis e eficientes para inferência automatizada das imagens espaço-temporais.

RESULTADOS DE AVALIAÇÃO [059] Em referência aos métodos existentes relacionados amplamente à classificação usando CNN”, os seguintes experimentos demonstram que o método de classificação com base hierárquica de cluster da presente revelação usando os recursos extraídos de CNN realiza exatamente [060] O conjunto de dado de imagem usado para estudo comparativo consiste em 10 classes:

1. Fruta cítrica - manchas marrons

2. Fruta cítrica - manchas brancas

3. Folhas cítricas - amarelamento

4. Troncos cítricos - Gomose

5. Folhas de uva - saudável

6. Folhas de uva - amarelamento

7. Folha de chá - Manchas pretas

8. Folha de chá - Manchas marrons

9. Folha de chá - saudável

10. Folha de chá - infestada por praga [061] O conjunto de dados usado para realizar o estudo comparativo é igual para todos os métodos sob consideração.

[062] O método da presente revelação envolve o agrupamento (classificação não supervisionada) das imagens usando os recursos de um CNN pré-treinado conforme contra a técnica anterior. A comparação de resultados fornecidos abaixo é, portanto, entre as abordagens de classificação supervisionada usando CNN e o método da presente revelação.

[063] Método 1 (técnica anterior): Treinar um CNN com conjunto de imagem contextual e rotulado para classificação de imagens em número pré-determinado de classes (todas as classes possíveis, classificação de único nível).

[064] Método 2 (versão modificada da presente revelação com um único nível de

Petição 870180131755, de 18/09/2018, pág. 28/51 / 28 classificação): Extrair recursos de CNN pré-treinado (agnóstico do contexto) e usar um classificador para classificar imagens em todo o número pré-determinado de subclasses (todas as classes possíveis, classificação de único nível) [065] Método 3 (presente revelação): Extrair recursos de CNN pré-treinado (agnóstico do contexto), agrupar as imagens em classes amplas e ainda classificar cada cluster em suas subclasses.

[066] A quantidade de dados usada na primeira iteração do sistema/método da presente revelação é 243 imagens das quais 218 imagens são usadas para treinar e validar o sistema de classificação e 25 imagens são usadas para testar o sistema/método da presente revelação.

[067] Resultados:

[068] Método 1(técnica anterior): Treinar um modelo de CNN no conjunto de dado mencionado.

[069] Exatidão de Classificação: 52% [070] Matriz de Confusão:

[071] Rótulos: cítrico escurecido, folhas cítricas, uva doente, uva saudável, manchas pretas de chá, manchas marrons de chá, chá saudável, praga de chá, gomose de tronco, cítrico branco.

[072] [[1 0 1 0 0 1 0 0 1 0] [073] [0 1 0 0 0 0 0 00 0] [074] [0 0 3 0 1 0 0 01 0] [075] [0 0 0 3 0 0 0 00 0] [076] [0 0 0 0 2 0 0 00 0] [077] [0 0 1 0 0 1 0 00 0] [078] [0 1 0 0 0 0 0 01 0] [079] [0 0 1 0 0 0 0 00 0] [080] [0 0 0 0 0 0 0 02 1] [081] [0 0 2 0 0 0 0 00 0]] [082] Relatório de classificação:

Petição 870180131755, de 18/09/2018, pág. 29/51 / 28

Classe N°	Classes	Precisão	Recall	F1-escore	Suporte
1	cítrico escurecido	1,00	0,25	0,40	4
2	folhas cítricas	0,50	1,00	0,67	1
3	uva doente	0,38	0,60	0,46	5
4	uva saudável	1,00	1,00	1,00	3
5	manchas pretas de chá	0,67	1,00	0,80	2
6	manchas marrons de chá	0,50	0,50	0,50	2
7	praga de chá	0	0	0	2
8	gomose de tronco	0,40	0,67	0,5	3
9	cítrico branco	0	0	0	2
	média / total	0,52	0,52	0,47	25

[083] O classificador de CNN no Método-1 fornece baixa exatidão conforme a quantidade de dados é menos resultando em sobreajuste.

[084] Método 2 (versão modificada da presente revelação com um único nível de classificação): Para recursos extraídos de CNN, o classificador foi treinado para classificar os dados em 10 classes conhecidas.

[085] Exatidão de classificação: 80% [086] Matriz de confusão:

[087] Rótulos: cítrico escurecido, folhas cítricas, uva doente, uva saudável, manchas pretas de chá, manchas marrons de chá, chá saudável, praga de chá, gomose de tronco, cítrico branco.

[088] [[1 0 0 0 0 0 0 0 0 0] [089] [0 1 0 0 0 0 0 0 00] [090] [0 0 3 0 0 0 0 0 00] [091] [0 0 2 6 0 0 0 0 00] [092] [0 1 0 0 2 0 0 0 00] [093] [0 0 0 0 1 1 0 1 00] [094] [0 0 0 0 0 0 0 0 00] [095] [0 0 0 0 0 0 0 1 00]

Petição 870180131755, de 18/09/2018, pág. 30/51 / 28 [096] [0 0 0 0 0 0 0 0 4 0] [097] [0 0 0 0 0 0 0 0 0 1]]

Classe N°	Classes	Precisão	Recall	F1-escore	Suporte
1	cítrico escurecido	1,00	1,00	1,00	1
2	folhas cítricas	0,50	1,00	0,67	1
3	uva doente	0,60	1,00	0,75	3
4	uva saudável	1,00	0,75	0,86	8
5	manchas pretas de chá	0,67	0,67	0,67	3
6	manchas marrons de chá	1,00	0,33	0,50	3
7	praga de chá	0,50	1,00	0,67	1
8	gomose de tronco	1,00	1,00	1,00	4
9	cítrico branco	1,00	1,00	1,00	1
	média / total	0,87	0,80	0,80	25

[098] A partir dos resultados, pode ser observado que existe uma classificação errônea entre as folhas da mesma planta tendo diferente condição de doença/saúde. Pode ser inferido que uma classificação de único nível não é capaz de diferenciar diferenças menores entre as subclasses de mesmo tipo de folhas/frutas.

[099] Método 3 (presente revelação):

[100] Exatidão de classificação: 93,75% [101] Matriz de confusão:

	Manchas pretas de chá	Manchas marrons de chá	Manchas marrons de chá	Praga de chá
Manchas pretas de chá	3	0	0	0
Manchas marrons de chá	0	2	0	1
Manchas marrons de chá	0	0	2	0

Petição 870180131755, de 18/09/2018, pág. 31/51 / 28

Praga de chá

0

1

[102] Relatório de classificação:

Classe N°	Classes	Precisão	Recall	F1-escore	Suporte
1	Manchas pretas de chá	1.00	1.00	1.00	3
2	Manchas marrons de chá	1.00	0.80	0.89	3
3	Chá saudável	1.00	1.00	1.00	2
4	Praga de chá	0.67	1.00	0.80	1
	média / total	0.96	0.94	0.94	9

[103] As subclasses identificadas no método da presente revelação fornecem classificação mais fina para imagens do cluster da folha de chá que foi incorretamente classificado usando os métodos 1 e 2 acima conforme visto das matrizes correspondentes de confusão.

[104] Nos métodos 1 e 2 acima, a quantidade de dados exigida para melhor exatidão é mais alta e a classificação errônea observada é devido à similaridade entre classe superior. Além do mais, o classificador precisa ser retreinado se mesmo uma única nova classe que diferente das 10 classes existentes for introduzida. Da mesma forma, ao classificar todas as classes juntas, a exatidão de classificação diminui devido à alta similaridade entre algumas classes (p.ex., condições de doença das mesmas folhas de safra).

[105] No Método-3 da presente revelação, a exatidão é comparativamente melhor mesmo quando os dados disponíveis inicialmente forem menores. Realizar a classificação de nível múltiplo na forma de um agrupamento não refinado de primeiro nível em classes e ainda classificação mais fina em subclasses melhora a exatidão obtida. Além do mais, conforme os classificadores com relação ao cluster são independentes entre si, e uma nova classe tiver que ser introduzida, somente um classificador das imagens pertencentes às subclasses daquele cluster precisa ser treinado, ao invés de retreinar todo o sistema de classificação diferente dos métodos 1 e 2 conhecidos na técnica.

Petição 870180131755, de 18/09/2018, pág. 32/51 / 28 [106] A descrição escrita descreve o objeto no presente para permitir que qualquer pessoa com habilidade na técnica realize e use as realizações. O escopo das realizações de objeto é definido pelas reivindicações e pode incluir outras modificações que ocorrem para aqueles com habilidade na técnica. Tais outras modificações são pretendidas para estar dentro do escopo das reivindicações se tiverem elementos semelhantes que não diferem da linguagem literal das reivindicações ou se eles incluírem elementos equivalentes com diferenças insubstanciais da linguagem literal das reivindicações.

[107] O escopo das realizações de objeto aqui definido pode incluir outras modificações que ocorrem para aqueles com habilidade na técnica. Tais outras modificações são pretendidas para estar no escopo se tiverem elementos semelhantes que não diferem da linguagem literal das reivindicações ou se incluírem elementos equivalentes com diferenças insubstanciais da linguagem literal.

[108] Deve ser entendido que o escopo da proteção é estendido para tal programa e, além disso, a um meio legível por computador tendo uma mensagem nele; tal meio de armazenamento legível por computador contém meio de código de programa para implantação de uma ou mais etapas do método, quando o programa roda em um servidor ou dispositivo móvel ou qualquer dispositivo programável adequado. O dispositivo de hardware pode ser qualquer tipo de dispositivo que pode ser programado, incluindo, p.ex., qualquer tipo de computador, como um servidor ou um computador pessoal, ou semelhante, ou qualquer de sua combinação. O dispositivo também pode incluir o meio que poderia ser, p.ex., meio de hardware como, p.ex., um circuito integrado específico de aplicação (ASIC), um arranjo de porta programável de campo (FPGA) ou uma combinação de meio de hardware e software, p.ex., um ASIC e um FPGA, ou pelo menos um microprocessador e pelo menos uma memória com módulos de software lá localizados. Desse modo, o meio pode incluir ambos o meio de hardware e meio de software. As realizações de método aqui descritas poderiam ser implantadas no hardware e software. O dispositivo também pode incluir o meio de software. Alternativamente, as realizações podem ser implantadas em diferentes dispositivos de hardware, p.ex., usando uma pluralidade de CPUs.

Petição 870180131755, de 18/09/2018, pág. 33/51 / 28 [109] As realizações no presente podem compreender os elementos de hardware e software. As realizações que são implantadas no software incluem, porém sem limitação, firmware, software residente, microcódigo, etc. As funções realizadas por diversos módulos aqui descritos podem ser implantadas em outros módulos ou combinações de outros módulos. Para os fins desta descrição, uma mídia utilizável por computador ou legível por computador pode ser qualquer mecanismo que pode compreender, armazenar, comunicar, propagar ou transportar o programa para uso por ou com relação ao sistema, mecanismo ou dispositivo de execução de instrução.

[110] Além disso, embora as etapas de processo, etapas de método, técnicas ou semelhantes possam ser descritas em uma ordem sequencial, tais processos, métodos e técnicas podem ser configurados para trabalhar em ordens alternativas. Em outras palavras, qualquer sequência ou ordem de etapas que pode ser descrita não necessariamente indica uma exigência de que as etapas sejam realizadas naquela ordem. As etapas de processos aqui descritas podem ser realizadas em qualquer ordem prática. Além disso, algumas etapas podem ser realizadas simultaneamente.

[111] As etapas ilustradas são definidas para explicar as realizações exemplares mostradas, e deve ser antecipado que o desenvolvimento tecnológico contínuo alterará o modo em que as funções particulares são realizadas. Esses exemplos são aqui apresentados para os fins de ilustração, e não limitação. Além disso, os limites dos blocos funcionais de construção foram arbitrariamente aqui definidos para conveniência da descrição. Os limites alternativos podem ser definidos enquanto as funções especificadas e seus relacionamentos sejam adequadamente realizados. As alternativas (incluindo equivalentes, extensões, variações, desvios, etc., daqueles aqui descritos) serão aparentes para as pessoas com habilidade na(s) técnica(s) relevante(s) com base nos ensinamentos aqui contidos. Tais alternativas estão dentro do escopo e espírito das realizações reveladas. Da mesma forma, as palavras compreendendo, tendo, contendo e incluindo, e outras formas semelhantes são pretendidas para serem equivalentes no significado e ilimitadas de modo que um item ou itens seguindo qualquer uma dessas palavras não significam como uma listagem exaustiva de tal item ou itens, ou para serem limitados a somente o item ou itens listados. Também deve

Petição 870180131755, de 18/09/2018, pág. 34/51 / 28 ser observado que, conforme aqui usado e nas reivindicações anexadas, as formas no singular um, uma, e a/o incluem as referências no plural, exceto se o contexto claramente ditar de outro modo.

[112] É pretendido que a revelação e exemplos sejam considerados somente como exemplares, com um escopo e espírito verdadeiros das realizações reveladas sendo indicados pelas reivindicações a seguir.

Claims

REIVINDICAÇÕES

1) MÉTODO IMPLANTADO POR PROCESSADOR” (300) compreendendo:

- receber uma pluralidade de imagens, em um ou mais intervalos de tempo, referente a um contexto sob consideração, as imagens recebidas sendo correlacionadas e associadas com pelo menos um de uma informação espacial e temporal (302);

- identificar e transmitir, em um ou mais intervalos de tempo, pelo menos um subconjunto das imagens recebidas com base na informação espacial ou temporal e um limite adaptável (304);

- extrair os recursos das imagens recebidas, ao passar por encaminhamento as imagens recebidas através de um modelo de rede neural pré-treinado em um conjunto de dado de uma pluralidade de imagens referente aos contextos variados (306);

- realizar um primeiro nível de inferência (308), por agrupamento das imagens recebidas em uma ou mais classes usando os recursos extraídos, a etapa de agrupamento compreendendo:

- determinar um número ideal de uma ou mais classes usando um coeficiente de Silhouette (308a);

- identificar uma ou mais classes com base na similaridade detectada entre as imagens recebidas (308b) ao realizar pelo menos um de:

- computar uma primeira medida de distância representada por uma distância esférica de cada uma das imagens recebidas com cada outra imagem nas imagens recebidas (308b-1);

- computar uma probabilidade de cada imagem nas imagens recebidas para pertencer a uma classe usando uma distribuição de classe com base em uma probabilidade A Posteriori Máxima (MAP) (308b-2); e

- computar uma segunda medida de distância representada por uma distância esférica entre cada uma das imagens recebidas e um centroide de cada de uma ou mais classes (308b-3);

caracterizado por número de uma ou mais classes ser igual ao número ideal determinado; e

- validar a qualidade de uma ou mais classes usando um ou mais de um escore de

Petição 870180131755, de 18/09/2018, pág. 36/51

2 / 8

Informação Mútua Normalizada (NMI), um índice de Rand e uma medida de pureza (308c); e

- associar uma ou mais classes com uma etiqueta com base no contexto sob consideração (310).
2) MÉTODO IMPLANTADO POR PROCESSADOR” de acordo com a reivindicação

1, caracterizado por etapa de receber compreender a obtenção de pelo menos algum metadado associado às imagens recebidas; e atualizar o metadado associado às imagens recebidas com base nas etiquetas associadas.
3) MÉTODO IMPLANTADO POR PROCESSADOR” de acordo com a reivindicação

1, caracterizado por etapa de extrair recursos das imagens recebidas ser precedida por uma etapa de pré-processamento compreendendo pelo menos um de (i) um primeiro nível de pré-processamento, para aprimorar a qualidade das imagens recebidas, ao realizar um ou mais de normalização, Branqueamento de Análise de Componentes Principais (PCA), correção de brilho, padronização e segmentação; e (ii) um segundo nível de pré-processamento, para adaptar as imagens recebidas para passar por encaminhamento ao modelo de rede neural, ao realizar um ou mais de rotação, corte, mudança, escalonamento e zoom.
4) MÉTODO IMPLANTADO POR PROCESSADOR” de acordo com a reivindicação

2, caracterizado por etapa de extrair recursos das imagens recebidas compreender um ou mais de anexar os recursos extraídos pelo modelo de rede neural, com recursos adicional incluindo os recursos morfológicos e recursos relacionados à cor para derivar um conjunto mestre de recurso; e comprimir o conjunto mestre de recurso usando os métodos de redução de dimensionalidade.
5) MÉTODO IMPLANTADO POR PROCESSADOR” de acordo com a reivindicação

1, caracterizado por etapa de realizar o primeiro nível de inferência ser realizado dentro de um ou mais de uma ou mais classes.
6) MÉTODO IMPLANTADO POR PROCESSADOR” de acordo com a reivindicação 1 ainda compreendendo a etapa de realizar um segundo nível de inferência ao classificar uma ou mais classes em uma ou mais subclasses (312), a etapa de classificar compreendendo:

Petição 870180131755, de 18/09/2018, pág. 37/51

3 / 8

- obter uma pluralidade de modelos de etiquetador pré-treinados associada com uma ou mais subclasses correspondentes a uma ou mais classes referentes ao contexto sob consideração, caracterizado por modelos de etiquetador pré-treinados serem treinados pelo conjunto mestre de recurso (312a);

- classificar uma ou mais classes do primeiro nível de inferência em uma ou mais subclasses com base na pluralidade de modelos de etiquetador pré-treinados (312b);

- computar um nível de confiança para uma ou mais subclasses classificadas (312c);

- retreinar a pluralidade de modelos de etiquetador pré-treinados com as imagens recebidas associadas ao nível de confiança abaixo de um limite pré-definido para obter uma pluralidade de modelos de classificação (312d); e

- criar uma ontologia de conhecimento dos modelos de classificações com base em uma ou mais classes, uma ou mais subclasses nelas e seus inter-relacionamentos (312e).
7) MÉTODO IMPLANTADO POR PROCESSADOR” de acordo com a reivindicação

6, caracterizado por etapa de retreinar a pluralidade de modelos de etiquetador prétreinados ser precedida ao avaliar as imagens recebidas associadas ao nível de confiança abaixo do limite pré-definido com o metadado associado.
8) MÉTODO IMPLANTADO POR PROCESSADOR” de acordo com a reivindicação

7, caracterizado por armazenar as imagens recebidas e metadado associado a elas; uma ou mais classes; uma ou mais subclasses, a pluralidade de modelos de classificação e ontologia de conhecimento (314).
9) MÉTODO IMPLANTADO POR PROCESSADOR” de acordo com a reivindicação

8, caracterizado por etapa de identificar e transmitir pelo menos um subconjunto das imagens recebidas compreender realização um ou mais de:

- determinar se as imagens recebidas são válidas com base em um valor de entropia associado a elas; e

- comparar as imagens recebidas com um número pré-determinado de imagens anteriores para determinar se as imagens recebidas se ajustam em uma ou mais subclasses associadas a elas, caracterizado pelo fato de que o número prédeterminado de imagens anteriores é o limite adaptável com base no contexto sob

Petição 870180131755, de 18/09/2018, pág. 38/51

4 / 8 consideração.
10) SISTEMA (200) compreendendo:

- um ou mais dispositivos internos de armazenamento de dados operativamente acoplados a um ou mais processadores de hardware para armazenar instruções configuradas para execução por um ou mais processadores de hardware, as instruções sendo compreendidas em:

- um modelo de entrada (120a) configurado para:

- receber uma pluralidade de imagens, em um ou mais intervalos de tempo, referente a um contexto sob consideração, as imagens recebidas sendo correlacionadas e associadas com pelo menos um de uma informação espacial e temporal; e

- identificar e transmitir, em um ou mais intervalos de tempo, pelo menos um subconjunto das imagens recebidas com base na informação espacial ou temporal e um limite adaptável;

- um extrator de recurso (120c, 130c) configurado para extrair recursos das imagens recebidas, ao passar por encaminhamento as imagens recebidas através de um modelo de rede neural pré-treinado em um conjunto de dado de uma pluralidade de imagens referente aos contextos variados;

- um módulo de agrupamento (130e) configurado para realizar um primeiro nível de inferência por agrupamento das imagens recebidas em uma ou mais classes usando os recursos extraídos, a etapa de agrupamento compreendendo:

- determinar um número ideal de uma ou mais classes usando um coeficiente de Silhouette;

- identificar uma ou mais classes com base na similaridade detectada entre as imagens recebidas ao realizar pelo menos um de:

- computar uma primeira medida de distância representada por uma distância esférica de cada uma das imagens recebidas com cada outra imagem nas imagens recebidas;

- computar uma probabilidade de cada imagem nas imagens recebidas para pertencer a uma classe usando uma distribuição de classe com base em uma probabilidade A Posteriori Máxima (MAP); e

- computar uma segunda medida de distância representada por uma distância esférica

Petição 870180131755, de 18/09/2018, pág. 39/51

5 / 8 entre cada uma das imagens recebidas e um centroide de cada uma ou mais classes; caracterizado por número de uma ou mais classes ser igual ao número ideal determinado; e

- validar a qualidade de uma ou mais classes usando um ou mais de um escore de Informação Mútua Normalizada (NMI), um Índice de Rand e uma medida de pureza; e

- associar uma ou mais classes com uma etiqueta com base no contexto sob consideração.
11) SISTEMA de acordo com a reivindicação 10, caracterizado por modelo de entrada ser ainda configurado para obter pelo menos algum metadado associado às imagens recebidas; e atualizar o metadado associado às imagens recebidas com base nas etiquetas associadas.
12) SISTEMA de acordo com a reivindicação 11, caracterizado por compreender um módulo de pré-processamento (120b, 130b) configurado para pré-processar as imagens recebidas, antes de extrair os recursos, ao realizar pelo menos um de (i) um primeiro nível de pré-processamento, para aprimorar a qualidade das imagens recebidas, ao realizar um ou mais de normalização, Branqueamento de Análise de Componentes Principais (PCA), correção de brilho, padronização e segmentação; e (ii) um segundo nível de pré-processamento, para adaptar as imagens recebidas para passar por encaminhamento ao modelo de rede neural, ao realizar um ou mais de rotação, corte, mudança, escalonamento e zoom.
13) SISTEMA de acordo com a reivindicação 12, caracterizado por extrator de recurso ser ainda configurado para anexar os recursos extraídos pelo modelo de rede neural, com recursos adicionais incluindo os recursos morfológicos e recursos relacionados à cor para derivar um conjunto mestre de recurso; e comprimir o conjunto mestre de recurso usando os métodos de redução de dimensionalidade.
14) SISTEMA de acordo com a reivindicação 10, caracterizado por módulo de agrupamento ser ainda configurado para realizar o primeiro nível de inferência dentro de um ou mais de uma ou mais classes.
15) SISTEMA de acordo com a reivindicação 13, ainda compreendendo um módulo de classificação (130f) configurado para realizar um segundo nível de

Petição 870180131755, de 18/09/2018, pág. 40/51

6 / 8 inferência ao classificar uma ou mais classes em uma ou mais subclasses, a etapa de classificar compreendendo:

- obter uma pluralidade de modelos de etiquetador pré-treinados (130a) associados a uma ou mais subclasses correspondentes a uma ou mais classes referentes ao contexto sob consideração, caracterizado por modelos de etiquetador pré-treinados serem treinados pelo conjunto mestre de recurso;

- classificar uma ou mais classes do primeiro nível de inferência em uma ou mais subclasses com base na pluralidade dos modelos de etiquetador pré-treinados;

- computar um nível de confiança para uma ou mais subclasses classificadas;

- retreinar a pluralidade de modelos de etiquetador pré-treinados com as imagens associadas ao nível de confiança abaixo de um limite pré-definido para obter uma pluralidade de modelos de classificação (120d, 130d); e

- criar uma ontologia de conhecimento dos modelos de classificações com base em uma ou mais classes, uma ou mais subclasses nelas e seus inter-relacionamentos.
16) SISTEMA de acordo com a reivindicação 15, caracterizado por módulo de classificação ser ainda configurado para avaliar as imagens recebidas associadas ao nível de confiança abaixo do limite pré-definido com o metadado associado, antes de retreinar os modelos de etiquetador pré-treinados.
17) SISTEMA de acordo com a reivindicação 16 caracterizado por compreender um banco de dados (130g) configurado para armazenar as imagens recebidas e seu metadado associado; uma ou mais classes; uma ou mais subclasses, a pluralidade de modelos de classificação e ontologia de conhecimento.
18) SISTEMA de acordo com a reivindicação 17, caracterizado por modelo de entrada ser ainda configurado para identificar e transmitir pelo menos um subconjunto das imagens recebidas ao realizar um ou mais de:

- determinar se as imagens recebidas são válidas com base em um valor de entropia associado a elas; e

- comparar as imagens recebidas com um número pré-determinado de imagens anteriores para determinar se as imagens recebidas se ajustam em uma ou mais subclasses associadas a elas, o número pré-determinado de imagens anteriores é o

Petição 870180131755, de 18/09/2018, pág. 41/51

Ί / 8 limite adaptável com base no contexto sob consideração.
19) SISTEMA de acordo com a reivindicação 18, caracterizado por sistema ser configurado em uma topologia de borda de nuvem (100) tendo (i) o modelo de entrada (120a) servindo como um portão de IoT; (ii) o módulo de agrupamento (130e), o módulo de classificação (130f), os modelos de etiquetador pré-treinados (130a) e o banco de dados (130g) são implantados como dispositivos com base em nuvem (130); (iii) o módulo de pré-processamento (120b) é implantado tanto como um dispositivo de extremidade de nuvem, bem como, um dispositivo de extremidade de borda (120); e (iv) o extrator de recurso (120c, 130c) e os modelos de classificação (120d, 130d) são implantados como dispositivos de extremidade de nuvem e são organizados na extremidade de borda de modo que a extremidade de borda é atualizada com sua versão atual.
20) PRODUTO DE PROGRAMA DE COMPUTADOR compreendendo uma mídia legível por computador não transitória tendo um programa legível por computador incorporado, caracterizado por programa legível por computador, executado em um dispositivo de computação, fazer com que o dispositivo de computação:

- receba uma pluralidade de imagens, em um ou mais intervalos de tempo, referente a um contexto sob consideração, as imagens recebidas sendo correlacionadas e associadas com pelo menos um de uma informação espacial e temporal;

- identifique e transmite, em um ou mais intervalos de tempo, pelo menos um subconjunto das imagens recebidas com base na informação espacial ou temporal e um limite adaptável;

- extrai recursos das imagens recebidas, ao passar por encaminhamento as imagens recebidas através de um modelo de rede neural pré-treinado em um conjunto de dado de uma pluralidade de imagens referente aos contextos variados;

- realize um primeiro nível de inferência, por agrupamento das imagens recebidas em uma ou mais classes usando os recursos extraídos, caracterizado pelo fato de que o agrupamento é realizado por:

- determine um número ideal de uma ou mais classes usando um coeficiente de Silhouette;

Petição 870180131755, de 18/09/2018, pág. 42/51

8 / 8

- identifica uma ou mais classes com base na similaridade detectada entre as imagens recebidas ao realizar pelo menos um de:

- computa uma primeira medida de distância representada por uma distância esférica de cada uma das imagens recebidas com cada outra imagem nas imagens recebidas;

- computa uma probabilidade de cada imagem nas imagens recebidas para pertencer a uma classe usando uma distribuição de classe com base em uma probabilidade A Posteriori Máxima (MAP); e

- computa uma segunda medida de distância representada por uma distância esférica entre cada uma das imagens recebidas e um centroide de cada uma ou mais classes;

- número de uma ou mais classes é igual ao número ideal determinado; e

- valida a qualidade de uma ou mais classes usando um ou mais de um escore de Informação Mútua Normalizada (NMI), um Índice de Rand e uma medida de pureza; e

- associa uma ou mais classes com uma etiqueta com base no contexto sob consideração.