BRPI1102041A2

BRPI1102041A2 - Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais

Info

Publication number: BRPI1102041A2
Application number: BRPI1102041-5A
Authority: BR
Inventors: Luciano Rebouças De Oliveira; Eduardo Manuel De Freitas Jorge; Alberto Almeida De Filho Azevedo; Victor Franco Costa; Gustavo De Almeida Neves; Talmai Brandão De Oliveira; Geovane Dos Santos Anunciação; Eduardo Telmo Fonseca Santos
Original assignee: Samsung Eletrônica Da Amazônia Ltda
Priority date: 2010-12-30
Filing date: 2011-02-25
Publication date: 2015-07-28
Also published as: US20120170801A1; BRPI1102041B1; US8625889B2

Abstract

Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais. A presente invenção refere-se a um método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais. Através do presente sistema, é possível identificar um cardápio previamente estabelecido de alimentos. Para tanto, um método semi-automático de segmentação é aplicado para delinear as regiões onde se encontram cada tipo de alimento em uma imagem de um prato de comida, capturada por um usuário. São utilizadas técnicas de reconhecimento de padrões em imagens, integradas em um sistema cujo objetivo é rotular cada tipo de alimento contido na foto de um prato de comida. Nenhum tipo de pré-processamento é realizado para corrigir falhas na captura da imagem, apenas utilizando-se do componente de auto-focus presente no dispositivo portátil para a captura de uma imagem nítida.

Description

Relatório Descritivo da Patente de Invenção para: "MÉTODO AUTOMÁTICO PARA RECONHECIMENTO DE COMIDA POR MEIO DE DISPOSITIVOS PORTÁTEIS EQUIPADOS COM CÂMERAS DIGITAIS".

Campo da Invenção A presente invenção refere-se a um método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais.

Através do presente sistema, é possivel identificar um cardápio previamente estabelecido de alimentos. Para tanto, um método semi-automático de segmentação é aplicado para delinear as regiões onde se encontram cada tipo de alimento em uma imagem de um prato de comida, capturada por um usuário. São utilizadas técnicas de reconhecimento de padrões em imagens, integradas em um sistema cujo objetivo é rotular cada tipo de alimento contido na foto de um prato de comida. Nenhum tipo de pré-processamento é realizado para corrigir falhas na captura da imagem, apenas utilizando-se do componente de auto-focus presente no dispositivo portátil para a captura de uma imagem nitida. Antecedentes da Invenção O reconhecimento de comida é um campo de pesquisa relativamente recente, onde se utiliza técnicas de reconhecimento de padrões visuais a fim de identificar alimentos em uma foto de um prato de comida.

No problema de reconhecimento de comidas, o grande desafio é poder segmentar e identificar os diversos alimentos no prato considerando questões ambientais como iluminação variável, grande variabilidade de padrões mesmo dentro de uma classe de alimentos (por exemplo: feijão verde, vermelho, preto; carne assada, com diferentes molhos por cima, cozida, etc) e possiveis misturas. Mesmo utilizando métodos conhecidos de segmentação de imagem e classificação de padrões, torna-se ainda dificil obter uma alta identificação de objetos quando os problemas citados estão presentes. 0 documento intitulado: "Food Recognition Using Statistics of Palrwise Local Features", de a Yang et al, publicado em IEEE Intl. Conference on Computer Vision and Pattern Recognition, publicado em 13 de junho 2010, utiliza um conjunto de dados do documento intitulado: "PFID: Pittsburgh Fast-Food Image data sets", Intl. Conference on Image Processing, publicado em 10 de novembro 2009, de Chen et al, para avaliar a qualidade de seu sistema de reconhecimento de comidas. Vale ressaltar que os conjuntos de dados de imagens de comidas são eminentemente de lanches rápidos, tornando-se mais fácil de serem reconhecidos já que pertencem a classes com padrões mais estruturados, por exemplo, sanduíches, batata fritas, etc. O documento de patente US 2003/0076983, intitulado: Personal Food Analyzer, publicado em 24 de abril de 2003, propõe um sistema de identificação de alimentos em imagem. 0 referido documento de patente utiliza-se de um sistema de luzes montada em diferentes ângulos no dispositivo portátil onde se encontra o sistema de reconhecimento de comidas. A partir de uma câmera central, com as luzes em suas extremidades, duas imagens iluminadas por cada uma das duas fontes de luz são sequencialmente capturadas. Com as duas imagens, as comidas são identificadas, seus volumes estimados e suas calorias obtidas a partir de um banco de dados de informações nutricionais de alimentos pré-cadastrados. As duas imagens sequenciais são utilizadas para segmentar as comidas e estimar o volume de cada alimento a partir do contorno de suas sombras. Logo após, apenas a primeira imagem é enviada para o identificador de comida, composto por uma árvore de comidas de referência. A árvore de referência é utilizada para a estimação do tipo de comida a partir de características similares de cor, forma e tamanho. A partir da descrição do referido documento de patente, observa-se que o método de identificação de comida não é robusto a variações de alimentos (e mesmo, iluminação) , uma vez que espera que os alimentos tenham cores, formas e tamanhos estimados previamente, não sendo adaptativo. Além disso, a decisão automática por um prato de comida pode levar a erros grosseiros, não permitindo ao usuário alterar o tipo de alimento, caso seja erroneamente identificado. Nada é relatado ainda sobre o método automático para segmentar os alimentos na imagem do prato de comida, nem detalhes do método de identificação de comida. O documento de patente 2010/0173269, publicado em 08 de julho de 2010, utiliza-se de padrões de voz e visual para identificar alimentos em uma foto de comida. Diante de uma foto de comida tirada pelo usuário, este último apresenta uma descrição de cada item do prato e, juntamente com padrões visuais, os módulos de reconhecimento de voz e reconhecimento de imagem identificam cada alimento na imagem. A etapa de reconhecimento de voz pode tanto auxiliar a identificação quanto acrescentar problemas para esta. No que diz respeito ao método proposto no referido documento para o reconhecimento de padrões visuais, este utiliza-se também de características de cores e texturas, sendo classificadas por máquinas de vetores de suporte. As cores dos alimentos são caracterizadas dentro do espaço de cor CIE L*a*b* e para as texturas são utilizados os histogramas de gradientes orientados. Sabe-se que a caracterização de um objeto apenas por características básicas, mesmo sendo a concatenação de duas ou mais características, é insuficiente para determinar a grande variação de padrões dos alimentos em uma imagem, e por isso são esperadas limitações na identificação. A integração com o reconhecimento de voz através da identificação de uma lista de características dos alimentos na foto do prato deve, portanto, desambiguar uma série de limitações dos métodos visuais propostos. O documento de patente US 2010/0111383, publicado em 06 de maio de 2010, propõe um sistema para registro de calorias ingeridas a partir de um reconhecimento automático de fotos de comidas tiradas através da câmera de um dispositivo portátil. A foto de um prato de comida é tirada antes e depois de comer, para o cálculo de quantidade de comida ingerida. O aplicativo proposto provê várias formas de se fazer o registro, desde manualmente na foto de comida capturada até automaticamente a partir de sugestões de listas de comidas para cada segmento de imagem reconhecido. O reconhecedor automático apresentado no referido documento é executado em um computador, obrigando o dispositivo portátil a estar conectado via rede a este servidor de aplicativo. Dessa forma, após a foto ser capturada, esta é enviada ao servidor, onde um sistema idealizado de reconhecimento de padrões é executado para segmentar cada tipo de alimento. A obrigatoriedade de estar conectado a uma rede de computadores torna a utilização do método proposto pelo referido documento US 2010/0111383 limitado a locais com acesso à rede e à existência em um computador da rede do aplicativo de reconhecimento. Além disso, a utilização de filtros de Gabor completos torna também o custo computacional alto para a resposta às imagens de entrada, o que pode aborrecer a maioria dos usuários de dispositivos portáteis. Adicionalmente, a segmentação utilizada baseada em métodos de limiar torna a aplicação não adaptativa a todos os tipos de problemas de iluminação.

Portanto, para tratar estes problemas, a presente invenção fornece um método de reconhecimento de comidas por meio de extratores de características baseados em cores e texturas. Os primeiros, utilizam-se dos espaços de cor CIE L*a*b*, HSV e RGB com o objetivo de representar as cores dos alimentos de forma mais invariante possível aos diversos tipos de iluminações do ambiente. Com a concatenação de características robustas de texturas utilizando-se diferença de gaussianas e coeficiente de variação espacial, foi possível obter múltiplos espaços de hipóteses os quais são classificados por classificadores robustos baseados em máquinas de vetores de suporte (MVS) com kernel do tipo função de base radial. Por meio de múltiplas hipóteses de classificação, obteve-se, portanto, um método capaz de lidar com os problemas citados anteriormente.

Apesar dos avanços tecnológicos, os dispositivos portáteis ainda possuem hardware com recursos relativamente limitados para executar algoritmos que efetuam cálculos avançados. Para tratar estas limitações, a presente invenção aplicou técnicas de execução paralela com objetivo de diminuir o custo computacional, possibilitando uma redução no tempo de decodificação e minimizando o uso processador do dispositivo portátil. Estas técnicas também proporcionaram um aumento na robustez do identificador de alimentos, pois foi possível utilizar métodos mais robustos sem o aumento do custo computacional, além de permitir a identificação em tempo hábil.

Para evitar que a imagem do prato seja capturada de forma distorcida ou sem foco, o auto-focus do equipamento é acionado, evitando tal problema. A fim de se aumentar a robustez da identificação do objeto e da sua correspondente segmentação na imagem, utilizou-se uma integração entre o método de segmentação e o de identificação de modo que os dois funcionem de modo a auxiliar um ao outro. O método de segmentação atua em três espaços de cores distintos e robustos em determinadas condições da imagem. Em seguida, características de cor e textura são extraídas para cada segmento-hipótese estabelecido pelo método segmentador, e uma probabilidade de ser uma lista de alimentos é elencada para cada dado segmento. Um reclassificador baseado em contextos previamente enumerados é utilizado para reclassificar a lista fornecida pelo classificador de padrões. A escolha do segmento e da lista de maiores hipóteses de alimentos é finalmente fornecida para o usuário final, para que este possa reafirmar a maior hipótese da lista ou simplesmente escolher um alimento que melhor identifique a imagem no prato. Com isto, são tratados os problemas de variação de um mesmo padrão na imagem por causa de diferentes ambientes de iluminação onde as fotos serão tiradas. O volume de cada alimento no prato é estimado pela aproximação de sua área. Ao final, a relação calórica entre volume e tipo de alimento é obtida através de uma tabela pré-cadastrada de valores.

Breve descrição das figuras Os objetos e as vantagens da presente invenção tornar-se-ão mais evidentes a partir da descrição detalhada a seguir de um exemplo de concretização da invenção e desenhos anexos a titulo de exemplo não-limitativo, em que: A Figura 1 representa a arquitetura de hardware do método de reconhecimento de comidas. A Figura 2 mostra o fluxo de execução do método em um dispositivo portátil. A Figura 3 ilustra a arquitetura de um dispositivo portátil. A Figura 4 ilustra a estrutura de recortes dentro de um segmento.

Descrição das concretizações preferidas da invenção 0 método da presente invenção segmenta cada alimento em uma imagem de prato de comida, identificando estes alimentos segmentados a partir de um cardápio pré-estabelecido. O método é executado em um dispositivo portátil equipado com câmera digital, e com isto foi projetado um equipamento de utilidade humana para identificação e registro de alimentos e suas calorias ao longo de um período. Em uma concretização preferida da invenção, o método segmenta e identifica alimentos em uma imagem de topo de um prato de comida, executado em um espaço tempo pequeno. A presente invenção possibilita que um dispositivo portátil equipado com câmera digital identifique alimentos.

Para isto, foram desenvolvidos métodos para segmentar e identificar os alimentos no prato de comida. O hardware necessário é um dispositivo portátil, em que as suas principais características são ilustradas na figura 1. A CPU (110) (Unidade Central de Processamento) é responsável por executar as instruções necessárias pelo gerenciamento da câmera, além de fazer os cálculos computacionais para o processamento da imagem com o código de barras, a câmera (111) captura as imagens e deve possuir um foco suficiente para que a imagem capturada mantenha sua nitidez e, ainda, de acordo com a concretização preferencial da invenção, possuir auto-focus. 0 meio de armazenamento (112) serve para guardar informações e dados, inclusive os código decodificados, produtos consultados, entre outros. O hardware também é composto por dispositivos de entrada de informação (113) e componentes de áudio (114). Através de algum componente de conectividade (115) é possível fazer a comunicação entre a aplicação e uma base de dados remota que possui informações sobre os produtos. O meio de exibição (116) é utilizado para visualizar as imagens capturadas pela câmera do dispositivo.

Quando o usuário executa o aplicativo a partir de um dispositivo portátil, com uma arquitetura semelhante ao da figura 1, no qual o aplicativo foi previamente instalado.

Vantagens Técnicas/Funcionais Da Invenção Baixo custo computacional: buscando aperfeiçoar o método de identificação de alimentos, foram utilizadas práticas de programação que otimizam a execução das instruções computacionais, como por exemplo, usar ponto fixo ao invés de ponto flutuante, utilizar manipulação de bits para realizar algumas operações, usar o mínimo de instruções possíveis para varrer ou copiar os pixels de uma imagem, aproximar as distâncias Euclidianas a valores inteiros em módulo e utilizar buffer de características do objeto na imagem.

Identificação do alimento de forma eficaz: A identificação dos alimentos é realizada de forma eficaz, uma vez que obtém sucesso na maioria das tentativas de identificação de alimentos separados no prato, sendo possível realizar a identificação inclusive em ambientes com diferentes iluminações.

Utilização de programação concorrente: Foram utilizadas técnicas robustas e ágeis de computação concorrente e comunicação entre processos, fazendo com que o sistema exiba os resultados logo após a escolha do centro dos alimentos na imagem. Com a utilização desta técnica é possível realizar todo processo de identificação dos alimentos sem prejudicar a taxa de exibição do preview da câmera.

Segmentação semi-autonática: é conhecido que os métodos de segmentação totalmente automática são ainda ineficientes para a aplicação em imagens obtidas em diferentes situações de iluminação. Dessa forma, foi adotado um método semi-automático para segmentar os objetos na foto do prato. Para isso, o usuário deve escolher os centros da imagem de cada alimento, e em seguida um método baseado em crescimento de região é aplicado. Dessa forma, foi possivel obter resultados robustos na segmentação a partir do controle do usuário.

Novo método de integração entre a segmentação e a identificação a partir de múltiplas hipóteses: na presente invenção um método baseado na integração entre a segmentação e a identificação através de múltiplas hipóteses é proposto. Para tanto, um método de segmentação baseado em crescimento de região é aplicado sobre três espaços de cores distintos e robustos a diferentes tipos de situações na imagem (HSV, L*a*b* e RGB) . Em seguida, um classificador baseado em máquina de vetor de suporte (MVS) com kernel de função de base radial, com parâmetros ótimos obtidos através de um método de validação cruzada, é utilizado sobre cada hipótese de segmentação. Para cada segmento, vários recortes quadrados de tamanho fixo são extraídos. Para cada recorte, são extraídas características de cor, textura e forma. Tais características são utilizadas na entrada das MVS para a referida identificação do segmento contendo um alimento, conforme será detalhado a seguir.

Mira para tirar foto do prato: foi criada uma mira circular desenhada na imagem de preview da foto do prato. Com isso, estabelece-se uma distância padrão para se tirar as fotos, através do enquadramento do prato no círculo da mira, tornando possível a estimativa mais eficiente do volume de comida do prato.

Utilização de dispositivo de hardware com alta mobilidade: a presente invenção pode ser executada em qualquer dispositivo portátil, provido de câmera, pequeno e leve que pode ser carregado para diferentes lugares sem ocupar muito espaço. Com isto obteve-se um aparelho portátil e identificação rápida e eficaz de comidas. A figura 2 mostra a seqüência de etapas desde a captura da foto do topo do prato (210) até a sugestão de uma lista de alimentos para cada alimento do prato (217) . Depois da inicialização, a câmera digital do dispositivo será acionada pelo usuário que mostrará no "display" a foto do topo de um prato de comida (210). Em seguida, o usuário escolherá o centro de cada alimento na foto (211). Definido os centros, o método de crescimento de região é aplicado a cada centro e sobre diferentes espaços de cores (HSV, RGB e LAB) (212), fornecendo três hipóteses de segmentos para cada centro escolhido (214) . Com cada segmento obtido em (214), uma MVS é treinada com um kernel de função de base radial (215), e a partir de um cardápio pré-determinado de imagens de alimentos, uma lista de probabilidades de alimentos para cada segmento é obtida. No final, o segmento com maior probabilidade é escolhido (216) e os resultados dos alimentos segmentados e suas possiveis identificações (217) são mostrados. O método proposto pela presente invenção para integrar a segmentação e a identificação dos alimentos é mostrado na figura 3. Três hipóteses (310, 311, 312) são geradas pelo segmentador com baseado em crescimento de região, a partir de três espaços de cores: RGB, HSV e CIE L*a*b*. Para cada espaço de cor, são computados coeficientes de variação espacial (CVE), onde efetivamente o método de segmentação é aplicado. O CVE é responsável, portanto, por definir a textura de cada cor, e é obtido a partir das duas equações a seguir: é a média das cores dos pixeis de uma região; DP é o desvio padrão dos pixeis pertencentes à região analisada; e CV é o coeficiente de variação.

Os três espaços de cores utilizados foram escolhidos a partir de dez espaços de cores iniciais. O processo de escolha foi determinado da seguinte forma: 1) Por meio de uma ferramenta de segmentação manual, doze imagens de pratos de comidas foram segmentadas e anotadas; 2) Em seguida, criou-se um indice para se determinar a qualidade da segmentação automática baseada em crescimento de região, através de: a. onde Agtcorresponde à área do segmento dado manualmente (ground truth) , Arg corresponde à área do segmento dado pelo segmentador automático baseado em crescimento de região; quando maior é o score S, maior será a qualidade do segmento automático; 3) Após encontrar o valor de S para dez espaços de cores diferentes, os espaços com os três maiores valores de S foram obtidos (no caso, HSV, RGB e L*a*b com CVEs para cada espaço).

Vale ressaltar que na segmentação por crescimento de regiões, as regiões da imagem são agrupadas com base na diferença minima entre a média móvel da região considerada e de seus vizinhos. Esta diferença minima é atribuída empiricamente e consiste no limiar que define o nível de sensibilidade. Após a escolha, pelo usuário, dos centros das regiões da imagem contendo alimentos, as seguintes etapas são aplicadas: 1. Inicializam-se os parâmetros L, (xO,yO), MO, VO e DO que correspondem, respectivamente, ao limiar, posição do centro da região da imagem, a média móvel inicial, um vetor de pixeis vizinhos da região atual, descartando os pixeis nas diagonais, e, finalmente, um vetor de diferenças entre os vizinhos abaixo do limiar L (dada pela distância Euclidiana entre os valores de pixeis). Nesta primeira iteração, a média móvel inicial corresponde ao valor do pixel presente na posição (xO,yO), que, de acordo com a presente invenção, serão as componentes dos três espaços de cores utilizados para cada hipótese de segmento; 2. A cada iteração, a posição do último vizinho (xi,yi), armazenada no vetor Vi, é guardada a fim de se computar os novos valores dos parâmetros Mi, Vi e Di. A média móvel é dada por (M(í-d * Si) + V(i-i) / (Si + 1); 3. A região final a ser segmentada é encontrada guando todos os pixeis dentro do vetor V tenham valores menores que o limiar L. A figura 4 um segmento de um alimento em uma imagem. Para cada segmento automático obtido pelo método de crescimento de região, um conjunto de regiões quadradas da imagem de tamanho 30x30 pixeis, denominados de recortes (410), são obtidos em toda a área encontrada dentro do segmento. Para cada recorte são extraídas características de cor (RGB e CIE L*a*b*), forma (diferença de gaussianas [DOGs] ) e textura (CVE sobre os DoGs) . O vetor de características é composto da seguinte forma para cada recorte: - É aplicado a DoG em cada canal RGB, e obtido um CVE para em cada espaço da DoG; nesta etapa, temos, portanto, três elementos; - É calculada a média dos canais R, G e B de cada recorte, e, portanto, tem-se mais três elementos; - É calculada a média dos canais L*, a* e b*, obtendo-se mais três elementos; - Para cada canal de cor L*a*b*, é calculado o CVE; finalmente, obtendo-se mais três elementos.

Portanto, um vetor com doze elementos (313) é classificado por uma MVS (314) utilizando um kernel de função de base radial. Por sua vez, as MVSs serão responsáveis por transformar o espaço de entrada em um espaço de dimensão maior, porém, linearmente separável. Esta característica, juntamente com o fato da função de aprendizagem ser convexa e quadrática, torna a MVS em um dos melhores métodos de classificação conhecidos, por permitir obter, na maior parte das vezes, um mínimo global para a separação dos objetos de entrada e com margem maximal de separação. Para transformar o espaço de entrada em um espaço linearmente separável, as MVSs utilizam uma função de kernel que é aplicada a partir de uma operação de espaço interno, ou seja, eleva os dados de entrada para um espaço de dimensão maior apenas virtualmente (sem necessariamente efetuar a transformação mencionada). A escolha da função de kernel é dependente do espaço de entrada. De maneira geral, o kernel de função de base radial apresenta os melhores resultados e é definido por: Onde x(. e xysão elementos do espaço de entrada e ^um parâmetro do kernel. 0 parâmetro γ é obtido por validação cruzada, dividindo-se o conjunto de dados de treinamento em cinco conjuntos disjuntos, e utilizando-se um para o treino e o restante para validação, e repetindo-se até que todos os subconjuntos do conjunto de dados inicial tenham sido utilizados para treino e o erro de classificação seja minimo.

Após se obter o parâmetro γ, todo o conjunto de dados utilizado para a validação cruzada é agora utilizado para treinar o modelo de classificação. 0 referido conjunto de dados é composto dos vetores de características (com os doze elementos, conforme mencionados anteriormente) obtidos de recortes de múltiplos segmentos definidos manualmente e contendo alimentos. Ao final, tem-se um modelo de multi-classificação. Tal modelo é obtido a partir de um cardápio de comidas pré-determinado e pode ser atualizado ao longo do tempo.

Na fase de predição (ou identificação propriamente dita), a MVS classifica cada recorte presente em um segmento, provendo um "score", obtido pela distância entre o vetor a ser classificado e o hiperplano de separação, o qual é dado por: y(x) = w‘k(x)+b (4) , Onde y é a função de salda, x é o vetor de entrada, w é a matriz de pesos obtidos no treinamento, k é a função de kernel e b é o vetor de polarização (bias).

Para o caso de multi-classificação, o método utilizado é o "um-versus-um", onde C(C-l)/2 classificadores binários são treinados a partir dos dados de treino, obtendo a combinação de todos os dados de 2 a 2 classes. O "score" obtido pela distância entre o ponto a ser classificado e os hiperplanos de separação é dado no intervalo de [0;°°) . Para converter o valor real em probabilidade uma função logística foi utilizada dada por: Onde s é o score dado pela MVS, e A e B são parâmetros obtidos no treino e se aproximam de 1 e 0, respectivamente, na prática. Depois disso, as saídas dos classificadores serão probabilísticas, isto é, no intervalo entre 0 e 1.

Como em um dado segmento existem vários recortes, a probabilidade final de um segmento ser um dado elemento, é dado pela média das probabilidades de todos os recortes de um dado alimento. Ao final, obter-se-ão probabilidades de vários alimentos. Uma vez que alguns recortes podem ser classificados de forma errônea, o alimento de maior probabilidade definirá o segmento. É importante ressaltar que a probabilidade final, pflna, , é dada por: Pfinai ~ max(p,),=1 (6) Onde pt corresponde a probabilidade obtida sobre cada segmento-hipótese do segmentador.

Ao invés de prover apenas uma hipótese de alimento final, o sistema de identificação de comidas oferece uma lista de alimentos ordenada decrescentemente pelo alimento de maior hipótese. Após obter esta lista das MVSs, uma reordenação da lista baseada em contextos é aplicada.

Na solução para o problema de reconhecimento de comidas, a classificação final realizada pelas MVSs apresenta uma lista ordenada de possíveis alimentos. Nesta lista, porém, devido a diversos fatores, existe ainda a possibilidade de erros na classificação. Assim, para lidar com estas incertezas, minimizando os erros de classificação, utilizou-se o método de MMR, o qual é responsável pela reordenação da lista final das MVSs a partir de requisitos e contextos previamente enumerados. O método de MMR pertence à classe de métodos utilizados para a solução de problemas de tomada de decisão. Para o reconhecimento de comidas, a decisão a ser tomada é a escolha do alimento dentre todas as possíveis alternativas presentes no cardápio pré-definido de comidas. A grande vantagem do MMR em relação a outros métodos vem do fato que estes contextos não necessitam de serem definidos de modo preciso. Assim sendo, parâmetros e situações podem ser modelados imprecisamente, dando flexibilidade e robustez ao método, enquanto que os resultados gerados continuam sendo deterministicos.

Dado o ambiente móvel, com limitações de processamento e requisitos temporais rígidos por parte do usuário, apresenta-se a seguir uma solução para tratamento contextual das incertezas nas classificações realizadas pelas MVSs.

Mesmo considerando classificadores robustos como as MVSs, não se pode garantir que o reconhecedor de comida, com a estrutura até aqui descrita, obtenha sucesso em todas as situações, uma vez que comidas com cor e texturas similares podem pertencer a categorias diferentes. Uma decisão robusta necessitaria de métodos computacionalmente pesados para desambiguar todos os tipos de comidas similares em textura, cor ou formato. Por esta razão, após a classificação com as MVSs, utilizaram-se informações contextuais a fim de aumentar a robustez das decisões de nomeação das comidas. Esta etapa foi denominada de reclassificação contextual. O processo de reconhecimento automático de comidas apresenta uma natureza imprecisa seja pelo processo de captura de fotos e manipulação dos dispositivos portáteis, seja pelas decisões tomadas no processo de classificação pelas MVSs. Para a última situação, a lista ordenada de probabilidades fornecidas pelas MVSs pode oferecer uma resposta incorreta. Adicionalmente, as comidas podem variar em cor e textura de pais a pais, e os métodos necessitariam adaptar-se dinamicamente a fatores desconhecidos. Isto faz com que uma solução universal torne o aplicativo final difícil de ser gerenciado pelo usuário final quando as demandas de usuário variam, o desempenho de classificação fica abaixo do esperado ou quando as preferências do usuário se modificam. Diante do exposto, o problema de tomada de decisão no reconhecimento de comidas pode ser considerado como uma seleção das melhores alternativas a partir de incertezas parciais (saidas das MVSs). Tais incertezas serão dirimidas, na etapa final, a partir do método de Minmax Regret (MMR) , sob a abordagem de reclassificar a lista provida pelas MVSs. 0 método de MMR funciona a partir da construção de uma matriz de "remorso" (regret), cujos elementos mostram o "remorso" do tomador de decisão em solucionar uma alternativa Ai, para um dado atributo Cj, associado com um peso wij, conforme tabela abaixo: Para cada alternativa, computa-se o "remorso" maximal (maximal regret) e o score da faixa efetiva é obtido pela seleção do minimo remorso maximal. 0 objetivo do método é escolher os resultados que demonstrem o minimo remorso, com as seguintes etapas: - Calcular Wj = Max[wij] para cada Cj e todos os Ai's; - Calcular rij = Wj - wij para cada combinação de Ai's e Cj ' s; - Calcular Ri = Max[rij] para cada Ai' s e todos os C j ' s ; - Selecionar A*I, tal que R*i = Min[Ri].

Nas etapas listadas, rij representa os elementos da matriz de remorso, Ri é o remorso maximal obtido para cada alternativa Ai, e R*i é o minimo remorso maximal. A matriz de remorso é normalizada para a unidade, da seguinte forma: N(rij) = rij / (Wjmax - Wjmin) . Finalmente, o remorso maximal é obtido por: Ri = Maxi[rij]. Ao invés de se utilizar um alimento em cada elemento rij, utilizou-se uma classe de alimentos agrupados por similaridade de cor e textura. Dessa forma, após a reclassificação, não somente os alimentos individuais serão reordenados, mas também grupos de objetos com características visuais semelhantes. Isto tornará a próxima fase, onde o usuário manualmente desambigua possíveis erros de reconhecimento, mais precisa, tornando o aplicativo final mais confiável.

Vale ressaltar que mesmo que o presente método de reconhecimento de comidas, de alguma forma, apresente algum resultado incorreto, o usuário ainda pode corrigir as identificações dos alimentos através de uma ferramenta de anotações manuais, presente no aplicativo que incorpora o referido método de reconhecimento de comidas.

Embora uma modalidade preferida da presente invenção seja mostrada e descrita, aqueles versados na técnica compreenderam que várias modificações podem ser feitas sem se afastar do escopo e do espírito da presente invenção, tal como definidos nas reivindicações anexas.

Claims

1) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais que segmenta cada alimento em uma imagem de prato de comida, identificando estes alimentos segmentados a partir de um cardápio pré-estabelecido, identificando e registrando alimentos e suas calorias ao longo de um período, o referido método compreendendo as etapas de: - segmentação semi-automática, em que os objetos da foto do prato de um prato são segmentados a partir da escolha de um usuário dos centros da imagem de cada alimento, e sendo aplicado, em seguida, um método baseado em crescimento de região a cada centro e sobre diferentes espaços de cores (HSV, RGB e LAB) (212), fornecendo três hipóteses de segmentos para cada centro escolhido (214), possibilitando a obtenção de resultados robustos na segmentação a partir do controle do usuário; - a partir de cada segmento obtido em (214), treinar uma MVS com um kernel de função de base radial (215) , e a partir de um cardápio pré-determinado de imagens de alimentos, obter uma lista de probabilidades de alimentos para cada segmento, sendo o segmento com maior probabilidade escolhido (216) e os resultados dos alimentos segmentados e suas possíveis identificações (217), mostrados.

2) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que três hipóteses (310, 311, 312) são geradas pelo segmentador com baseado em crescimento de região, a partir de três espaços de cores: RGB, HSV e CIE L*a*b*, sendo que, para cada espaço de cor, são computados coeficientes de variação espacial (CVE), onde efetivamente o método de segmentação é aplicado, sendo o CVE responsável por definir a textura de cada cor.

3) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que, para cada segmento automático obtido pelo método de crescimento de região, um conjunto de regiões quadradas da imagem de tamanho 30x30 pixeis, são obtidos em toda a área encontrada dentro do segmento.

4) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que, para cada recorte são extraídas características de cor (RGB e CIE L*a*b*), forma (diferença de gaussianas [DOGs]) e textura (CVE sobre os DoGs).

5) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que, o vetor de características é composto da seguinte forma para cada recorte: - é aplicado a DoG em cada canal RGB, e obtido um CVE para em cada espaço da DoG, gerando-se três elementos; - é calculada a média dos canais R, G e B de cada recorte, gerando-se mais três elementos; - é calculada a média dos canais L*, a* e b*, obtendo-se mais três elementos; - para cada canal de cor L*a*b*, é calculado o CVE, obtendo-se mais três elementos, sendo o vetor composto por doze elementos (313) classificado por uma MVS (314) utilizando um kernel de função de base radial, sendo as MVSs serão responsáveis por transformar o espaço de entrada em um espaço de dimensão maior, porém, linearmente separável.

6) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que, na fase de predição, a MVS classifica cada recorte presente em um segmento, provendo um "score", obtido pela distância entre o vetor a ser classificado e o hiperplano de separação.

7) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que, a probabilidade final de um segmento ser um dado elemento, é dada pela média das probabilidades de todos os recortes de um dado alimento, sendo ao final obtidas as probabilidades de vários alimentos.

8) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que, uma vez que alguns recortes podem ser classificados de forma errônea, o alimento de maior probabilidade definirá o segmento.

9) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que, ao invés de prover apenas uma hipótese de alimento final, o sistema de identificação de comidas oferece uma lista de alimentos ordenada decrescentemente pelo alimento de maior hipótese.

10) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 9, caracterizado pelo fato de que, após obter esta lista das MVSs, uma reordenação da lista baseada em contextos é aplicada.

11) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 9, caracterizado pelo fato de que na referida lista ordenada de possíveis alimentos existe ainda a possibilidade de erros na classificação.

12) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que, para lidar com incertezas, minimizando os erros de classificação, um método de MMR, o qual é responsável pela reordenação da lista final das MVSs a partir de requisitos e contextos previamente enumerados é utilizado.

13) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que, após a classificação com as MVSs, utilizaram-se informações contextuais a fim de aumentar a robustez das decisões de nomeação das comidas.

14) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que a decisão no reconhecimento de comidas é feita a partir da seleção das melhores alternativas a partir de incertezas parciais, saldas das MVSs, sendo tais incertezas dirimidas, na etapa final, a partir do método de Minmax Regret (MMR), sob a abordagem de reclassificar a lista provida pelas MVSs.

15) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 14, caracterizado pelo fato de que o referido método de MMR funciona a partir da construção de uma matriz de "remorso" (regret), cujos elementos mostram o "remorso" do tomador de decisão em solucionar uma alternativa Ai, para um dado atributo Cj, associado com um peso wij, conforme a seguir: sendo que para cada alternativa, computa-se o "remorso" maximal (maximal regret) e o score da faixa efetiva é obtido pela seleção do mínimo remorso maximal.

16) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 14, caracterizado pelo fato de que são escolhidos os resultados que demonstrem o mínimo remorso, a partir das seguintes etapas: - calcular Wj = Max[wij] para cada Cj e todos os Ai's; - calcular rij = Wj - wij para cada combinação de Ai's e Cj ' s ; - calcular Ri = Max [rij] para cada Ai's e todos os Cj ' s; - selecionar A*I, tal que R*i = Min [Ri], sendo o remorso maximal obtido por: Ri = Maxi[rij].

17) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 14, caracterizado pelo fato de que, ao invés de se utilizar um alimento em cada elemento rij, uma classe de alimentos agrupados por similaridade de cor e textura é utilizada.

18) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 17, caracterizado pelo fato de, após a reclassificação, não somente os alimentos individuais serão reordenados, mas também grupos de objetos com características visuais semelhantes.

19) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 18, caracterizado pelo fato de que o usuário manualmente desambigua possíveis erros d.e reconhecimento.

20) Método automático para reconhecimento de comida por meio de dispositivos portáteis equipados com câmeras digitais, de acordo com a reivindicação 1, caracterizado pelo fato de que o usuário ainda pode corrigir as identificações dos alimentos através de uma ferramenta de anotações manuais, caso algum resultado incorreto seja apresentado.