(54) Título: MÉTODO PARA CLASSIFICAÇÃO AUTOMÁTICA DE VISÕES DO CORAÇÃO A PARTIR DE ECOCARDIOGRAMAS (51) Int. Cl.: G06T 7/00; A61B 5/00.
(52) CPC: G06T 7/00; A61B 5/00.
(71) Depositante(es): SAMSUNG ELETRÔNICA DA AMAZÔNIA LTDA; SAMSUNG ELETRÔNICA DA AMAZÔNIA LTDA.; UNIVERSIDADE ESTADUAL DE CAMPINAS.
(72) lnventor(es): OTÁVIO AUGUSTO BIZETTO PENATTI; RAFAEL DE OLIVEIRA WERNECK; WALDIR RODRIGUES DE ALMEIDA; BERNARDO VECCHIA STEIN; DANIEL VATANABE PAZINATO; PEDRO RIBEIRO MENDES JÚNIOR.
(57) Resumo: Resumo da Patente de Invenção para: MÉTODO PARA CLASSIFICAÇÃO AUTOMÁTICA DE VISÕES DO CORAÇÃO A PARTIR DE ECOCARDIOGRAMAS. A presente invenção refere-se a um método para classificar automaticamente diferentes visões do coração a partir de ecocardiogramas. O modelo de representação de imagens do método proposto é baseado em sacos de palavras visuais (BoVW). O método pode ser aplicado tanto a vídeos ou imagens préarmazenados quanto em tempo real, ou seja, durante a realização de um exame. A presente invenção permite trabalhar com imagens sob várias condições diferentes, tais como: diferentes dispositivos de aquisição, distorções de aquisição, diferenças de iluminação/contraste, diferentes resoluções, etc.
Mmtn>QCTi densa
Saco Ué palsuaS «SuftiS
106 /“·.
•Λ.
2051/27
Relatório Descritivo da Patente de Invenção para: MÉTODO PARA CLASSIFICAÇÃO AUTOMÁTICA DE VISÕES DO CORAÇÃO A PARTIR
DE ECOCARDIOGRAMAS.
Campo da Invenção [0001] A presente invenção refere-se a um método para classificar automaticamente diferentes visões do coração a partir de ecocardiogramas. O método pode ser aplicado tanto a vídeos ou imagens pré-armazenados quanto em tempo real, ou seja, durante a realização de um exame. A presente invenção é passível de trabalhar sob várias condições diferentes (diferentes dispositivos de aquisição, distorções de aquisição, diferenças de iluminação/contraste, diferentes resoluções, etc) .
Antecedentes da Invenção [0002] A ecocardiografia desempenha um papel importante para ajudar os cardiologistas na análise do coração. Durante um exame de ecocardiograma, o aparelho de ultrassom captura fatias do coração, que são comumente chamadas de visões cardíacas. Em cada uma, diferentes estruturas cardíacas podem ser observadas e analisadas. A classificação automática de imagens de ecocardiogramas tem sido estudada recentemente em vários aspectos. A tarefa mais conhecida é a classificação automática de vídeos de ecocardiogramas para as diferentes visões do coração. Esta
2./2.Ί classificação automatica ajuda o operador de ultrassom em vários aspectos, como, por exemplo, na determinação da posição correta da sonda durante um exame e na posterior categorização de vídeos de ecocardiograma para organização e gestão. Podemos usar, por exemplo, um conjunto de dados classificados de vídeos de ecocardiograma para aprender os padrões sobre as estruturas do coração e, portanto, determinar possíveis anomalias do coração com mais precisão. Portanto, existem o reconhecimento automático usado. Um deles é a ecocardiogramas salvos. 0 visões em tempo real, em mostrada para o operador de primeiro caso, a eficiência
No entanto, na situação e crucial.
dois principais cenários em que de visões do coração pode ser categorização de vídeos de outro é a classificação das que a informação da visão é ultrassom durante um exame. No não é uma restrição principal.
a tempo real, a eficiência é [0003] As soluções atuais para a classificação automática de visões do coração a partir de ecocardiogramas em sua maioria não são baseadas na extração de características da imagem usando sacos de palavras visuais (BoVW - bag of visual words). Atualmente, são empregados outros tipos de descritores de imagens. Além disso, muitas abordagens existentes classificam vídeos de
3/27 ecocardiograma em vez de imagens. Algumas outras abordagens baseiam-se em classificar apenas a imagem diastólica final (ED) , na qual o coração está mais dilatado, que é obtida a partir do vídeo de ecocardiograma completo. Portanto, não fica claro se estes métodos funcionam com outras imagens/quadros. Algumas soluções baseadas em sacos de palavras visuais, que poderíam ser consideradas similares à presente invenção, dependem de informação de movimento, isto é, os seus dicionários visuais também consideram as informações obtidas a partir de transição entre os quadros sequenciais. A presente invenção não considera informações de movimento e é baseada na classificação de quadros (imagens) isolados.
[0004] Há uma necessidade de ter dispositivos de ultrassom capazes de classificar automaticamente exames de ecocardiograma nas diferentes visões cardíacas. A visão cardíaca depende da posição da sonda no paciente durante um exame e dispositivos de ultrassom podem exibir esta informação para o operador de ultrassom. Portanto, realizar a classificação automática de ecocardiogramas proporcionaria uma funcionalidade adicional atraente para dispositivos de ultrassom. A invenção proposta podería suprir essa necessidade tornando possível até mesmo
4/27 classificar imagens de ecocardiograma durante um exame em curso (em tempo real) .
[0005] 0 documento US2013211229, intitulado Method and system for modeling and processing FMRI image data using a bag-of-words approach, apresenta um método baseado em imagens de ressonância magnética funcional (FMRI) que usa imagens de quatro dimensões (com três dimensões espaciais e uma temporal). Diferentemente da presente invenção, que usa imagens de ultrassom (e não FMRI), na solução proposta no documento US2013211229, para descrever as imagens, os valores de voxel ao longo do tempo e a correlação entre os voxels vizinhos são usados (séries temporais e intensidades brutas). Como base para a descrição, eles organizam as informações de N voxels em uma matriz 2D, em seguida, calculam-se uma matriz de correlação
NxN e uma matriz de adjacência também é utilizada recursos de rede e séries temporais de intensidade bruta dos voxels podem ser agrupados e representados como histogramas usando a abordagem de saco de palavras visuais (BoVW). O método do referido documento não especifica um esquema de amostragem para encontrar regiões de interesse nas imagens de ressonância magnética. Em contraste, a presente invenção usa um descritor invariante local em regiões da imagem obtidas por amostragem densa. Os
5/27 descritores são, então, utilizados para gerar um dicionário visual e, em seguida, a representação de saco de palavras visuais. 0 documento de patente US2013211229 menciona o monitoramento da atividade do cérebro para diagnosticar transtornos, como Transtorno de Déficit de Atenção e
Hiperatividade (TDAH).
[0006] O documento WO2013037983, intitulado Method and system for the automatic analysis of an image of a biological sample, publicado em 21 de março de 2013, apresenta um método para selecionar regiões de imagem de acordo com um valor de pontuação. A pontuação pode ser uma função dos valores de cor de pixels de uma dada região em um novo canal de cor, que é gerado mediante a aplicação de uma função arbitrária sobre os canais de cor da imagem original. Se o valor da pontuação está acima de um certo limite, a região (sub-imagem) é criada. Portanto, esse método não seleciona todas as regiões de imagem (partes da imagem). Na abordagem da presente invenção, todas as partes da imagem são selecionadas (amostragem densa). O método do referido WO2013037983 também divide as sub-imagens em subregiões. Em contraste, a presente invenção proposta utiliza cada região como um todo (sem subdivisões) . Além disso, o método proposto em WO2013037983 calcula medidas geométricas para descrever as sub-regiões, considerando-se a
6/27 localização de pixel base e comprimento. Em contraste, a presente invenção utiliza um descritor invariante local para descrever as regiões. 0 método do referido pedido internacional utiliza sub-regiões de diferentes formas e tamanhos, enquanto, na presente abordagem, todas as regiões são iguais. 0 referido pedido internacional não menciona imagens de ultrassom, e sim CT e ressonância magnética. A presente invenção tem como alvo as imagens de ultrassom, que é uma tecnologia de imagens muito barata.
[0007] O documento de patente US8092388 B2, intitulado: Automated view classification with echocardiographic data for gate localization or other purposes, publicado em 10 de janeiro de 2012, divulga um método que usa um detector de estrutura local para encontrar regiões de interesse na imagem. Uma janela de varredura passa pela imagem buscando o ventrículo esquerdo.
0 tamanho |
da |
j anela |
é |
particular |
para |
cada visão. |
Na |
abordagem |
da |
presente |
invenção, |
nenhum detector |
é |
necessário |
e |
nenhuma |
janela de varredura |
é utilizada. |
A |
presente invenção também não precisa ter uma estratégia diferente para cada visão, uma vez que as imagens são tratadas da mesma maneira para todas as visões. O método do documento US8092388 B2 usa uma rede probabilística para classificar a visão, no entanto, prevê ainda que qualquer
Ί/2.Ί classificador possa ser utilizado. A presente invenção também pode ser utilizada com qualquer tipo de classificador de aprendizagem de máquina. 0 método do referido documento US8092388 B2 não usa um dicionário visual. No parágrafo [0066] do referido documento, é fornecida uma ampla explicação de como usar a janela de varredura. Esta explicação poderia representar uma ideia semelhante de amostragem densa: diferentes translações são aplicadas para deslocar a janela mesmo em pequenos passos (por exemplo, poucos pixels) pelo conjunto inteiro de dados ou pela imagem. No entanto, a classificação do documento
US8092388 B2 baseia-se na classificação da estrutura local (posição da janela). Esta classificação é fundamental para classificar a visão em seguida. Na presente invenção, nenhuma classificação é realizada para cada região da imagem antes da classificação da imagem como um todo.
[0008] O documento intitulado: Automatic View
Recognition In Echocardiogram Videos Using Parts-Based
Representation (IEEE CVPR 2004, pp.2-9), de Ebadollahi et al., é um dos primeiros a abordar a classificação automática de visões de ecocardiogramas. Nesse trabalho, os autores apontam que o arranjo espacial das cavidades cardíacas é único para cada visão e propõem a utilização de modelos de constelações para diferenciar as visões. O
8/27 procedimento de extração de características adotado no referido documento começa detectando as câmaras cardíacas usando transformada de eixo de simetria em nível de cinza (GSAT - Gray-Level Symmetric Axis Transform) e depois modelando o arranjo espacial das câmaras utilizando campos randômicos de Markov (MRF - Markov Random Field). Para classificar um vídeo de ecocardiograma de teste, são usados vetores de energia em relação aos modelos de cada visão. Os vetores são, então, usados para alimentar um classificador
SVM multiclasse (Multi-Class Support Vector Machine). Os autores trabalharam com 10 visões do coração: eixo longo paraesternal (2 visões), eixo curto paraesternal (4 visões) e apical (4 visões). Seu conjunto de dados contém 21 vídeos (15 casos normais e 6 casos anormais). Foi usada apenas a imagem/quadro diastólica final (ED) (na qual o coração está mais dilatado): 2657 quadros/imagens para casos normais e
552 para casos anormais. Casos normais são usados para treinamento e teste (protocolo leave-one-out) , enquanto anormais são usados apenas para teste. Não há detalhes sobre o dispositivo utilizado para capturar os vídeos. Eles apresentam bons resultados para o problema de classificação de 10 visões: 67,8% sem e 88,35% levando em consideração as semelhanças clínicas. No entanto, se a janela de detecção apresentar falha e/ou falsa detecção, o desempenho cai. Em
9/27 contrapartida a essa solução, o método da presente invenção extrai recursos usando sacos de palavras visuais e utiliza todos os quadros, em vez de usar apenas o quadro ED.
[0009] O documento US20110317892A1, publicado em 29 de dezembro de 2011 e intitulado: Method and system of classifying medicai images, apresenta um método para gerar um modelo de categoria para classificar imagens médicas. O método compreende as seguintes etapas: fornecer uma pluralidade de imagens médicas, cada uma classificada como um de uma pluralidade de grupos categorizados; gerar um índice de uma pluralidade de palavras visuais de acordo com uma distribuição de uma multiplicidade de descritores locais em cada imagem; modelar um mapeamento de um modelo de relação de categoria entre cada palavra visual e pelo menos um dos grupos classificados de acordo com o índice; e produzir o modelo de categoria para facilitar a categorização de uma imagem com base nos descritores locais da mesma.
[00010] O documento US20100329521A, publicado em 30 de dezembro de 2010 e intitulado Systems and methods for cardiac view recognition and disease recognition, divulga um método para o reconhecimento de doenças do coração a partir de um vídeo de ecordiograma de um coração com uma doença desconhecida, utilizando um modelo de doença espaço10/27 temporal derivado a partir de um vídeo de ecocardiograma de treinamento. O método compreende as etapas de: gerar uma pluralidade de modelos de formação de doenças cardíacas, em que os vídeos de ecocardiogramas são cada um derivados a partir de uma visão conhecida e a doença do coração é conhecida; analisar o vídeo do coração com doença desconhecida por ajuste de um modelo de forma e movimento para cada quadro, combinar os resultados entre os quadros;
e relatar a doença usando um método de classificação para escolher entre as doenças de interesse.
[00011] A presente invenção se diferencia das demais soluções do estado da técnica acima descrito pela introdução de uma configuração especial dos descritores de
BoVW (saco de palavras visuais) visando resolver o problema da classificação automática da visão cardíaca. Esta configuração especial extrai as características da imagem usando amostragem densa, com regiões muito grandes. Essas regiões podem, por vezes, compreender partes inteiras do coração, tornando a representação final do BoVW um vetor de ativação de partes de coração. Por conseguinte, a representação da imagem gerada pelo método proposto na presente invenção pode ser considerada como uma representação de mais alto nível, quando comparada com
11/27 aquelas imagens geradas pelas soluções existentes, que é mais compreensível ao ser humano.
Sumário da Invenção [00012] Diante do exposto, é objetivo da presente invenção prover um método para a classificação automática de imagens de ecocardiograma com base em uma configuração inovadora do modelo de representação de imagens, baseado em sacos de palavras visuais (BoVW), possibilitando a utilização do referido método proposto em aplicações em tempo real (por exemplo, classificação de exames de ecocardiograma em curso, entre outras). A maneira como a presente invenção executa o processo de extração de características da imagem é que permite a classificação automática de imagens e, consequentemente, sua aplicação em tempo real.
[00013] As concretizações preferenciais da presente invenção estão principalmente relacionadas à classificação de visões cardíacas em imagens de ecocardiograma. A aplicação principal da invenção é a classificação de ecocardiogramas em curso (tempo real). Esta classificação também pode ajudar o operador de ultrassom a encontrar a posição correta da sonda no paciente.
[00014] A invenção também pode ser utilizada para classificar os exames pré-armazenados.
12/27 [00015] A classificação automática nas visões do coração poderia ser ainda utilizada para a aprendizagem de doenças cardíacas. Ao se saber a visão do coração em análise, torna-se mais fácil a análise de suas estruturas e, assim, a compreensão das eventuais doenças cardíacas.
[00016] A classificação automática também poderia ser usada para criar uma visualização tridimensional do coração (posicionando as visões do coração em um espaço tridimensional). Essas aplicações também são úteis para o ensino, como por exemplo, para entender as anomalias cardíacas nas diferentes visões.
[00017] Conforme será demonstrado mais adiante (ao final da descrição detalhada), o método proposto pela presente invenção foi comparado com muitas outras abordagens existentes e os resultados dos testes apontam que apenas o método da presente invenção é simultaneamente eficaz (precisão acima de 90%) e eficiente (extração de características em menos de 1 segundo por imagem).
Breve Descrição das Figuras [00018] Os objetivos e vantagens da presente invenção ficarão mais claros a partir da descrição detalhada de uma concretização exemplar e não limitativa, e a partir das figuras a seguir, em que:
13/27 [00019] A Figura 1 apresenta uma visão geral do sistema de classificação.
[00020] A Figura 2 ilustra a abordagem proposta, em que a Figura 2(a) mostra como criar o dicionário visual e a
Figura 2 (b) mostra como calcular a representação de imagem usando o dicionário visual.
[00021] A Figura 3 representa estratégias de amostragem densa, usando círculos ou uma grade quadrada em (a) casos muito densos (regiões pequenas) ou (b) casos pouco densos (regiões grandes).
[00022] A Figura 4 mostra exemplos de regiões obtidas por meio de amostragem densa com grandes regiões.
[00023] A Figura 5 apresenta graficamente as precisões médias de classificação em função do tempo de extração de características.
Descrição Detalhada da Invenção [00024] Os materiais utilizados na presente invenção são:
i. um aparelho de ultrassom que executa o método proposto.
ii. Um exame de ecocardiograma decomposto em imagens (quadros). Este exame pode ser processado durante a sua gravação (em tempo real) ou depois (arquivos salvos).
14/27 iii. Um dispositivo de saída, que é preferencialmente uma tela de monitor, no qual os resultados da classificação serão mostrados ao usuário (geralmente o operador de ultrassom).
[00025] De acordo com a concretização preferencial da presente invenção, o aparelho de ultrassom é usado para capturar imagens do coração de um paciente. Essas imagens são processadas em várias etapas:
i. Características de baixo nível locais são extraídas usando o esquema de amostragem densa proposto com grandes regiões.
ii. As características de baixo nível locais são codificadas de acordo com um dicionário visual criado previamente, gerando um vetor de características da imagem.
De acordo com a concretização preferida da invenção, o referido dicionário visual é criado durante o treinamento do método usando imagens de exames existentes.
iii. O vetor de características da imagem alimenta um classificador de aprendizagem de máquina que prediz a visão
cardíaca em |
análise |
(note |
que o |
classificador |
de |
aprendizagem |
de máquina |
foi |
treinado |
anteriormente |
com |
imagens de treinamento). |
|
|
|
|
[00026] |
A Figura |
1 representa |
uma visão geral |
de |
todo o método de classificação. O dispositivo ultrassom
15/27 captura (101) as imagens de ecocardiograma que são, então, processadas pelo processo de extração de características da imagem (102), baseado no modelo de saco de palavras visuais (BoVW). Para cada imagem, um vetor de características é calculado e é utilizado para alimentar um classificador de aprendizagem de máquina (107) . Por fim, o classificador prediz a visão do coração (108) .
[00027] O princípio de funcionamento da presente invenção está especialmente relacionado com o processo de extração de características (102) da Figura 1, e é detalhado na Figura 2.
[00028] A Figura 2A mostra como criar o dicionário visual e a Figura 2B mostra como calcular a representação de imagem usando o referido dicionário visual. Embora a abordagem proposta baseie-se no modelo de dicionário visual amplamente utilizado, que descreve imagens por informações estatísticas de ocorrências de palavras visuais (BoVW), a principal novidade da abordagem proposta é o uso da amostragem densa (103) com grandes regiões. Conforme será visto adiante, o uso de regiões grandes gera um número reduzido de regiões por imagem amostrada (no máximo, 20 regiões), o que resulta em pelo menos duas vantagens significativas. A primeira vantagem está relacionada ao fato de que quanto menos regiões, menor o tempo de
16/27 processamento, que é um fator crítico para soluções aplicadas em tempo real, como é o caso da presente invenção. Outra vantagem importante do uso de regiões grandes refere-se ao fato de que essas regiões, por vezes, compreendem estruturas inteiras do coração (como por exemplo: átrio e ventrículos).
[00029] A abordagem pode compreendida como um processo ser basicamente extração de de características (102), o qual é composto principalmente por:
[00030] - amostragem densa (103) com grandes regiões, resultando em poucas regiões por imagem (201) (exemplo: menos de 20);
[00031] - descrição de cada região (104) com um descritor local invariante, que em conjunto com a etapa anterior (103) determina o espaço de características (202);
[00032] - quantização (105) do espaço de características (203), a partir do qual é possível determinar as palavras visuais (204) (regiões do espaço de características quantizado 203), que resulta na criação do dicionário visual (205);
[00033] - codificação e pooling (106).
[00034] A seguir, cada etapa para calcular a representação da imagem será detalhadamente descrita.
1Ί/2.Ί
Amostragem densa (103):
[00035] A amostragem densa (103) é uma abordagem que detecta regiões de interesse em imagens sem olhar para o seu conteúdo. A Figura 3 mostra duas formas comuns de amostragem densa de uma imagem: (a) muito densa (regiões pequenas) ou (b) pouco densa (regiões grandes). A amostragem densa é interessante especialmente por causa de sua simplicidade e de sua capacidade de detectar pontos de interesse em todas as partes de uma imagem. Mesmo em casos de baixo contraste, o que potencialmente ocorre em imagens de ultrassom e afeta diretamente detectores de pontos de interesse conhecidos no estado da técnica, a amostragem densa detecta regiões. Várias escalas diferentes foram testadas para as regiões amostradas, no entanto, os melhores resultados foram obtidos com o uso de regiões grandes (amostragem pouco densa), resultando em imagens amostradas por, no máximo, 20 regiões. Essa é uma importante solução para aplicações em tempo real: quanto menos regiões, menor o tempo de processamento. Outro aspecto interessante do uso de regiões grandes (amostragem pouco densa) refere-se ao fato de que essas regiões, por vezes, compreendem estruturas inteiras do coração, como, por exemplo, átrio e ventrículos. A título de exemplo, a
Figura 4 mostra algumas regiões obtidas a partir do método
18/27 de amostragem densa (103) usando regiões grandes, conforme proposta da presente invenção.
[00036] Para a concretização desta etapa da presente invenção, qualquer técnica para criar uma amostragem densa sobre a imagem pode ser utilizada, como por exemplo, por meio do uso círculos Gaussianos sobrepostos (mais importância para os pontos centrais, menos para os periféricos) , por meio do uso de quadrados ou retângulos sobrepostos, por meio do uso de uma grade quadrada ou retangular, etc.
[00037] A amostragem densa (103) obtém N regiões a partir de uma imagem de entrada (2 01) .
Descrição Local ou Descrição de Região (104):
[00038] Dadas as N regiões obtidas por amostragem densa (103), um descritor local invariante de imagem é utilizado para representar cada uma delas. Isso resulta em um conjunto de vetores de características X = {xí} por imagem, onde x± G Rd, i G {1..N}, e d é a dimensionalidade do vetor de características.
[00039] Para a concretização desta etapa (104) do método da presente invenção, qualquer descritor local de pontos poderia ser usado, como por exemplo, Scale Invariant
Features Transform (SIFT), Speeded Up Robust Features (SURF), Binary Robust Independent Elementary Features
19/27 (BRIEF), Binary Robust Invariant Scalable Keypoints (BRISK), etc. Alternativamente, outros tipos de descritores poderíam ser usados nas regiões obtidas pela amostragem densa (103) , como Histogramas de Orientação de Gradientes (HOG), histogramas de bordas, correlogramas de orientação de bordas, histogramas de níveis de cinza, entre outros.
Quantização do espaço de características (105):
[00040] Para criar o dicionário visual (205), o espaço de características Rd (202) é quantizado (203) . A quantização (105) é geralmente realizada em um subconjunto dos vetores de características obtidos a partir de imagens (201) de treino. A quantização (105) pode ser igualmente entendida como a criação de um conjunto representativo de regiões (204) para servir de base para a descrição. O dicionário visual (205) pode ser visto como um conjunto de regiões de imagem (204), que representam os elementos importantes do coração, o que será importante para distinguir as visões.
[00041] Um efeito da quantização (105) do espaço de característica Rd (202) inicial é a redução da especificidade dos vetores de características. Quanto mais quantizado for o espaço de características (203), mais genérica é sua descrição. Isto está relacionado com o tamanho do dicionário (205) : dicionários maiores significam
20/27 menos quantização, dicionários menores, mais quantização.
Ao analisar as imagens de ultrassom (201) visualmente, é possível observar que, mesmo em seu aspecto global, elas diferem entre as visões. Portanto, os espaços mais quantizados (dicionários menores) tendem a ser mais promissores, uma vez que proporcionam uma representação mais geral.
[00042] Para implementação da quantização (105) de espaço de características, técnicas de agrupamento são geralmente empregadas. O algoritmo de K-médias é comumente usado, no entanto, dada a alta dimensionalidade do espaço de características (202), uma seleção aleatória simples de vetores pode fornecer dicionários (205) de qualidade similar a um custo computacional muito menor. Se o espaço de características tem muitas dimensões, k-médias não é recomendado, porque seria muito mais caro. Por outro lado, em casos de pequenos dicionários (menos de 500 palavras visuais), a seleção aleatória de pontos pode não funcionar muito bem, já que há uma maior chance de seleção de pontos apenas de uma área específica do espaço de características.
Para dicionários maiores, essa chance é menor. Assim, para evitar esse efeito, é recomendável o uso de k-médias para dicionários pequenos.
21/27 [00043] Na presente invenção, esta etapa pode ser materializada com qualquer algoritmo para quantização (105) do espaço de características, seja ele baseado em agrupamento (k-médias, k-medóides), baseado em técnicas supervisionadas (agrupamento supervisionado, técnicas para dicionários visuais supervisionados), usando alguma política de seleção de pontos ou simplesmente por uma seleção aleatória de pontos no espaço de características.
Um dicionário visual (205) pode ser definido como C = {wi}, onde Wi é o vetor de características da palavra visual i, i e {l..k}, ekéo tamanho do dicionário.
Codificação e pooling (106):
[00044] Depois de criar o dicionário visual C (205), as descrições das regiões de interesse X de cada imagem precisam ser codificadas de forma adequada no espaço quantizado. Pode-se simplesmente atribuir a cada vetor de características o identificador de sua região no espaço quantizado (atribuição rígida). No entanto, em espaços de alta dimensionalidade, os pontos tendem a estar na fronteira de várias regiões (codeword uncertainty) . Nesses casos, ignorar a vizinhança de um vetor descarta informações importantes sobre a descrição da região. A atribuição suave é normalmente usada em tais casos conhecidos no estado da técnica. Esse esquema de
22/27 codificação considera as regiões vizinhas de um dado vetor de características no espaço de características quantizado (203) e é mais robusta a problemas de quantização e a grandes dicionários.
[00045] Para a concretização desta etapa da presente invenção, qualquer técnica de codificação poderia ser usada, como a atribuição rígida (hard assignment), a atribuição suave (soft assignment) e suas variantes e possibilidades de implementação, a Locality-constrained
Linear Coding (LLC) , entre outras. Um exemplo de implementação da atribuição suave (codeword uncertainty) é formalizado como:
cv
(1) [0004 6] onde j G {l..k}, Vi é o vetor de características da região i, Wj é o vetor correspondente à η n = víL· x eM-iS) n . ,. , palavra visual , e D (a, b) e a distância entre os vetores a e b. O parâmetro σ indica a suavidade da função Gaussiana: quanto maior for o valor, maior será o número de regiões vizinhas consideradas/ativadas. Cada região i de imagem é, então,
Oíi representada por um vetor de com codificação
23/27 dimensionalidade k. Isto significa que cada imagem tem um conjunto de vetores a.
[00047] Os vetores de codificação são finalmente resumidos (pooling) em um único vetor de características h.
Pode-se resumir somando todas as ativações de palavra visuais na imagem e normalizando pelo número de regiões na imagem (pooling por média). Outra alternativa, com melhores resultados conhecidos para classificação de imagens, é o max pooling. Max pooling considera apenas a ativação máxima de cada palavra visual na imagem e pode ser definido como:
h.; ~ max a,· ,· (2) J ie/v M k J [00048] onde α é obtido na etapa de codificação (pela Equação 1 acima, por exemplo) , N é o número de regiões da imagem, e j 0 {1.. k} . Portanto, o vetor de características de imagem h tem dimensionalidade k e tem informações estatísticas sobre as ocorrências de palavras visuais na imagem.
[00049] Considerando-se que grandes regiões estão sendo usadas na amostragem densa (103), o vetor de características h resultante no dicionário visual (205) corresponde aproximadamente às ativações de estruturas cardíacas em cada imagem. Isso pode nos dar uma
24/27 representação de mais alto nível (mais próxima do entendimento por humanos) das imagens de ecocardiograma.
[00050] O uso de abordagens de pooling espacial também é interessante para enriquecer a representação conhecida no estado da técnica. Técnicas de pirâmides espaciais (SPM - Spatial Pyramid Matching) são comumente utilizadas para isso. Elas são baseadas em hierarquicamente dividir a imagem em regiões retangulares e computar um saco de palavras visuais (BoVW) para cada região. No final, os
BoVW são ponderados e concatenados para formar o vetor de característica de imagem h. Pirâmides espaciais são muito simples de calcular e elas podem ser usadas em conjunto com outras estratégias de pooling, como pooling por máximo e pooling por média. No entanto, o vetor de características h é significativamente maior do que os computados por abordagens de pooling não espaciais. Por exemplo, para pirâmides espaciais de nível 2, o vetor de características é 21 vezes maior do que um vetor resultante de um max pooling simples. O impacto de vetores de características maiores (espaços de mais alta dimensão) é um aumento nos tempos de aprendizagem e de classificação.
[00051] No presente invento, no qual regiões grandes são utilizadas na amostragem densa (103), o impacto das técnicas de pirâmides espaciais é pequeno. No entanto, para
25/27 amostragens mais densas, o uso de pirâmides espaciais são cruciais para se obter um nível de precisão mais elevado, especialmente quando usado com max pooling.
[00052] Para a concretização desta etapa (106) da presente invenção, qualquer técnica de pooling pode ser empregada, como pooling por média, pooling por máximo, pooling por soma, pooling espacial com pirâmides espaciais, arranjo espacial de palavras visuais (WSA - Word Spatial
Arrangement), entre outras.
[00053] Após calcular as representações de imagens, pode-se usá-las diretamente em um classificador de aprendizagem de máquina (107) . Embora tenha sido usado
Support Vector Machines (SVM) nos experimentos da presente invenção, a representação da imagem pode ser usada com outros tipos de classificadores ou mesmo em aplicações de recuperação de imagem (comparando vetores de características e classificando-os de acordo com os valores de distância).
[00054] Aqueles versados na técnica compreenderam que o método da presente invenção pode ser utilizado para outros tipos de imagens de ultrassom em geral, assim como em qualquer outro tipo de imagem, tal como conjuntos de fotografias naturais. Além disso, com o método da presente invenção, é possível classificar as visões do coração e, a
26/27 partir desta classificação, posicionar as visões em um espaço tridimensional, tornando possível gerar uma visualização tridimensional do coração, que pode ser usada em uma animação que mostra o coração batendo em 3D.
Experimentos [00055] 0 método da presente invenção foi avaliado por meio da realização de vários experimentos, utilizando
7527 imagens de ecocardiogramas reais. O conjunto de dados utilizado contém ecocardiogramas capturados em diferentes condições (desalinhamento da estrutura do cone, cones largos ou mais estreitos e pequena rotação, as diferenças de contraste, as diferenças nos padrões de ruído, diferenças na tonalidade da cor, diferenças de resolução, etc) .
[00056] A avaliação considera tanto a precisão da classificação quanto o tempo para extrair vetores de características.
[00057] O método proposto pela presente invenção foi comparado com muitas outras abordagens existentes. Os resultados apontam que apenas o método da presente invenção é eficaz (precisão acima de 90%) e eficiente (extração de características em menos de 1 segundo por imagem) ao mesmo tempo. Um exemplo dos resultados é apresentado na Figura 5, em que os resultados do método da presente invenção estão
2Ί/27 representados por estrelas de 5 pontas e situam-se na zona ótima.
[00058] Além disso, observou-se que, se aplicadas técnicas de redução de ruído nas imagens (préprocessamento), o método da presente invenção alcança um nível de precisão de aproximadamente 98%.
[00059] Embora uma concretização preferida da presente invenção tenha sido mostrada e descrita, aqueles versados na técnica compreenderão que várias modificações podem ser feitas sem se afastar do escopo da presente invenção, tal como definidos nas reivindicações anexas.
[00060] É expressamente previsto ainda que todas as combinações dos elementos que desempenham a mesma função, substancialmente da mesma forma e para alcançar os mesmos resultados, estão dentro do escopo da presente invenção.
1/5