BR112019015216A2 - método de segmentação de imagem de várias classes - Google Patents

método de segmentação de imagem de várias classes Download PDF

Info

Publication number
BR112019015216A2
BR112019015216A2 BR112019015216A BR112019015216A BR112019015216A2 BR 112019015216 A2 BR112019015216 A2 BR 112019015216A2 BR 112019015216 A BR112019015216 A BR 112019015216A BR 112019015216 A BR112019015216 A BR 112019015216A BR 112019015216 A2 BR112019015216 A2 BR 112019015216A2
Authority
BR
Brazil
Prior art keywords
architecture
layer
loss function
layers
segmentation
Prior art date
Application number
BR112019015216A
Other languages
English (en)
Inventor
Novikov Alexey
Major David
Lenis Dimitrios
Buehler Katja
Wimmer Maria
Original Assignee
Agfa Healthcare
Vrvis Zentrum Fuer Virtual Reality Und Visualisierung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agfa Healthcare, Vrvis Zentrum Fuer Virtual Reality Und Visualisierung filed Critical Agfa Healthcare
Publication of BR112019015216A2 publication Critical patent/BR112019015216A2/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves 
    • A61B5/055Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves  involving electronic [EMR] or nuclear [NMR] magnetic resonance, e.g. magnetic resonance imaging
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/52Devices using data or image processing specially adapted for radiation diagnosis
    • A61B6/5211Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data
    • A61B6/5252Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data removing objects from field of view, e.g. removing patient table from a CT image
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B8/00Diagnosis using ultrasonic, sonic or infrasonic waves
    • A61B8/52Devices using data or image processing specially adapted for diagnosis using ultrasonic, sonic or infrasonic waves
    • A61B8/5215Devices using data or image processing specially adapted for diagnosis using ultrasonic, sonic or infrasonic waves involving processing of medical diagnostic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30008Bone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30048Heart; Cardiac
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

expõe-se um método de linha de tubulação para segmentação multi-rótulo de estruturas anatômicas em uma imagem médica por meio de uma rede neural convolucional treinada com uma função de perda ponderada que leva em conta a sub-representação de pelo menos uma estrutura anatômica na máscara de verdade do solo em relação a outras estruturas anatômicas. descrevem-se diferentes arquiteturas para a rede neural convolucional.

Description

MÉTODO DE SEGMENTAÇÃO DE IMAGEM DE VÁRIAS CLASSES
CAMPO DA INVENÇÃO [001] Refere-se a presente invenção à segmentação de imagens. Mais especificamente, a invenção refere-se a um método para a segmentação de várias classes sincronas de diferentes estruturas anatômicas em imagens médicas, tais como segmentação de pulmão, coração e clavículas em radiografias de tórax.
ANTECEDENTES DA INVENÇÃO [002] A invenção refere-se à segmentação de várias classes sincronas de diferentes estruturas anatômicas.
[003] A segmentação de várias classes pode, por exemplo, ser usada para segmentar diferentes estruturas anatômicas em uma imagem médica, tais como pulmões, coração e clavículas, em uma radiografia de tórax.
[004] Outras aplicações podem ser consideradas, tais como segmentação de lesões, por exemplo, lesões devido a tuberculose, segmentação de costelas e outras assemelhadas.
[005] De um modo geral, a invenção visa a segmentação de várias classes de estruturas que são dotadas de bordas definidas em imagens médicas.
[006] Como resultado de tal processo de segmentação, podem ser detectadas variações do tamanho, posição e áreas do coração, campos pulmonares, estrutura do hila, clavículas, e outros assemelhados.
[007] Isto pode proporcionar pistas sobre condições existentes, tais como o TBC e o câncer, ou ajudar nas próximas etapas da detecção assistida por computador e
Petição 870190070355, de 24/07/2019, pág. 7/48
2/28 do diagnóstico médico.
[008] Por essa razão, a segmentação semântica de radiografias, ou seja, a localização de órgãos ou estruturas tem sido um campo ativo de estudo.
[009] Complexidades anatômicas individuais tais como altas variações interpessoais na forma e tamanho dos órgãos centrais, tais como campos pulmonares, clavículas e coração, relacionadas à idade, tamanho e gênero, limites de órgãos ambíguos devido a sobreposições de órgãos e artefatos causados por movimentos e intrínsecos de modalidade de imagem. São apenas algumas das razões pelas guais a segmentação precisa de órgãos continua sendo uma tarefa inerentemente desafiadora.
[0010] Abordagens algorítmicas clássicas têm sido amplamente descritas e usadas. O espaço de abordagens algorítmicas pode ser dividido em métodos baseados em regra, forma e gráfico, classificação de pixel e abordagens estatísticas.
[0011] Cada estrutura metodológica tem o seu próprio conjunto de vantagens, por exemplo, pela limitação a um conjunto de regras predefinido ou formato deformável, métodos baseados em regras e formas produzirão soluções anatômicas judiciosas.
[0012] Embora conceitualmente com mais de 50 anos, as redes neurais (NN) , a base abstrata da aprendizagem profunda, estão vivendo um renascimento. Uma compreensão mais profunda do treinamento e do comportamento numérico e o aumento acentuado de esquemas de cálculos tratáveis através da utilização de unidades de processamento gráfico (GPUs) permitiram que essa classe de
Petição 870190070355, de 24/07/2019, pág. 8/48
3/28 abordagem se tornasse o padrão de fato ou, pelo menos, concorrente sério em vários ramos de aprendizado de máquina.
[0013] O que se segue enfoca as redes neurais convolucionais (CNN), uma subclasse de NN frequentemente usada com sucesso em tarefas de visão computacional.
[0014] Uma configuração prototipica de uma CNN consiste em uma combinação de filtros de convolução, intercalados com camadas de redução e agrupamento de dados. A idéia motriz é imitar a cognição visual humana, nesse sentido, que o quadro completo é derivado de características de baixo nível, por exemplo, bordas e círculos, que por sua vez produzem mais características distintivas e finalmente o alvo desejado através da recombinação em cada camada sucessiva. Sob esse aspecto, a principal diferença das abordagens clássicas é que o aprendizado profundo normalmente evita o uso de recursos específicos, projetados manualmente, para um conjunto puramente derivado, mais capaz de descrever diferentes aspectos de um objeto.
[0015] Em relação à segmentação de imagens médicas, foram estudadas várias dessas disposições. Normalmente, as CNNs são usadas para tarefas de classificação, ou seja, uma imagem de entrada é atribuída a um conjunto contável de rótulos de classe. Complicando, imagens médicas longas para a relação espacial dos rótulos desta classe. Como dito anteriormente no presente caso, essa segmentação semântica geralmente se baseia em um vasto conjunto de dados de treinamento. Esses conjuntos de dados profundos não são típicos do domínio médico, inviabilizando
Petição 870190070355, de 24/07/2019, pág. 9/48
4/28 a maioria das abordagens atuais, exigindo, portanto, uma estratégia finamente adaptada.
[0016] As primeiras tentativas datam de mais de 15 anos atrás. Tsujii et al. Segmentação automatizada de regiões anatômicas em radiografias de tórax usando uma rede neural híbrida de tamanho adaptável, Medical physics, vol. 25, pp. 998-1007, 1998, utilizam um NN para a segmentação do campo pulmonar, com uma precisão de cerca de 86%. Aece et al. Segmentação da estrutura óssea em imagens de raios X usando rede neural convolucional, Advances in Electrical and Computer Engineering, vol. 13, não. 1, pp. 87-94, fevereiro de 2013, usam um CNN como um classificador binário e, deste modo, dividem radiografias de tórax nos dois conjuntos {bone, non-bone] de forma totalmente automatizada. Um NN não precisa ser considerado como uma solução independente tal como T.A. Ngo e G. Carneiro, 21Lund segmentation in chest radiographs using distance regularized level set and deep-structured learning and inference, em Processamento de imagens (ICIP, Conferência Internacional IEEE 2015, de setembro de 2015, pp. 21402143). nível combinado regularizado definido com uma abordagem de aprendizagem profunda e rendeu no JSRT uma pontuação de sobreposição de 0,948-0,985.
[0017] Embora a segmentação CXR ainda não tenha sido amplamente abordada, diferentes modalidades, tais como ultrassonografia, TC e MRT, foram exploradas [G. Carneiro, J.C. Nascimento, and A. Freitas, The segmentation of the left ventricle of the heart from ultrasound data using deep learning architectures and derivative-based search methods, IEEE Transactions on
Petição 870190070355, de 24/07/2019, pág. 10/48
5/28
Imaging Processing, vol. 21, n° . 3, pp. 968-982, March 2012; M. Havaei, A. Davy, D. Warde-Farley, A. Biard, A. Courville, Y. Bengio, C. Pal,, P.-M. Jodoin and H. Larochelle, Brain tumor segmentation with deep neural networks, Medical Image Analysis, 2016; P. Petersen, M. Nielsen, P. Diao, N. Karssemeijer, and M. Lillholm, Breast tissue segmentation and mammographic risk scoring using deep learning. Springer Science+Business Media B.V., 2014, pp. 88-94; B. Gaonkar, D. Hovda, N. Martin and L. Macyszyn, Deep learning in the small sample size setting; cascaded feed forward neural networks for medical image segmentation, pp. 978521-978521-8, 2016].
[0018] Em J. Long, E. Shelhamer, and T. Darrell, Fully convolutional networks for semantic segmentation, em Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 34313440 visam a necessidade de recursos locais que coincidam com estruturas globais, ande definem a Rede Plenamente Convolucional. Este tipo de rede permite entrada e saída de tamanho arbitrário. Começando com a camada de entrada, cada camada sucessiva gera uma matriz tridimensional cujos valores correspondem aos campos conectados ao caminho da camada de processo. Esses campos são respectivamente convolvidos, agrupados ou geralmente transformados não linearmente, resultando em uma série de camadas de contratação. Em combinação com a fusão de camadas, isto é, os atalhos entre as camadas selecionadas, essa configuração alcança uma representação de recurso não linear, de local para global, e permite uma classificação em pixels. Adaptando esta classe de rede com sucessivas camadas de
Petição 870190070355, de 24/07/2019, pág. 11/48
6/28 amostragem, ou seja, ampliando o campo de visão da convolução, Ronneberger et al. U-net: Convolutional networks for biomedical image segmentation,in International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234241, pode direcionar a resolução da extração de recursos e, desse modo, controlar as relações locais-globais dos recursos .
[0019] Constitui um aspecto desta invenção adaptar esta abordagem para radiografias de tórax, isto é, para conjuntos de dados de nivel de órgão.
[0020] Constitui outro aspecto adaptar este sistema para que ele possa ser aplicado com sucesso para a segmentação multi-label de conjuntos de dados desequilibrados e que possa proporcionar resultados de segmentação muito bons com uma quantidade razoável de esforço computacional. SUMÁRIO DA INVENÇÃO [0021] Os aspectos mencionados anteriormente no presente caso são obtidos por meio de um método que é dotado das características específicas estabelecidas na reivindicação 1.
[0022] Características específicas para concretizações preferidas da invenção são apresentadas nas reivindicações dependentes. [0023] A invenção é dotada das seguintes vantagens em relação à técnica anterior:
[0024] O método da presente invenção é amplamente adequado para segmentação sincrona de múltiplos rótulos de órgãos anatômicos em radiografias de tórax, em
Petição 870190070355, de 24/07/2019, pág. 12/48
7/28 particular, clavículas, pulmões e campos cardíacos.
[0025] De acordo com concretizações especificas da presente invenção, são introduzidas várias arquiteturas de rede especificas que são capazes de funcionar convenientemente sem aumento adicional de dados, apenas nos dados fornecidos.
[0026] Essas arquiteturas superam algoritmos de última geração e U-Net original no conjunto de dados JSRT disponível publicamente.
[0027] Essas arquiteturas são compreendidas por pulmões de múltiplas classes e segmentos, clavículas e coração simultaneamente.
[0028] Além disso, essas arquiteturas têm um desempenho eficaz em um conjunto de dados com representação de dados altamente desequilibrada, tais como as clavículas que estão sub-representadas nas radiografias de tórax em comparação com os campos cardíaco e pulmonar.
[0029] Para solucionar o problema da representação de dados desbalanceados, duas funções específicas de perda ponderada são introduzidas para o procedimento de treinamento da rede.
[0030] Outras vantagens e formas de realização da presente invenção tornar-se-ão evidentes a partir da descrição e desenhos apresentados em seguida.
DESCRIÇÃO BREVE DOS DESENHOS [0031] A Figura 1 a - d mostra diferentes concretizações das arquiteta uras de rede.
[0032] A Figura 2 mostra os tempos de execução para diferentes resoluções de imagem.
[0033] A Figura 3 é uma comparação das
Petição 870190070355, de 24/07/2019, pág. 13/48
8/28 diferentes concretizações de arquiteturas utilizadas em um método de acordo com a presente invenção versus métodos do estado da técnica.
[0034] A Figura 4 é uma comparação da arquitetura InvertNet para diferentes divisões de validação para a função de perda de entropia cruzada do sentido do Pixel.
[0035] A Figura 5 é uma comparação da arquitetura InvertNet para diferentes divisões de validação para a função Negative Dice Loss.
DESCRIÇÃO DETALHADA DA INVENÇÃO [0036] Da mesma forma que a maioria dos pipelines relacionados ao aprendizado profundo, a abordagem atual consiste nas seguintes etapas principais: preparação e normalização de dados, projeto de arquitetura de modelo, treinamento de modelo e teste do modelo treinado. A entrada no caso de radiografias de tórax consiste em um conjunto de imagens 2D (abaixo chamado J ) e as correspondentes máscaras de verdade do solo multicanal. O modelo é construído, inicializado e treinado. Após o término do treinamento, os pesos do modelo aprendido e as camadas de regularização são fixados e o modelo é validado em um conjunto de imagens de teste.
Abordagem de várias classes [0037] A entrada consiste de um conjunto de imagens 2D J = {I\I e R'1'2 j e as correspondents máscaras de verdade do solo binário multicanal (LíV)lsíSn onde L( e R({05i}p-2, n é o número de classes que se pretende direcionar e ml,m2 são as dimensões de imagem.
Petição 870190070355, de 24/07/2019, pág. 14/48
9/28 [0038] Em primeiro lugar divide-se J em conjuntos ITrain de tamanho =|I train I e I test = J \ I train · Tal como descrito anteriormente, para cada /eJ utiliza-se uma série de máscaras de verdade de solo binário (L;/)lsíSn · Para uma referência posterior deixa-se que C seja o conjunto de todas as classes de verdade de solo, conseqüentemente \<n <| C| .
[0039] As redes são treinadas da seguinte maneira: a rede é passada consecutivamente com mini cargas KeN onde N é compreendida por uma partição de ITRAin e mini cargas K são conjuntos não vazios de imagens derivados de forma que cada imagem está incluído em um e apenas uma dos mini cargas K . Além disso, introduzimos cK para definir a contagem total de pixels em todos IeK .
[0040] Para cada um I eK é calculada a saída de várias classes da rede, ou seja, a compreensão da rede como uma função
F:J^(R({0,1}F^)1s;s„ (1) [0041] Por essa razão, para cada pixel de 1 sua classe semântica l <e C pode ser derivado em uma única etapa até alguma probabilidade.
[0042] Para estimar e elevar ao máximo essa probabilidade, podemos definir uma função de energia
A(L.p : R({0,l})mxm2 x(L,z)^R (2) que avalia o desvio (erro) do resultado da rede a partir da verdade do solo desejada. O erro é propagado de
Petição 870190070355, de 24/07/2019, pág. 15/48
10/28 volta para atualizar os parâmetros da rede. Todo o procedimento continua até que os critérios de parada dados definidos sejam cumpridos.
[0043] No momento do teste, uma imagem invisível ZeITESTé transmitida pela rede e é produzida a saída multi-rótulo F(/) . Conforme definido anteriormente no presente caso, a saída de rede consiste em séries de máscaras de segmentação multicanal. Os canais no caso de radiografias de tórax correspondem a diferentes órgãos do corpo.
[0044] O modelo é construído, inicializado e ainda treinado. Após o término do treinamento, os pesos do modelo aprendido e as camadas de regularização são fixados e o modelo é validado em um conjunto de imagens de teste. As principais etapas do método são introduzidas de forma detalhada nas seções que se seguem.
Configuração da base [0045] A arquitetura semelhante à U-Net, proposta originalmente por Ronnenberger et al. U-net: Convolutional networks for biomedical image segmentation, na Conferência Internacional sobre Computação Médica de Imagens e Intervenção Assistida por Computador, Springer, 2015, pp. 234-241 consiste em partes de contração e expansão. Na parte de contração, características abstratas de alto nível são extraídas por aplicação consecutiva de pares de camadas convolucionais e de agrupamento. Na parte de expansão, os recursos atualizados são mesclados com os recursos da parte contrativa, respectivamente. A saída da rede é uma máscara de segmentação multicanal em que cada canal tem o mesmo tamanho que a imagem de entrada.
Petição 870190070355, de 24/07/2019, pág. 16/48
11/28 [0046] O excelente desempenho da arquitetura original da U-Net foi demonstrado para rastreamento e segmentação de células de estruturas neuronals em pilhas microscópicas eletrônicas. [0047] No entanto, para outras tarefas especificas, requer modificações adicionais devido a uma representação de dados diferente quando os dados são altamente desequilibrados ou em casos em que o aumento de dados não é razoável. [0048] O problema de dados desbalanceados em imagens médicas ocorre devido a diferentes tamanhos dos órgãos anatômicos de interesse. Por exemplo, no conjunto de dados do JSRT, 60% dos pixels pertencem ao fundo, 29% ao pulmão, 2% às clavículas e 9% ao coração, respectivamente, enfatizando os pulmões e os campos cardíacos sobre as clavículas.
Aperfeiçoamentos do modelo U-net para radiografias de tórax [0049] No topo da arquitetura original, a rede com múltiplas modificações em regularização, treinamento e arquitetura é analisada e avaliada. Em cada categoria, é considerado de forma detalhada um número de vários aperfeiçoamentos possíveis do modelo de rede e, com base nos resultados da avaliação, vários modelos são propostos para treinar e realizar eficientemente a segmentação por multi classe em imagens CXR médicas. Para evitar o aumento de dados usado no trabalho por Ronnenberger et al. U-net: Convolutional networks for biomedical image segmentation, na Conferência Internacional sobre Computação Médica de Imagens e Intervenção Assistida por Computador, Springer, 2015, pp.
Petição 870190070355, de 24/07/2019, pág. 17/48
12/28
234-241 propõe-se alternar ligeiramente o modelo de forma diferente pelo uso de uma regularização mais agressiva diferente. Além disso, várias arquiteturas são propostas para melhorar ainda mais o resultado da segmentação. Além de uma regularização de modelos e modificações arquiteturais diferentes, uma estratégia diferente de função de perda de treinamento é proposta para lidar com um problema de representação de dados altamente desbalanceada.
Modificações de Arquitetura [0050] Adquirir mais dados de treinamento seria benéfico para qualquer algoritmo de aprendizado na maioria dos casos. No entanto, em imagens médicas, obter dados adicionais nem sempre é viável.
[0051] Ronnenberger et al. U-net: Convolutional networks for biomedical image segmentation, na International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234-241 usaram deformações elásticas para o aumento de dados a fim de regularizar o modelo. Não obstante, as deformações elásticas não são razoáveis no caso de radiografias de tórax porque tornariam órgãos rígidos como pulmões, coração e clavículas anatomicamente incorretos e poderíam confundir o treinamento fazendo com que as características de aprendizado da rede correspondessem a estruturas não realistas.
[0052] O número de mapas e camadas de recursos na versão original do U-Net é grande, o que resulta em dezenas de milhões de parâmetros no sistema, o que retarda o treinamento e não diminui necessariamente o erro de generalização. Sem qualquer forma de regularização,
Petição 870190070355, de 24/07/2019, pág. 18/48
13/28 essas grandes redes podem se sobrepor aos dados.
Especialmente quando não há muitos dados de treinamento disponíveis. No sobre CXR, o superjuste de dados é um problema especialmente para órgãos anatômicos prolongados, menores ou mais finos, como as clavículas, devido às suas representações de formas mais variadas nas imagens de RXT. No caso em que a arquitetura de rede é profunda e a disponibilidade de dados de treinamento é limitada, outra possibilidade de diminuir o erro de teste de generalização do algoritmo consiste em uma regularização mais agressiva, a) All-Dropout (Perda momentânea total): arquitetura simples plenamente regularizada [0053] A camada de perda momentânea [29] é uma prática comum em arquiteturas modernas de redes profundas. Além disso, foi demonstrado por Bouthillier et al. [30] que também pode desempenhar um papel de aumento de dados ao mesmo tempo. Portanto, os inventores propõem uma arquitetura com uma camada de perda momentânea após cada camada convolucional na rede. Os inventores utilizam a perda momentânea gaussiana que equivale a adicionar uma variável aleatória distribuída de Gauss com média zero e desvio padrão igual à ativação da unidade neural. De acordo com Srivastava et al Dropout: a simple way to prevent neural networks from overfitting Journal of Machine Learning Research, vol. 15, no. 1, pp. 1929-1958, 2014, funciona talvez até melhor que o clássico que usa a distribuição de Bernoulli. Além disso, adicionar esse ruído é uma escolha mais natural para as radiografias de tórax devido ao ruído que ocorre durante a aquisição [31]. No que se segue esta arquitetura é chamada Perda Momentânea Total.
Petição 870190070355, de 24/07/2019, pág. 19/48
14/28
b) J-Net: aperfeiçoando a precisão para resolução mais baixa [0054] Objetos menores são difíceis de segmentar especialmente em caso de baixa resolução de imagem. Nesse caso, quatro camadas de agrupamento da arquitetura U-Net original podem ser fatais para esses obj etos..
[0055] Para lidar com esse problema na resolução mais baixa, uma arquitetura é proposta, a qual é chamada de J-Net. Nesta arquitetura, a Perda Momentânea Total é precedida por quatro camadas convolucionais e duas camadas de agrupamento. A resolução da camada de entrada, nesse caso, deve ser quatro vezes maior em cada dimensão do que na resolução normal da camada de entrada.
c) InvertedNet: aperfeiçoaando a precisão com menos parâmetros [0056] Uma maneira de lidar com o sobre ajuste de modelo é reduzir o número de parâmetros. Prop ou se uma modificação da arquitetura de Perda Momentânea Total
a) realizando a sub-amostragem atrasada da primeira camada de agrupamento com (1,1) agrupamento e b) alterando os números de mapas de recursos na rede.
[0057] Nesta arquitetura, propõe-se iniciar com um grande número de mapas de recursos e reduzi-los por um fator pelo fator de dois após cada camada de agrupamento e, em seguida, aumentar de volta pelo fator de dois após cada camada de amostragem.
[0058] Nesse caso, as redes aprendem muitas variações diferentes de estruturas nas camadas iniciais e menos recursos de alto nível nas camadas posteriores.
Petição 870190070355, de 24/07/2019, pág. 20/48
15/28 [0059] Isto parece mais razoável no caso de órgãos anatômicos mais rígidos, tais como as clavículas, porque suas formas não variam muito e, portanto, não há necessidade de aprender muitas características abstratas altas. Essa arquitetura é chamada de InvertedNet devido à maneira como os números de mapas de recursos são alterados em relação à arquitetura original do U-Net.
d) Rede Convolucional Total: Aprendizagem em grupo para segmentação [0060] J. T. Springenberg, A. Dosovitskiy, T. Brox, e M. Riedmiller, Striving for simplicity: The all convolutional net, arXiv preprint arXiv: 1412.6806, 2014 demonstrou que ter camadas de agrupamenos substituídas por camadas convolucionais com maior passo ou remover camadas de agrupamento produz completamente resultados semelhantes ou até mesmo aperfeiçoa, tornando a rede totalmente convolucional.
[0061] Esta modificação introduz novos parâmetros na rede, mas pode ser considerada como um aprendizado de agrupamento para cada parte da rede, em vez de apenas corrigir os parâmetros de agrupamento para valores constantes. Esse aprendizado de agrupamento pode ser útil para fazer com que a rede aprenda recursos melhores para objetos alongados menores e mais finos. Motivado ainda pelo trabalho de J. T. Springenberg, A. Dosovitskiy, T. Brox e M. Riedmiller, Striving for simplicity: The all convolutional net, arXiv preprint arXiv:1412.6806, 2014, consideram esta segunda
Petição 870190070355, de 24/07/2019, pág. 21/48
16/28 configuração. Em tal configuração, cada camada de agrupamento é substituída por uma camada convolucional com dimensão de filtro igual à dimensão de agrupamento igual à dimensão de agrupamento da camada de agrupamento substituída. A arquitetura de perda momentânea total é modificada de forma correspondente. Esta arquitetura é chamada ainda de Toda convolucional.
Estratégias de Treinamento:
[0062] Como já mencionado, grandes diferenças nos tamanhos de órgãos anatômicos de interesse podem introduzir um problema de representação de dados desbalanceados.
[0063] Nesses casos, as classes são representadas em quantidades altamente diferentes em pixels e, portanto, as perdas para classes esparsamente representadas podem passar despercebidas.
[0064] Portanto, formulações clássicas de perda, tais como entropia cruzada ou funções negativas de dados, subestimariam as classes representadas em quantidades muito pequenas.
[0065] O problema relacionado com o desequilíbrio na representação de pixels é resolvido na presente invenção através da introdução de uma função de distância ponderada.
Seja C o conjunto de todas as classes de verdade e N uma partição do conjunto de treinamento usado. KeN e cK sua cintagem de pixels total podemos definir rKX como sendo a relação:
Figure BR112019015216A2_D0001
Petição 870190070355, de 24/07/2019, pág. 22/48
17/28 (D
onde clK é compreendido pelo número de pixels
pertencente a uma classe de órgão IeC na carga de
treinamento K .
Para uma função de distância
d : {0,l}miXm2 x {0,l}mX72 R , e uma imagem IeK reduzimos ao mínimo
a nossa função alvo
ZeL
2)
Sobre o conjunto K e a partição completa
[066] Como consequência, as
esparsamente representadas, por exemplo, clavículas, não são mais sub-representadas em favor da grande máscara de verdade no solo, por exemplo, campos pulmonares.
[067] Para d selecionamos e avaliamos as chamadas funções de perda de dados negativa ponderadas por pixel e entropia cruzada.
[068] A função de perda ponderada de dados, no presente caso, leva a ativação sigmóide computada no mapa final do recurso de saída para cada canal como a entrada. A ativação sigmóide é definida como:
Figure BR112019015216A2_D0002
(3) onde ακ(χ) indica ativação no canal de recurso k sob o pixel xel e pk(x) é a probabilidade aproximada do pixel x não pertencente ao fundo. No caso de dados negativos ponderados, a saída não precisa proporcionar um
Petição 870190070355, de 24/07/2019, pág. 23/48
18/28 canal para a classe de fundo.
[069] Dada uma imagem I , deixa-se que {L(} seja o conjunto de pixels não de fundo na correspondente máscara multicanal verdadeira de solo e //(/) = {%: x & I λ\pk (%) -1| < ε} (4) seja o conjunto de pixels onde o modelo tem certeza de que eles não pertencem ao fundo e ε é compreendido por um pequeno valor de tolerância.
a função de distância d para o coeficiente de dados negativos para uma imagem de treinamento I pode ser então definida como:
-2|pWnGW| (5) onde P(í) é a máscara de segmentação prevista e G(í) é a máscara de segmentação de verdade do solo correspondente para a imagem I .
[070] A entropia cruzada ponderada em pixels leva a ativação softmax computada no mapa final do recurso de saída para cada canal como a entrada. O softmax pt(x) pode ser definido como em Ronneberger et al. U-net: Convolutional networks for biomedical image segmentation, na International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234241; e a função de distância d da entropia cruzada para uma imagem de treinamento I é definida como:
lG(/)log pk(x) ----------------- ( Ό) Ck [071] O desempenho de ambas as funções de <Μ')=Σ
Petição 870190070355, de 24/07/2019, pág. 24/48
19/28 perda será comparado.
Arquiteturas de rede propostas [072] Na Figura 1 encontram-se ilustradas diferentes concretizações da arquitetura de rede.
[073] Os modelos propostos em detalhe são os seguintes:
[074] Perda Momentânea Total: Versão modificada da arquitetura U-Net [Ronneberger et al. U-net: Convolutional networks for biomedical image segmentation, em International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234241] com camadas de perda momentânea colocadas depois de cada camada convolucional. Ilustrada na Figura la.
[075] InvertedNet: Semelhante à Perda Momentânea Total com a sub-amostragem atrasada da primeira camada de agrupamento e os números de mapas de recursos na rede invertidos em relação à U-net original. Vide Figura 1b.
• Todo-Convolucional: Semelhante à Perda Momentânea Total com camadas de agrupamento substituídas por novas camadas convolucionais com tamanhos de filtro iguais ao tamanho da camada de agrupamento correspondente. Vide Figura 1c.
• J-Net: Semelhante à Perda Momentânea Total com as quatro camadas convolucionais e duas agrupadas precedentes e a entrada de uma resolução maior. Ilustrado na Figura Id.
[076] Convoluções preenchidas são usadas em todas as arquiteturas para todas as camadas convolucionais. Portanto, os canais de saída terão o mesmo tamanho da
Petição 870190070355, de 24/07/2019, pág. 25/48
20/28 imagem de entrada, exceto a arquitetura J-net, em que as dimensões de entrada são quatro vezes maiores que a saída. Todas as arquiteturas propostas contêm camadas convolucionais e de perda momentânea. Em todas as arquiteturas, todas as camadas convolucionais são seguidas por camadas de perda momentânea, exceto as terceiras camadas convolucionais na arquitetura All-Convolutional, onde a camada desempenha um papel de uma camada de agrupamento que ela substitui.
[077] Em todos os modelos, foram usadas as funções de unidade linear retificada [R.H. Hahnloser et al., A seleção digital e a amplificação analógica coexistem em um circuito de silício inspirado no córtex, Nature, vol. 405, no. 6789, pp. 947-951, 200 [33]] em todas as camadas ocultas convolucionais.
[078] Para reduzir o número de parâmetros e acelerar o treinamento, em vez das últimas camadas densas, uma camada convolucional é usada com o número de mapas de recursos igual ao número de classes consideradas no caso da função de dados ponderada e com um ou mais fundo no caso de funções de entropia cruzada ponderadas em pixels. Para respingar os valores na faixa [0, 1] na saída da rede, uma função sigmóide é usada como uma ativação na camada de saída.
Experimentos
Conjunto de dados JSRT [079] Utiliza-se o conjunto de dados JSRT, J.
Shiraishi, S. Katsuragawa, J. Ikezoe, T. Matsumoto, T.
Kobayashi, K.-i. Komatsu, M. Matsui, H. Fujita, Y. Kodera
Petição 870190070355, de 24/07/2019, pág. 26/48
21/28 and K. Doi, Development of a digital image database for chest radiographs with and without a lung nodule; receiver operating characteristic analysis of radiologists' detection of pulmonary nodules. American Journal of Roentgentechnology, vol. 174, no. 1, pp. 71-74, 2000, tanto para treinamento quanto para avaliação. O conjunto de dados consiste em 247 radiografias de tórax PA com uma resolução de 2048 χ 2048, 0,175 mm de tamanho de pixel e 12 bits de profundidade .
[080] A base de dados SCR com limites de órgãos de referência para campos pulmonares esquerdo e direito, coração e clavículas esquerda e direita foi introduzida em 1024x1024 resolução por Ginneken et al. , Segmentação de estruturas anatômicas em radiografias de tórax usando métodos supervisionados: um estudo comparativo em um banco de dados público. Medical Image Analysis, vol. 10, pp. 19-40, 2006.
Modelo de treinamento [081] Os dados foram normalizados usando-se a média e o desvio padrão em todo o conjunto de dados de treinamento. Ele foi centrado no zero primeiro, subtraindose a média e, em seguida, normalizando-o adicionalmente escalado usando-se seu desvio padrão. Foi então dividido em conjuntos de treinamento e testes. Todos os modelos foram treinados em imagens das seguintes resoluções de imagem: 128x128, 256x256 e 512x512. Imagens e máscaras originais foram amostradas para essas resoluções pelo algoritmo de média local. Para tornar o papel comparável com métodos de última geração, a maioria dos resultados em nosso trabalho
Petição 870190070355, de 24/07/2019, pág. 27/48
22/28 correspondem à resolução de imagem de 256x256.
[082] Em todos os experimentos, a unidade linear retificada funciona R. H. Hahnloser et al., Digital selection and analogue amplification coexist in a cortexinspired silicon circuit, Nature, vol. 405, n°. 6789, pp. 947-951, 200 foram usados em todas as camadas ocultas convolucionais. É a função de ativação mais comum e com bom desempenho nas arquiteturas de rede modernas.
[083] Para reduzir o número de parâmetros e acelerar o treinamento no final, em vez de usar camada densa, usamos a camada convolucional com o número de mapas de características igual ao número de classes consideradas no caso dos dados ponderados e com mais um para o fundo em caso de funções de entropia cruzada pixelwise ponderadas. Para aplicar os valores ao intervalo na saída da rede, foi utilizada a função sigmóide como uma ativação na camada de saída.
[084] Para se otimizar o modelo os inventores utilizaram o Adaptive Moment Estimation method (ADAM) D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412-6980, 2014 como ele emprega uma abordagem de taxa de aprendizagem adaptativa para cada parâmetro. Ele armazena a média de decaimento dos gradientes do passado e do passado. Os inventores não fizeram uma avaliação extensa dos métodos, mas as corridas de treinamento iniciais mostraram que o ADAM teve um desempenho muito melhor do que outros algoritmos existentes em termos de convergência de treinamento. Também se submeteram a variaação as diferentes taxas de aprendizado inicial para encontrar a convergência
Petição 870190070355, de 24/07/2019, pág. 28/48
23/28 mais estável e 105 e 5*IO5 pareciam ser as escolhas mais razoáveis. O treinamento convergiu mais lentamente no primeiro, mas mais estável do que no segundo. Por isso, usamos a taxa inicial fixa de 10 5 em todos os experimentos realizados pelos inventores.
Métricas de desempenho [085] Para se avaliarem as arquiteturas e comparar com os trabalhos de última geração, os inventores usaram as seguintes métricas de desempenho:
Coeficiente de Similaridade de Dados:
2x|GnS| |G| + UI [086] Coeficiente de Similaridade de Jaccard:
_____ (10) | G |+| 5 |-| GnS | onde nos dois coeficientes Dsi e J , G representam os dados do verdadeiro e S representa a segmentação proporcionada pelo método avaliado.
Distância de superficie absoluta média simétrica:
S - 1 Sg (ns+ng) gs onde ns é compreendido pelo número de pixels na
Petição 870190070355, de 24/07/2019, pág. 29/48
24/28 segmentação fornecida pelo método avaliado,_ng é o número de pixels na máscara de dados de verdade do solo, dfs é a distância de z-no pixel na segmentação até o pixel mais próximo na máscara de dados de verdade do solo e df é a distância de -j ésimo pixel na máscara de dados do verdade do solo para o pixel mais próximo na segmentação fornecida pelo método avaliado.
Resultados
Desempenho de segmentação [087] Os resultados da avaliação de seis arquiteturas propostas para diferentes resoluções são mostrados na Figura 3. Além disso, arquiteturas originais de U-Net para três resoluções, bem como os métodos de melhor desempenho e observador humano introduzidos por Van Ginneken et al., Segmentation of anatomical structures in chest radiographs using supervised methods, a comparative study on a public database, Medical Image Analysis, vol. 10, pp. 19-40, 2006, são adicionados para comparação.
[088] Todos os resultados são subdivididos em cinco blocos.
[089] O preimeiro bloco contém apenas o resultado do observador humano.
[090] O segundo bloco contém resultados para a arquitetura original da U-Net e métodos propostos por Van Ginneken et al, Segmentation of anatomical structures in chest radiographs using supervised methods, a comparative study on a public database, Medical Image Analysis, vol. 10, pp. 19-40, 2006.
[091] O terceiro, quarto e quinto blocos
Petição 870190070355, de 24/07/2019, pág. 30/48
25/28 contêm resultados da U-Net original e das arquiteturas propostas para três resoluções diferentes.
[092] Os melhores resultados para cada bloco estão ilustrados em negrito.
[093] As pontuações para segmentação pulmonar não variam de forma significativa. Todos os métodos foram capazes de mostrar um bom desempenho. Embora nossas arquiteturas não tenham superado o observado humano e o método de votação híbrida, um dos nossos modelos alcançou a mesma pontuação de Jaccard, e todas as arquiteturas propostas, assim como a U-net original, alcançaram contornos de objeto mais precisos de acordo com a distância simétrica da superfície.
[094] Todas as arquiteturas propostas alcançaram a melhor distância simétrica para as pontuações superficiais entre todos os métodos em todos os órgãos, o que prova que as redes convolucionais são muito eficientes na extração de características correspondentes às bordas dos objetos.
[095] Mesmo em caso de diferenças contra bastante baixa, por exemplo, nas fronteiras entre coração e pulmão ou clavículas e pulmões.
[096] A segmentação da clavícula é uma tarefa um pouco mais desafiadora para todas as nossas arquiteturas. E não é surpreendente, porque as clavículas são muito menores que o coração e os pulmões e suas formas mudam mais significativamente de uma varredura para outra. Nenhum dos métodos propostos podería superar o Observador Humano. Os métodos automáticos propostos por Segmentação de estruturas anatômicas em radiografias de tórax usando
Petição 870190070355, de 24/07/2019, pág. 31/48
26/28 métodos supervisionados, embora um estudo comparativo em um banco de dados público, Medical Image Analysis, vol. 10, pp. 19-40, 2006], fosse superado. A melhor arquitetura proposta superou a votação híbrida em quase 8% no escore de sobreposição de Jaccard. Todas as arquiteturas dos presentes inventores tiveram um desempenho melhor do que as arquiteturas originais da U-Net em todas as resoluções de imagem.
[097] Além disso, os resultados para resoluções mais altas são muito melhores para objetos menores, tais como clavículas. Com exceção da arquitetura InvertedNet, que apresentou um desempenho ruim devido ao agrupamento de sub-amostras atrasadas e tamanhos pequenos de filtros nas camadas convolucionais. Em resoluções mais baixas, o InvertedNet demonstrou o melhor desempenho na segmentação da clavícula, onde a U-Net Original foi superada em mais de 7% e as outras duas redes em 5% e 6%, respectivamente. Em resumo, as clavículas são mais desafiadoras para U-Net Original, All-Convolutional e AllDropout em resoluções mais baixas, devido às múltiplas camadas de pool na parte contrativa da rede. Múltiplas camadas de agrupamento fazem com que objetos como clavículas se tornem menores e, portanto, suavizem as bordas entre eles. Nesse caso, os recursos extraídos pela rede tornam-se menos expressivos.
[098] A segmentação do coração foi uma tarefa desafiadora para a arquitetura InvertedNet. Foi até um pouco superado pela U-Net Original, que por sua vez foi superada pelas outras arquiteturas propostas. Duas outras arquiteturas propostas All-Convolutional e All-Dropout
Petição 870190070355, de 24/07/2019, pág. 32/48
27/28 ultrapassaram ligeiramente o observador humano nesta tarefa.
[099] O desempenho da melhor arquitetura global InvertedNet foi avaliado com várias divisões de dados de entrada em conjuntos de treinamento e testes.
[0100] A Figura 4 mostra os resultados dos testes do InvertedNet treinados com a função de perda de entropia cruzada no sentido do pixel Tal como esperado teoricamente, as pontuações gerais foram aperfeiçoadas quando mais dados de treinamento são dados à rede. Por outro lado, o aumento da diferença entre o número de amostras em conjuntos de treinamento e testes leva a um ligeiro supera juste nos dados e, portanto, aumenta o erro final de generalização. Este não é o caso da função de perda de dados negativos, embora o número claramente crescente de amostras de treinamento ofereça resultados muito melhores. Os resultados das avaliações para diferentes divisões de teste para a função de perda de dados negativos encontram-se ilustrados na Figura 5.
[0101] Com relação ao desempenho da U-Net Original e dos modelos propostos no conjunto de testes em cada época durante o treinamento, as pontuações da U-Net Original normalmente crescem mais rápido que as outras redes no começo, mas então alcançam um platô e oscilam até ao final do procedimento de treino. Outras arquiteturas melhor regularizadas, porém, começam mais devagar, alcançam pontuações mais altas ou similares no final. InvertedNet começa devagar no começo, mas atinge o melhor resultado no final.
Desempenho de temporização
Petição 870190070355, de 24/07/2019, pág. 33/48
28/28 [0102] O método da presente invenção é uma abordagem de segmentação muito rápida para radiografias de tórax. Ele pode processar milhares de imagens por dia, o que podería ser especialmente benéfico em grandes ambientes clínicos, quando centenas ou às vezes milhares de pessoas são verificadas todos os dias.

Claims (8)

  1. REIVINDICAÇÕES
    1. Método de pipeline para a segmentação multirótulos de estruturas anatômicas em uma imagem médica que compreende as etapas de treinar uma rede neural convolucional em um conjunto de dados de treino, de modo a obter um conjunto de pesos fixos ideais, segmentar estruturas anatômicas na referida imagem médica, por meio dOo uso da referida rede neural com os referidos pesos fixos ótimos, em que durante o dito treinamento é aplicada uma função de perda ponderada que leva em conta a subrepresentação de pelo menos uma estrutura anatômica na máscara de verdade do solo em relação a outras estruturas anatômicas.
  2. 2. Método de acordo com a reivindicação 1, em que a dita função de perda ponderada é uma função de perda de entropia cruzada ponderada em pixels, em que os pesos fixos são parâmetros obtidos como resultado da otimização da referida função de perda
  3. 3. Método de acordo com a reivindicação 1, em que a dita função de perda é uma função de perda de dados negativa ponderada e os referidos pesos fixos são parâmetros obtidos como resultado da otimização da referida função de perda de dados.
  4. 4. Método de acordo com a reivindicação 1, em que a arquitetura da dita rede neural convolucional é uma arquitetura U-net modificada em que uma camada de dropout é fornecida após uma camada de convolução.
  5. 5. Método de acordo com a reivindicação 4, em
    Petição 870190070355, de 24/07/2019, pág. 35/48
    2/2 que a dita camada de dropout é compreendida por uma camada de dropout Gaussiana.
  6. 6. Método de acordo com a reivindicação 1, em que a arquitetura da dita rede neural convolucional é uma arquitetura U-net modificada na medida em que uma camada de dropout é fornecida após uma camada de convolução e camadas de agrupamento serem substituídas por camadas de convolução, uma camada de convolução de substituição tendo um tamanho de filtro igual ao tamanho de agrupamento camada de agrupamento que ela substitui.
  7. 7. Método de acordo com a reivindicação 1, em que a arquitetura da dita rede neural de convolução consiste apenas em camadas convolucionais, amostragem e dropout .
  8. 8. Método de acordo com a reivindicação 1 em que a arquitetura da referida rede neural convolucional é uma arquitetura U-net modificada por compreender uma camada de dropout fornecida após uma camada de convolução e em que a sub-amostragem da primeira das referidas camadas de agrupamento é atrasada e em que o número de mapas de características na dita rede é invertido com respeito à referida rede U.
BR112019015216A 2017-01-27 2018-01-24 método de segmentação de imagem de várias classes BR112019015216A2 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17153431.6A EP3355270B1 (en) 2017-01-27 2017-01-27 Multi-class image segmentation method
PCT/EP2018/051632 WO2018138104A1 (en) 2017-01-27 2018-01-24 Multi-class image segmentation method

Publications (1)

Publication Number Publication Date
BR112019015216A2 true BR112019015216A2 (pt) 2020-04-14

Family

ID=57914817

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112019015216A BR112019015216A2 (pt) 2017-01-27 2018-01-24 método de segmentação de imagem de várias classes

Country Status (5)

Country Link
US (1) US11055851B2 (pt)
EP (1) EP3355270B1 (pt)
CN (1) CN110337669B (pt)
BR (1) BR112019015216A2 (pt)
WO (1) WO2018138104A1 (pt)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3355270B1 (en) * 2017-01-27 2020-08-26 AGFA Healthcare Multi-class image segmentation method
US11100647B2 (en) 2018-09-10 2021-08-24 Google Llc 3-D convolutional neural networks for organ segmentation in medical images for radiotherapy planning
CN109409432B (zh) * 2018-10-31 2019-11-26 腾讯科技(深圳)有限公司 一种图像处理方法、装置和存储介质
CN109801285A (zh) * 2019-01-28 2019-05-24 太原理工大学 一种基于U-Net分割及ResNet训练的乳腺X线图像的处理方法
CN109949318B (zh) * 2019-03-07 2023-11-14 西安电子科技大学 基于多模态影像的全卷积神经网络癫痫病灶分割方法
CN109948707B (zh) * 2019-03-20 2023-04-18 腾讯科技(深圳)有限公司 模型训练方法、装置、终端及存储介质
CN109816661B (zh) * 2019-03-22 2022-07-01 电子科技大学 一种基于深度学习的牙齿ct图像分割方法
US11328430B2 (en) * 2019-05-28 2022-05-10 Arizona Board Of Regents On Behalf Of Arizona State University Methods, systems, and media for segmenting images
US11720818B2 (en) * 2019-09-11 2023-08-08 Samsung Display Co., Ltd. System and method to improve accuracy of regression models trained with imbalanced data
CN111242956A (zh) * 2020-01-09 2020-06-05 西北工业大学 基于U-Net超声胎心和胎肺深度学习联合分割方法
CN111265317B (zh) * 2020-02-10 2022-06-17 上海牙典医疗器械有限公司 一种牙齿正畸过程预测方法
CN111860568B (zh) * 2020-05-13 2022-02-08 北京嘀嘀无限科技发展有限公司 数据样本的均衡分布方法、装置及存储介质
CN111709293B (zh) * 2020-05-18 2023-10-03 杭州电子科技大学 一种基于ResUNet神经网络的化学结构式分割方法
CN111898651B (zh) * 2020-07-10 2023-09-26 江苏科技大学 一种基于Tiny YOLOV3算法的树木检测方法
CN112036477B (zh) * 2020-08-28 2022-06-17 清华大学 一种高召回率弱标注声音事件检测方法
CN112102337A (zh) * 2020-09-16 2020-12-18 哈尔滨工程大学 一种超声成像下的骨骼表面分割方法
CN112819801A (zh) * 2021-02-10 2021-05-18 桂林电子科技大学 一种改进U-Net的肺结节分割方法
CN113327666B (zh) * 2021-06-21 2022-08-12 青岛科技大学 一种胸片疾病多分类网络的多标签局部至全局学习方法
US20230077353A1 (en) * 2021-08-31 2023-03-16 University Of South Florida Systems and Methods for Classifying Mosquitoes Based on Extracted Masks of Anatomical Components from Images
CN113569865B (zh) * 2021-09-27 2021-12-17 南京码极客科技有限公司 一种基于类别原型学习的单样本图像分割方法
CN115100179B (zh) * 2022-07-15 2023-02-21 北京医准智能科技有限公司 一种图像处理方法、装置、设备及存储介质
CN115661144B (zh) * 2022-12-15 2023-06-13 湖南工商大学 基于可变形U-Net的自适应医学图像分割方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110007954A1 (en) * 2009-07-07 2011-01-13 Siemens Corporation Method and System for Database-Guided Lesion Detection and Assessment
US9730643B2 (en) * 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
CN106056595B (zh) * 2015-11-30 2019-09-17 浙江德尚韵兴医疗科技有限公司 基于深度卷积神经网络自动识别甲状腺结节良恶性的辅助诊断系统
US10304002B2 (en) * 2016-02-08 2019-05-28 Youspace, Inc. Depth-based feature systems for classification applications
EP3273387B1 (en) * 2016-07-19 2024-05-15 Siemens Healthineers AG Medical image segmentation with a multi-task neural network system
EP3488381B1 (en) * 2016-07-21 2024-02-28 Siemens Healthineers AG Method and system for artificial intelligence based medical image segmentation
CN106296699A (zh) * 2016-08-16 2017-01-04 电子科技大学 基于深度神经网络和多模态mri图像的脑肿瘤分割方法
EP3355270B1 (en) * 2017-01-27 2020-08-26 AGFA Healthcare Multi-class image segmentation method
US10706554B2 (en) * 2017-04-14 2020-07-07 Adobe Inc. Three-dimensional segmentation of digital models utilizing soft classification geometric tuning
US11250601B2 (en) * 2019-04-03 2022-02-15 University Of Southern California Learning-assisted multi-modality dielectric imaging

Also Published As

Publication number Publication date
US11055851B2 (en) 2021-07-06
CN110337669A (zh) 2019-10-15
WO2018138104A1 (en) 2018-08-02
US20210019889A1 (en) 2021-01-21
EP3355270B1 (en) 2020-08-26
CN110337669B (zh) 2023-07-25
EP3355270A1 (en) 2018-08-01

Similar Documents

Publication Publication Date Title
BR112019015216A2 (pt) método de segmentação de imagem de várias classes
Wang et al. A noise-robust framework for automatic segmentation of COVID-19 pneumonia lesions from CT images
Liu et al. Weakly supervised segmentation of COVID19 infection with scribble annotation on CT images
Novikov et al. Fully convolutional architectures for multiclass segmentation in chest radiographs
Oktay et al. Anatomically constrained neural networks (ACNNs): application to cardiac image enhancement and segmentation
Dou et al. Pnp-adanet: Plug-and-play adversarial domain adaptation network at unpaired cross-modality cardiac segmentation
Gerard et al. FissureNet: a deep learning approach for pulmonary fissure detection in CT images
Poudel et al. Recurrent fully convolutional neural networks for multi-slice MRI cardiac segmentation
Wu et al. Cascaded fully convolutional networks for automatic prenatal ultrasound image segmentation
de Brebisson et al. Deep neural networks for anatomical brain segmentation
CN105574859B (zh) 一种基于ct图像的肝脏肿瘤分割方法及装置
Thambawita et al. Divergentnets: Medical image segmentation by network ensemble
Scannell et al. Domain-adversarial learning for multi-centre, multi-vendor, and multi-disease cardiac MR image segmentation
Chang et al. Automatic cardiac MRI segmentation and permutation-invariant pathology classification using deep neural networks and point clouds
Wang et al. Left atrial appendage segmentation based on ranking 2-D segmentation proposals
CN110047075A (zh) 一种基于对抗网络的ct图像分割方法
Martín-Isla et al. Stacked BCDU-Net with semantic CMR synthesis: Application to myocardial pathology segmentation challenge
Upendra et al. An adversarial network architecture using 2D U-net models for segmentation of left ventricle from cine cardiac MRI
Liu et al. Left atrium segmentation in CT volumes with fully convolutional networks
US11693919B2 (en) Anatomy-aware motion estimation
Chen et al. Adaptive Cross Entropy for ultrasmall object detection in Computed Tomography with noisy labels
Zakeri et al. A probabilistic deep motion model for unsupervised cardiac shape anomaly assessment
Ouzounis et al. Partition-induced connections and operators for pattern analysis
Yu et al. Distilling sub-space structure across views for cardiac indices estimation
Agarwala et al. Automated segmentation of lung field in HRCT images using active shape model

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]