BR112019015216A2 - método de segmentação de imagem de várias classes - Google Patents
método de segmentação de imagem de várias classes Download PDFInfo
- Publication number
- BR112019015216A2 BR112019015216A2 BR112019015216A BR112019015216A BR112019015216A2 BR 112019015216 A2 BR112019015216 A2 BR 112019015216A2 BR 112019015216 A BR112019015216 A BR 112019015216A BR 112019015216 A BR112019015216 A BR 112019015216A BR 112019015216 A2 BR112019015216 A2 BR 112019015216A2
- Authority
- BR
- Brazil
- Prior art keywords
- architecture
- layer
- loss function
- layers
- segmentation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003709 image segmentation Methods 0.000 title description 9
- 230000011218 segmentation Effects 0.000 claims abstract description 46
- 210000003484 anatomy Anatomy 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 239000002689 soil Substances 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 6
- 230000003111 delayed effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 25
- 210000003109 clavicle Anatomy 0.000 description 20
- 210000000038 chest Anatomy 0.000 description 17
- 210000000056 organ Anatomy 0.000 description 16
- 238000012360 testing method Methods 0.000 description 13
- 238000013459 approach Methods 0.000 description 12
- 210000002216 heart Anatomy 0.000 description 12
- 210000004072 lung Anatomy 0.000 description 12
- 230000004913 activation Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000011976 chest X-ray Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000002685 pulmonary effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010191 image analysis Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 210000000988 bone and bone Anatomy 0.000 description 3
- 230000000747 cardiac effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005489 elastic deformation Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 229910052710 silicon Inorganic materials 0.000 description 2
- 239000010703 silicon Substances 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010056342 Pulmonary mass Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 210000005240 left ventricle Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 201000008827 tuberculosis Diseases 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/05—Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves
- A61B5/055—Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves involving electronic [EMR] or nuclear [NMR] magnetic resonance, e.g. magnetic resonance imaging
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B6/00—Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
- A61B6/52—Devices using data or image processing specially adapted for radiation diagnosis
- A61B6/5211—Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data
- A61B6/5252—Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data removing objects from field of view, e.g. removing patient table from a CT image
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B8/00—Diagnosis using ultrasonic, sonic or infrasonic waves
- A61B8/52—Devices using data or image processing specially adapted for diagnosis using ultrasonic, sonic or infrasonic waves
- A61B8/5215—Devices using data or image processing specially adapted for diagnosis using ultrasonic, sonic or infrasonic waves involving processing of medical diagnostic data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30008—Bone
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30048—Heart; Cardiac
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30061—Lung
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
expõe-se um método de linha de tubulação para segmentação multi-rótulo de estruturas anatômicas em uma imagem médica por meio de uma rede neural convolucional treinada com uma função de perda ponderada que leva em conta a sub-representação de pelo menos uma estrutura anatômica na máscara de verdade do solo em relação a outras estruturas anatômicas. descrevem-se diferentes arquiteturas para a rede neural convolucional.
Description
MÉTODO DE SEGMENTAÇÃO DE IMAGEM DE VÁRIAS CLASSES
CAMPO DA INVENÇÃO [001] Refere-se a presente invenção à segmentação de imagens. Mais especificamente, a invenção refere-se a um método para a segmentação de várias classes sincronas de diferentes estruturas anatômicas em imagens médicas, tais como segmentação de pulmão, coração e clavículas em radiografias de tórax.
ANTECEDENTES DA INVENÇÃO [002] A invenção refere-se à segmentação de várias classes sincronas de diferentes estruturas anatômicas.
[003] A segmentação de várias classes pode, por exemplo, ser usada para segmentar diferentes estruturas anatômicas em uma imagem médica, tais como pulmões, coração e clavículas, em uma radiografia de tórax.
[004] Outras aplicações podem ser consideradas, tais como segmentação de lesões, por exemplo, lesões devido a tuberculose, segmentação de costelas e outras assemelhadas.
[005] De um modo geral, a invenção visa a segmentação de várias classes de estruturas que são dotadas de bordas definidas em imagens médicas.
[006] Como resultado de tal processo de segmentação, podem ser detectadas variações do tamanho, posição e áreas do coração, campos pulmonares, estrutura do hila, clavículas, e outros assemelhados.
[007] Isto pode proporcionar pistas sobre condições existentes, tais como o TBC e o câncer, ou ajudar nas próximas etapas da detecção assistida por computador e
Petição 870190070355, de 24/07/2019, pág. 7/48
2/28 do diagnóstico médico.
[008] Por essa razão, a segmentação semântica de radiografias, ou seja, a localização de órgãos ou estruturas tem sido um campo ativo de estudo.
[009] Complexidades anatômicas individuais tais como altas variações interpessoais na forma e tamanho dos órgãos centrais, tais como campos pulmonares, clavículas e coração, relacionadas à idade, tamanho e gênero, limites de órgãos ambíguos devido a sobreposições de órgãos e artefatos causados por movimentos e intrínsecos de modalidade de imagem. São apenas algumas das razões pelas guais a segmentação precisa de órgãos continua sendo uma tarefa inerentemente desafiadora.
[0010] Abordagens algorítmicas clássicas têm sido amplamente descritas e usadas. O espaço de abordagens algorítmicas pode ser dividido em métodos baseados em regra, forma e gráfico, classificação de pixel e abordagens estatísticas.
[0011] Cada estrutura metodológica tem o seu próprio conjunto de vantagens, por exemplo, pela limitação a um conjunto de regras predefinido ou formato deformável, métodos baseados em regras e formas produzirão soluções anatômicas judiciosas.
[0012] Embora conceitualmente com mais de 50 anos, as redes neurais (NN) , a base abstrata da aprendizagem profunda, estão vivendo um renascimento. Uma compreensão mais profunda do treinamento e do comportamento numérico e o aumento acentuado de esquemas de cálculos tratáveis através da utilização de unidades de processamento gráfico (GPUs) permitiram que essa classe de
Petição 870190070355, de 24/07/2019, pág. 8/48
3/28 abordagem se tornasse o padrão de fato ou, pelo menos, concorrente sério em vários ramos de aprendizado de máquina.
[0013] O que se segue enfoca as redes neurais convolucionais (CNN), uma subclasse de NN frequentemente usada com sucesso em tarefas de visão computacional.
[0014] Uma configuração prototipica de uma CNN consiste em uma combinação de filtros de convolução, intercalados com camadas de redução e agrupamento de dados. A idéia motriz é imitar a cognição visual humana, nesse sentido, que o quadro completo é derivado de características de baixo nível, por exemplo, bordas e círculos, que por sua vez produzem mais características distintivas e finalmente o alvo desejado através da recombinação em cada camada sucessiva. Sob esse aspecto, a principal diferença das abordagens clássicas é que o aprendizado profundo normalmente evita o uso de recursos específicos, projetados manualmente, para um conjunto puramente derivado, mais capaz de descrever diferentes aspectos de um objeto.
[0015] Em relação à segmentação de imagens médicas, foram estudadas várias dessas disposições. Normalmente, as CNNs são usadas para tarefas de classificação, ou seja, uma imagem de entrada é atribuída a um conjunto contável de rótulos de classe. Complicando, imagens médicas longas para a relação espacial dos rótulos desta classe. Como dito anteriormente no presente caso, essa segmentação semântica geralmente se baseia em um vasto conjunto de dados de treinamento. Esses conjuntos de dados profundos não são típicos do domínio médico, inviabilizando
Petição 870190070355, de 24/07/2019, pág. 9/48
4/28 a maioria das abordagens atuais, exigindo, portanto, uma estratégia finamente adaptada.
[0016] As primeiras tentativas datam de mais de 15 anos atrás. Tsujii et al. Segmentação automatizada de regiões anatômicas em radiografias de tórax usando uma rede neural híbrida de tamanho adaptável, Medical physics, vol. 25, pp. 998-1007, 1998, utilizam um NN para a segmentação do campo pulmonar, com uma precisão de cerca de 86%. Aece et al. Segmentação da estrutura óssea em imagens de raios X usando rede neural convolucional, Advances in Electrical and Computer Engineering, vol. 13, não. 1, pp. 87-94, fevereiro de 2013, usam um CNN como um classificador binário e, deste modo, dividem radiografias de tórax nos dois conjuntos {bone, non-bone] de forma totalmente automatizada. Um NN não precisa ser considerado como uma solução independente tal como T.A. Ngo e G. Carneiro, 21Lund segmentation in chest radiographs using distance regularized level set and deep-structured learning and inference, em Processamento de imagens (ICIP, Conferência Internacional IEEE 2015, de setembro de 2015, pp. 21402143). nível combinado regularizado definido com uma abordagem de aprendizagem profunda e rendeu no JSRT uma pontuação de sobreposição de 0,948-0,985.
[0017] Embora a segmentação CXR ainda não tenha sido amplamente abordada, diferentes modalidades, tais como ultrassonografia, TC e MRT, foram exploradas [G. Carneiro, J.C. Nascimento, and A. Freitas, The segmentation of the left ventricle of the heart from ultrasound data using deep learning architectures and derivative-based search methods, IEEE Transactions on
Petição 870190070355, de 24/07/2019, pág. 10/48
5/28
Imaging Processing, vol. 21, n° . 3, pp. 968-982, March 2012; M. Havaei, A. Davy, D. Warde-Farley, A. Biard, A. Courville, Y. Bengio, C. Pal,, P.-M. Jodoin and H. Larochelle, Brain tumor segmentation with deep neural networks, Medical Image Analysis, 2016; P. Petersen, M. Nielsen, P. Diao, N. Karssemeijer, and M. Lillholm, Breast tissue segmentation and mammographic risk scoring using deep learning. Springer Science+Business Media B.V., 2014, pp. 88-94; B. Gaonkar, D. Hovda, N. Martin and L. Macyszyn, Deep learning in the small sample size setting; cascaded feed forward neural networks for medical image segmentation, pp. 978521-978521-8, 2016].
[0018] Em J. Long, E. Shelhamer, and T. Darrell, Fully convolutional networks for semantic segmentation, em Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 34313440 visam a necessidade de recursos locais que coincidam com estruturas globais, ande definem a Rede Plenamente Convolucional. Este tipo de rede permite entrada e saída de tamanho arbitrário. Começando com a camada de entrada, cada camada sucessiva gera uma matriz tridimensional cujos valores correspondem aos campos conectados ao caminho da camada de processo. Esses campos são respectivamente convolvidos, agrupados ou geralmente transformados não linearmente, resultando em uma série de camadas de contratação. Em combinação com a fusão de camadas, isto é, os atalhos entre as camadas selecionadas, essa configuração alcança uma representação de recurso não linear, de local para global, e permite uma classificação em pixels. Adaptando esta classe de rede com sucessivas camadas de
Petição 870190070355, de 24/07/2019, pág. 11/48
6/28 amostragem, ou seja, ampliando o campo de visão da convolução, Ronneberger et al. U-net: Convolutional networks for biomedical image segmentation,in International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234241, pode direcionar a resolução da extração de recursos e, desse modo, controlar as relações locais-globais dos recursos .
[0019] Constitui um aspecto desta invenção adaptar esta abordagem para radiografias de tórax, isto é, para conjuntos de dados de nivel de órgão.
[0020] Constitui outro aspecto adaptar este sistema para que ele possa ser aplicado com sucesso para a segmentação multi-label de conjuntos de dados desequilibrados e que possa proporcionar resultados de segmentação muito bons com uma quantidade razoável de esforço computacional. SUMÁRIO DA INVENÇÃO [0021] Os aspectos mencionados anteriormente no presente caso são obtidos por meio de um método que é dotado das características específicas estabelecidas na reivindicação 1.
[0022] Características específicas para concretizações preferidas da invenção são apresentadas nas reivindicações dependentes. [0023] A invenção é dotada das seguintes vantagens em relação à técnica anterior:
[0024] O método da presente invenção é amplamente adequado para segmentação sincrona de múltiplos rótulos de órgãos anatômicos em radiografias de tórax, em
Petição 870190070355, de 24/07/2019, pág. 12/48
7/28 particular, clavículas, pulmões e campos cardíacos.
[0025] De acordo com concretizações especificas da presente invenção, são introduzidas várias arquiteturas de rede especificas que são capazes de funcionar convenientemente sem aumento adicional de dados, apenas nos dados fornecidos.
[0026] Essas arquiteturas superam algoritmos de última geração e U-Net original no conjunto de dados JSRT disponível publicamente.
[0027] Essas arquiteturas são compreendidas por pulmões de múltiplas classes e segmentos, clavículas e coração simultaneamente.
[0028] Além disso, essas arquiteturas têm um desempenho eficaz em um conjunto de dados com representação de dados altamente desequilibrada, tais como as clavículas que estão sub-representadas nas radiografias de tórax em comparação com os campos cardíaco e pulmonar.
[0029] Para solucionar o problema da representação de dados desbalanceados, duas funções específicas de perda ponderada são introduzidas para o procedimento de treinamento da rede.
[0030] Outras vantagens e formas de realização da presente invenção tornar-se-ão evidentes a partir da descrição e desenhos apresentados em seguida.
DESCRIÇÃO BREVE DOS DESENHOS [0031] A Figura 1 a - d mostra diferentes concretizações das arquiteta uras de rede.
[0032] A Figura 2 mostra os tempos de execução para diferentes resoluções de imagem.
[0033] A Figura 3 é uma comparação das
Petição 870190070355, de 24/07/2019, pág. 13/48
8/28 diferentes concretizações de arquiteturas utilizadas em um método de acordo com a presente invenção versus métodos do estado da técnica.
[0034] A Figura 4 é uma comparação da arquitetura InvertNet para diferentes divisões de validação para a função de perda de entropia cruzada do sentido do Pixel.
[0035] A Figura 5 é uma comparação da arquitetura InvertNet para diferentes divisões de validação para a função Negative Dice Loss.
DESCRIÇÃO DETALHADA DA INVENÇÃO [0036] Da mesma forma que a maioria dos pipelines relacionados ao aprendizado profundo, a abordagem atual consiste nas seguintes etapas principais: preparação e normalização de dados, projeto de arquitetura de modelo, treinamento de modelo e teste do modelo treinado. A entrada no caso de radiografias de tórax consiste em um conjunto de imagens 2D (abaixo chamado J ) e as correspondentes máscaras de verdade do solo multicanal. O modelo é construído, inicializado e treinado. Após o término do treinamento, os pesos do modelo aprendido e as camadas de regularização são fixados e o modelo é validado em um conjunto de imagens de teste.
Abordagem de várias classes [0037] A entrada consiste de um conjunto de imagens 2D J = {I\I e R'1'2 j e as correspondents máscaras de verdade do solo binário multicanal (LíV)lsíSn onde L( e R({05i}p-2, n é o número de classes que se pretende direcionar e ml,m2 são as dimensões de imagem.
Petição 870190070355, de 24/07/2019, pág. 14/48
9/28 [0038] Em primeiro lugar divide-se J em conjuntos ITrain de tamanho =|I train I e I test = J \ I train · Tal como descrito anteriormente, para cada /eJ utiliza-se uma série de máscaras de verdade de solo binário (L;/)lsíSn · Para uma referência posterior deixa-se que C seja o conjunto de todas as classes de verdade de solo, conseqüentemente \<n <| C| .
[0039] As redes são treinadas da seguinte maneira: a rede é passada consecutivamente com mini cargas KeN onde N é compreendida por uma partição de ITRAin e mini cargas K são conjuntos não vazios de imagens derivados de forma que cada imagem está incluído em um e apenas uma dos mini cargas K . Além disso, introduzimos cK para definir a contagem total de pixels em todos IeK .
[0040] Para cada um I eK é calculada a saída de várias classes da rede, ou seja, a compreensão da rede como uma função
F:J^(R({0,1}F^)1s;s„ (1) [0041] Por essa razão, para cada pixel de 1 sua classe semântica l <e C pode ser derivado em uma única etapa até alguma probabilidade.
[0042] Para estimar e elevar ao máximo essa probabilidade, podemos definir uma função de energia
A(L.p : R({0,l})m‘xm2 x(L,z)^R (2) que avalia o desvio (erro) do resultado da rede a partir da verdade do solo desejada. O erro é propagado de
Petição 870190070355, de 24/07/2019, pág. 15/48
10/28 volta para atualizar os parâmetros da rede. Todo o procedimento continua até que os critérios de parada dados definidos sejam cumpridos.
[0043] No momento do teste, uma imagem invisível ZeITESTé transmitida pela rede e é produzida a saída multi-rótulo F(/) . Conforme definido anteriormente no presente caso, a saída de rede consiste em séries de máscaras de segmentação multicanal. Os canais no caso de radiografias de tórax correspondem a diferentes órgãos do corpo.
[0044] O modelo é construído, inicializado e ainda treinado. Após o término do treinamento, os pesos do modelo aprendido e as camadas de regularização são fixados e o modelo é validado em um conjunto de imagens de teste. As principais etapas do método são introduzidas de forma detalhada nas seções que se seguem.
Configuração da base [0045] A arquitetura semelhante à U-Net, proposta originalmente por Ronnenberger et al. U-net: Convolutional networks for biomedical image segmentation, na Conferência Internacional sobre Computação Médica de Imagens e Intervenção Assistida por Computador, Springer, 2015, pp. 234-241 consiste em partes de contração e expansão. Na parte de contração, características abstratas de alto nível são extraídas por aplicação consecutiva de pares de camadas convolucionais e de agrupamento. Na parte de expansão, os recursos atualizados são mesclados com os recursos da parte contrativa, respectivamente. A saída da rede é uma máscara de segmentação multicanal em que cada canal tem o mesmo tamanho que a imagem de entrada.
Petição 870190070355, de 24/07/2019, pág. 16/48
11/28 [0046] O excelente desempenho da arquitetura original da U-Net foi demonstrado para rastreamento e segmentação de células de estruturas neuronals em pilhas microscópicas eletrônicas. [0047] No entanto, para outras tarefas especificas, requer modificações adicionais devido a uma representação de dados diferente quando os dados são altamente desequilibrados ou em casos em que o aumento de dados não é razoável. [0048] O problema de dados desbalanceados em imagens médicas ocorre devido a diferentes tamanhos dos órgãos anatômicos de interesse. Por exemplo, no conjunto de dados do JSRT, 60% dos pixels pertencem ao fundo, 29% ao pulmão, 2% às clavículas e 9% ao coração, respectivamente, enfatizando os pulmões e os campos cardíacos sobre as clavículas.
Aperfeiçoamentos do modelo U-net para radiografias de tórax [0049] No topo da arquitetura original, a rede com múltiplas modificações em regularização, treinamento e arquitetura é analisada e avaliada. Em cada categoria, é considerado de forma detalhada um número de vários aperfeiçoamentos possíveis do modelo de rede e, com base nos resultados da avaliação, vários modelos são propostos para treinar e realizar eficientemente a segmentação por multi classe em imagens CXR médicas. Para evitar o aumento de dados usado no trabalho por Ronnenberger et al. U-net: Convolutional networks for biomedical image segmentation, na Conferência Internacional sobre Computação Médica de Imagens e Intervenção Assistida por Computador, Springer, 2015, pp.
Petição 870190070355, de 24/07/2019, pág. 17/48
12/28
234-241 propõe-se alternar ligeiramente o modelo de forma diferente pelo uso de uma regularização mais agressiva diferente. Além disso, várias arquiteturas são propostas para melhorar ainda mais o resultado da segmentação. Além de uma regularização de modelos e modificações arquiteturais diferentes, uma estratégia diferente de função de perda de treinamento é proposta para lidar com um problema de representação de dados altamente desbalanceada.
Modificações de Arquitetura [0050] Adquirir mais dados de treinamento seria benéfico para qualquer algoritmo de aprendizado na maioria dos casos. No entanto, em imagens médicas, obter dados adicionais nem sempre é viável.
[0051] Ronnenberger et al. U-net: Convolutional networks for biomedical image segmentation, na International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234-241 usaram deformações elásticas para o aumento de dados a fim de regularizar o modelo. Não obstante, as deformações elásticas não são razoáveis no caso de radiografias de tórax porque tornariam órgãos rígidos como pulmões, coração e clavículas anatomicamente incorretos e poderíam confundir o treinamento fazendo com que as características de aprendizado da rede correspondessem a estruturas não realistas.
[0052] O número de mapas e camadas de recursos na versão original do U-Net é grande, o que resulta em dezenas de milhões de parâmetros no sistema, o que retarda o treinamento e não diminui necessariamente o erro de generalização. Sem qualquer forma de regularização,
Petição 870190070355, de 24/07/2019, pág. 18/48
13/28 essas grandes redes podem se sobrepor aos dados.
Especialmente quando não há muitos dados de treinamento disponíveis. No sobre CXR, o superjuste de dados é um problema especialmente para órgãos anatômicos prolongados, menores ou mais finos, como as clavículas, devido às suas representações de formas mais variadas nas imagens de RXT. No caso em que a arquitetura de rede é profunda e a disponibilidade de dados de treinamento é limitada, outra possibilidade de diminuir o erro de teste de generalização do algoritmo consiste em uma regularização mais agressiva, a) All-Dropout (Perda momentânea total): arquitetura simples plenamente regularizada [0053] A camada de perda momentânea [29] é uma prática comum em arquiteturas modernas de redes profundas. Além disso, foi demonstrado por Bouthillier et al. [30] que também pode desempenhar um papel de aumento de dados ao mesmo tempo. Portanto, os inventores propõem uma arquitetura com uma camada de perda momentânea após cada camada convolucional na rede. Os inventores utilizam a perda momentânea gaussiana que equivale a adicionar uma variável aleatória distribuída de Gauss com média zero e desvio padrão igual à ativação da unidade neural. De acordo com Srivastava et al Dropout: a simple way to prevent neural networks from overfitting Journal of Machine Learning Research, vol. 15, no. 1, pp. 1929-1958, 2014, funciona talvez até melhor que o clássico que usa a distribuição de Bernoulli. Além disso, adicionar esse ruído é uma escolha mais natural para as radiografias de tórax devido ao ruído que ocorre durante a aquisição [31]. No que se segue esta arquitetura é chamada Perda Momentânea Total.
Petição 870190070355, de 24/07/2019, pág. 19/48
14/28
b) J-Net: aperfeiçoando a precisão para resolução mais baixa [0054] Objetos menores são difíceis de segmentar especialmente em caso de baixa resolução de imagem. Nesse caso, quatro camadas de agrupamento da arquitetura U-Net original podem ser fatais para esses obj etos..
[0055] Para lidar com esse problema na resolução mais baixa, uma arquitetura é proposta, a qual é chamada de J-Net. Nesta arquitetura, a Perda Momentânea Total é precedida por quatro camadas convolucionais e duas camadas de agrupamento. A resolução da camada de entrada, nesse caso, deve ser quatro vezes maior em cada dimensão do que na resolução normal da camada de entrada.
c) InvertedNet: aperfeiçoaando a precisão com menos parâmetros [0056] Uma maneira de lidar com o sobre ajuste de modelo é reduzir o número de parâmetros. Prop ou se uma modificação da arquitetura de Perda Momentânea Total
a) realizando a sub-amostragem atrasada da primeira camada de agrupamento com (1,1) agrupamento e b) alterando os números de mapas de recursos na rede.
[0057] Nesta arquitetura, propõe-se iniciar com um grande número de mapas de recursos e reduzi-los por um fator pelo fator de dois após cada camada de agrupamento e, em seguida, aumentar de volta pelo fator de dois após cada camada de amostragem.
[0058] Nesse caso, as redes aprendem muitas variações diferentes de estruturas nas camadas iniciais e menos recursos de alto nível nas camadas posteriores.
Petição 870190070355, de 24/07/2019, pág. 20/48
15/28 [0059] Isto parece mais razoável no caso de órgãos anatômicos mais rígidos, tais como as clavículas, porque suas formas não variam muito e, portanto, não há necessidade de aprender muitas características abstratas altas. Essa arquitetura é chamada de InvertedNet devido à maneira como os números de mapas de recursos são alterados em relação à arquitetura original do U-Net.
d) Rede Convolucional Total: Aprendizagem em grupo para segmentação [0060] J. T. Springenberg, A. Dosovitskiy, T. Brox, e M. Riedmiller, Striving for simplicity: The all convolutional net, arXiv preprint arXiv: 1412.6806, 2014 demonstrou que ter camadas de agrupamenos substituídas por camadas convolucionais com maior passo ou remover camadas de agrupamento produz completamente resultados semelhantes ou até mesmo aperfeiçoa, tornando a rede totalmente convolucional.
[0061] Esta modificação introduz novos parâmetros na rede, mas pode ser considerada como um aprendizado de agrupamento para cada parte da rede, em vez de apenas corrigir os parâmetros de agrupamento para valores constantes. Esse aprendizado de agrupamento pode ser útil para fazer com que a rede aprenda recursos melhores para objetos alongados menores e mais finos. Motivado ainda pelo trabalho de J. T. Springenberg, A. Dosovitskiy, T. Brox e M. Riedmiller, Striving for simplicity: The all convolutional net, arXiv preprint arXiv:1412.6806, 2014, consideram esta segunda
Petição 870190070355, de 24/07/2019, pág. 21/48
16/28 configuração. Em tal configuração, cada camada de agrupamento é substituída por uma camada convolucional com dimensão de filtro igual à dimensão de agrupamento igual à dimensão de agrupamento da camada de agrupamento substituída. A arquitetura de perda momentânea total é modificada de forma correspondente. Esta arquitetura é chamada ainda de Toda convolucional.
Estratégias de Treinamento:
[0062] Como já mencionado, grandes diferenças nos tamanhos de órgãos anatômicos de interesse podem introduzir um problema de representação de dados desbalanceados.
[0063] Nesses casos, as classes são representadas em quantidades altamente diferentes em pixels e, portanto, as perdas para classes esparsamente representadas podem passar despercebidas.
[0064] Portanto, formulações clássicas de perda, tais como entropia cruzada ou funções negativas de dados, subestimariam as classes representadas em quantidades muito pequenas.
[0065] O problema relacionado com o desequilíbrio na representação de pixels é resolvido na presente invenção através da introdução de uma função de distância ponderada.
Seja C o conjunto de todas as classes de verdade e N uma partição do conjunto de treinamento usado. KeN e cK sua cintagem de pixels total podemos definir rKX como sendo a relação:
Petição 870190070355, de 24/07/2019, pág. 22/48
17/28 (D
onde clK | é compreendido pelo | número | de pixels |
pertencente a uma | classe de órgão | IeC na | carga de |
treinamento K . | |||
Para | uma função | de | distância |
d : {0,l}miXm2 x {0,l}m‘X7”2 R | , e uma imagem IeK | reduzimos | ao mínimo |
a nossa função alvo
ZeL |
2) |
Sobre o conjunto K e a partição completa |
[066] Como consequência, as |
esparsamente representadas, por exemplo, clavículas, não são mais sub-representadas em favor da grande máscara de verdade no solo, por exemplo, campos pulmonares.
[067] Para d selecionamos e avaliamos as chamadas funções de perda de dados negativa ponderadas por pixel e entropia cruzada.
[068] A função de perda ponderada de dados, no presente caso, leva a ativação sigmóide computada no mapa final do recurso de saída para cada canal como a entrada. A ativação sigmóide é definida como:
(3) onde ακ(χ) indica ativação no canal de recurso k sob o pixel xel e pk(x) é a probabilidade aproximada do pixel x não pertencente ao fundo. No caso de dados negativos ponderados, a saída não precisa proporcionar um
Petição 870190070355, de 24/07/2019, pág. 23/48
18/28 canal para a classe de fundo.
[069] Dada uma imagem I , deixa-se que {L(} seja o conjunto de pixels não de fundo na correspondente máscara multicanal verdadeira de solo e //(/) = {%: x & I λ\pk (%) -1| < ε} (4) seja o conjunto de pixels onde o modelo tem certeza de que eles não pertencem ao fundo e ε é compreendido por um pequeno valor de tolerância.
a função de distância d para o coeficiente de dados negativos para uma imagem de treinamento I pode ser então definida como:
-2|pWnGW| (5) onde P(í) é a máscara de segmentação prevista e G(í) é a máscara de segmentação de verdade do solo correspondente para a imagem I .
[070] A entropia cruzada ponderada em pixels leva a ativação softmax computada no mapa final do recurso de saída para cada canal como a entrada. O softmax pt(x) pode ser definido como em Ronneberger et al. U-net: Convolutional networks for biomedical image segmentation, na International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234241; e a função de distância d da entropia cruzada para uma imagem de treinamento I é definida como:
lG(/)log pk(x) ----------------- ( Ό) Ck [071] O desempenho de ambas as funções de <Μ')=Σ
Petição 870190070355, de 24/07/2019, pág. 24/48
19/28 perda será comparado.
Arquiteturas de rede propostas [072] Na Figura 1 encontram-se ilustradas diferentes concretizações da arquitetura de rede.
[073] Os modelos propostos em detalhe são os seguintes:
[074] Perda Momentânea Total: Versão modificada da arquitetura U-Net [Ronneberger et al. U-net: Convolutional networks for biomedical image segmentation, em International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234241] com camadas de perda momentânea colocadas depois de cada camada convolucional. Ilustrada na Figura la.
[075] InvertedNet: Semelhante à Perda Momentânea Total com a sub-amostragem atrasada da primeira camada de agrupamento e os números de mapas de recursos na rede invertidos em relação à U-net original. Vide Figura 1b.
• Todo-Convolucional: Semelhante à Perda Momentânea Total com camadas de agrupamento substituídas por novas camadas convolucionais com tamanhos de filtro iguais ao tamanho da camada de agrupamento correspondente. Vide Figura 1c.
• J-Net: Semelhante à Perda Momentânea Total com as quatro camadas convolucionais e duas agrupadas precedentes e a entrada de uma resolução maior. Ilustrado na Figura Id.
[076] Convoluções preenchidas são usadas em todas as arquiteturas para todas as camadas convolucionais. Portanto, os canais de saída terão o mesmo tamanho da
Petição 870190070355, de 24/07/2019, pág. 25/48
20/28 imagem de entrada, exceto a arquitetura J-net, em que as dimensões de entrada são quatro vezes maiores que a saída. Todas as arquiteturas propostas contêm camadas convolucionais e de perda momentânea. Em todas as arquiteturas, todas as camadas convolucionais são seguidas por camadas de perda momentânea, exceto as terceiras camadas convolucionais na arquitetura All-Convolutional, onde a camada desempenha um papel de uma camada de agrupamento que ela substitui.
[077] Em todos os modelos, foram usadas as funções de unidade linear retificada [R.H. Hahnloser et al., A seleção digital e a amplificação analógica coexistem em um circuito de silício inspirado no córtex, Nature, vol. 405, no. 6789, pp. 947-951, 200 [33]] em todas as camadas ocultas convolucionais.
[078] Para reduzir o número de parâmetros e acelerar o treinamento, em vez das últimas camadas densas, uma camada convolucional é usada com o número de mapas de recursos igual ao número de classes consideradas no caso da função de dados ponderada e com um ou mais fundo no caso de funções de entropia cruzada ponderadas em pixels. Para respingar os valores na faixa [0, 1] na saída da rede, uma função sigmóide é usada como uma ativação na camada de saída.
Experimentos
Conjunto de dados JSRT [079] Utiliza-se o conjunto de dados JSRT, J.
Shiraishi, S. Katsuragawa, J. Ikezoe, T. Matsumoto, T.
Kobayashi, K.-i. Komatsu, M. Matsui, H. Fujita, Y. Kodera
Petição 870190070355, de 24/07/2019, pág. 26/48
21/28 and K. Doi, Development of a digital image database for chest radiographs with and without a lung nodule; receiver operating characteristic analysis of radiologists' detection of pulmonary nodules. American Journal of Roentgentechnology, vol. 174, no. 1, pp. 71-74, 2000, tanto para treinamento quanto para avaliação. O conjunto de dados consiste em 247 radiografias de tórax PA com uma resolução de 2048 χ 2048, 0,175 mm de tamanho de pixel e 12 bits de profundidade .
[080] A base de dados SCR com limites de órgãos de referência para campos pulmonares esquerdo e direito, coração e clavículas esquerda e direita foi introduzida em 1024x1024 resolução por Ginneken et al. , Segmentação de estruturas anatômicas em radiografias de tórax usando métodos supervisionados: um estudo comparativo em um banco de dados público. Medical Image Analysis, vol. 10, pp. 19-40, 2006.
Modelo de treinamento [081] Os dados foram normalizados usando-se a média e o desvio padrão em todo o conjunto de dados de treinamento. Ele foi centrado no zero primeiro, subtraindose a média e, em seguida, normalizando-o adicionalmente escalado usando-se seu desvio padrão. Foi então dividido em conjuntos de treinamento e testes. Todos os modelos foram treinados em imagens das seguintes resoluções de imagem: 128x128, 256x256 e 512x512. Imagens e máscaras originais foram amostradas para essas resoluções pelo algoritmo de média local. Para tornar o papel comparável com métodos de última geração, a maioria dos resultados em nosso trabalho
Petição 870190070355, de 24/07/2019, pág. 27/48
22/28 correspondem à resolução de imagem de 256x256.
[082] Em todos os experimentos, a unidade linear retificada funciona R. H. Hahnloser et al., Digital selection and analogue amplification coexist in a cortexinspired silicon circuit, Nature, vol. 405, n°. 6789, pp. 947-951, 200 foram usados em todas as camadas ocultas convolucionais. É a função de ativação mais comum e com bom desempenho nas arquiteturas de rede modernas.
[083] Para reduzir o número de parâmetros e acelerar o treinamento no final, em vez de usar camada densa, usamos a camada convolucional com o número de mapas de características igual ao número de classes consideradas no caso dos dados ponderados e com mais um para o fundo em caso de funções de entropia cruzada pixelwise ponderadas. Para aplicar os valores ao intervalo na saída da rede, foi utilizada a função sigmóide como uma ativação na camada de saída.
[084] Para se otimizar o modelo os inventores utilizaram o Adaptive Moment Estimation method (ADAM) D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412-6980, 2014 como ele emprega uma abordagem de taxa de aprendizagem adaptativa para cada parâmetro. Ele armazena a média de decaimento dos gradientes do passado e do passado. Os inventores não fizeram uma avaliação extensa dos métodos, mas as corridas de treinamento iniciais mostraram que o ADAM teve um desempenho muito melhor do que outros algoritmos existentes em termos de convergência de treinamento. Também se submeteram a variaação as diferentes taxas de aprendizado inicial para encontrar a convergência
Petição 870190070355, de 24/07/2019, pág. 28/48
23/28 mais estável e 105 e 5*IO5 pareciam ser as escolhas mais razoáveis. O treinamento convergiu mais lentamente no primeiro, mas mais estável do que no segundo. Por isso, usamos a taxa inicial fixa de 10 5 em todos os experimentos realizados pelos inventores.
Métricas de desempenho [085] Para se avaliarem as arquiteturas e comparar com os trabalhos de última geração, os inventores usaram as seguintes métricas de desempenho:
Coeficiente de Similaridade de Dados:
2x|GnS| |G| + UI [086] Coeficiente de Similaridade de Jaccard:
_____ (10) | G |+| 5 |-| GnS | onde nos dois coeficientes Dsi e J , G representam os dados do verdadeiro e S representa a segmentação proporcionada pelo método avaliado.
Distância de superficie absoluta média simétrica:
S - 1 Sg (ns+ng) gs onde ns é compreendido pelo número de pixels na
Petição 870190070355, de 24/07/2019, pág. 29/48
24/28 segmentação fornecida pelo método avaliado,_ng é o número de pixels na máscara de dados de verdade do solo, dfs é a distância de z-no pixel na segmentação até o pixel mais próximo na máscara de dados de verdade do solo e df é a distância de -j ésimo pixel na máscara de dados do verdade do solo para o pixel mais próximo na segmentação fornecida pelo método avaliado.
Resultados
Desempenho de segmentação [087] Os resultados da avaliação de seis arquiteturas propostas para diferentes resoluções são mostrados na Figura 3. Além disso, arquiteturas originais de U-Net para três resoluções, bem como os métodos de melhor desempenho e observador humano introduzidos por Van Ginneken et al., Segmentation of anatomical structures in chest radiographs using supervised methods, a comparative study on a public database, Medical Image Analysis, vol. 10, pp. 19-40, 2006, são adicionados para comparação.
[088] Todos os resultados são subdivididos em cinco blocos.
[089] O preimeiro bloco contém apenas o resultado do observador humano.
[090] O segundo bloco contém resultados para a arquitetura original da U-Net e métodos propostos por Van Ginneken et al, Segmentation of anatomical structures in chest radiographs using supervised methods, a comparative study on a public database, Medical Image Analysis, vol. 10, pp. 19-40, 2006.
[091] O terceiro, quarto e quinto blocos
Petição 870190070355, de 24/07/2019, pág. 30/48
25/28 contêm resultados da U-Net original e das arquiteturas propostas para três resoluções diferentes.
[092] Os melhores resultados para cada bloco estão ilustrados em negrito.
[093] As pontuações para segmentação pulmonar não variam de forma significativa. Todos os métodos foram capazes de mostrar um bom desempenho. Embora nossas arquiteturas não tenham superado o observado humano e o método de votação híbrida, um dos nossos modelos alcançou a mesma pontuação de Jaccard, e todas as arquiteturas propostas, assim como a U-net original, alcançaram contornos de objeto mais precisos de acordo com a distância simétrica da superfície.
[094] Todas as arquiteturas propostas alcançaram a melhor distância simétrica para as pontuações superficiais entre todos os métodos em todos os órgãos, o que prova que as redes convolucionais são muito eficientes na extração de características correspondentes às bordas dos objetos.
[095] Mesmo em caso de diferenças contra bastante baixa, por exemplo, nas fronteiras entre coração e pulmão ou clavículas e pulmões.
[096] A segmentação da clavícula é uma tarefa um pouco mais desafiadora para todas as nossas arquiteturas. E não é surpreendente, porque as clavículas são muito menores que o coração e os pulmões e suas formas mudam mais significativamente de uma varredura para outra. Nenhum dos métodos propostos podería superar o Observador Humano. Os métodos automáticos propostos por Segmentação de estruturas anatômicas em radiografias de tórax usando
Petição 870190070355, de 24/07/2019, pág. 31/48
26/28 métodos supervisionados, embora um estudo comparativo em um banco de dados público, Medical Image Analysis, vol. 10, pp. 19-40, 2006], fosse superado. A melhor arquitetura proposta superou a votação híbrida em quase 8% no escore de sobreposição de Jaccard. Todas as arquiteturas dos presentes inventores tiveram um desempenho melhor do que as arquiteturas originais da U-Net em todas as resoluções de imagem.
[097] Além disso, os resultados para resoluções mais altas são muito melhores para objetos menores, tais como clavículas. Com exceção da arquitetura InvertedNet, que apresentou um desempenho ruim devido ao agrupamento de sub-amostras atrasadas e tamanhos pequenos de filtros nas camadas convolucionais. Em resoluções mais baixas, o InvertedNet demonstrou o melhor desempenho na segmentação da clavícula, onde a U-Net Original foi superada em mais de 7% e as outras duas redes em 5% e 6%, respectivamente. Em resumo, as clavículas são mais desafiadoras para U-Net Original, All-Convolutional e AllDropout em resoluções mais baixas, devido às múltiplas camadas de pool na parte contrativa da rede. Múltiplas camadas de agrupamento fazem com que objetos como clavículas se tornem menores e, portanto, suavizem as bordas entre eles. Nesse caso, os recursos extraídos pela rede tornam-se menos expressivos.
[098] A segmentação do coração foi uma tarefa desafiadora para a arquitetura InvertedNet. Foi até um pouco superado pela U-Net Original, que por sua vez foi superada pelas outras arquiteturas propostas. Duas outras arquiteturas propostas All-Convolutional e All-Dropout
Petição 870190070355, de 24/07/2019, pág. 32/48
27/28 ultrapassaram ligeiramente o observador humano nesta tarefa.
[099] O desempenho da melhor arquitetura global InvertedNet foi avaliado com várias divisões de dados de entrada em conjuntos de treinamento e testes.
[0100] A Figura 4 mostra os resultados dos testes do InvertedNet treinados com a função de perda de entropia cruzada no sentido do pixel Tal como esperado teoricamente, as pontuações gerais foram aperfeiçoadas quando mais dados de treinamento são dados à rede. Por outro lado, o aumento da diferença entre o número de amostras em conjuntos de treinamento e testes leva a um ligeiro supera juste nos dados e, portanto, aumenta o erro final de generalização. Este não é o caso da função de perda de dados negativos, embora o número claramente crescente de amostras de treinamento ofereça resultados muito melhores. Os resultados das avaliações para diferentes divisões de teste para a função de perda de dados negativos encontram-se ilustrados na Figura 5.
[0101] Com relação ao desempenho da U-Net Original e dos modelos propostos no conjunto de testes em cada época durante o treinamento, as pontuações da U-Net Original normalmente crescem mais rápido que as outras redes no começo, mas então alcançam um platô e oscilam até ao final do procedimento de treino. Outras arquiteturas melhor regularizadas, porém, começam mais devagar, alcançam pontuações mais altas ou similares no final. InvertedNet começa devagar no começo, mas atinge o melhor resultado no final.
Desempenho de temporização
Petição 870190070355, de 24/07/2019, pág. 33/48
28/28 [0102] O método da presente invenção é uma abordagem de segmentação muito rápida para radiografias de tórax. Ele pode processar milhares de imagens por dia, o que podería ser especialmente benéfico em grandes ambientes clínicos, quando centenas ou às vezes milhares de pessoas são verificadas todos os dias.
Claims (8)
- REIVINDICAÇÕES1. Método de pipeline para a segmentação multirótulos de estruturas anatômicas em uma imagem médica que compreende as etapas de treinar uma rede neural convolucional em um conjunto de dados de treino, de modo a obter um conjunto de pesos fixos ideais, segmentar estruturas anatômicas na referida imagem médica, por meio dOo uso da referida rede neural com os referidos pesos fixos ótimos, em que durante o dito treinamento é aplicada uma função de perda ponderada que leva em conta a subrepresentação de pelo menos uma estrutura anatômica na máscara de verdade do solo em relação a outras estruturas anatômicas.
- 2. Método de acordo com a reivindicação 1, em que a dita função de perda ponderada é uma função de perda de entropia cruzada ponderada em pixels, em que os pesos fixos são parâmetros obtidos como resultado da otimização da referida função de perda
- 3. Método de acordo com a reivindicação 1, em que a dita função de perda é uma função de perda de dados negativa ponderada e os referidos pesos fixos são parâmetros obtidos como resultado da otimização da referida função de perda de dados.
- 4. Método de acordo com a reivindicação 1, em que a arquitetura da dita rede neural convolucional é uma arquitetura U-net modificada em que uma camada de dropout é fornecida após uma camada de convolução.
- 5. Método de acordo com a reivindicação 4, emPetição 870190070355, de 24/07/2019, pág. 35/482/2 que a dita camada de dropout é compreendida por uma camada de dropout Gaussiana.
- 6. Método de acordo com a reivindicação 1, em que a arquitetura da dita rede neural convolucional é uma arquitetura U-net modificada na medida em que uma camada de dropout é fornecida após uma camada de convolução e camadas de agrupamento serem substituídas por camadas de convolução, uma camada de convolução de substituição tendo um tamanho de filtro igual ao tamanho de agrupamento camada de agrupamento que ela substitui.
- 7. Método de acordo com a reivindicação 1, em que a arquitetura da dita rede neural de convolução consiste apenas em camadas convolucionais, amostragem e dropout .
- 8. Método de acordo com a reivindicação 1 em que a arquitetura da referida rede neural convolucional é uma arquitetura U-net modificada por compreender uma camada de dropout fornecida após uma camada de convolução e em que a sub-amostragem da primeira das referidas camadas de agrupamento é atrasada e em que o número de mapas de características na dita rede é invertido com respeito à referida rede U.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17153431.6A EP3355270B1 (en) | 2017-01-27 | 2017-01-27 | Multi-class image segmentation method |
PCT/EP2018/051632 WO2018138104A1 (en) | 2017-01-27 | 2018-01-24 | Multi-class image segmentation method |
Publications (1)
Publication Number | Publication Date |
---|---|
BR112019015216A2 true BR112019015216A2 (pt) | 2020-04-14 |
Family
ID=57914817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112019015216A BR112019015216A2 (pt) | 2017-01-27 | 2018-01-24 | método de segmentação de imagem de várias classes |
Country Status (5)
Country | Link |
---|---|
US (1) | US11055851B2 (pt) |
EP (1) | EP3355270B1 (pt) |
CN (1) | CN110337669B (pt) |
BR (1) | BR112019015216A2 (pt) |
WO (1) | WO2018138104A1 (pt) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3355270B1 (en) * | 2017-01-27 | 2020-08-26 | AGFA Healthcare | Multi-class image segmentation method |
US11100647B2 (en) | 2018-09-10 | 2021-08-24 | Google Llc | 3-D convolutional neural networks for organ segmentation in medical images for radiotherapy planning |
CN109409432B (zh) * | 2018-10-31 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置和存储介质 |
CN109801285A (zh) * | 2019-01-28 | 2019-05-24 | 太原理工大学 | 一种基于U-Net分割及ResNet训练的乳腺X线图像的处理方法 |
CN109949318B (zh) * | 2019-03-07 | 2023-11-14 | 西安电子科技大学 | 基于多模态影像的全卷积神经网络癫痫病灶分割方法 |
CN109948707B (zh) * | 2019-03-20 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、终端及存储介质 |
CN109816661B (zh) * | 2019-03-22 | 2022-07-01 | 电子科技大学 | 一种基于深度学习的牙齿ct图像分割方法 |
US11328430B2 (en) * | 2019-05-28 | 2022-05-10 | Arizona Board Of Regents On Behalf Of Arizona State University | Methods, systems, and media for segmenting images |
US11720818B2 (en) * | 2019-09-11 | 2023-08-08 | Samsung Display Co., Ltd. | System and method to improve accuracy of regression models trained with imbalanced data |
CN111242956A (zh) * | 2020-01-09 | 2020-06-05 | 西北工业大学 | 基于U-Net超声胎心和胎肺深度学习联合分割方法 |
CN111265317B (zh) * | 2020-02-10 | 2022-06-17 | 上海牙典医疗器械有限公司 | 一种牙齿正畸过程预测方法 |
CN111860568B (zh) * | 2020-05-13 | 2022-02-08 | 北京嘀嘀无限科技发展有限公司 | 数据样本的均衡分布方法、装置及存储介质 |
CN111709293B (zh) * | 2020-05-18 | 2023-10-03 | 杭州电子科技大学 | 一种基于ResUNet神经网络的化学结构式分割方法 |
CN111898651B (zh) * | 2020-07-10 | 2023-09-26 | 江苏科技大学 | 一种基于Tiny YOLOV3算法的树木检测方法 |
CN112036477B (zh) * | 2020-08-28 | 2022-06-17 | 清华大学 | 一种高召回率弱标注声音事件检测方法 |
CN112102337A (zh) * | 2020-09-16 | 2020-12-18 | 哈尔滨工程大学 | 一种超声成像下的骨骼表面分割方法 |
CN112819801A (zh) * | 2021-02-10 | 2021-05-18 | 桂林电子科技大学 | 一种改进U-Net的肺结节分割方法 |
CN113327666B (zh) * | 2021-06-21 | 2022-08-12 | 青岛科技大学 | 一种胸片疾病多分类网络的多标签局部至全局学习方法 |
US20230077353A1 (en) * | 2021-08-31 | 2023-03-16 | University Of South Florida | Systems and Methods for Classifying Mosquitoes Based on Extracted Masks of Anatomical Components from Images |
CN113569865B (zh) * | 2021-09-27 | 2021-12-17 | 南京码极客科技有限公司 | 一种基于类别原型学习的单样本图像分割方法 |
CN115100179B (zh) * | 2022-07-15 | 2023-02-21 | 北京医准智能科技有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN115661144B (zh) * | 2022-12-15 | 2023-06-13 | 湖南工商大学 | 基于可变形U-Net的自适应医学图像分割方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110007954A1 (en) * | 2009-07-07 | 2011-01-13 | Siemens Corporation | Method and System for Database-Guided Lesion Detection and Assessment |
US9730643B2 (en) * | 2013-10-17 | 2017-08-15 | Siemens Healthcare Gmbh | Method and system for anatomical object detection using marginal space deep neural networks |
CN106056595B (zh) * | 2015-11-30 | 2019-09-17 | 浙江德尚韵兴医疗科技有限公司 | 基于深度卷积神经网络自动识别甲状腺结节良恶性的辅助诊断系统 |
US10304002B2 (en) * | 2016-02-08 | 2019-05-28 | Youspace, Inc. | Depth-based feature systems for classification applications |
EP3273387B1 (en) * | 2016-07-19 | 2024-05-15 | Siemens Healthineers AG | Medical image segmentation with a multi-task neural network system |
EP3488381B1 (en) * | 2016-07-21 | 2024-02-28 | Siemens Healthineers AG | Method and system for artificial intelligence based medical image segmentation |
CN106296699A (zh) * | 2016-08-16 | 2017-01-04 | 电子科技大学 | 基于深度神经网络和多模态mri图像的脑肿瘤分割方法 |
EP3355270B1 (en) * | 2017-01-27 | 2020-08-26 | AGFA Healthcare | Multi-class image segmentation method |
US10706554B2 (en) * | 2017-04-14 | 2020-07-07 | Adobe Inc. | Three-dimensional segmentation of digital models utilizing soft classification geometric tuning |
US11250601B2 (en) * | 2019-04-03 | 2022-02-15 | University Of Southern California | Learning-assisted multi-modality dielectric imaging |
-
2017
- 2017-01-27 EP EP17153431.6A patent/EP3355270B1/en active Active
-
2018
- 2018-01-24 CN CN201880008713.9A patent/CN110337669B/zh active Active
- 2018-01-24 WO PCT/EP2018/051632 patent/WO2018138104A1/en active Application Filing
- 2018-01-24 BR BR112019015216A patent/BR112019015216A2/pt unknown
- 2018-01-24 US US16/479,626 patent/US11055851B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11055851B2 (en) | 2021-07-06 |
CN110337669A (zh) | 2019-10-15 |
WO2018138104A1 (en) | 2018-08-02 |
US20210019889A1 (en) | 2021-01-21 |
EP3355270B1 (en) | 2020-08-26 |
CN110337669B (zh) | 2023-07-25 |
EP3355270A1 (en) | 2018-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR112019015216A2 (pt) | método de segmentação de imagem de várias classes | |
Wang et al. | A noise-robust framework for automatic segmentation of COVID-19 pneumonia lesions from CT images | |
Liu et al. | Weakly supervised segmentation of COVID19 infection with scribble annotation on CT images | |
Novikov et al. | Fully convolutional architectures for multiclass segmentation in chest radiographs | |
Oktay et al. | Anatomically constrained neural networks (ACNNs): application to cardiac image enhancement and segmentation | |
Dou et al. | Pnp-adanet: Plug-and-play adversarial domain adaptation network at unpaired cross-modality cardiac segmentation | |
Gerard et al. | FissureNet: a deep learning approach for pulmonary fissure detection in CT images | |
Poudel et al. | Recurrent fully convolutional neural networks for multi-slice MRI cardiac segmentation | |
Wu et al. | Cascaded fully convolutional networks for automatic prenatal ultrasound image segmentation | |
de Brebisson et al. | Deep neural networks for anatomical brain segmentation | |
CN105574859B (zh) | 一种基于ct图像的肝脏肿瘤分割方法及装置 | |
Thambawita et al. | Divergentnets: Medical image segmentation by network ensemble | |
Scannell et al. | Domain-adversarial learning for multi-centre, multi-vendor, and multi-disease cardiac MR image segmentation | |
Chang et al. | Automatic cardiac MRI segmentation and permutation-invariant pathology classification using deep neural networks and point clouds | |
Wang et al. | Left atrial appendage segmentation based on ranking 2-D segmentation proposals | |
CN110047075A (zh) | 一种基于对抗网络的ct图像分割方法 | |
Martín-Isla et al. | Stacked BCDU-Net with semantic CMR synthesis: Application to myocardial pathology segmentation challenge | |
Upendra et al. | An adversarial network architecture using 2D U-net models for segmentation of left ventricle from cine cardiac MRI | |
Liu et al. | Left atrium segmentation in CT volumes with fully convolutional networks | |
US11693919B2 (en) | Anatomy-aware motion estimation | |
Chen et al. | Adaptive Cross Entropy for ultrasmall object detection in Computed Tomography with noisy labels | |
Zakeri et al. | A probabilistic deep motion model for unsupervised cardiac shape anomaly assessment | |
Ouzounis et al. | Partition-induced connections and operators for pattern analysis | |
Yu et al. | Distilling sub-space structure across views for cardiac indices estimation | |
Agarwala et al. | Automated segmentation of lung field in HRCT images using active shape model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B350 | Update of information on the portal [chapter 15.35 patent gazette] |