BR112019015216A2

BR112019015216A2 - método de segmentação de imagem de várias classes

Info

Publication number: BR112019015216A2
Application number: BR112019015216A
Authority: BR
Inventors: Novikov Alexey; Major David; Lenis Dimitrios; Buehler Katja; Wimmer Maria
Original assignee: Agfa Healthcare; Vrvis Zentrum Fuer Virtual Reality Und Visualisierung
Priority date: 2017-01-27
Filing date: 2018-01-24
Publication date: 2020-04-14
Also published as: US11055851B2; CN110337669A; WO2018138104A1; US20210019889A1; EP3355270B1; CN110337669B; EP3355270A1

Abstract

expõe-se um método de linha de tubulação para segmentação multi-rótulo de estruturas anatômicas em uma imagem médica por meio de uma rede neural convolucional treinada com uma função de perda ponderada que leva em conta a sub-representação de pelo menos uma estrutura anatômica na máscara de verdade do solo em relação a outras estruturas anatômicas. descrevem-se diferentes arquiteturas para a rede neural convolucional.

Description

MÉTODO DE SEGMENTAÇÃO DE IMAGEM DE VÁRIAS CLASSES

CAMPO DA INVENÇÃO [001] Refere-se a presente invenção à segmentação de imagens. Mais especificamente, a invenção refere-se a um método para a segmentação de várias classes sincronas de diferentes estruturas anatômicas em imagens médicas, tais como segmentação de pulmão, coração e clavículas em radiografias de tórax.

ANTECEDENTES DA INVENÇÃO [002] A invenção refere-se à segmentação de várias classes sincronas de diferentes estruturas anatômicas.

[003] A segmentação de várias classes pode, por exemplo, ser usada para segmentar diferentes estruturas anatômicas em uma imagem médica, tais como pulmões, coração e clavículas, em uma radiografia de tórax.

[004] Outras aplicações podem ser consideradas, tais como segmentação de lesões, por exemplo, lesões devido a tuberculose, segmentação de costelas e outras assemelhadas.

[005] De um modo geral, a invenção visa a segmentação de várias classes de estruturas que são dotadas de bordas definidas em imagens médicas.

[006] Como resultado de tal processo de segmentação, podem ser detectadas variações do tamanho, posição e áreas do coração, campos pulmonares, estrutura do hila, clavículas, e outros assemelhados.

[007] Isto pode proporcionar pistas sobre condições existentes, tais como o TBC e o câncer, ou ajudar nas próximas etapas da detecção assistida por computador e

Petição 870190070355, de 24/07/2019, pág. 7/48

2/28 do diagnóstico médico.

[008] Por essa razão, a segmentação semântica de radiografias, ou seja, a localização de órgãos ou estruturas tem sido um campo ativo de estudo.

[009] Complexidades anatômicas individuais tais como altas variações interpessoais na forma e tamanho dos órgãos centrais, tais como campos pulmonares, clavículas e coração, relacionadas à idade, tamanho e gênero, limites de órgãos ambíguos devido a sobreposições de órgãos e artefatos causados por movimentos e intrínsecos de modalidade de imagem. São apenas algumas das razões pelas guais a segmentação precisa de órgãos continua sendo uma tarefa inerentemente desafiadora.

[0010] Abordagens algorítmicas clássicas têm sido amplamente descritas e usadas. O espaço de abordagens algorítmicas pode ser dividido em métodos baseados em regra, forma e gráfico, classificação de pixel e abordagens estatísticas.

[0011] Cada estrutura metodológica tem o seu próprio conjunto de vantagens, por exemplo, pela limitação a um conjunto de regras predefinido ou formato deformável, métodos baseados em regras e formas produzirão soluções anatômicas judiciosas.

[0012] Embora conceitualmente com mais de 50 anos, as redes neurais (NN) , a base abstrata da aprendizagem profunda, estão vivendo um renascimento. Uma compreensão mais profunda do treinamento e do comportamento numérico e o aumento acentuado de esquemas de cálculos tratáveis através da utilização de unidades de processamento gráfico (GPUs) permitiram que essa classe de

Petição 870190070355, de 24/07/2019, pág. 8/48

3/28 abordagem se tornasse o padrão de fato ou, pelo menos, concorrente sério em vários ramos de aprendizado de máquina.

[0013] O que se segue enfoca as redes neurais convolucionais (CNN), uma subclasse de NN frequentemente usada com sucesso em tarefas de visão computacional.

[0014] Uma configuração prototipica de uma CNN consiste em uma combinação de filtros de convolução, intercalados com camadas de redução e agrupamento de dados. A idéia motriz é imitar a cognição visual humana, nesse sentido, que o quadro completo é derivado de características de baixo nível, por exemplo, bordas e círculos, que por sua vez produzem mais características distintivas e finalmente o alvo desejado através da recombinação em cada camada sucessiva. Sob esse aspecto, a principal diferença das abordagens clássicas é que o aprendizado profundo normalmente evita o uso de recursos específicos, projetados manualmente, para um conjunto puramente derivado, mais capaz de descrever diferentes aspectos de um objeto.

[0015] Em relação à segmentação de imagens médicas, foram estudadas várias dessas disposições. Normalmente, as CNNs são usadas para tarefas de classificação, ou seja, uma imagem de entrada é atribuída a um conjunto contável de rótulos de classe. Complicando, imagens médicas longas para a relação espacial dos rótulos desta classe. Como dito anteriormente no presente caso, essa segmentação semântica geralmente se baseia em um vasto conjunto de dados de treinamento. Esses conjuntos de dados profundos não são típicos do domínio médico, inviabilizando

Petição 870190070355, de 24/07/2019, pág. 9/48

4/28 a maioria das abordagens atuais, exigindo, portanto, uma estratégia finamente adaptada.

[0016] As primeiras tentativas datam de mais de 15 anos atrás. Tsujii et al. Segmentação automatizada de regiões anatômicas em radiografias de tórax usando uma rede neural híbrida de tamanho adaptável, Medical physics, vol. 25, pp. 998-1007, 1998, utilizam um NN para a segmentação do campo pulmonar, com uma precisão de cerca de 86%. Aece et al. Segmentação da estrutura óssea em imagens de raios X usando rede neural convolucional, Advances in Electrical and Computer Engineering, vol. 13, não. 1, pp. 87-94, fevereiro de 2013, usam um CNN como um classificador binário e, deste modo, dividem radiografias de tórax nos dois conjuntos {bone, non-bone] de forma totalmente automatizada. Um NN não precisa ser considerado como uma solução independente tal como T.A. Ngo e G. Carneiro, 21L^und segmentation in chest radiographs using distance regularized level set and deep-structured learning and inference, em Processamento de imagens (ICIP, Conferência Internacional IEEE 2015, de setembro de 2015, pp. 21402143). nível combinado regularizado definido com uma abordagem de aprendizagem profunda e rendeu no JSRT uma pontuação de sobreposição de 0,948-0,985.

[0017] Embora a segmentação CXR ainda não tenha sido amplamente abordada, diferentes modalidades, tais como ultrassonografia, TC e MRT, foram exploradas [G. Carneiro, J.C. Nascimento, and A. Freitas, The segmentation of the left ventricle of the heart from ultrasound data using deep learning architectures and derivative-based search methods, IEEE Transactions on

Petição 870190070355, de 24/07/2019, pág. 10/48

5/28

Imaging Processing, vol. 21, n° . 3, pp. 968-982, March 2012; M. Havaei, A. Davy, D. Warde-Farley, A. Biard, A. Courville, Y. Bengio, C. Pal,, P.-M. Jodoin and H. Larochelle, Brain tumor segmentation with deep neural networks, Medical Image Analysis, 2016; P. Petersen, M. Nielsen, P. Diao, N. Karssemeijer, and M. Lillholm, Breast tissue segmentation and mammographic risk scoring using deep learning. Springer Science+Business Media B.V., 2014, pp. 88-94; B. Gaonkar, D. Hovda, N. Martin and L. Macyszyn, Deep learning in the small sample size setting; cascaded feed forward neural networks for medical image segmentation, pp. 978521-978521-8, 2016].

[0018] Em J. Long, E. Shelhamer, and T. Darrell, Fully convolutional networks for semantic segmentation, em Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 34313440 visam a necessidade de recursos locais que coincidam com estruturas globais, ande definem a Rede Plenamente Convolucional. Este tipo de rede permite entrada e saída de tamanho arbitrário. Começando com a camada de entrada, cada camada sucessiva gera uma matriz tridimensional cujos valores correspondem aos campos conectados ao caminho da camada de processo. Esses campos são respectivamente convolvidos, agrupados ou geralmente transformados não linearmente, resultando em uma série de camadas de contratação. Em combinação com a fusão de camadas, isto é, os atalhos entre as camadas selecionadas, essa configuração alcança uma representação de recurso não linear, de local para global, e permite uma classificação em pixels. Adaptando esta classe de rede com sucessivas camadas de

Petição 870190070355, de 24/07/2019, pág. 11/48

6/28 amostragem, ou seja, ampliando o campo de visão da convolução, Ronneberger et al. U-net: Convolutional networks for biomedical image segmentation,in International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234241, pode direcionar a resolução da extração de recursos e, desse modo, controlar as relações locais-globais dos recursos .

[0019] Constitui um aspecto desta invenção adaptar esta abordagem para radiografias de tórax, isto é, para conjuntos de dados de nivel de órgão.

[0020] Constitui outro aspecto adaptar este sistema para que ele possa ser aplicado com sucesso para a segmentação multi-label de conjuntos de dados desequilibrados e que possa proporcionar resultados de segmentação muito bons com uma quantidade razoável de esforço computacional. SUMÁRIO DA INVENÇÃO [0021] Os aspectos mencionados anteriormente no presente caso são obtidos por meio de um método que é dotado das características específicas estabelecidas na reivindicação 1.

[0022] Características específicas para concretizações preferidas da invenção são apresentadas nas reivindicações dependentes. [0023] A invenção é dotada das seguintes vantagens em relação à técnica anterior:

[0024] O método da presente invenção é amplamente adequado para segmentação sincrona de múltiplos rótulos de órgãos anatômicos em radiografias de tórax, em

Petição 870190070355, de 24/07/2019, pág. 12/48

7/28 particular, clavículas, pulmões e campos cardíacos.

[0025] De acordo com concretizações especificas da presente invenção, são introduzidas várias arquiteturas de rede especificas que são capazes de funcionar convenientemente sem aumento adicional de dados, apenas nos dados fornecidos.

[0026] Essas arquiteturas superam algoritmos de última geração e U-Net original no conjunto de dados JSRT disponível publicamente.

[0027] Essas arquiteturas são compreendidas por pulmões de múltiplas classes e segmentos, clavículas e coração simultaneamente.

[0028] Além disso, essas arquiteturas têm um desempenho eficaz em um conjunto de dados com representação de dados altamente desequilibrada, tais como as clavículas que estão sub-representadas nas radiografias de tórax em comparação com os campos cardíaco e pulmonar.

[0029] Para solucionar o problema da representação de dados desbalanceados, duas funções específicas de perda ponderada são introduzidas para o procedimento de treinamento da rede.

[0030] Outras vantagens e formas de realização da presente invenção tornar-se-ão evidentes a partir da descrição e desenhos apresentados em seguida.

DESCRIÇÃO BREVE DOS DESENHOS [0031] A Figura 1 a - d mostra diferentes concretizações das arquiteta uras de rede.

[0032] A Figura 2 mostra os tempos de execução para diferentes resoluções de imagem.

[0033] A Figura 3 é uma comparação das

Petição 870190070355, de 24/07/2019, pág. 13/48

8/28 diferentes concretizações de arquiteturas utilizadas em um método de acordo com a presente invenção versus métodos do estado da técnica.

[0034] A Figura 4 é uma comparação da arquitetura InvertNet para diferentes divisões de validação para a função de perda de entropia cruzada do sentido do Pixel.

[0035] A Figura 5 é uma comparação da arquitetura InvertNet para diferentes divisões de validação para a função Negative Dice Loss.

DESCRIÇÃO DETALHADA DA INVENÇÃO [0036] Da mesma forma que a maioria dos pipelines relacionados ao aprendizado profundo, a abordagem atual consiste nas seguintes etapas principais: preparação e normalização de dados, projeto de arquitetura de modelo, treinamento de modelo e teste do modelo treinado. A entrada no caso de radiografias de tórax consiste em um conjunto de imagens 2D (abaixo chamado J ) e as correspondentes máscaras de verdade do solo multicanal. O modelo é construído, inicializado e treinado. Após o término do treinamento, os pesos do modelo aprendido e as camadas de regularização são fixados e o modelo é validado em um conjunto de imagens de teste.

Abordagem de várias classes [0037] A entrada consiste de um conjunto de imagens 2D J = {I\I e R'¹'² j _{e as} correspondents máscaras de verdade do solo binário multicanal (L_íV)_lsíSn onde L₍ e R({0₅i_}p-₂, _{n é}o número de classes que se pretende direcionar e m_l,m₂ são as dimensões de imagem.

Petição 870190070355, de 24/07/2019, pág. 14/48

9/28 [0038] Em primeiro lugar divide-se J em conjuntos I_Train de tamanho =|I train I ^e I test = J \ I train · Tal como descrito anteriormente, para cada /eJ utiliza-se uma série de máscaras de verdade de solo binário (L_;/)_lsíSn · Para uma referência posterior deixa-se que C seja o conjunto de todas as classes de verdade de solo, conseqüentemente \<n <| C| .

[0039] As redes são treinadas da seguinte maneira: a rede é passada consecutivamente com mini cargas KeN onde N é compreendida por uma partição de I_TRAin ^emini cargas K são conjuntos não vazios de imagens derivados de forma que cada imagem está incluído em um e apenas uma dos mini cargas K . Além disso, introduzimos c_K para definir a contagem total de pixels em todos IeK .

[0040] Para cada um I eK é calculada a saída de várias classes da rede, ou seja, a compreensão da rede como uma função

F_:J^(R({0,1}F^)_1s;s„ (1) [0041] Por essa razão, para cada pixel de 1 sua classe semântica l <e C pode ser derivado em uma única etapa até alguma probabilidade.

[0042] Para estimar e elevar ao máximo essa probabilidade, podemos definir uma função de energia

A_(L.p : R({0,l})^m‘^xm2 x(L,_z)^R ₍₂) que avalia o desvio (erro) do resultado da rede a partir da verdade do solo desejada. O erro é propagado de

Petição 870190070355, de 24/07/2019, pág. 15/48

10/28 volta para atualizar os parâmetros da rede. Todo o procedimento continua até que os critérios de parada dados definidos sejam cumpridos.

[0043] No momento do teste, uma imagem invisível ZeI_TESTé transmitida pela rede e é produzida a saída multi-rótulo F(/) . Conforme definido anteriormente no presente caso, a saída de rede consiste em séries de máscaras de segmentação multicanal. Os canais no caso de radiografias de tórax correspondem a diferentes órgãos do corpo.

[0044] O modelo é construído, inicializado e ainda treinado. Após o término do treinamento, os pesos do modelo aprendido e as camadas de regularização são fixados e o modelo é validado em um conjunto de imagens de teste. As principais etapas do método são introduzidas de forma detalhada nas seções que se seguem.

Configuração da base [0045] A arquitetura semelhante à U-Net, proposta originalmente por Ronnenberger et al. U-net: Convolutional networks for biomedical image segmentation, na Conferência Internacional sobre Computação Médica de Imagens e Intervenção Assistida por Computador, Springer, 2015, pp. 234-241 consiste em partes de contração e expansão. Na parte de contração, características abstratas de alto nível são extraídas por aplicação consecutiva de pares de camadas convolucionais e de agrupamento. Na parte de expansão, os recursos atualizados são mesclados com os recursos da parte contrativa, respectivamente. A saída da rede é uma máscara de segmentação multicanal em que cada canal tem o mesmo tamanho que a imagem de entrada.

Petição 870190070355, de 24/07/2019, pág. 16/48

11/28 [0046] O excelente desempenho da arquitetura original da U-Net foi demonstrado para rastreamento e segmentação de células de estruturas neuronals em pilhas microscópicas eletrônicas. [0047] No entanto, para outras tarefas especificas, requer modificações adicionais devido a uma representação de dados diferente quando os dados são altamente desequilibrados ou em casos em que o aumento de dados não é razoável. [0048] O problema de dados desbalanceados em imagens médicas ocorre devido a diferentes tamanhos dos órgãos anatômicos de interesse. Por exemplo, no conjunto de dados do JSRT, 60% dos pixels pertencem ao fundo, 29% ao pulmão, 2% às clavículas e 9% ao coração, respectivamente, enfatizando os pulmões e os campos cardíacos sobre as clavículas.

Aperfeiçoamentos do modelo U-net para radiografias de tórax [0049] No topo da arquitetura original, a rede com múltiplas modificações em regularização, treinamento e arquitetura é analisada e avaliada. Em cada categoria, é considerado de forma detalhada um número de vários aperfeiçoamentos possíveis do modelo de rede e, com base nos resultados da avaliação, vários modelos são propostos para treinar e realizar eficientemente a segmentação por multi classe em imagens CXR médicas. Para evitar o aumento de dados usado no trabalho por Ronnenberger et al. U-net: Convolutional networks for biomedical image segmentation, na Conferência Internacional sobre Computação Médica de Imagens e Intervenção Assistida por Computador, Springer, 2015, pp.

Petição 870190070355, de 24/07/2019, pág. 17/48

12/28

234-241 propõe-se alternar ligeiramente o modelo de forma diferente pelo uso de uma regularização mais agressiva diferente. Além disso, várias arquiteturas são propostas para melhorar ainda mais o resultado da segmentação. Além de uma regularização de modelos e modificações arquiteturais diferentes, uma estratégia diferente de função de perda de treinamento é proposta para lidar com um problema de representação de dados altamente desbalanceada.

Modificações de Arquitetura [0050] Adquirir mais dados de treinamento seria benéfico para qualquer algoritmo de aprendizado na maioria dos casos. No entanto, em imagens médicas, obter dados adicionais nem sempre é viável.

[0051] Ronnenberger et al. U-net: Convolutional networks for biomedical image segmentation, na International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234-241 usaram deformações elásticas para o aumento de dados a fim de regularizar o modelo. Não obstante, as deformações elásticas não são razoáveis no caso de radiografias de tórax porque tornariam órgãos rígidos como pulmões, coração e clavículas anatomicamente incorretos e poderíam confundir o treinamento fazendo com que as características de aprendizado da rede correspondessem a estruturas não realistas.

[0052] O número de mapas e camadas de recursos na versão original do U-Net é grande, o que resulta em dezenas de milhões de parâmetros no sistema, o que retarda o treinamento e não diminui necessariamente o erro de generalização. Sem qualquer forma de regularização,

Petição 870190070355, de 24/07/2019, pág. 18/48

13/28 essas grandes redes podem se sobrepor aos dados.

Especialmente quando não há muitos dados de treinamento disponíveis. No sobre CXR, o superjuste de dados é um problema especialmente para órgãos anatômicos prolongados, menores ou mais finos, como as clavículas, devido às suas representações de formas mais variadas nas imagens de RXT. No caso em que a arquitetura de rede é profunda e a disponibilidade de dados de treinamento é limitada, outra possibilidade de diminuir o erro de teste de generalização do algoritmo consiste em uma regularização mais agressiva, a) All-Dropout (Perda momentânea total): arquitetura simples plenamente regularizada [0053] A camada de perda momentânea [29] é uma prática comum em arquiteturas modernas de redes profundas. Além disso, foi demonstrado por Bouthillier et al. [30] que também pode desempenhar um papel de aumento de dados ao mesmo tempo. Portanto, os inventores propõem uma arquitetura com uma camada de perda momentânea após cada camada convolucional na rede. Os inventores utilizam a perda momentânea gaussiana que equivale a adicionar uma variável aleatória distribuída de Gauss com média zero e desvio padrão igual à ativação da unidade neural. De acordo com Srivastava et al Dropout: a simple way to prevent neural networks from overfitting Journal of Machine Learning Research, vol. 15, no. 1, pp. 1929-1958, 2014, funciona talvez até melhor que o clássico que usa a distribuição de Bernoulli. Além disso, adicionar esse ruído é uma escolha mais natural para as radiografias de tórax devido ao ruído que ocorre durante a aquisição [31]. No que se segue esta arquitetura é chamada Perda Momentânea Total.

Petição 870190070355, de 24/07/2019, pág. 19/48

14/28

b) J-Net: aperfeiçoando a precisão para resolução mais baixa [0054] Objetos menores são difíceis de segmentar especialmente em caso de baixa resolução de imagem. Nesse caso, quatro camadas de agrupamento da arquitetura U-Net original podem ser fatais para esses obj etos..

[0055] Para lidar com esse problema na resolução mais baixa, uma arquitetura é proposta, a qual é chamada de J-Net. Nesta arquitetura, a Perda Momentânea Total é precedida por quatro camadas convolucionais e duas camadas de agrupamento. A resolução da camada de entrada, nesse caso, deve ser quatro vezes maior em cada dimensão do que na resolução normal da camada de entrada.

c) InvertedNet: aperfeiçoaando a precisão com menos parâmetros [0056] Uma maneira de lidar com o sobre ajuste de modelo é reduzir o número de parâmetros. Prop ou se uma modificação da arquitetura de Perda Momentânea Total

a) realizando a sub-amostragem atrasada da primeira camada de agrupamento com (1,1) agrupamento e b) alterando os números de mapas de recursos na rede.

[0057] Nesta arquitetura, propõe-se iniciar com um grande número de mapas de recursos e reduzi-los por um fator pelo fator de dois após cada camada de agrupamento e, em seguida, aumentar de volta pelo fator de dois após cada camada de amostragem.

[0058] Nesse caso, as redes aprendem muitas variações diferentes de estruturas nas camadas iniciais e menos recursos de alto nível nas camadas posteriores.

Petição 870190070355, de 24/07/2019, pág. 20/48

15/28 [0059] Isto parece mais razoável no caso de órgãos anatômicos mais rígidos, tais como as clavículas, porque suas formas não variam muito e, portanto, não há necessidade de aprender muitas características abstratas altas. Essa arquitetura é chamada de InvertedNet devido à maneira como os números de mapas de recursos são alterados em relação à arquitetura original do U-Net.

d) Rede Convolucional Total: Aprendizagem em grupo para segmentação [0060] J. T. Springenberg, A. Dosovitskiy, T. Brox, e M. Riedmiller, Striving for simplicity: The all convolutional net, arXiv preprint arXiv: 1412.6806, 2014 demonstrou que ter camadas de agrupamenos substituídas por camadas convolucionais com maior passo ou remover camadas de agrupamento produz completamente resultados semelhantes ou até mesmo aperfeiçoa, tornando a rede totalmente convolucional.

[0061] Esta modificação introduz novos parâmetros na rede, mas pode ser considerada como um aprendizado de agrupamento para cada parte da rede, em vez de apenas corrigir os parâmetros de agrupamento para valores constantes. Esse aprendizado de agrupamento pode ser útil para fazer com que a rede aprenda recursos melhores para objetos alongados menores e mais finos. Motivado ainda pelo trabalho de J. T. Springenberg, A. Dosovitskiy, T. Brox e M. Riedmiller, Striving for simplicity: The all convolutional net, arXiv preprint arXiv:1412.6806, 2014, consideram esta segunda

Petição 870190070355, de 24/07/2019, pág. 21/48

16/28 configuração. Em tal configuração, cada camada de agrupamento é substituída por uma camada convolucional com dimensão de filtro igual à dimensão de agrupamento igual à dimensão de agrupamento da camada de agrupamento substituída. A arquitetura de perda momentânea total é modificada de forma correspondente. Esta arquitetura é chamada ainda de Toda convolucional.

Estratégias de Treinamento:

[0062] Como já mencionado, grandes diferenças nos tamanhos de órgãos anatômicos de interesse podem introduzir um problema de representação de dados desbalanceados.

[0063] Nesses casos, as classes são representadas em quantidades altamente diferentes em pixels e, portanto, as perdas para classes esparsamente representadas podem passar despercebidas.

[0064] Portanto, formulações clássicas de perda, tais como entropia cruzada ou funções negativas de dados, subestimariam as classes representadas em quantidades muito pequenas.

[0065] O problema relacionado com o desequilíbrio na representação de pixels é resolvido na presente invenção através da introdução de uma função de distância ponderada.

Seja C o conjunto de todas as classes de verdade e N uma partição do conjunto de treinamento usado. KeN e c_K sua cintagem de pixels total podemos definir r_KX como sendo a relação:

Petição 870190070355, de 24/07/2019, pág. 22/48

17/28 (D

onde c_lK	é compreendido pelo	número	de pixels
pertencente a uma	classe de órgão	IeC na	carga de
treinamento K .
Para	uma função	de	distância
d : {0,l}^miXm2 x {0,l}^m‘^X7”² R	, e uma imagem IeK	reduzimos	ao mínimo

a nossa função alvo

ZeL

2)

Sobre o conjunto K e a partição completa

[066] Como consequência, as

esparsamente representadas, por exemplo, clavículas, não são mais sub-representadas em favor da grande máscara de verdade no solo, por exemplo, campos pulmonares.

[067] Para d selecionamos e avaliamos as chamadas funções de perda de dados negativa ponderadas por pixel e entropia cruzada.

[068] A função de perda ponderada de dados, no presente caso, leva a ativação sigmóide computada no mapa final do recurso de saída para cada canal como a entrada. A ativação sigmóide é definida como:

(3) onde ακ(χ) indica ativação no canal de recurso k sob o pixel xel e p_k(x) é a probabilidade aproximada do pixel x não pertencente ao fundo. No caso de dados negativos ponderados, a saída não precisa proporcionar um

Petição 870190070355, de 24/07/2019, pág. 23/48

18/28 canal para a classe de fundo.

[069] Dada uma imagem I , deixa-se que {L₍} seja o conjunto de pixels não de fundo na correspondente máscara multicanal verdadeira de solo e //(/) = {%: x & I λ\p_k (%) -1| < ε} (4) seja o conjunto de pixels onde o modelo tem certeza de que eles não pertencem ao fundo e ε é compreendido por um pequeno valor de tolerância.

a função de distância d para o coeficiente de dados negativos para uma imagem de treinamento I pode ser então definida como:

-2^|pWnGW| (5) onde P(í) é a máscara de segmentação prevista e G(í) é a máscara de segmentação de verdade do solo correspondente para a imagem I .

[070] A entropia cruzada ponderada em pixels leva a ativação softmax computada no mapa final do recurso de saída para cada canal como a entrada. O softmax pt(x) pode ser definido como em Ronneberger et al. U-net: Convolutional networks for biomedical image segmentation, na International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234241; e a função de distância d da entropia cruzada para uma imagem de treinamento I é definida como:

l_G(/)log p_k(x) ----------------- ( Ό) Ck [071] O desempenho de ambas as funções de <Μ')=Σ

Petição 870190070355, de 24/07/2019, pág. 24/48

19/28 perda será comparado.

Arquiteturas de rede propostas [072] Na Figura 1 encontram-se ilustradas diferentes concretizações da arquitetura de rede.

[073] Os modelos propostos em detalhe são os seguintes:

[074] Perda Momentânea Total: Versão modificada da arquitetura U-Net [Ronneberger et al. U-net: Convolutional networks for biomedical image segmentation, em International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2015, pp. 234241] com camadas de perda momentânea colocadas depois de cada camada convolucional. Ilustrada na Figura la.

[075] InvertedNet: Semelhante à Perda Momentânea Total com a sub-amostragem atrasada da primeira camada de agrupamento e os números de mapas de recursos na rede invertidos em relação à U-net original. Vide Figura 1b.

• Todo-Convolucional: Semelhante à Perda Momentânea Total com camadas de agrupamento substituídas por novas camadas convolucionais com tamanhos de filtro iguais ao tamanho da camada de agrupamento correspondente. Vide Figura 1c.

• J-Net: Semelhante à Perda Momentânea Total com as quatro camadas convolucionais e duas agrupadas precedentes e a entrada de uma resolução maior. Ilustrado na Figura Id.

[076] Convoluções preenchidas são usadas em todas as arquiteturas para todas as camadas convolucionais. Portanto, os canais de saída terão o mesmo tamanho da

Petição 870190070355, de 24/07/2019, pág. 25/48

20/28 imagem de entrada, exceto a arquitetura J-net, em que as dimensões de entrada são quatro vezes maiores que a saída. Todas as arquiteturas propostas contêm camadas convolucionais e de perda momentânea. Em todas as arquiteturas, todas as camadas convolucionais são seguidas por camadas de perda momentânea, exceto as terceiras camadas convolucionais na arquitetura All-Convolutional, onde a camada desempenha um papel de uma camada de agrupamento que ela substitui.

[077] Em todos os modelos, foram usadas as funções de unidade linear retificada [R.H. Hahnloser et al., A seleção digital e a amplificação analógica coexistem em um circuito de silício inspirado no córtex, Nature, vol. 405, no. 6789, pp. 947-951, 200 [33]] em todas as camadas ocultas convolucionais.

[078] Para reduzir o número de parâmetros e acelerar o treinamento, em vez das últimas camadas densas, uma camada convolucional é usada com o número de mapas de recursos igual ao número de classes consideradas no caso da função de dados ponderada e com um ou mais fundo no caso de funções de entropia cruzada ponderadas em pixels. Para respingar os valores na faixa [0, 1] na saída da rede, uma função sigmóide é usada como uma ativação na camada de saída.

Experimentos

Conjunto de dados JSRT [079] Utiliza-se o conjunto de dados JSRT, J.

Shiraishi, S. Katsuragawa, J. Ikezoe, T. Matsumoto, T.

Kobayashi, K.-i. Komatsu, M. Matsui, H. Fujita, Y. Kodera

Petição 870190070355, de 24/07/2019, pág. 26/48

21/28 and K. Doi, Development of a digital image database for chest radiographs with and without a lung nodule; receiver operating characteristic analysis of radiologists' detection of pulmonary nodules. American Journal of Roentgentechnology, vol. 174, no. 1, pp. 71-74, 2000, tanto para treinamento quanto para avaliação. O conjunto de dados consiste em 247 radiografias de tórax PA com uma resolução de 2048 χ 2048, 0,175 mm de tamanho de pixel e 12 bits de profundidade .

[080] A base de dados SCR com limites de órgãos de referência para campos pulmonares esquerdo e direito, coração e clavículas esquerda e direita foi introduzida em 1024x1024 resolução por Ginneken et al. , Segmentação de estruturas anatômicas em radiografias de tórax usando métodos supervisionados: um estudo comparativo em um banco de dados público. Medical Image Analysis, vol. 10, pp. 19-40, 2006.

Modelo de treinamento [081] Os dados foram normalizados usando-se a média e o desvio padrão em todo o conjunto de dados de treinamento. Ele foi centrado no zero primeiro, subtraindose a média e, em seguida, normalizando-o adicionalmente escalado usando-se seu desvio padrão. Foi então dividido em conjuntos de treinamento e testes. Todos os modelos foram treinados em imagens das seguintes resoluções de imagem: 128x128, 256x256 e 512x512. Imagens e máscaras originais foram amostradas para essas resoluções pelo algoritmo de média local. Para tornar o papel comparável com métodos de última geração, a maioria dos resultados em nosso trabalho

Petição 870190070355, de 24/07/2019, pág. 27/48

22/28 correspondem à resolução de imagem de 256x256.

[082] Em todos os experimentos, a unidade linear retificada funciona R. H. Hahnloser et al., Digital selection and analogue amplification coexist in a cortexinspired silicon circuit, Nature, vol. 405, n°. 6789, pp. 947-951, 200 foram usados em todas as camadas ocultas convolucionais. É a função de ativação mais comum e com bom desempenho nas arquiteturas de rede modernas.

[083] Para reduzir o número de parâmetros e acelerar o treinamento no final, em vez de usar camada densa, usamos a camada convolucional com o número de mapas de características igual ao número de classes consideradas no caso dos dados ponderados e com mais um para o fundo em caso de funções de entropia cruzada pixelwise ponderadas. Para aplicar os valores ao intervalo na saída da rede, foi utilizada a função sigmóide como uma ativação na camada de saída.

[084] Para se otimizar o modelo os inventores utilizaram o Adaptive Moment Estimation method (ADAM) D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412-6980, 2014 como ele emprega uma abordagem de taxa de aprendizagem adaptativa para cada parâmetro. Ele armazena a média de decaimento dos gradientes do passado e do passado. Os inventores não fizeram uma avaliação extensa dos métodos, mas as corridas de treinamento iniciais mostraram que o ADAM teve um desempenho muito melhor do que outros algoritmos existentes em termos de convergência de treinamento. Também se submeteram a variaação as diferentes taxas de aprendizado inicial para encontrar a convergência

Petição 870190070355, de 24/07/2019, pág. 28/48

23/28 mais estável e 10⁵ e 5*IO⁵ pareciam ser as escolhas mais razoáveis. O treinamento convergiu mais lentamente no primeiro, mas mais estável do que no segundo. Por isso, usamos a taxa inicial fixa de 10 ⁵ em todos os experimentos realizados pelos inventores.

Métricas de desempenho [085] Para se avaliarem as arquiteturas e comparar com os trabalhos de última geração, os inventores usaram as seguintes métricas de desempenho:

Coeficiente de Similaridade de Dados:

2x|GnS| |G| + UI [086] Coeficiente de Similaridade de Jaccard:

_____ ₍₁₀₎ | G |+| 5 |-| GnS | onde nos dois coeficientes D_si e J , G representam os dados do verdadeiro e S representa a segmentação proporcionada pelo método avaliado.

Distância de superficie absoluta média simétrica:

S - ¹ ^Sg (n_s+n_g) gs onde n_s é compreendido pelo número de pixels na

Petição 870190070355, de 24/07/2019, pág. 29/48

24/28 segmentação fornecida pelo método avaliado,_n_g é o número de pixels na máscara de dados de verdade do solo, df^s é a distância de z-no pixel na segmentação até o pixel mais próximo na máscara de dados de verdade do solo e df é a distância de -j ésimo pixel na máscara de dados do verdade do solo para o pixel mais próximo na segmentação fornecida pelo método avaliado.

Resultados

Desempenho de segmentação [087] Os resultados da avaliação de seis arquiteturas propostas para diferentes resoluções são mostrados na Figura 3. Além disso, arquiteturas originais de U-Net para três resoluções, bem como os métodos de melhor desempenho e observador humano introduzidos por Van Ginneken et al., Segmentation of anatomical structures in chest radiographs using supervised methods, a comparative study on a public database, Medical Image Analysis, vol. 10, pp. 19-40, 2006, são adicionados para comparação.

[088] Todos os resultados são subdivididos em cinco blocos.

[089] O preimeiro bloco contém apenas o resultado do observador humano.

[090] O segundo bloco contém resultados para a arquitetura original da U-Net e métodos propostos por Van Ginneken et al, Segmentation of anatomical structures in chest radiographs using supervised methods, a comparative study on a public database, Medical Image Analysis, vol. 10, pp. 19-40, 2006.

[091] O terceiro, quarto e quinto blocos

Petição 870190070355, de 24/07/2019, pág. 30/48

25/28 contêm resultados da U-Net original e das arquiteturas propostas para três resoluções diferentes.

[092] Os melhores resultados para cada bloco estão ilustrados em negrito.

[093] As pontuações para segmentação pulmonar não variam de forma significativa. Todos os métodos foram capazes de mostrar um bom desempenho. Embora nossas arquiteturas não tenham superado o observado humano e o método de votação híbrida, um dos nossos modelos alcançou a mesma pontuação de Jaccard, e todas as arquiteturas propostas, assim como a U-net original, alcançaram contornos de objeto mais precisos de acordo com a distância simétrica da superfície.

[094] Todas as arquiteturas propostas alcançaram a melhor distância simétrica para as pontuações superficiais entre todos os métodos em todos os órgãos, o que prova que as redes convolucionais são muito eficientes na extração de características correspondentes às bordas dos objetos.

[095] Mesmo em caso de diferenças contra bastante baixa, por exemplo, nas fronteiras entre coração e pulmão ou clavículas e pulmões.

[096] A segmentação da clavícula é uma tarefa um pouco mais desafiadora para todas as nossas arquiteturas. E não é surpreendente, porque as clavículas são muito menores que o coração e os pulmões e suas formas mudam mais significativamente de uma varredura para outra. Nenhum dos métodos propostos podería superar o Observador Humano. Os métodos automáticos propostos por Segmentação de estruturas anatômicas em radiografias de tórax usando

Petição 870190070355, de 24/07/2019, pág. 31/48

26/28 métodos supervisionados, embora um estudo comparativo em um banco de dados público, Medical Image Analysis, vol. 10, pp. 19-40, 2006], fosse superado. A melhor arquitetura proposta superou a votação híbrida em quase 8% no escore de sobreposição de Jaccard. Todas as arquiteturas dos presentes inventores tiveram um desempenho melhor do que as arquiteturas originais da U-Net em todas as resoluções de imagem.

[097] Além disso, os resultados para resoluções mais altas são muito melhores para objetos menores, tais como clavículas. Com exceção da arquitetura InvertedNet, que apresentou um desempenho ruim devido ao agrupamento de sub-amostras atrasadas e tamanhos pequenos de filtros nas camadas convolucionais. Em resoluções mais baixas, o InvertedNet demonstrou o melhor desempenho na segmentação da clavícula, onde a U-Net Original foi superada em mais de 7% e as outras duas redes em 5% e 6%, respectivamente. Em resumo, as clavículas são mais desafiadoras para U-Net Original, All-Convolutional e AllDropout em resoluções mais baixas, devido às múltiplas camadas de pool na parte contrativa da rede. Múltiplas camadas de agrupamento fazem com que objetos como clavículas se tornem menores e, portanto, suavizem as bordas entre eles. Nesse caso, os recursos extraídos pela rede tornam-se menos expressivos.

[098] A segmentação do coração foi uma tarefa desafiadora para a arquitetura InvertedNet. Foi até um pouco superado pela U-Net Original, que por sua vez foi superada pelas outras arquiteturas propostas. Duas outras arquiteturas propostas All-Convolutional e All-Dropout

Petição 870190070355, de 24/07/2019, pág. 32/48

27/28 ultrapassaram ligeiramente o observador humano nesta tarefa.

[099] O desempenho da melhor arquitetura global InvertedNet foi avaliado com várias divisões de dados de entrada em conjuntos de treinamento e testes.

[0100] A Figura 4 mostra os resultados dos testes do InvertedNet treinados com a função de perda de entropia cruzada no sentido do pixel Tal como esperado teoricamente, as pontuações gerais foram aperfeiçoadas quando mais dados de treinamento são dados à rede. Por outro lado, o aumento da diferença entre o número de amostras em conjuntos de treinamento e testes leva a um ligeiro supera juste nos dados e, portanto, aumenta o erro final de generalização. Este não é o caso da função de perda de dados negativos, embora o número claramente crescente de amostras de treinamento ofereça resultados muito melhores. Os resultados das avaliações para diferentes divisões de teste para a função de perda de dados negativos encontram-se ilustrados na Figura 5.

[0101] Com relação ao desempenho da U-Net Original e dos modelos propostos no conjunto de testes em cada época durante o treinamento, as pontuações da U-Net Original normalmente crescem mais rápido que as outras redes no começo, mas então alcançam um platô e oscilam até ao final do procedimento de treino. Outras arquiteturas melhor regularizadas, porém, começam mais devagar, alcançam pontuações mais altas ou similares no final. InvertedNet começa devagar no começo, mas atinge o melhor resultado no final.

Desempenho de temporização

Petição 870190070355, de 24/07/2019, pág. 33/48

28/28 [0102] O método da presente invenção é uma abordagem de segmentação muito rápida para radiografias de tórax. Ele pode processar milhares de imagens por dia, o que podería ser especialmente benéfico em grandes ambientes clínicos, quando centenas ou às vezes milhares de pessoas são verificadas todos os dias.

Claims

REIVINDICAÇÕES

1. Método de pipeline para a segmentação multirótulos de estruturas anatômicas em uma imagem médica que compreende as etapas de treinar uma rede neural convolucional em um conjunto de dados de treino, de modo a obter um conjunto de pesos fixos ideais, segmentar estruturas anatômicas na referida imagem médica, por meio dOo uso da referida rede neural com os referidos pesos fixos ótimos, em que durante o dito treinamento é aplicada uma função de perda ponderada que leva em conta a subrepresentação de pelo menos uma estrutura anatômica na máscara de verdade do solo em relação a outras estruturas anatômicas.
2. Método de acordo com a reivindicação 1, em que a dita função de perda ponderada é uma função de perda de entropia cruzada ponderada em pixels, em que os pesos fixos são parâmetros obtidos como resultado da otimização da referida função de perda
3. Método de acordo com a reivindicação 1, em que a dita função de perda é uma função de perda de dados negativa ponderada e os referidos pesos fixos são parâmetros obtidos como resultado da otimização da referida função de perda de dados.
4. Método de acordo com a reivindicação 1, em que a arquitetura da dita rede neural convolucional é uma arquitetura U-net modificada em que uma camada de dropout é fornecida após uma camada de convolução.
5. Método de acordo com a reivindicação 4, em

Petição 870190070355, de 24/07/2019, pág. 35/48

2/2 que a dita camada de dropout é compreendida por uma camada de dropout Gaussiana.
6. Método de acordo com a reivindicação 1, em que a arquitetura da dita rede neural convolucional é uma arquitetura U-net modificada na medida em que uma camada de dropout é fornecida após uma camada de convolução e camadas de agrupamento serem substituídas por camadas de convolução, uma camada de convolução de substituição tendo um tamanho de filtro igual ao tamanho de agrupamento camada de agrupamento que ela substitui.
7. Método de acordo com a reivindicação 1, em que a arquitetura da dita rede neural de convolução consiste apenas em camadas convolucionais, amostragem e dropout .
8. Método de acordo com a reivindicação 1 em que a arquitetura da referida rede neural convolucional é uma arquitetura U-net modificada por compreender uma camada de dropout fornecida após uma camada de convolução e em que a sub-amostragem da primeira das referidas camadas de agrupamento é atrasada e em que o número de mapas de características na dita rede é invertido com respeito à referida rede U.