ES2967682T3 - Diagnóstico asistido por ordenador mediante redes neuronales profundas - Google Patents

Diagnóstico asistido por ordenador mediante redes neuronales profundas Download PDF

Info

Publication number
ES2967682T3
ES2967682T3 ES18750453T ES18750453T ES2967682T3 ES 2967682 T3 ES2967682 T3 ES 2967682T3 ES 18750453 T ES18750453 T ES 18750453T ES 18750453 T ES18750453 T ES 18750453T ES 2967682 T3 ES2967682 T3 ES 2967682T3
Authority
ES
Spain
Prior art keywords
image
voi
neural network
voxels
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18750453T
Other languages
English (en)
Inventor
Mark-Jan Harte
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aidence BV
Original Assignee
Aidence BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aidence BV filed Critical Aidence BV
Application granted granted Critical
Publication of ES2967682T3 publication Critical patent/ES2967682T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Image Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

Se describe un método implementado por computadora para determinar una patología en datos de imágenes en 3D, en el que el método puede comprender: recibir al menos una primera imagen en 3D de una parte del cuerpo, comprendiendo la imagen en 3D vóxeles asociados con un volumen de imagen predeterminado; una primera imagen neuronal convolucional en 3D. red que determina una posición de un volumen de interés (VOI) en el volumen de imagen de la primera imagen 3D, estando asociado el VOI con una patología de la parte del cuerpo, definiendo el VOI un subvolumen del volumen de imagen; determinando los primeros vóxeles de VOI seleccionando vóxeles de la primera imagen 3D que tienen una posición dentro del VOI según lo determinado por la primera red neuronal convolucional 3D y proporcionando los primeros vóxeles VOI a la entrada de una segunda red neuronal convolucional 3D; la segunda red neuronal convolucional 3D, que determina un valor de etiqueta objetivo en base a al menos los primeros vóxeles VOI, siendo el valor de etiqueta objetivo indicativo de la presencia o ausencia de una patología en el VOI; y generar un informe médico asociando el valor de la etiqueta objetivo determinado por la segunda red neuronal convolucional 3D con texto y/u oraciones que representan una descripción de la patología. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Diagnóstico asistido por ordenador mediante redes neuronales profundas
Campo de la invención
La invención se refiere a diagnósticos asistidos por ordenador que utilizan redes neuronales profundas y, en particular, aunque no exclusivamente, a procedimientos y sistemas para diagnósticos asistidos por ordenador que utilizan redes neuronales profundas y un producto de programa informático para utilizar dicho procedimiento.
Antecedentes de la invención
El diagnóstico asistido por ordenador (CAD) es un procedimiento informatizado que proporciona una opinión objetiva para ayudar en la interpretación y el diagnóstico de imágenes médicas. En dicho procedimiento, las imágenes médicas, por ejemplo, imágenes de resonancia magnética, de un paciente se ofrecen a la entrada de un programa que está configurado para detectar (es decir, localizar) ciertas estructuras y secciones conspicuas en las imágenes y, posteriormente, evaluar las estructuras y secciones detectadas de acuerdo con una clasificación de patología. Normalmente, para examinar las imágenes y extraer información útil de ellas se utilizan técnicas convencionales de procesamiento de imágenes, como el análisis de características y el seguimiento de objetos. Sin embargo, el análisis de características depende en gran medida del tipo de problema y del tipo de datos de imagen que deban procesarse. Para hacer frente a estos problemas, recientemente se han utilizado redes neuronales profundas para el análisis de imágenes que permiten la detección directa y el reconocimiento de características en imágenes 2D.
Por ejemplo, Cheng et al, en " Diagnóstico asistido por computadora con arquitectura de aprendizaje profundo: aplicaciones a lesiones mamarias en imágenes estadounidenses y nódulos pulmonares en tomografías computarizadas ", Nature Scientific Reports, 15 de abril de 2016en este artículo, los autores describen un estudio de diagnóstico asistido por ordenador para el diagnóstico diferencial de nódulos/lesiones benignos y malignos mediante una arquitectura específica de red neuronal profunda denominada "Stacked Denoising Auto-Encoder" (SDAE). La red neuronal profunda se entrenó utilizando regiones preseleccionadas en imágenes (regiones de interés o ROI) que incluyen un nódulo o lesión etiquetados. El estudio muestra que el rendimiento del sistema CAD basado en una red neuronal profunda es mejor o, al menos, igual que el de algunos de los sistemas CAD convencionales basados en texturas.
Por lo tanto, las imágenes médicas 2D, p. ej. "cortes" DICOM, pueden introducirse en una red neuronal profunda entrenada para diagnosticar patologías. Sin embargo, las estructuras anatómicas no se limitan a un plano 2D, sino que tienen una estructura 3D, por lo que es ventajoso para un médico recibir información sobre un diagnóstico en tres dimensiones. Para conocer estas estructuras tridimensionales se necesita un modelo 3D. Sería beneficioso suministrar directamente datos de imágenes 3D en lugar de datos de imágenes 2D a la entrada de una red neuronal entrenada.
Sin embargo, extender las técnicas de redes neuronales profundas del espacio 2D (píxel) al espacio 3D (vóxel) y generar eficientemente una red profunda entrenada que pueda manejar datos de imagen 3D con suficiente precisión para que pueda ser utilizada como una herramienta de diagnóstico fiable no es obvio y proporciona serios desafíos debido a las muy grandes demandas computacionales requeridas por el modelado 3D. Por ejemplo, un "corte" típico de IRM en 2D consta de 512*512=262K píxeles, mientras que la serie completa en 3D (que contiene 200 "cortes") incluye 200*512*512 = 5,2M de vóxeles. Por lo tanto, para grandes conjuntos de datos 3D, la cantidad de procesamiento se vuelve pesada y, a menudo, una carga insuperable que inhibe seriamente las aplicaciones prácticas en conjuntos de datos de imágenes 3D.
El documento US2016174902A1 describe un ejemplo de sistema de detección asistido por ordenador para la detección de objetos anatómicos mediante las denominadas redes neuronales profundas de espacio marginal. El sistema descrito incluye una serie de redes neuronales profundas entrenadas en las que cada red neuronal se entrena para un determinado espacio de parámetros con una dimensionalidad creciente, por ejemplo, posición, posiciónorientación, posición-orientación-escala, etc. La arquitectura de la red neuronal profunda utiliza los denominados "autocodificadores de eliminación de ruido apilados" (SDAE) y una "red neuronal profunda adaptativa dispersa" (SADNN) para abordar el problema de la manipulación de grandes volúmenes tridimensionales. Efectivamente, la SADNN es una técnica para simplificar la red neuronal profunda de modo que el proceso sea menos intensivo desde el punto de vista computacional. Sin embargo, este enfoque puede afectar a la precisión del sistema. Además, el sistema está configurado para detectar objetos anatómicos. No es capaz de proporcionar una opinión objetiva para ayudar en la interpretación y el diagnóstico de imágenes médicas. Los documentos US 2017/124415 A1 y CN 106909 778 A divulgan procedimientos para la clasificación de datos de imágenes 3D utilizando redes neuronales profundas, sin embargo, no divulgan un modelo mejorado para proporcionar retroalimentación a un médico por qué una etiqueta de destino tiene su valor predicho como lo hace la presente invención.
Por lo tanto, de lo anterior se deduce que existe una necesidad en la técnica de sistemas basados en redes neuronales profundas mejoradas que permitan diagnósticos asistidos por ordenador eficientes y precisos sobre la base de un volumen de vóxeles. En particular, existe una necesidad en la técnica de sistemas mejorados basados en redes neuronales profundas que permitan detectar, localizar, clasificar y notificar patologías de forma eficiente y precisa a partir de un volumen de vóxeles de una secuencia de imágenes médicas. La invención se define mediante las reivindicaciones adjuntas. Los ejemplos, aspectos y realizaciones, si los hubiere, divulgados en la siguiente descripción que no entran dentro del ámbito de las reivindicaciones son sólo de referencia, y deben interpretarse como ejemplos útiles para comprender diversas realizaciones de la invención.
Sumario de la invención
Como podrá apreciar un experto en la materia, algunos aspectos de la presente invención pueden materializarse como un sistema, un procedimiento o un producto de programa informático. Por consiguiente, algunos aspectos de la presente invención pueden adoptar la forma de una realización totalmente de hardware, una realización totalmente de software (incluido firmware, software residente, microcódigo, etc.) o una realización que combine aspectos de software y hardware que, en general, pueden denominarse en el presente documento "circuito", "módulo" o "sistema" Las funciones descritas en esta divulgación pueden implementarse como un algoritmo ejecutado por un microprocesador de un ordenador. Además, algunos aspectos de la presente invención pueden adoptar la forma de un producto de programa informático incorporado en uno o más medios legibles por ordenador que contengan, por ejemplo, un código de programa legible por ordenador.
Puede utilizarse cualquier combinación de uno o más medios legibles por ordenador. El medio legible por ordenador puede ser un medio de señalización legible por ordenador o un medio de almacenamiento legible por ordenador. Un medio de almacenamiento legible por ordenador puede ser, por ejemplo, pero no limitado a, un sistema, aparato o dispositivo electrónico, magnético, óptico, electromagnético, infrarrojo o semiconductor, o cualquier combinación adecuada de los anteriores. Ejemplos más específicos (una lista no exhaustiva) del medio de almacenamiento legible por ordenador incluirían los siguientes: una conexión eléctrica que tenga uno o más cables, un disquete de ordenador portátil, un disco duro, una memoria de acceso aleatorio (RAM), una memoria de sólo lectura (ROM), una memoria de sólo lectura programable borrable (EPROM o memoria Flash), una fibra óptica, una memoria de sólo lectura de disco compacto portátil (CD-ROM), un dispositivo de almacenamiento óptico, un dispositivo de almacenamiento magnético, o cualquier combinación adecuada de los anteriores. En el contexto de este documento, un medio de almacenamiento legible por ordenador puede ser cualquier medio tangible que pueda contener o almacenar un programa para su uso por o en conexión con un sistema de ejecución de instrucciones, aparato o dispositivo.
Un medio de señal legible por ordenador puede incluir una señal de datos propagada con código de programa legible por ordenador incorporado en ella, por ejemplo, en banda base o como parte de una onda portadora. Dicha señal propagada puede tomar cualquiera de una variedad de formas, incluyendo, pero no limitado a, electromagnético, óptico, o cualquier combinación adecuada de los mismos. Un medio de señalización legible por ordenador puede ser cualquier medio legible por ordenador que no sea un medio de almacenamiento legible por ordenador y que pueda comunicar, propagar o transportar un programa para su uso por o en conexión con un sistema, aparato o dispositivo de ejecución de instrucciones.
El código de programa incorporado en un medio legible por ordenador puede transmitirse utilizando cualquier medio apropiado, incluyendo, pero no limitado a medios inalámbricos, alámbricos, fibra óptica, cable, RF, etc., o cualquier combinación adecuada de los anteriores. El código de programa de ordenador para llevar a cabo operaciones para aspectos de la presente invención puede estar escrito en cualquier combinación de uno o más lenguajes de programación, incluyendo un lenguaje de programación orientado a objetos como Java(TM), Smalltalk, C++ o similares y lenguajes de programación procedimentales convencionales, como el lenguaje de programación "C" o lenguajes de programación similares. El código de programa puede ejecutarse íntegramente en el ordenador del usuario, parcialmente en el ordenador del usuario, como un paquete de software independiente, parcialmente en el ordenador del usuario y parcialmente en un ordenador remoto, o íntegramente en el ordenador o servidor remoto. En este último escenario, el ordenador remoto puede estar conectado al ordenador del usuario a través de cualquier tipo de red, incluida una red de área local (LAN) o una red de área extensa (WAN), o la conexión puede realizarse a un ordenador externo (por ejemplo, a través de Internet utilizando un proveedor de servicios de Internet).
A continuación, se describen aspectos de la presente invención con referencia a ilustraciones de diagramas de flujo y/o diagramas de bloques de procedimientos, aparatos (sistemas) y productos de programas informáticos según realizaciones de la invención. Se entenderá que cada bloque de las ilustraciones de diagrama de flujo y/o diagramas de bloques, y combinaciones de bloques en las ilustraciones de diagrama de flujo y/o diagramas de bloques, pueden implementarse mediante instrucciones de programa de ordenador. Estas instrucciones de programa informático pueden proporcionarse a uno o más procesadores, en particular un microprocesador (gráfico), una unidad central de procesamiento (CPU) o una unidad de procesamiento gráfico (GPU), de un ordenador de propósito general, un ordenador de propósito especial u otro aparato programable de procesamiento de datos para producir una máquina, de tal manera que las instrucciones, que se ejecutan a través del procesador del ordenador, otro aparato programable de procesamiento de datos u otros dispositivos crean medios para implementar las funciones/actos especificados en el diagrama de flujo y/o el bloque o bloques del diagrama de bloques.
Estas instrucciones de programa de ordenador también pueden almacenarse en un medio legible por ordenador que pueda dirigir un ordenador, otro aparato de procesamiento de datos programable u otros dispositivos para que funcionen de una manera particular, de tal manera que las instrucciones almacenadas en el medio legible por ordenador produzcan un artículo de fabricación que incluya instrucciones que implementen la función/acción especificada en el diagrama de flujo y/o bloque o bloques del diagrama de bloques.
Las instrucciones del programa de ordenador también pueden cargarse en un ordenador, otro aparato programare de procesamiento de datos u otros dispositivos para hacer que se ejecuten una serie de etapas operativas en el ordenador, otro aparato programable u otros dispositivos para producir un proceso implementado por ordenador de tal manera que las instrucciones que se ejecutan en el ordenador u otro aparato programable proporcionen procesos para implementar las funciones/actos especificados en el diagrama de flujo y/o bloque o bloques del diagrama de bloques.
El diagrama de flujo y los diagramas de bloques de las figuras ilustran la arquitectura, funcionalidad y operación de posibles implementaciones de sistemas, procedimientos y productos de programas informáticos según diversas realizaciones de la presente invención. En este sentido, cada bloque del diagrama de flujo o de bloques puede representar un módulo, segmento o porción de código, que comprende una o más instrucciones ejecutables para implementar la(s) función(es) lógica(s) especificada(s). También debe tenerse en cuenta que, en algunas implementaciones alternativas, las funciones señaladas en los bloques pueden ocurrir fuera del orden señalado en las figuras. Por ejemplo, dos bloques mostrados en sucesión pueden, de hecho, ejecutarse sustancialmente de forma concurrente, o los bloques pueden a veces ejecutarse en orden inverso, dependiendo de la funcionalidad implicada. También se observará que cada bloque de los diagramas de bloques y/o ilustraciones de diagramas de flujo, y combinaciones de bloques en los diagramas de bloques y/o ilustraciones de diagramas de flujo, pueden implementarse mediante sistemas basados en hardware para fines especiales que realicen las funciones o actos especificados, o combinaciones de hardware para fines especiales e instrucciones informáticas.
Es un objetivo de la invención reducir o eliminar al menos uno de los inconvenientes conocidos en la técnica anterior. En un aspecto, la invención puede referirse a un procedimiento implementado por ordenador para determinar una patología en datos de imagen 3D que comprende: recibir al menos una primera imagen 3D de una parte del cuerpo, la imagen 3D que comprende vóxeles asociados con un volumen de imagen predeterminado; una primera red neuronal convolucional 3D que determina una posición de un volumen de interés (VOI) en el volumen de imagen de la primera imagen 3D, estando el VOI asociado con una patología de la parte del cuerpo, definiendo el VOI un subvolumen del volumen de imagen; determinar los primeros vóxeles del VOI seleccionando los vóxeles de la primera imagen 3D que tienen una posición dentro del VOI determinada por la primera red neuronal convolucional 3D y proporcionando los primeros vóxeles del VOI a la entrada de una segunda red neuronal convolucional 3D; la segunda red neuronal convolucional 3D, determinando un valor de etiqueta objetivo sobre la base de al menos los primeros vóxeles del VOI, siendo el valor de etiqueta objetivo indicativo de la presencia o ausencia de una patología en el VOI.
Por lo tanto, la invención utiliza una primera red neuronal profunda para preprocesar datos de imágenes 3D que se utilizan como datos de entrenamiento 3D para una segunda red neuronal profunda. La primera red neuronal profunda proporciona una posición asociada a un VOI que contiene un volumen de la imagen 3D que puede contener una patología. De este modo, solo los vóxeles relevantes de una imagen 3D pueden utilizarse como entrada para otra red neuronal profunda que está configurada para generar una etiqueta de destino que puede asociarse a una patología concreta. La invención incluye la aplicación de redes neuronales profundas totalmente tridimensionales con el fin de utilizar la estructura anatómica tridimensional para la clasificación de patologías y obtener así un mayor rendimiento, al tiempo que se aplica una optimización del rendimiento en forma de localización tridimensional utilizando una red de aprendizaje profundo con el fin de reducir el volumen necesario para realizar la clasificación de patologías.
El preprocesamiento reduce sustancialmente la cantidad de datos de imágenes 3D del conjunto de entrenamiento que es relevante para el proceso de entrenamiento, mejorando así sustancialmente el tiempo de entrenamiento de la red neuronal 3D. Además, al eliminar los datos irrelevantes, se puede reducir la complejidad del cálculo. Por lo tanto, la invención permite más iteraciones de entrenamiento en un periodo de tiempo determinado, lo que da como resultado una red de aprendizaje profundo entrenada que es capaz de generar un modelo de desorden mejorado. Teniendo en cuenta que el tiempo de formación puede llegar a ser de una semana o más, esta localización supone una ventaja sustancial.
Preferentemente, las redes neuronales pueden entrenarse para determinar una patología en partes del cuerpo como articulaciones, en particular rodillas.
En una realización, el procedimiento puede comprender además generar un informe médico asociando el valor de etiqueta objetivo determinado por la segunda red neuronal convolucional 3D con texto y/o frases que representan una descripción de la patología. Por lo tanto, la etiqueta de destino puede estar vinculada a cadenas de texto que pueden utilizarse para construir un texto para un informe médico generado por ordenador en el que el texto proporcione información sobre la presencia de una o más patologías.
En una realización, la generación del informe médico puede incluir si el valor de la etiqueta objetivo está dentro de un primer rango predeterminado, determinar una primera cadena de texto que describa que la patología, por ejemplo, un desgarro de menisco, ha sido determinada y si el valor de la etiqueta objetivo está dentro de un segundo rango predeterminado, determinar una segunda cadena de texto que describa que cierta patología, por ejemplo, un desgarro de menisco, no ha sido determinada.
En otra realización, la generación del informe médico puede incluir la inserción de la primera o segunda cadena de texto en una cadena de texto que representa una plantilla de informe.
En una realización, el procedimiento puede comprender, además: recuperar un mapa de probabilidad 3D asociado con los vóxeles VOI desde una capa convolucional de la segunda red neuronal convolucional y utilizar el mapa de probabilidad 3D como entrada a un proceso de retropropagación para generar un mapa de saliencia 3D asociado con los vóxeles VOI. En una realización, el procedimiento puede comprender, además: generar una imagen 3D anotada de la patología en el VOI utilizando el mapa de saliencia 3D para identificar vóxeles en el VOI que contribuyeron sustancialmente a la determinación del valor de la etiqueta objetivo por la segunda red neuronal convolucional 3D. En una realización, el procedimiento puede comprender la inserción de la imagen 3D anotada o de uno o más cortes 2D de la imagen 3D anotada en el informe. Por lo tanto, la invención también permite la visualización en 3D de una patología en un VOI. Dicha visualización proporciona información valiosa para un experto médico en la evaluación de las imágenes 3D y el diagnóstico.
En una realización, la primera imagen 3D puede incluir una secuencia de imágenes de un primer plano de imagen, preferiblemente un plano de imagen sagital. En una realización, el procedimiento puede comprender, además: recibir una segunda imagen 3D de la parte del cuerpo, la segunda imagen 3D que incluye una secuencia de imágenes de un segundo plano de imagen, preferentemente un plano de imagen coronal; determinar segundos vóxeles VOI seleccionando vóxeles de la segunda imagen 3D que tienen una posición dentro del VOI; la segunda red neuronal convolucional 3D, determinar un valor de etiqueta objetivo sobre la base de los primeros y segundos vóxeles VOI.
En una realización, la segunda red neuronal convolucional 3D puede incluir al menos una primera pluralidad de capas de red neuronal convolucional 3D que forman un primer camino a través de la red neuronal y una segunda pluralidad de capas de red neuronal convolucional 3D que forman un segundo camino a través de la segunda red neuronal.
En una realización, la primera pluralidad de capas de red neuronal convolucional 3D puede configurarse para procesar los vóxeles del primer VOI y la segunda pluralidad de capas de red neuronal convolucional 3D puede configurarse para procesar los vóxeles del segundo VOI.
En una realización, la primera y/o segunda red neuronal convolucional 3D puede incluir una o más capas de ruido.
En otro aspecto, la invención puede referirse a un procedimiento implementado por ordenador para entrenar una o más redes neuronales profundas 3D en un sistema configurado para determinar una patología en datos de imagen 3D.
En una realización, el procedimiento puede comprender: un ordenador que recibe un conjunto de entrenamiento de datos de imagen 3D de un estudio médico, el conjunto de entrenamiento de datos de imagen 3D que comprende imágenes 3D, una imagen 3D que comprende vóxeles asociados con un volumen de imagen predeterminado y que está asociada con un informe médico que comprende partes de texto y/o frases legibles por ordenador indicativas de una patología en la imagen 3D; para cada imagen 3D de los datos de formación de la imagen 3D, formar un cuadro delimitador 3D sobre la base de regiones de interés 2D (ROI) en cortes de la imagen 3D, formando el cuadro delimitador 3D un subvolumen en el volumen de imagen de la imagen 3D, definiendo el subvolumen un volumen de interés (VOI); para cada imagen 3D de los datos de entrenamiento de la imagen 3D, determinar la posición del VOI en el volumen de la imagen y determinar los vóxeles que están posicionados en el VOI; y, entrenar una primera red neuronal convolucional 3D utilizando los vóxeles de cada VOI como entrada y la posición del VOI como objetivo.
En una realización, el procedimiento puede comprender además: para cada imagen 3D de los datos de entrenamiento de imagen 3D, procesar texto y/o frases legibles por ordenador del informe médico asociado con el VOI para producir un valor de etiqueta objetivo, siendo el valor de etiqueta objetivo indicativo de la presencia o ausencia de una patología en el VOI; entrenar una segunda red neuronal convolucional 3D usando los vóxeles de los VOl como entrada y los valores de etiqueta objetivo asociados con los VOl como objetivo.
En una realización, el procesamiento de texto y/o frases legibles por ordenador puede incluir: utilizar un árbol de decisión para describir cómo la presencia o ausencia de una o más frases y/o palabras determina el valor de la etiqueta objetivo.
En otro aspecto más, la invención puede referirse a un sistema informático adaptado para determinar una patología en datos de imagen 3D. En una realización, el ordenador puede comprender: un medio de almacenamiento que tiene un código de programa legible por ordenador almacenado en el mismo, el código incluye una primera y segunda red neuronal convolucional 3D, y uno o más procesadores, preferiblemente uno o más microprocesadores, acoplados al medio de almacenamiento legible por ordenador, en el que al ejecutar el código de programa legible por ordenador, el sistema lleva a cabo operaciones que comprenden: recibir al menos una primera imagen 3D de una parte del cuerpo, la imagen 3D que comprende vóxeles asociados a un volumen de imagen predeterminado; la primera red neuronal convolucional 3D que determina una posición de un volumen de interés (VOI) en el volumen de imagen de la primera imagen 3D, estando el VOI asociado a una patología de la parte del cuerpo, definiendo el VOI un subvolumen del volumen de imagen; determinar los primeros vóxeles del VOI seleccionando los vóxeles de la primera imagen 3D que tienen una posición dentro del VOI determinada por la primera red neuronal convolucional 3D y proporcionando los primeros vóxeles del VOI a la entrada de la segunda red neuronal convolucional 3D; la segunda red neuronal convolucional 3D, determina un valor de etiqueta objetivo sobre la base de al menos los primeros vóxeles del VOI, siendo el valor de etiqueta objetivo indicativo de la presencia o ausencia de una patología en el VOI; y, genera un informe médico asociando el valor de etiqueta objetivo determinado por la segunda red neuronal convolucional 3D con texto y/o frases que representan una descripción de la patología.
En la presente invención el procedimiento comprende: recuperar un mapa de probabilidad 3D asociado con los vóxeles del<v>O<i>desde una capa convolucional de la segunda red neuronal convolucional y usar el mapa de probabilidad 3D como entrada a un proceso de retropropagación para generar un mapa de saliencia 3D asociado con los vóxeles del VOI; generar una imagen 3D anotada de la patología en el VOI usando el mapa de saliencia 3D para identificar vóxeles en el VOI que hicieron una contribución sustancial a la determinación del valor de etiqueta objetivo por la segunda red neuronal convolucional 3D.
En una realización, las operaciones pueden comprender, además: insertar la imagen 3D anotada o uno o más cortes 2D de la imagen 3D anotada en el informe.
En una realización, la primera imagen 3D puede incluir una secuencia de imágenes de un primer plano de imagen, preferiblemente un plano de imagen sagital. En una realización, las operaciones pueden comprender además: recibir una segunda imagen 3D de la parte del cuerpo, la segunda imagen 3D que incluye una secuencia de imágenes de un segundo plano de imagen, preferiblemente un plano de imagen coronal; determinar segundos vóxeles VOI seleccionando vóxeles de la segunda imagen 3D que tienen una posición dentro del VOI; la segunda red neuronal convolucional 3D, determinar un valor de etiqueta objetivo sobre la base de los primeros y segundos vóxeles VOI. En una realización, la segunda red neuronal convolucional 3D puede incluir al menos una primera pluralidad de capas de red neuronal convolucional 3D que forman un primer camino a través de la red neuronal y una segunda pluralidad de capas de red neuronal convolucional 3D que forman un segundo camino a través de la segunda red neuronal. En una realización, la primera pluralidad de capas de red neuronal convolucional 3D puede configurarse para procesar los vóxeles del primer VOI y la segunda pluralidad de capas de red neuronal convolucional 3D puede configurarse para procesar los vóxeles del segundo VOI.
La invención se ilustrará además con referencia a los dibujos adjuntos, que mostrarán esquemáticamente realizaciones según la invención. Se entenderá que la invención no se limita en modo alguno a estas realizaciones específicas.
Breve descripción de los dibujos
LaFig. 1muestra esquemáticamente un sistema de diagnóstico asistido por ordenador que utiliza redes neuronales profundas según una realización de la invención;
LaFig. 2representa esquemáticamente un módulo localizador según una realización de la invención;
LaFig. 3muestra un ejemplo de un corte anotado de un volumen de datos de imagen 3D;
LaFig. 4representa esquemáticamente una arquitectura de red neuronal profunda para modelar un modelo de localizador según una realización de la invención;
LaFig. 5representa esquemáticamente una arquitectura de red neuronal profunda para modelar un modelo de patología según una realización de la invención.
LaFig. 6representa esquemáticamente un procedimiento implementado por ordenador para entrenar una red neuronal profunda 3D según una realización de la invención;
LaFig.7representa un módulo localizador 3D que comprende una red de aprendizaje profundo entrenada según una realización de la invención;
LaFig. 8muestra esquemáticamente un procedimiento implementado por ordenador para entrenar una red neuronal profunda 3D según otra realización de la invención;
LaFig. 9muestra esquemáticamente un sistema informático de diagnóstico asistido por ordenador que utiliza redes neuronales profundas 3D según una realización de la invención;
LaFig. 10muestra un ejemplo de informe generado mediante un sistema de diagnóstico asistido por ordenador según una realización de la invención.
LaFig. 11muestra un ejemplo de una imagen anotada de un corte de un VOI generado por un sistema de diagnóstico asistido por ordenador según una realización de la invención;
LaFig. 12es un diagrama de bloques que ilustra un sistema de procesamiento de datos ejemplar que puede utilizarse en un sistema de diagnóstico como el descrito en esta divulgación.
Descripción detallada
En esta divulgación se describen realizaciones de sistemas informáticos y procedimientos implementados por ordenador que utilizan redes neuronales profundas para la detección, localización, clasificación, notificación y visualización de patologías de una estructura anatómica sobre la base de datos de imágenes 3D, por ejemplo, datos<de imágenes 3D definidos por una o más secuencias de imágenes médicas como imágenes de IRM o>T<c>.<Estos>sistemas y procedimientos son especialmente adecuados para su aplicación en la detección y el diagnóstico asistidos por ordenador.
Un sistema informático según la invención puede comprender dos modos, un modo de entrenamiento y un modo de inferencia. Cuando el sistema está en el modo de entrenamiento, se ejecuta un proceso de entrenamiento en el que el sistema entrena iterativamente (optimiza) al menos dos redes neuronales profundas sobre la base de uno o más conjuntos de entrenamiento que incluyen datos de imágenes 3D. Una primera red neuronal profunda entrenada, es decir, una base de datos de una pluralidad (típicamente millones) de parámetros que describen las conexiones de la red neuronal profunda entrenada, puede representar un modelo de patología que está configurado para generar un diagnóstico 3D asistido por ordenador y una segunda red neuronal profunda entrenada que puede representar un modelo localizador 3D que está configurado para proporcionar la localización de datos de imagen 3D contenidos en un volumen de interés (VOI) del volumen de los datos de imagen 3D (en resumen un volumen de imagen) de un conjunto de entrenamiento. El uso de estas redes neuronales profundas entrenadas en diagnósticos asistidos por ordenador y el entrenamiento de estas redes se describen a continuación con más detalle. Cuando el sistema está en el modo de inferencia, el sistema informático puede ejecutar un proceso en el que un nuevo conjunto de datos de imágenes 3D de una estructura anatómica (es decir, un conjunto de datos distinto del conjunto de entrenamiento) puede ofrecerse a la entrada de las redes neuronales profundas entrenadas para que las redes neuronales profundas puedan procesar los datos de entrada con el fin de detectar, localizar y notificar de forma precisa y eficiente una patología en los nuevos datos de imágenes 3D.
LaFig. 1representa esquemáticamente un sistema informático de diagnóstico asistido por ordenador que utiliza redes neuronales profundas según una realización de la invención. En particular, laFig. 1representa un sistema informático de diagnóstico asistido por ordenador, en el que el sistema está en modo de formación. En este modo, una primera red neuronal profunda 3D114se entrena sobre la base de un conjunto de datos de entrenamiento104,es decir, un conjunto de datos que incluye datos de imágenes 3D y, opcionalmente, uno o más tipos de datos tales como frases y/o palabras124que representan información experta sobre una patología representada en los datos de imágenes 3D del conjunto de datos de entrenamiento. Los datos de la imagen 3D pueden incluir vóxeles asociados a un volumen predeterminado, que en pocas palabras se denomina volumen de imagen. El conjunto de datos de entrenamiento puede incluir datos de imágenes 3D preseleccionados, como una secuencia de imágenes de IRM o TC, y partes relevantes de informes radiológicos, por ejemplo, en forma de archivos de texto legibles por ordenador, asociados a los datos de imágenes 3D preseleccionados.
Durante el proceso de entrenamiento, el conjunto de datos de entrenamiento puede ser introducido en la primera red neuronal profunda para entrenar la red iterativamente. En una realización, el conjunto de datos de entrenamiento puede incluir una o más secuencias de imágenes de resonancia magnética que forman una pila de datos de imágenes en 3D y representan la anatomía de una parte del cuerpo (por ejemplo, una rodilla) que tiene una patología predeterminada (por ejemplo, un determinado desgarro meniscal) y (partes de texto relevantes de) uno o más informes, por ejemplo, informes radiológicos, asociados con los datos de entrenamiento, en los que los informes incluyen información sobre una patología diagnosticada por un experto, por ejemplo, un médico o similar.
Se puede utilizar un procedimiento conocido de optimización por descenso de gradiente estocástico para aprender los valores óptimos de los parámetros de red de la primera red neuronal profunda minimizando una función de pérdida que representa la desviación entre la salida de la red neuronal profunda y una etiqueta objetivo, por ejemplo, una etiqueta que identifica una patología, que representa la salida deseada para una entrada predeterminada (es decir, el conjunto de entrenamiento). Cuando la minimización de la función de pérdida converge a un valor determinado, el proceso de formación puede darse por concluido.
La primera red neuronal 3D entrenada puede representar un modelo de trastorno130que es capaz de clasificar con precisión e informar de una patología en datos de imagen 3D que se ofrecen a la entrada de la red entrenada. Aquí, la clasificación puede incluir la generación de un valor de etiqueta objetivo, la determinación de si el valor de etiqueta objetivo representa un resultado positivo (por ejemplo, desgarro de menisco detectado) o negativo (no se detecta desgarro de menisco) y la asociación de un texto generado por ordenador y/o frases que representen una representación semántica del resultado positivo o negativo. Estos textos y/o frases, al menos un primer texto y/o frases que representan una representación semántica o textual, por ejemplo, una primera cadena de códigos ASCII, del resultado positivo y al menos un segundo texto y/o frases que representan una representación semántica o textual, por ejemplo, una segunda cadena de códigos ASCII, del resultado negativo pueden almacenarse en una base de datos del sistema.
Durante la ejecución del proceso de entrenamiento de la primera red neuronal profunda 3D, el sistema informático puede preprocesar los datos de entrenamiento antes de alimentar los datos a la entrada de la primera red neuronal profunda 3D del modelo114de patología.Los datos de imagen 3D del conjunto de datos de entrenamiento pueden incluir varios conjuntos de datos de imagen 3D asociados con el mismo volumen de imagen, cada conjunto siendo generado usando un plano de adquisición diferente (por ejemplo, plano de adquisición sagital o coronal) y secuencia de pulso (por ejemplo, tiempos TE y TR). En una realización, los datos pueden incluir al menos un primer conjunto de datos de imagen 3D generados basados en un plano de adquisición sagital usando tiempo RE de repetición y/o tiempo TE de eco y al menos al menos un segundo conjunto de datos de imagen 3D generados basados en un plano de adquisición coronal usando tiempo RE de repetición y/o tiempo TE de eco. Basándose en la experiencia radiológica, se pueden seleccionar una o más series como las de mayor relevancia para una patología. Estas series seleccionadas pueden utilizarse como conjunto de datos de entrenamiento. Normalmente, las imágenes proceden de distintos hospitales y, por lo tanto, pueden tener distintos formatos de datos, por ejemplo, el formato DICOM o similar. En ese caso, primero hay que convertir los datos de la imagen a un formato estándar adecuado para su posterior procesamiento.
Por ejemplo, en una realización, el formato de vídeo MPEG-4 puede utilizarse para el almacenamiento y procesamiento de datos de imágenes 3D. Además, en una realización, puede aplicarse un proceso de normalización a los datos de la imagen 3D, por ejemplo, puede ser necesario normalizar el brillo de la imagen, ya que puede ser incoherente en diferentes series y/o estudios. Pueden utilizarse procesos conocidos de normalización de datos de imagen, como la ecualización adaptativa del histograma limitada por el contraste. Un módulo de conversión106del sistema puede estar adaptado para ejecutar la conversión y normalización de los datos de imagen y almacenar los datos de imagen normalizados en una base de datos108.
Una secuencia de imágenes médicas puede representar una imagen 3D de un volumen escaneado particular de un paciente. En muchos casos, sin embargo, no es necesario que el sistema informático entrene la primera red neuronal profunda a partir de todo el conjunto de datos de imágenes 3D, porque algunas partes no tienen relevancia médica. Por ejemplo, para diagnosticar un desgarro de menisco, no es necesario incluir datos de imágenes 3D asociados al hueso tibial y femoral. La cantidad de tiempo de entrenamiento depende linealmente del número de vóxeles que determinan el volumen de datos de la imagen 3D. Así, localizar el área 2D que contiene la información relevante en cada imagen de una serie de imágenes que forman el volumen de datos de imagen 3D, puede reducir considerablemente el tamaño del volumen de entrenamiento 3D.
A tal fin, tras convertir los datos de imagen 3D del conjunto de datos de entrenamiento en un formato de datos normalizado y estandarizado, el sistema informático puede alimentar los datos de imagen 3D normalizados a la entrada de un localizador 3D110que comprende una segunda red neuronal profunda que está entrenada para determinar la posición un denominado volumen de interés (VOI) dentro del volumen de imagen (normalizado) de los datos de imagen 3D, en el que el VOI define un subvolumen en el volumen de imagen que contiene los vóxeles de la estructura anatómica que requiere diagnóstico. Por lo tanto, el localizador 3D110puede comprender una segunda red neuronal profunda entrenada que representa un modelo de localizador 3D para determinar con precisión la ubicación de un VOI en el volumen de la imagen que incluye la estructura anatómica para la que se necesita diagnosticar una patología. En una realización, el VOI puede ser un cuadro delimitador 3D que contiene datos de imagen 3D (vóxeles). Los datos de imagen 3D contenidos en el VOI se utilizan posteriormente como datos de imagen 3D para entrenar la red neuronal profunda 3D del modelo de patología.
De este modo, el localizador 3D preprocesa los datos de imagen 3D del conjunto de entrenamiento reduciendo sustancialmente la cantidad de datos de imagen 3D del conjunto de entrenamiento a datos de imagen 3D que son relevantes para el proceso de entrenamiento. De este modo, el localizador 3D mejora sustancialmente el tiempo de entrenamiento de la red de aprendizaje profundo 3D114.Además, al eliminar los datos irrelevantes, se puede reducir la complejidad del cálculo. El localizador 3D permite más iteraciones de entrenamiento en un periodo de tiempo determinado, lo que da como resultado una red de aprendizaje profundo entrenada que es capaz de generar un modelo de desorden mejorado. Teniendo en cuenta que el tiempo de formación puede llegar a ser de una semana o más, esta localización supone una ventaja sustancial.
Como se muestra en laFig. 1,un módulo de entrenamiento de localizador 3D115puede configurarse para entrenar por separado la red neuronal profunda del localizador 3D110sobre la base del modelo de localizador 3D122que incluye posiciones de VOl en los datos de imagen 3D del conjunto de entrenamiento. Estos VOl pueden derivarse de un conjunto de datos de entrenamiento anotados116de datos de imágenes 3D. Los ROl118pueden determinarse en cortes del conjunto de entrenamiento anotado y puede determinarse un cuadro delimitador 3<d>utilizando los ROl, en el que el cuadro delimitador 3D120puede representar un VOI, en el que cada VOI puede asociarse con una posición en el volumen de la imagen. Estas posiciones pueden representarse en un sistema de coordenadas adecuado para definir una posición 3D x,y,z en el volumen de la imagen. Estas posiciones pueden utilizarse como etiquetas objetivo durante el entrenamiento. El conjunto de datos anotados puede seleccionarse del conjunto de datos de entrenamiento104que se utiliza para entrenar la red neuronal profunda 3D del modelo de patología.
En algunas realizaciones (no mostradas), los datos de entrenamiento pueden incluir al menos un primer conjunto de datos de imagen 3D (una secuencia primaria de imágenes asociadas con un primer plano de imagen en el volumen de imagen) y un segundo conjunto asociado de datos de imagen 3D (una secuencia secundaria de imágenes asociadas con un segundo plano de imagen en el plano de imagen). las imágenes tridimensionales, como las imágenes tridimensionales por resonancia magnética o tomografía computarizada de un objeto anatómico, pueden generarse utilizando diferentes planos de imagen, por ejemplo, el plano coronal y el plano sagital de un volumen de imagen. El uso combinado de datos de imágenes 3d de distintos planos de imagen permite reconstruir con precisión datos de imágenes 3D. En tal caso, la posición de un vóxel de los datos de imagen 3D del conjunto de datos de imagen 3D primario se vincula a la posición de un vóxel del conjunto de datos de imagen 3D secundario mediante un mapeo de coordenadas conocido.
En una realización, la red neuronal profunda del localizador 3D puede entrenarse para procesar una de las secuencias de imágenes, por ejemplo, el conjunto de datos de imágenes 3D primarias. El objetivo de la red neuronal profunda entrenada del localizador 3D, es decir, una primera ubicación del primer VOI en el volumen de los datos de imagen 3D primarios. A continuación, se puede utilizar un mapeo de coordenadas entre los datos de imagen 3D primarios y secundarios para determinar una segunda ubicación de un segundo VOI correspondiente en el volumen de los datos de imagen 3D secundarios.
LaFig. 2representa esquemáticamente un módulo de entrenamiento de localizador 3D según una realización de la invención. En particular, laFig. 2representa un ejemplo de un módulo de entrenamiento de localizador 3D que está configurado para ejecutar un proceso de entrenamiento para entrenar una red neuronal profunda 3D212para que funcione de acuerdo con un modelo de localizador deseado214que genera una posición 3D (por ejemplo, en términos de coordenadas x,y,z de un sistema de coordenadas asociado con el volumen de imagen 3D) de un VOI que contiene los vóxeles de una patología particular como su objetivo.
El proceso de entrenamiento puede incluir una etapa de selección de un conjunto de datos de entrenamiento204de datos de imágenes 3D, por ejemplo, una secuencia de imágenes médicas tales como imágenes de resonancia magnética, para entrenar la red neuronal profunda del localizador 3D. El conjunto de datos de entrenamiento seleccionado puede ser significativamente menor que el conjunto necesario para entrenar la red neuronal profunda 3D del modelo de patología.
El módulo de entrenamiento localizador202puede comprender una herramienta de anotación206,por ejemplo, una aplicación de software, que está configurada para mostrar secuencias de imágenes (cortes) del conjunto de datos de entrenamiento y anotar cada corte determinando una región de interés 2D (ROI) en cada corte, por ejemplo, un polígono cerrado planar, que abarca una estructura anatómica predeterminada que es el objeto de diagnóstico. En una realización, la determinación de las ROI 2D puede incluir un anotador208que controla una herramienta de dibujo que permite determinar los límites de un área, una ROI, en una imagen en la que se encuentra una estructura anatómica predeterminada.
LaFig. 3representa un ejemplo de un corte de un volumen de imagen de una rodilla que incluye una región anotada302de una región de interés alrededor del menisco. La ROI anotada ilustra que una gran parte de los datos de imagen del corte no es relevante para el entrenamiento de la red neuronal profunda. Por lo tanto, el entrenamiento de la red neuronal profunda 3D sobre la base de datos de imágenes 3D (vóxeles) contenidos en un VOI mejorará significativamente el rendimiento del sistema.
En una realización, el módulo de entrenamiento del localizador 3D dela Fig. 2puede comprender un procesador210adaptado para calcular la ubicación central de un cuadro delimitador 3D sobre la base de la secuencia de imágenes que comprenden los ROl 2D anotados, donde el cuadro delimitador 3D representa un VOI que abarca datos de imagen 3D de la estructura anatómica en un conjunto de datos de entrenamiento. Este proceso puede repetirse para múltiples conjuntos de imágenes anotadas, de modo que se generen múltiples cuadros delimitadores para múltiples conjuntos de datos de entrenamiento.
Un módulo extractor211puede configurarse para utilizar la ubicación calculada de un cuadro delimitador 3D para extraer datos de imagen 3D (vóxeles) de un VOI de un conjunto de datos de entrenamiento de datos de imagen 3D204que se utilizó para determinar el cuadro delimitador 3D. A continuación, se puede entrenar una red neuronal profunda212utilizando los datos de imagen 3D contenidos en los recuadros delimitadores 3D determinados como entrada y los centros de los recuadros delimitadores determinados, sus coordenadas, como objetivo. La red neuronal profunda puede entrenarse utilizando la distancia entre el centro de un cuadro delimitador 3D predicho (la salida de la red neuronal profunda) y el centro real de un cuadro delimitador 3D como función de pérdida para un proceso de retropropagación hasta la convergencia.
Por lo tanto, el proceso de entrenamiento ejecutado por el módulo de entrenamiento del localizador115en laFig.
1puede resultar en un localizador 3D110que pre-procesa los datos de entrenamiento antes de que estos sean alimentados a la entrada de la red de aprendizaje profundo 3D. El localizador 3D incluye una segunda red neuronal profunda entrenada que genera coordenadas de un centro de un VOI en el volumen de un conjunto de entrenamiento de datos de imágenes 3D (por ejemplo, una secuencia de imágenes médicas como imágenes de resonancia magnética) que se proporcionan a la entrada del localizador 3D. Basándose en el centro del VOI, el localizador 3D puede determinar los datos de imagen 3D112contenidos en el VOI y almacenar los datos de imagen 3D así determinados en una memoria del sistema. En una realización, las dimensiones del VOI pueden calcularse como un percentil, por ejemplo, un percentil 95, de las dimensiones de los cuadros delimitadores 3D determinados para el conjunto de entrenamiento como se describe en referencia a laFig. 2.
Como ya se ha descrito anteriormente, el conjunto de entrenamiento incluye datos de imágenes 3D 112, así como otros datos como datos de texto legibles por ordenador de (partes relevantes de) informes que incluyen información sobre una patología diagnosticada por un experto, por ejemplo, un médico, basándose en los datos de entrenamiento de imágenes 3D. Por lo tanto, la red neuronal profunda 3D puede entrenarse utilizando los datos de entrenamiento de imagen 3D contenidos en el VOI y los valores de etiqueta objetivo que pueden ser indicativos de si una determinada patología está presente o no en los datos de imagen 3D.
Para generar valores de etiquetas objetivo para los datos de entrenamiento, un módulo extractor de etiquetas126puede determinar un valor de etiqueta objetivo basándose en el texto de un informe y almacenar para cada VOI una etiqueta objetivo128.Por lo tanto, para crear un valor de etiqueta objetivo legible por ordenador, el módulo de extracción de etiquetas126examina el contenido de los informes que forman parte de los datos de entrenamiento y los convierte en un código (binario o multivaluado).
En una realización, el módulo extractor de etiquetas puede utilizar un procedimiento de procesamiento de lenguaje natural sobre frases y/o palabras de un informe, de forma que la presencia o ausencia de dichas frases y/o palabras pueda conducir a un valor específico o a un rango de valores específico para la etiqueta objetivo. Por ejemplo, el módulo extractor de etiquetas puede buscar la presencia o ausencia de palabras específicas, por ejemplo, "gran desgarro longitudinal de menisco ", "pequeño desgarro longitudinal de menisco ", "sin desgarro de menisco", etc., y determinar una puntuación en función de la presencia o ausencia de dichas palabras.
En una realización, se puede crear un árbol de decisión que describa cómo la presencia o ausencia de una o más frases y/o palabras determina el valor de la etiqueta objetivo y, opcionalmente, bajo qué condiciones no se puede determinar la etiqueta objetivo. El árbol de decisión puede programarse en una aplicación informática, que puede configurarse para procesar el conjunto completo de informes. Puede realizarse una validación manual en un subconjunto del conjunto de informes para determinar la precisión del etiquetado.
La red neuronal profunda 3D para el modelo de patología puede entrenarse sobre la base de los vóxeles de VOl proporcionados por el localizador 3D y los valores de etiqueta objetivo asociados.
Se puede utilizar un identificador común para vincular vóxeles de un VOI con un informe médico y un valor de etiqueta objetivo. Dependiendo de la anatomía y patología específicas, se pueden utilizar múltiples series de un VOI, por ejemplo, una serie primaria y otra secundaria, como entrada para el entrenamiento y un valor de etiqueta objetivo como salida.
Si los datos de entrenamiento de imágenes 3D comprenden múltiples series, la posición de un VOI puede determinarse sobre la base de una de las múltiples series de un VOI, por ejemplo, una serie primaria. Por lo tanto, la posición del VOI en la serie secundaria (es decir, los datos de imagen 3D no utilizados por el localizador 3D) puede localizarse mapeando las coordenadas del VOI de la serie primaria en la serie secundaria. La arquitectura de la red neuronal profunda 3D puede ser una red neuronal convolucional (CNN) 3D completa que incluya una pluralidad de capas. La red neuronal profunda puede implementarse utilizando un marco de aprendizaje profundo conocido.
El entrenamiento de la red neuronal profunda puede incluir la extracción del VOI para cada serie del conjunto de entrenamiento y la extracción de la etiqueta objetivo para cada estudio del conjunto de entrenamiento. A continuación, el conjunto de entrenamiento puede dividirse en un conjunto de entrenamiento adicional y un conjunto de validación, en el que el conjunto de entrenamiento adicional puede utilizarse para entrenar la red neuronal utilizando una función de pérdida adecuada para las etiquetas objetivo. La red se entrena de forma iterativa hasta que converge la pérdida en el conjunto de validación.
Tras el proceso de entrenamiento, se obtiene una red neuronal profunda 3D entrenada que representa un modelo de patología capaz de: 1) recibir datos de imágenes 3D de un VOI en su entrada, en los que los datos de imágenes 3D incluyen una estructura anatómica predeterminada para el diagnóstico; y, 2) generar una etiqueta de destino, es decir, una secuencia de palabras y/o frases generada por ordenador, por ejemplo en forma de cadena de texto, que indique una patología determinada para al menos parte de la estructura anatómica.
El sistema de diagnóstico asistido por ordenador puede entrenarse para diferentes modelos de patología. Por ejemplo, la red neuronal profunda 3D puede entrenarse para un modelo de patología adaptado para detectar desgarros de menisco en imágenes de resonancia magnética de rodillas, en el que las etiquetas objetivo pueden incluir diferentes valores que representan diferentes etiquetas objetivo, por ejemplo, dos valores (binarios) para desgarros mediales y laterales respectivamente.
El sistema descrito con referencia a laFig. 1-3fue entrenado 22.000 imágenes médicas, es decir, secuencias de imágenes IRM. A partir del entrenamiento se obtiene el siguiente rendimiento en un conjunto de prueba de 5.500 imágenes:
LaFig.4representa esquemáticamente una arquitectura de red neuronal profunda para su uso en los procedimientos y sistemas descritos en esta divulgación. En una realización, la red neuronal profunda puede implementarse utilizando<una red neuronal convolucional 3D (CNN) y entrenarse como un localizador>3<d>,<tal como se ha descrito anteriormente>con referencia a lasFig. 1-3. La red puede comprender una capa de ruido404que añade distorsión a los datos de entrada 3D que se proporcionan a la capa de entrada402.Además, no se utilizan capas de agrupamiento máximo. La capa de ruido puede mejorar la generalidad del modelo. La red puede incluir una pluralidad de capas convolucionales 3D406,408seguidas por una capa Softmax final410.
Las capas convolucionales pueden utilizar una función de activación de Unidad Lineal Exponencial (ELU). El objetivo de la red es una tupla de coordenadas (X,Y,Z) con una pérdida de error cuadrático medio (MSE). En la implementación de la red neuronal convolucional pueden utilizarse pequeñas variaciones en el número de capas y su definición, por ejemplo, una función de activación diferente como RELU y el uso de regularización adicional como capas de abandono, sin perder el funcionamiento esencial de la red neuronal profunda. Las capas de abandono pueden utilizarse durante el entrenamiento para reducir el problema del sobreajuste y aumentar así la generalización de la red para datos nuevos, es decir, datos que la red no ha visto antes.
LaFig.5representa esquemáticamente otra arquitectura de red neuronal profunda para su uso en los procedimientos y sistemas descritos en esta divulgación. En una realización, la red neuronal profunda puede implementarse utilizando una red neuronal convolucional 3D (CNN) y entrenarse como una red neuronal profunda 3D que está adaptada para generar una etiqueta objetivo que indica una determinada patología cuando se proporcionan a la entrada de la red datos de imágenes 3D de un VOI que visualizan una estructura anatómica. Como se muestra en laFig. 5,la red neuronal puede incluir dos vías, una primera vía502definida por un primer conjunto de capas convolucionales 3D diseñadas para recibir primeros vóxeles del VOI derivados de un primer conjunto de datos de imagen 3D (por ejemplo, una secuencia primaria de imágenes asociadas con un primer plano de imagen, por ejemplo, un plano de imagen sagital) y una segunda vía 504 definida por un segundo conjunto de capas convolucionales 3D diseñadas para recibir segundos vóxeles del VOI derivados de un segundo conjunto de datos de imagen 3D (por ejemplo, un plano de imagen sagital).por ejemplo, un plano de imagen sagital) y una segunda vía504definida por un segundo conjunto de capas<convolucionales>3<d diseñadas para recibir segundos vóxeles del VOI derivados de un segundo conjunto de datos de>imagen 3D (por ejemplo, una secuencia secundaria de imágenes asociadas con un segundo plano de imagen, por ejemplo, un plano de imagen coronal).
La primera y la segunda red neuronal profunda pueden tener una arquitectura similar que incluye un número de capas conectadas que comprenden una capa de entrada508,una o más capas de ruido510y una pluralidad de capas convolucionales 3D<5121-n>.Además, una o más capas de abandono 514 pueden insertarse entre las capas convolucionales 3D. Además, una o más capas de abandono514pueden insertarse entre las capas convolucionales 3D. La salida de la primera y segunda red neuronal profunda puede introducirse en una tercera red neuronal profunda506que recibe la salida de la primera y segunda red neuronal profunda en su entrada. La tercera red neuronal profunda puede incluir una pluralidad de capas convolucionales 3D518,522separadas por capas de abandono516,520,526.Además, las últimas capas de la tercera red neuronal profunda pueden incluir una o más capas densas524,528,es decir, capas totalmente conectadas para clasificar una patología.
LasFig. 6y7representan esquemáticamente un procedimiento para entrenar un sistema de red de aprendizaje profundo como localizador 3D y un módulo localizador 3D que incluye dicha red de aprendizaje profundo entrenada.
LaFig. 6representa esquemáticamente un procedimiento implementado por ordenador de entrenamiento de una red neuronal profunda 3D, preferiblemente una primera red neuronal convolucional 3D (CNN), para formar un modelo localizador 3D según una realización de la invención. Dicho localizador 3D puede comprender una red neuronal 3D profunda entrenada que está adaptada para recibir datos de imágenes 3D, por ejemplo, vóxeles, de una estructura anatómica como entrada, en la que los datos de imágenes 3D están asociados a un determinado volumen, que puede denominarse volumen de imagen. La CNN entrenada puede generar una posición objetivo de un VOI, es decir, un subvolumen del volumen de imagen, que contiene datos de imagen 3D de una parte de la estructura anatómica que requiere diagnóstico.
El procedimiento puede incluir la etapa de un ordenador que recibe un conjunto de entrenamiento de datos de imagen 3D, en el que los datos de imagen 3D pueden incluir una secuencia de imágenes médicas 2D (etapa602)y determinar una región de interés 2D (ROI) en cada una de las imágenes de la secuencia de imágenes médicas (etapa604).Aquí, un ROI puede ser un contorno 2D cerrado de una forma particular, por ejemplo, un rectángulo, de modo que el ROI encierre un área 2D predeterminada de píxeles. A continuación, un procesador del ordenador puede construir un cuadro delimitador 3D a partir de los ROl, en el que las superficies exteriores del cuadro delimitador 3D definen un volumen de interés (VOI) dentro del volumen de imagen de los datos de imagen 3D del conjunto de entrenamiento (etapa606).La posición del VOI dentro del volumen de imagen puede utilizarse para determinar los datos de imagen 3D (vóxeles) que están contenidos en el VOI (etapa608)y que están relacionados con la estructura anatómica que requiere un diagnóstico. Los datos de imágenes 3D del VOI forman un subconjunto de datos de imágenes 3D del conjunto de datos de entrenamiento de imágenes 3D.
Los datos de imagen 3D del VOI se utilizan entonces como datos de entrada para entrenar una primera red neuronal profunda con la posición del VOI, por ejemplo, una coordenada dentro del volumen de imagen, como objetivo (etapa610).De este modo, la primera red neuronal profunda entrenada puede adaptarse para recibir datos de imágenes 3d de una estructura anatómica, por ejemplo, una articulación de rodilla, y generar una posición objetivo de un VOI que comprenda parte de la estructura anatómica que requiere diagnóstico, por ejemplo, un menisco. La primera red neuronal profunda entrenada localiza así un volumen específico de vóxeles que puede utilizarse para entrenar eficazmente otra segunda red neuronal profunda. La primera red neuronal profunda entrenada es capaz de manejar imágenes históricas y localizar un VOI en ellas.
LaFig.7representa un módulo localizador 3D que comprende una red de aprendizaje profundo entrenada según una realización de la invención. En particular, esta figura ilustra un módulo localizador 3D702,para localizar un volumen de interés (VOI) en datos de imagen 3D según un proceso como el descrito con referencia a laFig. 6.El módulo puede implementarse como código en un ordenador y ser ejecutado por un procesador. El módulo puede estar preparado para recibir un primer conjunto de datos de imágenes 3D, por ejemplo, un conjunto primario de imágenes de RMN704asociado a un primer plano de imagen (por ejemplo, un plano de imagen sagital) y un segundo conjunto asociado de datos de imágenes 3D, por ejemplo, un conjunto secundario de imágenes de RMN704asociado a un segundo plano de imagen (por ejemplo, un plano de imagen coronal). El primer conjunto de datos de imagen 3D puede proporcionarse a la entrada de una red neuronal profunda que forma un localizador 3D706,que se entrena según el proceso descrito con referencia a laFig.6.El localizador 3D genera una posición del VOI707,que puede ser utilizada por un procesador del ordenador para determinar un cuadro delimitador 3D, un VOI. Un extractor VOI puede utilizar datos de imagen 3D de la serie primaria y el cuadro delimitador 3D para extraer vóxeles que están contenidos en el cuadro delimitador. Del mismo modo, el módulo puede mapear las coordenadas de los datos de imagen 3D de la serie secundaria en las coordenadas de la primera serie. A continuación, puede utilizar el cuadro delimitador 3D calculado para extraer los vóxeles contenidos en dicho cuadro. De este modo, se determinan conjuntos de vóxeles que representan el VOI716.
La Fig. 8representa esquemáticamente un procedimiento implementado por ordenador de entrenamiento de una red neuronal profunda 3D, preferiblemente una red neuronal convolucional 3D (CNN), para formar un modelo de patología sobre la base de un conjunto de entrenamiento. El conjunto de entrenamiento puede incluir datos de entrenamiento de múltiples estudios médicos, en los que cada estudio médico incluye datos de imagen 3D (vóxeles) en forma de una o más secuencias de imágenes médicas y texto y/o frases legibles por ordenador de al menos un informe médico asociado a los datos de imagen 3D. Aquí, los datos de imagen 3D de un estudio médico pueden incluir datos de imagen 3D primarios que incluyen una secuencia de imágenes médicas primarias y datos de imagen 3D secundarios asociados que incluyen una secuencia de imágenes médicas secundarias. Los datos de formación de un estudio médico, por ejemplo, los datos de imagen 3D y el texto y/o frases legibles por ordenador asociados pueden almacenarse en una base de datos. Puede utilizarse un identificador común para vincular los datos de imágenes 3D a los datos asociados a un informe médico.
En una primera etapa, los datos de imagen 3D de un conjunto de entrenamiento pueden normalizarse en datos de imagen 3D normalizados (etapa802).Los datos de imagen 3D normalizados de cada estudio médico pueden proporcionarse a una entrada de una primera red neuronal entrenada, que está adaptada para generar para cada estudio médico una posición objetivo de un VOI dentro del volumen de datos de imagen 3D normalizados (etapa804).En una realización, sólo los datos de la imagen 3D primaria normalizada pueden utilizarse para generar una posición objetivo del VOI. En ese caso, puede utilizarse un mapeo de coordenadas conocido entre los datos de imagen 3D primarios y secundarios para determinar la posición objetivo del VOI en los datos de imagen 3D secundarios.
La posición objetivo de un VOI puede usarse entonces para seleccionar vóxeles en el volumen de imagen de los datos de imagen 3D que están posicionados dentro del VOI (etapa806).Además, puede utilizarse un procedimiento de procesamiento del lenguaje natural para procesar el texto legible por ordenador y/o las frases de cada informe médico con el fin de producir un valor de etiqueta objetivo para los vóxeles de un VOI (etapa808).A continuación, los conjuntos de vóxeles VOI y los valores de etiqueta de objetivo asociados se utilizan como datos de entrada para entrenar una segunda red neuronal con los valores de etiqueta de objetivo como objetivo (etapa810).
LaFig.9representa esquemáticamente un sistema informático de diagnóstico asistido por ordenador que utiliza redes neuronales profundas 3D según una realización de la invención. Esta figura representa un sistema informático902que comprende redes neuronales profundas que se entrenan de acuerdo con los procesos descritos con referencia a laFig. 1-8.
El sistema informático puede ejecutarse en un modo de inferencia, en el que el sistema informático comprende un módulo localizador 3D903que incluye un localizador 3D912que comprende una red neuronal profunda 3D para determinar la posición de un VOI en la imagen 3D906(por ejemplo, una secuencia de imágenes médicas como imágenes de<i>R<m>o TC) que se proporciona a la entrada del sistema informático. Esta red neuronal profunda 3D puede entrenarse según un proceso descrito con referencia a laFig.6.
La imagen 3D puede ser convertida y normalizada utilizando un módulo de conversión908,almacenado en una base de datos912.Los datos normalizados de la imagen 3D (vóxeles) pueden proporcionarse al localizador 3D para determinar los vóxeles que están contenidos dentro de un volumen de interés (VOI) en el volumen de la imagen 3D. Los vóxeles contenidos en un VOI pueden almacenarse en una base de datos914y proporcionarse a la entrada de una red neuronal profunda 3D916,que puede entrenarse de acuerdo con un proceso como el descrito en referencia a laFig.8.
La salida de la red neuronal profunda 3D916entrenada puede ser una o más etiquetas objetivo, cada una asociada a un valor de etiqueta objetivo. Las etiquetas de destino pueden ser utilizadas por un módulo de informes918para generar un informe922generado por ordenador.El valor de la etiqueta objetivo puede informar de si se ha determinado o no una determinada patología. Por ejemplo, si un valor de etiqueta objetivo se encuentra dentro de un primer intervalo predeterminado, el ordenador puede determinar que se ha detectado la patología. En ese caso, el ordenador puede generar una primera cadena de texto que describa que se ha determinado una determinada patología, por ejemplo, un desgarro de menisco. Alternativamente, si un valor de etiqueta objetivo está dentro de un segundo rango predeterminado, el ordenador puede determinar que no se ha determinado ninguna patología. En ese caso, el ordenador puede generar una segunda cadena de texto que describa que no se ha determinado una determinada patología, por ejemplo, un desgarro de menisco. El módulo de generación de informes puede utilizar una plantilla de informe y las cadenas de texto para generar un informe informático. El módulo de elaboración de informes puede estar configurado para insertar el texto generado por ordenador en una plantilla de informe que también puede incluir otros datos, por ejemplo, datos del paciente y datos asociados al médico. El informe puede incluir texto asociado a un diagnóstico.
Además, el informe puede incluir una o más imágenes, preferiblemente imágenes anotadas, por ejemplo, un corte de una imagen 3D anotada generada por ordenador. La visualización puede utilizarse para explicar por qué el modelo ha decidido que la etiqueta objetivo tiene el valor previsto. Esta visualización tridimensional de la patología es muy valiosa para el médico que interpreta el resultado del modelo. La retroalimentación visual puede determinarse a partir de un mapa de saliencia 3D que puede utilizarse para proporcionar una indicación de color/intensidad a los vóxeles del VOI, en el que la indicación de color/intensidad proporciona información al médico sobre la relevancia de cada vóxel del VOI en relación con la etiqueta objetivo.
El mapa de saliencia 3D puede ser generado por un procesador adaptado mediante un proceso modificado de retropropagación guiada que es adecuado para conjuntos de datos 3D. En el artículo de Springenberg y otros, " La búsqueda de la simplicidad: la red totalmente convolucional", 3a Conferencia Internacional sobre el Aprendizaje de Representaciones, ICLR 2015. El proceso de retropropagación guiada descrito en el artículo se utilizó para visualizar las representaciones aprendidas por las capas superiores de una red convolucional 2D. El procedimiento utiliza la salida de la penúltima capa de la red (antes del clasificador softmax) como entrada para la etapa de retropropagación con el fin de determinar qué píxeles son los más destacados para la clasificación.
El procesador del sistema informático de laFig. 9utiliza un proceso de retropropagación guiada para generar una imagen de saliencia 3D. En el proceso de retropropagación guiada, el gradiente de la predicción de la red (en la salida) con respecto a la entrada se calcula manteniendo fijos los parámetros de peso. Por lo tanto, un mapa de probabilidad 3D917puede ser utilizado como entrada para el proceso de retropropagación. El mapa de probabilidad 3D se forma cuando los datos de imagen 3D, es decir, los vóxeles, asociados con el VOI determinado por la primera red neuronal se propagan a través de la red neuronal profunda 3D916entrenada en la dirección de avance.
El mapa de probabilidad 3D asociado con el conjunto de datos de imagen 3D puede extraerse de una capa convolucional 3D que se coloca antes de la capa de clasificación totalmente conectada (una de las capas "densas"). Este mapa de probabilidad 3D puede utilizarse como entrada para el proceso de retropropagación. Por lo tanto, en el sistema representado en laFig. 9,el procesador no utiliza la etiqueta objetivo para la entrada del proceso de retropropagación. En su lugar, utiliza la probabilidad prevista de un resultado positivo, por ejemplo, el mapa de probabilidad 3D de una imagen 3D que está presente en la última capa convolucional 3D (o una de las últimas capas convolucionales 3D) de un sistema de red neuronal profunda como el representado en laFig. 5,por ejemplo, la capa convolucional 3D<5221>o<5222>antes de las capas totalmente conectadas (densas)524,528.
Sólo la parte positiva de la salida del proceso de retropropagación guiada, es decir, max(salida,0), se utiliza para determinar la cantidad que cada vóxel contribuye al resultado positivo. El resultado del proceso de retropropagación guiada incluye una imagen de saliencia 3D que puede utilizarse para identificar vóxeles en el VOI, por ejemplo, aplicando una intensidad determinada a los vóxeles. La intensidad puede escalar con los valores de saliencia determinados durante el proceso de retropropagación, en el que se asume que los valores de saliencia son los más altos para los vóxeles que representan la patología. De este modo, el mapa de saliencia puede combinarse con los datos de la imagen 3D para visualizar los vóxeles de los datos de la imagen 3D que contribuyen sustancialmente al resultado de la etiqueta objetivo. La imagen 3D así anotada por ordenador puede almacenarse en un medio de almacenamiento924.
LaFig. 10representa un ejemplo de un informe que se genera utilizando un sistema de diagnóstico asistido por ordenador según una realización de la invención. Como se muestra en esta figura, el informe1002comprende cadenas de texto generadas por ordenador que explican los hallazgos de la red neuronal, por ejemplo, un desgarro longitudinal de menisco1004y otra información1006relativa a ligamentos o similares. Además, el informe puede incluir una o más imágenes, por ejemplo, un corte de datos de imagen 3D anotados que indiquen los vóxeles de un VOI1008que contribuyeron en una parte sustancial a la etiqueta objetivo, en particular una etiqueta objetivo asociada a un resultado positivo.
[0094]LaFig. 11representa un ejemplo de una imagen anotada de una rebanada de un VOI que es generada por un sistema de diagnóstico asistido por ordenador según una realización de la invención. La saliencia se muestra como tonos de colores en los que la saliencia más alta tiene el valor más brillante. En este ejemplo se muestra un corte 2D de un mapa de saliencia 3D completo. Como se muestra esquemáticamente en el recuadro, la línea de puntos indica los contornos de las estructuras óseas y las líneas continuas indican grupos de vóxeles que fueron identificados por el proceso de retropropagación guiada para proporcionar una contribución alta o al menos sustancial a la etiqueta objetivo, en este caso un hallazgo positivo de un desgarro meniscal longitudinal como se informa en el informe de laFig. 10.
LaFig. 12es un diagrama de bloques que ilustra sistemas de procesamiento de datos ejemplares descritos en esta divulgación. El sistema de procesamiento de datos1200puede incluir al menos un procesador1202acoplado a elementos de memoria1204a través de un bus de sistema1206.Como tal, el sistema de procesamiento de datos puede almacenar código de programa dentro de los elementos de memoria1204.Además, el procesador1202puede ejecutar el código de programa al que se accede desde los elementos de memoria1204a través del bus de sistema1206.En un aspecto, el sistema de procesamiento de datos puede implementarse como un ordenador adecuado para almacenar y/o ejecutar código de programa. Debe apreciarse, sin embargo, que el sistema de procesamiento de datos1200puede implementarse en la forma de cualquier sistema que incluya un procesador y memoria que sea capaz de realizar las funciones descritas dentro de esta especificación.
Los elementos de memoria1204pueden incluir uno o más dispositivos de memoria física tales como, por ejemplo, memoria local1208y uno o más dispositivos de almacenamiento masivo1210.La memoria local puede referirse a la memoria de acceso aleatorio o a otro(s) dispositivo(s) de memoria no persistente generalmente utilizado(s) durante la ejecución real del código del programa. Un dispositivo de almacenamiento masivo puede implementarse como un disco duro u otro dispositivo de almacenamiento de datos persistente. El sistema de procesamiento1200también puede incluir una o más memorias caché (no mostradas) que proporcionan almacenamiento temporal de al menos parte del código de programa con el fin de reducir el número de veces que el código de programa debe ser recuperado del dispositivo de almacenamiento masivo1210durante la ejecución.
Los dispositivos de entrada/salida (E/S) representados como dispositivo de entrada1212y dispositivo de salida1214opcionalmente pueden ser acoplados al sistema de procesamiento de datos. Ejemplos de dispositivos de entrada pueden incluir, pero no se limitan a, por ejemplo, un teclado, un dispositivo señalador como un ratón, o similares. Ejemplos de dispositivos de salida pueden incluir, pero no se limitan a, por ejemplo, un monitor o pantalla, altavoces, o similares. El dispositivo de entrada y/o el dispositivo de salida pueden acoplarse al sistema de procesamiento de datos directamente o a través de controladores de E/S intermedios. Un adaptador de red1216también puede acoplarse al sistema de procesamiento de datos para permitir que se acople a otros sistemas, sistemas informáticos, dispositivos de red remotos y/o dispositivos de almacenamiento remotos a través de redes privadas o públicas intervinientes. El adaptador de red puede comprender un receptor de datos para recibir los datos que transmiten dichos sistemas, dispositivos y/o redes a dichos datos y un transmisor de datos para transmitir datos a dichos sistemas, dispositivos y/o redes. Los módems, los módems por cable y las tarjetas Ethernet son ejemplos de diferentes tipos de adaptadores de red que pueden utilizarse con el sistema de procesamiento de datos1250.
Como se muestra en laFIG. 12,los elementos de memoria1204pueden almacenar una aplicación1218.Debe apreciarse que el sistema de procesamiento de datos1200puede ejecutar además un sistema operativo (no mostrado) que puede facilitar la ejecución de la aplicación. La aplicación, que se implementa en forma de código de programa ejecutable, puede ser ejecutada por el sistema de procesamiento de datos1200,por ejemplo, por el procesador1202.En respuesta a la ejecución de la aplicación, el sistema de procesamiento de datos puede estar configurado para realizar una o más operaciones que se describirán en detalle en el presente documento.
En un aspecto, por ejemplo, el sistema de procesamiento de datos1200puede representar un sistema de procesamiento de datos de cliente. En ese caso, la aplicación1218puede representar una aplicación cliente que, cuando se ejecuta, configura el sistema de procesamiento de datos1200para realizar las diversas funciones descritas en el presente documento con referencia a un "cliente". Ejemplos de un cliente pueden incluir, pero no se limitan a, un ordenador personal, un ordenador portátil, un teléfono móvil, o similares.
En otro aspecto, el sistema de procesamiento de datos puede representar un servidor. Por ejemplo, el sistema de procesamiento de datos puede representar un servidor (HTTP), en cuyo caso la aplicación1218,cuando se ejecuta, puede configurar el sistema de procesamiento de datos para realizar operaciones de servidor (HTTP). En otro aspecto, el sistema de procesamiento de datos puede representar un módulo, unidad o función tal como se menciona en esta especificación.
La terminología utilizada en el presente documento tiene por objeto describir únicamente realizaciones particulares y no pretende ser limitativa de la invención. Tal y como se utilizan en este documento, las formas singulares "un", "una" y "el" incluyen también las formas plurales, a menos que el contexto indique claramente lo contrario. Se entenderá además que los términos "comprende" y/o "que comprende", cuando se utilizan en esta especificación, especifican la presencia de características, números enteros, etapas, operaciones, elementos y/o componentes declarados, pero no excluyen la presencia o adición de una o más características, números enteros, etapas, operaciones, elementos, componentes y/o grupos de los mismos.

Claims (16)

REIVINDICACIONES
1. Un procedimiento implementado por ordenador para determinar una patología en datos de imagen 3D que comprende:
recibir al menos una primera imagen 3D de una parte del cuerpo, comprendiendo la imagen 3D vóxeles asociados a un volumen de imagen predeterminado;
proporcionar la primera imagen 3D a la entrada de una primera red neuronal convolucional 3D, estando la primera red convolucional 3D entrenada para determinar una posición de un volumen de interés (VOI) en el volumen de imagen de la primera imagen 3D, estando el VOI asociado con una parte de la parte del cuerpo, definiendo el VOI un subvolumen del volumen de imagen;
recibir una posición del VOI a partir de la salida de la primera red neuronal convolucional 3D y determinar los primeros vóxeles del VOI seleccionando los vóxeles de la primera imagen 3D que tengan una posición dentro del VOI;
proporcionar los primeros vóxeles del VOI a la entrada de una segunda red neuronal convolucional 3D, estando la segunda red neuronal convolucional 3D entrenada para determinar un valor de etiqueta objetivo sobre la base de al menos los primeros vóxeles del VOI, siendo el valor de etiqueta objetivo indicativo de la presencia o ausencia de la patología en el VOI; y,
recuperar un mapa de probabilidad 3D asociado a los vóxeles del VOI desde una capa convolucional de la segunda red neuronal convolucional 3D y utilizar el mapa de probabilidad 3D como entrada a un proceso de retropropagación para generar un mapa de saliencia 3D asociado a los vóxeles del VOI;
generar una imagen 3D anotada de la patología en el VOI utilizando el mapa de saliencia 3D para identificar los vóxeles en el VOI que contribuyeron sustancialmente a la determinación del valor de la etiqueta objetivo mediante la segunda red neuronal convolucional 3D.
2. Procedimiento según la reivindicación 1, en el que el procedimiento comprende, además:
recibir el valor de etiqueta objetivo asociado con el primer VOI desde la salida de la segunda red neuronal convolucional 3D y generar un informe médico asociando el valor de etiqueta objetivo con texto y/o frases que representan una descripción de la patología, incluyendo preferentemente la generación del informe médico si el valor de etiqueta objetivo está dentro de un primer rango predeterminado, determinar una primera cadena de texto que describe que la patología ha sido detectada y si un valor de etiqueta objetivo está dentro de un segundo rango predeterminado, determinar una segunda cadena de texto que describe que la patología no ha sido detectada; y, opcionalmente, insertar la primera cadena de texto o la segunda cadena de texto en una cadena de texto que representa una plantilla de informe.
3. Procedimiento según la reivindicación 1 o 2 que comprende, además:
insertar la imagen 3D anotada o uno o más cortes 2D de la imagen 3D anotada en el informe.
4. Procedimiento según cualquiera de las reivindicaciones 1-3 en el que la primera imagen 3D incluye una secuencia de imágenes de un primer plano de imagen, preferentemente un plano de imagen sagital, comprendiendo además el procedimiento:
recibir una segunda imagen 3D de la parte del cuerpo, incluyendo la segunda imagen 3D una secuencia de imágenes de un segundo plano de imagen, preferiblemente un plano de imagen coronal;
determinar los segundos vóxeles del VOI seleccionando los vóxeles de la segunda imagen 3D que tienen una posición dentro del VOI;
determinando la segunda red neuronal convolucional 3D, un valor de etiqueta objetivo sobre la base de los primeros y segundos vóxeles del VOI.
5. Procedimiento según la reivindicación 4, en el que la segunda red neuronal convolucional 3D incluye al menos una primera pluralidad de capas de red neuronal convolucional 3D que forman un primer camino a través de la red neuronal y una segunda pluralidad de capas de red neuronal convolucional 3D que forman un segundo camino a través de la segunda red neuronal, estando la primera pluralidad de capas de red neuronal convolucional 3D configurada para procesar los primeros vóxeles del VOI y estando la segunda pluralidad de capas de red neuronal convolucional 3D configurada para procesar los segundos vóxeles del VOI.
6. Procedimiento según cualquiera de las reivindicaciones 1-6, en el que la primera y/o segunda red neuronal convolucional 3D incluye una o más capas de ruido.
7. Un procedimiento implementado por ordenador para entrenar una o más redes neuronales profundas 3D en un sistema que está configurado para determinar una patología de una parte del cuerpo en datos de imagen 3D, comprendiendo el procedimiento:
un ordenador que recibe un conjunto de entrenamiento de datos de imágenes 3D de un estudio médico, comprendiendo el conjunto de entrenamiento de datos de imágenes 3D imágenes 3D de una parte del cuerpo, una imagen 3D que comprende vóxeles asociados a un volumen de imagen predeterminado y que está asociada a un informe médico que comprende partes de texto y/o frases legibles por ordenador indicativas de la ausencia o presencia de la patología en la imagen 3D;
para cada imagen 3D de los datos de entrenamiento de imagen 3D, formar un cuadro delimitador 3D, basándose preferentemente la formación del cuadro delimitador 3D en regiones de interés 2D (ROI) en cortes de la imagen 3D, formando el cuadro delimitador 3D un subvolumen en el volumen de imagen de la imagen 3D, definiendo el subvolumen un volumen de interés (VOI), incluyendo el VOI una parte de la parte del cuerpo que puede comprender una patología;
para cada imagen 3D de los datos de entrenamiento de imagen 3D, determinar la posición del VOI en el volumen de imagen y determinar los vóxeles que están posicionados en el VOI; y,
entrenar una primera red neuronal convolucional 3D utilizando los vóxeles de cada VOI como entrada y la posición del VOI como objetivo.
8. Procedimiento según la reivindicación 7, que comprende, además:
para cada imagen 3D de los datos de entrenamiento de imagen 3D, procesar texto y/o frases legibles por ordenador del informe médico asociado con el VOI para producir un valor de etiqueta objetivo, siendo el valor de etiqueta objetivo indicativo de la ausencia o presencia de la patología de la parte del cuerpo en el VOI; entrenar una segunda red neuronal convolucional 3D utilizando los vóxeles de los VOl como entrada y los valores de la etiqueta objetivo asociados a los VOI como objetivo.
9. Procedimiento según la reivindicación 8, en el que el procesamiento de texto y/o frases legibles por ordenador incluye:
utilizar un árbol de decisión para describir cómo la ausencia o presencia de una o más frases y/o palabras en las partes de texto y/o frases legibles por ordenador del informe médico determina el valor de etiqueta objetivo.
10. Un sistema de redes neuronales implementado en un ordenador, comprendiendo el sistema al menos una o más redes neuronales profundas 3D, preferentemente una o más redes neuronales convolucionales 3D, en el que la una o más redes neuronales profundas se entrenan de acuerdo con el procedimiento según las reivindicaciones 7-9.
11. Un sistema informático adaptado para determinar una patología en datos de imagen 3D que comprende:
un medio de almacenamiento que tiene un código de programa legible por ordenador almacenado en el mismo, incluyendo el código una primera y segunda red neuronal convolucional 3D, y uno o más procesadores, preferiblemente uno o más microprocesadores, acoplados al medio de almacenamiento legible por ordenador, en el que, al ejecutar el código de programa legible por ordenador, el sistema lleva a cabo operaciones que comprenden:
recibir al menos una primera imagen 3D de una parte del cuerpo, comprendiendo la imagen 3D vóxeles asociados a un volumen de imagen predeterminado;
proporcionar la primera imagen 3D a la entrada de la primera red neuronal convolucional 3D, estando la primera red neuronal convolucional 3D entrenada para determinar una posición de un volumen de interés (VOI) en el volumen de imagen de la primera imagen 3D, estando el VOI asociado con una parte de la parte del cuerpo, definiendo el VOI un subvolumen del volumen de imagen;
recibir una posición del VOI a partir de la salida de la primera red neuronal convolucional 3D y determinar los primeros vóxeles del VOI seleccionando los vóxeles de la primera imagen 3D que tienen una posición dentro del VOI;
proporcionar los primeros vóxeles del VOI a la entrada de la segunda red neuronal convolucional 3D, estando la segunda red neuronal convolucional 3D entrenada para determinar un valor de etiqueta objetivo sobre la base de al menos los primeros vóxeles del VOI, siendo el valor de etiqueta objetivo indicativo de la presencia o ausencia de la patología en el VOI; y,
recuperar un mapa de probabilidad 3D asociado a los vóxeles del VOI desde una capa convolucional de la segunda red neuronal convolucional 3D y utilizar el mapa de probabilidad 3D como entrada a un proceso de retropropagación para generar un mapa de saliencia 3D asociado a los vóxeles del VOI;
generar una imagen 3D anotada de la patología en el VOI utilizando el mapa de saliencia 3D para identificar los vóxeles en el VOI que contribuyeron sustancialmente a la determinación del valor de la etiqueta objetivo mediante la segunda red neuronal convolucional 3D.
12. Un sistema informático según la reivindicación 11, en el que las operaciones comprenden, además:
recibir el valor de etiqueta objetivo asociado con el primer VOI desde la salida de la segunda red neuronal convolucional 3D y generar un informe médico asociando el valor de etiqueta objetivo con texto y/o frases que representan una descripción de la patología, incluyendo preferentemente la generación del informe médico si el valor de etiqueta objetivo está dentro de un primer rango predeterminado, determinar una primera cadena de texto que describe que la patología ha sido detectada y si un valor de etiqueta objetivo está dentro de un segundo rango predeterminado, determinar una segunda cadena de texto que describe que la patología no ha sido detectada; y, opcionalmente, insertar la primera cadena de texto o la segunda cadena de texto en una cadena de texto que representa una plantilla de informe.
13. Un sistema informático según la reivindicación 12, en el que las operaciones comprenden, además: insertar la imagen 3D anotada o uno o más cortes 2D de la imagen 3D anotada en el informe.
14. Un sistema informático según cualquiera de las reivindicaciones 11-13 en el que la primera imagen 3D incluye una secuencia de imágenes de un primer plano de imagen, preferentemente un plano de imagen sagital y en el que las operaciones comprenden, además:
recibir una segunda imagen 3D de la parte del cuerpo, incluyendo la segunda imagen 3D una secuencia de imágenes de un segundo plano de imagen, preferiblemente un plano de imagen coronal;
determinar los segundos vóxeles del VOI seleccionando los vóxeles de la segunda imagen 3D que tienen una posición dentro del VOI;
determinando la segunda red neuronal convolucional 3D, un valor de etiqueta objetivo sobre la base de los primeros y segundos vóxeles del VOI.
15. Un sistema informático según la reivindicación 14, en el que la segunda red neuronal convolucional 3D incluye al menos una primera pluralidad de capas de red neuronal convolucional 3D que forman un primer camino a través de la red neuronal y una segunda pluralidad de capas de red neuronal convolucional 3D que forman un segundo camino a través de la segunda red neuronal, estando configurada la primera pluralidad de capas de red neuronal convolucional 3D para procesar los primeros vóxeles del VOI y estando configurada la segunda pluralidad de capas de red neuronal convolucional 3D para procesar los segundos vóxeles del VOI.
16. Producto de programa de ordenador que comprende porciones de código de software configuradas para, cuando se ejecutan en la memoria de un ordenador, ejecutar las etapas del procedimiento según cualquiera de las reivindicaciones 1-6 o las reivindicaciones 7-9.
ES18750453T 2017-08-10 2018-08-10 Diagnóstico asistido por ordenador mediante redes neuronales profundas Active ES2967682T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL2019410A NL2019410B1 (en) 2017-08-10 2017-08-10 Computer-aided diagnostics using deep neural networks
PCT/EP2018/071830 WO2019030410A1 (en) 2017-08-10 2018-08-10 COMPUTER-AIDED DIAGNOSIS USING DEEP NEURAL NETWORKS

Publications (1)

Publication Number Publication Date
ES2967682T3 true ES2967682T3 (es) 2024-05-03

Family

ID=60020562

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18750453T Active ES2967682T3 (es) 2017-08-10 2018-08-10 Diagnóstico asistido por ordenador mediante redes neuronales profundas

Country Status (9)

Country Link
US (1) US11783936B2 (es)
EP (1) EP3665703B1 (es)
JP (1) JP7391846B2 (es)
CN (1) CN111095426A (es)
CA (1) CA3072380A1 (es)
ES (1) ES2967682T3 (es)
HU (1) HUE064495T2 (es)
NL (1) NL2019410B1 (es)
WO (1) WO2019030410A1 (es)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11101029B2 (en) 2018-07-17 2021-08-24 Petuum Inc. Systems and methods for predicting medications to prescribe to a patient based on machine learning
NL2021559B1 (en) * 2018-09-04 2020-04-30 Aidence B V Determination of a growth rate of an object in 3D data sets using deep learning
EP3657433B1 (en) * 2018-11-22 2022-10-19 Siemens Healthcare GmbH Medical image data
US20220230320A1 (en) * 2019-04-06 2022-07-21 Kardiolytics Inc. Autonomous segmentation of contrast filled coronary artery vessels on computed tomography images
EP3734499A1 (en) * 2019-05-02 2020-11-04 Siemens Healthcare GmbH Generating reports of three dimensional images
EP3751458A1 (en) 2019-06-14 2020-12-16 Sobolt B.V. Method for thermographic analysis using a hybrid convolutional neural network
US11883206B2 (en) 2019-07-29 2024-01-30 Hologic, Inc. Personalized breast imaging system
KR102388204B1 (ko) * 2019-08-30 2022-04-19 재단법인 아산사회복지재단 인공 신경망을 이용하여 관심 부피 영역을 추출하는 방법 및 상기 방법을 수행하는 관심 부피 영역 추출 장치
JP7465342B2 (ja) 2019-09-27 2024-04-10 ホロジック, インコーポレイテッド 2d/3d乳房画像を精査するための読み取り時間および読み取り複雑性を予測するためのaiシステム
US11410302B2 (en) * 2019-10-31 2022-08-09 Tencent America LLC Two and a half dimensional convolutional neural network for predicting hematoma expansion in non-contrast head computerized tomography images
US20240161247A1 (en) * 2019-10-31 2024-05-16 Allen Institute Removing independent noise using deepinterpolation
DE112020005870T5 (de) * 2019-11-29 2022-11-03 Fujifilm Corporation Unterstützungsvorrichtung für dokumentenerstellung, unterstützungsverfahren für dokumentenerstellung und unterstützungsprogramm für dokumentenerstellung
EP3832689A3 (en) 2019-12-05 2021-08-11 Hologic, Inc. Systems and methods for improved x-ray tube life
US11954518B2 (en) 2019-12-20 2024-04-09 Nvidia Corporation User-defined metered priority queues
CN111192320B (zh) * 2019-12-30 2023-07-25 上海联影医疗科技股份有限公司 一种位置信息确定方法、装置、设备和存储介质
US11471118B2 (en) 2020-03-27 2022-10-18 Hologic, Inc. System and method for tracking x-ray tube focal spot position
US11481038B2 (en) 2020-03-27 2022-10-25 Hologic, Inc. Gesture recognition in controlling medical hardware or software
CN111915555A (zh) * 2020-06-19 2020-11-10 杭州深睿博联科技有限公司 一种3d网络模型预训练方法、系统、终端及存储介质
KR102510221B1 (ko) * 2020-12-24 2023-03-15 연세대학교 산학협력단 골절 위험 예측 방법 및 장치
CN113870137B (zh) * 2021-09-30 2024-05-21 重庆大学 由梯度指导、自相似性修正的低剂量ct图像去噪方法、系统
JP7366111B2 (ja) * 2021-12-10 2023-10-20 広州智睿医療科技有限公司 病理診断支援方法
CN116630427B (zh) * 2023-07-24 2023-10-31 杭州键嘉医疗科技股份有限公司 一种ct图像中髋骨和股骨自动定位的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7920152B2 (en) * 2004-11-04 2011-04-05 Dr Systems, Inc. Systems and methods for viewing medical 3D imaging volumes
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
CN103098090B (zh) * 2011-12-21 2015-01-21 中国科学院自动化研究所 多参数三维磁共振图像脑肿瘤分割方法
US9730643B2 (en) 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US10169685B2 (en) * 2014-07-07 2019-01-01 The Regents Of The University Of California Automatic segmentation and quantitative parameterization of brain tumors in MRI
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9589374B1 (en) * 2016-08-01 2017-03-07 12 Sigma Technologies Computer-aided diagnosis system for medical images using deep convolutional neural networks
US10074038B2 (en) * 2016-11-23 2018-09-11 General Electric Company Deep learning medical systems and methods for image reconstruction and quality evaluation
WO2018119808A1 (zh) * 2016-12-29 2018-07-05 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法
CN106909778B (zh) * 2017-02-09 2019-08-27 北京市计算中心 一种基于深度学习的多模态医学影像识别方法及装置

Also Published As

Publication number Publication date
HUE064495T2 (hu) 2024-03-28
WO2019030410A1 (en) 2019-02-14
EP3665703C0 (en) 2023-10-11
EP3665703B1 (en) 2023-10-11
US20200219609A1 (en) 2020-07-09
CA3072380A1 (en) 2019-02-14
NL2019410B1 (en) 2019-02-21
JP2020530177A (ja) 2020-10-15
CN111095426A (zh) 2020-05-01
JP7391846B2 (ja) 2023-12-05
US11783936B2 (en) 2023-10-10
EP3665703A1 (en) 2020-06-17

Similar Documents

Publication Publication Date Title
ES2967682T3 (es) Diagnóstico asistido por ordenador mediante redes neuronales profundas
Mahmood et al. Deep adversarial training for multi-organ nuclei segmentation in histopathology images
US11443428B2 (en) Systems and methods for probablistic segmentation in anatomical image processing
US11176188B2 (en) Visualization framework based on document representation learning
EP2901419B1 (en) Multi-bone segmentation for 3d computed tomography
US10635924B2 (en) System and method for surgical guidance and intra-operative pathology through endo-microscopic tissue differentiation
US20120207359A1 (en) Image Registration
Yi et al. Automatic catheter and tube detection in pediatric x-ray images using a scale-recurrent network and synthetic data
Li et al. Learning image context for segmentation of the prostate in CT-guided radiotherapy
JP7346553B2 (ja) 深層学習を使用する3dデータセット内のオブジェクトの成長率の決定
KR102537214B1 (ko) 자기 공명 이미지들에서 정중시상 평면을 결정하기 위한 방법 및 장치
US10878564B2 (en) Systems and methods for processing 3D anatomical volumes based on localization of 2D slices thereof
US20220092786A1 (en) Method and arrangement for automatically localizing organ segments in a three-dimensional image
WO2023274599A1 (en) Methods and systems for automated follow-up reading of medical image data
US11501442B2 (en) Comparison of a region of interest along a time series of images
WO2023165942A1 (en) Cross-modality data matching
JP2024054748A (ja) 言語特徴抽出モデルの生成方法、情報処理装置、情報処理方法及びプログラム
WO2022048985A1 (en) Automatic malposition detection of medical devices in medical images
Cloppet The use of Knowledge in Biomedical Image Analysis