DE112020000279T5 - Erlernen eines erkennungsmodells unter verwenden einer verlustfunktion - Google Patents

Erlernen eines erkennungsmodells unter verwenden einer verlustfunktion Download PDF

Info

Publication number
DE112020000279T5
DE112020000279T5 DE112020000279.9T DE112020000279T DE112020000279T5 DE 112020000279 T5 DE112020000279 T5 DE 112020000279T5 DE 112020000279 T DE112020000279 T DE 112020000279T DE 112020000279 T5 DE112020000279 T5 DE 112020000279T5
Authority
DE
Germany
Prior art keywords
area
interest
computer
image
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020000279.9T
Other languages
English (en)
Inventor
Takuya Goto
Hiroki Nakano
Masaharu Sakamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112020000279T5 publication Critical patent/DE112020000279T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

Es besteht ein Wunsch nach einem genauen Erlernen eines Erkennungsmodells (130). Es wird ein durch einen Computer implementiertes Verfahren bereitgestellt, das umfasst: Erfassen eines Eingangsbildes; Erfassen eines kommentierten Bildes, das einen Bereich von Interesse im Eingangsbild kennzeichnet; Eingeben des Eingangsbildes in ein Erkennungsmodell (130), das ein Ausgangsbild erzeugt, das einen Zielbereich aus dem Eingangsbild zeigt; Berechnen eines Fehlers zwischen dem Ausgangsbild und dem kommentierten Bild unter Verwenden einer Verlustfunktion, die einen Fehler innerhalb des Bereichs von Interesse stärker gewichtet als einen Fehler außerhalb des Bereichs von Interesse; und Aktualisieren des Erkennungsmodells derart, dass der Fehler verringert wird.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft Lernen eines Erkennungsmodells unter Verwenden einer Verlustfunktion.
  • HINTERGRUND
  • Eine Bildanalyse ist in vielen Bereichen von großer Bedeutung. Ein nichteinschränkendes Beispiel ist die Analyse von Röntgenbildern zum Erkennen von Tumoren, wo es hilfreich ist, über leistungsfähige Erkennungsmodelle zu verfügen, die eine Erkrankung wie einen Lungentumor aus einem Röntgenbild erkennen.
  • Daher besteht auf dem Gebiet ein Bedarf, das oben genannte Problem anzugehen.
  • KU RZDARSTELLU NG
  • Unter einem ersten Aspekt stellt die vorliegende Erfindung ein durch einen Computer implementiertes Verfahren bereit, das aufweist: Erfassen eines Eingangsbildes; Erfassen eines kommentierten Bildes, das einen Bereich von Interesse im Eingangsbild kennzeichnet; Eingeben des Eingangsbildes in ein Erkennungsmodell, das ein Ausgangsbild erzeugt, das einen Zielbereich aus dem Eingangsbild zeigt; Berechnen eines Fehlers zwischen dem Ausgangsbild und dem kommentierten Bild unter Verwenden einer Verlustfunktion, die einen Fehler innerhalb des Bereichs von Interesse stärker gewichtet als einen Fehler außerhalb des Bereichs von Interesse; und Aktualisieren des Erkennungsmodells derart, dass der Fehler verringert wird.
  • Unter einem weiteren Aspekt stellt die vorliegende Erfindung eine Vorrichtung bereit, die aufweist: einen Prozessor oder eine programmierbare Schaltungsanordnung; und ein oder mehrere durch einen Computer lesbare Medien, die gemeinsam Befehle enthalten, die in Reaktion darauf, dass sie durch den Prozessor oder der programmierbaren Schaltungsanordnung ausgeführt werden, den Prozessor oder die programmierbare Schaltungsanordnung veranlassen zum: Erfassen eines Eingangsbildes; Erfassen eines kommentierten Bildes, das einen Bereich von Interesse im Eingangsbild kennzeichnet; Eingeben des Eingangsbildes in ein Erkennungsmodell, das ein Ausgangsbild erzeugt, das einen Zielbereich aus dem Eingangsbild zeigt; Berechnen eines Fehlers zwischen dem Ausgangsbild und dem kommentierten Bild unter Verwenden einer Verlustfunktion, die einen Fehler innerhalb des Bereichs von Interesse stärker gewichtet als einen Fehler außerhalb des Bereichs von Interesse; und Aktualisieren des Erkennungsmodells in einer Weise, dass der Fehler verringert wird.
  • Unter einem weiteren Aspekt stellt die vorliegende Erfindung ein Computerprogrammprodukt zur Bildanalyse bereit, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, das durch eine Verarbeitungsschaltung lesbar ist und Anweisungen zum Ausführen durch die Verarbeitungsschaltung speichert, um ein Verfahren zum Ausführen der Schritte der Erfindung auszuführen.
  • Unter einem weiteren Aspekt stellt die vorliegende Erfindung ein auf einem durch einen Computer lesbaren Medium gespeichertes und in den internen Speicher eines digitalen Computers ladbares Computerprogramm bereit, das Software-Codeteile aufweist, um bei Ausführen des Programms in einem Computer die Schritte der Erfindung auszuführen.
  • Unter einem weiteren Aspekt stellt die vorliegende Erfindung ein Computerprogrammprodukt bereit, das ein oder mehrere durch einen Computer lesbare Speichermedien enthält, die gemeinsam Programmbefehle speichern, die durch einen Prozessor oder eine programmierbare Schaltungsanordnung ausführbar sind, um den Prozessor oder die programmierbare Schaltungsanordnung zu veranlassen, Arbeitsschritte auszuführen, die aufweisen: Erfassen eines Eingangsbildes; Erfassen eines kommentierten Bildes, das einen Bereich von Interesse im Eingangsbild kennzeichnet; Eingeben des Eingangsbildes in ein Erkennungsmodell, das ein Ausgangsbild erzeugt, das einen Zielbereich aus dem Eingangsbild zeigt; Berechnen eines Fehlers zwischen dem Ausgangsbild und dem kommentierten Bild unter Verwenden einer Verlustfunktion, die einen Fehler innerhalb des durch das kommentierte Bild gekennzeichneten Bereichs von Interesse stärker gewichtet als einen Fehler außerhalb des gekennzeichneten Bereichs von Interesse; und Aktualisieren des Erkennungsmodells derart, dass der Fehler verringert wird.
  • Unter einem weiteren Aspekt stellt die vorliegende Erfindung eine Vorrichtung bereit, die aufweist: einen Prozessor oder eine programmierbare Schaltungsanordnung; und ein oder mehrere durch einen Computer lesbare Medien, die gemeinsam Anweisungen enthalten, die in Reaktion darauf, dass sie durch den Prozessor oder die programmierbare Schaltungsanordnung ausgeführt werden, den Prozessor oder die programmierbare Schaltungsanordnung veranlassen zum: Realisieren eines neuronalen Netzes zum Erzeugen eines Ausgangsbildes, das einen Zielbereich aus einem Eingangsbild zeigt, wobei das neuronale Netz zwischen einem Eingang und einem Ausgang eine Mehrzahl von Faltungsschichten (convolution layers), eine Mehrzahl von Bündelungsschichten (pooling layers), eine Mehrzahl von Entfaltungsschichten (deconvolution layers) und eine Mehrzahl von Batch-Normalisierungsschichten (batch normalization layers) umfasst; und wobei die Mehrzahl von Batch-Normalisierungsschichten jeweils jede festgelegte Anzahl von Schichten in einem ersten Pfad, der einige aus der Mehrzahl von Faltungsschichten und die Mehrzahl von Bündelungsschichten umfasst, und/oder einem zweiten Pfad angeordnet ist, der den Rest der Mehrzahl von Faltungsschichten und die Mehrzahl von Entfaltungsschichten umfasst.
  • Unter einem weiteren Aspekt stellt die vorliegende Erfindung ein Computerprogrammprodukt bereit, das ein oder mehrere durch einen Computer lesbare Speichermedien umfasst, die gemeinsam Programmanweisungen speichern, die durch einen Prozessor oder eine programmierbare Schaltungsanordnung ausführbar sind, um den Prozessor oder die programmierbare Schaltungsanordnung zu veranlassen, Arbeitsschritte auszuführen, die aufweisen: Realisieren eines neuronalen Netzes zum Erzeugen eines Ausgangsbildes, das einen Zielbereich aus einem Eingangsbild zeigt, wobei das neuronale Netz zwischen einem Eingang und einem Ausgang eine Mehrzahl von Faltungsschichten, eine Mehrzahl von Bündelungsschichten, eine Mehrzahl von Entfaltungsschichten und eine Mehrzahl von Batch-Normalisierungsschichten umfasst; und wobei die Mehrzahl von Batch-Normalisierungsschichten jeweils jede festgelegte Anzahl von Schichten in einem ersten Pfad, der einige aus der Mehrzahl von Faltungsschichten und der Mehrzahl von Bündelungsschichten umfasst, und/oder einem zweiten Pfad angeordnet ist, der den Rest der Mehrzahl von Faltungsschichten und der Mehrzahl von Bündelungsschichten umfasst.
  • Gemäß einer Ausführungsform der vorliegenden Erfindung wird ein durch einen Computer implementiertes Verfahren bereitgestellt, das aufweist: Erfassen eines Eingangsbildes; Erfassen eines kommentierten Bildes, das einen Bereich von Interesse im Eingangsbild kennzeichnet; Eingeben des Eingangsbildes in ein Erkennungsmodell, das ein Ausgangsbild erzeugt, das einen Zielbereich aus dem Eingangsbild zeigt; Berechnen eines Fehlers zwischen dem Ausgangsbild und dem kommentierten Bild unter Verwenden einer Verlustfunktion, die einen Fehler innerhalb des Bereichs von Interesse stärker gewichtet als einen Fehler außerhalb des Bereichs von Interesse; und Aktualisieren des Erkennungsmodells derart, dass der Fehler verringert wird.
  • Als die Verlustfunktion kann eine gewichtete Kreuzentropie (weighted cross entropy) verwendet werden. Auf diese Weise können die Fehler unter Verwenden einer gewichteten Kreuzentropie gewichtet werden.
  • Das Erkennungsmodell kann zwischen einem Eingang und einem Ausgang eine oder mehrere Faltungsschichten, eine oder mehrere Bündelungsschichten, eine oder mehrere Entfaltungsschichten und eine oder mehrere Batch-Normalisierungsschichten umfassen. Auf diese Weise beschleunigt das Erkennungsmodell in einigen Ausführungsformen die Konvergenz eines Lernvorgangs und schränkt ein Überlernen ein.
  • Das durch einen Computer implementierte Verfahren kann außerdem aufweisen: Erfassen von mindestens einer Koordinate im Eingangsbild; und Angeben des Bereichs von Interesse entsprechend der mindestens einen Koordinate. Auf diese Weise ist es möglich, den Bereich von Interesse ab mindestens einer Koordinate grob anzugeben.
  • Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung wird eine Vorrichtung bereitgestellt, die aufweist: einen Prozessor oder eine programmierbare Schaltungsanordnung; und ein oder mehrere durch einen Computer lesbare Medien, die gemeinsam Anweisungen enthalten, die in Reaktion darauf, dass sie durch den Prozessor oder die programmierbare Schaltungsanordnung ausgeführt werden, den Prozessor oder die programmierbare Schaltungsanordnung veranlassen, ein Eingangsbild zu erfassen; ein kommentiertes Bild zu erfassen, das einen Bereich von Interesse im Eingangsbild kennzeichnet; das Eingangsbild in ein Erkennungsmodell einzugeben, das ein Ausgangsbild erzeugt, das einen Zielbereich aus dem Eingangsbild zeigt; einen Fehler zwischen dem Ausgangsbild und dem kommentierten Bild zu berechnen, wobei eine Verlustfunktion verwendet wird, die einen Fehler innerhalb des Bereichs von Interesse stärker gewichtet als einen Fehler außerhalb des Bereichs von Interesse; und das Erkennungsmodell derart zu aktualisieren, dass der Fehler verringert wird. Auf diese Weise erfasst der Prozessor oder die programmierbare Schaltungsanordnung ein Eingangsbild und erlernt das Erkennungsmodell genau.
  • Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung wird ein Computerprogrammprodukt bereitgestellt, das ein oder mehrere durch einen Computer lesbare Speichermedien enthält, die gemeinsam Programmanweisungen speichern, die durch einen Prozessor oder eine programmierbare Schaltungsanordnung ausführbar sind, um den Prozessor oder die programmierbare Schaltungsanordnung zu veranlassen, Arbeitsschritte auszuführen, die aufweisen: Erfassen eines Eingangsbildes; Erfassen eines kommentierten Bildes, das einen Bereich von Interesse im Eingangsbild kennzeichnet; Eingeben des Eingangsbildes in ein Erkennungsmodell, das ein Ausgangsbild erzeugt, das einen Zielbereich aus dem Eingangsbild zeigt; Berechnen eines Fehlers zwischen dem Ausgangsbild und dem kommentierten Bild unter Verwenden einer Verlustfunktion, die einen Fehler innerhalb des durch das kommentierte Bild gekennzeichneten Bereichs von Interesse stärker gewichtet als einen Fehler außerhalb des gekennzeichneten Bereichs von Interesse; und Aktualisieren des Erkennungsmodells derart, dass der Fehler verringert wird. Auf diese Weise ist es möglich, die Genauigkeit im Zusammenhang mit dem maschinellen Lernen des Erkennungsmodells zu erhöhen.
  • Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung wird eine Vorrichtung bereitgestellt, die aufweist: einen Prozessor oder eine programmierbare Schaltungsanordnung; und ein oder mehrere durch einen Computer lesbare Medien, die gemeinsam Anweisungen enthalten, die in Reaktion darauf, dass sie durch den Prozessor oder die programmierbare Schaltungsanordnung ausgeführt werden, den Prozessor oder die programmierbare Schaltungsanordnung veranlassen, ein neuronales Netz zu realisieren, um ein Ausgangsbild zu erzeugen, das einen Zielbereich aus einem Eingangsbild zeigt, wobei das neuronale Netz zwischen einem Eingang und einem Ausgang eine Mehrzahl von Faltungsschichten, eine Mehrzahl von Bündelungsschichten, eine Mehrzahl von Entfaltungsschichten und eine Mehrzahl von Batch-Normalisierungsschichten umfasst, und wobei die Mehrzahl von Batch-Normalisierungsschichten jeweils nach jeder festgelegten Anzahl von Schichten in einem ersten Pfad, der einige aus der Mehrzahl von Faltungsschichten und der Mehrzahl von Bündelungsschichten umfasst, und/oder einem zweiten Pfad angeordnet ist, der den Rest der Mehrzahl von Faltungsschichten und der Mehrzahl von Bündelungsschichten umfasst.
  • Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung wird ein Computerprogrammprodukt bereitgestellt, das umfasst: ein oder mehrere durch einen Computer lesbare Speichermedien, die gemeinsam Programmanweisungen speichern, die durch einen Prozessor oder eine programmierbare Schaltungsanordnung ausführbar sind, um den Prozessor oder die programmierbare Schaltungsanordnung zu veranlassen, Arbeitsschritte auszuführen, die aufweisen: Realisieren eines neuronalen Netzes zum Erzeugen eines Ausgangsbildes, das einen Zielbereich aus einem Eingangsbild zeigt, wobei das neuronale Netz zwischen einem Eingang und einem Ausgang eine Mehrzahl von Faltungsschichten, eine Mehrzahl von Bündelungsschichten, eine Mehrzahl von Entfaltungsschichten und eine Mehrzahl von Batch-Normalisierungsschichten umfasst, und wobei die Mehrzahl von Batch-Normalisierungsschichten jeweils nach jeder festgelegten Anzahl von Schichten in einem ersten Pfad, der einige aus der Mehrzahl von Faltungsschichten und der Mehrzahl von Bündelungsschichten umfasst, und/oder einem zweiten Pfad angeordnet ist, der den Rest der Mehrzahl von Faltungsschichten und der Mehrzahl von Bündelungsschichten umfasst. Auf diese Weise beschleunigt das Erkennungsmodell die Konvergenz eines Lernvorgangs und schränkt Überlernen ein.
  • Die Kurzdarstellungsabschnitt beschreibt nicht unbedingt alle notwendigen Merkmale der Ausführungsformen der vorliegenden Erfindung. Die vorliegende Erfindung kann außerdem eine Teilkombination der oben beschriebenen Merkmale sein. Die oben genannten und weitere Merkmale und Vorteile der vorliegenden Erfindung gehen aus der folgenden Beschreibung der Ausführungsformen in Verbindung mit den beigefügten Zeichnungen hervor.
  • Figurenliste
  • Die vorliegende Erfindung wird nun lediglich beispielhaft unter Bezugnahme auf bevorzugte Ausführungsformen beschrieben, wie sie in den folgenden Figuren veranschaulicht werden:
    • 1 ist ein funktionales Blockschaltbild, das eine Datenverarbeitungsumgebung veranschaulicht, in der ein System zum Lernen eines Erkennungsmodells eine Verlustfunktion gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung verwendet.
    • 2 veranschaulicht ein beispielhaftes Netzwerk des Erkennungsmodells in der Umgebung von 1 gemäß mindestens einer Ausführungsform der vorliegenden Erfindung.
    • 3 veranschaulicht Verarbeitungsprozesse eines Erkennungsmodells, das in einer Datenverarbeitungseinheit in der Umgebung von 1 ausgeführt wird, gemäß mindestens einer Ausführungsform der vorliegenden Erfindung.
    • 4 zeigt ein Beispiel von Vergleichen zwischen Ausgangsbildern gemäß der vorliegenden Ausführungsform und Ausgangsbildern, die durch herkömmliche Lösungsansätze erhalten wurden.
    • 5 veranschaulicht ein funktionales Blockschaltbild, das eine Datenverarbeitungsumgebung zeigt, in der eine Modifikation des Systems zum Lernen eines Erkennungsmodells eine Verlustfunktion gemäß mindestens einer Ausführungsform der vorliegenden Erfindung verwendet.
    • 6 zeigt ein Beispiel der Angabe eines Bereichs von Interesse durch die Vorrichtung 100 gemäß der vorliegenden Erfindung.
    • 7 veranschaulicht ein funktionales Blockschaltbild, das eine Datenverarbeitungsumgebung zeigt, die als weitere Modifikation des Systems zum Lernen eines Erkennungsmodells eine Verlustfunktion gemäß mindestens einer Ausführungsform der vorliegenden Erfindung verwendet.
    • 8 ist ein Blockschaltbild von Komponenten von einer oder mehreren Datenverarbeitungseinheiten in der in 1 gezeigten Datenverarbeitungsumgebung gemäß mindestens einer Ausführungsform der vorliegenden Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Im Folgenden werden einige Ausführungsformen der vorliegenden Erfindung beschrieben. Die Ausführungsformen schränken die Erfindung gemäß den Ansprüchen nicht ein, und alle Kombinationen der in den Ausführungsformen beschriebenen Merkmale können die Ausführungsformen umfassen, die durch in der Beschreibung offenbarte Merkmale bereitgestellt werden, jedoch ohne auf diese beschränkt zu sein.
  • 1 ist ein funktionales Blockschaltbild einer Vorrichtung 100 gemäß der vorliegenden Erfindung. Bei der Vorrichtung 100 kann es sich um einen Computer wie etwa ein PC (Personal Computer), ein Tablet-Computer, ein Smartphone, eine Arbeitsstation, ein Server-Computer oder ein Universalcomputer, ein Computersystem, in dem eine Mehrzahl von Computern miteinander verbunden sind, oder eine beliebige programmierbare elektronische Einheit oder eine Kombination programmierbarer elektronischer Einheiten handeln, die ein System zum Lernen eines Erkennungsmodells unter Verwenden einer Verlustfunktion ausführen kann. Ein solches Computersystem ist in weit gefasster Definition ebenfalls ein Computer. Des Weiteren kann die Vorrichtung 100 durch eine oder mehrere virtuelle Computerumgebungen implementiert werden, die in einem Computersystem ausgeführt werden können. Allerdings kann es sich bei der Vorrichtung 100 auch um einen spezialisierten Computer handeln, der entwickelt wurde, um ein Erkennungsmodell zu aktualisieren, oder der spezielle Hardware enthalten kann, die von einer speziellen Schaltungsanordnung verwendet wird. Wenn die Vorrichtung 100 eine Verbindung mit dem Internet herstellen kann, kann die Vorrichtung 100 außerdem im Cloud-Computing verwendet werden.
  • Die Vorrichtung 100 verwendet eine Verlustfunktion, um den Fehler zwischen einem kommentierten Bild und einem Ausgangsbild zu berechnen, das durch Eingeben eines Eingangsbildes in ein Erkennungsmodell erzeugt wurde, und aktualisiert das Erkennungsmodell derart, dass dieser Fehler verringert wird. Dabei lernt die Vorrichtung 100 gemäß der vorliegenden Ausführungsform das Erkennungsmodell, indem sie als die Verlustfunktion Fehler in einem Bereich von Interesse (ROI) stärker gewichtet als Fehler außerhalb des Bereichs von Interesse. In der vorliegenden Ausführungsform wird als Beispiel ein Fall gezeigt, in dem die Vorrichtung 100 ein Erkennungsmodell lernt, das eine Erkrankung wie einen Lungentumor aus einem Röntgenbild eines Tieres erkennt. Das Erkennungsmodell umfasst dieses Beispiel, ist jedoch hinsichtlich des Schutzumfangs nicht auf Merkmale beschränkt, die Gewebestrukturen erkennen, wie beispielsweise Tumore bei Tieren. Die Vorrichtung 100 kann ein Erkennungsmodell lernen, das verschiedene Bereiche aus verschiedenen Bildern erkennt. Die Vorrichtung 100 umfasst einen Abschnitt 110 zum Erfassen von Eingangsbildern (input image acquiring section), einen Abschnitt 120 zum Erfassen von kommentierten Bildern (annotated image acquiring section), ein Erkennungsmodell 130, einen Fehlerberechnungsabschnitt 140 (error calculating section), einen Abschnitt 150 zum Speichern von Gewichtungen (weight storage section) und einen Aktualisierungsabschnitt 160 (updating section).
  • Der Abschnitt 110 zum Erfassen von Eingangsbildern ruft eine Mehrzahl von Eingangsbildern ab, die zum besseren Verständnis von bestimmten Ausführungsformen als „Original“-Bilder betrachtet werden. In einer Ausführungsform ruft der Abschnitt 110 zum Erfassen von Eingangsbildern beispielsweise eine Mehrzahl von Röntgenbildern eines Tieres ab. Der Abschnitt 110 zum Erfassen von Eingangsbildern tauscht Daten mit dem Erkennungsmodell 130 aus, so dass die Mehrzahl von erfassten Eingangsbildern dem Erkennungsmodell 130 zugeführt wird.
  • Der Abschnitt 120 zum Erfassen von kommentierten Bildern ruft für jedes aus der Mehrzahl von Eingangsbildern ein kommentiertes Bild ab, das einen Bereich von Interesse im Eingangsbild zeigt. Beispielsweise kann der Abschnitt 120 zum Erfassen von kommentierten Bildern jedes kommentierte Bild abrufen, in dem dem Bereich von Interesse in den Eingangsbildern eine Kennzeichnung beigefügt ist, die anzeigt, dass sich ein Bereich von anderen Bereichen unterscheidet. Der Abschnitt 120 zum Erfassen von kommentierten Bildern übermittelt die erfassten kommentierten Bilder an den Fehlerberechnungsabschnitt 140.
  • Das Erkennungsmodell 130 empfängt die Mehrzahl von Eingangsbildern, die aus dem Abschnitt 110 zum Erfassen von Eingangsbildern abgerufen wurden, und erzeugt jedes Ausgangsbild, das einen Zielbereich aus diesen Eingangsbildern zeigt. In der vorliegenden Ausführungsform wird ein mehrschichtiges neuronales Netz, das im Folgenden ausführlicher beschrieben wird, als Algorithmus des Erkennungsmodells 130 verwendet. Das Erkennungsmodell 130 ist jedoch nicht auf die vorliegende Ausführungsform beschränkt. Stattdessen kann zusätzlich zu dem im Folgenden beschriebenen Modell ein neuronales Netz wie etwa CNN, FCN, SegNet und U-Net oder ein beliebiger Algorithmus, der in der Lage ist, einen Zielbereich zu erkennen, wie beispielsweise eine Stützvektormaschine (support vector machine, SVM) und ein Entscheidungsbaum, als Erkennungsmodell 130 verwendet werden. Das Erkennungsmodell 130 übermittelt die erzeugten Ausgangsbilder an den Fehlerberechnungsabschnitt 140.
  • Der Fehlerberechnungsabschnitt 140 berechnet die jeweiligen Fehler zwischen den vom Erkennungsmodell 130 gelieferten Ausgangsbildern und den vom Abschnitt 120 zum Erfassen von kommentierten Bildern gelieferten kommentierten Bildern unter Verwenden der Verlustfunktion. Dabei verwendet der Fehlerberechnungsabschnitt 140 eine gewichtete Kreuzentropie als die Verlustfunktion, um die Fehler innerhalb des Bereichs von Interesse stärker zu gewichten als die Fehler außerhalb des Bereichs von Interesse. Mit anderen Worten, der Fehlerberechnungsabschnitt 140 gewichtet die Fehler beispielsweise innerhalb des Bereichs, der von einem Arzt als Lungentumor gekennzeichnet wurde, stärker als die Fehler außerhalb dieses Bereichs. Dies wird im Folgenden ausführlicher beschrieben.
  • Der Abschnitt 150 zum Speichern von Gewichtungen speichert im Vorfeld Gewichtungen und übermittelt diese Gewichtungen an den Fehlerberechnungsabschnitt 140. Der Fehlerberechnungsabschnitt 140 nutzt die Gewichtungen mit einer gewichteten Kreuzentropie, um die Fehler zu berechnen.
  • Der Fehlerberechnungsabschnitt 140 wendet die vom Abschnitt 150 zum Speichern von Gewichtungen gelieferten Gewichtungen auf die gewichtete Kreuzentropie an, um die Fehler zwischen den Ausgangsbildern und den kommentierten Bildern zu berechnen, und führt diese Fehler dem Aktualisierungsabschnitt 160 zu.
  • Der Aktualisierungsabschnitt 160 aktualisiert das Erkennungsmodell 130 derart, dass die vom Fehlerberechnungsabschnitt 140 gelieferten Fehler verringert werden. Beispielsweise aktualisiert der Aktualisierungsabschnitt 160 jeden Parameter des Erkennungsmodells derart, dass die Fehler minimiert werden, wobei eine Technik der Rückwärtsausbreitung von Fehlern (error backward propagation technique) verwendet wird. Fachleute würden verstehen, dass die Technik der Rückwärtsausbreitung von Fehlern selbst als Algorithmus für das Lernen eines Erkennungsmodells weithin anerkannt ist.
  • 2 zeigt ein beispielhaftes Netzwerk des Erkennungsmodells 130 gemäß der vorliegenden Ausführungsform. Das Erkennungsmodell 130 umfasst zum Beispiel zwischen einem Eingang und einem Ausgang eine oder mehrere Faltungsschichten, eine oder mehrere Bündelungsschichten und eine oder mehrere Batch-Normalisierungsschichten. In der vorliegenden Zeichnung umfasst das Erkennungsmodell 130 zwischen einer Eingangsschicht 210 und einer Ausgangsschicht 260 eine Mehrzahl von Faltungsschichten 220a bis 220w (in ihrer Gesamtheit als „Faltungsschichten 220“ bezeichnet), eine Mehrzahl von Bündelungsschichten 230a bis 230e (in ihrer Gesamtheit als „Bündelungsschichten 230“ bezeichnet), eine Mehrzahl von Entfaltungsschichten 240a bis 240e (in ihrer Gesamtheit als „Entfaltungsschichten 240“ bezeichnet) und eine Mehrzahl von Batch-Normalisierungsschichten 250a bis 250i (in ihrer Gesamtheit als „Batch-Normalisierungsschichten 250“ bezeichnet).
  • Die Faltungsschichten 220 geben jeweils eine Merkmalkarte aus, indem sie einen Faltungsvorgang ausführen, der auf das Eingangsbild angewendet wird, wobei ein Kernel (Filter) mit einer festgelegten Größe verschoben wird.
  • Die Bündelungsschichten 230 komprimieren jeweils Informationen und reduzieren die Abtastrate, um das Eingangsbild in eine Form zu bringen, die leichter zu handhaben ist. In diesem Fall kann jede Bündelungsschicht 230 beispielsweise eine maximale Bündelung (max pooling) verwenden, um einen Maximalwert jedes Bereichs auszuwählen und zu komprimieren, oder eine mittlere Bündelung (average pooling), um den Durchschnittswert jedes Bereichs zu berechnen und zu komprimieren.
  • Die Entfaltungsschichten 240 können jeweils die Größe durch Hinzufügen von Leerzeichen um jedes und/oder zwischen jedem Element in der eingegebenen Merkmalkarte erweitern und führen dann den angewandten Entfaltungsvorgang aus, wobei ein Kernel (Filter) mit einer festgelegten Größe verschoben wird.
  • Die Batch-Normalisierungsschichten 250 ersetzen jeweils die Ausgabe jeder Einheit durch einen neuen Wert, der für jedes Mini-Batch normiert ist. Mit anderen Worten, jede Batch-Normalisierungsschicht 250 führt eine Normalisierung aus, so dass die Elemente von jedem aus einer Mehrzahl von Bildern eine normalisierte Verteilung haben.
  • Das Erkennungsmodell 130 gemäß der vorliegenden Ausführungsform hat beispielsweise einen ersten Pfad, bei dem sich um einen Codierungspfad (coding path) handelt, der die Mehrzahl von Faltungsschichten 220a bis 2201 und die Mehrzahl von Bündelungsschichten 230a bis 230e umfasst, und einen zweiten Pfad, bei dem sich um einen Decodierungspfad (decoding path) handelt, der die Mehrzahl von Faltungsschichten 220m bis 220w und die Mehrzahl von Entfaltungsschichten 240a bis 240e umfasst. Der Codierungspfad und der Decodierungspfad verbinden jeweils Merkmalskarten mit den gleichen Abmessungen.
  • Außerdem ist die Mehrzahl von Batch-Normalisierungsschichten 250 im Erkennungsmodell 130 gemäß der vorliegenden Ausführungsform jeweils jede festgelegte Anzahl von Schichten im ersten Pfad, der einige aus der Mehrzahl von Faltungsschichten 220 und die Mehrzahl von Bündelungsschichten 230 umfasst, und/oder im zweiten Pfad angeordnet, der den Rest der Mehrzahl von Faltungsschichten 220 und die Mehrzahl von Entfaltungsschichten 240 umfasst.
  • Die Mehrzahl von Batch-Normalisierungsschichten 250a bis 250d ist beispielsweise jeweils bei jeder festgelegten Anzahl von Schichten im Codierungspfad angeordnet, und die Mehrzahl von Batch-Normalisierungsschichten 250e bis 250i ist jeweils jede festgelegte Anzahl von Schichten im Decodierungspfad angeordnet. Konkret ist die Mehrzahl von Batch-Normalisierungsschichten 250a bis 250d im Codierungspfad nach den Faltungsschichten 220d, 220f, 220h und 220j angeordnet, die mit dem Decodierungspfad verbunden sind, wie in der vorliegenden Zeichnung gezeigt wird. Außerdem ist die Mehrzahl von Batch-Normalisierungsschichten 250e bis 250h im Decodierungspfad jeweils nach den Faltungsschichten 220n, 220p, 220r, 220t und 220v angeordnet.
  • Auf diese Weise ist gemäß dem Erkennungsmodell 130 der vorliegenden Ausführungsform mindestens eine Batch-Normalisierungsschicht 250 im Codierungspfad und/oder im Decodierungspfad angeordnet, und daher ist es möglich, eine große Änderung der internen Variablenverteilung (interne Kovariatenverschiebung) zu verhindern und die Konvergenz des Lernens zu beschleunigen und auch ein Überlernen einzuschränken. Durch Verwenden eines solchen Erkennungsmodells 130 kann die Vorrichtung 100 gemäß der vorliegenden Ausführungsform das Erkennungsmodell 130 leistungsfähiger lernen, wenn eine korrekte Klassifizierung von Kennzeichnungen aus Kennzeichnungen gelernt wird, die Fehler enthalten.
  • 3 veranschaulicht Verarbeitungsprozesse gemäß der vorliegenden Ausführungsform, mit Hilfe derer die Vorrichtung 100 das Erkennungsmodell 130 lernt.
  • Im Schritt 310 erfasst die Vorrichtung 100 eine Mehrzahl von Eingangsbildern. Beispielsweise erfasst der Abschnitt 110 zum Erfassen von Eingangsbildern eine Mehrzahl von Röntgenbildern eines Tieres. Wenn sich die Größen der Bilder voneinander unterscheiden, kann der Abschnitt 110 zum Erfassen von Eingangsbildern Bilder als Eingangsbilder erfassen, die jeweils einer Vorverarbeitung unterzogen wurden (z.B. Normalisieren der Bildelementwerte, Zuschneiden auf eine vorgegebene Form und Größenänderung auf eine vorgegebene Größe). Zu diesem Zeitpunkt kann der Abschnitt 110 zum Erfassen von Eingangsbildern die Mehrzahl von Eingangsbildern beispielsweise über das Internet, über Benutzereingabe oder über eine Speichereinheit oder dergleichen erfassen, die in der Lage ist, Daten zu speichern. Der Abschnitt 110 zum Erfassen von Eingangsbildern führt die Mehrzahl von erfassten Eingangsbildern dem Erkennungsmodell 130 zu.
  • Im Schritt 320 erfasst die Vorrichtung 100 für jedes aus der Mehrzahl von Eingangsbildern ein kommentiertes Bild, das den Bereich von Interesse im Eingangsbild kennzeichnet. Beispielsweise erfasst der Abschnitt 120 zum Erfassen von kommentierten Eingangsbildern jedes kommentierte Bild, in dem Bildelemente innerhalb eines Bereichs, der von einem Arzt als Lungentumor gekennzeichnet wurde, beispielsweise mit einer Klasse c=1 und die Bildelemente außerhalb dieses Bereichs mit einer Klasse c=0 bezeichnet werden. In der obigen Beschreibung wird ein Beispiel gezeigt, in dem jedes Bildelement in Abhängigkeit davon, ob sich das Bildelement innerhalb oder außerhalb des als Lungentumor gekennzeichneten Bereichs liegt, gemäß zwei Klassen (z. B. c=0 und c=1) bezeichnet wird, jedoch ist die vorliegende Ausführungsform nicht darauf beschränkt. Beispielsweise kann der Abschnitt 120 zum Erfassen von kommentierten Eingangsbildern jedes kommentierte Bild erfassen, in dem Bildelemente innerhalb eines Lungenbereichs und auch innerhalb eines Lungentumorbereichs mit einer Klasse c=2, Bildelemente innerhalb eines Lungenbereichs, jedoch außerhalb eines Lungentumorbereichs mit einer Klasse c=1und Bildelemente außerhalb des Lungenbereichs und außerhalb des Lungentumorbereichs mit einer Klasse c=0 bezeichnet sind. Mit anderen Worten, der Abschnitt 120 zum Erfassen von kommentierten Eingangsbildern kann jedes kommentierte Bild erfassen, das entsprechend drei oder mehr Klassen (z.B. c=0, c=1 und c=2) bezeichnet ist. Zu diesem Zeitpunkt kann der Abschnitt 120 zum Erfassen von kommentierten Eingangsbildern jedes kommentierte Bild über ein Netzwerk, über Benutzereingabe oder über eine Speichereinheit oder dergleichen erfassen, die in der Lage ist, Daten zu speichern. Der Abschnitt 120 zum Erfassen von kommentierten Eingangsbildern führt die erfassten kommentierten Bilder dem Fehlerberechnungsabschnitt 140 zu.
  • Im Schritt 330 gibt die Vorrichtung 100 jedes aus der Mehrzahl von im Schritt 310 erfassten Bildern in das Erkennungsmodell 130 ein, das die Ausgangsbilder des Zielbereichs aus den Eingangsbildern erzeugt. Beispielsweise erzeugt das Erkennungsmodell 130 für jedes aus der Mehrzahl von Eingangsbildern ein Ausgangsbild, in dem die Bildelemente innerhalb des als Zielbereich vorhergesagten Bereichs, d.h. des Lungentumorbereichs, im Eingangsbild mit der Klasse c=1 und die Bildelemente außerhalb dieses Bereichs mit der Klasse c=0 bezeichnet sind. Anschließend führt das Erkennungsmodell 130 jedes der erzeugten Ausgangsbilder dem Fehlerberechnungsabschnitt 140 zu. In der obigen Beschreibung wird ein Beispiel gezeigt, in dem die Vorrichtung 100 die Ausgangsbilder nach Erfassen der kommentierten Bilder erzeugt, jedoch ist die Vorrichtung 100 nicht darauf beschränkt. Die Vorrichtung 100 kann die kommentierten Bilder nach Erzeugen der Ausgangsbilder erfassen. Mit anderen Worten, der Schritt 320 kann nach dem Schritt 330 ausgeführt werden.
  • Im Schritt 340 berechnet die Vorrichtung 100 die jeweiligen Fehler zwischen den im Schritt 330 erfassten Ausgangsbildern und den im Schritt 320 erfassten kommentierten Bildern unter Verwenden der Verlustfunktion. Zu diesem Zeitpunkt verwendet der Fehlerberechnungsabschnitt 140 eine Kreuzentropie als die Verlustfunktion. Im Allgemeinen ist eine Kreuzentropie eine Skala, die zwischen zwei Wahrscheinlichkeitsverteilungen definiert ist, bei denen es sich um eine Wahrscheinlichkeitsverteilung und eine Referenzwahrscheinlichkeitsverteilung handelt, einen Minimalwert hat, wenn die Wahrscheinlichkeitsverteilung und die Referenzwahrscheinlichkeitsverteilung gleich sind, und einen Wert hat, der umso größer ist, je mehr sich die Wahrscheinlichkeitsverteilung von der Referenzwahrscheinlichkeitsverteilung unterscheidet. Wenn diese Kreuzentropie beim Berechnen des Fehlers zwischen einem Ausgangsbild und einem kommentierten Bild verwendet wird, ohne Bildelemente im Eingangsbild zu gewichten, wird der Fehler durch Bildelementgruppen mit einer großen Fläche stark beeinflusst. Wenn dies geschieht, beispielsweise wenn ein Fehler im kommentierten Bild enthalten ist, gibt es Fälle, in denen das Erkennungsmodell zum Erkennen des Zielbereichs nicht präzise gelernt werden kann, selbst wenn das Erkennungsmodell aktualisiert wird, um diesen Fehler zu minimieren.
  • Daher gewichtet die Verlustfunktion, die vom Fehlerberechnungsabschnitt 140 zum Berechnen des Fehlers verwendet wird, in der vorliegenden Ausführungsform Fehler innerhalb des Bereichs von Interesse stärker als Fehler außerhalb des Bereichs von Interesse. Zu diesem Zeitpunkt kann der Fehlerberechnungsabschnitt 140 eine gewichtete Kreuzentropie als die Verlustfunktion verwenden. Beispielsweise speichert der Abschnitt 150 zum Speichern von Gewichtungen im Vorfeld die Gewichtungen, die auf diese gewichtete Kreuzentropie angewandt werden müssen, und führt diese Gewichtungen dem Fehlerberechnungsabschnitt 140 zu. Der Fehlerberechnungsabschnitt 140 wendet die vom Abschnitt 150 zum Speichern von Gewichtungen gelieferten Gewichtungen auf die gewichtete Kreuzentropie an, um den Fehler zwischen dem Ausgangsbild und dem kommentierten Bild zu berechnen. Wenn die Fehler innerhalb des Bereichs von Interesse starker gewichtet werden als die Fehler außerhalb des Bereichs von Interesse, kann die Gewichtung im Zielbereich in der gewichteten Kreuzentropie dabei auf einen größeren Wert gesetzt werden als die Gewichtung außerhalb des Zielbereichs. Allerdings kann die Gewichtung auch innerhalb des Bereichs von Interesse in der gewichteten Kreuzentropie auf einen größeren Wert als die Gewichtung außerhalb des Bereichs von Interesse gesetzt werden. Dies wird unter Verwenden von mathematischen Ausdrücken erläutert.
  • Der Fehlerberechnungsabschnitt 140 verwendet beispielsweise die durch den folgenden Ausdruck gezeigte gewichtete Kreuzentropie als die Verlustfunktion. Es sei darauf hingewiesen, dass X die Menge aller Bildelemente „i“ im Eingangsbild, C die Menge aller Klassen c, Wc die Gewichtung einer Klasse c, pic der Wert der Klasse c beim Bildelement „i“ im kommentierten Bild und qi c der Wert der Klasse c beim Bildelement „i“ im Ausgangsbild ist. L = i X c C w c p i c l o g   q i c
    Figure DE112020000279T5_0001
  • Hier wird ein Beispiel beschrieben, in dem der Abschnitt 120 zum Erfassen von kommentierten Bildern das kommentierte Bild erfasst, in dem die Bildelemente innerhalb des bezeichneten Bereichs von Interesse (ROI), der von einem Arzt als Lungentumor gekennzeichnet wurde, als Klasse c=1 und die Bildelemente außerhalb des Bereichs von Interesse als Klasse c=0 bezeichnet sind, und das Erkennungsmodell 130 erzeugt ein Ausgangsbild, in dem die Klasse c=1 Bildelementen innerhalb des Zielbereichs zugeteilt wird, der als Lungentumorbereich im Eingangsbild vorhergesagt wird, und die Klasse c=0 den Bildelementen außerhalb des Zielbereichs zugeteilt wird.
  • In diesem Fall wird der Ausdruck 1 zu dem unten gezeigten Ausdruck erweitert. Insbesondere wird die Kreuzentropie erweitert als die Summe von vier Komponenten, bei denen es sich handelt um (1) eine Komponente, in der die Bildelemente innerhalb des Bereichs von Interesse mit c=1 bezeichnet und als innerhalb des Zielbereichs liegend vorausgesagt werden, (2) eine Komponente, in der die Bildelemente innerhalb des Bereichs von Interesse mit c=0 bezeichnet und als außerhalb des Zielbereichs liegend vorausgesagt werden, (3) eine Komponente, in der die Bildelemente außerhalb des Bereichs von Interesse mit c=1 bezeichnet und als innerhalb des Zielbereichs liegend vorausgesagt werden, und (4) eine Komponente, in der die Bildelemente außerhalb des Bereichs von Interesse mit c=0 bezeichnet und als außerhalb des Zielbereichs liegend vorausgesagt werden. L = w c p i = R O I i n c = 1 log  q i = R O I i n c = 1 + w c p i = R O I i n c = 0 log  q i = R O I i n c = 1 + w c p i = R O I o u t c = 1 log  q i = R O I o u t c = 1                      + w c p i = R O I o u t c = 0 log  q i = R O I o u t c = 0
    Figure DE112020000279T5_0002
  • In dem oben beschriebenen Fall ist die Wahrscheinlichkeit, dass ein Bildelement innerhalb des Bereichs von Interesse mit c=0 bezeichnet wird, jedoch gleich 0, und daher ist die zweite Termkomponente im Ausdruck 2 gleich 0. In ähnlicher Weise ist die Wahrscheinlichkeit, dass ein Bildelement außerhalb des Bereichs von Interesse mit c=1 bezeichnet wird, gleich 0, und daher ist die dritte Termkomponente im Ausdruck 2 gleich 0. Die Wahrscheinlichkeit, dass ein Bildelement innerhalb des Bereichs von Interesse mit c=1 bezeichnet wird, und die Wahrscheinlichkeit, dass ein Bildelement außerhalb des Bereichs von Interesse mit c=0 bezeichnet wird, sind beide gleich 1, und daher kann der Ausdruck 2 als der weiter unten gezeigte Ausdruck dargestellt werden. Insbesondere wird die Kreuzentropie als Summe von zwei Komponenten gezeigt, bei denen es sich um eine Komponente handelt, in der die Bildelemente innerhalb des Bereichs von Interesse als innerhalb des Zielbereichs liegend vorausgesagt werden, und um eine Komponente, bei der die Bildelemente außerhalb des Bereichs von Interesse als außerhalb des Zielbereichs liegend vorausgesagt werden. L = w c log  q i = R O I i n c = 1 + w c log  q i = R O I o u t c = 0
    Figure DE112020000279T5_0003
  • In der vorliegenden Ausführungsform gewichtet die Verlustfunktion die Fehler innerhalb des Bereichs von Interesse stärker als die Fehler außerhalb des Bereichs von Interesse. Mit anderen Worten, im Ausdruck 3 wird die Gewichtung Wc der ersten Termkomponente auf einen größeren Wert gesetzt als die Gewichtung der zweiten Termkomponente. Dabei können bei der gewichteten Kreuzentropie durch Setzen der Gewichtung innerhalb des Zielbereichs auf einen größeren Wert als die Gewichtung außerhalb des Zielbereichs die Fehler innerhalb des Bereichs von Interesse stärker gewichtet werden als die Fehler außerhalb des Bereichs von Interesse. Mit anderen Worten, durch Setzen der Gewichtungen der ersten Termkomponente und der dritten Termkomponente im Ausdruck 2 auf größere Werte als die Gewichtungen der zweiten Termkomponente und der vierten Termkomponente im Ausdruck 2 kann die Gewichtung der ersten Komponente im Ausdruck 3 auf einen größeren Wert als die Gewichtung der zweiten Komponente im Ausdruck 3 gesetzt werden. Allerdings kann bei der gewichteten Kreuzentropie durch Setzen der Gewichtung innerhalb des Bereichs von Interesse auf einen größeren Wert als die Gewichtung außerhalb des Bereichs von Interesse auch der Fehler innerhalb des Bereichs von Interesse stärker gewichtet werden als der Fehler außerhalb des Bereichs von Interesse. Mit anderen Worten, durch Setzen der Gewichtungen der ersten Termkomponente und der zweiten Termkomponente im Ausdruck 2 auf größere Werte als die Gewichtungen der dritten Termkomponente und der vierten Termkomponente im Ausdruck 2 kann die Gewichtung der ersten Termkomponente im Ausdruck 3 auf einen größeren Wert als die Gewichtung der zweiten Termkomponente im Ausdruck 3 gesetzt werden. Anschließend führt der Fehlerberechnungsabschnitt 140 den auf diese Weise berechneten Fehler zwischen dem Ausgangsbild und dem kommentierten Bild dem Aktualisierungsabschnitt 160 zu.
  • Im Schritt 350 aktualisiert die Vorrichtung 100 das Erkennungsmodell 130 derart, dass der im Schritt 340 berechnete Fehler verringert wird. Beispielsweise verwendet der Aktualisierungsabschnitt 160 die Technik der Rückwärtsausbreitung von Fehlern, um jeden Parameter des Erkennungsmodells 130 derart zu aktualisieren, dass dieser Fehler minimiert wird, und beendet sodann den Prozess.
  • Die Vorrichtung 100 kann die Prozesse von Schritt 330 bis Schritt 350 gemäß verschiedenen Lernmethoden wie etwa Batch-Lernen (batch learning), Mini-Batch-Lernen (mini batch learning) und Online-Lernen wiederholt ausführen.
  • 4 zeigt ein Beispiel für Vergleiche zwischen Ausgangsbildern gemäß der vorliegenden Ausführungsform und Ausgangsbildern, die durch den herkömmlichen Lösungsansatz erhalten wurden. In der vorliegenden Zeichnung werden Eingangsbilder, durch den herkömmlichen Lösungsansatz erhaltene Ausgangsbilder, gemäß der vorliegenden Ausführungsform erhaltene Ausgangsbilder und Überlagerungsbilder, bei denen die gemäß der vorliegenden Ausführungsform erhaltenen Ausgangsbilder den Eingangsbildern überlagert werden, in der angegebenen Reihenfolge von links nach rechts gezeigt. Wie in der vorliegenden Zeichnung gezeigt wird, war es mit dem Erkennungsmodell gemäß dem herkömmlichen Lösungsansatz nicht möglich, die Eingangsbilder in Klassen zu unterteilen und Vorhersagen zwischen den Lungentumorbereichen und einem anderen Bereich zu treffen. Mit dem Erkennungsmodell 130, das durch die Vorrichtung 100 gemäß der vorliegenden Ausführungsform gelernt wurde, war es im Gegensatz dazu möglich, eine Ausgabe zu erhalten, bei der Lungentumorbereiche (in der Zeichnung in weiß gezeigte Bereiche) und die anderen Bereiche (in der Zeichnung in schwarz gezeigte Bereiche) in Klassen unterteilt werden. Beim Betrachten der Bilder, in denen diese Ausgabe den Eingangsbildern überlagert wird, stimmen die durch das Erkennungsmodell 130 vorhergesagten Zielbereiche überwiegend mit den tatsächlichen Lungentumorbereichen überein, und es ist möglich, die Zuverlässigkeit des Erkennungsmodells 130 zu bestätigen.
  • Auf diese Weise gewichtet die Verlustfunktion gemäß der Vorrichtung 100 der vorliegenden Ausführungsform beim Verwenden der Verlustfunktion zum Berechnen des Fehlers zwischen einem Ausgangsbild und einem kommentierten Bild die Fehler innerhalb des Bereichs von Interesse stärker als die Fehler außerhalb des Bereichs von Interesse. Aufgrund dessen kann die Vorrichtung 100 (i) den Effekt verstärken, der durch die Bildelemente innerhalb des Bereichs von Interesse versursacht wird, und (ii) den Fehler zwischen dem Ausgangsbild und dem kommentierten Bild berechnen. Das Erkennungsmodell wird dann so aktualisiert, dass der auf diese Weise berechnete Fehler minimiert wird, und daher kann die Vorrichtung 100 das Erkennungsmodell 130 zum Erkennen des Zielbereichs genau erlernen, selbst wenn beispielsweise Fehler im kommentierten Bild enthalten sind. Mit anderen Worten, die Vorrichtung 100 kann das Erkennungsmodell 130 durch schwach überwachtes Lernen erlernen, das die korrekte Klassifizierung von Kennzeichnungen aus Fehler enthaltenden Kennzeichnungen lernt.
  • 5 veranschaulicht ein funktionales Blockschaltbild der Vorrichtung 100 gemäß einer Modifikation der vorliegenden Ausführungsform. In der vorliegenden Zeichnung sind Komponenten mit derselben Funktion und Konfiguration wie Komponenten in 1 mit denselben Bezugsziffern versehen, und die folgende Beschreibung enthält nur abweichende Punkte. Die Vorrichtung gemäß der vorliegenden Modifikation umfasst außerdem einen Koordinatenerfassungsabschnitt (coordinate acquiring section) 510 und einen Abschnitt 520 zum Angeben von Bereichen von Interesse (region of interest specifying section).
  • Der Koordinatenerfassungsabschnitt 510 erfasst mindestens eine Koordinate im Eingangsbild. Der Koordinatenerfassungsabschnitt 510 führt die mindestens eine erfasste Koordinate dem Abschnitt 520 zum Angeben von Bereichen von Interesse zu. Dabei kann der Koordinatenerfassungsabschnitt 510 die Koordinate von lediglich einem einzigen Punkt im Eingangsbild oder einen Satz einer Mehrzahl von Koordinaten im Eingangsbild erfassen.
  • Der Abschnitt 520 zum Angeben von Bereichen von Interesse gibt den Bereich von Interesse entsprechend der mindestens einen vom Koordinatenerfassungsabschnitt 510 gelieferten Koordinate an. Dabei kann der Abschnitt 520 zum Angeben von Bereichen von Interesse einen festgelegten Bereich als Bereich von Interesse angeben, wobei die mindestens eine Koordinate als Referenz verwendet wird. Stattdessen oder zusätzlich kann der Abschnitt 520 zum Angeben von Bereichen von Interesse einen Bereich als Bereich von Interesse angeben, dessen Textur der Textur an der mindestens einen Koordinate ähnlich ist. Stattdessen oder zusätzlich kann der Abschnitt 520 zum Angeben von Bereichen von Interesse einen Bereich als Bereich von Interesse angeben, der von einem Satz einer Mehrzahl von Koordinaten umgeben ist. Der Abschnitt 520 zum Angeben von Bereichen von Interesse führt dem Abschnitt 120 zum Erfassen von kommentierten Bildern Informationen zu, die den angegebenen Bereich von Interesse betreffen. Der Abschnitt 120 zum Erfassen von kommentierten Bildern ruft das kommentierte Bild entsprechend dem Bereich von Interesse ab, der vom Abschnitt 520 zum Angeben von Bereichen von Interesse angegeben wurde.
  • 6 zeigt ein Beispiel des Angebens eines Bereichs von Interesse durch die Vorrichtung 100 gemäß der vorliegenden Modifikation. Beispielsweise zeigt die Vorrichtung 100 ein Eingangsbild auf einem Bildschirm an und empfängt eine Eingabe, die durch Bearbeitung eines Benutzers (zum Beispiel eines Arztes, eines Tierarztes, eines Laboranten oder eines Studierenden, jedoch ohne auf diese beschränkt zu sein) verursacht wurde. Der Koordinatenerfassungsabschnitt 510 ruft auf der Grundlage der Benutzereingabe mindestens eine Koordinate im Eingangsbild ab, z.B. die Koordinate an der durch das Kreuz gekennzeichneten Stelle, wie im linken Bild der vorliegenden Zeichnung gezeigt. Der Abschnitt 520 zum Angeben von Bereichen von Interesse gibt sodann den Bereich von Interesse als einen festgelegten Bereich mit der mindestens einen Koordinate als Referenz an, z.B. den Bereich (in der Zeichnung weiß dargestellt) in Form einer Ellipse mit einer festgelegten Größe, die auf der Koordinate an der durch das Kreuz angezeigten Stelle zentriert ist, wie in der rechten Abbildung in der vorliegenden Zeichnung gezeigt wird.
  • Das Verfahren zum Angeben des Bereichs von Interesse ist jedoch nicht darauf beschränkt. Wie oben beschrieben kann der Abschnitt 520 zum Angeben von Bereichen von Interesse beispielsweise einen Bereich als Bereich von Interesse angeben, dessen Textur ähnlich der Textur an der durch das Kreuz gekennzeichneten Position ist. Weiterhin beispielhaft kann ein Benutzer eine Bearbeitung ausführen wie etwa das Umschließen eines Teilbereichs in einem Eingangsbild durch eine Mausmanipulation oder dergleichen, und der Koordinatenerfassungsabschnitt 510 kann einen Satz einer Mehrzahl von Koordinaten erfassen, die diesen Bereich umgeben. Der Abschnitt 520 zum Angeben von Bereichen von Interesse kann sodann den Bereich als Bereich von Interesse angeben, der von diesem Satz der Mehrzahl von Koordinaten umgeben ist. Außerdem kann der Abschnitt 520 zum Angeben von Bereichen von Interesse eine Kombination der Mehrzahl von oben beschriebenen Spezifikationsverfahren verwenden. Mit anderen Worten, der Abschnitt 520 zum Angeben von Bereichen von Interesse kann einen Bereich mit einer Textur, die ähnlich der Textur von mindestens einer Koordinate ist, innerhalb eines festgelegten Bereichs unter Verwenden von mindestens einer Koordinate als Referenz als Bereich von Interesse angeben. Alternativ kann der Abschnitt 520 zum Angeben von Bereichen von Interesse einen Bereich als Bereich von Interesse angeben, der eine ähnliche Textur in einem Bereich umfasst, der von einem Satz einer Mehrzahl von Koordinaten umgeben ist.
  • Auf diese Weise gibt die Vorrichtung 100 gemäß der vorliegenden Modifikation grob den Bereich von Interesse an, indem der Benutzer mindestens eine Koordinate im Eingangsbild eingibt. Selbst wenn das kommentierte Bild entsprechend dem auf diese Weise grob angegebenen Bereich von Interesse erfasst wird, d.h. ein kommentiertes Bild, das einen Fehler enthält, wird anschließend gemäß der Vorrichtung 100 der vorliegenden Modifikation die korrekte Klassifizierung von Kennzeichnungen aus den Fehler enthaltenden Kennzeichnungen erlernt, und daher ist es möglich, das Erkennungsmodell 130 zum Erkennen des Zielbereichs genau zu erlernen.
  • 7 zeigt ein beispielhaftes Blockschaltbild der Vorrichtung 100 gemäß einer anderen Modifikation der vorliegenden Ausführungsform. In der vorliegenden Zeichnung sind Komponenten mit der gleichen Funktion und Konfiguration wie Komponenten in 5 mit den gleichen Bezugsziffern versehen, und die folgende Beschreibung umfasst nur abweichende Punkte. Die Vorrichtung 100 gemäß der vorliegenden Modifikation umfasst außerdem einen Abschnitt 710 zum Anzeigen von Bereichen von Interesse (region of interest display section) und einen Modifizierungsabschnitt (modifying section) 720.
  • Der Abschnitt 710 zum Anzeigen von Bereichen von Interesse zeigt den Bereich von Interesse an, der vom Abschnitt 520 zum Angeben von Bereichen von Interesse zum Beispiel auf einem Monitor oder dergleichen angegeben wird.
  • Während der Bereich 710 zum Anzeigen von Bereichen von Interesse den Bereich von Interesse anzeigt, empfängt der Modifizierungsabschnitt 720 eine Benutzereingabe und modifiziert den Bereich von Interesse, der vom Abschnitt 520 zum Angeben von Bereichen von Interesse angegeben wird.
  • Auf diese Weise verfügt die Vorrichtung 100 gemäß der vorliegenden Modifikation über eine Funktion, den Bereich von Interesse, der durch den Abschnitt 520 zum Anzeigen von Bereichen von Interesse grob angegeben wurde, anzuzeigen und diesen Bereich von Interesse durch den Benutzer modifizieren zu lassen. Auf diese Weise ist es gemäß der Vorrichtung 100 der vorliegenden Modifikation möglich, eine auf der Erfahrung des Benutzers beruhende Modifikation in dem mechanisch angegebenen Bereich von Interesse widerzuspiegeln und ein kommentiertes Bild mit weniger Fehlern zu erfassen.
  • Die oben beschriebenen Ausführungsformen können zum Beispiel auf folgende Weise modifiziert werden. Beispielsweise umfasst die Vorrichtung 100 eine Mehrzahl von Erkennungsmodellen und ruft eine Mehrzahl kommentierter Bilder ab, in denen die Bereiche von Interesse für dasselbe Eingangsbild so eingestellt sind, dass sie unterschiedliche Bereiche haben. Die Vorrichtung 100 kann sodann jedes aus der Mehrzahl von Erkennungsmodellen unter Verwenden der Mehrzahl von kommentierten Bildern erlernen und einen Bereich als den vom Erkennungsmodell 130 ausgegebenen Zielbereich verwenden, in dem sich die von jedem Erkennungsmodell ausgegebenen Zielbereiche überschneiden. Beispielsweise umfasst die Vorrichtung 100 zwei Erkennungsmodelle und ruft für dasselbe Eingangsbild ein kommentiertes Bild ab, in dem der Bereich von Interesse so eingestellt ist, dass er einen verhältnismäßig weiten Bereich umfasst, und ein kommentiertes Bild, in dem der Bereich von Interesse so eingestellt ist, dass er einen verhältnismäßig engen Bereich umfasst. Die Vorrichtung 100 verwendet sodann das kommentierte Bild, in der der Bereich von Interesse so eingestellt ist, dass er einen verhältnismäßig weiten Bereich umfasst, um eines der Erkennungsmodelle zu erlernen, und verwendet das kommentierte Bild, in dem der Bereich von Interesse so eingestellt ist, dass er einen verhältnismäßig engen Bereich umfasst, um das andere Erkennungsmodell zu erlernen. Ein Bereich, der von beiden Erkennungsmodellen als Zielbereich vorhergesagt wurde, kann dann als der vom Erkennungsmodell 130 ausgegebene Zielbereich verwendet werden.
  • Weiterhin beispielhaft können die oben beschriebenen Ausführungsformen auf folgende Weise modifiziert werden. Wenn der Abschnitt 520 zum Angeben von Bereichen von Interesse beispielsweise den Bereich von Interesse entsprechend mindestens einer Koordinate angibt, kann der Bereich 120 zum Erfassen von kommentierten Bildern das kommentierte Bild entsprechend der mindestens einen Koordinate einstellen. Die obige Beschreibung stellt ein Beispiel für einen Fall dar, in dem der Bereich 120 zum Erfassen von kommentierten Bildern ein kommentiertes Bild erfasst, in dem Bildelemente innerhalb des Bereichs von Interesse mit der Klasse c=1 und die Bildelemente außerhalb des Bereichs von Interesse mit der Klasse c=0 bezeichnet werden. Mit anderen Worten, der Abschnitt 120 zum Erfassen von kommentierten Bildern erfasst ein kommentiertes Bild, in dem alle Bildelemente innerhalb des Bereichs von Interesse mit der gleichen Klasse bezeichnet werden. Der Bereich 120 zum Erfassen von kommentierten Bildern kann jedoch ein kommentiertes Bild erfassen, in dem die Bildelemente innerhalb des Bereichs von Interesse mit Klassen bezeichnet werden, die den Positionen dieser Bildelemente entsprechen. Mit anderen Worten, wenn der Abschnitt 520 zum Angeben von Bereichen von Interesse beispielsweise einen Bereich von Interesse angegeben hat, der auf mindestens einer Koordinate zentriert ist, kann der Bereich 120 zum Erfassen von kommentierten Bildern ein kommentiertes Bild erfassen, in dem das Bildelement an der mindestens einen Koordinate mit der Klasse c=1 bezeichnet wird und andere Bildelemente mit einer Klasse näher an 0 bezeichnet werden, je weiter diese Bildelemente von der mindestens einen Koordinate entfernt sind. Auf diese Weise kann die Vorrichtung 100 die Wirkung von Bildelementen in der Nähe der von einem Benutzer bezeichneten Position, auch innerhalb des Bereichs von Interesse, weiter verstärken, um das Erkennungsmodell zu erlernen.
  • Verschiedene Ausführungsformen der vorliegenden Erfindung können unter Bezugnahme auf Ablaufpläne und Blockschaltbilder beschrieben werden, deren Blöcke (1) Schritte von Prozessen, in denen Arbeitsgänge ausgeführt werden, und (2) Abschnitte von Vorrichtungen darstellen können, die für das Ausführen von Arbeitsgängen vorgesehen sind. Bestimmte Schritte und Abschnitte können durch spezielle Schaltungsanordnungen, programmierbare Schaltungsanordnungen, denen auf computerlesbaren Medien gespeicherte computerlesbare Befehle zugeführt werden, und/oder Prozessoren implementiert werden, denen auf computerlesbaren Medien gespeicherte computerlesbare Befehle zugeführt werden. Zu speziellen Schaltungsanordnungen können digitale und/oder analoge Hardware-Schaltungen und integrierte Schaltkreise (IC) und/oder diskrete Schaltkreise gehören. Zu programmierbaren Schaltungsanordnungen können rekonfigurierbare Hardware-Schaltungen mit logischem UND, ODER, XOR, NAND, NOR und anderen logischen Operationen, Flipflops, Register, Speicherelemente usw. gehören, wie beispielsweise vor Ort programmierbare Gatter-Anordnungen (FPGA), programmierbare Logik-Anordnungen (PLA) usw.
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) enthalten, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zum Ausführen von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder gehobene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs/Verarbeitungs-Einheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs/Verarbeitungs-Einheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zum Speichern in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs/Verarbeitungs-Einheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter eine objektorientierte Programmiersprache wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwenden eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu individualisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es versteht sich von selbst, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbaren Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zum Umsetzen der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zum Ausführen der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Zwar wurden die Ausführungsformen der vorliegenden Erfindung beschrieben, der technische Schutzumfang der Erfindung ist jedoch nicht auf die oben beschriebenen Ausführungsformen eingeschränkt. Für Fachleute ist ersichtlich, dass an den oben beschriebenen Ausführungsformen verschiedene Änderungen und Verbesserungen vorgenommen werden können. Aus dem Schutzumfang der Ansprüche geht auch hervor, dass die mit solchen Änderungen oder Verbesserungen versehenen Ausführungsformen in den technischen Schutzumfang der Erfindung aufgenommen werden können.
  • Die in den Ansprüchen, Ausführungsformen oder Schaubildern dargelegten Vorgänge, Verfahren, Schritte und Stufen jedes Prozesses, der von einem Gerät, System, Programm und Verfahren ausgeführt wird, können in beliebiger Reihenfolge ausgeführt werden, solange die Reihenfolge nicht durch „bevor“, „vor“ o.ä. angegeben wird und solange die Ausgabe eines vorhergehenden Prozesses nicht in einem späteren Prozess verwendet wird. Selbst wenn der Prozessfluss in den Ansprüchen, Ausführungsformen oder Schaubildern unter Verwenden von Formulierungen wie „erste/r/s“ oder „nächste/r/s“ beschrieben wird, bedeutet dies nicht unbedingt, dass der Prozess in dieser Reihenfolge ausgeführt werden muss.
  • 8 zeigt eine beispielhafte Hardware-Konfiguration eines Computers, der zum Ausführen der vorstehenden Arbeitsgänge gemäß einer Ausführungsform der vorliegenden Erfindung konfiguriert ist. Ein in einem Computer 700 installiertes Programm kann den Computer 700 veranlassen, als Vorrichtungen der Ausführungsformen der vorliegenden Erfindung oder eines oder mehrerer Abschnitte (einschließlich Module, Komponenten, Elemente usw.) davon zu funktionieren oder Vorgänge auszuführen, die diesen Vorrichtungen zugehörig sind, und/oder kann den Computer 700 veranlassen, Prozesse der Ausführungsformen der vorliegenden Erfindung oder Schritten von diesen auszuführen. Ein solches Programm kann von einer CPU 700-12 ausgeführt werden, um den Computer 700 zu veranlassen, bestimmte Arbeitsgänge auszuführen, die einigen oder allen Blöcken von hierin beschriebenen Ablaufplänen und Blockschaltbildern zugehörig sind.
  • Der Computer 700 gemäß der vorliegenden Ausführungsform umfasst eine CPU 700-12, einen RAM 700-14, eine Grafiksteuereinheit 700-16 und eine Anzeigeeinheit 700-18, deren gegenseitige Verbindung durch eine Host-Steuereinheit 700-10 hergestellt wird. Der Computer 700 umfasst außerdem Ein/Ausgabe-Einheiten wie etwa eine Kommunikationsschnittstelle 700-22, ein Festplattenlaufwerk 700-24, ein DVD-Laufwerk 700-26 und ein IC-Kartenlaufwerk, die über eine Ein/Ausgabe-Steuereinheit 700-20 mit der Host-Steuereinheit 700-10 verbunden sind. Der Computer umfasst außerdem hinreichend bekannte Ein/Ausgabe-Einheiten wie etwa ein ROM 700-30 und eine Tastatur 700-42, die durch einen Ein/Ausgabe-Chip 700-40 mit der Ein/Ausgabe-Steuereinheit 700-20 verbunden sind.
  • Die CPU 700-12 arbeitet entsprechend im ROM 700-30 und im RAM 700-14 gespeicherten Programmen, wodurch sie jede Einheit steuert. Die Grafiksteuereinheit 700-16 erhält von der CPU 700-12 erzeugte Bilddaten in einem Bildpuffer oder dergleichen, der im RAM 700-14 oder in dieser selbst bereitgestellt wird, und veranlasst, dass die Bilddaten auf der Anzeigeeinheit 700-18 angezeigt werden.
  • Die Kommunikationsschnittstelle 700-22 tauscht über ein Netzwerk 700-50 Daten mit anderen elektronischen Einheiten aus. Das Festplattenlaufwerk 700-24 speichert Programme und Daten, die von der CPU 700-12 im Computer 700 verwendet werden. Das DVD-Laufwerk 700-26 liest die Programme oder die Daten aus dem DVD-ROM 700-01 und stellt die Programme oder die Daten über den RAM 700-14 dem Festplattenlaufwerk 700-24 zur Verfügung. Das IC-Kartenlaufwerk liest Programme und Daten aus einer IC-Karte und/oder schreibt Programm und Daten auf die IC-Karte.
  • Der ROM 700-30 speichert ein Boot-Programm oder dergleichen, das zum Zeitpunkt der Aktivierung vom Computer 700 ausgeführt wird, und/oder ein von der Hardware des Computers 700 abhängiges Programm. Der Ein/Ausgabe-Chip 700-40 kann außerdem Ein/Ausgabe-Einheiten über einen parallelen Anschluss, einen seriellen Anschluss, einen Tastaturanschluss, einen Mausanschluss und dergleichen mit der Ein/Ausgabe-Steuereinheit 700-20 verbinden.
  • Über durch einen Computer lesbare Medien wie etwa den DVD-ROM 700-01 oder die IC-Karte wird ein Programm bereitgestellt. Das Programm wird aus den durch einen Computer lesbaren Medien gelesen, im Festplattenlaufwerk 700-24, im RAM 700-14 oder im ROM 700-30 installiert, die auch Beispiele für durch einen Computer lesbare Medien sind, und von der CPU 700-12 ausgeführt. Die in diesen Programmen beschriebene Datenverarbeitung wird in den Computer 700 gelesen, was zu einer Zusammenarbeit zwischen einem Programm und den oben erwähnten verschiedenen Arten von Hardware-Ressourcen führt. Eine Vorrichtung oder ein Verfahren kann darin bestehen, den Betrieb oder das Verarbeiten von Informationen entsprechend der Nutzung des Computers 700-50 in einem Empfangspufferbereich oder dergleichen zu realisieren, der auf dem Aufzeichnungsmedium bereitgestellt wird.
  • Wenn beispielsweise zwischen dem Computer 700 und einer externen Einheit Daten ausgetauscht werden, kann die CPU 700-12 ein in den RAM 700-14 geladenes Kommunikationsprogramm ausführen, um die Kommunikationsschnittstelle 700-22 auf der Grundlage der im Kommunikationsprogramm beschriebenen Verarbeitung anzuweisen, die Kommunikationsverarbeitung auszuführen. Die Kommunikationsschnittstelle 700-22 liest unter der Steuerung der CPU 700-12 Übertragungsdaten, die in einem Übertragungspufferbereich gespeichert sind, der auf einem Aufzeichnungsmedium wie etwa dem RAM 700-14, dem Festplattenlaufwerk 700-24, dem DVD-ROM 700-01 oder der IC-Karte bereitgestellt wird, und überträgt die gelesenen Übertragungsdaten an das Netzwerk 700-50 oder schreibt aus dem Netzwerk 700-50 empfangene Empfangsdaten in einen Empfangspuffer oder dergleichen, der auf dem Aufzeichnungsmedium bereitgestellt wird.
  • Außerdem kann die CPU 700-12 veranlassen, dass die gesamte oder ein notwendiger Teil einer Datei oder einer Datenbank in den RAM 700-14 gelesen wird, wobei die Datei oder die Datenbank in einem externen Aufzeichnungsmedium wie etwa dem Festplattenlaufwerk 700-24, dem DVD-Laufwerk 700-26 (DVD-ROM 700-01), der IC-Karte usw. gespeichert wurden, und verschiedene Arten von Verarbeitung der Daten im RAM 700-14 ausführen. Anschließend kann die CPU 700-12 die verarbeiteten Daten zurück auf das externe Aufzeichnungsmedium schreiben.
  • Verschiedene Arten von Informationen, beispielsweise verschiedene Arten von Programmen, Daten, Tabellen und Datenbanken, können zur Informationsverarbeitung im Aufzeichnungsmedium gespeichert werden. Die CPU 700-12 kann verschiedene Arten von Verarbeitung mit den aus dem RAM 700-14 gelesenen Daten ausführen, darunter verschiedene Arten von Arbeitsschritten, Verarbeiten von Informationen, Bedingungsbeurteilung, bedingte Verzweigung, unbedingte Verzweigung, Suchen/Ersetzen von Informationen usw., wie in dieser Offenbarung beschrieben und durch eine Befehlsfolge von Programmen bezeichnet wird, und schreibt das Ergebnis zurück in den RAM 700-14. Darüber hinaus kann die CPU 700-12 im Aufzeichnungsmedium nach Informationen in einer Datei, einer Datenbank usw. suchen. Wenn beispielsweise eine Mehrzahl von Einträgen im Aufzeichnungsmedium gespeichert ist, wobei jeder einen Attributwert eines ersten Attributs hat, das mit einem Attributwert eines zweiten Attributs verknüpft ist, kann die CPU 700-12 in der Mehrzahl von Einträgen nach einem Eintrag suchen, der die Bedingung erfüllt, dass dessen Attributwert des ersten Attributs bezeichnet ist, und liest den im Eintrag gespeicherten Attributwert des zweiten Attributs aus, wodurch der Attributwert des zweiten Attributs erhalten wird, das mit dem ersten Attribut verknüpft ist, das die festgelegte Bedingung erfüllt.
  • Die oben erläuterten Programm- oder Software-Module können in den durch einen Computer lesbaren Medien im oder in der Nähe des Computers 700 gespeichert werden. Darüber hinaus kann ein Aufzeichnungsmedium wie etwa eine Festplatte oder ein RAM, der in einem mit einem speziellen Kommunikationsnetz oder dem Internet verbundenen Server-System bereitgestellt wird, als durch einen Computer lesbare Medien verwendet werden, wobei das Programm dem Computer 700 über das Netzwerk bereitgestellt wird.
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) umfassen, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert sind, um einen Prozessor zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zum Ausführen von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder gehobene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder andere Übertragungsmedien ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs/Verarbeitungs-Einheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs/Verarbeitungs-Einheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zum Speichern in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs/Verarbeitungs-Einheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter eine objektorientierte Programmiersprache wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwenden eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA) oder programmierbare Logikanordnungen (PLA) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu individualisieren, um Aspekte der vorliegenden Erfindung auszuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es versteht sich von selbst, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbaren Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zum Umsetzen der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zum Ausführen der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Zwar wurden die Ausführungsformen der vorliegenden Erfindung beschrieben, der technische Schutzumfang der Erfindung ist jedoch nicht auf die oben beschriebenen Ausführungsformen beschränkt. Für Fachleute ist ersichtlich, dass verschiedene Änderungen und Verbesserungen an den oben beschriebenen Ausführungsformen vorgenommen werden können. Aus dem Schutzumfang der Ansprüche ist außerdem ersichtlich, dass die mit solchen Änderungen oder Verbesserungen versehenen Ausführungsformen in den technischen Schutzumfang der Erfindung aufgenommen werden können.
  • Die in den Ansprüchen, Ausführungsformen oder Schaubildern dargelegten Vorgänge, Verfahren, Schritte und Stufen jedes Prozesses, der von einem Gerät, System, Programm und Verfahren ausgeführt wird, können in beliebiger Reihenfolge ausgeführt werden, solange die Reihenfolge nicht durch „bevor“, „vor“ o.ä. angegeben wird und solange die Ausgabe eines vorhergehenden Prozesses nicht in einem späteren Prozess verwendet wird. Selbst wenn der Prozessfluss in den Ansprüchen, Ausführungsformen oder Schaubildern unter Verwenden von Formulierungen wie „erste/r/s“ oder „nächste/r/s“ beschrieben wird, bedeutet dies nicht unbedingt, dass der Prozess in dieser Reihenfolge ausgeführt werden muss.

Claims (18)

  1. Durch einen Computer implementiertes Verfahren zur Bildanalyse, wobei das Verfahren aufweist: Erfassen eines Eingangsbildes; Erfassen eines kommentierten Bildes, das einen Bereich von Interesse im Eingangsbild kennzeichnet; Eingeben des Eingangsbildes in ein Erkennungsmodell, das ein Ausgangsbild erzeugt, das einen Zielbereich aus dem Eingangsbild zeigt; Berechnen eines Fehlers zwischen dem Ausgangsbild und dem kommentierten Bild unter Verwenden einer Verlustfunktion, die einen Fehler innerhalb des Bereichs von Interesse stärker gewichtet als einen Fehler außerhalb des Bereichs von Interesse; und Aktualisieren des Erkennungsmodells derart, dass der Fehler verringert wird.
  2. Durch einen Computer implementiertes Verfahren nach Anspruch 1, wobei eine gewichtete Kreuzentropie als die Verlustfunktion verwendet wird.
  3. Durch einen Computer implementiertes Verfahren nach Anspruch 2, wobei die Gewichtung der gewichteten Kreuzentropie innerhalb des Zielbereichs auf einen größeren Wert als die Gewichtung außerhalb des Zielbereichs gesetzt wird.
  4. Durch einen Computer implementiertes Verfahren nach den Ansprüchen 2 oder 3, wobei die Gewichtung der gewichteten Kreuzentropie innerhalb des Bereichs von Interesse auf einen größeren Wert als die Gewichtung außerhalb des Bereichs von Interesse gesetzt wird.
  5. Durch einen Computer implementiertes Verfahren nach einem der Ansprüche 2 bis 4, wobei die gewichtete Kreuzentropie durch einen folgenden Ausdruck dargestellt wird, in dem X eine Menge aller Bildelemente i im Eingangsbild, C eine Menge aller Klassen c, Wc eine Gewichtung der Klasse c, pi c ein Wert der Klasse c beim Bildelement i im kommentierten Bild und qic der Wert der Klasse c beim Bildelement i im Ausgangsbild ist; L = i X c C w c p i c l o g   q i c
    Figure DE112020000279T5_0004
  6. Durch einen Computer implementiertes Verfahren nach einem der vorhergehenden Ansprüche, wobei das Erkennungsmodell zwischen einem Eingang und einem Ausgang eine oder eine Mehrzahl von Faltungsschichten, eine oder eine Mehrzahl von Bündelungsschichten, eine oder eine Mehrzahl von Entfaltungsschichten und eine oder eine Mehrzahl von Batch-Normalisierungsschichten umfasst.
  7. Durch einen Computer implementiertes Verfahren nach Anspruch 6, wobei die Mehrzahl von Batch-Normalisierungsschichten jeweils jede festgelegte Anzahl von Schichten in einem ersten Pfad, der einige aus der Mehrzahl von Faltungsschichten und der Mehrzahl von Bündelungsschichten umfasst, und/oder einem zweiten Pfad angeordnet ist, der den Rest der Mehrzahl von Faltungsschichten und die Mehrzahl von Entfaltungsschichten umfasst.
  8. Durch einen Computer implementiertes Verfahren nach einem der vorhergehenden Ansprüche, das außerdem aufweist: Erfassen von mindestens einer Koordinate im Eingangsbild; und Angeben des Bereichs von Interesse entsprechend der mindestens einen Koordinate.
  9. Durch einen Computer implementiertes Verfahren nach Anspruch 8, wobei das Angeben des Bereichs von Interesse entsprechend der mindestens einen Koordinate ein Angeben eines vorherbestimmten Bereichs mit der mindestens einen Koordinate als eine Referenz als Bereich von Interesse umfasst.
  10. Durch einen Computer implementiertes Verfahren nach einem der Ansprüche 8 oder 9, wobei das Angeben des Bereichs von Interesse entsprechend der mindestens einen Koordinate ein Angeben eines Bereichs mit einer Textur, die einer Textur an der mindestens einen Koordinate ähnlich ist, als Bereich von Interesse umfasst.
  11. Durch einen Computer implementiertes Verfahren nach einem der Ansprüche 8 bis 10, wobei das Angeben des Bereichs von Interesse entsprechend der mindestens einen Koordinate ein Angeben eines Bereichs, der von einem Satz einer Mehrzahl von Koordinaten umgeben ist, als Bereich von Interesse umfasst.
  12. Durch einen Computer implementiertes Verfahren nach einem der Ansprüche 8 bis 11, das außerdem aufweist: Anzeigen des angegebenen Bereichs von Interesse; und Empfangen von Benutzereingaben und Modifizieren des Bereichs von Interesse, während der Bereich von Interesse angezeigt wird.
  13. Vorrichtung, die aufweist: einen Prozessor oder eine programmierbare Schaltungsanordnung; und ein oder mehrere durch einen Computer lesbare Medien, die insgesamt Anweisungen umfassen, die in Reaktion darauf, dass sie durch den Prozessor oder die programmierbare Schaltungsanordnung ausgeführt werden, den Prozessor oder die programmierbare Schaltungsanordnung veranlassen zum: Erfassen eines Eingangsbildes; Erfassen eines kommentierten Bildes, das einen Bereich von Interesse im Eingangsbild kennzeichnet; Eingeben des Eingangsbildes in ein Erkennungsmodell, das ein Ausgangsbild erzeugt, das einen Zielbereich aus dem Eingangsbild zeigt; Berechnen eines Fehlers zwischen dem Ausgangsbild und dem kommentierten Bild unter Verwenden einer Verlustfunktion, die einen Fehler innerhalb des Bereichs von Interesse starker gewichtet als einen Fehler außerhalb des Bereichs von Interesse; und Aktualisieren des Erkennungsmodells derart, dass der Fehler verringert wird.
  14. Vorrichtung nach Anspruch 13, wobei eine gewichtete Kreuzentropie als die Verlustfunktion verwendet wird.
  15. Vorrichtung nach einem der Ansprüche 13 oder 14, wobei das Erkennungsmodell zwischen einem Eingang und einem Ausgang eine oder eine Mehrzahl von Faltungsschichten, eine oder eine Mehrzahl von Bündelungsschichten, eine oder eine Mehrzahl von Entfaltungsschichten und eine oder eine Mehrzahl von Batch-Normalisierungsschichten umfasst.
  16. Vorrichtung nach einem der Ansprüche 13 bis 15, wobei die Anweisungen den Prozessor oder die programmierbare Schaltungsanordnung außerdem veranlassen zum: Erfassen von mindestens einer Koordinate im Eingangsbild; und Angeben des Bereichs von Interesse entsprechend der mindestens einen Koordinate.
  17. Computerprogrammprodukt zur Bildanalyse, wobei das Computerprogrammprodukt aufweist: ein durch einen Computer lesbares Speichermedium, das durch eine Verarbeitungsschaltung lesbar ist und Anweisungen zum Ausführen durch die Verarbeitungsschaltung speichert, um ein Verfahren nach einem der Ansprüche 1 bis 12 auszuführen.
  18. Auf einem durch einen Computer lesbaren Medium gespeichertes und in den internen Speicher eines digitalen Computers ladbares Computerprogramm, das Software-Codeteile aufweist, um bei Ausführen des Programms auf einem Computer das Verfahren nach einem der Ansprüche 1 bis 12 auszuführen.
DE112020000279.9T 2019-03-28 2020-03-13 Erlernen eines erkennungsmodells unter verwenden einer verlustfunktion Pending DE112020000279T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16/367,365 2019-03-28
US16/367,365 US11074479B2 (en) 2019-03-28 2019-03-28 Learning of detection model using loss function
US16/507,625 US11120305B2 (en) 2019-03-28 2019-07-10 Learning of detection model using loss function
US16/507,625 2019-07-10
PCT/IB2020/052309 WO2020194111A1 (en) 2019-03-28 2020-03-13 Learning of detection model using loss function

Publications (1)

Publication Number Publication Date
DE112020000279T5 true DE112020000279T5 (de) 2021-10-14

Family

ID=72603881

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020000279.9T Pending DE112020000279T5 (de) 2019-03-28 2020-03-13 Erlernen eines erkennungsmodells unter verwenden einer verlustfunktion

Country Status (6)

Country Link
US (2) US11074479B2 (de)
JP (1) JP7350878B2 (de)
CN (1) CN113614780A (de)
DE (1) DE112020000279T5 (de)
GB (1) GB2596751B (de)
WO (1) WO2020194111A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074479B2 (en) * 2019-03-28 2021-07-27 International Business Machines Corporation Learning of detection model using loss function
US11592828B2 (en) * 2020-01-16 2023-02-28 Nvidia Corporation Using neural networks to perform fault detection in autonomous driving applications
US11379991B2 (en) * 2020-05-29 2022-07-05 National Technology & Engineering Solutions Of Sandia, Llc Uncertainty-refined image segmentation under domain shift
AU2021401039A1 (en) * 2020-12-16 2023-07-13 Memorial Sloan Kettering Cancer Center Detection of annotated regions of interest in images
CN113516147B (zh) * 2020-12-21 2024-03-05 阿里巴巴集团控股有限公司 印刷误差检测方法、设备、系统及存储介质
CN113947598B (zh) * 2021-12-20 2022-05-31 宁波昌亚新材料科技股份有限公司 基于图像处理的塑料餐盒缺陷检测方法、装置及系统
CN114187292B (zh) * 2022-02-14 2022-05-31 北京阿丘科技有限公司 棉纺纸筒的异常检测方法、装置、设备及存储介质
CN115019181B (zh) * 2022-07-28 2023-02-07 北京卫星信息工程研究所 遥感图像旋转目标检测方法、电子设备及存储介质
CN115063753B (zh) * 2022-08-17 2023-05-12 苏州魔视智能科技有限公司 一种安全带佩戴检测模型训练方法及安全带佩戴检测方法
JP7473765B2 (ja) 2022-09-29 2024-04-24 山陽特殊製鋼株式会社 非金属介在物の自動領域識別方法およびそれを組み込んだ介在物判別システム
CN115861462B (zh) * 2022-10-17 2023-11-03 北京百度网讯科技有限公司 图像生成模型的训练方法、装置、电子设备及存储介质
CN116630812B (zh) * 2023-07-21 2023-09-26 四川发展环境科学技术研究院有限公司 基于可见光图像分析的水体特征检测方法及系统

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2978374B2 (ja) 1992-08-21 1999-11-15 松下電器産業株式会社 画像処理装置及び画像処理方法並びに空気調和機の制御装置
JP3216280B2 (ja) 1992-12-11 2001-10-09 松下電器産業株式会社 空気調和機の制御装置と画像処理装置の応用機器
JP3264460B2 (ja) 1993-04-26 2002-03-11 富士写真フイルム株式会社 画像判別方法
JPH07175776A (ja) 1993-12-17 1995-07-14 Nec Corp パターン学習認識装置
DE19544228C1 (de) 1995-11-28 1997-03-06 Man Takraf Foerdertechnik Gmbh Fahrwerk für einen Zweiträgerbrückenkran
JPH1091757A (ja) * 1996-09-11 1998-04-10 Ge Yokogawa Medical Syst Ltd 関心領域形状修正方法および医用装置
JP2006031440A (ja) 2004-07-16 2006-02-02 Konica Minolta Photo Imaging Inc 画像処理方法、画像処理装置、画像処理プログラム及び画像処理システム
JP4719893B2 (ja) 2005-05-02 2011-07-06 国立大学法人佐賀大学 制御装置、制御方法、及びそのプログラム
DE102006013476B4 (de) * 2006-03-23 2012-11-15 Siemens Ag Verfahren zur positionsgenauen Darstellung von interessierenden Gewebebereichen
JP5130523B2 (ja) 2007-03-01 2013-01-30 国立大学法人東京工業大学 情報処理装置、情報処理方法、及びプログラム
JP4493679B2 (ja) * 2007-03-29 2010-06-30 富士フイルム株式会社 対象領域抽出方法および装置ならびにプログラム
US8582854B2 (en) * 2008-09-15 2013-11-12 Siemens Aktiengesellschaft Method and system for automatic coronary artery detection
US8879813B1 (en) * 2013-10-22 2014-11-04 Eyenuk, Inc. Systems and methods for automated interest region detection in retinal images
US9569736B1 (en) 2015-09-16 2017-02-14 Siemens Healthcare Gmbh Intelligent medical image landmark detection
US9916522B2 (en) * 2016-03-11 2018-03-13 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
US9972092B2 (en) * 2016-03-31 2018-05-15 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
US10032067B2 (en) 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
EP3482346A1 (de) 2016-07-08 2019-05-15 Avent, Inc. System und verfahren zur automatischen erkennung, ortung und semantischen segmentierung anatomischer objekte
JP6809869B2 (ja) 2016-11-02 2021-01-06 Eizo株式会社 ガーゼ検出システム
US11308350B2 (en) 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US10417524B2 (en) * 2017-02-16 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Deep active learning method for civil infrastructure defect detection
US10580131B2 (en) * 2017-02-23 2020-03-03 Zebra Medical Vision Ltd. Convolutional neural network for segmentation of medical anatomical images
JP2020518915A (ja) * 2017-04-27 2020-06-25 パスハラキス スタブロスPASCHALAKIS, Stavros 自動眼底画像分析用のシステムおよび方法
JP2018206321A (ja) 2017-06-09 2018-12-27 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
CN107301640A (zh) 2017-06-19 2017-10-27 太原理工大学 一种基于卷积神经网络的目标检测实现肺部微小结节检测的方法
EP3596697B1 (de) * 2017-06-28 2021-03-17 Deepmind Technologies Limited Verallgemeinerbare analyse medizinischer bilder unter verwendung von neuronalen segmentierungs- und klassifizierungsnetzen
US9968257B1 (en) * 2017-07-06 2018-05-15 Halsa Labs, LLC Volumetric quantification of cardiovascular structures from medical imaging
US10891778B2 (en) * 2018-01-10 2021-01-12 The Board Of Trustees Of The University Of Illinois Apparatus and method for producing three-dimensional models from magnetic resonance imaging
CN109035197B (zh) 2018-05-31 2021-09-28 东南大学 基于三维卷积神经网络的ct造影图像肾脏肿瘤分割方法及系统
US11966838B2 (en) * 2018-06-19 2024-04-23 Nvidia Corporation Behavior-guided path planning in autonomous machine applications
CN109145939B (zh) 2018-07-02 2021-11-02 南京师范大学 一种小目标敏感的双通道卷积神经网络语义分割方法
CN108898188A (zh) 2018-07-06 2018-11-27 四川奇迹云科技有限公司 一种图像数据集辅助标记系统及方法
CN109035263B (zh) * 2018-08-14 2021-10-15 电子科技大学 基于卷积神经网络的脑肿瘤图像自动分割方法
CN109351970A (zh) * 2018-11-16 2019-02-19 北京遥感设备研究所 一种毛细结构3d打印制造方法
US11068694B2 (en) * 2019-01-23 2021-07-20 Molecular Devices, Llc Image analysis system and method of using the image analysis system
US11074479B2 (en) 2019-03-28 2021-07-27 International Business Machines Corporation Learning of detection model using loss function

Also Published As

Publication number Publication date
US11074479B2 (en) 2021-07-27
CN113614780A (zh) 2021-11-05
US20200311479A1 (en) 2020-10-01
GB202114744D0 (en) 2021-12-01
US11120305B2 (en) 2021-09-14
GB2596751A (en) 2022-01-05
JP2022524878A (ja) 2022-05-10
US20200311483A1 (en) 2020-10-01
GB2596751B (en) 2023-01-18
WO2020194111A1 (en) 2020-10-01
JP7350878B2 (ja) 2023-09-26

Similar Documents

Publication Publication Date Title
DE112020000279T5 (de) Erlernen eines erkennungsmodells unter verwenden einer verlustfunktion
DE102019000171A1 (de) Digitalumgebung zur Verortung semantischer Klassen
DE112018002822T5 (de) Klassifizieren neuronaler netze
DE112019000744T5 (de) Nicht überwachte domänenübergreifende Abstandsmetrikanpassung mit Merkmalsübertragungsnetz
DE102017001667A1 (de) Bildverarbeitungseinrichtung zum Anzeigen eines Objekts, das anhand einer Eingabebildaufnahme erkannt wird
DE112017001311T5 (de) System und Verfahren zum Trainieren eines Objektklassifikators durch maschinelles Lernen
DE102019100575A1 (de) Verfahren und system zum erzeugen eines bereichsbildes unter verwendung von daten mit geringer tiefe
DE112019002206B4 (de) Knockout-autoencoder zum erkennen von anomalien in biomedizinischen bildern
DE102018128158A1 (de) Vorrichtung zur inspektion des erscheinungsbilds
EP3557487B1 (de) Generieren von validierungsdaten mit generativen kontradiktorischen netzwerken
DE112020004049T5 (de) Krankheitserkennung aus spärlich kommentierten volumetrischen medizinischen bildern unter verwendung eines faltenden langen kurzzeitgedächtnisses
DE102018119682A1 (de) Bildverarbeitungsvorrichtung, bildverarbeitungsverfahren und nicht-vorübergehendes computerlesbares speichermedium
DE102014116177A1 (de) Patientenrisiko-Stratifizierung durch Verknüpfen von wissengesteuerten und datengesteuerten Erkenntnissen
DE112017000669T5 (de) Semantische Segmentierung auf der Grundlage einer globalen Optimierung
DE112021000392T5 (de) Leistungsfähiges kommentieren der grundwahrheit
DE102018109802A1 (de) Qualitätsbewertung bei einer automatischen Bildregistrierung
DE112012004809T5 (de) Kantenverfolgung mit Hysterese-Schwellenwertbildung
DE112021006280T5 (de) Generieren von daten auf grundlage von vorab trainierten modellen unter verwendung generierender konkurrierender modelle
DE112020005732T5 (de) Erzeugen von trainingsdaten zur objekterkennung
DE102021128523A1 (de) Hierarchische bildzerlegung zur defekterkennung
DE102022110889A1 (de) Halbüberwachtes training grober labels bei bildsegmentierung
DE112021005678T5 (de) Normieren von OCT-Bilddaten
DE112021004118T5 (de) Adaptives system und verfahren zur inspektion von abgebildeten gegenständen
BE1029597B1 (de) Bildverarbeitungssysteme und -verfahren zum automatischen Erzeugen eines oder mehrerer Bildverarbeitungsaufträge auf Grundlage interessierender Regionen (ROIs) digitaler Bilder
BE1029610B1 (de) Systeme und Verfahren zum Verbessern einer Performanz einer trainierbaren optischen Zeichenerkennung (OCR)

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009660000

Ipc: G06V0030194000

R084 Declaration of willingness to licence