DE112019003587T5

DE112019003587T5 - Lernvorrichtung, Betriebsprogramm von Lernvorrichtung und Betriebsverfahren von Lernvorrichtung

Info

Publication number: DE112019003587T5
Application number: DE112019003587.8T
Authority: DE
Inventors: Takashi Wakui
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2018-09-28
Filing date: 2019-07-17
Publication date: 2021-04-22
Also published as: US20210201017A1; WO2020066233A1; JPWO2020066233A1; US11594056B2; JP7026813B2

Abstract

Eine Lernvorrichtung lernt ein maschinelles Lernmodell zum Durchführen von semantischer Segmentierung des Bestimmens mehrerer Klassen in einem Eingabebild in Einheiten von Pixeln durch Extrahieren von Merkmalen, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder von Ortsfrequenzen aufweisen, für jede Schicht. Eine Lerndaten-Analyseeinheit analysiert die Frequenzbänder, die in einem Beschriftungsbild von Lerndaten enthalten sind. Eine Lernverfahrens-Bestimmungseinheit bestimmt ein Lernverfahren unter Verwendung der Lerndaten auf der Grundlage eines Analyseergebnisses der Frequenzbänder von der Lerndaten-Analyseeinheit. Eine Lerneinheit lernt das maschinelle Lernmodell durch das bestimmte Lernverfahren unter Verwendung der Lerndaten.

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die Technik der vorliegenden Offenbarung bezieht sich auf eine Lernvorrichtung, ein Betriebsprogramm der Lernvorrichtung und ein Betriebsverfahren der Lernvorrichtung.
Beschreibung des Standes der Technik
In den letzten Jahren ist ein maschinelles Lernmodell, das semantische Segmentierung durch Analysieren eines Eingabebildes unter Verwendung eines neuronalen Netzwerks realisiert, bekannt geworden. Die semantische Segmentierung ist eine Technik des Bestimmens mehrerer Klassen, die in dem Eingabebild in Einheiten von Pixeln enthalten sind, und des Ausgebens eines Ausgabebildes, in dem Bereiche für jede bestimmte Klasse unterteilt sind.
Die Klasse ist beispielsweise ein Typ eines Objekts, das in dem Eingabebild erscheint. Kurz gesagt ist die semantische Segmentierung eine Technik des Bestimmens einer Klasse und einer Kontur eines in einem Bild erscheinenden Objekts und des Ausgebens eines Bestimmungsergebnisses als ein Ausgabebild. In einem Fall, in dem zum Beispiel drei Objekte aus einer Tasse, einem Buch und einem Mobiltelefon in einem Bild erscheinen, werden in einem Ausgabebild idealerweise die Tasse, das Buch und das Mobiltelefon jeweils als eine Klasse bestimmt, und ein Bereich, der durch eine Konturlinie definiert ist, die eine Kontur des Objekts getreu nachzeichnet, wird für jede Klasse unterscheidbar dargestellt.
Als ein maschinelles Lernmodell zum Durchführen der semantischen Segmentierung wird ein hierarchisches maschinelles Lernmodell (nachstehend einfach als ein hierarchisches Modell bezeichnet) verwendet, wobei das hierarchische Modell ein Modell, das mehrere Schichten zum Analysieren des Eingabebildes enthält und für jede Schicht Merkmale extrahiert, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder von Ortsfrequenzen aufweisen, ist. Als das hierarchische Modell ist beispielsweise ein faltendes neuronales Netzwerk (convolutional neural network, CNN) wie ein U-förmiges neuronales Netzwerk (U-Net) bekannt. Im Folgenden bedeuten die Frequenzbänder, wenn nicht anders angegeben, Frequenzbänder von Ortsfrequenzen.
In dem hierarchischen Modell wird Faltungsverarbeitung des Extrahierens einer Bildmerkmalskarte, die Merkmale des Eingabebildes darstellt, durch Eingeben von Eingabedaten, in denen mehrere Pixelwerte zweidimensional für jede Schicht angeordnet sind, in das Modell, Anwenden eines Filters auf die Eingabedaten und Durchführen von Faltung an Pixelwerten von benachbarten Pixeln, die zueinander benachbart sind, durchgeführt. Als die Eingabedaten wird das zu analysierende Eingabebild in die höchste Schicht, die eine erste Schicht unter den mehreren Schichten ist, eingegeben. Die Merkmale, die durch die Pixelwerte der benachbarten Pixel in dem Eingabebild dargestellt werden, sind Merkmale der feinsten Struktur. Aus diesem Grund entspricht ein Durchführen von Faltungsverarbeitung der Pixelwerte der benachbarten Pixel auf dem Eingabebild einem Extrahieren der Merkmale der feinen Struktur mit dem höchsten Frequenzband in dem Eingabebild.
In jeder Schicht wird nach Durchführung von Faltungsverarbeitung Pooling-Verarbeitung des Ausgebens der Bildmerkmalskarte mit einer reduzierten Bildgröße durchgeführt, indem lokale Statistiken der extrahierten Bildmerkmalskarte berechnet werden und die Bildmerkmalskarte komprimiert wird. In der nächsten Schicht wird die reduzierte Bildmerkmalskarte als Eingabedaten eingegeben, und die Faltungsverarbeitung und die Pooling-Verarbeitung werden wiederholt.
Auf diese Weise wird in den Eingabedaten, die in jede Schicht eingegeben werden, von der höheren Schicht zu der niedrigeren Schicht die Bildgröße allmählich reduziert, und folglich wird eine Auflösung verringert. In den mittleren Schichten werden beispielsweise die Bildmerkmalskarten mit Bildgrößen, die 1/2 bis 1/4 des Eingabebildes entsprechen, eingegeben, und in den niedrigeren Schichten werden die Bildmerkmalskarten mit Bildgrößen, die 1/8 bis 1/16 des Eingabebildes entsprechen, eingegeben.
Selbst in den mittleren und den niedrigeren Schichten wird, um die Merkmale des Eingabebildes zu extrahieren, Faltungsverarbeitung der Pixelwerte der benachbarten Pixel durch Anwenden eines Filters auf die eingegebene Bildmerkmalskarte durchgeführt. In der Bildmerkmalskarte, die eine geringere Auflösung als die Auflösung des Eingabebildes aufweist, sind jedoch unter Berücksichtigung von Pixelpositionen in dem Eingabebild selbst in einem Fall der benachbarten Pixel die benachbarten Pixel räumlich voneinander getrennt. Aus diesem Grund werden, je niedriger die Schicht ist, Merkmale einer großflächigen Struktur mit einem niedrigen Frequenzband in dem Eingabebild extrahiert.
Auf diese Weise werden in dem hierarchischen Modell Merkmale, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder aufweisen, durch Verwenden der mehreren Schichten extrahiert. Die Klassen, die in dem Eingabebild enthalten sind und bestimmt werden sollen, können verschiedene Frequenzbänder aufweisen. Durch Extrahieren der Merkmale mit unterschiedlichen Frequenzbändern für jede Schicht können die Klassen, die in dem Eingabebild enthalten sind und verschiedene Frequenzbänder aufweisen, bestimmt werden.
JP2012-043151A offenbart ein hierarchisches Modell unter Verwendung eines faltenden neuronalen Netzwerks, das für Bildanalyse verwendet wird, obwohl das hierarchische Modell nicht semantischer Segmentierung zusammenhängt.
ZUSAMMENFASSUNG DER ERFINDUNG
In dem hierarchischen Modell zum Durchführen von semantischer Segmentierung wird Lernen auf der Grundlage von Lerndaten durchgeführt, um eine Klassenbestimmungsgenauigkeit zu verbessern. Die Lerndaten enthalten ein Paar aus einem Lerneingabebild, das dem Eingabebild ähnlich ist, und einem Beschriftungsbild, in dem jeder in dem Lerneingabebild enthaltene Klassenbereich durch eine Beschriftung angegeben ist. Das Beschriftungsbild ist ein Bild, bei dem jeder Klassenbereich manuell auf dem Lerneingabebild unter Verwendung eines Grafiktabletts oder dergleichen gekennzeichnet wird. Das Beschriftungsbild ist ein korrektes Antwortbild, das eine korrekte Antwort des Bestimmungsergebnisses der in dem entsprechenden Lerneingabebild enthaltenen Klasse angibt.
Lernen wird durch Eingeben der Lerndaten in das hierarchische Modell durchgeführt. Insbesondere wird das Lerneingabebild in das hierarchische Modell eingegeben, und das Lernausgabebild, das ein Bestimmungsergebnis des eingegebenen Lerneingabebildes ist, wird ausgegeben. Durch Vergleichen des Lernausgabebildes und des Beschriftungsbildes, das dem Lerneingabebild entspricht, wird die Klassenbestimmungsgenauigkeit bewertet. Das hierarchische Modell wird gemäß dem Bewertungsergebnis aktualisiert.
Beim Lernen des hierarchischen Modells gibt es jedoch in einem Fall, in dem die Frequenzbänder der zu bestimmenden Klassen in den Lerndaten und die Frequenzbänder, die das hierarchische Modell in der Lage ist, zu analysieren, nicht übereinstimmen, die folgenden Probleme. Ein erstes Problem ist, dass die Klasse beim Lernen nicht angemessen bestimmt wird, und ein zweites Problem ist, dass Berechnungsverarbeitung beim Lernen verschwenderisch ist. In einem Fall, in dem Berechnungsverarbeitung verschwenderisch ist, werden folglich auch ein Verbrauch einer Ressource wie beispielsweise eines Speichers und eine Berechnungszeit verschwendet.
Eine von Ursachen für ein solches Problem hängt mit einem Verfahren des Kennzeichnens des Klassenbereichs des in den Lerndaten enthaltenen Beschriftungsbildes zusammen. Der Klassenbereich des Beschriftungsbildes wird beispielsweise durch manuelles Färben des Klassenbereichs und Hinzufügen einer Beschriftung zu dem Klassenbereich gekennzeichnet. Der Klassenbereich wird von einer Person manuell gefärbt, und folglich gibt es selbst in derselben Klasse eine Variation in Feinheit des Färbens. Zum Beispiel kann es ein Beschriftungsbild, in dem die Klassenbereiche fein in Einheiten von einem Pixel gefärbt sind, geben, oder es kann ein Beschriftungsbild, in dem die Klassenbereiche großflächig in Einheiten von zwei bis vier Pixeln gefärbt sind, geben. Das heißt, Feinheit des Färbens unterscheidet sich abhängig von dem Beschriftungsbild.
In einem Fall, in dem das Färben fein ist, weist das Merkmal, das die Klasse in dem Bild angibt, ein hohes Frequenzband auf. In einem Fall, in dem das Färben großflächig ist, weist das Merkmal, das die Klasse in dem Bild angibt, ein niedriges Frequenzband auf. In dem Beschriftungsbild kann es in einem Fall, in dem die meisten der zu bestimmenden Klassen ein niedriges Frequenzband aufweisen, in dem hierarchischen Modell einen Fall, in dem die Verarbeitung des Extrahierens der feinen Struktur in der höheren Schicht nicht notwendig ist, geben. In diesem Fall ist eine nicht notwendige Schicht, die nicht zur Verbesserung der Bestimmungsgenauigkeit der Klasse, die in den eingegebenen Lerndaten enthalten ist, beiträgt, in dem hierarchischen Modell enthalten. Dies ist ein Beispiel eines Falls, in dem die Frequenzbänder der zu bestimmenden Klassen in den Lerndaten und die Frequenzbänder, die das hierarchische Modell in der Lage ist, zu analysieren, nicht übereinstimmen. Die Nichtübereinstimmung verursacht das oben beschriebene zweite Problem.
Darüber hinaus ist natürlich ein Bereich der Frequenzbänder, die das hierarchische Modell in der Lage ist, zu analysieren, endlich. In dem hierarchischen Modell ist eine Reduktionsrate zum Verkleinern der Bildgröße von der höchsten Schicht zu der niedrigsten Schicht voreingestellt. In einem Fall, in dem beispielsweise das Eingabebild in der höchsten Schicht mit der gleichen Vergrößerung (1/1) eingegeben wird und die Eingabedaten mit einer Bildgröße von 1/16 des Eingabebildes in der niedrigsten Schicht eingegeben werden, beträgt die Reduktionsrate 1/16. Aus diesem Grund kann es in einem Fall, in dem die Auflösung des Eingabebildes, das in die höchste Schicht eingegeben wird, zu hoch ist, selbst in der niedrigsten Schicht einen Fall, in dem die Merkmale einer großflächigen Struktur, die in dem Eingabebild enthalten sind und ein niedriges Frequenzband aufweisen, nicht extrahiert werden können, geben. Auch dies ist ein Beispiel eines Falls, in dem die Frequenzbänder der zu bestimmenden Klassen in den Lerndaten und die Frequenzbänder, die das hierarchische Modell in der Lage ist, zu analysieren, nicht übereinstimmen. Die Nichtübereinstimmung verursacht das oben beschriebene erste Problem.
Das erste Problem, dass die Klasse beim Lernen nicht angemessen bestimmt wird, beeinflusst einen Lerneffekt des hierarchischen Modells, und folglich wird in einer Betriebsphase die Klassenbestimmungsgenauigkeit beeinflusst. Weil das Lernen des hierarchischen Modells wiederholt auf der Grundlage einer großen Menge von Lerndaten durchgeführt wird, kann ferner das zweite Problem, dass Berechnungsverarbeitung beim Lernen verschwenderisch ist, nicht ignoriert werden.
Eine Aufgabe einer Technik der vorliegenden Offenbarung ist es, eine Lernvorrichtung, ein Betriebsprogramm der Lernvorrichtung und ein Betriebsverfahren der Lernvorrichtung, die in der Lage sind, im Vergleich zu der Technik in dem Stand der Technik in geeigneter Weise Klassen zu bestimmen und verschwenderische Berechnungsverarbeitung zu beseitigen, vorzusehen.
Um die obige Aufgabe zu erzielen, wird gemäß einem Aspekt der vorliegenden Offenbarung eine Lernvorrichtung, die Lerndaten in ein maschinelles Lernmodell, das mehrere Schichten zum Analysieren eines Eingabebildes enthält, eingibt und das maschinelle Lernmodell lernt, vorgesehen, wobei das maschinelle Lernmodell ein Modell zum Durchführen von semantischer Segmentierung des Bestimmens mehrerer Klassen in dem Eingabebild in Einheiten von Pixeln durch Extrahieren von Merkmalen, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder von Ortsfrequenzen aufweisen, für jede Schicht ist, wobei die Lernvorrichtung enthält: eine Lerndaten-Analyseeinheit, die mindestens die Frequenzbänder, die in einem Beschriftungsbild der Lerndaten enthalten sind, analysiert, wobei die Lerndaten ein Paar aus einem Lerneingabebild und dem Beschriftungsbild, in dem jeder Klassenbereich, der in dem Lerneingabebild enthalten ist, durch eine Beschriftung angegeben ist, sind; eine Lernverfahrens-Bestimmungseinheit, die ein Lernverfahren unter Verwendung der Lerndaten auf der Grundlage eines Analyseergebnisses der Frequenzbänder von der Lerndaten-Analyseeinheit bestimmt; und eine Lerneinheit, die das maschinelle Lernmodell durch das bestimmte Lernverfahren unter Verwendung der Lerndaten lernt.
Vorzugsweise spezifiziert die Lerndaten-Analyseeinheit das Frequenzband, für das Extraktion des Merkmals von relativ hoher Notwendigkeit ist, unter den Frequenzbändern als ein notwendiges Band, indem sie die Frequenzbänder, die in dem Beschriftungsbild enthalten sind, analysiert, und die Lernverfahrens-Bestimmungseinheit konfiguriert das maschinelle Lernmodell auf der Grundlage des spezifizierten notwendigen Bands neu.
Vorzugsweise bestimmt die Lernverfahrens-Bestimmungseinheit bei der Neukonfiguration unter den mehreren Schichten eine notwendige Schicht, die zum Lernen notwendig ist, und eine optionale Schicht, die beim Lernen optional ist, auf der Grundlage des spezifizierten notwendigen Bands und reduziert eine Verarbeitungsmenge der optionalen Schicht so, dass sie kleiner als eine Verarbeitungsmenge der notwendigen Schicht ist.
Vorzugsweise spezifiziert die Lerndaten-Analyseeinheit das Frequenzband, für das Extraktion des Merkmals von relativ hoher Notwendigkeit ist, unter den Frequenzbändern als ein notwendiges Band, indem sie die Frequenzbänder, die in dem Beschriftungsbild enthalten sind, analysiert, und die Lernverfahrens-Bestimmungseinheit gleicht einen Bereich der Frequenzbänder, die in dem Beschriftungsbild enthalten sind, mit einem Bereich der in dem maschinellen Lernmodell analysierbaren Frequenzbänder ab, indem sie eine Auflösung des Lerneingabebildes auf der Grundlage des spezifizierten notwendigen Bands verringert.
Vorzugsweise analysiert die Lerndaten-Analyseeinheit die Frequenzbänder, die in dem Beschriftungsbild und dem Lerneingabebild enthalten sind, und die Lernverfahrens-Bestimmungseinheit bestimmt das Lernverfahren auf der Grundlage eines Analyseergebnisses des Beschriftungsbildes und eines Analyseergebnisses des Lerneingabebildes.
Vorzugsweise erzeugt die Lerndaten-Analyseeinheit eine Bildpyramide, die mehrere Bilder, die durch allmähliches Verringern der Auflösung des Beschriftungsbildes erhalten werden und unterschiedliche Auflösungen aufweisen, enthält, und analysiert die in dem Beschriftungsbild enthaltenen Frequenzbänder auf der Grundlage der Bildpyramide.
Vorzugsweise ist das maschinelle Lernmodell mit einem faltenden neuronalen Netzwerk, das ein Kodiernetzwerk und ein Dekodiernetzwerk enthält, konfiguriert, wobei das Kodiernetzwerk ein Netzwerk ist, das Faltungsverarbeitung des Extrahierens einer Bildmerkmalskarte, die Merkmale darstellt, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder aufweisen, durch Durchführen von Faltungsberechnung unter Verwendung eines Filters durchführt, Pooling-Verarbeitung des Ausgebens der Bildmerkmalskarte mit einer reduzierten Bildgröße durch Berechnen lokaler Statistiken der durch die Faltungsverarbeitung extrahierten Bildmerkmalskarte und Komprimieren der Bildmerkmalskarte durchführt und die Bildmerkmalskarte für jede Schicht durch wiederholtes Durchführen der Faltungsverarbeitung und der Pooling-Verarbeitung an der Bildmerkmalskarte, die in der vorherigen Schicht ausgegeben wird und reduziert ist, in der nächsten Schicht extrahiert, wobei das Dekodiernetzwerk ein Netzwerk ist, das ein Ausgabebild, in dem jeder Klassenbereich segmentiert ist, durch wiederholtes Durchführen von Upsampling-Verarbeitung und Zusammenführungsverarbeitung erzeugt, wobei die Upsampling-Verarbeitung Verarbeitung des allmählichen Vergrößerns einer Bildgröße der Bildmerkmalskarte durch Upsampling ausgehend von der Bildmerkmalskarte mit minimaler Größe, die in dem Kodiernetzwerk ausgegeben wird, ist und wobei die Zusammenführungsverarbeitung Verarbeitung des Kombinierens der Bildmerkmalskarte, die allmählich vergrößert wird, mit der Bildmerkmalskarte, die für jede Schicht des Kodiernetzwerks extrahiert wird und dieselbe Bildgröße aufweist, ist.
Vorzugsweise ist das Eingabebild ein Zellbild, in dem Zellen erscheinen.
Vorzugsweise analysiert die Lerndaten-Analyseeinheit die Frequenzbänder auf der Grundlage einer Lerndatengruppe, die mehrere Stücke der Lerndaten enthält.
Gemäß einem weiteren Aspekt der vorliegenden Offenbarung wird ein Betriebsprogramm einer Lernvorrichtung, die Lerndaten in ein maschinelles Lernmodell, das mehrere Schichten zum Analysieren eines Eingabebildes enthält, eingibt und das maschinelle Lernmodell lernt, vorgesehen, wobei das maschinelle Lernmodell ein Modell zum Durchführen von semantischer Segmentierung des Bestimmens mehrerer Klassen in dem Eingabebild in Einheiten von Pixeln durch Extrahieren von Merkmalen, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder von Ortsfrequenzen aufweisen, für jede Schicht ist, wobei das Betriebsprogramm einen Computer dazu veranlasst, zu fungieren als: eine Lerndaten-Analyseeinheit, die mindestens die Frequenzbänder, die in einem Beschriftungsbild der Lerndaten enthalten sind, analysiert, wobei die Lerndaten ein Paar aus einem Lerneingabebild und dem Beschriftungsbild, in dem jeder Klassenbereich, der in dem Lerneingabebild enthalten ist, durch eine Beschriftung angegeben ist, sind; eine Lernverfahrens-Bestimmungseinheit, die ein Lernverfahren unter Verwendung der Lerndaten auf der Grundlage eines Analyseergebnisses der Frequenzbänder von der Lerndaten-Analyseeinheit bestimmt; und eine Lerneinheit, die das maschinelle Lernmodell durch das bestimmte Lernverfahren unter Verwendung der Lerndaten lernt.
Gemäß noch einem weiteren Aspekt der vorliegenden Offenbarung wird ein Betriebsverfahren einer Lernvorrichtung, die Lerndaten in ein maschinelles Lernmodell, das mehrere Schichten zum Analysieren eines Eingabebildes enthält, eingibt und das maschinelle Lernmodell lernt, vorgesehen, wobei das maschinelle Lernmodell ein Modell zum Durchführen von semantischer Segmentierung des Bestimmens mehrerer Klassen in dem Eingabebild in Einheiten von Pixeln durch Extrahieren von Merkmalen, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder von Ortsfrequenzen aufweisen, für jede Schicht ist, wobei das Betriebsverfahren enthält: einen Lerndaten-Analyseschritt des Analysierens mindestens der Frequenzbänder, die in einem Beschriftungsbild der Lerndaten enthalten sind, wobei die Lerndaten ein Paar aus einem Lerneingabebild und dem Beschriftungsbild, in dem jeder Klassenbereich, der in dem Lerneingabebild enthalten ist, durch eine Beschriftung angegeben ist, sind; einen Lernverfahrens-Bestimmungsschritt des Bestimmens eines Lernverfahrens unter Verwendung der Lerndaten auf der Grundlage eines Analyseergebnisses der Frequenzbänder in dem Lerndaten-Analyseschritt; und einen Lernschritt des Lernens des maschinellen Lernmodells durch das bestimmte Lernverfahren unter Verwendung der Lerndaten.
Gemäß der Technik der vorliegenden Offenbarung ist es möglich, im Vergleich zu der Technik in dem Stand der Technik Klassen angemessen zu bestimmen und verschwenderische Berechnungsverarbeitung zu beseitigen.
Figurenliste

1 ist ein Diagramm, das einen Umriss einer Lernvorrichtung und Verarbeitung der Lernvorrichtung darstellt.
2 ist ein Diagramm, das einen Umriss einer Betriebsvorrichtung und Verarbeitung der Betriebsvorrichtung darstellt.
3 ist ein Diagramm, das Zellbilder darstellt, 3(A) stellt ein Lerneingabebild dar, und 3(B) stellt ein Beschriftungsbild dar.
4 ist ein Diagramm, das darstellt, dass eine Lerneingabebildgruppe durch Aufteilen eines Lerneingabebilds gebildet wird.
5 ist ein Diagramm, das darstellt, dass eine Beschriftungsbildgruppe durch Aufteilen eines Beschriftungsbilds gebildet wird.
6 ist ein Diagramm, das ein hierarchisches Modell darstellt.
7 ist ein Diagramm, das Faltungsverarbeitung erläutert.
8 ist ein Diagramm, das eine Bildmerkmalskarte darstellt.
9 ist ein Diagramm, das eine Korrespondenzbeziehung zwischen einem Bild und einem neuronalen Netzwerk darstellt.
10 ist ein Blockdiagramm, das einen Computer einschließlich einer Lernvorrichtung darstellt.
11 ist ein Blockdiagramm, das eine Verarbeitungseinheit, die von einer CPU der Lernvorrichtung realisiert wird, darstellt.
12A bis 12C sind Diagramme, die einen Unterschied beim Färben eines Beschriftungsbilds darstellen, 12A ist ein Diagramm, das einen Zustand darstellt, in dem keine Beschriftung hinzugefügt wird, 12B ist ein Diagramm, das einen Zustand darstellt, in dem eine Beschriftung einer feinen Kontur hinzugefügt wird, und 12C ist ein Diagramm, das einen Zustand darstellt, in dem eine Beschriftung einer großflächigen Kontur hinzugefügt wird.
13 ist ein Diagramm, das ein spezifisches Beispiel von Verarbeitung zum Spezifizieren von Frequenz darstellt.
14 ist ein Diagramm, das Frequenzanalyse unter Verwendung einer Bildpyramide darstellt.
15 ist ein Diagramm, das ein spezifisches Beispiel von Verarbeitung des Bestimmens eines Lernverfahrens darstellt.
16 ist ein Diagramm, das ein spezifisches Beispiel von Neukonfiguration eines hierarchischen Modells darstellt.
17 ist ein Diagramm, das ein spezifisches Beispiel von Verarbeitung eines neu konfigurierten hierarchischen Modells darstellt.
18 ist ein Flussdiagramm, das eine Lernverarbeitungsprozedur der Lernvorrichtung darstellt.
19 ist ein Flussdiagramm, das eine Verarbeitungsprozedur von Frequenzanalyse darstellt.
20 ist ein Flussdiagramm, das eine Verarbeitungsprozedur des Bestimmens eines Lernverfahrens darstellt.
21 ist ein Diagramm, das ein Modifikationsbeispiel von Neukonfiguration eines hierarchischen Modells darstellt.
22 ist ein Diagramm, das ein spezifisches Beispiel von Verarbeitung eines neu konfigurierten hierarchischen Modells entsprechend dem Modifikationsbeispiel von 21 darstellt.
23 ist ein Flussdiagramm, das eine Verarbeitungsprozedur des Bestimmens eines Lernverfahrens gemäß einer zweiten Ausführungsform darstellt.
24 ist ein Diagramm, das ein spezifisches Beispiel von Verarbeitung des Bestimmens eines Lernverfahrens gemäß der zweiten Ausführungsform darstellt.
25 ist ein Diagramm, das ein spezifisches Beispiel von Korrektur des Lerneingabebilds gemäß der zweiten Ausführungsform darstellt.
26 ist ein Flussdiagramm, das eine Verarbeitungsprozedur des Bestimmens eines Lernverfahrens gemäß einer dritten Ausführungsform darstellt.
27 ist ein Diagramm, das ein spezifisches Beispiel von Verarbeitung des Bestimmens eines Lernverfahrens gemäß der dritten Ausführungsform darstellt.
28 ist ein Diagramm, das ein spezifisches Beispiel von Neukonfiguration des hierarchischen Modells gemäß der dritten Ausführungsform darstellt.
29 ist ein Flussdiagramm, das eine Verarbeitungsprozedur von Frequenzanalyse gemäß einer vierten Ausführungsform darstellt.
30 ist ein Diagramm, das ein spezifisches Beispiel von Verarbeitung des Bestimmens eines Lernverfahrens gemäß der vierten Ausführungsform darstellt.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
„Erste Ausführungsform“
Um eine Bestimmungsgenauigkeit eines hierarchischen Modells 10 zum Durchführen semantischer Segmentierung, bei der mehrere Klassen in einem zu analysierenden Eingabebild in Einheiten von Pixeln bestimmt werden, zu verbessern, führt in 1 eine Lernvorrichtung 2 Lernen durch Eingeben von Lerndaten in das hierarchische Modell 10 durch. Die Lernvorrichtung 2 ist beispielsweise mit einer Workstation oder einem Personal Computer konfiguriert. Ferner enthält das hierarchische Modell 10, wie später beschrieben wird, beispielsweise ein faltendes neuronales Netzwerk, wie U-Net (siehe 6).
Durch Eingeben der Lerndaten in das hierarchische Modell 10, Lernen der Lerndaten und Aktualisieren des hierarchischen Modells 10 wird die Klassenbestimmungsgenauigkeit verbessert. Die Lerndaten enthalten ein Paar aus einem Lerneingabebild und einem Beschriftungsbild. Das Lerneingabebild ist ein Eingabebild, das beim Lernen in das hierarchische Modell 10 eingegeben wird. Das Beschriftungsbild ist ein Bild, in dem jeder Klassenbereich, der in dem entsprechenden Lerneingabebild enthalten ist, durch eine Beschriftung angezeigt wird. Das Beschriftungsbild ist ein korrektes Antwortbild zum Abgleichen einer Antwort mit einem Lernausgabebild, das aus dem hierarchischen Modell 10 entsprechend dem Lerneingabebild ausgegeben wird, und wird mit dem Lernausgabebild verglichen. Je höher die Klassenbestimmungsgenauigkeit des hierarchischen Modells 10 wird, desto kleiner wird ein Unterschied zwischen dem Beschriftungsbild und dem Lernausgabebild.
Die Lernvorrichtung 2 verwendet Mini-Batch-Daten 11 als die Lerndaten. Die Mini-Batch-Daten 11 sind eine Bildgruppe, in der mehrere vorbestimmte Stücke von Lerndaten zusammen gruppiert sind, und enthalten eine Lerneingabebildgruppe 12 und eine Beschriftungsbildgruppe 13.
Beim Lernen wird die Lerneingabebildgruppe 12 in das hierarchische Modell 10 eingegeben. Dadurch wird das Lernausgabebild 14S (siehe 6) aus dem hierarchischen Modell 10 für jedes Lerneingabebild 20S (siehe 4 und 6), das in der Lerneingabebildgruppe 12 enthalten ist, ausgegeben. Durch Vergleichen des aus dem hierarchischen Modell 10 ausgegebenen Lernausgabebildes mit dem Beschriftungsbild 21S (siehe 5) wird die Klassenbestimmungsgenauigkeit des hierarchischen Modells 10 bewertet. Insbesondere gibt die Lernvorrichtung 2 die Lernausgabebildgruppe 14, die ein Satz der Lernausgabebilder 14S ist, entsprechend der eingegebenen Lerneingabebildgruppe 12 aus. Die Lernvorrichtung 2 vergleicht das einzelne Lernausgabebild 14S und das Beschriftungsbild 21S, integriert das Vergleichsergebnis in Einheiten der ausgegebenen Lernausgabebildgruppe 14 und der Beschriftungsbildgruppe 13 und gibt das integrierte Ergebnis als ein Bewertungsergebnis aus. Auf diese Weise wird die Klassenbestimmungsgenauigkeit des hierarchischen Modells 10 bewertet. Das hierarchische Modell 10 wird gemäß dem Bewertungsergebnis der Klassenbestimmungsgenauigkeit aktualisiert. Die Lernvorrichtung 2 gibt die Lerneingabebildgruppe 12 in das hierarchische Modell 10 ein, gibt die Lernausgabebildgruppe 14 aus dem hierarchischen Modell 10 aus, bewertet die Klassenbestimmungsgenauigkeit des hierarchischen Modells 10 und aktualisiert das hierarchische Modell 10, während sie die Mini-Batch-Daten 11 ändert. Die Verarbeitung wird wiederholt, bis die Klassenbestimmungsgenauigkeit des hierarchischen Modells 10 ein gewünschtes Niveau erreicht.
Wie in 2 dargestellt, wird das hierarchische Modell 10, bei dem die Klassenbestimmungsgenauigkeit wie oben beschrieben auf ein gewünschtes Niveau angehoben wird, als ein gelerntes hierarchisches Modell 10T in eine Betriebsvorrichtung 15 aufgenommen. Ein Eingabebild 16, in dem eine Klasse oder eine Kontur eines erschienenen Objekts noch nicht bestimmt ist, wird in das gelernte hierarchische Modell 10T eingegeben. Das gelernte hierarchische Modell 10T bestimmt eine Klasse und eine Kontur eines in dem Eingabebild 16 erschienenen Objekts und gibt ein Ausgabebild 17 als ein Bestimmungsergebnis aus. Ähnlich wie die Lernvorrichtung 2 ist die Betriebsvorrichtung 15 beispielsweise eine Workstation oder ein Personal Computer und zeigt ein Eingabebild 16 und ein Ausgabebild 17 nebeneinander auf einer Anzeige an. Die Betriebsvorrichtung 15 kann eine von der Lernvorrichtung 2 verschiedene Vorrichtung oder dieselbe Vorrichtung wie die Lernvorrichtung 2 sein. Ferner können die Mini-Batch-Daten 11 in das gelernte hierarchische Modell 10T eingegeben werden und können auch nach Aufnahme in die Betriebsvorrichtung 15 gelernt werden.
Wie in 3(A) dargestellt, ist ein Lerneingabebild 20 in Originalgröße (nachstehend als ein Lerneingabebild 20 bezeichnet) in diesem Beispiel ein Phasenkontrastmikroskop-Bild (das einem Zellbild entspricht), in dem ein Zustand von Zellkultur erscheint. In dem Lerneingabebild 20 erscheinen differenzierte Zellen, undifferenzierte Zellen, ein Medium und tote Zellen als Objekte. In diesem Fall werden, wie in 3(B) dargestellt, in einem Beschriftungsbild 21 in Originalgröße (nachstehend als ein Original-Beschriftungsbild 21 bezeichnet) jeweils und manuell differenzierte Zellen von Klasse 1, undifferenzierte Zellen von Klasse 2, ein Medium von Klasse 3 und tote Zellen von Klasse 4 gekennzeichnet. Das Eingabebild 16, das in das gelernte hierarchische Modell 10T eingegeben wird, ist ebenfalls ein Phasenkontrastmikroskop-Bild, in dem ein Zustand von Zellkultur ähnlich dem Lerneingabebild 20 erscheint.
Wie in 4 dargestellt, ist das Lerneingabebild 20S ein geteiltes Bild, das durch Schneiden eines Original-Lerneingabebildes 20 in eine voreingestellte Bildgröße erhalten wird. Um mehr Lerneingabebilder 20S kleiner Größe aus einem Original-Lerneingabebild 20 zu erhalten, werden die Lerneingabebilder 20S durch teilweises Überlappen von Ausschnittbereichen der benachbarten Lerneingabebilder 20S ausgeschnitten. Die Bildgröße des Lerneingabebildes 20S beträgt beispielsweise 1/50 der Bildgröße des Original-Lerneingabebildes 20. Durch Schneiden des Bildes mit Überlappen der Ausschnittbereiche werden beispielsweise 10.000 Lerneingabebilder 20S aus einem Original-Lerneingabebild 20 erzeugt. Die Lerneingabebildgruppe 12 enthält einen Teil mehrerer Lerneingabebilder 20S (zum Beispiel 100 Lerneingabebilder 20S von 10.000 Lerneingabebildern 20S).
In ähnlicher Weise ist, wie in 5 dargestellt, das Beschriftungsbild 21S ein geteiltes Bild, das durch Schneiden eines Original-Beschriftungsbildes 21 in eine voreingestellte Bildgröße erhalten wird. Jedes Beschriftungsbild 21S ist mit jedem Lerneingabebild 20S gepaart und wird in Lerndaten enthalten. Daher werden die Beschriftungsbilder 21S ebenfalls aus einem Original-Beschriftungsbild 21 durch dasselbe Verfahren wie bei dem Lerneingabebild 20S um dieselbe Anzahl an Bildern wie die Anzahl der Lerneingabebilder 20S ausgeschnitten (in diesem Beispiel 10.000). Die Beschriftungsbildgruppe 13 enthält einen Teil mehrerer Beschriftungsbilder 21S, die aus einem Original-Beschriftungsbild 21 ausgeschnitten wurden (zum Beispiel 100 Beschriftungsbilder 21S von 10.000 Beschriftungsbildern 21S). Das in der Lerneingabebildgruppe 12 enthaltene Lerneingabebild 20S und das in der Beschriftungsbildgruppe 13 enthaltene Beschriftungsbild 21S weisen den gleichen Ausschnittbereich auf.
Die Mini-Batch-Daten 11 werden durch ein Paar aus der Lerneingabebildgruppe 12 und der Beschriftungsbildgruppe 13 erzeugt. Bei Erzeugung der Mini-Batch-Daten 11 kann eine Technik, die als Datenvermehrung bezeichnet wird und Optionen der Mini-Batch-Daten 11 erhöht, indem sie ein anderes Bild durch Durchführen von Bildverarbeitung, wie Trimmen, Links-Rechts-Inversion oder Drehung, an dem Lerneingabebild 20S und dem Beschriftungsbild 21S erstellt, verwendet werden.
Wie in 6 dargestellt, ist das hierarchische Modell 10 ein hierarchisches Modell, das ein faltendes neuronales Netzwerk, wie U-Net, enthält. In diesem Beispiel enthält das hierarchische Modell 10 fünf Schichten aus einer ersten Schicht bis zu einer fünften Schicht.
Das hierarchische Modell 10 enthält ein Kodiernetzwerk 10A und ein Dekodiernetzwerk 10B. Das Kodiernetzwerk 10A führt Faltungsverarbeitung des Extrahierens einer Bildmerkmalskarte CMP als ein Beispiel von Merkmalen, die in dem Lerneingabebild 20S enthalten sind und unterschiedliche Frequenzbänder aufweisen, durch, indem es Faltungsberechnung unter Verwendung eines Filters für jede Schicht durchführt. Das Dekodiernetzwerk 10B vergrößert allmählich eine Bildgröße einer Bildmerkmalskarte CMP mit minimaler Größe, die in dem Kodiernetzwerk 10A ausgegeben wird. Die Bildmerkmalskarte CMP, die allmählich vergrößert wird, und die Bildmerkmalskarte CMP, die in jeder Schicht des Kodiernetzwerks 10A ausgegeben wird, werden miteinander kombiniert, und somit wird ein Lernausgabebild 14S mit einer Bildgröße ähnlich der Bildgröße des Lerneingabebildes 20S erzeugt.
In jeder Schicht des Kodiernetzwerks 10A werden Eingabedaten, in denen mehrere Pixelwerte zweidimensional angeordnet sind, eingegeben. In jeder Schicht wird Faltungsverarbeitung an den Eingabedaten durchgeführt, und somit wird eine Bildmerkmalskarte CMP extrahiert. Das Lerneingabebild 20S wird als Eingabedaten in die erste Schicht des Kodiernetzwerks 10A eingegeben. In der ersten Schicht wird Faltungsverarbeitung an dem Lerneingabebild 20S durchgeführt, und somit wird beispielsweise eine Bildmerkmalskarte CMP mit derselben Bildgröße wie das Lerneingabebild 20 ausgegeben. In der zweiten Schicht und den unteren Schichten wird die von jeder höheren Schicht ausgegebene Bildmerkmalskarte CMP eingegeben. In der zweiten Schicht und den unteren Schichten wird Faltungsverarbeitung an der Bildmerkmalskarte CMP durchgeführt, und somit wird beispielsweise eine Bildmerkmalskarte CMP mit derselben Bildgröße wie die eingegebene Bildmerkmalskarte CMP ausgegeben. Die Faltungsverarbeitung ist in 6 als „conv (Faltung)“ dargestellt.
Wie in 7 dargestellt, wird Faltungsverarbeitung an Eingabedaten DI, wie dem Lerneingabebild 20S oder der Bildmerkmalskarte CMP, in denen die Pixelwerte zweidimensional angeordnet sind, durchgeführt. Bei der Faltungsverarbeitung wird ein Filter F auf die Eingabedaten DI angewendet und wird Faltungsberechnung von Faltungspixelwerten benachbarter Pixel in den Eingabedaten DI durchgeführt. Dadurch werden ähnlich wie bei den Eingabedaten DI Ausgabedaten DIc, in denen die Pixelwerte zweidimensional angeordnet sind, erhalten. Es wird angenommen, dass ein Pixelwert Ip (x, y) eines interessanten Pixels Ip in den Eingabedaten DI „e“ ist, Pixelwerte benachbarter Pixel des interessanten Pixels „a“ bis „i“ sind und Koeffizienten eines 3×3-Filters F „r“ bis „z“ sind, und als ein Ergebnis von Faltungsberechnung an dem interessanten Pixel Ip wird ein Pixelwert Icp (x, y) eines Pixels Icp der Ausgabedaten DIc gemäß beispielweise der folgenden Gleichung berechnet. $Icp (x,y) = az + by + cx + dw + ev + fu + gt + hs + ir$
Bei der Faltungsverarbeitung wird Faltungsberechnung an jedem Pixel durchgeführt, und somit wird der Pixelwert Icp (x, y), der jedem interessanten Pixel Ip entspricht, ausgegeben. Auf diese Weise werden die Ausgabedaten DIc, in denen die Pixelwerte Icp (x, y) zweidimensional angeordnet sind, ausgegeben. Ein Stück der Ausgabedaten DIc wird entsprechend einem Filter F ausgegeben. In einem Fall, in dem mehrere Filter F mit unterschiedlichen Typen verwendet werden, werden die Ausgangsdaten DIc für jedes Filter F ausgegeben.
Wie in 8 dargestellt, sind die Ausgabedaten DIc Daten, in denen die Pixelwerte Icp (x, y) zweidimensional angeordnet sind, und weisen eine Breite und eine Höhe auf. Ferner ist in einem Fall, in dem mehrere Stücke von Ausgabedaten DIc durch Anwenden mehrerer Filter F mit unterschiedlichen Typen ausgegeben werden, die Bildmerkmalskarte CMP ein Satz der mehreren Stücke von Ausgabedaten DIc. In der Bildmerkmalskarte CMP wird die Anzahl an Filtern F als die Anzahl an Kanälen bezeichnet. Die in 8 dargestellte Bildmerkmalskarte CMP ist ein Beispiel einer Bildmerkmalskarte CMP, die Stücke von Ausgabedaten DIc für vier Kanäle enthält.
9 ist ein Diagramm, das ein Konzept erklärt, bei dem die Faltungsverarbeitung unter Verwendung des Filters F auf das faltende neuronale Netzwerk CNN angewendet wird. Wie in 9 dargestellt, wird angenommen, dass das faltende neuronale Netzwerk CNN eine Eingabeschicht und eine Zwischenschicht enthält, die mehrere Einheiten U enthalten. In diesem Fall entsprechen Gewichte w1, w2 und w3, die Stärken von Verbindungen zwischen jeder Einheit U der Eingabeschicht und jeder Einheit U der Zwischenschicht angeben, Koeffizienten des Filters F. Jeder Pixelwert Ip (x1, y1), Ip (x1, y2), Ip (x1, y3), ... der Eingabedaten DI wird in jede Einheit U der Eingabeschicht eingegeben, und eine Summe von Produkten jedes Pixelwerts Ip (x1, y1), Ip (x1, y2), Ip (x1, y3) ... und der Gewichte w1, w2 und w3 ist ein Ausgabewert jeder Einheit U in der Zwischenschicht. Der Ausgabewert entspricht dem Pixelwert Icp (x, y) der Ausgabedaten DIc. In einem Fall, in dem das hierarchische Modell 10 gelernt wird, werden die Koeffizienten des Filters F, die den Gewichten w1, w2, w3, ... entsprechen, aktualisiert.
Unter erneuter Bezugnahme auf 6 geben die auf jeder Bildmerkmalskarte CMP dargestellten Zahlen „64“, „128“, „256“, „512“ und „1024“ die Anzahl an Kanälen jeder Bildmerkmalskarte CMP an. Die in Klammern gesetzten „1/1“, „1/2“, „1/4“, „1/8“ und „1/16“, die der ersten Schicht bis zu der fünften Schicht hinzugefügt werden, geben die in jeder Schicht behandelte Bildgröße im Vergleich zu der Bildgröße des Eingabebildes höchster Ebene (Lerneingabebild 20S) als eine Referenz an.
In diesem Beispiel wird in der ersten Schicht des Kodiernetzwerks 10A zweifache Faltungsverarbeitung (conv) durchgeführt. Zunächst wird Faltungsverarbeitung des Anwendens von 64 Filtern F an dem Lerneingabebild 20S durchgeführt, und somit wird eine 64-Kanal-Bildmerkmalskarte CMP ausgegeben. Als nächstes wird Faltungsverarbeitung des Anwendens von 64 Filtern F weiter an der Bildmerkmalskarte CMP durchgeführt, und somit wird schließlich in der ersten Schicht eine 64-Kanal-Bildmerkmalskarte CMP ausgegeben.
In dem Kodiernetzwerk 10A ist die Bildgröße, die der Breite und der Höhe der von der ersten Schicht ausgegebenen Bildmerkmalskarte CMP entspricht, dieselbe wie die Bildgröße des Lerneingabebildes 20S. Aus diesem Grund ist die von der ersten Schicht behandelte Bildgröße dieselbe wie die Bildgröße des Eingabebildes (gleiche Vergrößerung (1/1)).
In der ersten Schicht des Kodiernetzwerks 10A wird Pooling-Verarbeitung an der Bildmerkmalskarte CMP durchgeführt, die durch die zweifache Faltungsverarbeitung extrahiert wurde. Die Pooling-Verarbeitung (in 6 durch „pool“ angezeigt) ist Verarbeitung des Berechnens lokaler Statistiken der Bildmerkmalskarte CMP und des Komprimierens der Bildmerkmalskarte CMP. Als die lokalen Statistiken wird beispielsweise ein Maximalwert oder ein Durchschnittswert von Pixelwerten in einem 2×2-Pixelblock verwendet. Die Pooling-Verarbeitung zum Berechnen des Maximalwerts wird als Maximalwert-Pooling bezeichnet, und die Pooling-Verarbeitung zum Berechnen des Durchschnittswerts wird als Durchschnittswert-Pooling bezeichnet. Das heißt, es kann gesagt werden, dass die Pooling-Verarbeitung Verarbeitung des Reduzierens der Bildgröße durch Verringern der Auflösung der Bildmerkmalskarte CMP durch Auswählen eines lokalen repräsentativen Werts ist. Zum Beispiel wird bei der Pooling-Verarbeitung des Auswählens eines repräsentativen Werts aus einem 2×2-Pixelblock in einem Fall, in dem ein Schritt auf „1“ eingestellt ist, das heißt in einem Fall, in dem die Pooling-Verarbeitung durch Verschieben der Bildmerkmalskarte CMP um einen Pixel durchgeführt wird, die Bildmerkmalskarte CMP auf die Hälfte der ursprünglichen Bildgröße reduziert. In diesem Beispiel wird in der ersten Schicht Pooling-Verarbeitung des Halbieren der Bildgröße der Bildmerkmalskarte durchgeführt.
In dem Kodiernetzwerk 10A wird die Bildmerkmalskarte, die in der vorherigen ersten Schicht ausgegeben wird und von der die Bildgröße auf 1/2 der Bildgröße des Lerneingabebildes 20S als eine Referenz reduziert ist, als Eingabedaten in die nächste zweite Schicht eingegeben.
In der zweiten Schicht wird zweifache Faltungsverarbeitung des Anwendens von 128 Filtern F durchgeführt, und eine 128-Kanal-Bildmerkmalskarte CMP wird ausgegeben. Als nächstes wird Pooling-Verarbeitung des Halbierens der Bildgröße an der 128-Kanal-Bildmerkmalskarte CMP durchgeführt. Dadurch wird in der zweiten Schicht eine Bildmerkmalskarte CMP, von der die Bildgröße auf 1/4 der Bildgröße des Lerneingabebildes 20S reduziert ist, ausgegeben.
In ähnlicher Weise wird in dem Kodiernetzwerk 10A eine Bildmerkmalskarte CMP, die in der vorherigen zweiten Schicht ausgegeben wird und 128 Kanäle und eine Bildgröße von 1/4 aufweist, als Eingabedaten in die nächste dritte Schicht eingegeben. In der dritten Schicht wird nach Durchführen zweifacher Faltungsverarbeitung des Anwendens von 256 Filtern Pooling-Verarbeitung des weiteren Halbierens der Bildgröße der durch die Faltungsverarbeitung extrahierten Bildmerkmalskarte CMP durchgeführt. Dadurch wird in der dritten Schicht eine Bildmerkmalskarte CMP, die 256 Kanäle aufweist und von der die Bildgröße 1/8 der Bildgröße des Lerneingabebildes 20S als eine Referenz ist, ausgegeben.
In ähnlicher Weise wird in dem Kodiernetzwerk 10A eine Bildmerkmalskarte CMP, die in der vorherigen dritten Schicht ausgegeben wird und 256 Kanäle und eine Bildgröße von 1/8 aufweist, als Eingabedaten in die nächste vierte Schicht eingegeben. In der vierten Schicht wird nach Durchführen zweifacher Faltungsverarbeitung des Anwendens von 512 Filtern Pooling-Verarbeitung des weiteren Halbierens der Bildgröße der durch die Faltungsverarbeitung extrahierten Bildmerkmalskarte CMP durchgeführt. Dadurch wird in der vierten Schicht eine Bildmerkmalskarte CMP, die 512 Kanäle aufweist und von der die Bildgröße 1/16 der Bildgröße des Lerneingabebildes 20S als eine Referenz ist, ausgegeben.
In dem Kodiernetzwerk 10A wird eine Bildmerkmalskarte CMP, die in der vorherigen vierten Schicht ausgegeben wird und 512 Kanäle und eine Bildgröße von 1/16 aufweist, als Eingabedaten in die niedrigste fünfte Schicht eingegeben. In der fünften Schicht wird zweifache Faltungsverarbeitung des Anwendens von 1024 Filtern durchgeführt. In der niedrigsten fünften Schicht wird Pooling-Verarbeitung nicht an der Bildmerkmalskarte CMP durchgeführt, die durch die Faltungsverarbeitung extrahiert wurde.
Wie oben beschrieben, wird in dem Kodiernetzwerk 10A von der höchsten ersten Schicht zu der niedrigsten fünften Schicht die Bildgröße der Eingabedaten (das Eingabebild oder die Bildmerkmalskarte CMP), die in jede Schicht eingegeben werden, allmählich reduziert, und somit wird die Auflösung verringert. In diesem Beispiel wird angenommen, dass die Bildgröße des Eingabebildes (Lerneingabebildes 20S), das in die erste Schicht eingegeben wird, als eine Referenzbildgröße eingestellt wird, die Eingabedaten, von denen die Bildgröße 1/1 (gleiche Vergrößerung) der Referenzbildgröße beträgt, in die erste Schicht eingegeben werden, die Eingabedaten, von denen die Bildgröße 1/2 der Referenzbildgröße beträgt, in die zweite Schicht eingegeben werden und die Eingabedaten, von denen die Bildgröße 1/4 der Referenzbildgröße beträgt, in die dritte Schicht eingegeben werden. Ferner werden die Eingabedaten, von denen die Bildgröße 1/8 der Referenzbildgröße beträgt, in die vierte Schicht eingegeben und werden die Eingabedaten, von denen die Bildgröße 1/16 der Referenzbildgröße beträgt, in die fünfte Schicht eingegeben.
In jeder Schicht des Kodiernetzwerks 10A wird das Filter F auf die Eingabedaten mit unterschiedlichen Auflösungen für jede Schicht angewendet, und Faltungsverarbeitung wird an Pixelwerten benachbarter Bilder durchgeführt. Aus diesem Grund wird in der ersten Schicht Faltungsverarbeitung an den Eingabedaten mit der höchsten Auflösung durchgeführt. Somit stellt die durch die erste Schicht extrahierte Bildmerkmalskarte CMP Merkmale der feinsten Struktur mit einem Frequenzband einer höchsten Ortsfrequenz in dem Eingabebild dar. In der zweiten Schicht und der dritten Schicht wird Faltungsverarbeitung an den Eingabedaten mit einer Auflösung, die niedriger als die Auflösung des Eingabebildes ist, durchgeführt. Somit stellen die durch die zweite Schicht und die dritte Schicht extrahierten Bildmerkmalskarten CMP Merkmale einer mittleren Strukture mit einem Frequenzband einer räumlichen Frequenz, die niedriger als die Ortsfrequenz der ersten Schicht ist, dar. In ähnlicher Weise wird in der vierten Schicht und der fünften Schicht die Auflösung der Eingabedaten weiter verringert. Somit stellen de durch die vierte Schicht und die fünfte Schicht extrahierten Bildmerkmalskarten CMP Merkmale einer großflächigen Struktur mit einem Frequenzband einer niedrigeren Ortsfrequenz dar.
Wie oben beschrieben, werden in dem Kodiernetzwerk 10A für jede Schicht der höchsten ersten Schicht bis zu der niedrigsten fünften Schicht Merkmale eines Bildes, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder aufweisen, ausgegeben. Wie später beschrieben wird, können 1/1 bis 1/16, die die Bildgrößen der ersten Schicht bis zu der fünften Schicht angeben, jeweils als ein Index verwendet werden, der ein Frequenzband angibt, das jede Schicht in der Lage ist, zu analysieren. Das heißt, 1/1 ist ein Index, der ein Frequenzband einer höchsten Ortsfrequenz angibt, und 1/16 ist ein Index, der ein Frequenzband der niedrigsten Ortsfrequenz angibt.
In dem Kodiernetzwerk 10A wird die Anzahl an Filtern F erhöht, wenn die Schicht niedriger ist. Dies ist ein Weg zum Extrahieren verschiedener in dem Eingabebild enthaltener Merkmale, indem die Anzahl an Filtern F erhöht wird, wenn die Bildgröße kleiner wird.
In der ersten Schicht bis zu der vierten Schicht des Kodiernetzwerks 10A wird die von jeder Schicht extrahierte Bildmerkmalskarte CMP an das Dekodiernetzwerk 10B übertragen. Diese Verarbeitung wird als Schichtüberspringungsverarbeitung bezeichnet und wird in 6 durch „skip“ angezeigt. In jeder Schicht des Dekodiernetzwerks 10B ist die durch Schraffur angezeigte Bildmerkmalskarte CMP die von dem Kodiernetzwerk 10A übertragene Bildmerkmalskarte CMP.
Das Dekodiernetzwerk 10B führt Upsampling-Verarbeitung des allmählichen Vergrößerns einer Bildgröße einer Bildmerkmalskarte CMP mit minimaler Größe, die in dem Kodiernetzwerk 10A ausgegeben wird, durch. Zusätzlich wiederholt das Dekodiernetzwerk 10B Zusammenführungsverarbeitung des Kombinierens der Bildmerkmalskarte CMP, die allmählich vergrößert wird, und der Bildmerkmalskarte CMP, die für jede Schicht in dem Kodiernetzwerk 10A ausgegeben wird und dieselbe Bildgröße aufweist. Dadurch wird ein Ausgabebild (Lernausgabebild 14S), in dem jeder Klassenbereich des Eingabebildes (Lerneingabebild 20S) segmentiert ist, erzeugt.
Das Dekodiernetzwerk 10B enthält eine erste Schicht bis zu einer fünften Schicht, die jeder Schicht des Kodiernetzwerks 10A entsprechen. Bei der Upsampling-Verarbeitung (in 6 durch „upsmp“ angezeigt), die in jeder Schicht des Dekodiernetzwerks 10B durchgeführt wird, wird die Bildmerkmalskarte so vergrößert, dass sie dieselbe Größe wie die Bildgröße jeder Schicht, die dem Kodiernetzwerk 10A entspricht, aufweist.
Ferner ist in diesem Beispiel die Upsampling-Verarbeitung zum Beispiel Aufwärtsfaltungsverarbeitung des Vergrößerns der Bildgröße und beinhaltet Faltungsverarbeitung des Anwendens eines Filters F. In jeder Schicht des Dekodiernetzwerks 10B wird Upsampling-Verarbeitung, die Faltungsverarbeitung beinhaltet, abgeschlossen, und dann werden Zusammenführungsverarbeitung und Faltungsverarbeitung durchgeführt.
Die fünfte Schicht des Dekodiernetzwerks 10B empfängt zunächst die Bildmerkmalskarte CMP mit einer minimalen Größe (1/16), die von der niedrigsten fünften Schicht des Kodiernetzwerks 10A ausgegeben wird. Die Anzahl an Kanälen der Bildmerkmalskarte CMP beträgt 1024. Die fünfte Schicht des Dekodiernetzwerks 10B vergrößert die Bildmerkmalskarte CMP mit einer Bildgröße von 1/16 durch Verdoppeln der Bildgröße auf eine Bildgröße von 1/8 und führt Faltungsverarbeitung des Anwendens von 512 Filtern F durch. Dadurch wird die Anzahl an Kanälen auf 512 halbiert. In dem Dekodiernetzwerk 10B wird eine 512-Kanal-Bildmerkmalskarte CMP mit einer Bildgröße von 1/8 von der fünften Schicht an die vierte Schicht ausgegeben.
In der vierten Schicht des Dekodiernetzwerks 10B wird Zusammenführungsverarbeitung des Kombinierens der von der fünften Schicht empfangenen Bildmerkmalskarte CMP und der von der vierten Schicht des Kodiernetzwerks 10A übertragenen Bildmerkmalskarte CMP durchgeführt. Die in der vierten Schicht kombinierten Bildmerkmalskarten CMP weisen eine Bildgröße von 1/8 und 512 Kanäle auf. Daher wird in der vierten Schicht eine Bildmerkmalskarte CMP mit einer Bildgröße von 1/8 und 1024 Kanälen (512+512) durch die Zusammenführungsverarbeitung erzeugt.
Ferner wird in der vierten Schicht zweifache Faltungsverarbeitung des Anwendens von 512 Filtern F an der 1024-Kanal-Bildmerkmalskarte CMP durchgeführt, und somit wird eine Bildmerkmalskarte CMP mit einer Bildgröße von 1/8 und 512 Kanälen erzeugt. In der vierten Schicht wird Upsampling-Verarbeitung des Halbierens sowohl der Bildgröße als auch der Anzahl an Kanälen an der Bildmerkmalskarte CMP mit einer Bildgröße von 1/8 durchgeführt. Dadurch wird schließlich eine Bildmerkmalskarte CMP mit einer Bildgröße von 1/4 und 256 Kanälen von der vierten Schicht an die dritte Schicht ausgegeben.
In der dritten Schicht des Dekodiernetzwerks 10B wird Zusammenführungsverarbeitung des Kombinierens der von der vierten Schicht empfangenen Bildmerkmalskarte CMP und der von der dritten Schicht des Kodiernetzwerks 10A übertragenen Bildmerkmalskarte CMP durchgeführt. Die in der dritten Schicht kombinierten Bildmerkmalskarten CMP weisen eine Bildgröße von 1/4 und 256 Kanäle auf. Daher wird in der dritten Schicht eine Bildmerkmalskarte CMP mit einer Bildgröße von 1/4 und 512 Kanälen (256+256) durch die Zusammenführungsverarbeitung erzeugt.
Ferner wird in der dritten Schicht zweifache Faltungsverarbeitung des Anwendens von 256 Filtern F an der 512-Kanal-Bildmerkmalskarte CMP durchgeführt, und somit wird eine Bildmerkmalskarte CMP mit einer Bildgröße von 1/4 und 256 Kanälen erzeugt. In der dritten Schicht wird Upsampling-Verarbeitung des Halbierens sowohl der Bildgröße als auch der Anzahl an Kanälen an der Bildmerkmalskarte CMP mit einer Bildgröße von 1/4 durchgeführt. Dadurch wird schließlich eine Bildmerkmalskarte CMP mit einer Bildgröße von 1/2 und 128 Kanälen von der dritten Schicht an die zweite Schicht ausgegeben.
In der zweiten Schicht des Dekodiernetzwerks 10B wird Zusammenführungsverarbeitung des Kombinierens der von der dritten Schicht empfangenen Bildmerkmalskarte CMP und der von der zweiten Schicht des Kodiernetzwerks 10A übertragenen Bildmerkmalskarte CMP durchgeführt. Die in der zweiten Schicht kombinierten Bildmerkmalskarten CMP weisen eine Bildgröße von 1/2 und 128 Kanäle auf. Daher wird in der zweiten Schicht eine Bildmerkmalskarte CMP mit einer Bildgröße von 1/2 und 256 Kanälen (128+128) durch die Zusammenführungsverarbeitung erzeugt.
Ferner wird in der zweiten Schicht zweifache Faltungsverarbeitung des Anwendens von 128 Filtern F an der 256-Kanal-Bildmerkmalskarte CMP durchgeführt, und somit wird eine Bildmerkmalskarte CMP mit einer Bildgröße von 1/2 und 128 Kanälen erzeugt. In der zweiten Schicht wird Upsampling-Verarbeitung des Halbierens sowohl der Bildgröße als auch der Anzahl an Kanälen an der Bildmerkmalskarte CMP mit einer Bildgröße von 1/2 durchgeführt. Dadurch wird schließlich eine Bildmerkmalskarte CMP mit einer Bildgröße von 1/1 und 64 Kanälen von der zweiten Schicht an die erste Schicht ausgegeben.
In der ersten Schicht des Dekodiernetzwerks 10B wird Zusammenführungsverarbeitung des Kombinierens der von der zweiten Schicht empfangenen Bildmerkmalskarte CMP und der von der ersten Schicht des Kodiernetzwerks 10A übertragenen Bildmerkmalskarte CMP durchgeführt. Die in der ersten Schicht kombinierten Bildmerkmalskarten CMP weisen eine Bildgröße von 1/1 und 64 Kanäle auf. Daher wird in der ersten Schicht eine Bildmerkmalskarte CMP mit einer Bildgröße von 1/1 und 128 Kanälen (64+64) durch die Zusammenführungsverarbeitung erzeugt.
Ferner wird in der ersten Schicht für die 128-Kanal-Bildmerkmalskarte CMP Faltungsverarbeitung des Anwendens von 64 Filtern F einmal durchgeführt, und dann wird Faltungsverarbeitung des Anwendens eines Filters F durchgeführt. Dadurch wird das Lernausgabebild 14S mit derselben Bildgröße wie das Lerneingabebild 20S erzeugt.
Wie oben beschrieben, vergrößert das Dekodiernetzwerk 10B allmählich die Bildgröße der Bildmerkmalskarte CMP mit minimaler Größe, die in dem Kodiernetzwerk 10A ausgegeben wird. Somit erzeugt das Dekodiernetzwerk 10B das Lernausgabebild 14S durch Kombinieren der Bildmerkmalskarten, die für jede Schicht durch das Kodiernetzwerk 10A extrahiert wurden, während es die Bildmerkmalskarten CMP vergrößert. Die Bildmerkmalskarte CMP mit minimaler Größe, die von dem Kodiernetzwerk 10A ausgegeben wird, stellt Merkmale einer großflächigen Struktur mit der niedrigsten Ortsfrequenz in dem Lerneingabebild 20S dar. Das Dekodiernetzwerk 10B nimmt die Merkmale von der mittleren Struktur bis zu der feinen Struktur durch Kombinieren der Bildmerkmalskarten CMP aus dem Kodiernetzwerk 10A auf, während es die Merkmale der großflächigen Struktur durch Vergrößern der Bildmerkmalskarte CMP mit minimaler Größe vergrößert.
Durch Verwenden des Kodiernetzwerks 10A und des Dekodiernetzwerks 10B erzeugt das hierarchische Modell 10 das Lernausgabebild 14S, in dem die in dem Lerneingabebild 20S enthaltenen Klassen in Bereiche zum Lernen unterteilt sind.
In 10 enthält ein Computer, der die Lernvorrichtung 2 enthält, eine Speichervorrichtung 30, einen Speicher 31, eine Zentraleinheit (central processing unit, CPU) 32, eine Kommunikationseinheit 33, eine Anzeige 34 und eine Eingabevorrichtung 35. Die Komponenten sind via einen Datenbus 36 miteinander verbunden.
Die Speichervorrichtung 30 ist ein Festplattenlaufwerk, das in den Computer einschließlich der Lernvorrichtung 2 eingebaut ist oder via ein Kabel oder ein Netzwerk verbunden ist. Alternativ ist die Speichervorrichtung 30 ein Disk-Array, bei dem mehrere Festplattenlaufwerke in Reihe geschaltet sind. Die Speichervorrichtung 30 speichert ein Steuerprogramm, wie ein Betriebssystem, verschiedene Anwendungsprogramme (AP) 30A und verschiedene Daten, die den Programmen zugeordnet sind.
Der Speicher 31 ist ein Arbeitsspeicher, der erforderlich ist, um Verarbeitung durch die CPU 32 auszuführen. Die CPU 32 lädt das in der Speichervorrichtung 30 gespeicherte Programm in den Speicher 31 und steuert kollektiv jede Einheit des Computers durch Ausführen von Verarbeitung gemäß dem Programm.
Die Kommunikationseinheit 33 ist eine Netzwerkschnittstelle, die Übertragung verschiedener Informationen via ein Netzwerk, wie ein lokales Netzwerk (local area network, LAN), das Internet oder ein Weitverkehrsnetz (wide area network, WAN), wie ein öffentliches Kommunikationsnetz, steuert. Die Anzeige 34 zeigt verschiedene Bildschirme an. Die verschiedenen Bildschirme enthalten Bedienfunktionen über eine grafische Benutzeroberfläche (graphical user interface, GUI). Der Computer einschließlich der Lernvorrichtung 2 empfängt eine Eingabe einer Betriebsanweisung von der Eingabevorrichtung 35 via die verschiedenen Bildschirme. Die Eingabevorrichtung 35 enthält eine Tastatur, eine Maus, ein Touch-Panel und dergleichen.
Das AP 30A enthält ein Betriebsprogramm zum bewirken, dass der Computer als die Lernvorrichtung 2 fungiert. Die Speichervorrichtung 30 speichert ein hierarchisches Modell 10, ein Original-Lerneingabebild 20, ein Original-Beschriftungsbild 21, eine Lerneingabebildgruppe 12 einschließlich eines Lerneingabebildes 20S und eine Beschriftungsbildgruppe 13 einschließlich eines Beschriftungsbildes 21S als verschiedene Daten, die dem Betriebsprogramm zugeordnet sind.
Wie in 11 dargestellt, fungiert in einem Fall, in dem das Betriebsprogramm gestartet wird, die CPU 32 des Computers einschließlich der Lernvorrichtung 2 als eine Mini-Batch-Datenerzeugungseinheit 51, eine Lerndaten-Analyseeinheit 52, eine Lernverfahrens-Bestimmungseinheit 53, eine Lerneinheit 54, eine Bewertungseinheit 56 und eine Aktualisierungseinheit 57 in Zusammenarbeit mit dem Speicher 31.
Die Mini-Batch-Datenerzeugungseinheit 51 erzeugt mehrere Lerneingabebilder 20S und mehrere Beschriftungsbilder 21S durch Aufteilen des Original-Lerneingabebildes 20 und des Original-Beschriftungsbildes 21. Die Mini-Batch-Datenerzeugungseinheit 51 erzeugt Mini-Batch-Daten 11 einschließlich der Lerneingabebildgruppe 12 und der Beschriftungsbildgruppe 13 durch Auswählen einer voreingestellten Anzahl an Lerneingabebildern 20S und einer voreingestellten Anzahl an Beschriftungsbildern 21S aus den mehreren Lerneingabebildern 20S und den mehreren Beschriftungsbildern 21S. Die Mini-Batch-Datenerzeugungseinheit 52 erzeugt mehrere Sätze (zum Beispiel 100 Sätze) von Mini-Batch-Daten 11.
Die Lerndaten-Analyseeinheit 52 analysiert eine Frequenz der Lerndaten. Insbesondere extrahiert die Lerndaten-Analyseeinheit 52 die Beschriftungsbildgruppe 13 aus den erzeugten Mini-Batch-Daten 11, analysiert Frequenzbänder von Ortsfrequenzen, die in jedem Beschriftungsbild 20S enthalten sind, und gibt ein Analyseergebnis 61 der Beschriftungsbildgruppe 13 aus.
Die Lernverfahrens-Bestimmungseinheit 53 bestimmt ein Lernverfahren unter Verwendung der Lerndaten, die ein Paar aus der Lerneingabebildgruppe 12 und der Beschriftungsbildgruppe 13 enthalten, basierend auf dem Analyseergebnis 61 der Frequenzbänder. Wie später beschrieben wird, wird das Lernverfahren so bestimmt, dass die Frequenzbänder der Ortsfrequenzen der zu bestimmenden Klassen in den Lerndaten mit den Frequenzbändern, die das hierarchische Modell in der Lage ist, zu analysieren, übereinstimmen.
Insbesondere besteht Bestimmung des Lernverfahrens darin, zu bestimmen, ob Neukonfiguration des hierarchischen Modells 10 durchgeführt und Lernen durchgeführt werden soll, ob Korrektur der Lerneingabebildgruppe 13, die in den Mini-Batch-Daten 11 enthalten ist, die ein Beispiel der Lerndaten sind, durchgeführt und Lernen durchgeführt werden soll oder ob Neukonfiguration des hierarchischen Modells 10 und Korrektur der Lerneingabebildgruppe 13 durchgeführt und Lernen durchgeführt werden soll. Die Lernverfahrens-Bestimmungseinheit 53 führt Neukonfiguration des hierarchischen Modells 10 und/oder Korrektur der Lerneingabebildgruppe 13 gemäß dem bestimmten Lernverfahren durch.
In einem Fall, in dem das hierarchische Modell 10 durch die Lernverfahrens-Bestimmungseinheit 53 neu konfiguriert wird, wird das neu konfigurierte hierarchische Modell 10 in die Lerneinheit 54 eingegeben. In einem Fall, in dem die Lerneingabebildgruppe 13 durch die Lernverfahrens-Bestimmungseinheit 53 korrigiert wird, wird die korrigierte Lerneingabebildgruppe 13 in die Lerneinheit 54 eingegeben.
Die Lerneinheit 54 lernt das hierarchische Modell 10 durch das bestimmte Lernverfahren unter Verwendung der Mini-Batch-Daten 11. Beim Lernen wird jedes Lerneingabebild 20S, das in der Lerneingabebildgruppe 12 enthalten ist, einzeln als ein Eingabebild in das hierarchische Modell 10 eingegeben. Die Lerneinheit 54 liest das hierarchische Modell 10 in geeigneter Weise von der Speichervorrichtung 30 in den Speicher 31 und führt Verarbeitung, die in dem in 6 dargestellten hierarchischen Modell 10 definiert ist, basierend auf dem eingegebenen Lerneingabebild 20S aus. Wie oben beschrieben, enthält die Verarbeitung Faltungsverarbeitung, Pooling-Verarbeitung, Schichtüberspringungsverarbeitung, Upsampling-Verarbeitung, Zusammenführungsverarbeitung und dergleichen. Durch Ausführen der Verarbeitung wird das Lernausgabebild 14S aus dem hierarchischen Modell 10 ausgegeben.
In einem Fall, in dem Lernen an einer Lerneingabebildgruppe 13 durchgeführt wird, wird eine Lernausgabebildgruppe 14 erhalten. Die Lernausgabebildgruppe 14 wird an die Bewertungseinheit 56 ausgegeben. Ferner erfasst die Bewertungseinheit 56 die Beschriftungsbildgruppe 13, die der eingegebenen Lerneingabebildgruppe 12 entspricht, aus den Mini-Batch-Daten 11.
Die Bewertungseinheit 56 bewertet die Klassenbestimmungsgenauigkeit des hierarchischen Modells 10 durch Vergleichen der Beschriftungsbildgruppe 13 aus den Mini-Batch-Daten 11 mit der Lernausgabebildgruppe 14 aus der Lerneinheit 54. Die Bewertungseinheit 56 gibt ein Bewertungsergebnis an die Aktualisierungseinheit 57 aus.
Die Bewertungseinheit 56 bewertet die Klassenbestimmungsgenauigkeit des hierarchischen Modells 10 durch Verwenden einer Verlustfunktion. Die Verlustfunktion ist eine Funktion, die einen Grad einer Differenz zwischen der Beschriftungsbildgruppe 13 und der Lernausgabebildgruppe 14 darstellt. Je näher ein durch die Verlustfunktion berechneter Wert an 0 liegt, desto höher wird die Klassenbestimmungsgenauigkeit des hierarchischen Modells 10. Insbesondere bestimmt die Bewertungseinheit 56 durch Vergleichen jeder in der Beschriftungsbildgruppe 13 enthaltenen Beschriftungsbildgruppe 13 mit jedem in der Lernausgabebildgruppe 14 enthaltenen Lernausgabebild 14S die Differenz zwischen dem Beschriftungsbild 21S und dem Lernausgabebild 14S. Die Bewertungseinheit 56 summiert die Differenzen zwischen den Beschriftungsbildern 21S und den Lernausgabebildern 14S in Einheiten der Beschriftungsbildgruppe 13 und der Lernausgabebildgruppe 14 und bewertet die Gesamtdifferenz als einen Verlust, der unter Verwendung der Verlustfunktion berechnet wird.
Die Aktualisierungseinheit 57 aktualisiert das hierarchische Modell 10 gemäß einem Bewertungsergebnis von der Bewertungseinheit 54. Insbesondere ändert die Aktualisierungseinheit 57 verschiedene Parameterwerte, wie die Koeffizienten des Filters F des hierarchischen Modells 10, durch ein stochastisches Gradientenabstiegsverfahren oder dergleichen unter Verwendung eines Lernkoeffizienten.
12A bis 12C und 13 stellen spezifische Beispiele von Verarbeitung durch die Lerndaten-Analyseeinheit 52 dar. 12A bis 12C stellen ein Beispiel einer Variation bei Färben des Beschriftungsbildes 21S dar. Während eine Person die in dem Original-Lerneingabebild 20 erschienene Klasse bestimmt, fügt die Person basierend auf dem ungeteilten Original-Lerneingabebild 20 manuell eine Beschriftung zu dem bestimmten Klassenbereich hinzu. Dadurch wird das ungeteilte Original-Beschriftungsbild 21 erzeugt. Die Beschriftung wird beispielsweise durch Färben des Klassenbereichs hinzugefügt. Die Farbe wird für jeden Klassentyp geändert. Das Färben wird unter Verwendung eines Grafiktabletts oder dergleichen durchgeführt.
12A stellt ein Lerneingabebild 20S dar, das ein Teil des Lerneingabebildes 20 ist. 12B und 12C stellen ein Beschriftungsbild 21S dar, das ein Teil des Beschriftungsbildes 21 ist, das basierend auf dem Lerneingabebild 20 erzeugt wurde. Der in 12A dargestellte Bereich des Lerneingabebildes 20S entspricht dem Bereich des Beschriftungsbildes 21S.
Die Beschriftung, die durch Schraffur in dem in 12B dargestellten Beschriftungsbild 21S angezeigt wird, ist in Einheiten von ungefähr einem Pixel fein gefärbt und wird einer Konturlinie der Klasse getreu hinzugefügt. Andererseits ist die Beschriftung, die durch Schraffur in dem in 12C dargestellten Beschriftungsbild 21S angezeigt wird, in Einheiten von zwei Pixeln bis vier Pixeln großflächig gefärbt und weicht größtenteils von einer Konturlinie der Klasse ab.
Da das Färben der Klasse in dem Beschriftungsbild 21 auf diese Weise manuell durchgeführt wird, gibt es eine Variation bei dem Färben. Die Variation beim Färben der Beschriftung ist eine der Ursachen für eine Nichtübereinstimmung zwischen den Frequenzbändern, die das hierarchische Modell 10 in der Lage ist, zu analysieren, und den Frequenzbändern der zu bestimmenden Klassen in den Lerndaten.
Das heißt, in einem Fall, in dem Färben der Beschriftung fein ist, weist das Merkmal, das die Klasse in dem Beschriftungsbild 21S anzeigt, ein Hochfrequenzband auf, und in einem Fall, in dem Färben der Beschriftung großflächig ist, weist das Merkmal, das die Klasse in dem Beschriftungsbild 21S anzeigt, ein Niederfrequenzband auf. Das Beschriftungsbild 21S ist ein mit dem Lernausgabebild 14S zu vergleichendes korrektes Antwortbild. Daher wird, wie in dem in 12C dargestellten Beschriftungsbild 21S, in einem Fall, in dem das Frequenzband der zu bestimmenden Klasse niedrig ist, selbst in einem Fall, in dem die Merkmale der feinen Struktur durch das hierarchische Modell 10 extrahiert werden, davon ausgegangen, dass die Merkmale nicht zu der Klassenbestimmungsgenauigkeit beitragen.
Daher analysiert die Lerndaten-Analyseeinheit 52, wie in 13 dargestellt, zunächst die Frequenzbänder, die in der Beschriftungsbildgruppe 13 enthalten sind. Die Analyse wird beispielsweise unter Verwendung eines bekannten Verfahrens des Analysierens von Frequenzbändern basierend auf einer Bildpyramide durchgeführt. Die Lerndaten-Analyseeinheit 52 erzeugt eine Bildpyramide basierend auf jedem Beschriftungsbild 21S, das in der Beschriftungsbildgruppe 13 enthalten ist, und analysiert die Frequenzbänder basierend auf der Bildpyramide. Die Lerndaten-Analyseeinheit 52 analysiert jedes Beschriftungsbild 21S, integriert jedes Analyseergebnis und gibt ein Analyseergebnis 61 der Beschriftungsbildgruppe 13 aus.
Wie in 14 dargestellt, enthält die Bildpyramide mehrere Bilder, die durch allmähliches Verringern der Auflösung des Beschriftungsbildes 21S erhalten werden und unterschiedliche Auflösungen aufweisen. In 14 ist jedes von Bildern 21SG, zu denen 1/2, 1/4, 1/8 und 1/16 hinzugefügt werden, ein unscharfes Bild, das durch allmähliches Verringern der Auflösung des Beschriftungsbildes 21S durch Verwenden beispielsweise eines Gauß-Filters zum Glätten eines Bildes erhalten wird. Die Bildpyramide einschließlich der unscharfen Bilder 21SG wird als eine Gauß-Pyramide bezeichnet. Durch allmähliches Verringern der Auflösung wird eine Bildgröße jedes unscharfen Bildes 21S auf 1/2, 1/4, 1/8 und 1/16 reduziert.
Nach Erzeugen der Bildpyramide berechnet die Lerndaten-Analyseeinheit 52 eine Differenz ΔP zwischen unscharfen Bildern 21SG von benachbarten Bildgrößen und bewertet einen Übereinstimmungsgrad jedes unscharfen Bildes 21SG. Bei Berechnung der Differenz ΔP vergrößert die Lerndaten-Analyseeinheit 52 beispielsweise das unscharfe Bild 21SG mit einer kleineren Bildgröße so auf eine größere Bildgröße, dass die Bildgrößen der unscharfen Bilder 21SG miteinander übereinstimmen. In einem Fall des Berechnens der Differenz ΔP (1/8) zwischen dem unscharfen Bild 21SG mit einer Bildgröße von 1/8 und dem unscharfen Bild 21SG mit einer Bildgröße von 1/16 wird das unscharfe Bild 21SG mit einer kleineren Bildgröße von 1/16 vergrößert, so dass es mit dem unscharfen Bild 21SG mit einer größeren Bildgröße von 1/8 übereinstimmt. Die Differenz ΔP ist beispielsweise ein Wert, der durch Standardisieren einer Summe von Absolutwerten von Differenzen zwischen Pixelwerten jedes unscharfen Bildes 21SG durch ein voreingestelltes Verfahren so erhalten wird, dass die Differenz ΔP verglichen werden kann.
Die Differenz ΔP jedes unscharfen Bildes 21SG gibt einen Betrag von Ortsfrequenzkomponenten jedes der Frequenzbänder an, die in dem Beschriftungsbild 21S enthalten sind. Wenn die Differenz ΔP größer wird, wird bewertet, dass es mehr Ortsfrequenzkomponenten des Frequenzbandes gibt, das der Bildgröße des unscharfen Bildes 21SG entspricht. Beispielsweise gibt die Differenz ΔP (1/1) zwischen dem Beschriftungsbild 21S mit einer Bildgröße von 1/1 und dem unscharfen Bild 21SG, von dem die Bildgröße auf 1/2 reduziert ist, einen Betrag der Ortsfrequenzkomponenten des höchsten Frequenzbandes unter den in dem Beschriftungsbild 21S enthaltenen Frequenzbändern an. In ähnlicher Weise gibt die Differenz ΔP (1/2) einen Betrag der Ortsfrequenzkomponenten des Frequenzbandes an, das einen Schritt niedriger als das Frequenzband bei der Differenz ΔP (1/1) ist. Durch Berechnen jeder Differenz ΔP (1/1), ΔP (1/2), ΔP (1/4), ΔP (1/8), • • • jedes unscharfen Bildes 21SG auf diese Weise können das Beschriftungsbild 21S, das in dem Beschriftungsbild 21S enthaltene Frequenzband und das Frequenzband mit einem relativ großen Betrag erkannt werden.
Die Lerndaten-Analyseeinheit 52 führt solche Verarbeitung an allen der mehreren Beschriftungsbilder 21S durch, die in der Beschriftungsbildgruppe 13 enthalten sind. Ein Durchschnittswert der für jedes Beschriftungsbild 21S berechneten Differenzen ΔP wird berechnet, und der Durchschnittswert wird als die Differenz ΔP der in 13 dargestellten Beschriftungsbildgruppe 13 berechnet.
Die Lerndaten-Analyseeinheit 52 spezifiziert unter den Frequenzbändern, die in der Beschriftungsbildgruppe 13 enthalten sind, ein Frequenzband, für das Extraktion der Bildmerkmale in dem hierarchischen Modell 10 von relativ hoher Notwendigkeit ist, als ein notwendiges Band basierend auf den Differenzen ΔP (1/1), ΔP (1/2), ΔP (1/4), • • •, die basierend auf der Bildpyramide berechnet werden. Beispielsweise spezifiziert die Lerndaten-Analyseeinheit 52 als notwendige Bänder eine voreingestellte Anzahl an Frequenzbändern in Reihenfolge hoher Notwendigkeit, wie Frequenzbänder von einem ersten Frequenzband bis zu einem vierten Frequenzband, indem sie jede Differenz ΔP vergleicht. Alternativ stellt die Lerndaten-Analyseeinheit 52 einen Schwellenwert ein und spezifiziert als notwendige Bänder die Frequenzbänder, bei denen die Differenzen ΔP gleich oder größer als der Schwellenwert sind.
Die Lerndaten-Analyseeinheit 52 stellt eine Referenz zum Spezifizieren des notwendigen Bandes ein, bestimmt, dass das Frequenzband, das die Referenz erfüllt, „gleich oder höher als Referenz“ ist, und bestimmt, dass das Frequenzband, das die Referenz nicht erfüllt, „niedriger als Referenz“ ist. Die Lerndaten-Analyseeinheit 52 spezifiziert die Frequenzbänder, die als „gleich oder höher als Referenz“ bestimmt werden, als notwendige Bänder. Die Lerndaten-Analyseeinheit 52 gibt ein Analyseergebnis 61 einschließlich des Inhalts aus. In dem in 13 dargestellten Analyseergebnis 61 werden die Frequenzbänder, die den Bildgrößen von 1/1 und 1/8 entsprechen, als „niedriger als Referenz“ bestimmt, und die anderen Frequenzbänder werden als „gleich oder höher als Referenz“ bestimmt und werden als notwendige Bänder spezifiziert (in 13 einfach als „notwendig“ angegeben).
15 stellt ein spezifisches Beispiel von Verarbeitung in einem Fall dar, in dem das hierarchische Modell 10 durch die Lernverfahrens-Bestimmungseinheit 53 neu konfiguriert wird. Die Lernverfahrens-Bestimmungseinheit 53 konfiguriert das hierarchische Modell 10 basierend auf dem Analyseergebnis 61 neu. Bei der Neukonfiguration des hierarchischen Modells 10 führt zunächst die Lernverfahrens-Bestimmungseinheit 53 Schichtbestimmung des Bestimmens einer notwendigen Schicht, die zum Lernen notwendig ist, und einer optionalen Schicht, die beim Lernen optional ist, unter den mehreren Schichten des hierarchischen Modells 10 basierend auf dem in dem Analyseergebnis 61 spezifizierten notwendigen Band durch.
Insbesondere vergleicht die Lernverfahrens-Bestimmungseinheit 53 das Analyseergebnis 61 mit den Frequenzbändern, die das hierarchische Modell 10 in der Lage ist, zu analysieren. Die Lernverfahrens-Bestimmungseinheit 53 bestimmt, dass eine Schicht, die dem in dem Analyseergebnis 61 spezifizierten notwendigen Band entspricht, eine notwendige Schicht ist. Ferner bestimmt die Lernverfahrens-Bestimmungseinheit 53, dass eine Schicht, die dem Frequenzband entspricht, das in dem Analyseergebnis 61 als „niedriger als Referenz“ bestimmt wurde, eine optionale Schicht ist. In dem in 15 dargestellten Beispiel sind in dem Analyseergebnis 61 die Frequenzbänder, die den Bildgrößen von 1/2, 1/4 und 1/16 entsprechen, als die notwendigen Bänder spezifiziert, und die Frequenzbänder, die den Bildgrößen von 1/1 und 1/8 entsprechen, sind als „niedriger als Referenz“ bestimmt. Daher bestimmt die Lernverfahrens-Bestimmungseinheit 53 die zweite Schicht, die dritte Schicht und die fünfte Schicht des hierarchischen Modells 10, die den spezifizierten drei notwendigen Bändern entsprechen, als notwendige Schichten und bestimmt die erste Schicht und die vierte Schicht als optionale Schichten.
Die Lernverfahrens-Bestimmungseinheit 53 bestimmt ein Lernverfahren basierend auf einem Bestimmungsergebnis der Schichtbestimmung. In diesem Beispiel bestimmt die Lernverfahrens-Bestimmungseinheit 53 ein Lernverfahren des Neukonfigurierens des hierarchischen Modells 10 und des Durchführens von Lernen. Die Lernverfahrens-Bestimmungseinheit 53 bestimmt spezifischen Inhalt der Neukonfiguration des hierarchischen Modells 10. Der Inhalt der Neukonfiguration besteht beispielsweise darin, eine Verarbeitungsmenge der optionalen Schicht so zu reduzieren, dass sie kleiner als eine Verarbeitungsmenge der notwendigen Schicht ist.
16 stellt ein spezifisches Beispiel des Inhalts der Neukonfiguration des hierarchischen Modells 10 dar. Wie in 6 dargestellt, werden in jeder Schicht des Kodiernetzwerks 10A des hierarchischen Modells 10 Faltungsverarbeitung, Pooling-Verarbeitung und Schichtüberspringungsverarbeitung durchgeführt. Wie in der linken Tabelle von 16 dargestellt, wird in einem Ausgangszustand des hierarchischen Modells 10 in allen Schichten von der ersten Schicht bis zu der fünften Schicht Ausführung von drei Verarbeitungsstücken, die Faltungsverarbeitung, Pooling-Verarbeitung und Schichtüberspringungsverarbeitung enthalten, eingestellt.
Für die Verarbeitung reduziert die Lernverfahrens-Bestimmungseinheit 53 eine Verarbeitungsmenge der optionalen Schicht so, dass sie kleiner als eine Verarbeitungsmenge der notwendigen Schicht ist. Die in 16 dargestellte rechte Tabelle stellt ein Beispiel des neu konfigurierten Inhalts des hierarchischen Modells 10 dar. Der Inhalt der Neukonfiguration des hierarchischen Modells 10 wird im Voraus eingestellt. Beispielsweise werden Daten, in denen Einstellungsinhalt aufgezeichnet ist, in der Speichervorrichtung 30 als Daten, die dem Betriebsprogramm zugeordnet sind, gespeichert.
Wie in dem neu konfigurierten Inhalt der rechten Tabelle von 16 dargestellt, stellt die Lernverfahrens-Bestimmungseinheit 53 Ausführung der drei Verarbeitungsstücke für die drei notwendigen Schichten aus der zweiten Schicht, der dritten Schicht und der fünften Schicht wie in dem Ausgangszustand ein. Andererseits stellt die Lernverfahrens-Bestimmungseinheit 53 für die optionalen Schichten aus der ersten Schicht und der vierten Schicht Auslassung von Faltungsverarbeitung und Schichtüberspringungsverarbeitung ein und stellt Ausführung von lediglich Pooling-Verarbeitung ein.
17 stellt ein Beispiel des hierarchischen Modells 10 dar, das mit dem in der rechten Tabelle von 16 dargestellten Inhalt neu konfiguriert wurde. In 17 wird zur Erleichterung eines Kontrasts zu 6 ein Teil der ausgelassenen Verarbeitung durch einen Kreis mit einer Zweipunkt-Strich-Linie angezeigt. Zunächst werden in der ersten Schicht des Kodiernetzwerks 10A Faltungsverarbeitung und Schichtüberspringungsverarbeitung ausgelassen. Die Schichtüberspringungsverarbeitung ist Verarbeitung des Übertragens der in der ersten Schicht extrahierten Bildmerkmalskarte CMP an das Dekodiernetzwerk 10B. Aus diesem Grund gibt es in einem Fall, in dem die Schichtüberspringungsverarbeitung ausgelassen wird, in der ersten Schicht des Dekodiernetzwerks 10B keine Bildmerkmalskarte CMP, die von dem Kodiernetzwerk 10A empfangen wird. Somit wird Zusammenführungsverarbeitung ebenfalls ausgelassen.
In ähnlicher Weise werden in der vierten Schicht Faltungsverarbeitung und Schichtüberspringungsverarbeitung in dem Kodiernetzwerk 10A ausgelassen, und infolgedessen wird Zusammenführungsverarbeitung in dem Dekodiernetzwerk 10B ebenfalls ausgelassen.
Als nächstes wird ein Arbeitsvorgang gemäß der Konfiguration unter Bezugnahme auf Flussdiagramme, die in 18 bis 20 dargestellt sind, beschrieben. Zunächst fungiert in einem Fall, in dem das Betriebsprogramm, das eines der AP 30A ist, gestartet wird, wie in 11 dargestellt, die CPU 32 des Computers einschließlich der Lernvorrichtung 2 als jede der Verarbeitungseinheiten 51 bis 57.
Wie in Schritt S1100 von 18 dargestellt, analysiert die Lernvorrichtung 2 die Lerndaten. In Schritt S1200 bestimmt die Lernvorrichtung 2 ein Lernverfahren basierend auf einem Analyseergebnis der Lerndaten. In Schritt S1300 wird Lernen durch das bestimmte Lernverfahren durchgeführt.
Wie in 19 dargestellt, wird in diesem Beispiel Schritt S1100 von 18 gemäß einer Prozedur von Schritt 1100A durchgeführt. Die Lerndaten-Analyseeinheit 52 erfasst die Beschriftungsbildgruppe 13 aus den Mini-Batch-Daten 11. In Schritt S1110A erzeugt die Lerndaten-Analyseeinheit 52 eine Bildpyramide für jedes Beschriftungsbild 21S, das in der erfassten Beschriftungsbildgruppe 13 enthalten ist, wie in 14 dargestellt. In Schritt S1120A werden die in jedem Beschriftungsbild 21S enthaltenen Frequenzbänder basierend auf der Bildpyramide analysiert. Die Lerndaten-Analyseeinheit 52 berechnet die Differenz ΔP, die jedem Frequenzband entspricht, basierend auf der Bildpyramide. In Schritt S1130A berechnet die Lerndaten-Analyseeinheit 52 einen Durchschnittswert der Differenzen ΔP, die basierend auf jedem Beschriftungsbild 21S berechnet wurden, stellt den Durchschnittswert als die Differenz ΔP der Beschriftungsbildgruppe 13 ein und gibt das Analyseergebnis 61 basierend auf der Differenz ΔP aus.
Wie in 20 dargestellt, wird in diesem Beispiel Schritt S1200 von 18 gemäß einer Prozedur von Schritt S1200A durchgeführt. In Schritt S1210A bestimmt die Lernverfahrens-Bestimmungseinheit 53 die notwendige Schicht und die optionale Schicht in dem hierarchischen Modell 10 basierend auf dem Analyseergebnis 61. Wie in 15 dargestellt, bestimmt die Lernverfahrens-Bestimmungseinheit 53 die notwendige Schicht und die optionale Schicht durch Vergleichen des Analyseergebnisses 61 mit den Frequenzbändern, die das hierarchische Modell 10 in der Lage ist, zu analysieren, und gibt das Bestimmungsergebnis aus.
In dem in 15 dargestellten Analyseergebnis 61 sind die Frequenzbänder außer den Frequenzbändern, die den Bildgrößen von 1/1 und 1/4 entsprechen, als notwendige Bänder spezifiziert. Die Lernverfahrens-Bestimmungseinheit 53 bestimmt die erste Schicht und die vierte Schicht als optionale Schichten gemäß dem Analyseergebnis 61, bestimmt die anderen Schichten als notwendige Schichten und gibt das Bestimmungsergebnis aus.
In Schritt S1220A bestimmt die Lernverfahrens-Bestimmungseinheit 53 das Vorhandensein oder Fehlen der optionalen Schicht basierend auf dem Bestimmungsergebnis. In einem Fall, in dem bestimmt wird, dass es keine optionale Schicht gibt (NEIN in Schritt S1220A), bestimmt die Lernverfahrens-Bestimmungseinheit 53, Lernen unter Verwendung des hierarchischen Modells 10 in dem Ausgangszustand durchzuführen, ohne das hierarchische Modell 10 neu zu konfigurieren.
Andererseits konfiguriert in Schritt S1220A in einem Fall, in dem bestimmt wird, dass es eine optionale Schicht gibt (JA in Schritt S1220A), die Lernverfahrens-Bestimmungseinheit 53 das hierarchische Modell 10 neu. Insbesondere liest zunächst in Schritt S1230A die Lernverfahrens-Bestimmungseinheit 53 von der Speichervorrichtung 30 Daten, in denen Ausschlussinhalt der rechten Tabelle von 16 definiert ist, und bestimmt Ausschlussinhalt bei der Verarbeitung der optionalen Schicht. In Schritt S1240A konfiguriert die Lernverfahrens-Bestimmungseinheit 53 das hierarchische Modell 10 basierend auf dem bestimmten Ausschlussinhalt neu. In dem in 16 dargestellten Beispiel werden Faltungsverarbeitung und Schichtüberspringungsverarbeitung in der ersten Schicht und der vierten Schicht des Kodiernetzwerks 10A ausgelassen.
In Schritt S1300 von 18 erfasst die Lerneinheit 54 die Lerneingabebildgruppe 12 aus den Mini-Batch-Daten 11, gibt die erfasste Lerneingabebildgruppe 12 in einem Fall, in dem das hierarchische Modell 10 neu konfiguriert wird, in das neu konfigurierte hierarchische Modell 10 ein und lernt das hierarchische Modell 10. Das hierarchische Modell 10 gibt das Lernausgabebild 14S für jedes Lerneingabebild 20S aus. In einem Fall, in dem eine Lerneingabebildgruppe 12 gelernt wird, gibt die Lerneinheit 54 die Lernausgabebildgruppe 14 an die Bewertungseinheit 56 aus.
Die Bewertungseinheit 56 bewertet die Klassenbestimmungsgenauigkeit des hierarchischen Modells 10 durch Vergleichen der Lernausgabebildgruppe 14 mit der Beschriftungsbildgruppe 13 aus den Mini-Batch-Daten 11. Die Aktualisierungseinheit 57 aktualisiert Parameter, wie die Koeffizienten des Filters F des hierarchischen Modells 10, basierend auf dem Bewertungsergebnis, das von der Bewertungseinheit 56 ausgegeben wird. Solches Lernen wird für die Anzahl der erzeugten Mini-Batch-Daten 11 wiederholt.
Auf diese Weise analysiert in der Lernvorrichtung 2 die Lerndaten-Analyseeinheit 52 die Frequenzbänder, die in dem Beschriftungsbild 21S enthalten sind. Die Lernverfahrens-Bestimmungseinheit 53 bestimmt ein Lernverfahren unter Verwendung des Lerneingabebildes 20S, das den Lerndaten entspricht, auf der Grundlage des Analyseergebnisses 61 der Frequenzbänder von der Lerndaten-Analyseeinheit 52. Die Lerneinheit 54 lernt das hierarchische Modell 10 durch das bestimmte Lernverfahren unter Verwendung des Lerneingabebildes 20S. In diesem Beispiel wird das hierarchische Modell 10 basierend auf dem Analyseergebnis 61 neu konfiguriert, und das hierarchische Modell 10 wird gelernt.
Daher wird eine Nichtübereinstimmung zwischen den Frequenzbändern der, das den Lerndaten entspricht, zu bestimmenden Klassen in dem Beschriftungsbild 21S und den Frequenzbändern, die das hierarchische Modell 10 in der Lage ist, zu analysieren, verhindert. Ferner wird in der nicht notwendigen Schicht, die nicht zur Verbesserung der Klassenbestimmungsgenauigkeit beiträgt, Verarbeitung ausgelassen. Dadurch ist es möglich, Klassen angemessen zu bestimmen und verschwenderische Berechnungsverarbeitung zu beseitigen.
Ferner spezifiziert die Lerndaten-Analyseeinheit 52 das Frequenzband, für das Extraktion des Merkmals von relativ hoher Notwendigkeit ist, unter den Frequenzbändern als ein notwendiges Band, indem sie die Frequenzbänder, die in dem Beschriftungsbild 21S enthalten sind, analysiert. Die Lernverfahrens-Bestimmungseinheit 53 konfiguriert das hierarchische Modell 10 basierend auf dem spezifizierten Frequenzband (notwendiges Band) neu. Da das hierarchische Modell 10 basierend auf dem notwendigen Band neu konfiguriert wird, wird das notwendige Band angemessen analysiert, und somit wird Bestimmung der Klasse angemessen und zuverlässiger durchgeführt.
Ferner bestimmt bei der Neukonfiguration des hierarchischen Modells 10 die Lernverfahrens-Bestimmungseinheit 53 eine notwendige Schicht, die zum Lernen notwendig ist, und eine optionale Schicht, die beim Lernen optional ist, unter den mehreren Schichten des hierarchischen Modells 10 basierend auf dem spezifizierten Frequenzband (notwendiges Band). Somit wird eine Verarbeitungsmenge der optionalen Schicht so reduziert, dass sie kleiner als eine Verarbeitungsmenge der notwendigen Schicht ist. Daher ist, wie später beschrieben wird, ein Effekt des Beseitigens verschwenderischer Berechnungsverarbeitung größer als in einem Fall des einfachen Reduzierens einer Datenmenge eines Eingabebildes, wie beispielsweise Verringern der Auflösung des Lerneingabebildes 20S. Dies liegt daran, dass bei dem Lernen des hierarchischen Modells 10 eine Datenmenge des hierarchischen Modells 10 überwältigend größer als eine Datenmenge des Eingabebildes ist. Daher ist es möglich, einen Verbrauch des Speichers 31 erheblich zu reduzieren und eine Berechnungszeit zu verkürzen.
Ferner erzeugt in diesem Beispiel die Lerndaten-Analyseeinheit 52 die Bildpyramide einschließlich der mehreren unscharfen Bilder 21SG, die durch allmähliches Verringern der Auflösung des Beschriftungsbildes 21S erhalten werden und unterschiedliche Auflösungen aufweisen. Die Frequenzbänder, die in dem Beschriftungsbild 21S enthalten sind, werden auf der Grundlage der Bildpyramide analysiert. Durch Verwenden der Bildpyramide ist es möglich, die Frequenzbänder allmählich zu analysieren. Die Analyse der Frequenzbänder, die das hierarchische Modell 10 in der Lage ist, zu analysieren, wird ebenfalls allmählich durchgeführt. Daher ist es einfacher, die Frequenzbänder der Bildpyramide mit den Frequenzbändern jeder Schicht des hierarchischen Modells 10 abzugleichen, verglichen mit einem Fall des Analysierens der Frequenzbänder durch beispielsweise einer Fourier-Transformation.
Der Grund ist wie folgt. Bei der Fourier-Transformation wird ein Spektrum von Ortsfrequenzen als ein Analyseergebnis von Frequenzbändern erhalten. Da das Spektrum kontinuierliche Werte enthält, erfordert es andererseits mehr Zeit und Mühe, um das Spektrum mit dem hierarchischen Modell 10, in dem die Frequenzbänder allmählich geändert werden, abzugleichen.
Ferner wurde in diesem Beispiel ein Beispiel des Analysierens der Frequenzbänder basierend auf der Differenz ΔP jedes unscharfen Bildes 21SG der Bildpyramide beschrieben. Andererseits kann als ein Verfahren des Analysierens der Frequenzbänder zusätzlich zu dem Verfahren unter Verwendung der Differenz ΔP beispielsweise ein Verfahren des Analysierens der Frequenzbänder durch Verwenden eines Flächenübereinstimmungsgrades oder eines Korrelationskoeffizienten jedes unscharfen Bildes 21SG verwendet werden. Diese Verfahren können angenommen werden.
Obwohl es im Vergleich zu dem Fall des Analysierens der Frequenzbänder unter Verwendung der Bildpyramide mehr Zeit in Anspruch nimmt, können die Frequenzbänder natürlich durch die Fourier-Transformation analysiert werden. Somit kann die Fourier-Transformation anstelle der Bildpyramide verwendet werden. In einem Fall, in dem die Fourier-Transformation verwendet wird, wählt beispielsweise die Lerndaten-Analyseeinheit 52 eine vorbestimmte Anzahl an Frequenzbändern mit hohen Intensitäten in dem Ortsfrequenzspektrum des Beschriftungsbildes 21S in Reihenfolge hoher Intensität aus. In diesem Fall werden die ausgewählten Frequenzbänder als Frequenzbänder bestimmt, die gleich oder höher als die Referenz sind, und die anderen Frequenzbänder werden als Frequenzbänder bestimmt, die niedriger als die Referenz sind.
Ferner ist das hierarchische Modell 10 mit dem faltenden neuronalen Netzwerk CNN einschließlich des Kodiernetzwerks 10A und des Dekodiernetzwerks 10B konfiguriert. Das faltende neuronale Netzwerk CNN weist eine hohe Zuverlässigkeit auf und wird daher häufig in einem Fall des Durchführens semantischer Segmentierung verwendet. Daher kann durch Verwenden des faltenden neuronalen Netzwerks CNN als das hierarchische Modell 10 semantische Segmentierung mit einer hohen Zuverlässigkeit realisiert werden.
Das in 6 dargestellte hierarchische Modell 10 ist ein Beispiel, und die Größe des Filters F (in dem Beispiel von 7 3×3), die Anzahl der Filter F (die Anzahl an Kanälen), die Reduktionsrate der Bildgröße jeder Schicht und die Anzahl der Schichten können geeignet geändert werden. Ferner ist die Bildgröße der Bildmerkmalskarte CMP vor und nach der Faltungsverarbeitung gleich. Andererseits kann die Bildgröße der Bildmerkmalskarte CMP nach der Faltungsverarbeitung geringfügig verringert sein. Ferner stimmen in dem in 6 dargestellten Beispiel in der gleichen Schicht des Kodiernetzwerks 10A und des Dekodiernetzwerks 10B die Bildgrößen vollständig miteinander überein. Andererseits müssen die Bildgrößen nicht vollständig miteinander übereinstimmen. Zum Beispiel kann in einem Fall des Vergleichens der gleichen Schicht des Kodiernetzwerks 10A und des Dekodiernetzwerks 10B die Bildgröße des Dekodiernetzwerks 10B geringfügig kleiner sein. Auf diese Weise können verschiedene Parameter und dergleichen des hierarchischen Modells 10 geeignet geändert werden.
(Modifikationsbeispiel von Neukonfiguration von hierarchischem Modell)
In dem in 16 dargestellten Beispiel wurde bei der Neukonfiguration des hierarchischen Modells 10 für den Ausschlussinhalt bei der Verarbeitung der optionalen Schicht ein Beispiel des Auslassens sowohl von Faltungsverarbeitung als auch von Schichtüberspringungsverarbeitung beschrieben. Andererseits ist der Ausschlussinhalt nicht auf das obige Beispiel beschränkt, und beispielsweise kann, wie in einem in 21 dargestellten Modifikationsbeispiel, nur Schichtüberspringungsverarbeitung ausgelassen werden, ohne Auslassung von Faltungsverarbeitung. In 21 sind, wie in dem in 16 dargestellten Beispiel, die optionalen Schichten die erste Schicht und die vierte Schicht.
In diesem Fall wird, wie in 22 dargestellt, in der ersten Schicht und der vierten Schicht des Kodiernetzwerks 10A Faltungsverarbeitung durchgeführt. Andererseits wird, wie durch einen Kreis mit einer Zweipunkt-Strich-Linie angezeigt, Schichtüberspringungsverarbeitung nicht durchgeführt. Da Schichtüberspringungsverarbeitung ausgelassen wird, wird ferner in der ersten Schicht und der vierten Schicht des Dekodiernetzwerks 10B, wie durch einen Kreis mit einer Zweipunkt-Strich-Linie angezeigt, Zusammenführungsverarbeitung ebenfalls ausgelassen.
Auf diese Weise wird in einem Fall, in dem Faltungsverarbeitung in der optionalen Schicht durchgeführt wird, die Merkmalsextraktion wahrscheinlich in der nächsten Schicht gemäß der Faltungsverarbeitung angemessen durchgeführt. Dies liegt daran, dass die Faltungsverarbeitung die Bildmerkmale in der Bildmerkmalskarte CMP, die an die nächste Schicht ausgegeben werden soll, klar macht. Da in dem in 21 und 22 dargestellten Modifikationsbeispiel Faltungsverarbeitung nicht ausgelassen wird, ist natürlich ein Effekt des Beseitigens verschwenderischer Berechnungsbearbeitung im Vergleich zu dem Fall von 16 reduziert.
„Zweite Ausführungsform“
Die zweite Ausführungsform, die in 23 bis 25 dargestellt ist, ist ein Beispiel, bei dem die Lernverfahrens-Bestimmungseinheit 53 ein Lernverfahren des Verringerns der Auflösung des Lerneingabebilds 20S und des Durchführens von Lernen ohne Neukonfiguration des hierarchischen Modells 10 bestimmt. In der zweiten und nachfolgenden Ausführungsformen werden Beschreibungen der gleichen Konfigurationen und des gleichen Inhalts wie die der ersten Ausführungsform weggelassen, und es werden hauptsächlich Unterschiede beschrieben.
In der zweiten Ausführungsform wird für Schritt S1200, der in 18 dargestellt ist, Verarbeitung von Schritt S1200B, der in 23 dargestellt ist, anstelle von Schritt S1200A, der in 20 dargestellt ist, gemäß der ersten Ausführungsform ausgeführt.
In der zweiten Ausführungsform, wie in der ersten Ausführungsform, führt die Lerndaten-Analyseeinheit 52 vor Schritt S1200B Lerndatenanalyse, die in Schritt S1100 von 18 dargestellt ist, durch. Insbesondere spezifiziert die Lerndaten-Analyseeinheit 52 das Frequenzband, für das Extraktion des Merkmals von relativ hoher Notwendigkeit ist, unter den Frequenzbändern, indem sie die Frequenzbänder, die in dem Beschriftungsbild 21S der Lerndaten enthalten sind, analysiert, und gibt das Analyseergebnis 61 aus.
Bei Verarbeitung von Schritt S1200B, der in 23 dargestellt ist, bestimmt die Lernverfahrens-Bestimmungseinheit 53 zunächst in Schritt S1210B eine Notwendigkeit des Verringerns der Auflösung des Lerneingabebilds 20S auf der Grundlage des Analyseergebnisses 61. In einem Fall, in dem die Lernverfahrens-Bestimmungseinheit 53 bestimmt, dass es notwendig ist, die Auflösung zu verringern (JA in Schritt 1220B), verringert die Lernverfahrens-Bestimmungseinheit 53 in Schritt S1230B die Auflösung des Lerneingabebilds 20S.
24 stellt ein spezifisches Beispiel, in dem die Lernverfahrens-Bestimmungseinheit 53 bestimmt, dass es notwendig ist, die Auflösung des Lerneingabebilds 20S zu verringern, dar. In dem in 24 dargestellten Analyseergebnis 61 wird unter den Frequenzbändern, die in dem Beschriftungsbild 21S enthalten sind, nur das Frequenzband, das der Bildgröße von 1/1 entspricht, als „niedriger als Referenz“ bestimmt, und die Frequenzbänder, die den Bildgrößen von 1/2 bis 1/32 entsprechen, werden als „gleich oder höher als Referenz“ bestimmt und werden als das notwendige Band spezifiziert.
Jedoch gibt es für das einer Bildgröße von 1/32 entsprechende Frequenzband, das in dem in 24 dargestellten Analyseergebnis 61 als das notwendige Band spezifiziert ist, in dem hierarchischen Modell 10, in dem eine Untergrenze der analysierbaren Frequenzbänder, die einer Bildgröße von 1/16 entsprechende Frequenzband ist, keine entsprechende Schicht. Das bedeutet, dass ein Bereich der Frequenzbänder, die das hierarchische Modell 10 in der Lage ist, zu analysieren, nicht das notwendige Band, das zur Extraktion der Merkmale notwendig ist, enthält. Selbst in diesem Fall stimmen die Frequenzbänder der zu bestimmenden Klassen in den Lerndaten und die Frequenzbänder, die das hierarchische Modell 10 in der Lage ist, zu analysieren, nicht überein.
In einem solchen Fall bestimmt die Lernverfahrens-Bestimmungseinheit 53 ein Lernverfahren des Durchführens von Korrektur zum Verringern der Auflösung des Lerneingabebilds 20S und des Durchführens von Lernen.
Wie in 25 dargestellt, reduziert die Lernverfahrens-Bestimmungseinheit 53 die Bildgröße des Lerneingabebilds 20S auf 1/2, indem sie die Auflösung des Lerneingabebilds 20S verringert. Dadurch wird das Lerneingabebild 20S mit einer Bildgröße von 1/2 in die erste Schicht des hierarchischen Modells 10, in die ursprünglich das Lerneingabebild 20S mit einer Bildgröße von 1/1 eingegeben werden soll, eingegeben. Daher wird das Frequenzband, das die niedrigste fünfte Schicht des hierarchischen Modells 10 in der Lage ist, zu analysieren, im Wesentlichen von dem Frequenzband, das der Bildgröße von 1/16 entspricht, auf das Frequenzband, das der Bildgröße von 1/32 entspricht, geändert.
In diesem Beispiel enthalten die Frequenzbänder, die in dem Beschriftungsbild 21S enthalten sind, nicht das Frequenzband, das der Bildgröße von 1/1 entspricht. Aus diesem Grund ist Analyse der Merkmale der feinen Struktur des Lerneingabebilds 20S nicht notwendig. In dem hierarchischen Modell 10 wird Analyse der Lerndaten ausgehend von Analyse des Lerneingabebilds 20S mit der niedrigsten Auflösung durchgeführt. Somit wird Analyse der feinen Struktur, die für die Klassenbestimmung nicht notwendig ist, ausgelassen. Zusätzlich wird in einem Fall, in dem der Bereich der Frequenzbänder, die das hierarchische Modell 10 in der Lage ist, zu analysieren bestimmt wird, wird das in der niedrigsten Schicht analysierbare Frequenzband durch Verringern der Auflösung des Lerneingabebilds 20S verringert. Dadurch ist es möglich, die Merkmale der großflächigen Struktur, wie zum Beispiel das Frequenzband, das der Bildgröße von 1/32 entspricht, zu analysieren.
Auf diese Weise kann durch Durchführen von Korrektur zum Verringern der Auflösung des Lerneingabebilds 20S die Lernverfahrens-Bestimmungseinheit 53 den Bereich der Frequenzbänder, die in dem Beschriftungsbild 21S enthalten sind, mit dem Bereich der Frequenzbänder, die das hierarchische Modell 10 in der Lage ist, zu analysieren, abgleichen. Dadurch ist es gemäß der zweiten Ausführungsform möglich, die Klasse angemessen zu bestimmen.
„Dritte Ausführungsform“
Die in 26 bis 28 dargestellte dritte Ausführungsform ist eine Kombination aus der ersten Ausführungsform und der zweiten Ausführungsform. Das heißt, in der dritten Ausführungsform bestimmt zusätzlich zu der Neukonfiguration des hierarchischen Modells 10 die Lernverfahrens-Bestimmungseinheit 53 ein Lernverfahren des Durchführens von Korrektur zum Verringern der Auflösung des Lerneingabebilds 20S und des Durchführens von Lernen.
Wie in 26 dargestellt, führt die Lernverfahrens-Bestimmungseinheit 53 Schritt S1200C, der in 26 dargestellt ist, als Schritt S1200, der in 18 dargestellt ist, durch. In Schritt S1200C führt zusätzlich zu Schritt S1200A zur Neukonfiguration des in 20 dargestellten hierarchischen Modells 10 die Lernverfahrens-Bestimmungseinheit 53 Schritt S1200B, der der in 23 dargestellten Korrektur zum Verringern der Auflösung des Lerneingabebilds 20S entspricht, durch.
27 stellt ein spezifisches Beispiel, in dem die Lernverfahrens-Bestimmungseinheit 53 ein Lernverfahren des Durchführens sowohl der Neukonfiguration des hierarchischen Modells 10 als auch der Korrektur zum Verringern der Auflösung des Lerneingabebilds 20S bestimmt, dar. In dem in 27 dargestellten Analyseergebnis 61 werden, ähnlich wie in der ersten Ausführungsform, die Frequenzbänder, die den Bildgrößen von 1/1 und 1/8 entsprechen, als „niedriger als Referenz“ bestimmt, und die anderen Frequenzbänder werden als „gleich oder höher als Referenz“ bestimmt und werden als notwendige Bänder spezifiziert. Ferner wird auch das Frequenzband, das der Bildgröße von 1/32 entspricht, als ein notwendiges Band spezifiziert. Ähnlich wie in der ersten Ausführungsform bestimmt die Lernverfahrens-Bestimmungseinheit 53, dass die erste Schicht und die vierte Schicht, die den als „niedriger als Referenz“ bestimmten Frequenzbändern entsprechen, optionale Schichten sind, und bestimmt, dass die anderen Schichten notwendige Schichten sind. Ferner enthält das hierarchische Modell 10 eine Schicht nicht, die dem Frequenzband, das der Bildgröße von 1/32 entspricht, entspricht. Somit reduziert, wie in 25 gemäß der zweiten Ausführungsform dargestellt, die Lernverfahrens-Bestimmungseinheit 53 die Bildgröße des Lerneingabebilds 20S auf 1/2, indem sie Korrektur zum Verringern der Auflösung des Lerneingabebilds 20S durchgeführt.
Wie in 28 dargestellt, konfiguriert die Lernverfahrens-Bestimmungseinheit 53 das hierarchische Modell 10 neu. In der dritten Ausführungsform wird das Lerneingabebild 20S ebenfalls korrigiert und somit wird die Bildgröße des Lerneingabebilds 20S auf 1/2 reduziert. Daher entspricht in dem neu konfigurierten hierarchischen Modell 10 das Frequenzband der ersten Schicht im Wesentlichen dem Frequenzband, das der Bildgröße von 1/2 entspricht, und das Frequenzband der fünften Schicht entspricht im Wesentlichen dem Frequenzband, das der Bildgröße von 1/32 entspricht. Wie in 27 dargestellt, ist die als die optionale Schicht bestimmte Schicht die vierte Schicht mit einem in dem hierarchischen Modell 10 analysierbaren Frequenzband in dem Ausgangszustand und entspricht der Bildgröße von 1/8.
Wie in 28 dargestellt, entspricht die vierte Schicht in dem hierarchischen Modell 10 in dem Ausgangszustand der dritten Schicht in dem neu konfigurierten hierarchischen Modell 10. Die dritte Schicht des hierarchischen Modells 10 ist eine optionale Schicht, und somit lässt die Lernverfahrens-Bestimmungseinheit 53 Verarbeitung der dritten Schicht teilweise aus. In dem in 28 dargestellten Beispiel wird nur Schichtüberspringungsverarbeitung ausgelassen. Auf diese Weise kann eine Kombination aus der ersten Ausführungsform und der zweiten Ausführungsform gemacht werden.
„Vierte Ausführungsform“
In der vierten Ausführungsform, die in 29 und 30 dargestellt ist, analysiert die Lerndaten-Analyseeinheit 52 die Frequenzbänder, die in dem Lerneingabebild 20S enthalten sind, zusätzlich zu dem Beschriftungsbild 21S. Wie in 29 dargestellt, führt die Lerndaten-Analyseeinheit 52 Lerndatenanalyse, die in Schritt S1100B dargestellt ist, durch. In Schritt S1100B ist Analyse der Frequenzbänder des Beschriftungsbilds 21S von Schritt S1110B bis Schritt S1130B die gleiche wie die in 19 dargestellte Analyse von Schritt S1110A bis Schritt S1130A.
Zusätzlich zu der Analyse der Frequenzbänder, die in dem Beschriftungsbild 21S enthalten sind, analysiert die Lerndaten-Analyseeinheit 52 in Schritt S1140B bis Schritt S1160B die Frequenzbänder, die in dem Lerneingabebild 20S enthalten sind. Die Analyse des Lerneingabebilds 20S von Schritt S1140B bis Schritt S1160B wird ebenfalls beispielsweise durch Erzeugen einer Bildpyramide, wie bei der Analyse des Beschriftungsbilds 21S, durchgeführt.
Wie in 30 dargestellt, gibt die Lerndaten-Analyseeinheit 51 das Analyseergebnis 61 des Beschriftungsbilds 21S und ein Analyseergebnis 62 des Lerneingabebilds 20S aus.
Die Lernverfahrens-Bestimmungseinheit 53 bestimmt ein Lernverfahren auf der Grundlage des Analyseergebnisses 61 des Beschriftungsbilds 21S und des Analyseergebnisses 62 des Lerneingabebilds 20S. In dem in 30 dargestellten Beispiel werden beispielsweise in dem Analyseergebnis 61 des Beschriftungsbilds 21S die Frequenzbänder, die den Bildgrößen von 1/1 und 1/8 entsprechen, als „niedriger als Referenz“ bestimmt, und die anderen Frequenzbänder werden als „gleich oder höher als Referenz“ bestimmt und werden als notwendige Bänder spezifiziert. Andererseits wird in dem Analyseergebnis 62 des Lerneingabebilds 20S nur das Frequenzband, das der Bildgröße von 1/8 entspricht, als „niedriger als Referenz“ bestimmt, und das Frequenzband, das der Bildgröße von 1/1 entspricht, wird als das notwendige Band spezifiziert.
In diesem Fall bestimmt die Lernverfahrens-Bestimmungseinheit 53 in dem hierarchischen Modell 10, dass die erste Schicht, die dem Frequenzband, das der Bildgröße von 1/1 entspricht, entspricht, eine notwendige Schicht ist, und bestimmt, dass nur die vierte Schicht zum Analysieren des Frequenzbands, das der Bildgröße von 1/8 entspricht, eine optionale Schicht ist.
Wie oben beschrieben, können durch Analysieren der Frequenzbänder, die in dem Lerneingabebild 20S enthalten sind, zusätzlich zu dem Beschriftungsbild 21S die folgenden Effekte erhalten werden. Das heißt, wie in 30 dargestellt, in einem Fall, in dem es ein Frequenzband, das als „niedriger als Referenz“ in dem Beschriftungsbild 21S bestimmt wird und als „gleich oder höher als Referenz“ in dem Lerneingabebild 20S bestimmt wird, gibt, kann Extraktion von Merkmalen des Frequenzbands Extraktion von Merkmalen der nächsten Schicht stark beeinflussen. Die vierte Ausführungsform ist in einem solchen Fall wirksam, und somit ist es möglich, die Klasse angemessen und zuverlässiger zu bestimmen.
Das geteilte Lerneingabebild 20S kleiner Größe und das geteilte Beschriftungsbild 21S kleiner Größe werden als die Lerndaten verwendet. Andererseits können das ungeteilte ursprüngliche Lerneingabebild 20 und das ungeteilte ursprüngliche Beschriftungsbild 21 als die Lerndaten verwendet werden.
In jeder Ausführungsform werden Phasenkontrastmikroskop-Bilder, in denen ein Zustand von Zellkultur auftritt, beispielhaft als das Eingabebild 16 und das Lerneingabebild 20 dargestellt, und die differenzierten Zellen und das Medium werden beispielhaft als die Klassen dargestellt. Andererseits ist die vorliegenden Offenbarung nicht darauf beschränkt. Beispielsweise können Magnetresonanztomographie (MRT) -Bilder als das Eingabebild 16 und das Lerneingabebild 20 verwendet werden, und Organe wie eine Leber und eine Niere können als die Klassen verwendet werden.
Das hierarchische Modell 10 ist nicht auf U-Net beschränkt und kann ein anderes faltendes neuronales Netzwerk, zum Beispiel SegNet, sein.
Die Hardwarekonfiguration des Computers einschließlich der Lernvorrichtung 2 kann auf verschiedene Weise modifiziert werden. Beispielsweise kann die Lernvorrichtung 2 durch mehrere Computer, die als Hardware getrennt sind, konfiguriert werden, um Verarbeitungsfähigkeit und Zuverlässigkeit zu verbessern. Insbesondere können die Funktionen der Lerndaten-Analyseeinheit 52, der Lernverfahrens-Bestimmungseinheit 53 und der Lerneinheit 54 auf drei Computer verteilt werden. In diesem Fall wird die Lernvorrichtung 2 von drei Computern konfiguriert.
Auf diese Weise kann die Hardwarekonfiguration des Computers gemäß der erforderlichen Leistung wie Verarbeitungsfähigkeit, Sicherheit und Zuverlässigkeit angemessen geändert werden. Ferner kann nicht nur Hardware, sondern auch das Anwendungsprogramm 30A, wie beispielsweise ein Betriebsprogramm, dupliziert oder verteilt und in mehreren Speichervorrichtungen gespeichert werden, um Sicherheit und Zuverlässigkeit zu gewährleisten.
In jeder Ausführungsform können beispielsweise als eine Hardwarestruktur der Verarbeitungseinheit, die verschiedene Verarbeitungen, wie beispielsweise Verarbeitungsstücke durch die Mini-Batch-Datenerzeugungseinheit 51, die Lerndaten-Analyseeinheit 52, die Lernverfahrens-Bestimmungseinheit 53, die Lerneinheit 54, die Bewertungseinheit 56 und die Aktualisierungseinheit 57, ausführt, die folgenden verschiedenen Prozessoren verwendet werden. Die verschiedenen Prozessoren enthalten, wie oben beschrieben, eine Zentraleinheit (central processing unit, CPU), die ein Allzweckprozessor, der durch Ausführen von Software (einem Betriebsprogramm) als verschiedene Verarbeitungseinheiten fungiert, ist, eine programmierbare logische Schaltung (programmable logic device, PLD) wie ein Field Programmable Gate Array (FPGA), der ein Prozessor, der in der Lage ist, eine Schaltungskonfiguration nach Herstellung zu ändern, ist, eine dedizierte elektrische Schaltung wie eine anwendungsspezifische integrierte Schaltung (application-specific integrated circuit, ASIC), die ein Prozessor mit einer Schaltungskonfiguration, die speziell zur Ausführung spezifischer Verarbeitung ausgelegt ist, ist, und dergleichen.
Eine Verarbeitungseinheit kann durch einen dieser verschiedenen Prozessoren konfiguriert werden oder kann durch eine Kombination aus zwei oder mehr Prozessoren mit dem gleichen Typ oder verschiedenen Typen (zum Beispiel eine Kombination aus mehreren FPGAs oder eine Kombination aus einer CPU und einem FPGA) konfiguriert werden. Ferner können die mehreren Verarbeitungseinheiten durch einen Prozessor konfiguriert werden.
Als ein Beispiel, in dem die mehreren Verarbeitungseinheiten durch einen Prozessor konfiguriert sind, kann erstens eine Form, in der ein Prozessor durch eine Kombination aus einer oder mehreren CPUs und Software konfiguriert ist und der Prozessor als die mehreren Verarbeitungseinheiten fungiert, wie zum Beispiel durch einen Computer, wie einen Client und einen Server, dargestellt, eingesetzt werden. Zweitens kann, wie durch ein System on Chip (SoC) oder dergleichen dargestellt, eine Form, in der ein Prozessor, der die Funktion des gesamten Systems einschließlich der mehreren Verarbeitungseinheiten durch einen integrierten Schaltungs-Chip (integrated circuit, IC) realisiert, verwendet wird, eingesetzt werden. Wie oben beschrieben, werden die verschiedene Verarbeitungseinheiten konfiguriert, indem ein oder mehrere verschiedene Prozessoren als eine Hardwarestruktur verwendet werden.
Ferner kann als die Hardwarestruktur der verschiedenen Prozessoren, genauer gesagt, eine elektrische Schaltung (Schaltkreis), in der Schaltungselemente wie Halbleiterelemente kombiniert sind, verwendet werden.
Aus der obigen Beschreibung ist die im folgenden Anhang 1 beschriebene Erfindung zu verstehen.
[Anhang 1]
Eine Lernvorrichtung, die Lerndaten in ein maschinelles Lernmodell, das mehrere Schichten zum Analysieren eines Eingabebilds enthält, eingibt und das maschinelle Lernmodell lernt, wobei das maschinelle Lernmodell ein Modell zum Durchführen von semantischer Segmentierung des Bestimmens mehrerer Klassen in dem Eingabebild in Einheiten von Pixeln durch Extrahieren von Merkmalen, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder von Ortsfrequenzen aufweisen, für jede Schicht ist, wobei die Lernvorrichtung enthält:

einen Lerndaten-Analyseprozessor, der mindestens die Frequenzbänder, die in einem Beschriftungsbild der Lerndaten enthalten sind, analysiert, wobei die Lerndaten ein Paar aus einem Lerneingabebild und dem Beschriftungsbild, in dem jeder Klassenbereich, der in dem Lerneingabebild enthalten ist, durch eine Beschriftung angegeben ist, sind;
einen Lernverfahrens-Bestimmungsprozessor, der ein Lernverfahren unter Verwendung der Lerndaten auf der Grundlage eines Analyseergebnisses der Frequenzbänder von dem Lerndaten-Analyseprozessor bestimmt; und
einen Lernprozessor, der das maschinelle Lernmodell durch das bestimmte Lernverfahren unter Verwendung der Lerndaten lernt.

Die Technik der vorliegenden Offenbarung kann auch die verschiedenen Ausführungsformen und die verschiedenen Modifikationsbeispiele in geeigneter Weise kombinieren. Darüber hinaus ist die Technik der vorliegenden Offenbarung nicht auf jede Ausführungsform beschränkt, und es können verschiedene Konfigurationen eingesetzt werden, ohne von dem Schutzumfang der vorliegenden Offenbarung abzuweichen. Ferner erstreckt sich die Technik der vorliegenden Offenbarung auf ein Programm und ein Speichermedium zum nicht-vorübergehenden Speichern des Programms.
Bezugszeichenliste

2: Lernvorrichtung
10: hierarchisches Modell (hierarchisches maschinelles Lernmodell)
10A: Kodiernetzwerk
10B: Dekodiernetzwerk
10T: gelerntes hierarchisches Modell
11: Mini-Batch-Daten
12: Lerneingabebildgruppe
13: Beschriftungsbildgruppe
14: Lernausgabebildgruppe
14S: Lernausgabebild
15: Betriebsvorrichtung
16: Eingabebild
17: Ausgabebild
20: Original-Lerneingabebild
20S: Lerneingabebild
21: Original-Beschriftungsbild
21S: Beschriftungsbild
21SG: unscharfes Bild
30: Speichervorrichtung
30A: Anwendungsprogramm (AP)
31: Speicher
32: CPU
33: Kommunikationseinheit
34: Anzeige
35: Eingabevorrichtung
36: Datenbus
51: Mini-Batch-Datenerzeugungseinheit
52: Lerndaten-Analyseeinheit
53: Lernverfahrens-Bestimmungseinheit
54: Lerneinheit
56: Bewertungseinheit
57: Aktualisierungseinheit
61, 62: Analyseergebnis
ΔP: Differenz
CMP: Bildmerkmalkarte
CNN: faltendes neuronales Netzwerk
DI: Eingabedaten
DI: Ausgabedaten
F: Filter
Icp: Pixel
Ip: interessanter Pixel
U: Einheit

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2012043151 A [0010]

Claims

Lernvorrichtung, die Lerndaten in ein maschinelles Lernmodell, das mehrere Schichten zum Analysieren eines Eingabebilds enthält, eingibt und das maschinelle Lernmodell lernt, wobei das maschinelle Lernmodell ein Modell zum Durchführen von semantischer Segmentierung des Bestimmens mehrerer Klassen in dem Eingabebild in Einheiten von Pixeln durch Extrahieren von Merkmalen, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder von Ortsfrequenzen aufweisen, für jede Schicht ist, wobei die Lernvorrichtung umfasst: eine Lerndaten-Analyseeinheit, die mindestens die Frequenzbänder, die in einem Beschriftungsbild der Lerndaten enthalten sind, analysiert, wobei die Lerndaten ein Paar aus einem Lerneingabebild und dem Beschriftungsbild, in dem jeder Klassenbereich, der in dem Lerneingabebild enthalten ist, durch eine Beschriftung angegeben ist, sind; eine Lernverfahrens-Bestimmungseinheit, die ein Lernverfahren unter Verwendung der Lerndaten auf der Grundlage eines Analyseergebnisses der Frequenzbänder von der Lerndaten-Analyseeinheit bestimmt; und eine Lerneinheit, die das maschinelle Lernmodell durch das bestimmte Lernverfahren unter Verwendung der Lerndaten lernt.
Lernvorrichtung nach Anspruch 1, wobei die Lerndaten-Analyseeinheit das Frequenzband, für das Extraktion des Merkmals von relativ hoher Notwendigkeit ist, unter den Frequenzbändern als ein notwendiges Band durch Analysieren der in dem Beschriftungsbild enthaltenen Frequenzbänder spezifiziert, und die Lernverfahrens-Bestimmungseinheit das maschinelle Lernmodell auf der Grundlage des spezifizierten notwendigen Bands neu konfiguriert.
Lernvorrichtung nach Anspruch 2, wobei bei der Neukonfiguration die Lernverfahrens-Bestimmungseinheit unter den mehreren Schichten eine notwendige Schicht, die zum Lernen notwendig ist, und eine optionale Schicht, die beim Lernen optional ist, auf der Grundlage des spezifizierten notwendigen Bands bestimmt und eine Verarbeitungsmenge der optionalen Schicht so reduziert, dass sie kleiner als eine Verarbeitungsmenge der notwendigen Schicht ist.
Lernvorrichtung nach einem der Ansprüche 1 bis 3, wobei die Lerndaten-Analyseeinheit das Frequenzband, für das Extraktion des Merkmals von relativ hoher Notwendigkeit ist, unter den Frequenzbändern als ein notwendiges Band durch Analysieren der in dem Beschriftungsbild enthaltenen Frequenzbänder spezifiziert, und die Lernverfahrens-Bestimmungseinheit einen Bereich der Frequenzbänder, die in dem Beschriftungsbild enthalten sind, mit einem Bereich der in dem maschinellen Lernmodell analysierbaren Frequenzbänder, abgleicht, indem sie eine Auflösung des Lerneingabebilds auf der Grundlage des spezifizierten notwendigen Bands verringert.
Lernvorrichtung nach einem der Ansprüche 1 bis 4, wobei die Lerndaten-Analyseeinheit die Frequenzbänder analysiert, die in dem Beschriftungsbild und dem Lerneingabebild enthalten sind, und die Lernverfahrens-Bestimmungseinheit das Lernverfahren auf der Grundlage eines Analyseergebnisses des Beschriftungsbilds und eines Analyseergebnisses des Lerneingabebilds bestimmt.
Lernvorrichtung nach einem der Ansprüche 1 bis 5, wobei die Lerndaten-Analyseeinheit eine Bildpyramide, die mehrere Bilder enthält, die durch allmähliches Verringern der Auflösung des Beschriftungsbilds erhalten werden und unterschiedliche Auflösungen aufweisen, erzeugt und die Frequenzbänder, die in dem Beschriftungsbild enthalten sind, auf der Grundlage der Bildpyramide analysiert.
Lernvorrichtung nach einem der Ansprüche 1 bis 6, wobei das maschinelle Lernmodell mit einem faltenden neuronalen Netzwerk, das ein Kodiernetzwerk und ein Dekodiernetzwerk enthält, konfiguriert ist, wobei das Kodiernetzwerk ein Netzwerk ist, das Faltungsverarbeitung des Extrahierens einer Bildmerkmalskarte, die Merkmale darstellt, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder aufweisen, durch Durchführen von Faltungsberechnung unter Verwendung eines Filters durchführt, Pooling-Verarbeitung des Ausgebens der Bildmerkmalskarte mit einer reduzierten Bildgröße durch Berechnen lokaler Statistiken der durch die Faltungsverarbeitung extrahierten Bildmerkmalskarte und Komprimieren der Bildmerkmalskarte durchführt und die Bildmerkmalskarte für jede Schicht durch wiederholtes Durchführen der Faltungsverarbeitung und der Pooling-Verarbeitung an der Bildmerkmalskarte, die in der vorherigen Schicht ausgegeben wird und reduziert ist, in der nächsten Schicht extrahiert, wobei das Dekodiernetzwerk ein Netzwerk ist, das ein Ausgabebild, in dem jeder Klassenbereich segmentiert ist, durch wiederholtes Durchführen von Upsampling-Verarbeitung und von Zusammenführungsverarbeitung erzeugt, wobei die Upsampling-Verarbeitung Verarbeitung des allmählichen Vergrößerns einer Bildgröße der Bildmerkmalskarte durch Upsampling ausgehend von der Bildmerkmalskarte mit minimaler Größe, die in dem Kodiernetzwerk ausgegeben wird, ist und wobei die Zusammenführungsverarbeitung Verarbeitung des Kombinierens der Bildmerkmalskarte, die allmählich vergrößert wird, mit der Bildmerkmalskarte, die für jede Schicht des Kodiernetzwerks extrahiert wird und dieselbe Bildgröße aufweist, ist.
Lernvorrichtung nach einem der Ansprüche 1 bis 7, wobei das Eingabebild ein Zellbild, in dem Zellen erscheinen, ist.
Lernvorrichtung nach einem der Ansprüche 1 bis 8, wobei die Lerndaten-Analyseeinheit die Frequenzbänder auf der Grundlage einer Lerndatengruppe, die mehrere Stücke der Lerndaten enthält, analysiert.
Betriebsprogramm einer Lernvorrichtung, die Lerndaten in ein maschinelles Lernmodell, das mehrere Schichten zum Analysieren eines Eingabebilds enthält, eingibt und das maschinelle Lernmodell lernt, wobei das maschinelle Lernmodell ein Modell zum Durchführen von semantischer Segmentierung des Bestimmens mehrerer Klassen in dem Eingabebild in Einheiten von Pixeln durch Extrahieren von Merkmalen, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder von Ortsfrequenzen aufweisen, für jede Schicht ist, wobei das Betriebsprogramm einen Computer dazu veranlasst, zu fungieren als: eine Lerndaten-Analyseeinheit, die mindestens die Frequenzbänder, die in einem Beschriftungsbild der Lerndaten enthalten sind, analysiert, wobei die Lerndaten ein Paar aus einem Lerneingabebild und dem Beschriftungsbild, in dem jeder Klassenbereich, der in dem Lerneingabebild enthalten ist, durch eine Beschriftung angegeben ist, sind; eine Lernverfahrens-Bestimmungseinheit, die ein Lernverfahren unter Verwendung der Lerndaten auf der Grundlage eines Analyseergebnisses der Frequenzbänder von der Lerndaten-Analyseeinheit bestimmt; und eine Lerneinheit, die das maschinelle Lernmodell durch das bestimmte Lernverfahren unter Verwendung der Lerndaten lernt.
Betriebsverfahren einer Lernvorrichtung, die Lerndaten in ein maschinelles Lernmodell, das mehrere Schichten zum Analysieren eines Eingabebilds enthält, eingibt und das maschinelle Lernmodell lernt, wobei das maschinelle Lernmodell ein Modell zum Durchführen von semantischer Segmentierung des Bestimmens mehrerer Klassen in dem Eingabebild in Einheiten von Pixeln durch Extrahieren von Merkmalen, die in dem Eingabebild enthalten sind und unterschiedliche Frequenzbänder von Ortsfrequenzen aufweisen, für jede Schicht ist, wobei das Betriebsverfahren umfasst: einen Lerndaten-Analyseschritt des Analysierens mindestens der Frequenzbänder, die in einem Beschriftungsbild der Lerndaten enthalten sind, wobei die Lerndaten ein Paar aus einem Lerneingabebild und dem Beschriftungsbild, in dem jeder Klassenbereich, der in dem Lerneingabebild enthalten ist, durch eine Beschriftung angegeben ist, sind; einen Lernverfahrens-Bestimmungsschritt des Bestimmens eines Lernverfahrens unter Verwendung der Lerndaten auf der Grundlage eines Analyseergebnisses der Frequenzbänder in dem Lerndatenanalyseschritt; und einen Lernschritt des Lernens des maschinellen Lernmodells durch das bestimmte Lernverfahren unter Verwendung der Lerndaten.