DE102019007196A1

DE102019007196A1 - Identifizieren von Zielobjekten unter Nutzung der skalierungsdiversen Segmentierung dienender neuronaler Netzwerke

Info

Publication number: DE102019007196A1
Application number: DE102019007196.4A
Authority: DE
Inventors: Scott Cohen; Long Mai; Jun Hao Liew; Brian Price
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2018-12-24
Filing date: 2019-10-16
Publication date: 2020-06-25
Also published as: GB2583794B; US20220207745A1; AU2019250107B2; US11282208B2; GB201915436D0; US20200202533A1; GB2583794A; AU2019250107A1; CN111353999A

Abstract

Die vorliegende Offenbarung betrifft Systeme, nichttemporäre computerlesbare Medien und Verfahren zum Trainieren und Einsetzen von der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerken zum Analysieren von Digitalbildern bei verschiedenen Skalierungen und Identifizieren von verschiedenen Zielobjekten, die in den Digitalbildern abgebildet sind. Bei einer oder mehreren Ausführungsformen analysieren die offenbarten Systeme beispielsweise ein Digitalbild und entsprechende Nutzerindikatoren (beispielsweise Vordergrundindikatoren, Hintergrundindikatoren, Kantenindikatoren, Begrenzungsbereichsindikatoren und/oder Stimmindikatoren) bei verschiedenen Skalierungen unter Einsatz eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes. Insbesondere können die offenbarten Systeme das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk zum Generieren mehrerer semantisch sinnvoller Objektsegmentierungsausgaben einsetzen. Zudem können die offenbarten Systeme die mehreren Objektsegmentierungsausgaben zur Anzeige und Auswahl zur Verbesserung der Effizienz und Genauigkeit des Identifizierens von Zielobjekten und Modifizierens des Digitalbildes bereitstellen.

Description

Hintergrund
In den letzten Jahren gab es beträchtliche Entwicklungen bei Hardware- und Softwareplattformen zum Identifizieren und Bearbeiten von in Digitalbildern abgebildeten Objekten. Herkömmliche Digitalbildbearbeitungssysteme können ein in einem Digitalbild abgebildetes Objekt auswählen das Digitalbild sodann auf Grundlage der Auswahl modifizieren (beispielsweise das in dem Digitalbild abgebildete Objekt modifizieren oder das in dem Digitalbild abgebildete Objekt auf einem anderen Hintergrundbild platzieren). Darstellungshalber können herkömmliche Digitalbildbearbeitungssysteme Modelle maschinellen Lernens einsetzen, die an großen Sammlungen von etikettierten Digitalbildern trainiert worden sind, um eine Nutzerauswahl eines oder mehrerer Vordergrundpixel (beispielsweise mittels eines Pixelauswahlwerkzeuges oder eines Digitallassowerkzeuges) zu analysieren und sodann ein Objekt entsprechend dem Vordergrundpixel zur Bearbeitung zu identifizieren.
Obwohl herkömmliche Digitalbildsysteme ein in einem Digitalbild abgebildetes Objekt identifizieren können, weisen diese Systeme immer noch eine Anzahl von Mängeln mit Blick auf Genauigkeit und Effizienz auf. Mit Blick auf die Genauigkeit identifizieren beispielsweise herkömmliche Digitalbildbearbeitungssysteme in Digitalbildern abgebildete Objekte oftmals nicht korrekt. Da viele Digitalbilder eine Vielzahl von verschiedenen Objekten abbilden, sind mehrere mögliche Modi/Auswahlen vorhanden, die bei einem gegebenen Satz von Klicks gleichermaßen plausibel sind. Im Ergebnis identifizieren herkömmliche Systeme Objekte oftmals ungenau (sie wählen beispielsweise Objekte aus, die Nutzer nicht auswählen möchten). In Reaktion auf die Nutzerangabe eines Pixels innerhalb eines Logos eines Hemdes einer in einem Digitalbild abgebildeten Person ist beispielsweise eine Mehrdeutigkeit dahingehend vorhanden, ob der Nutzer das Logo, das Hemd oder die Person auswählen möchte. Herkömmliche Digitalbildbearbeitungssysteme wählen infolge dieser latenten Mehrdeutigkeit oftmals das nicht korrekte Objekt aus.
Zusätzlich weisen herkömmliche Digitalbildbearbeitungssysteme auch mit Blick auf die Effizienz eine Anzahl von Mängeln auf. Herkömmliche Digitalbildbearbeitungssysteme benötigen beispielsweise oftmals eine beträchtliche Anzahl von Nutzerinteraktionen (und eine beträchtliche Zeitdauer), um ein in einem Digitalbild abgebildetes Objekt auszuwählen. Herkömmliche Digitalbildbearbeitungssysteme benötigen gegebenenfalls eine große Anzahl von verschiedenen Eingaben von Vordergrund- und/oder Hintergrundpixeln, um Pixel entsprechend einem in einem Digitalbild abgebildeten Objekt genau zu identifizieren. Darstellungshalber benötigen herkömmliche Digitalbildbearbeitungssysteme, um ein Hemd, das von einer in einem Digitalbild abgebildeten Person getragen wird, zu isolieren und auszuwählen, gegebenenfalls eine große Anzahl von Nutzereingaben, um zwischen Vordergrundpixeln des gewünschten Hemdes und Hintergrundpixeln zu unterscheiden. Dieses Problem wird noch verschärft, wenn gewünschte Objekte ähnliche visuelle Merkmale und Eigenschaften relativ zu Hintergrundobjekten aufweisen (beispielsweise ein Digitalbild eines Baumes vor Büschen im Hintergrund).
Des Weiteren setzen, wie vorstehend erwähnt worden ist, einige Digitalbildbearbeitungssysteme Modelle maschinellen Lernens ein, die auf Grundlage von großen Sammlungen von Trainingsdigitalbildern trainiert worden sind, um in Digitalbildern abgebildete Objekte zu identifizieren. Das Aufbauen und Verwalten von Trainingsdigitalbildsammlungen mit entsprechenden Ground-Truth-Masken erfordert beträchtliche Rechenressourcen und Rechenzeit und verringert die Effizienz von herkömmlichen Systemen weiter. Einige Digitalbildbearbeitungssysteme möchten diesen rechentechnischen Aufwand vermeiden, indem sie Modelle einsetzen, die Regeln oder Heuristiken zur Auswahl von Objekten codieren. Diese Konzepte nichtmaschinellen Lernens bringen jedoch zusätzliche Probleme hinsichtlich Effizienz und Genauigkeit mit sich. Derartige Systeme sind auf handgemachte und auf niedriger Ebene gegebene Merkmale beschränkt, was zu einer ineffektiven Auswahl von verschiedenen Objekten mit übermäßig vielen Nutzerinteraktionen führt.
Diese und weitere Probleme sind beim Identifizieren von Objekten in digitalen visuellen Medien vorhanden.
Kurze Zusammenfassung
Ausführungsformen der vorliegenden Offenbarung bieten Vorteile und/oder lösen eines oder mehrere der vorbeschriebenen Probleme oder auch andere Probleme im Stand der Technik bei Systemen, nichttemporären, computerlesbaren Medien und Verfahren zum Trainieren und Einsetzen von neuronalen Netzwerken, um mehrere mögliche Objekte mit Abbildung in Digitalmedien bei verschiedenen Skalierungen zu identifizieren. Insbesondere können die offenbarten Systeme ein neuronales Netzwerk / neuronale Netzwerke einsetzen, um einen Satz von skalierungsvariierenden Segmentierungsvorschlägen auf Grundlage einer Nutzereingabe zu erzeugen. Insbesondere können die offenbarten Systeme, wenn ein Bild und Nutzerinteraktionen gegeben sind, einen diversen Satz von Segmentierungen bei verschiedenen Skalierungen generieren, aus denen ein Nutzer ein gewünschtes Ergebnis auswählen kann.
Zum Trainieren und Bewerten eines derartigen Modells können die offenbarten Systeme eine Trainingspipeline verwenden, die diverse Trainingsabtastungen synthetisiert und dabei nicht das Sammeln oder Generieren von neuen Trainingsdatensätzen erfordert. Insbesondere können die offenbarten Systeme eine Trainingseingabeabtaststrategie einsetzen, die mehrdeutige Nutzereingaben simuliert, bei denen mehrere mögliche Segmentierungen gleichermaßen plausibel sind. Auf diese Weise kann das offenbarte System das Modell explizit zu genauerer Lerndiversität bei der Segmentierungsgenerierung bringen. Entsprechend können die offenbarten Systeme Trainingsdaten einer mehrdeutigen Abtaststrategie generieren, um ein neuronales Netzwerk dafür zu trainieren, mehrere semantisch signifikante Segmentierungsausgaben (bei verschiedenen Skalierungsvariationen) zu generieren.
Zusätzliche Merkmale und Vorteile einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung werden in der nachfolgenden Beschreibung dargestellt, erschließen sich teilweise aus der Beschreibung oder können sich durch die praktische Umsetzung derartiger exemplarischer Ausführungsformen ergeben.
Figurenliste
Die Detailbeschreibung stellt eine oder mehrere Ausführungsformen mit zusätzlicher Spezifität und Detailliertheit unter Nutzung der begleitenden Zeichnung bereit, die nachstehend kurz beschrieben wird.

1A zeigt eine Übersicht über ein herkömmliches Segmentierungskonzept.
1B zeigt eine Übersicht über die Nutzung eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes zum Generieren mehrerer Objektsegmentierungsausgaben aus einem Digitalbild entsprechend einer oder mehreren Ausführungsformen.
2A bis 2C zeigen Digitaleingaben, Schichten und Ausgaben eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes, das mehrere Kanäle zum Generieren mehrerer Objektsegmentierungsausgaben entsprechend mehreren Skalierungen einsetzt, entsprechend einer oder mehreren Ausführungsformen.
3 zeigt ein schematisches Diagramm zum Trainieren eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
4 zeigt eine Darstellung einer eindeutigen bzw. definitiven Abtastung und einer mehrdeutigen Abtastung entsprechend einer oder mehreren Ausführungsformen.
5A bis 5C zeigen das Generieren von eindeutigen Positivabtastungen, eindeutigen Negativabtastungen, eindeutigen Ground-Truth-Segmentierungen, mehrdeutigen Positivabtastungen, mehrdeutigen Negativabtastungen und mehrdeutigen Ground-Truth-Segmentierungen entsprechend einer oder mehreren Ausführungsformen.
6 zeigt ein schematisches Diagramm des Identifizierens einer Ground-Truth-Skalierung für eine Ground-Truth-Segmentierung entsprechend einer oder mehreren Ausführungsformen.
7 zeigt ein schematisches Diagramm eines der mehrstufigen skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
8 zeigt ein schematisches Diagramm eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes mit einem dem Skalierungsvorschlagen dienenden neuronalen Netzwerk zum Generieren der Eingabeskalierungen entsprechend einer oder mehreren Ausführungsformen.
9A bis 9C zeigen eine Rechenvorrichtung mit einer grafischen Nutzerschnittstelle, die Nutzerschnittstellenelemente zum Identifizieren einer Eingabe von Nutzerindikatoren und von verschiedenen Skalierungen und Bereitstellen von Objektsegmentierungsausgaben entsprechend den verschiedenen Skalierungen zur Anzeige beinhaltet, entsprechend einer oder mehreren Ausführungsformen.
10A bis 10D zeigen eine Rechenvorrichtung mit einer Grafiknutzerschnittstelle, die Nutzerschnittstellenelemente zum Identifizieren von Nutzerindikatoren und Bereitstellen von Objektsegmentierungsausgaben entsprechend verschiedenen Skalierungen zur Anzeige beinhaltet, entsprechend einer oder mehreren Ausführungsformen.
11 zeigt ein schematisches Diagramm einer exemplarischen Umgebung, in der ein Digitalobjektauswahlsystem implementiert ist, entsprechend einer oder mehreren Ausführungsformen.
12 zeigt ein schematisches Diagramm des Digitalobjektauswahlsystems entsprechend einer oder mehreren Ausführungsformen.
13 zeigt ein Flussdiagramm einer Abfolge von Vorgängen zum Einsetzen eines trainierten der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes zum Generieren von Objektsegmentierungsausgaben entsprechend einer oder mehreren Ausführungsformen.
14 zeigt ein Flussdiagramm einer Abfolge von Vorgängen zum Trainieren eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes zum Generieren von Objektsegmentierungsausgaben entsprechend einer oder mehreren Ausführungsformen.
15 zeigt ein Blockdiagramm einer exemplarischen Rechenvorrichtung zum Implementieren einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung.

Detailbeschreibung
Die vorliegende Offenbarung beschreibt eine oder mehrere Ausführungsformen eines Digitalobjektauswahlsystems, das der skalierungsdiversen Segmentierung dienende neuronale Netzwerke dafür trainiert und einsetzt, Digitalbilder bei verschiedenen Skalierungen zu analysieren und verschiedene in den Digitalbildern abgebildete Zielobjekte zu identifizieren. Insbesondere kann das Digitalobjektauswahlsystem ein der einstufigen oder mehrstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk einsetzen, um mehrere Objektsegmentierungsausgaben bei verschiedenen Skalierungen auf Grundlage einer minimalen Nutzereingabe vorzuschlagen. Das Digitalobjektauswahlsystem kann die Zielobjektauswahl verbessern, indem es Nutzern ermöglicht, eine vorgeschlagene Auswahl unter semantisch sinnvollen Alternativen, die in Bezug auf eine Skalierung definiert sind, zu wählen, was zu einer verbesserten Deutung einer jeden Ausgabe und Identifikation von Zielobjekten nach lediglich einigen wenigen Nutzerinteraktionen führt.
Darüber hinaus kann das Digitalobjektauswahlsystem der skalierungsdiversen Segmentierung dienende neuronale Netzwerke effizient trainieren, indem es die Segmentierungsdiversität durch Konzepte mit eindeutiger Abtastung und mehrdeutiger Abtastung explizit fördert. Auf diese Weise kann das Digitalobjektauswahlsystem Mehrdeutigkeit, die bei Nutzerindikatoren/Nutzereingaben entsteht, simulieren und Diversität bei der Segmentierungsgenerierung erlernen. Das Objektauswahlsystem kann daher ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk effizient dafür trainieren und einsetzen, eine Mehrdeutigkeit aufzulösen und Zielobjekte innerhalb von Digitalbildern mit minimalen Nutzereingaben genau auszuwählen.
Illustrationshalber empfängt das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen ein Digitalbild (das ein Zielobjekt abbildet) und einen Nutzerindikator (beispielsweise einen Vordergrundklick, einen Hintergrundklick und/oder einen Kantenklick entsprechend dem Zielobjekt). In Reaktion hierauf kann das Digitalobjektauswahlsystem ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk einsetzen, um mehrere Objektsegmentierungsausgaben zu generieren. Insbesondere kann das Digitalobjektauswahlsystem das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk dafür einsetzen, eine erste Objektsegmentierungsausgabe bei einer ersten Skalierung auf Grundlage des Digitalbildes und des Nutzerindikators zu generieren. Darüber hinaus kann das Digitalobjektauswahlsystem das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk dafür einsetzen, eine zweite Objektsegmentierungsausgabe bei einer zweiten Skalierung auf Grundlage des Digitalbildes und des Nutzerindikators zu generieren. Optional kann das Digitalobjektauswahlsystem dritte, vierte, fünfte oder noch mehr Objektsegmentierungsausgaben generieren. Wie erwähnt worden ist, kann das Digitalobjektauswahlsystem die Objektsegmentierungsausgaben mit variierender Skalierung zur Anzeige bereitstellen, was einer Clientvorrichtung ermöglicht, die Objektsegmentierungsausgabe mit Abstimmung auf ein oder mehrere Zielobjekte oder andere gewünschte Ausgaben auszuwählen.
Wie eben erwähnt worden ist, kann das Digitalobjektauswahlsystem Segmentierungen auf Grundlage von Nutzerindikatoren entsprechend in Digitalbildern abgebildeten Zielobjekten generieren. Insbesondere kann das Digitalobjektauswahlsystem eine Vielzahl von Nutzereingaben analysieren, die angeben, wie ein oder mehrere Pixel zu in den Digitalbildern abgebildeten Zielobjekten in Beziehung stehen. Das Digitalobjektauswahlsystem kann beispielsweise Vordergrundindikatoren (beispielsweise Vordergrundklicks), Hintergrundindikatoren, Kantenindikatoren, Begrenzungsbereichsindikatoren (beispielsweise ein Begrenzungskästchen) und/oder Verbalindikatoren, die mittels einer Clientvorrichtung bereitgestellt werden, analysieren. Das Digitalobjektauswahlsystem kann Objektsegmentierungsauswahlen sodann auf Grundlage dieser mehreren Nutzereingabenmodi und des Digitalbildes generieren.
Wie vorstehend erläutert worden ist, sind Nutzerindikatoren/Eingaben oftmals mehrdeutig. Das Digitalobjektauswahlsystem kann diese Mehrdeutigkeit auflösen, indem es bei Objektsegmentierungsausgaben, die in Bezug auf eine Skalierung definiert sind, Diversität generiert. Das Digitalobjektauswahlsystem kann beispielsweise verschiedene Skalierungen in Bezug auf Größe und Seitenverhältnisse definieren. Trainieren und einsetzen kann das Digitalobjektauswahlsystem ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk, das mehrere Segmentierungsausgaben generiert, die verschiedenen Skalierungsankerkästchen verschiedener Größen und Seitenverhältnisse entsprechen (beispielsweise in diese hineinpassen). Das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk kann beispielsweise Segmentierungsmasken und/oder Segmentierungsbegrenzungen generieren, die verschiedene Objekte (oder Objektgruppierungen) mit Abbildung in einem Digitalbild in Bezug auf verschiedene Skalierungen angeben.
Bei einer oder mehreren Ausführungsformen kann das Digitalobjektauswahlsystem zudem mehr semantisch sinnvolle Objektsegmentierungsausgaben generieren, indem es ein Objektverifikationsmodell als Teil des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes anwendet. Das Digitalobjektauswahlsystem kann beispielsweise einen trainierten Objektklassifizierer in die Architektur eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes integrieren, um (über einen Objektkennwert) zu bestimmen, dass vorgeschlagene Objektsegmentierungsausgaben in Digitalbildern abgebildete Objekte oder anderweitige semantisch sinnvolle Ergebnisse wiedergeben.
Beim Generieren von Objektsegmentierungsausgaben kann das Digitalobjektauswahlsystem die Objektsegmentierungsausgaben zur Anzeige über eine Clientvorrichtung bereitstellen. Das Digitalobjektauswahlsystem kann beispielsweise verschiedene Objektsegmentierungsausgaben zur Anzeige über eine Clientvorrichtung bereitstellen, um einem Nutzer zu ermöglichen, die Objektsegmentierungsausgabe mit Abstimmung auf ein Zielobjekt oder eine andere gewünschten Ausgabe zu identifizieren. Auf Grundlage einer Nutzerauswahl einer Objektsegmentierungsausgabe kann das Digitalobjektauswahlsystem das entsprechende Zielobjekt auswählen (und das Digitalbild auf Grundlage des Zielobjektes modifizieren).
Das Digitalobjektauswahlsystem kann der einstufigen oder mehrstufigen skalierungsdiversen Segmentierung dienende neuronale Netzwerke einsetzen. Bei einer oder mehreren Ausführungsformen setzt das Digitalobjektauswahlsystem beispielsweise ein der einstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk ein, das mehrere Ausgabekanäle entsprechend mehreren (vordefinierten) Skalierungen beinhaltet. Durch Einsetzen von verschiedenen Ausgabekanälen, die darauf trainiert sind, Objektsegmentierungsausgaben bei verschiedenen Skalierungen zu identifizieren, kann das der einstufigen skalierungsdiversen Segmentierung dienende neuronale Netzwerk mehrere Objektsegmentierungsausgaben in einem einzigen Durchlauf generieren.
Bei anderen Ausführungsformen kann das Digitalobjektauswahlsystem ein der mehrstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk einsetzen. Insbesondere kann das Digitalobjektauswahlsystem ein der mehrstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk einsetzen, das dafür trainiert ist, einen kontinuierlichen Bereich von Eingabeskalierungen (beispielsweise anstelle der vordefinierten Eingabeskalierungen über verschiedene Skalierungskanäle) zu analysieren. Das Digitalobjektauswahlsystem kann beispielsweise ein der mehrstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk einsetzen, das eine zusätzliche Skalierungseingabeebene aufweist, um eine Skalierungseingabe, die eine für die Skalierungseingabe spezifische Objektsegmentierungsausgabe generiert, zu analysieren. Das Digitalobjektauswahlsystem kann eine Vielzahl von verschiedenen Objektsegmentierungsausgaben auf Grundlage verschiedener Skalierungseingaben generieren.
Das Digitalobjektauswahlsystem kann verschiedene Skalierungseingaben identifizieren und verschiedene Objektsegmentierungsausgaben auf Grundlage einer Nutzereingabe und/oder auf Grundlage eines dem Skalierungsvorschlagen dienenden neuronalen Netzwerkes generieren. Bei einer oder mehreren Ausführungsformen stellt das Digitalobjektauswahlsystem beispielsweise ein Nutzerschnittstellenelement zum Empfangen von Skalierungseingaben von einem Nutzer (beispielsweise über einen Skalierungseingabeschieber oder ein Zeitgebereingabeelement, das die Skalierung auf Grundlage einer Nutzereingabezeit erweitert) bereit. Bei anderen Ausführungsformen kann das Digitalobjektauswahlsystem ein trainiertes dem Skalierungsvorschlagen dienendes neuronales Netzwerk einsetzen, das ein Digitalbild und Nutzerindikatoren zum Generieren von Eingabeskalierungen analysiert.
Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem zudem ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk effizient trainieren. Insbesondere kann das Digitalobjektauswahlsystem ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk unter Nutzung eines Konzeptes des überwachten Trainings auf Grundlage von Ground-Truth-Segmentierungen entsprechend bestimmten Skalierungen und Trainingsindikatoren innerhalb von Trainingsdigitalbildern trainieren. Zusätzlich kann das Digitalobjektauswahlsystem Trainingsdaten aus bestehenden Trainingssammlungen generieren. Das Digitalobjektauswahlsystem kann beispielsweise Positiv- und Negativabtastungen aus bestehenden Trainingsbildern generieren. Darüber hinaus kann das Digitalobjektauswahlsystem eindeutige Abtastungen und mehrdeutige Abtastungen generieren. Das Digitalobjektauswahlsystem kann beispielsweise eindeutige Abtastungen generieren, indem es Trainingsindikatoren aus Vordergrund- und Hintergrundpixeln, die eine einzige Ground-Truth-Segmentierung definieren, sammelt. Das Digitalobjektauswahlsystem kann mehrdeutige Abtastungen generieren, indem es Trainingsindikatoren aus gemeinsamen Vordergrund- und/oder gemeinsamen Hintergrundpixeln entsprechend mehreren Ground-Truth-Segmentierungen sammelt.
Das Digitalobjektauswahlsystem bietet eine Vielzahl von Vorteilen und Fähigkeiten gegenüber herkömmlichen Systemen und Verfahren, Indem beispielsweise mehrere Objektsegmentierungsausgaben auf verschiedenen Skalierungsebenen generiert werden, kann das Digitalobjektauswahlsystem die Genauigkeit beim Identifizieren von Zielobjekten in Digitalbildern verbessern. Da Nutzerindikatoren/Eingaben oftmals in Bezug auf verschiedene Kombinationen von Objekten in einem Digitalbild mehrdeutig sind, kann das Digitalobjektauswahlsystem mehrere Objektsegmentierungsausgaben generieren, um die Segmentierung, die auf Zielobjekte genau abgestimmt ist, zu identifizieren. Das Digitalobjektauswahlsystem ermöglicht einem Nutzer, diejenige Segmentierung, die am nächsten an der gewünschten Ausgabe ist, zu wählen und bei Bedarf eine zusätzliche Verfeinerung bereitzustellen. Darüber hinaus lernt das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen unter Einsatz eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes eine Deep-Darstellung, die beim Verstehen des semantischen Contents des Bildes im Vergleich zu handgemachten auf niedriger Ebene gegebenen Merkmalen geeigneter ist.
Zusätzlich kann das Digitalobjektauswahlsystem auch die Effizienz relativ zu herkömmlichen Systemen verbessern. So kann das Digitalobjektauswahlsystem ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk dafür einsetzen, Nutzerindikatoren entsprechend einem Digitalbild bei verschiedenen Skalierungen zu analysieren, um einen Satz von Objektsegmentierungsausgaben zu generieren. Indem der Satz von Objektsegmentierungsausgaben zur Nutzerinteraktion bereitgestellt wird, kann das Digitalobjektauswahlsystem eine effiziente Auswahl einer Objektsegmentierung, die in dem Digitalbild abgebildeten bestimmten Zielobjekten entspricht, mit minimaler Nutzereingabe ermöglichen. So kann das Digitalobjektauswahlsystem den Auswahlprozess für Nutzer vereinfachen, indem es einem Nutzer ermöglicht, nach lediglich einigen wenigen Klicks (oder sogar einem einzigen Klick) aus einem Satz von vorgeschlagenen Auswahlen zu wählen.
Darüber hinaus kann das Digitalobjektauswahlsystem zusätzliche Effizienz beim Trainieren von der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerken bereitstellen. Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk unter Einsatz von bestehenden Trainingsdaten trainieren, was die Verarbeitungsleistung und die Zeit, die für den Aufbau eines etikettierten Trainingsdatensatzes erforderlich sind, verringert. Unter Nutzung von eindeutigen und/oder mehrdeutigen Trainingsabtastungen kann das Digitalobjektauswahlsystem des Weiteren die Effizienz verbessern und verbessert dabei zudem die Leistung beim Generieren von unterscheidbaren, diversen, semantisch relevanten Segmentierungen in Bezug auf verschiedene Skalierungen.
Wie aus der vorstehenden Diskussion hervorgeht, setzt die vorliegende Offenbarung eine Vielzahl von Begriffen zur Beschreibung von Merkmalen und Vorteilen des Digitalobjektauswahlsystems ein. Im Zusammenhang mit der Bedeutung derartiger Begriffe werden nunmehr zusätzliche Details angegeben. Im Sinne des Vorliegenden bezeichnet der Begriff „neuronales Netzwerk“ beispielsweise ein Modell maschinellen Lernens, das auf Grundlage von Eingaben abgestimmt (beispielsweise trainiert) werden kann, um unbekannte Funktionen anzunähern. Insbesondere kann ein neuronales Netzwerk ein Modell von wechselseitig verbundenen künstlichen Neuronen (in verschiedenen Schichten) beinhalten, die kommunizieren und lernen, komplexe Funktionen anzunähern und Ausgaben auf Grundlage mehrerer für das Modell bereitgestellter Eingaben zu generieren. Ein neuronales Netzwerk kann beispielsweise faltungstechnische neuronale Deep-Netzwerke (Convolutional Neural Networks „CNNs“), vollständig faltungstechnische neuronale Netzwerke (Fully Convolutional Neural Networks „FCNs“) oder rekurrente neuronale Netzwerke (Recurrent Neural Networks „RNNs“) beinhalten. Mit anderen Worten, ein neuronales Netzwerk ist ein Algorithmus, der Techniken des Deep Learning, das heißt des maschinellen Lernens, implementiert, bei denen ein Satz von Algorithmen eingesetzt wird, um das Modellieren von auf hoher Ebene gegebenen Abstraktionen bei Daten zu versuchen.
Darüber hinaus bezeichnet ein „der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk“ im Sinne des Vorliegenden ein neuronales Netzwerk, das Objektsegmentierungsausgaben für ein Digitalbild auf Grundlage einer Skalierung generiert. Insbesondere beinhaltet ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk ein vollständig faltungstechnisches neuronales Netzwerk, das Nutzerindikatoren (beispielsweise in Form von Abstandskarteneingabekanälen) zusammen mit einem Digitalbild (beispielsweise in Form von RGB-Eingabekanälen) bei verschiedenen Skalierungen (beispielsweise Ankerbereiche, so beispielsweise Ankerkästchen) analysiert, um Objektsegmentierungsausgaben (beispielsweise Segmentierungsbegrenzungen und Segmentierungsmasken) zu generieren.
Im Sinne des Vorliegenden bezeichnet der Begriff „dem Skalierungsvorschlagen dienendes neuronales Netzwerk“ ein neuronales Netzwerk, das verschiedene Skalierungen generiert. Insbesondere beinhaltet ein dem Skalierungsvorschlagen dienendes neuronales Netzwerk ein neuronales Netzwerk, das Eingabedigitalbilder und Nutzerindikatoren analysiert und mehrere vorgeschlagene Skalierungen generiert. Das Digitalobjektauswahlsystem kann beispielsweise ein dem Skalierungsvorschlagen dienendes neuronales Netzwerk dafür einsetzen, eine oder mehrere Skalierungen zu generieren, die von einem der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerk dafür eingesetzt werden, ein Digitalbild zu analysieren.
Im Sinne des Vorliegenden bezeichnet der Begriff „Objektverifikationsmodell“ einen computerimplementierten Algorithmus, der eine Angabe dahingehend bestimmt, dass eine Skalierung einem oder mehreren Objekten entspricht. Insbesondere beinhaltet ein Objektverifikationsmodell Schichten eines neuronalen Netzwerkes, die einen Objektkennwert vorhersagen, der angibt, ob eine bestimmte Skalierungskonfiguration Objekte enthält. Ein Objektverifikationsmodell kann beispielsweise ein für einen Objektklassifizierer gegebenes neuronales Netzwerk beinhalten, das einen Objektkennwert bestimmt, der angibt, ob eine Objektsegmentierungsausgabe bei einer bestimmten Skalierung vollständige oder in Teilen gegebene Objekte beinhaltet.
Im Sinne des Vorliegenden bezeichnet der Begriff „Digitalbild“ eine beliebige digitale visuelle Darstellung (beispielsweise ein Digitalsymbol, ein Bild, einen Icon oder eine Illustration). Der Begriff „Digitalbild“ beinhaltet beispielsweise Digitaldateien mit den nachfolgenden Dateierweiterungen: JPG, TIFF, BMP, PNG, RAW oder PDF. Ein Digitalbild kann einen Teil oder Abschnitt anderer digitaler visueller Medien beinhalten. Ein Digital bzw. Digitalbild kann beispielsweise ein oder mehrere Frames eines Digitalvideos beinhalten. Entsprechend können Digitalbilder auch Digitaldateien mit den nachfolgenden Dateierweiterungen beinhalten FLV, GIF, MOV, QT, AVI, WMV, MP4, MPG, MPEG oder M4V. Obwohl viele exemplarische Ausführungsformen anhand von Digitalbildern beschrieben werden, kann das Digitalobjektauswahlsystem auch Objekte in Frames von Digitalvideos auswählen.
Im Sinne des Vorliegenden bezeichnet der Begriff „Objekt“ einen Gegenstand, ein Design bzw. eine Gestaltung, eine Person oder eine Sache. Insbesondere beinhaltet der Begriff „Objekt“ eine Person oder eine Sache, die in einem Digitalbild abgebildet (dargestellt) ist. Ein Objekt kann weitere Objekte beinhalten. Eine Person (das heißt ein Objekt) in einem Digitalbild kann beispielsweise ein Hemd, eine Hose, Schuhe, ein Gesicht und dergleichen beinhalten. Auf ähnliche Weise kann eine Gruppe von Tieren in einem Digitalbild mehrere einzelne Tiere beinhalten. Im Sinne des Vorliegenden bezeichnet der Begriff „Zielobjekt“ darüber hinaus ein in einem Digitalbild abgebildetes Objekt, das identifiziert oder ausgewählt werden soll. Der Begriff „Zielobjekt“ beinhaltet beispielsweise ein in einem Digitalbild wiedergegebenes Objekt, das ein Nutzer identifizieren oder auswählen möchte.
Im Sinne des Vorliegenden bezeichnet der Begriff „Nutzerindikatoren“ eine Nutzereingabe in Bezug auf ein Zielobjekt eines Digitalbildes (beispielsweise Nutzerauswahlen eines oder mehrerer Pixel). Insbesondere beinhaltet der Begriff „Nutzerindikatoren“ eine Nutzereingabe, die ein oder mehrere Pixel eines Digitalbildes und eine Angabe darüber angibt, wie das eine oder die mehreren angegebenen Pixel einem in dem Digitalbild abgebildeten Zielobjekt entsprechen. Beinhalten können Nutzerindikatoren beispielsweise Positivindikatoren (auch Vordergrundindikatoren genannt, so beispielsweise einen Klick auf oder ein Wischen über Vordergrundpixel eines Zielobjektes), Negativindikatoren (auch Hintergrundindikatoren genannt, so beispielsweise einen Klick auf oder ein Wischen über Hintergrundpixel, die nicht als Teil eines Zielobjektes beinhaltet sind), Kantenindikatoren (beispielsweise einen Klick entlang einer Begrenzung oder Kante zwischen einem Zielobjekt und dem Hintergrund), Begrenzungsbereichsindikatoren (beispielsweise eine Nutzereingabe eines Begrenzungskästchens oder einer anderen Form, die ein Zielobjekt umschließt) oder einen Verbalindikator (beispielsweise eine Verbaleingabe, so beispielsweise eine Texteingabe oder eine gesprochene Eingabe, die Pixel eines Zielobjektes angibt).
Im Sinne des Vorliegenden bezeichnet der Begriff „Objektsegmentierungsausgabe“ (oder „Segmentierung“ oder „Objektsegmentierung“) eine Angabe mehrerer Pixel, die ein oder mehrere Objekte abbilden. Eine Objektsegmentierungsausgabe kann beispielsweise eine Segmentierungsbegrenzung (beispielsweise eine Begrenzungslinie oder Kurve, die eine Kante eines oder mehrerer Objekte angibt) oder eine Segmentierungsmaske (beispielsweise eine Binärmaske, die Pixel entsprechend einem Objekt identifiziert) beinhalten.
Im Sinne des Vorliegenden bezeichnet der Begriff „Skalierung“ eine Angabe eines Relativabschnittes, einer Größe, eines Ausmaßes oder Grades. Insbesondere beinhaltet eine Skalierung eine Angabe eines Abschnittes, einer Größe, eines Ausmaßes oder Grades eines Digitalbildes. Der Begriff „Skalierung“ kann beispielsweise einen Ankerbereich (beispielsweise ein Ankerkästchen oder einen Ankerkreis) einer bestimmten Größe, Form und/oder Dimension bzw. Abmessung beinhalten. Darstellungshalber kann eine Skalierung ein eine bestimmte Größe (beispielsweise Fläche oder Abmessung bzw. Dimension) und ein bestimmtes Seitenverhältnis aufweisendes Ankerkästchen beinhalten, das einen Abschnitt eines Digitalbildes definiert. Auf ähnliche Weise kann eine Skalierung einen einen bestimmten Radius aufweisenden Ankerkreis (oder eine andere Form), der einen Abschnitt eines Digitalbildes definiert, beinhalten.
Im Sinne des Vorliegenden bezeichnet der Begriff „Training“ einen Modifizierer, um Informationen, Daten oder Objekte, die für das Trainieren eines neuronalen Netzwerkes eingesetzt werden, zu beschreiben. Ein Trainingsdigitalbild, das ein Trainingsobjekt abbildet, bezeichnet beispielsweise ein Digitalbild, das ein Objekt abbildet, das zum Trainieren eines neuronalen Netzwerkes eingesetzt wird (beispielsweise ein Objekt oder eine Sammlung von einzelnen Objekten entsprechend einer Ground-Truth-Maske). Auf ähnliche Weise bezeichnen Trainingsindikatoren Nutzerindikatoren (oder Abtastungen, die Nutzerindikatoren annähern), die zum Trainieren eines neuronalen Netzwerkes benutzt werden. Beinhalten können Trainingsindikatoren, wie nachstehend beschrieben wird, eindeutige Indikatoren (bisweilen eindeutige Abtastungen genannt, die Trainingsindikatoren bezeichnen, die eine bestimmte Objektsegmentierung in einem Digitalbild angeben) und/oder mehrdeutige Indikatoren (bisweilen mehrdeutige Abtastungen genannt, die Trainingsindikatoren bezeichnen, die mehrere mögliche Objektsegmentierungen in einem Digitalbild angeben). Auf ähnliche Weise bezeichnet der Begriff „Ground-Truth-Segmentierung“ eine Segmentierung (beispielsweise eine Ground-Truth-Begrenzung oder eine Ground-Truth-Maske), die Pixel eines Trainingsobjektes angibt.
Zusätzliche Details im Zusammenhang mit verschiedenen Ausführungsformen des Digitalobjektauswahlsystems werden nunmehr anhand illustrativer Figuren angegeben. Wie vorstehend erläutert worden ist, kann das Digitalobjektauswahlsystem beispielsweise die Effizienz und Genauigkeit im Vergleich zu herkömmlichen Systemen verbessern, indem es mehrere skalierungsvariierende Objektsegmentierungsausgaben generiert. 1A und 1B stellen das Anwenden eines herkömmlichen Konzeptes zum Identifizieren eines Zielobjektes in einem Digitalbild einer oder mehreren Ausführungsformen des Digitalobjektauswahlsystems gegenüber.
Insbesondere zeigt 1A ein Digitalbild 100 und einen entsprechenden Nutzerindikator 101 (das heißt einen Vordergrund- (oder Positiv-)Indikator). Wie gezeigt ist, stellen herkömmliche Systeme das Digitalbild 100 und den Nutzerindikator für ein Modell 102 bereit, das eine Segmentierung 104 von drei Hunden, die in dem Digitalbild 100 abgebildet sind, identifiziert. Wie in 1A dargestellt ist, enthält das Digitalbild 100 jedoch mehrere verschiedene Objekte, und der Nutzerindikator 101 ist dahingehend mehrdeutig, welche Kombination der verschiedenen Objekte als Zielobjekt erwünscht ist. So bildet das Digitalbild 100 drei verschiedene Hunde ab, die auf einer Decke in einem Bett liegen. Entsprechend kann der Nutzerindikator 101 einen Wunsch dahingehend angeben, einen Hund; zwei Hunde; drei Hunde; drei Hunde und die Decke; oder drei Hunde, die Decke und das Bett auszuwählen. Ungeachtet dieser Mehrdeutigkeit generiert das Modell 102 die Segmentierung 104 der drei Hunde.
Dieses Konzept erfordert eine Vielzahl von zusätzlichen Nutzereingaben, um ein bestimmtes Zielobjekt auszuwählen. Zum Auswählen eines einzigen Hundes benötigt das herkömmliche System von 1A beispielsweise eine Anzahl von Nutzerindikatoren, um den gewünschten Hund von den anderen in dem Digitalbild 100 abgebildeten Objekten zu unterscheiden. Eine Clientvorrichtung muss beispielsweise Negativnutzerindikatoren um den gewünschten Hund herum erfassen, um die Decke, das Bett und die anderen Hunde aus der sich ergebenden Segmentierung auszuschließen.
Im Gegensatz hierzu zeigt 1B den Einsatz eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 106 entsprechend einer oder mehreren Ausführungsformen des Digitalobjektauswahlsystems. Wie gezeigt ist, analysiert des Digitalobjektauswahlsystem das Digitalbild 100 und den Nutzerindikator 101 unter Nutzung des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 106, um mehrere skalierungsvariante Objektsegmentierungsausgaben 108 bis 112 zu generieren. Wie in 1 gezeigt ist, identifiziert die Objektsegmentierungsausgabe 108 einen einzelnen Hund, die Objektsegmentierungsausgabe 110 identifiziert drei Hunde, und die Objektsegmentierungsausgabe 112 identifiziert drei Hunde und die Decke, auf der die Hunde sitzen. Das Digitalobjektauswahlsystem stellt die Objektsegmentierungsausgaben 108 bis 112 zur Anzeige über eine Clientvorrichtung bereit. Möchte ein Nutzer einen einzelnen Hund auswählen, so kann der Nutzer zudem mit der Objektsegmentierungsausgabe 108 über eine Clientvorrichtung interagieren. Durch Bereitstellen eines einzelnen Nutzerindikators kann der Nutzer unter mehreren Segmentierungen, die von dem Digitalobjektauswahlsystem generiert werden, die geeignete Segmentierung identifizieren.
Wie in 1B gezeigt ist, generiert das Digitalobjektauswahlsystem die mehreren Objektsegmentierungsausgaben 108 bis 112 auf Grundlage mehrerer Skalierungen. Anwenden kann das Digitalobjektauswahlsystem eine erste (kleine) Skalierung zum Generieren der Objektsegmentierungsausgabe 108, eine zweite (mittlere) Skalierung zum Generieren der Objektsegmentierungsausgabe 110 und eine dritte (große) Skalierung zum Generieren der Objektsegmentierungsausgabe 112. Wie dargestellt ist, kann das Digitalobjektauswahlsystem daher mehrere semantisch sinnvolle Segmentierungen (beispielsweise Segmentierungen, die sinnvolle, vollständige Objekte abbilden) in logischer Fortschreitung (beispielsweise auf Grundlage einer Skalierung) generieren, um eine schnelle und genaue Zielobjektauswahl zu ermöglichen.
Obwohl 1B drei Objektsegmentierungsausgaben darstellt, kann das Digitalobjektauswahlsystem zusätzliche (oder weniger) Objektsegmentierungsausgaben generieren. Bei einigen Ausführungsformen generiert das Digitalobjektauswahlsystem beispielsweise zwölf Objektsegmentierungsausgaben bei verschiedenen Skalierungen (beispielsweise Segmentierungen, die das Bett, zwei Hunde und dergleichen beinhalten). Obwohl darüber hinaus 1 einen bestimmten Nutzerindikator (beispielsweise einen Positivindikator) darstellt, kann das Digitalobjektauswahlsystem eine Vielzahl von verschiedenen Eingaben analysieren.
Das Digitalobjektauswahlsystem kann, wie vorstehend erwähnt worden ist, eine Kombination einer Vielzahl von Nutzereingaben mittels eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes analysieren, um eine Vielzahl von verschiedenen Objektsegmentierungen zu generieren. 2A bis 2C zeigen beispielsweise Eingaben in ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk 201, die Architektur des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 und Ausgaben des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 entsprechend einer oder mehreren Ausführungsformen.
Insbesondere zeigt 2A ein Digitalbild 200 mit Nutzerindikatoren, die einen Positivindikator 204 (beispielsweise einen Positivklick auf ein Pixel des Zielobjektes) und einen Negativindikator 206 (beispielsweise einen Negativklick auf ein Pixel des Hintergrundes außerhalb des Zielobjektes) beinhalten. Das Digitalobjektauswahlsystem kann verschiedene Typen von Nutzereingabe als Positivindikatoren und Negativindikatoren erkennen. Bei einer oder mehreren Ausführungsformen erkennt das Digitalobjektauswahlsystem beispielsweise einen linken Mausklick, eine einzelne antippende Berührgeste, einen Kreis oder einen anderen Typ von Nutzereingabe als Angabe eines Positivnutzerindikators. Auf ähnliche Weise kann das Digitalobjektauswahlsystem einen rechten Mausklick, eine doppelte antippende Berührgeste, ein „x“ (oder) als Angabe eines Negativnutzerindikators erkennen.
Wie in 2A dargestellt ist, setzt das Digitalobjektauswahlsystem ein Digitalbild zusammen mit Nutzerindikatoren ein, um Abstandskarten (distance maps) zu generieren. Wie in 2A dargestellt ist, generiert das Digitalobjektauswahlsystem beispielsweise Abstandskarten 210, 212 auf Grundlage des Digitalbildes 200 und der Nutzerindikatoren 204, 206. Insbesondere generiert das Digitalobjektauswahlsystem eine Positivabstandskarte 210 auf Grundlage des Positivnutzerindikators 204. Das Digitalobjektauswahlsystem generiert eine Negativabstandskarte 212 auf Grundlage des Negativnutzerindikators 206.
Im Sinne des Vorliegenden bezeichnet eine „Abstandskarte“ ein digitales Objekt, das einen Abstand zwischen einem Pixel und einem ausgewählten Pixel in einem Digitalbild wiedergibt. Eine Abstandskarte kann beispielsweise eine Datenbank oder eine Digitaldatei beinhalten, die Abstände zwischen Pixeln in einem Digitalbild und ausgewählten Pixeln beinhaltet (das heißt Positivnutzerindikatoren oder Negativnutzerindikatoren). Eine Positivabstandskarte beinhaltet beispielsweise ein Digitalobjekt, das einen Abstand zwischen einem Pixel in einem Digitalbild und einem ausgewählten Pixel, das Teil eines Zielobjektes ist, wiedergibt. Auf ähnliche Weise beinhaltet eine Negativabstandskarte ein Digitalobjekt, das einen Abstand zwischen einem Pixel und einem ausgewählten Pixel, das nicht Teil eines Zielobjektes ist, wiedergibt.
In 2A umfasst die Positivabstandskarte 210 beispielsweise eine zweidimensionale Matrix mit Einträgen für jedes Pixel in dem Digitalbild 200. Insbesondere umfasst die Positivabstandskarte 210 eine Matrix mit Einträgen für Pixel in dem Digitalbild 200, wobei jeder Eintrag den Abstand zwischen dem Pixel entsprechend dem Eintrag und dem Positivnutzerindikator 204 wiedergibt. Wie dargestellt ist, gibt ein Eintrag 214 in der Positivabstandskarte 210 daher den Abstand (das heißt 80 Pixel) zwischen dem Pixel entsprechend dem Eintrag 214 und dem Pixel entsprechend dem Positivnutzerindikator 204 wieder.
Auf ähnliche Weise umfasst die Negativabstandskarte 212 eine zweidimensionale Matrix mit Einträgen für Pixel in dem Digitalbild 200. Insbesondere gibt jeder Eintrag in der Negativabstandskarte 212 den Abstand zwischen dem Pixel entsprechend dem Eintrag und dem Negativnutzerindikator 206 wieder. Wie dargestellt ist, gibt ein Eintrag 216 daher den Abstand (das heißt 255 Pixel) zwischen dem Pixel entsprechend dem Eintrag 216 und dem Pixel entsprechend dem Negativnutzerindikator 206 wieder.
Wie in 2A dargestellt ist, kann das Digitalobjektauswahlsystem zudem (oder auch alternativ) zusätzliche Karten 213 als Eingabe für das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 bereitstellen. Mit Blick auf Kantenindikatoren (beispielsweise Klicks, die eine Kante eines Zielobjektes angeben) kann das Digitalobjektauswahlsystem beispielsweise eine Kantenabstandskarte bereitstellen, die den Abstand zwischen dem ausgewählten Kantenpixel und anderen Pixeln des Digitalbildes wiedergibt. Auf ähnliche Weise kann das Digitalobjektauswahlsystem für Begrenzungskästchenindikatoren eine Begrenzungsabstandskarte bereitstellen, die den Abstand zwischen einem beliebigen Pixel des Digitalbildes und den Pixeln des Begrenzungskästchens wiedergibt. Das Digitalobjektauswahlsystem kann jede Abstandskarte über einen bestimmten Kanal bereitstellen, der dafür trainiert ist, den bestimmten Typ von Nutzereingabe (beispielsweise einen Kantenkanal für Kantenabstandskarten) zu analysieren.
Obwohl 2A einen einzigen Positivnutzerindikator und einen einzigen Negativnutzerindikator darstellt, sollte einsichtig sein, dass das Digitalobjektauswahlsystem auch Abstandskarten auf Grundlage von zusätzlichen (oder weniger) Nutzerindikatoren generieren kann. Bei Gegebenheiten, bei denen das Digitalobjektauswahlsystem beispielsweise mehrere Positivnutzerindikatoren (oder mehrere Kantenindikatoren) empfängt, generiert das Digitalobjektauswahlsystem eine Abstandskarte, die den Abstand zwischen einem Pixel und dem nächsten Nutzerindikator wiedergibt. Auf ähnliche Weise generiert das Digitalobjektauswahlsystem bei Gegebenheiten, bei denen das Digitalobjektauswahlsystem mehrere Negativnutzerindikatoren empfängt, eine Negativabstandskarte, die den Abstand zwischen einem Pixel und dem nächsten Negativnutzerindikator wiedergibt. Bei wieder anderen Ausführungsformen generiert das Digitalobjektauswahlsystem eine separate Abstandskarte für jeden Nutzerindikator.
Zusätzlich zu Abstandskarten setzt das Digitalobjektauswahlsystem auch einen oder mehrere Farbkanäle ein. Wie in 2A gezeigt ist, setzt das Digitalobjektauswahlsystem beispielsweise drei Farbkanäle ein, nämlich einen R-Kanal 218 (entsprechend roten Farben), einen G-Kanal 220 (entsprechend grünen Farben) und einen B-Kanal 222 (entsprechend blauen Farben). Insbesondere umfasst jeder Farbkanal 218 bis 222 bei einer oder mehreren Ausführungsformen eine zweidimensionale Matrix (beispielsweise eine Farbkarte) mit Einträgen für jedes Pixel in dem Digitalbild 200. Insbesondere umfasst der B-Kanal 222, wie gezeigt ist, eine Matrix (beispielsweise eine Blaufarbenkarte) mit Einträgen für jedes Pixel in dem Digitalbild 200, wobei jeder Eintrag (beispielsweise ein Eintrag 224) die Menge von Blau entsprechend jedem Pixel wiedergibt. Der Eintrag 224, der einem Pixel mit sehr wenig blauer Farbe entspricht, gibt daher einen niedrigen Wert (nämlich 1) in dem B-Kanal 222 wieder.
Obwohl drei separate Kanäle dargestellt sind, kann das Digitalobjektauswahlsystem auch weniger oder mehr Kanäle einsetzen. Das Digitalobjektauswahlsystem kann beispielsweise vier Farbkanäle in Verbindung mit CMYK-Bildern einsetzen. Auf ähnliche Weise kann das Digitalobjektauswahlsystem einen einzigen Farbkanal in Bezug auf Graustufenbilder einsetzen. Obwohl in 2A R-, G- und B-Kanäle dargestellt sind, sollte zudem einsichtig sein, dass das Digitalobjektauswahlsystem eine Vielzahl von anderen Farben oder Farbräumen für Farbkanäle einsetzen kann. Bei einer oder mehreren Ausführungsformen nutzt das Digitalobjektauswahlsystem beispielsweise einen LAB-Farbraum und LAB-Farbkanäle anstelle eines RGB-Farbraumes und von RGB-Farbkanälen.
Bei einer oder mehreren Ausführungsformen generiert das Digitalobjektauswahlsystem ein Bild/Nutzer-Interaktionspaar (beispielsweise eine Kombination aus Abstandskarten und Farbkanälen). 2A generiert beispielsweise ein Bild-/Nutzer-Interaktionspaar durch Kombinieren von Nutzerinteraktionsdaten, die in der Positivabstandskarte 210 und der Negativabstandskarte 212 wiedergegeben sind, und Bilddaten, die in den Farbkanälen 218 bis 222 wiedergegeben sind.
Bei einer oder mehreren Ausführungsformen setzt das Digitalobjektauswahlsystem eine Abfolge von Gleichungen und Algorithmen ein, um das Bild-/Nutzer-Interaktionspaar zu generieren. Bei einer oder mehreren Ausführungsformen definiert das Digitalobjektauswahlsystem beispielsweise eine Sequenz von Nutzerindikatoren δ, die einen Satz von Positivnutzerindikatoren δ¹ (beispielsweise den Positivnutzerindikator 204) und einen Satz von Negativnutzerindikatoren δ⁰ (beispielsweise den Negativnutzerindikator 206) beinhalten. Bei einer oder mehreren Ausführungsformen setzt das Digitalobjektauswahlsystem eine Euklidische Abstandstransformation (oder irgendein anderes Abstandsmaß, so beispielsweise eine trunkierte Abstandskarte oder eine nichtlineare Gauß'sche Verteilung) ein, um δ¹ und δ⁰ auf separate Kanäle U¹ (beispielsweise die Positivabstandskarte 210) beziehungsweise U⁰ (beispielsweise die Negativabstandskarte 212) zu transformieren. Jeder Kanal U¹ und U⁰ gibt eine zweidimensionale Matrix mit derselben Höhe und Breite wie bei dem Digitalbild (beispielsweise dem Digitalbild 200) an. Insbesondere ist die Anzahl von Reihen in der Matrix gleich der Anzahl von Pixelreihen in dem Digitalbild und ist die Anzahl von Spalten in der Matrix gleich der Anzahl von Pixelspalten in dem Digitalbild.
Zur Berechnung des Abstandswertes $u_{i j}^{t}$
(beispielsweise Eintrag 214 in der Positivabstandskarte 210 oder Eintrag 216 in der Negativabstandskarte 212) an dem Ort (i,j), t ∈ {0,1} definiert das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen einen Operator f, der den minimalen Euklidischen Abstand (oder einen anderen Abstand) zwischen einem Punkt (beispielsweise einem Pixel in dem Digitalbild 200) und einem Satz (beispielsweise einem Satz von Positivnutzerindikatoren, die den Positivnutzerindikator 204 beinhalten) berechnet. Mit anderen Worten, das Digitalobjektauswahlsystem definiert den Operator f derart, dass, wenn ein Satz von Punkten $p_{i, j} \in A$
gegeben ist, bei dem (i,j) der Ort des Punktes ist, für einen beliebigen Punkt $p_{m, n} | A = {min}_{\forall p_{i j} \in A} \sqrt{{(m - i)}^{2} + {(n - j)}^{2}}$
gilt. Darüber hinaus kann das Digitalobjektauswahlsystem $u_{i j}^{t}$
(beispielsweise einzelne Einträge in den Abstandskarten) folgendermaßen definieren: $u_{i j}^{t} = f (p_{i, j} | S^{t}), t \in {0,1}$
Bei einer oder mehreren Ausführungsformen nimmt das Digitalobjektauswahlsystem aus Gründen der Effizienz bei der Datenspeicherung den vorzeichenlosen ganzzahligen Teil von $u_{i j}^{t}$
und trunkiert ihn bei 255.
Entsprechend generiert das Digitalobjektauswahlsystem mit Blick auf 2A die Positivabstandskarte 210 und die Negativabstandskarte 212 unter Nutzung der Kanäle U¹ und U⁰. Der Kanal U¹ stellt beispielsweise die Matrix bereit, die im Zusammenhang mit der Positivabstandskarte 210 dargestellt ist. Darüber hinaus kombiniert das Digitalobjektauswahlsystem die Farbkanäle 218 bis 222 mit den Abstandskarten zur Wiedergabe von U¹ und U⁰ , um das Bild-/Nutzer-Interaktionspaar zu generieren.
Mit anderen Worten, das Digitalobjektauswahlsystem kann die spärlichen binären Positiv- und Negativklicks auf die zwei trunkierten Euklidischen Abstandskarten u = (u+; u-) auf die Vereinigung der nutzerseitigen Positivklicks beziehungsweise die Vereinigung der nutzerseitigen Negativklicks umwandeln, bevor eine Verkettung mit dem RGB-Eingabebild erfolgt, um eine Fünf-Kanal-Eingabe (x, u) zu bilden
Wie in 2A gezeigt ist, kann das Digitalobjektauswahlsystem zudem eine Skalierung 226 (oder zusätzliche Skalierungen) als Eingabe für das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 bereitstellen. Die Skalierung 226 kann beispielsweise eine Größe (beispielsweise eine vertikale oder horizontale Abmessung eines Ankerkästchens) und ein Seitenverhältnis beinhalten.
Wie vorstehend erwähnt worden ist, setzt das Digitalobjektauswahlsystem bei einigen Ausführungsformen ein der mehrstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk ein, das eine Vielzahl von Skalierungen (beispielsweise einen beliebigen Skalierungseintrag entlang eines kontinuierlichen Bereiches, der ins Innere eines Digitalbildes passt) als Eingabe berücksichtigen kann. Bei derartigen Ausführungsformen kann das Digitalobjektauswahlsystem die Skalierung 226 als Eingabe zum Generieren einer Objektsegmentierungsausgabe nutzen. Zusätzliche Details im Zusammenhang mit der Bereitstellung von Skalierungen als Eingabe für ein neuronales Netzwerk (beispielsweise ein der mehrstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk) sind nachstehend (beispielsweise im Zusammenhang mit 7) angegeben.
Bei anderen Ausführungsformen kann das Digitalobjektauswahlsystem eine Netzwerkarchitektur einsetzen, die Kanäle für verschiedene Skalierungen beinhaltet und Objektsegmentierungsausgaben entsprechend den verschiedenen Skalierungen generiert. Das Digitalobjektauswahlsystem kann beispielsweise einen Satz von Skalierungen formulieren und sodann einen Ausgabekanal für jede Skalierung in dem der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerk beinhalten. Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem unter Nutzung dieses einstufigen Konzeptes mehrere Objektsegmentierungskarten in einem einzigen Durchlauf generieren. Zusätzliche Details im Zusammenhang mit einem derartigen der einstufigen skalierungsdiversen Segmentierung dienenden neuronalen Netzwerk werden im Zusammenhang mit 2B und 2C erläutert.
Bei einer oder mehreren Ausführungsformen definiert das Digitalobjektauswahlsystem beispielsweise verschiedene Skalierungen (beispielsweise eine Skalierungsdiversität) in Bezug auf verschiedene Kombinationen von Seitenverhältnissen a und Größen s. Mathematisch sind, wenn P Größen und Q Seitenverhältnisse gegeben sind, M = PQ mögliche Kombinationen der Skalierung vorhanden: S = {(s_p, a_q)|p = 1, ..., P, q = 1, ..., Q}. Sind ein Eingabebild x ∈ ℝ^HxWx3 und Nutzereingaben u ∈ ℝ^HxWx2 gegeben, so kann das Digitalobjektauswahlsystem die Aufgabe des Synthetisierens eines diversen Satzes von Segmentierungen als Erlernen einer Kartierungsfunktion f(;θ, S) formulieren, die mit θ parametrisiert und auf einen Satz von vordefinierten Skalierungen S konditioniert ist: $O = f (x, u; θ, S)$
Hierbei ist O = {o₁, o₂ ... o_M} ein Satz von skalierungsdiversen Segmentierungsausgaben, wobei jede Segmentierungsausgabe o_i einer 2D-Skalierung in S entspricht.
Darstellungshalber nimmt das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen eine Größenänderung des Digitalbildes 200 auf 512x512 vor. Das Digitalobjektauswahlsystem nutzt sodann drei Seitenverhältnisse (1 zu 1, 1 zu 2 und 2 zu 1) und drei Skalierungen (64, 128, 256). Darüber hinaus beinhaltet das Digitalobjektauswahlsystem drei Anker mit Größen von 16, 32 und 512 und einem Seitenverhältnis von 1 zu 1, was insgesamt 12 Vorschläge ergibt. Obwohl das vorstehende Beispiel zwölf Ankerkästchen mit bestimmten Größen und Seitenverhältnissen nutzt, kann das Digitalobjektauswahlsystem eine Vielzahl von verschiedenen Ankern (beispielsweise kreisförmige Anker), eine Vielzahl von verschiedenen Größen und/oder Formen sowie eine andere Anzahl von Ankern (beispielsweise 5 oder 20) einsetzen.
Beim Generieren der in 2A dargestellten Eingaben kann das Digitalobjektauswahlsystem die Eingaben unter Einsatz des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 analysieren. 2B zeigt beispielsweise eine exemplarische Architektur des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 (beispielsweise ein der einstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk) entsprechend einer oder mehreren Ausführungsformen. Insbesondere zeigt 2B das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201, das eine 512×512×5-Eingabeschicht 232 (beispielsweise für die in 2A erläuterte Fünf-Kanal-Eingabe, die für verschiedene Eingabeindikatoren modifiziert werden kann), einen Encoder 234, einen Decoder 238 und eine 512×512-Ausgabeschicht 240 mit M Ausgabekanälen 240a bis 240m beinhaltet. Wie in 2B gezeigt ist, beinhaltet das Digitalobjektauswahlsystem zudem ein Objektverifikationsmodell 242 mit einer Global-Average-Pooling-Schicht 243 und einer vollständig verbundenen (fully connected) Schicht 244.
Bei einer oder mehreren Ausführungsformen umfasst das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 ein vollständig faltungstechnisches (fully-convolutional) neuronales Netzwerk. Das Digitalobjektauswahlsystem kann beispielsweise die ResNet-101-Variante von DeepLabv3+ einsetzen, die über Folgendes verfügt: (1) erweiterte Faltungskernels (beispielsweise zum Vergrößern der Ausgabeauflösung bei gleichzeitigem Beibehalten der gleichen Menge von Netzwerkparametern), (2) einen ASPP-Encoder (Atrous Spatial Pyramid Pooling ASPP) (Encoder 234) zum Codieren einer umfangreichen (rich) Mehrskalierungskontextinformation und (3) einen Decoder (Decoder 238) zum Wiederherstellen der Objektbegrenzungen.
Bei einer oder mehreren Ausführungsformen kann das Digitalobjektauswahlsystem das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 generieren, indem es die nachfolgenden Modifikationen an der ResNet-101-Variante von DeepLabv3+ anwendet: (1) Modifizieren des ersten Faltungsfilters, damit dieser die zusätzlichen (zwei oder mehr) Kanäle der Nutzereingabe u annimmt; (2) Modifizieren der Ausgabeschicht derart, dass M Kanäle (das heißt Ausgaben/Zweige) vorhanden sind, die M verschiedenen Skalierungen entsprechen; und (3) Hinzufügen des Objektverifikationsmodells 242 als neue vollständig verbundene Schicht mit M Ausgaben, die angehängt werden, bevor der Decoder einen Objektkennwert für jede der M Segmentierungsmasken vorhersagt.
Unter Einsatz der in 2B dargestellten Architektur kann das Digitalobjektauswahlsystem die Eingaben, die anhand von 2A beschrieben worden sind, analysieren. Das Digitalobjektauswahlsystem kann beispielsweise codierte 512×512-Farbkarten und Abstandskarten mittels des Encoders 234 analysieren. Insbesondere kann der Encoder 234 abstimmbare Parameter (beispielsweise interne Gewichtungsparameter, die beim Trainieren modifiziert werden können, und zwar beispielsweise über eine Rückverfolgung (back propagation)) einsetzen, um eine oder mehrere Latentmerkmalskarten zu generieren, die Merkmale des Digitalbildes und Eingabeindikatoren wiedergeben. Das Digitalobjektauswahlsystem kann den Decoder 238 und die Ausgabeschicht 240 sodann dafür einsetzen, die Latentmerkmalskarten in Bezug auf M variierende Skalierungen zu analysieren. Wie gezeigt ist, beinhaltet die Ausgabeschicht 240 M Ausgabekanäle 240a bis 240m für jede der M verschiedenen Skalierungen.
Wie gezeigt ist, kann das Digitalobjektauswahlsystem zudem das Objektverifikationsmodell 242 des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 einsetzen. Wie vorstehend erläutert worden ist, entsprechen nicht alle Skalierungen unbedingt sinnvollen Auswahlen. Das Digitalobjektauswahlsystem kann das Objektverifikationsmodell 242 dafür einsetzen, Skalierungen (das heißt Segmentierungsausgaben), die keine sinnvollen Objektauswahlen beinhalten, zu filtern und/oder zu entfernen. Darstellungshalber kann das Digitalobjektauswahlsystem das Objektverifikationsmodell 242 dafür einsetzen, Segmentierungen zu entfernen, die partielle oder unvollständige Objekte oder andere nichtsemantisch sinnvolle Ausgaben beinhalten.
Wie dargestellt ist, können die Global-Average-Pooling-Schicht 243 und die vollständig verbundene Schicht 244 Latentmerkmalskarten, die von dem Encoder 234 generiert werden, analysieren, um M Objektkennwerte (beispielsweise Zuverlässigkeitskennwerte) für die M skalierungsdiversen Segmentierungen auszugeben. Das Digitalobjektauswahlsystem kann die Objektkennwerte analysieren, um Skalierungen zu bestimmen, die semantisch sinnvolle Ergebnisse abbilden. Das Digitalobjektauswahlsystem kann beispielsweise Segmentierungen mit niedrigen Objektkennwerten (beispielsweise unter einem Schwellenobjektkennwert) filtern/entfernen. Auf ähnliche Weise kann das Digitalobjektauswahlsystem Segmentierungen mit hohen Objektkennwerten (beispielsweise höher als ein Schwellenobjektkennwert) zur Anzeige bereitstellen.
Darstellungshalber wendet das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 bei einer oder mehreren Ausführungsformen einen oder mehrere Nachbearbeitungsmechanismen an, um Segmentierungsvorschläge, die unvollständige Objekte abbilden, zu entfernen. Eine sinnvolle Segmentierung beinhaltet allgemein zuverlässige Vorhersagen (entweder aus Zuverlässigkeitskennwerten, die von der Ausgabeschicht 240 generiert werden, oder dem Objektkennwert, der über das Objektverifikationsmodell 242 generiert wird) in einem großen Abschnitt bzw. für einen großen Teil der Pixelorte. Demgegenüber ist bei nichtsinnvollen Vorschlägen (beispielsweise bei Vorschlägen, die keine Objekte oder partielle Objekte beinhalten) eine große Menge an unbestimmten Vorhersagen vorhanden. Entsprechend wendet das Digitalobjektauswahlsystem bei einigen Ausführungsformen eine Schwelle auf jeden Indikator an, um eine Binärmaske zu ermitteln.
Ist beispielsweise der Objektkennwert/Zuverlässigkeitskennwert für ein Pixel über einer Schwelle, so kann das Digitalobjektauswahlsystem eine Eins in der Binärmaske für jenes Pixel einsetzen. Auf ähnliche Weise kann das Digitalobjektauswahlsystem, wenn der Objektkennwert/Zuverlässigkeitskennwert für ein Pixel unter einer Schwelle ist, eine Null in der Binärmaske für jenes Pixel einsetzen. Das Digitalobjektauswahlsystem kann sodann den loU-Kennwert (loU Intersection over Union, Schnitt durch Vereinigung) zwischen der Vorhersage des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 und der schwellenbehafteten Binärmaske bestimmen. Der berechnete loU-Kennwert dient als Verifikationskennwert zum Entscheiden dessen, ob einem Nutzer ein Vorschlag präsentiert werden sollte. Das Digitalobjektauswahlsystem kann dem Nutzer sodann die Vorschläge mit hohen Verifikationskennwerten präsentieren.
Wie in 2C gezeigt ist, setzt das Digitalobjektauswahlsystem das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 dafür ein, mehrere Objektsegmentierungsausgaben (in einem oder mehreren Formaten) zu generieren und anzuzeigen. Wie gezeigt ist, kann das Digitalobjektauswahlsystem beispielsweise eine erste Objektsegmentierungsausgabe 250 (entsprechend einer ersten Skalierung) und eine zweite Objektsegmentierungsausgabe 252 (entsprechend einer zweiten Skalierung) generieren. Obwohl 2C zwei Objektsegmentierungsausgaben darstellt, kann das Digitalobjektauswahlsystem zusätzliche Objektsegmentierungsausgaben (beispielsweise M Segmentierungsausgaben) generieren.
Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem Objektsegmentierungsausgaben generieren, die Segmentierungsbegrenzungen und/oder Segmentierungsmasken umfassen. Wie in 2C dargestellt ist, beinhaltet die erste Objektsegmentierungsausgabe 250 eine Segmentierungsbegrenzung 254 und eine Segmentierungsmaske 256. Auf ähnliche Weise beinhaltet die zweite Objektsegmentierungsausgabe 252 eine Segmentierungsbegrenzung 258 und eine Segmentierungsmaske 260.
Wie gezeigt ist, zeigen die Segmentierungsbegrenzungen 254, 258 eine Begrenzung oder Kante entsprechend einem oder mehreren in dem Digitalbild 200 abgebildeten Zielobjekten. Die Segmentierungsbegrenzungen 254, 258 können beispielsweise Wahrscheinlichkeitskarten umfassen, die die Wahrscheinlichkeit dafür angeben, dass jedes Pixel in dem Digitalbild einer Begrenzung oder Kante eines Zielobjektes in dem Digitalbild entspricht. Derartige Segmentierungsbegrenzungen können in einer Vielzahl von Nachverarbeitungsalgorithmen, so beispielsweise bei Graph-Schnitt-Algorithmen, eingesetzt werden, um bestimmte Objekte genau aus einem Digitalbild zu schneiden oder dort zu isolieren. Entsprechend kann das Digitalobjektauswahlsystem die Segmentierungsbegrenzung 254 als Teil eines Graph-Schnitt-Algorithmus einsetzen, um die Objekte 202, 205 aus dem Digitalbild 200 zu isolieren.
Auf ähnliche Weise zeigt 2C, dass die Segmentierungsmasken 256, 260 Vordergrundpixel und Hintergrundpixel entsprechend verschiedenen Segmentierungen identifizieren. Die Segmentierungsmasken 256, 260 können beispielsweise Wahrscheinlichkeitskarten umfassen, die die Wahrscheinlichkeit dafür angeben, dass jedes Pixel in dem Digitalbild Teil eines Zielobjektes ist. Derartige Segmentierungsmasken können zudem in einer Vielzahl von Nachverarbeitungsalgorithmen eingesetzt werden. Das Digitalobjektauswahlsystem kann beispielsweise alle Pixel in der Segmentierungsmaske 256, die einen Schwellenwertzuverlässigkeitspegel erfüllen, auswählen und bearbeiten, um die Objekte 256, 260 in dem Digitalbild 200 zu modifizieren.
Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem zudem ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk trainieren. 3 zeigt das Trainieren eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes (beispielsweise des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201, das in 2B dargestellt ist) entsprechend einer oder mehreren Ausführungsformen. Insbesondere zeigt 3 das Trainieren des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 unter Einsatz eines Trainingsdigitalbildes 300 (mit einem Positivtrainingsindikator) und von Ground-Truth-Segmentierungen 304, 306 bei verschiedenen Skalierungen.
Wie vorstehend beschrieben worden ist, stellt das Digitalobjektauswahlsystem das Trainingsdigitalbild 300 und Trainingsindikatoren für das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 bereit. Insbesondere kann das Digitalobjektauswahlsystem, wie in 2A beschrieben ist, RGB-Kanäle und Abstandskarten (beispielsweise Bild-/Nutzer-Interaktionspaare) generieren und die RGB-Kanäle und Abstandskarten als Trainingseingabe bereitstellen.
Wie dargestellt ist, analysiert das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 die Trainingseingaben und generiert die vorhergesagten Segmentierungen 302a bis 302m bei verschiedenen Skalierungen. Das Digitalobjektauswahlsystem kann beispielsweise eine erste vorhergesagte Segmentierung 302a bei einer ersten Skalierung (beispielsweise mit einer ersten Größe und einem ersten Seitenverhältnis) und eine zweite vorhergesagte Segmentierung 302b bei einer zweiten Skalierung (beispielsweise mit einer zweiten Größe und einem zweiten Seitenverhältnis) generieren.
Das Digitalobjektauswahlsystem kann die vorhergesagten Segmentierungen 302a bis 302m sodann mit Ground-Truth-Segmentierungen vergleichen. Insbesondere kann das Digitalobjektauswahlsystem ein Maß für den Verlust bestimmen, indem es eine Verlustfunktion auf jede vorhergesagte Segmentierung und deren entsprechende Ground-Truth-Segmentierung anwendet. Das Digitalobjektauswahlsystem kann sodann Parameter des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 auf Grundlage des Vergleiches (beispielsweise über eine Rückverfolgung (back propagation) auf Grundlage des Maßes für den Verlust) modifizieren.
Das Digitalobjektauswahlsystem kann sodann einen Vorgang 308 des Vergleichens der vorhergesagten Segmentierung 302b (entsprechend der Skalierung 2) und der Ground-Truth-Segmentierung 304 (entsprechend der Skalierung 2) durchführen. Auf Grundlage des Vergleiches kann das Digitalobjektauswahlsystem ein Maß für den Verlust zwischen der vorhergesagten Segmentierung 302b und der Ground-Truth-Segmentierung 304 bestimmen. Durchführen kann das Digitalobjektauswahlsystem sodann einen Vorgang 312 des Modifizierens von internen Parametern des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 (beispielsweise durch Modifizieren von Gewichtungsparametern des Encoders, des Decoders, der Ausgabeschicht und anderer Schichten zur Verringerung des Maßes für den Verlust). Darstellungshalber kann das Digitalobjektauswahlsystem interne Parameter des Kanals entsprechend der Skalierung 2 mittels einer Rückverfolgung (back propagation) modifizieren, um das Digitalobjektauswahlsystem dafür zu trainieren, Segmentierungen bei der Skalierung 2 genauer zu identifizieren.
Bei einigen Gegebenheiten entspricht ein bestimmter Skalierungskanal (beispielsweise eine vorhergesagte Segmentierung) keiner Ground Truth. Wie in 3 gezeigt ist, weist die vorhergesagte Segmentierung 302a keine entsprechende Ground-Truth-Segmentierung auf jener Skalierung auf (beispielsweise fällt kein Objekt ins Innere eines Ankerkästchens mit bestimmter Größe und bestimmtem Seitenverhältnis). Wie in 3 gezeigt ist, kann das Digitalobjektauswahlsystem entsprechend Kanäle des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 identifizieren, die entsprechende Ground-Truth-Segmentierungen aufweisen, und lediglich eine Rückverfolgung (back propagation) an den passenden Skalierungen (während beispielsweise die anderen Kanäle unberührt bleiben) durchführen.
Wie in 3 gezeigt ist, identifiziert das Digitalobjektauswahlsystem beispielsweise die Ground-Truth-Segmentierungen 304, 306 entsprechend der Skalierung 2 und der Skalierung 3. Das Digitalobjektauswahlsystem führt Vorgänge 308, 310 des Vergleichens der vorhergesagten Segmentierungen 302b, 302c mit entsprechenden Ground-Truth-Segmentierungen 304, 306 durch und führt zudem die Vorgänge 312, 314 des Rückverfolgens (back propagation) durch, um das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 auf Grundlage des Vergleiches zu modifizieren. Wie gezeigt ist, vergleicht das Digitalobjektauswahlsystem die vorhergesagten Segmentierungen 302a, 302m nicht mit entsprechenden Ground-Truth-Segmentierungen oder einer Rückverfolgung entlang dieser Kanäle.
Bei einer oder mehreren Ausführungsformen identifiziert das Digitalobjektauswahlsystem, welche Skalierungen entsprechende Ground-Truth-Segmentierungen aufweisen, indem es die Ground-Truth-Segmentierungen mit mehreren Skalierungen vergleicht. Das Digitalobjektauswahlsystem identifiziert diejenigen Skalierungen, die entsprechende Ground-Truth-Segmente (beispielsweise Ground-Truth-Segmente, die einen Schwellenabschnitt einer bestimmten Skalierung füllen) aufweisen. Insbesondere kann das Digitalobjektauswahlsystem, wenn eine Ground-Truth-Segmentierungsmaske y gegeben ist, deren Größe s_y und Seitenverhältnis a_y berechnen. Sodann ermittelt das Digitalobjektauswahlsystem den Satz S_y = {(s_p, a_q |∀(p, q): IoU (bbox(s_y, a_y), box(s_p, a_q)) > 0.5}, wobei loU der Wert für Schnitt durch Vereinigung ist, während das Kästchen (s_p, a_q) ein Begrenzungskästchen mit der Größe s_p und dem Seitenverhältnis a_q ist, wobei das Zentrum gleich dem Zentrum des die Ground-Truth y einschließenden Begrenzungskästchens ist. Das Digitalobjektauswahlsystem kann den Verlust sodann nur durch diese Zweige rückverfolgen. Obwohl das Digitalobjektauswahlsystem eine Vielzahl von verschiedenen Verlustfunktionen einsetzen kann, setzt das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen ein: $L = \sum_{s \in S_{y}} l (f (x; s), y)$
Hierbei ist l der Standard-Sigmoid-Kreuzentropieverlust.
Durch wiederholtes Analysieren von verschiedenen Trainingsbildern und Trainingsindikatoren, Generieren von vorhergesagten Segmentierungen bei verschiedenen Skalierungen und Vergleichen der vorhergesagten Segmentierungen mit für bestimmte Skalierungen spezifischen Ground-Truth-Segmentierungen kann das Digitalobjektauswahlsystem das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk trainieren, um Segmentierungen über verschiedene Skalierungen genau zu generieren.
Bei einer oder mehreren Ausführungsformen kann das Digitalobjektauswahlsystem zudem das Objektverifikationsmodell 242 des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 trainieren. Insbesondere generiert das Objektverifikationsmodell 242, wie gezeigt ist, einen vorhergesagten Objektkennwert (beispielsweise einen Vektor mit M Dimensionskennwerten entsprechend jeder Skalierung). Das Digitalobjektauswahlsystem vergleicht den vorhergesagten Objektkennwert sodann mit einer Ground-Truth-Objektverifikation. Insbesondere kann das Digitalobjektauswahlsystem diejenigen Skalierungen identifizieren, die tatsächlich Objekte (beispielsweise vollständige Objekte) umfassen, und den vorhergesagten Objektkennwert mit der Ground-Truth-Objektverifikation (beispielsweise unter Einsatz einer Verlustfunktion) vergleichen. Das Digitalobjektauswahlsystem kann das Objektverifikationsmodell 242 sodann trainieren, indem es interne Parameter des Objektverifikationsmodells 242 modifiziert, um die Verlustfunktion zu verringern.
Obwohl das Digitalobjektauswahlsystem eine Vielzahl von verschiedenen Verlustfunktionen beim Trainieren einsetzen kann, setzt das Digitalobjektauswahlsystem bei einigen Ausführungsformen einen klassenausgleichenden Sigmoid-Kreuzentropieverlust ein, um das Objektverifikationsmodell 242 zu trainieren. Das Digitalobjektauswahlsystem kann diese Verlustfunktion nutzen, da die Verteilung von Positiv-/Negativabtastungen unausgeglichen sein kann (es ist beispielsweise nur ein kleiner Satz von Skalierungen mit Objekten vorhanden).
Wie eben erläutert worden ist, kann das Digitalobjektauswahlsystem Trainingsbilder, Trainingsindikatoren und Ground-Truth-Segmentierungen entsprechend den Trainingsbildern und Trainingsindikatoren bei verschiedenen Skalierungen einsetzen, um ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk zu trainieren. Das Digitalobjektauswahlsystem kann diese Trainingsdaten effizient und genau generieren. Darüber hinaus kann das Digitalobjektauswahlsystem, wie vorstehend erläutert worden ist, sowohl eindeutige Trainingsindikatoren wie auch mehrdeutige Trainingsindikatoren generieren, um ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk effizienter und genauer zu trainieren. 4 und 5A bis 5C zeigen zusätzliche Details im Zusammenhang mit dem Generieren von Trainingsabtastungen, die eindeutige Indikatoren und mehrdeutige Indikatoren beinhalten. Darüber hinaus zeigt 6 zusätzliche Details im Zusammenhang mit dem Identifizieren von geeigneten Skalierungen entsprechend Ground-Truth-Segmentierungen zum Training.
4 zeigt einen Satz von eindeutigen Trainingsindikatoren 402a bis 402c, 404 in Bezug auf das Trainingsbild 300 sowie einen Satz von mehrdeutigen Trainingsindikatoren 408, 410 in Bezug auf das Trainingsbild 300. Insbesondere beinhalten die eindeutigen Trainingsindikatoren eindeutige Negativtrainingsindikatoren 402a bis 402c und eindeutige Positivtrainingsindikatoren 404. Darüber hinaus beinhalten die mehrdeutigen Trainingsindikatoren einen mehrdeutigen Positivtrainingsindikator 408 und einen mehrdeutigen Negativtrainingsindikator 410.
Wie dargestellt ist, geben die eindeutigen Trainingsindikatoren 402a bis 402c und 404 kollektiv eine einzige Ground-Truth-Segmentierung 406 innerhalb des Trainingsdigitalbildes 300 an. So schließen die eindeutigen Trainingsindikatoren 402a bis 402c und 404 eine Ground-Truth-Segmentierung aus, die andere Hunde, eine Decke oder das Bett beinhalten, entsprechen aber lediglich der Ground-Truth-Segmentierung 406, die den Hund abbildet. Im Gegensatz hierzu geben die mehrdeutigen Trainingsindikatoren 408, 410 mehrere Ground-Truth-Segmentierungen 412, 414 an. Der Positivtrainingsindikator 408 und der Negativtrainingsindikator 410 können die Ground-Truth-Segmentierung 412, die einen einzigen Hund angibt, oder die Ground-Truth-Segmentierung 414, die alle drei Hunde angibt, gleichermaßen angeben. Durch Generieren und Trainieren eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes mit eindeutigen Trainingsabtastungen und mehrdeutigen Trainingsabtastungen kann das Digitalobjektauswahlsystem die Diversität und Genauigkeit der sich ergebenden Objektsegmentierungsobjekte, die von dem der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerk generiert werden, verbessern.
Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem Trainingsabtastungen (darunter eindeutige und mehrdeutige Trainingsdaten) aus bestehenden Trainingsdatensammlungen generieren. 5A bis 5C zeigen beispielsweise zusätzliche Details im Zusammenhang mit dem Generieren von eindeutigen Trainingsindikatoren (entsprechend eindeutigen Ground-Truth-Segmentierungen) und mehrdeutigen Trainingsindikatoren (entsprechend mehrdeutigen Ground-Truth-Segmentierungen) aus bestehenden Trainingsdaten. Insbesondere zeigt 5A das Digitalobjektauswahlsystem, das einen Vorgang 502 des Identifizierens von Objekten durchführt, die in dem Trainingsdigitalbild 300 abgebildet sind. Das Digitalobjektauswahlsystem kann beispielsweise den Vorgang 502 durchführen, indem es auf eine bestehende Trainingsdatensammlung von etikettierten Digitalbildern zugreift. Das Digitalobjektauswahlsystem kann auf eine Digitalsammlung von Digitalbildern mit Objekten (beispielsweise Pixel der Objekte), die in den Digitalbildern identifiziert sind, zugreifen. Es ist bei bestehenden Trainingssammlungen gängig, dass diese Digitalbilder mit Segmentierungen von Objekten, die in dem Digitalbild abgebildet sind, beinhalten.
Herkömmliche Trainingssammlungen beinhalten jedoch im Allgemeinen keine Trainingsindikatoren oder diverse Trainingssegmentierungen entsprechend verschiedenen Skalierungen (wie sie vorstehend im Zusammenhang mit 3 eingesetzt worden sind). Wie in 5A gezeigt ist, kann das Digitalobjektauswahlsystem einen Vorgang 504 des Generierens von verschiedenen Segmentierungen auf Grundlage von Kombinationen von Objekten durchführen. Insbesondere kann das Digitalobjektauswahlsystem Objekte (aus dem Vorgang 502) identifizieren, die in Digitalbildern abgebildet sind, und die Objekte kombinieren, um verschiedene Segmentierungen zu generieren. Das Digitalobjektauswahlsystem generiert die Segmentierungen 504a bis 504d beispielsweise durch Kombinieren von verschiedenen Objekten innerhalb des Trainingsbildes 300.
Bei einer oder mehreren Ausführungsformen identifiziert das Digitalobjektauswahlsystem die Segmentierungen 504a bis 504d auf Grundlage der Nähe oder des Abstandes innerhalb eines Digitalbildes. Das Digitalobjektauswahlsystem kann sodann ein Objekt (für eine erste Segmentierung) und ein benachbartes Objekt (für eine zweite Segmentierung) identifizieren. Das Digitalobjektauswahlsystem kann sodann eine hierarchische Liste von Segmentierungen auf Grundlage von verschiedenen Kombinationen von benachbarten Objekten generieren. Insbesondere kann das Digitalobjektauswahlsystem für jede Instanz bzw. Version in einem Digitalbild (beispielsweise mehrere Hunde) alle benachbarten Instanzen bzw. Versionen (beispielsweise alle benachbarten Hunde) ausfindig machen. Sodann kann das Digitalobjektauswahlsystem eine hierarchische Liste von Segmentierungen auf Grundlage von verschiedenen Kombinationen von Instanzen bzw. Versionen (beispielsweise durch Erweitern von Segmentierungen, die mehrere Hunde abbilden) aufbauen.
Bei einigen Ausführungsformen kombiniert das Digitalobjektauswahlsystem benachbarte Instanzen bzw. Versionen auf klassenagnostische Weise. Insbesondere berücksichtigt das Digitalobjektauswahlsystem keine Objektklassen beim Generieren eines diversen Satzes von Ground-Truth-Segmentierungen (Beispielsweise kombiniert das Digitalobjektauswahlsystem Hunde und Decken und nicht nur Hunde). Bei anderen Ausführungsformen kann das Digitalobjektauswahlsystem Ground-Truth-Segmentierungen klassenbasiert generieren.
Darüber hinaus nutzt das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen andere Faktoren (zusätzlich zur Nähe oder dem Abstand oder alternativ hierzu) beim Generieren eines Satzes von Ground-Truth-Segmentierungen. Das Digitalobjektauswahlsystem kann beispielsweise die Tiefe berücksichtigen. Insbesondere kann das Digitalobjektauswahlsystem Objekte in einem Digitalbild kombinieren, die in einer ähnlichen Tiefe abgebildet sind, (und Objektkombinationen ausschließen, bei denen die Objekte in verschiedenen Tiefen jenseits eine bestimmten Tiefendifferenzschwelle befindlich sind).
Wie in 5A gezeigt ist, kann das Digitalobjektauswahlsystem sodann eindeutige Abtastungen und/oder mehrdeutige Abtastungen aus den identifizierten Masken generieren. Mit Blick auf eine eindeutige Abtastung kann das Digitalobjektauswahlsystem den Vorgang 506 des Identifizierens einer einzigen Maske (beispielsweise einer Segmentierung) aus den Segmentierungen 504a bis 504d durchführen. Das Digitalobjektauswahlsystem kann sodann den Vorgang 508 des eindeutigen Abtastens aus der identifizierten Maske durchführen. Auf diese Weise kann das Digitalobjektauswahlsystem Trainingsdaten generieren, die eindeutige Negativtrainingsindikatoren 510 und eindeutige Positivtrainingsindikatoren 512 umfassen, und zwar entsprechend einer eindeutigen Ground-Truth-Segmentierung (das heißt der identifizierten Maske). Zusätzliche Details im Zusammenhang mit der eindeutigen Abtastung sind im Zusammenhang mit 5 angegeben.
Auf ähnliche Weise kann das Digitalobjektauswahlsystem mehrdeutige Abtastungen generieren, indem es den Vorgang 516 des Identifizierens mehrerer Masken durchführt. Das Digitalobjektauswahlsystem kann beispielsweise zwei oder mehr Segmentierungen aus den Segmentierungen 504a bis 504d auswählen. Das Digitalobjektauswahlsystem kann sodann einen Vorgang 518 des mehrdeutigen Abtastens aus den mehreren Masken durchführen, um Trainingsdaten zu generieren, die mehrdeutige Negativtrainingsindikatoren 522, mehrdeutige Positivtrainingsindikatoren 524 und mehrdeutige Ground-Truth-Segmentierungen 520 (beispielsweise die mehreren Masken) umfassen. Zusätzliche Details im Zusammenhang mit der ein- bzw. mehrdeutigen Abtastung sind im Zusammenhang mit 5C angegeben.
5B zeigt zusätzliche Details im Zusammenhang mit der eindeutigen Abtastung entsprechend einer oder mehreren Ausführungsformen. Wie in 5B gezeigt ist, führt das Digitalobjektauswahlsystem den Vorgang 506 des Identifizierens einer Maske eines einzelnen Hundes, der in dem Trainingsbild 300 abgebildet ist, durch. Der Vorgang 508 des eindeutigen Abtastens wird durchgeführt, indem ein Vorgang 530 des Abtastens von Positivtrainingsindikatoren aus dem Vordergrund auf Grundlage der identifizierten Maske durchgeführt wird. Insbesondere tastet das Digitalobjektauswahlsystem Pixel aus dem Inneren der bei Vorgang 506 identifizierten Maske ab. Darüber hinaus führt das Digitalobjektauswahlsystem den Vorgang 532 des Abtastens von Negativabtastungen aus dem Hintergrund auf Grundlage der identifizierten Maske durch. Insbesondere tastet das Digitalobjektauswahlsystem Pixel von außerhalb der bei Vorgang 506 identifizierten Maske ab.
Das Digitalobjektauswahlsystem kann eine Vielzahl von Konzepten zum Generieren von Positiv- und Negativtrainingsabtastungen einsetzen. Bei einer oder mehreren Ausführungsformen setzt das Digitalobjektauswahlsystem beispielsweise Zufallsabtasttechniken (innerhalb oder außerhalb einer Maske) ein. Darüber hinaus setzt das Digitalobjektauswahlsystem bei anderen Ausführungsformen Zufallsabtasttechniken im Inneren von kein Ziel darstellenden (untargeted) Objekten ein.
Das Zufallsabtasten kann jedoch daran scheitern, ausreichend Information im Zusammenhang mit Begrenzungen, Formen oder Merkmalen von Zielobjekten beim Trainieren eines neuronalen Netzwerkes bereitzustellen. Entsprechend tastet das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen Trainingsindikatoren auf Grundlage des Ortes von anderen Trainingsindikatoren (oder des Abstandes zu diesen) ab. Insbesondere tastet das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen Positivtrainingsindikatoren ab, um das Zielobjekt mit Positivtrainingsindikatoren zu bedecken (und zwar beispielsweise derart, dass die Abtastungen über das Zielobjekt verteilt sind, innerhalb eines Schwellenabstandes einer Begrenzung sind und/oder einen Schwellenabstand von einer anderen Abtastung überschreiten). Auf ähnliche Weise tastet das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen Negativtrainingsindikatoren ab, um das Zielobjekt mit Negativtrainingsindikatoren zu umgeben (die beispielsweise innerhalb eines Schwellenabstandes bezüglich eines Zielobjektes sind).
5C zeigt zusätzliche Details im Zusammenhang mit dem mehrdeutigen Abtasten. Wie in 5C gezeigt ist, identifiziert das Digitalobjektauswahlsystem bei Vorgang 516 mehrere Masken, so beispielsweise eine Maske eines einzelnen Hundes und eine Maske von drei Hunden. Das Digitalobjektauswahlsystem kann die mehreren Masken aus dem Satz von Segmentierungen (bei Vorgang 504) auf eine Vielzahl von Arten auswählen. Das Digitalobjektauswahlsystem kann die mehreren Masken beispielsweise beispielsweise durch Zufallsabtasten auswählen. Bei anderen Ausführungsformen kann das Digitalobjektauswahlsystem die mehreren Masken auf Grundlage der Nähe (beispielsweise des Abstandes innerhalb des Digitalbildes) oder der Tiefe auswählen.
Beim Durchführen des Vorganges 518 führt das Digitalobjektauswahlsystem einen Vorgang 540 des Identifizierens von gemeinsamen Vordergrund- und/oder Hintergrundbereichen aus den mehreren Masken durch. Wie dargestellt ist, führt das Digitalobjektauswahlsystem den Vorgang 540 durch Identifizieren eines gemeinsamen Vordergrundes 540a durch, der Pixel des Hundes, die beiden Masken gemeinsam sind, angibt. Darüber hinaus führt das Digitalobjektauswahlsystem den Vorgang 540 durch Identifizieren eines gemeinsamen Hintergrundes 540b durch, der Pixel angibt, die nicht in dem Satz von drei Hunden beinhaltet sind (beispielsweise die Hintergrundpixel, die beiden Masken gemeinsam sind).
Beim Identifizieren der gemeinsamen Vordergrund- und/oder Hintergrundbereiche führt das Digitalobjektauswahlsystem sodann einen Vorgang 542 des Abtastens von mehrdeutigen Positivtrainingsindikatoren aus dem gemeinsamen Vordergrund durch. Wie in 5C gezeigt ist, kann das Digitalobjektauswahlsystem beispielsweise aus dem Inneren des gemeinsamen Vordergrundes 540a abtasten, um Abtastungen innerhalb des Hundes zu generieren.
Das Digitalobjektauswahlsystem kann darüber hinaus einen Vorgang 544 des Abtastens von mehrdeutigen Negativabtastungen aus dem gemeinsamen Hintergrund durchführen. Wie in 5C gezeigt ist, tastet das Digitalobjektauswahlsystem aus dem gemeinsamen Hintergrund 540b ab, um Abtastungen von außerhalb des Bereiches, der alle drei Hunde abbildet, zu generieren.
Man beachte, dass jeder der Positiv- und Negativtrainingsindikatoren, die bei den Vorgängen 542 und 544 abgetastet worden sind, dahingehend mehrdeutig ist, dass er nicht zwischen den mehreren Masken, die bei dem Vorgang 516 identifiziert worden sind, unterscheidet. Sowohl die mehrdeutigen Positivtrainingsindikatoren wie auch die mehrdeutigen Negativtrainingsindikatoren sind beim Identifizieren eines einzelnen Hundes oder mehrerer Hunde in dem Trainingsbild 300 konsistent.
Wie in 5C gezeigt ist, kann das Digitalobjektauswahlsystem zudem einen Vorgang 546 des Identifizierens von anderen plausiblen Ground-Truth-Segmenten (zusätzlich zu den mehreren Masken, die bei dem Vorgang 516 identifiziert worden sind) durchführen. Das Digitalobjektauswahlsystem führt den Vorgang 546 durch, indem es die Segmentierungen, die bei dem Vorgang 504 identifiziert worden sind, analysiert, um zu bestimmen, ob irgendwelche zusätzlichen Segmentierungen vorhanden sind, die die Positivtrainingsindikatoren und die Negativtrainingsindikatoren, die bei den Vorgängen 542, 544 identifiziert worden sind, erfüllen. Wie in 5C dargestellt ist, bestimmt das Digitalobjektauswahlsystem, dass die Segmentierung 504d die Positivtrainingsindikatoren und die Negativtrainingsindikatoren erfüllt. Die Segmentierung 504d kann zudem als zusätzliche Ground-Truth-Segmentierung für die mehrdeutigen Positivtrainingsindikatoren und die mehrdeutigen Negativtrainingsindikatoren eingesetzt werden.
Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem zusätzlich zum Generieren von Trainingsindikatoren auch Ground-Truth-Skalierungen entsprechend Ground-Truth-Segmentierungen bestimmen (beispielsweise zum Abstimmen der Ground Truth auf eine geeignete Skalierung beim Trainieren eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes). 6 zeigt das Identifizieren von Ground-Truth-Skalierungen entsprechend Ground-Truth-Segmentierungen entsprechend einer oder mehreren Ausführungsformen. Insbesondere zeigt 6 eine Ground-Truth-Segmentierung 602 für ein Trainingsbild 600. Das Digitalobjektauswahlsystem führt einen Vorgang 604 des Identifizierens eines Satzes von Skalierungen durch. Wie in 6 gezeigt ist, identifiziert das Digitalobjektauswahlsystem Skalierungen 604a bis 604e, die Ankerkästchen mit verschiedenen Größen und Seitenverhältnissen umfassen. Bei einer oder mehreren Ausführungsformen identifiziert das Digitalobjektauswahlsystem die Skalierungen 604a bis 604e auf Grundlage von Kanälen eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes. Die erste Skalierung 604a kann beispielsweise eine entsprechende Skalierung eines ersten Kanals des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 wiedergeben.
Beim Identifizieren eines Satzes von Skalierungen führt das Digitalobjektauswahlsystem einen Vorgang 606 des Identifizierens einer Skalierung (beispielsweise eines Ankerkästchens) entsprechend der Ground-Truth-Segmentierung durch. Insbesondere kann das Digitalobjektauswahlsystem das am besten passende Ankerkästchen zum Trainieren des Auswahlmodells ausfindig machen. Bei einer oder mehreren Ausführungsformen bestimmt das Digitalobjektauswahlsystem beispielsweise das Zentrum eines Begrenzungskästchens B, das die Ground-Truth-Segmentierung umschließt. Als Nächstes stimmt das Digitalobjektauswahlsystem den Satz von Ankern (aus dem Vorgang 604), die auf dieses Zentrum konditioniert sind, ab. Das Digitalobjektauswahlsystem bestimmt sodann die Ähnlichkeit zwischen B und jedem Ankerkästchen auf Grundlage des Wertes für loU (loU Intersection over Union, Schnitt durch Vereinigung). Das Ankerkästchen mit dem größten Wert für loU wird als diejenige Skalierung betrachtet, die jener bestimmten Auswahl entspricht.
Wie in 6 gezeigt ist, kann das Digitalobjektauswahlsystem diejenige Skalierung, die der Ground-Truth-Segmentierung entspricht, als Ground-Truth-Skalierung identifizieren. Das Digitalobjektauswahlsystem kann dieses Konzept des Abgleichens dafür nutzen, die Ground-Truth-Skalierung für jede mögliche Ground-Truth-Maske ausfindig zu machen. Wie im Zusammenhang mit 3 erwähnt worden ist, nimmt das Digitalobjektauswahlsystem zudem bei einer oder mehreren Ausführungsformen lediglich eine Rückverfolgung der Gradienten des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes an den passenden Ankern vor, während es die anderen unberührt lässt.
Zahlreiche der vorbeschriebenen Beispiele und Illustrationen sind anhand des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201 (beispielsweise anhand des der einstufigen skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes) erläutert worden. Wie vorstehend erläutert worden ist, kann das Digitalobjektauswahlsystem auch ein der mehrstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk einsetzen, das verschiedene Skalierungen als Eingaben für das neuronale Netzwerk berücksichtigt. Wie vorstehend erläutert worden ist, kann das Einsetzen eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes ohne vorbestimmte Skalierungskanäle zusätzliche Flexibilität beim Generieren von Segmentierungen, die eine beliebige Skalierung über einen kontinuierlichen Bereich wiedergeben, bieten. Ein möglicher Nachteil des einstufigen Konzeptes besteht beispielsweise darin, dass gegebenenfalls einige Zwischenskalierungen, die semantisch sinnvollen Auswahlen entsprechen, infolge der Diskretisierung fehlen. Eine Alternative wäre das Definieren einer kontinuierlichen Skalierungsvariation derart, dass man das volle Spektrum von möglichen Auswahlen erhalten kann.
7 zeigt beispielsweise das Einsetzen eines der mehrstufigen skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen. Im Gegensatz zu dem der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerk 201, das in 2B dargestellt ist, beinhaltet das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 nicht mehrere Kanäle für einzelne Skalierungen. Anstatt dessen empfängt das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 eine Skalierungseingabe und generiert sodann eine Objektsegmentierungsausgabe auf Grundlage der Skalierungseingabe. Das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 kann mehrere Objektsegmentierungsausgaben in Reaktion auf mehrere Eingabeskalierungen generieren.
Wie in 7 dargestellt ist, stellt das Digitalobjektauswahlsystem beispielsweise ein Digitalbild 700 mit Nutzerindikatoren 702 für das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 bereit. Zusätzlich stellt das Digitalobjektauswahlsystem eine erste (kleine) Skalierung 704 bereit. Das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 analysiert das Digitalbild 700, die Nutzerindikatoren 702 und die erste Skalierung 704 und generiert eine Objektsegmentierungsausgabe 708 entsprechend der ersten Skalierung.
Das Digitalobjektauswahlsystem stellt zudem das Digitalbild 700, die Nutzerindikatoren 702 und eine zweite (größere) Skalierung 705 für das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 bereit. Das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 analysiert das Digitalbild 700, die Nutzerindikatoren 702 und die zweite Skalierung 705 und generiert eine Objektsegmentierungsausgabe 710 entsprechend der zweiten Skalierung.
Wie erwähnt worden ist, unterscheidet sich die Architektur des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 706 von der Architektur des in 2B dargestellten der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 201. Das Digitalobjektauswahlsystem hängt beispielsweise eine Skalierung als zusätzlichen Kanal an, um eine sechsdimensionale Eingabe (Bild, Nutzereingaben, Skalierung) zu bilden, die an das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 weitergereicht wird. Darstellungshalber kann das Digitalobjektauswahlsystem für den Skalierungskanal eine Skalierungskarte generieren, die den Skalierungswert (Skalar) an jedem Pixelort wiederholt. Daher unterstützt diese Ausgestaltung bei gleichen Vorgaben (Bild, Nutzereingaben) das Modell beim Erlernen dessen, eine andere Auswahl, die auf eine gegebene Skalierung konditioniert ist, zu erzeugen.
Bei einigen Ausführungsformen kann das Digitalobjektauswahlsystem anstatt der Nutzung einer Skalierungseingabeebene den Skalierungswert auch auf andere Weise eingeben. Das Digitalobjektauswahlsystem kann beispielsweise einen einzigen Skalierungswert (anstelle einer ganzen Skalierungsebene) einsetzen. Das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 kann den Skalierungswert als nummerische Eingabe analysieren, um eine Objektsegmentierungsausgabe entsprechend dem Skalierungswert zu generieren.
Darüber hinaus ersetzt das Digitalobjektauswahlsystem beim Generieren des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 706 mehrere Skalierungsausgabekanäle aus dem der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerk 201 durch einen Skalierungsausgabekanal entsprechend der Eingabeskalierung. Das Digitalobjektauswahlsystem kann eine spezifische Objektsegmentierungsausgabe über das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 für eine bestimmte diskretisierte Skalierungseingabe generieren. Darüber hinaus beinhaltet das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 bei einigen Ausführungsformen nicht das Objektverifikationsmodell 242.
Das Digitalobjektauswahlsystem kann das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 auf ähnliche Weise wie das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 trainieren. Das Digitalobjektauswahlsystem kann Trainingsbilder identifizieren, Ground-Truth-Segmentierungen und entsprechende Trainingssegmentierungen generieren und das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk durch Vergleichen von vorhergesagten Segmentierungen mit den Ground-Truth-Segmentierungen trainieren.
Da das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 eine Eingabeskalierung berücksichtigt, kann das Digitalobjektauswahlsystem auch das der skalierungsdiversen Segmentierung dienende Netzwerk 706 mit Trainingsskalierungen trainieren. Beispielsweise kann das Digitalobjektauswahlsystem eine Skalierung entsprechend einer Ground-Truth-Segmentierung (beispielsweise die Ground-Truth-Skalierung aus 6) als Trainingseingabeskalierung bereitstellen. Das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 706 kann sodann eine vorhergesagte Segmentierung entsprechend der Trainingseingabeskalierung generieren und die vorhergesagte Segmentierung mit der Ground-Truth-Segmentierung entsprechend der Trainingsskalierung vergleichen. Das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk kann sodann eine Rückverfolgung vornehmen und abstimmbare Parameter des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 706 auf Grundlage des Vergleiches modifizieren.
Beim Trainieren des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes 706 kann das Digitalobjektauswahlsystem Trainingsindikatoren und Ground-Truth-Segmentierungen generieren, wie vorstehend (beispielsweise anhand 5A bis 5C) beschrieben worden ist. Darüber hinaus kann das Digitalobjektauswahlsystem Trainingsskalierungen entsprechend Ground-Truth-Segmentierungen bestimmen. Bei einer oder mehreren Ausführungsformen setzt das Digitalobjektauswahlsystem das Konzept ein, das vorstehend (beispielsweise anhand von 6) beschrieben worden ist. Bei einigen Ausführungsformen bestimmt das Digitalobjektauswahlsystem eine Trainingsskalierung, indem es die Größe und das Seitenverhältnis einer Ground-Truth-Segmentierung bestimmt und die Größe und das Seitenverhältnis als Trainingsskalierung einsetzt.
Obwohl 7 ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk beschreibt, das Nutzereingaben mit lediglich einem einzigen Ausgabekanal berücksichtigt, kann das Digitalobjektauswahlsystem auch ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk einsetzen, das Eingabeskalierungen berücksichtigt und dabei mehrere Skalierungsausgabekanäle beibehält. Bei einer oder mehreren Ausführungsformen kann das Digitalobjektauswahlsystem beispielsweise ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk einsetzen, das Skalierungseingaben berücksichtigt und eine ähnliche Architektur wie das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk 201 von 2B (mit zusätzlichen Eingabekanälen) einsetzt. Das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk kann beispielsweise eine oder mehrere Eingaben der Skalierung empfangen und sodann Objektsegmentierungsausgaben unter Nutzung lediglich derjenigen Kanäle entsprechend den Eingabeskalierungen (beispielsweise unter Nutzung desjenigen Kanals, der den Eingabeskalierungen am nächsten ist) generieren. Auf diese Weise kann das Digitalobjektauswahlsystem mehrere Skalierungseingaben empfangen und mehrere Objektsegmentierungsausgaben, die den Skalierungseingaben entsprechen, in einem einzigen Durchlauf generieren.
Wie eben erwähnt worden ist, kann das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen Skalierungseingaben identifizieren. Das Digitalobjektauswahlsystem kann Skalierungseingaben auf verschiedene Arten identifizieren. Bei einer oder mehreren Ausführungsformen empfängt das Digitalobjektauswahlsystem beispielsweise eine Nutzereingabe von verschiedenen Skalierungen. Zusätzliche Details im Zusammenhang mit Nutzerschnittstellen und Nutzerschnittstellenelementen zum Empfangen einer Nutzereingabe von Skalierungen sind nachstehend (beispielsweise im Zusammenhang mit 9A bis 9C) angegeben.
Bei anderen Ausführungsformen kann das Digitalobjektauswahlsystem Skalierungseingaben unter Einsatz eines dem Skalierungsvorschlagen dienenden neuronalen Netzwerkes generieren. 8 zeigt beispielsweise das Generieren und Einsetzen von Skalierungen mittels eines dem Skalierungsvorschlagen dienenden neuronalen Netzwerkes 806. Wie in 8 gezeigt ist, stellt das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk ein Digitalbild 802 und Nutzerindikatoren 804 für das dem Skalierungsvorschlagen dienende neuronale Netzwerk 806 bereit. Das dem Skalierungsvorschlagen dienende neuronale Netzwerk 806 generiert eine oder mehrere Skalierungen, die sodann als Eingabe von einem der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerk 808 analysiert werden, um eine oder mehrere Objektsegmentierungsausgaben 810 zu generieren.
Das Digitalobjektauswahlsystem kann das dem Skalierungsvorschlagen dienende neuronale Netzwerk 806 sodann dafür trainieren, Skalierungen zu generieren, die Objekten, die in dem Digitalbild abgebildet sind, und den Nutzerindikatoren entsprechen. Das Digitalobjektauswahlsystem kann beispielsweise ein Trainingsbild und Trainingsindikatoren für das dem Skalierungsvorschlagen dienende neuronale Netzwerk 806 bereitstellen, um eine oder mehrere vorhergesagte Skalierungen zu generieren. Das Digitalobjektauswahlsystem kann sodann die eine oder die mehreren vorhergesagten Skalierungen mit Ground-Truth-Skalierungen vergleichen.
Das Digitalobjektauswahlsystem kann beispielsweise Trainingsobjekte in dem Trainingsbild identifizieren und Ground-Truth-Skalierungen entsprechend den Trainingsobjekten (beispielsweise Ground-Truth-Skalierungen, die die Trainingsobjekte umschließen) identifizieren. Das Digitalobjektauswahlsystem kann sodann die identifizierten Ground-Truth-Skalierungen nutzen, um die vorhergesagten Skalierungen, die mittels des dem Skalierungsvorschlagen dienenden neuronalen Netzwerkes 806 generiert worden sind, zu vergleichen. Das Digitalobjektauswahlsystem kann sodann Parameter des dem Skalierungsvorschlagen dienenden neuronalen Netzwerkes 806 auf Grundlage des Vergleiches modifizieren. Auf diese Weise kann das Digitalobjektauswahlsystem diverse Skalierungen, die für ein Digitalbild geeignet sind, identifizieren und sodann diverse Objektsegmentierungsausgaben entsprechend den diversen Skalierungen identifizieren.
Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem verschiedene Grafiknutzerschnittstellen und Schnittstellenelemente über Rechenvorrichtungen zum Bereitstellen von Digitalbildern, Empfangen von Nutzerindikatoren und Bereitstellen von Objektsegmentierungsausgaben bereitstellen. 9A zeigt beispielsweise eine Rechenvorrichtung 900, die eine Nutzerschnittstelle 902 abbildet, die mittels des Digitalobjektauswahlsystems generiert worden ist. Wie gezeigt ist, beinhaltet die Nutzerschnittstelle 902 ein Digitalbild 904, Nutzerindikatorelemente 908 bis 912 und ein Skalierungseingabeschieberelement 914.
Insbesondere beinhaltet die Nutzerschnittstelle 902 ein Vordergrundnutzerindikatorelement 908, ein Hintergrundnutzerindikatorelement 910 und ein Kantennutzerindikatorelement 912. Auf Grundlage einer Nutzerinteraktion mit dem Vordergrundnutzerindikatorelement 908, dem Hintergrundnutzerindikatorelement 910 und/oder dem Kantennutzerindikatorelement 912 kann das Digitalobjektauswahlsystem verschiedene Typen von Nutzerindikatoren identifizieren und empfangen. Wie in 9A angezeigt ist, wird beispielsweise das Vordergrundnutzerindikatorelement 908 aktiviert, und der Nutzer hat ein Pixel des Digitalbildes 904 ausgewählt. In Reaktion hierauf identifiziert das Digitalobjektauswahlsystem einen Positivnutzerindikator 906.
Obwohl die Nutzerschnittstelle 902 drei Nutzerindikatorelemente 908 bis 912 darstellt, kann das Digitalobjektauswahlsystem eine Nutzerschnittstelle mit zusätzlichen Nutzerindikatorelementen generieren. Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem beispielsweise eine Nutzerschnittstelle mit Begrenzungskästchenindikatorelementen und/oder Sprachnutzerindikatorelementen generieren.
Wie erwähnt worden ist, beinhaltet die Nutzerschnittstelle 902 zudem das Skalierungseingabeschieberelement 914. Auf Grundlage einer Nutzerinteraktion mit dem Skalierungseingabeschieberelement 914 kann das Digitalobjektauswahlsystem eine Nutzereingabe einer Skalierung zum Generieren von Objektsegmentierungsausgaben identifizieren. 9A zeigt beispielsweise, dass das Skalierungseingabeschieberelement 914 in einer ersten Position 916 ist, die einer ersten Skalierung entspricht.
Das Digitalobjektauswahlsystem kann verschiedene Skalierungen auf Grundlage einer Nutzerinteraktion mit dem Skalierungseingabeschieberelement 914 identifizieren. Wie in 9B gezeigt ist, identifiziert das Digitalobjektauswahlsystem über das Skalierungseingabeschieberelement 914 beispielsweise eine Nutzereingabe einer zweiten Position 920, die einer zweiten Skalierung entspricht. Auf Grundlage des Positivnutzerindikators 906 und der zweiten Skalierung kann das Digitalobjektauswahlsystem eine Objektsegmentierungsausgabe generieren.
9B zeigt beispielsweise, dass die Nutzerschnittstelle 902 eine Objektsegmentierungsausgabe 922 umfasst. Insbesondere analysiert das Digitalobjektauswahlsystem den Positivnutzerindikator 906 und die zweite Skalierung mittels eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes, um die Objektsegmentierungsausgabe 922 zu generieren. Insbesondere setzt das Digitalobjektauswahlsystem ein der mehrstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk (wie es anhand 7 beschrieben worden ist) dafür ein, die zweite Skalierung, das Digitalbild 904 und den Positivnutzerindikator 906 als Eingabe zu analysieren, um die Objektsegmentierungsausgabe 922 zu generieren.
Das Digitalobjektauswahlsystem kann zusätzliche Objektsegmentierungsausgaben bei verschiedenen Skalierungen auf Grundlage einer Nutzereingabe von verschiedenen Skalierungen generieren. 9C zeigt beispielsweise die Nutzerschnittstelle 902 beim Empfangen einer zusätzlichen Nutzereingabe einer dritten Position 930, die einer dritten Skalierung entspricht, über das Skalierungseingabeschieberelement 904. Das Digitalobjektauswahlsystem analysiert das Digitalbild 904, den Positivnutzerindikator 906 und die dritte Skalierung mittels eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes und generiert eine zweite Segmentierungsausgabe 932. Darüber hinaus stellt das Digitalobjektauswahlsystem die zweite Segmentierungsausgabe 932 zur Anzeige über die Nutzerschnittstelle 902 bereit.
Ein Nutzer kann daher das Skalierungseingabeschieberelement 914 modifizieren und verschiedene Objektsegmentierungsausgaben dynamisch generieren. Beim Identifizieren einer Objektsegmentierungsausgabe, die einem Zielobjekt (beispielsweise dem Kopf des Pilzes oder dem ganzen Pilz, der in 9C dargestellt ist) entspricht, kann der Nutzer die Objektsegmentierungsausgabe mittels der Rechenvorrichtung 900 auswählen. Der Nutzer kann mit einem Bearbeitungselement interagieren, um die Objektsegmentierungsausgabe, die dem Zielobjekt entspricht, zu modifizieren.
Obwohl 9A bis 9C einen bestimmten Typ eines Nutzerschnittstellenelementes zur Bereitstellung einer Skalierungseingabe (beispielsweise ein Schieberelement) darstellen, kann das Digitalobjektauswahlsystem auch eine Vielzahl von Elementen zum Identifizieren einer Skalierungseingabe einsetzen. Bei einer oder mehreren Ausführungsformen setzt das Digitalobjektauswahlsystem beispielsweise ein Zeitgeberelement ein, das die Skalierungseingabe auf Grundlage der Zeitdauer einer Nutzerinteraktion modifiziert. Drückt ein Nutzer beispielsweise ein Zeitelement, so kann das Digitalobjektauswahlsystem verschiedene Objektsegmentierungsausgaben auf Grundlage der Zeitdauer, während der der Nutzer das Zeitelement drückt, generieren. Das Digitalobjektauswahlsystem kann daher dynamisch zunehmende Objektsegmentierungsausgaben auf Grundlage eines einzigen Drück- und Halteereignisses mit einem Zeitgeberelement mittels der Rechenvorrichtung 900 generieren.
Auf ähnliche Weise setzt das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen ein Druckelement ein, das eine Skalierung auf Grundlage des Druckausmaßes entsprechend der Nutzerinteraktion modifiziert. Beinhaltet die Rechenvorrichtung 900 beispielsweise einen berührungsempfindlichen Schirm (touchscreen), so kann das Druckausmaß einer Nutzereingabe die entsprechende Skalierung bestimmen (so kann das Digitalobjektauswahlsystem beispielsweise die Segmentierungen auf Grundlage des identifizierten Druckausmaßes dynamisch modifizieren).
Bei einer oder mehreren Ausführungsformen kann das Digitalobjektauswahlsystem verschiedene Skalierungswerte auf Grundlage eines Scrollereignisses (beispielsweise an einem Scrollrad einer Maus) oder auf Grundlage eines Zusammenwischereignisses (beispielsweise bei einer Bewegung zweier Finger an einem Tablet) identifizieren. Detektieren kann das Digitalobjektauswahlsystem darstellungshalber ein vertikales Zusammenwischen (pinch), um die Vertikalskalierungsgröße zu modifizieren, und ein horizontales Zusammenwischen, um die Horizontalskalierungsgröße zu detektieren. Bei einigen Ausführungsformen setzt das Digitalobjektauswahlsystem zudem zwei Schieberelemente ein (beispielsweise ein Schieberelement zum Modifizieren einer Vertikalabmessung und ein weiteres Schieberelement zum Modifizieren einer Horizontalabmessung).
Auf ähnliche Weise setzt das Digitalobjektauswahlsystem, obwohl das Schieberelement von 9A bis 9C einen kontinuierlichen Bereich von Skalierungen einsetzen kann, bei einigen Ausführungsformen ein anhaftendes (sticky) Schieberelement ein, das einem Satz von Skalierungen entspricht (beispielsweise vordefinierte Skalierungen oder solche Skalierungen, die semantisch sinnvollen Segmentierungen entsprechen). Beispielsweise kann der Schieberknopf an einer bestimmten Skalierung oder Position anhaften, bis der Knopf nahe genug an die nächste Skalierung, die einer semantisch sinnvollen Ausgabe entspricht, heranbewegt wird. In diesem Fall sind die Zwischenergebnisse (Auswahlen mit der Skalierung, die keiner semantisch sinnvollen Ausgabe entsprechen) nicht sichtbar, und es wird dem Nutzer nur ein Satz von qualitativ hochwertigen Vorschlägen gezeigt.
Bei einigen Ausführungsformen generiert das Digitalobjektauswahlsystem ein Histogramm oder einen Plot aller empfohlenen Skalierungen auf einem Schieber, während der Nutzer über die volle Steuerung bzw. Regelung des Schiebers verfügt. Der Nutzer kann alle Zwischenergebnisse erhalten und den „wachsenden“ Auswahlprozess visualisieren, wenn er den Schieber bewegt. Der Plot dient als Anleitung, die dem Nutzer den Ort der wahrscheinlich guten Vorschläge zeigt.
Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem zudem mehrere Objektsegmentierungsausgaben generieren und die Objektsegmentierungsausgaben gleichzeitig zur Anzeige bereitstellen. 10A zeigt beispielsweise eine Rechenvorrichtung 1000, die eine Nutzerschnittstelle 1002 anzeigt, die von dem Digitalobjektauswahlsystem generiert worden ist, entsprechend einer oder mehreren Ausführungsformen. Die Nutzerschnittstelle 1002 beinhaltet ein Digitalbild 1004 und die Nutzerindikatorelemente 908 bis 912. Wie in 10A gezeigt ist, identifiziert das Digitalobjektauswahlsystem einen Positivnutzerindikator 1006 innerhalb des Digitalbildes 1004 (beispielsweise einen Klick an dem Hut, während das Vordergrundnutzerindikatorelement 908 aktiv ist). Auf Grundlage des Positivnutzerindikators 1006 generiert das Digitalobjektauswahlsystem mehrere Objektsegmentierungsausgaben 1010a bis 1010c entsprechend mehreren Skalierungen in einem Segmentierungsausgabebereich 1008.
Im Gegensatz zu 9A bis 9C generiert das Digitalobjektauswahlsystem die mehreren Objektsegmentierungsausgaben 1010a bis 1010c gleichzeitig (oder nahezu gleichzeitig) ohne Nutzereingabe einer Skalierung. Das Digitalobjektauswahlsystem setzt ein der einstufigen skalierungsdiversen Segmentierung dienendes Netzwerk dafür ein, das Digitalbild 1004 und den Nutzerindikator 1006 zu analysieren, um die Objektsegmentierungsausgaben 1010a bis 1010c zu generieren.
Wie vorstehend beschrieben worden ist, kann das Digitalobjektauswahlsystem eine Anzahl von verschiedenen Skalierungen zum Generieren der Objektsegmentierungsausgaben 1010a bis 1010c generieren. Bei einigen Ausführungsformen generiert das Digitalobjektauswahlsystem die Objektsegmentierungsausgaben unter Einsatz von verschiedenen Skalierungen entsprechend verschiedenen Kanälen eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes (beispielsweise entsprechend den anhand von 2B beschriebenen Kanälen). Bei anderen Ausführungsformen kann das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk Skalierungen unter Einsatz eines dem Skalierungsvorschlagen dienenden neuronalen Netzwerkes (wie anhand 8 beschrieben) generieren. Unabhängig vom Konzept kann das Digitalobjektauswahlsystem die verschiedenen Skalierungen dafür einsetzen, die Objektsegmentierungsausgaben 1010a bis 1010c zu generieren, und ein Nutzer kann sodann mit den Objektsegmentierungsausgaben 1010a bis 1010c interagieren.
Wie in 10B gezeigt ist, identifiziert das Digitalobjektauswahlsystem beispielsweise eine Nutzerauswahl einer ersten Objektsegmentierungsausgabe 1010a. In Reaktion hierauf stellt das Digitalobjektauswahlsystem zudem eine entsprechende Objektsegmentierungsauswahl 1020 in dem Digitalbild 1004 bereit. Auf diese Weise kann ein Nutzer mehrere Objektsegmentierungsausgaben schnell und effizient prüfen und eine bestimmte Objektsegmentierungsausgabe, die einem Zielobjekt entspricht, auswählen.
Wie in 10C gezeigt ist, kann ein Nutzer verschiedene Objektsegmentierungsausgaben auswählen, und das Digitalobjektauswahlsystem kann entsprechende Objektsegmentierungsauswahlen bereitstellen. In 10C identifiziert das Digitalobjektauswahlsystem beispielsweise eine Nutzerinteraktion mit dem dritten Objektsegmentierungselement 1010c. In Reaktion hierauf generiert das Digitalobjektauswahlsystem eine entsprechende Objektsegmentierungsauswahl 1030 innerhalb des Digitalbildes 1004.
Das Digitalobjektauswahlsystem kann des Weiteren eine Objektsegmentierung auf Grundlage einer zusätzlichen Nutzerauswahl verfeinern. Mit Blick auf 10D stellt ein Nutzer beispielsweise bei Auswahl des dritten Objektsegmentierungselementes 1010c eine zusätzliche Nutzerauswahl bereit. Insbesondere lässt das dritte Objektsegmentierungselement 1010c einen Abschnitt des in dem Digitalbild 1004 abgebildeten Hemdes weg. Der Nutzer aktiviert das Kantennutzerindikatorelement 912 und stellt einen Kantenindikator 1042 (beispielsweise einen Klick an oder nahe an der Kante des in dem Digitalbild 1004 gezeigten Hemdes) bereit. In Reaktion hierauf modifiziert das Digitalobjektauswahlsystem die Objektsegmentierungsauswahl 1030 zum Generieren einer neuen Objektsegmentierung 1032, die denjenigen Abschnitt des Hemdes, der ursprünglich weggelassen worden ist, beinhaltet. Daher kann das Digitalobjektauswahlsystem mehrere Objektsegmentierungsauswahlen generieren und des Weiteren zusätzliche Nutzerindikatoren berücksichtigen, um eine Segmentierung zu identifizieren, die auf ein Zielobjekt abgestimmt ist.
Obwohl 10D keine zusätzlichen Objektsegmentierungsausgabevorschläge beinhaltet, generiert das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen beim Empfangen des zusätzlichen Nutzerindikators einen zusätzlichen Satz von Objektsegmentierungsausgabevorschlägen. Entsprechend kann das Digitalobjektauswahlsystem, wenn der Nutzerindikator weiterhin mehrdeutig ist, einen Satz von zusätzlichen Objektsegmentierungsausgaben bereitstellen, um die Zeit und die Nutzerinteraktionen, die zum Identifizieren eines Zielobjektes benötigt werden, zu verringern.
Obwohl 10A bis 10D zudem eine bestimmte Anzahl von Objektsegmentierungsausgaben (nämlich drei) darstellen, kann das Digitalobjektauswahlsystem eine Vielzahl von verschiedenen Objektsegmentierungsausgaben generieren. Wie vorstehend beschrieben worden ist, generiert das Digitalobjektauswahlsystem bei einer oder mehreren Ausführungsformen beispielsweise zwölf Segmentierungen und stellt diese bereit. Darstellungshalber generiert das Digitalobjektauswahlsystem bei einigen Ausführungsformen zwölf Segmentierungen und stellt diese bereit, hebt jedoch diejenigen Segmentierungen mit der höchsten Qualität (beispielsweise mit den höchsten Zuverlässigkeitskennwerten oder Objektkennwerten) (beispielsweise mittels einer Umrandung in Form eines zusätzlichen Randes) hervor. Bei anderen Ausführungsformen filtert das Digitalobjektauswahlsystem Segmentierungen mit niedrigen Zuverlässigkeitskennwerten oder niedrigen Objektkennwerten aus.
Obwohl 10A bis 10D mehrere Objektsegmentierungsvorschläge als separate visuelle Elemente zeigen, kann das Digitalobjektauswahlsystem die Objektsegmentierungsvorschläge zusätzlich als verschiedene Einblendungen auf einem einzigen Digitalbild anzeigen. Das Digitalobjektauswahlsystem kann alle Vorschläge mit verschiedenen Farbcodes (beispielsweise mit verschiedenen Farben entsprechend verschiedenen Skalierungen) auf dem Digitalbild 1004 einblenden, und der Nutzer kann den Cursor einfach zum Auswählen der Vorschläge oder zum Aufheben einer Auswahl ziehen.
Wie vorstehend erläutert worden ist, kann das Digitalobjektauswahlsystem die Effizienz und Genauigkeit verbessern. Forscher führten Experimente durch, um die Verbesserung darzustellen, die von dem Digitalobjektauswahlsystem im Vergleich zu herkömmlichen Systemen bereitgestellt wird. Eine gängige Praxis beim Bewerten der Leistung eines interaktiven Bildsegmentierungssystems mit einer einzigen Ausgabe ist folgende: Ist ein Anfangspositivklick im Zentrum des von Interesse seienden Objektes erfolgt, so gibt das Modell zur Bewertung eine Anfangsvorhersage aus. Nachfolgende Klicks werden iterativ zum Zentrum des größten falschetikettierten Bereiches hinzugefügt bzw. addiert, und dieser Schritt wird wiederholt, bis die Maximalanzahl von Klicks (bei 20 fest) erreicht ist. Der Wert für loU (Intersection over Union) wird bei jedem Klick aufgezeichnet. Die durchschnittliche Anzahl von Klicks, die zum Erreichen eines bestimmten Wertes für loU bei einem bestimmten Datensatz erforderlich ist, wird mitgeteilt.
Da das Digitalobjektauswahlsystem jedoch mehrere Segmentierungen erzeugen kann, untersuchten Forscher auch die Menge von Interaktionen, die beim Wählen von einer der Vorhersagen benötigt wird. Dies rührt daher, dass zu dem Zweck, einen neuen Klick zum Zentrum des größten fehlerhaften Bereiches hinzuzufügen bzw. zu addieren, die Forscher eine der M Segmentierungen als Ausgabe des Modells aufgreifen mussten, um den Segmentierungsfehler zu berechnen. Um dies zu erreichen, behielten die Forscher einen „Standard“-Segmentierungszweig bei und erhöhten die Anzahl von Änderungen, wenn der Nutzer eine Änderung von der „Standard“-Segmentierungsmaske zu einer anderen benötigt.

Die Forscher verglichen das Digitalobjektauswahlsystem mit mehreren Bildsegmentierungsmodellen auf Grundlage von veröffentlichten Benchmarks mit auf Instanz- bzw. Versionsebene gebenden Kommentaren, darunter auf Grundlage des PASCAL-VOC-Bewertungssatzes (PASCAL VOC Validation Set) und des Berkeley-Satzes. Die Forscher bewerteten das Digitalobjektauswahlsystem anhand von: „Deep Interactive Object Selection“ von N. Xu et al (DISO), „Regional Interactive Image Segmentation Networks“ von J.H. Liew et al. (RIS-Net), „Iteratively Trained Interactive Segmentation“ von S. Mahadevan et al. (ITIS), „Deep Extreme Cut: From extreme points to object segmentation“ von K. Maninis et al. (DEXTR), „Interactive Image Segmentation With Latent Diversity“ von Z. Li et al. (LDN) und „A Fully Convolutional Two-Stream Fusion Network For Interactive Image Segmentation“ von Y. Hu et al. (FCFSFN). Die Ergebnisse, die die Verbesserungen bei den Klicks, die sich aus dem Digitalobjektauswahlsystem ergibt, zeigen, sind in 1 dargestellt. Wie gezeigt ist, führte das Digitalobjektauswahlsystem über alle Systeme hinweg zur niedrigsten Anzahl von Klicks. Tabelle 1

Segmentierungsmodell	Anzahl der Klicks
Segmentierungsmodell	PASCAL-Datensatz	Berkeley-Datensatz
DIOS	6,04	8,65
RIS-Net	5,00	6,03
ITIS	5,6	-
DEXTR	4	-
LDN	4,79	-
FCTSFN	3,76	6,49
Digitalobjektauswahlsystem	2,68	4,67

Wie vorstehend erwähnt worden ist, kann das Digitalobjektauswahlsystem in Verbindung mit einer oder mehreren Rechenvorrichtungen implementiert sein. 11 zeigt ein Diagramm einer Umgebung 1100, in der das Digitalobjektauswahlsystem arbeiten kann. Wie in 11 gezeigt ist, beinhaltet die Umgebung 1100 eine Servervorrichtung / Servervorrichtungen 1102 und Clientvorrichtungen 1104a bis 1104n. Darüber hinaus kann jede der Vorrichtungen innerhalb der Umgebung 1100 mit einer anderen über ein Netzwerk 1106 (beispielsweise das Internet) kommunizieren. Obwohl 11 eine bestimmte Anordnung von Komponenten darstellt, sind verschiedene zusätzliche Anordnungen möglich. Die Servervorrichtung / die Servervorrichtungen 1102 können beispielsweise direkt mit den Clientvorrichtungen 1104a bis 1104n und nicht über das Netzwerk 1106 kommunizieren. Während darüber hinaus 11 drei Clientvorrichtungen 1104a bis 1104n zeigt, beinhaltet die Umgebung 1100 bei alternativen Ausführungsformen eine beliebige Anzahl von Nutzerclientvorrichtungen.
Wie in 11 dargestellt ist, kann die Umgebung 1100 Clientvorrichtungen 1104a bis 1104n beinhalten. Die Clientvorrichtungen 1104a bis 1104n können eine Vielzahl von Rechenvorrichtungen umfassen, so beispielsweise einen oder mehrere PCs, Laptopcomputer, mobile Vorrichtungen, Mobiltelefone, Tablets, Spezialzweckcomputer, darunter Rechenvorrichtungen, die nachstehend anhand 14 noch beschrieben werden.
Darüber hinaus können die Clientvorrichtungen 1204a bis 1204n und die Servervorrichtung / die Servervorrichtungen, wie in 11 dargestellt ist, über das Netzwerk 1106 kommunizieren. Das Netzwerk 1106 kann ein Netzwerk oder eine Sammlung von Netzwerken darstellen (so beispielsweise das Internet, ein Firmenintranet, ein virtuelles privates Netzwerk (VPN), ein Ortsbereichsnetzwerk (LAN), ein Drahtlosortsnetzwerk (WLAN), ein zellenbasiertes Netzwerk, ein Großbereichsnetzwerk (WAN), ein Metropolbereichsnetzwerk (MAN) oder eine Kombination aus zwei oder mehr derartigen Netzwerken. Das Netzwerk 1106 kann daher ein beliebiges geeignetes Netzwerk sein, über das die Clientvorrichtungen 1104a bis 1104n auf die Servervorrichtung / die Servervorrichtungen 1102 oder umgekehrt zugreifen können. Zusätzliche Details im Zusammenhang mit dem Netzwerk 1106 sind nachstehend (beispielsweise in Verbindung mit 14) angegeben.
Zusätzlich kann die Umgebung 1100, wie in 11 gezeigt ist, auch die Servervorrichtung / die Servervorrichtungen 1102 beinhalten. Die Servervorrichtung / die Servervorrichtungen 1102 kann/können verschiedene Typen von Daten generieren, speichern, analysieren, empfangen und übertragen. Die Servervorrichtung / die Servervorrichtungen 1102 kann/können beispielsweise Daten von einer Clientvorrichtung, so beispielsweise der Clientvorrichtung 1104a, empfangen und die Daten an eine andere Clientvorrichtung, so beispielsweise die Clientvorrichtung 1104b, senden. Die Servervorrichtung / die Servervorrichtungen 1102 kann/können zudem elektronische Nachrichten zwischen einem oder mehreren Nutzern der Umgebung 1100 übertragen. Bei einigen Ausführungsformen ist/sind die Servervorrichtung / die Servervorrichtungen 1102 ein Datenserver. Die Servervorrichtung / die Servervorrichtungen 1102 können zudem einen Kommunikationsserver oder einen Webhostingserver umfassen. Zusätzliche Details im Zusammenhang mit der Servervorrichtung / den Servervorrichtungen 1102 werden nachstehend (beispielsweise anhand von 14) beschrieben.
Wie gezeigt ist, beinhaltet/beinhalten die Servervorrichtung / die Servervorrichtungen 1102 ein Digitalmedienverwaltungssystem 1108, das die Speicherung, Auswahl, Bearbeitung, Modifizierung und Verteilung von Digitalmedien, so beispielsweise von Digitalbildern oder Digitalvideos, verwalten kann. Das Digitalmedienverwaltungssystem 1108 kann beispielsweise Digitalbilder (und/oder Digitalvideos) von der Clientvorrichtung 1104a sammeln, die Digitalbilder bearbeiten und die bearbeiteten Digitalbilder für die Clientvorrichtung 1104a bereitstellen.
Wie in 11 gezeigt ist, beinhaltet das Digitalmedienverwaltungssystem 1108 das Digitalobjektauswahlsystem 1110. Das Digitalobjektauswahlsystem 1110 kann ein oder mehrere Zielobjekte in einem Digitalbild identifizieren. Die Servervorrichtung / die Servervorrichtungen 1102 kann/können beispielsweise eine Nutzerangabe eines Pixels in einem Digitalbild über die Clientvorrichtung 1104a empfangen. Das Digitalobjektauswahlsystem 1110 kann ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk einsetzen, um mehrere Objektsegmentierungen zu generieren und die mehreren Objektsegmentierungen zur Anzeige über die Clientvorrichtung 1104a bereitzustellen.
Zusätzlich kann das Digitalobjektauswahlsystem 1110 ein oder mehrere der skalierungsdiversen Segmentierung dienende neuronale Netzwerke trainieren. So kann das Digitalobjektauswahlsystem 1110, wie vorstehend erläutert worden ist, Trainingsdaten (beispielsweise Trainingsdaten, eindeutige Trainingsindikatoren, mehrdeutige Trainingsindikatoren und Ground-Truth-Segmentierungen) generieren und die Trainingsdaten dafür einsetzen, ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk zu trainieren. Bei einer oder mehreren Ausführungsformen trainiert eine erste Servervorrichtung (beispielsweise ein Server dritter Seite) das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk, während eine zweite Servervorrichtung (oder Clientvorrichtung) das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk anwendet.
Obwohl 11 das mittels der Servervorrichtung / der Servervorrichtungen 1102 implementierte Digitalobjektauswahlsystem 1110 darstellt, kann das Digitalobjektauswahlsystem 1110 gänzlich oder in Teilen auch durch die einzelnen Vorrichtungen 1102 bis 1104n der Umgebung 1100 implementiert werden. Bei einer oder mehreren Ausführungsformen ist das Digitalobjektauswahlsystem 1110 beispielsweise auf der Clientvorrichtung 1102a implementiert. Auf ähnliche Weise kann das Digitalobjektauswahlsystem 1110 bei einer oder mehreren Ausführungsformen auf der Servervorrichtung / den Servervorrichtungen 1102 implementiert sein. Verschiedene Komponenten und Funktionen des Digitalobjektauswahlsystems 1110 können zudem separat unter Clientvorrichtungen 1204a bis 1204n, der Servervorrichtung / den Servervorrichtungen 1102 und dem Netzwerk 1106 implementiert sein.
Anhand 12 werden zusätzliche Details im Zusammenhang mit Fähigkeiten und Komponenten des Digitalobjektauswahlsystems entsprechend einer oder mehreren Ausführungsformen angegeben. Insbesondere zeigt 12 ein schematisches Diagramm einer exemplarischen Architektur des Digitalobjektauswahlsystems 1110 des auf einer Rechenvorrichtung 1200 implementierten Digitalmedienverwaltungssystems 1108.
Wie gezeigt ist, ist das Digitalobjektauswahlsystem 1110 mittels einer Rechenvorrichtung 1200 implementiert. Allgemein kann die Rechenvorrichtung 1200 verschiedene Typen von Rechenvorrichtungen (beispielsweise die Rechenvorrichtung / die Rechenvorrichtungen 1102 oder die Clientvorrichtungen 1104a bis 1104n) darstellen. Wie in 7 dargestellt ist, beinhaltet das Digitalobjektauswahlsystem 1110 verschiedene Komponenten zur Durchführung der hier beschriebenen Prozesse und Merkmale. Das Digitalobjektauswahlsystem 1110 beinhaltet beispielsweise einen Trainingsdatenverwalter 1202, eine Trainingsengine 1204 für ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk, einen Digitalbildverwalter 1206, eine Anwendungsengine 1208 für das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk, einen Nutzereingabeverwalter 1210, eine Nutzerschnittstelleneinrichtung 1212 und einen Speicherverwalter 1214. Jede dieser Komponenten wird nachstehend beschrieben.
Wie in 12 gezeigt ist, beinhaltet das Digitalobjektauswahlsystem 1110 einen Trainingsdatenverwalter 1202. Der Trainingsdatenverwalter 1202 kann Trainingsdaten für das Digitalobjektauswahlsystem 1110 empfangen, verwalten, identifizieren, generieren, erstellen, modifizieren und/oder bereitstellen. Wie vorstehend beschrieben worden ist, kann das Digitalobjektauswahlsystem beispielsweise auf Trainingssammlungen zugreifen, Trainingsindikatoren (beispielsweise Positivtrainingsindikatoren, Negativtrainingsindikatoren, eindeutige Trainingsindikatoren und/oder mehrdeutige Trainingsindikatoren) generieren, Ground-Truth-Segmentierungen entsprechend Trainingsindikatoren identifizieren und Ground-Truth-Skalierungen entsprechend Ground-Truth-Segmentierungen identifizieren.
Zusätzlich beinhaltet das Digitalobjektauswahlsystem 1110, wie in 12 dargestellt ist, auch eine Trainingsengine 1204 für das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk. Die Trainingsengine 1204 für das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk kann ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk abstimmen, anweisen und/oder trainieren. Wie vorstehend beschrieben worden ist, kann die Trainingsengine 1204 für das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk ein der einstufigen und/oder der mehrstufigen skalierungsdiversen Segmentierung dienendes neuronales Netzwerk unter Einsatz von Trainingsdaten, die von dem Trainingsdatenverwalter 1202 generiert werden, trainieren.
Wie in 12 gezeigt ist, beinhaltet das Digitalobjektauswahlsystem 1110 zudem einen Digitalbildverwalter 1205. Der Digitalbildverwalter 1205 kann Digitalbilder identifizieren, empfangen, verwalten, bearbeiten, modifizieren und bereitstellen. Der Digitalbildverwalter 1205 kann beispielsweise ein Digitalbild (aus einer Clientvorrichtung oder einer Bildsammlung) identifizieren, das Digitalbild für ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk bereitstellen, um ein Zielobjekt zu identifizieren, und das Digitalbild auf Grundlage des identifizierten Zielobjektes modifizieren.
Darüber hinaus beinhaltet das Digitalobjektauswahlsystem 1110, wie in 12 dargestellt ist, auch eine Anwendungsengine 1208 für ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk. Die Anwendungsengine 1208 für ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk kann Objektauswahlausgaben auf Grundlage einer Skalierung generieren, erstellen und/oder bereitstellen. Wie vorstehend erläutert worden ist, kann die Anwendungsengine 1208 für ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk beispielsweise ein Digitalbild und Nutzerindikatoren mittels eines trainierten der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes analysieren, um eine oder mehrere Objektauswahlausgaben auf Grundlage einer Skalierung zu erstellen, zu generieren und/oder bereitzustellen.
Des Weiteren beinhaltet das Digitalobjektauswahlsystem 1110, wie in 12 gezeigt ist, auch einen Nutzereingabeverwalter 1210. Der Nutzereingabeverwalter 1210 kann eine Nutzereingabe beziehen, identifizieren, empfangen, überwachen, erfassen und/oder detektieren. Bei einer oder mehreren Ausführungsformen identifiziert der Nutzereingabeverwalter 1210 beispielsweise eine oder mehrere Nutzerinteraktionen in Bezug auf eine Nutzerschnittstelle. Der Nutzereingabeverwalter 1210 kann eine Nutzereingabe eines oder mehrerer Nutzerindikatoren detektieren. Insbesondere kann der Nutzereingabeverwalter 1210 eine Nutzereingabe von Nutzerindikatoren in Bezug auf ein oder mehrere Pixel in einem Digitalbild detektieren. Bei einer oder mehreren Ausführungsformen detektiert der Nutzereingabeverwalter 1210 beispielsweise eine Nutzereingabe eines Punktes oder Pixels in einem Digitalbild (beispielsweise ein Mausklickereignis oder ein Berührereignis an einem berührungsempfindlichen Schirm). Auf ähnliche Weise detektiert der Nutzereingabeverwalter 1210 bei einer oder mehreren Ausführungsformen eine Nutzereingabe eines Strokes (also beispielsweise Mausklick, Dragging- und Freigabeereignisse). Bei einer oder mehreren Ausführungsformen detektiert der Nutzereingabeverwalter 1210 eine Nutzereingabe einer begrenzten Fläche (beispielsweise Mausklick-, Dragging- und Freigabeereignisse). Zusätzlich detektiert der Nutzereingabeverwalter 1210 bei einer oder mehreren Ausführungsformen eine Nutzereingabe einer Kante (beispielsweise Mausklick- und/oder Dragging-Ereignisse) oder eine Stimmeingabe.
Wie in 12 dargestellt ist, beinhaltet das Digitalobjektauswahlsystem 1110 zudem eine Nutzerschnittstelleneinrichtung 1212. Die Nutzerschnittstelleneinrichtung 1212 kann eine oder mehrere Nutzerschnittstellen mit entsprechenden Nutzerschnittstellenelementen generieren, erstellen und/oder bereitstellen. Die Nutzerschnittstelleneinrichtung 1212 kann beispielsweise die Nutzerschnittstellen 902 und 1002 sowie entsprechende Elemente (beispielsweise ein Schieberelement, ein Zeitgeberelement, Bildanzeigeelemente und/oder einen Segmentierungsausgabebereich) generieren.
Das Digitalobjektauswahlsystem 1110 beinhaltet zudem einen Speicherverwalter 1214. Der Speicherverwalter 1214 hält Daten für das Digitalobjektauswahlsystem 1110 vor. Der Speicherverwalter 1214 kann nach Bedarf Daten eines beliebigen Typs, einer beliebigen Größe oder Art vorhalten, um die Funktionen des Digitalobjektauswahlsystems 1110 wahrzunehmen. Beinhalten kann der Speicherverwalter 1214, wie dargestellt ist, Digitalbilder 1216, Objektsegmentierungsausgaben 1218, ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk 1220 und Trainingsdaten 1222 (beispielsweise Trainingsbilder, die Trainingsobjekte abbilden, Trainingsindikatoren entsprechend den Trainingsobjekten, Trainingsskalierungen und Ground-Truth-Segmentierungen entsprechend den Trainingsbildern und Trainingsindikatoren bei verschiedenen Skalierungen).
Jede der Komponenten 1202 bis 1214 des Digitalobjektauswahlsystems 1110 kann Software, Hardware oder beides beinhalten. Die Komponenten 1202 bis 1214 können beispielsweise eine oder mehrere Anweisungen beinhalten, die auf einem computerlesbaren Speichermedium gespeichert und von Prozessoren einer oder mehrerer Rechenvorrichtungen, so beispielsweise einer Clientvorrichtung oder einer Servervorrichtung, ausführbar sind. Bei Ausführung durch den einen oder die mehreren Prozessoren können die computerausführbaren Anweisungen des Digitalobjektauswahlsystems 1110 veranlassen, dass die Rechenvorrichtung / die Rechenvorrichtungen die hier beschriebenen Merkmalslernverfahren durchführt/durchführen. Alternativ können die Komponenten 1202 bis 1214 Hardware, so beispielsweise eine Spezialzweckverarbeitungsvorrichtung zum Durchführen einer bestimmten Funktion oder Gruppe von Funktionen beinhalten. Alternativ können die Komponenten 1202 bis 1214 des Digitalobjektauswahlsystems 1110 eine Kombination von computerausführbaren Anweisungen und Hardware beinhalten.
Darüber hinaus können die Komponenten 1202 bis 1214 des Digitalobjektauswahlsystems 1110 beispielsweise als ein oder mehrere Betriebssysteme, als eine oder mehrere eigenständige Anwendungen, als ein oder mehrere Module einer Anwendung, als ein oder mehrere Plug-ins, als eine oder mehrere Bibliotheksfunktionen oder Funktionen, die von anderen Anwendungen aufgerufen werden können, und/oder als ein Cloudrechenmodell implementiert sein. Die Komponenten 1202 bis 1214 können daher als eigenständige Anwendung, so beispielsweise als Desktop- oder Mobilanwendung, implementiert sein. Darüber hinaus können die Komponenten 1202 bis 1214 als eine oder mehrere webbasierte Anwendungen, die auf einem Remote-Server gehostet werden, implementiert sein. Die Komponenten 1202 bis 1214 können auch in einem Paket (suite) von Mobilvorrichtungsanwendungen oder „Apps“ implementiert sein. Darstellungshalber können die Komponenten 1202 bis 1214 in einer Anwendung implementiert sein, darunter unter anderem Creative Cloud®, Photoshop®, InDesign®, Lightroom®, Illustrator®, After Effects® und Adobe® Sensei. „ADOBE“, „CREATIVE CLOUD“, „PHOTOSHOP“, „INDESIGN“, „LIGHTROOM“, „ILLUSTRATOR“, „AFTER EFFECTS“ und „SENSEI“ sind entweder eingetragene Marken oder Marken von Adobe Systems Incorporated in den Vereinigten Staaten und/oder anderen Ländern.
1B bis 12, der entsprechende Text und die Beispiele stellen eine Anzahl von verschiedenen Verfahren, Systemen, Vorrichtungen und nichttemporären computerlesbaren Medien des Digitalobjektauswahlsystems 1110 bereit. Zusätzlich zum Vorbeschriebenen können eine oder mehrere Ausführungsformen auch anhand von Flussdiagrammen beschrieben werden, die Vorgänge zum Erreichen eines bestimmten Ergebnisses umfassen, wie in 13 und 14 gezeigt ist. Die Abfolge von Vorgängen, die in 13 und 14 gezeigt ist, kann mit mehr oder weniger Vorgängen durchgeführt werden. Des Weiteren können die Vorgänge in anderen Reihenfolgen durchgeführt werden. Zusätzlich können die beschriebenen Vorgänge wiederholt oder parallel zueinander oder parallel zu anderen Instanzen bzw. Versionen derselben oder anderer Vorgänge durchgeführt werden.
13 zeigt ein Flussdiagramm einer Abfolge von Vorgängen 1300 zum Einsetzen eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, Objektsegmentierungsausgaben aufgrund einer Diversität von Skalierungen zu generieren, entsprechend einer oder mehreren Ausführungsformen. Während 13 Vorgänge entsprechend einer oder mehreren Ausführungsformen zeigt, können alternative Ausführungsformen einen beliebigen der in 13 gezeigten Vorgänge weglassen, hinzufügen, umordnen und/oder modifizieren. Die Vorgänge von 13 können als Teil eines Verfahrens durchgeführt werden. Zusätzlich kann das nichttemporäre computerlesbare Medium Anweisungen umfassen, die bei Ausführung durch einen oder mehrere Prozessoren eine Rechenvorrichtung veranlassen, die Vorgänge von 13 durchzuführen. Bei einigen Ausführungsformen kann ein System die Vorgänge von 13 durchführen.
Wie in 13 dargestellt ist, beinhaltet die Abfolge von Vorgängen 1300 einen Vorgang 1310 des Identifizierens eines Nutzerindikators. Beinhalten kann der Vorgang 1310 insbesondere ein Identifizieren eines Nutzerindikators, der ein oder mehrere Pixel eines Digitalbildes umfasst. Das Digitalbild kann ein oder mehrere Zielobjekte abbilden. Implizieren kann der Vorgang 1320 insbesondere ein Identifizieren eines oder mehrerer von einem Positivnutzerindikator, einem Negativnutzerindikator oder einem Begrenzungsnutzerindikator in Bezug auf einen oder mehrere beabsichtigte Zielobjekte. Des Weiteren kann der Vorgang 1310 zudem ein Empfangen (oder Identifizieren) eines Digitalbildes und eines Nutzerindikators, der ein oder mehrere Pixel des Digitalbildes umfasst, beinhalten.
Wie in 13 gezeigt ist, beinhaltet die Abfolge von Vorgängen 1300 zudem einen Vorgang 1320 des Einsetzens eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes, um eine erste Objektsegmentierungsausgabe zu generieren. Beinhalten kann der Vorgang 1320 insbesondere ein Einsetzen des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, die erste Objektsegmentierungsausgabe bei einer ersten Skalierung auf Grundlage des Digitalbildes und des Nutzerindikators zu generieren. Darstellungshalber umfasst das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk bei einer oder mehreren Ausführungsformen mehrere Ausgabekanäle entsprechend mehreren Skalierungen. Beinhalten kann der Vorgang 1320 entsprechend das Einsetzen eines ersten Ausgabekanals entsprechend der ersten Skalierung dafür, die erste Objektsegmentierungsausgabe zu generieren.
Insbesondere kann der Vorgang 1320 ein Generieren einer oder mehrerer Abstandskarten implizieren. Das Generieren der einen oder der mehreren Abstandskarten kann ein Generieren eines oder mehrerer von einer Positivabstandskarte, einer Negativabstandskarte oder einer Begrenzungskarte umfassen. Implizieren kann der Vorgang 1320 ein Generieren einer Positivabstandskarte, die einen Abstand von Pixeln von einem Positivnutzerindikator wiedergibt. Implizieren kann der Vorgang 1320 ein Generieren einer Negativabstandskarte, die einen Abstand von Pixeln von einem Negativnutzerindikator wiedergibt. Implizieren kann der Vorgang 1320 zudem ein Generieren einer Kantenabstandskarte, die einen Abstand von Pixeln von einem Kantennutzerindikator wiedergibt.
Der Vorgang 1320 kann zudem ein Generieren einer oder mehrerer Farbkarten implizieren. Umfassen kann das Generieren einer oder mehrerer Farbkarten beispielsweise ein Generieren einer Rotfarbkarte, die eine Menge von Rot entsprechend jedem Pixel wiedergibt, eine Grünfarbkarte, die eine Menge von Grün entsprechend jedem Pixel wiedergibt, und eine Blaufarbkarte, die eine Menge von Blau entsprechend jedem Pixel wiedergibt.
Der Vorgang 1320 kann zudem ein Generieren einer oder mehrerer Merkmalskarten aus der einen oder den mehreren Farbkarten und der einen oder den mehreren Abstandskarten implizieren. Implizieren kann der Vorgang 1320 insbesondere ein Einsetzen eines Encoders eines neuronalen Netzwerkes dafür, die eine oder die mehreren Merkmalskarten aus der einen oder den mehreren Farbkarten und der einen oder den mehreren Abstandskarten zu generieren.
Die Abfolge von Vorgängen 1300 kann zudem ein Generieren mehrerer Objektsegmentierungsausgaben bei verschiedenen Skalierungen implizieren. Implizieren kann die Abfolge von Vorgängen 1300 insbesondere ein Generieren mehrerer Objektsegmentierungsausgaben (die erste Objektsegmentierungsausgabe bei einer ersten Skalierung, die zweite Objektsegmentierungsausgabe bei einer zweiten Skalierung und so weiter) durch Verarbeiten der einen oder der mehreren Merkmalskarten unter Nutzung eines Decoders eines neuronalen Netzwerkes. Bei einer oder mehreren Ausführungsformen umfasst die erste Skalierung eine erste Größe und ein erstes Seitenverhältnis, während die zweite Skalierung eine zweite Größe und ein zweites Seitenverhältnis umfasst.
Wie in 13 dargestellt ist, beinhaltet die Abfolge von Vorgängen 1300 zudem einen Vorgang 1330 des Einsetzens des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, eine zweite Objektsegmentierungsausgabe zu generieren. Beinhalten kann der Vorgang 1330 insbesondere ein Einsetzen des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, die zweite Objektsegmentierungsausgabe bei einer zweiten Skalierung auf Grundlage des Digitalbildes und des Nutzerindikators zu generieren. Darstellungshalber kann der Vorgang 1330 ein Einsetzen eines zweiten Ausgabekanals entsprechend der zweiten Skalierung beinhalten, um die zweite Objektsegmentierungsausgabe zu generieren. Implizieren kann der Vorgang 1330 die im Zusammenhang mit dem Vorgang 1320 beschriebenen Schritte, wobei eine Durchführung parallel zu dem Vorgang 1320, wie er vorstehend beschrieben worden ist, erfolgen kann.
Implizieren kann die Abfolge von Vorgängen 1300 zudem das Verarbeiten der einen oder mehreren generierten Merkmalskarten durch ein Objektverifikationsmodell, um mehrere Objektkennwerte zu generieren. Implizieren kann die Abfolge von Vorgängen 1300 beispielsweise ein Generieren eines Objektkennwertes für jede der mehreren Skalierungen durch Verarbeiten der einen oder mehreren Merkmalskarten durch eine Global-Pooling-Schicht und eine vollständig verbundene Schicht.
Die Abfolge von Vorgängen 1300 kann zudem ein Auswählen von Objektsegmentierungsausgaben mit hohen Objektkennwerten zur Anzeige implizieren. Implizieren kann die Abfolge von Vorgängen 1300 beispielsweise das Filtern/Entfernen von Objektsegmentierungsausgaben mit niedrigen Objektkennwerten, sodass nur Objektsegmentierungsausgaben mit hohen Objektkennwerten zur Anzeige bereitgestellt werden. Implizieren kann die Abfolge von Vorgängen 1300 daher ein Identifizieren dessen, dass die erste Objektsegmentierungsausgabe und die zweite Objektsegmentierungsausgabe hohe Objektkennwerte aufweisen, und ein Auswählen der ersten Objektsegmentierungsausgabe und der zweiten Objektsegmentierungsausgabe zur Anzeige auf Grundlage der hohen Objektkennwerte.
Alternativ kann der Vorgang 1320 ein Identifizieren einer ersten Eingabeskalierung implizieren. Implizieren kann der Vorgang 1320 beispielsweise ein Identifizieren einer Auswahl der ersten Eingabeskalierung auf Grundlage einer Nutzereingabe mit einem Schieber. Implizieren kann der Vorgang 1320 sodann ein Bereitstellen der einen oder der mehreren Abstandskarten, der einen oder der mehreren Farbkarten und der ersten Eingabeskalierung (beispielsweise der ersten Skalierung) für ein der skalierungsdiversen Segmentierung dienendes neuronales Netzwerk. Das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk kann die erste Objektsegmentierungsausgabe bei der ersten Skalierung unter Nutzung der einen oder der mehreren Abstandskarten, der einen oder der mehreren Farbkarten und der Eingabeskalierung (beispielsweise der ersten Skalierung) generieren. Die Abfolge von Vorgängen 1300 kann sodann ein Identifizieren einer zweiten Eingabeskalierung implizieren (beispielsweise kann der Nutzer bestimmen, dass die erste Objektsegmentierungsausgabe zu klein ist). Implizieren kann der Vorgang 1330 bei derartigen Implementierungen ein Bereitstellen der einen oder der mehreren Abstandskarten, der einen oder der mehreren Farbkarten und der zweiten Eingabeskalierung (beispielsweise der zweiten Skalierung) für das der skalierungsdiversen Segmentierung dienenden neuronale Netzwerk. Das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk kann die zweite Objektsegmentierungsausgabe bei der zweiten Skalierung unter Nutzung der einen oder der mehreren Abstandskarten, der einen oder der mehreren Farbkarten und der zweiten Eingabeskalierung generieren.
Wie in 13 gezeigt ist, beinhaltet die Abfolge von Vorgängen 1300 des Weiteren einen Vorgang 1340 des Bereitstellens der ersten Objektsegmentierungsausgabe und der zweiten Objektsegmentierungsausgabe zur Anzeige (beispielsweise des Bereitstellens mehrerer Objektsegmentierungsausgaben zur Anzeige). Bei einer oder mehreren Ausführungsformen beinhaltet der Vorgang 1340 beispielsweise ein Bereitstellen eines Skalierungsschiebernutzerschnittstellenelementes zur Anzeige; ein Bereitstellen der ersten Objektsegmentierungsausgabe zur Anzeige in Reaktion auf das Identifizieren einer Nutzereingabe einer ersten Position entsprechend der ersten Skalierung mittels des Skalierungsschiebernutzerschnittstellenelementes; und ein Bereitstellen der zweiten Objektsegmentierungsausgabe zur Anzeige in Reaktion auf das Identifizieren einer Nutzereingabe einer zweiten Position entsprechend der zweiten Skalierung mittels des Skalierungsschiebernutzerschnittstellenelementes. Bei einer oder mehreren Ausführungsformen umfasst die erste Objektsegmentierungsausgabe wenigstens eines von einer Segmentierungsmaske oder einer Segmentierungsbegrenzung.
Bei einer oder mehreren Ausführungsformen beinhaltet die Abfolge von Vorgängen 1300 zudem (wenigstens einen von den nachfolgenden Punkten): Analysieren des Digitalbildes und des Nutzerindikators unter Einsatz eines dem Skalierungsvorschlagen dienenden neuronalen Netzwerkes, um die erste Skalierung und die zweite Skalierung zu generieren; oder Bestimmen der ersten Skalierung auf Grundlage der Zeitdauer einer Nutzerinteraktion. Beinhalten kann die Abfolge von Vorgängen 1300 beispielsweise ein Bestimmen der ersten Skalierung auf Grundlage einer ersten Zeitdauer einer Nutzerinteraktion (beispielsweise einer Zeitdauer eines Klickens und Haltens) und ein Bestimmen der zweiten Skalierung auf Grundlage einer zweiten Zeitdauer der Nutzerinteraktion (beispielsweise eine zusätzliche Zeitdauer bis zu einem Freigabeereignis nach dem Klicken und Halten).
Beinhalten kann die Abfolge von Vorgängen 1300 darüber hinaus zudem ein Anwenden eines Objektverifikationsmodells des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, einen Objektkennwert entsprechend der ersten Skalierung zu bestimmen; und ein Bereitstellen der ersten Objektsegmentierungsausgabe zur Anzeige auf Grundlage des Objektkennwertes. Beinhalten kann die Abfolge von Vorgängen 1300 beispielsweise ein Anwenden eines Objektverifikationsmodells des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, einen ersten Objektkennwert entsprechend der ersten Skalierung und einen zweiten Objektkennwert entsprechend der zweiten Skalierung zu bestimmen; und ein Bereitstellen der ersten Objektsegmentierungsausgabe und der zweiten Objektsegmentierungsausgabe zur Anzeige auf Grundlage des ersten Objektkennwertes und des zweiten Objektkennwertes. Beinhalten kann die Abfolge von Vorgängen 1300 des Weiteren auch ein Identifizieren einer Nutzerauswahl der ersten Objektsegmentierungsausgabe; und ein Auswählen von Pixeln des Digitalbildes entsprechend dem einen oder den mehreren Zielobjekten auf Grundlage einer Nutzerinteraktion mit der ersten Objektsegmentierungsausgabe.
Zusätzlich zu den vorbeschriebenen Vorgängen (oder alternativ hierzu) beinhaltet die Abfolge von Vorgängen 1300 bei einigen Ausführungsformen einen Schritt zum Einsetzen eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, mehrere Objektsegmentierungsausgaben entsprechend mehreren Skalierungen auf Grundlage des Digitalbildes und des Nutzerindikators zu generieren. Umfassen können der Algorithmus und die Vorgänge, die vorstehend anhand von 2A bis 2C und 7 beschrieben worden sind, insbesondere die entsprechenden Vorgänge (oder die Struktur) für einen Schritt zum Einsetzen des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, mehrere Objektsegmentierungsausgaben entsprechend mehreren Skalierungen auf Grundlage des Digitalbildes und des Nutzerindikators zu generieren.
14 zeigt ein Flussdiagramm einer Abfolge von Vorgängen 1400 zum Trainieren eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, Objektsegmentierungsausgaben auf Grundlage einer Diversität von Skalierungen zu generieren, entsprechend einer oder mehreren Ausführungsformen. Obwohl 14 Vorgänge entsprechend einer oder mehreren Ausführungsformen darstellt, können alternative Ausführungsformen beliebige der in 14 gezeigten Vorgänge weglassen, hinzufügen, umordnen und/oder modifizieren. Die Vorgänge von 14 können als Teil eines Verfahrens durchgeführt werden. Alternativ kann ein nichttemporäres computerlesbares Medium Anweisungen umfassen, die bei Ausführung durch einen oder mehrere Prozessoren eine Rechenvorrichtung veranlassen, die Vorgänge von 14 durchzuführen. Bei einigen Ausführungsformen kann ein System die Vorgänge von 14 durchführen.
Wie in 14 dargestellt ist, beinhaltet die Abfolge von Vorgängen 1400 einen Vorgang 1400 des Identifizierens eines ein Trainingsobjekt abbildenden Trainingsdigitalbildes, eines oder mehrerer Trainingsindikatoren und einer Ground-Truth-Segmentierung für eine erste Skalierung (beispielsweise Trainingsdaten, die in wenigstens einem nichttemporären computerlesbaren Speichermedium gespeichert sind). Beinhalten kann der Vorgang 1410 beispielsweise ein Identifizieren eines ein Trainingsobjekt abbildenden Trainingsdigitalbildes; eines oder mehrerer Trainingsindikatoren entsprechend dem Trainingsobjekt; und einer ersten Ground-Truth-Segmentierung entsprechend einer ersten Skalierung, dem Trainingsobjekt und dem einen oder den mehreren Trainingsindikatoren. Bei einer oder mehreren Ausführungsformen beinhaltet der Vorgang 1410 zudem ein Identifizieren einer zweiten Ground-Truth-Segmentierung entsprechend einer zweiten Skalierung, dem Trainingsobjekt und dem einen oder den mehreren Trainingsindikatoren.
Zusätzlich umfasst das Trainingsobjekt bei einer oder mehreren Ausführungsformen ein erstes Objekt und ein zweites Objekt, und der eine oder die mehreren Trainingsindikatoren umfassen einen mehrdeutigen Trainingsindikator in Bezug auf das Trainingsobjekt und das erste Objekt. Beinhalten kann der Vorgang 1410 darüber hinaus ein Generieren des mehrdeutigen Trainingsindikators durch: Identifizieren eines gemeinsamen Vordergrundes für das Trainingsobjekt und das erste Objekt; und Abtasten des mehrdeutigen Trainingsindikators aus dem gemeinsamen Vordergrund für das Trainingsobjekt und das erste Objekt. Bei einigen Ausführungsformen umfassen der eine oder die mehreren Indikatoren des Weiteren den mehrdeutigen Trainingsindikator und einen eindeutigen bzw. definitiven Trainingsindikator. Beinhalten kann der Vorgang 1410 des Weiteren ein Generieren des eindeutigen bzw. definitiven Trainingsindikators durch Abtasten eines eindeutigen bzw. definitiven Positivtrainingsindikators aus einem Bereich des Digitalbildes entsprechend der ersten Ground-Truth-Segmentierung. Beinhalten kann der Vorgang 1410 des Weiteren auch ein Vergleichen der ersten Ground-Truth-Segmentierung mit mehreren Skalierungen, um zu bestimmen, dass die erste Skalierung der ersten Ground-Truth-Segmentierung entspricht.
Wie in 14 gezeigt ist, beinhaltet die Abfolge von Vorgängen 1400 zusätzlich einen Vorgang 1420 des Einsetzens eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, eine erste vorhergesagte Objektsegmentierungsausgabe bei der ersten Skalierung zu generieren. Beinhalten kann der Vorgang 1420 beispielsweise ein Analysieren des Trainingsdigitalbildes und des einen oder der mehreren Trainingsindikatoren auf der ersten Skalierung unter Einsatz des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes, um eine erste vorhergesagte Objektsegmentierungsausgabe zu generieren. Bei einer oder mehreren Ausführungsformen umfasst das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk mehrere Ausgabekanäle entsprechend mehreren Skalierungen. Beinhalten kann der Vorgang 1420 darüber hinaus das Einsetzen eines ersten Ausgabekanals entsprechend der ersten Skalierung dafür, die erste vorhergesagte Objektsegmentierungsausgabe zu generieren. Beinhalten kann der Vorgang 1420 zusätzlich ein Analysieren des Trainingsdigitalbildes und des einen oder der mehreren Trainingsindikatoren bei der zweiten Skalierung unter Einsatz des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes, um eine zweite vorhergesagte Objektsegmentierungsausgabe zu generieren.
Wie in 14 gezeigt ist, beinhaltet die Abfolge von Vorgängen 1400 darüber hinaus einen Vorgang 1430 des Vergleichens der ersten vorhergesagten Objektsegmentierungsausgabe mit der ersten Ground-Truth-Segmentierung. Beinhalten kann der Vorgang 1430 beispielsweise ein Modifizieren von abstimmbaren Parametern des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes auf Grundlage eines Vergleiches der ersten vorhergesagten Objektsegmentierungsausgabe mit der ersten Ground-Truth-Segmentierung entsprechend der ersten Skalierung, dem Trainingsobjekt und dem einen oder den mehreren Trainingsindikatoren. Beinhalten kann der Vorgang 1430 zusätzlich ein Vergleichen der zweiten vorhergesagten Objektsegmentierungsausgabe mit der zweiten Ground-Truth-Segmentierung.
Bei einigen Ausführungsformen beinhaltet die Abfolge von Vorgängen 1400 zusätzlich zu den vorbeschriebenen Vorgängen (oder alternativ hierzu) einen Schritt zum Trainieren eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes, um Trainingsindikatoren entsprechend Trainingsdigitalbildern zu analysieren und Objektsegmentierungsausgaben entsprechend verschiedenen Skalierungen zu generieren. Umfassen können der Algorithmus und die Vorgänge, die vorstehend anhand von 3 und 7 beschrieben worden sind, insbesondere die entsprechenden Vorgänge für einen Schritt zum Trainieren eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes dafür, Trainingsindikatoren entsprechend Trainingsdigitalbildern zu analysieren und Objektsegmentierungsausgaben entsprechend verschiedenen Skalierungen zu generieren.
Ausführungsformen der vorliegenden Offenbarung können einen Spezialzweck- oder Allzweckcomputer, der Computerhardware beinhaltet, umfassen oder einsetzen, so beispielsweise einen oder mehrere Prozessoren und einen Systemmemory, wie nachstehend noch detaillierter beschrieben wird. Ausführungsformen innerhalb des Umfanges der vorliegenden Offenbarung beinhalten zudem physische bzw. physikalische und andere computerlesbare Medien zum Tragen oder Speichern von computerausführbaren Anweisungen und/oder Datenstrukturen. Insbesondere können einer oder mehrere der hier beschriebenen Prozesse wenigstens teilweise als Anweisungen implementiert werden, die auf einem nichttemporären computerlesbaren Medium verkörpert und durch eine oder mehrere Rechenvorrichtungen (beispielsweise beliebige der hier beschriebenen Mediencontentzugriffsvorrichtungen) ausführbar sind. Allgemein empfängt ein Prozessor (beispielsweise ein Mikroprozessor) Anweisungen von einem nichttemporären computerlesbaren Medium (beispielsweise einem Memory und dergleichen) und führt diese Anweisungen aus, wodurch ein oder mehrere Prozesse, darunter einer oder mehrere der hier beschriebenen Prozesse, durchgeführt werden.
Computerlesbare Medien können beliebige verfügbare Medien sein, auf die ein Allzweck- oder Spezialzweckcomputersystem zugreifen kann. Computerlesbare Medien, die computerausführbare Anweisungen speichern, sind nichttemporäre computerlesbare Speichermedien (Vorrichtungen). Computerlesbare Medien, die computerausführbare Anweisungen tragen, sind Übertragungsmedien. Beispiels- und nicht beschränkungshalber können Ausführungsformen der Offenbarung wenigstens zwei deutlich verschiedene Arten von computerlesbaren Medien umfassen, nämlich nichttemporäre computerlesbare Speichermedien (Vorrichtungen) und Übertragungsmedien.
Nichttemporäre computerlesbare Speichermedien (Vorrichtungen) beinhalten RAM, ROM, EEPROM, CD-ROM, SSDs (Solid State Drives) (beispielsweise auf Grundlage eines RAM), einen Flashspeicher, einen Phasenänderungsspeicher (PCM), andere Arten von Memory bzw. Speicher, einen anderen optischen Plattenspeicher, einen Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern von gewünschten Programmcodemitteln in Form von computerausführbaren Anweisungen oder Datenstrukturen genutzt werden kann und auf das ein Allzweck- oder Spezialzweckcomputer zugreifen kann.
Ein „Netzwerk“ ist als ein oder mehrere Datenlinks definiert, die den Transport von elektronischen Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wird Information über ein Netzwerk oder eine andere Kommunikationsverbindung (entweder festverdrahtet, drahtlos oder eine Kombination aus festverdrahtet oder drahtlos) an einen Computer übertragen oder für diesen bereitgestellt, so betrachtet der Computer die Verbindung praktisch als Übertragungsmedium. Übertragungsmedien können ein Netzwerk und/oder Datenlinks beinhalten, die zum Tragen von gewünschten Programmcodemitteln in Form von computerausführbaren Anweisungen oder Datenstrukturen genutzt werden können und auf die ein Allzweck- oder Spezialzweckcomputer zugreifen kann. Kombinationen des Vorbeschriebenen sollen innerhalb des Umfanges der computerlesbaren Medien beinhaltet sein.
Beim Verwirklichen verschiedener Computersystemkomponenten können Programmcodemittel in Form von computerausführbaren Anweisungen oder Datenstrukturen des Weiteren automatisch von Übertragungsmedien an nichttemporäre computerlesbare Speichermedien (Vorrichtungen) (oder umgekehrt) übertragen werden. Computerausführbare Anweisungen oder Datenstrukturen, die über ein Netzwerk oder einen Datenlink empfangen werden, können beispielsweise in einem RAM innerhalb eines Netzwerkschnittstellenmoduls (beispielsweise eines „NIC“) gepuffert und sodann gegebenenfalls an den Computersystem-RAM und/oder an weniger flüchtige Computerspeichermedien (Vorrichtungen) auf einem Computersystem übertragen werden. Es sollte daher einsichtig sein, dass nichttemporäre computerlesbare Speichermedien (Vorrichtungen) in Computersystemkomponenten beinhaltet sein können, die ebenfalls (oder sogar primär) Übertragungsmedien einsetzen.
Computerausführbare Anweisungen umfassen beispielsweise Anweisungen und Daten, die bei Ausführung durch einen Prozessor veranlassen, dass ein Allzweckcomputer, ein Spezialzweckcomputer oder eine Spezialzweckverarbeitungsvorrichtung eine gewisse Funktion oder Gruppe von Funktionen durchführen. Bei einigen Ausführungsformen werden computerausführbare Anweisungen von einem Allzweckcomputer ausgeführt, um den Allzweckcomputer in einen Spezialzweckcomputer zu verwandeln, der Elemente der Offenbarung implementiert. Die computerausführbaren Anweisungen können beispielsweise Binaries, Anweisungen in einem Zwischenformat wie der Assemblersprache oder sogar Quellcode sein. Obwohl der Erfindungsgegenstand in einer Sprache beschrieben worden ist, die für strukturelle Merkmale und/oder methodologische Vorgänge spezifisch ist, sollte einsichtig sein, dass der in den beigefügten Ansprüchen definierte Erfindungsgegenstand nicht unbedingt auf die vorbeschriebenen Merkmale oder Vorgänge beschränkt ist. Vielmehr sind die beschriebenen Merkmale und Vorgänge als exemplarische Formen der Implementierung der Ansprüche offenbart.
Einem Fachmann auf dem Gebiet erschließt sich, dass die Offenbarung auch in Netzwerkrechenumgebungen mit vielen Arten von Computersystemkonfigurationen praktisch umgesetzt werden kann, darunter PCs, Desktopcomputer, Laptopcomputer, Nachrichtenprozessoren, Handvorrichtungen, Multiprozessorensysteme, mikroprozessorbasierte oder programmierbare Geräte der Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Mainframecomputer, Mobiltelefone, PDAs, Tablets, Pager, Router, Switches bzw. Schalter und dergleichen. Praktisch umgesetzt werden kann die Offenbarung auch in verteilten Systemumgebungen, wo lokale und entfernte (remote) Computersysteme, die (entweder durch festverdrahtete Datenlinks, drahtlose Datenlinks oder durch eine Kombination aus festverdrahteten und drahtlosen Datenlinks) über ein Netzwerk verbunden sind, gleichermaßen Aufgaben ausführen. In einer verteilten Systemumgebung können Programmmodule sowohl in lokalen wie auch entfernten (remote) Memoryspeichervorrichtungen befindlich sein.
Ausführungsformen der vorliegenden Offenbarung können zudem in Cloudrechenumgebungen implementiert sein. Im Sinne des Vorliegenden bezeichnet der Begriff „Cloudcomputing bzw. Cloudrechnen“ ein Modell, das einen On-Demand-Netzwerkzugriff auf einen geteilten Vorrat von konfigurierbaren Rechenressourcen ermöglicht. Cloud Computing bzw. Cloudrechnen kann beispielsweise auf einem Marktplatz eingesetzt werden, um einen allgegenwärtigen und bequemen On-Demand-Zugriff auf den geteilten Vorrat von konfigurierbaren Rechenressourcen anzubieten. Die geteilte Sammlung von konfigurierbaren Rechenressourcen kann über eine Virtualisierung schnell bereitgestellt und unter geringem Verwaltungsaufwand oder mit geringer Interaktion eines Dienstanbieters freigegeben und sodann entsprechend skaliert werden.
Ein Cloudrechenmodell kann aus verschiedenen Charakteristiken zusammengesetzt sein, so beispielsweise On-Demand Self-Service, Broad Network Access, Resource Pooling, Rapid Elasticity, Measured Service und dergleichen. Ein Cloudrechenmodell kann zudem verschiedene Dienstmodelle anbieten, so beispielsweise „Software as a Service“ („SaaS“), „Platform as a Service“ („PaaS“) und „Infrastructure as a Service („IaaS“). Ein Cloudrechenmodell kann zudem unter Nutzung verschiedener Einsatzmodelle eingesetzt werden, so beispielsweise Private Cloud, Community Cloud, Public Cloud, Hybrid Cloud und dergleichen. Im Sinne des Vorliegenden bezeichnet eine „Cloudrechenumgebung“ eine Umgebung, in der das Cloudrechnen bzw. Cloud Computing eingesetzt wird.
15 zeigt ein Blockdiagramm einer exemplarischen Rechenvorrichtung 1500, die dafür konfiguriert sein kann, einen oder mehrere der vorbeschriebenen Prozesse durchzuführen. Es sollte einsichtig sein, dass eine oder mehrere Rechenvorrichtungen, so beispielsweise die Rechenvorrichtung 1500, die vorbeschriebenen Rechenvorrichtungen (beispielsweise die Rechenvorrichtung 900, die Rechenvorrichtung 1000, die Servervorrichtung / die Servervorrichtungen 1102, die Clientvorrichtungen 1104a bis 1104n und/oder die Rechenvorrichtung 1200) darstellen können. Bei einer oder mehreren Ausführungsformen kann die Rechenvorrichtung 1500 eine Mobilvorrichtung sein (beispielsweise ein Mobiltelefon, ein Smartphone, ein PDA, ein Tablet, ein Laptop, eine Kamera, ein Tracker, eine Armbanduhr, eine am Körper tragbare Vorrichtung und dergleichen mehr). Bei einigen Ausführungsformen kann die Rechenvorrichtung 1500 eine nichtmobile Vorrichtung sein (beispielsweise ein Desktopcomputer oder ein anderer Typ von Clientvorrichtung). Die Rechenvorrichtung 1500 kann des Weiteren eine Servervorrichtung sein, die cloudbasierte Verarbeitungs- und Speicherfähigkeiten beinhaltet.
Wie in 15 gezeigt ist, kann die Rechenvorrichtung 1500 einen oder mehrere Prozessoren 1502, einen Memory 1504, eine Speichervorrichtung 1506, Eingabe-/Ausgabeschnittstellen 1508 (oder „I/O-Schnittstellen“ 1508) und eine Kommunikationsschnittstelle 1510 beinhalten, die mittels einer Kommunikationsinfrastruktur (beispielsweise mittels eines Busses 1512) kommunikationstechnisch gekoppelt sein können. Obwohl in 15 die Rechenvorrichtung 1500 gezeigt ist, sind die in 15 dargestellten Komponenten nicht beschränkend gemeint. Zusätzliche oder alternative Komponenten können bei anderen Ausführungsformen benutzt werden. Bei bestimmten Ausführungsformen beinhaltet die Rechenvorrichtung 1500 zudem weniger Komponenten, als in 15 gezeigt sind. Komponenten der in 15 gezeigten Rechenvorrichtung 1500 werden nunmehr noch detaillierter beschrieben.
Bei bestimmten Ausführungsformen beinhaltet/beinhalten der Prozessor / die Prozessoren 1502 Hardware zum Ausführen von Anweisungen, so beispielsweise von solchen, die ein Computerprogramm bilden Beispiels- und nicht beschränkungshalber kann/können der Prozessor / die Prozessoren 1502 zur Ausführung von Anweisungen die Anweisungen aus einem internen Register, einem internen Cache, dem Memory 1504 oder einer Speichervorrichtung 1506 abrufen (oder holen) und sie decodieren und ausführen.
Die Rechenvorrichtung 1500 beinhaltet den Memory 1504, der mit dem Prozessor / den Prozessoren 1502 gekoppelt ist. Der Memory 1504 kann zum Speichern von Daten, Metadaten und Programmen zur Ausführung durch den Prozessor / die Prozessoren benutzt werden. Beinhalten kann der Memory 1504 einen oder mehrere von flüchtigen und nichtflüchtigen Memorys, so beispielsweise einen Speicher mit wahlfreiem Zugriff („RAM“), einen Nur-Lese-Speicher („ROM“), eine Solid-State-Disk („SSD“), einen Flash, einen Phasenänderungsspeicher („PCM“) oder anderen Typen von Datenspeichern. Der Memory 1504 kann ein interner oder ein verteilter Memory sein.
Die Rechenvorrichtung 1500 beinhaltet eine Speichervorrichtung 1506, die einen Speicher zum Speichern von Daten oder Anweisungen beinhaltet. Beispiels- und nicht beschränkungshalber kann die Speichervorrichtung 1506 ein nichttemporäres Speichermedium, wie es vorstehend beschrieben worden ist, beinhalten. Die Speichervorrichtung 1506 kann ein Festplattenlaufwerk (HDD), einen Flash-Speicher, ein USB-Laufwerk (Universeller Serieller Bus USB) oder eine Kombination aus diesen oder anderen Speichervorrichtungen beinhalten.
Wie gezeigt ist, beinhaltet die Rechenvorrichtung 1500 eine oder mehrere I/O-Schnittstellen 1508, die dafür bereitgestellt sind, einem Nutzer zu ermöglichen, eine Eingabe für die Rechenvorrichtung 1500 (beispielsweise in Form von Strokes) bereitzustellen, eine Ausgabe von dieser zu empfangen oder Daten auf andere Weise an diese oder von dieser zu übertragen. Beinhalten können diese I/O-Schnittstellen 1508 eine Maus, ein Tastenfeld bzw. Keypad oder eine Tastatur, einen berührungsempfindlichen Schirm (touchscreen), eine Kamera, einen optischen Scanner, eine Netzwerkschnittstelle, ein Modem, andere bekannte I/O-Vorrichtungen oder eine Kombination derartiger I/O-Schnittstellen 1508. Der berührungsempfindliche Schirm kann mit einem Stift oder Finger aktiviert werden.
Beinhalten können die I/O-Schnittstellen 1508 eine oder mehrere Vorrichtungen zum Präsentieren einer Ausgabe gegenüber einem Nutzer, darunter unter anderem eine Grafikengine, eine Anzeige (beispielsweise einen Anzeigebildschirm), einen oder mehrere Ausgabetreiber (beispielsweise Anzeigetreiber), einen oder mehrere Audiolautsprecher und einen oder mehrere Audiotreiber. Bei bestimmten Ausführungsformen sind die I/O-Schnittstellen 1508 dafür konfiguriert, grafische Daten für eine Anzeige zur Präsentation gegenüber einem Nutzer bereitzustellen. Die grafischen Daten können eine oder mehrere grafische Nutzerschnittstellen und/oder beliebigen anderen grafischen Content, so er für eine bestimmte Implementierung dienlich ist, darstellen.
Die Rechenvorrichtung 1500 kann des Weiteren eine Kommunikationsschnittstelle 1510 beinhalten. Die Kommunikationsschnittstelle 1510 kann Hardware, Software oder beides beinhalten. Die Kommunikationsschnittstelle 1510 stellt eine oder mehrere Schnittstellen zur Kommunikation (beispielsweise zur paketbasierten Kommunikation) zwischen der Rechenvorrichtung und einer oder mehreren anderen Rechenvorrichtungen oder einem oder mehreren Netzwerken bereit. Beispiels- und nicht beschränkungshalber kann die Kommunikationsschnittstelle 1510 einen Netzwerkschnittstellencontroller (NIC) oder einen Netzwerkadapter zur Kommunikation mit einem Ethernet oder einem anderen drahtbasierten Netzwerk oder einen Drahtlos-NIC (WNIC) oder einen Drahtlosadapter zur Kommunikation mit einem Drahtlosnetzwerk, so beispielsweise einem Wl-Fl, beinhalten. Die Rechenvorrichtung 1500 kann des Weiteren einen Bus 1512 beinhalten. Der Bus 1512 kann Hardware, Software oder beides beinhalten, wodurch Komponenten der Rechenvorrichtung 1500 miteinander verbunden werden.
In der vorstehenden Beschreibung ist die Erfindung anhand spezifischer exemplarischer Ausführungsformen beschrieben worden. Verschiedene Ausführungsformen und Aspekte der Erfindung/Erfindungen sind anhand der hier erläuterten Details beschrieben, wobei die begleitende Zeichnung die verschiedenen Ausführungsformen darstellt. Die vorstehende Beschreibung und die Zeichnung sind für die Erfindung illustrativ und sollen nicht erfindungsbeschränkend gedeutet werden. Es werden zahlreiche spezifische Details beschrieben, um ein eingehendes Verständnis der verschiedenen Ausführungsformen der vorliegenden Erfindung zu ermöglichen.
Die vorliegende Erfindung kann in anderen spezifischen Formen verkörpert sein, ohne von ihrem Wesen oder ihren wesentlichen Eigenschaften abzugehen. Die beschriebenen Ausführungsformen sind in jeder Hinsicht als illustrativ und nicht als restriktiv zu betrachten. Die hier beschriebenen Verfahren können beispielsweise mit weniger oder mehr Schritten/Vorgängen durchgeführt werden, oder es können die Schritte/Vorgänge in anderen Reihenfolgen durchgeführt werden. Zusätzlich können die hier beschriebenen Schritte/Vorgänge wiederholt oder parallel zueinander oder parallel zu anderen Instanzen bzw. Versionen derselben oder ähnlicher Schritte/Vorgänge durchgeführt werden. Der Umfang der Erfindung ist daher durch die beigefügten Ansprüche und nicht durch die vorstehende Beschreibung angegeben. Alle Änderungen, die der Bedeutung und dem Äquivalenzbereich der Ansprüche entsprechen, sollen in ihrem Umfang mit umfasst sein.

Claims

Nichttemporäres computerlesbares Medium, das Anweisungen speichert, die bei Ausführung durch wenigstens einen Prozessor, ein Computersystem veranlassen zum: Identifizieren eines Nutzerindikators, der ein oder mehrere Pixel eines Digitalbildes umfasst, wobei das Digitalbild ein oder mehrere Zielobjekte abbildet; Einsetzen eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes zum Generieren einer ersten Objektsegmentierungsausgabe bei einer ersten Skalierung auf Grundlage des Digitalbildes und des Nutzerindikators; Verwenden bzw. Einsetzen des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes zum Generieren einer zweiten Objektsegmentierungsausgabe bei einer zweiten Skalierung auf Grundlage des Digitalbildes und des Nutzerindikators; und Bereitstellen der ersten Objektsegmentierungsausgabe und der zweiten Objektsegmentierungsausgabe zur Anzeige.
Nichttemporäres computerlesbares Medium nach Anspruch 1, wobei das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk mehrere Ausgabekanäle entsprechend mehreren Skalierungen umfasst, und des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor das Computersystem veranlassen zum: Einsetzen eines ersten Ausgabekanals entsprechend der ersten Skalierung zum Generieren der ersten Objektsegmentierungsausgabe; und Einsetzen eines zweiten Ausgabekanals entsprechend der zweiten Skalierung zum Generieren der zweiten Objektsegmentierungsausgabe.
Nichttemporäres computerlesbares Medium nach Anspruch 1 oder 2, wobei die erste Skalierung eine erste Größe und ein erstes Seitenverhältnis umfasst und die zweite Skalierung eine zweite Größe und ein zweites Seitenverhältnis umfasst.
Nichttemporäres computerlesbares Medium nach einem der vorhergehenden Ansprüche, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor das Computersystem veranlassen zum: Bereitstellen eines Skalierungsschiebernutzerschnittstellenelementes zur Anzeige; Bereitstellen der ersten Objektsegmentierungsausgabe zur Anzeige in Reaktion auf das Identifizieren einer Nutzereingabe einer ersten Position entsprechend der ersten Skalierung mittels des Skalierungsschiebernutzerschnittstellenelementes; und Bereitstellen der zweiten Objektsegmentierungsausgabe zur Anzeige in Reaktion auf das Identifizieren einer Nutzereingabe einer zweiten Position entsprechend der zweiten Skalierung mittels des Skalierungsschiebernutzerschnittstellenelementes.
Nichttemporäres computerlesbares Medium nach einem der vorhergehenden Ansprüche, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor das Computersystem veranlassen zum Durchführen von wenigstens einem von: Analysieren des Digitalbildes und des Nutzerindikators unter Einsatz eines dem Skalierungsvorschlagen dienenden neuronalen Netzwerkes zum Generieren der ersten Skalierung und der zweiten Skalierung; oder Bestimmen der ersten Skalierung auf Grundlage der Zeitdauer einer Nutzerinteraktion.
Nichttemporäres computerlesbares Medium nach einem der vorhergehenden Ansprüche, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor das Computersystem veranlassen zum: Anwenden eines Objektverifikationsmodells des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes zum Bestimmen eines ersten Objektkennwertes entsprechend der ersten Skalierung und eines zweiten Objektkennwertes entsprechend der zweiten Skalierung; und Bereitstellen der ersten Objektsegmentierungsausgabe und der zweiten Objektsegmentierungsausgabe zur Anzeige auf Grundlage des ersten Objektkennwertes und des zweiten Objektkennwertes.
Nichttemporäres computerlesbares Medium nach einem der vorhergehenden Ansprüche, wobei die erste Objektsegmentierungsausgabe wenigstens eines von einer Segmentierungsmaske oder einer Segmentierungsbegrenzung umfasst.
Nichttemporäres computerlesbares Medium nach einem der vorhergehenden Ansprüche, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor das Computersystem veranlassen zum: Identifizieren einer Nutzereingabe, die die erste Objektsegmentierungsausgabe auswählt; und Auswählen von Pixeln des Digitalbildes entsprechend dem einen oder den mehreren Zielobjekten auf Grundlage der Nutzereingabe, die die erste Objektsegmentierungsausgabe auswählt.
System, umfassend: wenigstens einen Prozessor; wenigstens ein nichttemporäres computerlesbares Speichermedium, das umfasst: ein Trainingsdigitalbild, das ein Trainingsobjekt abbildet; einen oder mehrere Trainingsindikatoren entsprechend dem Trainingsobjekt; eine erste Ground-Truth-Segmentierung entsprechend einer ersten Skalierung, dem Trainingsobjekt und dem einen oder den mehreren Trainingsindikatoren; und Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor, das System veranlassen zum: Trainieren eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes durch: Einsetzen des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes zum Generieren einer ersten vorhergesagten Objektsegmentierungsausgabe auf Grundlage des Trainingsdigitalbildes und des einen oder der mehreren Trainingsindikatoren bei der ersten Skalierung; und Modifizieren von abstimmbaren Parametern des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes auf Grundlage eines Vergleiches der ersten vorhergesagten Objektsegmentierungsausgabe mit der ersten Ground-Truth-Segmentierung entsprechend der ersten Skalierung, dem Trainingsobjekt und dem einen oder den mehreren Trainingsindikatoren.
System nach Anspruch 9, wobei das der skalierungsdiversen Segmentierung dienende neuronale Netzwerk mehrere Ausgabekanäle entsprechend mehreren Skalierungen umfasst, und des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor das System veranlassen zum: Einsetzen eines ersten Ausgabekanals entsprechend der ersten Skalierung zum Generieren der ersten vorhergesagten Objektsegmentierungsausgabe.
System nach Anspruch 9 oder 10, wobei das wenigstens eine nichttemporäre computerlesbare Speichermedium des Weiteren eine zweite Ground-Truth-Segmentierung entsprechend einer zweiten Skalierung, dem Trainingsobjekt und dem einen oder den mehreren Trainingsindikatoren umfasst; und des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor das System veranlassen zum: Trainieren des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes durch: Einsetzen des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes zum Generieren einer zweiten vorhergesagten Objektsegmentierungsausgabe auf Grundlage des Trainingsdigitalbildes und des einen oder der mehreren Trainingsindikatoren bei der zweiten Skalierung; und Vergleichen der zweiten vorhergesagten Objektsegmentierungsausgabe mit der zweiten Ground-Truth-Segmentierung.
System nach einem der Ansprüche 9 bis 11, wobei das Trainingsobjekt ein erstes Objekt und ein zweites Objekt umfasst und der eine oder die mehreren Trainingsindikatoren einen mehrdeutigen Trainingsindikator in Bezug auf das Trainingsobjekt und das erste Objekt umfassen.
System nach Anspruch 12, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor das System veranlassen zum: Generieren des mehrdeutigen Trainingsindikators durch: Identifizieren eines gemeinsamen Vordergrundes für das Trainingsobjekt und das erste Objekt; und Abtasten des mehrdeutigen Trainingsindikators aus dem gemeinsamen Vordergrund für das Trainingsobjekt und das erste Objekt.
System nach Anspruch 12 oder 13, wobei der eine oder die mehreren Trainingsindikatoren den mehrdeutigen Trainingsindikator und einen eindeutigen bzw. definitiven Trainingsindikator umfassen, und des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor das System veranlassen zum: Generieren des eindeutigen bzw. definitiven Trainingsindikators durch Abtasten eines eindeutigen bzw. definitiven Positivtrainingsindikators aus einem Bereich des Digitalbildes entsprechend der ersten Ground-Truth-Segmentierung.
System nach einem der Ansprüche 9 bis 14, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor das System veranlassen zum: Vergleichen der ersten Ground-Truth-Segmentierung mit mehreren Skalierungen zum Bestimmen dessen, dass die erste Skalierung der ersten Ground-Truth-Segmentierung entspricht.
Computerimplementiertes Verfahren zum Identifizieren von Digitalobjekten, die innerhalb digitaler visueller Medien abgebildet sind, unter Nutzung des skalierungsvarianten Deep Learning in einer Digitalmedienumgebung zum Bearbeiten von digitalen visuellen Medien, wobei das Verfahren umfasst: einen Schritt zum Trainieren eines der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes zum Analysieren von Trainingsindikatoren entsprechend Trainingsdigitalbildern und Generieren von Objektsegmentierungsausgaben entsprechend verschiedenen Skalierungen; Empfangen eines Digitalbildes und eines Nutzerindikators, der ein oder mehrere Pixel des Digitalbildes umfasst; einen Schritt zum Einsetzen des der skalierungsdiversen Segmentierung dienenden neuronalen Netzwerkes zum Generieren mehrerer Objektsegmentierungsausgaben entsprechend mehreren Skalierungen auf Grundlage des Digitalbildes und des Nutzerindikators; und Bereitstellen der mehreren Objektsegmentierungsausgaben zur Anzeige.
Computerimplementiertes Verfahren nach Anspruch 16, wobei die mehreren Skalierungen eine erste Skalierung, die eine erste Größe und ein erstes Seitenverhältnis aufweist, und eine zweite Skalierung, die eine zweite Größe und ein zweites Seitenverhältnis aufweist, umfassen.
Computerimplementiertes Verfahren nach Anspruch 17, wobei: die mehreren Objektsegmentierungsausgaben eine erste Segmentierungsausgabe, die ein erstes Objekt mit Abbildung in dem Digitalbild umfasst, und eine zweite Segmentierungsausgabe, die das erste Objekt und ein zweites Objekt mit Abbildung in dem Digitalbild umfasst, umfassen, das erste Objekt der ersten Skalierung entspricht, und das erste Objekt und das zweite Objekt zusammen der zweiten Skalierung entsprechen.
Computerimplementiertes Verfahren nach Anspruch 18, wobei das Bereitstellen der mehreren Objektsegmentierungsausgaben zur Anzeige umfasst: Bereitstellen der ersten Objektsegmentierungsausgabe zur Anzeige in Reaktion auf das Identifizieren einer Nutzereingabe der ersten Skalierung; und Bereitstellen der zweiten Objektsegmentierungsausgabe zur Anzeige in Reaktion auf das Identifizieren einer Nutzereingabe der zweiten Skalierung.
Computerimplementiertes Verfahren nach einem der Ansprüche 16 bis 19, wobei die Trainingsindikatoren einen Satz von eindeutigen bzw. definiten Trainingsindikatoren und einen Satz von mehrdeutigen Trainingsindikatoren umfassen.