DE202016007816U1

DE202016007816U1 - Das Entdecken von Unternehmen aus Bildern

Info

Publication number: DE202016007816U1
Application number: DE202016007816.0U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-08-07
Filing date: 2016-08-04
Publication date: 2017-01-25
Anticipated expiration: 2026-08-05
Also published as: KR20170122836A; US9594984B2; US20170039457A1; GB2554238B; DE112016001830T5; WO2017027321A1; CN107690657B; GB2554238A; CN107690657A; EP3332355A1; KR101856120B1; JP6397144B2; GB201717115D0; JP2018524678A

Abstract

System, das Folgendes umfasst: ein tiefes neuronales Netzwerk; und eine oder mehrere Rechenvorrichtungen, die konfiguriert sind, um: das Trainieren des tiefen neuronalen Netzwerks unter Verwendung eines Satzes von Trainingsbildern und Daten, die einen oder mehrere Geschäftsfassadenstandorte in den Trainingsbildern identifizieren, wobei das tiefe neuronalen Netzwerk in jedem Trainingsbild eine erste Vielzahl von Bounding-Boxes ausgibt; das am tiefen neuronalen Netzwerk durchgeführte Erhalten eines ersten Bildes; das unter Verwendung des tiefen neuronalen Netzwerks durchgeführte Bewerten des ersten Bildes; und das unter Verwendung des tiefen neuronalen Netzwerks durchgeführte Generieren einer Vielzahl von Bounding-Boxes, welche Geschäftsfassadenstandorte im ersten Bild identifizieren.

Description

VERWEIS
Unter Schutz gestellt werden und Gegenstand des Gebrauchsmusters sind, entsprechend den Vorschriften des Gebrauchsmustergesetzes, lediglich Vorrichtungen wie in den beigefügten Schutzansprüchen definiert, jedoch keine Verfahren. Soweit nachfolgend in der Beschreibung gegebenenfalls auf Verfahren Bezug genommen wird, dienen diese Bezugnahmen lediglich der beispielhaften Erläuterung der in den beigefügten Schutzansprüchen unter Schutz gestellten Vorrichtung oder Vorrichtungen.
HINTERGRUND DER ERFINDUNG
Die Fülle von geographisch gelegenen Fotografien auf Straßenniveau, die heutzutage im Internet zur Verfügung stehen, stellt eine einzigartige Gelegenheit dar, um von Menschen geschaffene Strukturen zu überwachen, um dazu beizutragen, präzise Karten zu erstellen. Beispiele derartiger Strukturen können örtliche Geschäfte, wie etwa Restaurants, Kleidergeschäfte, Tankstellen, Apotheken, Waschsalons, usw. beinhalten. Es besteht ein hohes Verbraucherinteresse an der Suche nach derartigen Geschäften mittels örtlich relevanter Anfragen auf beliebten Suchmaschinen. Das präzise Identifizieren der Existenz derartiger örtlicher Geschäfte weltweit stellt keine leichte Aufgabe dar.
KURZDARSTELLUNG DER ERFINDUNG
Aspekte der Offenbarung stellen ein Verfahren bereit. Das Verfahren beinhaltet das unter Verwendung eines oder mehrerer Computergeräte durchgeführte Training eines tiefen neuronalen Netzwerks unter Verwendung eines Satzes von Trainingsbildern und Daten, welche einen oder mehrere Geschäftsfassadenstandorte in den Trainingsbildern identifizieren, wobei das tiefe neuronalen Netzwerk, das eine erste Vielzahl von Bounding-Boxes auf jedem Trainingsbild ausgibt; das unter Verwendung des einen oder der mehreren Computergeräte durchgeführte Erhalten eines ersten Bildes; das unter Verwendung des einen oder der mehreren Computergeräte und eines tiefen neuronalen Netzwerks durchgeführte Bewerten des ersten Bildes; und das unter Verwendung des einen oder der mehreren Gittergeräte und des tiefen neuronalen Netzwerks durchgeführte Generieren einer zweiten Vielzahl von Bounding-Boxes, die Geschäftsfassadenstandorte im ersten Bild identifizieren.
In einem Beispiel beinhaltet das Verfahren auch das unter Verwendung eines oder mehrerer Computergeräte und des tiefen neuronalen Netzwerks durchgeführte Erfassen von geschäftsbezogenen Informationen an jedem der identifizierten Geschäftsfassadenstandorte; und das unter Verwendung eines oder mehrerer Computergeräte durchgeführte Aktualisieren einer Datenbank von geschäftsbezogenen Informationen durch das Hinzufügen von Informationen aus jeder Bounding-Box in die zweite Vielzahl von Bounding-Boxes mit den geschäftsbezogenen Informationen, die am Geschäftsfassadenstandort, der von der Bounding-Box identifiziert worden ist, erfasst werden. In diesem Beispiel beinhaltet das Verfahren auch das unter Verwendung eines oder mehrerer Computergeräte durchgeführte Erhalten einer Anfrage von einem Benutzer nach geschäftsbezogenen Informationen; und das unter Verwendung eines oder mehrerer Computergeräte durchgeführte Abrufen der angefragten geschäftsbezogenen Informationen aus der aktualisierten Datenbank.
In einem anderen Beispiel beinhaltet die zweite Vielzahl von Bounding-Boxes zwei Bounding-Boxes, die im ersten Bild, das zwei diskrete Geschäftsfassadenstandorte identifiziert, die nebeneinander angeordnet sind. In einem Beispiel beinhaltet das Trainieren des tiefen neuronalen Netzwerks ferner das Anwenden eines groben Schiebefensters auf einem Abschnitt eines gegebenen Trainingsbilds; und das Entfernen einer oder mehrerer Bounding-Boxes auf Basis eines Standorts des Abschnitts des gegebenen Trainingsbilds. In einem anderen Beispiel beinhaltet das Generieren einer zweiten Vielzahl von Bounding-Boxes auch das Anwenden eines groben Schiebefensters auf einem Abschnitt des ersten Bildes; und das Entfernen eines oder mehrerer Bounding-Boxes auf Basis eines Standorts des Abschnitts des gegebenen Trainingsbildes.
In einem noch weiteren Beispiel beinhaltet das Training des tiefen neuronalen Netzwerks auch das Ermitteln eines Konfidenzgrads für jede Bounding-Box, die eine Wahrscheinlichkeit repräsentiert, dass die Bounding-Box ein Bild einer Geschäftsfassade umfasst; und das Entfernen der Bounding-Boxes, die Bounding-Boxes mit einem Konfidenzgrad von weniger als einem eingestellten Schwellenwert entsprechen. In einem weiteren Beispiel beinhaltet das Generieren der zweiten Vielzahl von Bounding-Boxes auch das Ermitteln des Konfidenzgrades für jede Bounding-Box, die eine Wahrscheinlichkeit darstellt, dass die Bounding-Box ein Bild einer Geschäftsfassade umfasst; und das Entfernen der Bounding-Boxes-Standorte, die Bounding-Boxes mit einem Konfidenzgrad von weniger als einem eingestellten Schwellenwert entsprechen. In einem anderen Beispiel beinhaltet das Trainieren des tiefen neuronalen Netzwerks auch das Verwenden von Postklassifizierung; und das Generieren der zweiten Vielzahl von Bounding-Boxes umfasst ferner das Verwenden von Postklassifizierung.
In einem weiteren Beispiel beinhaltet das Generieren der zweiten Vielzahl von Bounding-Boxes das Berechnen einer Wahrscheinlichkeit einer gegebenen Bounding-Box, die über eine Geschäftsfassade verfügt; das Einstufen der zweiten Vielzahl von Bounding-Boxes auf Basis der berechneten Wahrscheinlichkeit; und das Entfernen der einen oder der mehreren Bounding-Boxes auf Basis der Einstufung. In einem noch weiteren Beispiel beinhaltet das Generieren der zweiten Vielzahl von Bounding-Boxes auch das Entfernen von Objekten in der zweiten Vielzahl von Bounding-Boxes, welche die Sicht auf die identifizierten Geschäftsfassadenstandorte blockiert. In einem anderen Beispiel handelt es sich bei den Trainingsbildern und den ersten Bildern um Panoramabilder.
Ein weiterer Aspekt der Offenbarung stellt ein System bereit. Das System beinhaltet ein tiefes neuronales Netzwerk und ein oder mehrere Computergeräte. Das eine oder die mehreren Computergeräte sind konfiguriert, das tiefe neuronalen Netzwerk unter Verwendung eines Satzes von Trainingsbildern und Daten, dazu zu trainieren, den einen oder die mehreren Geschäftsfassadenstandorte in den Trainingsbildern identifizieren, wobei das tiefe neuronalen Netzwerk eine erste Vielzahl von Bounding-Boxes für jedes Trainingsbild ausgibt; ein erstes Bild am tiefen neuronalen Netzwerk zu erhalten; das erste Bild unter Verwendung des tiefen neuronalen Netzwerks zu bewerten; eine zweite Vielzahl von Bounding-Boxes, welche die Geschäftsfassadenstandorte im ersten Bild identifizieren, unter Verwendung eines tiefen neuronalen Netzwerks zu generieren.
In einem Beispiel werden das eine oder die mehreren der Geräte auch konfiguriert, um das tiefe neuronale Netzwerk zu trainieren, indem ein grobes Schiebefenster auf einen Abschnitt eines gegebenen Trainingsbildes angewendet wird und um eine oder mehrere Bounding-Boxes auf Basis eines Standorts des Abschnitts des gegebenen Trainingsbildes zu entfernen. In einem anderen Beispiel werden das eine oder die mehreren Computergeräte auch konfiguriert, um die zweite Vielzahl von Bounding-Boxes durch das Anwenden eines groben Schiebefensters auf einen Abschnitt des ersten Bildes zu generieren, und um eine oder mehrere Bounding-Boxes auf Basis eines Standorts des Abschnitts des gegebenen Trainingsbildes zu entfernen.
In einem noch weiteren Beispiel werden das eine oder die mehreren Computergeräte auch konfiguriert, um das tiefe neuronalen Netzwerk durch das Ermitteln eines Konfidenzgrades für jede Bounding-Box zu trainieren, die eine Wahrscheinlichkeit darstellt, dass die Bounding-Box ein Bild einer Geschäftsfassade umfasst; und um das tiefe neuronalen Netzwerk durch das Entfernen von Bounding-Boxes zu trainieren, die Bounding-Boxes mit einem Konfidenzgrad entsprechen, der geringer als ein eingestellter Stellenwert ausfällt. In einem weiteren Beispiel werden das eine die mehreren Computergeräte auch konfiguriert, um die zweite Vielzahl von Bounding-Boxes durch das Ermitteln der Konfidenzgrade für jede Bounding-Boxes, die eine Wahrscheinlichkeit darstellt, dass die Bounding-Boxes ein Bild einer Geschäftsfassade umfasst zu generieren, und um die zweite Vielzahl von Bounding-Boxes durch das Entfernen der Bounding-Boxes-Standorte, die Bounding-Boxes mit einem Konfidenzgrad der geringer als ein eingestellter Stellenwert ausfällt, entsprechen, zu generieren. In einem anderen Beispiel werden das eine oder die mehreren Computergeräte auch konfiguriert, um das tiefe neuronale Netzwerk durch das Verwenden von Postklassifizierung zu trainieren und um die zweite Vielzahl von Bounding-Boxes durch das Verwenden von Postklassifizierung zu generieren.
In einem weiteren Beispiel werden das eine oder die mehreren Computergeräte auch konfiguriert, um eine zweite Vielzahl von Bounding-Boxes durch das Berechnen einer Wahrscheinlichkeit einer gegebenen Bounding-Box, die eine Geschäftsfassade umfasst; durch das Einstufen der zweiten Vielzahl von Bounding-Boxes auf Basis der berechneten Wahrscheinlichkeit; und das Entfernen der einen oder der mehreren Bounding-Boxes auf Basis der Einstufung, zu generieren. In einem noch weiteren Beispiel werden das eine oder die mehreren Computergeräte auch konfiguriert, um die zweite Vielzahl von Bounding-Boxes durch das Entfernen von Objekten in der zweiten Vielzahl von Bounding-Boxes, welche die Sicht auf die identifizierten Geschäftsfassadenstandorte blockiert, zu generieren.
Ein weiterer Aspekt der Offenbarung stellt ein nicht transitorisches physisch greifbares computerlesbares Speichermedium bereit, auf dem computerlesbare Anweisungen eines Programms gespeichert werden. Die Anweisungen veranlassen das eine oder die mehreren Computergeräte, wenn sie von einem oder mehreren Computergeräten ausgeführt werden, ein Verfahren auszuführen. Das Verfahren beinhaltet das Trainieren eines tiefen neuronalen Netzwerks unter Verwendung eines Satzes von Trainingsbildern und Daten, welche einen oder mehrere Geschäftsfassadenstandorte in den Trainingsbildern identifizieren, wobei das tiefe neuronale Netzwerk eine erste Vielzahl von Bounding-Boxes für jedes Trainingsbild ausgibt; ein erstes Bild unter Verwendung eines tiefen neuronalen Netzwerks erhalten; das erste Bild unter Verwendung des tiefen neuronalen Netzwerks bewerten; eine zweite Vielzahl von Bounding-Boxes, welche Geschäftsfassadenstandorte im ersten Bild identifizieren, unter Verwendung des tiefen neuronalen Netzwerks, generieren.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Funktionsdiagramm eines exemplarischen Systems gemäß Aspekten der Offenbarung.
2 ist ein Bilddiagramm des exemplarischen Systems aus 1.
3 ist ein exemplarisches Diagramm gemäß Aspekten der Offenbarung.
4 ist ein anderes exemplarisches Diagramm gemäß Aspekten der Offenbarung.
5 ist eine exemplarische Eingabe und Ausgabe gemäß Aspekten der Offenbarung.
6 ist ein exemplarisches Flussdiagramm gemäß Aspekten der Offenbarung.
AUSFÜHRLICHE BESCHREIBUNG
ÜBERBLICK
Die Technologie betrifft automatisch das Generieren von Bounding-Boxes, welche bestimmte Geschäftsfassaden in Bildern identifizieren. Mit anderen Worten kann eine einzelne Bewertung eines Faltungsnetzwerks verwendet werden, um mehrere Bounding-Boxes zusammen mit ihren Konfidenzgraden zu prognostizieren. Durch das Verwenden von Deep-Learning in einem neuronalen Faltungsnetzwerk und bei der Postklassifizierung können Geschäftsfassaden in Panoramabildern im Vergleich zu anderen Verfahren mit hoher Genauigkeit und hoher Geschwindigkeit identifiziert werden. Das präzise Erfassen und Segmentieren von Geschäftsfassaden stellt Gelegenheiten bei der Nachbearbeitung dar, um Informationen über ein bestimmtes Geschäft extrahieren. Zum Beispiel können Text und Bilder extrahiert werden, um Informationen über ein identifiziertes Geschäft bereitzustellen, welche in manchen Fällen verwendet werden können, um den Standort eines Geschäfts genauer zu ermitteln.
Das Extrahieren von willkürlichen Geschäftsfassaden aus Fotografien auf Straßenniveau stellt ein schwer zu lösendes Problem dar. Die Komplexität beruht auf einen hohen Grad an Inter-Klassenvariabilität hinsichtlich der Erscheinung der Geschäftsfassaden innerhalb der Unternehmenskategorien und der Geographie, der damit verbundenen Mehrdeutigkeit des physikalischen Ausmaßes der Geschäftsfassade, der in Ballungsgebieten aneinander gereihten Geschäften, und der Größenordnung des Vorkommens von Geschäftsfassaden weltweit. Selbst für menschliche Annotatoren wird dies aufgrund dieser Faktoren zu einer mehrdeutigen Herausforderung. Bildaufnahmefaktoren, wie Rauschen, Bewegungsunschärfe, Abdeckungen, Beleuchtungsvariationen, Spiegelreflexionen, Perspektive, Geostandort-Fehler, usw. tragen ferner zur Komplexität dieses Problems bei. Es gibt möglicherweise Hunderte von Millionen von Unternehmen weltweit, und es könnte Milliarden von Bildern auf Straßenniveau geben. In Anbetracht der Größenordnung dieses Problems und der Umschlagrate der Geschäfte ist die manuelle Annotation untragbar und stellt keine nachhaltige Lösung dar. Für automatisierte Ansätze ist für das Erfassen von Geschäften weltweit innerhalb eines zumutbaren Zeitrahmens ein hoher Laufzeitwirkungsgrad höchst wünschenswert.
Das Erfassen von Geschäftsfassaden stellt die erste und wichtigste Stufe eines mehrstufigen Verfahrens für das Extrahieren verwertbarer Geschäftsauflistungen aus Bildern dar. Das präzise Erfassen von Geschäftsfassaden ermöglicht das Weiterverarbeiten wie etwa das Geolokalisieren der Geschäftsfassade, die OCR des Textes, das Extrahieren des Geschäftsnamens und sonstiger Attribute, das Einstufen in Kategorien, usw.
Ein neuronales Faltungsnetzwerk kann verwendet werden, um Geschäftsfassaden in Bildern zu erfassen. Faltungsnetzwerke sind neuronale Netzwerke, die Sätze von Knoten in gebundenen Parametern enthalten. Zunahmen der Größenordnung der verfügbaren Trainingsdaten und der Verfügbarkeit der Rechenleistung in Kombination mit algorithmischen Fortschritten, wie etwa stückweise linearen Einheiten und Dropout-Training, haben zu entscheidenden Verbesserungen im Rahmen vieler Computervisionsaufgaben geführt. Auf immensen Datensätzen, wie etwa denjenigen, die heutzutage für viele Aufgaben zur Verfügung stehen, stellt das Überanpassen ein Problem dar; das Vergrößern der Größe des Netzwerks stellt eine verbesserte Testgenauigkeit zur Verfügung. Das optimale Verwenden von Rechenressourcen wird zu einem begrenzenden Faktor. Zu diesem Zweck kann eine verteilte, skalierbare Implementierung des tiefen neuronalen Netzwerks verwendet werden.
Traditionell wird das Erfassen von Objekten durch das vollständige Suchen nach einem Objekt von Interesse im Bild durchgeführt. Derartige Ansätze führen zu einer Wahrscheinlichkeitskarte, welche der Existenz des Objekts an diesem Standort entspricht. Das Nachbearbeiten dieser Wahrscheinlichkeitskarte, entweder durch eine Nicht-Maxima-Unterdrückung oder Mean-Shift basierte Ansätze, generiert dann diskrete Erfassungsergebnisse. Um die Rechenkomplexität der vollständigen Suche entgegenzuwirken, kann eine selektive Suche, die Bildsegmentierungsverfahren verwendet, um mehrere Vorschläge generieren, die Anzahl der Parameter im Rahmen der Suche drastisch reduzieren.
Die hierin offenbarte Technologie bedient sich eines tiefen neuronalen Netzwerks, um die endgültigen Erfassungsergebnisse zuzuordnen und bedient sich eines voll erlernten Ansatzes von Pixeln zu diskreten Bounding-Boxes. Der End-to-End-Learnt-Ansatz hat den Vorteil, dass er das Generieren des Vorschlags und die Nachbearbeitung unter Verwendung eines einzelnen Netzwerks integriert, um eine große Anzahl von Vorschlägen und Kompetenzen zur selben Zeit zu prognostizieren. Das Verlassen auf die Konfidenzausgabe dieses Ansatzes allein kann Ergebnisse von hoher Qualität erzeugen, obwohl die Genauigkeit noch weiter verbessert werden kann, indem weitere dedizierte Postklassifikationsnetzwerke eingesetzt werden, um die höchsten Konfidenzvorschläge zu erhalten. Selbst mit dem zusätzlichen Postklassifizierungsstadium kann diese Technologie über eine schnellere Größenordnung als ihre Vorgänger verfügen.
Um das tiefe neuronale Netzwerk zu trainieren, kann der Einsatz von Trainingsbildern und Daten verwendet werden, um einen oder mehrere Geschäftsfassadenstandorte zu identifizieren. Unter Verwendung der Trainingsbilder kann das tiefe neuronale Netzwerk eine erste Vielzahl von Bounding-Boxes zusammen mit ihren entsprechenden Konfidenzgraden ausgeben. Die Konfidenzgrade jeder Bounding-Box können eine Wahrscheinlichkeit darstellen, gemäß der, eine Bounding-Box ein Bild einer Geschäftsfassade enthält. Jede Bounding-Box kann mit einem Geschäftsfassadenstandort abgeglichen werden. Im Training kann ein Trainingsbild unter Verwendung eines groben Schiebefensters, das auch unter dem Namen Multi-Crop-Auswertung bekannt ist, ausgewertet werden. Um das tiefe neuronale Netzwerk weiter zu trainieren, kann eine Postklassifizierung angewandt werden, um die Ergebnisse der Multi-Crop-Auswertung weiter zu differenzieren. Die Postklassifizierung kann das Berechnen einer Wahrscheinlichkeit einer gegebenen Bounding-Box beinhalten, die eine Geschäftsfassade enthält.
Das trainierte tiefe neuronale Netzwerk kann ein zu beurteilendes Bild erhalten. Merkmale des Bildes können unter Verwendung einer Multi-Crop-Auswertung und der Postklassifizierung identifiziert und ausgewertet werden. Auf Basis dieser Bewertung kann das tiefe neuronale Netzwerk eine zweite Vielzahl von Bounding-Boxes generieren, welche mögliche Geschäftsfassadenstandorte identifizieren, wobei jede Bounding-Box ein Bild einer einzigen Geschäftsfassade enthalten kann.
Exemplarische Systeme
1 und 2 beinhalten ein exemplarisches System 100, in welchem die vorstehend beschriebenen Merkmale implementiert sein können. Dieses soll nicht als den Umfang der Offenbarung oder die Nützlichkeit der hierin beschriebenen Merkmale einschränkend betrachtet werden. In diesem Beispiel kann System 100 Computergeräte 110, 120, 130 und 140 sowie ein Speichersystem 150 beinhalten. Jedes Computergerät 110 kann einen oder mehrere Prozessoren 112, einen Speicher 114 und andere Komponenten enthalten, die üblicherweise in Universalcomputergeräten vorhanden sind. Speicher 114 des Computergerätes 110 kann Information speichern, die durch einen Prozessor oder durch mehrere Prozessoren 112 zugänglich sein kann, einschließlich der Anweisungen 116, die von einem Prozessor oder von mehreren Prozessoren 112 ausgeführt werden kann.
Speicher 114 kann außerdem Daten 118 enthalten, die durch den Prozessor abgerufen, manipuliert oder gespeichert werden können. Daten können Bilder beinhalten. Bei den Bildern kann es sich um Panoramabilder handeln oder um Bilder, die über Sichtfelder von mehr als 180 Grad, z. B. bis zu 360 Grad verfügen. Darüber hinaus können die Panoramabilder sphärisch oder fast sphärisch sein. Die Bilder können unterschiedliche Geschäftsfassaden abbilden, die mit Informationen in Bezug auf den Standort jeder Geschäftsfassade innerhalb jedes Bildes in Verbindung gebracht werden. Die Informationen können eine Reihe von Pixeln identifizieren, die eine einzelne Geschäftsfassade abbilden; zum Beispiel können einige Bilder Bounding-Boxes umfassen, die im Bild, auf dem sich jede Geschäftsfassade befindet, positioniert sind. Eine Anzahl dieser Bilder kann als Trainingsbilder identifiziert werden. Andere Bilder, die nicht mit Informationen hinsichtlich der Standorte dieser Geschäftsfassaden in Verbindung gebracht werden, können auch im Speicher gespeichert werden. Die Daten können auch den Geostandort jeder Geschäftsfassade beinhalten. Bei dem Speicher kann es sich um einen nicht transitorischen Speicher handeln, der in der Lage ist, Informationen, auf die der Prozessor zugreifen kann, zu speichern, wie etwa eine Festplatte, eine Speicherkarte, ROM, RAM, DVD, CD-ROM, beschreibbare Speicher und Read-Only-Speicher.
Die Anweisungen 116 können Sätze von Anweisungen jeglicher Art sein, die entweder auf direkte Weise, wie etwa als Maschinencode, oder auf indirekte Weise, wie etwa als Scripts, von dem einen oder den mehreren Prozessoren auszuführen sind. Diesbezüglich können die Begriffe „Anweisungen”, „Anwendung”, „Schritte” und „Programme” hierin austauschbar verwendet werden. Die Anweisungen können im Objektcodeformat zur direkten Verarbeitung durch einen Prozessor oder in jeder anderen Computergerätsprache einschließlich Scripts und Sammlungen von unabhängigen Sourcecodemodulen gespeichert werden, die auf Anfrage interpretiert oder im Voraus erstellt werden können. Die Anweisungen können Anweisungen beinhalten, welche das eine oder die mehreren Computergeräte, wie etwa Computergerät 110, dazu veranlassen sich wie ein tiefes neuronales Netzwerk zu verhalten. Funktionen, Verfahren und Routinen der Anweisungen werden unten ausführlicher erklärt.
Daten 118 können vom einen oder den mehreren Prozessoren 112 gemäß den Anweisungen 116 abgerufen, gespeichert oder modifiziert werden. Beispielsweise können, obwohl der hierin beschriebene Gegenstand nicht durch eine beliebige bestimmte Datenstruktur beschränkt ist, die Daten in Computerregistern, als Tabelle, die viele verschiedene Felder und Datensätze aufweist, oder XML-Dokumenten gespeichert werden. Die Daten können außerdem in einem beliebigen computergerätlesbaren Format wie, aber nicht beschränkt auf Binärwerten, ASCII oder Unicode formatiert sein. Des Weiteren können die Daten beliebige Informationen umfassen, die ausreichend sind, um die relevanten Informationen zu identifizieren, wie Zahlen, beschreibenden Text, proprietäre Codes, Zeiger, Referenzen auf Daten, die in anderen Speichern, wie etwa anderen Netzwerkstandorten gespeichert sind oder Informationen, die von einer Funktion verwendet werden, um die relevanten Daten zu berechnen, umfassen.
Der eine oder die mehreren Prozessoren 112 können beliebige herkömmliche Prozessoren sein, wie eine handelsübliche CPU. Alternativ können die Prozessoren dedizierte Komponenten sein, wie ein anwendungsspezifischer integrierter Schaltkreis („ASIC”) oder ein anderer hardwarebasierter Prozessor. Obwohl nicht nötig, können ein oder mehrere der Computergeräte 110 spezielle Hardware-Komponenten beinhalten, um spezifische Rechenprozesse schneller oder effizienter durchzuführen, wie Dekodieren von Video, Abgleichen von Videoeinzelbildern mit Bildern, Verzerren von Videos, Kodieren verzerrter Videos usw.
Obwohl 1 funktionsmäßig den Prozessor, Speicher und andere Elemente von Computergerät 110 als im gleichen Block befindlich darstellt, können der Prozessor, Computer, Computergerät oder Speicher tatsächlich mehrere Prozessoren, Computer, Computergeräte oder Speicher umfassen, die innerhalb desselben physischen Gehäuses gelagert sein können. Der Speicher kann zum Beispiel eine Festplatte oder andere Speichermedien sein, die sich in Gehäusen befinden, die sich von dem der Computergeräte 110 unterscheiden. Dementsprechend werden Referenzen auf einen Prozessor, Computer, Computergerät oder Speicher so verstanden, als sie Referenzen auf eine Sammlung von Prozessoren, Computern, Computergeräten oder Speichern beinhalten, die parallel arbeiten können oder nicht. Die Computergeräte 110 können beispielsweise Server-Computergeräte beinhalten, die als eine lastverteilende Serverfarm arbeiten. Weiterhin, obwohl einige der nachstehend beschriebenen Funktionen als auf einem einzigen Computergerät, das einen einzigen Prozessor aufweist, stattfindend beschrieben sind, können verschiedene Aspekte des hierin beschriebenen Gegenstandes durch eine Vielzahl von Computergeräten implementiert werden, beispielsweise Weitergabe von Informationen über ein Netzwerk 160.
Jedes der Computergeräte 110 kann sich an verschiedenen Knoten eines Netzwerks 160 befinden und fähig sein, direkt und indirekt mit anderen Knoten des Netzwerks 160 zu kommunizieren. Obwohl in den 1–2 nur einige Rechenvorrichtungen abgebildet sind, versteht es sich von selbst, dass ein typisches System eine große Anzahl an miteinander verbundenen Rechenvorrichtungen beinhalten kann, wobei jede einzelne Rechenvorrichtung sich an einem unterschiedlichen Knoten des Netzwerks 160 befindet. Das Netzwerk 160 kann ein tiefes neuronales Netzwerk sein, das Modelle mehrerer Schichten einsetzt, bei denen die Ausgaben der unteren Schichten verwendet werden, um die Ausgaben der höheren Niveauschichten auszubilden. Das Netzwerk 160 und dazwischenliegende Knoten, die hierin beschrieben sind, können unter Verwendung verschiedener Protokolle und Systeme vernetzt sein, so dass das Netzwerk Teil des Internets, Word Wide Web, spezifischer Intranets, Langstreckennetze oder lokaler Netzwerke sein kann. Das Netzwerk kann Standardkommunikationsprotokolle, wie Ethernet, WiFi und HTTP, Protokolle, die proprietär für ein oder mehrere Unternehmen sind und verschiedene Kombinationen der vorstehenden nutzen. Obwohl bestimmte Vorteile erzielt werden, wenn Informationen wie oben beschrieben übertragen oder empfangen werden, sind andere Aspekte des hierin beschriebenen Gegenstands nicht auf eine bestimmte Art der Übertragung von Informationen beschränkt.
Als ein Beispiel kann jedes der Computergeräte 110 Webserver beinhalten, die fähig sind, über das Netzwerk mit einem Speichersystem 150 sowie mit den Computergeräten 120, 130 und 140 zu kommunizieren. Ein oder mehrere der Server-Rechner 110 können zum Beispiel das Netzwerk 160 verwenden, um Informationen an einen Benutzer zu übertragen und diesem darzustellen, wie einem Benutzer 220, 230 oder 240, auf einer Anzeige, wie Anzeigen 122, 132 oder 142 der Computergeräte 120, 130 oder 140. In dieser Hinsicht können die Computergeräte 120, 130 und 140 als Client-Computergeräte angesehen werden und können alle oder einige der hierin beschriebenen Funktion durchführen.
Jede der Rechenvorrichtungen des Clients können wie vorstehend beschrieben, auf ähnliche Weise wie die Computervorrichtungen 110 des Servers mit einem oder mehreren Prozessoren, einem Speicher und Anweisungen konfiguriert werden. Bei jeder Rechenvorrichtung 120, 130 oder 140 des Client kann es sich um eine zur Verwendung durch einen Benutzer 220, 230, 240 vorgesehene persönliche Rechenvorrichtung handeln, die über sämtliche Komponenten verfügt, die normalerweise mit einem Personal-Computer in Verbindung gebracht werden, wie etwa eine zentrale Recheneinheit (CPU), ein Speicher (z. B. RAM und interne Festplatten), der Daten und Anweisungen speichert, ein Display, wie etwa Displays 122, 132, oder 142 (z. B. ein Monitor, der über einen Bildschirm, einen Touchscreen, einen Projektor, einen Fernseher und eine sonstige Vorrichtung verfügt, die betrieben werden können, um Informationen anzuzeigen), und ein Benutzereingabegerät 124 (z. B. eine Maus, eine Tastatur, einen Touchscreen oder ein Mikrofon). Die Client-Recheneinheit kann auch eine Kamera 126 zum Aufzeichnen von Video-Streams bzw. zur Aufnahme von Fotografien, Lautsprecher, ein Netzwerkschnittstellengerät und alle Komponenten zur Verbindung dieser Elemente miteinander, beinhalten.
Obwohl die Client-Computergeräte 120, 130 und 140 jeweils ein persönliches Computergerät in voller Größe umfassen können, können sie alternativ mobile Computergeräte umfassen, die fähig sind, Daten drahtlos über ein Netzwerk wie das Internet mit einem Server auszutauschen. Nur exemplarisch kann ein Client-Computergerät 120 ein Mobiltelefon oder eine Vorrichtung wie ein funkfähiger PDA, ein Tablet-PC oder ein Netbook sein, die in der Lage sind, Informationen über das Internet abzurufen. In einem anderen Beispiel kann Client-Computergerät 130 ein auf dem Kopf getragenes Computersystem sein. Als ein Beispiel kann der Benutzer Informationen unter Verwendung einer kleinen Tastatur, eines Tastenfeldes, Mikrofons, unter Verwendung visueller Signale mit einer Kamera oder eines Touchscreens eingeben.
Wie der Speicher 114 kann das Speichersystem 150 von einem beliebigen Typ von computerisiertem Speicher sein, der fähig ist, Informationen zu speichern, auf die von den Computergeräten 110 zugegriffen werden kann, wie eine Festplatte, Speicherkarte, ROM, RAM, DVD, CD-ROM, beschreibbare und schreibgeschützte Speicher. Zusätzlich kann das Speichersystem 150 ein verteiltes Speichersystem beinhalten, in dem Daten auf einer Vielzahl von verschiedenen Speichergeräten gespeichert werden, die physisch an den gleichen oder verschiedenen geografischen Standorten angeordnet sein können. Wie in 1 gezeigt, kann das Speichersystem 150 über das Netzwerk 160 mit Rechenvorrichtungen verbunden werden und/oder kann mit jeder der Rechenvorrichtungen 110–140 (nicht dargestellt) direkt verbunden werden bzw. in den Speicher jeder dieser Rechenvorrichtungen integriert werden.
Speichersystem 150 kann auch Bilder speichern. Diese Bilder können unterschiedliche Arten von Bildern, wie etwa Panoramabilder oder Bilder, die über Sichtfelder von mehr als 180°, z. B. bis zu 360° verfügen, die unter anderem eine oder mehrere Geschäftsfassaden abbilden. In einigen Beispielen kann ein gegebenes Bild mit Geschäftsfassadeninformationen in Verbindung gebracht werden, welche den Standort jeder Geschäftsfassade innerhalb eines gegebenen Bildes identifizieren. Zum Beispiel können die Geschäftsfassaden Informationen für ein gegebenes Bild eine Reihe oder Reihen von Pixeln im gegebenen Bild beinhalten, die einer oder mehrerer Geschäftsfassaden und/oder Bildkoordinaten entsprechen, die einer Form eines oder mehrerer Geschäftsfassaden im gegebenen Bild entsprechen. Als ein Beispiel können die Geschäftsfassadeninformationen mittels Bounding-Boxes dargestellt werden, die jedem Geschäftsfassadenstandort im Bild entsprechen. Zumindest können einige der Bilder, wie unten besprochen, als Training Bilder identifiziert werden. Das Speichersystem 150 kann auch Geostandortinformationen oder Informationen hinsichtlich eines geographischen Standorts für eine Anzahl von Geschäftsfassaden beinhalten.
EXEMPLARISCHE VERFAHREN
Wie in 3 ersichtlich kann ein tiefes neuronales Netzwerk 310 durch das Verwenden eines Satzes von Trainingsbildern 320 trainiert werden. Diese Trainingsbilder 320 können Bilder des Speichersystems 150 beinhalten, die mit Geschäftsfassadeninformationen in Verbindung gebracht werden, die einen oder mehrere Geschäftsfassadenstandorte 330 im Satz von Trainingsbildern identifizieren. Wie oben angegeben, kann es sich bei den Geschäftsfassadeninformationen um eine Reihe oder mehrere Reihen von Pixeln handeln, die eine oder mehrere Geschäftsfassaden abbilden, die im zugeordneten Bild positioniert sind.
Das tiefe neuronale Netzwerk 310 kann verwendet werden, um Trainingsbilder unter Verwendung der Geschäftsfassadenstandortdaten für Standorte von Geschäftsfassaden innerhalb der Trainingsbilder zu bewerten. Ein grobes Schiebefenster, das auch unter dem Namen Multi-Crop-Auswertung bekannt ist, kann auf das Bild unter Verwendung des tiefen neuronalen Netzwerks angewendet werden. Jede Fensterposition kann als ein „Ausschnitt” des Bildes betrachtet werden. Im Vergleich zu dichten Schiebefensteransätzen reduziert der grobe Schiebefensteransatz die Anzahl der Schiebefenster um mehrere Größenordnungen. Das grobe Schiebefenster ist zum Beispiel in der Lage 100 Fenster für ein volles 360° Panoramabild einzusetzen. Im Vergleich dazu benötigt das dichte Schiebefenster mit hoher Wahrscheinlichkeit 300.000 Fenster um dasselbe zu erreichen. Einzelne Ausschnittbewertungen können auch gut funktionieren, aber für Panoramabilder mit hohen Auflösungen können kleinere Geschäftsfassaden nicht zuverlässig aus einer Version eines einzelnen Panoramabildes mit niedriger Auflösung erfasst werden. Demzufolge kann das Verwenden eines groben Schiebefensters die Qualität des Erfassens von Geschäftsfassaden verbessern.
Während des Trainings des tiefen neuronalen Netzwerks 310 kann eine erste Vielzahl von Bounding-Boxes 340, die auf einem Bild überlagert, identifiziert werden. Bei einer Bounding-Box kann es sich um ein Rechteck auf einem Bild handeln, das einen Abschnitt des sich darin befindlichen Bildes identifiziert. Bei einer Bounding-Box kann es sich auch um ein anderes Polygon oder um eine andere Form handeln. Die Form und Größe jeder Bounding-Box kann von der Form jedes Geschäftsfassadenstandorts abhängen.
Jede Bounding-Box 340 kann mit einem Geschäftsfassadenstandort auf Basis der Daten, die mit jedem Bild in Verbindung gebracht werden, abgeglichen werden. Nur ein Geschäftsfassadenstandort kann innerhalb einer einzelnen Bounding-Box enthalten sein, so dass Geschäftsfassadenstandorte, die sich direkt nebeneinander im Bild befinden, von separaten Bounding-Boxes definiert werden. Das Abgleichen kann ein Maximalgewichtabgleich beinhalten, bei dem das Kantengewicht zwischen dem Geschäftsfassadenstandort und einer gegebenen Bounding-Box mit der Menge der Überlagerung der Boxen in Beziehung steht. Zum Beispiel kann es sich bei dem Jaccard-Ähnlichkeitskoeffizienten um das Kantengewicht handeln, das als die Größe der Kreuzung definiert wird, die durch eine Größe der Einheit der gegebenen Bounding-Box und des Geschäftsfassadenstandorts geteilt wird.
Für einen Satz von Trainingsbildern, die mittels des tiefen neuronalen Netzwerks bewertet werden, kann das tiefe neuronale Netzwerk verwendet werden, um Koordinaten jeder Bounding-Box der ersten Vielzahl von Bounding-Boxes zu ermitteln. Bei den Koordinaten kann es sich um Bildkoordinaten handeln, wie etwa die Bildkoordinaten, die einem Geschäftsfassadenstandort entsprechen. Bildkoordinaten können vom Standort der Bounding-Box unter Verwendung eines Koordinatensystems definiert werden, das relativ zum Bild selbst ist oder Breitengrad-/Längengradkoordinaten oder sonstige andere Geostandortkoordinaten sein kann.
Ein Konfidenzgrad 350 kann für jede Bounding-Box 340 berechnet werden. Die Konfidenzgrade 350 jeder Bounding-Box der ersten Vielzahl von Bounding-Boxes können eine Wahrscheinlichkeit darstellen, gemäß der, eine Bounding-Box ein Bild einer Geschäftsfassade enthält.
Wenn ein Trainingsbild bewertet wird, können Bonnding-Boxes unter gewissen Umständen entfernt werden. Bounding-Boxes mit einem Konfidenzgrad, der unterhalb eines eingestellten Schwellenwerts liegt, können zum Beispiel entfernt werden. Eine Bounding-Box, die an einer Kante eines Ausschnitts des Bildes anliegt, kann entfernt werden, es sei denn bei der Kante des Ausschnitts kann es sich auch um eine Kante des Bildes handeln. Auf diese Weise kann eine Bounding-Box, die nicht vollständig über ein Objekt verfügt, entfernt werden und das Erfassen der Geschäftsfassaden ist präziser. Des Weiteren können alle Bounding-Boxes, die mehr als eine gegebene Entfernung von jedem gegebenen Ausschnitt entfernt liegen, auch entfernt werden.
Das tiefe neuronale Netzwerk 310 kann auch durch Postklassifizierung trainiert werden. Als Vorbereitung auf die Postklassifizierung kann eine affine Transformation auf ein rezeptives Feld des tiefen neuronalen Netzwerks angewandt werden. In der Postklassifizierung wird die erste Vielzahl von Bounding-Boxes, die von der Multi-Crop-Auswertung identifiziert werden, ferner klassifiziert werden, um die Ergebnisse zu differenzieren. Mit anderen Worten wird ein weiterer Klassifikator auf die Ergebnisse angewandt, um die Konfidenz, dass jede Bounding-Box einen Geschäftsfassadenstandort enthält, anzuheben. Zum Beispiel kann ein zweiter Konfidenzgrad für jede Bounding-Box ausgerechnet werden. Eine Wahrscheinlichkeit einer gegebenen Bounding-Box, die eine Geschäftsfassade umfasst, kann auf Basis der berechneten Konfidenzgrade ausgerechnet werden. Die Wahrscheinlichkeit kann durch Summierung der Produkte der Konfidenzgrade jeder Bounding-Box im tiefen neuronalen Netzwerk und der Konfidenzgrade jeder Bounding-Box in der Postklassifizierung ausgerechnet werden. Alternativ kann die Wahrscheinlichkeit durch Multiplikation der Konfidenzgrades im tiefen neuronalen Netzwerk und in der Postklassifizierung für eine gegebene Bounding-Box ausgerechnet werden.
Die Wahrscheinlichkeit kann verwendet werden, um die erste Vielzahl von Bounding-Boxes durch das Entfernen von Bounding-Boxes zu filtern, die mit Wahrscheinlichkeiten in Verbindung gebracht werden, die geringer als der eingestellte Schwellenwert ausfallen. Die Wahrscheinlichkeit kann auch verwendet werden, um die Bounding-Boxes einzustufen. Die erste Vielzahl von Bounding-Boxes kann auf Basis der Einstufung gefiltert werden. Zum Beispiel können die Bounding-Boxes, die unterhalb einer eingestellten Anzahl eingestuft werden, entfernt werden.
Während seines Training kann das neuronale Netzwerk die erste Vielzahl von Bounding-Boxes 340 auf Trainingsbildern mit ihren entsprechenden Konfidenzgraden 350 ausgeben. Koordinaten, die für jede Bounding-Box ermittelt werden und die Wahrscheinlichkeiten, die durch die Postklassifizierung ausgerechnet werden, können auch in der Ausgabe des Netzwerks enthalten sein. Diese Informationen können im Speichersystem 150 für einen späteren Gebrauch gespeichert werden.
Nach Abschluss des Trainings kann das tiefe neuronalen Netzwerk 310 eine oder mehrere Bilder 420, wie 4 ersichtlich, auswerten. Wie die Trainingsbilder 320 können Bilder 420 auch im Speichersystem 150 gespeichert werden. Doch im Gegensatz zu den Trainingsbildern können die Bilder 420 nicht mit Daten in Verbindung gebracht werden, welche die Geschäftsfassadenstandorte in den Bildern identifizieren. Bei den Bildern 420 kann es sich um Panoramabilder handeln oder um Bilder, die über Sichtfelder von mehr als 180 Grad, z. B. bis zu 360 Grad verfügen. Darüber hinaus können die Panoramabilder sphärisch oder fast sphärisch sein. Das Erfassen in einem Panorama vermeidet den Verlust des Rückrufs, der infolge eines Bildes mit einem kleineren Sichtfeld entstehen würde. Unter Verwendung des tiefen neuronalen Netzwerks 310 können die Bilder 420 ausgewertet werden, um Merkmale der Bilder zu identifizieren. Wie oben mit Bezug auf das Training beschrieben, kann die Bewertung eine Multi-Crop-Auswertung und eine Postklassifizierung beinhalten.
Auf Basis der Auswertung kann das tiefe neuronale Netzwerk 310 eine zweite Vielzahl von Bounding-Boxes 440 generieren, um mögliche Geschäftsfassadenstandorte im Bild, wie in 4 ersichtlich, zu identifizieren. Jede Bounding-Box 440 kann lediglich ein Bild einer einzigen Geschäftsfassade beinhalten. Eine Reihe von benachbarten Geschäftsfassaden kann daher mittels einer Vielzahl von Bounding-Boxen, die jede Geschäftsfassade in der Reihe einschließen, segmentiert werden. Darüber hinaus kann jede Bounding-Box 440 mit einem Konfidenzgrad 450 in Verbindung gebracht werden, der eine Wahrscheinlichkeit darstellt, das jede Bounding-Box ein Bild einer Geschäftsfassade enthält.
Wie in 5 ersichtlich, kann Bild 510 mittels eines tiefen neuronalen Netzwerks 310 bewertet werden. Infolgedessen kann das tiefe neuronale Netzwerk 310 eine Vielzahl von Bounding-Boxes einschließlich 522, 524, 526, und 528 beinhalten, wobei jede davon ein Bild einer einzelnen Geschäftsfassade enthält. Bilder 524, 526, und 528 identifizieren benachbarte Geschäftsfassaden als individuelle Geschäftsfassaden.
In einigen Beispielen kann eine zweite Vielzahl von Bounding-Boxes 440 durch das Entfernen von Bounding-Boxes gefiltert werden, die über Konfidenzgrade verfügen, die sich unterhalb des eingestellten Schwellenwerts befinden. Darüber hinaus oder alternativ können Bounding-Boxes aus mehreren Bildern, die mit denselben oder ähnlichen Geostandorten in Verbindung gebracht werden (oder mit anderen Worten, denselben Geschäftsstandorten) zusammengeschlossen werden. Das Zusammenschließen von Bounding-Boxes kann das Entfernen von Objekten, die falsche Positive sind, beinhalten. Ein Beispiel eines falschen Positivs kann ein Fahrzeug sein, das vorübergehend vor einer Geschäftsfassade geparkt ist. Die gefilterten Bounding-Boxes können dann mit bewerteten Bildern in Verbindung gebracht werden und im Speichersystem 150 für eine spätere Verwendung gespeichert werden.
Geschäftsbezogene Informationen innerhalb jeder Bounding-Box 440 können erfasst werden. Bekannte Verfahren zur Extraktion von Informationen, wie etwa optische Zeichenerfassung (OCR) können verwendet werden. Erfasste geschäftsbezogene Informationen können Namen, Wörter, Logos, Handelsware oder sonstige Gegenstände beinhalten, in einer gegebenen Bounding-Box ersichtlich sind. Die Geschäftsinformationen können dann einer Datenbank für geschäftsbezogen Informationen hinzugefügt werden. Die Datenbank kann im Speichersystem 150 für einen späteren Gebrauch gespeichert werden.
Ein Benutzer 220, 230, 240 kann geschäftsbezogene Informationen unter Verwendung eines Computergeräts 120, 130, 140 anfragen. Als Antwort auf eine Benutzeranfrage, können geschäftsbezogene Informationen mittels des Computergeräts 110 von der Datenbank im Speichersystem 150 abgerufen werden und an das Computergerät 120, 130, 140 gesendet werden.
6 ist ein exemplarisches Flussdiagramm 600, das gemäß einigen Aspekten beschrieben ist, die auf einem tiefen neuronalen Netzwerk 310 ausgeführt werden können. Doch die beschriebenen Merkmale können von einem oder einer Vielzahl von Systemen, die über verschiedene Konfigurationen verfügen, implementiert werden. Darüber hinaus müssen die in den Verfahren miteinbezogenen Operationen nicht in der genau beschriebenen Reihenfolge durchgeführt werden. Vielmehr können verschiedene Operationen in einer anderen Reihenfolge oder gleichzeitig erledigt werden und Operationen können hinzugefügt oder weggelassen werden.
Bei Block 610 kann ein tiefes neuronales Netzwerk unter Verwendung eines Satzes von Trainingsbildern und Daten, die einen oder mehrere Geschäftsfassadenstandorte in den Trainingsbildern identifizieren, trainiert werden. Bei Block 620 kann ein erstes Bild am tiefen neuronalen Netzwerk erhalten werden. Das erste Bild kann vom tiefen neuronalen Netzwerk bei Block 630 ausgewertet werden. Bei Block 640 kann ein Satz von zwei oder mehreren Bounding-Boxes generiert werden, das Geschäftsfassadenstandorte im ersten Bild identifiziert.
Die oben beschriebenen Merkmale können verwendet werden, um Geschäftsfassaden in einer großen Datenbank von Bildern mit einer Geschwindigkeit und Präzision zu identifizieren, die unter Verwendung sonstiger Methoden zu erreichen ist. Insbesondere versetzen die Merkmale die Bounding-Boxes in die Lage, die direkte Ausgabe der Analyse ohne Verwendung der Zwischenausgabe zu sein, wie etwa einer Heatmap oder einer Wahrscheinlichkeitskarte, die eine weitere Analyse und/oder ein weiteres Verarbeiten erfordert. Des Weiteren ermöglichen die Merkmale, dass die benachbarten Geschäftsfassaden sachgemäß segmentiert werden, anstatt als eine einzelne Geschäftsfassade identifiziert zu werden. Im Vergleich zum Verwenden einer selektiven Suche, um Bounding-Boxes um Bilder von Geschäftsfassaden herum zu generieren, fällt der Rechenaufwand für das Verwenden der oben beschriebenen Methode geringer aus, wobei die Geschwindigkeit höher ausfällt. Das Verwenden des oben beschriebenen Verfahrens kann eine höhere Leistung als das Verwenden des trainierten Heatmap-Ansatzes erbringen, der eine intensive Nachbearbeitung erfordert, um die Heatmap in sinnvolle Bounding-Boxes umzuwandeln und die viel schneller vom Rauschen der Beschriftungen beeinträchtigt ist. Das beschriebene Trainingsverfahren und das Verwenden eines tiefen neuronalen Faltennetzwerks automatisiert ein Verfahren, welches sehr viele Stunden menschlicher Arbeit in Anspruch genommen hätte, während zugleich präzise Ergebnisse erzielt werden. Nachdem die Bounding-Boxes erstellt worden sind, können die Bilder verwendet werden, um verwendbare geschäftsbezogene Auflistungen automatisch zu extrahieren, um präzisere Geostandorte von Geschäftsfassaden und viele weitere im Bild zur Verfügung stehende Informationen auf automatische Art und Weise zu extrahieren.
Obwohl die Erfindung hierin mit Bezug auf bestimmte Ausführungsformen beschrieben wurde, versteht sich, dass diese Ausführungsformen lediglich die Grundsätze und Anwendungen der vorliegenden Erfindung darstellen. Es versteht sich daher von selbst, dass zahlreiche Modifizierungen an den darstellenden Ausführungsformen vorgenommen werden können, und dass andere Anordnungen konzipiert werden können, ohne vom Erfindungsgedanken und Umfang der vorliegenden Erfindung, wie durch die hinzugefügten Ansprüche definiert, abzuweichen.

Claims

System, das Folgendes umfasst: ein tiefes neuronales Netzwerk; und eine oder mehrere Rechenvorrichtungen, die konfiguriert sind, um: das Trainieren des tiefen neuronalen Netzwerks unter Verwendung eines Satzes von Trainingsbildern und Daten, die einen oder mehrere Geschäftsfassadenstandorte in den Trainingsbildern identifizieren, wobei das tiefe neuronalen Netzwerk in jedem Trainingsbild eine erste Vielzahl von Bounding-Boxes ausgibt; das am tiefen neuronalen Netzwerk durchgeführte Erhalten eines ersten Bildes; das unter Verwendung des tiefen neuronalen Netzwerks durchgeführte Bewerten des ersten Bildes; und das unter Verwendung des tiefen neuronalen Netzwerks durchgeführte Generieren einer Vielzahl von Bounding-Boxes, welche Geschäftsfassadenstandorte im ersten Bild identifizieren.
System nach Anspruch 1, worin das eine oder die mehreren Computergeräte ferner konfiguriert sind, um das tiefe neuronale Netzwerk mittels der Folgenden zu trainieren: das Anwenden eines groben Schiebefensters an einem Abschnitt eines gegebenen Trainingsbildes; und das Entfernen einer oder mehrerer Bounding-Boxes auf Basis eines Standorts des Abschnitts des gegebenen Trainingsbildes.
System nach Anspruch 1, worin das eine oder die mehreren Computergeräte ferner konfiguriert sind, um die zweite Vielzahl von Bounding-Boxes durch das Folgende zu generieren: das Anwenden eines groben Schiebefensters auf einen Abschnitt des ersten Bildes; und das Entfernen einer oder mehrerer Bounding-Boxes auf Basis eines Standorts des Abschnitts des gegebenen Trainingsbildes.
System nach Anspruch 1, worin das eine oder die mehreren Computergeräte ferner konfiguriert sind, um das tiefe neuronale Netzwerk mittels der Folgenden zu trainieren: das Ermitteln eines Konfidenzgrades für jede Bounding-Box, welche eine Wahrscheinlichkeit darstellt, dass die Bounding-Box ein Bild einer Geschäftsfassade umfasst; und das Entfernen der Bounding-Boxes, die Bounding-Boxes mit einem Konfidenzgrad entsprechen der geringer als ein eingestellter Schwellenwert ausfällt.
System nach Anspruch 1, worin das eine oder die mehreren Computergeräte ferner konfiguriert sind, um die zweite Vielzahl von Bounding-Boxes durch das Folgende zu generieren: das Ermitteln von Konfidenzgraden für jede Bounding-Box, welche eine Wahrscheinlichkeit darstellt, dass die Bounding-Box ein Bild einer Geschäftsfassade umfasst; und das Entfernen der Bounding-Box-Standorte, die Bounding-Boxes mit einem Konfidenzgrad entsprechen der geringer als ein eingestellter Schwellenwert ausfällt.
System nach Anspruch 1, worin ein oder mehrere Rechenvorrichtungen ferner so ausgestattet sind, um: das tiefe neuronale Netzwerk durch das Verwenden der Postklassifizierung zu trainieren; und die zweite Vielzahl von Bounding-Boxes durch das Verwenden der Postklassifizierung zu generieren.
System nach Anspruch 1, worin das eine oder die mehreren Computergeräte ferner konfiguriert sind, um die zweite Vielzahl von Bounding-Boxes durch das Folgende zu generieren: das Berechnen einer Wahrscheinlichkeit einer gegebenen Bounding-Box, die über eine Geschäftsfassade verfügt; das Einstufen der zweiten Vielzahl von Bounding-Boxes auf Basis der berechneten Wahrscheinlichkeit; und das Entfernen der einen oder der mehreren Bounding-Boxes auf Basis der Einstufung.
System nach Anspruch 1, worin das eine oder die mehreren Computergeräte ferner konfiguriert sind, um die zweite Vielzahl von Bounding-Boxes durch das Entfernen von Objekten in der zweiten Vielzahl von Bounding-Boxes, welche die Sicht auf die identifizierten Geschäftsfassadenstandorte blockiert, zu generieren.
Nicht-flüchtiges physisch greifbares rechnerlesbares Speichermedium auf dem von einem Computer lesbare Anweisungen eines Programms gespeichert werden, wobei die Anweisungen, wenn sie von einem oder mehreren Computergeräten ausgeführt werden, das eine oder die mehreren Computergeräte dazu veranlassen, ein Verfahren auszuführen, wobei das Verfahren das Folgende umfasst: das Trainieren eines tiefen neuronalen Netzwerks unter Verwendung eines Satzes von Trainingsbildern und Daten, die einen oder mehrere Geschäftsfassadenstandorte in den Trainingsbildern identifizieren, wobei das tiefe neuronalen Netzwerk in jedem Trainingsbild eine erste Vielzahl von Bounding-Boxes ausgibt; das am tiefen neuronalen Netzwerk durchgeführte Erhalten eines ersten Bildes; das unter Verwendung des tiefen neuronalen Netzwerks durchgeführte Bewerten des ersten Bildes; und das unter Verwendung des tiefen neuronalen Netzwerks durchgeführte Generieren einer Vielzahl von Bounding-Boxes, welche Geschäftsfassadenstandorte im ersten Bild identifizieren.