DE102017219346A1

DE102017219346A1 - Piktogrammerkennungsvorrichtung, piktogrammerkennungssystem, und piktogrammerkennungsverfahren

Info

Publication number: DE102017219346A1
Application number: DE102017219346.8A
Authority: DE
Inventors: Hangjip CHOI; Seung Gyun KIM; Jin Min Choi; Jae Wan Park
Original assignee: Hyundai Motor Co; Kia Motors Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2017-02-16
Filing date: 2017-10-27
Publication date: 2018-08-16
Also published as: CN108446709B; CN108446709A; KR20180094616A; KR102257226B1; US10521690B2; US20180232597A1

Abstract

Offenbart wird eine Piktogrammerkennungsvorrichtung, ein Piktogrammerkennungssystem und ein Piktogrammerkennungsverfahren, wobei das Piktogrammerkennungsverfahren das Akquirieren von Lerndaten, das Akquirieren eines Bildes umfassend ein Piktogramm, das Extrahieren von zumindest einer Zone aus dem Bild, das Akquirieren von einem Deskriptor gemäß der zumindest einen Zone, und das Erkennen eines Piktogramms durch Vergleichen des Deskriptors mit den Lerndaten und das zur Verfügung stellen von Informationen an einen Nutzer gemäß dem erkannten Piktogramm, umfasst.

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Piktogrammerkennungsvorrichtung, ein Pktogrammerkennungssystem und ein Piktogrammerkennungsverfahren.
Stand der Technik
Ein Piktogramm kann Bilder bezeichnen, welche einfach und visuell angezeigt werden unter Verwendung von zumindest einem aus Symbolen, Buchstaben und Figuren auf eine solche Weise, dass ein Nutzer intuitiv ein spezifisches Objekt erkennen kann. Das Piktogramm wurde weithin zu verschiedenen Zwecken verwendet, beispielsweise zur Erklärung von Funktionen, Materialien oder Effekten eines spezifischen Objektes, dem zur Verfügung stellen von Informationen betreffend eine spezifische Zone oder eine Umgebungsinformation in Bezug auf die spezifische Zone und einen Navigationsservice, etc.
Ein Fahrzeug oder eine mechanische Maschine kann eine Nutzerschnittstelle (User Interface; UI) umfassen, welche einen Eingabeabschnitt zum Eingeben von verschiedenen Befehlen betreffend das Fahrzeug oder die mechanische Maschine betrifft, und einen Ausgabeabschnitt zum zur Verfügung stellen von verschiedenen Arten von Informationen betreffend das Fahrzeug oder das Baufahrzeug. Die Nutzerschnittstelle (UI) kann Nutzer mit verschiedenen Arten von Informationen unter Verwendung des oben erwähnten Piktogramms versehen. Beispielsweise kann die Nutzerschnittstelle (UI) Nutzern verschiedene Arten von Informationen zur Verfügung stellen unter Verwendung des Piktogramms, beispielsweise Informationen betreffend die Funktion oder den Betrieb, welche durch den Eingabeabschnitt ausgeführt werden können, Informationen betreffend den Zustand oder den Betrieb eines derzeitigen Fahrzeuges oder einer mechanischen Maschine, oder Informationen betreffend die Umgebungssituation eines Fahrzeuges oder einer mechanischen Maschine.
Die in diesem Abschnitt zum Hintergrund der Erfindung offenbarte Information dient nur zur Verbesserung des Verständnisses des allgemeinen Hintergrundes der Erfindung und sollte nicht als ein Anerkenntnis oder irgendeine Form von Vorschlag aufgefasst werden, dass diese Information den Stand der Technik bildet, der bereits einem Fachmann bekannt ist
KURZE ZUSAMMENFASSUNG
Verschiedene Aspekte der vorliegenden Erfindung sind darauf gerichtet eine Piktogrammerkennungsvorrichtung, ein Piktogrammerkennungssystem und ein Piktogrammerkennungsverfahren zur Verfügung zu stellen, welche genau ein Piktogramm erkennen können und einfach und schnell Nutzer mit Information betreffend das erkannte Piktogramm versehen können.
Zusätzliche Aspekte der Erfindung werden zum Teil in der folgenden Beschreibung offenbart und sind zum Teil offensichtlich aus der Beschreibung oder können bei Anwendung der Erfindung gelernt werden.
Gemäß einem Aspekt der vorliegenden Erfindung kann ein Verfahren zum Erkennen eines Piktogramms das Erlangen von Lerndaten, das Erlangen eines Bildes umfassend ein Piktogramm, das Extrahieren von zumindest einer Zone aus dem Bild, das Erlangen/Aquirieren eines Deskriptors entsprechend der zumindest einen Zone, das Erkennen eines Piktogramms durch Vergleichen des Deskriptors mit den Lerndaten und das zur Verfügung stellen von Informationen an einen Nutzer gemäß dem erkannten Piktogramm, umfassen.
Das Extrahieren der zumindest einen Zone aus dem Bild kann das Herstellen eines Fensters in dem Bild, das Erfassen einer Zone, die durch das Fenster unterteilt wird, und folglich das Extrahieren der zumindest einen Zone und das Bewegen des Fensters umfassen.
Das Extrahieren der zumindest einen Zone aus dem Bild kann das Akquirieren/Erlangen einer Bildpyramide aus dem Bild und das Extrahieren zumindest einer Zone aus jeder Zone der Bildpyramide umfassen.
Das Akquirieren des Deskriptors entsprechend der zumindest einen Zone kann das Akquirieren eines Histogramms ausgerichteter Gradienten (histogram of oriented gradients; HOG) betreffend zumindest eine Zelle, die die zumindest eine Zone ausbildet und das Akquirieren eines Deskriptors betreffend die zumindest eine Zelle verwendend ein Histogramm ausgerichteter Gradienten (HOG) betreffend die zumindest eine Zelle umfassen. Das Akquirieren des Deskriptors entsprechend der zumindest einen Zone kann ferner das Akquirieren eines Deskriptors betreffend die zumindest eine Zone durch Kombinieren des HOG (histogram of oriented gradient) betreffend zumindest eine Zelle umfassen.
Das Erkennen des Piktogramms durch Vergleichen des Deskriptors mit den Lerndaten kann das Vergleichen des Deskriptors mit den Lerndaten und das Erfassen eines Deskriptors, der identisch oder ähnlich zu dem Deskriptor ist, umfassen.
Das Erkennen des Piktogramms durch Vergleichen des Deskriptors mit den Lerndaten kann das Gruppieren eines Deskriptors, der identisch oder ähnlich zu den Lerndaten ist, aus einer Vielzahl der Deskriptoren, die aus der zumindest einen Zone in eine einzelne Gruppe extrahiert werden, das Ermitteln, ob die Deskriptoren, die in der gleiche Gruppe enthalten sind, sich an unterschiedlichen benachbarten, angrenzenden Positionen innerhalb des Bildes befinden und das Ermitteln eines Erfolges oder Versagens der Piktogrammerkennung gemäß dem ermittelten Ergebnis, umfassen.
Das Akquirieren der Lerndaten kann das Akquirieren einer Vielzahl Lerndeskriptoren aus einem Lernbild und das Lokalisieren einer Vielzahl Deskriptoren in einem Hyperraum, das Ermitteln einer Hyperebene, die für die Hyperraumunterteilung gemäß der Verteilung der Vielzahl Lerndeskriptoren erforderlich ist, und das Akquirieren einer Vielzahl Teilräume gemäß der ermittelten Hyperebene umfassen.
Das Lokalisieren der Vielzahl Deskriptoren in dem Hyperraum und das Ermitteln der Hyperebene, die für die Hyperraumteilung gemäß der Verteilung der Vielzahl Lerndeskriptoren erforderlich ist, kann das Ermitteln einer Hyperebene, die ausgebildet ist, um die Hyperraumteilung auf der Basis von zumindest einer spezifischen Information durchzuführen, die anzeigt, ob die Anzahl Lerndeskriptoren, die in der Vielzahl Teilräume umfasst ist, identisch oder ähnlich zueinander ist, und eine relative Größe eines Verhältnisses eines Produktes von zwei Standardabweichungen der Vielzahl Teilräume zu einem Abstand zwischen Durchschnittswerten der entsprechenden Teilräume, umfassen.
Das Erkennen des Piktogramms durch Vergleichen des Deskriptors mit den Lerndaten kann das Erfassens eines Teilraumes aufweisend den Deskriptor aus der Vielzahl Teilräume und das Erfassen von Lerndaten auf der Basis eines Abstandes zwischen dem Deskriptor und einem Lerndeskriptor, der in dem Teilraum umfasst ist, umfassen.
Gemäß einem Aspekt der vorliegenden Erfindung kann eine Vorrichtung zum Erkennen eines Piktogramms einen Bildakquiseabschnitt, der ausgebildet ist, um ein Bild aufweisend ein Piktogramm zu akquirieren, eine Speichereinrichtung, die ausgebildet ist, um Lerndaten zu speichern, einen Prozessor, der ausgebildet ist, um zumindest eine Zone aus dem Bild zu extrahieren, um einen Deskriptor gemäß der zumindest einen Zone zu akquirieren und um das Piktogramm durch Vergleichen des Deskriptors mit den Lerndaten zu erkennen und eine Nutzerschnittstelle (UI), die ausgebildet ist, um einen Nutzer mit Informationen gemäß dem erkannten Piktogramm zu versehen.
Der Prozessor kann ein Fenster in dem Bild herstellen, kann die zumindest eine Zone durch Erfassen einer Zone, die von dem Fenster unterteilt wird, extrahieren und das Fenster bewegen.
Der Prozessor kann eine Bildpyramide aus dem Bild akquirieren und zumindest eine Zone von jedem Bild der Bildpyramide extrahieren.
Der Prozessor kann ein Histogramm ausgerichteter Gradienten (HOG) betreffend zumindest eine Zelle, die die zumindest eine Zone ausbildet, akquirieren und kann einen Deskriptor betreffend die zumindest eine Zelle unter Verwendung des HOG betreffend zumindest eine Zelle akquirieren.
Der Prozessor kann einen Deskriptor betreffend die zumindest eine Zone durch Kombinieren eines Histogramms ausgerichteter Gradienten (HOG) betreffend zumindest eine Zelle akquirieren.
Der Prozessor kann den Deskriptor mit den Lerndaten vergleichen und erfasst einen Deskriptor, der identisch oder ähnlich zu dem Deskriptor ist.
Der Prozessor kann einen identischen oder ähnlichen Deskriptor zu den Lerndaten aus der Vielzahl des Deskriptoren, die aus der zumindest einen Zone extrahiert wurden, in zumindest eine Gruppe gruppieren, kann ermitteln, ob die Deskriptoren, die in der gleichen Gruppe enthalten sind, angrenzend aneinander innerhalb des Bildes angeordnet sind, und kann den Erfolg oder das Versagen der Piktogrammerkennung gemäß dem ermittelten Ergebnis ermitteln.
Der Prozessor kann Lerndaten durch Akquirieren einer Vielzahl Lerndeskriptoren aus einem Lernbild akquirieren.
Der Prozessor kann die Vielzahl Lerndeskriptoren in einem Hyperraum lokalisieren, kann eine Hyperebene, die für eine Hyperraumteilung gemäß der Verteilung einer Vielzahl Deskriptoren erforderlich ist, ermitteln, und kann eine Vielzahl Teilräume gemäß der ermittelten Hyperebene akquirieren.
Der Prozessor kann eine Hyperebene, die ausgebildet ist, um eine Hyperraumteilung auf der Basis von zumindest einer spezifischen Information durchzuführen, die anzeigt, ob die Anzahl Lerndeskriptoren, die in der Vielzahl Teilräume enthalten ist, identisch oder ähnlich zueinander ist, und kann eine relative Größe eines Verhältnisses eines Produktes von zwei Standardabweichungen der Vielzahl Teilräume zu einem Abstand zwischen durchschnittlichen Werten der entsprechenden Teilräume ermitteln.
Der Prozess kann einen Teilraum aufweisend den Deskriptor aus der Vielzahl Teilräume ermitteln und ermittelt Daten auf der Basis eines Abstandes zwischen einem Deskriptor gemäß der zumindest einen Zone und einem Lerndeskriptor, der in dem Teilraum enthalten ist.
Gemäß einem Aspekt der vorliegenden Erfindung kann ein System zum Erkennen eines Piktogramms eine Servervorrichtung und eine Terminalvorrichtung aufweisen, die ausgebildet ist, um mit der Servervorrichtung zu kommunizieren, um ein Bild zu akquirieren aufweisend ein Piktogramm und um einen Nutzer mit Informationen betreffend ein erkanntes Piktogramm zu versehen, wobei zumindest die Servervorrichtung und/oder die Terminalvorrichtung zumindest einen Betrieb zum Extrahieren von zumindest einer Zone aus dem Bild, einen Betrieb zum Akquirieren eines Deskriptors gemäß der zumindest einen Zone, und einen Betrieb zum Durchführen einer Piktogrammerkennung durch Vergleichen des Deskriptors mit Lerndaten durchführt.
Die Verfahren und Vorrichtungen der vorliegenden Erfindung weisen andere Merkmale und Verteile auf, welche aus den beigefügten Zeichnungen, welche hiermit durch Bezugnahme eingeschlossen werden, und der folgenden detaillierten Beschreibung ersichtlich werden und dort offenbart werden, welche beide gemeinsam dazu dienen, um bestimmte Prinzipien der vorliegenden Erfindung zu erklären.
Figurenliste

1 ist ein Konzeptdiagramm, das ein Piktogrammerkennungssystem gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung darstellt.
2 ist ein Blockdiagramm, das ein Piktogrammerkennungssystem gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung darstellt.
3 ist ein erstes Flussdiagramm, das ein Beispiel des Piktogrammerkennungsverfahrens gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung darstellt.
4 ist ein zweites Flussdiagramm, das ein Beispiel des Piktogrammerkennungsverfahrens darstellt.
5 ist ein Konzeptdiagramm, das eine Bewegung eines Fensters darstellt.
6 ist eine zweite Zeichnung, die eine Bewegung des Fensters darstellt.
7 ist eine dritte Zeichnung, die eine Bewegung des Fensters darstellt.
8 ist eine Ansicht, die eine Zone darstellt, die in eine Vielzahl Zellen unterteilt ist.
9 ist eine Ansicht, die einen Gradienten von jeder Zelle darstellt.
10 ist eine erste Zeichnung, die ein Beispiel des HOG gemäß jeder Zelle darstellt.
11 ist eine Ansicht, die ein Beispiel eines HOG innerhalb der Zone darstellt.
12 ist eine zweite Zeichnung, die ein Beispiel des HOG gemäß jeder Zelle darstellt.
13 ist eine Ansicht, die ein erstes Beispiel zum Teilen des Hyperraums in eine Vielzahl Hyperebenen darstellt.
14 ist eine Ansicht, die ein zweites Beispiel zum Teilen des Hyperraums in eine Vielzahl Hyperebenen darstellt.
15 ist eine Ansicht, die ein drittes Beispiel zum Teilen des Hyperraums in eine Vielzahl Hyperebenen darstellt.
16 ist ein zweites Flussdiagramm, das ein Beispiel des Piktogrammerfassungsverfahrens darstellt.
17 ist eine Ansicht, die ein Beispiel der Bildpyramide darstellt.
18 ist ein Konzeptdiagramm, das ein Beispiel der Bewegung des Fensters an einem ersten Bild darstellt.
19 ist ein Konzeptdiagramm, das ein Beispiel der Bewegung des Fensters an einem zweiten Bild darstellt.
20 ist ein Konzeptdiagramm, das ein Beispiel des HOG, das aus dem ersten Bild akquiriert wurde, darstellt.
21 ist ein Konzeptdiagramm, das ein Beispiel des Deskriptors, der an einer Hyperebene angeordnet ist, darstellt.
22 ist ein Konzeptdiagramm, das den Vorgang zum Suchen nach dem Deskriptor darstellt.
23 ist eine Ansicht, die ein Beispiel darstellt, in dem eine detaillierte Beschreibung des Piktogramms an der Piktogrammerkennungsvorrichtung dargestellt wird.

Es muss verstanden werden, dass die beigefügten Zeichnungen nicht notwendigerweise maßstabsgetreu sind, eine zu einem gewissen Grade vereinfachte Wiedergabe verschiedener Merkmale darstellen, die beispielhaft für die Grundprinzipien der Erfindung sind. Die spezifischen Gestaltungsmerkmale der vorliegenden Erfindung, sowie sie hier offenbart ist, umfassend beispielsweise spezifische Abmessungen, Ausrichtungen, Orte und Formen, ergeben sich zum Teil durch die speziell gedachte Anwendungs- und Verwendungsumgebung.
In den Figuren bezeichnen Bezugszeichen die gleichen oder äquivalenten Teile der vorliegenden Erfindung über die mehreren Figuren hinweg.
DETAILLIERTE BESCHREIBUNG
Eine Bezugnahme erfolgt nun im Detail auf verschiedene Ausführungsformen der vorliegenden Erfindung(en) von der Beispiele in den beigefügten Zeichnungen dargestellt sind und im Folgenden beschrieben werden. Während die Erfindung(en) in Verbindung mit beispielhaften Ausführungsformen beschrieben wird, muss verstanden werden, dass die vorliegende Beschreibung nicht dazu gedacht ist, um die Erfindung(en) auf die beispielhaften Ausführungsformen einzuschränken. Im Gegenteil ist/sind die Erfindung(en) dazu gedacht, um nicht nur die beispielhaften Ausführungsformen abzudecken, sondern auch verschiedene Alternativen, Modifikationen, Äquivalente und andere Ausführungsformen, die in dem Geiste und Schutzumfang der Erfindung, sowie er durch die beigefügten Ansprüche festgelegt wird, umfasst sind.
Eine Piktogrammerkennungsvorrichtung, ein Piktogrammerkennungssystem und ein Piktogrammerkennungsverfahren gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung werden im Folgenden unter Bezugnahme auf 1 und 2 beschrieben.
1 ist ein Konzeptdiagramm, das ein Piktogrammerkennungssystem gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung zeigt, und 2 ist ein Blockdiagramm, das ein Piktogrammerkennungssystem gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung zeigt.
Bezugnehmend auf 1 kann das Piktogrammerkennungssystem 1 eine Piktogrammerkennungsvorrichtung 100, die Bilder aufnehmen und erhalten kann, umfassend ein Piktogramm 10, umfassen.
Das Piktogramm 10 kann ein Bild bezeichnen, das unter Verwendung von zumindest einem Symbol, einem Buchstaben und einer Figur wiedergegeben wird. Beispielsweise kann das Piktogramm 10 an verschiedene Einrichtungen oder Zeichen befestigt sein oder darauf gedruckt sein oder es kann auf verschiedene Einrichtungen oder Zeichen eingraviert oder geprägt sein. Im vorliegenden Fall kann das Piktogramm 10 auf die Oberfläche gedruckt sein oder dort befestigt sein, aus Glas oder Kunstharz ausgebildet sein oder aus beleuchteten Abschnitten von verschiedenen Einrichtungen ausgebildet sein. Ferner kann das Piktogramm 10 auf Anzeigeeinrichtungen umfassend ein Smartphone, eine Navigationseinrichtung, einen Fernseher (TV), zur Nutzererkennung angezeigt werden. Weiterhin kann das Piktogramm 10 auf verschiedenen Einrichtungen oder Zeichen unter Verwendung verschiedener Verfahren angezeigt werden, die ausgebildet sind um von einem Systemgestalter berücksichtigt zu werden. Detaillierter ausgedrückt kann das Piktogramm 10 auf den externen Oberflächen von verschiedenen Knöpfen eines zentralen Armaturenbretts (oder einer zentralen Konsole) des Fahrzeuges 9 ausgebildet sein oder kann auf der Instrumentenanzeige, wenn notwendig, dargestellt werden.
Das Piktogramm 10 kann auf einigen Abschnitten des Fahrzeuges 9 ausgebildet sein, beispielsweise einem Instrumentenpaneel, einem Armaturenbrett, einem Lenkrad oder einer Navigationseinrichtung, unter Verwendung der oben erwähnten Verfahren.
Das Fahrzeug ist eine Maschine, welche auf Fahrbahnen oder Schienen fährt, um Leute, Objekte oder Tiere von Ort zu Ort zu transportieren. Solche Fahrzeuge können beispielsweise dreirädrige oder vierrädrige Fahrzeuge, ein zweirädriges Fahrzeug, umfassend ein Motorrad, ein motorisiertes Fahrrad, Baufahrzeuge, ein Fahrrad, einen Zug, der sich auf Schienen fortbewegt, und dergleichen umfassen.
Das Fahrzeug 9 kann ein allgemeines Fahrzeug zum Umwandeln thermischer Energie, die durch Verbrennung fossiler Brennstoffe umfassend Benzin oder Diesel erhalten wird, in mechanische Energie, um Leistung zu erhalten, oder kann ein elektrisches Fahrzeug, umfassen, welches die Leistung, die zum Rotieren der Fahrzeugräder notwendig ist, unter Verwendung elektrischer Energie erhält.
Die Piktogrammerkennungsvorrichtung 100 kann das Piktogramm 10 erfassen oder kann das Piktogramm 10 und einen Umgebungsbereich davon erfassen, um Bilddaten zu akquirieren und kann das Piktogramm 10 aus den akquirierten Bilddaten erkennen.
Beispielsweise kann die Piktogrammerkennungsvorrichtung 100 ein Smartphone, ein Mobiltelefon, einen Tablet-PC, eine Navigationseinrichtung, einen Desktopcomputer, einen Laptop, oder ein Wearable umfassen. Abgesehen davon können verschiedene Einrichtungen, die ausgebildet sind, um eine Bilderfassung und eine Bildverarbeitung durchzuführen, als die Piktogrammerkennungsvorrichtung 100 verwendet werden.
Das Piktogramm 10 kann geeignet durch eine allgemeine Bilderkennungstechnologie basierend auf charakteristischen Punkten erkannt werden, da das Piktogramm 10 eine geringe Anzahl charakteristischer Punkte umfasst. Die charakteristischen Punkte können auch geeigneter Weise nur aus speziell skalierten Bildern erfasst werden. Zusätzlich können Deskriptoren, die von unterschiedlichen Piktogrammen erhalten werden, identisch zueinander sein, wobei die Verteilungsleistung für unterschiedliche Piktogramme 10 reduziert werden kann.
Daher kann die Piktogrammerkennungsvorrichtung 100 ein Histogramm ausgerichteter Gradienten (HOG) aus einer Vielzahl Zonen akquirieren, die in dem Bild enthalten sind, um Deskriptoren zu akquirieren und kann Eigenschaften der Deskriptoren analysieren, die im Raum verteilt sind, um genau das Piktogramm 10 zu erkennen. Eine detaillierte Beschreibung wird im Folgenden erfolgen.
Bezugnehmend auf 2 kann die Piktogrammerkennungsvorrichtung 100 einen Prozessor 110, eine Speichereinrichtung 130, einen Bildakquiseabschnitt (Bilderfasser) 140, und eine Nutzerschnittstelle (UI) 150 umfassen. Wenn notwendig kann die Piktogrammerkennungsvorrichtung 100 ferner einen Kommunikationsabschnitt 120 umfassen.
Der Prozessor 110 kann den Gesamtbetrieb der Piktogrammerkennungsvorrichtung 100 steuern. Beispielsweise kann der Prozessor 110 Lerndaten 131 unter Verwendung des Bildes, das von dem Bildakquiseabschnitt 140 akquiriert wurde, erzeugen und kann die erzeugten Lerndaten 131 in der Speichereinrichtung 130 speichern. Der Prozessor 110 kann das Piktogramm 10 aus dem Bild extrahieren, das von dem Bildakquiseabschnitt 140 akquiriert wurde, oder kann Informationen betreffend das Piktogramm 10 ermitteln. Zusätzlich kann der Prozessor 110 die Nutzerschnittstelle (UI) 150 steuern, um den Nutzer mit Informationen betreffend das extrahierte Piktogramm 10 zu versehen.
In dem vorliegenden Fall können die Lerndaten 131 den akquirierten Deskriptor, sowie er im Folgenden beschrieben wird, umfassen.
Der Prozessor 110 kann den oben beschriebenen Betrieb mit einem vorgeschriebenen Programm durchführen. In dem vorliegenden Fall kann das Programm in der Speichereinrichtung 130 gespeichert sein. Das Programm kann ein Applikationsprogramm umfassen, das von einem separaten Programmprovisierungsserver zur Verfügung gestellt wird. Die Piktogrammerkennungsvorrichtung 100 kann direkt das Applikationsprogramm von dem Programmprovisionierungsserver durch den Kommunikationsabschnitt 120 empfangen oder kann ein Installationsprogramm des Applikationsprogramms empfangen.
Beispielsweise kann der Prozessor 110 unter Verwendung einer zentralen Verarbeitungseinheit (CPU) oder einer Mikrocontrollereinheit (MCU) implementiert werden oder kann unter Verwendung einer elektrischen Steuereinheit/Motorsteuergerät (ECU) implementiert werden.
Die Speichereinrichtung 130 kann ausgebildet sein, um temporär oder nicht temporär verschiedene Arten von Informationen zu speichern, die notwendig sind, um den Prozessor 110 zu betreiben.
Die Speichereinrichtung 110 kann eine Hauptspeichereinrichtung und/oder eine Hilfsspeichereinrichtung umfassen. Die Hauptspeichereinrichtung kann implementiert sein als Halbleiterspeichermedium umfassend einen Arbeitsspeicher (RAM) oder einen Festwertspeicher (ROM). Beispielsweise kann das ROM einen löschbaren, programmierbaren Festwertspeicher (EPROM), einen elektronisch löschbaren programmierbaren Festwertspeicher (EEPROM), einen Masken-ROM (MROM), etc. umfassen. Beispielsweise kann der RAM einen dynamisch zufällig adressierbaren Arbeitsspeicher (RAM), einen statischen Arbeitsspeicher (SRAM), etc. umfassen. Die Hilfsspeichereinrichtung kann unter Verwendung eines Solid State Drives (SSD) implementiert sein, um Informationen betreffend einen Halbleiter zu speichern, kann als Hard Disk Drive (HDD) implementiert sein, um Informationen betreffend eine Magnetscheibe zu speichern oder kann als verschiedene Arten von Speichermedium implementiert sein, beispielsweise als Kompaktdisk (CD), Laserdisk, Magnettape, magnetooptische Disk, Floppydisk, etc.
Gemäß einer Ausführungsform kann die Speichereinrichtung 130 Lerndaten 131 und Piktogramminformationen 139 speichern.
Die Lerndaten 131 können Daten bezeichnen, die vorab aus zumindest einer der Piktogrammerkennungsvorrichtungen 100 und der Servervorrichtung 200 akquiriert wurden, um das Piktogramm 10 zu erkennen. Die Lerndaten können mit Daten verglichen werden, die von dem Bild extrahiert wurden, das von dem Bildakquiseabschnitt 140 akquiriert wurde.
Die Lerndaten 131 können von dem Prozessor 110 der Piktogrammerkennungsvorrichtung 100 akquiriert werden oder können von dem Prozessor 210 der Servervorrichtung 200 akquiriert werden. Alternativ können die Lerndaten 131 akquiriert werden, wenn der Prozessor 110 der Piktogrammerkennungsvorrichtung 100 und der Prozessor 210 der Servervorrichtung 200 jeweils zugeordnete Vorgänge durchführen. Wenn die Lerndaten 131 schließlich von dem Prozessor 210 der Servervorrichtung 200 akquiriert wurden, können die Lerndaten 131 temporär oder nicht temporär in der Speichereinrichtung 130 gespeichert werden, nachdem sie von der Servervorrichtung 200 zu der Piktogrammerkennungsvorrichtung 100 über die Kommunikationsabschnitt 120 und 220 übertragen wurden. Eine detaillierte Beschreibung von Lerndaten 131 erfolgt im Folgenden.
Die Piktogramminformation 139 kann Informationen umfassen betreffend das erfasste Piktogramm 10. Beispielsweise kann die Piktogramminformation 139 spezifische Informationen umfassen, die anzeigen, welcher Betrieb/Vorgang oder Zustand mit dem Piktogramm 10 assoziiert wird, umfassend spezifische Symbole, Buchstaben und/oder Figuren. Genauer gesagt kann die Piktogramminformation 139 Informationen umfassen, die anzeigen, dass ein dreieckiges Piktogramm 10 einen Abspielknopf anzeigt oder andere Informationen, die anzeigen, dass Musik oder ein Bild wiedergegeben werden können, wenn der Abspielknopf gedrückt oder berührt wird.
Die Piktogramminformation 139 kann unter Verwendung von zumindest einem der Symbole, Buchstaben, Figuren, Zahlen, Standbildern, oder pausierten Bildern, bewegten Bildern und verschiedenen Arten von Informationen implementiert werden, die ausgebildet sind, um von anderen Designern berücksichtigt zu werden.
Die Piktogramminformation 139 kann eine Vielzahl Informationsteile gemäß den entsprechenden Piktogrammen 10 umfassen.
Die Piktogramminformation 139, die in der Speichereinrichtung 130 gespeichert ist, kann von einem Nutzer eingegeben werden oder kann zusätzlich von einem Designer eingegeben werden. Zusätzlich kann die Piktogramminformation 139 auch von dem Informationprovisionierungsserver empfangen werden, der zusätzlich zur Verfügung gestellt wird.
Wenn der Prozessor 110 das Piktogramm 10 aus dem Bild extrahiert, kann Information betreffend das extrahierte Piktogramm 10 an den Prozessor 110 als Antwort auf einen Steuerbefehl des Prozessors 110 übertragen werden. Die extrahierte Information kann dem Nutzer durch die Nutzerschnittstelle (UI) 150 zur Verfügung gestellt werden.
Gemäß einer weiteren beispielhaften Ausführungsform kann die Speichereinrichtung 130 die Lerndaten 131 und/oder die Piktogramminformation 139 nicht speichern, wenn notwendig. In dem vorliegenden Fall kann die Speichereinrichtung 230 der Servervorrichtung 200 zumindest eines aus den Lerndaten 231 und der Piktogramminformation 239 speichern. Zumindest eines aus den Lerndaten 231 und der Piktogramminformation 239, die in der Speichereinrichtung 230 gespeichert ist, kann der Piktogrammerkennungsvorrichtung 100 über die Kommunikationsabschnitte 120 und 220 zur Verfügung gestellt werden.
Der Bildakquiseabschnitt 140 kann sichtbares Licht empfangen, das von einem externen Abschnitt einfällt und kann Bilddaten durch Umwandeln des empfangenen sichtbaren Lichts in ein elektrisches Signal akquirieren. Die akquirierten Bilddaten können an den Prozessor 110 und/oder die Nutzerschnittstelle (UI) 150 übertragen werden.
Gemäß einer Ausführungsform kann der Bildakquiseabschnitt 140 Bilddaten akquirieren umfassend das Piktogramm 10. In dem vorliegenden Fall können die Bilddaten nicht nur das Piktogramm 10 sondern auch andere Informationen betreffend den Umgebungsbereich des Piktogramms 10 umfassen.
Der Bildakquiseabschnitt 140 kann das Piktogramm 10 gemäß der Nutzermanipulation erfassen oder kann das Piktogramm 10 nach dem Empfang eines Steuersignals von dem Prozessor 110 gemäß der vordefinierten eingestellten Information erfassen, wobei der Bildakquiseabschnitt 140 Bilddaten umfassend das Piktogramm 10 akquirieren kann und er kann die akquirierten Bilddaten ausgeben.
Beispielsweise kann der Bildakquiseabschnitt 140 Bilder eines Umfangsbereichs eines sich bewegenden Objekts 1 unter Verwendung von beispielsweise elektromagnetischen Wellen aufnehmen. In dem vorliegenden Fall können die elektromagnetischen Wellen sichtbares Licht, Infrarotlicht, ultraviolettes Licht, Radiowellen, Röntgenstrahlen, Gammastrahlen, Mikrowellen oder vorgegebenen elektromagnetische Wellen (beispielsweise extrem niederfrequente elektromagnetische Wellen (ELF)), die zum Akquirieren von Informationen betreffend den Umfangsbereich des sich bewegenden Objekts 1 verwendet werden, umfassen.
Beispielsweise kann der Bildakquiseabschnitt 140 unter Verwendung einer Bilderfassungseinrichtung umfassend eine gewöhnlichen Kamera umgesetzt werden. In dem vorliegenden Fall kann die Bilderfassungseinrichtung Bilddaten unter Verwendung verschiedener Bilderfassungsmedien umfassend eine Ladungsträger gekoppelte Schaltung (charged coupled device; CCD) oder einen komplementären Metalloxidhalbleiter (complementary metal-oxide semiconductor; CMOS) akquirieren.
Die Nutzerschnittstelle (UI) 150 kann verschiedene Befehle oder Daten von dem Nutzer empfangen oder kann sichtbar sein oder hörbar verschiedene Arten von Informationen an den Nutzer übertragen.
Die Nutzerschnittstelle (UI) 150 kann zumindest ein Display 151 und einen Lautsprecherabschnitt 159 umfassen.
Das Display 151 kann sichtbar verschiedene Arten von Informationen betreffend den Betrieb der Piktogrammerkennungsvorrichtung 100 zur Verfügung stellen. Beispielsweise kann das Display 151 Informationen anzeigen betreffend das Piktogramm 10, das von dem Prozessor 110 erkannt wurde. Beispielsweise kann das vordefinierte Verfahren ein Popup-Fenster umfassen.
Das Display 150 kann durch verschiedene Arten von Displaypaneelen implementiert sein, beispielsweise eine Kathodenstrahlröhre (CRT), eine Flüssigkeitskristallanzeige (LCD), ein Licht aussendendes Diodenpaneel (LED) oder ein organisches, Licht aussendendes Diodenpaneel (OLED) oder dergleichen.
Der Lautsprecherabschnitt 159 kann hörbar verschiedene Arten von Information in Bezug auf den Betrieb der Piktogrammerkennungsvorrichtung 100 zur Verfügung stellen. Beispielsweise kann der Lautsprecherabschnitt 159 Stimmen oder Geräuschdaten in Bezug auf Informationen betreffend das Piktogramm 10, das von dem Prozessor 110 erkannt wurde, zur Verfügung stellen und kann dem Nutzer Sprach- oder Geräuschdaten zur Verfügung stellen.
Der Lautsprecherabschnitt 159 kann unter Verwendung eines vorgegebenen Lautsprechers implementiert werden.
Der Kommunikationsabschnitt 120 kann es der Piktogrammerkennungsvorrichtung 100 gestatten mit einer externen Einrichtung zu kommunizieren, beispielsweise der Servervorrichtung oder dem Piktogrammprovisionierungsserver.
Durch den Kommunikationsabschnitt 120 kann die Piktogrammerkennungsvorrichtung 100 die Lerndaten 231 und/oder die Piktogramminformation 239 von der Servervorrichtung 200 empfangen und kann das Bild, das von dem Bildakquiseabschnitt 140, das Piktogramm 10, das aus dem Bild erfasst wurde, die Lerndaten 131, die von dem Prozessor 110 akquiriert wurden, und/oder die Piktogramminformation 139, die in der Speichereinrichtung 130 gespeichert wurde, an die Servervorrichtung 200 übertragen.
Beispielsweise kann der Kommunikationsabschnitt 120 konfiguriert sein, um mit dem externen Kommunikationsabschnitt 220 unter Verwendung von zumindest einem kabelgebundenen Kommunikationsnetzwerk und/oder einem kabellosen Kommunikationsnetzwerk zu kommunizieren. Hier kann das kabelgebundene Kommunikationsnetzwerk unter Verwendung verschiedener Kabel implementiert sein, beispielsweise eine Zweidrahtleitung, ein Koaxialkabel, ein optisches Faserkabel oder ein Netzwerkkabel. Das kabellose Kommunikationsnetzwerk kann unter Verwendung von zumindest einer Nahfunkkommunikationstechnologie und einer Weitbereichsfunktechnologie umgesetzt sein. Die Nahfunkkommunikationstechnologie kann implementiert werden unter Verwendung von Wi-Fi, ZigBee, Bluetooth, Wi-Fi Direct (WFD), Bluetooth Low Energy (BLE), Nahfeldkommunikation (Near Field Communication; NFC) oder dergleichen. Die Weitbereichsfunktechnologie kann implementiert sein unter Verwendung von verschiedenen Kommunikationstechnologien basierend auf verschiedenen mobilen Kommunikationsprotokollen, beispielsweise 3GPP, 3GPP2, World Interoperability for Microwave Access (WiMAX), etc.
Gemäß einer Ausführungsform kann das Piktogrammerkennungssystem 1 ferner die Servervorrichtung 200, wie in 1 und 2 gezeigt, umfassen. Die Servervorrichtung 200 kann gemäß einer Auswahl des Gestalters weggelassen werden.
Die Servervorrichtung 200 kann einen Prozessor 210, einen Kommunikationsabschnitt 220 und eine Speichereinrichtung 230, wie in 2 gezeigt, umfassen.
Der Prozessor 210 kann den Gesamtbetrieb der Servervorrichtung 200 steuern. Wenn notwendig kann der Prozessor 210 alle oder einige der Betriebe zum Akquirieren der Lerndaten 131 und 231, den Betrieb zum Erkennen des Piktogramms 10 und den Betrieb zum Entscheiden über Informationen gemäß dem Piktogramm 10 durchführen. Der Prozessor 210 kann unter Verwendung einer zentralen Verarbeitungseinheit (CPU), einer Mikrocontrollereinheit (MCU) oder einer elektronischen Steuereinheit (ECU) implementiert werden.
Der Kommunikationsabschnitt 220 kann es externen Einrichtungen, beispielsweise der Piktogrammerkennungsvorrichtung 100 und der Servervorrichtung 200, gestatten miteinander zu kommunizieren. Beispielsweise kann der Kommunikationsabschnitt 200 die Lerndaten 131 oder die Piktogramminformation 139 von der Piktogrammerkennungsvorrichtung 100 empfangen oder kann die Piktogrammlerndaten 231 und die Piktogramminformation 239 an die Piktogrammerkennungsvorrichtung 100 übertragen.
Die Speichereinrichtung 230 kann temporär oder nicht temporär verschiedene Arten von Informationen speichern, die benötigt werden, um den Prozessor 210 zu betreiben, der in der Servervorrichtung 200 vorhanden ist. Die Speichereinrichtung 230 kann unter Verwendung von zumindest einem von verschiedenen Speichermedien implementiert werden.
Gemäß einer Ausführungsform kann die Speichereinrichtung 230 Lerndaten 231 und/oder die Piktogramminformation 239 speichern. Die Lerndaten 231 und/oder die Piktogramminformation 239 können von dem Prozessor 110 der Piktogrammerkennungsvorrichtung 100 akquiriert werden oder können von dem Prozessor 210 der Servervorrichtung 200 akquiriert werden.
Gemäß einer Ausführungsform kann die Servervorrichtung 200 unter Verwendung einer Computereinrichtung implementiert werden, die als ein Server zur Verfügung gestellt wird.
Gemäß einer weiteren beispielhaften Ausführungsform kann die Servervorrichtung 200 auch unter Verwendung anderer Einrichtungen implementiert werden, die ausgebildet sind, um eine Kommunikation und Bildverarbeitung durchzuführen. Beispielsweise kann die Servervorrichtung 200 auch unter Verwendung des Fahrzeuges 9 implementiert werden, indem ein Kommunikationsmodul und eine elektronische Steuereinheit (ECU) vorgesehen sind, soweit notwendig.
Ein Beispiel des Piktogrammerkennungsverfahrens wird im Folgenden unter Bezugnahme auf 3 bis 23 beschrieben.
3 ist ein erstes Flussdiagramm, das ein Beispiel des Piktogrammerkennungsverfahrens gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung darstellt.
Bezugnehmend auf 3 kann das Piktogrammerkennungsverfahren gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung einen Prozess 300 zum Akquirieren der Lerndaten, einen Prozess 400 zum Akquirieren eines Bildes betreffend das Piktogramm, einen Prozess 500 zum Erkennen des Piktogramms unter Verwendung der Lerndaten und einen Prozess 600 zum Anzeigen von Information betreffend das erkannte Piktogramm umfassen.
Der Prozess 300 zum Akquirieren der Lerndaten und der Prozess 500 zum Erkennen des Piktogramms unter Verwendung der Lerndaten kann von dem Prozessor 110 der Piktogrammerkennungsvorrichtung 100 und/oder dem Prozessor 210 der Servervorrichtung 200 durchgeführt werden.
In dem vorliegenden Fall können alle Prozesse des Prozesses 300 zum Akquirieren der Lerndaten von dem Prozessor 110 der Piktogrammerkennungsvorrichtung 100 und/oder dem Prozessor 210 der Servervorrichtung 200 durchgeführt werden. Alle Prozesse des Prozesses 500 zum Erkennen des Piktogramms unter Verwendung der Lerndaten können von dem anderen aus dem Prozessor 110 der Piktogrammerkennungsvorrichtung 100 und dem Prozessor 210 der Servervorrichtung 200 ausgeführt werden. Zusätzlich können einige Prozesse des Prozesses 300 zum Akquirieren der Lerndaten oder einige Prozesses des Prozesses 500 zum Erkennen des Piktogramms unter Verwendung der Lerndaten von dem Prozessor 110 der Piktogrammerkennungsvorrichtung 100 durchgeführt werden und einige Prozesse des Prozesses 500 können von dem Prozessor 210 der Servervorrichtung 200, soweit notwendig, durchgeführt werden.
Beispielsweise kann der Prozess 400 zum Akquirieren des Bildes betreffend das Piktogramm von dem Bildakquiseabschnitt 140 der Piktogrammerkennungsvorrichtung 100 durchgeführt werden.
Der Prozess 600 zum Anzeigen von Information entsprechend dem erkannten Piktogramm kann von der Nutzerschnittstelle (UI) 150 beim Empfang eines Steuersignals von dem Prozessor 110 der Piktogrammerkennungsvorrichtung 100 durchgeführt werden.
Die oben erwähnten Prozesse 300 bis 600 werden im Folgenden beschrieben.
Bei dem Prozess 300 zum Akquirieren der Lerndaten können die Lerndaten 131, die zum Extrahieren des Piktogramms 10 aus dem akquirierten Bild verwendet werden, erhalten werden.
4 ist ein zweites Flussdiagramm, das ein Beispiel des Piktogrammerkennungsverfahrens darstellt, und 5 ist ein konzeptuelles Diagramm, das eine Bewegung eines Fensters darstellt. In 5 wird die Richtung der Zeichnung im Folgenden als die Richtung eines Lernbildes 20 festgelegt.
Bezugnehmend auf 4 und 5 wird zumindest ein Lernbild 20 zunächst akquiriert, um die Lerndaten (310) zu akquirieren. Jedes von dem zumindest einen Lernbild 20 kann zumindest ein Piktogramm 21 umfassen, und die Piktogramme 21 von einem oder mehreren Lernbildern 20 können sich voneinander unterscheiden.
Das Lernbild 20 kann in dem Bildakquiseabschnitt 140 der Piktogrammerkennungsvorrichtung 100 durchgeführt werden oder kann von einer weiteren Einrichtung durchgeführt werden, die getrennt in der Piktogrammerkennungsvorrichtung 100 vorgesehen ist. Die separate Einrichtung kann einen Computer, der ausgebildet ist, um das Lernbild 20 zu akquirieren, eine Kamera, oder ein mobiles Gerät umfassend ein Smartphone, umfassen.
Falls notwendig, wenn das Lernbild 20 akquiriert wird, können einige Bilder ferner aus dem Lernbild 20 akquiriert werden. Beispielsweise kann eine Bildpyramide betreffend das Lernbild 20 ferner akquiriert werden. Die Bildpyramide kann eine Vielzahl Bilder umfassend, die sich im Maßstab von dem Lernbild 20 unterscheiden. Die Bildpyramide wird im Folgenden im Detail beschrieben.
6 ist eine zweite Zeichnung, die eine Bewegung des Fensters darstellt, und 7 ist eine dritte Zeichnung, die eine Bewegung des Fensters darstellt.
Wenn das Lernbild 20 akquiriert wird, kann zumindest eine Zone aus dem Lernbild 20 (320) extrahiert werden. Der Extraktionsprozess 320 von zumindest einer Zone kann durch Festlegen einer Vielzahl Fenster 30 (30-1, 30-2,..., 30-N) an unterschiedlichen Positionen durchgeführt werden.
Gemäß einer Ausführungsform kann der Extraktionsprozess 320 von zumindest einer Zone gemäß einem sich verschiebenden Fensterschema durchgeführt werden.
Gemäß dem sich verschiebenden Fensterschema, wie in 5 bis 7 gezeigt, kann zumindest ein Fenster 30 festgelegt werden, um das Lernbild 20 zu überlappen und zumindest eine Zone 22 kann gemäß einem Abschnitt von zumindest einem Fenster 30 festgelegt werden.
Detaillierter ausgedrückt, wie in 5 gezeigt, kann das Fenster 30-1 als einige Abschnitte (beispielsweise eine linke obere Grenze) des Lernbildes 20 festgelegt werden und eine Zone 22-1, die in dem festgelegten Fenster 30-1 enthalten ist, kann für eine Bilderkennung festgelegt werden.
Im Folgenden, wie in 6 gezeigt, kann das Fenster 30-2 in eine vorgegebene Richtung versetzt werden (beispielsweise die rechte Richtung m1) und die Zone 22-2, die der versetzten Position entspricht, kann als eine Bilderkennung festgelegt werden. Die Bewegungsdistanz des Fensters 30-1 kann zufällig gemäß einer Gestalterauswahl festgelegt werden, beispielsweise kann das Fenster 30-2 so versetzt sein, dass die meisten Zonen 22-2, die von dem versetzen Fenster 30-2 unterteilt werden, die Zone 22-1 überlappen können, die von einem vorangegangenen Fenster 30-1 unterteilt wurde, welches als Vorbewegungsfenster wirkt. Alternativ kann das Fenster 30-1 auch so versetzt werden, dass die Zone 22-2, die von dem versetzten Fenster 30-2 unterteilt wurde, die Zone 22-1 nicht überlappt, die von dem Vorbewegungsfenster 30-1 unterteilt wurde.
Die Fenster 30 (30-1, 30-2,..., 30-N) können der Reihe nach versetzt werden, wodurch mehrere Zonen 22 (22-1, 22-2,..., 22-N), die in dem Lernbild 20 umfasst sind, festgelegt werden. Wie in 7 gezeigt, kann das Fenster 30-N kontinuierlich versetzt werden, bis es ein vorgegebenes Ziel erreicht (beispielsweise eine rechte untere Grenze des Lernbildes 20).
Eine Bewegung des Fensters 30 kann in einem Zickzackmuster erreicht werden, wie in 7 gezeigt. Das heißt, das Fenster 30 kann sich von einer linken oberen Grenze hin zu der rechten Richtung bewegen, kann sich von einer rechten oberen Grenzen zu einer unteren Richtung bewegen, kann sich zu der rechten Richtung bewegen, kann sich von einer linken Grenze zu der unteren Richtung bewegen, und kann sich erneut zu der rechten Richtung bewegen, wobei das Fenster 30 sich zu dem Ziel bewegen kann, indem die oben erwähnten Bewegungsaktionen wiederholt werden.
Gemäß einer weiteren beispielhaften Ausführungsform kann das Fenster 30 sich zu der rechten Richtung in dem Bereich von linken Grenze bis hin zu der rechten Grenze bewegen und kann sich zu der rechten Richtung in dem Bereich von der Grenze, die gerade unterhalb der linken Grenze angeordnet ist, zu der anderen Grenze, die gerade unterhalb der rechten Grenze angeordnet ist, bewegen, wobei das Fenster 30 sich zu dem Ziel bewegen kann, indem die oben erwähnten Bewegungsaktionen wiederholt werden.
Darüber hinaus kann das Fenster 30 auf verschiedene Arten beweglich sein, die ausgewählt wurden, um von dem Gestalter berücksichtigt zu werden.
Wenn einige Zonen 22 (22-1, 22-2,..., 22-N) von den Fenstern 30 (30-1, 30-2,..., 30-N) erhalten werden, kann ein Histogramm eines ausgerichteten Gradienten (HOG) für jede Zone 22 (22-1, 22-2,..., 22-N) akquiriert werden (330), wobei der Deskriptor (340) akquiriert werden kann.
Wenn irgendeine Zone 22 (22-1, 22-2,..., 22-N) festgelegt wird, können der HOG Akquisevorgang 330 und der Deskriptorakquisevorgang 340 durchgeführt werden, sobald irgendeine Zone 22 (22-1, 22-2,..., 22-N) festgelegt wird oder kann nach dem Verstreichen einer vorgegebenen Zeitdauer nach dem Festlegen von irgendeiner Zone 22 (22-1, 22-2,..., 22-N) durchgeführt werden. Alternativ kann der HOG-Akquiseprozess 330 und der Deskriptorakquiseprozess 340 auch nach der Festlegung aller Zonen 22 (22-1, 22-2,..., 22-N) durchgeführt werden.
8 ist eine Ansicht, die eine Zone darstellt, die in eine Vielzahl Zellen unterteilt wurde und 9 ist eine Ansicht, die einen Gradienten von jeder Zelle darstellt. 10 ist eine erste Zeichnung, die ein Beispiel des HOG darstellt, der jeder Zelle entspricht und 11 ist eine Ansicht, die ein Beispiel des HOGs innerhalb der Zone darstellt. In 10 und in 11 kann eine X-Achse eine Richtungskomponente (oder eine Ausrichtungskomponente) eines Bildgradienten bezeichnen und eine Y-Achse kann einen Wert gemäß einer Richtungskomponente des Bildgradienten bezeichnen.
Bezugnehmend auf 8 kann die Zone 22, die von dem Fenster 30 festgelegt wurde, eine Vielzahl Zellen 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) umfassen, die durch Unterteilen der Zone 22 in eine Vielzahl kleinerer Zonen festgelegt wird.
Beispielsweise kann die Vielzahl Zellen 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) in einer Matrixform (beispielsweise, (m × n)-Matrix, wobei „m“ oder „n“ eine natürliche Zahl größer als „0“ ist) konfiguriert werden. In dem vorliegenden Fall können „m“ oder „n“ identisch oder verschieden voneinander sein. Gemäß einer Ausführungsform können „m“ oder „n“ auf 4 eingestellt werden. In anderen Worten kann die Zone 22, die von dem Fenster 30 festgelegt wird, eine Vielzahl Zellen 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn), die in einer (4 × 4)-Matrixform angeordnet sind, umfassen.
Jede der Zellen 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) kann zumindest ein Pixel 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij), wie in 9 gezeigt, umfassen. Die Pixel 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij) können eine minimale Einheit bezeichnen, die ausgebildet ist, um das Bild auszubilden. Die Pixel 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij) können in einer (i × j)-Matrixform konfiguriert sein (wobei „i“ oder „j“ eine natürlich Zahl größer als „0“ ist). In dem vorliegenden Fall können „i“ und „j“ identisch zueinander sein oder können sich voneinander unterscheiden. Gemäß einer Ausführungsform kann „i“ auf 4 festgelegt werden und „j“ kann auf 4 festgelegt werden. In anderen Worten kann die Vielzahl Zellen 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) die Vielzahl Pixel 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij), die in einer (4 × 4)-Matrixform angeordnet ist, umfassen.
Bilddaten können in jedem Pixel 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij) vorhanden sein und Bilddaten von jedem Pixel 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij) können einen Bildgradienten, wie in 9 gezeigt, umfassen.
Der Bildgradient kann eine Richtungs- (oder Ausrichtungs-)-variation von Helligkeit oder Farbe, die in dem Bild vorhanden ist, umfassen oder kann als eine Vektorkomponente wiedergegeben werden. Der Bildgradient kann eine Richtungsvariation an Helligkeit oder Farbe umfassen, die in jedem Pixel 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij) enthalten ist.
Bildgradienten, die aus den entsprechenden Pixeln 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij) akquiriert werden, können sich voneinander unterscheiden oder können identisch zueinander sein). Zusätzlich können die Bildgradienten von einigen Pixeln aus der Vielzahl Pixel 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij) identisch zueinander sein oder ein Bildgradient von einigen anderen Pixeln kann sich von den obigen Bildgradienten von einigen Pixeln unterscheiden.
Gemäß einer Ausführungsform können die Bildgradienten auf 8 Arten, wie in 10 gezeigt, festgelegt werden. Beispielsweise können die Bildgradienten eine Rechtsrichtungskomponente d1, eine rechte obere Richtungskomponente d2, eine untere Richtungskomponente d3, eine linke obere Richtungskomponente d4, eine linke Richtungskomponente d5, eine linke untere Richtungskomponente d6, eine untere Richtungskomponente d7 und eine rechte untere Richtungskomponente d8 umfassen.
Zumindest einer aus (im Folgenden bezeichnet als die Prozessoren 110 und 210) dem Prozessor 110 der Piktogrammerkennungsvorrichtung und dem anderen Prozessor 210 der Servervorrichtung 200 kann den Bildgradienten von jedem Pixel 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij) akquirieren, der ausgebildet ist, um irgendeine Zelle 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) auszubilden, und zumindest ein Deskriptor betreffend eine spezifische Zelle 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) kann unter Verwendung des akquirierten Bildgradienten akquiriert werden.
Gemäß einer Ausführungsform, wie in 10 gezeigt, können die Prozessoren 110 und 210 den HOG 50 gemäß irgendeiner Zelle 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) akquirieren und können folglich zumindest einen Deskriptor gemäß einer Zelle 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) akquirieren.
Das HOG 50 kann nicht nur die entsprechenden Richtungskomponenten d1∼d8 der Bildgradienten umfassen, die von den entsprechenden Pixeln 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij) akquiriert wurden, sondern auch eine Vielzahl Werte, die den entsprechenden Richtungskomponenten d1∼d8 entsprechen. Beispielsweise wie in 10 gezeigt, kann der HOG 50 8 Richtungskomponenten (d1, d2, d3, d4 , d5, d6, d7, d8) und eine Vielzahl Werte gemäß den 8 Richtungskomponenten d1∼d8 umfassen.
Die Prozessoren 110 und 210 können die Bildgradienten der entsprechenden Pixel 24 (24-11,..., 24-1j,..., 24-i1,..., 24- ij) von irgendeiner ausgewählten Zelle 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) akkumulieren und können folglich den HOG 50 für irgendeine Zelle 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) generieren. In dem vorliegenden Fall können die Werte gemäß den entsprechenden Komponenten d1∼d8 des HOGs 50 als Antwort auf eine Frequenz oder Größe des Bildgradienten, der von irgendeiner Zelle 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) erfasst wurde, festgelegt werden. Beispielsweise können die Werte, die zu den entsprechenden Komponenten d1∼d8 des HOG 50 allokiert werden, proportional zu der Frequenz oder Größe des Bildgradienten festgelegt werden.
Beispielsweise kann aus der Vielzahl Bildgradienten, die von irgendeiner Zelle 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) erfasst wurden, ein relativ hoher Wert allokiert werden und in der Richtungskomponente (beispielsweise die obere Richtungskomponente d3) gemäß dem Bildgradienten, der bei einer relativ hohen Frequenz erfasst wurde, aufgezeichnet werden, und ein relativ niedriger Wert kann in der Richtung (beispielsweise einer linken oberen Richtungskomponente d4 oder einer unteren Richtungskomponente d7) gemäß dem Bildgradienten, der mit einer relativ niedrigen Frequenz erfasst wird, allokiert werden und aufgezeichnet werden. In dem vorliegenden Fall, wie oben beschrieben, können die Werte, die in den entsprechenden Richtungen d3, d4, und d7 aufgezeichnet wurden, proportional zu der erfassten Frequenz sein.
Aus den Aufzeichnungsrichtungen eines relativ hohen Wertes (beispielsweise aus der Vielzahl Bildgradienten) kann die Richtung gemäß eines relativ zusätzlich erfassten Bildgradienten als eine repräsentative Richtung von irgendeiner Zelle festgelegt werden. Beispielsweise, wie in 10 gezeigt, kann die obere Richtung d3 als eine repräsentative Richtung von irgendeiner Zelle 23 festgelegt werden.
Die Prozessoren 110 und 210 können den HOG 50 gemäß jeder Zelle 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) akquirieren, die irgendeine Zone 22 ausbildet, und können den HOG 51 von irgendeiner Zone 22 akquirieren, indem der akquirierte HOG 50 kombiniert wird, wie in 11 gezeigt.
Angenommen, dass jede Zone 22 die Zelle 23, die in einer (4 × 4)-Matrixform ausgebildet ist, umfasst und 8 Richtungskomponenten bestimmt werden, kann der HOG 51 von jeder Zone 22 insgesamt 128 Komponenten (= (4 × 4) Zellen x 8 Richtungskomponenten) d1∼d128 umfassen.
Bezugnehmend auf 10 und 11, wenn die HOGs 50 und 51 akquiriert werden, kann jede Richtungskomponente der HOGs 50 und 51 als Deskriptor festgelegt werden.
Daher unter der Annahme, dass insgesamt 8 Richtungskomponenten auf die gleiche Weise wie oben beschrieben festgelegt werden, können 8 Deskriptoren aus irgendeiner Zelle 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) akquiriert werden. Zusätzlich werden die 8 Richtungskomponenten festgelegt und irgendeine Zone 22 umfasst die Zelle 23, die in einer (4 × 4)-Matrixform ausgebildet ist, wobei 128 Deskriptoren für irgendeine Zone 22 akquiriert werden können.
Wie oben beschrieben wurde, kann der akquirierte Deskriptor festgelegt werden als die Lerndaten 131 und 231 und kann in den Speichereinrichtung 130 und 230 (360) gespeichert werden.
Bezugnehmend auf 4, wenn der Deskriptor akquiriert wurde, können die Prozessoren 110 und 210 den Deskriptor für jede akquirierte Zelle 23 (350) normalisieren.
Beispielsweise werden die HOGs 50 und 51, die wie oben beschrieben akquiriert wurden, normalisiert, sodass der Deskriptor normalisiert werden kann.
Beispielsweise können die Prozessoren 110 und 210 das Verhältnis eines Wertes, der einer repräsentativen Richtung (beispielsweise die obere Richtung d3 von 10) entspricht, gemäß Werten ermitteln, die anderen Richtungen entsprechen (d1, d2 und d4 bis d8), können einen Wert gemäß einer repräsentativen Richtung als den Wert 1 festlegen, können proportional die Werte gemäß den anderen Richtungen (d1, d2 und d4 bis d8) auf der Basis des ermittelten Verhältnisses reduzieren, wobei hier der normalisierte HOG, wie in 10 gezeigt, akquiriert werden kann.
Zusätzlich können die Prozessoren 110 und 210 die Registrierung der HOGs 50 und 51 auf der Basis der repräsentativen Richtung von irgendeiner Zelle durchführen und können die HOGs 50 und 51 auf der Basis der repräsentativen Richtung normalisieren.
Wie oben beschrieben wurde, angenommen, dass die HOGs 50 und 51 für die entsprechenden Zellen 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) akquiriert werden, kann der Bildgradient, der aus den entsprechenden Zellen 23 (23-11, 23-12,..., 23-1n,..., 23-21,..., 23-m1,..., 23-mn) akquiriert wurde, durch externes Rauschen, beispielsweise Fehler in der Bilderfassungseinrichtung oder Schwankungen der externen Beleuchtung beeinflusst werden. Die oben erwähnte Beeinflussung kann unterwartete Fehler bei den akquirierten HOGs 50 und 51 hervorrufen. Die Normalisierung der HOGs 50 und 51 kann solche Fehler reduzieren.
Der Normalisierungsprozess 350 der HOGs 50 und 51 kann gemäß einer zufälligen Auswahl des Gestalters weggelassen werden.
Der normalisierte Deskriptor kann als die Lerndaten 131 und 231 festgelegt werden und kann in den Speichereinrichtungen 130 und 230 (360) gespeichert werden.
12 ist eine zweite Zeichnung, die ein Beispiel des HOGs gemäß jeder Zelle darstellt. In 12 kann eine X-Achse eine Richtungs-(oder Ausrichtungs-)komponente von einem Bildgradienten bezeichnen und eine Y-Achse kann einen Wert gemäß einer Richtungskomponente des Bildgradienten bezeichnen.
Das Piktogramm 10 kann als eine geringere Anzahl an Farben implementiert werden, um die Sichtbarkeit zu verbessern. Beispielsweise kann das Piktogramm 10 mit zwei Farben implementiert werden.
Gemäß der einen Ausführungsform können die Prozessoren 110 und 210 die HOGs 50 und 51 unter Verwendung binärer Eigenschaften des Piktogramms 10 akquirieren, wobei das oben erwähnte externe Rauschen auch minimiert werden kann.
Detaillierter ausgedrückt, können die Prozessoren 110 und 210 eine Bildbinarisierung für das erste akquirierte Lernbild 20 durchführen und können dieselbe Bearbeitung auf der Basis des binarisierten Lernbildes durchführen, wobei das HOG 52, wie in 12 gezeigt, akquiriert werden kann.
Das HOG 52, das unter Verwendung des binarisierten Lernbildes akquiriert wurde, kann das Lernbild 20 ohne Veränderung verwenden, wobei der Wert gemäß der repräsentativen Richtung (beispielsweise die obere Richtung d3 von 12) relativ im Vergleich zu den HOGs 50 und 51 gefestigt wird, was zu einer Akquise des HOG 52 führt. Daher ist die repräsentative Richtung, die aus dem HOG 52 akquiriert wird, relativ gesehen robuster gegenüber dem externen Rauschen und eine geeignete repräsentative Richtung kann aus dem HOG 52 extrahiert werden.
Der HOG 52, der unter Verwendung des binarisierten Lernbildes 52 akquiriert wurde, kann auch wie oben beschrieben normalisiert werden. Der Wert gemäß der repräsentativen Richtung des HOG 52 kann relativ größer sein als der Wert gemäß der repräsentativen Richtung des HOGs 50 und 51, der unter Verwendung des Lernbildes 20 akquiriert wurde, wobei ein Unterschied zwischen dem Wert gemäß der repräsentativen Richtung und dem anderen Wert gemäß der anderen Richtung relativ erhöht werden kann. Daher, wie aus dem HOG 52 erkannt werden kann, der akquiriert wurde und der unter Verwendung des binarisierten Lernbildes normalisiert wurde, kann ein Unterschied zwischen den entsprechenden Richtungskomponenten klarer erscheinen.
13 ist eine Ansicht, die ein erstes Beispiel zum Unterteilen eines Hyperraums in eine Vielzahl Hyperebenen darstellt und 14 ist eine Ansicht, die ein zweites Beispiel zum Unterteilen eines Hyperraums in eine Vielzahl Hyperebenen darstellt. 15 ist eine Ansicht, die ein drittes Beispiel zum Unterteilen eines Hyperraums in eine Vielzahl Hyperebenen darstellt. 13 bis 15 sind konzeptuelle Diagramme, die eine Verteilung von zweidimensionalen Daten (2D) zur Einfachheit des Deskriptors darstellen. In 13 bis 15 kann, angenommen, dass die Daten durch einen 2D-Vektor wiedergegeben werden, eine X-Achse und eine Y-Achse relative Vektorenwerte des 2D-Vektors anzeigen. In 13 bis 15 kann sich jeder Punkt auf den Deskriptor beziehen.
Gemäß einer Ausführungsform können, wenn der Deskriptor akquiriert wird (340) oder nachdem der Deskriptor normalisiert wurde (350), die Prozessoren 110 und 210 eine räumliche Analyse (370) durchführen.
Angenommen, dass das Piktogramm 10 durch Vergleichen des Deskriptors, der bei dem Piktogrammerkennungsprozess 500 akquiriert wurde, mit all den Deskriptoren, die bei den Prozessen 300 akquiriert wurden, erkannt wird, kann eine lange Zeitdauer unvermeidbar in Anspruch genommen werden, um das Piktogramm 10 zu erkennen, wodurch es unmöglich sein kann das Piktogramm 10 in Echtzeit zu erkennen.
Die Prozessoren 110 und 210 können ferner eine räumliche Analyse durchführen, um die Erkennungszeit des Piktogramms 10 zu reduzieren.
Die Prozessoren 110 und 210 können die akquirierten Deskriptoren steuern, um an dem Hyperraum der entsprechenden multiplen Abmessungen angeordnet zu sein und können zumindest eine Hyperebene festlegen, die ausgebildet ist, um eine Hyperraumteilung gemäß den Verteilungseigenschaften der Vielzahl Deskriptoren durchzuführen, wie in 13 bis 15 gezeigt, wobei der Raumteilungsvorgang durchgeführt werden kann.
Beispielsweise angenommen, dass 128 Deskriptoren für eine einzelne Zone 22 festgelegt werden, werden 128 Deskriptoren in einem 128-dimensionalen (128D) Hyperraum angeordnet und eine Information betreffend ein Anordnungsverfahren der 128 Deskriptoren wird bestätigt, wodurch zumindest eine Hyperebene ermittelt werden kann.
Gemäß einer Ausführungsform können die Prozessoren 110 und 210 die Hyperebene ermitteln, die ausgebildet ist, um den Hyperraum zu teilen, um eine fehlerhafte Erkennung daran zu hindern in dem Erkennungsvorgang 500 des Piktogramms 10 aufzutreten.
Beispielsweise angenommen, dass eine Vielzahl Deskriptoren in dem Hyperraum verteilt ist, wie in 13 gezeigt, wobei ein Raum in zwei Räume G11 und G12 unter Verwendung einer ersten Linie L10 unterteilt ist, ist die Verteilungsrichtung von mehreren Deskriptoren ähnlich zu der der ersten Linie L10, wobei der Deskriptor, der in dem ersten Raum G11 während des Lernprozesses 300 existiert hat, fälschlicherweise derart eingestuft wird, um in dem zweiten Raum G12 während des Erkennungsprozesses 500 aufgrund des Rauschens zu existieren, das in dem Bildakquiseabschnitt 140 erzeugt wurde.
Auf der anderen Seite, wie in 14 gezeigt, angenommen, dass ein Raum in zwei Räume G21 und G22 unter Verwendung der zweiten Linie L20 unterteilt wurde, können die Verteilungsrichtung von mehreren Deskriptoren und die erste Linie L20 nicht ähnlich zueinander sein und können, wenn notwendig, nahezu senkrecht zueinander sein, was zu einer Reduzierung der Wahrscheinlichkeit der fehlerhaften Erkennung des Piktogramms 10 führt.
Daher können die Prozessoren 110 und 210 eine Hyperebene gemäß der Verteilungseigenschaften von mehreren Deskriptoren festlegen und herstellen, wobei die Reduzierung der Erkennungsrate basierend auf einem Rauschen, das von dem Bildakquiseabschnitt 140 erzeugt wird, minimiert werden kann und können mehrere Teilungsräume G21 und G22, die durch die Hyperraumteilung akquiriert wurden, festlegen.
Detaillierter ausgedrückt können die Prozessoren 110 und 210 gestaltet sein, um die Hyperebene dementsprechend festzulegen ob zumindest eine der folgenden drei Bedingungen erfüllt ist: Erste Bedingung, wenn die Hyperebene definiert wird, wird eine geringere Anzahl Datenstücke, die ausgebildet ist, um an dem anderen Bereich angeordnet zu sein, benötigt.
Zweite Bedingung: die Anzahl Deskriptoren, die in den entsprechenden Räumen G21 und G22 vorhanden ist, die von der Hyperebene unterteilt werden, kann identisch zueinander sein oder kann ähnlich zueinander sein.
Dritte Bedingung: das Verhältnis des Produktes von zwei Standardabweichungen der entsprechenden Räume G21 und G22 zu dem Abstand zwischen durchschnittlichen Werten der entsprechenden Räume G21 und G22 kann relativ groß sein. Das heißt, das oben erwähnte Verhältnis kann der folgenden Gleichung 1 genügen.
$(Abstand zwischen durchschnittlichen Werten von zwei Räumen) / (Produkt der Standardabweichungen von zwei Räumen) > C_{ref}$
In Gleichung 1 kann ein durchschnittlicher Wert der Räume G21 und G22 einen durchschnittlichen Wert der Deskriptoren bezeichnen, die zu den entsprechenden Räumen G21 und G22 gehören und eine Standardabweichung der Räume G21 und G22 kann ermittelt werden, um eine Standardabweichung der Deskriptoren zu sein, die zu den entsprechenden Räumen G21 und G22 gehören. C_ref kann einen Grenzwert bezeichnen und kann beliebig durch den Gestalter festgelegt werden.
Wenn die Prozessoren 110 und 210 eine Raumteilung unter Verwendung der oben erwähnten ersten bis dritten Bedingungen durchführen, kann der Hyperraum geeignet unterteilt werden, wodurch die Wahrscheinlichkeit der Fehlerkennung des Piktogramms 10 in dem Erkennungsprozess 500 relativ reduziert wird.
Bezugnehmend auf 14, angenommen, dass der Hyperraum in mehrere Räume G21 und G22 unterteilt wird, legen die Prozessoren 110 und 210 eine zusätzliche Hyperebene für zumindest einen der Räume G21 und G22 fest, wobei zumindest einer der Räume G21 und G22 weiter unterteilt werden kann.
Wie oben beschrieben wurde, kann der Teilungsprozess kontinuierlich und wiederholt durchgeführt werden. Daher, wie in 15 gezeigt, kann der Hyperraum in eine Vielzahl Räume G31, G32, G33, G34, G35 und G36 unterteilt werden. Die Räume G31, G32, G33, G34, G35 und G36 können akquiriert werden nachdem sie in eine Vielzahl Segmente (das heißt, Hyperebene L21, L22, L23 und L24) unterteilt wurden. Der Hyperraum kann eine Baumstruktur gemäß einer Wiederholung des Teilungsprozesses aufweisen.
Gemäß einer Ausführungsform kann der Teilungsprozess wiederholt werden bis die Anzahl Deskriptoren, die in dem zumindest einen Raum der Vielzahl Räume G31, G32, G33, G34, G35 und G36 vorhanden ist, geringer ist als ein vorgegebener Wert oder kann wiederholt werden bis die Anzahl Deskriptoren, die in jedem Raum G31, G32, G33, G34, G35 oder G36 vorhanden ist, geringer als ein vorgegebener Wert ist.
Die Hyperebenen L20, L21, L22, L23 und L24, die für die Hyperraumteilung verwendet werden, können in der Speichereinrichtung 130 der Piktogrammerkennungsvorrichtung 100 und/oder der Speichereinrichtung 230 der Servervorrichtung 200 gespeichert werden. Wenn das Piktogramm 10 erkannt wird, können die Hyperebenen L20, L21, L22, L23 und L24 von den Prozessoren 110 und 210 aufgerufen werden und anschließend verwendet werden.
Gemäß dem Raumanalyseprozess 370 kann eine Dimension von jedem Deskriptor relativ abgesenkt werden, beispielsweise kann die Dimension des 128D-Deskriptors geringer als 128 sein.
Gemäß einer Ausführungsform können die Prozessoren 110 und 210 auch den Raumteilungsprozess unter Verwendung einer Supportvektormaschine (SVM) durchführen. In dem Fall der Verwendung der SVM wird der Akquiseprozess 300 der Lerndaten bei einer relativ geringen Geschwindigkeit durchgeführt. Wenn das zu lernende Piktogramm hinzugefügt wird, können all die Deskriptoren erneut gelernt werden und eine große Anzahl an Lerndatenstücken kann erforderlich sein.
Der Raumanalyseprozess 370 kann, wenn notwendig, weggelassen werden. Nach der Akquise der Lerndaten 131 und 231, wie oben beschrieben wurde, kann die Piktogrammerkennungsvorrichtung 100 Bilddaten umfassend das Piktogramm 10 gemäß der Nutzermanipulation oder eine vorgegebene Einstellung, wie in 3 gezeigt (400), akquirieren.
Wenn Bilddaten umfassend das Piktogramm 10 akquiriert werden, werden verschiedene Prozesse der Bilddaten durchgeführt, um das Piktogramm 10 zu erkennen und die Erkennung des Piktogramms 10 kann unter Verwendung des Bildbearbeitungsergebnisses und der akquirierten Lerndaten (500) durchgeführt werden.
16 ist ein zweites Flussdiagramm, das ein Beispiel des Piktogrammerkennungsverfahrens zeigt und 17 ist eine Ansicht, die ein Beispiel der Bildpyramide zeigt.
Bezugnehmend auf 4, wenn das Piktogrammerkennungsverfahren den Betrieb beginnt, kann der Bildakquiseabschnitt 140 Bilddaten umfassend das Piktogramm 10 gemäß der Nutzermanipulation oder einer vorgegebenen Einstellung (400) akquirieren.
Bezugnehmend auf FIG. 6 können die Prozessoren 110 und 210 die Bildpyramide des akquirierten Bildes als Antwort auf die Akquise der Bilddaten erzeugen (510).
Bezugnehmend auf 17 kann die Bildpyramide zumindest ein Bild 41 (41-1, 41-2, 41-3) bezeichnen, das durch Veränderung eines Maßstabes eines einzelnen Referenzbildes 40 akquiriert wurde. In anderen Worten kann gemäß dem Ergebnis des Erzeugens der Bildpyramide ein einzelnes Bild 40 und zumindest ein Bild 41 (41-1, 41-2, 41-3), das sich im Maßstab von dem einzelnen Bild 40 unterscheidet, akquiriert werden.
Die Prozessoren 110 und 210 können zumindest eine Zone für jedes der Vielzahl Bilder 40 (41-1, 41-2, 41-3) (511) extrahieren. In dem vorliegenden Fall kann zumindest eine Zone sequentiell aus der Vielzahl Bilder 40 (41-1, 41-2, 41-3) extrahiert werden. Alternativ kann zumindest eine Zone simultan aus der Vielzahl Bilder 40 (41-1, 41-2, 41-3) extrahiert werden und zumindest eine Zone kann abwechselnd aus der Vielzahl Bilder 40 (41-1, 41-2, 41-3) extrahiert werden.
Wie oben beschrieben wurde, können die Prozessoren 110 und 210 zumindest eine Zone aus der Vielzahl Bilder 40 (41-1, 41-2, 41-3) unter Verwendung des verschiebenden Fensterschemas extrahieren.
18 ist ein konzeptuelles Diagramm, das ein Beispiel der Bewegung des Fensters an einem ersten Bild darstellt, und 19 ist ein konzeptuelles Diagramm, das ein Beispiel der Bewegung des Fensters an einem zweiten Bild darstellt.
Bezugnehmend auf 18 und FIG. 19 können die Prozessoren 110 und 210 das Fenster 50 mit gleicher Größe in jedem Bild 40 (41-1, 41-2, 41-3) festlegen und können das festgelegte Fenster 50 gemäß der vorgegebenen Information bewegen, wobei die Prozessoren 110 und 210 sequentiell zumindest eine Zone 42 aus der Vielzahl Bilder 40 (41-1, 41-2, 41-3) extrahieren können.
In dem vorliegenden Fall kann die Vielzahl Bilder 40 (41-1, 41-2, 41-3) unterschiedliche Maßstäbe aufweisen. Als ein Ergebnis, angenommen, dass das Fenster mit gleicher Größe auf die Vielzahl Bilder 40 (41-1, 41-2, 41-3) angewendet wird, können sich Datenteile, die in den Zonen enthalten sind, die aus der Vielzahl Bilder 40 (41-1, 41-2, 41-3) ermittelt werden, voneinander unterscheiden.
Beispielsweise wie in 18 gezeigt, wenn das erste Fenster 51 bei dem ersten Bild 41-1 angewendet wird aufweisend den kleinsten Maßstab, kann ein relativ großer Betrag an Daten in der akquirierten Zone 42-1 vorhanden sein.
Zusätzlich, wie in 19 gezeigt, wenn das zweite Fenster 52, das identisch im Hinblick auf Größe und Form zu dem ersten Fenster 51 ist, bei dem zweiten Bild 41-3 angewendet wird, aufweisend den größten Maßstab, können die Daten, die in der akquirierten Zone 42-2 vorhanden sind, kleiner in der Anzahl sein als die übrigen Daten, die aus dem ersten Bild 41-1 akquiriert wurden.
Angenommen, dass die Zone durch Anwenden des verschiebenden Fensterschemas auf die Bildpyramide akquiriert wird, wie oben beschrieben wurde, unterscheiden sich die Datenstücke voneinander, wobei unterschiedliche HOGs auch ausgebildet werden können. Als ein Ergebnis können andere Merkmale, die nicht in einem speziellen Maßstab erfasst wurden, erfasst werden. Beispielsweise, angenommen, dass eine gekrümmte Linie in einem linken oberen Endabschnitt des Bezugsbilds 40 existiert, kann der Gradient für die existierende gekrümmte Linie aus der Zone 42-1 des ersten Bildes 41-1 akquiriert werden. Jedoch kann nur der Gradient für eine gerade Linie, der einige Teile der gekrümmten Linie ausbildet, aus der Zone 42-2 des zweiten Bildes 41-3 akquiriert werden. Daher werden einige Bilder 41 aufweisend unterschiedliche Maßstäbe in Bezug auf ein Referenzbild 4 unter Verwendung der Bildpyramide ausgebildet, wenn Bilddaten durch Erfassen der Zone für jede Zone 40 und 41 akquiriert werden, wodurch ein Objekt (beispielsweise ein Histogramm 190), das in dem Referenzbild 40 vorhanden ist, genauer erfasst werden kann.
20 ist ein konzeptuelles Diagramm, das ein Beispiel des HOG darstellt, das aus dem ersten Bild akquiriert wurde.
Wenn zumindest eine Zone 42-1 oder 42-3 aus den entsprechenden Bildern 40 (41-1, 41-2, 41-3) erfasst wird, können die Prozessoren 110 und 210 den HOG 55 für die zumindest eine Zelle, die die zumindest eine Zone 42-1 oder 42-3 ausbildet, wie in 20 gezeigt (512), akquirieren.
Der Akquiseprozess 512 des HOG 55 kann identisch zu dem Akquiseprozess 330 der HOGs 50, 51, und 52 in dem Lerndatenakquiseprozess 300 sein oder kann teilweise modifiziert und durchgeführt werden, soweit notwendig.
Der Akquiseprozess 512 des HOG 55 kann durchgeführt werden, wann immer irgendeine Zone 42-1 oder 42-3 aus irgendeinem Bild 40 oder 41 gemäß der Gestalterauswahl akquiriert wird, kann durchgeführt werden, nachdem einige Zonen aus irgendeinem Bild 40 oder 41 akquiriert wurden, oder kann durchgeführt werden nachdem einige Zonen aus all den Bildern 40 und 41 akquiriert wurden.
Wenn der HOG 55 akquiriert wird, kann ein zugeordneter Deskriptor akquiriert werden (513).
Die Anzahl Deskriptoren (beispielsweise die Abmessung der Deskriptoren), die aus irgendeiner Zelle oder irgendeiner Zone akquiriert wird, kann identisch zu der Anzahl Deskriptoren sein, die aus irgendeiner Zelle oder irgendeiner Zone in dem Lerndatenakquiseprozess 300 akquiriert wird. Beispielsweise können 8 Deskriptoren aus irgendeiner Zelle akquiriert werden. Beispielsweise können 128 Deskriptoren aus irgendeiner Zone akquiriert werden.
Gemäß einer Ausführungsform kann der Deskriptor wie oben beschrieben normalisiert werden (514). In dem vorliegenden Fall kann die Richtung, die einem zusätzlichen Bildgradienten entspricht, relativer aus der Vielzahl Bildgradienten erfasst werden, die aus irgendeiner Zelle extrahiert wurden, als die repräsentative Richtung festgelegt werden und eine Normalisierung des Deskriptors kann unter Verwendung der repräsentativen, festgelegten Richtung durchgeführt werden.
Eine Normalisierung 514 des Deskriptors kann, wenn notwendig, weggelassen werden.
21 ist ein konzeptuelles Diagramm, das ein Beispiel des Deskriptors darstellt, der in irgendeine Hyperebene geladen wird.
Bezugnehmend auf FIG. 21 können die Prozessoren 110 und 210 den Teilungsraum G36, der wie oben beschrieben wurde, akquiriert wurde oder der einen zusätzlichen normalisierten Deskriptor aufweist, aus den Teilungsräumen G31, G32, G33, G34, G35 und G36, die in der zumindest einen Speichereinrichtung 130 der Piktogrammerkennungsvorrichtung 100 und der Speichereinrichtung 230 der Servervorrichtung 200 (512) gespeichert sind, ermitteln.
In dem vorliegenden Fall können die Prozessoren 110 und 210 die Hyperebenen L20, L21, L22, L23 und L24 aufrufen, die für die Hyperraumteilung verwendet werden und können den Hyperraum G36 mit dem Deskriptor unter Verwendung der Hyperebenen L20, L21, L22, L23 und L24 akquirieren. Beispielsweise können die Prozessoren 110 und 210 die Hyperebenen L20, L21, L22, L23 und L24 mit dem Deskriptor vergleichen und können auf der Basis des Vergleichsergebnisses ermitteln welcher Teilungsraum G36 den Deskriptor umfasst.
Der Erfassungsprozess 520 des Teilungsraums G36 aufweisend den Deskriptor 85 kann, wenn notwendig, weggelassen werden.
Wenn der Teilungsraum G36 aufweisend den Deskriptor ermittelt wird, können die Prozessoren 110 und 210 zumindest einen Satz Lerndaten 131 (132, 133, 134, 135), die in dem erfassten Teilungsraum G36 vorhanden sind, akquirieren und können die akquirierten Lerndaten 131 (132, 133, 134, 135) mit dem Deskriptor (522) vergleichen.
Gemäß einer Ausführungsform können die Prozessoren 110 und 210 nicht nur zumindest einen Satz Lerndaten, der in dem Teilungsraum G36 vorhanden ist, akquirieren, sondern auch den Abstand zwischen den Deskriptoren und können einen Satz Lerndaten mit dem kürzesten, ermittelten Abstand erfassen. In dem vorliegenden Fall können die Prozessoren 110 und 210 auch alle die Lerndaten erfassen, bei welchen der Abstand zu dem Deskriptor kürzer ist als ein vordefinierter Grenzwert.
22 ist ein Konzeptdiagramm, das den Vorgang zum Suchen nach dem Deskriptor darstellt.
Bezugnehmend auf 22, wenn der Teilungsraum G36 aufweisend den Deskriptor nicht erfasst wird, können die Prozessoren 110 und 210 auch den HOG 55, der aus dem Piktogrammerkennungsprozess 500 akquiriert wurde, mit dem zumindest ein HOG 132 bis 135 vergleichen, der als die Lerndaten 131 gespeichert wurde, wodurch die Lerndaten mit dem Deskriptor verglichen werden.
Aus den HOGs 132 bis 135, die als die Lerndaten 131 gespeichert wurden, können die Prozessoren 110 und 210 die HOGs 132 bis 135 ermitteln, die identisch oder ähnlich zu dem HOG 55 sind, der aus dem Piktogrammerkennungsprozess 500 akquiriert wurde und können das Ermittlungsergebnis speichern.
Wenn die Lerndaten ermittelt werden, kann das Piktogramm gemäß den ermittelten Lerndaten akquiriert werden, wobei das Piktogramm gemäß dem Piktogramm 10 des Bildes akquiriert werden kann. Daher können die Prozessoren 110 und 210 das Piktogramm 10, das in dem Bild enthalten ist, erkennen.
Gemäß einer Ausführungsform, wenn die Lerndaten wie oben beschrieben ermittelten wurden, können die Prozessoren 110 und 210 das Gruppieren der Deskriptoren aufweisend dasselbe Ermittlungsergebnis (522) durchführen.
Die Prozessoren 110 und 210 können das Gruppieren der Deskriptoren aufweisend das gleiche Lernergebnis aus der Vielzahl Deskriptoren in Bezug auf eine Vielzahl Zellen durchführen. Beispielsweise können die Prozessoren 110 und 210 das Gruppieren der Deskriptoren, die identisch oder ähnlich zu dem ermittelten Lernvorgang sind, durchführen.
In dem vorliegenden Fall können die Deskriptoren, die aus den unterschiedlichen Zonen 42-1 und 42-3 akquiriert wurden, simultan kopiert werden. Zusätzlich können die Deskriptoren, die aus unterschiedlichen Bildern 40 (41-1, 41-2, 41-3) akquiriert wurden, auch simultan kopiert werden. In anderen Worten können die Deskriptoren gemäß den entsprechenden Zellen, die konfiguriert wurden, um die entsprechenden Zonen 42-1 und 42-2 auszubilden, die in den entsprechenden Zonen 40 (41-1, 41-2, 41-3) vorhanden sind, miteinander verglichen werden und die Deskriptoren aufweisend die gleichen Bilder können in einer Gruppe gemäß dem Ergebnis des Vergleichs kombiniert werden.
Im Folgenden können die Prozessoren 110 und 210 ermitteln, ob die Deskriptoren, die in den entsprechenden Gruppen enthalten sind, aneinander innerhalb des Bildes angrenzen (523). In dem vorliegenden Fall können die Prozessoren 110 und 210 ermitteln, ob die Deskriptoren, die in den entsprechenden Gruppen enthalten sind, aneinander innerhalb des gleichen Bildes 40 (41-1, 41-2, 41-3) angrenzen.
Wenn die Deskriptoren, die in den entsprechenden Gruppen vorhanden sind, aneinander angrenzen („Ja“ in 523), wird eine erfolgreiche Erkennung des Piktogramms 10 ermittelt (524).
Wenn die Deskriptoren, die in den entsprechenden Gruppen vorhanden sind nicht aneinander angrenzen („Nein“ in 523), kann die Piktogrammerkennungsvorrichtung 100 den Nutzer von einem Auftreten von Fehlern unter der Steuerung der Prozessoren 110 und 210 informieren (540). Beispielsweise kann die Piktogrammerkennungsvorrichtung 100 eine Information anzeigen, die das Vorhandensein oder Nichtvorhandensein von Fehlern über die Display/Anzeige 151 oder die Nutzerschnittstelle (UI) 150 anzeigen.
Wenn solche Fehler ermittelt werden, kann die Piktogrammerkennungsvorrichtung wiederholt die Erkennungsprozesse 510 bis 523 des Piktogramms 10 gemäß einer Nutzermanipulation oder einer bevorzugten Einstellung („Ja“ in 541) durchführen oder kann den Erkennungsvorgang des Piktogramms 10 abschließen („Nein“ in 541).
Wenn die Erkennung des Piktogramms 10, das in den Bilddaten vorhanden ist, abgeschlossen ist, kann eine Information gemäß dem erkannten Piktogramm angezeigt werden, wie in 3 gezeigt (600).
23 ist eine Ansicht, die ein Beispiel darstellt, bei dem eine detaillierte Beschreibung des Piktogramms an der Piktogrammerkennungsvorrichtung angezeigt wird.
Detaillierter ausgedrückt, wie in 16 gezeigt, wenn die Erkennung des Piktogramms 10 abgeschlossen ist, kann der Prozessor 110 der Piktogrammerkennungsvorrichtung 100 oder der Prozessor 210 der Servervorrichtung 200 die Piktogramminformation 139 und 239 lesen, die in den Speichereinrichtungen 130 und 230 gespeichert ist, kann das Piktogramm gemäß dem Piktogramm 10 ermitteln und kann Informationen ermitteln und akquirieren, die dem ermittelten Piktogramm entsprechen (610). Die akquirierte Information kann Informationen gemäß dem erkannten Piktogramm 10 aufweisen.
Wenn Informationen gemäß dem Piktogramm 10 akquiriert werden, kann die Nutzerschnittstelle 150 (UI) der Piktogrammerkennungsvorrichtung 100 den Nutzer mit Informationen betreffend das Piktogramm 10 versorgen. Die Nutzerschnittstelle (UI) 150 kann erkennbar oder hörbar Informationen betreffend das Piktogramm 10 zur Verfügung stellen.
Beispielsweise, wie in 23 gezeigt, kann das Display 151 der Piktogrammerkennungsvorrichtung 100 einen Bildschirmbild 152 gemäß dem Erkennungsergebnis darstellen. Das Bildschirmbild 152 gemäß dem Erkennungsergebnis kann das Piktogramm 153 und eine detaillierte Beschreibung 154 des Piktogramms 153 umfassen. Das Piktogramm 153 und die detaillierte Beschreibung 154 des Piktogramms 153 können an allen oder einigen Zonen des Bildschirmbildes 152 dargestellt werden.
Das Display 151 kann auch eine Vielzahl Piktogramme 153 und Beschreibungsabschnitte 154 betreffend die Vielzahl Piktogramme 153 anzeigen.
Gemäß einer Ausführungsform kann das Display 151 auch die Vielzahl Piktogramme 153 und die Vielzahl Beschreibungsabschnitte 154 betreffend die Vielzahl Piktogramme 153 an einem einzelnen Bildschirmbild 152 darstellen. Gemäß einer weiteren beispielhaften Ausführungsform kann das Display 151 der Reihe nach die Vielzahl Piktogramme 153 und die Vielzahl Beschreibungsabschnitte betreffend die Vielzahl Piktogramme 153 auf dem Bildschirmbild 152 darstellen. In dem vorliegenden Fall kann das Display 151 der Reihe nach die Vielzahl Beschreibungsabschnitte 154 betreffend die Vielzahl Piktogramme 153 gemäß einer Nutzereingabe oder einer vorgegebenen Einstellung darstellen.
Wie aus der obigen Beschreibung ersichtlich ist, können die Piktogrammerkennungsvorrichtung, das Piktogrammerkennungssystem, und das Piktogrammerkennungsverfahren gemäß den Ausführungsformen der vorliegenden Erfindung korrekter ein Piktogramm erkennen, das auf einem Armaturenbrett oder dergleichen eines Fahrzeuges oder anderen mechanischen Maschinen aufgedruckt ist oder angezeigt wird, wobei ein Nutzer angenehm, einfach und schnell Informationen betreffend das Piktogramm akquirieren kann.
Sogar wenn ein Piktogramm hinzugefügt wird oder die Bedeutung eines spezifischen Piktogramms sich verändert, können die Piktogrammerkennungsvorrichtung, das Piktogrammerkennungssystem und das Piktogrammerkennungsverfahren gemäß den Ausführungsformen der vorliegenden Erfindung schnell Informationen betreffend das hinzugefügte Piktogramm oder Informationen betreffend das spezifische Piktogramm aufweisend die veränderte Bedeutung aktualisieren und können auf geeignete Weise einen Nutzer mit der aktualisierten Information versehen.
Die Piktogrammerkennungsvorrichtung, das Piktogrammerkennungssystem und das Piktogrammerkennungsverfahren gemäß den Ausführungsformen der vorliegenden Erfindung können einfach und schnell Informationen eines Piktogramms akquirieren, das auf dem Fahrzeug oder einer mechanischen Maschine aufgedruckt ist oder angezeigt wird unter Verwendung einer Terminaleinrichtung (beispielsweise eines Mobilfunkgeräts, jedoch nicht eingeschränkt auf ein Mobilfunkgerätes), wodurch die Notwendigkeit einer Anleitung aus Papier in Bezug auf das Piktogramm reduziert wird.
Die Piktogrammerkennungsvorrichtung, das Piktogrammerkennungssystem und das Piktogrammerkennungsverfahren gemäß den Ausführungsformen der vorliegenden Erfindung können es einem Nutzer gestatten, die Bedeutung eines Piktogramms zu erkennen, das an einem Instrumentenpaneel des Fahrzeuges dargestellt wird, ohne das Durchsuchen der Anleitung aus Papier erforderlich zu machen, wobei der Nutzer einfach und angenehm das Fahrzeug handhaben kann.
Aus Gründen Annehmlichkeit der Erklärung und der genauen Definition in den beigefügten Ansprüchen werden die Begriffe „oben“, „unten“, „innen“, „außen“, „darüber liegend“, „darunter liegend“, „aufwärts“, „abwärts“, „vorne“, „hinten“, „Rückseite“, „Innenseite“, „Außenseite“, „nach innen gerichtet“, „nach außen gerichtet“, „intern“, „extern“, „vorwärts“, und „rückwärts“ dazu verwendet, um die Merkmale der beispielhaften Ausführungsformen unter Bezugnahme auf die Positionen solcher Merkmale, sowie sie in den Figuren angezeigt sind, zu beschreiben.
Die vorgenannte Beschreibung spezieller beispielhafter Ausführungsformen der vorliegenden Erfindung wurde zum Zwecke der Darstellung und Beschreibung gemacht. Sie ist nicht dazu gedacht, um abschließend zu sein oder um die Erfindung auf die präzisen, offenbarten Ausführungsformen zu beschränken und offensichtlich sind viele Modifikationen und Variationen im Lichte der obigen Lehre möglich. Die beispielhaften Ausführungsformen wurden ausgewählt und beschrieben, um bestimmte Prinzipien der Erfindung und ihre praktische Anwendung zu beschreiben, um andere Fachmänner in die Lage zu versetzen verschiedene, beispielhafte Ausführungsformen der vorliegenden Erfindung sowie verschiedene Alternativen und Modifikationen davon herzustellen und zu verwenden. Es ist angedacht, dass der Schutzumfang der Erfindung durch die angehängten Ansprüche und ihre Äquivalente festgelegt wird.

Claims

Verfahren zum Erkennen eines Piktogramms, umfassend: Akquirieren mit einer Piktogrammerkennungsvorrichtung oder einer Servervorrichtung von Lerndaten ; Akquirieren mit der Piktogrammerkennungsvorrichtung eines Bildes umfassend das Piktogramm; Extrahieren mit der Piktogrammerkennungsvorrichtung oder einer Servervorrichtung zumindest einer Zone aus dem Bild; Akquirieren mit der Piktogrammerkennungsvorrichtung oder der Servervorrichtung eines Deskriptors gemäß der zumindest einen Zone; Erkennen mit der Piktogrammerkennungsvorrichtung oder der Servervorrichtung des Piktogramms durch Vergleichen des Deskriptors mit den Lerndaten; und zur Verfügung stellen durch die Piktogrammerkennungsvorrichtung von Informationen an einen Nutzer gemäß dem erkannten Piktogramm.
Verfahren nach Anspruch 1, bei dem das Extrahieren der zumindest einen Zone aus dem Bild umfasst: Herstellen eines Fensters in dem Bild, Erfassen einer Zone, die von dem Fenster unterteilt wurde und folglich Extrahieren der zumindest einen Zone; und Bewegen des Fensters.
Verfahren nach Anspruch 1 oder 2, bei dem das Extrahieren der zumindest einen Zone aus dem Bild umfasst: Akquirieren einer Bildpyramide aus dem Bild; und Extrahieren von zumindest einer Zone aus jeder Zone der Bildpyramide.
Verfahren nach einem der Ansprüche 1 bis 3, bei dem das Akquirieren des Deskriptors gemäß der zumindest einen Zone umfasst: Akquirieren eines Histogramms eines ausgerichteten Gradienten (HOG) betreffend zumindest eine Zelle, die die zumindest eine Zone ausbildet; und Akquirieren eines Deskriptors betreffend die zumindest eine Zelle unter Verwendung eines Histogramms eines ausgerichteten Gradienten (HOG) betreffend die zumindest eine Zelle.
Verfahren nach Anspruch 4, bei dem das Akquirieren des Deskriptors gemäß der zumindest einen Zone ferner umfasst: Akquirieren eines Deskriptors betreffend die zumindest eine Zone durch Kombinieren des HOG (Histogramm eines ausgerichteten Gradienten) betreffend zumindest eine Zelle.
Verfahren nach einem der Ansprüche 1 bis 5, bei dem das Erkennen des Piktogramms durch Vergleichen des Deskriptors mit den Lerndaten umfasst: Vergleichen des Deskriptors mit den Lerndaten; und Erkennen eines Deskriptors, der im Wesentlichen identisch zu dem Deskriptor ist.
Verfahren nach Anspruch 6, bei dem das Erkennen des Piktogramms durch Vergleichen des Deskriptors mit den Lerndaten umfasst: Gruppieren eines Deskriptors, der im Wesentlichen identisch zu den Lerndaten einer Vielzahl Deskriptoren ist, die aus der zumindest einen Zone extrahiert wurden, in eine einzelne Gruppe; Ermitteln, ob die Deskriptoren, die in der gleichen Gruppen enthalten sind, an unterschiedlichen angrenzenden Positionen innerhalb des Bildes angeordnet sind; und Ermitteln eines Erfolgs oder eines Versagens der Piktogrammerkennung gemäß dem ermittelten Ergebnis.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Akquirieren der Lerndaten, umfasst: Akquirieren einer Vielzahl Lerndeskriptoren aus einem Lernbild; und Lokalisieren einer Vielzahl Deskriptoren in einem Hyperraum, Ermitteln einer Hyperebene, die für die Hyperraumteilung gemäß der Verteilung der Vielzahl Lerndeskriptoren erforderlich ist, und Akquirieren einer Vielzahl Teilungsräume gemäß der ermittelten Hyperebene.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Lokalisieren der Vielzahl Deskriptoren in der Hyperebene und das Ermitteln der Hyperebene, die für die Hyperraumteilung gemäß der Verteilung der Vielzahl Lerndeskriptoren erforderlich ist, umfasst: Ermitteln einer Hyperebene, die ausgebildet ist, um eine Hyperraumteilung auf Basis von zumindest einer vorgegebenen Information durchzuführen, die anzeigt, ob die Anzahl Lerndeskriptoren, die in der Vielzahl Teilungsräume vorhanden ist, im Wesentlichen identisch zueinander ist, und einer relative Größe eines Verhältnisses eines Produktes von zwei Standardabweichungen der Vielzahl Teilungsräume zu einem Abstand zwischen durchschnittlichen Werten eines entsprechenden Teilungsraumes.
Verfahren nach Anspruch 8, bei dem das Erkennen des Piktogramms durch Vergleichen des Deskriptors mit den Lerndaten umfasst: Ermitteln eines Teilungsraums aufweisend den Deskriptor aus der Vielzahl Teilungsräume; und Erfassen von Lerndaten auf Basis eines Abstandes zwischen dem Deskriptor und einem Lerndeskriptor, der in dem Teilraum enthalten ist.
Vorrichtung zum Erkennen eines Piktogramms, umfassend: einen Bildakquiseabschnitt, der ausgebildet ist, um ein Bild aufweisend das Piktogramm zu akquirieren; eine Speichereinrichtung, die ausgebildet ist, um Lerndaten zu speichern; einen Prozessor, der ausgebildet ist, um zumindest eine Zone aus dem Bild zu extrahieren, um einen Deskriptor gemäß der zumindest einen Zone zu akquirieren, und um das Piktogramm durch Vergleich des Deskriptors mit den Lerndaten zu erkennen; und eine Nutzerschnittstelle (UI), die ausgebildet ist, um einen Nutzer mit Informationen gemäß dem erkannten Piktogramm zu versehen.
Vorrichtung nach Anspruch 11, bei der der Prozessor ein Fenster in dem Bild herstellt, ausgebildet ist, um die zumindest eine Zone durch Erfassen einer Zone, die von dem Fenster unterteilt wird, zu extrahieren, und das Fenster bewegt.
Vorrichtung nach Anspruch 11 oder 12, bei der der Prozessor eine Bildpyramide aus dem Bild akquiriert und ausgebildet ist, um die zumindest eine Zone von jedem Bild der Bildpyramide zu extrahieren.
Vorrichtung nach einem der Ansprüche 11 bis 13, bei dem der Prozessor ein Histogramm ausgerichteter Gradienten (HOG) betreffend zumindest eine Zelle, die die zumindest eine Zone ausbildet, akquiriert und bei der der Prozessor einen Deskriptor betreffend die zumindest eine Zelle unter Verwendung des HOG betreffend die zumindest eine Zelle akquiriert.
Vorrichtung nach Anspruch 14, bei der der Prozessor einen Deskriptor betreffend die zumindest eine Zone durch Kombinieren eines Histogramms eines ausgerichteten Gradienten (HOG) betreffend zumindest eine Zelle akquiriert.
Vorrichtung nach einem der Ansprüche 11 bis 15, bei der der Prozessor ausgebildet ist, um den Deskriptor mit den Lerndaten zu vergleichen und bei der der Prozessor ausgebildet ist um einen Deskriptor zu ermitteln, der im Wesentlichen identisch zu dem Deskriptor ist.
Vorrichtung nach Anspruch 16, bei der der Prozessor einen Deskriptor, der im Wesentlichen identisch zu den Lerndaten einer Vielzahl Deskriptoren ist, die aus der zumindest einen Zone extrahiert wurden, in zumindest eine Gruppe gruppiert, ausgebildet ist, um zu ermitteln, ob die Deskriptoren, die in der gleichen Gruppe vorhanden sind, aneinander angrenzend innerhalb des Bildes angeordnet sind, und ausgebildet ist, um den Erfolg oder das Versagen einer Piktogrammerkennung gemäß dem ermittelten Ergebnis zu ermitteln.
Vorrichtung nach einem der Ansprüche 11 bis 17, bei der der Prozessor Lerndaten durch Akquirieren einer Vielzahl Lerndeskriptoren aus einem Lernbild akquiriert.
Vorrichtung nach Anspruch 18, bei der der Prozessor die Vielzahl Lerndeskriptoren in einem Hyperraum lokalisiert, bei der der Prozessor ausgebildet ist, um eine Hyperebene zu ermitteln, die für eine Hyperraumteilung gemäß einer Verteilung einer Vielzahl Deskriptoren erforderlich ist, und bei der der Prozessor eine Vielzahl Teilräume gemäß der ermittelten Hyperebene akquiriert.
Vorrichtung nach Anspruch 19, bei der der Prozessor ausgebildet ist, um eine Hyperebene, die ausgebildet ist, um die Hyperraumteilung auf Basis von zumindest einer vorgegebenen Information durchzuführen, die anzeigt, ob die Anzahl Lerndeskriptoren, die in der Vielzahl Teilungsräume vorhanden ist, im Wesentlichen identisch zueinander ist und um eine relative Größe eines Verhältnisses eines Produktes von zwei Standardabweichungen der Vielzahl Teilungsräume zu einem Abstand zwischen durchschnittlichen Werten von einem entsprechenden Teilungsraum zu ermitteln.
Vorrichtung nach Anspruch 19, bei der Prozessor ausgebildet ist, um einen Teilungsraum aufweisend den Deskriptor aus der Vielzahl Teilungsräume zu ermitteln und ausgebildet ist, um Lerndaten auf Basis eines Abstandes zwischen einem Deskriptor gemäß der zumindest einen Zone und einem Lerndeskriptor, der in dem Teilungsraum vorhanden ist, zu ermitteln.
System zum Erkennen eines Piktogramms, umfassend: eine Servervorrichtung; und eine Terminalvorrichtung, die ausgebildet ist, um mit der Servervorrichtung zu kommunizieren, um ein Bild aufweisend das Piktogramm zu akquirieren, und um einen Nutzer mit Information betreffend ein erkanntes Piktogramm zu versehen, wobei zumindest die Servervorrichtung und/oder die Terminalvorrichtung zumindest einen aus einem Betrieb des Extrahierens von zumindest einer Zone aus dem Bild, einem Betrieb zum Akquirieren eines Deskriptors gemäß der zumindest einen Zone und/oder einen Betrieb zum Durchführen einer Piktogrammerkennung durch Vergleichen des Deskriptors mit den Lerndaten durchführt.