DE112016001039T5

DE112016001039T5 - Vorrichtung und Verfahren zur Extraktion eines interessierenden Bereichs

Info

Publication number: DE112016001039T5
Application number: DE112016001039.7T
Authority: DE
Inventors: Xiang Ruan; Naru Yasuda; Yanping Lu; Huchuan Lu
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2015-03-05
Filing date: 2016-01-07
Publication date: 2018-01-04
Also published as: WO2016139964A1; US20170352162A1; CN105989174A; CN105989174B

Abstract

Eine Vorrichtung zur Extraktion eines interessierenden Bereichs ist versehen mit einer Extraktionseinheit zum Extrahieren eines oder einer Mehrzahl von lokalen Bereichen aus einem eingegebenen Bild; einer Abrufeinheit zum Durchsuchen einer eine Mehrzahl von Bildern speichernden Bilddatenbank und zum Abrufen eines mit einem lokalen Bereich übereinstimmenden Bildes für jeden der durch die Extraktionseinheit extrahierten lokalen Bereiche; und einer Relevanzwertermittlungseinheit zum Ermitteln eines Relevanzwerts für jeden der lokalen Bereiche auf der Basis des Abrufergebnisses aus der Abrufeinheit. Die Vorrichtung zur Extraktion eines interessierenden Bereichs ermöglicht es, einen interessierenden Bereich aus einem Bild zu extrahieren und dessen Relevanzwert zu berechnen.

Description

TECHNISCHER BEREICH
Die vorliegende Erfindung betrifft das Extrahieren eines interessierenden Bereichs aus einem Bild.
HINTERGRUND
Es sind verschiedene Techniken zum Erfassen (Extrahieren) von interessierenden Bereichen innerhalb eines Bilds verfügbar. Ein interessierender Bereich (region of interest oder ROI) ist ein Bildbereich, bei dem es wahrscheinlich oder wünschenswert ist, dass eine Person ihr Interesse darauf richtet. Die Erfassung eines interessierenden Bereichs wird auch manchmal als Salienzerfassung, Gegenstandserfassung, Vordergrundserfassung, Aufmerksamkeitserfassung oder Ähnliches bezeichnet. Die Algorithmen für diese Techniken können grob in zwei Wege unterschieden werden: lernbasiert oder modellbasiert.
Lernbasierte Algorithmen lernen das Muster des interessierenden Bereichs auf der Basis einer großen Anzahl von Bilddaten, die zu dem Lernziel gehören. Beispielsweise beschreibt Patentdokument 1 das Lernen und das Auswählen einer Art von Merkmal vorab auf der Basis einer Mehrzahl von Bilddaten des Lernziels; Merkmale werden von einzelnen Abschnitten der gerade verarbeiteten Bilddaten auf der Basis der ausgewählten Art von Merkmal extrahiert, und das Salienzmaß wird für die gerade verarbeiteten Bilddaten berechnet.
Modellbasierte Algorithmen verwenden einen mathematischen Ausdruck der neuronalen Antwort, die auftritt, wenn eine Person ein Bild betrachtet (das heißt Neuralantwortmodell), um interessierende Bereiche aus einem Bild zu extrahieren. Das Nicht-Patentdokument 1 modelliert beispielsweise die an das Gehirn übertragenen Informationen, wenn Licht einen als Aufnahmefeld bekannten Bereich stimuliert, das in einer retinalen Ganglionzelle eines Auges vorgefunden wird. Das Aufnahmefeld ist aus einem als Mittenbereich bekannten Bereich und einem Umgebungsbereich aufgebaut. Das Modell in dem Nicht-Patentdokument 1 so ausgestaltet, dass es die Orte von Zacken (spikes; Stellen, die Interesse erregen) nach Maßgabe von Stimulus für die Mitte und die Umgebung digitalisiert.
Dokumente des Stands der Technik
Patentdokumente

Patentdokument 1: Ungeprüfte japanische Patentpublikation 2001-236508

Nicht-Patentdokumente

Nicht-Patentdokument 1: Laurent Itti, Christof Koch, Ernst Niebur, ”A Model of Saliency-based Visual Attention for Rapid Scene Analysis”, IEEE Transactions on Pattern Analysis and Machine Intelligence, November 1998, Vol. 20. No. 11, pp. 1254–1259.

ÜBERBLICK ÜBER DIE ERFINDUNG
Technisches Problem
Während lernbasierte Algorithmen keinen Aufbau eines Modells einer neuronalen Antwort erfordert, hängen die Erfassungsergebnisse hiervon von den Lerndaten ab. Ein lernbasierter Algorithmus kann kein Objekt erfassen, das nicht zu den Lerndaten ähnlich ist. Im Gegensatz dazu kann ein modellbasierter Algorithmus ohne Vorkenntnisse einen interessierenden Bereich erfassen; der Aufbau eines Modells ist jedoch herausfordernd, und der modellbasierte Algorithmus zum Erfassen von interessierenden Bereichen könnte nicht ausreichend genau sein. Daher ist keiner dieser Wege in der Lage, einen interessierenden Bereich ohne eine gewisse Begrenzung hinsichtlich des Erfassungsobjekts exakt zu erfassen.
Außerdem ist kein Weg in der Lage zu ermitteln, welcher Bereich wichtig ist, wenn eine Mehrzahl von Bereichen in einem einzigen Bild ermittelt wird, und daher kann kein Weg ermitteln, welcher Bereich von größerem Interesse wäre. Wenn mehrere Bereiche erfasst werden, sollten diese Bereiche durch ihre Relevanz klassifiziert bzw. in eine Reihenfolge gebracht werden.
Ausführungsformen der vorliegenden Erfindung adressieren die vorstehenden Herausforderungen durch Bereitstellung eines Verfahrens, welches eine exakte Extraktion eines interessierenden Bereichs aus einem Bild erlaubt und es ermöglicht, einen Relevanzwert hierfür zu berechnen.
Lösung des Problems
Ausführungsformen der vorliegenden Erfindung extrahieren einen lokalen Bereich aus einem eingegebenen Bild, rufen Bilder aus einer Bilddatenbank ab, die dem lokalen Bereich ähnlich sind, und gewinnen einen Relevanzwert für den vorstehend genannten lokalen Bereich unter Verwendung des Abrufergebnisses. Daher ist es möglich, eine sehr exakte Extraktion eines interessierenden Bereichs bereitzustellen, die Informationen berücksichtigt, die zu den in einer Bilddatenbank gespeicherten Bildern gehören.
Genauer gesagt ist eine Vorrichtung zur Extraktion eines interessierenden Bereichs gemäß Ausführungsformen der Erfindung versehen mit einer Extraktionseinheit zum Extrahieren eines oder einer Mehrzahl von lokalen Bereichen aus einem eingegebenen Bild; einer Abrufeinheit zum Durchsuchen einer eine Mehrzahl von Bildern speichernden Bilddatenbank und zum Abrufen eines mit einem lokalen Bereich übereinstimmenden Bildes für jeden der durch die Extraktionseinheit extrahierten lokalen Bereiche; und einer Relevanzwertermittlungseinheit zum Ermitteln eines Relevanzwerts für jeden der lokalen Bereiche auf der Basis des Abrufergebnisses aus der Abrufeinheit.
Der vorgenannte lokale Bereich ist vorzugsweise ein Bildbereich in dem eingegebenen Bild, von dem geschätzt wird, dass er von Interesse für eine Person ist, oder ein Bildbereich, dem möglicherweise Aufmerksamkeit gewidmet werden sollte, das bedeutet ein potenziell interessierender Bereich. Die Extraktionseinheit kann einen lokalen Bereich unter Verwendung eines beliebigen existierenden Verfahrens extrahieren. Die Extraktionseinheit kann einen lokalen Bereich durch eine Extraktionstechnik für einen interessierenden Bereich extrahieren, die einen lernbasierten oder einen modellbasierten Algorithmus verwendet.
Die Bilddatenbank speichert eine Mehrzahl von Bilddaten in einer Weise, dass die Bilddaten abgerufen werden können. Die Bilddatenbank kann integral in der Vorrichtung zur Extraktion eines interessierenden Bereichs vorgesehen oder kann als gesonderte Vorrichtung aufgebaut sein. Beispielsweise kann die Bilddatenbank eine Speichervorrichtung sein, die mit einer Vorrichtung zur Extraktion eines interessierenden Bereichs versehen ist. Die Bilddatenbank kann auch als eine gesonderte Vorrichtung aufgebaut sein, die über ein Kommunikationsnetzwerk für die Vorrichtung zur Extraktion eines interessierenden Bereichs zugänglich ist. Der Ersteller oder Administrator der Bilddatenbank muss nicht der Gleiche sein wie der Ersteller oder Administrator der Vorrichtung zur Extraktion eines interessierenden Bereichs. Eine über das Internet öffentlich verfügbare Bilddatenbank eines Dritten kann als in den Ausführungsformen der Erfindung verwendete Bilddatenbank dienen.
Die Abrufeinheit durchsucht die Bilddatenbank nach Bildern, die mit dem durch die Extraktionseinheit extrahierten lokalen Bereich übereinstimmen bzw. zu ihm passen, um das Abrufergebnis zu gewinnen. Genauer gesagt bildet die Abrufeinheit eine Abfrage (Anfrage), die Bilder anfordert, die mit dem lokalen Bereich übereinstimmen bzw. mit dem lokalen Bereich zusammenpassen, übermittelt die Anfrage an die Bilddatenbank und erlangt die Antwort auf die Anfrage von der Bilddatenbank. Das Suchen nach und das Abrufen von ähnlichen Bildern aus der Bilddatenbank kann unter Verwendung eines beliebigen existierenden Verfahrens ausgeführt werden. Beispielsweise kann ein Algorithmus, der einen Ähnlichkeitswert auf der Basis des Vergleichens gesamter Bilder, des Vergleichens eines gesamten Bilds mit einem Abschnitt eines Bilds oder des Vergleichens eines Abschnitts eines Bilds mit einem Abschnitt eines anderen Bilds verwendet werden, um einen Ähnlichkeitswert abzurufen.
Eine Relevanzwertermittlungseinheit ermittelt einen Relevanzwert eines lokalen Bereichs auf der Basis eines Abrufergebnisses von der Abrufeinheit für jeden der lokalen Bereiche. Ein Relevanzwert ist ein Wert, der ein Maß an Interesse anzeigt, das eine Person schätzungsweise an dem lokalen Bereich hat, oder ein Maß an Interesse, das eine Person an dem lokalen Bereich haben sollte. Ein bestimmter lokaler Bereich mit einem hohen Relevanzwert gibt an, dass eine Person entweder stark an jenem lokalen Bereich interessiert ist oder an jenem lokalen Bereich stark interessiert sein sollte. Der Relevanzwert kann in Bezug auf Menschen im Allgemeinen, in Bezug auf eine bestimmte Gruppe von Leuten (Leute mit einem spezifischen Attribut) oder in Bezug auf eine spezifische Einzelperson ermittelt werden.
Die Relevanzwertermittlungseinheit kann einen Relevanzwert eines lokalen Bereichs unter Verwendung statistischer Informationen eines durch die Abrufeinheit als mit dem lokalen Bereich übereinstimmenden abgerufenen Bildes (nachstehend einfach als ein ähnliches Bild bezeichnet) ermitteln. Die statistischen Informationen sind Informationen, die durch statistische Verarbeitung von aus den Ergebnissen der Suche gewonnenen Informationen gewonnen werden können.
Beispielsweise kann die Anzahl an mit dem lokalen Bereich übereinstimmenden Bildern als statistische Information eingesetzt werden, und je größer die Anzahl an ähnlichen Bildern, desto größer der Wert des ermittelten Relevanzwerts. Dies ist so, weil je größer die Anzahl an in der Datenbank gespeicherten Objekten (Zielbereich) ist, desto wahrscheinlicher ist es, dass jenes Objekt von Interesse ist. Es ist zu beachten, dass die Anzahl an ähnlichen Bildern auch in täuschender Weise die Zuverlässigkeit (Genauigkeit) angeben könnte, dass ein durch die Extraktionsvorrichtung extrahierter Bereich ein interessierender Bereich ist. Demzufolge ist es, da ein lokaler Bereich, der wenige ähnliche Bilder zurück gibt, ein falsch positives Ergebnis sein kann und nicht notwendigerweise ein interessierender Bereich sein muss, bevorzugt, dass die Relevanzwertermittlungseinheit keinen Relevanzwert für lokale Bereiche ermittelt, wo die Anzahl an ähnlichen Bildern unterhalb eines gegebenen Schwellenwerts liegt.
Die mit dem ähnlichen Bild verknüpfte Etiketteninformation kann ebenfalls als statistische Information verwendet werden. Hier repräsentiert Etiketteninformation Informationen, die in Verknüpfung mit den Bilddaten in der Bilddatenbank gespeichert sind, und die natürliche Sprache enthalten, um den Inhalt und Attribute der Bilddaten zu spezifizieren. Diese Etiketteninformation kann in die Bilddaten eingekapselt sein, oder sie kann in einer Datei gesondert von den Bilddaten gespeichert sein. Die Etiketteninformation kann in jeder gewünschten Weise hinzugefügt werden, wobei jene Information manuell durch eine Person eingegeben oder automatisch durch einen Computer mittels Bildverarbeitung hinzugefügt werden kann. Wenn die Etiketteninformation als statistische Information verwendet wird, ermittelt die Relevanzwertermittlungseinheit vorzugsweise eine umso höhere Relevanz für einen lokalen Bereich, desto größer die semantische Konvergenz von mit dem Bild verknüpfter Etiketteninformation mit ähnlichen Bildern ist. Dies ist so, weil je größer die semantische Konvergenz ist, desto allgemeiner ist jener Bereich erkennbar, und desto größer ist das Interesse an jenem Bereich. Semantische Konvergenz wird vorzugsweise durch Verarbeitung natürlicher Sprache ermittelt; beispielsweise sollten ähnliche oder benachbarte Konzepte als semantisch nahe beieinanderliegend ermittelt werden, selbst wenn die in der Etiketteninformation verwendete Formulierung unterschiedlich ist.
Der Mittelwert, der Median, die Varianz, die Standardabweichung oder dergleichen eines Ähnlichkeitswerts für ein mit dem lokalen Bereich übereinstimmenden Bild kann als die statistische Information eingesetzt werden. Der Relevanzwert kann als umso größerer Wert ermittelt werden, je größer der Ähnlichkeitswert für ein ähnliches Bild ist oder je kleiner die Varianz in Ähnlichkeitswerten ist. Zusätzlich zu dem Ähnlichkeitswert für ein ähnliches Bild können die Größe des ähnlichen Bereichs (Fläche oder Anzahl an Texten), der Ort innerhalb des Bilds, die Farbe oder dergleichen als die statistische Information genutzt werden. Beispielsweise kann die Größe des ähnlichen Bilds die Größe des gesamten ähnlichen Bilds sein, oder die Größe des mit dem lokalen Bereich übereinstimmenden Bereichs (eine absolute Größe oder die Größe relativ zur Gesamtbildgröße) kann verwendet werden. Es ist zu beachten, dass die Position in dem Bild die Position des mit dem lokalen Bereich übereinstimmenden Bereichs in dem gesamten Bild sein kann. Die Relevanzwertermittlungseinheit kann den Relevanzwert auf der Basis des Mittelwerts, des Durchschnitts, des Modus, des Medians, der Varianz oder der Standardabweichung oder dergleichen dieser Information ermitteln.
Der Durchschnitt oder dergleichen von Metainformation, die dem ähnlichen Bild zugefügt wird, kann ebenfalls als die statistische Information verwendet werden. Metainformation kann Attributinformation über das Bild selbst (beispielsweise Größe, Farbraum) und die Abbildungsbedingungen (Aufnahmedatum, Verschlusszeit, Blende, ISO-Empfindlichkeitsmessung, Modus der Entfernungsmessung, Vorhandensein oder Abwesenheit von Blitz, Brennweite, Abbildungsposition oder dergleichen) umfassen. Die Relevanzwertermittlungseinheit kann den Relevanzwert auf der Basis dieser Metainformation ermitteln.
Die Relevanzwertermittlungseinheit kann den Relevanzwert für einen lokalen Bereich auf der Basis der Größe oder des Orts des lokalen Bereichs ermitteln. Die Größe des lokalen Bereichs kann eine absolute Größe oder kann die Größe in Relation zum eingegebenen Bild sein. Die Relevanzwertermittlungseinheit kann den Relevanzwert als einen umso größeren Wert ermitteln, desto größer die Größe des lokalen Bereichs ist, oder als einen umso größeren Wert, desto kleiner die Größe des lokalen Bereichs ist. Die Relevanzwertermittlungseinheit kann den Relevanzwert als einen umso größeren Wert ermitteln, desto näher sich der lokale Bereich an der Peripherie des eingegebenen Bilds befindet. Die Relevanzwertermittlungseinheit kann auch die Art des in dem lokalen Bereich enthaltenen Objekts zusätzlich zur Größe oder zum Ort des lokalen Bereichs berücksichtigen, wenn sie den Relevanzwert ermittelt.
Die Relevanzwertermittlungseinheit kann eine Mehrzahl von Relevanzwerten auf der Basis der vorgenannten Vielzahl an Informationen gewinnen und einen finalen Relevanzwert ermitteln, der die Vielzahl von Relevanzwerten kombiniert. Das Verfahren des Kombinierens der Mehrzahl von Relevanzwerten zu einem finalen Relevanzwert ist nicht besonders beschränkt und kann beispielsweise eine Integration über alle Relevanzwerte oder einen gewichteten Mittelwert von ihnen sein.
Die Vorrichtung zur Extraktion eines interessierenden Bereichs gemäß Ausführungsformen der Erfindung kann ferner eine Berechnungskriterienerlangungseinheit zum Aufnehmen einer Eingabe von Kriterien zum Berechnen des Relevanzwerts umfassen; und die Relevanzwertermittlungseinheit berechnet den Relevanzwert auf der Basis eines entsprechend eines vorbestimmten Berechnungskriteriums berechneten ersten Relevanzwerts und eines entsprechend eines durch die Berechnungskriterienerlangungseinheit erlangten Berechnungskriteriums berechneten zweiten Relevanzwerts. Hier können die vorbestimmten Berechnungskriterien ein Berechnungskriterium für einen auf Menschen im Allgemeinen bezogenen Relevanzwert umfassen und in anderen Worten Universal-Berechnungskriterien sein. Im Gegensatz dazu sind die durch die Berechnungskriterienerlangungseinheit erlangten gewonnenen Berechnungskriterien situationsspezifisch; beispielsweise können diese Berechnungskriterien von dem Benutzer abhängen, der das Bild betrachtet, oder sie können von der Anwendung abhängigen, die den extrahierten interessierenden Bereich verwendet.
Die Vorrichtung zur Extraktion eines interessierenden Bereichs gemäß Ausführungsformen der Erfindung kann ferner eine Integrationseinheit zum Kombinieren einer Mehrzahl von benachbarten lokalen Bereichen in dem eingegebenen Bild zu einem einzigen lokalen Bereich umfassen. Benachbarte lokale Bereiche können lokale Bereiche sein, die nebeneinander liegen oder können lokale Bereiche sein, die durch einen vorbestimmten Abstand (Anzahl an Pixeln) voneinander getrennt sind. Der vorstehend beschriebene vorbestimmte Abstand kann nach Maßgabe der Größe des lokalen Bereichs, der Art des in dem lokalen Bereich enthaltenen Objekts, etc. festgelegt sein.
Die Vorrichtung zur Extraktion eines interessierenden Bereichs gemäß Ausführungsformen der Erfindung kann ferner eine Ausgabeeinheit zum Ausgeben des Ortes der in dem eingegebenen Bild enthaltenen lokalen Bereiche und des Relevanzwerts für jeden der lokalen Bereiche umfassen. Der Ort eines lokalen Bereichs kann beispielsweise durch Überlagern eines Randes auf das eingegebene Bild, das den Ort des lokalen Bereichs zeigt, das Darstellen des lokalen Bereichs mit einer anderen Farbe oder Helligkeit als die anderen Bereiche, ausgegeben werden. Der Relevanzwert kann durch Zeigen eines numerischen Werts oder Zeigen einer Farbe oder einer Größenmarkierung nach Maßgabe des Relevanzwerts ausgegeben werden. Beim Ausgeben des Orts und des Relevanzwerts des lokalen Bereichs kann es sein, dass der ausgegebene Bereich den Relevanzwert oder lokale Bereiche nicht anzeigt, wenn deren Relevanzwert kleiner als ein Schwellenwert ist, und die Position und den Relevanzwert nur diejenigen lokalen Bereiche mit einem Relevanzwert zeigt, der größer oder gleich einem Schwellenwert ist.
Es ist zu beachten, dass eine Vorrichtung zur Extraktion eines interessierenden Bereichs, die nur zumindest einen Teil der vorstehend beschriebenen Einheiten umfasst, als Teil der vorliegenden Erfindung angesehen werden kann. Die vorliegende Erfindung kann auch in einem Verfahren zur Extraktion eines interessierenden Bereichs oder einem Relevanzwertberechnungsverfahren gesehen werden. Außerdem wird auch ein Programm zum Ausführen der Schritte dieser Verfahren auf einem Computer sowie ein computerlesbares Medium, welches ein solches Programm zumindest zeitweise speichert, als zum Bereich der Erfindung gehörig angesehen. Die vorstehend beschriebenen Konfigurationen und Prozesse können frei miteinander kombiniert werden, sofern es technisch möglich ist, um die Erfindung zu konfigurieren.
Wirkungen
Eine Vorrichtung zur Extraktion eines interessierenden Bereichs gemäß Ausführungsformen der vorliegenden Erfindung ermöglicht es, einen interessierenden Bereich aus einem Bild zu extrahieren und den Relevanzwert hierfür zu berechnen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1(A) und 1(B) sind Blockschaltbilder, die eine Hardwarekonfiguration einer Vorrichtung zur Extraktion eines interessierenden Bereichs gemäß einer ersten Ausführungsform und die Funktionen darin darstellen;
2 ist ein Flussdiagramm, das den Ablauf der Prozesse zum Extrahieren eines interessierenden Bereichs in der ersten Ausführungsform darstellt;
3(A) und 3(B) stellen Beispiele eines eingegebenen Bilds bzw. aus dem eingegebenen Bild extrahierte interessierende Bereiche dar;
4 stellt einen Überblick über die Berechnung des Relevanzwerts für einen interessierenden Bereich dar;
5A und 5B zeigen die Ergebnisse eines inhaltsbasierten Bildabrufs und der Berechnung eines Relevanzwerts auf der Basis des Abrufergebnisses;
6(A) und 6(B) zeigen ein den Ablauf der Prozesse repräsentierendes Flussdiagramm bzw. ein Beispiel des Ausgebens eines Relevanzwerts;
7 ist ein Flussdiagramm, das den Ablauf der Prozesse zum Extrahieren eines interessierenden Bereichs in einer zweiten Ausführungsform darstellt;
8 ist ein Blockschaltbild, das die Funktionen einer Vorrichtung zur Extraktion eines interessierenden Bereichs gemäß einer dritten Ausführungsform darstellt;
9 ist ein Flussdiagramm, das den Ablauf der Prozesse zum Extrahieren eines interessierenden Bereichs in einer dritten Ausführungsform darstellt;
10 ist ein Blockschaltbild, das die Funktionen einer Vorrichtung zur Extraktion eines interessierenden Bereichs gemäß einer vierten Ausführungsform darstellt;
11 ist ein Flussdiagramm, das den Ablauf der Prozesse zum Extrahieren eines interessierenden Bereichs in der vierten Ausführungsform darstellt; und
12(A) und 12(B) zeigen einen Zustand vor bzw. nach einem Prozess zum Kombinieren von interessierenden Bereichen.
AUSFÜHRLICHE BESCHREIBUNG
Erste Ausführungsform
Eine Vorrichtung zur Extraktion eines interessierenden Bereichs gemäß dieser Ausführungsform sucht ein ähnliches Bild innerhalb einer Bilddatenbank und ruft es daraus ab, um präzise interessierende Bereiche aus einem eingegebenen Bild zu extrahieren und den Relevanzwert der einzelnen interessierenden Bereiche zu berechnen. Die Bilddatenbank kann durchsucht werden, um Information zu erlangen, die nicht aus dem eingegebenen Bild gewonnen werden kann, wodurch es ermöglicht wird, einen interessierenden Bereich zu extrahieren und den Relevanzwert präzise zu berechnen.
Konfiguration
1(A) stellt die Hardwarekonfiguration einer Vorrichtung 10 zur Extraktion eines interessierenden Bereichs gemäß der Ausführungsform dar. Die Vorrichtung 10 zur Extraktion eines interessierenden Bereichs umfasst eine Bildeingabeeinheit 11, eine Arithmetikvorrichtung 12, eine Speichervorrichtung 13, eine Kommunikationsvorrichtung 14, eine Eingabevorrichtung 15 und eine Ausgabevorrichtung 16. Die Bildeingabeeinheit 11 ist eine Schnittstelle zum Erlangen von Bilddaten von einer Kamera 20. Es ist zu beachten, dass die Bilddaten, während in dieser Ausführungsform Bilddaten direkt von der Kamera 20 erlangt werden, auch durch die Kommunikationsvorrichtung 14 erlangt werden können. Die Bilddaten können auch über Speichermedien erlangt werden. Die Arithmetikvorrichtung 12 ist ein Universalprozessor wie beispielsweise eine zentrale Recheneinheit (CPU), die ein in der Speichervorrichtung 13 gespeichertes Programm ausführt, um die später beschriebenen Funktionen zu implementieren. Die Speichervorrichtung 13 umfasst eine Primärspeichervorrichtung und eine Zusatzspeichervorrichtung. Zusätzlich zum Speichern der durch die Arithmetikvorrichtung 12 ausgeführten Programme speichert die Speichervorrichtung 13 Bilddaten und temporäre Daten, während Programme ausgeführt werden. Die Kommunikationsvorrichtung 14 ermöglicht es der Vorrichtung 10 zur Extraktion eines interessierenden Bereichs, mit externen Computern zu kommunizieren. Die Form der Kommunikation kann drahtgebunden oder drahtlos sein und kann mit jedem gewünschten Standard bereitgestellt werden. Bei dieser Ausführungsform greift die Vorrichtung 10 zur Extraktion eines interessierenden Bereichs über die Kommunikationsvorrichtung 14 auf eine Bilddatenbank 30 zu. Die Eingabevorrichtung 15 kann durch eine Tastatur oder eine Maus oder Ähnliches gebildet sein, und sie ermöglicht es dem Benutzer, Anweisungen für die Vorrichtung zur Extraktion eines interessierenden Bereichs einzugeben. Die Ausgabevorrichtung 16 kann durch eine Anzeigevorrichtung und einen Lautsprecher und ähnliches gebildet sein, und sie ermöglicht es der Vorrichtung zur Extraktion eines interessierenden Bereichs, eine Ausgabe an den Benutzer bereitzustellen.
Die Bilddatenbank 30 ist ein Computer mit einer Arithmetikvorrichtung und einer Speichervorrichtung und dergleichen, und sie speichert eine Mehrzahl von Bilddaten so, dass diese abgerufen werden können. Die Bilddatenbank 30 kann ein einzelner Computer sein oder kann durch mehrere Computer konfiguriert sein. Zusätzlich zu den Daten des Bildes selbst (beispielsweise Farbinformation pro Pixel) können die in der Bilddatenbank 30 gespeicherten Bilddaten in Verknüpfung mit verschiedenen Arten von Attributinformation gespeichert sein. Beispielsweise kann eine die Bilddaten enthaltende Datendatei verschiedene Arten von Eigenschaftsinformation/Attributinformation im Exif-Format umfassen. Die Bilddatenbank 30 kann außerdem die Bilddaten in Verknüpfung mit Attributinformation abbilden und speichern, die in einer anderen Datei als der Datendatei für die Bilddaten gespeichert ist. Attributinformation kann beispielsweise umfassen die Größe des Bilds, den Farbraum, die Abbildungsbedingungen (Datum der Aufnahme, Verschlusszeit, Blende, ISO-Empfindlichkeitsmessung, Art der Entfernungsmessung, Vorhandensein oder Abwesenheit von Blitz, Brennweite, Abbildungsposition, etc.), eine Beschreibung des Inhalts und der Merkmale des Bilds in natürlicher Sprache (Etiketteninformation bzw. tag information), und dergleichen. Diese Attributinformation ist Metainformation für die Bilddaten. Die Bilddatenbank 30 kann im Allgemeinen über ein öffentliches Netzwerk wie beispielsweise das Internet zugänglich sein und eine Registrierung sowie die Suche nach Bilddaten ermöglichen.
Es gibt keine besonderen Beschränkungen darüber, wer ein Bild in der Bilddatenbank 30 registrieren kann, oder die Anzahl an Bildern, die registriert werden können. Beispielsweise kann ein Bild in der Datenbank registriert werden, das ein Objekt enthält, auf das sich ein Benutzer der Vorrichtung 10 zur Extraktion eines interessierenden Bereichs konzentrieren sollte. In diesem Fall kann gesagt werden, dass ein für die Extraktion eines interessierenden Bereichs geeignetes Bild in der Bilddatenbank registriert ist; daher braucht keine große Zahl an Bildern registriert zu sein. Ein Dritter wie beispielsweise ein einzelner Benutzer oder ein Suchdienstanbieter kann ebenfalls Bilder in der Datenbank registrieren. Es kann jedoch sein, dass das registrierte Bild nicht für den Prozess der Extrahierung eines interessierenden Bereichs geeignet ist. Daher sind vorzugsweise bereits viele der Bilder in der Bilddatenbank 30 registriert.
Funktionen und Prozesse in der Vorrichtung zur Extraktion eines interessierenden Bereichs
Die Arithmetikvorrichtung 12 kann ein Programm zum Implementieren der in 1(B) dargestellten Art von Funktionen ausführen. Das bedeutet, die Arithmetikvorrichtung 12 stellt die Funktionen einer Bereichsextraktionseinheit 110, einer Bildabrufeinheit 120, einer Relevanzberechnungseinheit 130 und einer Ausgabeeinheit 140 bereit. Die Verarbeitung in diesen einzelnen Einheiten ist wie folgt.
2 ist ein Flussdiagramm, das Prozesse darstellt, die von der Vorrichtung 10 zur Extraktion eines interessierenden Bereichs ausgeführt werden, um einen interessierenden Bereich zu extrahieren. In Schritt S10 erlangt die Vorrichtung 10 zur Extraktion eines interessierenden Bereichs ein Bild (ein eingegebenes Bild). Ein eingegebenes Bild kann über die Bildeingabeeinheit 11 von einer Kamera, über die Kommunikationsvorrichtung 14 von einem anderen Computer oder über die Speichervorrichtung 13 von einem Speichermedium gewonnen werden. 3(A) zeigt ein Beispiel eines eingegebenen Bilds 400.
In Schritt S20 extrahiert die Bereichsextraktionseinheit 110 einen interessierenden Bereich (einen lokalen Bereich) aus dem eingegebenen Bild. Der Algorithmus, den die Bereichsextraktionseinheit 110 verwendet, ist nicht besonders beschränkt; jeder vorhandene Algorithmus einschließlich eines lernbasierten Algorithmus oder eines modellbasierten Algorithmus kann eingesetzt werden. Die Bereichsextraktionseinheit 110 ist ebenfalls nicht auf einen einzigen Algorithmus beschränkt und kann eine Mehrzahl von Algorithmen einsetzen, um einen interessierenden Bereich zu extrahieren. Da lernbasierte Algorithmen nur gelernte Objekte extrahieren können, ist es bevorzugt, dass ein modellbasierter Extraktionsalgorithmus verwendet wird.
3(B) zeigt ein Beispiel eines aus dem eingegebenen Bild 400 extrahierten interessierenden Bereichs. In diesem Beispiel werden vier interessierende Bereiche 401–404 aus dem eingegebenen Bild 400 extrahiert. Der Bereich 401 ist ein Auto, der Bereich 402 ist eine Person, und der Bereich 403 ist ein Verkehrszeichen. Während der Bereich 404 kein interessierender Bereich im eigentlichen Sinne ist, ist dieser ein von der Bereichsextraktionseinheit 110 erfasstes falsch positives Resultat.
Als nächstes ruft die Bildabrufeinheit 120, wie in 4 dargestellt, ein ähnliches Bild ab und berechnet den Relevanzwert des interessierenden Bereichs auf der Basis des Abrufergebnisses für jeden der in Schritt S20 (Schleife L1) extrahierten interessierenden Bereiche. Genauer gesagt gibt die Bildabrufeinheit 120 in Schritt S30 eine Suchanfrage an die Bilddatenbank 30, um Bilder abzurufen, die mit den einzelnen interessierenden Bereichen übereinstimmen, und erlangt das Abrufergebnis aus der Bilddatenbank 30. Bei Empfang einer Suchanfrage ruft die Bilddatenbank 30 ein Bild aus der Datenbank ab, das mit dem in der Suchanfrage enthaltenen Suchbild (einem Bild des interessierenden Bereichs) übereinstimmt, und sendet das Abrufergebnis. Jeder bekannte Algorithmus kann für einen inhaltsbasierten Bildabruf aus der Bilddatenbank 30 eingesetzt werden. Beispielsweise kann ein Algorithmus, der ein Gesamtbild mit einem anderen Gesamtbild vergleicht, ein Algorithmus, der ein Gesamtbild mit einem Abschnitt eines anderen Bilds vergleicht, oder ein Algorithmus, der einen Abschnitt eines Bilds mit einem Abschnitt eines anderen Bilds vergleicht, eingesetzt werden. Die Bilddatenbank sendet das durch die Suche gewonnene ähnliche Bild und die Attributinformation für dieses als das Abrufergebnis an die Vorrichtung 10 zur Extraktion eines interessierenden Bereichs.
In Schritt S40 berechnet die Relevanzberechnungseinheit 130 in der Vorrichtung 10 zur Extraktion eines interessierenden Bereichs den Relevanzwert des interessierenden Bereichs auf der Basis der von der Bilddatenbank 30 gewonnenen Suchergebnisse. Die Relevanzberechnungseinheit 130 in dieser Ausführungsform berechnet eine Mehrzahl von diskreten Relevanzwerten (R1–R4) auf der Basis von Abrufergebnissen und kombiniert die Mehrzahl von diskreten Relevanzwerten zu einem finalen Relevanzwert R (Gesamtrelevanzwert). Ein diskreter Relevanzwert ist ein Relevanzwert, der hinsichtlich verschiedener Gesichtspunkte evaluiert ist: beispielsweise ein Relevanzwert (R1) auf der Basis der Anzahl von ähnlichen Bildern, die mit der Suche übereinstimmen; ein Relevanzwert (R2) auf der Basis eines mittleren Ähnlichkeitswerts des ähnlichen Bilds; ein Relevanzwert (R3) auf der Basis der relativen Größe des ähnlichen Bereichs in dem ähnlichen Bild; und ein Relevanzwert (R4) auf der Basis einer semantischen Konvergenz der Etiketteninformation. Bei dieser Ausführungsform sind die diskreten Relevanzwerte R1–R4 normierte numerische Werte von 0 bis 1, und der Gesamtrelevanzwert R ist ein Produkt der diskreten Relevanzwerte R1–R4 (R = R1 × R2 × R3 × R4). Wenn jedoch der Gesamtrelevanzwert auf der Basis der diskreten Relevanzwerte R1–R4 definiert ist, kann der Gesamtrelevanzwert R beispielsweise als ein Mittelwert (einschließlich eines gewichteten Mittelwerts), ein Maximum, ein Minimum oder dergleichen der diskreten Relevanzwerte R1–R4 berechnet werden. Die hier beschriebenen diskreten Relevanzwerte sind lediglich Beispiele, und die eingesetzten Werte können nach Maßgabe von anderen Kriterien als den obigen auf der Basis der Suchparameter definiert sein. Ein Relevanzwert braucht nicht ausschließlich aus dem Abrufergebnis berechnet zu werden; beispielsweise kann ein Relevanzwert unter Berücksichtigung des Extraktionsbereichs selbst oder des eingegebenen Bilds berechnet werden.
5A zeigt ein Beispiel der in Schritt S30 gewonnenen Abrufergebnisse. 5A zeigt eine Bildnummer 501, einen Ähnlichkeitswert 502, eine Gesamtgröße 503 des ähnlichen Bilds, eine Größe 504 des Bereichs in dem ähnlichen Bild, das mit dem interessierenden Bereich übereinstimmt, und eine mit dem ähnlichen Bild verknüpft abgespeicherte Etiketteninformation 505; das Abrufergebnis kann jedoch auch weitere Informationen umfassen.
5B stellt ein Beispiel der durch die Relevanzberechnungseinheit 130 ausgeführten Relevanzwertberechnung dar. Dem Relevanzwert R1, der auf der Anzahl von mit der Suche übereinstimmenden ähnlichen Bildern basiert, wird auf der Basis der Anzahl an Suchtreffern ein höherer Wert gegeben. Je mehr Bilder des Objekts in der Bilddatenbank 30 gespeichert sind, desto höher wird somit der Relevanzwert berechnet. Die zum Berechnen des Relevanzwerts R1 verwendete Anzahl an Suchtreffern kann aus all den ähnlichen Bildern bestehen, die von der Bilddatenbank 30 gesendet wurden, oder es kann die Anzahl an ähnlichen Bildern in den Ergebnissen sein, die einen Ähnlichkeitswert 502 aufweisen, der größer oder gleich einem vorbestimmten Schwellenwert ist.
Dem Relevanzwert R2, der auf dem mittleren Ähnlichkeitswert des ähnlichen Bilds basiert, wird ein umso höherer Wert gegeben, je höher der mittlere Ähnlichkeitswert 502 der in den Abrufergebnissen enthaltenen ähnlichen Bilder ist. Eine größere Anzahl an Suchtreffern bedeutet nicht notwendigerweise, dass das Objekt sehr relevant ist, insbesondere dann, wenn das ähnliche Bild einen niedrigen Ähnlichkeitswert aufweist. Daher verbessert die Berücksichtigung eines mittleren Ähnlichkeitswerts die Genauigkeit der Berechnung des Relevanzwerts. Obwohl in diesem Fall der Mittelwert des Ähnlichkeitswerts für die Berechnung des Relevanzwerts R2 verwendet wird, kann jede Statistik, wie beispielsweise der Modus, der Median, die Varianz oder die Standardabweichung, für die Berechnung des Relevanzwerts R2 verwendet werden.
Dem Relevanzwert (R3), der auf der relativen Größe des ähnlichen Bereichs bezüglich des ähnlichen Bilds basiert, wird ein umso höherer Wert gegeben, desto größer das mittlere Verhältnis der Größe 504 des ähnlichen Bereichs zur Gesamtgröße 503 des ähnlichen Bilds in dem Abrufergebnis ist. Dadurch wird der Relevanzwert umso höher berechnet, je größer das Objekt in dem Bild aufgenommen wird. Der Relevanzwert R3 kann unter Verwendung dieser Werte auf der Basis von anderen Kriterien als dem Verhältnis der Größe 504 des ähnlichen Bereichs zur vollständigen Gesamtgröße 503 des ähnlichen Bilds berechnet werden.
Dem Relevanzwert R4, der auf der semantischen Konvergenz der Etiketteninformation basiert, wird ein höherer Wert gegeben, wenn eine höhere semantischen Konvergenz der in dem Abrufergebnis enthaltenen Etiketteninformation vorhanden ist. Dadurch wird ein umso höherer Relevanzwert berechnet, je mehr Leute dem Objekt Etiketteninformation zuordnen, die die gleiche Bedeutung besitzt. Die semantische Konvergenz wird vorzugsweise durch eine Verarbeitung von natürlicher Sprache ermittelt, so dass selbst dann, wenn die in der Etiketteninformation verwendete Formulierung unterschiedlich ist, die Semantik für identische oder benachbarte Konzepte mit höherer Wahrscheinlichkeit konvergiert. Die Relevanzberechnungseinheit 130 kann die Semantik der in dem Abrufergebnis enthaltenen Etiketteninformation kategorisieren und einen Prozentwert in Relation zu der Gesamtanzahl an Elementen in der größten Kategorie berechnen. In dem in 5B dargestellten Beispiel von Etiketteninformation würden sowohl ”Automobil” als auch ”Auto” in die gleiche Kategorie platziert. Außerdem kann angesichts der Tatsache, dass ein ”Sportwagen” ein spezielleres Konzept hinsichtlich ”Automobil” und ”Auto” ist, der ”Sportwagen” ebenfalls in die gleiche Kategorie platziert werden wie das ”Automobil” und das ”Auto”. Im Gegensatz dazu ist ein ”Park” ein anderes Konzept als ein ”Automobil” und wird daher in eine andere Kategorie platziert. Es ist zu beachten, dass eine ”Motorenschau” ein Konzept ist, das mit ”Automobil” etc. verknüpft ist, und daher in die gleiche Kategorie oder aber in eine andere Kategorie platziert werden kann. In diesem Beispiel sind die ”Motorschau” und das ”Automobil” in der gleichen Kategorie, so dass die Relevanzberechnungseinheit 130 den Relevanzwert R4 als 0,8 (d. h. 4/5) berechnet, wenn das Abrufergebnis gemäß Darstellung in 5B fünf Elemente enthält. Obwohl 5B ein Beispiel angibt, in dem die Etiketteninformation einzelne Wörter umfasst, kann die Etiketteninformation auch in Satzform ausgedrückt werden, und deren Semantik kann in jedem Fall ebenfalls auf der Basis von Verarbeitung von natürlicher Sprache geschätzt werden.
Die Relevanzberechnungseinheit 130 berechnet einen Gesamtrelevanzwert R auf der Basis der diskreten Relevanzwerte R1–R4 gemäß obiger Beschreibung. Hier werden die obigen diskreten Relevanzwerte R1–R4 mit größeren Werten für Gebiete berechnet, von denen geschätzt wird, dass sie die Aufmerksamkeit eines Menschen erregen. Das bedeutet, die diskreten Relevanzwerte R1–R4 sind Universal-Relevanzwerte, die auf Menschen im Allgemeinen abzielen, und somit kann der auf deren Basis berechnete Gesamtrelevanzwert R auch als Universal-Relevanzwert betrachtet werden.
Nachdem die Relevanzwerte für alle interessierenden Bereiche berechnet sind, gibt die Ausgabeeinheit 140 in Schritt S50 die Orte der interessierenden Bereiche in dem eingegebenen Bild und den Relevanzwert für jeden der interessierenden Bereiche aus. Die Ausgabeeinheit 140 gibt nicht alle in Schritt S20 extrahierten interessierenden Bereiche aus, sondern die Ausgabeeinheit 140 gibt die interessierenden Bereiche aus, deren Relevanzwert größer oder gleich einem vorbestimmten Schwellenwert ThR ist. 6(A) ist ein Flussdiagramm zum detaillierten Beschreiben des Ausgabeprozesses in Schritt S50. Die Ausgabeeinheit 140 führt die folgenden Prozesse wiederholt für alle der in Schritt S20 extrahierten interessierenden Bereiche aus (Schleife L2). Zuerst ermittelt die Ausgabeeinheit 140, ob der für den interessierenden Bereich berechnete Relevanzwert größer oder gleich dem Schwellenwert ThR ist oder nicht (S51). Wenn der Relevanzwert größer oder gleich dem Schwellenwert ThR ist (S51 – JA) ist, gibt die Ausgabeeinheit den Ort und den Relevanzwert des vorgenannten interessierenden Bereichs aus (S52); wenn jedoch der Relevanzwert kleiner als der Schwellenwert ThR ist (S51 – NEIN), dann gibt die Ausgabeeinheit den Ort oder den Relevanzwert des vorgenannten interessierenden Bereichs nicht aus.
6(B) zeigt ein Beispiel des für einen interessierenden Bereich in der Ausführungsform ausgegebenen Orts und Relevanzwerts. Hier weisen die interessierenden Bereiche 401–403 der interessierenden Bereiche 401–404 einen Relevanzwert auf, der größer oder gleich dem Schwellenwert ThR ist. Daher sind die interessierenden Bereiche 401–403 durch Ränder umgeben, um ihre Orte anzugeben. Ferner sind Relevanzwertangaben neben den interessierenden Bereichen 401–403 angegeben, die jeweils die numerischen Werte für den Relevanzwert jedes dieser interessierenden Bereiche angeben. Der interessierenden Bereich 404 ist nicht gezeigt, da sein Relevanzwert kleiner als der Schwellenwert ThR ist. Es ist zu beachten, dass dies lediglich ein Beispiel ist, und der Ort des interessierenden Bereichs kann beispielsweise durch Ändern von dessen Helligkeit oder Farbe identifiziert werden, wenn die interessierenden Bereiche und die von den interessierenden Bereichen verschiedenen Gebiete gezeigt werden. Außerdem braucht der Relevanzwert nicht numerisch gezeigt zu werden; beispielsweise kann das Ändern der Farbe oder der Form eines Symbols die Größe des Relevanzwerts anzeigen; die Größe des Relevanzwerts kann auch durch Ändern der Dicke des Rands um den interessierenden Bereich herum angezeigt werden.
Während das hier beschriebene Beispiel das Zeigen der Resultate der extrahierten interessierenden Bereiche und der Relevanzwerte hierfür auf einem Bildschirm beinhaltet, können diese Ergebnisse beispielsweise auf einer anderen Vorrichtung oder einem anderen Computer ausgegeben oder an eine Speichervorrichtung ausgegeben (d. h. gespeichert) werden.
Wirkungen der Ausführungsform
Die Ausführungsform gibt einen interessierenden Bereich von einem eingegebenen Bild unter Verwendung von Information von in einer Bilddatenbank gespeicherten Bildern aus, um die Genauigkeit der Extraktion im Vergleich zum Extrahieren eines interessieren Bereichs von nur dem eingegebenen Bild zu verbessern. Genauer gesagt ist im Vergleich zu existierenden lernbasierten Techniken zum Extrahieren von interessierenden Bereichen die Art von interessierendem Bereich, der extrahiert werden kann, nicht auf Bereiche beschränkt, die den Lerndaten ähnlich sind, was den Vorteil bietet, dass verschiedene Arten von Objekten als interessierende Bereiche extrahiert werden können. Außerdem verbessert die Verwendung von Abrufergebnissen von einer Bilddatenbank die Genauigkeit des Extrahierens von interessierenden Bereichen im Vergleich zu existierenden modellbasierten Techniken zum Extrahieren von interessierenden Bereichen.
Zweite Ausführungsform
Eine zweite Ausführungsform der vorliegenden Erfindung wird nachstehend beschrieben. Diese Ausführungsform ist grundsätzlich gleich wie die erste Ausführungsform; die Ausführungsformen unterscheiden sich insofern, als die auf der Basis der Anzahl von Suchtreffern für ein ähnliches Bild extrahierten interessierenden Bereiche daraufhin evaluiert werden, ob der interessierende Bereich korrekt extrahiert wurde.
7 ist ein Flussdiagramm, das den Ablauf der Prozesse zum Extrahieren eines interessierenden Bereichs in der Ausführungsform darstellt. Im Vergleich zur ersten Ausführungsform (2) fügt die zweite Ausführungsform einen Prozess zum Vergleichen der Anzahl von abgerufenen ähnlichen Bildern mit einem Schwellenwert ThN nach dem Schritt S30 des inhaltsbasierten Bildabrufs hinzu. Die Relevanzberechnungseinheit 130 berechnet den Relevanzwert des interessierenden Bereichs ähnlich wie bei der ersten Ausführungsform (S40), wenn die Anzahl von abgerufenen ähnlichen Bildern größer oder gleich dem Schwellenwert ThN ist (S35 – JA); die Relevanzberechnungseinheit 130 berechnet jedoch den Relevanzwert des interessierenden Bereichs nicht, wenn die Anzahl von ähnlichen Bildern kleiner als der Schwellenwert ThN (S35 – NEIN) ist.
Somit weisen Bereiche, wo nur einige ähnliche Bilder abgerufen werden, den Relevanzwert auf, der hierfür berechnet wurde. Bereiche mit nur einigen ähnlichen Bildern können als nicht wichtig genug angesehen werden, um Aufmerksamkeit zu erregen, und somit kann der obige Evaluierungsprozess auch als ein Prozess zum Ermitteln angesehen werden, ob die Genauigkeit des Prozesses zum Extrahieren des interessierenden Bereichs in Schritt S20 bei oder oberhalb eines gegebenen Schwellenwerts liegt.
Diese Extraktionsgenauigkeit braucht nicht nach Maßgabe der Anzahl von Suchtreffern für ähnliche Bilder evaluiert zu werden, und die Evaluierung kann auf der Basis von anderen Kriterien ausgeführt werden. Es ist außerdem festzuhalten, dass bei dieser Ausführungsform die Extraktionsgenauigkeit und der Relevanzwert für einen durch den zuvor beschriebenen Extraktionsprozess für den interessierenden Bereich (S20) jeweils auf der Basis unterschiedlicher Kriterien unter Verwendung der Ergebnisse des inhaltsbasierten Bildabrufs berechnet werden.
Dritte Ausführungsform
Eine dritte Ausführungsform der Erfindung wird nachstehend beschrieben. Bei der vorstehend beschriebenen ersten und zweiten Ausführungsform wird der Relevanzwert als ein lineares Universalmaß für Menschen im Allgemeinen berechnet. Wenn jedoch das Verfahren für die Extraktion eines interessierenden Bereichs für einen spezifischen Benutzer oder Anwendung bestimmt ist, dann sollte der berechnete Relevanzwert benutzer- oder anwendungsspezifisch auf der Basis von Vorkenntnissen ausgeführt werden. Eine Vorrichtung 310 zur Extraktion eines interessierenden Bereichs gemäß der dritten Ausführungsform akzeptiert einen auf der Basis von Vorkenntnissen ausgewählten Relevanzwertberechnungsparameter, um außerdem einen benutzerspezifischen Relevanzwert zu gewinnen.
Die Hardwarekonfiguration der Vorrichtung 310 zur Extraktion eines interessierenden Bereichs gemäß dieser Ausführungsform ist identisch mit der Hardwarekonfiguration der ersten Ausführungsform (1(A)). Die Arithmetikvorrichtung 12 der Vorrichtung 310 zur Extraktion eines interessierenden Bereichs führt ein Programm aus, um die in 8 dargestellten Funktionsblöcke zu implementieren. Während die Funktionsblöcke in der Vorrichtung 310 zur Extraktion eines interessierenden Bereichs im Wesentlichen identisch mit den Funktionsblöcken in der ersten Ausführungsform (1(B)) sind, umfasst die Relevanzberechnungseinheit 130 eine Universal-Relevanzberechnungseinheit 131, eine Relevanzwertberechnungskriterienerlangungseinheit 132, eine Spezial-Relevanzberechnungseinheit 133 und eine Relevanzwertintegrationseinheit 134.
9 ist ein Flussdiagramm, das Prozesse darstellt, die zum Extrahieren eines interessierenden Bereichs von der Vorrichtung 310 zur Extraktion eines interessierenden Bereichs ausgeführt werden. Den Prozessen, die identisch wie Prozesse in der ersten Ausführungsform (2) sind, werden die gleichen Bezugszahlen gegeben, und deren Beschreibung wird nicht wiederholt.
In Schritt S25 erlangt die Relevanzwertberechnungskriterienerlangungseinheit 132 die Kriterien, die zum Berechnen des Benutzer- oder anwendungsspezifischen Relevanzwerts (Spezial-Relevanzwert) verwendet werden. Die Berechnungskriterien ändern sich nach Maßgabe des Benutzers oder der Anwendung, der/die die Verarbeitungsergebnisse aus der Vorrichtung 310 zur Extraktion eines interessierenden Bereichs verwenden wird. Wenn beispielsweise Vorkenntnisse vorhanden sind, dass ein gegebener Benutzer ein besonderes Interesse an einem bestimmten Objekt hat, sollte der Relevanzwert dieses Objekts als ein größerer Wert für diesen Benutzer berechnet werden. Außerdem sollte der Relevanzwert des Objekts als ein größerer Wert in Fällen berechnet werden, in denen eine Anwendung einen Benutzer vor einem Objekt warnen sollte, das dazu tendiert, übersehen zu werden, da das Objekt in dem eingegebenen Bild klein sein oder eine Farbe aufweisen kann, die in die Umgebung übergeht, wodurch das Objekt schlecht wahrzunehmen ist. Die Relevanzwertberechnungskriterienerlangungseinheit 132 kann die Berechnungskriterien selbst von einer externen Quelle akzeptieren oder Information erlangen, welche den Benutzer oder die Anwendung spezifiziert, oder die Relevanzwertberechnungskriterien selbst erlangen, die zu den Benutzer oder der Anwendung korrespondieren. Im letztgenannten Fall kann die Relevanzwertberechnungskriterienerlangungseinheit 132 die Relevanzwertberechnungskriterien bezüglich Benutzer oder bezüglich Anwendung speichern oder eine Anforderung an eine externe Vorrichtung senden, die Relevanzwertberechnungskriterien zu gewinnen. Es ist zu beachten, dass in 9 die Relevanzwertberechnungskriterien nach Schritt S20 erlangt werden, jedoch können die Relevanzwertberechnungskriterien gewonnen werden, bevor das angegebene Bild in Schritt S10 erlangt wird, oder vor dem Prozess der Extrahierung des interessierenden Bereichs in S20.
Die Relevanzberechnungseinheit 130 berechnet während der Schleife L1 ähnlich wie bei der ersten Ausführungsform einen Relevanzwert für jeden der aus dem eingegebenen Bild extrahierten interessierenden Bereiche.
Die Bildabrufeinheit 120 richtet in Schritt S30 eine Anfrage an die Bilddatenbank 30, um Bilder abzurufen, die mit den interessierenden Bereichen übereinstimmen, und erlangt das Abrufergebnis von der Bilddatenbank 30. Dieser Prozess ist der Gleiche wie der Prozess bei der ersten Ausführungsform. Die Universal-Relevanzberechnungseinheit 131 berechnet in Schritt S41 einen Universal-Relevanzwert unter Verwendung der Abrufergebnisse und vorbestimmter Berechnungskriterien. Dieser Prozess ist der Gleiche wie der Relevanzberechnungsprozess in der ersten Ausführungsform (S40).
Als Nächstes berechnet die Spezial-Relevanzberechnungseinheit 133 in Schritt S42 einen benutzer- oder anwendungsspezifischen Relevanzwert (Spezial-Relevanzwert) unter Verwendung des Abrufergebnisses aus der Bildabrufeinheit 120 und der aus der Relevanzwertberechnungskriterienerlangungseinheit 132 erlangten Berechnungskriterien. Mit Ausnahme der Berechnungskriterien ist dieser Prozess gleich wie der Prozess in der Universal-Relevanzberechnungseinheit 131. Es ist zu beachten, dass die Spezial-Relevanzberechnungseinheit 133 eine Mehrzahl von diskreten Relevanzwerten nach Maßgabe unterschiedlicher Kriterien berechnet und einen Spezial-Relevanzwert durch Kombinieren der Mehrzahl von diskreten Relevanzwerten berechnet.
Die Relevanzwertintegrationseinheit 134 kombiniert den durch die Universal-Relevanzberechnungseinheit 131 berechneten Universal-Relevanzwert und den durch die Spezial-Relevanzberechnungseinheit 133 berechneten Spezial-Relevanzwert zu einem finalen Relevanzwert. Jedes beliebige Verfahren kann verwendet werden, um den Relevanzwert zu kombinieren; beispielsweise kann der finale Relevanzwert ein Mittelwert des Universal-Relevanzwerts und des Spezial-Relevanzwerts (ein einfacher Mittelwert oder ein gewichteter Mittelwert) sein. Das Gewicht für den gewichteten Mittelwert kann fest sein oder sich nach Maßgabe des Benutzers oder der Anwendung ändern. Außerdem kann die Relevanzwertintegrationseinheit 134 einen gewichteten Mittelwert der einzelnen Relevanzwerte verwenden, der berechnet wird, wenn der Universal-Relevanzwert und der Spezial-Relevanzwert berechnet werden, oder eine Funktion der einzelnen Relevanzwerte als den finalen Relevanzwert auswählen.
Der Ausgabeprozess, der erfolgt, nachdem der Relevanzwert für jeden der interessierenden Bereiche berechnet ist (S50), ist gleich wie der Prozess bei der ersten Ausführungsform.
Ein Beispiel von Berechnungskriterien für einen Spezial-Relevanzwert wird nachstehend beschrieben. Wie oben beschrieben, kann der Relevanzwert als umso größerer Wert berechnet werden, je größer das Interesse eines Benutzers ist, indem ein Schema des Interesses für den Benutzer verwendet wird. Außerdem kann, wenn ein Benutzer Schwierigkeiten hat, eine spezifische Farbe wahrzunehmen, der Relevanzwert für Objekte, welche diese Farbe beinhalten, als größere Werte berechnet werden. Des Weiteren kann, wenn die Anwendung im Erfassen von Objekten besteht, die schwerer wahrzunehmen sind, der Relevanzwert eines derartigen Objekts als ein umso größerer Wert berechnet werden, je kleiner die Größe des interessierenden Bereichs in dem eingegebenen Bild ist. Schließlich kann, wenn ein Verfahren zur Extraktion eines interessierenden Bereichs auf Video angewendet wird, der Relevanzwert als ein größerer Wert für Objekte, die plötzlich in dem Video erscheinen (das bedeutet Objekte, die in dem vorhergehenden Rahmen nicht vorhanden waren), berechnet werden, oder im Gegensatz dazu kann der Relevanzwert als ein größerer Wert für Objekte berechnet werden, die über einen langen Zeitraum kontinuierlich vorhanden sind.
Diese Ausführungsform berechnet einen Universal-Relevanzwert und einen Relevanzwert, der spezifisch für den speziellen Zweck des Kapitels ist, und kombiniert den Relevanzwert zu einem finalen Relevanzwert. Daher kann die Ausführungsform einen zweckbasierten Relevanzwert berechnen.
Es ist zu beachten, dass nicht sowohl der Universal-Relevanzwert als auch der Spezial-Relevanzwert erforderlich sind, und eine Ausführungsform kann lediglich den Spezial-Relevanzwert gewinnen. In diesem Fall können die Universal-Relevanzberechnungseinheit 131 und die Relevanzwertintegrationseinheit 134 aus der Relevanzberechnungseinheit 130 weggelassen werden.
Vierte Ausführungsform
Eine vierte Ausführungsform der Erfindung wird nachstehend beschrieben. Der Prozess des Ausgebens eines interessierenden Bereichs unterscheidet sich von den Prozessen in der ersten bis dritten Ausführungsform. Genauer gesagt werden einander benachbarte interessierende Bereiche in dem eingegebenen Bild kombiniert und als ein einziger interessierender Bereich ausgegeben.
Die Hardwarekonfiguration einer Vorrichtung 410 zur Extraktion eines interessierenden Bereichs gemäß dieser Ausführungsform ist identisch mit der Hardwarekonfiguration der ersten Ausführungsform (1(A)). Die Arithmetikvorrichtung 12 in der Vorrichtung 410 zur Extraktion eines interessierenden Bereichs führt ein Programm aus, um die in 10 dargestellten Funktionsblöcke zu implementieren. Zusätzlich zu den Funktionen in der ersten Ausführungsform ist die Vorrichtung 410 zur Extraktion eines interessierenden Bereichs mit einer Bereichsintegrationseinheit 150 versehen.
11 ist ein Flussdiagramm, das die durch die Vorrichtung 410 zur Extraktion eines interessierenden Bereichs ausgeführten Prozesse zum Extrahieren eines interessierenden Bereichs darstellt. Den Prozessen, die identisch mit den Prozessen in der ersten Ausführungsform (2) sind, sind die gleichen Bezugszahlen gegeben, und deren Beschreibung wird daher nicht wiederholt. In der Ausführungsform kombiniert nach der Verarbeitung in der Schleife L1 die Bereichsintegrationseinheit 150 in Schritt S45 eine Mehrzahl von interessierenden Bereichen auf der Basis der Positionsbeziehung zwischen den interessierenden Bereichen. Beispielsweise kombiniert die Bereichsintegrationseinheit 150 interessierende Bereiche, wenn der Abstand zwischen den interessierenden Bereichen kleiner oder gleich einem vorbestimmten Schwellenwert ThD ist. Der Abstand zwischen interessierenden Bereichen kann als der Abstand zwischen den Mitten (Anzahl an Pixeln) oder als der Abstand zwischen Rändern definiert werden. Der vorbestimmte Schwellenwert ThD kann ein fester Wert sein, oder kann sich nach Maßgabe der Größe des interessierenden Bereichs oder der Art des Objekts innerhalb des interessierenden Bereichs ändern.
12(A) zeigt interessierende Bereiche 1201–1203, die in Schritt S20 aus einem eingegebenen Bild extrahiert wurden. Während der interessierende Bereich 1201 von anderen interessierenden Bereichen entfernt ist, sind der interessierende Bereich 1202 und der interessierende Bereich 1203 nahe beieinander. Daher kombiniert die Bereichsintegrationseinheit 150 den interessierenden Bereich 1202 und den interessierenden Bereich 1203. 12(B) stellt das Bild 1200 nach dem Integrationsprozess dar. Wie dargestellt, sind der interessierende Bereich 1202 und der interessierende Bereich 1203 zu einem einzigen interessierenden Bereich 1204 kombiniert. Es ist zu beachten, dass nach der Kombination der interessierende Bereich 1204 das kleinste Quadrat ist, das den interessierenden Bereich 1202 und den interessierenden Bereich 1203 enthält, jedoch kann der kombinierte interessierende Bereich 1204 durch unterschiedliche Techniken generiert werden.
Während des Bereichsintegrationsprozesses können die interessierenden Bereiche mit einem niedrigen Relevanzwert von der Integration ausgeschlossen oder die Integration nur für interessierende Bereiche ausgeführt werden, wo deren Relevanzwerte eine vorbestimmte Beziehung erfüllen (d. h., der mittlere Relevanzwert ist größer oder gleich einem gegebenen Schwellenwert). Das bedeutet, die Bereichsintegrationseinheit 150 kann bestimmen, ob interessierende Bereiche auf der Basis des Relevanzwerts des interessierenden Bereichs und des Abstands zwischen den interessierenden Bereichen kombiniert werden oder nicht. Die Bereichsintegrationseinheit 150 kann auch drei oder mehrere interessierende Bereiche zu einem einzigen interessierenden Bereich kombinieren.
Die Bereichsintegrationseinheit 150 bestimmt ferner den Relevanzwert für einen kombinierten interessierenden Bereich, wenn eine Mehrzahl von interessierenden Bereichen kombiniert wird. Während es für den Relevanzwert eines kombinierten interessierenden Bereichs bevorzugt ist, beispielsweise der Mittelwert, das Maximum oder Ähnliches der Relevanzwerte zu sein, kann der Relevanzwert des kombinierten interessierenden Bereichs auch durch andere Verfahren bestimmt werden.
Mit Ausnahme der Verwendung eines kombinierten interessierenden Bereichs ist der Relevanzwertausgabeprozess für einen interessierenden Bereich in Schritt S50 gleich wie der Prozess in der ersten Ausführungsform.
Die Ausführungsform kombiniert eine Mehrzahl von interessierenden Bereichen, die einander nahe sind, um die Ausgabe der Anzahl der interessierenden Bereiche zu minimieren. Zusätzlich erlaubt die Verwendung eines Relevanzwerts, der die Abrufergebnisse von einer Bilddatenbank verwendet, wenn bestimmt wird, ob Bereiche zu kombinieren sind oder nicht, eine besser geeignete Kombination der Bereiche.
Andere Ausführungsformen
Die oben beschriebenen Ausführungsformen sind lediglich als Beispiele angegeben, und die Erfindung ist nicht auf die oben beschriebenen Beispiele beschränkt. Die Erfindung kann in verschiedenen Weisen innerhalb des Bereichs der entsprechenden technischen Ideen modifiziert werden.
In der obigen Beschreibung befinden sich die Bilddatenbank und die Vorrichtung zur Extraktion eines interessierenden Bereichs in verschiedenen Vorrichtungen; die Bilddatenbank und die Vorrichtung zur Extraktion eines interessierenden Bereichs können auch als eine einzige Vorrichtung konfiguriert sein. Die in der Bilddatenbank enthaltenen Bilddaten können auch durch den Hersteller der Vorrichtung zur Extraktion eines interessierenden Bereichs oder durch einen Benutzer registriert werden. Die Vorrichtung zur Extraktion eines interessierenden Bereichs kann eine Mehrzahl von Bilddatenbanken einschließlich einer in die Vorrichtung eingebauten Bilddatenbank sowie eine Bilddatenbank in einer externen Vorrichtung verwenden.
Das Verfahren der Berechnung des Relevanzwerts ist in der obigen Beschreibung als ein Beispiel angegeben; das Verfahren der Berechnung in der vorliegenden Erfindung ist nicht besonders beschränkt, sofern der Relevanzwert unter Verwendung von Abrufergebnissen von der Suche nach einem Bild berechnet wird, das mit dem interessierenden Bereich übereinstimmt. Ein Relevanzwert wird vorzugsweise unter Verwendung statistischer Informationen aus dem Abrufergebnis berechnet. Diese statistischen Informationen aus dem Abrufergebnis sind beispielsweise die Anzahl an Suchtreffern, ein statistischer Wert für einen Ähnlichkeitswert, ein statistischer Wert für die Größe des ähnlichen Bilds, die Position innerhalb des ähnlichen Bilds eines mit dem Suchbild übereinstimmenden Bereichs und eine Konvergenz der durch die Etiketteninformation ausgedrückten Bedeutung. Wenn die ähnlichen Bilddaten Metainformation enthalten, kann der Relevanzwert auf der Basis eines statistischen Werts für die Metainformation berechnet werden. Es ist zu beachten, dass ein statistischer Wert ein Wert ist, der durch Ausführen einer statistischen Verarbeitung einer Mehrzahl von Daten gewonnen wird und beispielsweise den Mittelwert, den Median, die Varianz, die Standardabweichung und dergleichen umfasst.
Der Relevanzwert des interessierenden Bereichs kann unter Verwendung von Informationen berechnet werden, die nicht die Ergebnisse von inhaltsbasiertem Bildabruf sind. Beispielsweise kann der Relevanzwert auf der Basis der Größe oder der Farbe des interessierenden Bereichs selbst oder des Orts des interessierenden Bereichs innerhalb des eingegebenen Bilds oder dergleichen berechnet werden.
Die obige Beschreibung geht davon aus, dass das eingegebene Bild ein Standbild ist; das eingegebene Bild kann jedoch auch ein Video (eine Mehrzahl von Standbildern) sein. In diesem Fall kann die Bereichsextraktionseinheit 110 existierende Algorithmen zur Extraktion eines interessierenden Bereichs aus dem Video verwenden, wenn sie einen interessierenden Bereich extrahiert. Außerdem kann die Relevanzberechnungseinheit 130 den Relevanzwert unter Berücksichtigung der Änderung der Position des interessierenden Bereichs im Zeitverlauf berechnen. Beispielsweise können die Geschwindigkeit, die Bewegungsrichtung und dergleichen des interessierenden Bereichs berücksichtigt werden. Der Relevanzwert des interessierenden Bereichs kann umso größer oder kleiner berechnet werden, je schneller sich der interessierende Bereich bewegt. Außerdem kann, wenn der Relevanzwert des interessierenden Bereichs durch Berücksichtigung der Bewegungsrichtung berechnet wird, der Relevanzwert auf der Basis der Bewegungsrichtung selbst berechnet werden, oder der Relevanzwert kann auf der Basis der Variation in der Bewegungsrichtung berechnet werden.
Eine Vorrichtung zur Extraktion eines interessierenden Bereichs gemäß Ausführungsformen der Erfindung kann in beliebige Informationsverarbeitungsvorrichtungen (d. h. Computer) wie zum Beispiel einen Desktopcomputer, einen tragbaren Computer, einen Tabletcomputer, ein Smartphone, ein Mobiltelefon, eine Digitalkamera, oder eine digitale Videokamera eingebaut sein.
Bezugszeichenliste

10, 310, 410: Vorrichtung zur Extraktion eines interessierenden Bereichs
20: Kamera
30: Bilddatenbank
110: Bereichsextraktionseinheit
120: Bildabrufeinheit
130: Relevanzberechnungseinheit
140: Ausgabeeinheit
150: Bereichsintegrationseinheit
400: eingegebenes Bild
401, 402, 403, 404: interessierender Bereich
601, 602, 603: Relevanzwertindikator
1200: eingegebenes Bild
1201, 1202, 1203: interessierende Bereiche (vor Kombination)
1204: interessierende Bereiche (nach Kombination)

Claims

Vorrichtung zur Extraktion eines interessierenden Bereichs, umfassend: eine Extraktionseinheit zum Extrahieren eines oder einer Mehrzahl von lokalen Bereichen aus einem eingegebenen Bild; eine Abrufeinheit zum Durchsuchen einer eine Mehrzahl von Bildern speichernden Bilddatenbank und zum Abrufen eines mit einem lokalen Bereich übereinstimmenden Bildes für jeden der durch die Extraktionseinheit extrahierten lokalen Bereiche; und eine Relevanzwertermittlungseinheit zum Ermitteln eines Relevanzwerts für jeden der lokalen Bereiche auf der Basis des Abrufergebnisses aus der Abrufeinheit.
Vorrichtung zur Extraktion eines interessierenden Bereichs nach Anspruch 1, wobei die Relevanzwertermittlungseinheit einen Relevanzwert eines lokalen Bereichs unter Verwendung statistischer Informationen eines durch die Abrufeinheit als mit dem lokalen Bereich übereinstimmenden abgerufenen Bildes ermittelt.
Vorrichtung zur Extraktion eines interessierenden Bereichs nach Anspruch 1 oder 2, wobei die Relevanzwertermittlungseinheit einen umso höheren Relevanzwert für einen lokalen Bereich ermittelt, je größer die Anzahl an Bildern ist, die mit dem lokalen Bereich übereinstimmen.
Vorrichtung zur Extraktion eines interessierenden Bereichs nach Anspruch 3, wobei die Relevanzwertermittlungseinheit den Relevanzwert für einen lokalen Bereich, dessen Anzahl an abgerufenen ähnlichen Bildern kleiner als ein Schwellenwert ist, nicht ermittelt.
Vorrichtung zur Extraktion eines interessierenden Bereichs nach einem der Ansprüche 1 bis 4, wobei die Relevanzwertermittlungseinheit einen umso höheren Relevanzwert für einen lokalen Bereich ermittelt, je größer die semantische Konvergenz von Etiketteninformation ist, die mit den mit dem lokalen Bereich übereinstimmenden ähnlichen Bildern verknüpft ist.
Vorrichtung zur Extraktion eines interessierenden Bereichs nach einem der Ansprüche 1 bis 5, wobei die Relevanzwertermittlungseinheit den Relevanzwert für einen lokalen Bereich auf der Basis der Größe oder des Orts des lokalen Bereichs ermittelt.
Vorrichtung zur Extraktion eines interessierenden Bereichs nach einem der Ansprüche 1 bis 6, ferner umfassend: eine Berechnungskriterienerlangungseinheit zum Aufnehmen einer Eingabe von Kriterien zum Berechnen des Relevanzwerts; und die Relevanzwertermittlungseinheit berechnet den Relevanzwert auf der Basis eines entsprechend eines vorbestimmten Berechnungskriteriums berechneten ersten Relevanzwerts und eines entsprechend eines durch die Berechnungskriterienerlangungseinheit erlangten Berechnungskriteriums berechneten zweiten Relevanzwerts.
Vorrichtung zur Extraktion eines interessierenden Bereichs nach einem der Ansprüche 1 bis 7, ferner umfassend: eine Integrationseinheit zum Kombinieren einer Mehrzahl von benachbarten lokalen Bereichen in dem eingegebenen Bild zu einem einzigen lokalen Bereich.
Vorrichtung zur Extraktion eines interessierenden Bereichs nach einem der Ansprüche 1 bis 8, ferner umfassend: eine Ausgabeeinheit zum Ausgeben des Ortes der in dem eingegebenen Bild enthaltenen lokalen Bereiche und des Relevanzwerts für jeden der lokalen Bereiche.
Vorrichtung zur Extraktion eines interessierenden Bereichs nach Anspruch 9, wobei die Ausgabeeinheit zum Ausgeben des Ortes und des Relevanzwerts nur für einen lokalen Bereich konfiguriert ist, dessen Relevanzwert größer oder gleich einem Schwellenwert ist.
Verfahren zur Extraktion eines interessierenden Bereichs, das auf einem Computer ausgeführt wird, wobei das Verfahren zur Extraktion eines interessierenden Bereichs folgende Schritte umfasst: Extrahieren eines oder einer Mehrzahl von lokalen Bereichen aus einem eingegebenen Bild; Durchsuchen einer eine Mehrzahl von Bildern speichernden Bilddatenbank und Abrufen eines mit einem lokalen Bereich übereinstimmenden Bildes für jeden der während des Extraktionsschrittes aus dem eingegebenen Bild extrahierten lokalen Bereiche; und Ermitteln eines Relevanzwerts für jeden der lokalen Bereiche auf der Basis des Abrufergebnisses aus dem Abrufschritt.
Programm für die Ausführung auf einem Computer, wobei das Programm die Schritte in dem Verfahren gemäß Anspruch 11 umfasst.