DE102020114615A1

DE102020114615A1 - Bildverarbeitungsvorrichtung und deren Steuerverfahren, Programm und Speichermedium

Info

Publication number: DE102020114615A1
Application number: DE102020114615.9A
Authority: DE
Inventors: Atsushi Nagao
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-06-03
Filing date: 2020-06-02
Publication date: 2020-12-03
Also published as: GB2599012B; JP2020198556A; US20200382697A1; US11438501B2; CN112040115A; CN112040115B; GB202007909D0; GB2587453B; JP7348754B2; GB2599012A; US20220377234A1; GB2587453A

Abstract

Eine Bildverarbeitungsvorrichtung umfasst eine Bestimmungseinrichtung zur Bestimmung, ob in einer Speichereinrichtung (219, 214) gespeicherte Bilddaten Bilddaten sind, die zum Lernen einer Situation zu verwenden sind, in der eine Bilderfassungseinrichtung (102) eine automatische Bilderfassung durchführen soll. Die Bestimmungseinrichtung bestimmt, dass die Bilddaten für das Lernen zu verwenden sind, wenn eine Anweisung zum Löschen der Bilddaten von einem Benutzer erteilt ist, und die Bilddaten eine vorbestimmte Bedingung erfüllen.

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf Maschinenlernen zur Veranlassung einer Bilderfassungsvorrichtung zum Erfassen eines Bildes, das den Geschmack eines Benutzers trifft.
Bei der Aufnahme eines Stehbildes/Bewegtbildes, die durch eine Bilderfassungsvorrichtung wie eine Kamera durchgeführt wird, bestimmt üblicherweise der Benutzer ein Subjekt, das aufzunehmen ist, über einen Sucher und dergleichen, überprüft die Aufnahmesituation selbst und passt die Bildeinstellung eines aufzunehmenden Bildes an, und nimmt ein Bild durch Durchführen einer Bedienung an einem Auslöser auf.
Im Gegensatz zu der Bilderfassungsvorrichtung, die eine Aufnahme gemäß diesen durch den Benutzer durchgeführten Bedienungen ausführt, offenbart die japanische Patentoffenlegung Nr. 2016-536868 eine Kamera, die eine sogenannte Livelog-Kamera ist, die eine Aufnahme periodisch und kontinuierlich durchführt, ohne dass der Benutzer eine Aufnahmeanweisung erteilt. Die Livelog-Kamera wird in einem am Körper des Benutzers unter Verwendung eines Bands oder dergleichen angebrachten Zustand verwendet und zeichnet Anblicke, die der Benutzer in seinem täglichen Leben sieht, mit einem bestimmten Zeitintervall als Videobilder auf. Die Aufnahme, die durch die Livelog-Kamera durchgeführt wird, wird nicht zu einem Zeitpunkt durchgeführt, der vom Benutzer durch Durchführen einer Bedienung an einem Auslöser oder dergleichen beabsichtigt ist, sondern wird mit einem bestimmten Intervall durchgeführt, und somit können unbeabsichtigte Momente, die normalerweise nicht aufgenommen worden wären, als Videobilder erhalten werden.
Wenn allerdings eine automatische Bilderfassung mit einem bestimmten Zeitintervall wie in der japanischen Patentoffenlegung Nr. 2016-536868 durchgeführt wird, besteht das Problem, dass eine Szene aufgenommen werden kann, die nicht dem Geschmack des Benutzers entspricht.
Durch Trainieren einer Bilderfassungsvorrichtung unter Verwendung von Bildern über Maschinenlernen, die dem Geschmack eines Benutzers entsprechen, kann die Bilderfassungsvorrichtung zur Durchführung einer automatischen Bilderfassung veranlasst werden, die dem Benutzergeschmack entspricht. Werden Bilder, die dem Geschmack eines Benutzers entsprechen, sowie Bilder gelernt, die dem Geschmack eines Benutzers nicht entsprechen, kann eine verbesserte Wirkung erhalten werden.
Hier entsteht ein Problem dahingehend, wie eine Bestimmung bei einem Bild durchzuführen ist, das dem Geschmack eines Benutzers nicht entspricht. Beispielsweise ist denkbar, ein gemäß einer Benutzeranweisung gelöschtes Bild als Bild zu bestimmen, das dem Benutzergeschmack nicht entspricht. Allerdings ist der Grund, warum der Benutzer ein Bild löscht, nicht nur der, dass das Bild nicht einem Benutzergeschmack entspricht, und es werden auch Fälle, wie dass es eine Vielzahl ähnlicher Bilder gibt, als Grund dafür berücksichtigt, dass der Benutzer ein Bild löscht.
KURZZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung wurde in Anbetracht der vorstehend beschriebenen Probleme getätigt und ermöglicht ein Lernen, bei dem ein Benutzergeschmack wiedergespiegelt wird, ohne dass der Benutzer eine bestimmte Bedienung durchführt.
Gemäß einer ersten Ausgestaltung der vorliegenden Erfindung ist eine Bildverarbeitungsvorrichtung bereitgestellt, mit einer Bestimmungseinrichtung zur Bestimmung, ob in einer Speichereinrichtung gespeicherte Bilddaten Bilddaten sind, die zum Lernen einer Situation zu verwenden sind, in der eine Bilderfassungseinrichtung eine automatische Bilderfassung durchführen soll. Die Bestimmungseinrichtung bestimmt, dass die Bilddaten für das Lernen zu verwenden sind, wenn durch einen Benutzer eine Anweisung zum Löschen der Bilddaten erteilt wird und die Bilddaten eine vorbestimmte Bedingung erfüllen.
Gemäß einer zweiten Ausgestaltung der vorliegenden Erfindung ist ein Steuerverfahren einer Bildverarbeitungsvorrichtung bereitgestellt, mit Bestimmen, ob in einer Speichereinrichtung gespeicherte Bilddaten Bilddaten sind, die zum Lernen einer Situation zu verwenden sind, in der eine Bilderfassungseinrichtung eine automatische Bilderfassung durchführen soll. Der Bestimmungsschritt bestimmt, dass die Bilddaten für das Lernen zu verwenden sind, wenn durch einen Benutzer eine Anweisung zum Löschen der Bilddaten erteilt wird und die Bilddaten eine vorbestimmte Bedingung erfüllen.
Weitere Merkmale vorliegender Erfindung werden aus der folgenden Beschreibung von Ausführungsbeispielen unter Bezugnahme auf die beiliegenden Zeichnungen ersichtlich.
Figurenliste
Die 1A und 1B zeigen schematische Darstellungen einer Bilderfassungsvorrichtung.

2 zeigt eine Darstellung einer Konfiguration einer Bilderfassungsvorrichtung.
3 zeigt eine Darstellung einer Konfiguration einer Bilderfassungsvorrichtung und einer externen Vorrichtung.
4 zeigt eine Darstellung einer Konfiguration einer externen Vorrichtung.
5 zeigt ein Ablaufdiagramm eines Arbeitsprozesses einer Steuerschaltung.
6 zeigt ein Ablaufdiagramm einer Automatischer-Bilderfassungsmod us-Verarbeitung.
7 zeigt eine Darstellung eines neuronalen Netzwerks.
8 zeigt eine Darstellung zur Veranschaulichung einer Bildanzeigeverarbeitung .
9 zeigt ein Ablaufdiagramm einer Lernmodusbestimmung.
10 zeigt ein Ablaufdiagramm einer Lernmodusverarbeitung.
11 zeigt ein Ablaufdiagramm zur Veranschaulichung einer Lernverarbeitung, die auf einer Löschen-Bedienung beruht.

BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
Nachstehend werden Ausführungsbeispiele unter Bezugnahme auf die beiliegenden Zeichnungen näher beschrieben. Es wird angemerkt, dass die folgenden Ausführungsbeispiele den Schutzbereich der beanspruchten Erfindung nicht einschränken sollen. In den Ausführungsbeispielen ist eine Vielzahl von Merkmalen beschrieben, es wird aber keine Einschränkung auf eine Erfindung gemacht, die all diese Merkmale erfordert, und eine Vielzahl dieser Merkmale kann soweit angemessen kombiniert werden. Jedes der nachstehend beschriebenen Ausführungsbeispiele vorliegender Erfindung kann allein oder als Kombination einer Vielzahl der Ausführungsbeispiele oder deren Merkmale nach Bedarf oder dort kombiniert werden, wo die Kombination von Komponenten oder Merkmalen aus individuellen Ausführungsbeispielen in einem einzelnen Ausführungsbeispiel vorteilhaft ist. In den beiliegenden Zeichnungen haben ferner gleiche oder ähnliche Konfigurationen die gleichen Bezugszeichen, und auf eine redundante Beschreibung wird verzichtet.
Konfiguration der Bilderfassungsvorrichtung
Die 1A und 1B zeigen schematische Darstellungen einer Bilderfassungsvorrichtung gemäß einem Ausführungsbeispiel vorliegender Erfindung. Die vorliegende Erfindung kann nicht nur bei einer Digitalkamera oder einer digitalen Videokamera angewendet werden, sondern auch bei einer Überwachungskamera, einer Web-Kamera, einem Mobiltelefon und dergleichen. Dieses Ausführungsbeispiel wird unter der Annahme einer Konfiguration beschrieben, in der eine Bilderfassungsvorrichtung selbst als Bildverarbeitungsvorrichtung dient, die Maschinenlernen durchführt, es kann aber auch eine Konfiguration angewendet werden, bei der ein Maschinenlernen für eine Bilderfassungsvorrichtung in einer Bildverarbeitungsvorrichtung durchgeführt wird, die von der Bilderfassungsvorrichtung getrennt vorhanden ist und mit der Bilderfassungsvorrichtung kommunizieren kann.
Eine in 1A gezeigte Bilderfassungsvorrichtung 101 ist unter anderem mit einem Bedienelement versehen, das die Durchführung einer Bedienung bei einem Leistungszuführungsschalter ermöglicht (der nachstehend als „An-/Aus-Schaltfläche“ bezeichnet wird, und die Bedienung kann eine Tipp-, Knipps- oder Wischbedienung oder dergleichen auf einem interaktiven Bedienfeld sein). Ein Tubus bzw. Gehäuse 102 ist ein Gehäuse, das eine Aufnahmelinsengruppe und einen Bildsensor enthält, die eine Bilderfassung durchführen, und ist mit einem Drehmechanismus versehen, der an der Bilderfassungsvorrichtung 101 angebracht ist, und das Gehäuse 102 relativ zu einer Fixiereinheit 103 zum Drehen antreiben kann. Eine Kipprotationseinheit 104 ist eine Motorantriebseinrichtung, die das Gehäuse 102 in der in 1B gezeigten Nickrichtung drehen kann, und eine Schwenkrotationseinheit 105 ist eine Motorantriebseinrichtung, die das Gehäuse 102 in der Gierrichtung drehen kann. Somit kann sich das Gehäuse 102 in den Richtungen einer oder mehrerer Achsen drehen. Es wird angemerkt, dass 1B Definitionen der Achsen für die Position der Fixiereinheit 103 zeigt. Sowohl ein Winkelgeschwindigkeitsmesser 106 als auch ein Beschleunigungsratenmesser 107 sind an der Fixiereinheit 103 der Bilderfassungsvorrichtung 101 angebracht. Eine Erschütterung der Bilderfassungsvorrichtung 101 wird dann beruhend auf dem Winkelgeschwindigkeitsmesser 106 und dem Beschleunigungsratenmesser 107 erfasst, und die Kipprotationseinheit und die Schwenkrotationseinheit werden beruhend auf einem erfassten Erschütterungswinkel zum Drehen angetrieben. Es wird eine Konfiguration angewendet, bei der eine Erschütterung und Neigung des Gehäuses 102, bei dem es sich um eine bewegliche Einheit handelt, entsprechend korrigiert werden.
2 zeigt ein Blockschaltbild einer Konfiguration einer Bilderfassungsvorrichtung dieses Ausführungsbeispiels. In 2 ist eine Steuerschaltung 221 durch einen Prozessor (beispielsweise eine CPU, eine GPU, einen Mikroprozessor und eine MPU), einen Speicher (beispielsweise einen DRAM und einen SRAM) und dergleichen gebildet. Diese führen verschiedene Verarbeitungsarten zur Steuerung der Blöcke der Bilderfassungsvorrichtung 101 aus und steuern einen Datentransfer zwischen Blöcken. Ein nichtflüchtiger Speicher (EEPROM) 214 ist ein elektrisch löschbarer/programmierbarer Speicher und speichert Konstanten für den Betrieb der Steuerschaltung 221, Programme und dergleichen.
In 2 enthält eine Zoomeinheit 201 eine Zoomlinse, die eine Vergrößerung durchführt. Eine Zoomantriebssteuerschaltung 202 führt eine Antriebssteuerung der Zoomeinheit 201 durch. Eine Fokussiereinheit 203 enthält eine Linse, die eine Fokuseinstellung durchführt. Eine Fokussierantriebssteuerschaltung 204 führt eine Antriebssteuerung der Fokussiereinheit 203 durch.
Eine Bilderfassungseinheit 206 enthält einen Bildsensor und einen A/D-Wandler, und der Bildsensor empfängt Licht, das auf die Linsengruppe fällt, und gibt Informationen hinsichtlich elektrischer Ladungen, die der Lichtmenge entsprechen, als analoge Bildsignale zu einer Bildverarbeitungsschaltung 207 aus. Die Bildverarbeitungsschaltung 207 ist eine Berechnungsschaltung, in der eine Vielzahl von ALUs (Arithmetik- und Logikeinheiten) angebracht sind, und wendet bei durch eine A/D-Wandlung ausgegebenen digitalen Bilddaten eine Bildverarbeitung, wie eine Verzerrungskorrektur, einen Weißabgleich und eine Farbinterpolationsverarbeitung, an und gibt die verarbeiteten digitalen Bilddaten aus. Die aus der Bildverarbeitungsschaltung 207 ausgegebenen digitalen Bilddaten werden durch eine Bildaufzeichnungsschaltung 208 in ein Aufzeichnungsformat wie JPEG umgewandelt und zu einem Speicher 213 und einer nachstehend beschriebenen Videobildausgabeschaltung 215 übertragen.
Eine Gehäuserotationsantriebsschaltung 205 treibt die Kipprotationseinheit 104 und die Schwenkrotationseinheit 105 an, um das Gehäuse 102 in der Kipprichtung und Schwenkrichtung anzutreiben.
Beispielsweise sind der Winkelgeschwindigkeitsmesser (Kreiselsensor) 106, der die Winkelgeschwindigkeiten der Bilderfassungsvorrichtung 101 in den drei Achsenrichtungen erfasst, und der Beschleunigungsratenmesser (Beschleunigungsratensensor) 107, der die Beschleunigungsraten der Vorrichtung in den drei Achsenrichtungen erfasst, in einer Vorrichtungserschütterungserfassungsschaltung 209 angebracht. In der Vorrichtungserschütterungserfassungsschaltung 209 werden der Rotationswinkel der Vorrichtung, der Versetzungsbetrag der Vorrichtung und dergleichen beruhend auf erfassten Signalen berechnet.
Eine Audioeingabeschaltung 211 beschafft Audiosignale der Umgebung der Bilderfassungsvorrichtung 101 von einem in der Bilderfassungsvorrichtung 101 vorgesehenen Mikrofon, führt eine Analog-Digital-Wandlung durch und überträgt die verarbeiteten Signale zu einer Audioverarbeitungsschaltung 212. Die Audioverarbeitungsschaltung 212 führt bei den eingegebenen digitalen Audiosignalen eine auf Ton bezogene Verarbeitung wie eine Optimierungsverarbeitung durch. Die durch die Audioverarbeitungsschaltung 212 verarbeiteten Audiosignale werden dann durch die Steuerschaltung 221 zu dem Speicher 213 übertragen. Der Speicher 213 speichert vorübergehend Bildsignale und Audiosignale, die jeweils durch die Bildverarbeitungsschaltung 207 und die Audioverarbeitungsschaltung 212 erhalten werden.
Die Bildverarbeitungsschaltung 207 und die Audioverarbeitungsschaltung 212 lesen vorübergehend in dem Speicher 213 gespeicherte Bildsignale und Audiosignale aus, kodieren die Bildsignale und die Audiosignale und erzeugen jeweils komprimierte Bildsignale und komprimierte Audiosignale. Die Steuerschaltung 221 überträgt diese komprimierten Bildsignale und komprimierten Audiosignale zu einer Aufzeichnungs-und-Wiedergabeschaltung 218. Die Aufzeichnungs-und-Wiedergabeschaltung 218 zeichnet die durch die Bildverarbeitungsschaltung 207 erzeugten komprimierten Bildsignale und die durch die Audioverarbeitungsschaltung 212 erzeugten komprimierten Audiosignale, andere auf eine Aufnahme bezogene Steuerdaten und dergleichen in einem Aufzeichnungsmedium 219 auf. Wenn Audiosignale nicht komprimiert und kodiert sind, überträgt die Steuerschaltung 221 außerdem durch die Audioverarbeitungsschaltung 212 erzeugte Audiosignale und durch die Bildverarbeitungsschaltung 207 erzeugte komprimierte Bildsignale zu der Aufzeichnungs-und-Wiedergabeschaltung 218 und zeichnet diese Signale in dem Aufzeichnungsmedium 219 auf.
Das Aufzeichnungsmedium 219 kann ein in der Bilderfassungsvorrichtung 101 enthaltenes Aufzeichnungsmedium oder ein entfernbares Aufzeichnungsmedium sein. Auf dem Aufzeichnungsmedium 219 können verschiedene Arten von Daten aufgezeichnet werden, wie komprimierte Bildsignale, komprimierte Audiosignale und durch die Bilderfassungsvorrichtung 101 erzeugte Audiosignale, und es wird im Allgemeinen ein Medium mit einer größeren Kapazität als der des nichtflüchtigen Speichers 214 verwendet. Beispiele des Aufzeichnungsmediums 219 umfassen Aufzeichnungsmedien aller Formate, wie eine Festplatte, eine optische Disk, eine magneto-optische Disk, eine CD-R, eine DVD-R, ein Magnetband, einen nichtflüchtigen Halbleiterspeicher und einen Flash-Speicher.
Die Aufzeichnungs-und-Wiedergabeschaltung 218 liest (gibt) komprimierte Bildsignale, komprimierte Audiosignale, Audiosignale, verschiedene Arten von Daten und Programme aus (wieder), die auf dem Aufzeichnungsmedium 219 aufgezeichnet sind. Die Steuerschaltung 221 überträgt die komprimierten Bilddaten und komprimierten Audiosignale, die ausgelesen wurden, dann zu der Bildverarbeitungsschaltung 207 und der Audioverarbeitungsschaltung 212. Die Bildverarbeitungsschaltung 207 und die Audioverarbeitungsschaltung 212 speichern die komprimierten Bildsignale und komprimierten Audiosignale vorübergehend in dem Speicher 213, dekodieren diese Signale unter Verwendung einer vorbestimmten Prozedur und übertragen die dekodierten Signale zu einer Videobildausgabeschaltung 215 und einer Audioausgabeschaltung 216.
Eine Vielzahl von in der Bilderfassungsvorrichtung 101 angebrachten Mikrofonen ist mit der Audioeingabeschaltung 211 verbunden, und die Audioverarbeitungsschaltung 212 kann die Richtung eines Tons in einer Ebene erfassen, in der die Vielzahl der Mikrofone installiert ist. Diese Informationen werden bei einer Suche nach einem Subjekt und einer automatischen Bilderfassung verwendet, was nachstehend beschrieben wird. Die Audioverarbeitungsschaltung 212 erfasst ferner einen bestimmten Audiobefehl.
Hinsichtlich des Audiobefehls kann eine Vielzahl von vorab registrierten Audiobefehlen verwendet werden, oder es kann auch eine Konfiguration angewendet werden, bei der der Benutzer einen bestimmten Audiobefehl in der Bilderfassungsvorrichtung registrieren kann. Außerdem wird auch eine Audioszenenerkennung durchgeführt. Bei der Audioszenenerkennung wird eine Audioszenenbestimmung unter Verwendung eines vorab über Maschinenlernen beruhend auf einer großen Menge von Audiodaten trainierten Netzwerks durchgeführt. Beispielsweise ist in der Audioverarbeitungsschaltung 212 ein Netzwerk zur Erfassung einer bestimmten Szene eingestellt, wie einer Szene, in der „Beifall geerntet wird“, „Klatschen durchgeführt wird“, und „jemand spricht“. Wenn eine bestimmte Audioszene oder ein bestimmter Audiobefehl erfasst wird, wird dann ein Erfassungsauslösesignal zu der Steuerschaltung 221 ausgegeben. Eine Leistungszuführungsschaltung 210 führt Leistung zu, um die Steuerschaltung 221 zum Arbeiten zu veranlassen.
Die Audioausgabeschaltung 216 gibt ein Audiomuster, das vorab eingestellt wurde, aus einem in der Bilderfassungsvorrichtung 101 eingebauten Lautsprecher beispielsweise zur Zeit der Aufnahme und dergleichen aus. Eine LED-Steuerschaltung 222 steuert eine in der Bilderfassungsvorrichtung 101 vorgesehene LED unter Verwendung eines vorab eingestellten Leuchtblinkmusters beispielsweise zur Zeit der Aufnahme und dergleichen. Die Videobildausgabeschaltung 215 ist beispielsweise durch einen Videobildausgangsanschluss gebildet, und überträgt der Reihe nach Bildsignale zur Anzeige eines Videobildes auf einer externen Anzeige oder dergleichen, die mit der Bilderfassungsvorrichtung 101 verbunden ist. Die Audioausgabeschaltung 216 und die Videobildausgabeschaltung 215 können außerdem ein integrierter Anschluss sein, beispielsweise ein Anschluss wie ein HDMI-(eingetragene Marke, High Definition Multimedia Interface)Anschluss.
Eine Kommunikationsschaltung 220 führt eine Kommunikation zwischen der Bilderfassungsvorrichtung 101 und einer externen Vorrichtung durch und überträgt und empfängt Daten, wie Audiosignale, Bildsignale, komprimierte Audiosignale und komprimierte Bildsignale. Die Kommunikationsschaltung 220 empfängt auch Aufnahmestart- und Aufnahmeendebefehle und Steuersignale hinsichtlich der Aufnahme, wie Steuersignale für Schwenk-Kipp-Operationen, Zoomansteuerung und dergleichen, und steuert die Bilderfassungsvorrichtung 101 gemäß einer Anweisung von einer externen Vorrichtung an, die mit der Bilderfassungsvorrichtung 101 wechselseitig kommunizieren kann. Außerdem werden Informationen, wie verschiedene auf Lernen bezogene Parameter, die durch eine nachstehend beschriebene Lernverarbeitungsschaltung 217 zu verarbeiten sind, zwischen der Bilderfassungsvorrichtung 101 und der externen Vorrichtung gesendet/empfangen. Die Kommunikationsschaltung 220 ist ein Drahtloskommunikationsmodul, wie ein Infrarotstrahlkommunikationsmodul, ein Bluetooth-(eingetragene Marke)Kommunikationsmodul, ein Drahtlos-LAN-Kommunikationsmodul, ein Drahtlohs-USB oder ein GPS-Empfänger.
Konfiguration der Bilderfassungsvorrichtung und einer externen
Kommunikationseinrichtung
3 zeigt eine Darstellung eines Konfigurationsbeispiels eines Drahtloskommunikationssystems, das die Bilderfassungsvorrichtung 101 und eine externe Einrichtung 301 enthält. Die Bilderfassungsvorrichtung 101 ist eine Digitalkamera, die eine Aufnahmefunktion aufweist, und die externe Einrichtung 301 ist eine intelligente Einrichtung, die ein Bluetooth-Kommunikationsmodul und ein Drahtlos-LAN-Kommunikationsmodul enthält.
Die Bilderfassungsvorrichtung 101 und die externe Einrichtung 301 können beispielsweise über eine Kommunikation 302 durch ein der Standardreihe IEEE802.11 genügendes Drahtlos-LAN und eine Kommunikation 303 mittels Bluetooth Low Energy (das nachstehend als „BLE“ bezeichnet wird) oder dergleichen miteinander kommunizieren, was eine untergeordnet-übergeordnet-Beziehung beispielsweise zwischen einer Steuerstation und einer ungeordneten Station beinhaltet. Es wird angemerkt, dass Drahtlos-LAN und BLE Beispiele einer Kommunikationstechnik sind, und jede Kommunikationsvorrichtung zwei oder mehr Kommunikationsfunktionen aufweist, und beispielsweise insoweit eine der Kommunikationsfunktionen zur Durchführung einer Kommunikation beruhend auf einer Beziehung zwischen einer Steuerstation und einer untergeordneten Station die andere (anderen) Kommunikationsfunktion (Kommunikationsfunktionen) steuern kann, eine andere Kommunikationstechnik verwendet werden kann. Ohne Beschränkung der Allgemeinheit wird angemerkt, dass die erste Kommunikation, wie die Kommunikation über ein Drahtlos-LAN, mit höherer Geschwindigkeit als die zweite Kommunikation, wie die Kommunikation über BLE, durchgeführt werden kann, und der Leistungsverbrauch und/oder die Kommunikationsdistanz der zweiten Kommunikation geringer/kürzer als die der ersten Kommunikation ist.
Unter Bezugnahme auf 4 wird eine Konfiguration der externen Einrichtung 301 beschrieben. Die externe Einrichtung 301 enthält beispielsweise eine Drahtlos-LAN-Steuerschaltung 401 für Drahtlos-LAN, eine BLE-Steuerschaltung 402 für BLE und außerdem eine Öffentliche-Leitung-Steuerschaltung bzw. Öffentliches-Drahtlosnetz-Steuerschaltung 406 für eine öffentliche Drahtloskommunikation. Die externe Einrichtung 301 enthält auch eine Paketsende-/Empfangsschaltung 403. Die Drahtlos-LAN-Steuerschaltung 401 führt eine HF-Steuerung des Drahtlos-LAN, Kommunikationsverarbeitung und Protokollverarbeitung hinsichtlich einer Kommunikation über Drahtlos-LAN und einer Ansteuereinrichtung durch, die verschiedene Arten von Kommunikationssteuerungen über ein der Standardreihe IEEE802.11 genügendes Drahtlos-LAN durchführt. Die BLE-Steuerschaltung 402 führt eine HF-Steuerung für BLE, Kommunikationsverarbeitung und Protokollverarbeitung hinsichtlich einer Kommunikation über BLE und einer Ansteuereinrichtung durch, die verschiedene Arten von Kommunikationssteuerungen über BLE durchführt. Die Öffentliche-Leitung-Steuerschaltung 406 führt eine HF-Steuerung für eine öffentliche Drahtloskommunikation, Kommunikationsverarbeitung und Protokollverarbeitung hinsichtlich einer öffentlichen Drahtloskommunikation und einer Steuereinrichtung durch, die verschiedene Arten öffentlicher Drahtloskommunikationssteuerungen durchführt. Die öffentliche Drahtloskommunikation ist beispielsweise eine Kommunikation nach dem IMT-(International Multimedia Telecommunications)Standard, dem LTE-(Long Term Evolution)Standard oder dergleichen. Die Paketsende-/Empfangsschaltung 403 führt eine Verarbeitung zur Ausführung eines Sendens und/oder Empfangens von Paketen hinsichtlich einer Kommunikation über Drahtlos-LAN und BLE und einer öffentlichen Drahtloskommunikation durch. Es wird angemerkt, dass hier ein Beispiel unter der Annahme beschrieben wird, dass die externe Einrichtung 301 ein Senden und/oder Empfangen von Paketen in einer Kommunikation durchführt, es kann aber ein von einer Paketvermittlung verschiedenes Kommunikationsformat, beispielsweise eine Leitungsvermittlung, verwendet werden.
Die externe Einrichtung 301 enthält beispielsweise eine Steuerschaltung 411, eine Speicherschaltung 404, eine GPS-Empfangsschaltung 405, eine Anzeigeeinrichtung 407, ein Bedienelement 408, eine Audioeingangs-/Verarbeitungsschaltung 409 und eine Leistungszuführungsschaltung 410. Die Steuerschaltung 411 führt eine Gesamtsteuerung der externen Einrichtung 301 beispielsweise durch Ausführen eines in der Speicherschaltung 404 gespeicherten Steuerprogramms durch. Die Speicherschaltung 404 speichert beispielsweise ein Steuerprogramm, das durch die Steuerschaltung 411 ausgeführt wird, und verschiedene Arten von Informationen, wie für die Kommunikation erforderliche Parameter. Verschiedene Arbeitsprozesse, die nachstehend beschrieben werden, werden realisiert, indem die Steuerschaltung 411 ein in der Speicherschaltung 404 gespeichertes Steuerprogramm ausführt.
Die Leistungszuführungsschaltung 410 führt der externen Einrichtung 301 Leistung zu. Die Anzeigeeinrichtung 407 weist beispielsweise eine Funktion zum Ausgeben visuell erkennbarer Informationen wie im Fall einer LCD oder einer LED oder Ausgabe von Ton aus einem Lautsprecher oder dergleichen auf und zeigt verschiedene Arten von Informationen an. Das Bedienelement 408 ist beispielsweise eine Schaltfläche oder dergleichen, die eine durch den Benutzer an der externen Einrichtung 301 durchgeführte Bedienung annimmt. Es wird angemerkt, dass die Anzeigeeinrichtung 407 und das Bedienelement 408 beispielsweise durch ein gemeinsames Bauteil, wie ein interaktives Bedienfeld, gebildet sein können.
Es kann auch eine Konfiguration angewendet werden, bei der die Audioeingangs-/Verarbeitungsschaltung 409 vom Benutzer gemachten Ton beispielsweise von einem in der externen Einrichtung 301 eingebauten Universalmikrofon beschafft, und eine Betriebsanweisung von dem Benutzer über eine Spracherkennungsverarbeitung beschafft.
Außerdem wird ein Audiobefehl über eine dedizierte Anwendung in der externen Einrichtung 301 aus Audio des Benutzers beschafft. Der Audiobefehl kann als bestimmter Audiobefehl zur Veranlassung der Audioverarbeitungsschaltung 212 der Bilderfassungsvorrichtung 101, einen bestimmten Audiobefehl zu erkennen, über die Kommunikation 302 über Drahtlos-LAN registriert werden.
Eine GPS-(Global Positioning System)Empfangsschaltung 405 wird über ein GPS-Signal benachrichtigt und empfängt das GPS-Signal von einem Satelliten, analysiert das GPS-Signal und schätzt die aktuelle Position der externen Einrichtung 301 (Längengrad-Breitengrad-Informationen). Alternativ kann die aktuelle Position der externen Einrichtung 301 hinsichtlich der Positionsschätzung unter Verwendung eines WPS (Wi-Fi Positioning System) oder dergleichen beruhen auf Informationen hinsichtlich eines Drahtlosnetzwerks geschätzt werden, das in ihrer Umgebung vorhanden ist. Wenn beschaffte aktuelle GPS-Positionsinformationen angeben, dass sich die externe Einrichtung 301 in einem vorab eingestellten Positionsbereich (in dem Bereich eines vorbestimmten Radius) befindet, werden der Bilderfassungsvorrichtung 101 Bewegungsinformationen über die BLE-Steuerschaltung 402 mitgeteilt, und die Bewegungsinformationen werden für Parameter für eine automatische Bilderfassung und automatische Bearbeitung verwendet, was später beschrieben wird. Wenn GPS-Positionsinformationen eine Positionsänderung enthalten, die größer oder gleich einem vorbestimmten Wert ist, werden der Bilderfassungsvorrichtung 101 außerdem Bewegungsinformationen über die BLE-Steuerschaltung 402 mitgeteilt, und die Bewegungsinformationen werden für Parameter für eine automatische Bilderfassung und automatische Bearbeitung verwendet, was später beschrieben wird.
Wie vorstehend beschrieben, senden/empfangen die Bilderfassungsvorrichtung 101 und die externe Einrichtung 301 über eine Kommunikation Daten zu/voneinander, die die Drahtlos-LAN-Steuerschaltung 401 und die BLE-Steuerschaltung 402 verwendet. Beispielsweise werden Daten, wie Audiosignale, Bildsignale, komprimierte Audiosignale und komprimierte Bildsignale gesendet und empfangen. Auch werden Anweisungen für einen Betrieb, wie eine Aufnahme erteilt, Audiobefehlsregistrierdaten werden gesendet, und eine Mitteilung über eine vorbestimmte Positionserfassung und Ortsbewegung beruhend auf GPS-Positionsinformationen wird von der externen Einrichtung 301 zu der Bilderfassungsvorrichtung 101 durchgeführt. Außerdem werden Lerndaten über eine dedizierte Anwendung in der externen Einrichtung 301 gesendet/empfangen.
Abfolge des Bilderfassungsvorgangs
5 zeigt ein Ablaufdiagramm eines Beispiels eines Betriebs, für den die Steuerschaltung 221 der Bilderfassungsvorrichtung 101 bei diesem Ausführungsbeispiel verantwortlich ist.
Wenn der Benutzer eine Bedienung bei einer an der Bilderfassungsvorrichtung 101 vorgesehenen Leistungszuführungsschaltfläche vornimmt, führt die Leistungszuführungsschaltung 210 der Steuerschaltung 221 und den Blöcken der Bilderfassungsvorrichtung 101 Leistung zu. Wenn Leistung zugeführt wird, startet die Verarbeitung in 5. In Schritt S501 (nachstehend wird „Schritt S“ mit „S“ abgekürzt) wird eine Startbedingung gelesen. Bei diesem Ausführungsbeispiel kann die Leistungszuführungsschaltfläche manuell zum Starten einer Leistungszuführung gedrückt werden, oder die Leistungszuführung kann im Ansprechen auf eine Anweisung von einer externen Einrichtung (beispielsweise 301) gestartet werden, die über eine externe Kommunikation (beispielsweise BLE-Kommunikation) erteilt wird. Alternativ kann die Leistungszuführung durch Erfassen gestartet werden, dass der Benutzer die Bilderfassungsvorrichtung 101 antippt, oder die Leistungszuführung kann auch gestartet werden, indem die Eingabe eines bestimmten Audiobefehls erfasst wird. Außerdem wird die Startbedingung, die hier gelesen wird, als ein Parameterelement zur Zeit einer Subjektsuche und automatischen Bilderfassung verwendet, jedoch wird dies später beschrieben. Wenn das Lesen der Starbedingung endet, geht die Prozedur zu S502.
In S502 werden Erfassungswerte verschiedener Sensoren gelesen. Hier enthalten die Erfassungswerte von Sensoren, die gelesen werden, Erfassungswerte von Sensoren, die eine Erschütterung erfassen, wie des Kreiselsensors und des Beschleunigungssensors der Vorrichtungserschütterungserfassungsschaltung 209. Die Erfassungswerte enthalten auch Rotationspositionen der Kipprotationseinheit 104 und der Schwenkrotationseinheit 105. Des Weiteren enthalten die Erfassungswerte auch einen Audiopegel, der durch die Audioverarbeitungsschaltung 212 erfasst wird, einen Erfassungsauslöser einer bestimmten Spracherkennung und einen Erfassungswert einer Tonrichtung.
Obwohl in den 1 bis 4 nicht gezeigt können Informationen auch durch Sensoren beschafft werden, die Umgebungsinformationen erfassen. Beispielsweise sind ein Temperatursensor, der die Temperatur in der Umgebung der Bilderfassungsvorrichtung 101 mit einem vorbestimmten Zyklus erfasst, und ein pneumatischer Sensor enthalten, der Änderungen im Luftdruck in der Umgebung in der Bilderfassungsvorrichtung 101 erfasst. Außerdem können auch ein Beleuchtungssensor, der die Helligkeit in der Umgebung der Bilderfassungsvorrichtung 101 erfasst, ein Feuchtigkeitssensor, der die Feuchtigkeit in der Umgebung der Bilderfassungsvorrichtung 101 erfasst, ein UV-Sensor, der den Anteil an ultraviolettem Licht in der Umgebung der Bilderfassungsvorrichtung 101 erfasst, und dergleichen enthalten sein. Erfasste Temperaturinformationen, Luftdruckinformationen, Helligkeitsinformationen, Feuchtigkeitsinformationen und UV-Informationen sowie ein Temperaturänderungsbetrag, Luftdruckänderungsbetrag, Helligkeitsänderungsbetrag, Feuchtigkeitsänderungsbetrag, Ultraviolettlicht-Änderungsbetrag und dergleichen, die aus den verschiedenen Arten erfasster Informationen mit einem vorbestimmten Zeitintervall unter Anwendung einer Änderungsrate berechnet werden, werden für eine nachstehend beschriebene Bestimmung bei der automatischen Bilderfassung und dergleichen verwendet.
Wurden die Erfassungswerte der verschiedenen Sensoren in S502 gelesen, geht die Prozedur zu S503. In S503 wird eine Erfassung dahingehend durchgeführt, ob eine Kommunikationsanweisung von einer externen Vorrichtung erteilt wurde oder nicht, und wurde eine Kommunikationsanweisung erteilt, wird eine Kommunikation mit der externen Vorrichtung durchgeführt. Beispielsweise wird über Drahtlos-LAN oder BLE eine Fernbedienung von der externen Einrichtung 301 empfangen, und Daten, wie Audiosignale, Bildsignale, komprimierte Audiosignale und komprimierte Bildsignale werden gesendet und empfangen. Außerdem wird ein Lesen dahingehend durchgeführt, ob die externe Einrichtung 301 eine Betriebsanweisung für die Bilderfassungsvorrichtung 101 zur Durchführung einer Aufnahme und dergleichen erteilt hat oder nicht, Audiobefehlsregistrierdaten gesendet hat oder nicht, eine Mitteilung hinsichtlich einer vorbestimmten Positionserfassung und Bewegung, die auf GPS-Positionsinformationen beruhen, durchgeführt hat oder nicht, und eine Anweisung zum Senden/Empfangen von Lerndaten erteilt hat oder nicht.
Außerdem können verschiedene Sensoren, die die vorstehend beschriebenen Umgebungsinformationen erfassen, in der Bilderfassungsvorrichtung 101 eingebaut sein, oder können in der externen Einrichtung 301 eingebaut sein, in welchem Fall Umgebungsinformationen auch über BLE gelesen werden. Wurde in S503 ein Lesen von der externen Einrichtung über eine Kommunikation durchgeführt, geht die Prozedur zu S504.
In S504 wird eine Moduseinstellbestimmung durchgeführt. Ein Modus, der in S504 eingestellt wird, wird aus den nachstehend aufgelisteten bestimmt und ausgewählt.
Manueller Bilderfassungsmodus
Mod usbestimmungsbeding ung
Wird erfasst, dass ein Befehl zum Einstellen eines manuellen Bilderfassungsmodus von der externen Einrichtung 301 gesendet wurde, wird der manuelle Bilderfassungsmodus eingestellt.
Verarbeitung im Modus
Bei der Manueller-Bilderfassungsmodus-Verarbeitung (S506) wird ein Schwenken-Kippen oder Zoomen gemäß vom Benutzer eingegebenem Inhalt angesteuert, und die Aufnahme eines Stehbildes und die Aufzeichnung eines Bewegtbildes werden entsprechend einer Aufnahmeanweisung durch den Benutzer gestartet.
Automatischer Bilderfassungsmodus
Modusbestimmungsbedingung
Wird bestimmt, dass eine automatische Bilderfassung durchzuführen ist, wird der automatische Bilderfassungsmodus beruhend auf verschiedenen Erfassungsinformationsteilen (Bilder, Ton, Zeit, Erschütterung, Ort, Änderung im menschlichen Körper, Umgebungsänderung), die über nachstehend beschriebenes Lernen eingestellt werden, der Zeit, die seit Änderung des Bilderfassungsmodus in einen automatischen Bilderfassungsmodus vergangen ist, früheren Aufnahmeinformationen und dergleichen eingestellt.
Verarbeitung im Modus
Bei einer Automatischer-Bilderfassungsmodus-Verarbeitung (S508) werden Schwenken-Kippen und Zoomen beruhend auf verschiedenen Erfassungsinformationsteilen (Bilder, Ton, Zeit, Erschütterung, Ort, Änderung im menschlichen Körper, Umgebungsänderung) angesteuert, und es wird automatisch nach einem Subjekt gesucht. Wird bestimmt, dass ein Zeitpunkt gekommen ist, wenn eine Aufnahme durchgeführt werden kann, die einen Benutzergeschmack trifft, wird die Aufnahme automatisch durchgeführt. Es wird angemerkt, dass dann, wenn eine Aufnahmeanweisung vom Benutzer erteilt wurde, die Aufnahme gemäß der Anweisung durchgeführt wird.
Lernmodus
Mod usbestimmungsbeding ung
Wird bestimmt, dass ein Lernen durchzuführen ist, wird ein Lernmodus beruhend auf der Zeit, die seit Durchführung der letzten Lernverarbeitung vergangen ist, Informationen, die mit einem Bild verknüpft sind, das zum Lernen verwendet werden kann, der Anzahl an Trainingsdatenstücken und dergleichen eingestellt. Alternativ wird der Lernmodus auch eingestellt, wenn eine Anweisung zum Einstellen von Lernparametern von der externen Einrichtung 301 über eine Kommunikation erteilt wird.
Verarbeitung im Modus
Bei einer Lernmodusverarbeitung (S510) wird ein Lernen durchgeführt, das einen Benutzergeschmack trifft. Lernen, das einen Benutzergeschmack trifft, wird beruhend auf Informationen hinsichtlich Operationen in der externen Einrichtung 301 (Operationen, die in der externen Einrichtung 301 durchgeführt werden), einer Mitteilung über Trainingsdaten von der externen Einrichtung 301 und dergleichen unter Verwendung eines neuronalen Netzwerks durchgeführt. Beispiele der Informationen über Operationen in der externen Einrichtung 301 (Operationen, die in der externen Einrichtung 301 durchgeführt werden), enthalten Informationen hinsichtlich einer Beschaffung eines Bildes von der Bilderfassungsvorrichtung 101, Informationen hinsichtlich einer Anweisung zur Durchführung einer manuellen Bearbeitung, die über eine dedizierte Anwendung erteilt wird, und Informationen hinsichtlich eines Bestimmungswerts, der durch den Benutzer für ein Bild in der Bilderfassungsvorrichtung eingegeben wird.
Es wird angemerkt, dass die Automatischer-Bilderfassungsmodus-Verarbeitung und Lernmodusverarbeitung nachstehend näher beschrieben werden.
In S505 in 5 wird eine Bestimmung durchgeführt, ob der manuelle Bilderfassungsmodus in S504 bei der Moduseinstellbestimmung eingestellt wurde oder nicht. Wird bestimmt, dass der manuelle Bilderfassungsmodus eingestellt ist, geht die Prozedur zu S506, und die Manueller-Bilderfassungsmodus-Verarbeitung wird durchgeführt. Bei der Manueller-Bilderfassungsmodus-Verarbeitung wird die Bilderfassungsvorrichtung 101 wie vorstehend beschrieben gemäß dem Inhalt der durch den Benutzer durchgeführten Eingabe angesteuert. Wenn die Verarbeitung endet, kehrt die Prozedur zu S502 zurück.
Wird in S505 andererseits bestimmt, dass der manuelle Bilderfassungsmodus nicht eingestellt ist, geht die Prozedur zu S507, und eine Bestimmung wird durchgeführt, ob der automatische Bilderfassungsmodus in den Moduseinstellungen eingestellt ist oder nicht, und ist der automatische Bilderfassungsmodus eingestellt, geht die Prozedur zu S508, und die Automatischer-Bilderfassungsmodus-Verarbeitung wird durchgeführt. Wenn die Verarbeitung endet, kehrt die Prozedur zu S502 zurück. Wird in S507 bestimmt, dass der automatische Bilderfassungsmodus in den Moduseinstellungen nicht eingestellt ist, geht die Prozedur zu S509.
In S509 wird eine Bestimmung dahingehend durchgeführt, ob der Lernmodus in den Moduseinstellungen eingestellt ist oder nicht, und wenn der Lernmodus eingestellt ist, geht die Prozedur zu S510 und die Lernmodusverarbeitung wird durchgeführt. Wenn die Verarbeitung endet, kehrt die Prozedur zu S502 zurück, und die Verarbeitung wird wiederholt. Wird in S509 bestimmt, dass der Lernmodus nicht eingestellt ist, kehrt die Prozedur zu S502 zurück und die Verarbeitung wird wiederholt.
Automatischer-Bilderfassungsmodus-Verarbeitung
Die Automatischer-Bilderfassungsmodus-Verarbeitung in S508 in 5 wird unter Bezugnahme auf 6 näher beschrieben. Wie vorstehend beschrieben, steuert die Steuerschaltung 221 der Bilderfassungsvorrichtung 101 bei diesem Ausführungsbeispiel die folgende Verarbeitung.
In S601 führt die Bildverarbeitungsschaltung 207 eine Bildverarbeitung bei durch die Bilderfassungseinheit 206 erfassten Bildsignalen durch und erzeugt ein Bild für eine Subjekterkennung. Eine Subjekterkennung, wie die Erkennung einer Person und eines Objekts, wird bei dem erzeugten Bild durchgeführt.
Wird die Erkennung einer Person durchgeführt, werden das Gesicht und der Körper eines Subjekts erfasst. Bei einer Gesichtserfassungsverarbeitung wird vorab ein Muster zur Bestimmung eines Gesichts einer Person definiert, und aus Regionen, die in einem erfassten Bild enthalten sind, kann ein Abschnitt als Gesichtsbild einer Person erfasst werden, der mit diesem Muster übereinstimmt. Gleichzeitig wird auch die Zuverlässigkeit berechnet, die die Wahrscheinlichkeit angibt, dass der Abschnitt das Gesicht eines Subjekts ist. Die Zuverlässigkeit wird beruhend auf der Größe der Gesichtsregion in dem Bild, dem Grad der Übereinstimmung mit einem Gesichtsmuster und dergleichen berechnet.
Gleichermaßen ist es bei der Objekterkennung möglich, ein Objekt zu erkennen, das mit einem vorab registrierten Muster übereinstimmt. Außerdem gibt es beispielsweise ein Verfahren zum Extrahieren eines Merkmalssubjekts unter Verwendung eines Verfahrens, das Histogramme von Farbton, Sättigung und dergleichen in einem aufgenommenen Bild verwendet. In diesem Fall wird hinsichtlich eines Bildes eines mit einem Bildwinkel erfassten Subjekts eine Verarbeitung zur Einteilung einer aus den Histogrammen von Farbton, Sättigung und dergleichen hergeleiteten Verteilung in eine Vielzahl von Sektionen und Klassifizierung eines erfassten Bildes für jede der Sektionen ausgeführt.
Beispielsweise werden für ein erfasstes Bild Histogramme einer Vielzahl von Farbkomponenten erzeugt, ihr parabolischer Verteilungsbereich wird in Sektionen eingeteilt, und das erfasste Bild wird in eine Region klassifiziert, das zu einer Kombination in derselben Sektion gehört, und die Bildregion eines Subjekts wird erkannt.
Durch Berechnen eines Bewertungswerts für jede Bildregion eines erkannten Subjekts kann die Bildregion des Subjekts mit dem größten Bewertungswert als Hauptsubjektregion bestimmt werden.
Jeder Subjektinformationsteil kann unter Verwendung des vorstehend beschriebenen Verfahrens aus einem erfassten Bild erhalten werden.
In S602 wird ein Erschütterungskorrekturbetrag berechnet. Insbesondere wird zuerst der absolute Winkel einer Orientierungsänderung der Bilderfassungsvorrichtung 101 beruhend auf Winkelgeschwindigkeits- und Beschleunigungsrateninformationen berechnet, die durch die Vorrichtungserschütterungserfassungsschaltung 209 beschafft werden. Ein Erschütterungskorrekturwinkel zur Bewegung der Kipprotationseinheit 104 und der Schwenkrotationseinheit 105 in einer Winkelrichtung, in der der absolute Winkel aufgehoben ist, wird dann erhalten und als Erschütterungskorrekturbetrag eingestellt.
In S603 wird der Zustand der Bilderfassungsvorrichtung 101 bestimmt. Die Bestimmung wird dahingehend durchgeführt, in welchem Erschütterungs-/Bewegungszustand sich die Bilderfassungsvorrichtung 101 gegenwärtig befindet, indem ein Winkel und ein Bewegungsbetrag verwendet werden, die beruhend auf Winkelgeschwindigkeitsinformationen, Beschleunigungsrateninformationen, GPS-Positionsinformationen und dergleichen erfasst werden. Ist die Bilderfassungsvorrichtung 101 beispielsweise in einem Fahrzeug angebracht und wird eine Aufnahme durchgeführt, ändern sich in Abhängigkeit von der Distanz der Bewegung Subjektinformationen, wie die umgebende Landschaft, sehr stark.
Daher wird eine Bestimmung dahingehend durchgeführt, ob sich die Bilderfassungsvorrichtung 101 in einem „Bewegung-im-Fahrzeug-Zustand“, d.h. einem Zustand befindet, dass sie in einem Fahrzeug oder dergleichen angebracht ist und sich mit hoher Geschwindigkeit bewegt, und das Ergebnis kann für eine nachstehend beschriebene automatische Subjektsuche verwendet werden.
Außerdem wird eine Bestimmung dahingehend durchgeführt, ob eine Winkeländerung groß ist, und eine Bestimmung dahingehend durchgeführt, ob sich die Bilderfassungsvorrichtung 101 in einem Zustand „zur Aufnahme platziert“ befindet, in dem es nahezu keinen Schaukelwinkel gibt. In dem Zustand „zur Aufnahme platziert“ kann berücksichtigt werden, dass es keine Winkeländerung der Bilderfassungsvorrichtung 101 selbst gibt, und somit eine Subjektsuche für den Zustand „zur Aufnahme platziert“ durchgeführt werden kann. Wenn die Winkeländerung relativ groß ist, wird auch bestimmt, dass sich die Bilderfassungsvorrichtung 101 in einem „Handhalte-Zustand“ befindet, und die Subjektsuche für den „Handhalte-Zustand“ kann durchgeführt werden.
In S604 wird eine Subjektsuchverarbeitung durchgeführt. Die Steuerschaltung 221 teilt den an der Position der Bilderfassungseinrichtung 101 zentrierten gesamten Bereich ein (der Ursprung O in 1B gibt die Position der Bilderfassungsvorrichtung an). Für jeden eingeteilten Bereich wird ein Wichtigkeitsgrad, der eine Prioritätsreihenfolge angibt, mit der eine Suche durchgeführt wird, gemäß einem Subjekt in dem Bereich und einer Szenensituation des Bereichs berechnet.
Ein Wichtigkeitsgrad, der auf der Situation eines Subjekts beruht, wird beispielsweise beruhend auf der Anzahl an Personen in dem Bereich, der Größe des Gesichts einer Person, der Orientierung eines Gesichts, Wahrscheinlichkeit einer Gesichtserfassung, Gesichtsausdruck einer Person und einem persönlichen Authentifizierungsergebnis einer Person berechnet. Außerdem wird ein Wichtigkeitsgrad, der auf der Situation einer Szene beruht, beispielsweise beruhend auf einem allgemeinen Objekterkennungsergebnis, einem Szenenbestimmungsergebnis (blauer Himmel, Gegenlichtszene, Abendansicht, usw.), dem Pegel von Ton, der aus der Richtung des Bereichs gehört wird und einem Spracherkennungsergebnis, Bewegungserfassungsinformationen in dem Bereich und dergleichen berechnet. Bei der Bestimmung des Zustands der Bilderfassungsvorrichtung 101 (S603) wird außerdem ein Erschütterungszustand der Bilderfassungsvorrichtung 101 erfasst, und es kann eine Konfiguration angewendet werden, bei der sich der Wichtigkeitsgrad auch entsprechend einem Erschütterungszustand ändert. Wird beispielsweise bestimmt, dass sich die Bilderfassungsvorrichtung 101 in dem Zustand „für Aufnahme platziert“ befindet, und wurde das Gesicht einer bestimmten Person erfasst, wird ein Wichtigkeitsgrad als hoch bestimmt, um eine Subjektsuche durchzuführen, die an einem Subjekt mit hoher Priorität (beispielsweise dem Benutzer der Bilderfassungsvorrichtung) aus Subjekten zentriert ist, die über eine Gesichtsauthentifizierung registriert sind. Außerdem wird eine nachstehend beschriebene automatische Bilderfassung auch durchgeführt, wenn dem Gesicht einer bestimmten Person Priorität zugeordnet ist, und selbst wenn der Benutzer der Bilderfassungsvorrichtung 101 die Bilderfassungsvorrichtung trägt und mit sich führt, und die Zeit, während der die Aufnahme durchgeführt wird, lang ist, ist es möglich, eine große Anzahl an Bildern des Benutzers zu erhalten, indem die Bilderfassungsvorrichtung abgenommen und beispielsweise auf einem Tisch platziert wird. Da zu diesem Zeitpunkt eine Suche durch Schwenk-Kipp-Operationen durchgeführt werden kann, ist es möglich, Bilder des Benutzers, Gruppenfotos einer großen Anzahl an Gesichtern und dergleichen einfach durch zufälliges Platzieren der Bilderfassungsvorrichtung 101 beispielsweise ohne Berücksichtigung eines Winkels zu erhalten, mit dem die Bilderfassungsvorrichtung platziert ist.
Es wird angemerkt, dass nur unter der vorstehenden Bedingung der Bereich mit dem höchsten Wichtigkeitsgrad derselbe bleibt, solange es keine Änderung in den Bereichen gibt, und infolgedessen der Bereich, der durchsucht wird, sich niemals ändert. In Anbracht dessen wird der Wichtigkeitsgrad gemäß früherer Aufnahmeinformationen geändert. Der Wichtigkeitsgrad eines Bereichs, der über eine vorbestimmte Zeit kontinuierlich als Suchbereich bestimmt ist, kann insbesondere verringert werden, oder der Wichtigkeitsgrad eines Bereichs, der durch Durchführen einer Aufnahme in S610 beschafft wird, was nachstehend beschrieben wird, kann eine vorbestimmte Zeit lang verringert werden.
Wenn die Wichtigkeitsgrade der jeweiligen Bereiche wie vorstehend beschrieben berechnet werden, wird ein Bereich mit einem hohen Wichtigkeitsgrad als zu durchsuchender Bereich bestimmt. Dann wird ein Schwenk-Kipp-Suchzielwinkel berechnet, der zur Erfassung des zu durchsuchenden Bereichs innerhalb eines Bildwinkels erforderlich ist.
In S605 wird eine Schwenk-Kipp-Ansteuerung durchgeführt. Insbesondere wird ein Schwenk-Kipp-Ansteuerbetrag durch Addieren eines Ansteuerwinkels bei einer Steuerabtastung beruhend auf einem Bildunschärfekorrekturbetrag und des Schwenk-Kipp-Suchzielwinkels berechnet. Die Antriebssteuerung der Kipprotationseinheit 104 und der Schwenkrotationseinheit 105 wird dann unter Verwendung der Gehäuserotationsantriebsschaltung 205 durchgeführt.
In S606 wird die Zoomeinheit 201 zum Ansteuern des Zooms gesteuert. Der Zoom wird entsprechend dem Zustand des in S604 bestimmten zu suchenden Subjekts angesteuert. Wenn beispielsweise das zu suchende Subjekt das Gesicht einer Person ist, und die Größe eines Gesichts in einem Bild zu gering ist, besteht das Risiko, dass die Größe kleiner als die minimal erfassbare Größe ist, das Gesicht nicht erfasst werden kann, und eine Sicht des Gesichts verloren wird. In einem derartigen Fall wird eine Steuerung durchgeführt, sodass die Größe des Gesichts in dem Bild erhöht wird, indem die Linse zur Teleobjektivseite bewegt wird. Wenn die Größe des Gesichts in dem Bild andererseits zu groß ist, ist es aufgrund einer Bewegung des Subjekts und der Bilderfassungsvorrichtung 101 selbst wahrscheinlich, dass sich das Subjekt aus dem Bildwinkel heraus bewegt. In einem derartigen Fall wird eine Steuerung durchgeführt, sodass die Größe des Gesichts auf dem Bildschirm reduziert wird, indem die Linse zu der Weitwinkelseite bewegt wird. Der zur Verfolgung eines Subjekts geeignete Zustand kann durch Durchführen einer derartigen Zoomsteuerung beibehalten werden.
In S604 bis S606 wurde ein Verfahren zur Durchführung einer Subjektsuche über Schwenk-Kipp-Operationen und eine Zoomansteuerung beschrieben, eine Objektsuche kann aber auch durch ein Bilderfassungssystem zur Aufnahme eines omnidirektionalen Bildes auf einmal unter Verwendung einer Vielzahl von Weitwinkelobjektiven durchgeführt werden. Im Fall einer omnidirektionalen Kamera ist bei der Durchführung einer Bildverarbeitung, wie einer Subjekterfassung, unter Verwendung aller über eine Bilderfassung als Eingangsbild erhaltener Signale ein sehr großer Verarbeitungsaufwand erforderlich. In Anbetracht dessen wird eine Konfiguration angewendet, bei der ein Abschnitt des Bildes extrahiert wird, und eine Verarbeitung zum Suchen nach einem Subjekt in dem Bereich des extrahierten Bildes durchgeführt wird. Wie bei dem vorstehend beschriebenen Verfahren wird für jeden Bereich ein Wichtigkeitsgrad berechnet, eine Extraktionsposition beruhend auf dem Wichtigkeitsgrad geändert und eine nachstehend beschriebene Bestimmung einer automatischen Bilderfassung durchgeführt. Dies ermöglicht eine Verringerung des Leistungsverbrauchs bei der Bildverarbeitung und eine Hochgeschwind igkeitssubjektsuche.
In S607 wird eine Bestimmung durchgeführt, ob vom Benutzer eine Aufnahmeanweisung in einem Zustand (manuell) erteilt wurde oder nicht, in dem der automatische Bilderfassungsmodus eingestellt ist, und wurde eine Aufnahmeanweisung erteilt, geht die Prozedur zu S610. Zu diesem Zeitpunkt kann die durch den Benutzer (manuell) erteilte Aufnahmeanweisung als Ergebnis des Drückens eines Auslösers, sanftes Anstoßen (Antippen) des Gehäuses der Bilderfassungsvorrichtung 101 unter Verwendung eines Fingers oder dergleichen, Eingeben eines Audiobefehls, Empfangen einer Anweisung von einer externen Vorrichtung oder dergleichen erteilt werden. Eine über eine Antippbedienung erteilte Aufnahmeanweisung bezieht sich auf ein Aufnahmeanweisungsverfahren, bei dem eine Vibration, wenn der Benutzer das Gehäuse der Bilderfassungsvorrichtung 101 antippt, durch die Vorrichtungserschütterungserfassungsschaltung 209 als Beschleunigungsrate einer Hochfrequenz erfasst wird, die eine kurze Zeit lang anhält, und als Auslöser zur Aufnahme verwendet wird. Die Eingabe eines Audiobefehls bezieht sich auf ein Aufnahmeanweisungsverfahren, bei dem, wenn der Benutzer eine vorbestimmte Phrase zur Anweisung einer Aufnahme (beispielsweise „Foto machen“) sagt, die Audioverarbeitungsschaltung 212 das Audio erkennt und das Audio als Auslöser für die Aufnahme verwendet. Eine Aufnahmeanweisung von einer externen Vorrichtung bezieht sich auf ein Aufnahmeanweisungsverfahren, bei dem ein Auslöseranweisungssignal, das von einem Smartphone oder dergleichen, das über Bluetooth mit der Bilderfassungsvorrichtung 101 verbunden ist, über eine dedizierte Anwendung gesendet wird, als Auslöser verwendet wird.
Wird in S607 bestimmt, dass keine Aufnahmeanweisung vorliegt, geht die Prozedur zu S608, und es wird eine automatische Bilderfassungsbestimmung durchgeführt. Bei der automatischen Bilderfassungsbestimmung wird eine Bestimmung dahingehend durchgeführt, ob eine automatische Bilderfassung durchzuführen ist oder nicht.
Die Bestimmung, ob eine automatische Bilderfassung durchzuführen ist oder nicht, wird beruhend auf einem neuronalen Netzwerk durchgeführt, das eine Einrichtung für Maschinenlernen darstellt. 7 zeigt ein Beispiel eines Netzwerks, das ein mehrschichtiges Perzeptron verwendet, als Beispiel eines neuronalen Netzwerks. Ein neuronales Netzwerk wird zum Schätzen eines Ausgangswerts aus einem Eingangswert verwendet, und Eingangswerte und Ausgangswerte, die Modellwerte für die Eingaben sind, werden vorab gelernt, und somit ist es möglich, einen Ausgangswert für einen neuen Eingangswert beruhend auf den gelernten Modellwerten zu folgern. Es wird angemerkt, dass später ein Lernverfahren beschrieben wird.
Ein durch das Bezugszeichen 701 in 7 bezeichneter Kreis und vertikal unter dem Kreis 701 angeordnete Kreise geben Neuronen einer Eingangsschicht an, ein durch das Bezugszeichen 703 bezeichneter Kreis und vertikal unter dem Kreis 703 angeordnete Kreise geben Neuronen einer Zwischenschicht an, und ein durch das Bezugszeichen 704 bezeichneter Kreis gibt ein Neuron einer Ausgangsschicht an. Pfeile die einen durch das Bezugszeichen 702 bezeichneten Pfeil enthalten, geben eine Verbindung zwischen den Neuronen an. Bei der Bestimmung, die auf einem neuronalen Netzwerk beruht, sind Merkmalsgrößen, die auf einem Subjekt, das in dem aktuellen Bildwinkel erscheint, einer Szene und dem Zustand der Bilderfassungsvorrichtung beruhen, als Eingabe in die Neuronen der Eingangsschicht vorgesehen, wird eine Berechnung durchgeführt, die auf einer Vorwärtskopplungsregel des mehrschichtigen Perzeptrons beruht, und werden von der Ausgangsschicht ausgegebene Werte erhalten. Wenn die Ausgangswerte größer oder gleich einem Schwellenwert sind, wird bestimmt, dass eine automatische Bilderfassung auszuführen ist.
Es wird angemerkt, dass ein allgemeines Objekterkennungsergebnis und ein Gesichtserkennungsergebnis bei der aktuellen Zoomvergrößerung und dem aktuellen Bildwinkel, die Anzahl von Gesichtern, die in dem aktuellen Bildwinkel erscheinen, ein Grad eines Lächelns eines Gesichts/ein Grad, mit dem Augen eines Gesichts geschlossen sind, ein Gesichtswinkel, eine Gesichtsauthentifizierungs-ID-Nummer, der Winkel der Blickrichtung einer Subjektperson, ein Szenenbestimmungsergebnis, ein Erfassungsergebnis eines bestimmten Konstrukts und dergleichen als Merkmale eines Subjekts verwendet werden. Außerdem können auch die Zeit, die seit der vorhergehenden Aufnahme vergangen ist, die aktuelle Zeit, GPS-Positionsinformationen und ein Änderungsbetrag aus der vorhergehenden Aufnahmeposition, der aktuelle Audiopegel, eine Person, die spricht, ob geklatscht und Beifall gegeben wird oder nicht, und dergleichen verwendet werden. Außerdem können auch Erschütterungsinformationen (Beschleunigungsrateninformationen und der Zustand der Bilderfassungsvorrichtung), Umgebungsinformationen (Temperatur, Luftdruck, Beleuchtung, Feuchtigkeit und der Anteil an ultraviolettem Licht) und dergleichen verwendet werden. Diese Merkmale werden in nummerische Werte in einem vorbestimmten Bereich umgewandelt und als Merkmalsgrößen zu den Neuronen der Eingangsschicht hinzugefügt. Daher ist die Anzahl erforderlicher Neuronen der Eingangsschicht gleich der Anzahl der vorstehend beschriebenen Merkmalsgrößen.
Es wird angemerkt, dass sich ein Ausgangswert dieser Bestimmung, die auf einem neuronalen Netzwerk beruht, als Ergebnis der Änderung des Kopplungsgewichts zwischen Neuronen aufgrund einer nachstehend beschriebenen Lernverarbeitung ändert, und das Ergebnis der Bestimmung an ein Lernergebnis angepasst werden kann.
Die Bestimmung, ob eine automatische Bilderfassung durchzuführen ist, ändert sich auch gemäß der in S501 in 5 gelesenen Startbedingung. Beispielsweise ist es sehr wahrscheinlich, dass ein Start, der auf einer Antipp-Erfassung beruht, und ein Start, der auf einem bestimmten Audiobefehl beruht, Operationen darstellen, wenn der Benutzer sofort eine Aufnahme durchführen möchte. In Anbetracht dessen werden Einstellungen zur Erhöhung der Aufnahmefrequenz gesetzt.
Wird in S609 eine Bestimmung bei der in S608 bestimmten automatischen Bilderfassung zur Durchführung einer Aufnahme gemacht, geht die Prozedur zu S610, und wenn nicht, wird die Bilderfassungsmodusverarbeitung beendet, und die Prozedur geht zu S502 in 5.
In S610 wird die Aufnahme gestartet. Zu diesem Zeitpunkt wird bei einer manuellen Bilderfassung die Aufnahme eines Stehbildes durchgeführt, oder eine Aufnahme wird unter Verwendung eines durch den Benutzer manuell eingestellten Aufnahmeverfahrens durchgeführt, und bei der automatischen Bilderfassung wird eine Aufnahme zu dem in S608 bestimmten Zeitpunkt gestartet. Zu diesem Zeitpunkt wird durch die Fokussierantriebssteuerschaltung 204 eine Autofokussteuerung durchgeführt. Außerdem wird eine Belichtungssteuerung derart durchgeführt, dass die Helligkeit des Subjekts geeignet ist, indem eine Blendensteuerschaltung, eine Sensorverstärkungssteuerschaltung und eine Verschlusssteuerschaltung verwendet werden, die nicht veranschaulicht sind. Nach der Aufnahme werden ferner verschiedene Arten von Bildverarbeitungen in der Bildverarbeitungsschaltung 207 durchgeführt, wie eine automatische Weißabgleichverarbeitung, Rauschenreduzierverarbeitung und Gammakorrekturverarbeitung, und ein Bild wird erzeugt.
Es wird angemerkt, dass, wenn zu der Zeit dieser Aufnahme eine vorbestimmte Bedingung erfüllt ist, die Bilderfassungsvorrichtung 101 eine Maßnahme zum Benachrichtigen einer Zielperson für die Aufnahme ergreifen kann, dass die Aufnahme durchzuführen ist, und dann die Aufnahme durchführen kann. Bei dem Benachrichtigungsverfahren können beispielsweise Audio aus der Audioausgabeschaltung 216 und LED-Beleuchtungslicht von der LED-Steuerschaltung 222 verwendet werden, und es kann auch eine Bewegungsoperation zum visuellen Führen der Blickrichtung des Subjekts durch Ansteuern des Schwenken-Kippens verwendet werden. Beispiele der vorbestimmten Bedingung umfassen die Anzahl an Gesichtern in dem Bildwinkel, einen Grad eines Lächelns/einen Grad, mit dem Augen eines Gesichts geschlossen sind, den Winkel einer Blickrichtung und den Gesichtswinkel einer Subjektperson, eine Gesichtsauthentifizierungs-ID-Nummer, die Anzahl an Personen, die für eine persönliche Authentifizierung registriert sind, und dergleichen. Es können auch ein allgemeines Objekterkennungsergebnis zur Zeit der Aufnahme, ein Szenenbestimmungsergebnis, eine Zeit, die seit der vorhergehenden Aufnahme vergangen ist, eine Aufnahmezeit, ob die aktuelle Position, die auf GPS-Informationen beruht, ein malerischer Ort ist, der Audiopegel zur Zeit der Aufnahme, ob es eine Person gibt, die spricht, ob geklatscht oder Beifall gespendet wird, und dergleichen verwendet werden. Außerdem können Erschütterungsinformationen (Beschleunigungsrateninformationen und der Zustand der Bilderfassungsvorrichtung), Umgebungsinformationen (Temperatur, Luftdruck, Beleuchtung, Feuchtigkeit und der Anteil an ultraviolettem Licht) und dergleichen verwendet werden. Durch Durchführen einer Aufnahmebenachrichtigung beruhend auf diesen Bedingungen kann ein bevorzugtes Bild erhalten werden, indem das Subjekt in einer Szene mit größerer Wichtigkeit in die Kamera schaut.
Außerdem kann auch eine Konfiguration angewendet werden, bei der eine Vielzahl vorbestimmter Bedingungen bereitgestellt ist, und Audio, ein Beleuchtungsverfahren der LED (Farbe, Blinkzeit, usw.) oder ein Schwenk-Kipp-Bewegungsverfahren (wie Bewegen und Ansteuergeschwindigkeit) gemäß jeder dieser Bedingungen geändert wird.
In S611 wird eine Bearbeitungsverarbeitung, wie eine Verarbeitung des in S610 erzeugten Bildes und eine Addition des Bildes zu einem Bewegtbild durchgeführt. Bestimmte Beispiele einer Bildverarbeitung umfassen eine Trimmverarbeitung, die auf dem Gesicht einer Person und einer Brennpunktposition beruht, eine Rotationsverarbeitung eines Bildes, eine Verarbeitung zum Hinzufügen verschiedener Effekte, wie eines HDR-(High Dynamic Range)Effekts, Bokeh-Effekts und eines Farbumwandlungsfiltereffekts. Bei der Bildverarbeitung kann eine Vielzahl von Bildern beruhend auf dem in S610 erzeugten Bild durch Kombinieren der vorstehend beschriebenen Prozesse erzeugt werden und separat von dem in S610 erzeugten Bild aufgezeichnet werden. Außerdem kann bei einer Bewegtbildverarbeitung eine Verarbeitung zum Addieren eines Bewegtbildes oder eines Stehbildes, das aufgenommen wurde, zu einem erzeugten Bearbeitungsbewegtbild durchgeführt werden, während eine Spezialeffektverarbeitung eines Rollens, Zoomens und Ausblendens angewendet wird. Beim Bearbeiten in S611 kann eine Bestimmung bei Informationen hinsichtlich eines aufgenommenen Bildes oder verschiedener Arten von vor der Aufnahme erfassten Informationen beruhend auf dem neuronalen Netzwerk durchgeführt werden, und eine Bestimmung kann auch bei einem Bildverarbeitungsverfahren durchgeführt werden. Bei dieser Bestimmungsverarbeitung kann die Bestimmungsbedingung auch über eine nachstehend beschriebene Lernverarbeitung geändert werden.
In S612 wird eine Verarbeitung zur Erzeugung von Trainingsdaten aus einem aufgenommenen Bild durchgeführt. Hier werden Informationen, die für eine nachstehend beschriebene Lernverarbeitung verwendet werden, erzeugt und aufgezeichnet. Bestimmte Beispiele der Informationen enthalten eine Zoomvergrößerung während einer Aufnahme, ein allgemeines Objekterkennungsergebnis während einer Aufnahme, ein Gesichtserfassungsergebnis, die Anzahl an Gesichtern in einem aufgenommenen Bild, den Grad eines Lächelns eines Gesichts/den Grad, mit dem Augen eines Gesichts geschlossen sind, einen Gesichtswinkel, eine Gesichtsauthentifizierungs-ID-Nummer und den Winkel der Blickrichtung einer Subjektperson in dem aktuell aufgenommenen Bild. Außerdem sind auch ein Szenenbestimmungsergebnis, die Zeit, die seit der vorhergehenden Aufnahme vergangen ist, eine Aufnahmezeit, GPS-Positionsinformationen und der Änderungsbetrag aus der vorhergehenden Aufnahmeposition, ein Audiopegel zur Zeit der Aufnahme, eine Person, die spricht, ob geklatscht wird oder Beifall gespendet wird, und dergleichen enthalten. Außerdem können auch Erschütterungsinformationen (Beschleunigungsrateninformationen und der Zustand der Bilderfassungsvorrichtung), Umgebungsinformationen (Temperatur, Luftdruck, Beleuchtung, Feuchtigkeit und der Anteil an ultraviolettem Licht), eine Bewegtbildaufnahmezeit, ob eine Aufnahme im Ansprechen auf eine manuelle Bilderfassungsanweisung durchgeführt wird, und dergleichen enthalten sein. Ferner wird auch ein Score bzw. Wert berechnet, der aus dem neuronalen Netzwerk ausgegeben wird, und durch Umwandeln eines Benutzergeschmacks bei Bildern in einen numerischen Wert beschafft wird.
Diese Informationsteile werden erzeugt und als Tag-Informationen zu einer aufgenommenen Bilddatei aufgezeichnet. Alternativ können derartige Informationen in den nichtflüchtigen Speicher 214 geschrieben werden, oder können in dem Aufzeichnungsmedium 219 in einem Format gespeichert werden, in dem Informationen hinsichtlich aufgenommener Bilder (erfasster Bilder) als sogenannte Katalogdaten gelistet sind.
In S613 werden früherer Aufnahmeinformationen aktualisiert. Insbesondere wird aus der Anzahl aufgenommener Bild für jeden in der Beschreibung von S608 aufgeführten Bereich, der der Anzahl aufgenommener Bilder für jede bei der persönlichen Authentifizierung registrierte Person, der Anzahl aufgenommener Bilder für jedes bei der allgemeinen Objekterkennung erkannte Subjekt und der Anzahl aufgenommener Bilder für jede Szene bei der Szenenbestimmung die Nummer von Bildern, die einem jüngst aufgenommenen Bild entspricht, um 1 erhöht.
Lernmod usverarbeitung
Als Nächstes wird ein Lernen, das einen Benutzergeschmack trifft, gemäß diesem Ausführungsbeispiel beschrieben.
Bei diesem Ausführungsbeispiel wird das neuronale Netzwerk wie in 7 gezeigt verwendet, und die Lernverarbeitungsschaltung 217 führt ein Lernen, das einem Benutzergeschmack entspricht, unter Verwendung eines Maschinenlernalgorithmus durch. Die Lernverarbeitungsschaltung 217 verwendet beispielsweise NVIDIA Jetson TX2. Ein neuronales Netzwerk wird zum Schätzen eines Ausgangswerts anhand eines Eingangswerts verwendet, und kann einen Ausgangswert für einen neuen Eingangswert durch Vorab-Lernen tatsächlicher Eingangswerte und tatsächlicher Ausgangswerte folgern. Unter Verwendung eines neuronalen Netzwerks kann ein Lernen, das einem Benutzergeschmack entspricht, für die vorstehend beschriebene automatische Bilderfassung und Subjektsuche durchgeführt werden.
Außerdem wird auch eine Subjektregistrierung (Gesichtsauthentifizierung, allgemeine Objekterkennung, usw.) durchgeführt, die als Merkmalsdaten verwendet wird, die in das neuronale Netzwerk eingegeben werden.
Es wird ein Lernen für eine automatische Bilderfassung gemäß diesem Ausführungsbeispiel beschrieben. Bei einer automatischen Bilderfassung wird ein Lernen zur automatischen Aufnahme eines Bildes durchgeführt, das einem Benutzergeschmack entspricht. Wie unter Bezugnahme auf das Ablaufdiagramm in 6 beschrieben, wird eine Verarbeitung zur Erzeugung von Trainingsdaten nach einer Aufnahme durchgeführt (S612). Zu lernende Bilder werden unter Verwendung eines nachstehend beschriebenen Verfahrens ausgewählt und werden als Ergebnis einer Änderung des Kopplungsgewichts zwischen Neuronen des neuronalen Netzwerks beruhend auf in den Bildern enthaltenen Trainingsdaten gelernt.
Als Nächstes werden Lernverfahren beschrieben. Die Lernverfahren umfassen „Lernen innerhalb einer Bilderfassungsvorrichtung“ und „In Kooperation mit einer Kommunikationseinrichtung durchgeführtes Lernen“. Das Verfahren „Lernen innerhalb einer Bilderfassungsvorrichtung“ wird nachstehend beschrieben. „Lernen innerhalb einer Bilderfassungsvorrichtung“ gemäß diesem Ausführungsbeispiel wird unter Verwendung eines der folgenden Verfahren durchgeführt.
Lernen, das unter Verwendung von Erfassungsinformationen, wenn Aufnahmeanweisungen vom Benutzer erteilt werden, durchgeführt wird
Wie in S607 bis S613 in 6 beschrieben, kann die Bilderfassungsvorrichtung 101 bei diesem Ausführungsbeispiel zwei Arten von Bilderfassungen durchführen, d.h. eine manuelle Bilderfassung und eine automatische Bilderfassung. Wurde in S607 eine Aufnahmeanweisung (die beruhend auf den vorstehend beschriebenen drei Bestimmungen durchgeführt wird) über eine manuelle Bedienung erteilt, werden in S612 Informationen hinzugefügt, die angeben, dass ein aufgenommenes Bild ein manuell aufgenommenes Bild ist. Wurde in S607 bestimmt, dass die automatische Bilderfassung eingeschaltet war und eine Aufnahme durchgeführt wurde, werden in S612 außerdem Informationen hinzugefügt, die angeben, dass ein aufgenommenes Bild ein automatisch aufgenommenes Bild ist. Die Informationen, die angeben, dass ein aufgenommenes Bild ein manuell aufgenommenes Bild ist, werden außerdem zu dem im manuellen Bilderfassungsmodus in S506 aufgenommenen Bild hinzugefügt.
Ist das aufgenommene Bild ein manuell aufgenommenes Bild, ist es sehr wahrscheinlich, dass das Bild beruhend auf einem Subjekt, einer Szene, einem Ort und einem Zeitintervall aufgenommen wurde, die einem Benutzergeschmack entsprechen. Somit wird Lernen beruhend auf den Merkmalsdaten, die während einer manuellen Bilderfassung erhalten werden, und Trainingsdaten des aufgenommenen Bildes durchgeführt.
Außerdem wird Lernen hinsichtlich einer Extraktion von Merkmalsgrößen in dem aufgenommenen Bild, einer Registrierung einer persönlichen Authentifizierung, Registrierung eines Gesichtsausdrucks für jedes Individuum und Registrierung einer Kombination von Leuten aus Erfassungsinformationen während einer manuellen Bilderfassung durchgeführt. Außerdem wird Lernen beispielsweise derart durchgeführt, dass Wichtigkeitsgrade einer Person und eines Objekts in der Nähe beruhend auf einem Gesichtsausdruck eines bei einer persönlichen Registrierung aufgezeichneten Subjekts aus Erfassungsinformationen während einer Subjektsuche geändert werden.
Lernen, das beruhend auf einer durch den Benutzer durchgeführten Löschen-Bedienung durchgeführt wird
Es kann auch ein Bild zum Lernen verwendet werden, das gemäß einer durch den Benutzer durchgeführten Bedienung gelöscht wurde. Wenn ein in dem Aufzeichnungsmedium 219 oder dem nichtflüchtigen Speicher 214 gespeichertes Bild gemäß einer durch den Benutzer durchgeführten Bedienung gelöscht wird, besteht die Möglichkeit, dass bestimmt wurde, dass das Bild von geringem Wert ist. Wenn denkbar ist, dass der Grund dafür, dass der Wert des Bildes gering ist, darin besteht, dass das Lernen des neuronalen Netzwerks, das für die automatische Bilderfassung verwendet wird, ungenügend ist, können ein gelöschtes Bild und mit dem Bild verbundene Erfassungsinformationen als Muster einer ungünstigen Szene zum Lernen verwendet werden. Demnach kann eine automatische Bilderfassung einer ungünstigen Szene unterdrückt werden.
Eine Lernverarbeitung, die auf einer Löschen-Bedienung des Benutzers beruht, wird unter Bezugnahme auf das Ablaufdiagramm in 11 beschrieben. 11 zeigt ein Ablaufdiagramm einer Lernverarbeitung, wenn der Benutzer eine Bedienung zum Löschen eines Bildes durchführt. Diese Lernverarbeitung wird durchgeführt, wenn ein Bild gelöscht wird, indem der Benutzer eine Bedienung durchführt. Die durch den Benutzer durchgeführte Bedienung kann eine direkte Bedienung an der Bilderfassungsvorrichtung 101 sein, oder kann eine Bedienung an einer intelligenten Einrichtung oder Zubehöreinrichtung sein, die mit der Bilderfassungsvorrichtung verbunden ist, um eine Löschen-Anweisung über eine Kommunikation zu erteilen.
In S1101 wird eine Bestimmung durchgeführt, ob ein Bild, das einem gelöschten Bild ähnlich ist, auf dem Aufzeichnungsmedium 219 oder dem nichtflüchtigen Speicher 214 vorhanden ist oder nicht. Ist ein ähnliches Bild vorhanden, kann bestimmt werden, dass ein relativer Wert des gelöschten Bildes gesunken ist und gelöscht wurde, da es ein ähnliches Bild auf dem Aufzeichnungsmedium 219 oder dem nichtflüchtigen Speicher 214 gibt, d.h., die absolute Bewertung des gelöschten Bildes ist nicht unbedingt niedrig.
Das Bestimmungsverfahren kann ein (Ähnlichkeitsbestimmungs-)Verfahren zum Erhalten einer Ähnlichkeit durch direkten Vergleich eines gelöschten Bildes mit Bilddaten eines Vergleichsbildes auf dem Aufzeichnungsmedium 219 oder dem nichtflüchtigen Speicher 214 oder ein Verfahren zum Erhalten einer Ähnlichkeit durch Vergleichen von mit Bildern verbundenen Erfassungsinformationen sein.
Nachstehend werden Beispiele eines Verfahrens zum Vergleichen von Bildern und Erhalten einer Ähnlichkeit beschrieben. Zuerst wird eine Vielzahl von Merkmalspunkten (eine Gruppe von Merkmalspunkten) aus zu vergleichenden Bildern über eine Merkmalspunktextrahierverarbeitung extrahiert. Ein beliebiges Verfahren, wie SIFT (Scale-Invariant Feature Transform) und FAST (Features from Accelerated Segment Test), kann für die Merkmalspunktextrahierverarbeitung verwendet werden. Dann wird eine Merkmalspunktübereinstimmungsvergleichsverarbeitung zum Paaren von Merkmalspunkten durchgeführt, die zwischen Bildern ähnlich sind, und Einstellungen werden derart gesetzt, dass eine größere Ähnlichkeit ausgegeben wird, wenn die Anzahl von Paaren übereinstimmender Merkmalspunkte höher ist.
Das Verfahren zum Vergleichen von Bildern und Erhalten einer Ähnlichkeit ist nicht darauf beschränkt, und beispielsweise kann ein neuronales Netzwerk verwendet werden, das zum Ausgeben einer Ähnlichkeit von zwei eingegebenen Bildern trainiert wurde.
Als Beispiel eines Verfahrens zum Vergleichen von Erfassungsinformationen, die mit Bildern verbunden sind, und Erhalten einer Ähnlichkeit ist außerdem ein Verfahren zum Berechnen einer Euklidischen Distanz zwischen zwei als Vektoren ausgedrückten Erfassungsinformationsteilen und Bestimmen einer größeren Ähnlichkeit denkbar, wenn sich die Distanz zwischen zwei Erfassungsinformationsteilen verringert. Eine Distanz, die berechnet wird, ist nicht auf die Euklidische Distanz beschränkt, und es kann eine Distanz einer beliebigen Definition verwendet werden. Außerdem kann eine Distanzberechnungseinrichtung verwendet werden, die zur Bestimmung einer Ähnlichkeit von Erfassungsinformationen über Distanzmessungslernen oder dergleichen optimiert ist. Außerdem kann auch eine Konfiguration angewendet, werden, bei der Bilder verglichen werden, bei denen Aufnahmezeitinformationen und/oder Aufnahmepositionsinformationen, die mit Bilddaten assoziiert sind, von den mit dem gelöschten Bild assoziierten um höchstens einen vorbestimmten Schwellenwert verschieden sind.
Ist ein Bild auf dem Aufzeichnungsmedium 219 oder dem nichtflüchtigen Speicher 214 vorhanden, für das über die vorstehend beschriebene Bestimmungsverarbeitung bestimmt wird, dass seine Ähnlichkeit größer als ein vorbestimmter Schwellenwert ist, geht die Prozedur zu S1105, und ansonsten geht die Prozedur zu S1102.
In S1102 wird eine Bestimmung durchgeführt, ob das gelöschte Bild ein Bild ist oder nicht, das in einem Zustand aufgenommen wurde, in dem eine Brennpunktpositionssteuerung und Belichtungssteuerung der Bilderfassungsvorrichtung 101 ungeeignet sind. Wurde das Bild in einem Zustand aufgenommen, in dem die Brennpunktpositionssteuerung und Belichtungssteuerung ungeeignet waren, wodurch das Subjekt unklar oder unscharf wurde, und zu einer ungeeigneten Belichtung eines Subjekts führte, kann bestimmt werden, dass dies der Grund für die geringe Bewertung durch den Benutzer ist.
Ein Verfahren, das auf einer in der japanischen Patentoffenlegung Nr. 2015-170306 beschriebenen Kantenerfassung beruht, kann als Verfahren zur Durchführung der Bestimmung über eine Subjektunklarheit und Subjektunschärfe verwendet werden. Außerdem kann auch ein neuronales Netzwerk verwendet werden, das für ein eingegebenes Bild zur Ausgabe von Daten über das Vorhandensein oder Fehlen einer Subjektunklarheit und Subjektunschärfe trainiert ist.
Beispielsweise kann ein Verfahren zur Verwendung eines beruhend auf einem Bild berechneten Luminanzhistogramms als Verfahren zur Bestimmung verwendet werden, ob die Belichtung eines Subjekts geeignet ist oder nicht. Ist das Luminanzhistogramm stark in Richtung niedriger Luminanz oder hoher Luminanz gewichtet, kann bestimmt werden, dass das Bild des Subjekts nicht mit geeigneter Helligkeit aufgenommen wurde. Es kann auch ein neuronales Netzwerk verwendet werden, das für ein eingegebenes Bild zur Ausgabe von Daten trainiert ist, ob eine Helligkeit eines Subjekts geeignet ist oder nicht.
Wird bei der vorstehend beschriebenen Bestimmungsverarbeitung bestimmt, dass das gelöschte Bild ein Bild ist, in dem eine Subjektunklarheit oder Subjektunschärfe aufgetreten ist, oder ein Bild ist, in dem die Helligkeit eines Subjekts ungeeignet ist, geht die Prozedur zu S1105, und ansonsten geht die Prozedur zu S1103.
In S1103 wird eine Bestimmung durchgeführt, ob es vor und nach dem Zeitpunkt, als das gelöschte Bild aufgenommen wurde, eine signifikante Änderung einer Szene gab.
Als Bestimmungsverfahren werden Erfassungsinformationen, die unmittelbar vor Aufnahme des gelöschten Bildes beschafft werden, mit Erfassungsinformationen verglichen, die unmittelbar nach Ausführung der Aufnahme beschafft werden, und wenn die Ähnlichkeit zwischen den zwei Erfassungsinformationsteilen kleiner als ein vorbestimmter Schwellenwert ist, kann bestimmt werden, dass es eine signifikante Änderung der Szene gab. Als Verfahren zum Vergleichen von Erfassungsinformationen kann eine Technik ähnlich der der in S1101 beschriebenen Ähnlichkeitsbestimmungsverarbeitung verwendet werden.
Wird bei der vorstehend beschriebenen Bestimmungsverarbeitung bestimmt, dass es eine signifikante Änderung in der Szene vor und nach dem Zeitpunkt gab, als das gelöschte Bild aufgenommen wurde, geht die Prozedur zu S1105, und wenn nicht, geht die Prozedur zu S1104.
In S1104 werden das gelöschte Bild und mit dem gelöschten Bild verbundene Erfassungsinformationen als Muster einer ungünstigen Szene zu Trainingsdaten hinzugefügt, und das neuronale Netzwerk wird für die automatische Bilderfassung trainiert. Es wird angemerkt, dass das neuronale Netzwerk bei jedem Hinzufügen von Trainingsdaten trainiert werden kann, oder das neuronale Netzwerk auch insgesamt trainiert werden kann, wenn eine vorbestimmte Anzahl von Trainingsdatenstücken hinzugefügt wird.
In S1105 wird bestimmt, dass ein Lernen des gelöschten Bildes als Muster einer ungünstigen Szene nicht geeignet ist, und diese Lernverarbeitung wird ohne Durchführen von Lernen beendet.
Vorstehend wurde eine Lernverarbeitung beschrieben, die auf einer Löschen-Bedienung durch einen Benutzer beruht, jedoch muss diese Lernverarbeitung nicht unbedingt unmittelbar im Ansprechen auf eine Benutzerlöschbedienung durchgeführt werden, und es kann auch eine Konfiguration angewendet werden, bei der ein Verlauf von durch den Benutzer durchgeführten Löschen-Bedienungen gespeichert wird, und eine Lernverarbeitung zu einem späteren Zeitpunkt durchgeführt wird.
Außerdem muss die vorstehend beschriebene Lernverarbeitung nicht unbedingt in der Bilderfassungsvorrichtung 101 durchgeführt werden, und es kann auch eine Konfiguration angewendet werden, bei der erforderliche Informationen zu einem Server oder dergleichen gesendet werden, der mit der Bilderfassungsvorrichtung verbunden ist, und der Server die Lernverarbeitung separat durchführt. Durch Empfangen eines Ergebnisses des Lernens durch den Server kann die Bilderfassungsvorrichtung 101 eine ähnliche Wirkung erhalten, wie wenn die Bilderfassungsvorrichtung 101 selbst trainiert wird. Außerdem wurde vorstehend beschrieben, dass ein gelöschtes Bild ein im Speichermedium 219 oder dem nichtflüchtigen Speicher 214 gespeichertes Bild ist, jedoch kann ein gelöschtes Bild ein in einem Server gespeichertes Bild sein, der von der Bilderfassungsvorrichtung 101 verschieden ist. Es wird angemerkt, dass ein Prozess zur Veranlassung einer Bilderfassungsvorrichtung zur Durchführung einer automatischen Bilderfassung unter Verwendung eines Lernergebnisses, ein Prozess zur Speicherung eines durch eine Bilderfassungsvorrichtung aufgenommenen Bildes in einem Speichermedium, ein Prozess zur Durchführung einer Bestimmung bei einem Bild, das zum Lernen verwendet wird, aus einem Speichermedium und ein Prozess zur Durchführung eines Lernens unter Verwendung eines bestimmten Bildes durch entsprechende Vorrichtungen durchgeführt werden können, oder einige oder alle Prozesse in der gleichen Vorrichtung durchgeführt werden können.
Als Nächstes wird Lernen beschrieben, das bei diesem Ausführungsbeispiel in Kooperation mit einer externen Kommunikationseinrichtung durchgeführt wird. Die folgenden Verfahren können beim Lernen verwendet werden, das bei diesem Ausführungsbeispiel in Kooperation mit einer externen Kommunikationseinrichtung durchgeführt wird.
Lernen beruhend darauf, dass eine externe Kommunikationseinrichtung ein Bild beschafft
Wie unter Bezugnahme auf 3 beschrieben, weisen die Bilderfassungsvorrichtung 101 und die externe Einrichtung 301 eine Kommunikationseinrichtung zur Durchführung der Kommunikation 302 und der Kommunikation 303 auf. Über die Kommunikation 302 werden hauptsächlich Bilder gesendet/empfangen, und die externe Einrichtung 301 kann durch eine Kommunikation über eine dedizierte Anwendung in der externen Einrichtung 301 Bilder in der Bilderfassungsvorrichtung 101 beschaffen. Außerdem ist es an der externen Einrichtung 301 möglich, über die dedizierte Anwendung in der externen Einrichtung 301 Vorschaubilder von in der Bilderfassungsvorrichtung 101 gespeicherten Bilddaten zu betrachten. Der Benutzer wählt demnach ein Vorschaubild aus den Vorschaubildern aus, das der Benutzer bevorzugt, bestätigt das Bild, erteilt eine Beschaffungsanweisung, und kann so das Bild an der externen Einrichtung 301 beschaffen.
Da zu diesem Zeitpunkt das durch den Benutzer ausgewählte Bild im Ansprechen auf eine Übertragungsanweisung (Übertragungsanforderung) beschafft wird, ist es sehr wahrscheinlich, dass das beschaffte Bild ein Bild ist, das einem Benutzergeschmack entspricht. Somit wird bestimmt, dass das beschaffte Bild ein zu lernendes Bild ist, und ähnlich wie in S612 in 6 werden aus dem beschafften Bild Trainingsdaten erzeugt und Lernen wird beruhend auf diesen Trainingsdaten durchgeführt. Somit können verschiedene Lernarten durchgeführt werden, die einem Benutzergeschmack entsprechen.
Nun wird ein Arbeitsbeispiel beschrieben. 8 zeigt ein Beispiel, bei dem Bilder in der Bilderfassungsvorrichtung 101 über eine dedizierte Anwendung der externen Einrichtung 301, die eine intelligente Einrichtung ist, betrachtet werden können. Vorschaubilder (804 bis 809) von in der Bilderfassungsvorrichtung 101 gespeicherten Bilddaten werden auf der Anzeigeeinrichtung 407 angezeigt, und der Benutzer kann ein Bild, das der Benutzer bevorzugt, auswählen und beschafft das Bild. Hier sind Änderungsschaltflächensymbole 801, 802 und 803 zur Änderung der Anzeigeart vorgesehen. Wird das Änderungsschaltflächensymbol 801 gedrückt, wird die Anzeigereihenfolge in einen Anzeigemodus einer Zeit-und-Datum-Priorität geändert, und Bilder in der Bilderfassungsvorrichtung 101 werden auf der Anzeigeeinrichtung 407 in der Reihenfolge nach Aufnahmedatum und -zeit angezeigt. Beispielsweise wird das Bild 804 als neues Bild (neue Zeit und neues Datum) angezeigt, und das Bild 809 wird als altes Bild (alte Zeit und altes Datum) angezeigt. Wird das Änderungsschaltflächensymbol 802 gedrückt, wird die Anzeigereihenfolge in einen Anzeigemodus einer empfohlenen Bildpriorität geändert. Die Bilder in der Bilderfassungsvorrichtung 101 werden auf der Anzeigeeinrichtung 407 in der Reihenfolge eines höchsten Werts beruhend auf einem Wert angezeigt, der ein Bewertungsergebnis darstellt, das durch Bestimmen eines Benutzergeschmacks für jedes der Bilder beschafft wird, wobei das Bewertungsergebnis in S612 in 6 berechnet wurde. Beispielsweise wird das Bild 804 als Bild mit hohem Wert angezeigt, und das Bild 809 wird als Bild mit niedrigem Wert angezeigt. Wird das Änderungsschaltflächensymbol 803 gedrückt, kann ein Subjekt einer Person oder eines Objekts festgelegt werden, und wird dann eine bestimmte Person oder ein bestimmtes Objekt als Subjekt festgelegt, wird lediglich das bestimmte Subjekt angezeigt.
Die Einstellungen können unter Verwendung der Änderungsschaltflächensymbole 801 bis 803 gleichzeitig eingeschaltet werden, und sind beispielsweise alle Einstellungen eingeschaltet, wird lediglich ein bestimmtes Subjekt angezeigt, und diese Anzeige wird so durchgeführt, dass ein Bild priorisiert wird, dessen Aufnahmezeit und -datum neu ist und das einen hohen Wert aufweist.
Wie vorstehend beschrieben ist es möglich, über eine einfache Bestätigungsarbeit nur ein Bild, das einem Benutzergeschmack entspricht, aus einer großen Anzahl aufgenommener Bilder leicht zu extrahieren, um ein Lernen eines Benutzergeschmacks auch in aufgenommenen Bildern durchzuführen.
Lernen, das durch Eingeben eines Bestimmungswerts für ein Bild über eine externe Kommunikationseinrichtung durchgeführt wird
Wie vorstehend beschrieben weisen die Bilderfassungsvorrichtung 101 und die externe Einrichtung 301 eine Kommunikationseinrichtung auf, und in der Bilderfassungsvorrichtung 101 gespeicherte Bilder können über eine dedizierte Anwendung in der externen Einrichtung 301 betrachtet werden. Hier kann eine Konfiguration angewendet werden, bei der der Benutzer Bildern Werte zuweist. Es wird eine Konfiguration angewendet, bei der einem Bild, bei dem der Benutzer das Gefühl hat, dass es seinen Geschmack trifft, ein hoher Wert (beispielsweise 5) zugewiesen werden kann, und einem Bild, bei dem der Benutzer das Gefühl hat, dass es seinen Geschmack nicht trifft, ein niedriger Wert (beispielsweise 1) zugewiesen werden kann, und die Bilderfassungsvorrichtung 101 entsprechend einer Benutzerbedienung trainiert wird. Die Werte der Bilder werden für das Lernen verwendet, das in der Bilderfassungsvorrichtung zusammen mit Trainingsdaten erneut durchgeführt wird. Das Lernen wird derart durchgeführt, dass eine Ausgabe des neuronalen Netzwerks, bei dem Merkmalsdaten aus festgelegten Bildinformationen als Eingabe verwendet werden, einen durch den Benutzer festgelegten Wert nähert.
Bei diesem Ausführungsbeispiel wird eine Konfiguration angewendet, bei der der Benutzer über die externe Einrichtung 301 Werte für aufgenommene Bilder eingibt, es kann aber auch eine Konfiguration angewendet werden, bei der die Bilderfassungsvorrichtung 101 zur direkten Eingabe von Werten für Bilder bedient wird. In diesem Fall ist beispielsweise eine interaktive Bedienfeldanzeige in der Bilderfassungsvorrichtung 101 vorgesehen, und ein Modus zur Anzeige eines aufgenommenen Bildes wird eingestellt, indem der Benutzer eine auf der interaktiven Bedienfeldanzeige angezeigte GUI-Schaltfläche drückt. Der Benutzer kann dann ein ähnliches Lernen unter Verwendung eines Verfahrens zur Eingabe von Werten für Bilder oder dergleichen durchführen, während er aufgenommene Bilder bestätigt.
Lernen, das durch Ändern von Parametern in einer externen Kommunikationseinrichtung durchgeführt wird
Wie vorstehend beschrieben weisen die Bilderfassungsvorrichtung 101 und die externe Einrichtung 301 eine Kommunikationseinrichtung auf, und aktuell in der Bilderfassungsvorrichtung 101 eingestellte Lernparameter können zu der externen Einrichtung 301 übertragen und in der Speicherschaltung 404 der externen Einrichtung 301 gespeichert werden. Denkbare Beispiele von Lernparametern umfassen ein Kopplungsgewicht zwischen Neuronen des neuronalen Netzwerks und die Auswahl eines Subjekts, das in das neuronale Netzwerk eingegeben wird. Außerdem wird eine Konfiguration angewendet, bei der Lernparameter, die in einem dedizierten Server eingestellt sind, unter Verwendung einer dedizierten Anwendung in der externen Einrichtung 301 über die Öffentliche-Leitung-Steuerschaltung 406 beschafft werden können und als Lernparameter in der Bilderfassungsvorrichtung 101 eingestellt werden können. Durch Speichern von Parametern in der externen Einrichtung 301 zu einem bestimmten Zeitpunkt und Einstellen der Parameter in der Bilderfassungsvorrichtung 101 können demnach Lernparameter zurückgegebenen werden, und Lernparameter eines anderen Benutzers können über den dedizierten Server beschafft und in der Bilderfassungsvorrichtung 101 eingestellt werden.
Als Nächstes wird eine Lernprozesssequenz beschrieben. Bei der Moduseinstellbestimmung in S504 in 5 wird eine Bestimmung durchgeführt, ob eine Lernverarbeitung durchzuführen ist oder nicht, und wenn bestimmt wird, dass die Lernverarbeitung durchzuführen ist, wird bestimmt, dass der Lernmodus eingestellt ist, und die Lernmodusverarbeitung in S510 wird durchgeführt.
Eine Bedingung zur Bestimmung des Lernmodus wird beschrieben. Ob in den Lernmodus überzugehen ist oder nicht, wird beruhend auf der Zeit, die seit dem letzten Durchführen des Lernprozesses vergangen ist, der Anzahl an Informationsteilen, die zum Lernen verwendet werden können, ob eine Lernverarbeitungsanweisung über eine Kommunikationseinrichtung erteilt wurde oder nicht, und dergleichen bestimmt. 9 zeigt einen Bestimmungsverarbeitungsablauf darüber, ob in einen Lernmodus überzugehen ist oder nicht, wobei die Bestimmung bei der Moduseinstellbestimmungsverarbeitung in S504 durchgeführt wird.
Wird bei der Moduseinstellbestimmungsverarbeitung in S504 eine Anweisung zum Starten einer Lernmodusbestimmung erteilt, startet die Verarbeitung in 9. In S901 wird eine Bestimmung durchgeführt, ob eine Lernanweisung von einer externen Vorrichtung erteilt wurde oder nicht. Hier ist die Bestimmung, ob eine Lernanweisung erteilt wurde oder nicht, eine Bestimmung, ob eine Anweisung zum Einstellen von Lernparametern wie „5. Lernen, das durch Ändern von Parametern in einer externen Kommunikationseinrichtung durchgeführt wird“ erteilt wurde oder nicht. Wird in S901 bestimmt, dass eine Lernanweisung von der externen Einrichtung 301 erteilt wurde, geht die Prozedur zu S907, in dem eine Lernmodusbestimmung auf WAHR gesetzt wird, Einstellungen zur Durchführung des Prozesses in S510 gemacht werden, und die Lernmodusbestimmungsverarbeitung endet. Wird in S901 bestimmt, dass keine Lernanweisung von der externen Vorrichtung erteilt wurde, geht die Prozedur zu S902.
In S902 wird eine Zeit TimeN beschafft, die seit der letzten Durchführung der Lernmodusverarbeitung vergangen ist, und die Prozedur geht zu S903. In S903 wird die Anzahl neuer zu lernender Datenstücke DN (die Anzahl von Bildern, die für ein Lernen während eines Zeitabschnitts seit der letzten Durchführung der Lernverarbeitung bis zu der Zeit TimeN festgelegt werden) beschafft, und die Prozedur geht zu S904. In S904 wird ein Schwellenwert DT beruhend auf TimeN berechnet. Alternativ kann eine Tabelle zum Erhalten des Schwellenwerts DT aus TimeN erzeugt werden. Beispielsweise wird ein Schwellenwert DTa, wenn TimeN kleiner als ein vorbestimmter Wert ist, höher als ein Schwellenwert DTb eingestellt, wenn TimeN größer als der vorbestimmte Wert ist, und ein Schwellenwert wird so eingestellt, dass er mit Ablauf der Zeit fällt. Demnach kann eine Konfiguration angewendet werden, bei der selbst dann, wenn die Menge an Trainingsdaten klein ist, die Bilderfassungsvorrichtung leicht in den Lernmodus wechseln kann, wenn die Bilderfassungsvorrichtung über eine lange Zeit verwendet wird, indem wieder ein Lernen durchgeführt wird, wenn ein langer Zeitabschnitt vergangen ist. Es wird angemerkt, dass der Schwellenwert DT vorzugsweise hoch eingestellt wird, sodass die Bilderfassungsvorrichtung ab der Zeit, als die Lernmodusverarbeitung durchgeführt wurde, während eines bestimmten Zeitabschnitts nicht in den Lernmodus übergeht.
Wenn der Schwellenwert DT in S904 berechnet ist, geht die Prozedur zu S905, und es wird eine Bestimmung durchgeführt, ob die Anzahl an zu lernenden Datenstücken DN größer oder gleich dem Schwellenwert DT ist oder nicht. Ist die Anzahl an Datenstücken DN größer oder gleich dem Schwellenwert DT, geht die Prozedur zu S906, und DN wird auf 0 gesetzt. Dann geht die Prozedur zu S907, in dem die Lernmodusbestimmung auf WAHR gesetzt wird, Einstellungen zur Durchführung des Prozesses in S510 gemacht werden, und die Lernmodusbestimmungsverarbeitung beendet wird.
Wird in S905 bestimmt, dass die Anzahl an Datenstücken DN kleiner als der Schwellenwert DT ist, geht die Prozedur zu S908. Da in S908 weder eine Registrieranweisung von der externen Einrichtung 301 noch eine Lernanweisung von der externen Einrichtung vorliegt, und die Anzahl an Trainingsdatenteilen kleiner als der vorbestimmte Wert ist, wird die Lernmodusbestimmung auf FALSCH gesetzt, sodass Einstellungen durchgeführt werden, den Prozess in S510 nicht durchzuführen, und die Lernmodusbestimmungsverarbeitung wird beendet.
Wird in S509 in 5 bestimmt, dass der Lernmodus eingestellt ist, und geht die Prozedur zu S510, startet die Verarbeitung in 10. In S1001 wird eine Bestimmung durchgeführt, ob eine Anweisung zum Einstellen von Lernparametern von der externen Einrichtung 301 erteilt wurde oder nicht. Wurde eine Anweisung zur Einstellung von Lernparametern von der externen Einrichtung 301 erteilt, geht die Prozedur zu S1006, in dem von der externen Vorrichtung übertragene Lernparameter in entsprechenden Bestimmungselemente (Kopplungsgewicht zwischen Neuronen des neuronalen Netzwerks usw.) eingestellt werden, und die Prozedur geht zu S1007. Wird in S1001 bestimmt, dass keine Lernanweisung von der externen Einrichtung 301 erteilt wurde, geht die Prozedur zu S1002.
In S1002 wird ein Trainingsdatenstück ausgewählt, und Maschinenlernen wird durchgeführt. Diese Trainingsdaten können Trainingsdaten, die aus einem aufgenommenen Bild erzeugt werden, zu denen Informationen hinzugefügt sind, die angeben, dass das Bild ein manuell aufgenommenes Bild ist, Trainingsdaten, die auf einer vom Benutzer durchgeführten Löschbedienung beruhen, Trainingsdaten, die aus einem Bild erzeugt sind, das durch eine externe Kommunikationseinrichtung beschafft ist, und Trainingsdaten enthalten, die aus einem aufgenommenen Bild erzeugt sind, für das ein Bestimmungswert über eine externe Kommunikationseinrichtung eingegeben wurde. Lernen wird unter Verwendung eines Verfahrens wie eines Rückwärtsausbreitungsverfahrens oder Gradientenabfallverfahrens durchgeführt, und ein Kopplungsgewicht zwischen Neuronen des neuronalen Netzwerks wird erneut berechnet, und die Parameter der Bestimmungselemente werden geändert. Wenn der Benutzer Bildern Werte zugewiesen hat, beruhend auf denen Trainingsdaten erzeugt wurden, wird ein Lernen durchgeführt, bei dem die Werte berücksichtigt sind.
In S1003 wird eine Bestimmung durchgeführt, ob Lernen unter Verwendung aller für Maschinenlernen vorbereiteten Trainingsdaten durchgeführt wurde oder nicht. Gibt es noch verbleibende Trainingsdaten, kehrt die Prozedur zu S1002 zurück, und wurde das Lernen unter Verwendung aller Trainingsdaten durchgeführt, geht die Prozedur zu S1004.
In S1004 werden über Maschinenlernen erhaltene Lernparameter im nichtflüchtigen Speicher 214 in Verbindung mit einer Referenzzeit gespeichert.
In S1005 werden die in S1004 gespeicherten jüngsten Lernparameter für die Bestimmungselemente (Kopplungsgewicht zwischen Neuronen des neuronalen Netzwerks usw.) eingestellt, und die Prozedur geht zu S1007.
In S1007 werden Bildern in dem Aufzeichnungsmedium 219 oder dem nichtflüchtigen Speicher 214 Werte neu zugewiesen (Neubewertung). Bei diesem Ausführungsbeispiel wird eine Konfiguration angewendet, bei der allen im Aufzeichnungsmedium 219 oder dem nichtflüchtigen Speicher 214 aufgezeichneten aufgenommenen Bildern Werte beruhend auf einem neuen Lernergebnis zugewiesen werden, und eine automatische Bearbeitung und automatische Dateilöschung gemäß den zugewiesenen Werten durchgeführt werden. Wenn erneut ein Lernen durchgeführt wird, oder wenn Lernparameter von einer externen Vorrichtung eingestellt werden, müssen die Werte der aufgenommenen Bilder demnach aktualisiert werden. Demnach wird in S1007 eine Neuberechnung zur Zuweisung neuer Werte zu in dem Aufzeichnungsmedium 219 oder dem nichtflüchtigen Speicher 214 gespeicherten aufgenommenen Bildern durchgeführt, und wenn die Verarbeitung endet, ist die Lernmodusverarbeitung beendet. Es wird angemerkt, dass die Neuberechnung zur Zuweisung neuer Werte auch gemäß einer Benutzeranweisung durchgeführt werden kann.
Bei diesem Ausführungsbeispiel wurde eine Konfiguration beschrieben, bei der Lernen in der Bilderfassungsvorrichtung 101 durchgeführt wird, allerdings kann ein ähnlicher Lerneffekt realisiert werden, indem eine Konfiguration angewendet wird, bei der die externe Einrichtung 301 mit einer Lernfunktion versehen ist, zum Lernen erforderliche Daten zu der externen Einrichtung 301 übertragen werden, und das Lernen nur auf Seiten der externen Einrichtung ausgeführt wird. In diesem Fall kann eine Konfiguration angewendet werden, bei der Parameter, wie ein Kopplungsgewicht zwischen Neuronen des neuronalen Netzwerks, das auf Seiten der externen Vorrichtung trainiert wird, zu der Bilderfassungsvorrichtung 101 übertragen und eingestellt werden, wodurch ein Lernen wie „5. Lernen, das durch Ändern von Parametern in einer externen Kommunikationseinrichtung durchgeführt wird“ durchgeführt wird.
Außerdem kann eine Konfiguration angewendet werden, bei der sowohl die Bilderfassungsvorrichtung 101 als auch die externe Einrichtung 301 eine Lernverarbeitungsfunktion aufweisen. Es kann auch eine Konfiguration angewendet werden, bei der in der externen Einrichtung 301 gespeicherte Trainingsdaten zu der Bilderfassungsvorrichtung 101 beispielsweise zu dem Zeitpunkt, wenn eine Lernmodusverarbeitung in der Bilderfassungsvorrichtung 101 durchgeführt wird, übertragen werden, Lernparameter zusammengeführt werden, und so ein Lernen durchgeführt wird.
Wie vorstehend beschrieben werden gemäß dem vorstehenden Ausführungsbeispiel aus durch den Benutzer gelöschten Bildern nur Bilder, für die bestimmt wird, dass sie rein deshalb gelöscht wurden, weil sie einem Benutzergeschmack nicht entsprechen, und nicht, weil ein Aufnahmefehler oder dergleichen vorliegt, als Bilder einer ungünstigen Szene gelernt werden. Dieses Lernen macht es möglich zu verhindern, dass eine Szene aufgenommen wird, die einem Benutzergeschmack nicht entspricht, ohne dass der Benutzer eine bestimmte Bedienung durchführt.
Weitere Ausführungsbeispiele
Ausführungsbeispiele vorliegender Erfindung können auch durch einen Computer eines Systems oder einer Vorrichtung, der auf einem Speichermedium (das vollständiger auch als „nichtflüchtiges computerlesbares Speichermedium“ bezeichnet werden kann) aufgezeichnete computerausführbare Anweisungen (beispielsweise ein oder mehrere Programme) zur Durchführung der Funktionen eines oder mehrerer der vorstehend beschriebenen Ausführungsbeispiele ausliest und ausführt, und/oder der eine oder mehrere Schaltungen (beispielsweise eine anwendungsspezifische integrierte Schaltung (ASIC)) zur Durchführung der Funktionen eines oder mehrerer der vorstehend beschriebenen Ausführungsbeispiele enthält, und durch ein durch den Computer des Systems oder der Vorrichtung beispielsweise durch Auslesen und Ausführen der computerausführbaren Anweisungen aus dem Speichermedium zur Durchführung der Funktionen eines oder mehrerer der vorstehend beschriebenen Ausführungsbeispiele und/oder Steuern der einen oder mehreren Schaltungen zur Durchführung der Funktionen einer oder mehrerer der vorstehend beschriebenen Ausführungsbeispiele durchgeführtes Verfahren realisiert werden. Der Computer kann einen oder mehrere Prozessoren (beispielsweise eine Zentralverarbeitungseinheit (CPU), Mikroverarbeitungseinheit (MPU)) umfassen, und kann ein Netzwerk separater Computer oder separater Prozessoren zum Auslesen und Ausführen der computerausführbaren Anweisungen enthalten. Die computerausführbaren Anweisungen können dem Computer beispielsweise von einem Netzwerk oder dem Speichermedium bereitgestellt werden. Das Speichermedium kann beispielsweise eine Festplatte und/oder einen Speicher mit wahlfreiem Zugriff (RAM) und/oder einen Nur-Lese-Speicher (ROM) und/oder einen Speicher verteilter Rechensysteme und/oder eine optische Disk (wie eine Kompaktdisk (CD), Digital Versatile Disk (DVD) oder Blue-ray Disk (BD™)) und/oder eine Flash-Speichereinrichtung und/oder eine Speicherkarte oder dergleichen enthalten.
Obwohl vorliegende Erfindung unter Bezugnahme auf Ausführungsbeispiele beschrieben wurde, ist ersichtlich, dass die Erfindung nicht auf die offenbarten Ausführungsbeispiele beschränkt ist. Dem Schutzbereich der folgenden Patentansprüche soll die breiteste Interpretation zum Umfassen aller derartiger Modifikationen und von äquivalenten Strukturen und Funktionen zukommen.

Claims

Bildverarbeitungsvorrichtung mit einer Bestimmungseinrichtung zur Bestimmung, ob in einer Speichereinrichtung gespeicherte Bilddaten Bilddaten sind, die zum Lernen einer Situation zu verwenden sind, in der eine Bilderfassungseinrichtung eine automatische Bilderfassung durchführen soll, wobei die Bestimmungseinrichtung bestimmt, dass die Bilddaten zum Lernen zu verwenden sind, wenn eine Anweisung zum Löschen der Bilddaten durch einen Benutzer erteilt wird, und die Bilddaten eine vorbestimmte Bedingung erfüllen.
Bildverarbeitungsvorrichtung nach Anspruch 1, wobei die Bestimmungseinrichtung beruhend auf den Bilddaten und/oder mit den Bilddaten assoziierten Informationen bestimmt, ob die Bilddaten die vorbestimmte Bedingung erfüllen.
Bildverarbeitungsvorrichtung nach Anspruch 1 oder 2, ferner mit einer Ähnlichkeitsbestimmungseinrichtung zur Bestimmung einer Ähnlichkeit zwischen den Bilddaten, für die eine Löschen-Anweisung durch den Benutzer erteilt wurde, und anderen in der Speichereinrichtung gespeicherten Bilddaten, wobei, wenn die Ähnlichkeitsbestimmungseinrichtung bestimmt, dass die anderen in der Speichereinrichtung gespeicherten Bilddaten Bilddaten enthalten, die ähnlich zu den Bilddaten sind, für die eine Löschen-Anweisung durch den Benutzer erteilt wurde, die Bestimmungseinrichtung bestimmt, dass die vorbestimmte Bedingung nicht erfüllt ist.
Bildverarbeitungsvorrichtung nach Anspruch 3, wobei die Ähnlichkeitsbestimmungseinrichtung eine erste Merkmalspunktgruppe aus den Bilddaten, für die eine Löschen-Anweisung durch den Benutzer erteilt wurde, über eine Merkmalspunktextrahierverarbeitung extrahiert, eine zweite Merkmalspunktgruppe aus den anderen in der Speichereinrichtung gespeicherten Bilddaten über die Merkmalspunktextrahierverarbeitung extrahiert, eine Übereinstimmungsvergleichsverarbeitung bei der ersten Merkmalspunktgruppe und der zweiten Merkmalspunktgruppe durchführt, und eine große Ähnlichkeit bestimmt, wenn die Anzahl an Paaren ähnlicher Merkmalspunkte unter der ersten Merkmalspunktgruppe und der zweiten Merkmalspunktgruppe groß ist.
Bildverarbeitungsvorrichtung nach Anspruch 3, wobei die Ähnlichkeitsbestimmungseinrichtung eine Ähnlichkeit zwischen Bildern durch Vergleichen von Informationen, die mit den anderen in der Speichereinrichtung gespeicherten Bilddaten assoziiert sind, mit Informationen bestimmt, die mit den Bilddaten assoziiert sind, für die eine Löschen-Anweisung durch den Benutzer erteilt wurde.
Bildverarbeitungsvorrichtung nach einem der Ansprüche 3 bis 5, wobei die Ähnlichkeitsbestimmungseinrichtung eine Ähnlichkeit zwischen Bildern bestimmt, für die Aufnahmezeitinformationen und/oder Aufnahmepositionsinformationen, die mit den anderen Bilddaten assoziiert sind, die in der Speichereinrichtung gespeichert sind, von den mit den Bilddaten assoziierten, für die eine Löschen-Anweisung durch den Benutzer erteilt wurde, um höchstens einen vorbestimmten Schwellenwert verschieden sind.
Bildverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 6, wobei, wenn ein Zustand der Bilddaten, für die eine Löschen-Anweisung vom Benutzer erteilt wurde, ein Zustand einer Subjektunklarheit und/oder ein Zustand einer Subjektunschärfe und/oder ein Zustand ist, in dem eine Belichtung eines Subjekts nicht geeignet ist, die Bestimmungseinrichtung bestimmt, dass die vorbestimmte Bedingung nicht erfüllt ist.
Bildverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 7, wobei, wenn ein Unterschied in Informationen, die mit den Bilddaten assoziiert sind, für die eine Löschen-Anweisung vom Benutzer erteilt wurde, vor und nach einem Zeitpunkt, als die Bilddaten aufgenommen wurden, groß ist, die Bestimmungseinrichtung bestimmt, dass die vorbestimmte Bedingung nicht erfüllt ist.
Bildverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 8, ferner mit einer Lerneinrichtung zum Lernen einer Situation, in der die automatische Bilderfassung nicht durchzuführen ist, unter Verwendung der Bilddaten, für die durch die Bestimmungseinrichtung bestimmt wird, dass sie Bilddaten sind, die zum Lernen zu verwenden sind, und/oder von mit den Bilddaten assoziierten Informationen.
Bildverarbeitungsvorrichtung nach Anspruch 9, ferner mit einer Bilderfassungseinrichtung zur Durchführung einer automatischen Bilderfassung beruhend auf einem Ergebnis des durch die Lerneinrichtung durchgeführten Lernens.
Bildverarbeitungsvorrichtung nach Anspruch 10, wobei die Speichereinrichtung durch die Bilderfassungseinrichtung erzeugte Bilddaten speichert.
Steuerverfahren einer Bildverarbeitungsvorrichtung, mit Bestimmen, ob in einer Speichereinrichtung gespeicherte Bilddaten Bilddaten sind, die zum Lernen einer Situation zu verwenden sind, in der eine Bilderfassungseinrichtung eine automatische Bilderfassung durchführen soll, wobei der Bestimmungsschritt bestimmt, dass die Bilddaten für das Lernen zu verwenden sind, wenn eine Anweisung zum Löschen der Bilddaten durch einen Benutzer erteilt ist und die Bilddaten eine vorbestimmte Bedingung erfüllen.
Programm, das bei Ausführung auf einem Computer den Computer zur Durchführung des Steuerverfahrens nach Anspruch 12 veranlasst.
Nichtflüchtiges computerlesbares Speichermedium, das das Programm nach Anspruch 13 speichert.