DE112016004160T5

DE112016004160T5 - Benutzeroberfläche für Videozusammenfassungen

Info

Publication number: DE112016004160T5
Application number: DE112016004160.8T
Authority: DE
Inventors: Vincent Borel; Aaron Standridge; Fabian Nater; Helmut Grabner
Original assignee: Logitech Europe SA
Current assignee: Logitech Europe SA
Priority date: 2015-09-14
Filing date: 2016-09-13
Publication date: 2018-05-30
Also published as: CN108351965A; CN108351965B; WO2017046704A1

Abstract

Bei einer Ausführungsform der vorliegenden Erfindung sendet eine entfernte Videokamera in Abständen Videoclips oder Videoereignisse, in denen Bewegung detektiert wird, zu einem entfernten Server. Der entfernte Server stellt einer Anwendung auf einer Benutzervorrichtung, wie etwa einem Smartphone, Videozusammenfassungen bereit. Bei einer Ausführungsform stellt die Benutzeroberfläche (UI) einen Live-Stream von der Webcam bereit, mit Markierungen auf der Seite, die die gespeicherten detektierten wichtigen Ereignisse angeben (wie etwa durch Verwendung einer Reihe von Blasen, die angeben, wie lange ein Ereignis her ist).

Description

QUERVERWEISE AUF VERWANDTE ANMELDUNGEN
Die vorliegende Anmeldung ist eine PCT-Anmeldung der US-Anmeldung Nr. 14/853,965 mit dem Titel „User Interface for Video Summaries“, eingereicht am 14. 9. 2015, erteilt als US-Patent Nr. 9,313,556 am 12. 4. 2016; der US-Patentanmeldung Nr. 14/853,943 mit dem Titel „Temporal Video Streaming and Summaries“, eingereicht am 14. 9. 2015; des US-Patents Nr. 14/853,980 mit dem Titel „Automatically Determining Camera Location and Determining Type of Scene“, eingereicht am 14. 9. 2015; und der US-Patentanmeldung Nr. 14/853,989 mit dem Titel „Video Searching for Filtered and Tagged Motion“, eingereicht am 14. 9. 2015, die hiermit durch Bezugnahme vollständig aufgenommen werden, und beansprucht deren Priorität.
STAND DER TECHNIK
Die Erfindung betrifft allgemein Verbesserungen an Verfahren zum automatischen Video-Editieren und spezieller Verfahren, die beim automatischen Erstellen von Zusammenfassungen auf der Basis von Webcam-Videoinhalt, bestimmt durch Bildanalyse, verwendet werden.
Einrichtungen wie Videokameras und Mikrophone werden oft zum Überwachen eines Bereichs oder eines Raums verwendet. Existierende Videoeditier- und -überwachungssysteme zeichnen typischerweise Ereignisse auf, wenn Bewegung detektiert wird, und geben einem Benutzer über das Internet Warnungen. Der Benutzer kann dann nur die gespeicherten Teile des überwachten Bereichs betrachten, wenn Bewegung detektiert wurde. Eine Zusammenfassung kann zum Beispiel eine Reihe von Standbildern aus jedem Video bereitstellen, um dem Benutzer einen Eindruck zu geben, ob die Bewegung es wert ist, betrachtet zu werden. Zum Beispiel kann der Benutzer sehen, ob sich eine Person in der Szene befindet oder ob die Bewegung anscheinend eine Vorhangbewegung, ein Vogel usw. war.
Die Magisto-Pub. Nr. 20150015735 beschreibt Erfassung von Bildern im Gegensatz zu Editieren auf der Basis verschiedener Faktoren und das Detektieren wichtiger Objekte und Entscheiden, ob ein Video oder Schnappschuss aufgenommen werden soll, auf der Basis der Wichtigkeit (z. B. ob jemand lächelt). BriefCam hat Patente, die das Detektieren einer Menge an Aktivität oder Objekten, die sich in einem Bild bewegen, und Überlagern verschiedener Objektbewegungen auf demselben Bild als Mosaik beschreiben. Siehe z. B. Pub. 2009-0219300 (bezieht sich auf verschiedene Abtastraten auf der Bildaufnahmeseite) und Pub. 2010-0092037 (bezieht sich auf „adaptives schnelles Vorspulen“). Pub. Nr. 201501 89402 beschreibt das Erstellen einer Videozusammenfassung kürzlich detektierter wichtiger Ereignisse in einem Video, wie etwa Aufnahmen in einem Fußballspiel. Siehe auch Pub. Nr. 20050160457, die beschreibt, Baseballtreffer visuell und aus dem Ton eines erregten Ansagers zu detektieren.
Pub. Nr. 20100315497 ist ein Beispiel für Systeme, die die Bilder auf der Basis von Gesichtserkennung mit einem Zielgesichtsprofil erfassen. Die ObjectVideo-Pub. Nr. 20070002141 beschreibt ein auf Video basierendes Menschenverifikationssystem, das Video verarbeitet, um die Anwesenheit eines Menschen, eine nichtmenschliche Anwesenheit und/oder Bewegung zu verifizieren. Siehe auch das Patent von Wells Fargo Alarm Services Nr. 6,069,655. Die Pub. Nr. 2004-0027242 beschreibt auch das Detektieren von Menschen und anderen Objekten. „Beispiele wären Fahrzeuge, Tiere, Pflanzenwachstum (z. B. ein System, das detektiert, wann es Zeit ist, Hecken zu schneiden), fallende Objekte (z. B. ein System, das detektiert, wenn eine wiederverwertbare Dose in einen Müllabwurfschacht geworfen wird) und mikroskopische Entitäten (z. B. ein System, das detektiert, wenn eine Mikrobe eine Zellenwand durchdrungen hat).“
Pub. Nr. 20120308077 beschreibt das Bestimmen eines Orts eines Bildes, indem es mit Bildern von etikettierten Orten auf einer Sozialvernetzungssite verglichen wird. Pub. Nr. 20110285842 beschreibt das Bestimmen eines Orts für ein Fahrzeugnavigationssystem durch Verwendung von Orientierungspunkterkennung, wie etwa einem Schild oder einer Brücke, einem Tunnel, einem Turm, einem Mast, einem Gebäude oder einer anderen Struktur.
Die Sony-Pub. Nr. 2008-0018737 beschreibt das Filtern von Bildern auf der Basis des Erscheinens/Verschwindens eines Objekts, des Überschreitens einer Grenzlinie durch ein Objekt, des Überschreitens einer Kapazität durch eine Anzahl von Objekten, eines sich länger als eine vorbestimmte Zeit herumlungernden Objekts usw.
ObjectVideo-Pub. Nr. 2008-0100704 beschreibt Objekterkennung für vielfältige Zwecke. Sie beschreibt das Detektieren bestimmter Arten von Bewegung (Zaunklettern, Bewegung in der falschen Richtung), das Überwachen von Mitteln (z. B. zur Entfernung von einem Museum oder zum Beispiel Detektieren, ob eine einzelne Person eine verdächtig große Anzahl eines gegebenen Postens in einem Kaufhaus nimmt), Detektieren, ob eine Person ausrutscht und hinfällt, Detektieren, ob ein Fahrzeug in einem Bereich mit Parkverbot parkt usw.
Pub. Nr. 2005-0168574 beschreibt Detektion von „Zurückgehen“ [z. B. Eintreten durch Flughafenausgang]. Es erfolgt automatisches Lernen in einer normalen Bewegungsrichtung in dem videoüberwachten Bereich, was als Funktion der Zeit erlernt werden kann und für verschiedene Zeiträume verschieden sein kann. „Das Analysesystem 3 kann dann automatisch die Zurückgehrichtung auf der Basis der Tageszeit, des Wochentags und/oder der relativen Zeit (z. B. Anfang eines Sportereignisses und Ende des Sportereignisses) ändern. Die erlernten Zurückgehrichtungen und -zeiten können für den Benutzer angezeigt werden, der sie verifizieren und/oder modifizieren kann.“
Das Logitech-Pat. 6995794 beschreibt Bildverarbeitung, die zwischen einer Kamera und einem Host aufgeteilt wird (Farbverarbeitung und Skalierung wird auf den Host verlagert). Das Intel-Pat. 6,803,945 beschreibt Bewegungsdetektionsverarbeitung in einer Webcam, um nur interessant „interessierante“ Bilder hochzuladen, insbesondere eine Schwellenmenge an Bewegung (Schwellenanzahl von sich ändernden Pixeln).
Die Yahoo!-Pub. Nr. 20140355907 ist ein Beispiel für das Untersuchen von Bild- und Videoinhalt zum Identifizieren von zu etikettierenden Merkmalen für nachfolgendes Suchen. Beispiele für erkannte Objekte wären Gesichtserkennung, Gesichtsmerkmale (Lächeln, Stirnrunzeln usw.), Objekterkennung (z. B. Autos, Fahrräder, Gruppe von Einzelpersonen) und Szenenerkennung (Strand, Berg). Siehe die Absätze 0067-0076. Siehe auch die Pub. Nr. 20100082585 von Disney Enterprises, Absatz 0034.
KURZFASSUNG DER ERFINDUNG
Bei einer Ausführungsform der vorliegenden Erfindung sendet eine entfernte Videokamera in Abständen Videoclips oder Videoereignisse, in denen Bewegung detektiert wird, zu einem entfernten Server. Der entfernte Server stellt einer Anwendung auf einer Benutzervorrichtung, wie etwa einem Smartphone, Videozusammenfassungen bereit.
BENUTZEROBERFLÄCHE FÜR VIDEOZUSAMMENFASSUNGEN
Bei einer Ausführungsform stellt die Benutzeroberfläche (UI) einen Live-Stream von der Webcam bereit, mit Markierungen auf der Seite, die die gespeicherten detektierten wichtigen Ereignisse angeben (wie etwa durch Verwendung einer Reihe von Blasen, die angeben, wie lange ein Ereignis her ist). Die Indikatoren werden markiert, um die relative Wichtigkeit anzugeben, wie etwa mit Farbcodierung. Bei Auswahl eines Indikators durch den Benutzer wird die Zeitraffer-Zusammenfassung zusammen mit einer Tageszeitangabe angezeigt. Als Alternative kann der Benutzer eine Zeitrafferanzeige aller Ereignisse in der Sequenz wählen, wobei ein verdichteterer Zeitraffer verwendet wird, wobei weniger wichtige Ereignisse weniger Zeit haben oder ausgelassen werden.
Bei einer anderen Ausführungsform stellt die UI beim Start der Anwendung eine Videozusammenfassung von Inhalt seit dem letzten Start der Anwendung bereit. Der Benutzer kann mit einer Hyper-Zeitraffergeschwindigkeit durch das Video scrollen und dann einen Teil für eine normale Zeitgeschwindigkeit oder normale Zeitansicht auswählen.
ZEITLICHES VIDEO-STREAMING UND ZUSAMMENFASSUNGEN
Bei einer Ausführungsform der vorliegenden Erfindung streamt eine Videokamera selektiv zu einem entfernten Server. Standbilder oder kurze Videoereignisse werden in Abständen gesendet, wenn keine signifikante Bewegung detektiert wird. Wenn signifikante Bewegung detektiert wird, wird Video zu dem entfernten Server gestreamt. Die Bilder und das Video können höhere Auflösung als die verwendete Bandbreite aufweisen, indem die Bilder und das Video lokal gepuffert und sie mit einer niedrigeren Einzelbildrate gesendet werden, die sich bis hin zu keinem Live-Streaming erstreckt. Dies stellt einen zeitverzögerten Stream bereit, aber mit mehr Auflösung bei niedrigerer Bandbreite.
Ausführungsformen der vorliegenden Erfindung betreffen das automatische Editieren von Videos von einer entfernten Kamera unter Verwendung von künstlicher Intelligenz, um sich auf wichtige Ereignisse zu konzentrieren. Bei einer Ausführungsform werden mehrere Videos/Bilder über einen Zeitraum (z. B. einen Tag) zu einem kurzen Zusammenfassungsvideo (z. B. 30 Sekunden) verdichtet. Zur Identifizierung von wichtigen Ereignissen (z. B. der Anwesenheit von Personen) werden Bilderkennungstechniken verwendet, wofür ein Zeitraffervideo erzeugt wird, während weniger wichtige Ereignisse und Fehlen von Aktivität mit einem viel größeren Zeitintervall für den Zeitraffer bereitgestellt werden. Dies erzeugt eine gewichtete Videozusammenfassung mit verschiedenen Zeitraffergeschwindigkeiten, die sich auf wichtige Ereignisse konzentriert. Die Eigenschaften von Ereignissen werden in einem Ereignis-Log protokolliert und dieses Ereignis-Log dient zur Erzeugung der Zusammenfassung. Jedem Ereignis kann ein Kontext-Etikett zugewiesen werden, so dass Ereignisse leicht zusammengefasst werden können.
AUTOMATISCHES BESTIMMEN DES KAMERAORTS UND BESTIMMEN EINER ART VON SZENE
Bei einer Ausführungsform wird Bilderkennung verwendet, um die Art des Orts, an dem die Kamera angebracht ist, wie etwa innen oder außen, in einem Konferenzraum oder in einem Speisesaal, zu bestimmen. Ein Filter zum Auswählen der Arten von Ereignissen für eine Zusammenfassung weist abhängig von der Art des Orts unterschiedliche Parameter auf. Zum Beispiel kann ein Innen-Ort Ereignisse etikettieren, bei denen Menschen detektiert werden, und Tiere (Haustiere) ignorieren. Bei einem Außen-Ort können die Parameter zum Detektieren sowohl von menschlicher als auch von Tierbewegung gesetzt werden.
Die Bestimmung der Art von Szene umfasst bei einer Ausführungsform Bestimmen der Relevanz detektierter Ereignisse, insbesondere Bewegung. Auf einem Grundniveau umfasst sie die Beseitigung von minimaler Bewegung oder nichtsignifikanter Bewegung (sich bewegende Vorhänge, ein sich bewegender Ventilator, Schatten, die sich allmählich während des Tages mit der Sonne bewegen usw.). Auf einem höheren Niveau umfasst sie Gruppieren von „bedeutungsvollen“ Dingen für Szenen wie Frühstück, Kinder, die eine Kissenschlacht durchführen, usw. Einige Haupthinweise zur Bestimmung, wann eine Szene oder Aktivität beginnt und endet, wären die Zeitdauer, nachdem Bewegung stoppt (wodurch das Ende einer Szene angegeben wird), kontinuierliche Bewegung für einen langen Zeitraum (wodurch ein Teil derselben Szene angegeben wird), neue Bewegung an einem anderen Ort (wodurch eine neue Szene angegeben wird) und Änderung der Anzahl von Objekten, eine weggehende Person oder eine eintretende neue Person.
VIDEOSUCHE NACH GEFILTERTER UND ETIKETTIERTER BEWEGUNG
Bei einer Ausführungsform werden erfasste Videozusammenfassungen mit Metadaten etikettiert, so dass die Videos leicht durchsucht werden können. Die Videos werden abhängig von der Art von Handlung im Video in verschiedene Szenen klassifiziert, so dass die Suche auf der Art von Szene basieren kann. Bei einer Ausführungsform werden Etiketten für sich bewegende Objekte oder Personen bereitgestellt. Die Art von Objekt, das sich bewegt, wird etikettiert (Auto, Ball, Person, Haustier usw.). Videosuchergebnisse werden auf der Basis der Gewichtung der Videoereignisse oder Videozusammenfassungen eingestuft. Die Videoereignisgewichtung stellt eine Bewertung für ein Videoereignis auf der Basis von Gewichten bereit, die Etiketten für das Ereignis zugewiesen werden. Zum Beispiel werden hohe Gewichte einem Zeitdaueretikett, das eine lange Zeit ist, einem Bewegungsetikett, das viel Bewegung oder zentrierte Bewegung angibt, einem Personenetikett auf der Basis einer engen Beziehung zum Benutzer usw. zugewiesen. Die Videozusammenfassungsgewichtung konzentriert sich auf wichtige Ereignisse, wobei mehrere Videos/Bilder über einen Zeitraum zu einem kurzen Zusammenfassungsvideo verdichtet werden. Dies erzeugt eine gewichtete Videozusammenfassung mit verschiedenen Zeitraffergeschwindigkeiten, die sich auf wichtige Ereignisse konzentriert.
Bei einer Ausführungsform führt ein Prozessor in einer Kamera die anfängliche Filterung von Video durch, zumindest auf der Basis der Anwesenheit signifikanter Bewegung. Die Erzeugung von Videoereignissen und Zusammenfassungen erfolgt durch einen Server aus durch die Kamera über das Internet übertragenem Video. Ein Smartphone mit einer heruntergeladenen Anwendung stellt die Anzeige und Benutzeroberfläche für das Suchen bereit, das in Zusammenwirkung mit dem Server geschieht.
Bei einer Ausführungsform stellen die Suchergebnisse Videos bereit, die keine mit den Suchbegriffen übereinstimmenden Etiketten aufweisen, aber zeitlich nah sind. Zum Beispiel kann eine Suche nach „Geburtstag“ Videozusammenfassungen oder Videoereignisse zurückgeben, die Geburtstag nicht umfassen, aber den Jungen, der Geburtstag hat, am selben Tag umfassen. Als Alternative können andere Etiketten in den Videos, die die Suchergebnisse bilden, zur Bereitstellung von ähnlichen Videoereignissen verwendet werden. Zum Beispiel können bei einer Suche nach „Pool-Partys“ unter den Hauptsuchergebnissen andere Videos mit Personen in den Pool-Partys, die gefunden werden, erhalten werden.
Figurenliste

1 ist eine Blockdarstellung einer Kamera, die bei einer Ausführungsform der Erfindung verwendet wird.
2 ist eine Blockdarstellung eines Systems auf Cloud-Basis, das bei einer Ausführungsform der Erfindung verwendet wird.
3 ist ein Flussdiagramm der grundlegenden Schritte, die in der Kamera und dem Server ausgeführt werden, gemäß einer Ausführungsform der Erfindung.
4 ist eine Darstellung des Übergangs zu verschiedenen Benutzeroberflächen-Anzeigekameraansichten gemäß einer Ausführungsform der Erfindung.
5 ist eine Darstellung des Übergangs zu verschiedenen Benutzeroberflächen-Anzeigemenüs gemäß einer Ausführungsform der Erfindung.
6 ist eine Darstellung einer aufgeteilten Benutzeroberflächenanzeige für mehrere Webcams gemäß einer Ausfiihrungsform der Erfindung.

AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
Kameradarstellung.
1 ist eine Blockdarstellung einer Kamera, die bei einer Ausfiihrungsform der Erfindung verwendet wird. Eine Kamera 100 weist einen Bildsensor 102 auf, der Bilder einem Speicher 104 unter der Kontrolle des Mikroprozessors 106 bereitstellt, der unter einem Programm in einem Programmspeicher 107 arbeitet. Ein Mikrophon 110 ist vorgesehen, um Ton zu detektieren, und ein Lautsprecher 112 ist vorgesehen, um Fernkommunikation zu erlauben. Ein Sendeempfänger 108 stellt eine drahtlose Verbindung zum Internet entweder direkt oder mittels eines lokalen Netzwerks oder Routers bereit. Eine Batterie 114 versorgt die Kamera mit Strom.
Systemdarstellung.
2 ist eine Blockdarstellung eines System auf Cloud-Basis, das bei einer Ausfiihrungsform der Erfindung verwendet wird. Die Kamera 100 verbindet sich mittels des Internets 202 drahtlos mit einem entfernten Server 204. Der Server 204 kommuniziert drahtlos mit einem Smartphone 206 oder einer anderen Benutzer-Datenverarbeitungsvorrichtung. Die Kamera 100 kann sich auch lokal mit dem Smartphone 206 oder mit einem lokalen Computer 208 verbinden. Der lokale Computer kann einen Teil der Bildverarbeitung durchführen, wie etwa fortschrittliche Bewegungsdetektion und Objekterkennung und Etikettierung, und kann das verarbeitete Video und Etiketten zur nachfolgenden Übertragung zum Server 204 an die Kamera 100 zurückgeben, oder der lokale Computer 208 könnte direkt zum Server 204 senden, wie etwa wenn sich die Kamera 100 in einem stromsparenden Batteriemodus befindet.
Flussdiagramm des Betriebs.
3 ist ein Flussdiagramm der grundlegenden Schritte, die in der Kamera und dem Server ausgeführt werden, gemäß einer Ausführungsform der Erfindung. Die Schritte über der gestrichelten Linie 300 werden in der Kamera 100 ausgeführt, während die Schritte unter der gestrichelten Linie in dem Server 204 ausgeführt werden. Wenn keine signifikante Bewegung detektiert wird, erfasst die Kamera periodisch ein kurzes Video (z. B. 4 Sekunden) oder ein Standbild, wie etwa alle 8 Minuten (302). Das erfasste kurze Video wird gepuffert und etikettiert. Solche Kameraetiketten umfassen mindestens Zeit und Datum und das Fehlen von Bewegung.
Die Kamera ist dafür programmiert, Bewegung aus Bildanalyse zu detektieren (Schritt 304). Wenn die Menge an Bewegung, wie etwa die Anzahl von sich ändernden Pixeln, kleiner als eine vorbestimmte Menge ist (306), wird das Video der Bewegung verworfen (308). Wenn die Menge an Bewegung größer als die Schwelle ist, wird bestimmt, ob die Bewegung mehr als eine vorbestimmte Zeitdauer dauert (310). Wenn die Bewegungszeit kleiner als die vorbestimmte Zeit ist, wird sie verworfen (308). Wenn die Bewegung mehr als die vorbestimmte Zeit dauert, wird sie zu einem Puffer gesendet und mit Metadaten etikettiert (314). Solche Kamera-Metadaten-Etikette umfassen Zeit und Datum, die Länge des Videos und die Menge an Bewegung.
Bei einer Ausführungsform kann fortschrittlichere Bewegungsdetektion und Objekterkennung auf der Kamera geschehen (315), oder in einem lokalen Computer. Die kombinierten Videoereignisse werden dann drahtlos zu dem entfernten Server gestreamt (312). Die Bilder und das Video können höhere Auflösung als die zum Streamen verwendete Bandbreite aufweisen. Durch lokales Puffern der Bilder und des Videos kann es mit einer Verzögerung gestreamt und mit einer niedrigeren Einzelbitrate übertragen werden. Zum Beispiel kann es 15 Videoereignisse ohne Bewegung geben, die jeweils 4 Sekunden lang sind, und ein 5-minütiges zweites Bewegungsvideo. Diese können zum Beispiel gepuffert und über 20 Minuten gestreamt werden. Dadurch wird ein zeitverzögerter Stream bereitgestellt, aber mit mehr Auflösung bei niedrigerer Bandbreite.
Der entfernte Server etikettiert die empfangenen Standbilder als keine Bewegung aufweisend. Der entfernte Server filtert (316) das empfangene Video. Das Filtern ist dafür ausgelegt, Videobewegung, die nicht von Interesse ist, zu eliminieren. Zum Beispiel verarbeiten Algorithmen das Video, um die Art von Bewegung zu bestimmen. Wenn die Bewegung ein sich bewegender Vorhang, ein sich bewegender Schatten eines Baums auf einem Fenster, ein Ventilator im Raum usw. ist, kann sie herausgefiltert und verworfen werden.
Ein Ortsdetektor 318 kann verwendet werden, um das Bild zu verarbeiten, um die Art des Orts der Kamera zu bestimmen. Insbesondere ob es innen oder außen ist, ob es ein Speisesaal oder ein Konferenzsaal ist usw. Zur Bestimmung des Orts kann künstliche Intelligenz angewandt werden. Anstelle eines komplexen Objekterkennungsansatzes erfolgt zum Beispiel eine holistische Begutachtung des Bildes. Das Bild wird einem neuronalen Netzwerk oder einer anderen Lernanwendung zugeführt. Die Anwendung hat auch auf eine Datenbank gespeicherter Bilder, die als bestimmte Orte etikettiert wurden, zugegriffen. Zum Beispiel werden vielfältige gespeicherte Bilder von Küchen, Speisesälen und Schlafzimmern bereitgestellt. Diese Bilder werden mit dem erfassten Video oder Bild verglichen, und es erfolgt eine Abstimmung zur Bestimmung des Orts. Als Alternative kann eine Benutzeroberfläche einem Benutzer erlauben, die Art von Ort zu etikettieren. Die Benutzeroberfläche kann dem Benutzer den vermuteten Ort bereitstellen, den der Benutzer gegebenenfalls korrigieren oder weiter etikettieren kann (z. B. Zimmer der Tochter). Ein Beispiel für einen holistischen Bildbegutachtungsprozess wird in „Modeling the shape of the scene: a holistic representation of the spatial envelope" Aude Oliva, Antonio Torralba, International Journal of Computer Vision, Band 42(3): 145-175, 2001, dargelegt.
Zusätzlich zur Bestimmung eines Orts erfolgt eine spezifischere Bestimmung einer „Szene“. Zum Beispiel kann der Ort ein Schlafzimmer sein, während die Szene ein schlafendes Baby ist. Bei einer Ausführungsform wird der Benutzer aufgefordert, die Szene (z. B. als schlafendes Baby) zu kennzeichnen. Als Alternative kann eine automatische Detektion der Szene unter Verwendung eines neuronalen Netzwerks oder einer ähnlichen Anwendung mit Vergleichen mit Bildern bestimmter Szenen und auch Vergleichen mit zuvor gespeicherten Bildern und Videos, die vom Benutzer gekennzeichnet wurden, erfolgen. Außerdem werden bei einer Ausführungsform verschiedene Hinweise verwendet, um die Art der Szene zu bestimmen. Zum Beispiel kann das Video für ein „schlafendes Baby“ aus Untersuchung des Videos mit einer Baby-im-Bett-Szene abgestimmt werden. Dies wird mit anderen Hinweisen kombiniert, wie etwa dass die Tageszeit die Nacht angibt, sich die Kamera im Nachtmodus befindet, ein Mikrophon Töne detektiert, die Schlafen zugeordnet sind, usw. Ähnlich kann eine Geburtstagsfeier holistisch unter Verwendung verschiedener Hinweise detektiert werden, darunter Vergleich mit Geburtstagsfeier-Bildern, Bewegung, die viele Einzelpersonen angibt, Singen (z. B. das Lied „Happy Birthday“) usw. Bei einer Ausführungsform werden vorherige Szenen für einen Benutzer gespeichert und für den Vergleich verwendet. Zum Beispiel kann eine vorherige Szene für „Frühstück“ sein, nachdem der Benutzer aufgefordert wird, zu bestätigen. Durch Verwendung ähnlicher Szenen vom selben Ort für denselben Benutzer kann die Genauigkeit der Identifikation mit der Zeit verbessert werden.
Sobald der Ortstyp bestimmt ist, können die Filterungsparameter dem Filterungsblock 316 bereitgestellt werden. Im Allgemeinen würde der Ort/die Szene gewisse Prioritäten darüber setzen, was erwartet wird und was in dieser konkreten Situation für den Benutzer relevanter/interessanter ist. Was in einer Szene interessant ist, kann in einer anderen Szene nicht interessieren. Wenn zum Beispiel der Ort ein Wohnzimmer ist, würde Unterdrückung konstanter Bewegung an einem bestimmten Ort erfolgen, die wahrscheinlich auf einen Fernseher oder einen Ventilator zurückzuführen sein könnte. Bei einem außen-Ort wird aufgrund von Wind oder anderen Wetterbedingungen viel mehr Bewegung erwartet. Die Parameter der Videoverarbeitung (z. B. Schwellen) werden daher angepasst, um solche Bewegungen (sich bewegende Blätter usw.) zu unterdrücken. Außerdem werden bei einer Ausführungsform reguläre Bewegungsmuster in einer außen-Umgebung unterdrückt (z. B. auf der Straße vorbeifahrende Autos). Wenn dagegen die Umgebung ein Konferenzsaal ist und die Szene eine Besprechung ist, ist das Bemerken einer kleinen Bewegung relevant, um Personen zu zeigen, die zusammensitzen und diskutieren, sich aber nicht viel bewegen. In einem anderen Beispiel, bei dem die Szene ein schlafendes Baby ist, wird eine andere Filterung bereitgestellt, um kleine Bewegungen des Babys zu erfassen und diese nicht herauszufiltern. Zum Beispiel ist es wünschenswert, zu bestätigen, dass das Baby atmet oder sich etwas bewegt.
Sobald irrelevante Bewegung beseitigt ist, bestimmt das Programm, ob ein Mensch oder ein Tier anwesend ist (320). Der konkrete Mensch kann unter Verwendung von Gesichtserkennung identifiziert werden (322). Der Benutzer kann verschiedene Individuen etikettieren, um diesen Prozess zu initialisieren. Bestimmte Tiere können auf dieselbe Weise identifiziert werden, wie etwa indem der Benutzer ein Foto des Familienhaustiers bereitstellt oder das Haustier in einem erfassten Video etikettiert.
Video, das die Filterung durchläuft und einen identifizierten Menschen oder ein identifiziertes Tier aufweist, wird dann mit Kontextdaten etikettiert (324). Das Etikett oder die Metadaten umfassen die Identität der Personen oder Tiere, die Tageszeit, die Dauer des Videos usw. Bei einer Ausführungsform erfolgt Extraktion anderer Metadaten, was zum weiteren Lernen und zur Personalisierung hilfreich ist. Beispiele wären die „Farbigkeit“, die Menge an Bewegung, die Richtung/Position, in der Bewegung erscheint, der interne Zustand der Kamera (z. B. ob sie sich im Nachtsichtmodus befindet), die Anzahl der Objekte usw. Die meisten dieser Daten sind dem Benutzer nicht zugänglich. Diese (anonymen) Daten stellen jedoch eine Grundlage für das Sammeln von Benutzerrückmeldung und Personalisierung bereit.
Bei einer Ausführungsform wird beaufsichtigte Personalisierung bereitgestellt (vom Benutzer angeleitet oder mit Benutzereingabe). Diese Personalisierung erfolgt unter Verwendung verschiedener Benutzereingabevorrichtungen, wie etwa Schiebern und Schaltern oder Tasten in der Anwendung, sowie Benutzerrückmeldung. Bei einer anderen Ausführungsform wird unbeaufsichtigte Personalisierung bereitgestellt, wobei die Anwendung ohne Benutzereingabe bestimmt, wie für einen bestimmten Benutzer zu personalisieren ist (was mit tatsächlichen Benutzereingaben und/oder -korrekturen ergänzt wird). Zu Beispielen für unbeaufsichtigte Personalisierung gehört Verwendung von Statistiken der Szene und implizierter Benutzerrückmeldung. Die Verwendung von Hinweisen, um zu bestimmen, ob ein schlafendes Baby vorliegt, wie oben besprochen, ist ein Beispiel für unbeaufsichtigte Personalisierung.
Es können verschiedene Arten von Benutzerrückmeldung verwendet werden, um beim Prozess zu helfen oder ihn zu verbessern. Zum Beispiel kann der Benutzer aufgefordert werden, zu bestätigen, dass ein „schlafendes Baby“ korrekt identifiziert wurde, und wenn nicht, kann der Benutzer eine korrekte Beschreibung eingeben. Mit dieser Beschreibung werden dann die Daten für zukünftige Charakterisierungen aktualisiert.
Dann wird unter Verwendung der Standbilder und des Videos eine Zusammenfassung eines Tages oder eines anderen Zeitraums (z. B. seit dem letzten Anwendungsstart) erzeugt (326). Die Zusammenfassung wird dann verdichtet (328), um in einem kurzen Zeitclip, wie etwa 30 Sekunden, zu passen. Diese Verdichtung kann die Anzahl verwendeter Standbilder verringern (wie etwa wenn es eine lange Sequenz ohne Bewegung gibt) und kann auch abhängig von der bestimmten Wichtigkeit das Video verkürzen oder mit verschiedenen Geschwindigkeiten vorspulen.
Benutzeroberfläche mit Tageszusammenfassung. Blasensymbolen.
4 ist eine Darstellung des Übergangs zu verschiedenen Benutzeroberflächen-Anzeigekameraansichten gemäß einer Ausführungsform der Erfindung. Eine Anzeige 402 liefert einen Live-Videostream (mit einer geringeren Auflösung als die zeitverzögerten Zusammenfassungen). Bei einer Ausführungsform wird, wenn der Benutzer die Anwendung auf dem Smartphone oder einer anderen Benutzer-Datenverarbeitungsvorrichtung aktiviert, ein Signal durch den Server zur Webcam weitergeleitet, um das Streamen von Bildern durch die Webcam zu starten. Dadurch wird die gezeigte Live-Ansicht bereitgestellt. Der Anzeige werden an Position 404 bestimmte Daten überlagert. In dem gezeigten Beispiel sind diese Daten eine Angabe des Orts oder eine andere Kennzeichnung, die der Webcam (Wohnzimmer) gegeben ist, eine Angabe, dass es eine Live-Streaming-Ansicht (live) ist, und eine Uhr, die die aktuelle Zeit angibt.
Wenn der Benutzer auf den Schirm tippt (406), geht die Anzeige zu einer Ansicht 408 über, die eine Reihe 410 von Blasenindikatoren für gespeicherte Videoszenen umfasst. Ansicht 408 stellt auch eine Reihe von Symbolen 412 bereit. Das Symbol 414 ist für das Teilen der Videozusammenfassung mit anderen, das Symbol 416 ist für das Speichern des Videos in einer Galerie und das Symbol 418 ist zum Aktivieren eines Lautsprechers, um zu irgendwem zu sprechen, der sich im Raum mit der Webcam befindet, wie eine Push-Talk-Funktion eines Walkie-Talkie.
Die Reihe von Blasensymbolen 410 umfasst eine größere Blase 420, die „Live-Ansicht“ angibt. Das Symbol 410 entspricht dem gerade Angezeigten und ist vergrößert, um zu zeigen, welche Ansicht ausgewählt ist. Die Symbole 422 und 424 geben Videos an, die für wichtige Bewegungsdetektionsereignisse erfasst werden, wobei die Zahlen in den Blasen angeben, vor wie langer Zeit das Video erfasst wurde (z. B. 2 Minuten und 37 Minuten in dem gezeigten Beispiel). Als Alternative können die Blasen einen Zeitstempel aufweisen. Die Farbe der Blasen 422 und 424 gibt die bestimmte Wichtigkeit des erfassten Ereignisses an. Wenn der Benutzer zum Beispiel Blase 422 wählt, würde diese Blase verriegelt und vergrößert, während die Mitte der Reihe bewegt wird. Während der Benutzer durch die Blasen scrollt würde ein Standbild von diesem Ereignis angezeigt, und das Video beginnt zu laufen, nachdem das Ereignis verriegelt ist oder der Benutzer eine Wiedergabetaste aktiviert. Die Blase 426 ist ein „Tagesbericht“, der die verdichtete Zusammenfassung des Tages aus Schritt 328 in 3 anzeigt. Bei einer Ausführungsform können Bilder oder Symbole mehr Informationen über die durch eine Blase angegebene Szene bereitstellen, wie etwa ein Bild eines Hundes oder einer Katze, um eine Szene anzugeben, an der das Familienhaustier beteiligt ist, oder ein Bild- oder Namensetikett einer Person oder von Personen in der Szene.
Wenn der Benutzer die Zeitlinie (428) auf der Anzeige 408 wischt, bewegt sich die Reihe von Blasen wie in der Ansicht 430 angegeben. Wie gezeigt haben sich die Blasen nach unten bewegt, wobei die 37-Minuten-Blase 424 vor dem Verschwinden steht, und eine 1-Std.-Blase 432 aktuell vergrößert ist. Ein Halbkreis 434 gibt an, dass die tatsächliche Ansicht, die angezeigt wird, die Live-Ansicht ist. Während jede Blase vergrößert wird, wird als Alternative beim Erreichen der Mitte der Seite des Bildschirms ein Standbild aus diesem Video angezeigt. Somit würde ein Standbild von der Bewegung vor 1 Stunde für die Taste 432 angezeigt. Wenn der Benutzer seinen Finger löst, würde die Wiedergabe des Videos für dieses Ereignis vor 1 Stunde beginnen. Bei einer Ausführungsform könnten zusammen mit dem Stand-Vorschaubild bestimmte Etiketten angezeigt werden. Zum Beispiel könnten die Namen von Personen in dem Ereignis, bestimmt durch Gesichtserkennung, angezeigt werden. Außerdem könnte das Ereignis auf der Basis von Zeit und Objekterkennung (z. B. Frühstück) oder Interaktion mit einem Kalender (z. B. Besprechung Kunde X) kategorisiert werden.
Die Anzeige 440 zeigt die „Tagesbericht“-Blase 426, nachdem sie ausgewählt wird (mit eliminiertem Wiedergabesymbol). Das Video wird dann abgespielt, wobei ein Pausesymbol 442 bereitgestellt wird. Es wird eine Zeitlinie 444 bereitgestellt, um den Fortschritt durch den Tagesbericht zu zeigen.
GUI-Menüs.
5 ist eine Darstellung des Übergangs zu verschiedenen Benutzeroberflächen-Anzeigemenüs gemäß einer Ausführungsform der Erfindung. Durch Wischen nach rechts von der linken Seite des Bildschirms aus wird eine Anzeige 502 aktiviert. Dadurch werden 3 Menüsymbole 504, 506 und 508 heraufgezogen. Antippen des Symbols 504 bringt das Vorrichtungsmenü-Schirmbild 510 hervor. Antippen des Symbols 506 bringt das Benachrichtigungsmenü 512 hervor. Antippen des Symbols 514 bringt das Kontomenü 514 hervor.
Auf der Anzeige 510 befinden sich vielfältige Symbole zum Steuern der Vorrichtung (Webcam). Mit dem Symbol 516 wird die Webcam ein-/ausgeschaltet. Mit dem Symbol 518 werden Webcams hinzugefügt oder entfernt. Auf der Anzeige 512 erlaubt das Symbol 520 Aktivierung des Pushens von Benachrichtigungen auf das Smartphone, wie etwa mit einer Textnachricht oder einfache Bereitstellung einer Benachrichtigung für eine E-Mail. Das Symbol 522 gewährleistet E-Mail-Benachrichtigung. Die Anzeige 514 stellt verschiedene Kontooptionen bereit, wie etwa Ändern des Passworts und Aufrüstung auf Cloud (erhalten von Cloud-Speicherung und anderen fortschrittlichen Merkmalen).
Anzeige mit mehreren Kameras und aufgeteilter Ansicht
6 ist eine Darstellung einer aufgeteilten Benutzeroberflächenanzeige für mehrere Webcams gemäß einer Ausführungsform der Erfindung. Die Anzeige 602 ist die große Hauptanzeige, die die Wohnzimmer-Webcam zeigt. Die Anzeige 604 zeigt eine Spielzimmer-Webcam und die Anzeige 606 zeigt eine Arbeitszimmer-Webcam. Bei einer Ausführungsform ist die Anzeige von 6 die Vorgabeanzeige, die bereitgestellt wird, wenn die Anwendung gestartet wird. Bei einer Ausführungsform stellt eine primäre Anzeige Streaming-Video bereit, während die anderen Anzeigen ein Standbild bereitstellen. Als Alternative können alle Anzeigen Streaming-Video bereitstellen. Die primäre Anzeige kann die erste verbundene Kamera oder eine vom Benutzer designierte Kamera sein.
Benutzeroberfläche mit anfänglichem Start der Zusammenfassung seit der letzten Aktivität
Bei einer anderen Ausführungsform stellt die UI beim Start der Anwendung eine Video-Zusammenfassung von Inhalt seit dem letzten Start der Anwendung bereit. Der Benutzer kann mit einer Hyper-Raffergeschwindigkeit durch das Video scrollen und dann einen Teil für einen normalen Zeitablauf oder eine normale Zeitansicht auswählen. Der Benutzer kann auch auf Echtzeit-Live-Streaming umschalten, mit einer niedrigeren Auflösung als die zeitverzögerten Zusammenfassungen. Die Zusammenfassungen werden kontinuierlich aktualisiert und gewichtet. Zum Beispiel kann eine Zusammenfassung nach 4 Stunden 8 Ereignisse mit Bewegung enthalten. Wenn zusätzliche Ereignisse detektiert werden, können sie höher gewichtet werden, und einige der ursprünglichen 8 Ereignisse können eliminiert werden, um für die höher gewichteten Ereignisse Platz zu schaffen. Als Alternative können einige der ursprünglichen niedriger gewichteten Ereignisse einen kleineren Teil der Zusammenfassung erhalten, wie etwa 2 Sekunden anstelle von 5 Sekunden.
Bei einer Ausführungsform kann der Benutzer auf eine ausführlichere Zusammenfassung oder eine Zusammenfassung der zweiten Stufe von herausgelassenen Ereignissen oder eine längere Zusammenfassung von niedriger gewichteten Ereignissen zugreifen.
Szenenintuition.
Szenenintuition ist Bestimmung der Relevanz detektierter Ereignisse, insbesondere Bewegung. Auf einem einfachen Niveau umfasst sie die Eliminierung von minimaler Bewegung oder nicht signifikanter Bewegung (sich bewegende Vorhänge, ein sich bewegender Ventilator, Schatten, die sich während des Tages allmählich mit der Sonne bewegen, usw.). Auf einem höheren Niveau, wie ausführlicher in nachfolgenden Beispielen besprochen, umfasst sie Bestimmung des Kameraorts aus detektierten Objekten (innen oder außen, Küche oder Konferenzsaal). Eine Aktivität kann aus detektierten Personen oder Haustieren detektiert werden. Eine neue Szene kann etikettiert werden, wenn eine neue Person eintritt oder jemand weggeht oder als Alternative wenn eine ganz andere Gruppe von Personen detektiert wird. Verschiedenen detektierten Ereignissen können in dem obigen UI-Beispiel verschiedene Ereignisblasen zugewiesen werden.
Die Zuweisung von Video an verschiedene Zusammenfassungen, repräsentiert durch die Blasen, umfasst Gruppieren von „bedeutungsvollen“ Dingen miteinander. Zum Beispiel weisen verschiedene Aktivitäten verschiedene Längen auf. Das Frühstück könnte ein ziemlich langes sein, während das Eintreten in einen Raum kurz sein könnte. Bei einer Ausführungsform erfasst die Anwendung interessante Momente, die Personen gerne behalten/abspeichern/teilen würden (z. B. eine Kissenschlacht von Kindern usw.). Haupthinweise für das Bestimmen, wann eine Szene oder Aktivität beginnt und endet, umfassen die Zeitdauer, nachdem Bewegung stoppt (wodurch das Ende einer Szene angegeben wird), kontinuierliche Bewegung für einen langen Zeitraum (wodurch ein Teil derselben Szene angegeben wird), neue Bewegung an einem anderen Ort (wodurch eine neue Szene angegeben wird), und eine Änderung der Anzahl der Objekte oder eine weggehende Person oder eine eintretende neue Person.
Suche.
Durch Bereitstellung von Etiketten oder Metadaten können die Videos leicht durchsucht werden. Durch Klassifizieren von Videos in verschiedene Szenen kann das Suchen auf der Art von Szene basieren. Das Suchen kann auch auf Zeit, Dauer von Clips, Personen im Video, bestimmten detektierten Objekten, einem bestimmten Kameraort usw. basieren. Bei einer Ausführungsform erzeugt die Anwendung Vorgabesuchoptionen auf der Basis des Abstimmens von detektiertem Inhalt mit möglichen Suchbegriffen. Solche möglichen Suchterme können durch den Benutzer eingegeben werden oder können durch Interaktion mit anderen Anwendungen und Daten des Benutzers erhalten werden. Zum Beispiel kann der Benutzer die Namen von Familienmitgliedern, Freunden oder Arbeitskollegen in einer Sozialmedien- oder anderen Anwendung etikettiert haben, wobei Bilder den Etiketten entsprechen. Die vorliegende Anwendung kann dann diese etikettierten Bilder mit Gesichtern in den Videos vergleichen, um zu bestimmen, ob eine Übereinstimmung besteht, und den bekannten Namen anwenden. Die Vorgabesuchbegriffe würden dann zum Beispiel alle Personen umfassen, die in den Videos für den durchsuchten Zeitraum etikettiert sind.
Bei einer Ausführungsform werden Etiketten im Hinblick auf späteres Durchsuchen bereitgestellt. Etiketten werden für typische Dinge bereitgestellt, nach denen ein Benutzer gerne suchen würde. Ein Beispiel wären die Namen von Personen und Haustieren. Ein anderes Beispiel ist das Etikettieren von sich bewegenden Objekten oder Personen. Es wird die Art von Objekt etikettiert, das sich bewegt (Auto, Ball, Person, Haustier usw.). Bei einer Ausführungsform wird, während zur Bestimmung einer Szene ein holistischer Ansatz verwendet wird, statt Objektdetektion, für sich bewegende Objekte Objektdetektion verwendet. Andere Etiketten wären das Alter von Personen, die Laune (froh - Lächeln, Lachen werden detektiert, oder traurig - Stirnrunzeln, gefurchte Brauen werden detektiert).
Bei einer Ausführungsform werden Videosuchergebnisse auf der Basis der Gewichtung der Videozusammenfassungen eingestuft, so wie es nachfolgend und an anderer Stelle in der vorliegenden Anmeldung besprochen wird. Wenn mehrere Suchbegriffe verwendet werden, werden die Ergebnisse mit der höchsten Gewichtung an dem ersten Suchbegriff bei einer Ausführungsform zuerst präsentiert. Bei einer anderen Ausführungsform wird die Gewichtung des ersten Terms zum Priorisieren der Ergebnisse in Gruppen von Videos verwendet, die in einen höchsten Gewichtungsbereich, einen zweithöchsten Gewichtungsbereich usw. fallen.
Bei einer Ausführungsform umfassen Videosuchergebnisse auch Ereignisse in Bezug auf den gesuchten Begriff. Zum Beispiel liefert eine Suche nach „Mitchs Geburtstag“ Videoereignisse, die sowohl mit „Mitch“ als auch mit „Geburtstag“ etikettiert sind.
Außerdem würden unter diesen Suchergebnissen auch andere Videoereignisse am selben Datum mit dem Etikett „Mitch“, aber ohne Etikett „Geburtstag“, gezeigt. Das Etikett „Geburtstag“ kann auf Videoclips angewandt werden, die eine Geburtstagstorte, Geschenke und Gäste umfassen. Es können aber andere Videoereignisse am selben Tag für den Benutzer von Interesse sein, die Mitch mit anderen Aktivitäten an seinem Geburtstag zeigen.
Zeitliches (zeitverzögertes) Streaming.
Video und Bilder können wie oben beschrieben mit hoher Auflösung erfasst, gepuffert und dann über einen größeren Zeitraum gestreamt werden. Dies ist möglich, da kein konstantes Live-Streaming vorliegt, sondern nur Streaming von periodischen nicht-Bewegungs-Clips und Clips mit in Abständen auftretender Bewegung. Zum Beispiel können Bilder mit 2-3 Megabyte erfasst werden, dann aber mit einer Bandbreite gestreamt werden, die mit 500 Kilobit Live-Streaming zurechtkäme. Bei einer Ausführungsform werden die Bilddaten im Kameraspeicher gespeichert, transcodiert und übertragen.
Wenn die Videozusammenfassungen danach vom Benutzer betrachtet werden, können sie mit hoher Bandbreite gestreamt werden, da sie nur kurze Zusammenfassungen sind. Als Alternative können sie auch in dem Smartphone des Benutzers in einem umgekehrten Prozess mit einer zusätzlichen Zeitverzögerung gepuffert werden. Als Alternative kann das Video mit niedriger Auflösung abgeliefert werden, gefolgt durch hohe Auflösung, um weitere Einzelheiten bereitzustellen, wenn der Benutzer den Zeitraffer verlangsamt, um in normaler Zeit zu betrachten oder um einzelne Bilder zu betrachten.
Aufteilung der Verarbeitung zwischen lokaler Kamera und entferntem Server
Bei einer Ausführungsform stellt eine Webcam eine grobe Filterung und einfache Verarbeitung von Video bereit, das zur weiteren Verarbeitung und Speicherung der Zeitraffer-Videosequenzen zur „Cloud“ (einem entfernten Server über das Internet) übertragen wird. Es kann mehr Verarbeitung auf der lokalen Kamera geschehen, um Cloud-Verarbeitung zu vermeiden, während größere Cloud-Speicherfähigkeit ausgenutzt wird. Ein Benutzer kann auf das gespeicherte Video zugreifen und auch einen Live-Stream von der Webcam unter Verwendung einer Anwendung auf einem Smartphone aktivieren.
Bei einer Ausführungsform detektiert die lokale Kamera nicht nur Bewegung, sondern auch die Richtung der Bewegung (z. B. von links nach rechts, in den Raum oder aus dem Raum heraus). Der Ursprung der Bewegung kann auch lokal bestimmt werden (von der Tür, dem Fenster, dem Stuhl usw.). Außerdem kann die lokale Kamera oder ein lokaler Computer oder eine andere Vorrichtung in Kommunikation mit der Kamera, wie etwa über ein LAN, einige Verarbeitung durchführen. Zum Beispiel könnten Formerkennung und Objekt- oder Gesichtserkennung und Vergleich mit bereits etikettierten Bildern in anderen Benutzeranwendungen (z. B. Facebook) lokal geschehen. Bei einer Ausführungsform kann alle Verarbeitung lokal durchgeführt werden, wobei Zugang mittels der Cloud (Internet) bereitgestellt wird.
Bei einer Ausführungsform ist die Verarbeitung, die auf der Kamera geschieht, die Verarbeitung, die höherauflösende dichtere Bilder erfordert. Dazu gehören Bewegungsdetektion und bestimmte Arten von Filterung (wie etwa Bestimmung, an welchen Bildern Bewegungsdetektion auszuführen ist). Andere Funktionen, wie etwa Ortsdetektion, können an Bildern und Video mit niedrigerer Auflösung ausgeführt werden, die zur Cloud gesendet werden.
Stromsparender Batteriemodus.
Bei einer Ausführungsform kann die Kamera entweder direkt oder mittels eines Ständers oder einer anderen Vorrichtung in die Netzstromversorgung gesteckt werden oder kann mit Batteriestrom arbeiten. Somit besitzt die Kamera einen Modus mit hoher Stromversorgung (Netzstromversorgung) und einen Modus mit niedriger Stromversorgung (Batterie). Im Batteriemodus wird Stroms mittels einer Kombination von Techniken gespart. Es wird die Anzahl der auf Bewegung hin analysierten Einzelbilder verringert, wie zum Beispiel jedes 5. Einzelbild anstelle von, wie normal, jedem 3. Einzelbild. Außerdem wird nur einfache Bewegungsdetektion in der Kamera durchgeführt, wobei kompliziertere Bewegungserkennung und Objektdetektion durch einen Prozessor in dem entfernten Server oder einen lokalen Computer durchgeführt wird. Die Kamera wird in einen Sleep-Modus versetzt, wenn keine Bewegung vorliegt, und periodisch (z. B. alle 8 Minuten) aufgeweckt, um ein kurzes Video oder Bild zu erfassen. Diese Videos/Bilder können lokal gespeichert und nur übertragen werden, wenn auch Bewegungsvideo zu übertragen ist, in einem längeren Zeitraum oder auf Anforderung hin, wie etwa beim Anwendungsstart. Bei einer Ausführungsform wird im Sleep-Modus alles ausgeschaltet mit Ausnahme der Teile des Prozessors, die für einen Timer und zum Aufwecken des Prozessors benötigt werden. Die Kamera wird periodisch aus dem Sleep-Modus aufgeweckt, und der Bildsensor und Speicher werden aktiviert. Der Sender und andere Schaltkreise, die zum Erfassen und Verarbeiten eines Bildes nicht benötigt werden, bleiben im Ruhezustand. Es wird ein Bild oder Videoereignis detektiert. Das Bild oder Videoereignis wird mit mindestens einem aufgezeichneten Bild oder Videoereignis verglichen. Wenn keine signifikante Bewegung besteht, wird die Kamera in den Sleep-Modus zurückgeführt.
Etiketten.
Bei einer Ausführungsform werden Etiketten für jedes Einzelbild von Daten aufgenommen. Als Alternative können Etiketten auf eine Gruppe von Einzelbildern angewandt werden oder einige Etiketten können für jedes Einzelbild sein, während andere Etiketten für eine Gruppe von Einzelbildern sind. Wie oben beschrieben umfassen minimale Etiketten einen Zeitstempel und eine Angabe anwesender Bewegung zusammen mit einer Menge an Bewegung. Zusätzliche Etiketten wären:

- Objektidentifikation
- Personenidentifikation
- Kameraort
- Bewegungsgeschwindigkeit
- Bewegungsrichtung
- Bewegungsort (z. B. eine in den Raum eintretende Person)
- Art der Bewegung (z. B. Laufen, Rennen, Kochen, Spielen usw.).

Initialisierung.
Bei einer Ausführungsform umfasst das Produkt mindestens eine Kamera mit mindestens einem Mikrophon und einer Anwendung, die auf ein Smartphone oder eine andere Vorrichtung heruntergeladen werden kann. Beim anfänglichen Start führt die Anwendung einer Reihe von Schritten aus. Sie fordert den Benutzer auf, vielfältige Informationen einzugeben, darunter Namen, E-Mail usw.
Die Anwendung greift automatisch oder nach einer Benutzeraufforderung auf Benutzerdaten und andere Anwendungen zu, um ein Profil zur Verwendung bei Objekt-, Personen- und Ereignisdetektion aufzubauen. Zum Beispiel kann auf Sozialmedienanwendungen eines Benutzers zugegriffen werden, um etikettierte Bilder zu erhalten, die Familien, Freunde usw. des Benutzers identifizieren. Diese Daten können zur Cloud hochgeladen oder zur Verwendung beim Untersuchen von Videos dem Prozessor auf der Kamera oder einer anderen lokalen Verarbeitungsvorrichtung zugeführt werden. Außerdem kann auf die Kalenderanwendung des Benutzers zugegriffen werden, um gegebenenfalls geplante Besprechungen, Orte und Teilnehmer zur Abstimmung mit einem Kameraort zu bestimmen.
Teilen.
Bei einer Ausführungsform können die Zusammenfassungen oder Live-Streams unter Verwendung vielfältiger Verfahren mit anderen geteilt werden. Zum Beispiel können Anwendungen wie Periscope oder Meercat verwendet werden, um einen Stream zu teilen oder eine Zeit zu setzen, zu der Videozusammenfassungen sichtbar sein werden. Ein Videoereignis kann auch auf Sozialvernetzungs- und anderen Sites oder per E-Mail, Instant Message usw. geteilt werden. Bei einer Ausführungsform werden dem Benutzer, wenn das Teil-Symbol ausgewählt wird, Optionen darüber präsentiert, welches Verfahren zum Teilen zu verwenden ist und auch mit wem zu teilen ist. Zum Beispiel wird eine Liste von in der Videozusammenfassung identifizierten Personen für mögliches Teilen präsentiert.
Sensorvarianten.
Die Kamera kann Teil einer Episoden-Erfassungsvorrichtung sein, die andere Sensoren, wie etwa ein Mikrophon, umfasst. Bei bestimmten Ausführungsformen kann die Kamera eine beliebige Art von Ereignis oder Interaktion oder Änderung in einer Umgebung überwachen, die durch einen Sensor detektiert und danach aufgezeichnet werden kann, darunter ohne Beschränkung eine Bildaufzeichnungsvorrichtung, und zwar in Form eines Bildes, einer Audiodatei, einer Videodatei, einer Daten-Datei oder eines anderen Datenspeicherungsmechanismus, darunter ohne Beschränkung: Bewegung, Datum und Uhrzeit, geographischer Ort und Audio, ein Bewegungssensor, einschließlich der Kombination eines Bewegungssensors mit einem Algorithmus, der in der Lage ist, bestimmte Arten von Bewegung zu identifizieren, Näherungssensor, Temperatursensor, kapazitiver Sensor, induktiver Sensor, Magnet, Mikrophon, optischer Sensor, Antenne, Nahfeldkommunikation, ein Magnetometer, ein GPS-Empfänger und andere Sensoren. Die Kameras können Digitalkameras, digitale Videokameras, Kameras in Smartphones, Tablet-Computern, Laptops oder anderen mobilen Vorrichtungen, Webcams und ähnliches sein.
Frühstück-Beispiel.
Die vorliegende Erfindung bietet die Möglichkeit, Etiketten mit Kontextrelevanz zu einem Stream von Daten hinzuzufügen, der ein Ereignis repräsentiert, das aufgetreten ist. Ein Beispiel ist wenn eine Kamera dafür eingerichtet wird, eine Küche von 6:00 bis 18:00 zu beobachten. Ereignisse treten in der Szene auf, die durch die Kamera betrachtet wird, wie etwa das Frühstück einer Familie. Der aufgezeichnete Inhalt wird bezüglich Kontext analysiert. Zum Beispiel analysiert die Kamera die Daten auf der Basis von Audioausschnitten des Geräuschs von Tellern, die benutzt werden, wobei bestimmt wird, dass sie sich in einer Küche befindet und deshalb eine Mahlzeit stattfindet. Das Auswählen von Audiodaten ist lediglich ein Beispiel dafür, wie dies erreicht werden kann, es werden Fachleuten aber auch andere Techniken zum Ausführen dieser Aufgabe ersichtlich sein. Ferner kann die Analyse in der Kamera, in einer anderen lokal verbundenen Vorrichtung oder aus der Ferne (wie etwa in der Cloud) durchgeführt werden. Dann wird Daten, die zum Zeitpunkt des Detektierens des Geräuschs von Tellern aufgezeichnet werden, ein Kontext-Etikett zugeteilt. Dies kann zum Beispiel um 7:15 auftreten, und die Kamera erkennt ferner unter Verwendung von Gesichtserkennungstechniken, dass die in der Szene anwesenden Personen Familienmitglieder sind. Dadurch entsteht die Gelegenheit, auf der Basis der zusätzlichen Informationen aufgrund der Identifikation der Familienmitglieder, aber auch auf der Basis der Zeitinformationen, die zum Bilden eines Zeitstempels benutzt werden, ein weiteres Kontext-Etikett hinzuzufügen. Zeitstempelinformationen können in Korrelation mit den zusätzlichen erfassten Informationen verwendet werden, um ein Ereignis von anderen Ereignissen mit ähnlichen Aktionen zu unterscheiden, z. B. um das Ereignis als „Frühstück“ zu identifizieren, im Gegensatz zu „Mittagessen“ oder „Abendessen“. Die Verwendung solcher Kontext-Etiketten erlaubt die Erzeugung einer voll anpassbaren Zusammenfassung. Die Zusammenfassung kann auf vorbestimmten Kriterien oder auf Benutzerpräferenzen basieren. Die Szene wird deshalb über einen längeren Zeitraum überwacht, analysiert, und es können Kontext-Etiketten und Zeitstempel geeigneterweise angewandt werden.
Wenn ein Ereignis oder ein Teil der Zusammenfassung durch den Benutzer ausgewählt wird, ermöglichen die Kontext-Etiketten und Zeitstempel die Erzeugung einer spezifischeren Zusammenfassung, die sich auf einen bestimmten Kontext in der Szene oder den Kontext eines bestimmten Ereignisses konzentriert. Für das Frühstück-Beispiel ist es möglich, eine Zusammenfassung auszuwählen, die eine kurze Videosequenz umfasst, oder eine Zusammenfassung, die eine Zusammenfassung relevanter Informationen für das Ereignis „Frühstück“ umfasst, wie etwa wer anwesend war, wie lange das Frühstück dauerte und so weiter. Die für das Ereignis relevanten Informationen können auch als Textinformationen angezeigt werden, die die präsentierte Videosequenz überlagern. Eine andere Möglichkeit ist eine Zusammenfassung, die Einzelheiten desselben Ereignisses umfasst, das regelmäßig in einer Szene auftritt, wie etwa eine Zusammenfassung von Frühstücken, die über die vorherigen sieben Tage stattfinden. Die vorliegende Erfindung bietet deshalb eine vollständig flexible Weise des Produzierens einer Zusammenfassung auf der Basis der Zuweisung von Kontext-Etiketten an Ereignissen, die in einer Szene auftreten, die durch einen Benutzer voll ausführbar und bestimmt sein können oder dynamisch durch eine Episoden-Erfassungsvorrichtung bestimmt werden oder eine Kombination von beidem. Dies wird in einer Reihe von nichteinschränkenden Beispielen nachfolgend weiter beschrieben.
Konferenzsaal-Beispiel.
Eine Videodatenaufzeichnungsvorrichtung, wie etwa eine Kamera, die mit einem Kommunikationsnetz, wie etwa dem Internet, einem lokalen Netzwerk (LAN) oder Mobilfunknetz zum Übertragen von Daten kommunizieren kann, wird in einem Konferenzsaal platziert. Anfänglich beobachtet die Kamera die Szene, das heißt, überwacht alle in dem Saal innerhalb einer Episode, wie etwa 24 Stunden, auftretenden Ereignisse und zeichnet die Szene unter Verwendung von Videoerfassung zur Verarbeitung auf. Die Episode enthält deshalb Perioden der Aktivität (Personen treten ein und verwenden einen Saal) und Inaktivität (der Saal ist leer). Während der Episode kann es möglich sein, Gruppen von Personen zu beobachten, die eintreten, den Saal verwenden und verlassen, den Saal für verschiedene Zwecke verwenden, wie etwa Besprechungen oder Telefonkonferenzen. Diese Videoerfassung bildet die anfängliche Phase des Verfahrens zum Produzieren einer Zusammenfassung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung.
Die während der Videoerfassung erhaltenen Daten werden versendet, um verarbeitet zu werden, um ein Ereignis-Log zu erzeugen. Dies kann entweder in der Episoden-erfassungsvorrichtung, in diesem Beispiel in der Kamera, erfolgen oder aus der Ferne über ein Kommunikationsnetz wie etwa das Internet (in einem entfernten Server, in der Cloud) oder in einem Prozessor in Kommunikation mit der Vorrichtung, wie etwa über ein lokales Netzwerk (LAN). Die Verarbeitung kann live geschehen, das heißt, während der Videoerfassungsphase, oder danach, sobald die Videoerfassungsphase abgeschlossen ist, oder mit einem Offset von zum Beispiel 30 Minuten nach der Videoerfassung.
Nachdem Ereignisse identifiziert sind, kann ein Ereignis-Log erzeugt werden. Die sensorischen Informationen können Daten in Bezug auf die Ausgabe visueller oder nichtvisueller Sensoren umfassen. Ein Ereignis kann durch einen beliebigen dieser Sensoren detektiert und/oder identifiziert werden, zum Beispiel detektiert ein optischer Strahlbewegungssensor die Bewegung einer Person durch die Tür des Konferenzsaals. In dieser Situation wird das Ereignis durch ein Objekt, die Person, erzeugt, und die Anwesenheit einer Person wird in dem Saal identifiziert. Die Episoden-Erfassungsvorrichtung kann auch die Anwesenheit statischer Artikel in dem Saal bestimmen, wie etwa Stühle, wobei diese Informationen in das Ereignis-Log geleitet werden, wenn es erforderlich ist.
Visuelle sensorische Informationen, die von den visuellen Sensoren erhalten werden, werden protokolliert. Dazu kann Folgendes gehören:

Bestimmen, ob Bewegung auftritt, welche Art von Bewegung auftritt, wieviel Bewegung auftritt, die Richtung und Geschwindigkeit etwaiger Bewegung;
Bestimmen, ob irgendwelche Objekte anwesend sind, die Anzahl anwesender Objekte;
Bestimmen der Klassifikation etwaiger Objekte, darunter Person, Haustier, unbewegtes Objekt wie ein Stuhl, und
Bestimmen der Identifikation eines Objekts unter Verwendung einer Erkennungstechnologie, zum Beispiel Gesichtserkennungsverfahren.

Nichtvisuelle sensorische Informationen, die von den visuellen Sensoren erhalten werden, werden protokolliert. Dazu kann Folgendes gehören:

Protokollieren der Position etwaiger Objekte unter Verwendung von Koordinaten des GPS (Global Positioning System), eines Geofencing- oder anderen Positionsbestimmungsmechanismus;
Protokollieren von Audiodaten in einem beliebigen geeigneten Format;
Protokollieren der Temperatur; und
Protokollieren von Beschleunigung, Richtung und Höhe über dem Meeresspiegel (Höhe).

Mit den sensorischen Informationen werden Kontext-Etiketten erzeugt, die, wenn sie an die Daten angebracht werden, einem Benutzer erlauben, sinnvolle Zusammenfassungen zu erzeugen. Das Kontext-Etikett gibt den Kontext des Ereignisses an und kann spezifischer Kontext oder allgemeinerer Kontext sein. Zum Beispiel kann das Etikett „mindestens eine Person anwesend“ oder „mehr als eine Person anwesend“ oder „mehr als eine Person anwesend und es besteht Interaktion zwischen den Personen“ oder „es findet eine Besprechung statt“ sein. In dem vorliegenden Beispiel gibt das Kontext-Etikett an, dass ein bestimmtes Ereignis eine Besprechung ist. Die Zeitstempeldaten können getrennt auf das Ereignis angewandt werden oder können Teil des Kontext-Etiketts sein oder das Kontext-Etikett kann tatsächlich die Zeitstempeldaten sein. Wenn eine Gruppe von Personen in den Saal eintritt, wird ein Kontext-Etikett zugewiesen, das den Beginn einer Besprechung angibt. Wenn eine einzelne Person in den Saal eintritt und das Telefon verwendet, weist die Kamera ein Kontext-Etikett zu, das angibt, dass der Saal für einen Privatanruf verwendet wird. Wenn die Kamera mit einem Kommunikationsnetz verbunden ist, über das auf eine Präsentation in dem Besprechungssaal zugegriffen wird, kann die Kamera Kontext-Etiketten zuweisen, die den Beginn einer Besprechung, das Ende einer Besprechung, eine in einer Besprechung auftretende Pause oder spezifische Teile einer Präsentation repräsentieren. Auf diese Weise können die Kontext-Etiketten unter Verwendung von Informationen erzeugt werden, die direkt über die Kamera (die etwa die Videoszene beobachtet) verfügbar sind, kann aber auch Informationen verwenden, die über andere Sensoren/Systeme verfügbar sind (d.h. Informationen in Bezug auf die Benutzung eines Projektors).
Eine Zusammenfassung wird mit mindestens einer Teilmenge der Ereignisse auf der Basis der Kontext-Etiketten erzeugt. Im vorliegenden Beispiel dient die Zusammenfassung der Funktion eines Berichts für einen Konferenzsaal-Organisator, der die Verwendung der Einrichtungen zeigt. Dieser Zusammenfassungsbericht könnte verschiedene Formen annehmen. Zum Beispiel kann der Zusammenfassungsbericht ein auf Text basierender Bericht, eine Videozusammenfassung oder ein Textbericht mit „klickbaren“ Thumbnails signifikanter Ereignisse sein. Der Konferenzsaal-Organisator kann die Zusammenfassung nach Zeitstempeldaten oder Kontext-Etikett durchsuchen. Indem einem Benutzer Informationen bezüglich einer Teilmenge von Ereignissen bereitgestellt werden, gestattet eine Zusammenfassung dem Benutzer, die Episode und die Szene effektiv zu überwachen. Man beachte, dass es auch wünschenswert sein kann, Perioden der Inaktivität in die Episodenzusammenfassung aufzunehmen. Zum Beispiel kann ein Einrichtungsmanager Informationen darüber, wie häufig Konferenzsäle leer sind, nützlich finden. In einem anderen Beispiel kann ein Krankenpfleger den Zusammenfassungsbericht benutzen, um die Aktivität (oder fehlende Aktivität) eines Patienten zu verstehen.
Als Teil der Zusammenfassung von Ereignissen können in einer Szene beobachtete Ereignisse mit gespeicherten oder eingegebenen Daten abgestimmt werden, um eine sinnvollere Zusammenfassung als Teil der Zusammenfassung zu produzieren. Die Episoden-Erfassungsvorrichtung kann mit Identitätsinformationen über häufige Anwesende des Saals ausgestattet werden, so dass sie spezifische Saalanwesende identifizieren kann. Kontext-Etiketten können hinzugefügt werden, um spezifische Saalanwesende in einer Zusammenfassung zu identifizieren. Die gespeicherten oder eingegebenen Daten identifizieren ein Objekt, das eine Person sein kann, und die gespeicherten oder eingegebenen Daten können zum Wählen und Zuweisen eines die Person identifizierenden Kontext-Etiketts verwendet werden. Dadurch kann ein Benutzer bestimmen, ob nur befugte Personen, wie etwa Angestellte, in den Konferenzsaal eintreten, oder ob er häufig von Nichtangestellten verwendet wird, wie etwa Kunden oder Klienten. Als Teil des Identifikationsprozesses kann es, wenn der Schritt des Abstimmens mit gespeicherten oder eingegebenen Daten eine Person identifiziert, wünschenswert sein, Eigenschaftsidentifikationstechniken, wie etwa Gesichtserkennungstechniken, zu verwenden. Damit kann man dann die Teilmenge von in der Zusammenfassung enthaltenen Ereignissen bestimmen, wobei in der Szene beobachtete Ereignisse mit den gespeicherten oder eingegebenen Daten abgestimmt werden, um abgestimmte Ereignisse auf der Basis der Kontext-Etiketten zu erzeugen, so dass die Teilmenge von Ereignissen die abgestimmten Ereignisse enthält.
Andere Beispiele.
Das oben skizzierte Gesichtserkennungsbeispiel ist ein Spezialfall dafür, dass ein Ereignis durch ein Objekt ausgelöst wird. In dieser Situation identifiziert die Episoden-Erfassungsvorrichtung das Objekt in der Szene (die Person) und identifiziert eine Eigenschaft des Objekts (den Namen der Person), und sowohl die Identität des Objekts (dass es eine Person ist) als auch die Eigenschaft (der Name der Person) werden in die Zusammenfassung aufgenommen. Dies kann für andere Objekte der Fall sein, wie etwa Identifizierung einer brennenden Kerze in einem Raum - anfänglich wird die Kerze identifiziert, und dann wird aus ihrer Temperatur darauf geschlossen, dass sie brennt.
Obiektüberwachung. In einem anderen Beispiel kann man mit einer Kamera einen Raum auf Diebstahl überwachen. Die Inhalte oder Objekte in dem Raum können protokolliert werden. Es können Einstellungen konfiguriert werden, so dass Ereignisse nur ausgelöst werden, wenn ein Objekt von der Szene entfernt wird oder sich die Position des Objekts ändert. Somit könnten Personen in die Szene eintreten oder diese verlassen, ohne ein Ereignis auszulösen, solange die Objekte nicht entfernt oder bewegt werden.
Interaktion mit Smartphone. Die Episoden-Erfassungsvorrichtung ist vorzugsweise dafür ausgelegt, sich mit einem Datennetzwerk zu verbinden, so dass sie mit anderen Vorrichtungen, wie etwa Smartphones und Tablet-Computern, in Interaktion treten und/oder kommunizieren kann. Verarbeitung zur Erzeugung des Ereignis-Logs und der Zusammenfassung kann in der Episoden-Erfassungsvorrichtung oder entfernt stattfinden. Es können Sensoren in der Episoden-Erfassungsvorrichtung oder in externen Vorrichtungen bereitgestellt werden oder an einer Person getragen oder in einer Szene bereitgestellt werden, können programmiert werden, um entweder Ereignisse zu überwachen, eine Szene zu überwachen oder um Ereignisse auszulösen. Zum Beispiel kann eine Kamera dafür ausgelegt sein, mit einem Bewegungssensor in einem Smartphone in Interaktion zu treten, um zu verzeichnen, dass ein Besprechungsteilnehmer gehend in die Szene eingetreten ist und die Szene rennend verlassen hat. Ferner kann die Kamera aufzeichnen, dass ein zu einem bestimmten Benutzer gehörendes Smartphone in die Region eines lokalen Netzwerks (WiFi) eingetreten ist, die die Peripherie einer Szene abzeichnet, und deshalb in die Szene eingetreten ist. In dem obigen Beispiel wird eine Kamera als die Episoden-Erfassungsvorrichtung verwendet, und Audiodaten werden zur Erweiterung der erhaltenen Videodaten verwendet. Es können jedoch andere Sensoren zur Erfassung von Ereignissen verwendet werden, wie etwa, aber ohne Beschränkung darauf, ein Bewegungssensor, einschließlich der Kombination eines Bewegungssensors mit einem Algorithmus, der bestimmte Arten von Bewegung identifizieren kann, einem Näherungssensor, Temperatursensor, kapazitiven Sensor, induktiven Sensor, Magneten, Mikrophon, optischen Sensor, einer Antenne, Nahfeldkommunikations- und ähnlichen Vorrichtungen.
Andere Sensoren. Eine Episoden-Erfassungsvorrichtung ist deshalb eine Vorrichtung, die ein Ereignis aufzeichnen kann, und die erhaltenen Daten können geeignet zur Erzeugung einer Zusammenfassung verwendet werden. Typische Episoden-Erfassungsvorrichtungen wären Bilderfassungsvorrichtungen (Kameras im sichtbaren, Infrarot- oder Ultraviolettspektrum), die digital sein können (einschließlich CCD- und CMOS-Vorrichtungen). Solche Vorrichtungen sind mit visuellen und nichtvisuellen Sensoren entweder integral mit der Episoden-Erfassungsvorrichtung (ein Beschleunigungsmesser in einem Mobiltelefon mit einer Kamera) oder getrennt von der Episoden-Erfassungsvorrichtung, aber sich in Kommunikation und Verbindung mit dieser befindend, um so effektiv funktional integriert zu sein, ausgestattet. Im Fall eines Temperatursensors kann der Sensor detektieren, dass die Temperatur eines Raums um 6:00 ansteigt und um 20:00 absinkt. Er identifiziert diese Punkte als Morgengrauen und Abenddämmerung und Kontext-Etiketten werden geeignet auf jeden Punkt angewandt. Episoden-Erfassungsvorrichtungen können getrennt oder zusammen verwendet werden, um eine Zusammenfassung zu erweitern. Man betrachte die Situation, dass ein Laden die Ware unter Verwendung von magnetischen Etiketten überwacht, die einen Alarm auslösen, wenn sie durch eine Induktionsschleife geführt werden, und ein System verwendet. Es wäre möglich, eine erste Episoden-Erfassungsvorrichtung, wie etwa eine Kamera, und eine zweite Episoden-Erfassungsvorrichtung, wie etwa ein Induktionssensorsystem, zu kombinieren und bei verschiedenen Ereignissen Kontext-Etiketten zuzuweisen. Ein Artikel, der ein Etikett trägt, kann durch den Induktionssensor getragen werden und löst somit einen Alarm aus. An diesem Punkt kann dem von dem Kamerasystem erhaltenen Video-Feed ein Kontext-Etikett zugewiesen werden, und eine Zusammenfassung dementsprechend erzeugt werden.
Benutzerkriterien für Ereignisse. Das Format der Zusammenfassung kann angepasst werden, um beliebige Ereignisinformationen zu enthalten, die für einen Benutzer von Interesse sind. Falls eine Zusammenfassung die Verwendung eines Konferenzsaals angibt, kann die Zusammenfassung Einzelheiten von Teilnehmern umfassen, darunter ihre Identität, Standbilder, Audioaufzeichnungen, Informationen über Arten von Ereignissen und Einzelheiten der Verwendung, die eine Art von Warnung anzeigt. Durch zu den durch die Episoden-Erfassungsvorrichtung erfassten Daten hinzugefügte Kontext-Etiketten kann die Zusammenfassung so ausführlich oder knapp wie gewünscht sein. Dabei kann es sich darum handeln, dass die Vorrichtung nicht in der Lage ist, die Identität einer Person zu bestimmen, oder nicht in der Lage ist, ein Ereignis mit einer genehmigten Verwendung des Saals zuzuordnen. Der Benutzer kann aus verschiedenen vorprogrammierten Optionen auswählen oder verschiedene Kriterien bereitstellen, die mit den Kontext-Etiketten übereinstimmen, auf denen die Zusammenfassung basieren kann. Dazu kann beispielsweise Art von Ereignis, Häufigkeit des Ereignisses, Länge der Videosequenz, Datum und Uhrzeit, geographischer Ort, Audioinhalt gehören, obwohl viele andere Kriterien möglich sind. Speichern von Kriterien oder Eingeben von Kriterien in die Bilderfassungsvorrichtung entweder direkt oder aus der Ferne zur Bildung gespeicherter oder eingegebener Kriterien und Erzeugung der Zusammenfassung unter Verwendung der gespeicherten oder eingegebenen Kriterien erlaubt dem Benutzer völlige Verwendungsfreiheit. Der Benutzer kann ein kundenspezifisches Zusammenfassungsformat aufbauen oder aus einer vorprogrammierten Auswahl wählen. Die Zusammenfassung kann durch die Episoden-Erfassungsvorrichtung, eine Vorrichtung, in der die Kamera positioniert ist, oder unter Verwendung eines entfernten Systems erzeugt werden.
Zusammenfassungsformate. Die Zusammenfassung kann abhängig von Benutzerpräferenz verschiedene Formate annehmen. Ein Format besteht darin, ein Video-Feed aller Ereignisse und Perioden der Inaktivität mit einer änderbaren Geschwindigkeit, wie etwa im Zeitraffer oder Hyperraffer, zu zeigen. Ein anderes ist zum Beispiel das Kombinieren einer Teilmenge bestimmter Ereignisse zu einem einzigen Video-Feed, wobei diese Ereignisse wie oben durch einen Benutzer gewählt werden oder wobei die Ereignisse unter Verwendung von gespeicherten oder eingegebenen Daten zur Erzeugung abgestimmter Ereignisse gewählt werden. Es ist möglich, auf der Basis von Benutzerkriterien unwichtige Ereignisse zu löschen oder zu entfernen. Zum Beispiel kann ein Benutzer spezifizieren, dass nur Besprechungen, bei denen vier oder mehr Personen anwesend sind, in der Zusammenfassung enthalten sein müssen. Die Episoden-Erfassungsvorrichtung zeichnet alle Ereignisse während der Episode auf und wählt dann nur diejenigen aus, die einer Besprechung mit vier oder mehr anwesenden Personen entsprechen, wodurch effektiv alle anderen aufgezeichneten Ereignisse verworfen werden.
Gewichtung. Eine weitere Möglichkeit ist Priorisierung von Ereignissen unter Verwendung einer Gewichtung oder eines anderen Priorisierungsverfahrens, wie etwa eines Binär-Auswahlschemas. Unter Verwendung eines Gewichtungsverfahrens wird eine Gewichtung auf ein Ereignis angewandt, so dass die Teilmenge von Ereignissen in der Zusammenfassung durch die Gewichtung bestimmt wird. Die Gewichtung selbst wird durch eine Eigenschaft eines Ereignisses, zum Beispiel die Anzahl der Personen in einem Besprechungssaal, die Identität von Haustieren anstelle von Personen, die Temperatur eines Objekts, bestimmt. In dem obigen Beispiel wird dies veranschaulicht, indem betrachtet wird, dass der Besprechungsraum eine maximale Kapazität von 6 aufweist und dass ein Organisator daran interessiert ist, herauszufinden, ob der Raum bis zu seiner maximalen Kapazität benutzt wird. Eine Möglichkeit hierfür ist, jedem Ereignis, bei dem weniger als 6 Personen bei einer Besprechung anwesend sind, eine Gewichtung zuzuweisen, z. B. weist ein Ereignis, bei dem eine Person den Raum benutzt, eine Gewichtung von 5 auf, zwei den Raum benutzende Personen weisen eine Gewichtung von 4 auf und so weiter. Anfänglich kann der Benutzer eine Zusammenfassung auf der Basis von Ereignissen auswählen, die eine Gewichtung von 5 oder weniger aufweisen.
Der Benutzer kann jedoch wünschen, Einträge in der Zusammenfassung zu priorisieren. In dieser Situation bestimmt die Gewichtung die Priorisierung der Ereignisse in der Teilmenge. In dem Besprechungsraumbeispiel können Ereignisse in einer Reihenfolge mit der höchsten Gewichtung zuerst aufgelistet werden. Bei einer Ausführungsform wird eine Gewichtungsskala von 0-1 oder 1-10 für jedes gewichtete Element verwendet. Die Anwesenheit signifikanter Bewegung wird als Filter verwendet, bevor irgendetwas gewichtet wird. Nachdem dieses Filter durchlaufen ist, werden die Gesamtsummen der Gewichte einfach für jedes Videoereignis oder Bild zusammenaddiert. Zum Beispiel kann die Anwesenheit von viel Bewegung auf einer Skala von 1-10 eine Gewichtung von 8 beitragen. Die Anwesenheit von Personen, die durch den Benutzer als wichtig etikettiert werden, kann für jede solche anwesende Person ein Gewicht von 7 hinzufügen. Die Anwesenheit von anderen Personen kann jeweils einen Gewichtungsfaktor von 4 bereitstellen. Die Dauer signifikanter Bewegung kann für jede Minute ein Gewicht von 1 hinzufügen, bis zu insgesamt 10 Minuten. Somit ist in einem Beispiel die Gewichtung für ein 10-minütiges Videoereignis folgendermaßen (man beachte, dass einzelne Teile des Clips verschiedene Gewichte aufweisen können):

Zwei unbekannte Personen (jeweils 4 Punkte) = 8 Punkte.
Eine wichtige Person = 7 Punkte
Signifikante Bewegung = 8 Punkte
Dauer der Bewegung ist fünf Minuten = 5 Punkte
Gesamtwert = 28 Punkte Gewichtung

Bei einer Ausführungsform liegen Ereignisse, die für Zusammenfassung in Betracht gezogen werden, in einem spezifischen Zeitraum (z. B. von Mitternacht bis jetzt oder während der letzten 2 Stunden usw.) und enthalten signifikante Bewegung (nach dem Filterungsschritt). Als Alternative kann statt eines spezifischen Zeitraums eine Zusammenfassung durch eine Anzahl von Ereignissen, einen Prozentsatz aufgezeichneter Ereignisse, alle Ereignisse über einer bestimmten Bewertung usw. definiert werden.
Bei einer Ausführungsform basiert Ereignisbewertung auf den folgenden Hinweisen:

1. Ereignisbewertung.
1. a. Eine Lücke vor dem Ereignis: Ereignis erhält eine höhere Bewertung, wenn vor diesem Ereignis für einen langen Zeitraum nichts geschah.
2. b. Ereignisdauer: niedrigere Bewertung für sehr kurze Ereignisse.
3. c. Bewegungsort und -größe: höhere Bewertung für Bewegung, die sich in der Mitte befindet und ein größeres Ausmaß aufweist.
4. d. Bewegungsanomalie: es wird ein Modell vergangener detektierter Bewegung erzeugt. Eine neue Bewegungsbeobachtung erhält eine höhere Bewertung, wenn sie angesichts des vorherigen Inhalts abnorm ist. Dies kann auch als ein Konzept der „Überraschung“ angesehen werden.
5. e. Anzahl der Objekte: höhere Bewertung, wenn sich mehr Objekte in dem Ereignis bewegen.
6. f. Detektionen: einige detektierte Konzepte führen zu höheren Bewertungen, wie etwa eine detektierte Person, ein detektiertes Gesicht, Regionen der Hautfarbe usw.
7. g. Bildqualität: Kontrast, Schärfe des Bildes oder Verteilung von Farben.

Bei einer Ausführungsform werden Bewertungen unter Verwendung eines gewichteten Mittelwerts kombiniert. Es sind auch andere Verfahren für Kombinationen möglich. Bei einer alternativen Ausführungsform werden Bewertungen und Gewichte auf der Basis allgemeiner Präferenzen oder Benutzerspezifikationen des Benutzers für eine Zusammenfassung angepasst oder hinzugefügt/weggelassen.
Bei einer Ausführungsform umfassen die Gewichte nicht die Tageszeit, zu der das Ereignis erscheint. Dies wird im zweiten Schritt gehandhabt:

2. Auswählen von Ereignissen unter Verwendung eines gierigen Ansatzes. Pseudocode: while GesamtZusammenfassungDauer < ZielDauer do:
1. A. Auswählen des am höchsten gewichteten Ereignisses und Hinzufügen dieses zur Zusammenfassung
2. B. Umgewichten aller anderen Ereignisse gemäß ihrer zeitlichen Distanz mit Bezug auf das ausgewählte Ereignis.

Dadurch wird sichergestellt, nicht zwei Ereignisse zu wählen, die nacheinander geschehen, sondern stattdessen Ereignisse auszuwählen, die über den vollen Zeitbereich divers sind. Bei einer Ausführungsform wird einige Heuristik hinzugefügt, um eine gewisse reguläre Verteilung über die Zeit sicherzustellen. Der Umgewichtungsfaktor richtet sich nach dem Gesamt-Zusammenfassungszeitbereich: z. B. ist Umgewichtung für einen Zeitraum von 1 Stunde anders als für einen Zeitraum von 24 Stunden.
Bei einer Ausführungsform wird für lange Perioden ohne Aktivität (zum Beispiel in einem Wohnzimmer, wenn eine Person den ganzen Tag bei der Arbeit ist, und die einzige Bewegung am Morgen und am Abend vorliegt) „Füllmaterial“ hinzugefügt. Das heißt, die Wiedergabegeschwindigkeiten werden justiert, wie bereits oben besprochen. Ein Zeitraffer mit 1 Einzelbild alle 6 Minuten wird für Perioden ohne Aktivität verwendet, während für Bewegungsereignisse ein Video in „Hyperraffer“-Stil wiedergegeben wird (z. B. beschleunigen der normalen Geschwindigkeit um einen Faktor 8). Natürlich können andere konkrete Zeiträume und Geschwindigkeiten verwendet werden.
Cloud-Speicherung. Die Episoden-Erfassungsvorrichtung kann Cloud-Datenspeicherung nutzen, um die Episoden-Erfassungsvorrichtung zu erzeugen oder zu erweitern, oder in einer Cloud-Datenspeicherungseinrichtung. Daten können dann aus der Cloud-Datenspeicherung heruntergeladen werden, wenn es beim Erzeugen einer Zusammenfassung erwünscht ist, so dass mindestens ein Schritt in dem oben skizzierten Verfahren unter Verwendung dieser Daten auftritt. Dadurch können selbst Vorrichtungen mit kleiner Speicherkapazität dafür ausgelegt werden, eine Zusammenfassung zu erzeugen, da mindestens ein Schritt in dem oben skizzierten Verfahren von der Episoden-Erfassungsvorrichtung entfernt stattfinden kann. Die Möglichkeit, große Mengen von Daten in Bezug auf Ereignisse und eine Szene speichern und auf diese zugreifen zu können, ermöglicht auch die Erzeugung von erweiterten Zusammenfassungen.
Erweiterte Zusammenfassungen. Eine ausführliche Zusammenfassung kann als viele Schichten von Informationen umfassend betrachtet werden, die Videodaten, Audiodaten, geographische Daten und so weiter zusammenfassen. Dieser geschichtete Ansatz erlaubt es einem Benutzer, in bestimmte interessierende Bereiche hineinzuzoomen. Zum Beispiel empfängt in dem obigen Konferenzsaalszenario ein Konferenzorganisator eine Zusammenfassung der Konferenz eines Tages. Dies umfasst Einzelheiten aller Teilnehmer, Kopien von Präsentationen und Zetteln, alle Bewegungs- und geographischen Informationen sowie Video- und Audiodaten der Ereignisse während der Konferenz oder von verschiedenen Konferenzen, die in dem jeweiligen durch die Ereignis-Erfassungsvorrichtung überwachten Konferenzsaal stattfanden. Der Organisator erfährt, dass ein bestimmtes Ereignis, wie etwa eine Präsentation, zu einem bestimmten Zeitpunkt geschah. Der Organisator kann zu verschiedenen Zeiten in die Zusammenfassung hineinzoomen und wählt, in das Ereignis hineinzuzoomen. Die Einzelheiten in der Zusammenfassung erlauben es dem Organisator, ein bestimmtes Ereignis zu begutachten und auszuwählen und zu wählen, dass einer Vorrichtung zur Betrachtung Videodaten des Ereignisses gestreamt werden. Dabei kann es sich um eine Vorrichtung handeln, die der Organisator zum Betrachten der Zusammenfassung wählt, oder um eine andere Vorrichtung. Zum Beispiel kann der Organisator wählen, die Zusammenfassung auf einem Smartphone zu betrachten. Um Videodaten zu betrachten, bevorzugt der Organisator jedoch, einen Tablet-Computer zu verwenden. Sobald der Zoom in die Zusammenfassung unter Verwendung des Smartphones gewählt ist, kann der Organisator Videoinhalt des Ereignisses zum Tablet-Computer streamen.
Der Schichtungansatz erleichtert auch ein automatisches Editieren der Zusammenfassung abhängig von der Menge von Daten, die ein Benutzer empfangen kann. Wenn zum Beispiel ein Benutzer unter Verwendung eines Smartphones, das mit einem Mobilfunk-Datennetz verbunden ist, auf die Zusammenfassung zugreift, wird eine kurze Version der Zusammenfassung, die nur Höhepunkte mit Hyperlinks zu weiterem Inhalt enthält, übertragen, da zum Beispiel, wenn das Mobilfunk-Datennetz ein 3G-Netz ist, Datentransfer relativ langsam ist und der Benutzer es bevorzugen kann, kein hohes Datenvolumen zu empfangen und herunterzuladen. Ferner können Zusammenfassungsinformationen in Textform, zum Beispiel das Auftreten eines bestimmten Ereignisses oder Erscheinen einer bestimmten Person, zu einer mobilen Vorrichtung eines Benutzers in Form einer Kurznachricht (wie etwa SMS, MMS oder Text) und/oder unter Verwendung von Push-Funktionalität zur Benachrichtigung übertragen werden. Die Art von dem Benutzer auf diese Weise bereitgestellten Informationen kann durch einen Benutzer bestimmt oder gemäß vorbestimmten Kriterien gesendet werden. Wenn jedoch ein Benutzer über ein lokales Netzwerk (WiFi) oder eine andere Datenverbindung auf die Zusammenfassung zugreift, kann eine ausführlichere Zusammenfassung übertragen werden. Die Episoden-Erfassungsvorrichtung kann mit Informationen, die für den Saal, in dem sie sich befindet, spezifisch sind, vorprogrammiert werden. Als Alternative kann ein Benutzer der Kamera ihren Ort mitteilen, sobald sie in einem Raum platziert wurde.
Alternative Ausführungsformen. Die vorliegende Erfindung ist nicht auf die oben beschriebenen beispielhaften Ausführungsformen beschränkt. Es ist möglich, die Erfindung in vielfältigen Anwendungen zu benutzen, zum Beispiel Haussicherheit, Beaufsichtigung, Überwachung (wie etwa eine Baby-Überwachungsvorrichtung oder eine Haustier-Überwachungsvorrichtung), Raum- oder Einrichtungsbenutzung (wie etwa designierte Geräte oder Vorrichtungen) und tatsächlich jede beliebige Situation, in der es erforderlich ist, in der Lage zu sein, eine Szene aus der Ferne zu überwachen, um das Auftreten von Ereignissen zu bestimmen. Geeignete Episoden-Erfassungsvorrichtungen wären Digitalkameras, digitale Videokameras, Kameras in Smartphones, Tablet-Computern, Laptops oder anderen mobilen Vorrichtungen, Webcams und ähnliches. Solche Kameras sollten dafür ausgelegt sein, Daten über ein Netzwerk zu einem Client-Computer, Softwareprogramm, einer App auf einer mobilen Vorrichtung oder im Allgemeinen zu einer beliebigen geeigneten Speicherungsvorrichtung zu übermitteln, wobei solche Speicherungsvorrichtungen zusätzliche Verarbeitungsfähigkeiten für nachfolgende Bildverarbeitung umfassen können. Kameras können dedizierte Vorrichtungen oder Vielzweckvorrichtungen sein, das heißt, ohne feste Designierung hinsichtlich Überwachung einer Szene auf Ereignisse.
Im Allgemeinen umfasst die Episoden-Erfassungsvorrichtung einen Prozessor, der auf ein Softwaremodul zugreifen kann, das dafür ausgelegt ist, das oben skizzierte Verfahren auszuführen. Bei einer beispielhaften Ausführungsform basiert das Softwaremodul auf der Bestimmung bestimmter Kriterien, die entweder für die Identifikation bestimmter Ereignisse vordefiniert oder durch einen Benutzer auswählbar sind. Danach wird zum Beispiel bei Auswahl durch den Benutzer eine Zusammenfassung, die eine Zusammenfassung umfasst, auf der Basis ausgewählter Kriterien, wie etwa eines bestimmten Ereignisses, gegebenenfalls in Kombination mit einer anderen Nebenbedingung, zum Beispiel der maximalen Länge der zusammenfassenden Videosequenz oder einem vorbestimmten Datenvolumen, erzeugt. Dies führt zu einem parameterabhängigen automatisierten Videoanalyseverfahren, bei dem signifikat weniger Videodaten ausgewertet werden müssen, um zu bestimmen, ob ein Ereignis in einer Szene aufgetreten ist.
Das Nachfolgende fasst die Merkmale der verschiedenen Ausführungsformen zusammen:
ZEITLICHES VIDEO-STREAMING UND ZUSAMMENFASSUNGEN

1. Verfahren zum Bereitstellen einer Videozusammenfassung von einer Kamera, umfassend:
- Detektieren von Bewegung unter Verwendung eines Prozessors in der Kamera;
- Bestimmen, ob die Bewegung signifikant ist, unter Verwendung des Prozessors;
- Aufzeichnen eines periodischen Bildes mindestens eines Einzelbildes während Perioden der Inaktivität, die höchstens insignifikante Bewegung aufweisen, in einem Speicher;
- Identifizieren von Ereignissen aus Perioden der Aktivität, die signifikante detektierte Bewegung aufweisen, und Erzeugen von Ereignis-Etiketten;
- Aufzeichnen von Video von den identifizierten Ereignissen und der Ereignis-Etiketten in einem Speicher der Kamera; und
- Übertragen der Bilder und des Videos in dem Speicher in Abständen zu einer entfernten Datenverarbeitungsvorrichtung unter Verwendung eines Senders in der Kamera.
2. Verfahren nach Anspruch 1 wobei das periodische Bild während Perioden der Inaktivität ein Video von zwischen 1-10 Sekunden umfasst.
3. Verfahren nach Anspruch 1, das ferner Erfassen von Bildern mit hoher Auflösung und dann Übertragen der Bilder über einen längeren Zeitraum als das Echtzeitvideo unter Verwendung einer Bandbreite geringerer Auflösung umfasst.
4. Verfahren nach Anspruch 1, das ferner Bestimmen des Endes eines Ereignisses und des Anfangs eines neuen Ereignisses auf der Basis der Zeitdauer, nach der Bewegung stoppt, durch den Prozessor in der Kamera oder die entfernte Datenverarbeitungsvorrichtung umfasst.
5. Verfahren nach Anspruch 1, das ferner Bestimmen des Endes eines Ereignisses und des Anfangs eines neuen Ereignisses auf der Basis neuer Bewegung an einem anderen Ort durch den Prozessor in der Kamera oder die entfernte Datenverarbeitungsvorrichtung umfasst.
6. Verfahren nach Anspruch 1, das ferner Bestimmen des Endes eines Ereignisses oder des Anfangs eines neuen Ereignisses auf der Basis einer Änderung der Anzahl sich bewegender Objekte in dem Video oder der Anzahl von Personen in dem Video durch den Prozessor in der Kamera oder die entfernte Datenverarbeitungsvorrichtung umfasst.
7. Verfahren nach Anspruch 1, das ferner Erzeugen eines Zusammenfassungsvideos aus mehreren durch die Kamera bereitgestellten Videoereignissen mit der entfernten Datenverarbeitungsvorrichtung umfasst, umfassend:
- Erzeugen eines Zeitraffervideos mit signifikanten Bewegungsvideoereignissen und
- nichtsignifikanten Bewegungsbildern über einen Zeitraum;
- Vergeben von weniger Zeit mit einem schnelleren Zeitraffer an die Bilder ohne signifikante Bewegung; und
- Vergeben von mehr Zeit mit einem langsameren Zeitraffer an Videos mit signifikanter Bewegung.
8. Verfahren nach Anspruch 7, das ferner Gewichten der Videoereignisse gemäß Wichtigkeit und Bereitstellen eines langsameren Zeitraffers oder von mehr Zeit für höher gewichtete Videoereignisse, die als wichtiger erachtet werden, umfasst.
9. Verfahren nach Anspruch 8 wobei die Videoereignisse Kontext-Tabs aufweisen und die Gewichtung auf der Anzahl detektierter Personen und/oder der Identität detektierter Personen und/oder der Dauer der Bewegung und/oder der Menge der Bewegung basiert.
10. Verfahren nach Anspruch 7, das ferner Bereitstellen zusätzlicher ausführlicher Videoereignisse mit einer Zeitraffergeschwindigkeit von weniger als der zweiten Zeitraffergeschwindigkeit für Teile des Zusammenfassungsvideos, die durch einen Benutzer ausgewählt werden, umfasst.
11. Verfahren nach Anspruch 7, das ferner Gewichten der Videoereignisse auf der Basis von Folgendem umfasst:
- einer Menge an Inaktivität vor dem Videoereignis;
- der Dauer von Bewegung in dem Videoereignis;
- der Nähe der Bewegung in dem Videoereignis zu der Mitte des Videoereignisses;
- der Menge an Unterschied zwischen dem Video in dem Videoereignis und Bewegung aus vorherigen Videoereignissen; und
- der Anzahl von sich in dem Videoereignis bewegenden Objekten.
12. Verfahren zum Bereitstellen einer Videozusammenfassung von einer Kamera, umfassend:
- Detektieren von Bewegung unter Verwendung eines Prozessors in der Kamera;
- Bestimmen, ob die Bewegung signifikant ist, unter Verwendung des Prozessors;
- Aufzeichnen eines periodischen Bildes mindestens eines Einzelbildes während Perioden der Inaktivität, die höchstens insignifikante Bewegung aufweisen, in einem Speicher der Kamera;
- Identifizieren von Ereignissen aus Perioden der Aktivität, die signifikante detektierte Bewegung aufweisen, und Erzeugen von Ereignis-Etiketten;
- Aufzeichnen von Video von den identifizierten Ereignissen und der Ereignis-Etiketten in einem Speicher der Kamera; und
- Übertragen der Bilder und des Videos in dem Speicher in Abständen zu einer entfernten Datenverarbeitungsvorrichtung unter Verwendung eines Senders in der Kamera;
- Erzeugen eines Zusammenfassungsvideos mit der entfernten Datenverarbeitungsvorrichtung aus mehreren durch die Kamera bereitgestellten Videoereignissen, umfassend:
- Erzeugen eines Zeitraffervideos, das Videoereignisse signifikanter Bewegung und Bilder ohne signifikante Bewegung über einen Zeitraum aufweist;
- Vergeben von weniger Zeit mit einem schnelleren Zeitraffer an die Bilder ohne signifikante Bewegung; und
- Vergeben von mehr Zeit mit einem langsameren Zeitraffer an Videos mit signifikanter Bewegung;
- Versehen der Videoereignisse mit Kontext-Tabs; und
- Gewichten der Videoereignisse auf der Basis der Anzahl detektierter Personen und/oder der Identität detektierter Personen und/oder der Dauer der Bewegung und/oder der Menge der Bewegung.
13. System zum Bereitstellen einer Videozusammenfassung, umfassend:
- eine Kamera mit einem Prozessor, ausgelegt zum Analysieren von Pixeln in dem durch die Kamera erfassten Video, um Bewegung in einem Video zu detektieren;
- wobei der Prozessor dafür ausgelegt ist, zu bestimmen, ob die Bewegung signifikant ist;
- einen Speicher der Kamera, ausgelegt zum Aufzeichnen eines periodischen Bildes mindestens eines Einzelbildes während Perioden der Inaktivität, die höchstens insignifikante Bewegung aufweisen;
- wobei der Prozessor ausgelegt ist zum Identifizieren von Ereignissen aus Perioden mit Aktivität, die signifikante detektierte Bewegung aufweisen, und Erzeugen von Ereignis-Etiketten;
- wobei der Prozessor ferner ausgelegt ist zum Aufzeichnen von Video aus den identifizierten Ereignissen und der Ereignis-Etiketten in dem Speicher der Kamera; und
- einen Sender ausgelegt zum Senden der Bilder und des Videos in dem Speicher zu einer entfernten Datenverarbeitungsvorrichtung in Abständen.
14. System nach Anspruch 13, wobei das periodische Bild während Perioden der Inaktivität ein Video von zwischen 1-10 Sekunden umfasst.
15. System nach Anspruch 13, wobei der Prozessor ferner ausgelegt ist zum Erfassen von Bildern mit hoher Auflösung und dann Senden der Bilder zu dem Sender über einen längeren Zeitraum als das Echtzeitvideo unter Verwendung einer Bandbreite niedrigerer Auflösung.
16. System nach Anspruch 13, das ferner umfasst, durch den Prozessor in der Kamera oder die entfernte Datenverarbeitungsvorrichtung das Ende eines Ereignisses und den Anfang eines neuen Ereignisses auf der Basis der Zeitdauer, nachdem Bewegung stoppt, zu bestimmen.
17. System nach Anspruch 13, das ferner umfasst, dass der Prozessor in der Kamera oder die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum Bestimmen des Endes eines Ereignisses und des Anfangs eines neuen Ereignisses auf der Basis neuer Bewegung an einem anderen Ort in dem Video.
18. System nach Anspruch 13, wobei ferner der Prozessor in der Kamera oder die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum Bestimmen des Endes eines Ereignisses oder des Anfangs eines neuen Ereignisses auf der Basis einer Änderung der Anzahl sich bewegender Objekte in dem Video oder der Anzahl von Personen in dem Video.
19. System nach Anspruch 13, wobei die entfernte Datenverarbeitungsvorrichtung ferner ausgelegt ist zum Erzeugen eines Zusammenfassungsvideos aus mehreren durch die Kamera bereitgestellten Videoereignissen, umfassend:
- Erzeugen eines Zeitraffervideos mit signifikanten Bewegungsvideoereignissen und
- nichtsignifikanten Bewegungsbildern über einen Zeitraum;
- Vergeben von weniger Zeit mit einem schnelleren Zeitraffer an die Bilder ohne signifikante Bewegung; und
- Vergeben von mehr Zeit mit einem langsameren Zeitraffer an Videos mit signifikanter Bewegung.
20. System nach Anspruch 19 wobei die entfernte Datenverarbeitungsvorrichtung ferner ausgelegt ist zum Gewichten der Videoereignisse gemäß Wichtigkeit und Bereitstellen eines langsameren Zeitraffers oder von mehr Zeit für höher gewichtete Videoereignisse, die als wichtiger erachtet werden.

AUTOMATISCHES BESTIMMEN DES KAMERAORTS UND BESTIMMUNG DER ART VON SZENE

1. Verfahren zum Bestimmen des Orts einer Kamera, umfassend:
- Erfassen von Bildern in einer Kamera an einem Ort;
- Übertragen der Bilder von der Kamera zu einem entfernten Server;
- holistisches Vergleichen von Bildern von der Kamera in dem Server mit mehreren gespeicherten Bildern aus einer mit dem Server gekoppelten Datenbank entsprechend bekannten Orten;
- Bestimmen, welche gespeicherten Bilder eine beste Übereinstimmung bereitstellen; und
- Bestimmen einer Art von Ort der Kamera aus Etiketten, die den eine beste Übereinstimmung bereitstellenden Bildern zugeordnet sind.
2. Verfahren nach Anspruch 1, ferner umfassend:
- Bestimmen, ob der Ort ein innen-Ort oder ein außen-Ort ist.
3. Verfahren nach Anspruch 2, ferner umfassend:
- bei Bestimmung, dass sich die Kamera an einem innen-Ort befindet, Bestimmen der Art von Raum;
- wobei die Art von Raum einen Konferenzsaal und/oder einen Speisesaal und/oder eine Küche und/oder ein Wohnzimmer und/oder ein Schlafzimmer und/oder ein Büro und/oder einen Gang umfasst.
4. Verfahren nach Anspruch 1, ferner umfassend:
- Herausfiltern einer Art von Bewegung, wobei die Art von Bewegung von der bestimmten Art von Ort der Kamera abhängig ist.
5. Verfahren nach Anspruch 1, ferner umfassend:
- Detektieren von wesentlicher Bewegung in dem Video über einer Schwellen-Bewegungsmenge;
- Detektieren eines Objekts und/oder einer Person in der wesentlichen Bewegung in dem Video;
- holistisches Vergleichen von Bildern aus der wesentlichen Bewegung mit gespeicherten Bildern entsprechend bekannten verschiedenen Ereignissen;
- Bestimmen, welche gespeicherten Bilder eine beste Übereinstimmung bereitstellen; und
- Bestimmen einer Art von Ereignis aus den Bildern, die eine beste Übereinstimmung bereitstellen, zugeordneten Etiketten; und
- Etikettieren des Videos mit der Art von Ereignis.
6. Verfahren nach Anspruch 5, ferner umfassend:
- Detektieren von Tönen von einem Mikrophon in der Kamera;
- Vergleichen detektierter Töne mit einer gespeicherten Datenbank von Tönen;
- Bestimmen mindestens einer besten Übereinstimmung von Tönen;
- Vergleichen eines der besten Übereinstimmung von Tönen zugeordneten Etiketts mit den Etiketten, die den Bildern zugeordnet sind; und
- Bestimmen einer Art von Ereignis auf der Basis von Etiketten aus den Bildern und dem Ton.
7. Verfahren zur Bestimmung einer Art von Ereignis im Video von einer Kamera, umfassend:
- Detektieren von wesentlicher Bewegung in dem Video über einer Schwellen-Bewegungsmenge;
- Detektieren eines Objekts und/oder einer Person in der wesentlichen Bewegung in dem Video;
- holistisches Vergleichen von Bildern aus der wesentlichen Bewegung mit gespeicherten Bildern entsprechend verschiedenen Ereignissen;
- Bestimmen, welche gespeicherten Bilder eine beste Übereinstimmung bereitstellen; und
- Bestimmen einer Art von Ereignis aus den Bildern, die eine beste Übereinstimmung bereitstellen, zugeordneten Etiketten; und
- Etikettieren des Videos mit der Art von Ereignis.
8. Verfahren nach Anspruch 7, ferner umfasssend:
- Bestimmen einer Art von Ort der Kamera durch:
- holistisches Vergleichen von Bildern von der Kamera mit mehreren gespeicherten Bildern entsprechend bekannten Orten;
- Bestimmen, welche gespeicherten Bilder eine beste Übereinstimmung bereitstellen; und
- Bestimmen einer Art von Ort der Kamera aus Etiketten, die den eine beste Übereinstimmung bereitstellenden Bildern zugeordnet sind; und
- Verwenden der Art von Ort beim Bestimmen der Art von Ereignis.
9. System zum Bestimmen des Orts einer Kamera, umfassend:
- eine Kamera, ausgelegt zum Erfassen von Bildern an einem Ort;
- einen Sender in der Kamera zum Senden der Bilder von der Kamera zu einem entfernten Server;
- einen Server, ausgelegt zum holistischen Vergleichen von Bildern von der Kamera mit mehreren gespeicherten Bildern entsprechend bekannten Orten;
- eine mit dem Server gekoppelte Datenbank zum Speichern der mehreren gespeicherten Bilder;
- wobei der Server ausgelegt ist zum Bestimmen, welche gespeicherten Bilder eine beste Übereinstimmung bereitstellen; und
- der Server ausgelegt ist zum Bestimmen einer Art von Ort der Kamera aus Etiketten, die den eine beste Übereinstimmung bereitstellenden Bildern zugeordnet sind.
10. System nach Anspruch 9, ferner umfassend, dass:
- der Server dafür ausgelegt ist, zu bestimmen, ob der Ort ein innen-Ort oder ein außen-Ort ist.
11. System nach Anspruch 10, ferner umfassend:
- wobei bei Bestimmung, dass die Kamera sich an einem innen-Ort befindet, der Server ausgelegt ist zum Bestimmen der Art von Raum;
- wobei die Art von Raum einen Konferenzsaal und/oder einen Speisesaal und/oder eine Küche und/oder ein Wohnzimmer und/oder ein Schlafzimmer und/oder ein Büro und/oder einen Gang umfasst.
12. System nach Anspruch 9, ferner umfassend, dass:
- der Server ausgelegt ist zum Herausfiltern einer Art von Bewegung, wobei die Art von Bewegung von der bestimmten Art von Ort der Kamera abhängig ist.
13. System nach Anspruch 9, ferner umfassend, dass:
- die Kamera ausgelegt ist zum Detektieren von wesentlicher Bewegung in dem Video über einer Schwellen-Bewegungsmenge;
- der Server ausgelegt ist zum Detektieren eines Objekts und/oder einer Person in der wesentlichen Bewegung in dem Video;
- der Server ausgelegt ist zum holistischen Vergleichen von Bildern von der wesentlichen Bewegung mit gespeicherten Bildern, die bekannten verschiedenen Ereignissen entsprechen;
- der Server ausgelegt ist zum Bestimmen, welche gespeicherten Bilder eine beste Übereinstimmung bereitstellen; und
- der Server ausgelegt ist zum Bestimmen einer Art von Ereignis aus den Bildern, die eine beste Übereinstimmung bereitstellen, zugeordneten Etiketten; und
- der Server ist ausgelegt zum Etikettieren des Videos mit der Art von Ereignis.
14. System nach Anspruch 13, ferner umfassend:
- ein Mikrophon in der Kamera zum Detektieren von Tönen;
- wobei der Server ausgelegt ist zum Vergleichen von detektieren Tönen mit einer gespeicherten Datenbank von Tönen;
- der Server ausgelegt ist zum Bestimmen mindestens einer besten Übereinstimmung von Tönen;
- der Server ausgelegt ist zum Vergleichen eines mit der besten Übereinstimmung von Tönen zugeordneten Etiketts mit den den Bildern zugeordneten Etiketten; und
- der Server ausgelegt ist zum Bestimmen einer Art von Ereignis auf der Basis von Etiketten aus den Bildern und des Tons.
15. System nach Anspruch 14, ferner umfassend, dass:
- der Server ferner dafür ausgelegt ist, einen Benutzer aufzufordern, den Ort und die Art von Ereignis zu bestätigen.
16. System nach Anspruch 14, ferner umfassend, dass:
- der Server ausgelegt ist zum Vergleichen von Bildern und Tönen mit zuvor für einen bestimmen Benutzer aufgezeichneten und gespeicherten Szenen.

VIDEOSUCHE NACH GEFILTERTER UND ETIKETTIERTER BEWEGUNG

1. Verfahren zum Durchsuchen von Video von einer Kamera, umfassend:
- Detektieren von Bewegung unter Verwendung eines Prozessors in der Kamera;
- Bestimmen unter Verwendung des Prozessors, ob die Bewegung signifikant ist, und Herausfiltern von Video ohne signifikante Bewegung;
- Senden des Videos im Speicher zu einer entfernten Datenverarbeitungsvorrichtung unter Verwendung eines Senders in der Kamera;
- Organisieren des Videos zu getrennten Videoereignissen;
- Erzeugen mehrerer Zusammenfassungsvideos aus mehreren durch die Kamera bereitgestellten Videoereignissen mit der entfernten Datenverarbeitungsvorrichtung;
- Etikettieren jedes Zusammenfassungsvideos mit mehreren Etiketten entsprechend den Ereignissen in der Videozusammenfassung;
- als Reaktion auf Suchbegriffe, die durch einen Benutzer angegeben werden, Abstimmen der Suchbegriffe mit den Etiketten; und
- Anzeigen von Indikatoren von Videozusammenfassungen mit einer besten Übereinstimmung mit den Suchbegriffen, eingestuft in der Reihenfolge bester Übereinstimmung.
2. Verfahren nach Anspruch 1 wobei Erzeugen eines Zusammenfassungsvideos Folgendes umfasst:
- Erzeugen eines Zeitraffervideos mit signifikanten Bewegungsvideoereignissen und nichtsignifikanten Bewegungsbildern über einen Zeitraum;
- Vergeben von weniger Zeit mit einem schnelleren Zeitraffer an die Bilder ohne signifikante Bewegung; und
- Vergeben von mehr Zeit mit einem langsameren Zeitraffer an Videos mit signifikanter Bewegung.
3. Verfahren nach Anspruch 1, wobei die Suchbegriffe Zeit und/oder Dauer des Videos und/oder Personen in dem Video und/oder Objekte in dem Video und/oder Kameraort umfassen.
4. Verfahren nach Anspruch 1, das ferner Einstufen von Videosuchergebnissen auf der Basis einer Gewichtung der Videozusammenfassungen umfasst.
5. Verfahren nach Anspruch 1, ferner umfassend:
- Bereitstellen von Angaben von Videos ohne den Suchbegriffen entsprechende Etiketten, die aber zeitlich Videos mit den Etiketten nahe sind, mit den Suchergebnissen.
6. Verfahren nach Anspruch 1, ferner umfassend:
- Bereitstellen von Angaben von Videos ohne den Suchbegriffen entsprechende Etiketten, aber mit anderen Etiketten, die nicht gesuchten Etiketten in den Videos in den Suchergebnissen entsprechen, mit den Suchergebnissen.
7. Verfahren zum Durchsuchen von Video von einer Kamera, umfassend:
- Detektieren von Bewegung unter Verwendung eines Prozessors in der Kamera;
- Bestimmen unter Verwendung des Prozessors, ob die Bewegung signifikant ist, und Herausfiltern von Video ohne signifikante Bewegung;
- Senden des Videos im Speicher zu einer entfernten Datenverarbeitungsvorrichtung unter Verwendung eines Senders in der Kamera;
- Organisieren des Videos zu getrennten Videoereignissen;
- Etikettieren jedes Videoereignisses mit mehreren Etiketten entsprechend mindestens zwei von Zeit, Dauer des Videos, Personen in dem Video, Objekten in dem Video und Kameraort;
- Gewichten jedes Videoereignisses auf der Basis der Signifikanz der Etiketten:
- als Reaktion auf Suchbegriffe, die durch einen Benutzer angegeben werden, Abstimmen der Suchbegriffe mit den Etiketten; und
- Anzeigen von Indikatoren von Videoereignissen mit einer besten Übereinstimmung mit den Suchbegriffen, eingestuft in der Reihenfolge bester Übereinstimmung und der Gewichtung der Videoereignisse.
8. Verfahren nach Anspruch 7, ferner umfassend:
- Erzeugen mehrerer Zusammenfassungsvideos aus mehreren durch die Kamera bereitgestellten Videoereignissen mit der entfernten Datenverarbeitungsvorrichtung;
- Etikettieren jedes Zusammenfassungsvideos mit mehreren Etiketten entsprechend den Ereignissen in der Videozusammenfassung;
- Gewichten jeder Videozusammenfassung auf der Basis der Signifikanz der Etiketten:
- als Reaktion auf Suchbegriffe, die durch einen Benutzer angegeben werden, Abstimmen der Suchbegriffe mit den Etiketten; und
- Anzeigen von Indikatoren von Videozusammenfassungen mit einer besten Übereinstimmung mit den Suchbegriffen, eingestuft in der Reihenfolge bester Übereinstimmung und der Gewichtung der Videoereignisse.
9. Verfahren nach Anspruch 7, ferner umfassend:
- Bereitstellen von Angaben von Videos ohne den Suchbegriffen entsprechende Etiketten, die aber zeitlich Videos mit den Etiketten nahe sind oder andere Etiketten aufweisen, die nicht gesuchten Etiketten in den Suchergebnissen entsprechen, mit den Suchergebnissen.
10. System zum Durchsuchen von Video von einer Kamera, umfassend:
- einen Prozessor in der Kamera, ausgelegt zum Detektieren von Bewegung;
- wobei der Prozessor ferner ausgelegt ist zum Bestimmen, ob die Bewegung signifikant ist, und Herausfiltern von Video ohne signifikante Bewegung;
- einen Speicher in der Kamera zum Speichern des Videos;
- einen Sender in der Kamera, ausgelegt zum Senden des Videos in dem Speicher;
- eine entfernte Datenverarbeitungsvorrichtung, ausgelegt zum Empfangen des gesendeten Videos;
- wobei die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum Organisieren des Videos zu getrennten Videoereignissen;
- wobei die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum Etikettieren jedes Videoereignisses mit mehreren Etiketten entsprechend mindestens zwei von Zeit, Dauer des Videos, Personen in dem Video, Objekten in dem Video und Kameraort;
- wobei die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum Gewichten jedes Videoereignisses auf der Basis der Signifikanz der Etiketten;
- wobei die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum, als Reaktion auf Suchbegriffe, die durch einen Benutzer angegeben werden, Abstimmen der Suchbegriffe mit den Etiketten; und
- wobei die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum Anzeigen von Indikatoren von Videoereignissen mit einer besten Übereinstimmung mit den Suchbegriffen, eingestuft in der Reihenfolge bester Übereinstimmung und der Gewichtung der Videoereignisse.
11. System nach Anspruch 10, ferner umfassend, dass:
- die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum Erzeugen mehrerer Zusammenfassungsvideos aus mehreren durch die Kamera bereitgestellten Videoereignissen;
- die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum Etikettieren jedes Zusammenfassungsvideos mit mehreren Etiketten entsprechend den Ereignissen in der Videozusammenfassung;
- die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum Gewichten jeder Videozusammenfassung auf der Basis der Signifikanz der Etiketten;
- die entfernte Datenverarbeitungsvorrichtung dafür ausgelegt ist, als Reaktion auf durch einen Benutzer eingegebene Suchbegriffe die Suchbegriffe mit den Etiketten abzustimmen; und
- die entfernte Datenverarbeitungsvorrichtung ausgelegt ist zum Anzeigen von Indikatoren von Videozusammenfassungen mit einer besten Übereinstimmung mit den Suchbegriffen, eingestuft in der Reihenfolge bester Übereinstimmung und der Gewichtung der Videoereignisse.
12. System nach Anspruch 10, wobei die entfernte Datenverarbeitungsvorrichtung ein Server ist.
13. System nach Anspruch 10, wobei die entfernte Datenverarbeitungsvorrichtung ein Smartphone ist, das dafür ausgelegt ist, unter Verwendung eines Servers über das Internet mit der Kamera zu kommunizieren.
14. System nach Anspruch 10, wobei die entfernte Datenverarbeitungsvorrichtung ferner ausgelegt ist zum Erzeugen eines Zusammenfassungsvideos durch:
- Erzeugen eines Zeitraffervideos mit signifikanten Bewegungsvideoereignissen und nichtsignifikanten Bewegungsbildern über einen Zeitraum;
- Vergeben von weniger Zeit mit einem schnelleren Zeitraffer an die Bilder ohne signifikante Bewegung; und
- Vergeben von mehr Zeit mit einem langsameren Zeitraffer an Videos mit signifikanter Bewegung.
15. System nach Anspruch 10, wobei die Suchbegriffe Zeit und/oder Dauer des Videos und/oder Personen in dem Video und/oder Objekte in dem Video und/oder Kameraort umfassen.
16. System nach Anspruch 10, wobei die entfernte Datenverarbeitungsvorrichtung ferner ausgelegt ist zum Einstufen von Videosuchergebnissen auf der Basis einer Gewichtung der Videozusammenfassungen.
17. System nach Anspruch 10, ferner umfassend, dass:
- die entfernte Datenverarbeitungsvorrichtung ferner ausgelegt ist zum Bereitstellen von Angaben von Videos ohne den Suchbegriffen entsprechende Etiketten, die aber zeitlich Videos mit den Etiketten nahe sind, mit den Suchergebnissen.
18. System nach Anspruch 10, ferner umfassend, dass:
- die entfernte Datenverarbeitungsvorrichtung ferner ausgelegt ist zum Bereitstellen von Angaben von Videos ohne den Suchbegriffen entsprechende Etiketten, aber mit anderen Etiketten, die nicht gesuchten Etiketten in den Videos in den Suchergebnissen entsprechen, mit den Suchergebnissen.
19. System nach Anspruch 10, wobei die entfernte Datenverarbeitungsvorrichtung die Kombination eines Servers und eines Smartphones ist.

Diese und andere Ausführungsformen, nicht abweichend von dem Wesen und Schutzumfang der vorliegenden Erfindung, werden aus den angefürgten Ansprüchen ersichtlich.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 9313556 [0001]
US 14/853943 [0001]
US 14/853980 [0001]
US 14/853989 [0001]

Zitierte Nicht-Patentliteratur

„Modeling the shape of the scene: a holistic representation of the spatial envelope“ Aude Oliva, Antonio Torralba, International Journal of Computer Vision, Band 42(3): 145-175, 2001 [0028]

Claims

Verfahren zum Anzeigen von Videozusammenfassungen für einen Benutzer, umfassend: bei Start einer Anwendung auf einer Datenverarbeitungsvorrichtung, die eine Anzeige aufweist, Bereitstellen eines der folgenden Gruppe: eines Live-Video-Streams von einer entfernten Kamera, eines Videoereignisses von der entfernten Kamera, einer Zusammenfassung von Videoereignissen von der entfernten Kamera und eines Bildes von der entfernten Kamera; Bereitstellen mehrerer Indikatoren auf der Anzeige, die gespeicherte, detektierte wichtige Videoereignisse angeben, durch einen Prozessor in der Datenverarbeitungsvorrichtung; wenn der Prozessor Auswahl eines Indikators auf der Anzeige durch den Benutzer detektiert, Bereitstellen einer Zeitrafferzusammenfassung des ausgewählten Ereignisses; und Bereitstellen einer Tageszeitangabe auf der Anzeige zusammen mit dem ausgewählten Ereignis.
Verfahren nach Anspruch 1, wobei die Indikatoren eine Reihe von Blasen sind, wobei jede Blase eine Angabe umfasst, wann ein Ereignis aufgetreten ist.
Verfahren nach Anspruch 1, wobei die Indikatoren ferner die relative Wichtigkeit der Ereignisse mit Farbcodierung angeben.
Verfahren nach Anspruch 1, wobei einer der Indikatoren für eine Zeitrafferanzeige aller Ereignisse der Reihe nach in einer designierten Timer-Periode ist, die einen verdichteteren Zeitraffer als den Zeitraffer für einzelne Videoereignisse verwendet; wobei weniger wichtige Ereignisse weniger Zeit haben; und eine Gewichtung auf die Ereignisse angewandt wird, so dass Ereignisse mit höherem Gewicht mehr Zeit oder einen langsameren Zeitraffer bereitgestellt bekommen.
Verfahren nach Anspruch 1, wobei die beim Start bereitgestellten Bilder mehrere Bilder von mehreren entfernten Kameras umfassen.
Verfahren nach Anspruch 1, ferner umfassend: Scrollen durch die Indikatoren als Reaktion auf eine Benutzer-Wischaktion auf einer Anzeige; Vergrößern eines aktuellen Indikators; und Bereitstellen einer Anzeige mindestens eines Bildes aus dem Videoereignis entsprechend dem aktuellen Indikator.
Verfahren nach Anspruch 1, wobei einer der Indikatoren für eine Zusammenfassung von Videoereignissen bereitgestellt wird, wobei die Zusammenfassung aus Videoereignissen für einen Tag besteht.
Verfahren nach Anspruch 1, wobei einer der Indikatoren für eine Zusammenfassung von Videoereignissen bereitgestellt wird, wobei die Zusammenfassung aus Videoereignissen seit einem letzten Start einer Anwendung zur Implementierung des Verfahrens von Anspruch 1 besteht.
Verfahren nach Anspruch 1, wobei beim Start ein Live-Video-Stream von einer entfernten Kamera bereitgestellt wird, wobei der Live-Video-Stream eine niedrigere Auflösung als die Zeitrafferzusammenfassung des ausgewählten Ereignisses aufweist.
Verfahren zum Anzeigen von Videozusammenfassungen für einen Benutzer, umfassend: bei Start einer Anwendung auf einer Datenverarbeitungsvorrichtung, die eine Anzeige aufweist, Bereitstellen eines der folgenden Gruppe: eines Live-Video-Streams von einer entfernten Kamera, eines Videoereignisses von der entfernten Kamera, einer Zusammenfassung von Videoereignissen von der entfernten Kamera und eines Bildes von der entfernten Kamera; Wiedergeben einer Zusammenfassung von Videoereignissen; wobei die Zusammenfassung von Videoereignissen eine Reihe von Videoereignissen von einer entfernten Kamera über einen designierten Zeitraum umfasst; wobei das Zusammenfassungsvideo eine Zeitrafferzusammenfassung von in Abständen auftretenden Videoereignissen, bei denen Bewegung detektiert wurde, ist; und Revidieren der Wiedergabegeschwindigkeit von Teilen der Zusammenfassung, die durch den Benutzer ausgewählt werden.
Datenverarbeitungsvorrichtung mit einer Anzeige zum Anzeigen von Videozusammenfassungen für einen Benutzer, umfassend: einen Prozessor, der dafür ausgelegt ist, beim Start einer Anwendung auf der Datenverarbeitungsvorrichtung eines der folgenden Gruppe bereitzustellen: eines Live-Video-Streams von einer entfernten Kamera, eines Videoereignisses von der entfernten Kamera, einer Zusammenfassung von Videoereignissen von der entfernten Kamera und eines Bildes von der entfernten Kamera; wobei der Prozessor ferner ausgelegt ist zum Bereitstellen mehrerer Indikatoren auf der Anzeige, die gespeicherte, detektierte wichtige Videoereignisse angeben; wobei der Prozessor ausgelegt ist zum Bereitstellen einer Zeitrafferzusammenfassung des ausgewählten Ereignisses, wenn die Auswahl eines Indikators auf der Anzeige durch den Benutzer detektiert wird; und wobei der Prozessor ferner ausgelegt ist zum Bereitstellen einer Tageszeitangabe auf der Anzeige zusammen mit dem ausgewählten Ereignis.
Vorrichtung nach Anspruch 11, wobei die Indikatoren eine Reihe von Blasen sind, wobei jede Blase eine Angabe umfasst, wann ein Ereignis aufgetreten ist.
Vorrichtung nach Anspruch 11, wobei die Indikatoren ferner die relative Wichtigkeit der Ereignisse mit Farbcodierung angeben.
Vorrichtung nach Anspruch 11, wobei einer der Indikatoren für eine Zeitrafferanzeige aller Ereignisse der Reihe nach in einer designierten Timer-Periode ist, die einen verdichteteren Zeitraffer als den Zeitraffer für einzelne Videoereignisse verwendet; wobei weniger wichtige Ereignisse weniger Zeit haben; und wobei der Prozessor ausgelegt ist zum Anwenden einer Gewichtung auf die Ereignisse, so dass Ereignisse mit höherem Gewicht mehr Zeit oder einen langsameren Zeitraffer bereitgestellt bekommen.
Vorrichtung nach Anspruch 11, wobei die beim Start bereitgestellten Bilder mehrere Bilder von mehreren entfernten Kameras umfassen.
Vorrichtung nach Anspruch 11, ferner umfassend; dass der Prozessor ausgelegt ist zum Scrollen durch die Indikatoren als Reaktion auf eine Benutzer-Wischaktion auf einer Anzeige; Vergrößern eines aktuellen Indikators; und Bereitstellen einer Anzeige mindestens eines Bildes aus dem Videoereignis entsprechend dem aktuellen Indikator.
Vorrichtung nach Anspruch 11, wobei einer der Indikatoren für eine Zusammenfassung von Videoereignissen bereitgestellt wird, wobei die Zusammenfassung aus Videoereignissen für einen Tag besteht.
Vorrichtung nach Anspruch 11, wobei einer der Indikatoren für eine Zusammenfassung von Videoereignissen bereitgestellt wird, wobei die Zusammenfassung aus Videoereignissen seit einem letzten Start einer Anwendung zur Implementierung des Verfahrens von Anspruch 1 besteht.
Vorrichtung nach Anspruch 11, wobei der Prozessor ausgelegt ist zum Bereitstellen eines Live-Video-Streams von einer entfernten Kamera beim Start, wobei der Live-Video-Stream eine niedrigere Auflösung als die Zeitrafferzusammenfassung des ausgewählten Ereignisses aufweist.
Vorrichtung nach Anspruch 11, wobei der Prozessor dafür ausgelegt ist, einem Benutzer durch Wiedergeben einer Zusammenfassung von Videoereignissen Videozusammenfassungen anzuzeigen; wobei die Zusammenfassung von Videoereignissen eine Reihe von Videoereignissen von einer entfernten Kamera über einen designierten Zeitraum umfasst; wobei das Zusammenfassungsvideo eine Zeitrafferzusammenfassung von in Abständen auftretenden Videoereignissen, bei denen Bewegung detektiert wurde, ist; und der Prozessor ausgelegt ist zum Revidieren der Wiedergabegeschwindigkeit von Teilen der Zusammenfassung, die durch den Benutzer ausgewählt werden.
Verfahren zum Bereitstellen einer Videozusammenfassung von einer Kamera, umfassend: Detektieren von Bewegung unter Verwendung eines Prozessors in der Kamera; Bestimmen, ob die Bewegung signifikant ist, unter Verwendung des Prozessors; Aufzeichnen eines periodischen Bildes mindestens eines Einzelbildes während Perioden der Inaktivität, die höchstens insignifikante Bewegung aufweisen, in einem Speicher der Kamera; Identifizieren von Ereignissen aus Perioden der Aktivität, die signifikante detektierte Bewegung aufweisen, und Erzeugen von Ereignis-Etiketten; Aufzeichnen von Video von den identifizierten Ereignissen und der Ereignis-Etiketten in einem Speicher der Kamera; und Übertragen der Bilder und des Videos in dem Speicher in Abständen zu einer entfernten Datenverarbeitungsvorrichtung unter Verwendung eines Senders in der Kamera.
Verfahren zum Bestimmen des Orts einer Kamera, umfassend: Erfassen von Bildern in einer Kamera an einem Ort; Übertragen der Bilder von der Kamera zu einem entfernten Server; holistisches Vergleichen von Bildern von der Kamera in dem Server mit mehreren gespeicherten Bildern aus einer mit dem Server gekoppelten Datenbank entsprechend bekannten Orten; Bestimmen, welche gespeicherten Bilder eine beste Übereinstimmung bereitstellen; und Bestimmen einer Art von Ort der Kamera aus Etiketten, die den eine beste Übereinstimmung bereitstellenden Bildern zugeordnet sind.
Verfahren zum Durchsuchen von Video von einer Kamera, umfassend: Detektieren von Bewegung unter Verwendung eines Prozessors in der Kamera; Bestimmen unter Verwendung des Prozessors, ob die Bewegung signifikant ist, und Herausfiltern von Video ohne signifikante Bewegung; Senden des Videos im Speicher zu einer entfernten Datenverarbeitungsvorrichtung unter Verwendung eines Senders in der Kamera; Organisieren des Videos zu getrennten Videoereignissen; Erzeugen mehrerer Zusammenfassungsvideos aus mehreren durch die Kamera bereitgestellten Videoereignissen mit der entfernten Datenverarbeitungsvorrichtung; Etikettieren jedes Zusammenfassungsvideos mit mehreren Etiketten entsprechend den Ereignissen in der Videozusammenfassung; als Reaktion auf Suchbegriffe, die durch einen Benutzer eingegeben werden, Abstimmen der Suchbegriffe mit den Etiketten; und Anzeigen von Indikatoren von Videozusammenfassungen mit einer besten Übereinstimmung mit den Suchbegriffen, eingestuft in der Reihenfolge bester Übereinstimmung.