DE102020113972A1

DE102020113972A1 - VIDEO ANALYSIS AND MANAGEMENT TECHNIQUES FOR MEDIA ACQUISITION AND STORAGE

Info

Publication number: DE102020113972A1
Application number: DE102020113972.1A
Authority: DE
Inventors: Shuang Gao; Vasilios E. Anton; Robert A. Bailey; Emilie Kim; Vignesh Jagadeesh; Paul Schneider; Piotr Stanczyk; Arwen Bradley; Jason Klivington; Jacques Gesselin de Richebourg; Joe Triscari; Sébastien Beysseerie; Yang Yang; Afshin Dehghan; Rudolph van der Merwe
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-05-31
Filing date: 2020-05-25
Publication date: 2020-12-03
Also published as: CN112019736B; CN112019736A

Abstract

Offenbart werden Techniken zum Bearbeiten erfasster Medien, um betriebsbezogene Schwierigkeiten zu beseitigen, die während Erfassungsvorgängen auftreten können. Gemäß diesen Techniken kann Inhalt mit einem Paar Kameras erfasst werden, wobei eine erste Kamera ein breiteres Sichtfeld als eine zweite Kamera aufweist. Ein Objekt oder Objekte können aus erfasstem Inhalt aus der Kamera mit breiterem Sichtfeld erkannt werden. Der erfasste Inhalt kann aus der Kamera mit breiterem Sichtfeld an einer Position mindestens eines erkannten Objekts verarbeitet werden. Üblicherweise versuchen Bediener möglicherweise, Inhalt unter Verwendung von Inhalt aus der Kamera mit schmalerem Sichtfeld einzurahmen. Infolgedessen ist Bedienern möglicherweise nicht bewusst, dass gewünschter Inhalt unter Verwendung einer zweiten Kamera mit größerem Sichtfeld erfasst wird. Ergebnisse aus den verarbeiteten Daten mit breiterem Sichtfeld können Bedienern zur Überprüfung und, falls gewünscht, Aufbewahrung vorgeschlagen werden.Techniques are disclosed for manipulating captured media to overcome operational difficulties that can arise during capture operations. According to these techniques, content can be captured with a pair of cameras, with a first camera having a wider field of view than a second camera. An object or objects can be recognized from the captured content from the camera with a wider field of view. The captured content can be processed from the camera with a wider field of view at a position of at least one recognized object. Typically, operators may attempt to frame content using content from the camera with a narrower field of view. As a result, operators may be unaware that desired content is captured using a second camera with a larger field of view. Results from the processed data with a wider field of view can be suggested to operators for review and, if desired, retention.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGENCROSS REFERENCE TO RELATED APPLICATIONS

Diese Anmeldung beansprucht Priorität vor der US-Patentanmeldung Nr. 16/653.704 , eingereicht am 15. Oktober 2019; und der vorläufigen US-Patentanmeldung Nr. 62/855.874 , eingereicht am 31. Mai 2019, die hiermit durch Bezugnahme in ihrer Gesamtheit in dieses Dokument aufgenommen werden.This application claims priority over the U.S. Patent Application No. 16 / 653,704 , filed October 15, 2019; and the preliminary U.S. Patent Application No. 62 / 855,874 , filed on May 31, 2019, which are hereby incorporated by reference in their entirety into this document.

STAND DER TECHNIKSTATE OF THE ART

Die vorliegende Offenbarung bezieht sich auf Medienerfassung unter Verwendung von Vorrichtungen der Unterhaltungselektronik.The present disclosure relates to media detection using consumer electronics devices.

Unterhaltungsvorrichtungen verfügen routinemäßig über ein oder mehrere Kamerasysteme, mit denen Bediener Bilder und Videos ihres täglichen Lebens erfassen können. Obwohl solche Vorrichtungen bequeme Werkzeuge für solche Benutzer bereitstellen, können Bediener während Erfassungsereignissen Schwierigkeiten haben. Solche Kamerasysteme sind in der Regel in Mehrzweckvorrichtungen integriert, die zum Beispiel auch als Telefone, Webbrowser, Medienplayer, Personal Information Manager dienen. Diese Vorrichtungen haben üblicherweise Formfaktoren, die diesen konkurrierenden Anwendungen dienen, was es Bedienern erschweren kann, die Vorrichtung während Bild- und/oder Videoerfassungereignissen ruhig zu halten. Die Formfaktoren dieser Vorrichtungen wurden in der Tat so weit reduziert, dass scheinbar kleine Bewegungsartefakte des Bedieners zu großen Bewegungen in erfassten Bildern und/oder Videos führen können.Entertainment devices routinely have one or more camera systems that operators can use to capture images and videos of their daily lives. While such devices provide convenient tools for such users, operators can experience difficulty during acquisition events. Such camera systems are usually integrated in multi-purpose devices that also serve, for example, as telephones, web browsers, media players, personal information managers. These devices typically have form factors to serve these competing applications, which can make it difficult for operators to keep the device still during image and / or video capture events. Indeed, the form factors of these devices have been reduced to such an extent that what appear to be small operator movement artifacts can result in large movements in captured images and / or videos.

Viele dieser Vorrichtungen weisen mehrere Bilderfassungssysteme auf. Zum Beispiel kann eine einzelne Vorrichtung mehrere Kamerasysteme aufweisen, die in eine gemeinsame Richtung zeigen, jedes mit eigenem optischem System. In der Praxis ist es möglich, einem Bediener Inhalt aus nur einer dieser Kameras anzuzeigen, wenn der Bediener Bildinhalt während eines Erfassungsereignisses einrahmt. Möglicherweise nimmt ein Bediener ein Erfassungsereignis als fehlgeschlagene Erfassung von gewünschtem Inhalt wahr, weil er Daten aus der einen Kamera betrachtet, während tatsächlich eine andere Kamera in der Vorrichtung den gewünschten Inhalt erfasst hat.Many of these devices have multiple imaging systems. For example, a single device can have multiple camera systems pointing in a common direction, each with its own optical system. In practice, it is possible to display content from only one of these cameras to an operator if the operator is framing image content during a capture event. An operator may perceive a capture event as a failed capture of desired content because he is viewing data from one camera while another camera in the device has actually captured the desired content.

FigurenlisteFigure list

1 Figure 4 is a functional block diagram of a system in accordance with an aspect of the present disclosure.
2 (a) illustrates exemplary individual images that can be generated by a camera with a narrow field of view, and 2 B) shows exemplary individual images that can be generated by a camera with a wide field of view.
3 Figure 3 is a functional block diagram of a system in accordance with another aspect of the present disclosure.
4th Fig. 10 illustrates an exemplary sequence of frames suitable for use therewith in accordance with an aspect of the present disclosure.
5 illustrates exemplary recognized objects and assembly operations in accordance with an aspect of the present disclosure.
6th Figure 3 illustrates exemplary individual images that may be generated by a compositor in accordance with an aspect of the present disclosure.
7th Figure 3 illustrates a processing system suitable for use therewith in accordance with an aspect of the present disclosure.
8th illustrates the operation of feature recognition and feature matching in accordance with an aspect of the present disclosure.
9 Fig. 3 illustrates tripod stabilization according to an aspect of the present disclosure.
10 Figure 3 illustrates smooth panning according to an aspect of the present disclosure.
11 illustrates a smoothed acceleration according to an aspect of the present disclosure.
12th illustrates multi-mode in accordance with an aspect of the present disclosure.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

Gesichtspunkte der vorliegenden Offenbarung stellen Techniken zum Bearbeiten erfasster Medien bereit, um betriebsbezogenen Schwierigkeiten zu beseitigen, die während Erfassungsvorgängen auftreten können. Gemäß diesen Gesichtspunkten kann Inhalt mit einem Kamerapaar erfasst werden, wobei eine erste Kamera ein breiteres Sichtfeld als eine zweite Kamera aufweist. Ein Objekt oder Objekte können anhand von erfasstem Inhalt aus der Kamera mit breiterem Sichtfeld erkannt werden. Der erkannte Inhalt kann aus der Kamera mit breiterem Sichtfeld an einer Position mindestens eines erkannten Objekts verarbeitet werden. Ergebnisse aus den verarbeiteten Daten mit breiterem Sichtfeld können den Bedienern zur Überprüfung und gegebenenfalls Aufbewahrung vorgeschlagen werden.Aspects of the present disclosure provide techniques for manipulating captured media to overcome operational difficulties that may arise during capture operations. According to these aspects, content can be captured with a pair of cameras, a first camera having a wider field of view than a second camera. An object or objects can be recognized with a wider field of view based on captured content from the camera. The recognized content can be processed from the camera with a wider field of view at a position of at least one recognized object. Results from the Processed data with a wider field of view can be proposed to the operators for review and, if necessary, storage.

1 ist ein Funktionsblockdiagramm eines Systems 100 gemäß einem Gesichtspunkt der vorliegenden Offenbarung. Das System 100 kann ein Paar Kameras 110, 115, ein Paar Videoerfassungssysteme 120, 125, eine Anzeige 130, einen Objekt-Tracker 135, einen Compositor 140 und ein Speichersystem 145 (gezeigt als 145.1, 145.2, 145.3) einschließen. Diese Komponenten können unter der Steuerung einer Steuereinheit 150 arbeiten. Die Kameras 110, 115 können verschiedene Sichtfelder (in der Regel als „Sichtfeld“ bezeichnet) haben, die sich voneinander unterscheiden, wobei eines breiter als das andere ist. Der Einfachheit halber werden hier eine erste Kamera 110 mit einem „schmalen“ Sichtfeld und eine zweite Kamera 115 mit einem „breiten“ Sichtfeld beschrieben. Wenn also Videodaten durch die beiden Kameras erfasst werden, enthält Inhalt eines von der Kamera mit breitem Sichtfeld 115 ausgegebenen Videos wahrscheinlich Inhalt eines von der Kamera mit schmalem Sichtfeld 110 ausgegebenen Videos und zusätzlichen Inhalt, der in dem von der Kamera mit schmalem Sichtfeld 110 ausgegebenen Video nicht zu finden ist. 2 veranschaulicht exemplarische Einzelbilder 210 und 220, die von einer Kamera mit schmalem Sichtfeld (2(a)) bzw. einer Kamera mit breitem Sichtfeld (2(b)) erlangt werden können. Wie in 2(b) veranschaulicht, kann Videoinhalt der Kamera mit schmalem Sichtfeld Videoinhalt der Kamera mit breitem Sichtfeld subsumiert sein. In der Praxis sind Videoinhalt der Kamera mit schmalem Sichtfeld und entsprechender Videoinhalt der Kamera mit breitem Sichtfeld nicht identisch; betriebsbezogene Unterschiede zwischen den Kamerasystemen (z. B. Sensorauflösung, optische Reaktion von Sensorsystemen, Linseneigenschaften, Autofokus- und automatische Belichtungsfunktionen sowie Kameramontageorte) können zu Inhaltsunterschieden zwischen dem Inhalt in diesen Bereichen führen. Dennoch kann Inhalt dieser Bereiche zu Analysezwecken eine gute Korrelation zueinander aufweisen. 1 Figure 3 is a functional block diagram of a system 100 according to one aspect of the present disclosure. The system 100 can have a pair of cameras 110 , 115 , a pair of video capture systems 120 , 125 , an ad 130 , an object tracker 135 , a compositor 140 and a storage system 145 (shown as 145.1 , 145.2 , 145.3 ) lock in. These components can be under the control of a control unit 150 work. The cameras 110 , 115 may have different fields of view (usually called a "field of view") that are different from each other, with one wider than the other. For the sake of simplicity, a first camera is here 110 with a "narrow" field of view and a second camera 115 described with a "wide" field of vision. So when video data is captured by the two cameras, one of the contents will be included from the wide field of view camera 115 output video likely content one from the narrow field of view camera 110 output video and additional content that is included in that of the narrow field of view camera 110 output video cannot be found. 2 illustrates exemplary individual images 210 and 220 from a camera with a narrow field of view ( 2 (a) ) or a camera with a wide field of view ( 2 B) ) can be obtained. As in 2 B) As illustrated, video content of the camera with a narrow field of view can be subsumed into video content of the camera with a wide field of view. In practice, the video content of the camera with a narrow field of view and the corresponding video content of the camera with a wide field of view are not identical; Operational differences between the camera systems (e.g. sensor resolution, optical response of sensor systems, lens properties, autofocus and automatic exposure functions as well as camera mounting locations) can lead to content differences between the content in these areas. Nevertheless, the content of these areas can show a good correlation with one another for analysis purposes.

Die Videoerfassungssysteme 120, 125 jeder Kamera 110, 115 können von den Kameras ausgeführte Videoerfassungsvorgänge steuern. Zum Beispiel können die Videoerfassungssysteme als Reaktion auf Erfassungssteuerbefehle von einer Steuereinheit 150 bewirken, dass das von den jeweiligen Kamerasystemen 110, 115 erfasste Video gespeichert wird. Eine Steuereinheit 150 kann Erfassungsbefehle als Reaktion auf in eine (nicht gezeigte) Benutzerschnittstelle der Vorrichtung eingegebene Bedienerbefehle ausgeben. Auf diese Weise kann das System 100 Videodateien erstellen, die Videos repräsentieren, die zur Erfassung durch einen Bediener bestimmt sind. Durch Benutzerbefehle können Eigenschaften der Videoerfassung bestimmt werden, zum Beispiel Videoerfassung mit voller Geschwindigkeit oder „in Zeitlupe“ und andere Eigenschaften, die bestimmen, wie Videos von den Kameras 110, 115 aufzuzeichnen sind. Die Videoerfassungssysteme 120, 125 können solche Erfassungsmodi beim Speichern von Videos anwenden, die von ihren Erfassungssystemen erzeugt wurden. Von den Erfassungssystemen 120 und 125 erzeugte Videos, die jeweils als „Video 1“ und „Video 2“ dargestellt sind, können im Speicher in dem System 100 gespeichert werden.The video capture systems 120 , 125 every camera 110 , 115 can control video capture operations performed by the cameras. For example, the video capture systems can respond to capture control commands from a control unit 150 cause that from the respective camera systems 110 , 115 captured video is saved. A control unit 150 can issue acquisition commands in response to operator commands entered into a user interface (not shown) of the device. That way the system can 100 Create video files that represent videos intended for capture by an operator. User commands can determine properties of the video capture, such as video capture at full speed or "in slow motion" and other properties that determine how video is received from the cameras 110 , 115 are to be recorded. The video capture systems 120 , 125 can apply such capture modes when saving video generated by their capture systems. From the registration systems 120 and 125 generated videos, which are shown as "Video 1" and "Video 2" respectively, can be stored in the memory in the system 100 get saved.

Während des Betriebs kann das System 100 die Kameraausgabe der Kamera mit schmalem Sichtfeld 110 auf einer Anzeige 130 anzeigen, was dem Bediener helfen kann, Videos entsprechend einzurahmen und andere Vorgänge des Systems zu steuern (zum Beispiel Beginn und Ende von Videoerfassungsvorgängen wählen).During operation, the system can 100 the camera output of the camera with a narrow field of view 110 on an advertisement 130 show what can help the operator to frame video appropriately and control other system operations (such as choosing the start and end of video capture operations).

Der Objekt-Tracker 135 kann ein von der Kamera mit breitem Sichtfeld 115 ausgegebenes Video empfangen und eine Objektverfolgung auf den Inhalt des Videos anwenden. Der Objekt-Tracker 135 kann verschiedene Objekterkennungsprozesse an dem Video ausführen, zum Beispiel Gesichtserkennung einer Person, Körpererkennung einer Person, Tiererkennung und dergleichen. Der Objekt-Tracker 135 kann ein maschinelles Lernsystem (wie ein (nicht gezeigtes) neuronales Netzwerk) einschließen, das dafür trainiert wurde, vorbestimmte Arten von Objekten in Videoinhalt zu erkennen. Wenn der Objekt-Tracker ein Objekt oder Objekte in Bildinhalt erkennt, kann der Objekt-Tracker 135 Daten erzeugen, die das Objekt oder die Objekte und deren räumliche Position oder Positionen innerhalb von Bildinhalt identifizieren.The object tracker 135 can be one of the wide field of view camera 115 Receive output video and apply object tracking to the content of the video. The object tracker 135 can perform various object recognition processes on the video, such as face recognition of a person, body recognition of a person, animal recognition, and the like. The object tracker 135 may include a machine learning system (such as a neural network (not shown)) that has been trained to recognize predetermined types of objects in video content. When the object tracker detects an object or objects in image content, the object tracker can 135 Generate data that identify the object or objects and their spatial position or positions within image content.

Der Compositor 140 kann auf Basis einer Ausgabe des Objekt-Trackers 135 ein Video aus Videoinhalt mit breitem Sichtfeld erzeugen. Zum Beispiel kann der Compositor 140 Schnittfenster für Videos basierend auf einem Objekt oder Objekten, die durch den Objekt-Tracker 135 identifiziert wurden, und deren Position oder Positionen in Videoinhalt erzeugen und das Video mit breitem Sichtfeld entsprechend zuschneiden. Auf diese Weise kann das System 100 von einem Bediener verursachte Rahmungs-Nichtübereinstimmungen beseitigen. Ein verarbeitetes Video aus dem Compositor 140 kann im Speicher 145.3 (als „Video 3“ gezeigt) gespeichert werden.The compositor 140 can be based on an output from the object tracker 135 create a video from video content with a wide field of view. For example, the compositor 140 Timeline for videos based on an object or objects identified by the object tracker 135 and generate their position or positions in video content and crop the wide-field-of-view video accordingly. That way the system can 100 eliminate framing mismatches caused by an operator. A processed video from the compositor 140 can in store 145.3 (shown as "Video 3").

Gemäß einem Gesichtspunkt kann das System 100 einen Bewegungssensor 155 einschließen, der Daten erzeugt, die Bewegungsaktivitäten des Systems 100 darstellen, die während Erfassungsvorgängen auftreten. Bewegungsdaten können an den Compositor 140 ausgegeben werden, die der Compositor 140 zur Bildstabilisierung verwenden kann. Zum Beispiel kann der Compositor 140 Einzelbild-zu-Einzelbild-Bewegung von Videoinhalt gemäß Merkmalserkennung, Merkmalsabgleich und geschätzten Homographien zwischen abgeglichenen Merkmalen schätzen. Ein Compositor 140 kann Einzelbild-zu-Einzelbild-Bewegung anhand von Bewegungssensordaten schätzen. Der Compositor 140 kann auch Merkmale innerhalb von Einzelbildern von Videoinhalt identifizieren und Registrierungsvorgänge durchführen, um die erkannten Merkmale auszurichten. Der Bewegungssensor 155 kann als ein Beschleunigungsmesser oder ein Gyroskop bereitgestellt sein.In one aspect, the system can 100 a motion sensor 155 that generates data, the movement activities of the system 100 that occur during acquisition operations. Movement data can be sent to the compositor 140 that the compositor 140 can use for image stabilization. For example, the compositor 140 Estimate frame-to-frame motion of video content according to feature detection, feature matching, and estimated homographies between matched features. A compositor 140 can estimate frame-to-frame motion based on motion sensor data. The compositor 140 can also identify features within frames of video content and perform registration operations to align the detected features. The motion sensor 155 can be provided as an accelerometer or a gyroscope.

8 veranschaulicht die Funktionsweise von Merkmalserkennung und Merkmalsabgleich gemäß einem Gesichtspunkt der vorliegenden Offenlegung. 8 veranschaulicht benachbarte Einzelbilder 810 und 820 aus einer exemplarischen Videosequenz. Durch Bildanalyse lässt sich eine Vielzahl von Inhaltsmerkmalen erkennen, die als Merkmale 830.1 bis 830.8 in Einzelbild 810 und Merkmale 840.1 bis 840.8 in Einzelbild 820 gezeigt sind. Bewegungssensordaten können eine grobe Basis bereitstellen, um viele Merkmale 830.1 bis 830.8 in Einzelbild 810 an ihren Gegenstücken 840.1 bis 840.8 in Einzelbild 820 auszurichten. In der Praxis kann es vorkommen, dass Merkmalsabgleich nicht für alle Merkmale in einem bestimmten Einzelbildpaar erfolgt, was auf Effekte wie konkurrierende homografische Ebenen, Unschärfeeffekte, Okklusionen und Wegfall der Unterscheidung von Merkmalen in bestimmten Einzelbildern zurückzuführen ist. Darüber hinaus können einige Merkmale von Objekten abgeleitet werden, die sich in einem Sichtfeld bewegen (z. B. Merkmale 830.7, 830.8), die beim Abgleich anderer Merkmale 830.1 bis 830.6 zu Ausreißern werden. 8th illustrates the functionality of feature recognition and feature matching according to one aspect of the present disclosure. 8th illustrates neighboring individual images 810 and 820 from an exemplary video sequence. A large number of content features can be recognized by image analysis, which are called features 830.1 to 830.8 in single image 810 and features 840.1 to 840.8 in single image 820 are shown. Motion sensor data can provide a rough basis for many features 830.1 to 830.8 in single image 810 on their counterparts 840.1 to 840.8 in single image 820 align. In practice, it can happen that feature matching is not carried out for all features in a certain single image pair, which is due to effects such as competing homographic planes, blurring effects, occlusions and the omission of the distinction between features in certain single images. In addition, some features can be derived from objects that move in a field of view (e.g. features 830.7 , 830.8 ) when comparing other characteristics 830.1 to 830.6 become outliers.

Stabilisierungsvorgänge können Schnittfenster steuern, um zu bewirken, dass erkannte Merkmale eine kontrollierte Verschiebung innerhalb eines Video-Sichtfelds aufweisen. Gemäß einem ersten Gesichtspunkt, der in 9 dargestellt ist, können Schnittfenster definiert werden, um die Bewegung abgeglichener Merkmale innerhalb eines Sichtfelds auszugleichen. Wie veranschaulicht, haben abgeglichene Merkmale keine Bewegung, ungeachtet einer Nicht-Null-Bewegung, wie in den Bewegungsdaten dargestellt. Solche Steuerungen werden als „Stativ“-Stabilisierungsmodus bezeichnet, weil sie dem Video einen Effekt verleihen, als wäre das Video während der Videoerfassung auf einem Stativ montiert gewesen.Stabilization operations can control timelines to cause recognized features to have a controlled displacement within a video field of view. According to a first point of view that appears in 9 As shown, timelines can be defined to compensate for the movement of adjusted features within a field of view. As illustrated, matched features have no movement regardless of non-zero movement as represented in the movement data. Such controls are referred to as "tripod" stabilization mode because they give the video an effect as if the video had been mounted on a tripod during the video capture.

Gemäß einem anderen Gesichtspunkt, der in 10 dargestellt ist, können Schnittfenster definiert werden, um abgeglichenen Merkmalen innerhalb eines Sichtfelds eine gleichmäßige Bewegung zu verleihen, ungeachtet einer ungleichmäßigen Bewegung, wie in den Bewegungsdaten dargestellt. Solche Steuerungen werden als „Schwenken“-Stabilisierungsmodus bezeichnet, weil sie dem Video einen Effekt verleihen, als wäre das Video während der Videoerfassung auf einem Stativ montiert gewesen.According to another point of view described in 10 As illustrated, timelines can be defined to impart smooth motion to matched features within a field of view regardless of non-uniform motion, as represented in the motion data. Such controls are known as "pan" stabilization mode because they give the video an effect as if the video had been tripod-mounted during video capture.

Gemäß einem weiteren Gesichtspunkt, der in 11 dargestellt ist, können Schnittfenster definiert werden, um eine beschleunigungsmodellierte Bahn auf abgeglichene Merkmale innerhalb eines Sichtfelds auf Basis bestimmter Bewegungsdaten anzuwenden. Zum Beispiel kann die Beschleunigungsbahn gemäß L1-Norm-Minimierungstechniken gewählt werden, die Ableitungen der Kameraposition wie durch Position, Geschwindigkeit und Beschleunigung minimieren. Von einem auf diese Weise geglätteten Video wird erwartet, dass ein Video bereitgestellt wird, das stabiler wahrgenommen wird als sein Quellvideo.According to another point of view disclosed in 11 is shown, cutting windows can be defined in order to apply an acceleration-modeled trajectory to adjusted features within a field of view based on certain movement data. For example, the acceleration trajectory can be chosen according to L1 standard minimization techniques that minimize derivatives of the camera position such as position, speed, and acceleration. Video flattened in this way is expected to provide video that is perceived as more stable than its source video.

Darüber hinaus können, wie in dem Gesichtspunkt von 12 dargestellt, Stabilisierungsvorgänge zwischen den verschiedenen Modi - Stativ, Schwenken und Beschleunigungsglättung - auf Basis von Bewegungsdaten wechseln. Stabilisierungsvorgänge können auf Videosegmente angewendet werden, und eine Moduswahl kann getroffen werden, um eine akkumulierte Abweichung zwischen erkannten Bewegungsdaten und geschätzter Merkmalsbahn oder geschätzten Merkmalsbahnen zu minimieren.In addition, as in the point of view of 12th shown, stabilization processes switch between the different modes - tripod, panning and acceleration smoothing - based on movement data. Stabilization processes can be applied to video segments, and a mode selection can be made to minimize an accumulated discrepancy between detected motion data and the estimated feature path or paths.

3 ist ein Funktionsblockdiagramm eines Systems 300 gemäß einem Gesichtspunkt der vorliegenden Offenbarung. Das System 300 kann ein Paar Kameras 310, 315, ein Paar Bilderfassungssysteme 320, 325, eine Anzeige 330, einen Objekt-Detektor 335, einen Compositor 340 und ein Speichersystem 345 (gezeigt als 345.1, 345.2, 345.3) einschließen. Diese Komponenten können unter der Steuerung einer Steuereinheit 350 arbeiten. 3 Figure 3 is a functional block diagram of a system 300 according to one aspect of the present disclosure. The system 300 can have a pair of cameras 310 , 315 , a pair of imaging systems 320 , 325 , an ad 330 , an object detector 335 , a compositor 340 and a storage system 345 (shown as 345.1 , 345.2 , 345.3 ) lock in. These components can be under the control of a control unit 350 work.

Wie in dem in 1 veranschaulichten Gesichtspunkt können die Kameras 310, 315 unterschiedliche Sichtfelder haben, ein „schmales“ und ein „breites“. Wenn also Bilddaten von den beiden Kameras erfasst werden, enthält Inhalt eines von der Kamera mit breitem Sichtfeld 315 (Bild 1) ausgegebenen Bilds wahrscheinlich Inhalt eines von der Kamera mit schmalen Sichtfeld 310 ausgegebenen Bilds und zusätzlichen Inhalt, der in dem von der Kamera mit schmalem Sichtfeld 310 ausgegebenen Bild nicht zu finden ist. Auch hier veranschaulicht 2 exemplarische Beziehungen zwischen Sichtfeldern, die zwischen den beiden Kameras 310, 315 bestehen können. In der Praxis sind Videoinhalt der Kamera mit schmalem Sichtfeld 310 und entsprechender Videoinhalt der Kamera mit breitem Sichtfeld 320 nicht identisch; betriebsbezogene Unterschiede zwischen den Kamerasystemen (z. B. Sensorauflösung, optische Reaktion von Sensorsystemen, Linseneigenschaften, Autofokus- und automatische Belichtungsfunktionen sowie Kameramontageorte) können zu Inhaltsunterschieden zwischen dem Inhalt in diesen Bereichen führen. Dennoch kann Inhalt dieser Bereiche zu Analysezwecken eine gute Korrelation zueinander aufweisen.As in the in 1 illustrated point of view can be the cameras 310 , 315 have different fields of vision, a "narrow" and a "wide" one. So when image data is captured by the two cameras, one of the contents will be included from the wide field of view camera 315 (Image 1 ) output image is likely to be the content of a camera with a narrow field of view 310 output image and additional content included in that of the narrow field of view camera 310 output image cannot be found. Also illustrated here 2 exemplary relationships between fields of view between the two cameras 310 , 315 can exist. In practice, video content from the camera has a narrow field of view 310 and corresponding video content from the camera with a wide field of view 320 not identical; operational differences between the camera systems (e.g. sensor resolution, optical reaction of sensor systems, lens properties, autofocus and automatic Exposure functions and camera mounting locations) can lead to content differences between the content in these areas. Nevertheless, the content of these areas can show a good correlation with one another for analysis purposes.

Die Bilderfassungssysteme 320, 325 jeder Kamera 310, 315 können von den Kameras ausgeführte Bilderfassungsvorgänge steuern. Zum Beispiel können die Bilderfassungssysteme als Reaktion auf Erfassungssteuerbefehle von einer Steuereinheit 350 bewirken, dass das von den jeweiligen Kamerasystemen 310, 315 erfasste Bild gespeichert wird. Eine Steuereinheit 350 kann Erfassungsbefehle als Reaktion auf in eine (nicht gezeigte) Benutzerschnittstelle des Systems 300 eingegebene Bedienerbefehle ausgeben. Auf diese Weise kann das System 300 Bilddateien erstellen, die Bilder repräsentieren, die zur Erfassung durch einen Bediener bestimmt sind. Benutzerbefehle können Bilderfassungseigenschaften, zum Beispiel einen Bilderfassungsmodus (z. B. HDR oder SDR, Einzelbildaufnahme vs. Serienbildaufnahme usw.) und andere Eigenschaften festlegen, die bestimmen, wie Bilder von den Kameras 310, 315 zu erzeugen sind. Die Bilderfassungssysteme 320, 325 können solche Erfassungsmodi beim Speichern von Bildern anwenden, die von ihren Erfassungssystemen erzeugt wurden. Von den Erfassungssystemen 320, 325 erzeugte Bilder, die jeweils als „Bild 1“ und
„Bild 2“ dargestellt sind, können im Speicher in dem System 300 gespeichert werden.The image acquisition systems 320 , 325 every camera 310 , 315 can control image capture operations performed by the cameras. For example, the image capture systems can be responsive to capture control commands from a control unit 350 cause that from the respective camera systems 310 , 315 captured image is saved. A control unit 350 can input capture commands in response to a user interface (not shown) of the system 300 Output entered operator commands. That way the system can 300 Create image files that represent images that are intended to be captured by an operator. User commands can set image capture properties, for example an image capture mode (e.g. HDR or SDR, single image capture vs. burst capture, etc.) and other properties that determine how images are received from the cameras 310 , 315 are to be generated. The image acquisition systems 320 , 325 can apply such capture modes when saving images generated by their capture systems. From the registration systems 320 , 325 generated images, each as "Image 1" and
"Image 2" shown can be stored in memory in the system 300 get saved.

Gemäß einem Gesichtspunkt kann das System 300 eine Bildfusionseinheit 355 einsetzen, die eine Bildfusion zwischen einem von einer Kamera mit schmalem Sichtfeld 310 und einer Kamera mit breitem Sichtfeld 315 erzeugten Bild durchführt. Bei Anwendung kann es vorkommen, dass eine Kamera mit schmalem Sichtfeld 310 in ihrem Sichtfeld einen Bildinhalt erzeugt, der eine höhere Auflösung hat als der entsprechende Bildinhalt der Kamera mit breitem Sichtfeld 315. Eine Bildfusionseinheit 355 kann Bild-Stitching durchführen, um Inhalt aus den zwei Bildern zusammenzuführen, so dass ein Bild mit höherer Auflösung in einem Bereich oder in Bereichen entsteht, die dem Sichtfeld der Kamera mit schmalem Sichtfeld entsprechen. Üblicherweise beinhaltet eine solche Bildfusion das Identifizieren von Objekten innerhalb der überlappenden Sichtfelder, Ausrichten des Inhalts und Überblenden des Inhalts.In one aspect, the system can 300 an image fusion unit 355 that use an image fusion between one of a camera with a narrow field of view 310 and a camera with a wide field of view 315 generated image. When used, it may happen that a camera with a narrow field of view 310 Generates image content in its field of view that has a higher resolution than the corresponding image content of the camera with a wide field of view 315 . An image fusion unit 355 may perform image stitching to merge content from the two images to create a higher resolution image in an area or areas that match the field of view of the narrow field of view camera. Typically, such image fusion involves identifying objects within the overlapping fields of view, aligning the content, and blending the content.

Während des Betriebs kann das System 300 die Kameraausgabe der Kamera mit schmalem Sichtfeld 310 auf einer Anzeige 330 anzeigen, was dem Bediener helfen kann, das Bild entsprechend einzurahmen und andere Vorgänge des Systems zu steuern (z. B. Beginn und Ende von Bilderfassungsvorgängen wählen).During operation, the system can 300 the camera output of the camera with a narrow field of view 310 on an advertisement 330 show what can help the operator to frame the image appropriately and to control other operations of the system (e.g. choosing the start and end of image capture operations).

Der Objekt-Detektor 335 kann ein von der Kamera mit breitem Sichtfeld 315 ausgegebenes Bild empfangen und eine Objekterkennung auf Inhalt des Bilds anwenden. Der Objekt-Detektor 335 kann verschiedene Objekterkennungsprozesse an dem Bild ausführen, zum Beispiel Gesichtserkennung einer Person, Körpererkennung einer Person, Tiererkennung. Der Objekt-Detektor 335 kann ein maschinelles Lernsystem (wie ein (nicht gezeigtes) neuronales Netzwerk) einschließen, das dafür trainiert wurde, vorbestimmte Arten von Objekten in Bildinhalt zu erkennen. Wenn der Objekt-Detektor ein Objekt oder Objekte in Bildinhalt erkennt, kann der Objekt-Detektor 335 Daten erzeugen, die das Objekt oder die Objekte und deren räumliche Position oder Positionen innerhalb von Bildinhalt identifizieren. Gemäß einem Gesichtspunkt können die Objekt- und Positionsdaten mit den Bilddaten mit breitem Sichtfeld zur späteren Verarbeitung gespeichert werden.The object detector 335 can be one of the wide field of view camera 315 receive output image and apply object recognition to content of the image. The object detector 335 can perform various object recognition processes on the image, for example face recognition of a person, body recognition of a person, animal recognition. The object detector 335 may include a machine learning system (such as a neural network (not shown)) that has been trained to recognize predetermined types of objects in image content. If the object detector detects an object or objects in the image content, the object detector can 335 Generate data that identify the object or objects and their spatial position or positions within image content. In one aspect, the object and position data can be stored with the wide field of view image data for later processing.

Gemäß einem anderen Gesichtspunkt kann ein Compositor 340 auf Basis einer Ausgabe des Objekt-Detektors 335 ein neues Bild aus Bildinhalt mit breitem Sichtfeld erzeugen. Zum Beispiel kann der Compositor 340 das Bild auf Basis des oder der von dem Objekt-Detektor 335 identifizierten Objekte und deren Position(en) innerhalb von Bildinhalt zuschneiden. Auf diese Weise kann das System 300 von einem Bediener verursachte Rahmungs-Nichtübereinstimmungen beseitigen. Ein verarbeitetes Bild aus dem Compositor 340 kann im Speicher 345.3 (als „Bild 3“ gezeigt) gespeichert werden. Wenn mehrere Objekte an verschiedenen Positionen eines Bilds mit breitem Sichtfeld identifiziert werden, kann der Compositor 340 mehrere Bilder von einem gemeinsamen Bild mit breitem Sichtfeld ableiten, die jeweils aus einem für ein entsprechendes Objekt erzeugten Schnittfenster entwickelt wurden.In another aspect, a compositor 340 based on an output of the object detector 335 create a new image from image content with a wide field of view. For example, the compositor 340 the image based on the one or more of the object detector 335 Crop identified objects and their position (s) within the image content. That way the system can 300 eliminate framing mismatches caused by an operator. A processed image from the compositor 340 can in store 345.3 (shown as "Image 3"). When multiple objects are identified in different positions in an image with a wide field of view, the compositor can 340 Derive multiple images from a common image with a wide field of view, each developed from a cutting window generated for a corresponding object.

4 bis 6 veranschaulichen den exemplarischen Betrieb eines Compositors 140 (1), 340 (3) unter Bezugnahme auf Modelle von Video-/Bilddaten. Obwohl in der folgenden Erörterung die Anwendung eines Compositors auf Videodaten beschrieben wird, gelten die Prinzipien der Erörterung auch für Bilddaten. 4 veranschaulicht eine Abfolge von Einzelbildern 410 bis 440, die exemplarische Daten darstellen, die von einer Kamera mit schmalem Sichtfeld 110 (1) erzeugt werden können. 5 veranschaulicht eine Abfolge von Einzelbildern 510 bis 540, die exemplarische Daten darstellen, die von einer Kamera mit breitem Sichtfeld 115 erzeugt werden können. In dem in 4 und 5 veranschaulichten Beispiel gibt es eine feste Beziehung zwischen den Sichtfeldern beider Kameras, so dass der Inhalt der Einzelbilder 410 bis 440 von der Kamera mit schmalem Sichtfeld in einem zentralen Bereich der Einzelbilder 510 bis 540 erscheint. 4th to 6th illustrate the exemplary operation of a compositor 140 ( 1 ), 340 ( 3 ) referring to models of video / image data. Although the following discussion describes the application of a compositor to video data, the principles of the discussion also apply to image data. 4th illustrates a sequence of frames 410 to 440 representing exemplary data obtained from a narrow field of view camera 110 ( 1 ) can be generated. 5 illustrates a sequence of frames 510 to 540 representing exemplary data obtained by a wide field of view camera 115 can be generated. In the in 4th and 5 In the example illustrated, there is a fixed relationship between the fields of view of both cameras, so that the content of the individual images 410 to 440 from the camera with a narrow field of view in a central area of the individual images 510 to 540 appears.

Wie im Zusammenhang mit 1 erörtert, kann ein Objekt-Tracker 130 verschiedene Objekte aus Inhalt eines Videos mit schmalem Sichtfeld erkennen. Das Beispiel von 5 veranschaulicht ein Paar Objekte OBJ1, OBJ2, die in jedem der Einzelbilder 510 bis 540 erkannt werden. Wie in 4 veranschaulicht, sind Inhalte der Objekte OBJ1, OBJ2 in Einzelbild 410 nicht vorhanden, in Einzelbild 420 nur teilweise vorhanden und in den Einzelbildern 430 und 440 in unterschiedlichen Größen vorhanden.As related to 1 discussed can be an object tracker 130 Detect different objects from the content of a video with a narrow field of view. The example of 5 illustrates a pair of objects OBJ1, OBJ2 that are in each of the frames 510 to 540 be recognized. As in 4th illustrated are the contents of the objects OBJ1, OBJ2 in single image 410 not available, in single image 420 only partially available and in the individual images 430 and 440 available in different sizes.

Wie ebenfalls im Zusammenhang mit 1 erörtert, kann ein Compositor 140 basierend auf dem oder den Typen und der oder den Positionen von Objekten, die im breiten Sichtfeld erkannt werden, ein neues Video aus einem Video mit breitem Sichtfeld ableiten. In dem Beispiel von 5 kann ein Compositor 140 Schnittfenster CW definieren, die die Objekte OBJ1, OBJ2 umgeben, die in den Einzelbildern 510 bis 540 erkannt werden. Der Compositor 140 kann die Videosequenz mit breitem Sichtfeld entsprechend dem Schnittfenster zuschneiden, das für diese Einzelbilder 510 bis 540 definiert ist, und daraus neue Einzelbilder 610 bis 640 (6) erzeugen. Im Vergleich zu den von einer Kamera mit schmalem Sichtfeld 110 erzeugten Einzelbildern 410 bis 440 behalten somit die von einem Compositor 140 erzeugten Einzelbilder 610 bis 640 ein erkanntes Objekt oder erkannte Objekte innerhalb des Videoinhalts bei. Es wird erwartet, dass solche Vorgänge Videos mit höherer wahrgenommener Qualität erzeugen, ungeachtet der Schwierigkeiten beim Einrahmen sich schnell bewegender Inhalte, da Objekte in Videoinhalt beibehalten werden.As also in connection with 1 discussed, a compositor 140 derive a new video from a wide field of view video based on the type or types and the position or positions of objects detected in the wide field of view. In the example of 5 can a compositor 140 Define the cutting window CW that surround the objects OBJ1, OBJ2 in the individual images 510 to 540 be recognized. The compositor 140 can trim the video sequence with a wide field of view according to the cutting window that is used for these individual images 510 to 540 is defined, and from this new individual images 610 to 640 ( 6th ) produce. Compared to that of a camera with a narrow field of view 110 generated single images 410 to 440 thus retain those from a compositor 140 generated single images 610 to 640 a detected object or objects within the video content. Such operations are expected to produce higher perceived quality video regardless of the difficulty of framing fast moving content because objects are preserved in video content.

Ein Compositor 140 (1) kann verschiedene Videozusammensetzungstechniken ausführen. Zunächst kann, wie in 5, Einzelbilder 510 bis 530, veranschaulicht, ein Compositor 140 ein Schnittfenster CW definieren, das ein in dem Video mit breitem Sichtfeld erkanntes oder erkannte Objekte umgibt. In einer einfachen Anwendung kann das Schnittfenster CW eine feste Größe und eine Position haben, die über die Einzelbilder 510 bis 530 der Videosequenz mit breitem Sichtfeld entsprechend einer Position des oder der im Video erkannten Objekte variiert.A compositor 140 ( 1 ) can perform various video composition techniques. First, as in 5 , Single images 510 to 530 , illustrates, a compositor 140 define a timeline CW surrounding an object detected or recognized in the wide field of view video. In a simple application, the timeline CW can have a fixed size and a position that extends over the individual images 510 to 530 of the video sequence with a wide field of view varies according to a position of the object or objects detected in the video.

Gemäß einem anderen Gesichtspunkt kann ein Compositor 140 Zuschnitt- und Digitalzoom-Vorgänge mischen, wie in Einzelbild 510 bis 540 veranschaulicht. In dem Beispiel von 5 sind die Schnittfenster CW so veranschaulicht, dass sie in den Einzelbildern 510 bis 530 eine gemeinsame Größe und in Einzelbild 540 eine größere Größe haben. In diesem Beispiel sind die Objekte OBJ1, OBJ2 in Einzelbild 540 größer dargestellt als in den Einzelbildern 510 bis 530. So kann ein Compositor 140 auf sich ändernde Größen von Objekten im Video reagieren, indem er die Größe eines Schnittfensters CW entsprechend anpasst und das zugeschnittene Video dann auf eine gemeinsame Größe skaliert. In dem Beispiel von 6 sieht man das Einzelbild 640 auf eine Größe skaliert, die einer Größe der Einzelbilder 610 bis 630 entspricht, obwohl Einzelbild 640 von einem größeren Schnittfenster CW abgeleitet ist, das auf Einzelbild 540 angewendet wurde, als die Schnittfenster, die auf die Einzelbilder 510 bis 530 angewendet wurden.In another aspect, a compositor 140 Mix cropping and digital zoom operations as in single image 510 to 540 illustrated. In the example of 5 the timeline windows CW are illustrated so that they are in the individual images 510 to 530 a common size and in single image 540 have a larger size. In this example the objects OBJ1, OBJ2 are in single image 540 shown larger than in the individual images 510 to 530 . This is how a compositor 140 react to changing sizes of objects in the video by adjusting the size of a timeline CW accordingly and then scaling the trimmed video to a common size. In the example of 6th you can see the single image 640 scaled to a size that corresponds to the size of the individual images 610 to 630 corresponds, although single image 640 is derived from a larger cut window CW that is based on single image 540 was applied as the timeline on the frames 510 to 530 were applied.

Die Prinzipien der vorliegenden Offenbarung berücksichtigen eine Vielzahl von Anwendungsfällen zum Definieren von Schnittfenstern. Gemäß einem ersten Gesichtspunkt kann ein Compositor 140 einen aggregierten Bereich innerhalb von Videoinhalt bestimmen, der von erkannten Objekten belegt ist, und ein Schnittfenster definieren, das diesen Bereich umgibt. Nachdem ein Schnittfenster für jedes Einzelbild einer Videosequenz definiert wurde, kann der Compositor 140 einen Glättungsvorgang auf die Schnittfenster anwenden, um Unterschiede zwischen Einzelbildern zu verringern, die zwischen den Schnittfenstern der verschiedenen Einzelbilder bestehen können.The principles of the present disclosure contemplate a variety of uses for defining cut windows. According to a first aspect, a compositor 140 determine an aggregated area within video content that is occupied by detected objects and define a timeline surrounding that area. After a timeline has been defined for each frame in a video sequence, the compositor can 140 apply a smoothing process to the timelines to reduce the differences between frames that may exist between the timelines of the various frames.

Gemäß einem anderen Gesichtspunkt kann das System 100 einen Objekt-Selektor 140 einschließen, der ein Objekt als primäres Objekt zu Zwecken des Zuschneidens wählt. Es kann vorkommen, dass sich innerhalb einer Videosequenz verschiedene Objekte zu verschiedenen Positionen bewegen, wodurch es schwierig wird, ein einheitliches Schnittfenster zu definieren, das all diese Objekte einschließt. Ein Objekt-Selektor 140 kann eines der erkannten Objekte als primäres Objekt bestimmen, das der Compositor 140 zum Definieren von Schnittfenstern verwenden kann. Auf diese Weise kann der Compositor 140 ein Schnittfenster definieren, das das primäre Objekt (und optional andere sekundäre Objekte, die sich in der Nähe des primären Objekts innerhalb des Bildinhalts befinden können) umgibt.In another aspect, the system can 100 an object selector 140 that chooses an object as the primary object for cropping purposes. It can happen that different objects move to different positions within a video sequence, making it difficult to define a single timeline that includes all of these objects. An object selector 140 can designate one of the recognized objects as the primary object that the compositor 140 to define timeline windows. In this way the compositor 140 define a timeline that surrounds the primary object (and optionally other secondary objects that may be near the primary object within the image content).

Primäre Objekte können auf unterschiedliche Weise definiert werden. Zunächst kann ein Objekt, das in einem Bereich des Videoinhalts mit breitem Sichtfeld erscheint, der das Sichtfeld der Kamera mit schmalem Sichtfeld überlappt, als primäres Objekt gewählt werden. Alternativ kann ein Objekt, das eine größte Gesamtgröße innerhalb des Videoinhalts mit breitem Sichtfeld hat, als primäres Objekt gewählt werden. Gemäß noch einem weiteren Gesichtspunkt kann ein System 100 einem Benutzer Indikatoren anzeigen, die erkannte Objekte in dem Bildinhalt (üblicherweise dem Videoinhalt mit schmalem Sichtfeld) identifizieren, und eine Benutzerauswahl eines primären Objekts akzeptieren.Primary objects can be defined in different ways. First, an object that appears in an area of the wide field of view video content that overlaps the field of view of the narrow field of view camera can be selected as the primary object. Alternatively, an object that has a largest overall size within the wide field of view video content can be chosen as the primary object. In yet another aspect, a system 100 display to a user indicators that identify detected objects in image content (typically narrow field of view video content) and accept user selection of a primary object.

Gemäß einem Gesichtspunkt können Schnittfenster so definiert werden, dass sie einen größeren Bereich von Videoinhalt umschließen als durch erkannte Objekte belegt. Viele Objekt-Tracker sind darauf trainiert, Inhalte zu erkennen, die bei Betrachtung durch menschliche Beobachter einen Teil eines Objekts von Interesse darstellen. Zum Beispiel kann ein Objekt-Tracker, der darauf trainiert ist, menschliche Körper zu erkennen, Positionsdaten ohne Hände und Füße erzeugen, die menschliche Beobachter als Teil des menschlichen Körpers betrachten würden. In ähnlicher Weise können Detektoren für menschliche Gesichter und Tiere Positionsdaten erzeugen, die einen bestimmten Teil oder Teile des Inhalts weglassen, die menschliche Beobachter mit diesen Objekten assoziieren würden. Gemäß einem Gesichtspunkt können Schnittfenster so definiert werden, dass sie größer als die vom Objekt-Tracker 135 identifizierten Positionen sind, was dazu führen kann, dass ein zusätzlicher Teil oder zusätzliche Teile des Objekts in Videodaten eingeschlossen sind, wenn sie vom Compositor 140 erzeugt werden.In one aspect, timelines can be defined to enclose a larger area of video content than is occupied by detected objects. Many object trackers are trained to recognize content that, when viewed by human observers, represents part of an object of interest. For example, an object tracker trained to recognize human bodies can generate position data without hands and feet that human observers would consider part of the human body. Similarly, human face and animal detectors can generate positional data that omits some or all of the content that human observers would associate with those objects. In one aspect, timelines can be defined to be larger than the object tracker's 135 identified positions, which may result in an additional part or parts of the object being included in video data when processed by the compositor 140 be generated.

In ähnlicher Weise kann ein Compositor 140 Einzelbild-zu-Einzelbild-Bewegung von in Videoinhalt enthaltenem Inhalt schätzen. Schnittfenster können so definiert werden, dass sie Inhaltselemente einschließen, die nicht als zu einem Objekt gehörig erkannt werden, sich jedoch in der Nähe von einem Objekt oder Objekten befinden und eine Bewegung aufweisen, die mit der Objektbewegung korreliert. In dieser Hinsicht können Schnittfenster definiert werden, die Inhaltselemente einschließen, mit denen erkannte Objekte interagieren (wie Inhaltselemente, die von erkannten Objekten gehalten werden, Inhaltselemente, die von erkannten Objekten gezogen oder verschoben werden, und dergleichen).Similarly, a compositor 140 Estimate frame-to-frame movement of content contained in video content. Timeline windows can be defined to include content items that are not recognized as belonging to an object, but are in proximity to an object or objects and have movement that correlates with object movement. In this regard, timelines can be defined that include content items with which recognized objects interact (such as content items held by recognized objects, content items dragged or moved by recognized objects, and the like).

Und wie oben erörtert, kann der Compositor 140 Videostabilisierung unter Verwendung von Bewegungsdaten durchführen, die von einem Bewegungssensor 155 bereitgestellt werden (1).And as discussed above, the compositor can 140 Perform video stabilization using motion data received from a motion sensor 155 to be provided ( 1 ).

Gemäß einem anderen Gesichtspunkt kann ein Compositor 140 eine perspektivische Korrektur an Videodaten durchführen, um Bildverzerrungen zu korrigieren, die aufgrund des Abstands des oder der Motive zu den Kameras auftreten können. Bei solchen Vorgängen kann ein Objekt-Tracker 130 Abstände des oder der Objekte zu einer Kamera auf Basis erkannter Objektgrößen schätzen. Ein Compositor 140 kann Inhaltskorrekturen einführen, indem er die Größe von Bildinhalt auf Basis der geschätzten Abstände des Inhalts ändert. Darüber hinaus kann ein Compositor 140 Abstände von Nicht-Objektinhalt (z. B. Hintergrundelementen, architektonischen Elementen von Videoinhalt) schätzen und Korrekturen von Videoeinzelbildern aus diesen Schätzungen ableiten.In another aspect, a compositor 140 perform a perspective correction on video data in order to correct image distortions that may occur due to the distance of the subject or subjects to the cameras. An object tracker can be used during such operations 130 Estimate the distance of the object or objects to a camera on the basis of recognized object sizes. A compositor 140 can introduce content corrections by resizing image content based on the estimated spacing of the content. In addition, a compositor 140 Estimate distances from non-object content (e.g. background elements, architectural elements of video content) and derive corrections to video frames from these estimates.

Gemäß einem anderen Gesichtspunkt kann ein Compositor 140 Horizontkorrekturen an Videodaten durchführen, indem er Videoinhalt auf Neigungen korrigiert, die im Inhalt durch Schrägstellung der Vorrichtung während der Videoerfassung auftreten können.In another aspect, a compositor 140 Perform horizon corrections on video data by correcting video content for tilts that may occur in the content from tilting the device during video capture.

Es wird erwartet, dass die oben genannten Gesichtspunkte in einem Medienüberprüfungs-/- bearbeitungsdienst für Bild-/Videoerfassungssysteme Anwendung finden werden, die anfällig für menschliche Fehler sind. Bediener haben häufig Schwierigkeiten mit dem Einrahmen von Bildern und Videos während Erfassungsvorgängen, insbesondere beim Erfassen von Daten hochdynamischer Motive. In vielen Verbraucheranwendungen versuchen Bediener, Inhalt auf Basis von Inhalt einer Kamera mit schmalem Sichtfeld einzurahmen. Es kann vorkommen, dass gewünschter Inhalt eines Motivs von einem System über eine andere Kamera erfasst wurde, doch der Erfassungsvorgang dem Bediener während des Erfassungsereignisses selbst nicht bewusst gemacht wird. Durch Bereitstellen der oben beschriebenen Techniken kann ein System neue Medienelemente (Bilder und/oder Video) erzeugen, die erkannte Objekte darstellen, und die neuen Medienelemente einem Bediener während eines Überprüfungsvorgangs vorschlagen. Wenn ein Bediener das neue Medienelement genehmigt, kann das System 100, 300 entweder das neue Medienelement als dauerhaftes Medienelement in einem Speicherort für „Fotos“ oder „Videos“ speichern oder ein entsprechendes von einem der Erfassungssysteme erzeugtes Element durch das neue Medienelement ersetzen. In dieser Hinsicht wird erwartet, dass der Betrieb des Systems 100, 300 für hochwertigere Medienelemente für Bediener sorgt, ungeachtet deren eigener Schwierigkeiten während Erfassungsvorgängen.It is expected that the above considerations will find application in a media review / editing service for image / video capture systems that are prone to human error. Operators often have difficulty framing images and videos during capture operations, especially when capturing data from highly dynamic subjects. In many consumer applications, operators attempt to frame content based on content from a camera with a narrow field of view. It can happen that the desired content of a subject has been captured by one system via another camera, but the capturing process is not made aware of the capturing process itself during the capturing event. By providing the techniques described above, a system can generate new media elements (images and / or video) representing recognized objects and suggest the new media elements to an operator during a review process. When an operator approves the new media item, the system can 100 , 300 either save the new media element as a permanent media element in a storage location for "photos" or "videos" or replace a corresponding element generated by one of the capture systems with the new media element. In this regard, it is expected that the system will operate 100 , 300 provides higher quality media items for operators regardless of their own difficulties during capture operations.

Bei den vorstehenden Ausführungsformen wurden die Prinzipien der vorliegenden Offenbarung so beschrieben, dass sie in Systemen arbeiten, die Bilderfassung, Objektverfolgung und Zusammensetzung durchführen. Solche Systeme können durch Verarbeitungsvorrichtungen wie Computerserver, Personal Computer, Notebooks, Tablet-Computer, Smartphones, Mediaplayer und dergleichen verkörpert sein. Solche Vorgänge können in einem einzelnen eigenständigen Computersystem genutzt werden oder Verarbeitungsfunktionen aufweisen, die auf mehrere vernetzte Vorrichtungen verteilt sind. Obwohl Implementierungen variieren, können solche Systeme einen Prozessor oder Prozessoren 710 und ein Speichersystem 720 (7) umfassen. Das Speichersystem 720 kann Programmanweisungen speichern, die ein Betriebssystem 722 des Systems und Anwendungsprogramme 724 darstellen. Die Programmanweisungen können von der oder den Verarbeitungsvorrichtungen 720 ausgeführt werden. Das Speichersystem kann auch Speicher 145 (1), 345 (3) für die in den vorstehenden Figuren erörterten Medienelemente darstellen.In the preceding embodiments, the principles of the present disclosure have been described as operating in systems that perform image capture, object tracking, and composition. Such systems can be embodied by processing devices such as computer servers, personal computers, notebooks, tablet computers, smartphones, media players, and the like. Such operations can be used in a single stand-alone computer system or have processing functions that are distributed across multiple networked devices. Although implementations vary, such systems can include a processor or processors 710 and a storage system 720 ( 7th ) include. The storage system 720 can store program instructions that an operating system 722 of the system and application programs 724 represent. The program instructions can be issued by the processing device or devices 720 are executed. The storage system can also have memory 145 ( 1 ), 345 ( 3 ) for the media elements discussed in the previous figures.

Die hier beschriebenen Videostabilisierungsverfahren finden in vielen verschiedenen Anwendungsfällen Anwendung. Solche Techniken können auf Videoerfassungssysteme mit Einzelkamera angewandt werden und Stabilisierungsvorgänge für einen einzelnen Videostream durchführen. Solche Techniken können in Videoerfassungssystemen eingesetzt werden, die keine unabhängige Objekterkennung durchführen oder Compositoren verwenden. Solche Techniken finden zum Beispiel in üblichen Vorrichtungen der Unterhaltungselektronik wie Smartphones, Tablet-Computern und Digitalkameras Anwendung.The video stabilization methods described here find use in many different applications. Such techniques can be applied to single camera video capture systems and perform stabilization operations on a single video stream. Such techniques can be used in video capture systems that do not perform independent object detection or use compositors. Such techniques are used, for example, in common consumer electronics devices such as smartphones, tablet computers and digital cameras.

Verschiedene Ausführungsformen der Offenbarung sind hier spezifisch veranschaulicht und/oder beschrieben. Es versteht sich jedoch, dass Modifikationen und Variationen der Offenbarung von den vorstehenden Lehren abgedeckt sind und innerhalb des Bereichs der beigefügten Ansprüche liegen, ohne vom Wesen und beabsichtigten Umfang der Offenbarung abzuweichen.Various embodiments of the disclosure are specifically illustrated and / or described herein. It should be understood, however, that modifications and variations of the disclosure are covered by the preceding teachings and come within the scope of the appended claims without departing from the spirit and intended scope of the disclosure.

Es versteht sich, dass die Verwendung persönlich identifizierbarer Informationen Datenschutzvorschriften und Praktiken folgen sollte, von denen allgemein anerkannt wird, dass sie branchenspezifische oder staatliche Auflagen zum Schutz der Privatsphäre von Benutzern erfüllen oder überschreiten. Insbesondere sollten persönlich identifizierbare Informationsdaten so verwaltet und gehandhabt werden, dass Risiken eines unbeabsichtigten oder unautorisierten Zugangs oder einer unbeabsichtigten oder unautorisierten Benutzung minimiert werden, und die Art einer autorisierten Verwendung sollte den Benutzern klar angezeigt werden.It is understood that the use of personally identifiable information should follow data protection laws and practices that are generally accepted to meet or exceed industry or government requirements designed to protect the privacy of users. In particular, personally identifiable information data should be managed and handled in such a way as to minimize the risk of accidental or unauthorized access or use, and the nature of authorized use should be clearly indicated to users.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent literature cited

US 16653704 [0001]
US 62855874 [0001]

Claims

A system comprising: a first camera characterized by a first field of view, a second camera characterized by a second field of view that is wider than the first field of view, an object tracker having an input coupled to an output of the second camera; a compositor with an input for content captured by the second camera and an input for data output by the object tracker that represent a position or positions of one or more objects that were recognized by the object tracker based on the output of the second camera, and with a second output for content of the second camera, which is processed at a position of at least one recognized object.

System according to Claim 1 wherein the compositor output is a cropped representation of content output by the second camera.

System according to Claim 2 , wherein the cropped representation takes place through a cutting window with a position that tracks a position of the recognized object.

System according to one of the Claims 1 to 3 wherein the recognized object is an object selected from a central area of the content output by the second camera.

System according to one of the Claims 1 to 3 , wherein the recognized object is a largest object of the content output by the second camera.

System according to one of the Claims 1 to 3 , the detected object being an object selected by the operator.

System according to Claim 1 wherein the compositor output is a cropped and zoomed representation of content output by the second camera.

System according to Claim 1 , further comprising a motion sensor, wherein the compositor output is a motion-stabilized representation of content output by the second camera.

System according to Claim 1 , wherein the compositor output is a perspective corrected representation of content output by the second camera.

System according to Claim 1 wherein the compositor output is a horizon corrected representation of content output by the second camera.

System according to one of the Claims 1 to 10 , further comprising a storage system for storing the output from the compositor as a media item.

System according to Claim 11 wherein the storage system stores output from the second camera as a media item different from the media item output by the compositor.

System according to Claim 11 or 12th wherein the storage system stores output from the first camera as a media element different from the media element output by the compositor.

System according to one of the Claims 11 to 13 , where the media element is a video.

System according to one of the Claims 11 to 13 , wherein the media element is a still image.

System according to one of the Claims 1 to 15th , further comprising a display for displaying content captured by at least one of the first and second cameras during a capture process.

Method comprising: Capturing content with a pair of cameras, with a first camera having a wider field of view than a second camera, Capturing an object or objects from captured content by the camera with a wider field of view, Processing the captured content from the camera with a wider field of view at a position of at least one detected object.

Procedure according to Claim 17 wherein the processing comprises at least one of the following: cropping the captured content of the camera with a wider field of view; - Zooming the captured content of the camera with a wider field of view; Performing motion stabilization of content output by the wider field of view camera based on motion data from a motion sensor; Correcting a perspective of content output by the wider field of view camera; and - correcting a horizon of content output by the wider field of view camera.

Procedure according to Claim 17 or 18th wherein the detected object is one of the following: an object selected from a central area of the content output by the wider field of view camera; - a largest object of the content output from the wider field of view camera; and - an object selected by the operator.

Method according to one of the Claims 17 to 19th , further comprising storing the processed content as a media element, in particular a video or a still image.

Procedure according to Claim 20 further comprising storing the output of at least one of the wider field of view cameras and the second camera as a media item different from the media item represented by the processed content.

Method according to one of the Claims 17 to 21st , further comprising displaying at least one of the content captured by the wider field of view camera and the second camera during a capture operation.

Computer-readable medium that stores program instructions which, when executed by a processing device, enable the device to carry out a method according to one of the Claims 17 to 22nd cause.