DE102020132977A1

DE102020132977A1 - METHOD AND APPARATUS FOR COMBINING IMAGES

Info

Publication number: DE102020132977A1
Application number: DE102020132977.6A
Authority: DE
Inventors: Foti Coleca
Original assignee: Gestigon GmbH
Current assignee: Gestigon GmbH
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-06-15
Also published as: WO2022122636A1

Abstract

Die Erfindung bezieht sich auf ein Verfahren zum Kombinieren von Bildern, wobei das Verfahren die folgenden Schritte aufweist:a) Aufnehmen von mehr als einem Bild mit einer Kamera (190), wobei jedes Bild wenigstens einen Ausschnitt einer Frontansicht einschließlich des Gesichts (205, 215) von einer oder von mehreren Personen (200, 210) darstellt;b) ein Verfahren zur Bildanalyse, aufweisend:(i) Anwenden eines Algorithmus zum Segmentieren von Bildern (130), um wenigstens zwei Bildabschnitte zu segmentieren, die jeweils ein entsprechendes Gesicht (205, 215) oder eine Frontansicht einschließlich des Gesichts (205, 215) der aufgenommenen Personen (200, 210) darstellen;(ii) Anwenden eines Algorithmus zum Detektieren von Gesichtern (140), um das Gesicht (205, 215) jeder Person (200, 210) in den segmentierten Bildern oder in den aufgenommenen Bildern zu erkennen und um entsprechende Gesichtserkennungsdaten bereitzustellen;(iii) Anwenden eines Algorithmus zum Erkennen von Gesichtsemotionen (150), auf der Grundlage der Gesichtserkennungsdaten, um eine entsprechende Emotion zu erkennen, die von jedem der detektierten Gesichter (205, 215) ausgedrückt wird, und um entsprechende Gesichtsemotionsdaten bereitzustellen;(iv) Auswerten der Gesichtsemotionsdaten, um für jede erkannte Gesichtsemotion zu ermitteln, ob sie ein vordefiniertes Auswahlkriterium erfüllt;c) Auswählen derjenigen segmentierten Bilder, deren entsprechende Gesichtsemotionsdaten das vordefinierte Auswahlkriterium erfüllen; undd) Zusammensetzen eines kombinierten Bildes, das die ausgewählten segmentierten Bilder aufweist.The invention relates to a method for combining images, the method having the following steps: a) recording more than one image with a camera (190), each image containing at least one section of a front view including the face (205, 215 ) of one or more persons (200, 210); b) a method for image analysis, comprising: (i) applying an algorithm for segmenting images (130) to segment at least two image sections each having a respective face ( 205, 215) or display a front view including the face (205, 215) of the recorded persons (200, 210); (ii) applying a face detection algorithm (140) to detect the face (205, 215) of each person ( 200, 210) in the segmented images or in the captured images and to provide corresponding face recognition data;(iii) applying a facial emotion recognition algorithm (150 ), based on the face recognition data, to recognize a corresponding emotion expressed by each of the detected faces (205, 215) and to provide corresponding facial emotion data; (iv) evaluating the facial emotion data to determine for each recognized facial emotion, whether it satisfies a predefined selection criterion;c) selecting those segmented images whose corresponding facial emotion data meet the predefined selection criterion; andd) composing a combined image comprising the selected segmented images.

Description

Die vorliegende Erfindung bezieht sich auf das Gebiet der Bildverarbeitung. Insbesondere bezieht sich die vorliegende Erfindung auf ein Verfahren und eine Vorrichtung zum Kombinieren von Bildern.The present invention relates to the field of image processing. In particular, the present invention relates to a method and apparatus for combining images.

Des Weiteren bezieht sich die Erfindung auf ein Computerprogramm und ein Bildverarbeitungsgerät.Furthermore, the invention relates to a computer program and an image processing device.

Auf dem Gebiet der Bildverarbeitung besteht häufig die Notwendigkeit, ein oder mehrere Objekte zu erfassen, zwischen verschiedenen Objekten zu unterscheiden oder zwischen verschiedenen Konfigurationen eines Objekts auf der Grundlage von Bilddaten zu unterscheiden, die ein solches oder mehrere solche Objekte darstellen.In the field of image processing, there is often a need to detect one or more objects, to distinguish between different objects, or to distinguish between different configurations of an object based on image data representing such one or more such objects.

Aus dem Stand der Technik ist es bekannt, ein generisches Bild aus mehreren Bildern zusammenzusetzen, die zu verschiedenen Zeitschritten aufgenommen wurden, indem bestimmte Bereiche in den Bildern manuell ausgewählt werden und diese ausgewählten Bereiche kombiniert werden, um darauf basierend das generische Bild zusammenzusetzen. Es sind auch Segmentierungsalgorithmen, Algorithmen zur Gesichtserkennung und Algorithmen zur Emotionserkennung bekannt, die auf die Bilder angewendet werden können. Des Weiteren ist es bekannt, Gesichter in Gruppenporträts zu ersetzen. In diesem Fall muss ein Benutzer das zu ersetzende Gesicht manuell auswählen.It is known in the prior art to compose a generic image from multiple images taken at different time steps by manually selecting specific areas in the images and combining these selected areas to compose the generic image based thereon. There are also known segmentation algorithms, face recognition algorithms and emotion recognition algorithms that can be applied to the images. Furthermore, it is known to replace faces in group portraits. In this case, a user must manually select the face to be replaced.

Die bekannten Verfahren zum Zusammensetzen von Bildern setzen voraus, dass ein Benutzer Bildbereiche auswählt, die kombiniert oder ersetzt werden sollen.Known methods of compositing images require a user to select areas of the image to be combined or replaced.

Die vorliegende Erfindung macht es sich zur Aufgabe, ein Verfahren zum automatischen Erstellen eines Bildes einer Gruppe von Personen aus einer Anzahl von aufgenommenen Bildern bereitzustellen.The object of the present invention is to provide a method for automatically creating an image of a group of people from a number of recorded images.

Eine Lösung für dieses Problem wird durch die Lehre der unabhängigen Ansprüche bereitgestellt. Verschiedene bevorzugte Ausführungsformen der vorliegenden Erfindung werden durch die Lehre der abhängigen Ansprüche bereitgestellt.A solution to this problem is provided by the teaching of the independent claims. Various preferred embodiments of the present invention are provided by the teachings of the dependent claims.

Ein erster Aspekt der Erfindung richtet sich auf ein Verfahren, insbesondere ein computerimplementiertes Verfahren, zum Kombinieren von Bildern. Das Verfahren weist auf:

- Aufnehmen von mehr als einem Bild mit einer Kamera, wobei jedes Bild wenigstens einen Ausschnitt einer Frontansicht einschließlich des Gesichts von einer oder von mehreren Personen darstellt;
- ein Verfahren zur Bildanalyse, aufweisend:
- o Anwenden eines Algorithmus zum Segmentieren von Bildern, um wenigstens zwei Bildabschnitte zu segmentieren, die jeweils ein entsprechendes Gesicht oder eine Frontansicht einschließlich des Gesichts der aufgenommenen Personen darstellen;
- o Anwenden eines Algorithmus zum Detektieren von Gesichtern, um das Gesicht jeder Person in den segmentierten Bildern oder in den aufgenommenen Bildern zu erkennen und um entsprechende Gesichtserkennungsdaten bereitzustellen;
- o Anwenden eines Algorithmus zum Erkennen von Gesichtsemotionen, auf der Grundlage der Gesichtserkennungsdaten, um eine entsprechende Emotion zu erkennen, die von jedem der detektierten Gesichter ausgedrückt wird, und um entsprechende Gesichtsemotionsdaten bereitzustellen;
- o Auswerten der Gesichtsemotionsdaten, um für jede erkannte Gesichtsemotion zu ermitteln, ob sie ein vordefiniertes Auswahlkriterium erfüllt;
- Auswählen derjenigen segmentierten Bilder, deren entsprechende Gesichtsemotionsdaten das vordefinierte Auswahlkriterium erfüllen; und
- Zusammensetzen eines kombinierten Bildes, das die ausgewählten segmentierten Bilder aufweist.

A first aspect of the invention relates to a method, in particular a computer-implemented method, for combining images. The procedure shows:

- taking more than one picture with a camera, each picture representing at least a portion of a front view including the face of one or more persons;
- a method for image analysis, comprising:
- o applying an image segmentation algorithm to segment at least two image portions each representing a corresponding face or front view including the face of the captured subjects;
- o Applying a face detection algorithm to detect the face of each person in the segmented images or in the captured images and to provide corresponding face detection data;
- o applying a facial emotion recognition algorithm, based on the face recognition data, to recognize a corresponding emotion expressed by each of the detected faces and to provide corresponding facial emotion data;
- o evaluating the facial emotion data to determine for each recognized facial emotion whether it meets a predefined selection criterion;
- selecting those segmented images whose corresponding facial emotion data meet the predefined selection criterion; and
- Composing a combined image comprising the selected segmented images.

Die Erfindung beschreibt ein Verfahren, das aus segmentierten Bildern ein zusammengesetztes Bild erstellt. Dabei wird ein visuell ansprechendes Bild von mehreren Personen, insbesondere von zwei Personen, erstellt. Des Weiteren wird ein Algorithmus zum Detektieren von Gesichtern auf die segmentierten Bilder oder die aufgenommenen Bilder angewendet. Der Algorithmus zum Detektieren von Gesichtern weist das Erkennen des Gesichts auf, das Gesichtskomponenten (zum Beispiel Augen und Nase) oder Orientierungsmerkmale aus dem Gesichtsbereich aufweisen kann. Des Weiteren kann er das Extrahieren von verschiedenen räumlichen und zeitabhängigen Merkmalen aus den Gesichtskomponenten beinhalten. Der Algorithmus zum Detektieren von Gesichtern liefert die Gesichtserkennungsdaten. Der Algorithmus zum Erkennen von Emotionen ermittelt den Gesichtsausdruck. Dieses Ermitteln kann auf der Grundlage der extrahierten Merkmale geschehen, indem diese mit Gesichtskategorien einer Datenbank verglichen werden, und die Gesichtsemotionsdaten bereitstellen. Bei der Datenbank kann es sich um eine öffentlich zugängliche Datenbank für Gesichtsemotionserkennung handeln, wie zum Beispiel Compound emotion (CE), Binghamton University 3D Facial Expression (BU-3DFE) oder The Extended Cohn-Kanade Dataset (CK+).The invention describes a method that creates a composite image from segmented images. A visually appealing image of a number of people, in particular of two people, is thereby created. Furthermore, an algorithm for detecting faces is applied to the segmented images or the captured images. The algorithm for detecting faces includes recognizing the face, which may include facial components (e.g., eyes and nose) or orienting features from the face area. Furthermore, it can involve the extraction of various spatial and time-dependent features from the facial components. The face detection algorithm provides the face detection data. The algorithm for detecting emotions determines the facial expression. This determination can be based on the extracted features, by comparing them to face categories in a database and providing face emotion data. The database may be a publicly available facial emotion recognition database, such as Compound emotion (CE), Binghamton University 3D Facial Expression (BU-3DFE) or The Extended Cohn-Kanade Dataset (CK+).

Nachdem die Gesichtsemotionsdaten der Emotion eines Gesichts eines segmentierten Bildes erkannt und kategorisiert wurden, kann auf der Grundlage des vordefinierten Auswahlkriteriums ausgewertet werden, ob es für ein neu zusammengesetztes Bild verwendet werden soll. Diese Auswertung beinhaltet, dass die Gesichtsemotionsdaten der kategorisierten Emotion mit dem vordefinierten Auswahlkriterium verglichen werden. Wenn das Kriterium erfüllt ist, wird das segmentierte Bild ausgewählt. Aus den ausgewählten Bildern wird ein zusammengesetztes Bild erstellt, d. h. zusammengefügt.After the facial emotion data of the emotion of a face of a segmented image has been recognized and categorized, it can be evaluated based on the predefined selection criterion whether it should be used for a newly composed image. This evaluation involves comparing the facial emotion data of the categorized emotion with the predefined selection criterion. If the criterion is met, the segmented image is selected. A composite image is created from the selected images; H. put together.

Dementsprechend liefert das Verfahren gemäß dem ersten Aspekt automatisch ein zusammengesetztes Bild von mehreren Personen auf der Grundlage von zuvor aufgenommenen einzelnen Bildern, wobei das zusammengesetzte Bild eine Komposition von ausgewählten einzelnen (separaten) Bildern oder Abschnitten davon aufweist. Das bereitgestellte Verfahren stellt sicher, dass in dem zusammengesetzten Bild jede der Personen eine Emotion oder einen Ausdruck zeigt, die/der dem vordefinierten Auswahlkriterium entspricht.Accordingly, the method according to the first aspect automatically provides a composite image of multiple persons based on previously captured individual images, the composite image comprising a composition of selected individual (separate) images or portions thereof. The provided method ensures that in the composite image each of the people shows an emotion or expression that corresponds to the predefined selection criterion.

Im Folgenden werden bestimmte bevorzugte Ausführungsformen des Verfahrens beschrieben, die beliebig miteinander oder mit anderen Aspekten der vorliegenden Erfindung kombiniert werden können, es sei denn, eine solche Kombination ist ausdrücklich ausgeschlossen oder technisch nicht möglich.In the following, certain preferred embodiments of the method are described, which can be combined with each other or with other aspects of the present invention in any way, unless such a combination is expressly excluded or not technically possible.

In manchen Ausführungsformen wird das Verfahren zur Bildanalyse mehrfach wiederholt, bis für jede der Personen, die in den aufgenommenen Bildern dargestellt sind, ein segmentiertes Bild ausgewählt wurde. Auf diese Weise wird sichergestellt, dass automatisch ein Bild zusammengesetzt wird, in dem alle Personen einen Ausdruck oder eine Emotion haben, die das vordefinierte Auswahlkriterium erfüllt.In some embodiments, the image analysis method is repeated multiple times until a segmented image has been selected for each of the people represented in the captured images. This ensures that an image is automatically assembled in which each person has an expression or emotion that meets the predefined selection criteria.

In manchen Ausführungsformen ist das vordefinierte Auswahlkriterium erfüllt und dementsprechend erfolgt eine Auswahl eines segmentierten Bildes, wenn sich die bereitgestellten Gesichtsemotionsdaten, die der erkannten Emotion desselben Gesichts entsprechen, für eine bestimmte Anzahl von aufeinanderfolgenden Bildern geändert haben. Falls eine der Personen, von der ein Bild aufgenommen wurde, ihre Emotion von einem Bild zum nächsten plötzlich ändert, könnte dies zum Beispiel ein Hinweis auf eine Emotion des Überraschens sein. Auf diese Weise kann ein vordefiniertes Selektionskriterium, das sich auf Emotionen des Überraschens bezieht, auf die aufgenommenen Bilder angewendet werden, und es können segmentierte Bilder ausgewählt werden, wenn ein neu zusammengesetztes Bild Personen darstellen soll, die Emotionen des Überraschens zeigen. Die bestimmte Anzahl kann eine beliebige Zahl sein, die größer als eins ist.In some embodiments, the predefined selection criterion is met and a segmented image is selected accordingly if the facial emotion data provided, which correspond to the detected emotion of the same face, have changed for a specific number of consecutive images. For example, if one of the subjects in a picture suddenly changes their emotion from one picture to the next, this could indicate an emotion of surprise. In this way, a predefined selection criterion related to surprise emotions can be applied to the captured images, and segmented images can be selected when a recomposed image is to represent people showing surprise emotions. The specific number can be any number greater than one.

Der Algorithmus zum Detektieren von Gesichtern kann Gesichtserkennungsdaten einer Liste von zuvor erkannten Gesichtern bereitstellen, die sich zum Beispiel in einer Datenbank befinden, und der Algorithmus zur Erkennung von Gesichtsemotionen kann wie oben beschrieben Gesichtsemotionsdaten einer Liste der erkannten Emotionen für jedes Gesicht und ihre jeweiligen Wahrscheinlichkeiten in Bezug auf die Gesichtskategorien der Datenbanken bereitstellen. Auf diese Weise können die aufgenommenen Personen von Bild zu Bild verfolgt werden und die Emotionswahrscheinlichkeiten können auch zeitlich nachverfolgt werden. Diese Informationen können dazu genutzt werden, um ein segmentiertes Bild in Abhängigkeit von einer bestimmten Änderung der Emotion auszuwählen, die zum Beispiel eine plötzliche Emotion sein kann, wie zum Beispiel das Lachen über einen Scherz. Eine andere Situation kann vorliegen, wenn eine Emotionswahrscheinlichkeit einen bestimmten Schwellenwert überschreitet und für einige Zeit anhält - zum Beispiel Fröhlichkeit oder Zufriedenheit. Des Weiteren kann es zwei oder mehr Emotionswahrscheinlichkeiten geben, die einen Schwellenwert überschreiten, oder wenn eine auf eine andere folgt - zum Beispiel Überraschung/Ekel gefolgt von Lachen.The face detection algorithm can provide facial recognition data from a list of previously recognized faces, for example in a database, and the facial emotion recognition algorithm can, as described above, provide facial emotion data from a list of the recognized emotions for each face and their respective probabilities in Provide reference to the face categories of the databases. In this way, the persons recorded can be tracked from image to image and the emotion probabilities can also be tracked over time. This information can be used to select a segmented image depending on a particular change in emotion, which can be, for example, a sudden emotion, such as laughing at a joke. Another situation may be when an emotion probability crosses a certain threshold and persists for some time - for example, happiness or contentment. Furthermore, there may be two or more emotion probabilities that exceed a threshold, or where one follows another - for example, surprise/disgust followed by laughter.

In manchen Ausführungsformen ist das vordefinierte Auswahlkriterium erfüllt, und dementsprechend findet eine Auswahl eines segmentierten Bildes statt, wenn sich die bereitgestellten Gesichtsemotionsdaten, die einem klassifizierten emotionalen Zustand entsprechen, auf einen positiven emotionalen Zustand beziehen. Auf diese Weise stellen alle Personen auf dem zusammengesetzten Bild einen positiven emotionalen Zustand dar, insbesondere einen zufriedenen Ausdruck, einen Ausdruck der Freude, insbesondere einen lächelnden oder lachenden Ausdruck oder einen Ausdruck der Fröhlichkeit.In some embodiments, the predefined selection criterion is met and accordingly a segmented image is selected if the provided facial emotion data corresponding to a classified emotional state relates to a positive emotional state. In this way, all of the people in the composite image present a positive emotional state, particularly a contented expression, an expression of joy, particularly a smiling or laughing expression, or an expression of happiness.

In manchen Ausführungsformen weist das vordefinierte Auswahlkriterium mehr als ein Teilkriterium auf, die alle erfüllt sein müssen, damit ein segmentiertes Bild ausgewählt wird. Insbesondere kann das Auswahlkriterium auf der Grundlage einer bestimmten Kombination von bestimmten erkannten Emotionen definiert werden, die als Teilkriterien dienen. Es kann auch die Informationen bezüglich der Emotionswahrscheinlichkeit geben, die im Verlauf der Zeit bestimmt werden, so dass für jede Person der Algorithmus, der diese Teilkriterien verfolgt, anders sein könnte. Dies kann auch dazu verwendet werden, um Verzerrungen aufgrund von Persönlichkeitstypen zu eliminieren. Zum Beispiel könnten extrovertierte Personen die meiste Zeit über Fröhlichkeit zeigen. Für sie würden also die Schwellenwerte höher sein, so dass nur dann ein Bild ausgewählt wird, wenn sie sehr überrascht oder fröhlich sind. Diese Bilder können auch separat für eine spätere Verwendung gespeichert werden. Es können zusätzliche Bilder gespeichert werden, zum Beispiel 10 Bilder vor und 10 Bilder nach einem Ereignis, um die Wahrscheinlichkeit zu maximieren, dass ein „lustiges“ oder ansprechendes Bild aufgenommen wurde. Dies sorgt für eine gezieltere Auswahl von segmentierten Bildern, und bei dem neu zusammengesetzten Bild sind die Ausdrücke der einzelnen Personen ähnlicher.In some embodiments, the predefined selection criterion has more than one sub-criterion, all of which must be met in order for a segmented image to be selected. In particular, the selection criterion can be defined based on a specific combination of specific recognized emotions serving as sub-criteria. There may also be the information regarding the emotion probability determined over time, so for each person the algorithm tracking these sub-criteria could be different. This can also be used to eliminate personality type bias. For example, extroverts might display happiness most of the time. So for them, the thresholds would be higher so that an image would only be selected if they were very surprised or happy. These images can also be saved separately for later use. Additional images can be saved, for example 10 images before and 10 images after an event, to maximize the likelihood that a 'funny' or appealing image was captured. This makes for a more targeted selection of segmented images, and the recomposed image will have more similar expressions from each person.

In manchen Ausführungsformen werden die Bilder von Personen, die in einem Auto sitzen, insbesondere von Personen, die auf den Vordersitzen des Autos sitzen, mit einer Weitwinkelkamera aufgenommen, um ein zusammengesetztes Bild zu erstellen. In diesem Fall kann die Kamera an der Instrumententafel montiert sein, die den Personen, die in diesem Fall der Fahrer und ein Beifahrer sind, zugewandt ist. Aufgrund der Weitwinkelbrennweite kann die Kamera beide Personen zur gleichen Zeit erfassen. Während sich der Fahrer und der Beifahrer in dem Auto befinden, werden ihre Gesichtsausdrücke mit der Kamera aufgezeichnet. Diese Gesichtsausdrücke können auf Grund eines Gesprächs zwischen ihnen, auf Grund eines Telefonats oder auch auf Grund eines Radioprogramms entstehen. Die Kamera kann in einem bestimmten Moment den Fahrer mit einer angenehmen Emotion, den Beifahrer aber mit einer ernsten Emotion aufnehmen. Zu einem späteren Zeitpunkt kann die Kamera den Beifahrer mit einer angenehmen Emotion, den Fahrer aber mit einer ernsten Emotion aufnehmen. Dies würde zu zwei Bildern führen, wobei in beiden Bildern der Fahrer und der Beifahrer mit unterschiedlichen Ausdrücken dargestellt werden. Das bereitgestellte Verfahren sorgt dafür, dass ein neu zusammengesetztes Bild zusammengefügt werden kann, in dem sowohl der Fahrer als auch der Beifahrer mit einer ähnlichen Emotion oder einem ähnlichen Ausdruck erscheinen.In some embodiments, images of people seated in a car, particularly people seated in the front seats of the car, are captured with a wide-angle camera to create a composite image. In this case, the camera may be mounted on the instrument panel facing the people, who in this case are the driver and a passenger. Due to the wide-angle focal length, the camera can capture both people at the same time. While the driver and passenger are in the car, their facial expressions are recorded on the camera. These facial expressions can result from a conversation between them, from a telephone call or from a radio program. At a certain moment, the camera can record the driver with a pleasant emotion, but the passenger with a serious emotion. At a later time, the camera can record the passenger with a pleasant emotion but the driver with a serious emotion. This would result in two images, in both images the driver and passenger are shown with different expressions. The method provided ensures that a recomposed image can be assembled in which both the driver and the passenger appear with a similar emotion or expression.

In manchen Ausführungsformen wird ein Hintergrundbild separat aufgenommen, das dann mit den Pixeln kombiniert wird, die die jeweiligen Personen in den entsprechenden ausgewählten Bildern darstellen. Dies ist kann in Situationen nützlich sein, in denen sich der Hintergrund zwischen den aufgenommenen Bildern ändert, zum Beispiel bei den Bildern von zwei Personen, die wie oben beschrieben in einem Auto sitzen und bei denen sich das Auto bewegt. In dieser Situation ändert sich der Hintergrund, der durch die Seitenfenster und die Heckscheibe zu sehen ist, mit der Zeit. Um einen homogenen Hintergrund in dem fertig zusammengesetzten Bild zu haben, kann es von Vorteil sein, wenn der Hintergrund separat aufgenommen wird, zum Beispiel bevor die beiden Insassen in das Auto einsteigen. Später wird dieses Bild dann nur mit den segmentierten Pixeln der Personen aus den beiden Bildern zusammengesetzt. Auf diese Weise kann auch der Übergangsbereich in dem Bild zwischen dem Bild der Personen und dem Bild des separaten Hintergrunds homogen sein, wenn die Bilder zusammengefügt werden.In some embodiments, a background image is captured separately, which is then combined with the pixels representing the respective people in the corresponding selected images. This can be useful in situations where the background changes between the captured images, for example the images of two people sitting in a car as described above and the car is moving. In this situation, the background seen through the side and rear windows will change over time. In order to have a homogeneous background in the finished composite image, it can be advantageous if the background is recorded separately, for example before the two occupants get into the car. Later, this image is then assembled from the two images using only the segmented pixels of the people. In this way, the transition area in the image between the image of the people and the image of the separate background can also be homogeneous when the images are stitched together.

Des Weiteren ist es möglich, die jeweiligen unterschiedlichen Hintergründe von zwei segmentierten Bildern, zum Beispiel Hintergründe, die sich auf die Umgebung des Fahrers bzw. des Beifahrers beziehen, , mit einer unscharfen Maske um die segmentierten Bilder herum zusammenzufügen, so dass keine Überblendungsartefakte entstehen. In diesem Fall wird kein separates Bild eines Hintergrunds benötigt.Furthermore, it is possible to combine the respective different backgrounds of two segmented images, for example backgrounds that relate to the surroundings of the driver or the passenger, with an unsharp mask around the segmented images, so that no overlay artifacts arise. In this case, a separate image of a background is not needed.

Es ist auch möglich, einen einzelnen Hintergrund aus einem der beiden segmentierten Bilder auszuwählen, zum Beispiel einen Hintergrund des Bildes, das den Fahrer zeigt, und/oder einen Hintergrund des Bildes, das einen Beifahrer zeigt, um den Haupthintergrund darzustellen. So kann zum Beispiel das Bild der beiden Bilder identifiziert werden, das mehr Hintergrundinformationen liefert, d. h. die meisten Pixel, die zu dem Hintergrund, aber nicht zum Hauptobjekt des Bildes, zum Beispiel den Personen, gehören. Es wäre ein anderes Kriterium, das Bild zu wählen, das die meisten Informationen in bestimmten vordefinierten Bereichen aufweist, zum Beispiel das Bild, bei dem die Fenster von keinem der beiden Insassen verdeckt werden.It is also possible to select a single background from one of the two segmented images, for example a background of the image showing the driver and/or a background of the image showing a passenger to represent the main background. For example, the image of the two images that provides more background information can be identified, i. H. most of the pixels that belong to the background but not to the main subject of the image, e.g. the people. Another criterion would be to choose the image that has the most information in certain predefined areas, for example the image where the windows are not obscured by either occupant.

Es kann ein weiteres Kriterium für die Auswahl eines Bildes, das für den Hintergrund verwendet wird, sein, das Bild zu wählen, in dem sich ein Insasse in dem Auto zwischen zwei aufgenommenen Bildern am meisten bewegt; Personen aus dem anderen Bild, die sich nicht bewegen, können in dieses Bild mit weniger Verlust an Informationen aufgenommen werden. Das segmentierte Bild des sich bewegenden Insassen wird dann in diesen Haupthintergrund integriert und etwaige fehlende Informationen werden mit Hilfe eines sogenannten „Smart Fill“-Algorithmus, der aus dem Stand der Technik bekannt ist, ausgefüllt, da die beiden Segmentierungskarten aus den beiden Bildern bekannt sind.Another criterion for selecting an image to be used for the background may be to select the image in which an occupant in the car moves the most between two captured images; People from the other image who are not moving can be included in this image with less loss of information. The segmented image of the moving occupant is then integrated into this main background and any missing information is filled in using a so-called "smart fill" algorithm known in the art, since the two segmentation maps are known from the two images .

Des Weiteren kann kontinuierlich ein Hintergrundbild aufgenommen werden, das sich mit den Lichtverhältnissen und während sich die Personen in dem Auto bewegen, ändert. Ein adaptives Verfahren zur Hintergrundsubtraktion kann dazu verwendet werden, um ein Hintergrundmodell zu erstellen und zeitlich zu aktualisieren - zum Beispiel, um fehlende Teile zu ergänzen, wenn sich die Personen bewegen, oder um sie zeitlich so zu überblenden, dass es keine harten Glanzlichter auf Objekten gibt. Der aktuelle Zustand der adaptiven Hintergründe wird jedes Mal gespeichert, wenn der Algorithmus eine angenehme Emotion erkennt, und kann als Ersatz für den Bildhintergrund auf eine der oben genannten Arten verwendet werden. Die Hintergründe können auch in regelmäßigen Abständen gespeichert und dem Benutzer als Option in einer manuellen Zusammenstell-Oberfläche vorgestellt werden.Furthermore, a background image can be recorded continuously, which changes with the lighting conditions and as the people in the car move. An adaptive background subtraction method can be used to create a background model and updated in time - for example, to fill in missing parts when the characters move, or to blend them in time so that there are no hard highlights on objects. The current state of adaptive backgrounds is saved each time the algorithm detects a pleasant emotion and can be used as a background replacement in any of the ways mentioned above. The backgrounds can also be saved periodically and presented to the user as an option in a manual composition interface.

Es können auch Kriterien definiert sein, nach denen ausgewählt wird, welche der oben genannten Prozesse verwendet werden sollen, zum Beispiel die Belichtungszeit, die in der Fotografie auch als Verschlusszeit bezeichnet wird, in der die Bilder aufgenommen werden. Für Bilder, die innerhalb einer kurzen Belichtungszeit aufgenommen werden, können die Verfahren verwendet werden, bei denen die segmentierten Bilder einschließlich des Hintergrunds zusammengefügt werden oder bei denen aus den beiden Bildern dasjenige ausgewählt wird, das mehr Informationen in Bezug auf den Hintergrund hat. Es wäre ein weiteres Verfahren, ein segmentiertes Bild aus einer Serie zu nehmen, in der sich die eine Person zwischen zwei Bildern am meisten bewegt. Dann kann die Person, die sich nicht bewegt, aus einem anderen segmentierten Bild mit weniger Verlust an Informationen in das Bild kopiert werden.Criteria can also be defined to select which of the above processes to use, for example the exposure time, also known as shutter speed in photography, at which the images are captured. For images captured within a short exposure time, the methods of merging the segmented images including the background or selecting the one from the two images that has more information related to the background can be used. Another method would be to take a segmented image from a series in which one person moves the most between two images. Then the person who is not moving can be copied into the image from another segmented image with less loss of information.

Bei Bildern, die mit einer langen Belichtungszeit oder während einer längeren Zeitspanne wie 10 Sekunden oder darüber hinaus aufgenommen werden, ist es bevorzugt, den Hintergrund separat aufzunehmen oder das segmentierte Bild zu verwenden, das in bestimmten vordefinierten Bereichen die meisten Informationen enthält. In der Situation, in der Bilder von Personen in einem Auto aufgenommen werden, beziehen sich die vordefinierten Bereiche auf Bereiche, in denen die Fenster nicht durch eine der Personen in dem Auto verdeckt werden.For images captured with a long exposure time or for a longer period of time such as 10 seconds or more, it is preferable to capture the background separately or to use the segmented image that contains the most information in certain predefined areas. In the situation where images of people in a car are taken, the predefined areas refer to areas where the windows are not obscured by any of the people in the car.

Für Bilder, die signifikante Unterschiede zwischen den jeweiligen Hintergründen aufweisen, kann das oben beschriebene Verfahren verwendet werden, bei dem das Hintergrundbild separat aufgenommen wird. Die Metrik „signifikante Unterschiede“ kann definiert werden als die Summe der Unterschiede zwischen den nicht auf Personen bezogenen Pixeln der beiden Bilder, die überblendet werden (d. h. Hintergrundpixel), die einen bestimmten Schwellenwert überschreitet. Des Weiteren kann das Verfahren verwendet werden, bei der die Hintergrundbilder kontinuierlich aufgezeichnet werden.For images that have significant differences between the respective backgrounds, the method described above, in which the background image is captured separately, can be used. The "significant differences" metric can be defined as the sum of the differences between the non-person related pixels of the two images being blended (i.e. background pixels) exceeding a certain threshold. Furthermore, the method in which the background images are continuously recorded can be used.

Es ist auch möglich, durch Anpassen der Einstellungen der Kamera, wie zum Beispiel der Blende, Bilder aufzunehmen, bei denen nur die Gesichter der aufgenommenen Personen scharf sind und der Hintergrund unscharf ist. Auf die gleiche Weise ist es möglich, ein Bild aufzunehmen, bei dem sowohl die Gesichter der Personen als auch der Hintergrund scharf sind.It is also possible to take pictures in which only the subjects' faces are in focus and the background is blurred by adjusting the camera's settings, such as the aperture. In the same way, it is possible to capture an image where both the subjects' faces and the background are sharp.

In manchen Ausführungsformen basieren der Algorithmus zur Gesichtserkennung und der Algorithmus zur Erkennung von Gesichtsemotionen auf einem Algorithmus für maschinelles Lernen. Auf diese Weise kann ein einziger Algorithmus die Gesichtserkennung und die Gesichtsemotionserkennung wie oben beschrieben übernehmen. Ein solcher Algorithmus für maschinelles Lernen kann ein sogenanntes „end-to-end“ faltendes neuronales Netzwerk (Convolutional Neural Network, CNN) sein. Es stehen noch weitere Technologien zur Verfügung, wie zum Beispiel das sogenannte Lange Kurzzeitgedächtnis (long short-term memory, LSTM), das für zeitabhängige Merkmale verwendet werden kann. Aus Gründen der Effizienz können die oben beschriebenen Analyseschritte zu einem Netzwerk zusammengefasst werden (ein sogenanntes Multi-Task-Netzwerk), wobei mehrere Ausgänge erzeugt werden. Dies wird dadurch bewerkstelligt, dass mehrere parallele Schichten (sog. Heads) an das Ende eines Netzwerks zum Extrahieren eines Hauptmerkmals angehängt werden. Das Multi-Task-Netz kann einen „Gesicht Bounding Box“-Head, einen „Emotionsanalyse“-Head und einen „Segmentierungs“-Head haben.In some embodiments, the face detection algorithm and the facial emotion detection algorithm are based on a machine learning algorithm. In this way, a single algorithm can handle face detection and facial emotion detection as described above. Such a machine learning algorithm can be a so-called end-to-end convolutional neural network (CNN). Other technologies are also available, such as what is known as long short-term memory (LSTM), which can be used for time-dependent features. For reasons of efficiency, the analysis steps described above can be combined into a network (a so-called multi-task network), whereby several outputs are generated. This is accomplished by appending multiple parallel layers (called heads) to the end of a network to extract a key feature. The multi-task web may have a "face bounding box" head, an "emotional analysis" head, and a "segmentation" head.

In manchen Ausführungsformen werden die aufgenommenen Bilder an einer grafischen Schnittstelle angezeigt, die so konfiguriert ist, dass sie von einem Benutzer bedient werden kann, so dass der Benutzer die einzelnen Bilder manuell auswählen kann, die zusammengesetzt werden sollen, um das zusammengesetzte Bild zu ergeben. Die grafische Schnittstelle kann an einem Computerbildschirm angezeigt werden, auf dem der Benutzer die Bilder sehen kann, aus denen er auswählen kann. Die Schnittstelle kann auch eine Funktion in der Weise enthalten, dass die Bilder auf einer Zeitachse dargestellt werden, so dass der Benutzer die Veränderung der Emotion oder des Ausdrucks der Gesichter zu verschiedenen Zeiten sehen kann. Eine weitere Option könnte darin bestehen, dass diese Darstellung der Bilder auf einer Zeitachse für jede Person, die auf dem Bild erscheint, individuell gestaltet ist, während die Bilder der Personen zur gleichen Zeit auf einem virtuell zusammengesetzten gemeinsamen Bild angezeigt werden. Es ist auch denkbar, dass alle Personen, die auf dem endgültigen Bild erscheinen sollen, angesehen werden können, dass aber die Bilder der einzelnen Personen selektiv ausgetauscht werden können. Dies ermöglicht es dem Benutzer, die für ihn passende oder ansprechende Zusammensetzung der Bilder von Personen zu finden. Die zeitliche Veränderung kann kontinuierlich erfolgen (d.h. die gesamte Aufnahme wird verwendet) oder diskret (d.h. es werden nur die interessantesten Bilder verwendet, auf der Grundlage eines Scoring-Algorithmus, der wichtige Bilder auf der Grundlage der Emotionen der Personen auswählt).In some embodiments, the captured images are displayed on a graphical interface that is configured to be operated by a user such that the user can manually select the individual images to be composited to yield the composite image. The graphical interface can be displayed on a computer screen where the user can see the images to choose from. The interface may also include a feature such that the images are presented on a timeline so that the user can see the change in emotion or expression of the faces at different times. Another option could be that this presentation of the images on a timeline is customized for each person appearing in the image, while the images of the people are displayed at the same time on a virtually composite common image. It is also conceivable that all persons who are to appear in the final image can be viewed, but that the images of each person can be selectively exchanged. This enables the user to find the composition of the images of people that suits him or her the. The change over time can be continuous (i.e. the entire recording is used) or discrete (i.e. only the most interesting images are used, based on a scoring algorithm that selects important images based on people's emotions).

In manchen Ausführungsformen sind zwei oder mehr der aufgenommenen Bilder Teil eines Videos, d. h. sie definieren jeweils ein Einzelbild eines solchen Videos. Das Verfahren kann so angewendet werden, dass jedes Bild einer Sequenz wie oben beschrieben ausgewertet wird. Ein vordefiniertes Kriterium wird dann auf die Sequenz als Ganzes angewendet. Zum Beispiel wird ein vordefiniertes Kriterium wie zum Beispiel Lachen als Kriterium auf alle einzelnen Bilder angewandt und wenn bei allen einzelnen Bildern die eine Person lacht, wäre das vordefinierte Kriterium für die gesamte Sequenz erfüllt.In some embodiments, two or more of the captured images are part of a video, i. H. they each define a single image of such a video. The method can be applied in such a way that each image in a sequence is evaluated as described above. A predefined criterion is then applied to the sequence as a whole. For example, a predefined criterion such as laughter is applied as a criterion to all individual images and if all individual images have one person laughing, the predefined criterion would be met for the entire sequence.

Ein zweiter Aspekt der Erfindung ist auf ein Computerprogramm gerichtet, das, wenn es auf einem Computer ausgeführt wird, den Computer dazu veranlasst, das Verfahren gemäß dem ersten Aspekt auszuführen.A second aspect of the invention is directed to a computer program which, when executed on a computer, causes the computer to carry out the method according to the first aspect.

Ein dritter Aspekt der Erfindung ist auf eine Bildverarbeitungsvorrichtung zum Kombinieren von Bildern von mehr als einer Person gerichtet, wobei die Bildverarbeitungsvorrichtung so konfiguriert ist, dass sie das Verfahren gemäß dem ersten Aspekt ausführt. Die Vorrichtung kann einen geeigneten Bildsensor, zum Beispiel einen Bildsensor, der in eine Digitalkamera integriert ist, für das Aufnehmen der Bilder aufweisen. Der Sensor kann mit einem Speicher und einer Verarbeitungseinheit verbunden sein, die in die Kamera integriert ist oder mit einem externen Computer verbunden ist. Die Verarbeitungseinheit kann einen Prozessor zum Verarbeiten von Bildern aufweisen. Die Verarbeitungseinheit ist dazu konfiguriert, den Prozess der Bildanalyse, die Auswahl der segmentierten Bilder, deren Gesichtsemotionsdaten der erkannten Emotionen das vordefinierte Kriterium erfüllen, und das Zusammensetzen eines zusammengesetzten Bildes auf der Grundlage von ausgewählten segmentierten Bildern gemäß dem Verfahren des ersten Aspekts durchzuführen. Die Vorrichtung kann eine grafische Schnittstelle aufweisen, die dazu konfiguriert ist, die aufgenommenen, die ausgewählten und/oder die zusammengesetzten Bilder anzuzeigen.A third aspect of the invention is directed to an image processing device for combining images of more than one person, the image processing device being configured to carry out the method according to the first aspect. The device can have a suitable image sensor, for example an image sensor that is integrated in a digital camera, for recording the images. The sensor can be connected to a memory and processing unit integrated in the camera or connected to an external computer. The processing unit can have a processor for processing images. The processing unit is configured to perform the process of image analysis, selection of the segmented images whose facial emotion data of the detected emotions meet the predefined criterion, and composing a composite image based on selected segmented images according to the method of the first aspect. The device may include a graphical interface configured to display the captured, selected, and/or composite images.

Die Erfindung kann als eine Unterhaltungslösung zum Beispiel im Automobilbereich eingesetzt werden.The invention can be used as an entertainment solution in the automotive field, for example.

Die verschiedenen Ausführungsformen und Vorteile, die oben im Zusammenhang mit dem ersten Aspekt der vorliegenden Erfindung beschrieben wurden, gelten in ähnlicher Weise auch für die anderen Aspekte der Erfindung. Weitere Vorteile, Merkmale und Anwendungen der vorliegenden Erfindung sind in der folgenden detaillierten Beschreibung und den beigefügten Figuren dargestellt, wobei:

1 zeigt schematisch ein Blockdiagramm einer beispielhaften Ausführungsform eines Verfahrens zum Kombinieren von Bildern.
2 zeigt schematisch einen beispielhaften Prozess zum Aufnehmen und Analysieren eines Bildes von zwei Personen.
3 zeigt schematisch einen beispielhaften Prozess des Zusammensetzens eines Bildes von zwei Personen.
4 zeigt schematisch eine grafische Schnittstelle.

The various embodiments and advantages described above in connection with the first aspect of the present invention apply similarly to the other aspects of the invention. Further advantages, features and applications of the present invention are presented in the following detailed description and the attached figures, in which:

1 FIG. 12 schematically shows a block diagram of an exemplary embodiment of a method for combining images.
2 FIG. 12 schematically shows an exemplary process for capturing and analyzing an image of two people.
3 FIG. 12 schematically shows an exemplary process of compositing an image of two people.
4 shows a graphical interface schematically.

In den Figuren werden gleiche Bezugszeichen für die gleichen oder für einander entsprechende Elemente der hier beschriebenen Erfindung verwendet.In the figures, the same reference numbers are used for the same or for corresponding elements of the invention described here.

DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSFORMENDETAILED DESCRIPTION OF EMBODIMENTS

1 zeigt schematisch ein Blockdiagramm 100 einer beispielhaften Ausführungsform eines Verfahrens zum Kombinieren von Bildern. Ein Fahrer 210 und ein Beifahrer 200 sitzen nebeneinander auf den Sitzen eines Autos, zum Beispiel auf den Vordersitzen. Eine Weitwinkelkamera 190 ist vor ihnen platziert und nimmt Bilder ihrer Vorderansicht, insbesondere ihrer Gesichter, auf. 1 FIG. 1 schematically shows a block diagram 100 of an exemplary embodiment of a method for combining images. A driver 210 and a passenger 200 sit side by side on the seats of a car, for example, the front seats. A wide-angle camera 190 is placed in front of them and captures images of their front view, particularly their faces.

Die Bilder werden dann von einem Prozessor zum Verarbeiten von Bildern 120 weiterverarbeitet. Der Prozessor zum Verarbeiten von Bildern 120 ist in einer elektronischen Steuereinheit (ECU) 110 enthalten. Die ECU 110 enthält außerdem einen Bildspeicher 160, in dem die verarbeiteten Daten temporär oder dauerhaft gespeichert werden können. In einem ersten Schritt führt der Prozessor zum Verarbeiten von Bildern 120 einen Segmentierungsalgorithmus 130 und einen Algorithmus zum Detektieren von Gesichtern 140 aus. Der Algorithmus zum Detektieren von Gesichtern 140 weist das Erkennen des Bildes des Gesichtsbildes und von Gesichtskomponenten (zum Beispiel Augen und Nase) oder Orientierungsmerkmalen aus dem Gesichtsbereich auf. Er weist ferner das Extrahieren von verschiedenen räumlichen und zeitabhängigen Merkmalen aus den Gesichtskomponenten auf. Der Algorithmus zum Erkennen von Emotionen 150 wird auf die extrahierten Informationen des Algorithmus zum Detektieren von Gesichtern 140 angewendet. Der Algorithmus zum Erkennen von Emotionen 150 ermittelt den Gesichtsausdruck auf der Grundlage der extrahierten Merkmale, indem er sie mit Gesichtskategorien von Datenbanken vergleicht, bei denen es sich um eine öffentlich zugängliche Datenbank für die Gesichtsemotionserkennung handeln kann, wie zum Beispiel Compound emotion (CE), Binghamton University 3D Facial Expression (BU-3DFE) oder The Extended Cohn-Kanade Dataset (CK+). Diese ermittelten klassifizierten Gesichtsemotionsdaten des Algorithmus zum Erkennen von Emotionen 150 werden dann in den Bildspeicher 160 übertragen.The images are then further processed by an image processing processor 120 . The processor for processing images 120 is contained in an electronic control unit (ECU) 110 . The ECU 110 also contains an image memory 160 in which the processed data can be stored temporarily or permanently. In a first step, the image processing processor 120 executes a segmentation algorithm 130 and a face detection algorithm 140 . The algorithm for detecting faces 140 includes recognizing the image of the face image and facial components (e.g., eyes and nose) or orienting features from the face area. It also includes extracting various spatial and time dependent features from the face components. The emotion detection algorithm 150 is applied to the extracted information of the face detection algorithm 140 . The emotion detection algorithm 150 determines the facial expression based on the extracted features by matching them with face categories databases, which may be a publicly available facial emotion recognition database, such as Compound emotion (CE), Binghamton University 3D Facial Expression (BU-3DFE), or The Extended Cohn-Kanade Dataset (CK+). This determined classified facial emotion data of the emotion recognition algorithm 150 is then transferred to the image memory 160 .

In einem weiteren Schritt wird ein Segmentierungsalgorithmus 130 durch den Prozessor zum Verarbeiten von Bildern 120 ausgeführt und auf die Bilder angewendet, die von der Weitwinkelkamera 190 aufgenommen wurden. Der Segmentierungsalgorithmus 130 teilt das aufgenommene Bild in zwei separate Bilder auf, wobei ein Bild den Fahrer 210 und das andere Bild den Beifahrer 200 darstellt. Diese beiden segmentierten Bilder werden dann in den Bildspeicher 160 übertragen.In a further step, a segmentation algorithm 130 is executed by the image processing processor 120 and applied to the images captured by the wide-angle camera 190 . The segmentation algorithm 130 splits the captured image into two separate images, one image representing the driver 210 and the other image representing the passenger 200 . These two segmented images are then transferred to the image memory 160.

Es ist möglich, dass auf einer Zeitachse, dass der Algorithmus zum Detektieren von Gesichtern 140 und der Algorithmus zum Erkennen von Emotionen 150 auf das segmentierte Bild oder auf das ursprünglich aufgenommene Bild angewendet werden und der Segmentierungsalgorithmus 130 auf das aufgenommene Bild angewendet wird, nachdem die Emotionen der Personen des Bildes erkannt worden sind.It is possible that on a timeline that the face detection algorithm 140 and the emotion detection algorithm 150 are applied to the segmented image or to the originally captured image and the segmentation algorithm 130 is applied to the captured image after the Emotions of the people in the picture have been recognized.

Die aufgezeichneten Daten in dem Bildspeicher 160 weisen die segmentierten Bilder und die entsprechenden Informationen bezüglich der erkannten Emotion, d. h. die Gesichtsemotionsdaten, in jedem segmentierten Bild auf. Dieser Prozess des Aufnehmens von Bildern sowohl des Fahrers 210 als auch des Beifahrers 200, des Segmentierens des Bildes, des Anwendens des Algorithmus zum Detektieren von Gesichtern 140, des Anwendens des Algorithmus zum Erkennen von Emotionen 150 auf die extrahierten Daten des Algorithmus zum Detektieren von Gesichtern 140 und des Übertragens der Ergebnisse, d. h. der segmentierten Bilder und der entsprechenden erkannten Emotionen, in den Bildspeicher 160 wird mehrere Male wiederholt. Auf diese Weise enthält der Bildspeicher 160 eine Anzahl von segmentierten Bildern des Fahrers 210 und des Beifahrers 200 und die entsprechenden Informationen über die erkannte Emotion eines jeden segmentierten Bildes. Diese Informationen können dann dazu benutzt werden, um zu entscheiden, welche segmentierten Bilder zusammengefügt werden sollen, um ein zusammengesetztes Bild mit dem Fahrer 210 und dem Beifahrer 200 zu bilden. Auf der Grundlage eines vordefinierten Kriteriums bezüglich der erkannten Emotion können geeignete segmentierte Bilder ausgewählt und zusammengefügt werden. Wenn das Kriterium zum Beispiel lautet, dass sowohl der Fahrer 210 als auch der Beifahrer 200 einen angenehmen Gesichtsausdruck haben sollen, werden die segmentierten Bilder ausgewählt, die dieses Kriterium erfüllen. Dieses Auswerten und das Zusammenfügen der segmentierten Bilder wird durch einen Algorithmus zum Zusammensetzen von Bildern 170 bestimmt, der von dem Prozessor zum Verarbeiten von Bildern 120 ausgeführt wird. Das neu zusammengesetzte Bild wird dann an eine Benutzerschnittstelle 180 übertragen, an der der Benutzer entscheiden kann, ob er das zusammengesetzte Bild behalten möchte. Es ist auch möglich, dass der Benutzer alle segmentierten Bilder oder eine Vorauswahl von segmentierten Bildern betrachten kann und manuell auswählen kann, welche segmentierten Bilder zusammengefügt werden sollen.The recorded data in the image memory 160 includes the segmented images and the corresponding information regarding the emotion detected, i. H. the facial emotion data, in each segmented image. This process of capturing images of both the driver 210 and the passenger 200, segmenting the image, applying the face detection algorithm 140, applying the emotion detection algorithm 150 to the extracted face detection algorithm data 140 and transferring the results, i. H. the segmented images and the corresponding detected emotions, into the image memory 160 is repeated several times. In this way, the image memory 160 contains a number of segmented images of the driver 210 and the passenger 200 and the corresponding information about the detected emotion of each segmented image. This information can then be used to decide which segmented images to stitch together to form a composite driver 210 and passenger 200 image. Appropriate segmented images can be selected and assembled based on a predefined criterion related to the detected emotion. For example, if the criterion is that both the driver 210 and the passenger 200 should have a pleasant facial expression, the segmented images that meet this criterion are selected. This evaluation and stitching of the segmented images is determined by an image stitching algorithm 170 executed by the image processing processor 120 . The newly composited image is then transmitted to a user interface 180 where the user can decide whether to keep the composited image. It is also possible that the user can view all segmented images or a pre-selection of segmented images and manually select which segmented images to stitch together.

2 zeigt schematisch ein Verfahren zum Aufnehmen und Analysieren eines Bildes von zwei Personen 200, 210, die in einem Auto sitzen. In einem ersten Schritt wird ein Bild eines Fahrers 210 und eines Beifahrers 200 aufgenommen, zum Beispiel mit einer Weitwinkelkamera 190, die die Vorderansichten des Fahrers 210 und des Beifahrers 200 aufnimmt, die auf den Vordersitzen eines Autos sitzen, siehe hierzu die schematische Zeichnung oben in 2. In dem nächsten Schritt wird auf dieses Bild ein Segmentierungsalgorithmus 130 angewendet, so dass der Fahrer 210 und der Beifahrer 200 zu verschiedenen Segmenten gehören. Des Weiteren wird ein Algorithmus zum Detektieren von Gesichtern 140 auf das aufgenommene Bild angewendet, so dass das Gesicht 205 des Beifahrers 200 und das Gesicht 215 des Fahrers 210 mit einem Rechteck, das jeweils das Gesicht einrahmt, angezeigt wird. Es kann möglich sein, dass der Algorithmus zum Detektieren von Gesichtern 140 auf die segmentierten Bilder angewandt wird. Auf der Grundlage der extrahierten Daten, die von dem Algorithmus zum Detektieren von Gesichtern 140 erhalten werden, liefert ein Algorithmus zum Erkennen von Emotionen 150 charakterisierende Informationen, die es ermöglichen, die Emotion der Gesichter zu ermitteln, zum Beispiel in Bezug auf Freude, Lachen, Überraschung und andere. Der Algorithmus kann den Emotionen eines jeden Gesichts Bewertungen zuteilen; zum Beispiel können die Emotionen des Beifahrers 200 so bewertet werden, dass fröhlich = 0,7, lachen = 0,4 und traurig = 0,15. Auf der Grundlage dieser Bewertungen kann der Algorithmus schließen, dass die Gesamtemotion des Beifahrers 200 positiv oder fröhlich ist. In einem anderen Beispiel können die Emotionen des Fahrers 210 so bewertet werden, dass fröhlich = 1,0, lachen = 0,9, Überraschung = 0,4 und traurig = 0,05. Auf der Grundlage dieser Bewertungen kann der Algorithmus schließen, dass die Gesamtemotion des Fahrers 210 positiv oder fröhlich ist. Falls andererseits Bilder mit traurigen Ausdrücken ausgewählt werden sollen, würden diese Bilder nicht ausgewählt werden. Für den Fall, dass das Kriterium darin besteht, dass Bilder mit Gesichtern auszuwählen sind, die eine Emotion der Überraschung darstellen, könnte das Bild des Fahrers 210 ausgewählt werden. In dem Beispiel von 2 bezieht sich das Gesicht 205 des Beifahrers 200 auf einen lächelnden Ausdruck, während sich das Gesicht 215 des Fahrers 210 auf einen lachenden Ausdruck bezieht. 2 FIG. 1 schematically shows a method for capturing and analyzing an image of two people 200, 210 sitting in a car. In a first step, an image of a driver 210 and a passenger 200 is captured, for example with a wide-angle camera 190, which captures the front views of the driver 210 and the passenger 200 seated in the front seats of a car, see the schematic drawing above in 2 . In the next step, a segmentation algorithm 130 is applied to this image, so that the driver 210 and the passenger 200 belong to different segments. Furthermore, a face detection algorithm 140 is applied to the captured image so that the face 205 of the passenger 200 and the face 215 of the driver 210 are displayed with a rectangle enclosing the face, respectively. It may be possible for the face detection algorithm 140 to be applied to the segmented images. On the basis of the extracted data obtained by the face detection algorithm 140, an emotion recognition algorithm 150 provides characterizing information allowing to determine the emotion of the faces, for example in relation to joy, laughter, surprise and others. The algorithm can assign scores to the emotions of each face; for example, passenger 200's emotions may be rated as happy=0.7, laughing=0.4, and sad=0.15. Based on these ratings, the algorithm can conclude that the passenger's 200 overall emotion is positive or happy. In another example, the driver's 210 emotions may be rated such that happy=1.0, laugh=0.9, surprise=0.4, and sad=0.05. Based on these ratings, the algorithm can conclude that the overall emotion of the driver 210 is positive or happy. On the other hand, if images with sad expressions are to be selected, those images would not be selected. In the event that the criterion is that images with To select faces representing an emotion of surprise, the image of the driver 210 could be selected. In the example of 2 the face 205 of the passenger 200 refers to a smiling expression, while the face 215 of the driver 210 refers to a laughing expression.

3 zeigt schematisch einen beispielhaften Prozess des Zusammensetzens eines Bildes von zwei Personen auf der Grundlage der Analyse, die in 2 beschrieben ist. Es werden zwei Bilder aufgenommen, eines zu einem ersten Zeitpunkt zur Zeit t1 und ein weiteres zu einem anderen, zum Beispiel späteren Zeitpunkt zur Zeit t2. Beide Bilder stellen den Beifahrer 200 und den Fahrer 210 auf den Vordersitzen eines Autos dar. Die Gesichter und ihr Ausdruck sind schematisch dargestellt. Zur Zeit t1 zeigt das Gesicht des Beifahrers 200 einen überraschten Ausdruck, und das Gesicht des Fahrers 210 zeigt einen lächelnden oder neutralen Ausdruck, siehe hierzu die schematische Zeichnung oben links in 3. Durch Anwenden des Segmentierungsalgorithmus 130 werden die Bilder jeweils in Bezug auf die einzelnen Personen 200, 210 segmentiert. Durch Anwenden der Informationen, die wie in 1 beschrieben aus dem Algorithmus zum Detektieren von Gesichtern 140 und dem Algorithmus zum Erkennen von Emotionen 150 gewonnen wurden, können die Bilder im Hinblick auf den Ausdruck der Gesichter 205, 215 des Fahrers 210 bzw. des Beifahrers 200 kategorisiert werden. Das gleiche Verfahren wird auf das Bild angewendet, das zur Zeit t2 aufgenommen wurde. In diesem Bild zeigt das Gesicht 205 des Beifahrers 200 einen neutralen Ausdruck und das Gesicht 215 des Fahrers 210 zeigt einen lachenden Ausdruck, siehe hierzu die schematische Zeichnung rechts oben in 3. Dieses Bild wird auch segmentiert, und die Ausdrücke werden kategorisiert. In diesem Beispiel gibt es die Vorgabe, dass eine der Personen auf dem neu zusammengesetzten Bild einen überraschten Ausdruck zeigt und die andere Person einen lachenden Ausdruck. Dementsprechend wurden die beiden segmentierten Bilder, in denen sowohl der Beifahrer 200 als auch der Fahrer 210 ausgewählt und mit Hilfe einer Einheit zum Zusammensetzen von Bildern zusammengefügt. 3 shows schematically an exemplary process of compositing an image of two people based on the analysis presented in 2 is described. Two images are recorded, one at a first point in time at time t1 and another at a different, for example later point in time at time t2. Both images represent the passenger 200 and the driver 210 in the front seats of a car. The faces and their expressions are shown schematically. At time t1, the passenger's 200 face shows a surprised expression and the driver's 210 face shows a smiling or neutral expression, see the schematic drawing at the top left of FIG 3 . By applying the segmentation algorithm 130, the images are segmented with respect to the individual persons 200, 210, respectively. By applying the information provided as in 1 described from the face detection algorithm 140 and the emotion detection algorithm 150, the images can be categorized in terms of the expressions of the faces 205, 215 of the driver 210 and the passenger 200, respectively. The same procedure is applied to the image captured at time t2. In this image, the face 205 of the passenger 200 shows a neutral expression and the face 215 of the driver 210 shows a laughing expression, see the schematic drawing at the top right of FIG 3 . This image is also segmented and the terms are categorized. In this example, the default is that one of the people in the recomposed image has a surprised expression and the other person has a laughing expression. Accordingly, the two segmented images in which both the passenger 200 and the driver 210 were selected and stitched together using an image stitching unit.

Wenn zwei segmentierte Bilder von ursprünglich aufgenommenen Bildern zu einem neuen Bild zusammengesetzt werden, muss man die Hintergründe dieser segmentierten Bilder berücksichtigen. Insbesondere kann sich der Hintergrund in der beschriebenen Situation, in der zwei Personen aufgenommen werden, die in einem Auto sitzen, im Laufe der Zeit ändern, wenn sich das Auto bewegt. Denn die Heckscheibe 220 und die Seitenfenster 230 in dem Auto zeigen Ansichten von außerhalb des Autos, die sich ändern, wenn sich das Auto bewegt. Um ein zusammengesetztes Bild zu erhalten, das einen homogenen Hintergrund darstellt, muss man sich überlegen, welche Optionen es für das Zusammensetzen in Bezug auf den Hintergrund gibt.If two segmented images from originally recorded images are combined into a new image, one has to consider the backgrounds of these segmented images. In particular, in the described situation where two people are photographed sitting in a car, the background may change over time as the car moves. Because the rear window 220 and the side windows 230 in the car show views from outside the car that change as the car moves. In order to get a composite image that represents a homogeneous background, it is necessary to consider what the options are for compositing in relation to the background.

Eine Möglichkeit würde darin bestehen, das Hintergrundbild des Innenraums des Autos einschließlich der Ansichten durch die Fenster 220, 230 separat aufzunehmen, zum Beispiel bevor die beiden Insassen in das Auto einsteigen. Dieses Hintergrundbild wird dann mit den Pixeln der Personen kombiniert, die in den entsprechenden ausgewählten Bildern dargestellt sind. Auf diese Weise kann auch der Übergangsbereich auf dem Bild zwischen dem Bild der Personen und dem Bild des separaten Hintergrunds homogen sein, wenn die Bilder zusammengefügt werden. Falls die Bilder der Personen 200, 210 vor einem Hintergrund aufgenommen werden, der sich von dem separaten Hintergrund unterscheidet, kann der Übergangsbereich auf dem Bild zwischen den Personen und dem separaten Hintergrund weniger homogen sein, wenn die Bilder der Personen und der separate Hintergrund zusammengefügt werden.One possibility would be to capture the background image of the interior of the car including the views through the windows 220, 230 separately, for example before the two occupants get into the car. This background image is then combined with the pixels of the people represented in the corresponding selected images. In this way, the transition area on the image between the image of the people and the image of the separate background can also be homogeneous when the images are stitched together. If the images of the people 200, 210 are taken against a background that differs from the separate background, the transition area in the image between the people and the separate background may be less homogeneous when the images of the people and the separate background are stitched together .

Eine andere Möglichkeit besteht darin, dass aus zwei Bildern des Fahrers 200 und des Beifahrers 210 beide Hintergründe zusammengefügt werden, wobei eine unscharfe Maske um die Personen 200, 210 herum verwendet wird, so dass es keine Überblendungsartefakte gibt. Es ist auch möglich, ein Bild aus einem der beiden Bilder des Fahrers 200 und des Beifahrers 210 (Insassen) auszuwählen, das den Haupthintergrund darstellt. Hier kann es zum Beispiel von Vorteil sein, dasjenige segmentierte Bild der beiden Bilder zu identifizieren, das mehr Hintergrundinformationen liefert, d.h. die meisten Pixel, die nicht zu einer der beiden Personen 200, 210 gehören. Es wäre ein anderes Kriterium, das Bild zu wählen, das in bestimmten vordefinierten Bereichen die meisten Informationen aufweist, zum Beispiel das Bild, in dem die Fenster von keinem der beiden Insassen verdeckt werden.Another possibility is that from two images of the driver 200 and the passenger 210, both backgrounds are stitched together using an unsharp mask around the people 200, 210 so that there are no overlay artifacts. It is also possible to select an image that is the main background from either of the images of the driver 200 and the front passenger 210 (occupants). Here, for example, it can be advantageous to identify that segmented image of the two images that provides more background information, i.e. the most pixels that do not belong to either person 200, 210. Another criterion would be to choose the image that has the most information in certain predefined areas, for example the image where the windows are not obscured by either occupant.

4 zeigt schematisch eine grafische Schnittstelle, die von einem Benutzer angesehen und/oder verwendet werden kann. Sie zeigt in den verschiedenen Zeichnungen a), b), c) und d) den Fahrer 210 und den Beifahrer 200 mit verschiedenen Gesichtsausdrücken oder einer unterschiedlichen Kombination von Gesichtsausdrücken zu verschiedenen Zeiten. Um zwischen den Zeichnungen zu wechseln, kann ein Benutzer eine Bildlaufleiste 240 entlang einer Achse bewegen, wie es in Zeichnung a) angedeutet ist. Falls ein Ausdruck einer der Personen 200, 210 die Vorgaben erfüllt, kann dieser ausgewählt werden. Sobald für beide Personen ein Bild ausgewählt ist, das die Vorgaben erfüllt, wird der Prozess der Segmentierung und des Zusammensetzens, wie in den 1-3 beschrieben, automatisch durchgeführt, um ein neues Bild zu erstellen. 4 Figure 12 shows schematically a graphical interface that can be viewed and/or used by a user. It shows in the different drawings a), b), c) and d) the driver 210 and the passenger 200 with different facial expressions or a different combination of facial expressions at different times. To switch between the drawings, a user can move a scroll bar 240 along an axis as indicated in drawing a). If an expression of one of the persons 200, 210 meets the specifications, this can be selected. Once an image that meets the specifications is selected for both people, the process of segmentation and assembly as shown in the 1-3 described, performed automatically to create a new image.

Nach dieser halbautomatischen Auswahl von Bildern erfolgt dann das automatische Zusammensetzen des neuen Bildes nach dem beschriebenen Verfahren. Des Weiteren könnte an der Benutzeroberfläche auch die Möglichkeit bestehen, einen Grad der Unschärfe des Hintergrundes auszuwählen. Es könnte auch möglich sein, ein Bild auszuwählen, das für den Hintergrund geeignet ist und das dann mit den Pixeln der Personen von den ausgewählten Bildern zusammengesetzt wird.After this semi-automatic selection of images, the new image is then automatically assembled according to the method described. Furthermore, the user interface could also have the option of selecting a degree of blurring of the background. It might also be possible to select an image suitable for the background and then composite it with the pixels of the people from the selected images.

Während vorausgehend wenigstens eine beispielhafte Ausführungsform der vorliegenden Erfindung beschrieben wurde, ist zu bemerken, dass es dazu eine große Anzahl von Variationen gibt. Es ist dabei auch zu beachten, dass die beschriebenen beispielhaften Ausführungsformen nur nicht einschränkende Beispiele darstellen, wie die vorliegende Erfindung umgesetzt werden kann, und dass es nicht beabsichtigt ist, den Umfang, die Anwendung oder die Konfiguration der hier beschriebenen Vorrichtungen und Verfahren zu beschränken. Vielmehr wird die vorausgehende Beschreibung dem Fachmann eine Anleitung zur Implementierung wenigstens einer beispielhaften Ausführungsform der Erfindung zur Verfügung stellen, wobei es sich zu verstehen hat, dass verschiedene Änderungen in der Funktionsweise und der Anordnung der Elemente der beispielhaften Ausführungsform vorgenommen werden können, ohne dass dabei von dem in den angehängten Ansprüchen jeweils festgelegten Gegenstand sowie seinen rechtlichen Äquivalenten abgewichen wird.While the foregoing has described at least one exemplary embodiment of the present invention, it should be appreciated that a large number of variations exist thereto. It should also be noted that the exemplary embodiments described are merely non-limiting examples of how the present invention may be practiced and that the devices and methods described herein are not intended to limit the scope, application, or configuration. Rather, the foregoing description will provide those skilled in the art with guidance for implementing at least one exemplary embodiment of the invention, it being understood that various changes in the operation and arrangement of elements of the exemplary embodiment may be made without departing from departing from the subject matter defined in the appended claims and their legal equivalents.

BezugszeichenlisteReference List

100100: Blockdiagrammblock diagram
110110: Elektronische Steuereinheit (ECU)Electronic control unit (ECU)
120120: Prozessor zum Verarbeiten von BildernProcessor for processing images
130130: Segmentierungsalgorithmussegmentation algorithm
140140: Algorithmus zum Detektieren von GesichternAlgorithm for detecting faces
150150: Algorithmus zum Erkennen von EmotionenAlgorithm for detecting emotions
160160: Bildspeicherimage storage
170170: Einheit zum Zusammensetzen von BildernImage compositing unit
180180: Benutzerschnittstelleuser interface
190190: Weitwinkelkamerawide angle camera
200200: Beifahrerpassenger
205205: Gesicht des Beifahrerspassenger's face
210210: Fahrerdriver
215215: Gesicht des Fahrersface of the driver
220220: Heckscheiberear window
230230: Seitenfenster sidewindow
t1t1: Zeit zum ersten Zeitpunkttime at first time
t2t2: Zeit zum zweiten Zeitpunkttime at the second point in time

Claims

A method for combining images, comprising: a) recording more than one image with a camera (190), each image representing at least a section of a front view including the face (205, 215) of one or more persons (200, 210); b) a method for image analysis, comprising: (i) applying an algorithm for segmenting images (130) to segment at least two image sections each containing a corresponding face (205, 215) or a front view including the face (205, 215) of the persons (200, 210) recorded; represent; (ii) applying a face detection algorithm (140) to detect the face (205, 215) of each person (200, 210) in the segmented images or in the captured images and to provide corresponding face detection data; (iii) applying a facial emotion recognition algorithm (150), based on the face recognition data, to recognize a corresponding emotion expressed by each of the detected faces (205, 215) and to provide corresponding facial emotion data; (iv) evaluating the facial emotion data to determine for each recognized facial emotion whether it satisfies a predefined selection criterion; c) selecting those segmented images whose corresponding facial emotion data meet the predefined selection criterion; and d) composing a combined image comprising the selected segmented images.

procedure after claim 1 , wherein the method for image analysis is repeated until a segmented image has been selected for each of the persons (200, 210) represented in the recorded images.

procedure after claim 1 or 2 , wherein the predefined selection criterion is met and a segmented image is selected if the data provided, which correspond to the recognized emotion of the same face (205, 215), have changed for a certain number of consecutive images.

Procedure according to one of Claims 1 until 3 , where the predefined selection criterion is met and selection of a segmented image occurs when the provided data corresponding to the emotional state relates to a positive emotional state.

Procedure according to one of Claims 1 until 4 , where the predefined selection criterion has more than one sub-criterion, all of which must be met in order for a segmented image to be selected.

Procedure according to one of Claims 1 until 5 wherein images of people (200, 210) seated in a car are captured with a wide-angle camera to create a composite image.

Procedure according to one of Claims 1 until 6 wherein a background image is captured separately and then combined with the pixels of the people (200, 210) represented in the corresponding selected images to create a composite image.

Procedure according to one of Claims 1 until 6 , where the background of the composite image is the segmented image that has the most pixels related to the background.

Procedure according to one of Claims 1 until 8th , where an unsharp mask is applied to the selected segmented images before they are assembled into a composite image.

Procedure according to one of Claims 1 until 9 , where the face detection algorithm and the facial emotion detection algorithm are based on a machine learning algorithm.

Procedure according to one of Claims 1 until 10 wherein the captured images are displayed on a graphical interface configured to be operated by a user such that the user can manually select the images to be composited.

Procedure according to one of Claims 1 until 11 , where two or more of the captured images are part of a video captured video.

A computer program which, when run on a computer, causes the computer to carry out the method according to any one of the preceding claims.

Image processing apparatus for combining images of more than one person (200, 210), the image processing apparatus being configured to perform the method of any one of Claims 1 until 12 executes