DE102009027253A1

DE102009027253A1 - Arrangement for multimodal operation of media device e.g. TV set, has receiving unit with two cameras arranged at media-device or at required existing wireless remote control such that optical axes of objectives cut into each other

Info

Publication number: DE102009027253A1
Application number: DE200910027253
Authority: DE
Inventors: Fred Runge; Ralf Kirchherr; Thomas Scheerbarth; Ingmar Kliche; Jin Liu; Christel Müller; Michael Rohs
Original assignee: Technische Universitaet Berlin; Deutsche Telekom AG
Current assignee: Technische Universitaet Berlin; Deutsche Telekom AG
Priority date: 2009-06-26
Filing date: 2009-06-26
Publication date: 2010-12-30

Abstract

The arrangement has a control unit controlling actuators of a media-device according to control commands derived from user inputs, and an user inputs receiving unit. The receiving unit is automatically designed as a component of a wireless remote control and/or as a component of the media-device. An user input evaluation unit has a software and/or hardware assisted evaluation unit to recognize presence of a person. The receiving unit has two cameras (1, 1') arranged at the media-device or at a required existing wireless remote control such that optical axes of objectives cut into each other. An independent claim is also included for a method for multimodal operation of a media-device.

Description

Die Erfindung betrifft eine Lösung zur komfortablen Bedienung eines Media-Gerätes. Sie bezieht sich auf eine Anordnung zur Bedienung eines solchen Gerätes. Gegenstand der Erfindung ist dabei insbesondere die multimodale Bedienung eines Media-Gerätes. Entsprechend einer besonders bevorzugten Ausbildung der Erfindung handelt es sich bei dem Media-Gerät um ein Gerät, dessen multimodale Bedienbarkeit mindestens auch die Möglichkeit einer Bedienung durch Sprachkommandos umfasst, wobei sich die Lösung in diesem Zusammenhang insbesondere auf die Aktivierung beziehungsweise Deaktivierung entsprechender Mittel zur Entgegennahme und/oder Auswertung von Sprachkommandos bezieht. Die Erfindung bezieht sich gleichermaßen auf Konstellationen, bei denen eine Bedienung des Media-Gerätes ausschließlich an dem Gerät selbst erfolgt, wie auf solche, deren Bestandteil eine drahtlose Fernbedienung ist. Im letztgenannten Fall kann dabei die Bedienung des Media-Gerätes ausschließlich mittels der Fernbedienung, gegebenenfalls aber auch nur teilweise mittels der Fernbedienung und darüber hinaus an dem Media-Gerät selbst erfolgen. Im Hinblick auf eine Konstellation mit Bedienmöglichkeiten sowohl an der Fernbedienung, als auch am Gerät wird im Zusammenhang mit der Erfindung von einer Anordnung gesprochen, da in diesem Falle die Bedienbarkeit des Media-Geräts nicht mittels eine integrale Einheit oder Vorrichtung realisiert ist, sondern mittels einer aus zwei Bestandteilen bestehenden Anordnung, nämlich dem Media-Gerät und einer drahtlosen Fernbedienung.The The invention relates to a solution for convenient operation a media device. It refers to an arrangement to operate such a device. Subject of the invention is in particular the multimodal operation of a media device. According to a particularly preferred embodiment of the invention is the media device a device, its multimodal usability at least also the possibility an operation by voice commands, which is the solution in this context, in particular on the activation or Deactivation of appropriate means for receipt and / or evaluation of voice commands. The invention relates equally on constellations where an operation of the media device exclusively on the device itself, such as to those whose component is a wireless remote control. In the latter case, the operation of the media device exclusively by means of the remote control, if necessary but only partially by means of the remote control and above Be done on the media device itself. In terms of on a constellation with operating options both the remote control, as well as the device is related spoken with the invention of an arrangement, since in this case the usability of the media device not by means of an integral Unit or device is realized, but by means of a two-component arrangement, namely the media device and a wireless remote control.

Nach dem Stand der Technik erfolgt die Bedienung von Media-Geräten, wie Geräten der Unterhaltungselektronik, so beispielsweise von Fernsehgeräten, HiFi-Geräten oder von Geräten zur Aufzeichnung und Wiedergabe von Bild und/oder Ton, im Allgemeinen mittels mechanischer Bedienelemente, die entweder an dem jeweils zu bedienenden Gerät selbst oder an einer vorzugsweise mit diesem Gerät drahtlos kommunizierenden Fernbedienung angeordnet sind. Im Einzelfalle sind dabei die Bedienelemente selbst, im Hinblick auf ihre Wirkmechanismen, nicht als mechanische Bedienelemente ausgestattet, aber dennoch insoweit als mechanische Bedienelemente anzusehen, als dass sie zu ihrer Betätigung einer Berührung durch eine das entsprechende Media-Gerät bedienende Person bedürfen.To In the prior art, the operation of media devices, such as consumer electronics devices, such as television sets, hi-fi equipment or devices for recording and playback of image and / or sound, in general by means of mechanical controls, either at the respective to be operated device itself or at a preferably arranged with this device wirelessly communicating remote control are. In some cases, the controls themselves, in terms on their mechanisms of action, not equipped as mechanical controls, but nevertheless to be considered as mechanical controls insofar than that to their actuation a touch by a person using the corresponding media device require.

Darüber hinaus ist es bekannt, Media-Geräte mittels Sprachkommandos zu bedienen. Hierbei treten jedoch mehrere Probleme zutage. So ist es einerseits erforderlich, die zur Bedienung des Geräts dienenden Sprachkommandos akustisch von Störgeräuschen der Umgebung zu unterscheiden beziehungsweise eventuelle Störgeräusche im Hinblick auf die Auswertung zu eliminieren. Andererseits können Situationen entstehen, bei welchen beispielsweise durch sich in der Nähe des Geräts unterhaltende Personen Wörter gebraucht werden, die auch in Sprachkommandos zur Bedienung des Media-Geräts Verwendung finden, aber im Moment einer solchen Unterhaltung keine Bedienvorgänge am Gerät auslösen sollen. Das erstgenannte Problem wird zum Beispiel dadurch gelöst, dass die Position einer das Gerät per Sprachkommando bedienenden Person bestimmt und hierdurch der Ausschluss von Störgeräuschen erleichtert wird. Eine derartige Lösung wird zum Beispiel in der DE 101 569 5489 beschrieben. Die Druckschrift offenbart ein Verfahren, bei der die Position der die Sprachkommandos erteilenden Bedienperson mittels eines fest installierten Mikrofon-Arrays bestimmt wird. Das Problem der ungewollten Bedienung von Media-Geräten durch sprachliche Äußerungen, die nicht als Sprachkommandos verstanden werden sollen, wird in der Praxis durch die Verwendung so genannter „Hot Words” beziehungsweise eines „Wach-auf-Kommandos” gelöst. Hierbei wird die Möglichkeit einer Bedienung mittels Sprachkommandos erst durch den Gebrauch eines speziellen Wortes, einer speziellen Wortfolge beziehungsweise einer Phrase aktiviert. Erst nach diesem Aktivierungsvorgang ist dann die eigentliche Bedienung per Sprachkommando möglich.In addition, it is known to operate media devices using voice commands. Here, however, several problems come to light. Thus, on the one hand, it is necessary to acoustically distinguish the voice commands serving to operate the device from interfering noises of the environment or to eliminate any interfering noises with regard to the evaluation. On the other hand, situations may arise in which, for example, persons conversing in the vicinity of the device need words which are also used in voice commands for operating the media device, but at the moment of such a conversation should not initiate any operations on the device. The former problem is solved, for example, by determining the position of a person operating the device by voice command, thereby facilitating the exclusion of noise. Such a solution is for example in the DE 101 569 5489 described. The document discloses a method in which the position of the voice commands issuing operator is determined by means of a permanently installed microphone array. The problem of unwanted operation of media devices through verbal utterances, which should not be understood as voice commands, is solved in practice by the use of so-called "hot words" or a "wake-up-command". In this case, the possibility of operation by means of voice commands is activated only by the use of a special word, a special word sequence or a phrase. Only after this activation process then the actual operation by voice command is possible.

Eine weitere Möglichkeit der Bedienung, welche in zunehmendem Maße Einsatz findet, besteht darin, die Bedienung durch unterschiedliche Bewegungen einer Fernbedienungen oder des zu bedienenden Geräts selbst zu steuern. Dazu ist es bekannt, in entsprechenden Fernbedienungen oder Media-Geräten Bewegungs- und Neigungssensoren anzuordnen und jeweils die mit ihrer Hilfe bestimmte Lage und/oder Position des jeweiligen Gerätes (Fernbedienung oder Media-Gerät) zur Ableitung von Steuersignalen für Aktoren zu nutzen, welche Funktionen des Media-Geräts ausführen. So ist beispielsweise aus der DE 202 21 078 U1 ein mit Neigungssensoren ausgestattetes Mobiltelefon bekannt, bei dem entsprechende Funktionen des Telefons in Abhängig seiner jeweils festgestellten Lage ausgeführt werden.Another possibility of operation, which is increasingly used, is to control the operation by different movements of a remote controls or the device to be operated itself. For this purpose, it is known to arrange movement and inclination sensors in corresponding remote controls or media devices and to use the position and / or position of the respective device (remote control or media device) determined with their help for deriving control signals for actuators, which functions of the media device. For example, from the DE 202 21 078 U1 a equipped with tilt sensors mobile phone, are performed in the corresponding functions of the phone as a function of its respectively determined location.

Die zuvor beschriebenen Bedienmöglichkeiten haben den Nachteil, dass es beispielsweise beim Betreten eines Raumes, in welchem ein zu bedienendes Media-Gerät angeordnet ist, erforderlich ist, dass die diese Bedienung vornehmende Person zunächst eine entsprechende Fernbedienung oder das Gerät berührt. Hingegen erweist sich eine Bedienung per Sprachkommandos aufgrund der vorstehend geschilderten Umstände, insbesondere im häuslichen Bereich beziehungsweise in größeren Räumen eines Gebäudes, als vergleichsweise problematisch.The previously described operating options have the disadvantage that, for example, when entering a room in which a arranged to be operated media device required is that the person performing this service first a corresponding remote control or the device touches. On the other hand proves to be an operator by voice commands due to the above described circumstances, especially in domestic Area or in larger rooms of a building, as comparatively problematic.

Aufgabe der Erfindung ist es, eine Lösung anzugeben, welche eine komfortablere Bedienung eines Media-Geräts ermöglicht. Hierzu sollen ein Verfahren sowie eine zur Durchführung des Verfahrens geeignete Anordnung angegeben werden. Vorzugsweise soll die zu schaffende Lösung insbesondere auch eine Bedienung des Media-Geräts durch Sprachkommandos ermöglichen und dabei so ausgestaltet sein, dass eine einfache Aktivierung der die Sprachkommandos entgegennehmenden und/oder der sie auswertenden Einheiten ermöglicht ist.task The invention is to provide a solution which a more comfortable operation of a media device. For this purpose a procedure as well as a procedure should be carried out of the method are given appropriate arrangement. Preferably should the solution to be created in particular also an operation of the media device through voice commands and be designed so that a simple activation of the receiving the voice commands and / or evaluating them Units is possible.

Die Aufgabe wird durch eine Anordnung mit den Merkmalen des Hauptanspruchs gelöst. Ein die Aufgabe lösendes Verfahren ist durch den ersten verfahrensbezogenen Anspruch charakterisiert. Vorteilhafte Ausbeziehungsweise Weiterbildungen der Erfindung sind durch die Unteransprüche gegeben.The The object is achieved by an arrangement having the features of the main claim solved. A problem solving method is characterized by the first procedural claim. Advantageous Ausbeziehungsweise Further developments of the invention are defined by the subclaims given.

Eine die Aufgabe lösende Anordnung zur Bedienung eines Media-Gerätes besteht aus Mitteln zur Entgegennahme von Benutzereingaben, Einheiten zur Auswertung von Benutzereingaben und zur Ableitung durch Benutzereingaben gegebener Bedienkommandos für das Media-Gerät sowie aus mindestens einer in dem zu bedienenden Media-Gerät angeordneten Steuereinheit. Mittels der letztgenannten Steuereinheit werden dabei Aktoren des Media-Geräts entsprechend den aus Benutzereingaben abgeleiteten Bedienkommandos angesteuert, wobei mit Hilfe derartiger Aktoren beispielsweise die Lautstärke einer HiFi-Anlage oder eines Fernsehgeräts verändert oder der Empfangskanal eines Receivers beziehungsweise einer Set-Top-Box umgeschaltet werden kann. Die erwähnten Mittel zur Entgegennahme der Benutzereingaben sind bei der vorgeschlagenen Anordnung als Bestandteil einer drahtlosen Fernbedienung und/oder als Bestandteil des zu bedienenden Media-Geräts selbst ausgebildet. Erfindungsgemäß umfassen diese Mittel mindestens zwei Kameras. Zudem ist Bestandteil der Einheiten zur Auswertung von Benutzereingaben mindestens eine soft- und/oder hardwaregestützte Auswerteeinheit, durch welche die Erkennung der Anwesenheit einer Person ermöglicht ist, die sich im Gesichtsfeld der mindestens zwei Kameras aufhält. Dabei sind die Kameras so angeordnet, dass die optischen Achsen ihrer Objektive einander schneiden, so dass sich ihre Gesichtfelder überlappen. Soweit vorstehend oder nachfolgend von der Erkennung der Anwesenheit einer Person im Gesichtsfeld der Kameras beziehungsweise der mindestens zwei Kameras ausgegangen wird, meint dies die Erkennung einer Person, die sich gleichzeitig im Gesichtsfeld aller gegebenenfalls vorhandenen Kameras, also in dem Bereich aufhält, in dem sich die Gesichtsfelder der Kameras mit den einander schneidenden optischen Achsen überlappen. Dabei sind alle Kameras deren Bilder gemeinsam auf die Anwesenheit einer Person in ihrem Gesichtsfeld zu überprüfen sind, entweder an dem zu bedienenden Gerät oder der gegebenenfalls vorhandenen Fernbedienung angeordnet, jedoch nicht auf diese gegebenenfalls zwei Bestandteile der erfindungsgemäßen Anordnung aufgeteilt.A the task-solving arrangement for operating a media device consists of means for receiving user input, units for the evaluation of user input and derivation by user input given operating commands for the media device and at least one in the media device to be operated arranged control unit. By means of the latter control unit be actor of the media device according to the driven from user input derived control commands, wherein with the help of such actuators, for example, the volume a hi-fi system or a TV or the receiving channel of a receiver or a set-top box can be switched. The mentioned means of receipt the user inputs are in the proposed arrangement as Part of a wireless remote control and / or as a component formed of the media device itself. According to the invention these means at least two cameras. In addition, is part of the Units for evaluating user input at least one soft- and / or hardware-based evaluation unit, by means of which the detection of the presence of a person is possible, the is in the field of vision of the at least two cameras. The cameras are arranged so that the optical axes their lenses intersect so that their faces overlap. As far as above or below from the detection of presence a person in the field of view of the cameras or the at least two cameras is assumed, this means the detection of a person who at the same time in the field of vision of all possibly existing ones Cameras, so in the area stops where the fields of vision overlap the cameras with the intersecting optical axes. there all cameras share their pictures together in the presence of one Person to check in their field of vision, either on the device to be operated or if necessary remote control, but not on this if necessary split two components of the inventive arrangement.

Eine solche Anordnung ermöglicht es, in die Bedienung eines Media-Geräts visuelle Bedienkommandos in unterschiedlicher Weise einzubeziehen. Darüber hinaus sind vorzugsweise weitere, noch im Einzelnen zu nennende Mittel zur Entgegennahme von Benutzereingaben Bestandteil der erfindungsgemäßen Anordnung. Im Hinblick auf eine multimodale Bedienbarkeit des Media-Geräts umfassen solche weiteren Mittel beispielsweise mindestens ein Mikrofon, wobei Bestandteil der Einheiten zur Auswertung der Benutzereingaben eine Einheit zur Interpretation mittels des mindestens einen Mikrofons entgegengenommener Spracheingaben ist. Entsprechend einer besonders vorteilhaften Ausbildungsform umfassen die Mittel zur Entgegennahme von Bedienkommandos ein Mikrofonarray mit 3 oder 4 Mikrofonen. Eine mit mindestens einem Mikrofon und einer zugehörigen Auswerteeinheit ausgestattete Ausbildungsform der erfindungsgemäßen Anordnung ist entsprechend einer vorgesehenen Variante so gestaltet, dass das Mikrofon und/oder die Einheit zur Interpretation der Spracheingaben nur bei Anwesenheit einer sich im Gesichtsfeld der Kameras befindenden Personen aktiviert sind. Die Mittel zur Entgegennahme von Benutzerangaben in ihrer Gesamtheit können, sofern die erfindungsgemäße Anordnung auch eine Fernbedienung umfasst, auf das zu bedienende Media-Gerät und die Fernbedienung aufgeteilt sein, wobei jedoch, wie bereits ausgeführt, die gemein auf die Anwesenheit einer Person in ihrem Gesichtsfeld zu überprüfenden Kameras entweder an dem Media-Gerät oder an der Fernbedienung angeordnet sind. Dies schließt jedoch nicht aus, dass sowohl an dem Media-Gerät als auch an der gegebenenfalls vorhandenen Fernbedienung jeweils mindestens zwei Kameras angeordnet sind. Hierbei bilden dann die an dem Media-Gerät angeordneten Kameras eine erste Gruppe von gemeinsam auf die Anwesenheit einer Person in ihrem Gesichtsfeld zu überprüfenden Kameras und die Kameras an der Fernbedienung eine davon unabhängige zweite Gruppe gemeinsam zu überprüfender Kameras aus. Gewissermaßen im Sinne einer Redundanz kann dann beispielsweise insbesondere die Aktivierung der gegebenenfalls weiteren vorhandenen Mittel zur Entgegennahme von Bedieneingaben durch Zuwendung einer Person zu dem Media-Gerät oder zur Fernbedienung erfolgen.A Such arrangement allows in the operation of a Media device visual control commands in different Way to involve. In addition, preferably further, still to be mentioned in detail means for receiving user input Component of the inventive arrangement. in the Regard to a multimodal usability of the media device For example, such further means comprise at least one microphone, wherein component of the units for evaluating the user input a Unit for interpretation by means of at least one microphone is received voice input. According to one particular advantageous embodiment include the means of receipt of operator commands a microphone array with 3 or 4 microphones. A with at least one microphone and an associated evaluation unit equipped embodiment of the invention Arrangement is designed according to a proposed variant so that the microphone and / or the unit for interpreting the speech inputs only in the presence of a field of view of the cameras Persons are activated. The means of receiving user information in their entirety, provided that the invention Arrangement also includes a remote control on which to operate Media device and the remote control be split, taking However, as stated earlier, the common to the presence to examine a person in their field of vision Cameras either on the media device or on the remote control are arranged. However, this does not rule out that both on the media device as well as on the possibly existing one Remote each have at least two cameras are arranged. in this connection then form the cameras arranged on the media device a first group of together on the presence of a person in their field of vision to be examined cameras and the cameras on the remote one of them independent second group of cameras to be checked together out. To a certain extent in the sense of redundancy then, for example in particular the activation of any other resources available to receive operator input by donating one person to the media device or remote control.

Im Kontext der Darstellung der Erfindung und der Patentansprüche soll unter dem Begriff „Einheit” – wie er beispielsweise vorstehend im Zusammenhang mit der Interpretation von Spracheingaben, aber auch nachfolgend insbesondere im Zusammenhang mit anderen Auswertungsfunktionen der Anordnung gebraucht wird – nicht zwingend ein körperlich in sich abgeschlossener beziehungsweise abgegrenzter Bestandteil der Anordnung verstanden werden. Vielmehr ist dem Fachmann klar, dass es sich hierbei im Allgemeinen um den funktionellen Bestandteil einer übergeordneten mehrere Funktionen bereitstellenden Einheit handeln wird, der zudem gegebenenfalls rein softwaremäßig, in der Regel aber zumindest durch soft- und hardwaremittel realisiert ist. Insoweit soll der Begriff „Einheit” den Gegenstand der Erfindung nicht beschränken und kann auch im Sinne einer Funktionsgruppe verstanden werden.In the context of the presentation of the invention and the claims, the term "unit" - as used above, for example, in connection with the interpretation of speech inputs, but also is used below in particular in connection with other evaluation functions of the arrangement - not necessarily a physically self-contained or demarcated part of the arrangement to be understood. Rather, it is clear to the person skilled in the art that this will generally be the functional component of a superordinate unit providing a plurality of functions which, if appropriate, is also implemented purely by software, but generally at least by soft- and hardware-means. In that regard, the term "unit" is not intended to limit the scope of the invention and may also be understood in terms of a functional group.

Die zuvor dargestellte Ausbildungsform der erfindungsgemäßen Anordnung mit einer bedingten Aktivierung der Mittel zur Entgegennahme und/oder Auswertung von Spracheingaben ist vorzugsweise noch dadurch weitergebildet, dass die zur Erkennung der Anwesenheit einer Person im Gesichtsfeld der Kameras dienende Auswerteeinheit Mittel zur Detektion des Gesichts einer Bedienperson umfasst. Hierbei erfolgt eine Verarbeitung eventueller visueller Bedienkommandos oder die schon angesprochene Aktivierung von Mitteln zur Entgegennahme beziehungsweise zur Auswertung von Sprachkommandos nur dann, wenn beziehungsweise nur so lange, wie das Gesicht einer Bedienperson im Gesichtsfeld der Kameras detektiert wird. Mithin wird allenfalls die Anwesenheit des Gesichts einer Bedienperson in dem Gesichtsfeld der Kameras dahingehend interpretiert, dass sich diese Person einer entsprechend ausgestalteten Anordnung zur Bedienung des Media-Geräts mit der Absicht einer Bedienung zuwendet. Aufgrund der möglichen Berechnung der Bewegungsrichtung des Gesichts kann dabei sogar noch genauer zwischen einer tatsächlichen Zuwendung oder einem Abwenden von der Anordnung, bei welchem sich das detektierte Gesicht von der Anordnung entfernt, unterschieden werden.The previously illustrated embodiment of the invention Arrangement with a conditional activation of the means of receipt and / or evaluation of voice inputs is preferably still by further developed that to detect the presence of a person in the field of view of the cameras serving evaluation means for Detection of the face of an operator includes. This takes place a processing of any visual control commands or the already mentioned activation of means for receipt or for the evaluation of voice commands only if or only as long as the face of an operator in the field of vision Cameras is detected. Thus, at best, the presence the face of an operator in the field of view of the cameras interpreted to mean that this person a corresponding designed arrangement for operating the media device with the intention of an operation turned. Because of the possible Calculating the direction of movement of the face can even do it more precisely between an actual attention or a turning away from the arrangement in which the detected face of the arrangement can be distinguished.

Die zuvor erläuterte Ausbildungsform kann noch dadurch weitergebildet sein, dass die Mittel zur Detektion des Gesichts von Bedienpersonen auch zur Identifikation einer jeweiligen Bedienperson durch eine Gesichtserkennung ausgelegt sind. Hierbei weist die Auswerteeinheit für die Mittel zur Gesichtsdetektion und Gesichtserkennung einen Referenzspeicher zur Hinterlegung von Referenzbildern der Gesichter zur Bedienung des Media-Geräts berechtigter Personen auf. Der betreffende Referenzspeicher ist dabei entweder unmittelbarer Bestandteil der vorgenannten Auswerteeinheit oder ihr als Teil der Anordnung zur Bedienung des Media-Geräts zugeordnet. Die bei den zuvor erläuterten Ausbildungsformen vorhandene Einheit beziehungsweise vorhandenen Einheiten zur Auswertung von Spracheingaben umfassen gemäß einer Weiterbildung der Erfindung eine Einheit zur Identifikation des jeweiligen Sprechers beziehungsweise der Bedienperson. Hierdurch ist es ebenso wie im Falle des Vorhandenseins von Mitteln zur Gesichtserkennung mit dem Zweck der Identifikation ermöglicht, die Anordnung dahingehend zu personalisieren, dass sie nur dazu berechtigten Personen die Bedienung des Media-Geräts ermöglicht. Die bereits angesprochenen Mittel beziehungsweise Einheiten zur Erkennung der Anwesenheit einer Person oder ihres Gesichts im Gesichtsfeld der Kameras dienen dazu, eine vermeintliche Zuwendung der betreffenden Person zu der erfindungsgemäßen Anordnung zum Zweck der Bedienung des Media-Geräts zu erfassen. Hierdurch wird die multimodale Bedienbarkeit insoweit verbessert, als dass nicht der Bedienung dienende Handlungen und/oder Äußerungen von Personen herausgefiltert werden und somit ohne Einfluss auf den Bedienvorgang bleiben. Die Erkennung der Zuwendung einer Person zu der Anordnung kann noch dadurch verbessert werden, dass sie ergänzend zur Feststellung der Anwesenheit der Person oder ihres Gesicht im Gesichtsfeld der Kameras an die Detektion sprachlicher Äußerungen gekoppelt wird, welche die betreffende Person an die Anordnung richtet. Eine hierzu geeignete Ausbildungsform der erfindungsgemäßen Anordnung weist vier Mikrofone zur Entgegennahme der Benutzereingaben auf. Ferner verfügt sie über eine Einheit zur Ermittlung von Laufzeitdifferenzen, welche an den vier Mikrofonen eingehende Spracheingaben zueinander aufweisen.The previously explained form of training can be further developed be that means of detecting the face of operators also for identification of a respective operator by a Face recognition are designed. In this case, the evaluation unit for the means of face detection and face recognition a reference memory for storing reference images of Faces for operating the media device of authorized persons on. The relevant reference memory is either more immediate Part of the aforementioned evaluation unit or as part of the Assigned arrangement for operating the media device. The existing in the previously described forms of training Unit or existing units for the evaluation of Speech inputs include according to a further development the invention a unit for identification of the respective speaker or the operator. This is just as it is in the Case of the presence of facial recognition means with the Purpose of identification allows the arrangement to the effect to personalize that they are only authorized persons Operation of the media device allows. The already addressed means or units for detecting the Presence of a person or their face in the field of vision of the Cameras serve to a supposed donation of the concerned Person to the inventive arrangement for Purpose of operation of the media device to capture. hereby the multimodal usability is improved insofar as that non-serving acts and / or utterances be filtered out by persons and thus without influence on remain the operation. The recognition of the affection of a person too The arrangement can be further improved by supplementing it to determine the presence of the person or their face in the Visual field of the cameras to the detection of linguistic utterances coupled, which directs the person concerned to the arrangement. A suitable embodiment of this invention Arrangement has four microphones to receive the user input on. It also has a unit for Determination of transit time differences, which at the four microphones have incoming voice inputs to each other.

Wie bereits ausgeführt, können die unterschiedlichen Mittel zur Entgegennahme von Benutzereingaben an dem Media-Gerät selbst oder an einer drahtlosen Fernbedienung oder aber sowohl teilweise an der Fernbedienung als auch an dem Media-Gerät ausgebildet sein. Eine Ausbildungsform der erfindungsgemäßen Anordnung, bei welcher zumindest ein Teil der Mittel zur Entgegennahme von Benutzereingaben als Bestandteil einer drahtlos arbeitenden Fernbedienung ausgebildet ist, kann beispielsweise derart gestaltet sein, dass in der Fernbedienung Neigungs- und Bewegungssensoren sowie mindestens eine Einheit zur Auswertung und Digitalisierung der Ausgangssignale der Neigungs- und Bewegungssensoren angeordnet sind. Die genannten Neigungs- und Bewegungssensoren und die zugehörige Auswerteeinheit sind dabei vorzugsweise neben anderen in der Fernbedienung und/oder dem Media-Gerät vorgesehenen Mitteln zur Entgegennahme von Benutzereingaben angeordnet. Mit ihnen ist es möglich, durch translatorische Bewegungen, Schwenk- oder Drehbewegungen der drahtlosen Fernbedienung Bedienkommandos für das Media-Gerät zu erteilten. Eine weitere mögliche Ausbildungsform ist durch die Anordnung eines Sensorfeldes zur Entgegennahme mittels eines Griffels ausgeführter Bedieneingaben an der drahtlosen Fernbedienung gegeben. Ferner kann die Fernbedienung in der Art einer vorzugsweise optischen Computermaus ausgebildet sein, wobei aber auch dann an ihr, neben dem optischen Sensor zur Erfassung von Mausbewegungen, die bereits mehrfach genannten mindestens zwei Kameras und eventuell weitere Mittel zur Entgegennahme von Benutzereingaben, wie Mikrofone, angeordnet sind. Als ein weiteres Eingabemittel kann an der gegebenenfalls vorhandenen Fernbedienung oder an dem Media-Gerät selbst ein Touchpad angeordnet sein. Selbstverständlich sieht das durch die erfindungsgemäße Anordnung gegebene Bedienkonzept auch Ausbildungsformen vor, bei welchen Bedienkommandos mittels einer Tastatur an einer gegebenenfalls vorhandenen Fernbedienung und/oder an dem Media-Gerät erteilt werden. Darüber hinaus können bei möglicher Ausbildungsformen der erfindungsgemäßen Anordnung Mittel zur Ausgabe von Quittierungssignalen für empfangene Benutzereingaben oder zur Ausgabe anderer Informationen an der Anordnung, das heißt an der gegebenenfalls vorhandenen Fernbedienung und/oder an dem Media-Gerät selbst, angeordnet sein. Hierbei kann es sich beispielsweise um Lautsprecher, Displays oder Signalleuchten handeln.As already stated, the different means for receiving user input may be formed on the media device itself or on a wireless remote control or both partially on the remote control and on the media device. An embodiment of the arrangement according to the invention in which at least part of the means for receiving user input is formed as part of a wireless remote control, for example, be designed such that inclination and movement sensors and at least one unit for evaluating and digitizing the output signals in the remote control the inclination and movement sensors are arranged. The aforementioned inclination and movement sensors and the associated evaluation unit are preferably arranged next to other provided in the remote control and / or the media device means for receiving user input. With them, it is possible to give operating commands for the media device by means of translatory movements, pivoting or rotating movements of the wireless remote control. Another possible embodiment is given by the arrangement of a sensor field for receiving by means of a stylus executed operating inputs to the wireless remote control. Furthermore, the remote control may be in the form of a preferably optical computer mouse, but also at her, in addition to the optical sensor for detecting mouse movements, the at least two cameras already mentioned several times and possibly further means for receiving user inputs, such as microphones, are arranged. As a further input means may be arranged on the optionally existing remote control or on the media device itself, a touchpad. Of course, given by the inventive arrangement operating concept also provides training forms in which operating commands are issued by means of a keyboard on an optionally existing remote control and / or on the media device. Moreover, in possible embodiments of the arrangement according to the invention, means for outputting acknowledgment signals for received user inputs or for outputting other information to the arrangement, that is to say the optionally present remote control and / or the media device itself, can be arranged. These may be, for example, speakers, displays or signal lights.

Nach dem die Aufgabe lösenden Verfahren zur multimodalen Bedienung eines Media-Gerätes erfolgt die Bedienung des Media-Gerätes durch Benutzereingaben an einer drahtlosen Fernbedienung und/oder an dem Media-Gerät selbst. Aus den Benutzereingaben werden im Zuge einer Auswertung Bedienkommandos abgeleitet und auf deren Grundlage Aktoren des Media-Geräts von einer Steuereinheit angesteuert. Erfindungsgemäß umfasst die Auswertung der Benutzereingaben eine Auswertung von Bildern mindestens zweier Kameras. Die Auswertung der Kamerabilder ist dabei zumindest darauf gerichtet, die Anwesenheit einer sich im Gesichtsfeld der Kameras befindenden Person festzustellen. Gegenstand der Erfindung ist es somit, für die Bedienung eines Media-Geräts zumindest teilweise auf Bedienkommandos zurückzugreifen, welche auf der Grundlage einer Auswertung von Kamera- beziehungsweise Videobildern gewonnen werden, wobei die hierfür eingesetzten Kameras entweder an einer drahtlosen Fernbedienung für das Media-Gerät oder an dem Media-Gerät selbst angeordnet sein können. Die Erfindung geht dabei von der Überlegung aus, die Anwesenheit einer Person in dem Gesichtsfeld der Kameras als Zuwendung der betreffenden Person zu der Fernbedienung oder dem mit den Kameras ausgestatteten Media-Gerät zu interpretieren. Je nach Verfahrensgestaltung kann der Umfang der Nutzung der Kamerabilder zur Bedienung des Media-Geräts unterschiedlich sein.To the task-solving method for multimodal operation a media device is the operation of the media device through user input on a wireless remote control and / or on the media device itself. From the user input derived in the course of an evaluation of operating commands and on their Based actuators of the media device from a control unit driven. According to the invention, the evaluation comprises the user inputs an evaluation of images of at least two cameras. The evaluation of the camera images is at least aimed at the presence of a person in the field of view of the cameras Determine person. The invention thus provides, for the operation of a media device at least partially Operating commands based on that an evaluation of camera or video images won be, with the cameras used for this purpose either on a wireless remote control for the media device or may be located on the media device itself. The invention is based on the consideration of the presence of a Person in the field of view of the cameras as a donation of the concerned Person to the remote control or equipped with the cameras To interpret the media device. Depending on the process design may the extent of use of the camera images to operate the media device be different.

Eine praxisrelevante Ausbildung des Verfahrens geht davon aus, dass die Anwesenheit einer Person im Gesichtsfeld der mindestens zwei Kameras, nicht oder nicht ausschließlich dazu genutzt wird das Media-Gerät beispielsweise durch Gesten zu bedienen. Danach wird diese Anwesenheit als (vermeintliche) Zuwendung der betreffenden Person zu der Fernbedienung oder dem Media-Gerät angesehen, so dass die Kameras bei Anwesenheit einer Person in ihrem Gesichtsfeld beziehungsweise die Kamerabilder als Eingabemittel und/oder dazu genutzt werden, andere zur Bedienung des Media-Geräts verwendete Eingabemittel, nämlich insbesondere Mittel zur Spracheingabe, und/oder Einheiten zur Auswertung von mit Hilfe dieser anderen Eingabemittel entgegengenommenen Benutzereingaben zur aktivieren. Die Deaktivierung der betreffenden Mittel beziehungsweise Einheiten erfolgt dabei entweder nach einer vorgegebenen Zeitspanne oder sobald die vorgenannte Person das Gesichtsfeld der Kameras wieder verlässt. Gemäß dieser Ausbildungsform der Erfindung ist das Verfahren demnach so gestaltet, dass das Media-Gerät oder eine zu seiner Bedienung genutzte drahtlose Fernbedienung die Entgegennahme von Sprachkommandos im Grunde nur dann ermöglicht, wenn sich eine Person in dem Gesichtsfeld der Kameras aufhält, also sich dem Media-Gerät beziehungsweise der Fernbedienung zuwendet.A Practical training of the method assumes that the Presence of a person in the field of vision of the at least two cameras, not or not exclusively used to the media device for example, by gestures to use. After that, this presence becomes as a (supposed) affection of the person concerned to the remote control or the media device, so the cameras are included Presence of a person in their field of vision or the Camera images are used as input and / or to others used to operate the media device input means, namely in particular means for voice input, and / or units for evaluation from user input received using these other input means to activate. The deactivation of the relevant funds or Units are carried out either after a predetermined period of time or as soon as the aforementioned person the field of vision of the cameras leaves again. According to this form of training the Invention, the method is thus designed so that the media device or a wireless remote control used for its operation Receiving voice commands basically only allows if a person is in the field of view of the cameras, So the media device or the remote control turns.

Eine bevorzugte Weiterbildung der zuvor erläuterten Verfahrensvariante besteht darin, dass die bloße Anwesenheit einer Person in dem Gesichtsfeld der Kameras noch nicht als Zuwendung interpretiert wird. Nach dieser Weiterbildung des Verfahrens wird von einer Zuwendung zum Zweck der Bedienung des Media-Geräts nur dann ausgegangen, wenn im Zuge der Auswertung der Kamerabilder das Gesicht einer sich im Gesichtsfeld der Kameras aufhaltenden Person detektiert oder – noch genauer – festgestellt wird, dass sich das Gesicht der betreffenden Person auf die Anordnung zur Bedienung des Media-Geräts zu bewegt. Hierdurch wird eine Aktivierung der Bedienung durch einen lediglich zufälligen Aufenthalt einer Person im Gesichtsfeld der Kameras ausgeschlossen. Die Detektion des Gesichts einer Bedienperson erfolgt dabei vorzugsweise durch die Nutzung von Eye-Tracking-Technologien.A preferred development of the previously explained method variant is that the mere presence of a person not yet interpreted in the field of vision of the cameras as a contribution becomes. After this development of the procedure becomes from a donation for the purpose of operating the media device only assumed when in the course of the evaluation of the camera images the face of a Detected in the field of view of the camera person or - still more precisely - it is established that the face of the person concerned with the arrangement for operating the media device too moved. This will activate the operation by a only accidental stay of a person in the field of vision the cameras excluded. The detection of the face of an operator This is done preferably by the use of eye-tracking technologies.

Im Hinblick auf das Erkennen der Zuwendung einer Bedienperson zu einer entsprechenden, die Bedienung des Media-Gerätes ermöglichenden Anordnung ist das erfindungsgemäße Verfahren entsprechend einer vorgesehenen Möglichkeit so gestaltet, dass im Falle der Anwesenheit einer Person oder der Detektion ihres Gesichts in dem Gesichtsfeld der Kameras zunächst nur die Mittel zur Entgegennahme von Spracheingaben in Form von vier an der Fernbedienung oder an dem Media-Gerät angeordneten Mikrofonen aktiviert werden. Die Mittel zur Auswertung der Spracheingaben im Hinblick auf die Ableitung von Bedienkommandos werden dabei nur aktiviert, sofern an den einzelnen Mikrofonen eingehende Spracheingaben untereinander eine vorgegebene Laufzeitdifferenz nicht überschreiten. Nur in diesem Falle wird die Anwesenheit der Person oder die Detektion ihres Gesichts in dem Gesichtsfeld der Kameras als Zuwendung zu der Fernbedienung oder zu dem Media-Gerät mit dem Ziel einer Bedienung des Media-Geräts interpretiert.With regard to recognizing the attention of an operator to a corresponding arrangement enabling the operation of the media device, the method according to the invention is configured according to an intended possibility such that in the case of the presence of a person or the detection of their face in the field of view of the cameras first only the means for receiving voice input are activated in the form of four microphones arranged on the remote control or on the media device. The means for evaluating the voice inputs with regard to the derivation of operating commands are only activated if voice input to the individual microphones does not exceed a predetermined transit time difference with one another. Only in this case will the presence of the person or interprets the detection of their face in the field of view of the cameras as a contribution to the remote control or to the media device with the aim of operating the media device.

Das Verfahren kann ferner dahingehend weitergebildet sein, dass der Vorgang der Bedienung des Media-Geräts personalisiert wird, also die Bedienung dazu berechtigten Personen vorbehalten ist. Hierbei werden die Mittel zur Entgegennahme und/oder zur Auswertung von Spracheingaben nur aktiviert, wenn eine bestimmte sich in dem Gesichtfeld der Kameras aufhaltende Person identifiziert wird. Die Identifikation der Person erfolgt dabei optisch anhand von Gesichts- und/oder Augenmerkmalen.The The method may be further developed in that the Personalize the operation of the media device, So the service is reserved for authorized persons. in this connection are the means for receiving and / or evaluating Speech inputs activated only when a specific in the field of view the cameras person is identified. The identification The person is optically based on facial and / or eye features.

Die Identifikation einer Person kann darüber hinaus zusätzlich anhand ihrer Stimme erfolgen, wobei zur Sprecheridentifizierung Sprechproben der zur Bedienung des Media-Geräts berechtigten Personen in einer Anlernphase in einem Referenzspeicher einer zur Bedienung des Media-Geräts ausgebildeten Anordnung hinterlegt werden. Nach einer dieser Überlegung folgenden Verfahrensgestaltung werden bei der Anwesenheit einer Person oder der Detektion des Gesichts einer Person zwar die Mittel zur Entgegennahme sprachlicher Benutzereingaben, also die Mikrofone der betreffenden Bedienanordnung aktiviert. Eine Auswertung entgegen genommener Benutzereingaben erfolgt jedoch zunächst nur zum Zwecke der Identifizierung der Person beziehungsweise zur Prüfung des Vorliegens ihrer Berechtigung zur Bedienung des Media-Geräts. Eine weitergehende Auswertung zur Ableitung von Bedienkommandos aus den Spracheingaben erfolgt demgemäß nur, sofern die jeweilige Person als zur Bedienung des Media-Geräts berechtigt identifiziert wird.The In addition, identification of a person may be additional by voice, with speaker identification Speech samples authorized to operate the media device Persons in a learning phase in a reference memory of the Operation of the media device trained arrangement deposited become. After one of these consideration following process design be in the presence of a person or the detection of the face Although a person has the means to accept verbal user input, So activated the microphones of the relevant control arrangement. A However, evaluation of accepted user input is initially only for the purpose of identifying the person or for Examination of the existence of their authorization to operate of the media device. A further evaluation for the derivation of operating commands from the voice inputs is accordingly only if the respective person as to the operation of the media device entitled is identified.

Soweit entsprechend der jeweils zur Anwendung kommenden Ausgestaltung des Verfahrens die Bedienung des Media-Geräts durch Spracheingaben ermöglicht ist, erfolgt die Ableitung durch Spracheingaben erteilter Bedienkommandos unter Nutzung für sich bekannter Verfahren der Spracherkennung. Dabei können aber diese Verfahren beziehungsweise die Sicherheit der Spracherkennung gemäß vorgesehener Verfahrensvarianten noch dadurch unterstützt werden, dass hierzu Informationen mit herangezogen werden, die aus von den Kameras erfassten Lippenbewegungen der Bedienperson gewonnen werden.So far in accordance with the respectively used embodiment of the Procedure the operation of the media device through voice input is possible, the derivative is given by voice inputs Operating commands using methods known per se the speech recognition. However, these methods can or the security of speech recognition according to provided Process variants are still supported by that For this information is used, which is taken from the cameras detected lip movements of the operator are obtained.

Das erfindungsgemäße Verfahren kann, wie bereits ausgeführt, derart ausgestaltet sein, dass die Auswertung der Kamerabilder ausschließlich zu dem Zweck erfolgt, aus ihnen Bedienkommandos abzuleiten oder dass diese Auswertung alternativ oder ergänzend zur Ableitung von Kommandos genutzt wird, die nicht im eigentlichen Sinne der Bedienung des Media-Gerätes dienen, sondern zur Aktivierung anderer Bedienmodi. Soweit die Kamerabilder auch zur Bedienung des Media-Geräts selbst genutzt werden, ist es dabei gemäß einer möglichen Ausgestaltung vorgesehen, dass das Verfahren die Interpretation der Kamerabilder zur Ableitung von Bedienkommandos umfasst, die durch die Mimik und/oder die Gesten einer Bedienperson erteilt werden. Die Kamerabilder werden hierbei demnach zur Ableitung und Nutzung visueller Bedienkommandos ausgewertet.The According to the invention, as already stated, be configured such that the evaluation of the camera images exclusively for the purpose of deriving operating commands from them or that this evaluation alternative or supplementary to the derivation is used by commands that are not in the true sense of the word Serve the media device, but for activation other operating modes. As far as the camera images synonymous to operate the Media device itself, it is according to a possible Design provided that the procedure interpretation includes the camera images for deriving operating commands that be given by the facial expressions and / or the gestures of an operator. The Camera images are hereby for the derivation and use of visual Operating commands evaluated.

Anhand von Zeichnungen sollen nachfolgend der erfindungsgemäße Lösungsansatz zur multimodalen Bedienung eines Media-Geräts und Möglichkeiten zu dessen Umsetzung nochmals veranschaulicht werden. In den zugehörigen Zeichnungen zeigen:Based of drawings are intended below the inventive Solution for multimodal operation of a media device and ways to implement it again become. In the accompanying drawings show:

1: die schematische Darstellung eines Bedienblocks der erfindungsgemäßen Anordnung entsprechend einer möglichen Ausbildungsform, 1 : the schematic representation of a control block of the arrangement according to the invention according to a possible embodiment,

2: einen Teil der Struktur einer möglichen Ausbildungsform der erfindungsgemäßen Anordnung in der Form eines Blockschaltbilds. 2 FIG. 2: part of the structure of a possible embodiment of the arrangement according to the invention in the form of a block diagram.

Die 1 zeigt die schematische Darstellung eines Bedienblocks einer möglichen Ausbildungsform der erfindungsgemäßen Anordnung. Der entsprechende Bedienblock kann, dem Grundgedanken der Erfindung folgend, entweder an einer drahtlos mit dem Media-Gerät zusammenarbeitenden Fernbedienung oder aber an dem Media-Gerät selbst angeordnet sein. Gemäß dem gezeigten Beispiel umfasst die entsprechende Anordnung als Eingabemittel vier, verteilt an dem Bedienblock angeordnete Mikrofone 2, 2', 2'', 2''', eine Tastatur 3 und die nach dem Grundgedanken der Erfindung zwingend vorhandenen (mindestens zwei) Kameras 1, 1'. Bei dem gezeigten Beispiel sind darüber hinaus zwei Lautsprecher 4 und ein Display 5 Bestandteile des Bedienblocks. Über die Lautsprecher 4 und/oder das Display 5 erhält eine das Media-Gerät bedienende Person zumindest Quittierungsinformationen zu den von ihr gemachten Bedieneingaben. Die optischen Achsen der in der Darstellung nicht erkennbaren Objektive der beiden Kameras 1, 1' sind so ausgerichtet, dass sie sich in einem vorgegebenen Abstand schneiden. Hierdurch wird ein Bereich definiert, welcher das Gesichtsfeld beider Kameras 1, 1' durchsetzt beziehungsweise in dem sich die Gesichtsfelder der Kameras 1, 1' überlappen. Sofern sich eine Person in diesem Bereich, also gleichzeitig im Gesichtsfeld beider Kameras 1, 1' aufhält, wird dies gegebenenfalls als Zuwendung der betreffenden Person zu dem Bedienblock mit der Absicht einer Bedienung des Media-Geräts interpretiert. Vorzugsweise erfolgt eine derartige Interpretation jedoch nur dann, wenn sich das Gesicht der betreffenden Person in dem vorgenannten Bereich befindet. Ist dies der Fall, dann werden die Mittel zur Entgegennahme akustischer Benutzereingaben, nämlich die vier Mikrofone 2, 2', 2'', 2''', aktiviert. Vorzugsweise erfolgt jedoch im Zusammenhang mit dieser Aktivierung nicht zwingend schon eine Auswertung der akustischen Benutzereingaben dahingehend, dass aus ihnen Bedienkommandos abgeleitet werden. Vielmehr ist es beispielsweise vorgesehen, dass eine Ableitung von Bedienkommandos aus akustischen beziehungsweise sprachlich getätigten Benutzereingaben nur erfolgt, sofern die zeitliche Differenz, mit der diese akustischen Eingaben an den einzelnen Mikrofonen 2, 2', 2'', 2''' eintreffen, einen vorgegebenen, in der Anordnung hinterlegten Wert nicht überschreitet. Insoweit wird die Definition dafür, wann Handlungen, Bewegungen und/oder Äußerungen der sich in der Nähe des Bedienblocks aufhaltenden Person als Zuwendung zu der Anordnung interpretiert werden, nochmals verschärft. Hierdurch wirkt die Bedienungsanordnung sehr selektiv. Es werden nämlich auf diese Weise Handlungen oder Äußerungen der betreffenden Person, welche nicht auf eine Bedienung des Media-Geräts gerichtet sind, mit einer größeren Zuverlässigkeit ausgefiltert, als bei anderen aus dem Stand der Technik bekannten Lösungen. Die an dem Bedienblock angeordneten Kameras 1, 1' dienen vorzugsweise, neben ihrer Funktion zur Aktivierung der akustischen Eingabemittel, ebenfalls der Entgegennahme von Benutzereingaben. So können die von den Kameras 1, 1' erfassten Bilder in der Weise analysiert werden, dass es ermöglicht ist, die Mimik oder Gestik einer Bedienperson zu erkennen und für die Bedienung beziehungsweise Steuerung des Media-Geräts zu nutzen.The 1 shows the schematic representation of a control block of a possible embodiment of the arrangement according to the invention. The corresponding operating block can, in accordance with the basic idea of the invention, be arranged either on a remote control cooperating wirelessly with the media device or else on the media device itself. According to the example shown, the corresponding arrangement comprises as input means four microphones arranged distributed on the operating block 2 . 2 ' . 2 '' . 2 ''' , a keyboard 3 and according to the basic idea of the invention mandatory (at least two) cameras 1 . 1' , In the example shown are also two speakers 4 and a display 5 Components of the operating block. About the speakers 4 and / or the display 5 a person using the media device receives at least acknowledgment information about the operator input made by it. The optical axes of the lenses of the two cameras, which are not recognizable in the illustration 1 . 1' are aligned so that they intersect at a given distance. This defines an area that the field of view of both cameras 1 . 1' interspersed or in which the fields of view of the cameras 1 . 1' overlap. If a person in this area, so at the same time in the field of view of both cameras 1 . 1' will stop this may be interpreted as an affection of the subject to the control panel with the intent of operating the media device. However, such an interpretation preferably takes place only when the face of the person concerned is in the aforementioned range. If so, then the means for accepting acoustic user input, namely the four microphones, become 2 . 2 ' . 2 '' . 2 ''' , activated. Preferably, however, an evaluation of the acoustic user inputs is not necessarily carried out in connection with this activation to the extent that operating commands are derived from them. Rather, it is provided, for example, that a derivation of operating commands from acoustic or linguistically performed user inputs only takes place, provided that the time difference with which these acoustic inputs to the individual microphones 2 . 2 ' . 2 '' . 2 ''' arrive, does not exceed a predetermined value stored in the order. In that regard, the definition of when actions, movements and / or utterances of the person who is in the vicinity of the control block is interpreted as a contribution to the arrangement is further exacerbated. This makes the operating instructions very selective. Namely, in this way, actions or utterances of the person concerned which are not directed to operation of the media apparatus are filtered out with greater reliability than other solutions known from the prior art. The cameras arranged on the operating block 1 . 1' are preferably, in addition to their function for activating the acoustic input means, also the receipt of user input. So can those from the cameras 1 . 1' captured images are analyzed in such a way that it is possible to recognize the facial expressions or gestures of an operator and to use for the operation or control of the media device.

Die 2 zeigt das Blockschaltbild der Struktur einer erfindungsgemäßen Anordnung in einem Ausschnitt mit deren wesentlichen Bestandteilen beziehungsweise Einheiten. Im Sinne einer multimodalen Bedienbarkeit des Media-Geräts umfasst die Anordnung danach neben den Kameras 1, 1' ein Mikrofon-Array, Bewegungs- und Neigungssensoren, einen Näherungssensor und ein Sensorfeld zur Entgegennahme mittels eines Griffels getätigter Bedieneingaben sowie eine Tastatur 3 und/oder einen Touchscreen. Im Zuge der Auswertung wird aus den mit Hilfe der vorgenannten Einheiten erfassten Bedieneingaben mittels diesen zugeordneter Einheiten jeweils ein Eingabedatensatz erstellt. Dieser Eingabedatensatz wird in der Auswerteeinheit, in welcher jedem der Mittel zur Entgegennahme von Bedieneingaben eine Einheit beziehungsweise Funktionsgruppe zur Auswertung zugeordnet ist, übergeben. Nach festen oder variablen, in dafür vorgesehenen Regelspeichern zu hinterlegenden Regeln werden die Bedieneingaben in der Auswerteeinheit analysiert und aus ihnen Bedienkommandos abgeleitet. Die Bedienkommandos werden nach ebenfalls durch die Regeln bestimmten Bedingungen zur Steuereinheit des in der Darstellung selbst nicht gezeigten Media-Geräts weitergeleitet, welche auf der Grundlage dieser Bedienkommandos entsprechende Steuersignale generiert und in dem Media-Gerät anordnete Aktoren zur Ausführung der jeweiligen Funktion – zum Beispiel Erhöhung der Lautstärke, Umschalten der jeweils wiederzugebenden Medienquelle oder Wechsel eines Empfangskanals – ansteuert.The 2 shows the block diagram of the structure of an inventive arrangement in a section with its essential components or units. In terms of multimodal usability of the media device, the arrangement then includes next to the cameras 1 . 1' a microphone array, motion and tilt sensors, a proximity sensor and a sensor field for receiving by means of a stylus of actuated inputs and a keyboard 3 and / or a touchscreen. In the course of the evaluation, an input data record is created from the operating inputs acquired by means of the aforementioned units by means of these associated units. This input data set is transferred to the evaluation unit in which each of the means for receiving operator inputs is assigned a unit or function group for evaluation. After fixed or variable rules to be stored in control memories, the operator inputs in the evaluation unit are analyzed and operating commands are derived from them. The operating commands are forwarded according to conditions also determined by the rules to the control unit of the media device not shown in the diagram, which generates corresponding control signals on the basis of these operating commands and actuators arranged in the media device for executing the respective function - for example increase the volume, switching the respective media source to be played or changing a receiving channel - controls.

Möglichkeiten zur Erfassung des Interaktionswunsches einer Bedienperson beziehungsweise eines Nutzers mit der Bedienanordnung zum Zwecke der Bedienung des Media-Gerätes einer Fernbedienung bestehen

• in der Festlegung von deterministischen, in der Anordnung abgespeicherten Regeln, die a priori festlegen, welche Bedingungen erfüllt sein müssen, damit von den Kameras 1, 1' erfasste Bilder und gegebenenfalls zusätzliche mittels des installierten Mikrofonarrays, empfangene Spracheingaben als Zuwendung beziehungsweise Hinwendung einer Person zu der Bedienanordnung interpretiert werden,
• in der Gewinnung von Merkmalsvektoren aus den eingehenden, gegebenenfalls vorverarbeiteten Bedieneingaben, die der Bildung eines zu trainierenden, statistischen Verhaltensmodells oder Medienmodells dienen, mit dessen Hilfe nach einem Trainings- beziehungsweise Adaptionsprozess beim Auftreten bestimmter Kamerasignale (z. B. zur Auswertung von Handbewegungen/Gestik) und gegebenenfalls bestimmter Sprachsignale ein Interaktionsbeginn- beziehungsweise ein Interaktionsende-Signal generiert werden kann. Das hierbei definierte Verhaltensmodell kann vor einem Trainings- beziehungsweise Adaptionsprozess durch Werte vorbelegt werden, die direkt oder indirekt aus den gemäß dem vorhergehenden Punkt definierten Regeln abgeleitet werden,
• nach Abschluss einzelner Trainingsprozesse für eine größere Anzahl von Benutzern der erfindungsgemäßen Anordnung zur Bedienung eines Media-Geräts können die trainierten Modelle der einzelnen Benutzer dazu verwendet werden, um ein davon nutzerunabhängiges Verhaltensmodell abzuleiten, welches als Anfangseinstellung/Vorbelegung zum weiteren Training für neue Benutzer der Bedienanordnung oder einer anderen nach gleichen Grundsätzen operierenden Bedienanordnung dient. Nach einem längeren Anwendungszeitraum mit einer großen Zahl von Benutzern kann damit für die meisten neuen Benutzer das Training des Verhaltensmodells zur Generierung eines „Interaktionswunsch”-Signals entfallen.

Possibilities for detecting the interaction request of an operator or a user with the operating arrangement for the purpose of operating the media device of a remote control exist

• in the definition of deterministic rules stored in the array, which a priori determine which conditions must be met, thus by the cameras 1 . 1' Captured images and possibly additional means of the installed microphone array, received voice inputs are interpreted as attention or turning a person to the control arrangement,
• in the extraction of feature vectors from the incoming, possibly preprocessed operator inputs which serve to form a statistical behavior model or media model to be trained, with the aid of which after a training or adaptation process when certain camera signals occur (eg for evaluating hand movements / Gestik) and, where appropriate, certain speech signals, an interaction start or an interaction end signal can be generated. The behavior model defined in this case can be pre-assigned before a training or adaptation process by values which are derived directly or indirectly from the rules defined according to the preceding point,
• After completion of individual training processes for a larger number of users of the arrangement according to the invention for operating a media device, the trained models of the individual users can be used to derive a user-independent behavioral model, which as an initial setting / pre-assignment for further training for new users Operating arrangement or another operating according to the same principles operating arrangement is used. After a prolonged period of use with a large number of users, this may eliminate the training of the behavioral model for generating the "interaction request" signal for most new users.

Es können zum Beispiel folgende Regeln aus den Sensorsignalen (von den Kameras 1, 1', Bewegungssensoren oder einem Sensorfeld zur Bedienung mittels eines Griffels) und aus Sprachsignalen abgeleitet werden:

• Ist die Laufzeitdifferenz von Sprachsignalen zu den räumlich an der erfindungsgemäßen Anordnung unterschiedlich angeordneten Mikrofonen 2, 2', 2'', 2''' innerhalb einer festgelegten Toleranz gleich oder nahe Null, so kann zum Beispiel davon ausgegangen werden, dass der Nutzer mit einer Applikation des Media-Geräts über die Bedienanordnung (Fernbedienung und/oder Bedienteil am Media-Gerät selbst) interagieren möchte und ein entsprechendes Aktivierungssignal generiert werden. Darüber hinaus können als Kriterium auch Entfernungsmessungen hinzugezogen werden, welche auf den Messungen der Winkel zum Nutzer über ein Kamera-Array mit vorzugsweise mehr als zwei Kameras 1, 1' basieren.
• Die Auswertung der Laufzeitdifferenzen von den Mikrofonen 2, 2', 2'', 2''' empfangener Spracheingaben wird mit einer Auswertung des Bildsignale der Kameras 1, 1' derart gekoppelt, dass durch Auswertung eines resultierenden Signals festgestellt werden kann, ob das Gesicht des Nutzers in einem oder einem von mehreren möglichen vordefinierten Winkeln zur Kamera 1, 1' erscheint, wobei nur dann das Aktivierungssignal beispielsweise zur Aktivierung der auf die Ableitung von Bedienkommandos gerichteten Auswertung in Spracheingaben generiert wird.
• Zusätzlich zur Gesichtserkennung werden über die Kameras 1, 1' Augenbewegungen erfasst, um eine potenzielle Zuwendung des Nutzers zur Fernbedienung zu erkennen und in Kombination mit gültigen Spracheingaben (z. B. „Hot Word”, Steuerbefehle) und/oder Gesten (gegebenenfalls unter Auswertung von Laufzeitdifferenzen) einen Interaktionswunsch zu detektieren und aus gültigen Spracheingaben und/oder Gesten Bedienkommandos abzuleiten und schließlich in der Steuereinheit des Media-Geräts Steuersignale zur Betätigung entsprechender Aktoren zu generieren. Dabei können in einer zusätzlichen Ausprägung der Regeln bestimmte Gesten und/oder Spracheingaben gleichzeitig eine Aktivierung beziehungsweise Deaktivierung des Interaktionswunschsignals als auch Bedienkommandos für das Media-Gerät beinhalten.
• Mittels mindestens eines in oder an einer Fernbedienung angeordneten Neigungssensors kann im Rahmen voreingestellter Toleranzen festgestellt werden, ob die Fernbedienung mit der Vorderseite nach unten oder soweit angewinkelt ist, dass von einer Orientierung des Nutzers zur Fernbedienung ausgegangen werden kann, die einen Interaktionswunsch wenig wahrscheinlich erscheinen lässt. Der Bewegungssensor dient dabei der dynamischen Erfassung der Bewegungen. Erscheint andererseits zum Beispiel das Gesicht des Nutzers nach einer bestimmten Bewegung im Kamerabild, so kann unter Umständen mit einer relativ hohen Wahrscheinlichkeit oder Wichtung auf einen Interaktionswunsch geschlossen werden.
• Wenn zusätzlich zu den mit hoher Wahrscheinlichkeit auf einen Interaktionswunsch hindeutenden Bedieneingaben eine gesprochene „Hot Word”-Kombination mit ebenfalls hoher Wahrscheinlichkeit erkannt wird, kann die durch das „Hot Word” repräsentierte Funktion aktiviert werden.
• Bei einer seitlich vertikalen Ausrichtung einer Fernbedienung mit Kamerabild ohne ein Gesicht kann zum Beispiel mit einer bestimmten Wahrscheinlichkeit davon ausgegangen werden, dass kein Interaktionswunsch (mehr) besteht, und es kann ein gegebenenfalls bestehender Aktivierungszustand deaktiviert oder ein Deaktivierungssignal generiert werden.
• Eine grundlegende, mittels Neigungs- und/oder Bewegungssensoren steuerbare Funktion ist das Ein- und Ausschalten der Fernbedienung und/oder der Set-Top-Box. Diese kann unter Nutzung von Bewegungseingaben in der Weise als „EasyOn” und „EasyOff” ausgestaltet sein, dass das Ablegen der Fernbedienung auf eine andere als die Bildschirmseite beziehungsweise Displayseite ein Einschalten des Media-Geräts bewirkt, während das Ablegen der Fernbedienungseinrichtung auf die Bildschirmseite beziehungsweise auf der „Vorderseite” zum Ausschalten des Media-Geräts oder gegebenenfalls mehrerer mit der Fernbedienung bedienbarer Media-Geräte führt.

For example, the following rules can be derived from the sensor signals (from the cameras 1 . 1' , Proof tion sensors or a sensor field for operation by means of a stylus) and are derived from speech signals:

Is the transit time difference of speech signals to the spatially differently arranged on the inventive arrangement microphones 2 . 2 ' . 2 '' . 2 ''' within a specified tolerance equal to or near zero, it can be assumed, for example, that the user wants to interact with an application of the media device via the operating arrangement (remote control and / or control panel on the media device itself) and a corresponding activation signal can be generated , In addition, as a criterion distance measurements can be included, which on the measurements of the angle to the user via a camera array with preferably more than two cameras 1 . 1' based.
• The evaluation of the transit time differences of the microphones 2 . 2 ' . 2 '' . 2 ''' received voice input is provided with an evaluation of the image signals of the cameras 1 . 1' coupled so that it can be determined by evaluating a resulting signal, whether the face of the user in one or one of several possible predefined angles to the camera 1 . 1' appears, only then the activation signal is generated, for example, to activate the directed to the derivation of operating commands evaluation in voice inputs.
• In addition to face detection, the cameras 1 . 1' Eye movement detected to detect a potential attention of the user to the remote control and in combination with valid voice inputs (eg, "hot word", control commands) and / or gestures (possibly evaluating runtime differences) to detect an interaction request and valid voice inputs and / or gestures derive operating commands and finally to generate control signals for actuating corresponding actuators in the control unit of the media device. In this case, in an additional form of the rules, certain gestures and / or voice inputs may simultaneously include an activation or deactivation of the interaction request signal as well as operating commands for the media device.
• By means of at least one arranged in or on a remote inclination sensor can be determined in the context of preset tolerances, whether the remote control with the front side down or is angled so that it can be assumed that the orientation of the user for remote control, the interaction seems less likely leaves. The motion sensor serves to record the movements dynamically. On the other hand, if, for example, the user's face appears after a certain movement in the camera image, it may possibly be concluded with a relatively high probability or weighting on an interaction request.
• If, in addition to the operator input with a high probability of an interaction request, a spoken "Hot Word" combination is also recognized with high probability, the function represented by the "Hot Word" can be activated.
• In the case of a side vertical adjustment of a remote control with a camera image without a face, it can, for example, be assumed with a certain probability that there is no longer a desire to interact and a possibly existing activation state can be deactivated or a deactivation signal can be generated.
• A basic feature that can be controlled by tilt and / or motion sensors is to turn the remote control and / or the set-top box on and off. This can be configured by using movement inputs in the manner as "EasyOn" and "EasyOff" that the removal of the remote control to another than the screen page or display page causes switching on the media device, while the removal of the remote control device to the screen page or on the "front panel" to turn off the media device or possibly several operated with the remote media devices.

Unter Nutzung der zuvor beispielhaft beschriebenen Möglichkeiten kann durch die Berücksichtigung von den Kameras 1, 1' empfangener Bildsignale und, je nach Verfahrensgestaltung, von eventuell zusätzlich entgegengenommenen akustischen Bedieneingaben gegebenenfalls unter Einbeziehung der Spracherkennung ein Satz von Regeln definiert werden, die auch als Verhaltensgrammatik bezeichnet werden können.Taking advantage of the possibilities previously exemplified by the consideration of the cameras 1 . 1' received image signals and, depending on the process design, possibly additionally additionally accepted acoustic operator inputs, if necessary, involving speech recognition, a set of rules are defined, which can also be referred to as behavioral grammar.

Vorzugsweise erfolgt das Überwachen des Interaktionsbereitschafts-Zustandes dadurch, dass zu vorgegebenen Zeitpunkten wenigstens ein erstes Eingabesignal registriert, daraus ein erster Datensatz erzeugt und durch Auswerten dieses ersten Datensatzes automatisch ein Interaktionsbereitschafts-Zustand ermittelt wird. Vorteilhaft werden diese Schritte zyklisch in einem vorgegebenen Zeitintervall ausgeführt, um eine kontinuierliche Überwachung zu gewährleisten. Die Erfassung eines Interaktionswunsches eines Benutzers des Media-Gerätes beziehungsweise einer Bedienperson kann, wie bereits dargestellt, prinzipiell mittels festgelegter, deterministischer Regeln, die in der Bedienanordnung, das heißt in einer Fernbedienung und/oder auch in dem zu bedienenden Media-Gerät selbst, hinterlegt sind, erfolgen. Dabei legen Regeln fest, welche Bedingungen vorliegen müssen, um ein ”Zuwendungs-Signal” beziehungsweise ein ”Abwendungs-Signal” für den Interaktionsbeginn beziehungsweise das Interaktionsende zu generieren. Die Bedingungen werden dabei beschrieben durch einen ersten Datensatz, welcher jeweils mittels ausgewählter Mittel entgegengenommene Bedieneingaben oder Ableitungen davon (z. B. Merkmalsvektoren und/oder Medienmodelle) repräsentiert.The monitoring of the interaction readiness state is preferably carried out by registering at least one first input signal at predefined times, generating a first data record therefrom and automatically determining an interaction readiness state by evaluating this first data record. Advantageously, these steps are performed cyclically in a predetermined time interval to ensure continuous monitoring. The detection of an interaction request of a user of the media device or an operator can, as already shown, in principle by means of defined, deterministic rules, in the control arrangement, that is deposited in a remote control and / or in the media device itself to be operated are done. Here, rules determine which conditions must be present in order to generate a "grant signal" or a "avoidance signal" for the beginning of the interaction or the end of the interaction. The conditions will be written by a first data set, which represents each operator input received by selected means or derivatives thereof (eg, feature vectors and / or media models).

Ein Medienmodell, beispielsweise ein Sprachmodell, beschreibt die Reihenfolge, in der Eingaben wie zum Beispiel Wörter oder Bewegungssequenzen und/oder andere Sensorsignale von der Auswerteeinheit erwartet werden.One Media model, such as a language model, describes the order in the inputs such as words or sequences of movements and / or other sensor signals are expected from the evaluation unit.

Gemäß einer möglichen Umsetzung des Verfahrens ist es dementsprechend vorgesehen, den ersten, aus den ersten Eingabesignalen erstellten Datensatz zu speichern, sowie wenigstens ein zweites Eingabesignal mittels einer zweiten Eingabeeinrichtung zu registrieren und daraus einen zweiten Datensatz zu erzeugen. Durch Auswerten des zweiten Datensatzes in Abhängigkeit vorgegebener fester und/oder variabler Regeln wird ein Interaktionsbereitschafts-Zustand eines Benutzers der Fernbedienung ermittelt. In Abhängigkeit dieses Interaktionsbereitschafts-Zustands und/oder einer Änderung dieses Interaktionsbereitschafts-Zustands können die variablen Regeln zur Auswertung des ersten Datensatzes auf Grundlage des gespeicherten ersten Datensatzes automatisch angepasst werden.According to one possible implementation of the method is accordingly provided, the first, created from the first input signals Record store, as well as at least a second input signal Register by means of a second input device and from it to create a second record. By evaluating the second Record in dependence of predetermined fixed and / or variable rules becomes an interaction ready state of a User of the remote control determined. Depending on this Interaction ready state and / or change This interaction ready state can be the variable Rules for evaluating the first record based on the stored first record automatically adjusted.

Tätigt nun ein vermeintlich berechtigter Benutzer des Media-Gerätes Bedieneingaben aus dem über festgelegte Laufzeitdifferenzen festgelegten Raum heraus und kann mithilfe der Kameras 1, 1' festgestellt werden, dass diese Bedieneingaben aus einem räumlichen Bereich kommen, in dem mindestens ein Gesicht mit sich bewegenden Lippen detektiert werden konnte, so kann bei Überschreitung eines für die Spracherkennungsergebnisse festgelegten Zuverlässigkeitsgrenzwertes davon ausgegangen werden, dass beim Sprecher ein Interaktionswunsch mit dem Media-Gerät (zum Beispiel Stereoanlage, Fernseher, DVD-Player, Sat-Receiver oder Set-Top-Box) besteht. Zunächst ist aber dabei noch nicht klar, ob dieser Sprecher auch zur Bedienung des Media-Geräts berechtigt ist.Now, an allegedly authorized user of the media device makes operator inputs out of the space defined by fixed runtime differences and can use the cameras 1 . 1' If it is determined that these operating inputs come from a spatial area in which at least one face with moving lips could be detected, then it can be assumed that the speaker wished to interact with the media device if a reliability limit defined for the speech recognition results was exceeded. For example, stereo, TV, DVD player, satellite receiver or set-top box) consists. At first, however, it is not yet clear whether this speaker is also authorized to operate the media device.

Dazu wird zusätzlich über die Gesichtserkennung an Hand implementierter Vergleichsmodelle festgestellt, ob ein Gesicht mit sich bewegenden Lippen dem eines berechtigten Nutzers entspricht. Ist dies der Fall, kann die Bedienung freigegeben werden.To is additionally on the face recognition Hand-implemented comparison models determined whether a face with moving lips that of an authorized user. If this is the case, the operation can be released.

Kombiniert mit der Gesichtserkennung kann aufgrund von akustischer Bedieneingaben die Stimme des lokalisierten Sprechers mithilfe bekannter Verfahren der Sprecherverifizierung/Sprechererkennung ausgewertet werden.combined with the face recognition can be due to acoustic operator inputs the voice of the localized speaker using known techniques the speaker verification / speaker recognition are evaluated.

Bei der Kombination von Ergebnissen der Sprecherverifizierung und der Gesichtserkennung können unter Umständen widersprüchliche Verifizierungsergebnisse mit unterschiedlichen Zuverlässigkeitswerten entstehen. So ist es unter der beispielhaften Voraussetzung eines einheitlichen Ergebnisbereiches von 0 bis 100 für die Sprecherverifizierung (SV) und die Gesichtserkennung (GE) und der Annahme, dass Werte von 0 bis 80 eine Ablehnung und Werte von 81 bis 100 die Akzeptanz der Eingaben bedeuten, durchaus möglich, dass zum Beispiel die Sprecherverifizierung einen Wert von 79 und die Gesichtserkennung einen Wert von 81 liefert. Noch mehrdeutiger wird die Entscheidung zur Generierung des Entscheidungssignals, wenn neben der Auswertung von mehreren Mediensignalen bei den Ergebniswerten von unterschiedlichen Zuverlässigkeitsgrenzwerten für die einzelnen Ergebnisse ausgegangen werden muss.at the combination of results of speaker verification and the Face recognition may be conflicting Verification results with different reliability values arise. So it is under the exemplary assumption of one uniform result range from 0 to 100 for speaker verification (SV) and face recognition (GE) and the assumption that values from 0 to 80 a rejection and values from 81 to 100 the acceptance the inputs mean that it's entirely possible that, for example the speaker verification has a value of 79 and the face recognition returns a value of 81. The decision becomes even more ambiguous for generating the decision signal, when in addition to the evaluation of multiple media signals in the result values of different reliability limits must be assumed for the individual results.

Dieses Problem kann zum Beispiel mit einer Normalisierung der Einzelwerte und einer gewichteten Addition der normierten Werte zur Bildung des zu vergleichenden Entscheidungswertes gelöst werden, z. B.:

For example, this problem can be solved by normalizing the individual values and weighted addition of the normalized values to form the decision value to be compared, e.g. B .:

Hierin bedeuten:

Ew: Normalisierter Entscheidungswert
Ssv: Zuverlässigkeitsscore der Sprecherverifizierung
Ssv_min: Minimalwert des Zuverlässigkeitsscores der Sprecherverifizierung
Ssv_max: Maximalwert des Zuverlässigkeitsscores der Sprecherverifizierung
Wsv: Wichtungsfaktor für den normalisierten Zuverlässigkeitsscore der Sprecherverifizierung
Sge: Zuverlässigkeitsscore der Gesichtserkennung
Sge_min: Minimalwert des Zuverlässigkeitsscores der Gesichtserkennung
Sge_max: Maximalwert des Zuverlässigkeitsscores der Gesichtserkennung
Wv3: Wichtungsfaktor für den normalisierten Zuverlässigkeitsscore der Gesichtserkennung
Sv3: Zuverlässigkeitsscore der Gesichtserkennung
Sv3_min: Minimalwert des Zuverlässigkeitsscores der 3. Verifizierung (z. B. Gestikerkennung)
Sv3_max: Maximalwert des Zuverlässigkeitsscores der 3. Verifizierung (z. B. Gestikerkennung)
Wv3: Wichtungsfaktor für den normalisierten Zuverlässigkeitsscore der 3. Verifizierung (z. B. Gestikerkennung)
Svn: Zuverlässigkeitsscore des n-ten verifizierten Mediums
SVn_min: Minimalwert des Zuverlässigkeitsscores des n-ten verifizierten Mediums
Svn_max: Maximalwert des Zuverlässigkeitsscores des n-ten verifizierten Mediums
Wvn: Wichtungsfaktor für den normalisierten Zuverlässigkeitsscore des n-ten verifizierten Mediums

Herein mean:

Ew: Normalized decision value
ssv: Reliability score of speaker verification
Ssv _min: Minimum value of the reliability score of the speaker verification
Ssv _max: Maximum value of the reliability score of the speaker verification
Wsv: Weighting factor for the normalized reliability score of speaker verification
sge: Reliability score of face recognition
Sge _min: Minimum value of the reliability score of face recognition
_Max: Maximum value of the reliability score of face recognition
WV3: Weighting factor for the normalized reliability score of face recognition
sv3: Reliability score of face recognition
Sv3 _min: Minimum value of the reliability score of the 3rd verification (eg gesture recognition)
Sv3 _max: Maximum value of the reliability score of the 3rd verification (eg gesture recognition)
WV3: Weighting factor for the normalized reliability score of the 3rd verification (eg gesture recognition)
svn: Reliability score of the nth verified medium
SVn _min: Minimum value of the reliability score of the nth verified medium
Svn _max: Maximum value of the reliability score of the nth verified medium
wvn: Weighting factor for the normalized reliability score of the nth verified medium

Im einfachsten Fall wäre hier bei gleichen normalisierten Einzelgrenzwerten und n = 3 Wsv = Wge = Wv3 = 1/n = 1/3 In the simplest case here would be at the same normalized individual limits and n = 3 Wsv = Wge = Wv3 = 1 / n = 1/3

Bei unterschiedlichen normalisierten Einzelgrenzwerten Sg_n werden die normalisierten Zuverlässigkeitsscores

selbst auf einen gemeinsamen gleichen normalisierten Grenzwert (GNG) adaptiert, so dass wieder mit gleichen Wichtungsfaktoren gearbeitet werden kann.At different normalized single limit values Sg _n , the normalized reliability scores become

even adapted to a common same normalized limit (GNG), so that you can work again with the same weighting factors.

Bei dieser Art der Normalisierung Sn_min = 0 und Sn_max = 1 kann dazu die Auflösung des Polynoms 2. Ordnung GNG = anSg2n + (1 – an)Sgn zur Berechnung des Wertes an anhand der bekannten Werte für GNG und Sg_n (Normalisierter Score-Grenzwert der n-ten Verifizierung) dienen.With this type of normalization Sn _min = 0 and Sn _max = 1, the resolution of the polynomial 2nd order can be used GNG = a n sg 2 n + (1 - a n ) Sg n to calculate the value on based on the known values for GNG and Sg _n (normalized score limit of the nth verification).

Als GNG kann z. B. ein Mittelwert der einzelnen, unterschiedlichen normalisierten Grenzwerte angenommen werden.When GNG can z. B. an average of the individual, different normalized Limit values are accepted.

Damit berechnet sich dann der Entscheidungswert wie folgt: Ew = Wv1·(a1Sg21 + (1 – a1)Sg1) + Wv2·(a2Sg22 + (1 – a2)Sg2) + Wv3·(a3Sg2 2 3 + (1 – a3)Sg3) + ... + Wvn·(anSg2n + (1 – an)Sgn) This then calculates the decision value as follows: Ew = W v1 · (A 1 sg 2 1 + (1 - a 1 ) Sg 1 ) + W v2 · (A 2 sg 2 2 + (1 - a 2 ) Sg 2 ) + W v3 · (A 3 sg 2 2 3 + (1 - a 3 ) Sg 3 ) + ... + W vn · (A n sg 2 n + (1 - a n ) Sg n )

Die Wichtungsfaktoren können nun bei gleicher Bedeutung der verschiedenen Verifizierungsverfahren wieder gleich auf 1/n gesetzt werden.The Weighting factors can now with the same meaning of different verification procedures again set equal to 1 / n become.

Über- oder unterschreitet nun Ew einen festgesetzten Grenzwert für GNG, so werden nun die Steuerbefehle weitergeleitet bzw. abgeblockt. Ähnliches kann geschehen, wenn nur Aktivierungs- bzw. Deaktivierungssignale weitergeleitet werden sollen.About- or Ew falls below a set limit for GNG, the control commands are forwarded or blocked. something similar can happen if only activation or deactivation signals to be forwarded.

Da bei einer Abkehr von einer berechtigten Person, welche gültige Befehle an der Bedienanordnung eingegeben hatte, kaum mit einer zusätzlichen Spracheingabe zu rechnen ist, werden für die Entscheidung zur Deaktivierung die Wichtungsfaktoren dahingehend modifiziert, dass z. B. Wsv auf 0 und die Wichtungsfaktoren der dann unbedingt vorhandenen restlichen Verifizierungsverfahren, bei gleicher Wertigkeit der verbleibenden Verifizierungen, auf 1/(n – 1) gesetzt werden.There in the case of a departure from an authorized person, which is valid Had entered commands on the control arrangement, hardly with one additional voice input is to be expected for the decision to deactivate the weighting factors to that effect modified that z. B. Wsv to 0 and the weighting factors of then necessarily existing remaining verification procedures, at of equal significance of the remaining verifications, to 1 / (n - 1) be set.

Das Deaktivierungssignal wird gemäß obiger Erläuterungen dann weitergeleitet, wenn ein erfolgreich verifizierter Benutzer das System aktiviert hatte, die Abkehr einer Person gemäß vorhandener Regeln festgestellt wurde und diese Person gemäß dem zuvor Beschriebenen als die Person verifiziert wurde, welche das Bedienanordnung zuvor aktiviert hatte.The Deactivation signal is according to the above explanations then forwarded if a successfully verified user activated the system, the departure of a person according to existing Rules have been established and this person according to the previously described as the person who verified the control arrangement previously activated.

Ein Deaktivierungssignal kann auch dann weitergeleitet werden, wenn festgestellt wird, dass eine andere Person, welche nicht als erste berechtigte Bedienperson verifiziert wird, versucht Steuerbefehle einzugeben. Eine weitere Möglichkeit zur Gestaltung einer implementierten Deaktivierungsregel kann auch darin bestehen, dass ein Deaktivierungssignal nach jeder Ausführung eines Bedienkommandos generiert wird und sich ein berechtigter Benutzer für weitere Bedieneingaben erneut der Anordnung zuwenden muss.A deactivation signal may be forwarded even if it is determined that another person, who is not being verified as the first authorized operator, is attempting to input control commands. Another possibility for designing an implemented deactivation rule can also be that a deactivation signal is generated after each execution of an operating command and an authorized user must return to the arrangement for further operator input.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list The documents listed by the applicant have been automated generated and is solely for better information recorded by the reader. The list is not part of the German Patent or utility model application. The DPMA takes over no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

- DE 1015695489 [0003]
- DE 20221078 U1 [0004]

Claims

Arrangement for operating a media device with means for receiving user input, units for evaluating user input and for deriving user input of given operating commands for the media device and with a control unit arranged in the media device to control actuators of the media device Device according to the user commands derived from user input, wherein the means for receiving the user input are formed as part of a wireless remote control and / or as part of the media device to be operated, characterized in that the means for receiving the user input at least two cameras ( 1 . 1' ) and that part of the units for evaluating the user inputs is at least one soft- and / or hardware-based evaluation unit, by means of which it is possible to detect the presence of a person who is in the field of vision of the at least two cameras ( 1 . 1' ), where the cameras ( 1 . 1' ) are arranged on the media device to be operated or on the optional wireless remote control so that the optical axes of their lenses intersect each other.

Arrangement according to claim 1, characterized in that the means for receiving the user input one or more microphones ( 2 . 2 ' . 2 '' . 2 ''' ) and the units for evaluating the user input a unit for interpretation by means of the microphone or microphones ( 2 . 2 ' . 2 '' . 2 ''' received voice input, the microphone (s) ( 2 . 2 ' . 2 '' . 2 ''' ) and / or the unit for interpreting the voice inputs only in the presence of a face of the cameras ( 1 . 1' ) are activated.

Arrangement according to claim 2, characterized in that the means for receiving the user inputs comprise a microphone array with three or four microphones ( 2 . 2 ' . 2 '' . 2 ''' ).

Arrangement according to one of claims 1 to 3, characterized in that for detecting the presence of a person in the field of view of the cameras ( 1 . 1' ) evaluation means comprises means for detecting the face of an operator and for calculating the direction of movement of the face of the person concerned.

Arrangement according to claim 4, characterized that the means of detecting the face of operators too for identification of a respective operator by a face recognition the means of face detection and facial recognition comprehensive evaluation unit a reference memory for deposit of reference images of the faces to operate the media device entitled Persons or has such a reference memory as part associated with the arrangement for operating the media device is.

Arrangement according to one of Claims 2 to 5, characterized in that the units for evaluating the user inputs comprise a unit for speaker identification by means of the microphone (s) ( 2 . 2 ' . 2 '' . 2 ''' ) received voice input.

Arrangement according to one of Claims 2 to 6, these four microphones ( 2 . 2 ' . 2 '' . 2 ''' ) for receiving the user inputs, characterized in that the units for evaluating the user inputs comprise a unit for determining transit time differences, which at the four microphones ( 2 . 2 ' . 2 '' . 2 ''' ) have incoming voice inputs to each other.

Arrangement according to one of claims 1 to 7, wherein at least part of the means for receiving user input as part of a wireless remote control for the media device are formed, characterized that in the remote control tilt and motion sensors and at least a unit for the evaluation and digitization of the output signals the inclination and movement sensors are arranged.

Arrangement according to one of claims 1 to 8, wherein at least part of the means for receiving user input as part of a wireless remote control for the media device are formed, characterized that on the remote control a sensor field for receiving by means of a Stylus executed operating inputs is arranged.

Arrangement according to one of claims 1 to 7, wherein at least a part of the means for receiving user input are formed as part of a wireless remote control for the media device, characterized in that the remote control in the form of an optical computer mouse has at least two cameras next to the optical sensor and at least two buttons ( 1 . 1' ) and optionally further means for receiving user input are arranged.

Arrangement according to one of claims 1 to 7, characterized in that the means for operator input a Include touchpad.

Arrangement according to one of claims 1 to 7, characterized in that the means for operating input a keyboard ( 3 ).

Arrangement according to one of claims 1 to 7, characterized in that on this means ( 4 . 5 ) for issuing acknowledgment signals for user input or other information to a person operating the media device.

Method for multimodal operation of a media device, according to which the operation of the media device by user input to a wireless remote control and / or on the media device itself takes place, derived from the user input in the course of an evaluation of operating commands and based on actuators of the Media device are controlled by a control unit, characterized in that the evaluation of the user inputs, an evaluation of images of at least two cameras ( 1 . 1' ), which are arranged on the remote control or on the media device, and that the evaluation of the camera images is directed at least to the presence of a person in the field of vision of the cameras ( 1 . 1' ).

A method according to claim 14, characterized in that in the presence of a in the field of view of the cameras ( 1 . 1' ) means are activated for the reception and / or evaluation of voice input and remain active or deactivated for a designated period of time as soon as the person concerned opens the field of view of the cameras ( 1 . 1' ) leaves again.

Method according to Claim 15, characterized in that the means for receiving and / or evaluating voice inputs are only activated if, in the course of the evaluation of the camera images, the face of a person in the field of vision of the cameras ( 1 . 1' ) is detected.

Method according to claim 16, characterized in that that the detection of the face of an operator by way of eye tracking he follows.

Method according to claim 16 or 17, wherein in the case of the presence of a person or the detection of her face in the visual field of the cameras ( 1 . 1' ) initially only the means for receiving voice input in the form of four on the remote control or on the media device arranged microphones ( 2 . 2 ' . 2 '' . 2 ''' ) are activated, characterized in that the means for evaluating the speech inputs with respect to the derivation of operating commands are only activated, if at the individual microphones ( 2 . 2 ' . 2 '' . 2 ''' ) incoming voice inputs with each other do not exceed a predetermined transit time difference, whereby only the presence of the person or the detection of their face in the field of view of the cameras ( 1 . 1' ) is interpreted as a grant to the remote control or to the media device with the aim of operating the media device

Method according to claim 16 or 17, characterized in that the means for receiving and / or evaluating voice inputs are activated only when a specific one is located in the field of view of the cameras ( 1 . 1' ), the person authorized to operate the media device is identified, wherein the identification of the person takes place visually on the basis of facial and / or eye features.

Method according to one of claims 15 to 19, characterized in that voice inputs of a person in the Be evaluated with regard to the identification of the speaker and a further evaluation for the derivation of operating commands only occurs if the respective person than to operate the media device entitled is identified, wherein the speaker identification Speech samples to operate the media device entitled Persons in a learning phase in a reference memory of the Operation of the media device trained arrangement deposited become.

Method according to one of Claims 16 to 20, characterized in that the speech recognition carried out for the derivation of operating commands as part of the evaluation of speech inputs is carried out by an evaluation by means of the cameras ( 1 . 1 ) detected lip movements of an operator is supported.

Method according to one of claims 16 to 21, characterized in that the evaluation of the camera images their Interpretation for derivation by the facial expressions of an operator and / or their gestures issued operating commands for the Media device includes.

Method according to one of claims 14 to 22, wherein the operation of the media device at least partially by means of a wireless remote control, characterized in that that the actual interpretation of accepted user input in the media device itself, with corresponding ones Means the remote control received user input in the remote control only digitized and the resulting digital data as a digital data stream for interpretation to the Media device to be transferred.