DE102009027253A1 - Arrangement for multimodal operation of media device e.g. TV set, has receiving unit with two cameras arranged at media-device or at required existing wireless remote control such that optical axes of objectives cut into each other - Google Patents
Arrangement for multimodal operation of media device e.g. TV set, has receiving unit with two cameras arranged at media-device or at required existing wireless remote control such that optical axes of objectives cut into each other Download PDFInfo
- Publication number
- DE102009027253A1 DE102009027253A1 DE200910027253 DE102009027253A DE102009027253A1 DE 102009027253 A1 DE102009027253 A1 DE 102009027253A1 DE 200910027253 DE200910027253 DE 200910027253 DE 102009027253 A DE102009027253 A DE 102009027253A DE 102009027253 A1 DE102009027253 A1 DE 102009027253A1
- Authority
- DE
- Germany
- Prior art keywords
- media device
- remote control
- cameras
- person
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
Abstract
Description
Die Erfindung betrifft eine Lösung zur komfortablen Bedienung eines Media-Gerätes. Sie bezieht sich auf eine Anordnung zur Bedienung eines solchen Gerätes. Gegenstand der Erfindung ist dabei insbesondere die multimodale Bedienung eines Media-Gerätes. Entsprechend einer besonders bevorzugten Ausbildung der Erfindung handelt es sich bei dem Media-Gerät um ein Gerät, dessen multimodale Bedienbarkeit mindestens auch die Möglichkeit einer Bedienung durch Sprachkommandos umfasst, wobei sich die Lösung in diesem Zusammenhang insbesondere auf die Aktivierung beziehungsweise Deaktivierung entsprechender Mittel zur Entgegennahme und/oder Auswertung von Sprachkommandos bezieht. Die Erfindung bezieht sich gleichermaßen auf Konstellationen, bei denen eine Bedienung des Media-Gerätes ausschließlich an dem Gerät selbst erfolgt, wie auf solche, deren Bestandteil eine drahtlose Fernbedienung ist. Im letztgenannten Fall kann dabei die Bedienung des Media-Gerätes ausschließlich mittels der Fernbedienung, gegebenenfalls aber auch nur teilweise mittels der Fernbedienung und darüber hinaus an dem Media-Gerät selbst erfolgen. Im Hinblick auf eine Konstellation mit Bedienmöglichkeiten sowohl an der Fernbedienung, als auch am Gerät wird im Zusammenhang mit der Erfindung von einer Anordnung gesprochen, da in diesem Falle die Bedienbarkeit des Media-Geräts nicht mittels eine integrale Einheit oder Vorrichtung realisiert ist, sondern mittels einer aus zwei Bestandteilen bestehenden Anordnung, nämlich dem Media-Gerät und einer drahtlosen Fernbedienung.The The invention relates to a solution for convenient operation a media device. It refers to an arrangement to operate such a device. Subject of the invention is in particular the multimodal operation of a media device. According to a particularly preferred embodiment of the invention is the media device a device, its multimodal usability at least also the possibility an operation by voice commands, which is the solution in this context, in particular on the activation or Deactivation of appropriate means for receipt and / or evaluation of voice commands. The invention relates equally on constellations where an operation of the media device exclusively on the device itself, such as to those whose component is a wireless remote control. In the latter case, the operation of the media device exclusively by means of the remote control, if necessary but only partially by means of the remote control and above Be done on the media device itself. In terms of on a constellation with operating options both the remote control, as well as the device is related spoken with the invention of an arrangement, since in this case the usability of the media device not by means of an integral Unit or device is realized, but by means of a two-component arrangement, namely the media device and a wireless remote control.
Nach dem Stand der Technik erfolgt die Bedienung von Media-Geräten, wie Geräten der Unterhaltungselektronik, so beispielsweise von Fernsehgeräten, HiFi-Geräten oder von Geräten zur Aufzeichnung und Wiedergabe von Bild und/oder Ton, im Allgemeinen mittels mechanischer Bedienelemente, die entweder an dem jeweils zu bedienenden Gerät selbst oder an einer vorzugsweise mit diesem Gerät drahtlos kommunizierenden Fernbedienung angeordnet sind. Im Einzelfalle sind dabei die Bedienelemente selbst, im Hinblick auf ihre Wirkmechanismen, nicht als mechanische Bedienelemente ausgestattet, aber dennoch insoweit als mechanische Bedienelemente anzusehen, als dass sie zu ihrer Betätigung einer Berührung durch eine das entsprechende Media-Gerät bedienende Person bedürfen.To In the prior art, the operation of media devices, such as consumer electronics devices, such as television sets, hi-fi equipment or devices for recording and playback of image and / or sound, in general by means of mechanical controls, either at the respective to be operated device itself or at a preferably arranged with this device wirelessly communicating remote control are. In some cases, the controls themselves, in terms on their mechanisms of action, not equipped as mechanical controls, but nevertheless to be considered as mechanical controls insofar than that to their actuation a touch by a person using the corresponding media device require.
Darüber
hinaus ist es bekannt, Media-Geräte mittels Sprachkommandos
zu bedienen. Hierbei treten jedoch mehrere Probleme zutage. So ist
es einerseits erforderlich, die zur Bedienung des Geräts
dienenden Sprachkommandos akustisch von Störgeräuschen
der Umgebung zu unterscheiden beziehungsweise eventuelle Störgeräusche
im Hinblick auf die Auswertung zu eliminieren. Andererseits können
Situationen entstehen, bei welchen beispielsweise durch sich in
der Nähe des Geräts unterhaltende Personen Wörter
gebraucht werden, die auch in Sprachkommandos zur Bedienung des
Media-Geräts Verwendung finden, aber im Moment einer solchen
Unterhaltung keine Bedienvorgänge am Gerät auslösen
sollen. Das erstgenannte Problem wird zum Beispiel dadurch gelöst,
dass die Position einer das Gerät per Sprachkommando bedienenden
Person bestimmt und hierdurch der Ausschluss von Störgeräuschen
erleichtert wird. Eine derartige Lösung wird zum Beispiel
in der
Eine
weitere Möglichkeit der Bedienung, welche in zunehmendem
Maße Einsatz findet, besteht darin, die Bedienung durch
unterschiedliche Bewegungen einer Fernbedienungen oder des zu bedienenden
Geräts selbst zu steuern. Dazu ist es bekannt, in entsprechenden
Fernbedienungen oder Media-Geräten Bewegungs- und Neigungssensoren
anzuordnen und jeweils die mit ihrer Hilfe bestimmte Lage und/oder
Position des jeweiligen Gerätes (Fernbedienung oder Media-Gerät)
zur Ableitung von Steuersignalen für Aktoren zu nutzen, welche
Funktionen des Media-Geräts ausführen. So ist
beispielsweise aus der
Die zuvor beschriebenen Bedienmöglichkeiten haben den Nachteil, dass es beispielsweise beim Betreten eines Raumes, in welchem ein zu bedienendes Media-Gerät angeordnet ist, erforderlich ist, dass die diese Bedienung vornehmende Person zunächst eine entsprechende Fernbedienung oder das Gerät berührt. Hingegen erweist sich eine Bedienung per Sprachkommandos aufgrund der vorstehend geschilderten Umstände, insbesondere im häuslichen Bereich beziehungsweise in größeren Räumen eines Gebäudes, als vergleichsweise problematisch.The previously described operating options have the disadvantage that, for example, when entering a room in which a arranged to be operated media device required is that the person performing this service first a corresponding remote control or the device touches. On the other hand proves to be an operator by voice commands due to the above described circumstances, especially in domestic Area or in larger rooms of a building, as comparatively problematic.
Aufgabe der Erfindung ist es, eine Lösung anzugeben, welche eine komfortablere Bedienung eines Media-Geräts ermöglicht. Hierzu sollen ein Verfahren sowie eine zur Durchführung des Verfahrens geeignete Anordnung angegeben werden. Vorzugsweise soll die zu schaffende Lösung insbesondere auch eine Bedienung des Media-Geräts durch Sprachkommandos ermöglichen und dabei so ausgestaltet sein, dass eine einfache Aktivierung der die Sprachkommandos entgegennehmenden und/oder der sie auswertenden Einheiten ermöglicht ist.task The invention is to provide a solution which a more comfortable operation of a media device. For this purpose a procedure as well as a procedure should be carried out of the method are given appropriate arrangement. Preferably should the solution to be created in particular also an operation of the media device through voice commands and be designed so that a simple activation of the receiving the voice commands and / or evaluating them Units is possible.
Die Aufgabe wird durch eine Anordnung mit den Merkmalen des Hauptanspruchs gelöst. Ein die Aufgabe lösendes Verfahren ist durch den ersten verfahrensbezogenen Anspruch charakterisiert. Vorteilhafte Ausbeziehungsweise Weiterbildungen der Erfindung sind durch die Unteransprüche gegeben.The The object is achieved by an arrangement having the features of the main claim solved. A problem solving method is characterized by the first procedural claim. Advantageous Ausbeziehungsweise Further developments of the invention are defined by the subclaims given.
Eine die Aufgabe lösende Anordnung zur Bedienung eines Media-Gerätes besteht aus Mitteln zur Entgegennahme von Benutzereingaben, Einheiten zur Auswertung von Benutzereingaben und zur Ableitung durch Benutzereingaben gegebener Bedienkommandos für das Media-Gerät sowie aus mindestens einer in dem zu bedienenden Media-Gerät angeordneten Steuereinheit. Mittels der letztgenannten Steuereinheit werden dabei Aktoren des Media-Geräts entsprechend den aus Benutzereingaben abgeleiteten Bedienkommandos angesteuert, wobei mit Hilfe derartiger Aktoren beispielsweise die Lautstärke einer HiFi-Anlage oder eines Fernsehgeräts verändert oder der Empfangskanal eines Receivers beziehungsweise einer Set-Top-Box umgeschaltet werden kann. Die erwähnten Mittel zur Entgegennahme der Benutzereingaben sind bei der vorgeschlagenen Anordnung als Bestandteil einer drahtlosen Fernbedienung und/oder als Bestandteil des zu bedienenden Media-Geräts selbst ausgebildet. Erfindungsgemäß umfassen diese Mittel mindestens zwei Kameras. Zudem ist Bestandteil der Einheiten zur Auswertung von Benutzereingaben mindestens eine soft- und/oder hardwaregestützte Auswerteeinheit, durch welche die Erkennung der Anwesenheit einer Person ermöglicht ist, die sich im Gesichtsfeld der mindestens zwei Kameras aufhält. Dabei sind die Kameras so angeordnet, dass die optischen Achsen ihrer Objektive einander schneiden, so dass sich ihre Gesichtfelder überlappen. Soweit vorstehend oder nachfolgend von der Erkennung der Anwesenheit einer Person im Gesichtsfeld der Kameras beziehungsweise der mindestens zwei Kameras ausgegangen wird, meint dies die Erkennung einer Person, die sich gleichzeitig im Gesichtsfeld aller gegebenenfalls vorhandenen Kameras, also in dem Bereich aufhält, in dem sich die Gesichtsfelder der Kameras mit den einander schneidenden optischen Achsen überlappen. Dabei sind alle Kameras deren Bilder gemeinsam auf die Anwesenheit einer Person in ihrem Gesichtsfeld zu überprüfen sind, entweder an dem zu bedienenden Gerät oder der gegebenenfalls vorhandenen Fernbedienung angeordnet, jedoch nicht auf diese gegebenenfalls zwei Bestandteile der erfindungsgemäßen Anordnung aufgeteilt.A the task-solving arrangement for operating a media device consists of means for receiving user input, units for the evaluation of user input and derivation by user input given operating commands for the media device and at least one in the media device to be operated arranged control unit. By means of the latter control unit be actor of the media device according to the driven from user input derived control commands, wherein with the help of such actuators, for example, the volume a hi-fi system or a TV or the receiving channel of a receiver or a set-top box can be switched. The mentioned means of receipt the user inputs are in the proposed arrangement as Part of a wireless remote control and / or as a component formed of the media device itself. According to the invention these means at least two cameras. In addition, is part of the Units for evaluating user input at least one soft- and / or hardware-based evaluation unit, by means of which the detection of the presence of a person is possible, the is in the field of vision of the at least two cameras. The cameras are arranged so that the optical axes their lenses intersect so that their faces overlap. As far as above or below from the detection of presence a person in the field of view of the cameras or the at least two cameras is assumed, this means the detection of a person who at the same time in the field of vision of all possibly existing ones Cameras, so in the area stops where the fields of vision overlap the cameras with the intersecting optical axes. there all cameras share their pictures together in the presence of one Person to check in their field of vision, either on the device to be operated or if necessary remote control, but not on this if necessary split two components of the inventive arrangement.
Eine solche Anordnung ermöglicht es, in die Bedienung eines Media-Geräts visuelle Bedienkommandos in unterschiedlicher Weise einzubeziehen. Darüber hinaus sind vorzugsweise weitere, noch im Einzelnen zu nennende Mittel zur Entgegennahme von Benutzereingaben Bestandteil der erfindungsgemäßen Anordnung. Im Hinblick auf eine multimodale Bedienbarkeit des Media-Geräts umfassen solche weiteren Mittel beispielsweise mindestens ein Mikrofon, wobei Bestandteil der Einheiten zur Auswertung der Benutzereingaben eine Einheit zur Interpretation mittels des mindestens einen Mikrofons entgegengenommener Spracheingaben ist. Entsprechend einer besonders vorteilhaften Ausbildungsform umfassen die Mittel zur Entgegennahme von Bedienkommandos ein Mikrofonarray mit 3 oder 4 Mikrofonen. Eine mit mindestens einem Mikrofon und einer zugehörigen Auswerteeinheit ausgestattete Ausbildungsform der erfindungsgemäßen Anordnung ist entsprechend einer vorgesehenen Variante so gestaltet, dass das Mikrofon und/oder die Einheit zur Interpretation der Spracheingaben nur bei Anwesenheit einer sich im Gesichtsfeld der Kameras befindenden Personen aktiviert sind. Die Mittel zur Entgegennahme von Benutzerangaben in ihrer Gesamtheit können, sofern die erfindungsgemäße Anordnung auch eine Fernbedienung umfasst, auf das zu bedienende Media-Gerät und die Fernbedienung aufgeteilt sein, wobei jedoch, wie bereits ausgeführt, die gemein auf die Anwesenheit einer Person in ihrem Gesichtsfeld zu überprüfenden Kameras entweder an dem Media-Gerät oder an der Fernbedienung angeordnet sind. Dies schließt jedoch nicht aus, dass sowohl an dem Media-Gerät als auch an der gegebenenfalls vorhandenen Fernbedienung jeweils mindestens zwei Kameras angeordnet sind. Hierbei bilden dann die an dem Media-Gerät angeordneten Kameras eine erste Gruppe von gemeinsam auf die Anwesenheit einer Person in ihrem Gesichtsfeld zu überprüfenden Kameras und die Kameras an der Fernbedienung eine davon unabhängige zweite Gruppe gemeinsam zu überprüfender Kameras aus. Gewissermaßen im Sinne einer Redundanz kann dann beispielsweise insbesondere die Aktivierung der gegebenenfalls weiteren vorhandenen Mittel zur Entgegennahme von Bedieneingaben durch Zuwendung einer Person zu dem Media-Gerät oder zur Fernbedienung erfolgen.A Such arrangement allows in the operation of a Media device visual control commands in different Way to involve. In addition, preferably further, still to be mentioned in detail means for receiving user input Component of the inventive arrangement. in the Regard to a multimodal usability of the media device For example, such further means comprise at least one microphone, wherein component of the units for evaluating the user input a Unit for interpretation by means of at least one microphone is received voice input. According to one particular advantageous embodiment include the means of receipt of operator commands a microphone array with 3 or 4 microphones. A with at least one microphone and an associated evaluation unit equipped embodiment of the invention Arrangement is designed according to a proposed variant so that the microphone and / or the unit for interpreting the speech inputs only in the presence of a field of view of the cameras Persons are activated. The means of receiving user information in their entirety, provided that the invention Arrangement also includes a remote control on which to operate Media device and the remote control be split, taking However, as stated earlier, the common to the presence to examine a person in their field of vision Cameras either on the media device or on the remote control are arranged. However, this does not rule out that both on the media device as well as on the possibly existing one Remote each have at least two cameras are arranged. in this connection then form the cameras arranged on the media device a first group of together on the presence of a person in their field of vision to be examined cameras and the cameras on the remote one of them independent second group of cameras to be checked together out. To a certain extent in the sense of redundancy then, for example in particular the activation of any other resources available to receive operator input by donating one person to the media device or remote control.
Im Kontext der Darstellung der Erfindung und der Patentansprüche soll unter dem Begriff „Einheit” – wie er beispielsweise vorstehend im Zusammenhang mit der Interpretation von Spracheingaben, aber auch nachfolgend insbesondere im Zusammenhang mit anderen Auswertungsfunktionen der Anordnung gebraucht wird – nicht zwingend ein körperlich in sich abgeschlossener beziehungsweise abgegrenzter Bestandteil der Anordnung verstanden werden. Vielmehr ist dem Fachmann klar, dass es sich hierbei im Allgemeinen um den funktionellen Bestandteil einer übergeordneten mehrere Funktionen bereitstellenden Einheit handeln wird, der zudem gegebenenfalls rein softwaremäßig, in der Regel aber zumindest durch soft- und hardwaremittel realisiert ist. Insoweit soll der Begriff „Einheit” den Gegenstand der Erfindung nicht beschränken und kann auch im Sinne einer Funktionsgruppe verstanden werden.In the context of the presentation of the invention and the claims, the term "unit" - as used above, for example, in connection with the interpretation of speech inputs, but also is used below in particular in connection with other evaluation functions of the arrangement - not necessarily a physically self-contained or demarcated part of the arrangement to be understood. Rather, it is clear to the person skilled in the art that this will generally be the functional component of a superordinate unit providing a plurality of functions which, if appropriate, is also implemented purely by software, but generally at least by soft- and hardware-means. In that regard, the term "unit" is not intended to limit the scope of the invention and may also be understood in terms of a functional group.
Die zuvor dargestellte Ausbildungsform der erfindungsgemäßen Anordnung mit einer bedingten Aktivierung der Mittel zur Entgegennahme und/oder Auswertung von Spracheingaben ist vorzugsweise noch dadurch weitergebildet, dass die zur Erkennung der Anwesenheit einer Person im Gesichtsfeld der Kameras dienende Auswerteeinheit Mittel zur Detektion des Gesichts einer Bedienperson umfasst. Hierbei erfolgt eine Verarbeitung eventueller visueller Bedienkommandos oder die schon angesprochene Aktivierung von Mitteln zur Entgegennahme beziehungsweise zur Auswertung von Sprachkommandos nur dann, wenn beziehungsweise nur so lange, wie das Gesicht einer Bedienperson im Gesichtsfeld der Kameras detektiert wird. Mithin wird allenfalls die Anwesenheit des Gesichts einer Bedienperson in dem Gesichtsfeld der Kameras dahingehend interpretiert, dass sich diese Person einer entsprechend ausgestalteten Anordnung zur Bedienung des Media-Geräts mit der Absicht einer Bedienung zuwendet. Aufgrund der möglichen Berechnung der Bewegungsrichtung des Gesichts kann dabei sogar noch genauer zwischen einer tatsächlichen Zuwendung oder einem Abwenden von der Anordnung, bei welchem sich das detektierte Gesicht von der Anordnung entfernt, unterschieden werden.The previously illustrated embodiment of the invention Arrangement with a conditional activation of the means of receipt and / or evaluation of voice inputs is preferably still by further developed that to detect the presence of a person in the field of view of the cameras serving evaluation means for Detection of the face of an operator includes. This takes place a processing of any visual control commands or the already mentioned activation of means for receipt or for the evaluation of voice commands only if or only as long as the face of an operator in the field of vision Cameras is detected. Thus, at best, the presence the face of an operator in the field of view of the cameras interpreted to mean that this person a corresponding designed arrangement for operating the media device with the intention of an operation turned. Because of the possible Calculating the direction of movement of the face can even do it more precisely between an actual attention or a turning away from the arrangement in which the detected face of the arrangement can be distinguished.
Die zuvor erläuterte Ausbildungsform kann noch dadurch weitergebildet sein, dass die Mittel zur Detektion des Gesichts von Bedienpersonen auch zur Identifikation einer jeweiligen Bedienperson durch eine Gesichtserkennung ausgelegt sind. Hierbei weist die Auswerteeinheit für die Mittel zur Gesichtsdetektion und Gesichtserkennung einen Referenzspeicher zur Hinterlegung von Referenzbildern der Gesichter zur Bedienung des Media-Geräts berechtigter Personen auf. Der betreffende Referenzspeicher ist dabei entweder unmittelbarer Bestandteil der vorgenannten Auswerteeinheit oder ihr als Teil der Anordnung zur Bedienung des Media-Geräts zugeordnet. Die bei den zuvor erläuterten Ausbildungsformen vorhandene Einheit beziehungsweise vorhandenen Einheiten zur Auswertung von Spracheingaben umfassen gemäß einer Weiterbildung der Erfindung eine Einheit zur Identifikation des jeweiligen Sprechers beziehungsweise der Bedienperson. Hierdurch ist es ebenso wie im Falle des Vorhandenseins von Mitteln zur Gesichtserkennung mit dem Zweck der Identifikation ermöglicht, die Anordnung dahingehend zu personalisieren, dass sie nur dazu berechtigten Personen die Bedienung des Media-Geräts ermöglicht. Die bereits angesprochenen Mittel beziehungsweise Einheiten zur Erkennung der Anwesenheit einer Person oder ihres Gesichts im Gesichtsfeld der Kameras dienen dazu, eine vermeintliche Zuwendung der betreffenden Person zu der erfindungsgemäßen Anordnung zum Zweck der Bedienung des Media-Geräts zu erfassen. Hierdurch wird die multimodale Bedienbarkeit insoweit verbessert, als dass nicht der Bedienung dienende Handlungen und/oder Äußerungen von Personen herausgefiltert werden und somit ohne Einfluss auf den Bedienvorgang bleiben. Die Erkennung der Zuwendung einer Person zu der Anordnung kann noch dadurch verbessert werden, dass sie ergänzend zur Feststellung der Anwesenheit der Person oder ihres Gesicht im Gesichtsfeld der Kameras an die Detektion sprachlicher Äußerungen gekoppelt wird, welche die betreffende Person an die Anordnung richtet. Eine hierzu geeignete Ausbildungsform der erfindungsgemäßen Anordnung weist vier Mikrofone zur Entgegennahme der Benutzereingaben auf. Ferner verfügt sie über eine Einheit zur Ermittlung von Laufzeitdifferenzen, welche an den vier Mikrofonen eingehende Spracheingaben zueinander aufweisen.The previously explained form of training can be further developed be that means of detecting the face of operators also for identification of a respective operator by a Face recognition are designed. In this case, the evaluation unit for the means of face detection and face recognition a reference memory for storing reference images of Faces for operating the media device of authorized persons on. The relevant reference memory is either more immediate Part of the aforementioned evaluation unit or as part of the Assigned arrangement for operating the media device. The existing in the previously described forms of training Unit or existing units for the evaluation of Speech inputs include according to a further development the invention a unit for identification of the respective speaker or the operator. This is just as it is in the Case of the presence of facial recognition means with the Purpose of identification allows the arrangement to the effect to personalize that they are only authorized persons Operation of the media device allows. The already addressed means or units for detecting the Presence of a person or their face in the field of vision of the Cameras serve to a supposed donation of the concerned Person to the inventive arrangement for Purpose of operation of the media device to capture. hereby the multimodal usability is improved insofar as that non-serving acts and / or utterances be filtered out by persons and thus without influence on remain the operation. The recognition of the affection of a person too The arrangement can be further improved by supplementing it to determine the presence of the person or their face in the Visual field of the cameras to the detection of linguistic utterances coupled, which directs the person concerned to the arrangement. A suitable embodiment of this invention Arrangement has four microphones to receive the user input on. It also has a unit for Determination of transit time differences, which at the four microphones have incoming voice inputs to each other.
Wie bereits ausgeführt, können die unterschiedlichen Mittel zur Entgegennahme von Benutzereingaben an dem Media-Gerät selbst oder an einer drahtlosen Fernbedienung oder aber sowohl teilweise an der Fernbedienung als auch an dem Media-Gerät ausgebildet sein. Eine Ausbildungsform der erfindungsgemäßen Anordnung, bei welcher zumindest ein Teil der Mittel zur Entgegennahme von Benutzereingaben als Bestandteil einer drahtlos arbeitenden Fernbedienung ausgebildet ist, kann beispielsweise derart gestaltet sein, dass in der Fernbedienung Neigungs- und Bewegungssensoren sowie mindestens eine Einheit zur Auswertung und Digitalisierung der Ausgangssignale der Neigungs- und Bewegungssensoren angeordnet sind. Die genannten Neigungs- und Bewegungssensoren und die zugehörige Auswerteeinheit sind dabei vorzugsweise neben anderen in der Fernbedienung und/oder dem Media-Gerät vorgesehenen Mitteln zur Entgegennahme von Benutzereingaben angeordnet. Mit ihnen ist es möglich, durch translatorische Bewegungen, Schwenk- oder Drehbewegungen der drahtlosen Fernbedienung Bedienkommandos für das Media-Gerät zu erteilten. Eine weitere mögliche Ausbildungsform ist durch die Anordnung eines Sensorfeldes zur Entgegennahme mittels eines Griffels ausgeführter Bedieneingaben an der drahtlosen Fernbedienung gegeben. Ferner kann die Fernbedienung in der Art einer vorzugsweise optischen Computermaus ausgebildet sein, wobei aber auch dann an ihr, neben dem optischen Sensor zur Erfassung von Mausbewegungen, die bereits mehrfach genannten mindestens zwei Kameras und eventuell weitere Mittel zur Entgegennahme von Benutzereingaben, wie Mikrofone, angeordnet sind. Als ein weiteres Eingabemittel kann an der gegebenenfalls vorhandenen Fernbedienung oder an dem Media-Gerät selbst ein Touchpad angeordnet sein. Selbstverständlich sieht das durch die erfindungsgemäße Anordnung gegebene Bedienkonzept auch Ausbildungsformen vor, bei welchen Bedienkommandos mittels einer Tastatur an einer gegebenenfalls vorhandenen Fernbedienung und/oder an dem Media-Gerät erteilt werden. Darüber hinaus können bei möglicher Ausbildungsformen der erfindungsgemäßen Anordnung Mittel zur Ausgabe von Quittierungssignalen für empfangene Benutzereingaben oder zur Ausgabe anderer Informationen an der Anordnung, das heißt an der gegebenenfalls vorhandenen Fernbedienung und/oder an dem Media-Gerät selbst, angeordnet sein. Hierbei kann es sich beispielsweise um Lautsprecher, Displays oder Signalleuchten handeln.As already stated, the different means for receiving user input may be formed on the media device itself or on a wireless remote control or both partially on the remote control and on the media device. An embodiment of the arrangement according to the invention in which at least part of the means for receiving user input is formed as part of a wireless remote control, for example, be designed such that inclination and movement sensors and at least one unit for evaluating and digitizing the output signals in the remote control the inclination and movement sensors are arranged. The aforementioned inclination and movement sensors and the associated evaluation unit are preferably arranged next to other provided in the remote control and / or the media device means for receiving user input. With them, it is possible to give operating commands for the media device by means of translatory movements, pivoting or rotating movements of the wireless remote control. Another possible embodiment is given by the arrangement of a sensor field for receiving by means of a stylus executed operating inputs to the wireless remote control. Furthermore, the remote control may be in the form of a preferably optical computer mouse, but also at her, in addition to the optical sensor for detecting mouse movements, the at least two cameras already mentioned several times and possibly further means for receiving user inputs, such as microphones, are arranged. As a further input means may be arranged on the optionally existing remote control or on the media device itself, a touchpad. Of course, given by the inventive arrangement operating concept also provides training forms in which operating commands are issued by means of a keyboard on an optionally existing remote control and / or on the media device. Moreover, in possible embodiments of the arrangement according to the invention, means for outputting acknowledgment signals for received user inputs or for outputting other information to the arrangement, that is to say the optionally present remote control and / or the media device itself, can be arranged. These may be, for example, speakers, displays or signal lights.
Nach dem die Aufgabe lösenden Verfahren zur multimodalen Bedienung eines Media-Gerätes erfolgt die Bedienung des Media-Gerätes durch Benutzereingaben an einer drahtlosen Fernbedienung und/oder an dem Media-Gerät selbst. Aus den Benutzereingaben werden im Zuge einer Auswertung Bedienkommandos abgeleitet und auf deren Grundlage Aktoren des Media-Geräts von einer Steuereinheit angesteuert. Erfindungsgemäß umfasst die Auswertung der Benutzereingaben eine Auswertung von Bildern mindestens zweier Kameras. Die Auswertung der Kamerabilder ist dabei zumindest darauf gerichtet, die Anwesenheit einer sich im Gesichtsfeld der Kameras befindenden Person festzustellen. Gegenstand der Erfindung ist es somit, für die Bedienung eines Media-Geräts zumindest teilweise auf Bedienkommandos zurückzugreifen, welche auf der Grundlage einer Auswertung von Kamera- beziehungsweise Videobildern gewonnen werden, wobei die hierfür eingesetzten Kameras entweder an einer drahtlosen Fernbedienung für das Media-Gerät oder an dem Media-Gerät selbst angeordnet sein können. Die Erfindung geht dabei von der Überlegung aus, die Anwesenheit einer Person in dem Gesichtsfeld der Kameras als Zuwendung der betreffenden Person zu der Fernbedienung oder dem mit den Kameras ausgestatteten Media-Gerät zu interpretieren. Je nach Verfahrensgestaltung kann der Umfang der Nutzung der Kamerabilder zur Bedienung des Media-Geräts unterschiedlich sein.To the task-solving method for multimodal operation a media device is the operation of the media device through user input on a wireless remote control and / or on the media device itself. From the user input derived in the course of an evaluation of operating commands and on their Based actuators of the media device from a control unit driven. According to the invention, the evaluation comprises the user inputs an evaluation of images of at least two cameras. The evaluation of the camera images is at least aimed at the presence of a person in the field of view of the cameras Determine person. The invention thus provides, for the operation of a media device at least partially Operating commands based on that an evaluation of camera or video images won be, with the cameras used for this purpose either on a wireless remote control for the media device or may be located on the media device itself. The invention is based on the consideration of the presence of a Person in the field of view of the cameras as a donation of the concerned Person to the remote control or equipped with the cameras To interpret the media device. Depending on the process design may the extent of use of the camera images to operate the media device be different.
Eine praxisrelevante Ausbildung des Verfahrens geht davon aus, dass die Anwesenheit einer Person im Gesichtsfeld der mindestens zwei Kameras, nicht oder nicht ausschließlich dazu genutzt wird das Media-Gerät beispielsweise durch Gesten zu bedienen. Danach wird diese Anwesenheit als (vermeintliche) Zuwendung der betreffenden Person zu der Fernbedienung oder dem Media-Gerät angesehen, so dass die Kameras bei Anwesenheit einer Person in ihrem Gesichtsfeld beziehungsweise die Kamerabilder als Eingabemittel und/oder dazu genutzt werden, andere zur Bedienung des Media-Geräts verwendete Eingabemittel, nämlich insbesondere Mittel zur Spracheingabe, und/oder Einheiten zur Auswertung von mit Hilfe dieser anderen Eingabemittel entgegengenommenen Benutzereingaben zur aktivieren. Die Deaktivierung der betreffenden Mittel beziehungsweise Einheiten erfolgt dabei entweder nach einer vorgegebenen Zeitspanne oder sobald die vorgenannte Person das Gesichtsfeld der Kameras wieder verlässt. Gemäß dieser Ausbildungsform der Erfindung ist das Verfahren demnach so gestaltet, dass das Media-Gerät oder eine zu seiner Bedienung genutzte drahtlose Fernbedienung die Entgegennahme von Sprachkommandos im Grunde nur dann ermöglicht, wenn sich eine Person in dem Gesichtsfeld der Kameras aufhält, also sich dem Media-Gerät beziehungsweise der Fernbedienung zuwendet.A Practical training of the method assumes that the Presence of a person in the field of vision of the at least two cameras, not or not exclusively used to the media device for example, by gestures to use. After that, this presence becomes as a (supposed) affection of the person concerned to the remote control or the media device, so the cameras are included Presence of a person in their field of vision or the Camera images are used as input and / or to others used to operate the media device input means, namely in particular means for voice input, and / or units for evaluation from user input received using these other input means to activate. The deactivation of the relevant funds or Units are carried out either after a predetermined period of time or as soon as the aforementioned person the field of vision of the cameras leaves again. According to this form of training the Invention, the method is thus designed so that the media device or a wireless remote control used for its operation Receiving voice commands basically only allows if a person is in the field of view of the cameras, So the media device or the remote control turns.
Eine bevorzugte Weiterbildung der zuvor erläuterten Verfahrensvariante besteht darin, dass die bloße Anwesenheit einer Person in dem Gesichtsfeld der Kameras noch nicht als Zuwendung interpretiert wird. Nach dieser Weiterbildung des Verfahrens wird von einer Zuwendung zum Zweck der Bedienung des Media-Geräts nur dann ausgegangen, wenn im Zuge der Auswertung der Kamerabilder das Gesicht einer sich im Gesichtsfeld der Kameras aufhaltenden Person detektiert oder – noch genauer – festgestellt wird, dass sich das Gesicht der betreffenden Person auf die Anordnung zur Bedienung des Media-Geräts zu bewegt. Hierdurch wird eine Aktivierung der Bedienung durch einen lediglich zufälligen Aufenthalt einer Person im Gesichtsfeld der Kameras ausgeschlossen. Die Detektion des Gesichts einer Bedienperson erfolgt dabei vorzugsweise durch die Nutzung von Eye-Tracking-Technologien.A preferred development of the previously explained method variant is that the mere presence of a person not yet interpreted in the field of vision of the cameras as a contribution becomes. After this development of the procedure becomes from a donation for the purpose of operating the media device only assumed when in the course of the evaluation of the camera images the face of a Detected in the field of view of the camera person or - still more precisely - it is established that the face of the person concerned with the arrangement for operating the media device too moved. This will activate the operation by a only accidental stay of a person in the field of vision the cameras excluded. The detection of the face of an operator This is done preferably by the use of eye-tracking technologies.
Im Hinblick auf das Erkennen der Zuwendung einer Bedienperson zu einer entsprechenden, die Bedienung des Media-Gerätes ermöglichenden Anordnung ist das erfindungsgemäße Verfahren entsprechend einer vorgesehenen Möglichkeit so gestaltet, dass im Falle der Anwesenheit einer Person oder der Detektion ihres Gesichts in dem Gesichtsfeld der Kameras zunächst nur die Mittel zur Entgegennahme von Spracheingaben in Form von vier an der Fernbedienung oder an dem Media-Gerät angeordneten Mikrofonen aktiviert werden. Die Mittel zur Auswertung der Spracheingaben im Hinblick auf die Ableitung von Bedienkommandos werden dabei nur aktiviert, sofern an den einzelnen Mikrofonen eingehende Spracheingaben untereinander eine vorgegebene Laufzeitdifferenz nicht überschreiten. Nur in diesem Falle wird die Anwesenheit der Person oder die Detektion ihres Gesichts in dem Gesichtsfeld der Kameras als Zuwendung zu der Fernbedienung oder zu dem Media-Gerät mit dem Ziel einer Bedienung des Media-Geräts interpretiert.With regard to recognizing the attention of an operator to a corresponding arrangement enabling the operation of the media device, the method according to the invention is configured according to an intended possibility such that in the case of the presence of a person or the detection of their face in the field of view of the cameras first only the means for receiving voice input are activated in the form of four microphones arranged on the remote control or on the media device. The means for evaluating the voice inputs with regard to the derivation of operating commands are only activated if voice input to the individual microphones does not exceed a predetermined transit time difference with one another. Only in this case will the presence of the person or interprets the detection of their face in the field of view of the cameras as a contribution to the remote control or to the media device with the aim of operating the media device.
Das Verfahren kann ferner dahingehend weitergebildet sein, dass der Vorgang der Bedienung des Media-Geräts personalisiert wird, also die Bedienung dazu berechtigten Personen vorbehalten ist. Hierbei werden die Mittel zur Entgegennahme und/oder zur Auswertung von Spracheingaben nur aktiviert, wenn eine bestimmte sich in dem Gesichtfeld der Kameras aufhaltende Person identifiziert wird. Die Identifikation der Person erfolgt dabei optisch anhand von Gesichts- und/oder Augenmerkmalen.The The method may be further developed in that the Personalize the operation of the media device, So the service is reserved for authorized persons. in this connection are the means for receiving and / or evaluating Speech inputs activated only when a specific in the field of view the cameras person is identified. The identification The person is optically based on facial and / or eye features.
Die Identifikation einer Person kann darüber hinaus zusätzlich anhand ihrer Stimme erfolgen, wobei zur Sprecheridentifizierung Sprechproben der zur Bedienung des Media-Geräts berechtigten Personen in einer Anlernphase in einem Referenzspeicher einer zur Bedienung des Media-Geräts ausgebildeten Anordnung hinterlegt werden. Nach einer dieser Überlegung folgenden Verfahrensgestaltung werden bei der Anwesenheit einer Person oder der Detektion des Gesichts einer Person zwar die Mittel zur Entgegennahme sprachlicher Benutzereingaben, also die Mikrofone der betreffenden Bedienanordnung aktiviert. Eine Auswertung entgegen genommener Benutzereingaben erfolgt jedoch zunächst nur zum Zwecke der Identifizierung der Person beziehungsweise zur Prüfung des Vorliegens ihrer Berechtigung zur Bedienung des Media-Geräts. Eine weitergehende Auswertung zur Ableitung von Bedienkommandos aus den Spracheingaben erfolgt demgemäß nur, sofern die jeweilige Person als zur Bedienung des Media-Geräts berechtigt identifiziert wird.The In addition, identification of a person may be additional by voice, with speaker identification Speech samples authorized to operate the media device Persons in a learning phase in a reference memory of the Operation of the media device trained arrangement deposited become. After one of these consideration following process design be in the presence of a person or the detection of the face Although a person has the means to accept verbal user input, So activated the microphones of the relevant control arrangement. A However, evaluation of accepted user input is initially only for the purpose of identifying the person or for Examination of the existence of their authorization to operate of the media device. A further evaluation for the derivation of operating commands from the voice inputs is accordingly only if the respective person as to the operation of the media device entitled is identified.
Soweit entsprechend der jeweils zur Anwendung kommenden Ausgestaltung des Verfahrens die Bedienung des Media-Geräts durch Spracheingaben ermöglicht ist, erfolgt die Ableitung durch Spracheingaben erteilter Bedienkommandos unter Nutzung für sich bekannter Verfahren der Spracherkennung. Dabei können aber diese Verfahren beziehungsweise die Sicherheit der Spracherkennung gemäß vorgesehener Verfahrensvarianten noch dadurch unterstützt werden, dass hierzu Informationen mit herangezogen werden, die aus von den Kameras erfassten Lippenbewegungen der Bedienperson gewonnen werden.So far in accordance with the respectively used embodiment of the Procedure the operation of the media device through voice input is possible, the derivative is given by voice inputs Operating commands using methods known per se the speech recognition. However, these methods can or the security of speech recognition according to provided Process variants are still supported by that For this information is used, which is taken from the cameras detected lip movements of the operator are obtained.
Das erfindungsgemäße Verfahren kann, wie bereits ausgeführt, derart ausgestaltet sein, dass die Auswertung der Kamerabilder ausschließlich zu dem Zweck erfolgt, aus ihnen Bedienkommandos abzuleiten oder dass diese Auswertung alternativ oder ergänzend zur Ableitung von Kommandos genutzt wird, die nicht im eigentlichen Sinne der Bedienung des Media-Gerätes dienen, sondern zur Aktivierung anderer Bedienmodi. Soweit die Kamerabilder auch zur Bedienung des Media-Geräts selbst genutzt werden, ist es dabei gemäß einer möglichen Ausgestaltung vorgesehen, dass das Verfahren die Interpretation der Kamerabilder zur Ableitung von Bedienkommandos umfasst, die durch die Mimik und/oder die Gesten einer Bedienperson erteilt werden. Die Kamerabilder werden hierbei demnach zur Ableitung und Nutzung visueller Bedienkommandos ausgewertet.The According to the invention, as already stated, be configured such that the evaluation of the camera images exclusively for the purpose of deriving operating commands from them or that this evaluation alternative or supplementary to the derivation is used by commands that are not in the true sense of the word Serve the media device, but for activation other operating modes. As far as the camera images synonymous to operate the Media device itself, it is according to a possible Design provided that the procedure interpretation includes the camera images for deriving operating commands that be given by the facial expressions and / or the gestures of an operator. The Camera images are hereby for the derivation and use of visual Operating commands evaluated.
Anhand von Zeichnungen sollen nachfolgend der erfindungsgemäße Lösungsansatz zur multimodalen Bedienung eines Media-Geräts und Möglichkeiten zu dessen Umsetzung nochmals veranschaulicht werden. In den zugehörigen Zeichnungen zeigen:Based of drawings are intended below the inventive Solution for multimodal operation of a media device and ways to implement it again become. In the accompanying drawings show:
Die
Die
Möglichkeiten zur Erfassung des Interaktionswunsches einer Bedienperson beziehungsweise eines Nutzers mit der Bedienanordnung zum Zwecke der Bedienung des Media-Gerätes einer Fernbedienung bestehen
- • in der Festlegung von deterministischen, in der Anordnung
abgespeicherten Regeln, die a priori festlegen, welche Bedingungen
erfüllt sein müssen, damit von den Kameras
1 ,1' erfasste Bilder und gegebenenfalls zusätzliche mittels des installierten Mikrofonarrays, empfangene Spracheingaben als Zuwendung beziehungsweise Hinwendung einer Person zu der Bedienanordnung interpretiert werden, - • in der Gewinnung von Merkmalsvektoren aus den eingehenden, gegebenenfalls vorverarbeiteten Bedieneingaben, die der Bildung eines zu trainierenden, statistischen Verhaltensmodells oder Medienmodells dienen, mit dessen Hilfe nach einem Trainings- beziehungsweise Adaptionsprozess beim Auftreten bestimmter Kamerasignale (z. B. zur Auswertung von Handbewegungen/Gestik) und gegebenenfalls bestimmter Sprachsignale ein Interaktionsbeginn- beziehungsweise ein Interaktionsende-Signal generiert werden kann. Das hierbei definierte Verhaltensmodell kann vor einem Trainings- beziehungsweise Adaptionsprozess durch Werte vorbelegt werden, die direkt oder indirekt aus den gemäß dem vorhergehenden Punkt definierten Regeln abgeleitet werden,
- • nach Abschluss einzelner Trainingsprozesse für eine größere Anzahl von Benutzern der erfindungsgemäßen Anordnung zur Bedienung eines Media-Geräts können die trainierten Modelle der einzelnen Benutzer dazu verwendet werden, um ein davon nutzerunabhängiges Verhaltensmodell abzuleiten, welches als Anfangseinstellung/Vorbelegung zum weiteren Training für neue Benutzer der Bedienanordnung oder einer anderen nach gleichen Grundsätzen operierenden Bedienanordnung dient. Nach einem längeren Anwendungszeitraum mit einer großen Zahl von Benutzern kann damit für die meisten neuen Benutzer das Training des Verhaltensmodells zur Generierung eines „Interaktionswunsch”-Signals entfallen.
- • in the definition of deterministic rules stored in the array, which a priori determine which conditions must be met, thus by the cameras
1 .1' Captured images and possibly additional means of the installed microphone array, received voice inputs are interpreted as attention or turning a person to the control arrangement, - • in the extraction of feature vectors from the incoming, possibly preprocessed operator inputs which serve to form a statistical behavior model or media model to be trained, with the aid of which after a training or adaptation process when certain camera signals occur (eg for evaluating hand movements / Gestik) and, where appropriate, certain speech signals, an interaction start or an interaction end signal can be generated. The behavior model defined in this case can be pre-assigned before a training or adaptation process by values which are derived directly or indirectly from the rules defined according to the preceding point,
- • After completion of individual training processes for a larger number of users of the arrangement according to the invention for operating a media device, the trained models of the individual users can be used to derive a user-independent behavioral model, which as an initial setting / pre-assignment for further training for new users Operating arrangement or another operating according to the same principles operating arrangement is used. After a prolonged period of use with a large number of users, this may eliminate the training of the behavioral model for generating the "interaction request" signal for most new users.
Es
können zum Beispiel folgende Regeln aus den Sensorsignalen
(von den Kameras
- • Ist die Laufzeitdifferenz
von Sprachsignalen zu den räumlich an der erfindungsgemäßen
Anordnung unterschiedlich angeordneten Mikrofonen
2 ,2' ,2'' ,2''' innerhalb einer festgelegten Toleranz gleich oder nahe Null, so kann zum Beispiel davon ausgegangen werden, dass der Nutzer mit einer Applikation des Media-Geräts über die Bedienanordnung (Fernbedienung und/oder Bedienteil am Media-Gerät selbst) interagieren möchte und ein entsprechendes Aktivierungssignal generiert werden. Darüber hinaus können als Kriterium auch Entfernungsmessungen hinzugezogen werden, welche auf den Messungen der Winkel zum Nutzer über ein Kamera-Array mit vorzugsweise mehr als zwei Kameras1 ,1' basieren. - • Die Auswertung der Laufzeitdifferenzen von den Mikrofonen
2 ,2' ,2'' ,2''' empfangener Spracheingaben wird mit einer Auswertung des Bildsignale der Kameras1 ,1' derart gekoppelt, dass durch Auswertung eines resultierenden Signals festgestellt werden kann, ob das Gesicht des Nutzers in einem oder einem von mehreren möglichen vordefinierten Winkeln zur Kamera1 ,1' erscheint, wobei nur dann das Aktivierungssignal beispielsweise zur Aktivierung der auf die Ableitung von Bedienkommandos gerichteten Auswertung in Spracheingaben generiert wird. - • Zusätzlich zur Gesichtserkennung werden über
die Kameras
1 ,1' Augenbewegungen erfasst, um eine potenzielle Zuwendung des Nutzers zur Fernbedienung zu erkennen und in Kombination mit gültigen Spracheingaben (z. B. „Hot Word”, Steuerbefehle) und/oder Gesten (gegebenenfalls unter Auswertung von Laufzeitdifferenzen) einen Interaktionswunsch zu detektieren und aus gültigen Spracheingaben und/oder Gesten Bedienkommandos abzuleiten und schließlich in der Steuereinheit des Media-Geräts Steuersignale zur Betätigung entsprechender Aktoren zu generieren. Dabei können in einer zusätzlichen Ausprägung der Regeln bestimmte Gesten und/oder Spracheingaben gleichzeitig eine Aktivierung beziehungsweise Deaktivierung des Interaktionswunschsignals als auch Bedienkommandos für das Media-Gerät beinhalten. - • Mittels mindestens eines in oder an einer Fernbedienung angeordneten Neigungssensors kann im Rahmen voreingestellter Toleranzen festgestellt werden, ob die Fernbedienung mit der Vorderseite nach unten oder soweit angewinkelt ist, dass von einer Orientierung des Nutzers zur Fernbedienung ausgegangen werden kann, die einen Interaktionswunsch wenig wahrscheinlich erscheinen lässt. Der Bewegungssensor dient dabei der dynamischen Erfassung der Bewegungen. Erscheint andererseits zum Beispiel das Gesicht des Nutzers nach einer bestimmten Bewegung im Kamerabild, so kann unter Umständen mit einer relativ hohen Wahrscheinlichkeit oder Wichtung auf einen Interaktionswunsch geschlossen werden.
- • Wenn zusätzlich zu den mit hoher Wahrscheinlichkeit auf einen Interaktionswunsch hindeutenden Bedieneingaben eine gesprochene „Hot Word”-Kombination mit ebenfalls hoher Wahrscheinlichkeit erkannt wird, kann die durch das „Hot Word” repräsentierte Funktion aktiviert werden.
- • Bei einer seitlich vertikalen Ausrichtung einer Fernbedienung mit Kamerabild ohne ein Gesicht kann zum Beispiel mit einer bestimmten Wahrscheinlichkeit davon ausgegangen werden, dass kein Interaktionswunsch (mehr) besteht, und es kann ein gegebenenfalls bestehender Aktivierungszustand deaktiviert oder ein Deaktivierungssignal generiert werden.
- • Eine grundlegende, mittels Neigungs- und/oder Bewegungssensoren steuerbare Funktion ist das Ein- und Ausschalten der Fernbedienung und/oder der Set-Top-Box. Diese kann unter Nutzung von Bewegungseingaben in der Weise als „EasyOn” und „EasyOff” ausgestaltet sein, dass das Ablegen der Fernbedienung auf eine andere als die Bildschirmseite beziehungsweise Displayseite ein Einschalten des Media-Geräts bewirkt, während das Ablegen der Fernbedienungseinrichtung auf die Bildschirmseite beziehungsweise auf der „Vorderseite” zum Ausschalten des Media-Geräts oder gegebenenfalls mehrerer mit der Fernbedienung bedienbarer Media-Geräte führt.
- Is the transit time difference of speech signals to the spatially differently arranged on the inventive arrangement microphones
2 .2 ' .2 '' .2 ''' within a specified tolerance equal to or near zero, it can be assumed, for example, that the user wants to interact with an application of the media device via the operating arrangement (remote control and / or control panel on the media device itself) and a corresponding activation signal can be generated , In addition, as a criterion distance measurements can be included, which on the measurements of the angle to the user via a camera array with preferably more than two cameras1 .1' based. - • The evaluation of the transit time differences of the microphones
2 .2 ' .2 '' .2 ''' received voice input is provided with an evaluation of the image signals of the cameras1 .1' coupled so that it can be determined by evaluating a resulting signal, whether the face of the user in one or one of several possible predefined angles to the camera1 .1' appears, only then the activation signal is generated, for example, to activate the directed to the derivation of operating commands evaluation in voice inputs. - • In addition to face detection, the cameras
1 .1' Eye movement detected to detect a potential attention of the user to the remote control and in combination with valid voice inputs (eg, "hot word", control commands) and / or gestures (possibly evaluating runtime differences) to detect an interaction request and valid voice inputs and / or gestures derive operating commands and finally to generate control signals for actuating corresponding actuators in the control unit of the media device. In this case, in an additional form of the rules, certain gestures and / or voice inputs may simultaneously include an activation or deactivation of the interaction request signal as well as operating commands for the media device. - • By means of at least one arranged in or on a remote inclination sensor can be determined in the context of preset tolerances, whether the remote control with the front side down or is angled so that it can be assumed that the orientation of the user for remote control, the interaction seems less likely leaves. The motion sensor serves to record the movements dynamically. On the other hand, if, for example, the user's face appears after a certain movement in the camera image, it may possibly be concluded with a relatively high probability or weighting on an interaction request.
- • If, in addition to the operator input with a high probability of an interaction request, a spoken "Hot Word" combination is also recognized with high probability, the function represented by the "Hot Word" can be activated.
- • In the case of a side vertical adjustment of a remote control with a camera image without a face, it can, for example, be assumed with a certain probability that there is no longer a desire to interact and a possibly existing activation state can be deactivated or a deactivation signal can be generated.
- • A basic feature that can be controlled by tilt and / or motion sensors is to turn the remote control and / or the set-top box on and off. This can be configured by using movement inputs in the manner as "EasyOn" and "EasyOff" that the removal of the remote control to another than the screen page or display page causes switching on the media device, while the removal of the remote control device to the screen page or on the "front panel" to turn off the media device or possibly several operated with the remote media devices.
Unter
Nutzung der zuvor beispielhaft beschriebenen Möglichkeiten
kann durch die Berücksichtigung von den Kameras
Vorzugsweise erfolgt das Überwachen des Interaktionsbereitschafts-Zustandes dadurch, dass zu vorgegebenen Zeitpunkten wenigstens ein erstes Eingabesignal registriert, daraus ein erster Datensatz erzeugt und durch Auswerten dieses ersten Datensatzes automatisch ein Interaktionsbereitschafts-Zustand ermittelt wird. Vorteilhaft werden diese Schritte zyklisch in einem vorgegebenen Zeitintervall ausgeführt, um eine kontinuierliche Überwachung zu gewährleisten. Die Erfassung eines Interaktionswunsches eines Benutzers des Media-Gerätes beziehungsweise einer Bedienperson kann, wie bereits dargestellt, prinzipiell mittels festgelegter, deterministischer Regeln, die in der Bedienanordnung, das heißt in einer Fernbedienung und/oder auch in dem zu bedienenden Media-Gerät selbst, hinterlegt sind, erfolgen. Dabei legen Regeln fest, welche Bedingungen vorliegen müssen, um ein ”Zuwendungs-Signal” beziehungsweise ein ”Abwendungs-Signal” für den Interaktionsbeginn beziehungsweise das Interaktionsende zu generieren. Die Bedingungen werden dabei beschrieben durch einen ersten Datensatz, welcher jeweils mittels ausgewählter Mittel entgegengenommene Bedieneingaben oder Ableitungen davon (z. B. Merkmalsvektoren und/oder Medienmodelle) repräsentiert.The monitoring of the interaction readiness state is preferably carried out by registering at least one first input signal at predefined times, generating a first data record therefrom and automatically determining an interaction readiness state by evaluating this first data record. Advantageously, these steps are performed cyclically in a predetermined time interval to ensure continuous monitoring. The detection of an interaction request of a user of the media device or an operator can, as already shown, in principle by means of defined, deterministic rules, in the control arrangement, that is deposited in a remote control and / or in the media device itself to be operated are done. Here, rules determine which conditions must be present in order to generate a "grant signal" or a "avoidance signal" for the beginning of the interaction or the end of the interaction. The conditions will be written by a first data set, which represents each operator input received by selected means or derivatives thereof (eg, feature vectors and / or media models).
Ein Medienmodell, beispielsweise ein Sprachmodell, beschreibt die Reihenfolge, in der Eingaben wie zum Beispiel Wörter oder Bewegungssequenzen und/oder andere Sensorsignale von der Auswerteeinheit erwartet werden.One Media model, such as a language model, describes the order in the inputs such as words or sequences of movements and / or other sensor signals are expected from the evaluation unit.
Gemäß einer möglichen Umsetzung des Verfahrens ist es dementsprechend vorgesehen, den ersten, aus den ersten Eingabesignalen erstellten Datensatz zu speichern, sowie wenigstens ein zweites Eingabesignal mittels einer zweiten Eingabeeinrichtung zu registrieren und daraus einen zweiten Datensatz zu erzeugen. Durch Auswerten des zweiten Datensatzes in Abhängigkeit vorgegebener fester und/oder variabler Regeln wird ein Interaktionsbereitschafts-Zustand eines Benutzers der Fernbedienung ermittelt. In Abhängigkeit dieses Interaktionsbereitschafts-Zustands und/oder einer Änderung dieses Interaktionsbereitschafts-Zustands können die variablen Regeln zur Auswertung des ersten Datensatzes auf Grundlage des gespeicherten ersten Datensatzes automatisch angepasst werden.According to one possible implementation of the method is accordingly provided, the first, created from the first input signals Record store, as well as at least a second input signal Register by means of a second input device and from it to create a second record. By evaluating the second Record in dependence of predetermined fixed and / or variable rules becomes an interaction ready state of a User of the remote control determined. Depending on this Interaction ready state and / or change This interaction ready state can be the variable Rules for evaluating the first record based on the stored first record automatically adjusted.
Tätigt
nun ein vermeintlich berechtigter Benutzer des Media-Gerätes
Bedieneingaben aus dem über festgelegte Laufzeitdifferenzen
festgelegten Raum heraus und kann mithilfe der Kameras
Dazu wird zusätzlich über die Gesichtserkennung an Hand implementierter Vergleichsmodelle festgestellt, ob ein Gesicht mit sich bewegenden Lippen dem eines berechtigten Nutzers entspricht. Ist dies der Fall, kann die Bedienung freigegeben werden.To is additionally on the face recognition Hand-implemented comparison models determined whether a face with moving lips that of an authorized user. If this is the case, the operation can be released.
Kombiniert mit der Gesichtserkennung kann aufgrund von akustischer Bedieneingaben die Stimme des lokalisierten Sprechers mithilfe bekannter Verfahren der Sprecherverifizierung/Sprechererkennung ausgewertet werden.combined with the face recognition can be due to acoustic operator inputs the voice of the localized speaker using known techniques the speaker verification / speaker recognition are evaluated.
Bei der Kombination von Ergebnissen der Sprecherverifizierung und der Gesichtserkennung können unter Umständen widersprüchliche Verifizierungsergebnisse mit unterschiedlichen Zuverlässigkeitswerten entstehen. So ist es unter der beispielhaften Voraussetzung eines einheitlichen Ergebnisbereiches von 0 bis 100 für die Sprecherverifizierung (SV) und die Gesichtserkennung (GE) und der Annahme, dass Werte von 0 bis 80 eine Ablehnung und Werte von 81 bis 100 die Akzeptanz der Eingaben bedeuten, durchaus möglich, dass zum Beispiel die Sprecherverifizierung einen Wert von 79 und die Gesichtserkennung einen Wert von 81 liefert. Noch mehrdeutiger wird die Entscheidung zur Generierung des Entscheidungssignals, wenn neben der Auswertung von mehreren Mediensignalen bei den Ergebniswerten von unterschiedlichen Zuverlässigkeitsgrenzwerten für die einzelnen Ergebnisse ausgegangen werden muss.at the combination of results of speaker verification and the Face recognition may be conflicting Verification results with different reliability values arise. So it is under the exemplary assumption of one uniform result range from 0 to 100 for speaker verification (SV) and face recognition (GE) and the assumption that values from 0 to 80 a rejection and values from 81 to 100 the acceptance the inputs mean that it's entirely possible that, for example the speaker verification has a value of 79 and the face recognition returns a value of 81. The decision becomes even more ambiguous for generating the decision signal, when in addition to the evaluation of multiple media signals in the result values of different reliability limits must be assumed for the individual results.
Dieses Problem kann zum Beispiel mit einer Normalisierung der Einzelwerte und einer gewichteten Addition der normierten Werte zur Bildung des zu vergleichenden Entscheidungswertes gelöst werden, z. B.: For example, this problem can be solved by normalizing the individual values and weighted addition of the normalized values to form the decision value to be compared, e.g. B .:
Hierin bedeuten:
- Ew
- Normalisierter Entscheidungswert
- Ssv
- Zuverlässigkeitsscore der Sprecherverifizierung
- Ssvmin
- Minimalwert des Zuverlässigkeitsscores der Sprecherverifizierung
- Ssvmax
- Maximalwert des Zuverlässigkeitsscores der Sprecherverifizierung
- Wsv
- Wichtungsfaktor für den normalisierten Zuverlässigkeitsscore der Sprecherverifizierung
- Sge
- Zuverlässigkeitsscore der Gesichtserkennung
- Sgemin
- Minimalwert des Zuverlässigkeitsscores der Gesichtserkennung
- Sgemax
- Maximalwert des Zuverlässigkeitsscores der Gesichtserkennung
- Wv3
- Wichtungsfaktor für den normalisierten Zuverlässigkeitsscore der Gesichtserkennung
- Sv3
- Zuverlässigkeitsscore der Gesichtserkennung
- Sv3min
- Minimalwert des Zuverlässigkeitsscores der 3. Verifizierung (z. B. Gestikerkennung)
- Sv3max
- Maximalwert des Zuverlässigkeitsscores der 3. Verifizierung (z. B. Gestikerkennung)
- Wv3
- Wichtungsfaktor für den normalisierten Zuverlässigkeitsscore der 3. Verifizierung (z. B. Gestikerkennung)
- Svn
- Zuverlässigkeitsscore des n-ten verifizierten Mediums
- SVnmin
- Minimalwert des Zuverlässigkeitsscores des n-ten verifizierten Mediums
- Svnmax
- Maximalwert des Zuverlässigkeitsscores des n-ten verifizierten Mediums
- Wvn
- Wichtungsfaktor für den normalisierten Zuverlässigkeitsscore des n-ten verifizierten Mediums
- Ew
- Normalized decision value
- ssv
- Reliability score of speaker verification
- Ssv min
- Minimum value of the reliability score of the speaker verification
- Ssv max
- Maximum value of the reliability score of the speaker verification
- Wsv
- Weighting factor for the normalized reliability score of speaker verification
- sge
- Reliability score of face recognition
- Sge min
- Minimum value of the reliability score of face recognition
- Max
- Maximum value of the reliability score of face recognition
- WV3
- Weighting factor for the normalized reliability score of face recognition
- sv3
- Reliability score of face recognition
- Sv3 min
- Minimum value of the reliability score of the 3rd verification (eg gesture recognition)
- Sv3 max
- Maximum value of the reliability score of the 3rd verification (eg gesture recognition)
- WV3
- Weighting factor for the normalized reliability score of the 3rd verification (eg gesture recognition)
- svn
- Reliability score of the nth verified medium
- SVn min
- Minimum value of the reliability score of the nth verified medium
- Svn max
- Maximum value of the reliability score of the nth verified medium
- wvn
- Weighting factor for the normalized reliability score of the nth verified medium
Im
einfachsten Fall wäre hier bei gleichen normalisierten
Einzelgrenzwerten und n = 3
Bei unterschiedlichen normalisierten Einzelgrenzwerten Sgn werden die normalisierten Zuverlässigkeitsscores selbst auf einen gemeinsamen gleichen normalisierten Grenzwert (GNG) adaptiert, so dass wieder mit gleichen Wichtungsfaktoren gearbeitet werden kann.At different normalized single limit values Sg n , the normalized reliability scores become even adapted to a common same normalized limit (GNG), so that you can work again with the same weighting factors.
Bei
dieser Art der Normalisierung Snmin = 0
und Snmax = 1 kann dazu die Auflösung
des Polynoms 2. Ordnung
Als GNG kann z. B. ein Mittelwert der einzelnen, unterschiedlichen normalisierten Grenzwerte angenommen werden.When GNG can z. B. an average of the individual, different normalized Limit values are accepted.
Damit
berechnet sich dann der Entscheidungswert wie folgt:
Die Wichtungsfaktoren können nun bei gleicher Bedeutung der verschiedenen Verifizierungsverfahren wieder gleich auf 1/n gesetzt werden.The Weighting factors can now with the same meaning of different verification procedures again set equal to 1 / n become.
Über- oder unterschreitet nun Ew einen festgesetzten Grenzwert für GNG, so werden nun die Steuerbefehle weitergeleitet bzw. abgeblockt. Ähnliches kann geschehen, wenn nur Aktivierungs- bzw. Deaktivierungssignale weitergeleitet werden sollen.About- or Ew falls below a set limit for GNG, the control commands are forwarded or blocked. something similar can happen if only activation or deactivation signals to be forwarded.
Da bei einer Abkehr von einer berechtigten Person, welche gültige Befehle an der Bedienanordnung eingegeben hatte, kaum mit einer zusätzlichen Spracheingabe zu rechnen ist, werden für die Entscheidung zur Deaktivierung die Wichtungsfaktoren dahingehend modifiziert, dass z. B. Wsv auf 0 und die Wichtungsfaktoren der dann unbedingt vorhandenen restlichen Verifizierungsverfahren, bei gleicher Wertigkeit der verbleibenden Verifizierungen, auf 1/(n – 1) gesetzt werden.There in the case of a departure from an authorized person, which is valid Had entered commands on the control arrangement, hardly with one additional voice input is to be expected for the decision to deactivate the weighting factors to that effect modified that z. B. Wsv to 0 and the weighting factors of then necessarily existing remaining verification procedures, at of equal significance of the remaining verifications, to 1 / (n - 1) be set.
Das Deaktivierungssignal wird gemäß obiger Erläuterungen dann weitergeleitet, wenn ein erfolgreich verifizierter Benutzer das System aktiviert hatte, die Abkehr einer Person gemäß vorhandener Regeln festgestellt wurde und diese Person gemäß dem zuvor Beschriebenen als die Person verifiziert wurde, welche das Bedienanordnung zuvor aktiviert hatte.The Deactivation signal is according to the above explanations then forwarded if a successfully verified user activated the system, the departure of a person according to existing Rules have been established and this person according to the previously described as the person who verified the control arrangement previously activated.
Ein Deaktivierungssignal kann auch dann weitergeleitet werden, wenn festgestellt wird, dass eine andere Person, welche nicht als erste berechtigte Bedienperson verifiziert wird, versucht Steuerbefehle einzugeben. Eine weitere Möglichkeit zur Gestaltung einer implementierten Deaktivierungsregel kann auch darin bestehen, dass ein Deaktivierungssignal nach jeder Ausführung eines Bedienkommandos generiert wird und sich ein berechtigter Benutzer für weitere Bedieneingaben erneut der Anordnung zuwenden muss.A deactivation signal may be forwarded even if it is determined that another person, who is not being verified as the first authorized operator, is attempting to input control commands. Another possibility for designing an implemented deactivation rule can also be that a deactivation signal is generated after each execution of an operating command and an authorized user must return to the arrangement for further operator input.
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list The documents listed by the applicant have been automated generated and is solely for better information recorded by the reader. The list is not part of the German Patent or utility model application. The DPMA takes over no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
- - DE 1015695489 [0003] - DE 1015695489 [0003]
- - DE 20221078 U1 [0004] - DE 20221078 U1 [0004]
Claims (23)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200910027253 DE102009027253A1 (en) | 2009-06-26 | 2009-06-26 | Arrangement for multimodal operation of media device e.g. TV set, has receiving unit with two cameras arranged at media-device or at required existing wireless remote control such that optical axes of objectives cut into each other |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200910027253 DE102009027253A1 (en) | 2009-06-26 | 2009-06-26 | Arrangement for multimodal operation of media device e.g. TV set, has receiving unit with two cameras arranged at media-device or at required existing wireless remote control such that optical axes of objectives cut into each other |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102009027253A1 true DE102009027253A1 (en) | 2010-12-30 |
Family
ID=43217688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE200910027253 Pending DE102009027253A1 (en) | 2009-06-26 | 2009-06-26 | Arrangement for multimodal operation of media device e.g. TV set, has receiving unit with two cameras arranged at media-device or at required existing wireless remote control such that optical axes of objectives cut into each other |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102009027253A1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102012103911A1 (en) * | 2012-05-04 | 2013-11-07 | Carl Mahr Holding Gmbh | Measuring device for dimensional measuring and characteristic quantities with separate control device |
DE102015215044A1 (en) * | 2015-08-06 | 2017-02-09 | Volkswagen Aktiengesellschaft | Method and system for processing multimodal input signals |
CN117672222A (en) * | 2024-01-31 | 2024-03-08 | 浙江大学滨江研究院 | Large language model driven microscope control method and device and electronic equipment |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE20221078U1 (en) | 2001-02-28 | 2004-12-23 | Beckmann, Jürgen, Dr. | Input device, in particular for a mobile phone |
-
2009
- 2009-06-26 DE DE200910027253 patent/DE102009027253A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE20221078U1 (en) | 2001-02-28 | 2004-12-23 | Beckmann, Jürgen, Dr. | Input device, in particular for a mobile phone |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102012103911A1 (en) * | 2012-05-04 | 2013-11-07 | Carl Mahr Holding Gmbh | Measuring device for dimensional measuring and characteristic quantities with separate control device |
DE102015215044A1 (en) * | 2015-08-06 | 2017-02-09 | Volkswagen Aktiengesellschaft | Method and system for processing multimodal input signals |
CN117672222A (en) * | 2024-01-31 | 2024-03-08 | 浙江大学滨江研究院 | Large language model driven microscope control method and device and electronic equipment |
CN117672222B (en) * | 2024-01-31 | 2024-04-16 | 浙江大学滨江研究院 | Large language model driven microscope control method and device and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102013206553A1 (en) | A method of operating a device in a sterile environment | |
DE102013010932B4 (en) | Method for operating a user interface, user interface and motor vehicle with a user interface | |
DE102015103385A1 (en) | Steer voice input based on eye tracking | |
WO2017031860A1 (en) | Artificial intelligence-based control method and system for intelligent interaction device | |
DE10163213A1 (en) | Method for operating a speech recognition system | |
DE102012220130A1 (en) | Access to secure facilities | |
EP1667113A2 (en) | Method for selectively picking up sound signals | |
DE102010038341A1 (en) | Video surveillance system and method for configuring a video surveillance system | |
DE102012108732A1 (en) | A vehicle system and method for providing information about an external item of interest to the driver | |
EP3254172B1 (en) | Determination of a position of a non-vehicle object in a vehicle | |
DE102009027253A1 (en) | Arrangement for multimodal operation of media device e.g. TV set, has receiving unit with two cameras arranged at media-device or at required existing wireless remote control such that optical axes of objectives cut into each other | |
DE102016217026A1 (en) | Voice control of a motor vehicle | |
EP2952661A1 (en) | Method and device for the contactless opening an access and/or exit from on a vehicle for passenger transport and vehicle for passenger transport equipped with such a device | |
DE10163814A1 (en) | Method and device for user identification | |
EP3234736B1 (en) | Method for operating an input device, input device, motor vehicle | |
EP2505540A1 (en) | Access monitoring device with at least one video unit | |
DE102017206876A1 (en) | Method and device for outputting a status message in a motor vehicle with voice control system | |
DE102017217027A1 (en) | A method of operating a head-mounted electronic display device and display system for displaying a virtual content | |
WO2018091108A1 (en) | Monitoring device for monitoring a monitoring region, and monitoring system having said monitoring device | |
DE112018006597B4 (en) | Speech processing device and speech processing method | |
DE102006045719B4 (en) | Medical system with a voice input device | |
DE102016013935A1 (en) | Method for automatically performing vehicle functions | |
DE102022124133B3 (en) | Method for processing stuttered speech using a voice assistant for a motor vehicle | |
DE102014108371B4 (en) | Method for voice control of entertainment electronic devices | |
DE102022116002B3 (en) | Techniques for generating and displaying topics of conversation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication |