DE60108600T2

DE60108600T2 - Aktivierung eines sprachgesteuerten Apparates

Info

Publication number: DE60108600T2
Application number: DE60108600T
Authority: DE
Inventors: Stephen John Redland Hinde; Robert Francis Easter Common Squibbs
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2000-12-19
Filing date: 2001-11-30
Publication date: 2005-12-22
Anticipated expiration: 2021-12-01
Also published as: EP1217608B1; JP2002311990A; EP1217608A3; EP1217608A2; DE60108600D1; GB0030918D0

Description

Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf die Aktivierung einer sprachgesteuerten Vorrichtung.
Hintergrund der Erfindung
Sprachsteuerung einer Vorrichtung wird üblicher und es gibt nun fortgeschrittene Technologien zur Spracherkennung, insbesondere in Kontexten, die nur ein geringes Vokabular erfordern.
Ein Problem tritt jedoch auf, wenn mehrere sprachgesteuerte Vorrichtungen in nächster Nähe vorliegen, da es wahrscheinlich ist, dass sich ihre Vokabulare überlappen, woraus sich die Möglichkeit ergibt, dass mehrere unterschiedliche Vorrichtungsstücke auf dem gleichen Sprachbefehl ansprechen.
Die EP-A-1045586 bestimmt die Zuwendeausrichtung des Sprechers mittels Bildverarbeitung. Es ist aus der US 5,991,726 bekannt, einen Abstandssensor an einem Stück einer sprachgesteuerten industriellen Maschinerie oder Ausrüstung bereitzustellen. Die Aktivierung der Maschinerie oder Ausrüstung durch Sprache kann nur bewirkt werden, wenn eine Person in der Nähe steht. Stücke einer industriellen Maschinerie oder Ausrüstung des betrachteten Typs stehen jedoch im Allgemeinen nicht eng zusammen, sodass, obwohl der Abstandssensor die Wirkung hat, eine Sprachsteuerung in diesem Kontext spezifisch für das betreffende Element zu machen, dies nicht für sprachgesteuerte Küchengeräte gelten würde, da es in dem letzteren Fall wahrscheinlich ist, dass sich die Erfassungszonen der Abstandssensoren überlappen. Außerdem sind bei der Anordnung, die in der US 5,991,726 beschrieben ist, obwohl der Abstandssensor notwendigerweise nur auf die Anwesenheit einer in der Nähe befindlichen Bedienungsperson anspricht, die auf Sprache ansprechenden Schaltungen der Maschinerie nicht konfiguriert, nur auf eine Spracheingabe von dieser Bedienungsperson anzusprechen, woraus sich die Möglichkeit ergibt, dass ein gerufener Befehl von einer anderen Bedienungsperson eine falsche Operation bewirkt.
Hinsichtlich dieses letzten Nachteils sind Verfahren zum akustischen Lokalisieren einer Schallquelle selbst bekannt, sodass es möglich wäre sicherzustellen, dass die Maschinerie nur auf lokal gesprochene Befehle anspricht. Das Erfassen der Position einer Schallquelle wird normalerweise mit einem Array von Mikrofonen vorgenommen; die US 5,465,302 und die US 6,009,396 beschreiben beide Schallquellenpositionserfassungssysteme. Durch ein Bestimmen der Position der Schallquelle ist es dann möglich, die Verarbeitungsparameter des Eingangs von den einzelnen Mikrofonen des Arrays einzustellen, um das Mikrofon wirksam auf die Schallquelle „zu fokussieren", wodurch ermöglicht wird, dass die Schallsignale, die von der Quelle emittiert werden, aus umgebenden Schallsignalen herausgefiltert werden.
Natürlich löst allein die Kenntnis der Position eines Sprechers, der einen Befehl für ein sprachgesteuertes Gerät ausgibt, nicht das Problem, dass eine Sprachsteuerung mehrere Vorrichtungsstücke aktiviert. Eine mögliche Lösung für dieses Problem besteht darin, es erforderlich zu machen, dass jedem Sprachbefehl unmittelbar das Aussprechen der Bezeichnung der spezifischen Vorrichtung, die derselbe steuern soll, vorausgeht, sodass nur diese Vorrichtung den folgenden Befehl zur Kenntnis nimmt. Dieser Lösungsansatz ist jedoch nicht benutzerfreundlich und die Benutzer vergessen häufig, ein derartiges Befehlsprotokoll zu befolgen, besonders wenn dieselben in Eile sind.
Es ist eine Aufgabe der vorliegenden Erfindung, eine benutzerfreundlichere Möglichkeit der Minimierung des Risikos einer unbeabsichtigten Aktivierung von mehreren sprachgesteuerten Vorrichtungen durch den gleichen verbalen Befehl zu schaffen.
Zusammenfassung der Erfindung
Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Aktivieren einer sprachgesteuerten Vorrichtung geschaffen, das folgende Schritte aufweist:

(a) Verwenden eines Mikrofonarrays, um zu erfassen, ob ein Benutzer der Vorrichtung zugewandt ist, wenn derselbe einen Schall erzeugt;
(b) zumindest anfängliches Freigeben der Vorrichtung für eine Sprachsteuerung nur, wenn Schritt (a) anzeigt, dass der Benutzer der Vorrichtung zugewandt ist.

Eine Bestimmung, ob der Benutzer der sprachgesteuerten Vorrichtung zugewandt ist, umfasst bevorzugt folgende Schritte:

(i) Verwenden des Mikrofonarrays, um die Position des Benutzers zu bestimmen,
(ii) Messen der Stärke des Schallsignals, das an jedem Mikrofon des Arrays empfangen wird, und
(iii) Durchführen einer Verarbeitung, um wirksam eine Relative-Signalstärke-Tabelle für Schall, der durch einen Menschen erzeugt wird, auszurichten, die an der bestimmten Position des Benutzers positioniert ist, um ein Muster von relativen Stärken an den Mikrofonen zu erhalten, die im Wesentlichen denjenigen, die bei Schritt (ii) gemessen wurden, entsprechen, wobei die Tabellenausrichtung dann die Zuwenderichtung des Benutzers angibt.

Vorzugsweise ist das Mikrofonarray aus Mikrofonen gebildet, die jeweiligen Geräten eines Satzes von sprachgesteuerten Geräten, einschließlich der sprachgesteuerten Vorrichtung, zugeordnet sind, wobei die relativen Positionen der Geräte bekannt sind. Die relativen Positionen der Geräte sind zum Beispiel infolge eines automatischen Einstellprozesses bekannt, bei dem jedes Gerät veranlasst wird, einen Schall zu der gleichen Zeit zu emittieren, zu der ein elektrisches oder elektromagnetisches Signal gesendet wird, wobei Letzteres als ein Zeitgebungspunkt dient, der es den anderen Geräten ermöglicht, ihren Abstand von dem emittierenden Gerät zu bestimmen, wobei die Geräte ihre Abstände von anderen Geräten austauschen, wodurch es jedem Gerät ermöglicht wird, die relativen Positionen aller Geräte zu berechnen.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein System zum Aktivieren einer sprachgesteuerten Vorrichtung geschaffen, dass folgende Merkmale aufweist

– ein Mikrofonarray, wobei die relativen Positionen der Mikrofone des Arrays und der Vorrichtung bekannt sind;
– eine Zuwenderichtungbestimmungsanordnung, die wirksam ist, um das Mikrofon zu verwenden, um zu bestimmen, ob ein Benutzer der Vorrichtung zugewandt ist, wenn er einen Schall erzeugt;
– eine Steuerungsanordnung zum zumindest anfänglichen Freigeben der Vorrichtung für eine Sprachsteuerung nur, wenn die Zuwenderichtungbestimmungsanordnung anzeigt, dass der Benutzer der Vorrichtung zugewandt ist.

Kurze Beschreibung der Zeichnungen
Ein Verfahren und ein System zum Steuern einer Aktivierung von sprachgesteuerten Geräten, die die Erfindung ausführen, werden nun als ein nicht einschränkendes Beispiel mit Bezugnahme auf die beiliegenden schematischen Zeichnungen beschrieben. Es zeigen:
1 ein Diagramm, das einen Raum veranschaulicht, der mit einem Mikrofonarray zum Steuern einer Aktivierung von sprachgesteuerten Geräten in dem Raum ausgestattet ist;
2 ein Diagramm, das die Bestimmung der Position eines Sprechers veranschaulicht;
3 ein Diagramm, das die Bestimmung der Zuwenderichtung des Sprechers veranschaulicht;
4 ein Diagramm, das einen Raum veranschaulicht, in dem sich mehrere sprachgesteuerte Geräte befinden, die zusammenwirken, um ein Mikrofonarray zu liefern; und
5 ein Diagramm, das die schallbezogenen Hauptfunktionsfähigkeiten der sprachgesteuerten Geräte von 4 veranschaulicht.
Beste Ausführung der Erfindung
1 zeigt einen Arbeitsraum 11, in dem ein Benutzer 10 anwesend ist, der in eine Richtung gewandt ist, die durch einen gestrichelten Pfeil 12 angezeigt ist. In dem Raum 11 befinden sich drei sprachgesteuerte Geräte 14 (im Folgenden als Geräte A, B bzw. C bezeichnet), jedes mit einer unterschiedlichen Funktionalität, aber jedes mit einem ähnlichen Sprachschnittstellenuntersystem 15 ausgestattet, das ein Mikrofon 16 umfasst, das eine Sprachsteuerung des Gerätes durch den Benutzer ermöglicht.
Der Arbeitsraum 11 ist mit einem Satz von drei stationären Raummikrofonen 28 (im Folgenden als Mikrofone M1, M2 und M3 bezeichnet) ausgestattet, die Digitalisierer zum Digitalisieren des aufgenommenen Schalls umfassen, wobei die digitalisierten Schalldaten dann über ein LAN 29 zu einer Gerätaktivierungsverwaltungseinrichtung 30 geleitet werden. Die Verwaltungseinrichtung 30 umfasst eine Schallsignalverarbeitungseinheit 33, die auf eine im Folgenden näher beschriebene Weise bestimmt, wann ein Benutzer einem bestimmten Gerät zugewandt ist. Wenn die Einheit 33 bestimmt, dass der Benutzer einem Gerät 14 zugewandt ist, informiert dieselbe einen Steuerungsblock 34; die Einheit 33 informiert den Block 34 auch immer dann, wenn der Benutzer spricht. Unter Verwendung dieser Informationen entscheidet der Steuerungsblock 34, wann die Sprachschnittstelle eines bestimmten Geräts freigegeben werden soll, und sendet über Infrarotverbindungen, die zwischen einem IR-Sender 35 der Verwaltungseinrichtung und IR-Empfängern 36 des Geräts eingerichtet sind, geeignete Steuernachrichten an die Geräte. Der Steuerungsblock 34 stellt sicher, dass immer nur die Sprachschnittstelle von einem Gerät 14 freigegeben ist. Aus praktischen Gründen wird der Steuerungsblock 34 in der folgenden Beschreibung so beschrieben, dass derselbe die Geräte anstatt ihrer Sprachschnittstellen freigibt/sperrt; es jedoch darauf hingewiesen, dass die Geräte andere Schnittstellen (wie zum Beispiel manuelle Schnittstellen) aufweisen können, die nicht der Steuerung durch die Gerätaktivierungsverwaltungseinrichtung unterliegen.
Der Steuerungsblock 34 gibt anfänglich ein Gerät 13 frei, wenn der Block 34 aus den Informationen, die demselben durch die Einheit 33 weitergeleitet werden, bestimmt, dass der Benutzer dem Gerät zu der Zeit des ersten Sprechens nach einer Stilleperiode von zumindest einer vorbestimmten Dauer zugewandt ist. Der Steuerblock hält dann die Freigabe des betreffenden Geräts aufrecht, solange der Benutzer fortfährt zu sprechen und für eine Zeit-Aus-Periode danach, selbst wenn der Benutzer von der Vorrichtung abgewandt ist – falls der Benutzer während der Zeit-Aus-Periode erneut zu sprechen beginnt, wird der Zeitablauf dieser Periode rückgesetzt. Diese Zeit-Aus-Periode beträgt zum Beispiel 3 Sekunden und ist kürzer als die bereits erwähnte vorbestimmte Stilleperiode, die einer anfänglichen Freigabe eines Geräts vorausgehen muss. Selbst wenn sich ein Benutzer, während er zu einem Gerät spricht, einem anderen Gerät zuwendet und kurz innehält, bevor er erneut spricht, schaltet der Steuerungsblock somit nicht darauf um, dieses andere Gerät freizugeben, außer die Pause ist sowohl länger als die Zeit-Aus-Periode (was dazu führt, dass das vorhergehend freigegebene Gerät gesperrt wird) als auch zumindest so lang wie die vorbestimmte Stilleperiode (was dazu führt, dass das Gerät, dem derselbe aktuell zugewandt ist, freigegeben wird). Diese Zeit-Aus-Periode kann tatsächlich die gleiche Dauer aufweisen wie die vorbestimmte Stilleperiode.
Der Steuerungsblock 34 kann eingerichtet sein, um den Geräten seine Freigabeentscheidungen unter Verwendung eines geeigneten Protokolls mitzuteilen. Zum Beispiel kann der Steuerungsblock einfach eine Freigabenachricht an ein identifiziertes Gerät senden, um dasselbe freizugeben (wobei die anderen Geräte erkennen, dass die Nachricht nicht für sie bestimmt ist, und dieselbe ignorieren), und dann nachfolgend eine Sperrnachricht senden, um das Gerät zu sperren. Alternativ dazu kann jedes Gerät eingerichtet sein, um eine kontinuierliche Lieferung von Freigabenachrichten (zum Beispiel zumindest eine pro Sekunde) zu erfordern, damit seine Sprachschnittstelle freigegeben bleibt, wobei ein Fehlen von Freigabenachrichten für eine längere als diese Periode dazu führt, dass die Sprachschnittstelle des Geräts gesperrt wird.
Bei jedem Gerät weist die Sprachschnittstelle 15 zusätzlich zu einem Mikrofon 16 eine Spracherkennungsvorrichtung 17 (siehe Vorrichtung 14A in 1) und eine Freigabeschaltung 18 auf. Die Freigabeschaltung 18 wird von dem Infrarotempfänger 36 gespeist und hält den aktuellen freigegebenen/gesperrten Zustand der Sprachschnittstelle. Gemäß ihrem gespeicherten Zustand gibt die Schaltung 18 die Spracherkennungsvorrichtung 17 frei oder sperrt dieselbe. Wenn die Spracherkennungsvorrichtung 17 freigegeben ist, interpretiert dieselbe die Spracheingabe, die durch das Mikrofon 16 aufgenommen wird, und erzeugt entsprechende Steuerungsausgaben (siehe Pfeil 19) zum Steuern der Funktionalität des Geräts 14.
Obwohl es möglich wäre, die Spracherkennungsfunktionen der Geräte 14 in der Gerätaktivierungsverwaltungseinrichtung 30 zu zentralisieren, würde dies erfordern, dass die Letztere mit einer Spracherkennungsvorrichtung ausgestattet wäre, die sowohl mit dem Eingabevokabular als auch der Steuersprache aller Geräte, die dieselbe u. U. steuern muss, programmiert ist.
Die 2 und 3 veranschaulichen, wie der Schallsignalverarbeitungsblock 33 bestimmt, wann ein Benutzer 10 einem bestimmten Gerät zugewandt ist. Zu Zwecken der Veranschaulichung ist der Benutzer 10 so gezeigt, dass derselbe in einer Position positioniert ist, die sich in einem Abstand „2Q" von Mikrofon M1, einem Abstand „3Q" von Mikrofon M2 und einem Abstand „4Q" von Mikrofon M3 befindet. Es wird angenommen, dass der Signalverarbeitungsblock 33 die Positionen der Mikrofone M1, M2 und M3 kennt.
Zu einem Zeitpunkt T0 emittiert der Benutzer 10 einen Schall, der sich mit Schallgeschwindigkeit bewegt und die Mikrofone M1, M2 und M3 zu aufeinanderfolgenden Zeitpunkten T1, T2 und T3 erreicht. Die Schallsignale, die durch die Mikrofone aufgenommen werden, werden an den Verarbeitungsblock 33 geleitet, wo dieselben zunächst korreliert und die Werte (T2 – T1) und (T3 – T1) bestimmt werden; bei dem vorliegenden Beispiel: 2(T2 – T1) = (T3 – T1)
Jedes Mikrofon hat seinen eigenen internen Takt, der verwendet wird, um Zeitstempel zu liefern zum Stempeln der Schalldaten, die an den Verarbeitungsblock 33 geleitet werden, um zu ermöglichen, dass die obigen Differenzwerte bestimmt werden, wobei der Versatz zwischen den Zeittakten der Mikrofone vorhergehend durch eine beliebige geeignete Technik gemessen wurde (zum Beispiel dadurch, dass jedes Mikrofon ein vorbestimmtes Intervall nach dem Empfangen einer Auslösernachricht von der Verwaltungseinrichtung 30 mit einer zeitgestempelten Nachricht antwortet, wobei die internen Verarbeitungszeiten an beiden Enden berücksichtigt werden).
Ein Maß der empfangenen Schallsignalstärke an jedem Mikrofon M1, M2, M3 wird ebenfalls an den Verarbeitungsblock geleitet.
Natürlich kennt der Verarbeitungsblock nicht den Zeitpunkt T0, zu dem der Schall emittiert wurde. Durch ein Ausführen eines Rückwärtskonstruierung der Schallwellenfront ist es jedoch möglich, die Position des Benutzers zu bestimmen. Insbesondere gilt zu einem Zeitpunkt T1 Folgendes für die Schallwellenfront von dem Benutzer:

– dieselbe hat gerade das Mikrofon M1 erreicht;
– dieselbe befindet sich in einem Minimalabstand V(T2 – T1) von dem Mikrofon M2 irgendwo auf einen Kreis C2 dieses Radius, der seinen Mittelpunkt bei M2 hat, und
– dieselbe befindet sich in einem Minimalabstand V(T3 – T1) von dem Mikrofon M3 irgendwo auf einem Kreis C3 dieses Radius, der seinen Mittelpunkt bei M3 hat,

Wenn nun die drei Kreise erweitert werden (tatsächlich durch ein Zurückgehen in der Zeit), ergibt sich schließlich ein Schnittpunkt aller drei Kreise, der der Position des Benutzers entspricht.
Es sei darauf hingewiesen, dass die vorhergehende Beschreibung, wie die Position des Benutzers bestimmt wird, aus Gründen der Klarheit einfach gehalten wurde. Ist die Umgebung 11 laut oder hallt dieselbe, ist eine kompliziertere Signalverarbeitung erforderlich, um eine angemessene Positionsbestimmung zu liefern, und geeignete Techniken sind in den bereits erwähnten US-Patenten beschrieben.
Wenn die Position des Benutzers bestimmt worden ist, besteht der nächste Schritt darin, die Zuwenderichtung des Benutzers abzuleiten. Zu diesem Zweck hält der Verarbeitungsblock 33 Daten, die eine Relative-Schallsignalstärke-Tabelle 40 (siehe Konturensatz, der den Benutzer 10 als Mittelpunkt hat, in 3) darstellen, die die relativen Schallsignalstärken für Schallsignale, die durch einen Benutzer emittiert werden, relativ zu seiner Zuwenderichtung anzeigt, die hier durch einen gestrichelten Pfeil 41 angezeigt ist. Der Verarbeitungsblock ist eingerichtet, um Berechnungen durchzuführen, die einem Platzieren des Ursprungs der Tabelle 40 an der bestimmten Position des Benutzers und einem Bestimmen der relativen Schallsignalstärken an den Mikrofonen M1, M2 und M3, wenn die Tabelle 44 und das Mikrofonarray relativ zueinander gedreht werden, entspricht. Diese Ablesungen der relativen Signalstärke werden dann mit den Ablesungen der tatsächlichen Signalstärke verglichen, die durch die Mikrofone M1, M2 und M3 geliefert werden, um eine Ausrichtung der „besten Überein stimmung" der Tabelle und somit eine Zuwenderichtung des Benutzers abzuleiten.
Die abgeleitete Zuwenderichtung des Benutzers wird dann zusammen mit der aktuellen Position des Benutzers verwendet, um zu bestimmen, ob der Benutzer zumindest allgemein irgendeinem der Geräte 14 zugewandt ist, deren Positionen dem Verarbeitungsblock bekannt sind. Der Fehlerspielraum bei der Zuwenderichtung, der beim Entscheiden, ob ein Benutzer einem Gerät zugewandt ist, gestattet ist, hängt teilweise von der winkelmäßigen Trennung benachbarter Geräte 14 ab.
Der Signalverarbeitungsblock 33 leitet seine Folgerungen an den Steuerungsblock 34 weiter, damit Letzterer die Geräte in der bereits beschriebenen Weise steuert.
Die Tabelle 40 bezieht sich im Allgemeinen auf Worte, die durch den Benutzer 10 gesprochen werden. Eine Gerätfreigabe kann jedoch davon abhängig gemacht werden, dass der Benutzer einen anderen charakteristischen Schall erzeugt, zum Beispiel in die Hände klatscht, wobei die Tabelle in diesem Fall eine Relative-Schallsignalstärke-Tabelle für ein Händeklatschen sein sollte, das eine Person vor sich erzeugt.
4 zeigt ein zweites Ausführungsbeispiel, das dem ersten Ausführungsbeispiel ähnlich ist, nun ist das Mikrofonarray, das benutzt wird, um zu bestimmen, ob ein Benutzer einem Gerät zugewandt ist, jedoch aus den Mikrofonen 16 der einzelnen Geräte gebildet, wobei die Geräte mit Nahbereich-Sende-Empfangs-Geräten 56 (wie zum Beispiel Bluetooth-Funk-Sende-Empfangs-Geräten) zum Austauschen von Mikrofondaten und damit zum wirksamen Koppeln der Mikrofone 16 in ein Array ausgestattet sind. Die Mikrofondaten werden zeitgestempelt, wie bei dem Ausführungsbeispiel von 1, wobei der relative Versatz der internen Zeitstempeltakte der Geräte 14 in einer beliebigen geeigneten Weise bestimmt wird.
Außerdem wird die Schallsignalverarbeitung nun in jedem Gerät durch einen Schallfunktionssteuerungsblock 57 ausgeführt, der direkt bestimmt, ob das Gerät freigegeben oder gesperrt werden sollte, und die Spracherkennungseinheit 23 dementsprechend steuert. Falls somit ein Benutzer einem Gerät C zugewandt ist und zu sprechen beginnt (nach einer Stilleperiode, die länger als die bereits erwähnte vorbestimmte Stilleperiode ist), nimmt das Mikrofon 16 an jedem der drei Geräte diesen Schall auf, digitalisiert denselben und misst seine Stärke, und der Block 57 des Geräts sendet diese Daten zu den anderen Geräten weiter und empfängt deren entsprechende Daten. Jeder Block 57, der die relativen Positionen der Geräte 14 bereits kennt, führt nun eine Bestimmung der Position und der Zuwenderichtung des Benutzers aus und bestimmt infolgedessen, ob der Benutzer dem betreffenden Gerät zugewandt ist. Falls ein Gerät entscheidet, das dasselbe durch den Benutzer angesprochen wird, teilt dasselbe zunächst den anderen Geräten über das Nahbereich-Sende-Empfangs-Gerät mit, dass dasselbe im Begriff ist, seine Spracherkennungsvorrichtung freizugeben. Wird angenommen, dass innerhalb einer kurzen Fensterperiode keine entgegenstehende Antwort zurückempfangen wird, geht der Block 57 dazu über, seine zugeordnete Spracherkennungsvorrichtung 17 freizugeben. Bevorzugt ist vor Letzterer ein FIFO-Schalldatenspeicher, der kontinuierlich von dem Mikrofon 16 gespeist wird, sodass Sprache, die von dem Benutzer während der Anfangsfreigabebestimmungen, die durch den Block 57 vorgenommen werden, empfangen wird, nicht verloren geht, sondern daraufhin, dass die Spracherkennungseinheit freigegeben wird, für eine Interpretation verfügbar ist.
Um eine übermäßige Übertragung von Schalldaten zwischen den Geräten zu vermeiden, sind die Blöcke 57 eingerichtet, um den digitalisierten Schall und die damit in Beziehung stehenden Signalstärkemessungen nur zu senden, wenn eine Möglichkeit besteht, dass ein Gerät neu freigegeben wird – d. h. nicht während Perioden, in denen ein Gerät freigegeben ist. Der Einfachheit halber sind die Blöcke 57 einge richtet, um die Mikrofondaten nur nach einer Stilleperiode, die zumindest so lang wie die vorbestimmte Stilleperiode ist, und bevor eines der Geräte den anderen mitteilt, dass dasselbe seine Spracherkennungsvorrichtung freigegeben hat, zu senden.
Der Verzicht auf die stationäre Infrastruktur und das Ausstatten der Geräte mit den Mitteln, um beim Ausführen von Schallsteuerfunktionen zusammenzuwirken, ergibt eine sehr flexible Anordnung. Diese Flexibilität wird erheblich dadurch erhöht, dass die Geräte eingerichtet sind, um sich selbst automatisch hinsichtlich ihrer gegenseitigen Existenz und Positionen zu kalibrieren. Dies wird möglich, wenn zumindest drei Geräte in dem gleichen Raum 11 vorliegen.
Insbesondere sei angenommen, dass die Geräte von 4 anfänglich nichts voneinander wissen. Jedes ist jedoch mit einem Lautsprecher zum Emittieren eines bevorzugt charakteristischen „Zusammenpassrufs" in zufälligen periodischen Intervallen ausgestattet. Zu der gleichen Zeit, zu der dasselbe seinen Zusammenpassruf emittiert, sendet ein Gerät auch ein Zusammenpasssignal über sein Nahbereich-Sende-Empfangs-Gerät aus. Dieses Zusammenpasssignal wird durch die anderen Geräte erfasst, und falls dieses Signal nachfolgend durch den Empfang des Schallzusammenpassrufs ergänzt wird, der durch das Mikrofon des Geräts empfangen wird, dann antwortet das Gerät dem Ursprungsgerät über das Nahbereich-Sende-Empfangs-Gerät. Auf diese Weise können die Geräte feststellen, welche anderen Geräte sich in Schallreichweite befinden und eine örtliche Gruppe bilden. Ein Verwenden einer Schallnähe, um diese Gruppe zu definieren, führt mit geringerer Wahrscheinlichkeit dazu, dass die Gruppe über unterschiedliche Räume verteilt ist, als wenn die Nahbereich-Sende-Empfangs-Geräte zu diesem Zweck verwendet worden wären. Bevorzugt ist es auch erforderlich, dass jedes Gerät, das den ursprünglichen Schall hört, wiederum seinen eigenen Zusammenpassruf und -signal emittiert, um sicherzustellen, dass alle Geräte, die den Anfangsschall hören, auch einander hören können; Geräte, die nur von einigen, aber nicht von allen anderen Geräten gehört werden können, werden gemäß einer vorbestimmten Richtlinie aus der Gruppe von Geräten ausgeschlossen/in dieselbe eingeschlossen.
Zu diesem Zeitpunkt kann auch eine Rangordnung der zugehörigen Geräte der Gruppe bestimmt werden, um einen Grad an Ordnung, z. B. bezüglich der Reihenfolge des Übertragens von Nachrichten, zu liefern. In dieser Hinsicht kann es vorteilhaft sein, eine Kollisions- und Zurückhalte-(backoff-)Richtlinie hinsichtlich des Anfangszusammenpassrufs zu verwenden, die in gewisser Hinsicht derjenigen ähnlich ist, die bei CSMA-CD-Datennetzwerken verwendet wird. Das Gerät, das als Erstes seinen Zusammenpassruf erfolgreich gesendet hat, kann zum Gruppenführer gemacht werden, und demselben kann zum Beispiel die Zuständigkeit übertragen werden, die Rangordnung in der Gruppe festzulegen.
Wenn eine Gruppenzugehörigkeit festgelegt worden ist, machen sich die Vorrichtungen der Reihe nach daran, erneut ihren Zusammenpassruf und ihr Zusammenpasssignal gleichzeitig zu senden. Dieses Mal wird das Zusammenpasssignal als eine Zeitgebungsmarke verwendet, bezüglich derer die anderen Vorrichtungen die Laufzeit des Zusammenpassrufes von der emittierenden Vorrichtung bestimmen können (wobei angenommen wird, dass das Zusammenpasssignal tatsächlich sofort bei allen Vorrichtungen eintrifft). Dies ermöglicht es, dass jede Vorrichtung ihren Abstand von den emittierenden Vorrichtungen bestimmt. Durch ein Wiederholen dieser Übung der Reihe nach für alle Vorrichtungen und indem die Vorrichtungen veranlasst werden, ihre Abstandsdaten auszutauschen, wird es ermöglicht, dass der Block 57 jeder Vorrichtung die relativen Positionen aller Vorrichtungen in der Gruppe berechnet.
Diese beiden Operationen des Bestimmens der Gruppenzusammensetzung (und Rangordnung) und der Gerätepositionen sind in 5 durch die Schritte 60 und 61 dargestellt und weisen eine automatische Einstellphase für die Gerätegruppe auf. Da zu jeder Zeit Geräte hinzugefügt oder entfernt werden können, sind die Geräte bevorzugt eingerichtet, um in Intervallen eine neue Einstellphase durch das Emittieren ihrer Zusammenpassrufe und -signale zu einem zufälligen Zeitpunkt nach der vorangehenden Ausführung der Einstellphase einzuleiten.
Die Schritte 60 und 61 können teilweise kombiniert werden, wobei jedes Gerät seinen Zusammenpassruf und -signal nur ein einziges Mal emittiert.
Nach der Einstellphase sind die Geräte bereit, ihre schallgeregelte Gerätfreigaberolle auszuführen, wie es bereits mit Bezugnahme auf 4 beschrieben wurde, wobei diese Rolle umfasst, dass jedes Gerät die Aufgaben des Erfassens einer Benutzereingabe (Schritt 62 in 5), der Bestimmung der Benutzerposition und Zuwenderichtung (Schritt 63) und der Selbstaktivierung, wenn dasselbe angesprochen wird (Schritt 64), ausführt.
Eine weitere Rolle, die die Geräte nützlich durchführen können, ist die Meldung ihres Vorhandenseins an einen Benutzer, nachdem eine geeignete Aufforderung erzeugt wurde, zum Beispiel ein Benutzer in die Hände klatscht oder ein Türsensor ein Signal emittiert (zum Beispiel über einen Nahbereichssender), nachdem ein Benutzer den Raum 11 betreten hat. Für diese Rolle sind die Geräte ausgestattet, um das Aufforderungssignal zu erfassen, und für den Fall, dass es sich bei der Aufforderung um einen Schall handelt, umfasst Aufgabe 62 ein Bestimmen, ob es sich bei einem erfassten Schall um eine Aufforderung oder um irgendeinen anderen Schall handelt. Falls die Geräte eine Aufforderung erfassen, melden dieselben jedes seine Anwesenheit durch einen Lautsprecher 55, wobei dies der Reihe nach erledigt wird. Die Reihenfolge der Meldung kann gemäß der vorher festgelegten Rangordnung vorgenommen werden oder kann in einer Reihenfolge im Uhrzeigersinn (oder gegen den Uhrzeigersinn) vorgenommen werden, wobei bei einer bestimmten Vorrichtung begonnen wird und die Position des Benutzers berücksichtigt wird. Die Position des Benutzers wird durch die Geräte in Schritt 65 auf dieselbe Weise bestimmt, wie dies für eine Gerätfreigabe der Fall wäre, wenn es sich bei der Aufforderung um einen Schall handelt; falls es sich bei der Aufforderung um irgendein anderes Signal handelt, das auf ein Eintreten des Benutzers in den Raum hin erzeugt wird, dann kann es eingerichtet sein, dass diese feste Position den Vorrichtungen vorhergehend bekannt gemacht wird (zum Beispiel kann ein spezielles tragbares „Türgerät" in der Türöffnung positioniert und veranlasst werden, eine neue Einstellphase auszulösen, bei der seine Position und Beschaffenheit den anderen Gruppenelementen bekannt gemacht werden, und obwohl das Türgerät selbst eventuell nicht vorhanden ist, wenn die nächste Einstellphase ausgelöst wird, wird die Türposition danach von den Geräten im Speicher behalten).
Der Gruppenführer kann bestimmt sein, immer die Meldungssequenz zu beginnen (Schritt 66), wobei jedes Gerät dann meldet, wenn es an der Reihe ist (um dies zu erfassen, müssen die Geräte den anderen Geräten beim Melden zuhören, wobei jedes Gerät bevorzugt einen deutlichen Abstand lässt, bevor dasselbe seine Meldung beginnt). Falls in Schritt 65 erfasst wird, dass der Benutzer einem spezifischen Gerät zugewandt ist, dann kann es eingerichtet sein, dass dieses Gerät anstelle des Gruppenführers das erstmeldende Gerät ist.
Viele andere Varianten der oben beschriebenen Anordnung sind natürlich möglich. Zum Beispiel kann ein Gerät eingerichtet sein, um nur freigegeben zu werden, solange der Benutzer demselben tatsächlich zugewandet ist. Alternativ dazu kann eine anfängliche Freigabe eines Gerätes das Aussprechen eines Schlüsselworts erfordern, das das Gerät identifiziert, während der Benutzer dem Gerät zugewandt ist; in diesem Fall kann das Gerät eingerichtet sein, um freigegeben zu bleiben, bis ein Schlüsselwort ausgesprochen wird, das einem anderen Gerät zugeordnet ist, während der Benutzer diesem Gerät zugewandt ist. In diesem Fall muss die Spracherkennungsvorrichtung jedes Geräts kontinuierlich freigegeben sein, wobei nur seine Ausgabe 19 einer Steuerung unterliegt.
Verschiedene der Prozesse, die durch die Vorrichtungen 14, insbesondere die Vorrichtungen 14 von 4, ausgeführt werden, können unabhängig von der Aufgabe, eine Sprachsteuerung der Geräte freizugeben, ausgeführt werden. Somit kann ein Bestimmen der Zuwenderichtung eines Benutzers aus anderen Gründen vorgenommen werden, zum Beispiel um zu bestimmen, wo ein visueller Alarmindikator zu aktivieren ist, um die Aufmerksamkeit des Benutzers zu erregen. Außerdem kann der automatische Einstellprozess für die Geräte von 4 unabhängig von dem Freigabeverfahren ausgeführt werden, ebenso wie der Prozess zum Festlegen der Elemente der örtlichen Gerätegruppe und der Prozess zum Ordnen der Meldungen, um in einer Sequenz im Uhrzeigersinn oder gegen den Uhrzeigersinn relativ zu dem Benutzer stattzufinden.

Claims

Ein Verfahren zum Aktivieren einer sprachgesteuerten Vorrichtung, das folgende Schritte aufweist: (a) Verwenden eines Mikrofonarrays, um zu erfassen, ob ein Benutzer der Vorrichtung zugewandt ist, wenn derselbe einen Schall erzeugt, wobei die relativen Positionen der Mikrofone des Arrays und der Vorrichtung bekannt sind; (b) zumindest anfängliches Freigeben der Vorrichtung für eine Sprachsteuerung nur, wenn Schritt (a) anzeigt, dass der Benutzer der Vorrichtung zugewandt ist.
Ein Verfahren gemäß Anspruch 1, bei dem die Bestimmung, ob der Benutzer der sprachgesteuerten Vorrichtung zugewandt ist, folgende Schritte aufweist (i) Verwenden des Mikrofonarrays, um die Position des Benutzers zu bestimmen, (ii) Messen der Stärke des Schallsignals, das an jedem Mikrofon des Arrays empfangen wird, und (iii) Durchführen einer Verarbeitung, um wirksam eine Relative-Signalstärke-Tabelle für Schall, der durch einen Menschen erzeugt wird, auszurichten, die an der bestimmten Position des Benutzers positioniert ist, um ein Muster von relativen Stärken an den Mikrofonen zu erhalten, die im Wesentlichen denjenigen, die bei Schritt (ii) gemessen wurden, entsprechen, wobei die Tabellenausrichtung dann die Zuwenderichtung des Benutzers angibt.
Ein Verfahren gemäß Anspruch 1 oder Anspruch 2, bei dem das Mikrofonarray ein von der Vorrichtung getrenntes stationäres Array ist, wobei die relativen Positionen der Vorrichtung und der Mikrofone der Vorrichtung bekannt sind.
Ein Verfahren gemäß Anspruch 3, bei dem die Erkennung von Sprachbefehlen an der Vorrichtung ausgeführt wird.
Ein Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem das Mikrofonarray von Mikrofonen gebildet ist, die jeweiligen Geräten einer Gruppe von sprachgesteuerten Geräten, einschließlich der sprachgesteuerten Vorrichtung, zugeordnet sind.
Ein Verfahren gemäß Anspruch 5, bei dem die relativen Positionen der Geräte infolge eines automatischen Einstellprozesses bekannt sind, bei dem jedes Gerät veranlasst wird, einen Schall in einer vorbestimmten zeitlichen Beziehung zu einem Senden eines elektromagnetischen Signals zu emittieren, wobei letzteres als ein Zeitgebungspunkt dient, der es den anderen Geräten ermöglicht, ihren Abstand von dem emittierenden Gerät zu bestimmen, wobei die Geräte ihre Abstände von anderen Geräten austauschen, wodurch es jedem Gerät ermöglicht wird, die relativen Positionen aller Geräte zu berechnen.
Ein Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Vorrichtung, nachdem sie anfänglich für eine Sprachsteuerung freigegeben wurde, weiterhin derart freigegeben ist, nachdem der Benutzer aufgehört hat, der Vorrichtung zugewandt zu sein, aber nur solange der Benutzer fortfährt zu sprechen, und für eine begrenzte Zeit-Aus-Periode danach, wobei eine Wiederaufnahme des Sprechens während dieser Periode die Sprachsteuerung fortsetzt, wobei die Zeitgebung der Zeit-Aus-Periode rückgesetzt wird.
Ein Verfahren gemäß einem der Ansprüche 1 bis 6, bei dem die Vorrichtung nur für eine Sprachsteuerung freigegeben bleibt, solange der Benutzer der Vorrichtung zugewandt ist.
Ein Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem eine Spracherkennungseinrichtung der Vorrichtung eine Spracheingabe von dem Benutzer ignoriert, außer wenn der Benutzer ein vorbestimmtes Schlüsselwort spricht, solange der Benutzer der Vorrichtung zugewandt ist.
Ein Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Vorrichtung bei Schritt (b) nur freigegeben wird, wenn zumindest eine vorbestimmte Stilleperiode vorliegt, unmittelbar bevor der Benutzer einen Schall erzeugt, solange derselbe der Vorrichtung zugewandt ist.
Ein System zum Aktivieren einer sprachgesteuerten Vorrichtung, das folgende Merkmale aufweist – ein Mikrofonarray, wobei die relativen Positionen der Mikrofone des Arrays und der Vorrichtung bekannt sind; – eine Zuwenderichtungbestimmungsanordnung, die wirksam ist, um das Mikrofonarray zu verwenden, um zu bestimmen, ob ein Benutzer der Vorrichtung zugewandt ist, wenn er einen Schall erzeugt; – eine Steuerungsanordnung zum zumindest anfänglichen Freigeben der Vorrichtung für eine Sprach steuerung nur, wenn die Zuwenderichtungbestimmungsanordnung anzeigt, dass der Benutzer der Vorrichtung zugewandt ist.
Ein System gemäß Anspruch 11, bei dem die Zuwenderichtungbestimmungsanordnung folgende Merkmale aufweist: – eine Benutzerpositionsbestimmeinrichtung zum Verwenden des Mikrofonarrays, um die Position des Benutzers zu bestimmen, – eine Messeinrichtung zum Messen der Stärke des Schallsignals, das an jedem Mikrofon des Arrays empfangen wird, und – eine Verarbeitungseinrichtung zum Durchführen einer Verarbeitung, um wirksam eine Relative-Signalstärke-Tabelle für Schall, der durch einen Menschen erzeugt wird, auszurichten, die an der bestimmten Position des Benutzers positioniert ist, um ein Muster relativer Stärken an den Mikrofonen zu erhalten, die im Wesentlichen denjenigen entsprechen, die durch die Messeinrichtung gemessen werden, wobei die Tabellenausrichtung dann die Zuwenderichtung des Benutzers angibt.
Ein System gemäß Anspruch 11 oder Anspruch 12, bei dem das Mikrofonarray ein von der Vorrichtung getrenntes stationäres Array ist, wobei die relativen Positionen der Vorrichtung und der Mikrofone der Vorrichtung bekannt sind.
Ein System gemäß Anspruch 13, bei dem die Vorrichtung eine Sprachsteuerungsanordnung zum Erkennen von Sprachbefehlen umfasst.
Ein System gemäß einem der Ansprüche 11 bis 14, bei dem das Mikrofonarray von Mikrofonen gebildet ist, die jeweiligen Geräten einer Gruppe von sprachgesteuerten Geräten, einschließlich der sprachgesteuerten Vorrichtung, zugeordnet sind.
Ein System gemäß Anspruch 15, das ferner eine Relative-Position-Bestimmeinrichtung zum Bestimmen der relativen Positionen der Geräte aufweist, wobei die Relative-Position-Bestimmeinrichtung an jedem Gerät folgende Merkmale aufweist: – ein elektromagnetisches Kommunikations-Sende-Empfangs-Gerät; – einen Schallemitter und -empfänger; – eine Steuerungseinrichtung zum Veranlassen des Geräts, einen Schall von seinem Schallemitter in vorbestimmter zeitlicher Beziehung zu einem Senden eines Zeitgebungsreferenzsignals von seinem elektromagnetischen Kommunikations-Sende-Empfangs-Gerät zu emittieren; – eine Abstandsbestimmeinrichtung zum Bestimmen des Abstands des Geräts von einem der anderen Geräte durch ein Bestimmen der Durchgangszeit von Schall, der von diesem Gerät gesendet wird, auf der Grundlage der Empfangszeit des Schalls, der durch dieses Gerät emittiert wird, relativ zu der Empfangszeit des Zeitgebungsreferenzsignals von diesem Gerät; – eine Einrichtung zum Austauschen von Zwischengerätabständen mit anderen Geräten; und – eine Einrichtung zum Verwenden der Zwischengerätabstände, um die relativen Positionen der Geräte zu bestimmen.
Ein System gemäß einem der Ansprüche 11 bis 16, bei dem die Steuerungsanordnungsvorrichtung eine Verzögerte-Deaktivierung-Einrichtung umfasst, die wirksam ist, nachdem die Vorrichtung anfänglich für eine Sprachsteuerung freigegeben wurde, um die Vorrichtung weiterhin für die Sprachsteuerung freizugeben, nachdem der Benutzer aufgehört hat, der Vorrichtung zugewandt zu sein, aber nur solange der Benutzer fortfährt zu sprechen, und für eine begrenzte Zeit-Aus-Periode danach, wobei die Verzögerte-Deaktivierung-Einrichtung auf eine Wiederaufnahme des Sprechens während dieser Periode anspricht, um die Sprachsteuerung der Vorrichtung weiterhin freizugeben, wobei die Zeitgebung der Zeit-Aus-Periode rückgesetzt wird.
Ein System gemäß einem der Ansprüche 11 bis 16, bei dem die Steuerungsanordnungsvorrichtung wirksam ist, um die Vorrichtung nur für eine Sprachsteuerung freizugeben, solange der Benutzer der Vorrichtung zugewandt ist.