DE102011054197B4

DE102011054197B4 - Selektive Übertragung von Sprachdaten

Info

Publication number: DE102011054197B4
Application number: DE102011054197.7A
Authority: DE
Inventors: Howard Locker; Daryl Cromer; Scott Edwards Kelso; Aaron Michael Stewart
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2010-12-23
Filing date: 2011-10-05
Publication date: 2019-06-06
Anticipated expiration: 2031-10-06
Also published as: US9953643B2; US20120166184A1; CN102591455B; CN102591455A; DE102011054197A1

Abstract

Ein System umfassend:
einen oder mehrere Prozessoren (422);
einen Systemspeicher (440), der mit dem einen oder mehreren Prozessoren (422) gekoppelt ist;
einen computerlesbaren Programmcode,
wobei in Abhängigkeit zur Ausführung des computerlesbaren Programmcodes, der den einen oder mehreren Prozessoren (422) zugänglich ist, die einen oder mehreren Prozessoren (422) konfiguriert sind, um während einer Konferenzschaltung, während der das System mit weiteren Systemen kommuniziert:
Sprachdaten (101, 206, 306, 310) zu empfangen, die von einem Tonempfänger (205) erhalten wurden;
Analysieren der Sprachdaten (101, 206, 306, 310), um zu bestimmen, ob die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren;
wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 206, 306, 310) mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren,
die Sprachdaten (101, 206, 306) lokal (105) verarbeitet werden; und
die Sprachdaten (101, 206, 306) nicht nach Extern (106, 211, 311) gesendet werden, so dass die Nutzer der weiteren Systeme die Sprachdaten nicht hören können und
wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 310) nicht mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 310) nach Extern (106, 211, 311) gesendet werden.

Description

HINTERGRUND
Die Sprachbefehltechnik ermöglicht den Betrieb eines Gerätes durch die Sprachinstruktionen eines Benutzers. Diese Technologie ist zunehmend populär geworden und als Ergebnis ist die Anzahl und die Art der Geräte, die Sprachsteuerung ermöglichen, gestiegen. Vor allem bei Mobiltelefonen und bestimmten Kraftfahrzeug-Funktionen, wie dem Betrieb eines Radios oder eines Navigationssystems, möchten Benutzer immer öfter einen „Hände-frei“-Modus. Ohne ein Gerät über Knöpfe und Schalter steuern zu müssen, können Benutzer sprachsteuerfähige Geräte benutzen und gleichzeitig andere Aufgaben mit wachsender Sicherheit ausführen. Der Gebrauch solcher Geräte kann jedoch zu gewissen Problemen führen, sobald ein Benutzer das Gerät stumm schalten möchte oder wenn eine Vielzahl von Geräten innerhalb der Reichweite der Benutzerstimme liegt. Die Fähigkeit eines Gerätes, selektiv Steuerbefehle oder Sprachdaten zu verarbeiten, würde die Funktionalität von sprachgesteuerten Geräten stark erhöhen.
Auf den aus der Druckschrift DE 10 2009 017 177 A1 bekannten Stand der Technick wird verwiesen.
KURZE ZUSAMMENFASSUNG
Ein Aspekt bietet ein System, umfassend: ein oder mehrere Prozessoren; einen Systemspeicher, der operativ mit dem einen oder mehreren Prozessoren gekoppelt ist; einen Tonempfänger, der konfiguriert ist, um Sprachdaten zu empfangen; und einen Sprachdatenanalysierer, der konfiguriert ist, um zu bestimmen, ob die Sprachdaten mit einem oder mehreren lokalen Sprachkriterien korrespondieren; wobei in Abhängigkeit zu den Sprachdaten, die zu einem oder mehreren lokalen Sprachkriterien korrespondieren, die Sprachdaten lokal verarbeitet werden; und die Sprachdaten nicht nach außen übermittelt werden.
Ein anderer Aspekt stellt ein Verfahren dar, das umfasst: Empfangen von Sprachdaten an einem Tonempfänger; und Bereitstellen eines Sprachdatenanalysierers, der dazu konfiguriert ist, um zu bestimmen, ob die Sprachdaten mit einem oder mehreren lokalen Sprachkriterien korrespondieren, wobei in Abhängigkeit von den Sprachdaten, die zu einem oder mehreren lokalen Sprachkriterien korrespondieren, die Sprachdaten dann lokal verarbeitet werden; und die Sprachdaten nicht nach außen gesendet werden.
Ein weiterer Aspekt stellt ein Computerprogrammprodukt dar, das umfasst: ein computerlesbares Speichergerät, auf das ein computerlesbarer Programmcode aufgebracht ist, der computerlesbare Programmcode umfasst: einen computerlesbaren Programmcode, der dazu konfiguriert ist, Sprachdaten an einem Tonempfänger zu empfangen; und einen computerlesbaren Programmcode, der dazu konfiguriert ist, um einen Sprachdatenanalysierer bereitzustellen, der dazu konfiguriert ist, um zu bestimmen, ob die Sprachdaten mit einem oder mehreren lokalen Sprachkriterien korrespondieren; computerlesbarer Programmcode, der dazu konfiguriert ist, in Abhängigkeit von den Sprachdaten, die zu einem oder mehreren lokalen Sprachkriterien korrespondieren, die Sprachdaten lokal verarbeitet werden und die Sprachdaten nicht nach außen gesendet.werden.
Die obige Beschreibung ist eine Zusammenfassung und kann demnach Vereinfachungen, Generalisierungen und Lücken im Detail aufweisen. Demzufolge ist die Zusammenfassung nur illustrativ und nicht als beschneidend vorgesehen.
Zum besseren Verständnis der Ausführungsbeispiele sowie anderer und weiterer Merkmale und Vorteile wird auf die folgende Beschreibung Bezug genommen, die in Verbindung mit den beigefügten Figuren erfolgt.
Figurenliste

1 stellt ein Flussdiagramm eines Ausführungsbeispiels dar;
2 zeigt ein Ausführungsbeispiel der Verarbeitung von Sprachdaten, basierend auf einem vorbestimmten Satz von Gerätesteuerbefehlen;
3 zeigt ein Ausführungsbeispiel zum Verarbeiten von Sprachdaten basierend auf der Abfolge von Sprachdaten;
4 zeigt ein beispielhaftes Rechengerät.

DETAILLIERTE BESCHREIBUNG
Es kann leicht verstanden werden, dass die Komponenten der Ausführungsbeispiele, wie sie oben allgemein diskutiert wurden und in den Figuren gezeigt werden, in einer großen Vielzahl von verschiedenen Konfigurationen zusätzlich zu den beschriebenen Ausführungsformen angeordnet und ausgeführt werden können. Demzufolge ist die folgende detaillierte Beschreibung von Ausführungsbeispielen, wie sie in den Figuren gezeigt ist rein beispielhafter Natur und nicht dazu gedacht, den Schutzbereich der Patentansprüche zu beschneiden, sondern ist vielmehr nur repräsentativ für genau die aufgeführten Ausführungsbeispiele.
In der folgenden Beschreibung bedeutet „ein Ausführungsbeispiel“ oder „eine Ausführungsform“ (oder ähnliches), dass ein bestimmtes Merkmal, Struktur oder Charakteristik, die in Verbindung mit einem Ausführungsbeispiel beschrieben ist, zumindest in einem Ausführungsbeispiel beinhaltet ist. Demzufolge bedeutet die Phrase „in einem Ausführungsbeispiel“ oder „in einer Ausführungsform“ oder dergleichen an verschiedenen Stellen in der Beschreibung nicht notwendigerweise, dass diese alle zur selben Ausführungsform gehören.
Demzufolge können die beschriebenen Merkmale, Strukturen oder Charakteristiken in jeder geeigneten Art und Weise miteinander kombiniert werden. In der folgenden Beschreibung werden viele spezifische Details dargestellt, um ein genaues Verständnis der Ausführungsbeispiele zu gewährleisten. Ein Durchschnittsfachmann auf dem betreffenden Gebiet wird erkennen, dass die einzelnen Aspekte ausgeführt werden können unter Weglassen von einem oder mehreren spezifischen Details oder mit anderen Verfahren, Komponenten, Materialien etc. Darüber hinaus werden gut bekannte Strukturen, Materialien oder Verfahren nicht gezeigt oder im Detail beschrieben, um eine Überfrachtung zu vermeiden.
Die Bedienung von Geräten durch Sprachsteuerbefehle wird immer beliebter, vor allem bei Smartphones, die entweder eine kleine oder gar keine Tastatur aufweisen und bei Fahrzeugen, die für verschiedene Funktionen einen händefreien Betrieb erfordern. Allerdings taucht ein Problem auf, sobald ein Benutzer ein Gerätemikrophon stumm schalten möchte auf Grund von einem Hintergrundgeräusch, einer Rückkopplung bei einem Mehrpersonengespräch, oder um eine private Unterhaltung aus einer Konferenzschaltung fernzuhalten. In den gegenwärtigen Technologien ermöglichen viele Geräte dem Benutzer, das Gerät manuell stumm zu schalten, um Sprachsteuerbefehle zu benutzen. Diese Einschränkung begrenzt Komfort und Sicherheit, beim Gebrauch eines Geräts im „Hände-frei“-Modus durch Sprachsteuerbefehle. Darüber hinaus kann das herkömmliche Stummschalten den gesamten Sprachbetrieb eines Gerätes stoppen, obwohl ein Benutzer einen lokalen Betrieb aufrechterhalten möchte und nur die Übermittlung von Sprachdaten abschalten möchte. Demzufolge wäre es wünschenswert, ein Gerät zu haben, das lokal aktiv Sprachdaten verarbeiten kann, wobei es nach außen stumm geschaltet ist.
Die Ausführungsformen stellen sprachgesteuerte Geräte dar, die Ton empfangen, aber die Sprachdaten aus dem System nicht senden, ohne das gewisse Sprachfilterkriterien erfüllt werden. Darüber hinaus bieten die Ausführungsformen Geräte, die einen Sprachsteuerbetrieb ermöglichen, während externe Sprachdatenübermittelung im Stummschaltbetrieb vorgesehen ist. Demzufolge können Geräte nach den vorliegenden Ausführungsformen Sprachdaten lokal verarbeiten, je nachdem, ob die Sprachdaten mit Sprachfilterkriterien übereinstimmen. Nach dem Ausführungsformen nehmen sprachgesteuerte Geräte die Sprache auf und analysieren in Echtzeit auf einer Wort-für-Wort-Basis und entscheiden, ob die Sprachdaten lokal verarbeitet werden, extern übermittelt werden oder beides. Die Sprachdaten, die von einem Gerät aufgenommen werden, können in einem Buffer abgelegt werden, so dass das Gerät sie gemäß den Ausführungsformen analysieren kann. Darüber hinaus gewährleisten die Ausführungsformen, dass jegliche Buffer-Verzögerung aus einer Verzögerung im Bereich von Millisekunden liegt. Demzufolge können die Sprachdatenübermittelung oder sprachaktivierte Steuerbefehle im wesentlichen in Echtzeit oder nur unwesentlich verzögert ausgeführt werden, wie man es von ähnlichen Geräten gewohnt ist.
Unter Bezugnahme auf die 1 wird im folgenden eine beispielhafte Ausführungsform erläutert. Sprachdaten 101 werden von einem Sprachdatensteuersystem 102 empfangen und in einem Buffer 103 abgelegt. Das Sprachdatensteuersystem 102 analysiert die Sprachdaten 101, um zu bestimmen, ob die Sprachdaten 101 lokal 105 verarbeitet werden sollen oder nach Extern 106 gesendet werden sollen. Falls die Sprachdaten 101 mit Sprachdatenkriterien 104 übereinstimmen, werden die Sprachdaten lokal 105 in dem Gerät verarbeitet. Andererseits können die Sprachdaten 101 nach Extern 106 gesendet werden, falls die Sprachdaten 101 mit den Sprachdatenkriterien 104 nicht übereinstimmen.
Nach den Ausführungsformen können die Sprachfilterkriterien eine Liste von vorbestimmten oder erlernten Sprachsteuerbefehlen umfassen, die nicht gesendet werden und die nur lokal verarbeitet werden. Als nicht beschränkendes Beispiel wird ein Mobiltelefon angeführt, in dem ein Satz von Steuerbefehlen wie zum Beispiel Anrufen-, Text- und Lautstärke-Steuerbefehlen gewisse Funktionen aktivieren und nur lokal verarbeitet werden. Ein anderes nicht beschränkendes Beispiel ist ein Fahrzeug mit einem Computersystem, das verschiedene Systeme wie Navigation, Klimakontrolle, Lautsprechersysteme und Telefon mittels Sprachsteuerbefehlen aufweist, wobei eine vorbestimmte Liste von Sprachsteuerbefehlen durch das lokale Computersystem prozessiert wird.
Mit der 2 wird ein Ausführungsbeispiel gezeigt, wobei die Entscheidung, ob Sprachdaten nach Extern gesendet werden, darauf basiert, ob die Sprachdaten mit einem vorbestimmten Satz von Gerätesteuerbefehlen übereinstimmt. Das Mobiltelefon 201 wird in einem „Hände-frei“-Modus betrieben, wobei es über Sprachsteuerbefehle gesteuert wird. Wie in der 2 dargestellt ist, befindet sich das Mobiltelefon 201 in einer Konferenzschaltung 202, wobei es mit zwei weiteren Mobiltelefonen 203, 204 kommuniziert. Das mobile Telefonmikrophon 205 empfängt Sprachdaten, die die gesprochene Phrase „öffne Kalender“ 206 beinhaltet. In dem in 2 dargestellten Beispiel möchte der Benutzer, dass das Mobiltelefon 201 die Phrase „öffne Kalender“ 206 detektiert und das Kalenderprogramm 207 auf dem Mobiltelefon ausführt, wobei die Konferenzschaltung mit den anderen Teilnehmern nicht durch das Hören der gesprochenen Phrase 206 unterbrochen werden soll. Das Mobiltelefon 201 verarbeitet den Sprachsteuerbefehl 208 und bestimmt, ob er einer der Befehle in der vorbestimmten lokalen Steuerbefehlliste 209 ist. Der Sprachsteuerbefehl 206 „öffne Kalender“ wird lokal 210 von dem Mobiltelefon ausgeführt, um das Kalenderprogramm 207 zu öffnen, da es in der vorbestimmten lokalen Steuerbefehlliste 209 aufgeführt ist. Darüber hinaus wird der Sprachsteuerbefehl 206 nicht nach Extern 211 an die anderen Teilnehmer 203, 204, die sich in der Konferenzschaltung befinden, gesendet.
Ausführungsbeispiele geben ein Gerät an, das bestimmt, ob nur lokal auf Sprachdaten reagiert werden soll, basierend auf der Tonlang in der Stimme des Sprechers. Nach den Ausführungsformen kann die Tonlange unter anderem die Lautstärke, Sprachpausen, wie schnell der Sprecher spricht, die Akzentuierung bestimmter Worte und die Wechsel in der Sprachfrequenz umfassen. Darüber hinaus ermöglichen die Ausführungsformen, dass ein Gerät zur Verwendung von Abfolgekriterien trainiert werden kann. Die Ausführungsformen gewährleisten Systeme, die unter Berücksichtigung der Abfolge der Benutzerstimme bestimmen können, ob Sprachdaten nur lokal prozessiert oder nach Extern gesendet werden sollten.
Die 3 veranschaulicht ein Ausführungsbeispiel, wobei basierend auf der Abfolge entschieden wird, ob Sprachdaten lokal verarbeitet oder nach Extern gesendet werden sollen. Ein Laptop-Computer 301 läuft mit einer Sprachanwendung 302, die zu einer Sprachdatenübermittelung mit einem zweiten Computergerät 303 verbunden ist. Als nicht einschränkendes Beispiel kann die Sprachanwendung eine Software sein, die es Anwendern ermöglicht, Telefonate zwischen Rechengeräten über das Internet zu machen. Das Sprachsteuerbefehl-Kontrollsystem 304 des Laptop-Computers 301 empfängt die Benutzersprachdaten 305 mit dem gesprochenen Text „leiser stellen“ 306 und analysiert diesen, um zu bestimmen, ob es gesprochene Worte enthält, die in einer vom Benutzer vorbestimmten Abfolge 307 liegen. Das Sprachdatensteuersystem 304 bestimmt, dass die Worte „leiser stellen“ 306 in einer vorbestimmten Abfolge 307 gesprochen wurden. Demzufolge werden die Worte „leiser stellen“ 306 nur lokal von dem Laptopcomputer verarbeitet und die Gerätelautstärke 308 heruntergesetzt und nicht extern durch die Sprachapplikation 302 gesendet. Wie die 3 zeigt, analysiert das Sprachsteuerbefehl-Kontrollsystem 304 weitere Benutzersprachdaten 309, die aus den gesprochenen Worten „Ich werde morgen wieder anrufen“ 310 bestehen. Das Sprachdatenkontrollsystem bestimmt, dass die Worte „Ich werde morgen wieder anrufen“ 310 nicht in einer vorbestimmten Abfolge 307 gesprochen wurden. Vielmehr wurden die Worte „Ich werde morgen wieder anrufen“ 310 in einem normalen Konversationston gesprochen und werden nach Extern 311 durch die Sprachapplikation 302 gesendet.
Ob Sprachdaten nur lokal im Gerät verarbeitet werden, kann bestimmt werden nach den Ausführungsformen, basierend auf diskreten Worten oder Pausen in einer trainierten Benutzerstimme mit unter anderem Detektieren von Pausen in der Stimme, die in der Sprache bei normaler Konversation nicht vorkommen. Als ein nicht beschränkendes Beispiel kann ein GPS-Navigationsgerät den „Geh zu<Ort>“-Befehl zum Setzen eines <Ort> als benutzerspezifizierten Ort für das GPS-Navigationsprogramm umfassen. Demzufolge kann das Sprachdatenkontrollsystem in den Ausführungsbeispielen die Sprache analysieren und kategorisieren als Nichtkonversations-Sprachkommando auf Grund der Pausen vor und nach dem Befehl, falls der Benutzer spricht „{Pause}... gehe zu <Ort>... {Pause}“. Demzufolge wird das Sprachsteuersystem die Sprachdaten nur lokal.verarbeiten und das GPS-Navigationsprogramm auf den gewünschten Ort setzen. Allerdings wird das Gerät diese Phrase „Geh zu<Ort>“ davon unterscheiden, wenn die erforderlichen unterscheidungskräftigen Pausen in einer normalen Konversation fehlen, also wenn ein Benutzer sprachlich von sich gibt, dass er „Geh zum <Ort>diese Woche, wenn ich genug Zeit habe“. Demzufolge wird das Gerät den Ort des GPS-Navigationsprogramms nicht auf den <Ort> setzen und erlauben, dass die Sprachdaten nach Extern gesendet werden.
Darüber hinaus können die Ausführungsformen bestimmen, ob die Sprachdaten lokal sind, basierend auf Wortfilterkriterien, die mit verschiedenen Mehrwortphrasen oder Wortpaarungen arbeiten. Als nicht beschränkendes Beispiel kann das GPS-Navigationsgerät das Wort „Navigieren“ isoliert als ein Sprachsteuerkommando verarbeiten, das nicht extern gesendet werden soll. Allerdings kann das GPS-Navigationsgerät auf Sprachsteuerbefehle reagieren, die mehrere Wortpaarungen beinhalten, so zum Beispiel „Navigieren an“ oder „Navigieren aus“ als Sprachsteuerbefehle. Demzufolge werden die Sprachsteuerbefehle nur lokal von dem Gerät verarbeitet und nicht nach Extern gesendet.
Nach den Ausführungsformen können Stimmfilterkriterien auf Benutzerantworten basieren, basierend auf Antworten auf eine Verifikationsanfrage, die vom Gerät stammt. Als nicht begrenzendes Beispiel kann ein Laptop-Computer fragen, ob ein gewisses Wort oder eine Phrase, die vom Gerät empfangen wurde, nach außen gesendet werden soll. Daraufhin kann, wenn das Gerät Sprachdaten, die enthalten, dass der Benutzer das Wort „Ja“ gesprochen hat, bestimmen, dass der Benutzer damit angibt, dass er wünscht, dass die Sprachdaten übersandt werden, das Gerät dann die Sprachdaten nach Extern sendet. Sollte dies nicht der Fall sein, verarbeitet das Gerät die Sprachdaten nur lokal.
Ausführungsbeispiele gewährleisten, dass ein Gerät bestimmen kann, ob Sprachdaten nur lokal behalten werden sollen, basierend ob der Sprachsteuermodus durch ein Nichtsprachverfahren angeschaltet oder ausgeschaltet ist. Solche Nichtsprachverfahren beinhalten unter anderem das Knopf-Drücken, Touchscreen-Gestiken, Gesichtserkennung, eine physische Geste mit dem Gerät und eine physische Geste, die von einer Kamera erfasst wurde. Ein Mobiltelefon mit einer Tastatur beispielsweise kann Sprachdaten lokal verarbeiten, wenn die Tastatur vom Benutzer benutzt wird und für eine bestimmte Zeit, beispielsweise fünf Sekunden danach. In diesem Beispiel werden Sprachsteuerbefehle auf das Gerät übertragen, falls die Tastatur als inaktiv betrachtet wird, beispielsweise wenn ein Benutzer in ein Telefonat verwickelt ist. Nach einem weiteren ebenfalls nicht begrenzenden Ausführungsbeispiel kann ein Rechengerät mit einer Kamera, die Benutzergestiken detektiert, bestimmen, ob Sprachsteuerbefehle lokal verarbeitet werden sollen oder nach Extern gesendet werden sollen, basierend auf dem Erkennen von bestimmten Benutzergesten oder alternativ dazu beim Erkennen, dass solche nicht erfolgt sind.
In weiteren Ausführungsformen wird der Sprachsteuerbefehlbetrieb eines Geräts auch während einer Stummschalt-Operation unterstützt. Gewisse Ausführungsformen gewährleisten eine „Sprach-Firewall“, wobei das Mikrophon des Geräts aktiv bleibt, der empfangene Ton jedoch nicht vom Gerät übermittelt wird, ohne dass bestimmte Kriterien erfüllt sind. In Ausführungsformen wird gewährleistet, dass ein Benutzer die Stummschalt-Operation auf einem Gerät aktivieren kann, so dass die Stimme des Benutzers nicht nach Extern gesendet wird, die Sprachkommandos jedoch aktiv bleiben. Beispielsweise kann ein Smartphone-Benutzer, der in ein Gespräch verwickelt ist, das Smartphone in einen Stummschalt-Betrieb schalten, so dass andere Teilnehmer nicht die Benutzerstimme hören können. Allerdings kann das Smartphone dann immer noch die Benutzerstimme empfangen, um Sprachsteuerbefehle zu verarbeiten, auch wenn es in der Stummschalt-Operation befindlich ist und die Benutzerstimme nicht nach Extern sendet.
Geräte nach den Ausführungsformen können auch eine Benutzerrückkopplung beinhalten, die den Status des Sprachverarbeitungsprozesses anzeigen, beispielsweise aber nicht eingeschränkt darauf, ob der Sprachempfang erkannt wird, auf lokale Umgebung beschränkt ist, aus dem Gerät gesendet wird und ob ein Sprachsteuerbefehl ausgeführt wurde. Beispielsweise kann ein Gerätebildschirm Equalizer-Balken anzeigen, die indizieren, ob Sprachdaten empfangen werden und ein veränderliches Icon bereitstellen, dessen Farbe und Text sich ändert, je nachdem, ob Sprachdaten lokal verarbeitet werden oder ob diese nach Extern gesendet werden.
Ausführungsformen gewährleisten, dass basierend auf einer Kombination von Sprachfilterkriterien, die oben beschrieben wurden, entschieden wird, ob Sprachdaten nur lokal bearbeitet oder nach Extern gesendet werden. Beispielsweise kann eine solche Bestimmung darauf basieren, ob Worte innerhalb der Sprachdaten vorhanden sind, die sich in einer vorbestimmten Liste befinden und mit der geeigneten Abfolge gesprochen wurden.
Obwohl andere Schaltungen oder Schaltkreise benutzt werden können, zeigt die 4 ein Blockdiagramm für ein beispielhaftes Computersystem und Schaltung. Das System kann ein Tablet-Computersystem sein, beispielsweise aus der ThinkPad®-Reihe von Personalcomputern, wie sie von der Firma Lenovo, USA Inc. aus Morrisville, NC stammen. Wie in der folgenden Beschreibung offenbart wird, kann ein Gerät oder eine andere Maschine andere Merkmale oder nur einige der in der 4 veranschaulichten Systemmerkmale beinhalten. Darüber hinaus können das Computersystem und die Schaltung auch in anderen Geräten Anwendung finden, beispielsweise in einem Smartphone, einem Personal Digital Assistenten (PDA) oder einem Rechensystem, das in einem Fahrzeug integriert ist.
Das Computersystem aus der 4 beinhaltet einen sogenannten Chipsatz 410 (eine Menge von integrierten Schaltkreisen oder Chips, die miteinander arbeiten, Chipsätze) mit einer Architektur, die vom Hersteller stammt, beispielsweise IN-TEL®, AMD®, ARM® etc. Die Architektur des Chipsatzes 410 beinhaltet einen Core und einen Speichersteuersatz 420 und eine I/O-Steuervorrichtung 450, die Informationen, beispielsweise Daten, Signale, Befehle etc., über ein Direct-Management-Interface (DMI) 442 oder einen Link-Controller 444 austauscht. In der 4 ist das DMI 442 ein Chip-zu-Chip-Interface, das auch manchmal als eine Verbindung zwischen einer „Northbridge“ und einer „Southbridge“ bezeichnet wird. Der Core und der Speicherkontrollsatz 420 beinhalten einen oder mehrere Prozessoren 422, beispielsweise einen Single-Core oder einen Multi-Core, und eine Speichersteuervorrichtung 426, die Information über einen Front-Side-BUS (FSB) 424 austauscht. Es wird angemerkt, dass die Bestandteile des Satzes 420 auf einen einzelnen Chip integriert sein können, der die konventionelle „Northbridge“-artige Architektur unterstützt.
Wie in der 4 gezeigt wird, steht die Speichersteuervorrichtung 426 mit dem Speicher 440 in Verbindung, beispielsweise um Unterstützung für eine Art von RAM zu gewährleisten, die als „Systemspeicher“ bezeichnet wird. Die Speichersteuervorrichtung 426 beinhaltet des weiteren ein LVDS-Interface 432 für ein Anzeigegerät 492, beispielsweise ein CRT, einen Flachbildschirm, einen Projektor etc. Ein Block 438 beinhaltet einige Technologien, die beispielsweise über das LVDS-Interface 432 unterstützt werden, beispielsweise ein serielles digitales Video, HDMI/DVI, ein Display-Port. Das Speichersteuergerät 426 beinhaltet des weiteren ein PCI-Express-Interface (PCI-E) 434, das diskrete Grafik 436 unterstützen kann.
In der 4 beinhaltet der I/O-Hub-Controller 150 ein SA-TA-Interface 451, beispielsweise für HDDs, SDDs etc., ein PCI-E Interface 452, beispielsweise für eine Drahtlosverbindung 182, ein USB-Interface 453, beispielsweise für ein Eingabegerät 484 wie einen Digitalisierer, eine Tastatur, eine Computermaus, Kameras, Telefone, Speichergeräte etc., ein Netzwerk-Interface 454, beispielsweise ein LAN, ein GPIO-Interface 455, ein LPC-Interface 470 für ASICs 471, ein TPM 472, ein Super-I/O 473, einen Firmware-Hub 474, eine BIOS-Unterstützung 475 genauso wie verschiedene Arten von Speichern 476, beispielsweise ein ROM 477, ein Flash 478 und ein NVRAM 479, ein Powermanagement-Interface 461, ein Taktgenerator-Interface 362, ein Audio-Interface 463, beispielsweise für Lautsprecher 494, ein TCO-Interface 464, ein Systemmanagement-BUS-Interface 465, ein SPI-Flash 466, das ein BIOS 468 und einen Bootcode 490 beinhalten kann. DER I/O-Hubcontroller 450 kann Gigabit-Ethernet-Unterstützung beinhalten.
Nach Einschalten kann das System konfiguriert sein, um den Boot-Code 490 für das BIOS 468 auszuführen, wie es im SPI-Flash 466 gespeichert ist, und danach Daten unter Steuerung von einem oder mehreren Betriebssystemen und Anwendungssoftware, beispielsweise abgelegt in einem Systemspeicher 440, verarbeiten. Ein Betriebssystem kann in einem von vielen Orten gespeichert sein und beispielsweise über die Steuerbefehle des BIOS 468 zugegangen werden. Wie im folgenden beschrieben wird, kann das Gerät mehr oder weniger Merkmale aufweisen als das in der 4 gezeigte System.
Die Ausführungsbeispiele geben sprachgesteuerte Geräte an, die Sprache empfangen, aber die Sprachdaten nicht aus dem System transferieren, ohne dass gewisse Sprachfilterkriterien erfüllt wurden. Wie eingangs beschrieben, beinhalten die sprachgesteuerten Geräte Geräte, die durch Sprachsteuerbefehle gesteuert werden können, beispielsweise Mobiltelefone, PDAs, Computer und Fahrzeugcomputersysteme.
Nach den Ausführungsformen können die sprachgesteuerten Geräte zusammen mit anderen Geräten benutzt werden, die sprachsteuerbar sein können oder auch nicht. Beispielsweise kann ein Mobiltelefon mit einem Fahrzeugcomputersystem oder einem Laptop gekoppelt werden. Ausführungsformen gewährleisten, dass das Sprachsteuersystem aus einer Vielzahl von Geräten zusammensetzt sein kann, wobei zumindest eines Sprachsteuerbefehle verarbeitet. Nach den Ausführungsformen kann ein Gerät als ein lokales Gerät dienen, wohingegen das andere Gerät als ein untergeordnetes Gerät agieren kann. Beispielsweise kann ein Mobiltelefon mit einem Fahrzeugcomputersystem gekoppelt sein, wobei das Fahrzeugcomputersystem als lokales System agiert, das Sprachdaten verarbeitet, wohingegen das Mobiltelefon als untergeordnetes Gerät agiert. Darüber hinaus kann beispielsweise das Fahrzeugcomputersystem dazu ausgelegt sein, für verschiedene Funktionen in einem „Hände-frei“-Betrieb betrieben zu werden, und das Mobiltelefon kann in das System eingebunden sein und über Sprachsteuerbefehle betrieben werden, die vom lokalen Fahrzeugcomputersystem verarbeitet werden. Demzufolge gewährleisten die Ausführungsformen, dass zum Verarbeiten von Sprachdaten in einem lokalen Gerät die Sprachdaten zum Verarbeiten an ein untergeordnetes Gerät übermittelt werden können.
Es sollte angemerkt werden, dass viele der funktioneilen Charakteristiken der Ausführungsformen, wie sie in dieser Beschreibung beschrieben wurden, als Module implementiert werden können. Die Module können Hardware-Schaltungen, wie zum Beispiel mehrere Prozessoren mit Speichern, beinhalten, programmierbare Logik und/oder diskrete Komponenten. Die Hardware-Schaltungen können fest verdrahtete logische Funktionen, computerlesbare Programme, die auf Speichergeräten abgelegt sind, und/oder programmierte Funktionen ausführen. Die computerlesbaren Programme können die Funktionen der Ausführungsbeispiele in Kombination mit anderen Elementen ausführen.
Wie ein Durchschnittsfachmann unschwer erkennen kann, können die Ausführungsformen reine Hardware-Ausführungsformen oder Ausführungsformen sein, die beides, Hardware- und Softwareelemente beinhalten. Eine Ausführung, die in einer Software implementiert ist, kann beispielsweise Firmware, spezifische Software, Microcode etc. beinhalten.
Die computerlesbaren Programme können in jeglichem Nicht-Signalmedium gespeichert werden. Beispiele dafür sind Halbleiter- oder Festkörperspeicher, Magnetbänder, lose Computerdisketten, ein Random-Access-Memory (RAM), ein Read-Only-Memory (ROM), eine feste Magnetplatte und eine optische Platte. Gegenwärtige Beispiele für optische Platten beinhalten Compact Disk Read Only Memory (CD-ROM), Compact Disk Read/Write (CD-R/W) und DVD.
Demzufolge können Elemente auf zumindest einem elektronischen Gerät implementiert werden, auf welchem die geeigneten Software-Programme laufen. Diese können auf zumindest einem integrierten Schaltkreis oder einem Teil von zumindest einem integrierten Schaltkreis implementiert werden. Demzufolge können die Ausführungsformen in einer Kombination von sowohl Hardware als auch Software implementiert werden. Computer/maschinenlesbare Programme können in Kombination mit einem elektronischen Gerät die Funktionen der Ausführungsformen ausführen.
Die Offenbarung wurde zum Zweck der Veranschaulichung vorgenommen und die Beschreibung ist nicht erschöpfend oder begrenzend. Viele Modifikationen und Variationen ergeben sich für Durchschnittsfachleute. Die Ausführungsformen wurden gewählt und beschrieben, um die Prinzipien und die praktische Anwendung zu erläutern und um andere Durchschnittsfachleute dazu in die Lage zu versetzen, die Offenbarung von verschiedenen Ausführungsformen mit verschiedenen Modifikationen zu verstehen, die für den bestimmungsgemäßen Zweck geeignet sind.
In den Zeichnungen und der Beschreibung wurden Ausführungsbeispiele angegeben. Obwohl spezifische Ausdrücke benutzt werden, ist die in der Beschreibung gewählte Terminologie nur generisch und beschreibend und nicht zum Zwecke der Begrenzung.

Claims

Ein System umfassend: einen oder mehrere Prozessoren (422); einen Systemspeicher (440), der mit dem einen oder mehreren Prozessoren (422) gekoppelt ist; einen computerlesbaren Programmcode, wobei in Abhängigkeit zur Ausführung des computerlesbaren Programmcodes, der den einen oder mehreren Prozessoren (422) zugänglich ist, die einen oder mehreren Prozessoren (422) konfiguriert sind, um während einer Konferenzschaltung, während der das System mit weiteren Systemen kommuniziert: Sprachdaten (101, 206, 306, 310) zu empfangen, die von einem Tonempfänger (205) erhalten wurden; Analysieren der Sprachdaten (101, 206, 306, 310), um zu bestimmen, ob die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren; wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 206, 306, 310) mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 206, 306) lokal (105) verarbeitet werden; und die Sprachdaten (101, 206, 306) nicht nach Extern (106, 211, 311) gesendet werden, so dass die Nutzer der weiteren Systeme die Sprachdaten nicht hören können und wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 310) nicht mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 310) nach Extern (106, 211, 311) gesendet werden.
System nach Anspruch 1, wobei die einen oder mehreren lokalen Sprachkriterien (209) eine vorbestimmte Menge von Worten umfassen.
System nach Anspruch 1, wobei die einen oder mehreren lokalen Sprachkriterien (307) eine Abfolge von Sprachdaten umfassen.
System nach Anspruch 1, wobei die einen oder mehreren lokalen Sprachkriterien (209, 307) eine oder mehrere Nichtkonversationspausen in den Sprachdaten (101, 206, 306, 310) umfassen.
System nach Anspruch 1, des Weiteren umfassend einen Sprachdaten-Buffer (103), der dazu konfiguriert ist, Sprachdaten (101, 206, 306, 310) vor der Analyse aufzunehmen.
System nach Anspruch 1, des Weiteren umfassend einen oder mehrere Systemsprachsteuerbefehle (208), die dazu konfiguriert sind, Systemfunktionen aufzurufen.
System nach Anspruch 6, wobei das lokale Verarbeiten der Sprachdaten (101, 206, 306, der Sprachdaten (101, 206, 306, 310) das Prozessieren als eines oder mehrere Systemsprachsteuerbefehle umfasst.
System nach Anspruch 1, des Weiteren umfassend: einen Stummschaltbefehl, der konfiguriert ist, um einen Stummschaltbetriebsmodus zu ermöglichen; wobei in Abhängigkeit zu dem Stummschaltbetriebsmodus die Sprachdaten lokal verarbeitet werden und die Sprachdaten nicht extern gesendet werden.
System nach Anspruch 1, des Weiteren umfassend: einen Anzeigebildschirm (492), der dazu konfiguriert ist, um eine Rückkopplung für die Sprachdaten (101, 206, 306, 310) anzuzeigen, wobei die Rückkopplung aus der folgenden Gruppe ausgewählt ist, die besteht aus: ob der Tonempfänger Sprachdaten (101, 206, 306, 310) empfängt, ob die Sprachdaten (101, 206, 306, 310) lokal verarbeitet werden oder extern gesendet werden, und ob eine oder mehrere Sprachsteuerbefehle (208) aktiviert wurden.
Ein Verfahren umfassend: während einer Konferenzschaltung, während der ein System mit weiteren Systemen kommuniziert: Empfangen von Sprachdaten (101, 206, 306, 310) an einem Tonempfänger (205); und Analysieren der Sprachdaten (101, 206, 306, 310), um zu bestimmen, ob die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren; wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren: die Sprachdaten (101, 206, 306) lokal (105) verarbeitet werden, und die Sprachdaten (101, 206, 306) nicht.extern (106, 211, 311) gesendet werden, so dass die Nutzer der weiteren Systeme die Sprachdaten nicht hören können, wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 310) nicht mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 310) extern (106, 211, 311) gesendet werden.
Verfahren nach Anspruch 10, wobei die einen oder mehreren lokalen Sprachkriterien (209) eine vorbestimmte Menge von Worten umfassen.
Verfahren nach Anspruch 10, wobei die einen oder mehreren lokalen Sprachkriterien (307) eine Abfolge von Sprachdaten umfassen.
Verfahren nach Anspruch 10, wobei die einen oder mehreren lokalen Sprachkriterien (209, 307) eine oder mehrere Nichtkonversationspausen in den Sprachdaten umfassen.
Verfahren nach Anspruch 10, des Weiteren umfassend einen Sprachdaten-Buffer (103), der konfiguriert ist, um vor der Analyse Sprachdaten (101, 206, 306, 310) aufzunehmen.
Verfahren nach Anspruch 10, des Weiteren umfassend einen oder mehrere Systemsprachsteuerbefehle (208), die dazu konfiguriert sind, Systemfunktionen aufzurufen.
Verfahren nach Anspruch 15, wobei das lokale Verarbeiten von Sprachdaten (101, 206, 306, 310) umfasst Prozessieren der Sprachdaten (101, 206, 306, 310) als eines oder mehrere Systemsprachsteuerbefehle (208).
Verfahren nach Anspruch 10 ferner umfassend: eine Stummschaltungssteuerung, die dazu konfiguriert ist, einen Stummschaltbetriebsmodus zu ermöglichen; wobei in Abhängigkeit zu dem eingeschalteten Stummschaltbetriebsmodus die Sprachdaten lokal verarbeitet werden und die Sprachdaten nicht extern gesendet werden.
Ein Computerprogrammprodukt umfassend ein computerlesbares Speichergerät, auf dem ein computerlesbarer Programmcode verkörpert ist, wobei der computerlesbare Programmcode ausgebildet ist ein Verfahren nach einem der Ansprüche 10 bis 17 auszuführen.