DE102011054197B4 - Selektive Übertragung von Sprachdaten - Google Patents

Selektive Übertragung von Sprachdaten Download PDF

Info

Publication number
DE102011054197B4
DE102011054197B4 DE102011054197.7A DE102011054197A DE102011054197B4 DE 102011054197 B4 DE102011054197 B4 DE 102011054197B4 DE 102011054197 A DE102011054197 A DE 102011054197A DE 102011054197 B4 DE102011054197 B4 DE 102011054197B4
Authority
DE
Germany
Prior art keywords
voice data
voice
data
local
criteria
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102011054197.7A
Other languages
English (en)
Other versions
DE102011054197A1 (de
Inventor
Howard Locker
Daryl Cromer
Scott Edwards Kelso
Aaron Michael Stewart
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of DE102011054197A1 publication Critical patent/DE102011054197A1/de
Application granted granted Critical
Publication of DE102011054197B4 publication Critical patent/DE102011054197B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Ein System umfassend:
einen oder mehrere Prozessoren (422);
einen Systemspeicher (440), der mit dem einen oder mehreren Prozessoren (422) gekoppelt ist;
einen computerlesbaren Programmcode,
wobei in Abhängigkeit zur Ausführung des computerlesbaren Programmcodes, der den einen oder mehreren Prozessoren (422) zugänglich ist, die einen oder mehreren Prozessoren (422) konfiguriert sind, um während einer Konferenzschaltung, während der das System mit weiteren Systemen kommuniziert:
Sprachdaten (101, 206, 306, 310) zu empfangen, die von einem Tonempfänger (205) erhalten wurden;
Analysieren der Sprachdaten (101, 206, 306, 310), um zu bestimmen, ob die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren;
wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 206, 306, 310) mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren,
die Sprachdaten (101, 206, 306) lokal (105) verarbeitet werden; und
die Sprachdaten (101, 206, 306) nicht nach Extern (106, 211, 311) gesendet werden, so dass die Nutzer der weiteren Systeme die Sprachdaten nicht hören können und
wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 310) nicht mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 310) nach Extern (106, 211, 311) gesendet werden.

Description

  • HINTERGRUND
  • Die Sprachbefehltechnik ermöglicht den Betrieb eines Gerätes durch die Sprachinstruktionen eines Benutzers. Diese Technologie ist zunehmend populär geworden und als Ergebnis ist die Anzahl und die Art der Geräte, die Sprachsteuerung ermöglichen, gestiegen. Vor allem bei Mobiltelefonen und bestimmten Kraftfahrzeug-Funktionen, wie dem Betrieb eines Radios oder eines Navigationssystems, möchten Benutzer immer öfter einen „Hände-frei“-Modus. Ohne ein Gerät über Knöpfe und Schalter steuern zu müssen, können Benutzer sprachsteuerfähige Geräte benutzen und gleichzeitig andere Aufgaben mit wachsender Sicherheit ausführen. Der Gebrauch solcher Geräte kann jedoch zu gewissen Problemen führen, sobald ein Benutzer das Gerät stumm schalten möchte oder wenn eine Vielzahl von Geräten innerhalb der Reichweite der Benutzerstimme liegt. Die Fähigkeit eines Gerätes, selektiv Steuerbefehle oder Sprachdaten zu verarbeiten, würde die Funktionalität von sprachgesteuerten Geräten stark erhöhen.
  • Auf den aus der Druckschrift DE 10 2009 017 177 A1 bekannten Stand der Technick wird verwiesen.
  • KURZE ZUSAMMENFASSUNG
  • Ein Aspekt bietet ein System, umfassend: ein oder mehrere Prozessoren; einen Systemspeicher, der operativ mit dem einen oder mehreren Prozessoren gekoppelt ist; einen Tonempfänger, der konfiguriert ist, um Sprachdaten zu empfangen; und einen Sprachdatenanalysierer, der konfiguriert ist, um zu bestimmen, ob die Sprachdaten mit einem oder mehreren lokalen Sprachkriterien korrespondieren; wobei in Abhängigkeit zu den Sprachdaten, die zu einem oder mehreren lokalen Sprachkriterien korrespondieren, die Sprachdaten lokal verarbeitet werden; und die Sprachdaten nicht nach außen übermittelt werden.
  • Ein anderer Aspekt stellt ein Verfahren dar, das umfasst: Empfangen von Sprachdaten an einem Tonempfänger; und Bereitstellen eines Sprachdatenanalysierers, der dazu konfiguriert ist, um zu bestimmen, ob die Sprachdaten mit einem oder mehreren lokalen Sprachkriterien korrespondieren, wobei in Abhängigkeit von den Sprachdaten, die zu einem oder mehreren lokalen Sprachkriterien korrespondieren, die Sprachdaten dann lokal verarbeitet werden; und die Sprachdaten nicht nach außen gesendet werden.
  • Ein weiterer Aspekt stellt ein Computerprogrammprodukt dar, das umfasst: ein computerlesbares Speichergerät, auf das ein computerlesbarer Programmcode aufgebracht ist, der computerlesbare Programmcode umfasst: einen computerlesbaren Programmcode, der dazu konfiguriert ist, Sprachdaten an einem Tonempfänger zu empfangen; und einen computerlesbaren Programmcode, der dazu konfiguriert ist, um einen Sprachdatenanalysierer bereitzustellen, der dazu konfiguriert ist, um zu bestimmen, ob die Sprachdaten mit einem oder mehreren lokalen Sprachkriterien korrespondieren; computerlesbarer Programmcode, der dazu konfiguriert ist, in Abhängigkeit von den Sprachdaten, die zu einem oder mehreren lokalen Sprachkriterien korrespondieren, die Sprachdaten lokal verarbeitet werden und die Sprachdaten nicht nach außen gesendet.werden.
  • Die obige Beschreibung ist eine Zusammenfassung und kann demnach Vereinfachungen, Generalisierungen und Lücken im Detail aufweisen. Demzufolge ist die Zusammenfassung nur illustrativ und nicht als beschneidend vorgesehen.
  • Zum besseren Verständnis der Ausführungsbeispiele sowie anderer und weiterer Merkmale und Vorteile wird auf die folgende Beschreibung Bezug genommen, die in Verbindung mit den beigefügten Figuren erfolgt.
  • Figurenliste
    • 1 stellt ein Flussdiagramm eines Ausführungsbeispiels dar;
    • 2 zeigt ein Ausführungsbeispiel der Verarbeitung von Sprachdaten, basierend auf einem vorbestimmten Satz von Gerätesteuerbefehlen;
    • 3 zeigt ein Ausführungsbeispiel zum Verarbeiten von Sprachdaten basierend auf der Abfolge von Sprachdaten;
    • 4 zeigt ein beispielhaftes Rechengerät.
  • DETAILLIERTE BESCHREIBUNG
  • Es kann leicht verstanden werden, dass die Komponenten der Ausführungsbeispiele, wie sie oben allgemein diskutiert wurden und in den Figuren gezeigt werden, in einer großen Vielzahl von verschiedenen Konfigurationen zusätzlich zu den beschriebenen Ausführungsformen angeordnet und ausgeführt werden können. Demzufolge ist die folgende detaillierte Beschreibung von Ausführungsbeispielen, wie sie in den Figuren gezeigt ist rein beispielhafter Natur und nicht dazu gedacht, den Schutzbereich der Patentansprüche zu beschneiden, sondern ist vielmehr nur repräsentativ für genau die aufgeführten Ausführungsbeispiele.
  • In der folgenden Beschreibung bedeutet „ein Ausführungsbeispiel“ oder „eine Ausführungsform“ (oder ähnliches), dass ein bestimmtes Merkmal, Struktur oder Charakteristik, die in Verbindung mit einem Ausführungsbeispiel beschrieben ist, zumindest in einem Ausführungsbeispiel beinhaltet ist. Demzufolge bedeutet die Phrase „in einem Ausführungsbeispiel“ oder „in einer Ausführungsform“ oder dergleichen an verschiedenen Stellen in der Beschreibung nicht notwendigerweise, dass diese alle zur selben Ausführungsform gehören.
  • Demzufolge können die beschriebenen Merkmale, Strukturen oder Charakteristiken in jeder geeigneten Art und Weise miteinander kombiniert werden. In der folgenden Beschreibung werden viele spezifische Details dargestellt, um ein genaues Verständnis der Ausführungsbeispiele zu gewährleisten. Ein Durchschnittsfachmann auf dem betreffenden Gebiet wird erkennen, dass die einzelnen Aspekte ausgeführt werden können unter Weglassen von einem oder mehreren spezifischen Details oder mit anderen Verfahren, Komponenten, Materialien etc. Darüber hinaus werden gut bekannte Strukturen, Materialien oder Verfahren nicht gezeigt oder im Detail beschrieben, um eine Überfrachtung zu vermeiden.
  • Die Bedienung von Geräten durch Sprachsteuerbefehle wird immer beliebter, vor allem bei Smartphones, die entweder eine kleine oder gar keine Tastatur aufweisen und bei Fahrzeugen, die für verschiedene Funktionen einen händefreien Betrieb erfordern. Allerdings taucht ein Problem auf, sobald ein Benutzer ein Gerätemikrophon stumm schalten möchte auf Grund von einem Hintergrundgeräusch, einer Rückkopplung bei einem Mehrpersonengespräch, oder um eine private Unterhaltung aus einer Konferenzschaltung fernzuhalten. In den gegenwärtigen Technologien ermöglichen viele Geräte dem Benutzer, das Gerät manuell stumm zu schalten, um Sprachsteuerbefehle zu benutzen. Diese Einschränkung begrenzt Komfort und Sicherheit, beim Gebrauch eines Geräts im „Hände-frei“-Modus durch Sprachsteuerbefehle. Darüber hinaus kann das herkömmliche Stummschalten den gesamten Sprachbetrieb eines Gerätes stoppen, obwohl ein Benutzer einen lokalen Betrieb aufrechterhalten möchte und nur die Übermittlung von Sprachdaten abschalten möchte. Demzufolge wäre es wünschenswert, ein Gerät zu haben, das lokal aktiv Sprachdaten verarbeiten kann, wobei es nach außen stumm geschaltet ist.
  • Die Ausführungsformen stellen sprachgesteuerte Geräte dar, die Ton empfangen, aber die Sprachdaten aus dem System nicht senden, ohne das gewisse Sprachfilterkriterien erfüllt werden. Darüber hinaus bieten die Ausführungsformen Geräte, die einen Sprachsteuerbetrieb ermöglichen, während externe Sprachdatenübermittelung im Stummschaltbetrieb vorgesehen ist. Demzufolge können Geräte nach den vorliegenden Ausführungsformen Sprachdaten lokal verarbeiten, je nachdem, ob die Sprachdaten mit Sprachfilterkriterien übereinstimmen. Nach dem Ausführungsformen nehmen sprachgesteuerte Geräte die Sprache auf und analysieren in Echtzeit auf einer Wort-für-Wort-Basis und entscheiden, ob die Sprachdaten lokal verarbeitet werden, extern übermittelt werden oder beides. Die Sprachdaten, die von einem Gerät aufgenommen werden, können in einem Buffer abgelegt werden, so dass das Gerät sie gemäß den Ausführungsformen analysieren kann. Darüber hinaus gewährleisten die Ausführungsformen, dass jegliche Buffer-Verzögerung aus einer Verzögerung im Bereich von Millisekunden liegt. Demzufolge können die Sprachdatenübermittelung oder sprachaktivierte Steuerbefehle im wesentlichen in Echtzeit oder nur unwesentlich verzögert ausgeführt werden, wie man es von ähnlichen Geräten gewohnt ist.
  • Unter Bezugnahme auf die 1 wird im folgenden eine beispielhafte Ausführungsform erläutert. Sprachdaten 101 werden von einem Sprachdatensteuersystem 102 empfangen und in einem Buffer 103 abgelegt. Das Sprachdatensteuersystem 102 analysiert die Sprachdaten 101, um zu bestimmen, ob die Sprachdaten 101 lokal 105 verarbeitet werden sollen oder nach Extern 106 gesendet werden sollen. Falls die Sprachdaten 101 mit Sprachdatenkriterien 104 übereinstimmen, werden die Sprachdaten lokal 105 in dem Gerät verarbeitet. Andererseits können die Sprachdaten 101 nach Extern 106 gesendet werden, falls die Sprachdaten 101 mit den Sprachdatenkriterien 104 nicht übereinstimmen.
  • Nach den Ausführungsformen können die Sprachfilterkriterien eine Liste von vorbestimmten oder erlernten Sprachsteuerbefehlen umfassen, die nicht gesendet werden und die nur lokal verarbeitet werden. Als nicht beschränkendes Beispiel wird ein Mobiltelefon angeführt, in dem ein Satz von Steuerbefehlen wie zum Beispiel Anrufen-, Text- und Lautstärke-Steuerbefehlen gewisse Funktionen aktivieren und nur lokal verarbeitet werden. Ein anderes nicht beschränkendes Beispiel ist ein Fahrzeug mit einem Computersystem, das verschiedene Systeme wie Navigation, Klimakontrolle, Lautsprechersysteme und Telefon mittels Sprachsteuerbefehlen aufweist, wobei eine vorbestimmte Liste von Sprachsteuerbefehlen durch das lokale Computersystem prozessiert wird.
  • Mit der 2 wird ein Ausführungsbeispiel gezeigt, wobei die Entscheidung, ob Sprachdaten nach Extern gesendet werden, darauf basiert, ob die Sprachdaten mit einem vorbestimmten Satz von Gerätesteuerbefehlen übereinstimmt. Das Mobiltelefon 201 wird in einem „Hände-frei“-Modus betrieben, wobei es über Sprachsteuerbefehle gesteuert wird. Wie in der 2 dargestellt ist, befindet sich das Mobiltelefon 201 in einer Konferenzschaltung 202, wobei es mit zwei weiteren Mobiltelefonen 203, 204 kommuniziert. Das mobile Telefonmikrophon 205 empfängt Sprachdaten, die die gesprochene Phrase „öffne Kalender“ 206 beinhaltet. In dem in 2 dargestellten Beispiel möchte der Benutzer, dass das Mobiltelefon 201 die Phrase „öffne Kalender“ 206 detektiert und das Kalenderprogramm 207 auf dem Mobiltelefon ausführt, wobei die Konferenzschaltung mit den anderen Teilnehmern nicht durch das Hören der gesprochenen Phrase 206 unterbrochen werden soll. Das Mobiltelefon 201 verarbeitet den Sprachsteuerbefehl 208 und bestimmt, ob er einer der Befehle in der vorbestimmten lokalen Steuerbefehlliste 209 ist. Der Sprachsteuerbefehl 206 „öffne Kalender“ wird lokal 210 von dem Mobiltelefon ausgeführt, um das Kalenderprogramm 207 zu öffnen, da es in der vorbestimmten lokalen Steuerbefehlliste 209 aufgeführt ist. Darüber hinaus wird der Sprachsteuerbefehl 206 nicht nach Extern 211 an die anderen Teilnehmer 203, 204, die sich in der Konferenzschaltung befinden, gesendet.
  • Ausführungsbeispiele geben ein Gerät an, das bestimmt, ob nur lokal auf Sprachdaten reagiert werden soll, basierend auf der Tonlang in der Stimme des Sprechers. Nach den Ausführungsformen kann die Tonlange unter anderem die Lautstärke, Sprachpausen, wie schnell der Sprecher spricht, die Akzentuierung bestimmter Worte und die Wechsel in der Sprachfrequenz umfassen. Darüber hinaus ermöglichen die Ausführungsformen, dass ein Gerät zur Verwendung von Abfolgekriterien trainiert werden kann. Die Ausführungsformen gewährleisten Systeme, die unter Berücksichtigung der Abfolge der Benutzerstimme bestimmen können, ob Sprachdaten nur lokal prozessiert oder nach Extern gesendet werden sollten.
  • Die 3 veranschaulicht ein Ausführungsbeispiel, wobei basierend auf der Abfolge entschieden wird, ob Sprachdaten lokal verarbeitet oder nach Extern gesendet werden sollen. Ein Laptop-Computer 301 läuft mit einer Sprachanwendung 302, die zu einer Sprachdatenübermittelung mit einem zweiten Computergerät 303 verbunden ist. Als nicht einschränkendes Beispiel kann die Sprachanwendung eine Software sein, die es Anwendern ermöglicht, Telefonate zwischen Rechengeräten über das Internet zu machen. Das Sprachsteuerbefehl-Kontrollsystem 304 des Laptop-Computers 301 empfängt die Benutzersprachdaten 305 mit dem gesprochenen Text „leiser stellen“ 306 und analysiert diesen, um zu bestimmen, ob es gesprochene Worte enthält, die in einer vom Benutzer vorbestimmten Abfolge 307 liegen. Das Sprachdatensteuersystem 304 bestimmt, dass die Worte „leiser stellen“ 306 in einer vorbestimmten Abfolge 307 gesprochen wurden. Demzufolge werden die Worte „leiser stellen“ 306 nur lokal von dem Laptopcomputer verarbeitet und die Gerätelautstärke 308 heruntergesetzt und nicht extern durch die Sprachapplikation 302 gesendet. Wie die 3 zeigt, analysiert das Sprachsteuerbefehl-Kontrollsystem 304 weitere Benutzersprachdaten 309, die aus den gesprochenen Worten „Ich werde morgen wieder anrufen“ 310 bestehen. Das Sprachdatenkontrollsystem bestimmt, dass die Worte „Ich werde morgen wieder anrufen“ 310 nicht in einer vorbestimmten Abfolge 307 gesprochen wurden. Vielmehr wurden die Worte „Ich werde morgen wieder anrufen“ 310 in einem normalen Konversationston gesprochen und werden nach Extern 311 durch die Sprachapplikation 302 gesendet.
  • Ob Sprachdaten nur lokal im Gerät verarbeitet werden, kann bestimmt werden nach den Ausführungsformen, basierend auf diskreten Worten oder Pausen in einer trainierten Benutzerstimme mit unter anderem Detektieren von Pausen in der Stimme, die in der Sprache bei normaler Konversation nicht vorkommen. Als ein nicht beschränkendes Beispiel kann ein GPS-Navigationsgerät den „Geh zu<Ort>“-Befehl zum Setzen eines <Ort> als benutzerspezifizierten Ort für das GPS-Navigationsprogramm umfassen. Demzufolge kann das Sprachdatenkontrollsystem in den Ausführungsbeispielen die Sprache analysieren und kategorisieren als Nichtkonversations-Sprachkommando auf Grund der Pausen vor und nach dem Befehl, falls der Benutzer spricht „{Pause}... gehe zu <Ort>... {Pause}“. Demzufolge wird das Sprachsteuersystem die Sprachdaten nur lokal.verarbeiten und das GPS-Navigationsprogramm auf den gewünschten Ort setzen. Allerdings wird das Gerät diese Phrase „Geh zu<Ort>“ davon unterscheiden, wenn die erforderlichen unterscheidungskräftigen Pausen in einer normalen Konversation fehlen, also wenn ein Benutzer sprachlich von sich gibt, dass er „Geh zum <Ort>diese Woche, wenn ich genug Zeit habe“. Demzufolge wird das Gerät den Ort des GPS-Navigationsprogramms nicht auf den <Ort> setzen und erlauben, dass die Sprachdaten nach Extern gesendet werden.
  • Darüber hinaus können die Ausführungsformen bestimmen, ob die Sprachdaten lokal sind, basierend auf Wortfilterkriterien, die mit verschiedenen Mehrwortphrasen oder Wortpaarungen arbeiten. Als nicht beschränkendes Beispiel kann das GPS-Navigationsgerät das Wort „Navigieren“ isoliert als ein Sprachsteuerkommando verarbeiten, das nicht extern gesendet werden soll. Allerdings kann das GPS-Navigationsgerät auf Sprachsteuerbefehle reagieren, die mehrere Wortpaarungen beinhalten, so zum Beispiel „Navigieren an“ oder „Navigieren aus“ als Sprachsteuerbefehle. Demzufolge werden die Sprachsteuerbefehle nur lokal von dem Gerät verarbeitet und nicht nach Extern gesendet.
  • Nach den Ausführungsformen können Stimmfilterkriterien auf Benutzerantworten basieren, basierend auf Antworten auf eine Verifikationsanfrage, die vom Gerät stammt. Als nicht begrenzendes Beispiel kann ein Laptop-Computer fragen, ob ein gewisses Wort oder eine Phrase, die vom Gerät empfangen wurde, nach außen gesendet werden soll. Daraufhin kann, wenn das Gerät Sprachdaten, die enthalten, dass der Benutzer das Wort „Ja“ gesprochen hat, bestimmen, dass der Benutzer damit angibt, dass er wünscht, dass die Sprachdaten übersandt werden, das Gerät dann die Sprachdaten nach Extern sendet. Sollte dies nicht der Fall sein, verarbeitet das Gerät die Sprachdaten nur lokal.
  • Ausführungsbeispiele gewährleisten, dass ein Gerät bestimmen kann, ob Sprachdaten nur lokal behalten werden sollen, basierend ob der Sprachsteuermodus durch ein Nichtsprachverfahren angeschaltet oder ausgeschaltet ist. Solche Nichtsprachverfahren beinhalten unter anderem das Knopf-Drücken, Touchscreen-Gestiken, Gesichtserkennung, eine physische Geste mit dem Gerät und eine physische Geste, die von einer Kamera erfasst wurde. Ein Mobiltelefon mit einer Tastatur beispielsweise kann Sprachdaten lokal verarbeiten, wenn die Tastatur vom Benutzer benutzt wird und für eine bestimmte Zeit, beispielsweise fünf Sekunden danach. In diesem Beispiel werden Sprachsteuerbefehle auf das Gerät übertragen, falls die Tastatur als inaktiv betrachtet wird, beispielsweise wenn ein Benutzer in ein Telefonat verwickelt ist. Nach einem weiteren ebenfalls nicht begrenzenden Ausführungsbeispiel kann ein Rechengerät mit einer Kamera, die Benutzergestiken detektiert, bestimmen, ob Sprachsteuerbefehle lokal verarbeitet werden sollen oder nach Extern gesendet werden sollen, basierend auf dem Erkennen von bestimmten Benutzergesten oder alternativ dazu beim Erkennen, dass solche nicht erfolgt sind.
  • In weiteren Ausführungsformen wird der Sprachsteuerbefehlbetrieb eines Geräts auch während einer Stummschalt-Operation unterstützt. Gewisse Ausführungsformen gewährleisten eine „Sprach-Firewall“, wobei das Mikrophon des Geräts aktiv bleibt, der empfangene Ton jedoch nicht vom Gerät übermittelt wird, ohne dass bestimmte Kriterien erfüllt sind. In Ausführungsformen wird gewährleistet, dass ein Benutzer die Stummschalt-Operation auf einem Gerät aktivieren kann, so dass die Stimme des Benutzers nicht nach Extern gesendet wird, die Sprachkommandos jedoch aktiv bleiben. Beispielsweise kann ein Smartphone-Benutzer, der in ein Gespräch verwickelt ist, das Smartphone in einen Stummschalt-Betrieb schalten, so dass andere Teilnehmer nicht die Benutzerstimme hören können. Allerdings kann das Smartphone dann immer noch die Benutzerstimme empfangen, um Sprachsteuerbefehle zu verarbeiten, auch wenn es in der Stummschalt-Operation befindlich ist und die Benutzerstimme nicht nach Extern sendet.
  • Geräte nach den Ausführungsformen können auch eine Benutzerrückkopplung beinhalten, die den Status des Sprachverarbeitungsprozesses anzeigen, beispielsweise aber nicht eingeschränkt darauf, ob der Sprachempfang erkannt wird, auf lokale Umgebung beschränkt ist, aus dem Gerät gesendet wird und ob ein Sprachsteuerbefehl ausgeführt wurde. Beispielsweise kann ein Gerätebildschirm Equalizer-Balken anzeigen, die indizieren, ob Sprachdaten empfangen werden und ein veränderliches Icon bereitstellen, dessen Farbe und Text sich ändert, je nachdem, ob Sprachdaten lokal verarbeitet werden oder ob diese nach Extern gesendet werden.
  • Ausführungsformen gewährleisten, dass basierend auf einer Kombination von Sprachfilterkriterien, die oben beschrieben wurden, entschieden wird, ob Sprachdaten nur lokal bearbeitet oder nach Extern gesendet werden. Beispielsweise kann eine solche Bestimmung darauf basieren, ob Worte innerhalb der Sprachdaten vorhanden sind, die sich in einer vorbestimmten Liste befinden und mit der geeigneten Abfolge gesprochen wurden.
  • Obwohl andere Schaltungen oder Schaltkreise benutzt werden können, zeigt die 4 ein Blockdiagramm für ein beispielhaftes Computersystem und Schaltung. Das System kann ein Tablet-Computersystem sein, beispielsweise aus der ThinkPad®-Reihe von Personalcomputern, wie sie von der Firma Lenovo, USA Inc. aus Morrisville, NC stammen. Wie in der folgenden Beschreibung offenbart wird, kann ein Gerät oder eine andere Maschine andere Merkmale oder nur einige der in der 4 veranschaulichten Systemmerkmale beinhalten. Darüber hinaus können das Computersystem und die Schaltung auch in anderen Geräten Anwendung finden, beispielsweise in einem Smartphone, einem Personal Digital Assistenten (PDA) oder einem Rechensystem, das in einem Fahrzeug integriert ist.
  • Das Computersystem aus der 4 beinhaltet einen sogenannten Chipsatz 410 (eine Menge von integrierten Schaltkreisen oder Chips, die miteinander arbeiten, Chipsätze) mit einer Architektur, die vom Hersteller stammt, beispielsweise IN-TEL®, AMD®, ARM® etc. Die Architektur des Chipsatzes 410 beinhaltet einen Core und einen Speichersteuersatz 420 und eine I/O-Steuervorrichtung 450, die Informationen, beispielsweise Daten, Signale, Befehle etc., über ein Direct-Management-Interface (DMI) 442 oder einen Link-Controller 444 austauscht. In der 4 ist das DMI 442 ein Chip-zu-Chip-Interface, das auch manchmal als eine Verbindung zwischen einer „Northbridge“ und einer „Southbridge“ bezeichnet wird. Der Core und der Speicherkontrollsatz 420 beinhalten einen oder mehrere Prozessoren 422, beispielsweise einen Single-Core oder einen Multi-Core, und eine Speichersteuervorrichtung 426, die Information über einen Front-Side-BUS (FSB) 424 austauscht. Es wird angemerkt, dass die Bestandteile des Satzes 420 auf einen einzelnen Chip integriert sein können, der die konventionelle „Northbridge“-artige Architektur unterstützt.
  • Wie in der 4 gezeigt wird, steht die Speichersteuervorrichtung 426 mit dem Speicher 440 in Verbindung, beispielsweise um Unterstützung für eine Art von RAM zu gewährleisten, die als „Systemspeicher“ bezeichnet wird. Die Speichersteuervorrichtung 426 beinhaltet des weiteren ein LVDS-Interface 432 für ein Anzeigegerät 492, beispielsweise ein CRT, einen Flachbildschirm, einen Projektor etc. Ein Block 438 beinhaltet einige Technologien, die beispielsweise über das LVDS-Interface 432 unterstützt werden, beispielsweise ein serielles digitales Video, HDMI/DVI, ein Display-Port. Das Speichersteuergerät 426 beinhaltet des weiteren ein PCI-Express-Interface (PCI-E) 434, das diskrete Grafik 436 unterstützen kann.
  • In der 4 beinhaltet der I/O-Hub-Controller 150 ein SA-TA-Interface 451, beispielsweise für HDDs, SDDs etc., ein PCI-E Interface 452, beispielsweise für eine Drahtlosverbindung 182, ein USB-Interface 453, beispielsweise für ein Eingabegerät 484 wie einen Digitalisierer, eine Tastatur, eine Computermaus, Kameras, Telefone, Speichergeräte etc., ein Netzwerk-Interface 454, beispielsweise ein LAN, ein GPIO-Interface 455, ein LPC-Interface 470 für ASICs 471, ein TPM 472, ein Super-I/O 473, einen Firmware-Hub 474, eine BIOS-Unterstützung 475 genauso wie verschiedene Arten von Speichern 476, beispielsweise ein ROM 477, ein Flash 478 und ein NVRAM 479, ein Powermanagement-Interface 461, ein Taktgenerator-Interface 362, ein Audio-Interface 463, beispielsweise für Lautsprecher 494, ein TCO-Interface 464, ein Systemmanagement-BUS-Interface 465, ein SPI-Flash 466, das ein BIOS 468 und einen Bootcode 490 beinhalten kann. DER I/O-Hubcontroller 450 kann Gigabit-Ethernet-Unterstützung beinhalten.
  • Nach Einschalten kann das System konfiguriert sein, um den Boot-Code 490 für das BIOS 468 auszuführen, wie es im SPI-Flash 466 gespeichert ist, und danach Daten unter Steuerung von einem oder mehreren Betriebssystemen und Anwendungssoftware, beispielsweise abgelegt in einem Systemspeicher 440, verarbeiten. Ein Betriebssystem kann in einem von vielen Orten gespeichert sein und beispielsweise über die Steuerbefehle des BIOS 468 zugegangen werden. Wie im folgenden beschrieben wird, kann das Gerät mehr oder weniger Merkmale aufweisen als das in der 4 gezeigte System.
  • Die Ausführungsbeispiele geben sprachgesteuerte Geräte an, die Sprache empfangen, aber die Sprachdaten nicht aus dem System transferieren, ohne dass gewisse Sprachfilterkriterien erfüllt wurden. Wie eingangs beschrieben, beinhalten die sprachgesteuerten Geräte Geräte, die durch Sprachsteuerbefehle gesteuert werden können, beispielsweise Mobiltelefone, PDAs, Computer und Fahrzeugcomputersysteme.
  • Nach den Ausführungsformen können die sprachgesteuerten Geräte zusammen mit anderen Geräten benutzt werden, die sprachsteuerbar sein können oder auch nicht. Beispielsweise kann ein Mobiltelefon mit einem Fahrzeugcomputersystem oder einem Laptop gekoppelt werden. Ausführungsformen gewährleisten, dass das Sprachsteuersystem aus einer Vielzahl von Geräten zusammensetzt sein kann, wobei zumindest eines Sprachsteuerbefehle verarbeitet. Nach den Ausführungsformen kann ein Gerät als ein lokales Gerät dienen, wohingegen das andere Gerät als ein untergeordnetes Gerät agieren kann. Beispielsweise kann ein Mobiltelefon mit einem Fahrzeugcomputersystem gekoppelt sein, wobei das Fahrzeugcomputersystem als lokales System agiert, das Sprachdaten verarbeitet, wohingegen das Mobiltelefon als untergeordnetes Gerät agiert. Darüber hinaus kann beispielsweise das Fahrzeugcomputersystem dazu ausgelegt sein, für verschiedene Funktionen in einem „Hände-frei“-Betrieb betrieben zu werden, und das Mobiltelefon kann in das System eingebunden sein und über Sprachsteuerbefehle betrieben werden, die vom lokalen Fahrzeugcomputersystem verarbeitet werden. Demzufolge gewährleisten die Ausführungsformen, dass zum Verarbeiten von Sprachdaten in einem lokalen Gerät die Sprachdaten zum Verarbeiten an ein untergeordnetes Gerät übermittelt werden können.
  • Es sollte angemerkt werden, dass viele der funktioneilen Charakteristiken der Ausführungsformen, wie sie in dieser Beschreibung beschrieben wurden, als Module implementiert werden können. Die Module können Hardware-Schaltungen, wie zum Beispiel mehrere Prozessoren mit Speichern, beinhalten, programmierbare Logik und/oder diskrete Komponenten. Die Hardware-Schaltungen können fest verdrahtete logische Funktionen, computerlesbare Programme, die auf Speichergeräten abgelegt sind, und/oder programmierte Funktionen ausführen. Die computerlesbaren Programme können die Funktionen der Ausführungsbeispiele in Kombination mit anderen Elementen ausführen.
  • Wie ein Durchschnittsfachmann unschwer erkennen kann, können die Ausführungsformen reine Hardware-Ausführungsformen oder Ausführungsformen sein, die beides, Hardware- und Softwareelemente beinhalten. Eine Ausführung, die in einer Software implementiert ist, kann beispielsweise Firmware, spezifische Software, Microcode etc. beinhalten.
  • Die computerlesbaren Programme können in jeglichem Nicht-Signalmedium gespeichert werden. Beispiele dafür sind Halbleiter- oder Festkörperspeicher, Magnetbänder, lose Computerdisketten, ein Random-Access-Memory (RAM), ein Read-Only-Memory (ROM), eine feste Magnetplatte und eine optische Platte. Gegenwärtige Beispiele für optische Platten beinhalten Compact Disk Read Only Memory (CD-ROM), Compact Disk Read/Write (CD-R/W) und DVD.
  • Demzufolge können Elemente auf zumindest einem elektronischen Gerät implementiert werden, auf welchem die geeigneten Software-Programme laufen. Diese können auf zumindest einem integrierten Schaltkreis oder einem Teil von zumindest einem integrierten Schaltkreis implementiert werden. Demzufolge können die Ausführungsformen in einer Kombination von sowohl Hardware als auch Software implementiert werden. Computer/maschinenlesbare Programme können in Kombination mit einem elektronischen Gerät die Funktionen der Ausführungsformen ausführen.
  • Die Offenbarung wurde zum Zweck der Veranschaulichung vorgenommen und die Beschreibung ist nicht erschöpfend oder begrenzend. Viele Modifikationen und Variationen ergeben sich für Durchschnittsfachleute. Die Ausführungsformen wurden gewählt und beschrieben, um die Prinzipien und die praktische Anwendung zu erläutern und um andere Durchschnittsfachleute dazu in die Lage zu versetzen, die Offenbarung von verschiedenen Ausführungsformen mit verschiedenen Modifikationen zu verstehen, die für den bestimmungsgemäßen Zweck geeignet sind.
  • In den Zeichnungen und der Beschreibung wurden Ausführungsbeispiele angegeben. Obwohl spezifische Ausdrücke benutzt werden, ist die in der Beschreibung gewählte Terminologie nur generisch und beschreibend und nicht zum Zwecke der Begrenzung.

Claims (18)

  1. Ein System umfassend: einen oder mehrere Prozessoren (422); einen Systemspeicher (440), der mit dem einen oder mehreren Prozessoren (422) gekoppelt ist; einen computerlesbaren Programmcode, wobei in Abhängigkeit zur Ausführung des computerlesbaren Programmcodes, der den einen oder mehreren Prozessoren (422) zugänglich ist, die einen oder mehreren Prozessoren (422) konfiguriert sind, um während einer Konferenzschaltung, während der das System mit weiteren Systemen kommuniziert: Sprachdaten (101, 206, 306, 310) zu empfangen, die von einem Tonempfänger (205) erhalten wurden; Analysieren der Sprachdaten (101, 206, 306, 310), um zu bestimmen, ob die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren; wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 206, 306, 310) mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 206, 306) lokal (105) verarbeitet werden; und die Sprachdaten (101, 206, 306) nicht nach Extern (106, 211, 311) gesendet werden, so dass die Nutzer der weiteren Systeme die Sprachdaten nicht hören können und wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 310) nicht mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 310) nach Extern (106, 211, 311) gesendet werden.
  2. System nach Anspruch 1, wobei die einen oder mehreren lokalen Sprachkriterien (209) eine vorbestimmte Menge von Worten umfassen.
  3. System nach Anspruch 1, wobei die einen oder mehreren lokalen Sprachkriterien (307) eine Abfolge von Sprachdaten umfassen.
  4. System nach Anspruch 1, wobei die einen oder mehreren lokalen Sprachkriterien (209, 307) eine oder mehrere Nichtkonversationspausen in den Sprachdaten (101, 206, 306, 310) umfassen.
  5. System nach Anspruch 1, des Weiteren umfassend einen Sprachdaten-Buffer (103), der dazu konfiguriert ist, Sprachdaten (101, 206, 306, 310) vor der Analyse aufzunehmen.
  6. System nach Anspruch 1, des Weiteren umfassend einen oder mehrere Systemsprachsteuerbefehle (208), die dazu konfiguriert sind, Systemfunktionen aufzurufen.
  7. System nach Anspruch 6, wobei das lokale Verarbeiten der Sprachdaten (101, 206, 306, der Sprachdaten (101, 206, 306, 310) das Prozessieren als eines oder mehrere Systemsprachsteuerbefehle umfasst.
  8. System nach Anspruch 1, des Weiteren umfassend: einen Stummschaltbefehl, der konfiguriert ist, um einen Stummschaltbetriebsmodus zu ermöglichen; wobei in Abhängigkeit zu dem Stummschaltbetriebsmodus die Sprachdaten lokal verarbeitet werden und die Sprachdaten nicht extern gesendet werden.
  9. System nach Anspruch 1, des Weiteren umfassend: einen Anzeigebildschirm (492), der dazu konfiguriert ist, um eine Rückkopplung für die Sprachdaten (101, 206, 306, 310) anzuzeigen, wobei die Rückkopplung aus der folgenden Gruppe ausgewählt ist, die besteht aus: ob der Tonempfänger Sprachdaten (101, 206, 306, 310) empfängt, ob die Sprachdaten (101, 206, 306, 310) lokal verarbeitet werden oder extern gesendet werden, und ob eine oder mehrere Sprachsteuerbefehle (208) aktiviert wurden.
  10. Ein Verfahren umfassend: während einer Konferenzschaltung, während der ein System mit weiteren Systemen kommuniziert: Empfangen von Sprachdaten (101, 206, 306, 310) an einem Tonempfänger (205); und Analysieren der Sprachdaten (101, 206, 306, 310), um zu bestimmen, ob die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren; wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren: die Sprachdaten (101, 206, 306) lokal (105) verarbeitet werden, und die Sprachdaten (101, 206, 306) nicht.extern (106, 211, 311) gesendet werden, so dass die Nutzer der weiteren Systeme die Sprachdaten nicht hören können, wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 310) nicht mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 310) extern (106, 211, 311) gesendet werden.
  11. Verfahren nach Anspruch 10, wobei die einen oder mehreren lokalen Sprachkriterien (209) eine vorbestimmte Menge von Worten umfassen.
  12. Verfahren nach Anspruch 10, wobei die einen oder mehreren lokalen Sprachkriterien (307) eine Abfolge von Sprachdaten umfassen.
  13. Verfahren nach Anspruch 10, wobei die einen oder mehreren lokalen Sprachkriterien (209, 307) eine oder mehrere Nichtkonversationspausen in den Sprachdaten umfassen.
  14. Verfahren nach Anspruch 10, des Weiteren umfassend einen Sprachdaten-Buffer (103), der konfiguriert ist, um vor der Analyse Sprachdaten (101, 206, 306, 310) aufzunehmen.
  15. Verfahren nach Anspruch 10, des Weiteren umfassend einen oder mehrere Systemsprachsteuerbefehle (208), die dazu konfiguriert sind, Systemfunktionen aufzurufen.
  16. Verfahren nach Anspruch 15, wobei das lokale Verarbeiten von Sprachdaten (101, 206, 306, 310) umfasst Prozessieren der Sprachdaten (101, 206, 306, 310) als eines oder mehrere Systemsprachsteuerbefehle (208).
  17. Verfahren nach Anspruch 10 ferner umfassend: eine Stummschaltungssteuerung, die dazu konfiguriert ist, einen Stummschaltbetriebsmodus zu ermöglichen; wobei in Abhängigkeit zu dem eingeschalteten Stummschaltbetriebsmodus die Sprachdaten lokal verarbeitet werden und die Sprachdaten nicht extern gesendet werden.
  18. Ein Computerprogrammprodukt umfassend ein computerlesbares Speichergerät, auf dem ein computerlesbarer Programmcode verkörpert ist, wobei der computerlesbare Programmcode ausgebildet ist ein Verfahren nach einem der Ansprüche 10 bis 17 auszuführen.
DE102011054197.7A 2010-12-23 2011-10-05 Selektive Übertragung von Sprachdaten Active DE102011054197B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/977,184 US9953643B2 (en) 2010-12-23 2010-12-23 Selective transmission of voice data
US12/977,184 2010-12-23

Publications (2)

Publication Number Publication Date
DE102011054197A1 DE102011054197A1 (de) 2012-06-28
DE102011054197B4 true DE102011054197B4 (de) 2019-06-06

Family

ID=46318137

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102011054197.7A Active DE102011054197B4 (de) 2010-12-23 2011-10-05 Selektive Übertragung von Sprachdaten

Country Status (3)

Country Link
US (1) US9953643B2 (de)
CN (1) CN102591455B (de)
DE (1) DE102011054197B4 (de)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9152376B2 (en) * 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US8767035B2 (en) * 2011-12-06 2014-07-01 At&T Intellectual Property I, L.P. In-call command control
US9805721B1 (en) * 2012-09-21 2017-10-31 Amazon Technologies, Inc. Signaling voice-controlled devices
US9087516B2 (en) * 2012-11-19 2015-07-21 International Business Machines Corporation Interleaving voice commands for electronic meetings
CN104956436B (zh) * 2012-12-28 2018-05-29 株式会社索思未来 带有语音识别功能的设备以及语音识别方法
EP2962403A4 (de) * 2013-02-27 2016-11-16 Knowles Electronics Llc Sprachgesteuerte kommunikationsverbindungen
EP2784774A1 (de) * 2013-03-29 2014-10-01 Orange Persönlicher Telefonstimmenassistent
US9607630B2 (en) * 2013-04-16 2017-03-28 International Business Machines Corporation Prevention of unintended distribution of audio information
US9472206B2 (en) * 2013-06-17 2016-10-18 Google Technology Holdings LLC Privacy mode for always-on voice-activated information assistant
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9532155B1 (en) 2013-11-20 2016-12-27 Knowles Electronics, Llc Real time monitoring of acoustic environments using ultrasound
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
CN104318927A (zh) * 2014-11-04 2015-01-28 东莞市北斗时空通信科技有限公司 一种抗噪声的低速率语音编码方法及解码方法
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US9911415B2 (en) 2014-12-19 2018-03-06 Lenovo (Singapore) Pte. Ltd. Executing a voice command during voice input
US10178219B1 (en) 2017-06-21 2019-01-08 Motorola Solutions, Inc. Methods and systems for delivering a voice message
KR102374910B1 (ko) 2017-08-22 2022-03-16 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US11189275B2 (en) * 2018-08-02 2021-11-30 Polycom, Inc. Natural language processing while sound sensor is muted
KR102088322B1 (ko) * 2018-11-16 2020-03-12 엘지전자 주식회사 인공지능 기반의 어플라이언스 제어 장치 및 그를 포함하는 어플라이언스 제어 시스템
CN110556101A (zh) * 2019-07-30 2019-12-10 珠海格力电器股份有限公司 语音控制方法、装置、计算机设备和存储介质
US11756568B2 (en) * 2020-07-23 2023-09-12 Rovi Guides, Inc. Systems and methods for improved audio-video conferences
US11521640B2 (en) 2020-07-23 2022-12-06 Rovi Guides, Inc. Systems and methods for improved audio-video conferences
US11626126B2 (en) 2020-07-23 2023-04-11 Rovi Guides, Inc. Systems and methods for improved audio-video conferences

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000023985A1 (en) * 1998-10-16 2000-04-27 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
GB2368441A (en) * 2000-10-26 2002-05-01 Coles Joseph Tidbold Voice to voice data handling system
DE60015531T2 (de) * 1999-03-26 2005-03-24 Scansoft, Inc., Peabody Client-server spracherkennungssystem
EP1617410A1 (de) * 2004-07-12 2006-01-18 Hewlett-Packard Development Company, L.P. Verteilte Spracherkennung für mobile Geräte
US20060195323A1 (en) * 2003-03-25 2006-08-31 Jean Monne Distributed speech recognition system
DE602005000628T2 (de) * 2004-10-08 2007-10-31 Samsung Electronics Co., Ltd., Suwon Verfahren und Vorrichtung für die mehrschichtige verteilte Spracherkennung
DE102009017177A1 (de) 2008-04-23 2009-10-29 Volkswagen Ag Spracherkennungsanordnung zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US5291479A (en) * 1991-07-16 1994-03-01 Digital Technics, Inc. Modular user programmable telecommunications system with distributed processing
US6370506B1 (en) 1999-10-04 2002-04-09 Ericsson Inc. Communication devices, methods, and computer program products for transmitting information using voice activated signaling to perform in-call functions
US6446041B1 (en) * 1999-10-27 2002-09-03 Microsoft Corporation Method and system for providing audio playback of a multi-source document
US6397186B1 (en) * 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US6813603B1 (en) * 2000-01-26 2004-11-02 Korteam International, Inc. System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form
CN1351459A (zh) 2000-10-26 2002-05-29 安捷伦科技有限公司 手持式通信和处理装置及其操作方法
US6747566B2 (en) * 2001-03-12 2004-06-08 Shaw-Yuan Hou Voice-activated remote control unit for multiple electrical apparatuses
US7899500B2 (en) * 2002-09-24 2011-03-01 At&T Intellectual Property I, L. P. Apparatus and method for providing hands-free operation of a device
US7187764B2 (en) * 2003-04-23 2007-03-06 Siemens Communications, Inc. Automatic speak-up indication for conference call attendees
JP2007502565A (ja) * 2003-08-11 2007-02-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 無線通信システム
US20050105559A1 (en) * 2003-11-14 2005-05-19 Santera Systems, Inc. Methods and systems for providing transport of media gateway control commands using high-level datalink control (HDLC) protocol
US20060194185A1 (en) 2005-02-10 2006-08-31 David Goldberg Information request system and method
US7706553B2 (en) * 2005-07-13 2010-04-27 Innotech Systems, Inc. Auto-mute command stream by voice-activated remote control
US7992085B2 (en) * 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US8990071B2 (en) * 2010-03-29 2015-03-24 Microsoft Technology Licensing, Llc Telephony service interaction management
CN101834857B (zh) 2010-04-20 2013-05-08 上海禹为通信技术有限公司 在通话中对语音内容进行识别并管控的方法和系统
US8223189B2 (en) * 2010-07-09 2012-07-17 Dialogic Corporation Systems and methods of providing video features in a standard telephone system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000023985A1 (en) * 1998-10-16 2000-04-27 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
DE60015531T2 (de) * 1999-03-26 2005-03-24 Scansoft, Inc., Peabody Client-server spracherkennungssystem
GB2368441A (en) * 2000-10-26 2002-05-01 Coles Joseph Tidbold Voice to voice data handling system
US20060195323A1 (en) * 2003-03-25 2006-08-31 Jean Monne Distributed speech recognition system
EP1617410A1 (de) * 2004-07-12 2006-01-18 Hewlett-Packard Development Company, L.P. Verteilte Spracherkennung für mobile Geräte
DE602005000628T2 (de) * 2004-10-08 2007-10-31 Samsung Electronics Co., Ltd., Suwon Verfahren und Vorrichtung für die mehrschichtige verteilte Spracherkennung
DE102009017177A1 (de) 2008-04-23 2009-10-29 Volkswagen Ag Spracherkennungsanordnung zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges

Also Published As

Publication number Publication date
US9953643B2 (en) 2018-04-24
US20120166184A1 (en) 2012-06-28
CN102591455B (zh) 2015-06-24
CN102591455A (zh) 2012-07-18
DE102011054197A1 (de) 2012-06-28

Similar Documents

Publication Publication Date Title
DE102011054197B4 (de) Selektive Übertragung von Sprachdaten
DE102015110621B4 (de) Intelligente Untertitel
DE102016122708A1 (de) Verlängern des Spracherkennungszeitraums
DE102019112380B4 (de) Verfahren und System zur robusten Sprechererkennungsaktivierung
DE102015100900A1 (de) Einstellen einer Spracherkennung unter Verwendung einer Kontextinformation
DE102014109121B4 (de) Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
DE102014107027A1 (de) Management von virtuellen Assistentaktionseinheiten
DE60036931T2 (de) Anwender-sprachschnittstelle für sprachgesteuerte systeme
DE112016006133T5 (de) Stimmenerweiterter wahrnehmungsmodus
DE202017105669U1 (de) Modalitätslernen an mobilen Vorrichtungen
DE102016103218A1 (de) Blickbasierte Benachrichtigungsantwort
DE102016103216A1 (de) Serielle visuelle Präsentation für tragbare Anzeigen
DE102016125494A1 (de) Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale
DE112016000287T5 (de) Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung
DE102014109122A1 (de) Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
DE102020202489A1 (de) Verfahren und system zur sehr genauen schlüsselausdruckserkennung für vorrichtung mit geringen ressourcen
DE102016109521A1 (de) Multimodale Disambiguierung einer sprachunterstützten Eingabe
DE112016005688T5 (de) System zur Tonerfassung und -erzeugung über Nasalvibration
DE102017126306A1 (de) Kontextabhängiger Koversionsmodus für digitalen Assistenten
DE102019104304B4 (de) Dynamische Anpassung von Sprachverständnissystemen an akustische Umgebungen
DE102018131935A1 (de) Time-Capsule-basierte Sprechhilfe
DE102018114453A1 (de) Interaktive Sessions
DE102015109204A1 (de) Echtzeitänderung eines Eingabeverfahrens basierend auf Sprachkontext
DE102018114658A1 (de) Eingabe während einer Unterhaltungssitzung
DE102017115936A1 (de) Systeme und Verfahren zum Aktivieren eines Sprachassistenten und Bereitstellen eines Indikators, dass der Sprachassistent Hilfe zu leisten hat

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015020000

Ipc: G10L0025480000

R020 Patent grant now final
R082 Change of representative

Representative=s name: SCHWEIGER, MARTIN, DIPL.-ING. UNIV., DE