DE102011054197B4 - Selektive Übertragung von Sprachdaten - Google Patents
Selektive Übertragung von Sprachdaten Download PDFInfo
- Publication number
- DE102011054197B4 DE102011054197B4 DE102011054197.7A DE102011054197A DE102011054197B4 DE 102011054197 B4 DE102011054197 B4 DE 102011054197B4 DE 102011054197 A DE102011054197 A DE 102011054197A DE 102011054197 B4 DE102011054197 B4 DE 102011054197B4
- Authority
- DE
- Germany
- Prior art keywords
- voice data
- voice
- data
- local
- criteria
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005540 biological transmission Effects 0.000 title description 5
- 230000015654 memory Effects 0.000 claims abstract description 15
- 230000004044 response Effects 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 11
- 238000001914 filtration Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001944 accentuation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010922 spray-dried dispersion Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
Ein System umfassend:
einen oder mehrere Prozessoren (422);
einen Systemspeicher (440), der mit dem einen oder mehreren Prozessoren (422) gekoppelt ist;
einen computerlesbaren Programmcode,
wobei in Abhängigkeit zur Ausführung des computerlesbaren Programmcodes, der den einen oder mehreren Prozessoren (422) zugänglich ist, die einen oder mehreren Prozessoren (422) konfiguriert sind, um während einer Konferenzschaltung, während der das System mit weiteren Systemen kommuniziert:
Sprachdaten (101, 206, 306, 310) zu empfangen, die von einem Tonempfänger (205) erhalten wurden;
Analysieren der Sprachdaten (101, 206, 306, 310), um zu bestimmen, ob die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren;
wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 206, 306, 310) mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren,
die Sprachdaten (101, 206, 306) lokal (105) verarbeitet werden; und
die Sprachdaten (101, 206, 306) nicht nach Extern (106, 211, 311) gesendet werden, so dass die Nutzer der weiteren Systeme die Sprachdaten nicht hören können und
wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 310) nicht mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 310) nach Extern (106, 211, 311) gesendet werden.
einen oder mehrere Prozessoren (422);
einen Systemspeicher (440), der mit dem einen oder mehreren Prozessoren (422) gekoppelt ist;
einen computerlesbaren Programmcode,
wobei in Abhängigkeit zur Ausführung des computerlesbaren Programmcodes, der den einen oder mehreren Prozessoren (422) zugänglich ist, die einen oder mehreren Prozessoren (422) konfiguriert sind, um während einer Konferenzschaltung, während der das System mit weiteren Systemen kommuniziert:
Sprachdaten (101, 206, 306, 310) zu empfangen, die von einem Tonempfänger (205) erhalten wurden;
Analysieren der Sprachdaten (101, 206, 306, 310), um zu bestimmen, ob die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren;
wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 206, 306, 310) mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren,
die Sprachdaten (101, 206, 306) lokal (105) verarbeitet werden; und
die Sprachdaten (101, 206, 306) nicht nach Extern (106, 211, 311) gesendet werden, so dass die Nutzer der weiteren Systeme die Sprachdaten nicht hören können und
wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 310) nicht mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 310) nach Extern (106, 211, 311) gesendet werden.
Description
- HINTERGRUND
- Die Sprachbefehltechnik ermöglicht den Betrieb eines Gerätes durch die Sprachinstruktionen eines Benutzers. Diese Technologie ist zunehmend populär geworden und als Ergebnis ist die Anzahl und die Art der Geräte, die Sprachsteuerung ermöglichen, gestiegen. Vor allem bei Mobiltelefonen und bestimmten Kraftfahrzeug-Funktionen, wie dem Betrieb eines Radios oder eines Navigationssystems, möchten Benutzer immer öfter einen „Hände-frei“-Modus. Ohne ein Gerät über Knöpfe und Schalter steuern zu müssen, können Benutzer sprachsteuerfähige Geräte benutzen und gleichzeitig andere Aufgaben mit wachsender Sicherheit ausführen. Der Gebrauch solcher Geräte kann jedoch zu gewissen Problemen führen, sobald ein Benutzer das Gerät stumm schalten möchte oder wenn eine Vielzahl von Geräten innerhalb der Reichweite der Benutzerstimme liegt. Die Fähigkeit eines Gerätes, selektiv Steuerbefehle oder Sprachdaten zu verarbeiten, würde die Funktionalität von sprachgesteuerten Geräten stark erhöhen.
- Auf den aus der Druckschrift
DE 10 2009 017 177 A1 bekannten Stand der Technick wird verwiesen. - KURZE ZUSAMMENFASSUNG
- Ein Aspekt bietet ein System, umfassend: ein oder mehrere Prozessoren; einen Systemspeicher, der operativ mit dem einen oder mehreren Prozessoren gekoppelt ist; einen Tonempfänger, der konfiguriert ist, um Sprachdaten zu empfangen; und einen Sprachdatenanalysierer, der konfiguriert ist, um zu bestimmen, ob die Sprachdaten mit einem oder mehreren lokalen Sprachkriterien korrespondieren; wobei in Abhängigkeit zu den Sprachdaten, die zu einem oder mehreren lokalen Sprachkriterien korrespondieren, die Sprachdaten lokal verarbeitet werden; und die Sprachdaten nicht nach außen übermittelt werden.
- Ein anderer Aspekt stellt ein Verfahren dar, das umfasst: Empfangen von Sprachdaten an einem Tonempfänger; und Bereitstellen eines Sprachdatenanalysierers, der dazu konfiguriert ist, um zu bestimmen, ob die Sprachdaten mit einem oder mehreren lokalen Sprachkriterien korrespondieren, wobei in Abhängigkeit von den Sprachdaten, die zu einem oder mehreren lokalen Sprachkriterien korrespondieren, die Sprachdaten dann lokal verarbeitet werden; und die Sprachdaten nicht nach außen gesendet werden.
- Ein weiterer Aspekt stellt ein Computerprogrammprodukt dar, das umfasst: ein computerlesbares Speichergerät, auf das ein computerlesbarer Programmcode aufgebracht ist, der computerlesbare Programmcode umfasst: einen computerlesbaren Programmcode, der dazu konfiguriert ist, Sprachdaten an einem Tonempfänger zu empfangen; und einen computerlesbaren Programmcode, der dazu konfiguriert ist, um einen Sprachdatenanalysierer bereitzustellen, der dazu konfiguriert ist, um zu bestimmen, ob die Sprachdaten mit einem oder mehreren lokalen Sprachkriterien korrespondieren; computerlesbarer Programmcode, der dazu konfiguriert ist, in Abhängigkeit von den Sprachdaten, die zu einem oder mehreren lokalen Sprachkriterien korrespondieren, die Sprachdaten lokal verarbeitet werden und die Sprachdaten nicht nach außen gesendet.werden.
- Die obige Beschreibung ist eine Zusammenfassung und kann demnach Vereinfachungen, Generalisierungen und Lücken im Detail aufweisen. Demzufolge ist die Zusammenfassung nur illustrativ und nicht als beschneidend vorgesehen.
- Zum besseren Verständnis der Ausführungsbeispiele sowie anderer und weiterer Merkmale und Vorteile wird auf die folgende Beschreibung Bezug genommen, die in Verbindung mit den beigefügten Figuren erfolgt.
- Figurenliste
-
-
1 stellt ein Flussdiagramm eines Ausführungsbeispiels dar; -
2 zeigt ein Ausführungsbeispiel der Verarbeitung von Sprachdaten, basierend auf einem vorbestimmten Satz von Gerätesteuerbefehlen; -
3 zeigt ein Ausführungsbeispiel zum Verarbeiten von Sprachdaten basierend auf der Abfolge von Sprachdaten; -
4 zeigt ein beispielhaftes Rechengerät. - DETAILLIERTE BESCHREIBUNG
- Es kann leicht verstanden werden, dass die Komponenten der Ausführungsbeispiele, wie sie oben allgemein diskutiert wurden und in den Figuren gezeigt werden, in einer großen Vielzahl von verschiedenen Konfigurationen zusätzlich zu den beschriebenen Ausführungsformen angeordnet und ausgeführt werden können. Demzufolge ist die folgende detaillierte Beschreibung von Ausführungsbeispielen, wie sie in den Figuren gezeigt ist rein beispielhafter Natur und nicht dazu gedacht, den Schutzbereich der Patentansprüche zu beschneiden, sondern ist vielmehr nur repräsentativ für genau die aufgeführten Ausführungsbeispiele.
- In der folgenden Beschreibung bedeutet „ein Ausführungsbeispiel“ oder „eine Ausführungsform“ (oder ähnliches), dass ein bestimmtes Merkmal, Struktur oder Charakteristik, die in Verbindung mit einem Ausführungsbeispiel beschrieben ist, zumindest in einem Ausführungsbeispiel beinhaltet ist. Demzufolge bedeutet die Phrase „in einem Ausführungsbeispiel“ oder „in einer Ausführungsform“ oder dergleichen an verschiedenen Stellen in der Beschreibung nicht notwendigerweise, dass diese alle zur selben Ausführungsform gehören.
- Demzufolge können die beschriebenen Merkmale, Strukturen oder Charakteristiken in jeder geeigneten Art und Weise miteinander kombiniert werden. In der folgenden Beschreibung werden viele spezifische Details dargestellt, um ein genaues Verständnis der Ausführungsbeispiele zu gewährleisten. Ein Durchschnittsfachmann auf dem betreffenden Gebiet wird erkennen, dass die einzelnen Aspekte ausgeführt werden können unter Weglassen von einem oder mehreren spezifischen Details oder mit anderen Verfahren, Komponenten, Materialien etc. Darüber hinaus werden gut bekannte Strukturen, Materialien oder Verfahren nicht gezeigt oder im Detail beschrieben, um eine Überfrachtung zu vermeiden.
- Die Bedienung von Geräten durch Sprachsteuerbefehle wird immer beliebter, vor allem bei Smartphones, die entweder eine kleine oder gar keine Tastatur aufweisen und bei Fahrzeugen, die für verschiedene Funktionen einen händefreien Betrieb erfordern. Allerdings taucht ein Problem auf, sobald ein Benutzer ein Gerätemikrophon stumm schalten möchte auf Grund von einem Hintergrundgeräusch, einer Rückkopplung bei einem Mehrpersonengespräch, oder um eine private Unterhaltung aus einer Konferenzschaltung fernzuhalten. In den gegenwärtigen Technologien ermöglichen viele Geräte dem Benutzer, das Gerät manuell stumm zu schalten, um Sprachsteuerbefehle zu benutzen. Diese Einschränkung begrenzt Komfort und Sicherheit, beim Gebrauch eines Geräts im „Hände-frei“-Modus durch Sprachsteuerbefehle. Darüber hinaus kann das herkömmliche Stummschalten den gesamten Sprachbetrieb eines Gerätes stoppen, obwohl ein Benutzer einen lokalen Betrieb aufrechterhalten möchte und nur die Übermittlung von Sprachdaten abschalten möchte. Demzufolge wäre es wünschenswert, ein Gerät zu haben, das lokal aktiv Sprachdaten verarbeiten kann, wobei es nach außen stumm geschaltet ist.
- Die Ausführungsformen stellen sprachgesteuerte Geräte dar, die Ton empfangen, aber die Sprachdaten aus dem System nicht senden, ohne das gewisse Sprachfilterkriterien erfüllt werden. Darüber hinaus bieten die Ausführungsformen Geräte, die einen Sprachsteuerbetrieb ermöglichen, während externe Sprachdatenübermittelung im Stummschaltbetrieb vorgesehen ist. Demzufolge können Geräte nach den vorliegenden Ausführungsformen Sprachdaten lokal verarbeiten, je nachdem, ob die Sprachdaten mit Sprachfilterkriterien übereinstimmen. Nach dem Ausführungsformen nehmen sprachgesteuerte Geräte die Sprache auf und analysieren in Echtzeit auf einer Wort-für-Wort-Basis und entscheiden, ob die Sprachdaten lokal verarbeitet werden, extern übermittelt werden oder beides. Die Sprachdaten, die von einem Gerät aufgenommen werden, können in einem Buffer abgelegt werden, so dass das Gerät sie gemäß den Ausführungsformen analysieren kann. Darüber hinaus gewährleisten die Ausführungsformen, dass jegliche Buffer-Verzögerung aus einer Verzögerung im Bereich von Millisekunden liegt. Demzufolge können die Sprachdatenübermittelung oder sprachaktivierte Steuerbefehle im wesentlichen in Echtzeit oder nur unwesentlich verzögert ausgeführt werden, wie man es von ähnlichen Geräten gewohnt ist.
- Unter Bezugnahme auf die
1 wird im folgenden eine beispielhafte Ausführungsform erläutert. Sprachdaten101 werden von einem Sprachdatensteuersystem102 empfangen und in einem Buffer103 abgelegt. Das Sprachdatensteuersystem102 analysiert die Sprachdaten101 , um zu bestimmen, ob die Sprachdaten101 lokal105 verarbeitet werden sollen oder nach Extern106 gesendet werden sollen. Falls die Sprachdaten101 mit Sprachdatenkriterien104 übereinstimmen, werden die Sprachdaten lokal105 in dem Gerät verarbeitet. Andererseits können die Sprachdaten101 nach Extern106 gesendet werden, falls die Sprachdaten101 mit den Sprachdatenkriterien104 nicht übereinstimmen. - Nach den Ausführungsformen können die Sprachfilterkriterien eine Liste von vorbestimmten oder erlernten Sprachsteuerbefehlen umfassen, die nicht gesendet werden und die nur lokal verarbeitet werden. Als nicht beschränkendes Beispiel wird ein Mobiltelefon angeführt, in dem ein Satz von Steuerbefehlen wie zum Beispiel Anrufen-, Text- und Lautstärke-Steuerbefehlen gewisse Funktionen aktivieren und nur lokal verarbeitet werden. Ein anderes nicht beschränkendes Beispiel ist ein Fahrzeug mit einem Computersystem, das verschiedene Systeme wie Navigation, Klimakontrolle, Lautsprechersysteme und Telefon mittels Sprachsteuerbefehlen aufweist, wobei eine vorbestimmte Liste von Sprachsteuerbefehlen durch das lokale Computersystem prozessiert wird.
- Mit der
2 wird ein Ausführungsbeispiel gezeigt, wobei die Entscheidung, ob Sprachdaten nach Extern gesendet werden, darauf basiert, ob die Sprachdaten mit einem vorbestimmten Satz von Gerätesteuerbefehlen übereinstimmt. Das Mobiltelefon201 wird in einem „Hände-frei“-Modus betrieben, wobei es über Sprachsteuerbefehle gesteuert wird. Wie in der2 dargestellt ist, befindet sich das Mobiltelefon201 in einer Konferenzschaltung202 , wobei es mit zwei weiteren Mobiltelefonen203 ,204 kommuniziert. Das mobile Telefonmikrophon205 empfängt Sprachdaten, die die gesprochene Phrase „öffne Kalender“206 beinhaltet. In dem in2 dargestellten Beispiel möchte der Benutzer, dass das Mobiltelefon201 die Phrase „öffne Kalender“ 206 detektiert und das Kalenderprogramm207 auf dem Mobiltelefon ausführt, wobei die Konferenzschaltung mit den anderen Teilnehmern nicht durch das Hören der gesprochenen Phrase206 unterbrochen werden soll. Das Mobiltelefon201 verarbeitet den Sprachsteuerbefehl208 und bestimmt, ob er einer der Befehle in der vorbestimmten lokalen Steuerbefehlliste209 ist. Der Sprachsteuerbefehl206 „öffne Kalender“ wird lokal210 von dem Mobiltelefon ausgeführt, um das Kalenderprogramm207 zu öffnen, da es in der vorbestimmten lokalen Steuerbefehlliste209 aufgeführt ist. Darüber hinaus wird der Sprachsteuerbefehl206 nicht nach Extern211 an die anderen Teilnehmer203 ,204 , die sich in der Konferenzschaltung befinden, gesendet. - Ausführungsbeispiele geben ein Gerät an, das bestimmt, ob nur lokal auf Sprachdaten reagiert werden soll, basierend auf der Tonlang in der Stimme des Sprechers. Nach den Ausführungsformen kann die Tonlange unter anderem die Lautstärke, Sprachpausen, wie schnell der Sprecher spricht, die Akzentuierung bestimmter Worte und die Wechsel in der Sprachfrequenz umfassen. Darüber hinaus ermöglichen die Ausführungsformen, dass ein Gerät zur Verwendung von Abfolgekriterien trainiert werden kann. Die Ausführungsformen gewährleisten Systeme, die unter Berücksichtigung der Abfolge der Benutzerstimme bestimmen können, ob Sprachdaten nur lokal prozessiert oder nach Extern gesendet werden sollten.
- Die
3 veranschaulicht ein Ausführungsbeispiel, wobei basierend auf der Abfolge entschieden wird, ob Sprachdaten lokal verarbeitet oder nach Extern gesendet werden sollen. Ein Laptop-Computer301 läuft mit einer Sprachanwendung302 , die zu einer Sprachdatenübermittelung mit einem zweiten Computergerät303 verbunden ist. Als nicht einschränkendes Beispiel kann die Sprachanwendung eine Software sein, die es Anwendern ermöglicht, Telefonate zwischen Rechengeräten über das Internet zu machen. Das Sprachsteuerbefehl-Kontrollsystem304 des Laptop-Computers301 empfängt die Benutzersprachdaten305 mit dem gesprochenen Text „leiser stellen“306 und analysiert diesen, um zu bestimmen, ob es gesprochene Worte enthält, die in einer vom Benutzer vorbestimmten Abfolge307 liegen. Das Sprachdatensteuersystem304 bestimmt, dass die Worte „leiser stellen“306 in einer vorbestimmten Abfolge307 gesprochen wurden. Demzufolge werden die Worte „leiser stellen“306 nur lokal von dem Laptopcomputer verarbeitet und die Gerätelautstärke308 heruntergesetzt und nicht extern durch die Sprachapplikation302 gesendet. Wie die3 zeigt, analysiert das Sprachsteuerbefehl-Kontrollsystem304 weitere Benutzersprachdaten309 , die aus den gesprochenen Worten „Ich werde morgen wieder anrufen“310 bestehen. Das Sprachdatenkontrollsystem bestimmt, dass die Worte „Ich werde morgen wieder anrufen“310 nicht in einer vorbestimmten Abfolge307 gesprochen wurden. Vielmehr wurden die Worte „Ich werde morgen wieder anrufen“310 in einem normalen Konversationston gesprochen und werden nach Extern311 durch die Sprachapplikation302 gesendet. - Ob Sprachdaten nur lokal im Gerät verarbeitet werden, kann bestimmt werden nach den Ausführungsformen, basierend auf diskreten Worten oder Pausen in einer trainierten Benutzerstimme mit unter anderem Detektieren von Pausen in der Stimme, die in der Sprache bei normaler Konversation nicht vorkommen. Als ein nicht beschränkendes Beispiel kann ein GPS-Navigationsgerät den „Geh zu<Ort>“-Befehl zum Setzen eines <Ort> als benutzerspezifizierten Ort für das GPS-Navigationsprogramm umfassen. Demzufolge kann das Sprachdatenkontrollsystem in den Ausführungsbeispielen die Sprache analysieren und kategorisieren als Nichtkonversations-Sprachkommando auf Grund der Pausen vor und nach dem Befehl, falls der Benutzer spricht „{Pause}... gehe zu <Ort>... {Pause}“. Demzufolge wird das Sprachsteuersystem die Sprachdaten nur lokal.verarbeiten und das GPS-Navigationsprogramm auf den gewünschten Ort setzen. Allerdings wird das Gerät diese Phrase „Geh zu<Ort>“ davon unterscheiden, wenn die erforderlichen unterscheidungskräftigen Pausen in einer normalen Konversation fehlen, also wenn ein Benutzer sprachlich von sich gibt, dass er „Geh zum <Ort>diese Woche, wenn ich genug Zeit habe“. Demzufolge wird das Gerät den Ort des GPS-Navigationsprogramms nicht auf den <Ort> setzen und erlauben, dass die Sprachdaten nach Extern gesendet werden.
- Darüber hinaus können die Ausführungsformen bestimmen, ob die Sprachdaten lokal sind, basierend auf Wortfilterkriterien, die mit verschiedenen Mehrwortphrasen oder Wortpaarungen arbeiten. Als nicht beschränkendes Beispiel kann das GPS-Navigationsgerät das Wort „Navigieren“ isoliert als ein Sprachsteuerkommando verarbeiten, das nicht extern gesendet werden soll. Allerdings kann das GPS-Navigationsgerät auf Sprachsteuerbefehle reagieren, die mehrere Wortpaarungen beinhalten, so zum Beispiel „Navigieren an“ oder „Navigieren aus“ als Sprachsteuerbefehle. Demzufolge werden die Sprachsteuerbefehle nur lokal von dem Gerät verarbeitet und nicht nach Extern gesendet.
- Nach den Ausführungsformen können Stimmfilterkriterien auf Benutzerantworten basieren, basierend auf Antworten auf eine Verifikationsanfrage, die vom Gerät stammt. Als nicht begrenzendes Beispiel kann ein Laptop-Computer fragen, ob ein gewisses Wort oder eine Phrase, die vom Gerät empfangen wurde, nach außen gesendet werden soll. Daraufhin kann, wenn das Gerät Sprachdaten, die enthalten, dass der Benutzer das Wort „Ja“ gesprochen hat, bestimmen, dass der Benutzer damit angibt, dass er wünscht, dass die Sprachdaten übersandt werden, das Gerät dann die Sprachdaten nach Extern sendet. Sollte dies nicht der Fall sein, verarbeitet das Gerät die Sprachdaten nur lokal.
- Ausführungsbeispiele gewährleisten, dass ein Gerät bestimmen kann, ob Sprachdaten nur lokal behalten werden sollen, basierend ob der Sprachsteuermodus durch ein Nichtsprachverfahren angeschaltet oder ausgeschaltet ist. Solche Nichtsprachverfahren beinhalten unter anderem das Knopf-Drücken, Touchscreen-Gestiken, Gesichtserkennung, eine physische Geste mit dem Gerät und eine physische Geste, die von einer Kamera erfasst wurde. Ein Mobiltelefon mit einer Tastatur beispielsweise kann Sprachdaten lokal verarbeiten, wenn die Tastatur vom Benutzer benutzt wird und für eine bestimmte Zeit, beispielsweise fünf Sekunden danach. In diesem Beispiel werden Sprachsteuerbefehle auf das Gerät übertragen, falls die Tastatur als inaktiv betrachtet wird, beispielsweise wenn ein Benutzer in ein Telefonat verwickelt ist. Nach einem weiteren ebenfalls nicht begrenzenden Ausführungsbeispiel kann ein Rechengerät mit einer Kamera, die Benutzergestiken detektiert, bestimmen, ob Sprachsteuerbefehle lokal verarbeitet werden sollen oder nach Extern gesendet werden sollen, basierend auf dem Erkennen von bestimmten Benutzergesten oder alternativ dazu beim Erkennen, dass solche nicht erfolgt sind.
- In weiteren Ausführungsformen wird der Sprachsteuerbefehlbetrieb eines Geräts auch während einer Stummschalt-Operation unterstützt. Gewisse Ausführungsformen gewährleisten eine „Sprach-Firewall“, wobei das Mikrophon des Geräts aktiv bleibt, der empfangene Ton jedoch nicht vom Gerät übermittelt wird, ohne dass bestimmte Kriterien erfüllt sind. In Ausführungsformen wird gewährleistet, dass ein Benutzer die Stummschalt-Operation auf einem Gerät aktivieren kann, so dass die Stimme des Benutzers nicht nach Extern gesendet wird, die Sprachkommandos jedoch aktiv bleiben. Beispielsweise kann ein Smartphone-Benutzer, der in ein Gespräch verwickelt ist, das Smartphone in einen Stummschalt-Betrieb schalten, so dass andere Teilnehmer nicht die Benutzerstimme hören können. Allerdings kann das Smartphone dann immer noch die Benutzerstimme empfangen, um Sprachsteuerbefehle zu verarbeiten, auch wenn es in der Stummschalt-Operation befindlich ist und die Benutzerstimme nicht nach Extern sendet.
- Geräte nach den Ausführungsformen können auch eine Benutzerrückkopplung beinhalten, die den Status des Sprachverarbeitungsprozesses anzeigen, beispielsweise aber nicht eingeschränkt darauf, ob der Sprachempfang erkannt wird, auf lokale Umgebung beschränkt ist, aus dem Gerät gesendet wird und ob ein Sprachsteuerbefehl ausgeführt wurde. Beispielsweise kann ein Gerätebildschirm Equalizer-Balken anzeigen, die indizieren, ob Sprachdaten empfangen werden und ein veränderliches Icon bereitstellen, dessen Farbe und Text sich ändert, je nachdem, ob Sprachdaten lokal verarbeitet werden oder ob diese nach Extern gesendet werden.
- Ausführungsformen gewährleisten, dass basierend auf einer Kombination von Sprachfilterkriterien, die oben beschrieben wurden, entschieden wird, ob Sprachdaten nur lokal bearbeitet oder nach Extern gesendet werden. Beispielsweise kann eine solche Bestimmung darauf basieren, ob Worte innerhalb der Sprachdaten vorhanden sind, die sich in einer vorbestimmten Liste befinden und mit der geeigneten Abfolge gesprochen wurden.
- Obwohl andere Schaltungen oder Schaltkreise benutzt werden können, zeigt die
4 ein Blockdiagramm für ein beispielhaftes Computersystem und Schaltung. Das System kann ein Tablet-Computersystem sein, beispielsweise aus der ThinkPad®-Reihe von Personalcomputern, wie sie von der Firma Lenovo, USA Inc. aus Morrisville, NC stammen. Wie in der folgenden Beschreibung offenbart wird, kann ein Gerät oder eine andere Maschine andere Merkmale oder nur einige der in der4 veranschaulichten Systemmerkmale beinhalten. Darüber hinaus können das Computersystem und die Schaltung auch in anderen Geräten Anwendung finden, beispielsweise in einem Smartphone, einem Personal Digital Assistenten (PDA) oder einem Rechensystem, das in einem Fahrzeug integriert ist. - Das Computersystem aus der
4 beinhaltet einen sogenannten Chipsatz410 (eine Menge von integrierten Schaltkreisen oder Chips, die miteinander arbeiten, Chipsätze) mit einer Architektur, die vom Hersteller stammt, beispielsweise IN-TEL®, AMD®, ARM® etc. Die Architektur des Chipsatzes410 beinhaltet einen Core und einen Speichersteuersatz420 und eine I/O-Steuervorrichtung450 , die Informationen, beispielsweise Daten, Signale, Befehle etc., über ein Direct-Management-Interface (DMI)442 oder einen Link-Controller444 austauscht. In der4 ist das DMI442 ein Chip-zu-Chip-Interface, das auch manchmal als eine Verbindung zwischen einer „Northbridge“ und einer „Southbridge“ bezeichnet wird. Der Core und der Speicherkontrollsatz420 beinhalten einen oder mehrere Prozessoren422 , beispielsweise einen Single-Core oder einen Multi-Core, und eine Speichersteuervorrichtung426 , die Information über einen Front-Side-BUS (FSB)424 austauscht. Es wird angemerkt, dass die Bestandteile des Satzes420 auf einen einzelnen Chip integriert sein können, der die konventionelle „Northbridge“-artige Architektur unterstützt. - Wie in der
4 gezeigt wird, steht die Speichersteuervorrichtung426 mit dem Speicher440 in Verbindung, beispielsweise um Unterstützung für eine Art von RAM zu gewährleisten, die als „Systemspeicher“ bezeichnet wird. Die Speichersteuervorrichtung426 beinhaltet des weiteren ein LVDS-Interface432 für ein Anzeigegerät492 , beispielsweise ein CRT, einen Flachbildschirm, einen Projektor etc. Ein Block438 beinhaltet einige Technologien, die beispielsweise über das LVDS-Interface432 unterstützt werden, beispielsweise ein serielles digitales Video, HDMI/DVI, ein Display-Port. Das Speichersteuergerät426 beinhaltet des weiteren ein PCI-Express-Interface (PCI-E)434 , das diskrete Grafik436 unterstützen kann. - In der
4 beinhaltet der I/O-Hub-Controller150 ein SA-TA-Interface451 , beispielsweise für HDDs, SDDs etc., ein PCI-E Interface452 , beispielsweise für eine Drahtlosverbindung182 , ein USB-Interface453 , beispielsweise für ein Eingabegerät484 wie einen Digitalisierer, eine Tastatur, eine Computermaus, Kameras, Telefone, Speichergeräte etc., ein Netzwerk-Interface454 , beispielsweise ein LAN, ein GPIO-Interface455 , ein LPC-Interface470 für ASICs471 , ein TPM472 , ein Super-I/O473 , einen Firmware-Hub474 , eine BIOS-Unterstützung475 genauso wie verschiedene Arten von Speichern476 , beispielsweise ein ROM477 , ein Flash478 und ein NVRAM479 , ein Powermanagement-Interface461 , ein Taktgenerator-Interface362 , ein Audio-Interface463 , beispielsweise für Lautsprecher494 , ein TCO-Interface464 , ein Systemmanagement-BUS-Interface465 , ein SPI-Flash466 , das ein BIOS468 und einen Bootcode490 beinhalten kann. DER I/O-Hubcontroller 450 kann Gigabit-Ethernet-Unterstützung beinhalten. - Nach Einschalten kann das System konfiguriert sein, um den Boot-Code
490 für das BIOS468 auszuführen, wie es im SPI-Flash466 gespeichert ist, und danach Daten unter Steuerung von einem oder mehreren Betriebssystemen und Anwendungssoftware, beispielsweise abgelegt in einem Systemspeicher440 , verarbeiten. Ein Betriebssystem kann in einem von vielen Orten gespeichert sein und beispielsweise über die Steuerbefehle des BIOS468 zugegangen werden. Wie im folgenden beschrieben wird, kann das Gerät mehr oder weniger Merkmale aufweisen als das in der4 gezeigte System. - Die Ausführungsbeispiele geben sprachgesteuerte Geräte an, die Sprache empfangen, aber die Sprachdaten nicht aus dem System transferieren, ohne dass gewisse Sprachfilterkriterien erfüllt wurden. Wie eingangs beschrieben, beinhalten die sprachgesteuerten Geräte Geräte, die durch Sprachsteuerbefehle gesteuert werden können, beispielsweise Mobiltelefone, PDAs, Computer und Fahrzeugcomputersysteme.
- Nach den Ausführungsformen können die sprachgesteuerten Geräte zusammen mit anderen Geräten benutzt werden, die sprachsteuerbar sein können oder auch nicht. Beispielsweise kann ein Mobiltelefon mit einem Fahrzeugcomputersystem oder einem Laptop gekoppelt werden. Ausführungsformen gewährleisten, dass das Sprachsteuersystem aus einer Vielzahl von Geräten zusammensetzt sein kann, wobei zumindest eines Sprachsteuerbefehle verarbeitet. Nach den Ausführungsformen kann ein Gerät als ein lokales Gerät dienen, wohingegen das andere Gerät als ein untergeordnetes Gerät agieren kann. Beispielsweise kann ein Mobiltelefon mit einem Fahrzeugcomputersystem gekoppelt sein, wobei das Fahrzeugcomputersystem als lokales System agiert, das Sprachdaten verarbeitet, wohingegen das Mobiltelefon als untergeordnetes Gerät agiert. Darüber hinaus kann beispielsweise das Fahrzeugcomputersystem dazu ausgelegt sein, für verschiedene Funktionen in einem „Hände-frei“-Betrieb betrieben zu werden, und das Mobiltelefon kann in das System eingebunden sein und über Sprachsteuerbefehle betrieben werden, die vom lokalen Fahrzeugcomputersystem verarbeitet werden. Demzufolge gewährleisten die Ausführungsformen, dass zum Verarbeiten von Sprachdaten in einem lokalen Gerät die Sprachdaten zum Verarbeiten an ein untergeordnetes Gerät übermittelt werden können.
- Es sollte angemerkt werden, dass viele der funktioneilen Charakteristiken der Ausführungsformen, wie sie in dieser Beschreibung beschrieben wurden, als Module implementiert werden können. Die Module können Hardware-Schaltungen, wie zum Beispiel mehrere Prozessoren mit Speichern, beinhalten, programmierbare Logik und/oder diskrete Komponenten. Die Hardware-Schaltungen können fest verdrahtete logische Funktionen, computerlesbare Programme, die auf Speichergeräten abgelegt sind, und/oder programmierte Funktionen ausführen. Die computerlesbaren Programme können die Funktionen der Ausführungsbeispiele in Kombination mit anderen Elementen ausführen.
- Wie ein Durchschnittsfachmann unschwer erkennen kann, können die Ausführungsformen reine Hardware-Ausführungsformen oder Ausführungsformen sein, die beides, Hardware- und Softwareelemente beinhalten. Eine Ausführung, die in einer Software implementiert ist, kann beispielsweise Firmware, spezifische Software, Microcode etc. beinhalten.
- Die computerlesbaren Programme können in jeglichem Nicht-Signalmedium gespeichert werden. Beispiele dafür sind Halbleiter- oder Festkörperspeicher, Magnetbänder, lose Computerdisketten, ein Random-Access-Memory (RAM), ein Read-Only-Memory (ROM), eine feste Magnetplatte und eine optische Platte. Gegenwärtige Beispiele für optische Platten beinhalten Compact Disk Read Only Memory (CD-ROM), Compact Disk Read/Write (CD-R/W) und DVD.
- Demzufolge können Elemente auf zumindest einem elektronischen Gerät implementiert werden, auf welchem die geeigneten Software-Programme laufen. Diese können auf zumindest einem integrierten Schaltkreis oder einem Teil von zumindest einem integrierten Schaltkreis implementiert werden. Demzufolge können die Ausführungsformen in einer Kombination von sowohl Hardware als auch Software implementiert werden. Computer/maschinenlesbare Programme können in Kombination mit einem elektronischen Gerät die Funktionen der Ausführungsformen ausführen.
- Die Offenbarung wurde zum Zweck der Veranschaulichung vorgenommen und die Beschreibung ist nicht erschöpfend oder begrenzend. Viele Modifikationen und Variationen ergeben sich für Durchschnittsfachleute. Die Ausführungsformen wurden gewählt und beschrieben, um die Prinzipien und die praktische Anwendung zu erläutern und um andere Durchschnittsfachleute dazu in die Lage zu versetzen, die Offenbarung von verschiedenen Ausführungsformen mit verschiedenen Modifikationen zu verstehen, die für den bestimmungsgemäßen Zweck geeignet sind.
- In den Zeichnungen und der Beschreibung wurden Ausführungsbeispiele angegeben. Obwohl spezifische Ausdrücke benutzt werden, ist die in der Beschreibung gewählte Terminologie nur generisch und beschreibend und nicht zum Zwecke der Begrenzung.
Claims (18)
- Ein System umfassend: einen oder mehrere Prozessoren (422); einen Systemspeicher (440), der mit dem einen oder mehreren Prozessoren (422) gekoppelt ist; einen computerlesbaren Programmcode, wobei in Abhängigkeit zur Ausführung des computerlesbaren Programmcodes, der den einen oder mehreren Prozessoren (422) zugänglich ist, die einen oder mehreren Prozessoren (422) konfiguriert sind, um während einer Konferenzschaltung, während der das System mit weiteren Systemen kommuniziert: Sprachdaten (101, 206, 306, 310) zu empfangen, die von einem Tonempfänger (205) erhalten wurden; Analysieren der Sprachdaten (101, 206, 306, 310), um zu bestimmen, ob die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren; wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 206, 306, 310) mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 206, 306) lokal (105) verarbeitet werden; und die Sprachdaten (101, 206, 306) nicht nach Extern (106, 211, 311) gesendet werden, so dass die Nutzer der weiteren Systeme die Sprachdaten nicht hören können und wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 310) nicht mit dem einen oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 310) nach Extern (106, 211, 311) gesendet werden.
- System nach
Anspruch 1 , wobei die einen oder mehreren lokalen Sprachkriterien (209) eine vorbestimmte Menge von Worten umfassen. - System nach
Anspruch 1 , wobei die einen oder mehreren lokalen Sprachkriterien (307) eine Abfolge von Sprachdaten umfassen. - System nach
Anspruch 1 , wobei die einen oder mehreren lokalen Sprachkriterien (209, 307) eine oder mehrere Nichtkonversationspausen in den Sprachdaten (101, 206, 306, 310) umfassen. - System nach
Anspruch 1 , des Weiteren umfassend einen Sprachdaten-Buffer (103), der dazu konfiguriert ist, Sprachdaten (101, 206, 306, 310) vor der Analyse aufzunehmen. - System nach
Anspruch 1 , des Weiteren umfassend einen oder mehrere Systemsprachsteuerbefehle (208), die dazu konfiguriert sind, Systemfunktionen aufzurufen. - System nach
Anspruch 6 , wobei das lokale Verarbeiten der Sprachdaten (101, 206, 306, der Sprachdaten (101, 206, 306, 310) das Prozessieren als eines oder mehrere Systemsprachsteuerbefehle umfasst. - System nach
Anspruch 1 , des Weiteren umfassend: einen Stummschaltbefehl, der konfiguriert ist, um einen Stummschaltbetriebsmodus zu ermöglichen; wobei in Abhängigkeit zu dem Stummschaltbetriebsmodus die Sprachdaten lokal verarbeitet werden und die Sprachdaten nicht extern gesendet werden. - System nach
Anspruch 1 , des Weiteren umfassend: einen Anzeigebildschirm (492), der dazu konfiguriert ist, um eine Rückkopplung für die Sprachdaten (101, 206, 306, 310) anzuzeigen, wobei die Rückkopplung aus der folgenden Gruppe ausgewählt ist, die besteht aus: ob der Tonempfänger Sprachdaten (101, 206, 306, 310) empfängt, ob die Sprachdaten (101, 206, 306, 310) lokal verarbeitet werden oder extern gesendet werden, und ob eine oder mehrere Sprachsteuerbefehle (208) aktiviert wurden. - Ein Verfahren umfassend: während einer Konferenzschaltung, während der ein System mit weiteren Systemen kommuniziert: Empfangen von Sprachdaten (101, 206, 306, 310) an einem Tonempfänger (205); und Analysieren der Sprachdaten (101, 206, 306, 310), um zu bestimmen, ob die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren; wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 206, 306, 310) mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren: die Sprachdaten (101, 206, 306) lokal (105) verarbeitet werden, und die Sprachdaten (101, 206, 306) nicht.extern (106, 211, 311) gesendet werden, so dass die Nutzer der weiteren Systeme die Sprachdaten nicht hören können, wobei in Abhängigkeit dazu, dass die Sprachdaten (101, 310) nicht mit einem oder mehreren lokalen Sprachkriterien (209, 307) korrespondieren, die Sprachdaten (101, 310) extern (106, 211, 311) gesendet werden.
- Verfahren nach
Anspruch 10 , wobei die einen oder mehreren lokalen Sprachkriterien (209) eine vorbestimmte Menge von Worten umfassen. - Verfahren nach
Anspruch 10 , wobei die einen oder mehreren lokalen Sprachkriterien (307) eine Abfolge von Sprachdaten umfassen. - Verfahren nach
Anspruch 10 , wobei die einen oder mehreren lokalen Sprachkriterien (209, 307) eine oder mehrere Nichtkonversationspausen in den Sprachdaten umfassen. - Verfahren nach
Anspruch 10 , des Weiteren umfassend einen Sprachdaten-Buffer (103), der konfiguriert ist, um vor der Analyse Sprachdaten (101, 206, 306, 310) aufzunehmen. - Verfahren nach
Anspruch 10 , des Weiteren umfassend einen oder mehrere Systemsprachsteuerbefehle (208), die dazu konfiguriert sind, Systemfunktionen aufzurufen. - Verfahren nach
Anspruch 15 , wobei das lokale Verarbeiten von Sprachdaten (101, 206, 306, 310) umfasst Prozessieren der Sprachdaten (101, 206, 306, 310) als eines oder mehrere Systemsprachsteuerbefehle (208). - Verfahren nach
Anspruch 10 ferner umfassend: eine Stummschaltungssteuerung, die dazu konfiguriert ist, einen Stummschaltbetriebsmodus zu ermöglichen; wobei in Abhängigkeit zu dem eingeschalteten Stummschaltbetriebsmodus die Sprachdaten lokal verarbeitet werden und die Sprachdaten nicht extern gesendet werden. - Ein Computerprogrammprodukt umfassend ein computerlesbares Speichergerät, auf dem ein computerlesbarer Programmcode verkörpert ist, wobei der computerlesbare Programmcode ausgebildet ist ein Verfahren nach einem der
Ansprüche 10 bis17 auszuführen.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/977,184 US9953643B2 (en) | 2010-12-23 | 2010-12-23 | Selective transmission of voice data |
US12/977,184 | 2010-12-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102011054197A1 DE102011054197A1 (de) | 2012-06-28 |
DE102011054197B4 true DE102011054197B4 (de) | 2019-06-06 |
Family
ID=46318137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102011054197.7A Active DE102011054197B4 (de) | 2010-12-23 | 2011-10-05 | Selektive Übertragung von Sprachdaten |
Country Status (3)
Country | Link |
---|---|
US (1) | US9953643B2 (de) |
CN (1) | CN102591455B (de) |
DE (1) | DE102011054197B4 (de) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9152376B2 (en) * | 2011-12-01 | 2015-10-06 | At&T Intellectual Property I, L.P. | System and method for continuous multimodal speech and gesture interaction |
US8767035B2 (en) * | 2011-12-06 | 2014-07-01 | At&T Intellectual Property I, L.P. | In-call command control |
US9805721B1 (en) * | 2012-09-21 | 2017-10-31 | Amazon Technologies, Inc. | Signaling voice-controlled devices |
US9087516B2 (en) * | 2012-11-19 | 2015-07-21 | International Business Machines Corporation | Interleaving voice commands for electronic meetings |
CN104956436B (zh) * | 2012-12-28 | 2018-05-29 | 株式会社索思未来 | 带有语音识别功能的设备以及语音识别方法 |
EP2962403A4 (de) * | 2013-02-27 | 2016-11-16 | Knowles Electronics Llc | Sprachgesteuerte kommunikationsverbindungen |
EP2784774A1 (de) * | 2013-03-29 | 2014-10-01 | Orange | Persönlicher Telefonstimmenassistent |
US9607630B2 (en) * | 2013-04-16 | 2017-03-28 | International Business Machines Corporation | Prevention of unintended distribution of audio information |
US9472206B2 (en) * | 2013-06-17 | 2016-10-18 | Google Technology Holdings LLC | Privacy mode for always-on voice-activated information assistant |
US9508345B1 (en) | 2013-09-24 | 2016-11-29 | Knowles Electronics, Llc | Continuous voice sensing |
US9532155B1 (en) | 2013-11-20 | 2016-12-27 | Knowles Electronics, Llc | Real time monitoring of acoustic environments using ultrasound |
US9437188B1 (en) | 2014-03-28 | 2016-09-06 | Knowles Electronics, Llc | Buffered reprocessing for multi-microphone automatic speech recognition assist |
CN104318927A (zh) * | 2014-11-04 | 2015-01-28 | 东莞市北斗时空通信科技有限公司 | 一种抗噪声的低速率语音编码方法及解码方法 |
US9812126B2 (en) * | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
US9911415B2 (en) | 2014-12-19 | 2018-03-06 | Lenovo (Singapore) Pte. Ltd. | Executing a voice command during voice input |
US10178219B1 (en) | 2017-06-21 | 2019-01-08 | Motorola Solutions, Inc. | Methods and systems for delivering a voice message |
KR102374910B1 (ko) | 2017-08-22 | 2022-03-16 | 삼성전자주식회사 | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 |
US11189275B2 (en) * | 2018-08-02 | 2021-11-30 | Polycom, Inc. | Natural language processing while sound sensor is muted |
KR102088322B1 (ko) * | 2018-11-16 | 2020-03-12 | 엘지전자 주식회사 | 인공지능 기반의 어플라이언스 제어 장치 및 그를 포함하는 어플라이언스 제어 시스템 |
CN110556101A (zh) * | 2019-07-30 | 2019-12-10 | 珠海格力电器股份有限公司 | 语音控制方法、装置、计算机设备和存储介质 |
US11756568B2 (en) * | 2020-07-23 | 2023-09-12 | Rovi Guides, Inc. | Systems and methods for improved audio-video conferences |
US11521640B2 (en) | 2020-07-23 | 2022-12-06 | Rovi Guides, Inc. | Systems and methods for improved audio-video conferences |
US11626126B2 (en) | 2020-07-23 | 2023-04-11 | Rovi Guides, Inc. | Systems and methods for improved audio-video conferences |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000023985A1 (en) * | 1998-10-16 | 2000-04-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
GB2368441A (en) * | 2000-10-26 | 2002-05-01 | Coles Joseph Tidbold | Voice to voice data handling system |
DE60015531T2 (de) * | 1999-03-26 | 2005-03-24 | Scansoft, Inc., Peabody | Client-server spracherkennungssystem |
EP1617410A1 (de) * | 2004-07-12 | 2006-01-18 | Hewlett-Packard Development Company, L.P. | Verteilte Spracherkennung für mobile Geräte |
US20060195323A1 (en) * | 2003-03-25 | 2006-08-31 | Jean Monne | Distributed speech recognition system |
DE602005000628T2 (de) * | 2004-10-08 | 2007-10-31 | Samsung Electronics Co., Ltd., Suwon | Verfahren und Vorrichtung für die mehrschichtige verteilte Spracherkennung |
DE102009017177A1 (de) | 2008-04-23 | 2009-10-29 | Volkswagen Ag | Spracherkennungsanordnung zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5548647A (en) * | 1987-04-03 | 1996-08-20 | Texas Instruments Incorporated | Fixed text speaker verification method and apparatus |
US5291479A (en) * | 1991-07-16 | 1994-03-01 | Digital Technics, Inc. | Modular user programmable telecommunications system with distributed processing |
US6370506B1 (en) | 1999-10-04 | 2002-04-09 | Ericsson Inc. | Communication devices, methods, and computer program products for transmitting information using voice activated signaling to perform in-call functions |
US6446041B1 (en) * | 1999-10-27 | 2002-09-03 | Microsoft Corporation | Method and system for providing audio playback of a multi-source document |
US6397186B1 (en) * | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
US6813603B1 (en) * | 2000-01-26 | 2004-11-02 | Korteam International, Inc. | System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form |
CN1351459A (zh) | 2000-10-26 | 2002-05-29 | 安捷伦科技有限公司 | 手持式通信和处理装置及其操作方法 |
US6747566B2 (en) * | 2001-03-12 | 2004-06-08 | Shaw-Yuan Hou | Voice-activated remote control unit for multiple electrical apparatuses |
US7899500B2 (en) * | 2002-09-24 | 2011-03-01 | At&T Intellectual Property I, L. P. | Apparatus and method for providing hands-free operation of a device |
US7187764B2 (en) * | 2003-04-23 | 2007-03-06 | Siemens Communications, Inc. | Automatic speak-up indication for conference call attendees |
JP2007502565A (ja) * | 2003-08-11 | 2007-02-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 無線通信システム |
US20050105559A1 (en) * | 2003-11-14 | 2005-05-19 | Santera Systems, Inc. | Methods and systems for providing transport of media gateway control commands using high-level datalink control (HDLC) protocol |
US20060194185A1 (en) | 2005-02-10 | 2006-08-31 | David Goldberg | Information request system and method |
US7706553B2 (en) * | 2005-07-13 | 2010-04-27 | Innotech Systems, Inc. | Auto-mute command stream by voice-activated remote control |
US7992085B2 (en) * | 2005-09-26 | 2011-08-02 | Microsoft Corporation | Lightweight reference user interface |
US8990071B2 (en) * | 2010-03-29 | 2015-03-24 | Microsoft Technology Licensing, Llc | Telephony service interaction management |
CN101834857B (zh) | 2010-04-20 | 2013-05-08 | 上海禹为通信技术有限公司 | 在通话中对语音内容进行识别并管控的方法和系统 |
US8223189B2 (en) * | 2010-07-09 | 2012-07-17 | Dialogic Corporation | Systems and methods of providing video features in a standard telephone system |
-
2010
- 2010-12-23 US US12/977,184 patent/US9953643B2/en active Active
-
2011
- 2011-10-05 DE DE102011054197.7A patent/DE102011054197B4/de active Active
- 2011-12-16 CN CN201110425153.7A patent/CN102591455B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000023985A1 (en) * | 1998-10-16 | 2000-04-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
DE60015531T2 (de) * | 1999-03-26 | 2005-03-24 | Scansoft, Inc., Peabody | Client-server spracherkennungssystem |
GB2368441A (en) * | 2000-10-26 | 2002-05-01 | Coles Joseph Tidbold | Voice to voice data handling system |
US20060195323A1 (en) * | 2003-03-25 | 2006-08-31 | Jean Monne | Distributed speech recognition system |
EP1617410A1 (de) * | 2004-07-12 | 2006-01-18 | Hewlett-Packard Development Company, L.P. | Verteilte Spracherkennung für mobile Geräte |
DE602005000628T2 (de) * | 2004-10-08 | 2007-10-31 | Samsung Electronics Co., Ltd., Suwon | Verfahren und Vorrichtung für die mehrschichtige verteilte Spracherkennung |
DE102009017177A1 (de) | 2008-04-23 | 2009-10-29 | Volkswagen Ag | Spracherkennungsanordnung zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges |
Also Published As
Publication number | Publication date |
---|---|
US9953643B2 (en) | 2018-04-24 |
US20120166184A1 (en) | 2012-06-28 |
CN102591455B (zh) | 2015-06-24 |
CN102591455A (zh) | 2012-07-18 |
DE102011054197A1 (de) | 2012-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102011054197B4 (de) | Selektive Übertragung von Sprachdaten | |
DE102015110621B4 (de) | Intelligente Untertitel | |
DE102016122708A1 (de) | Verlängern des Spracherkennungszeitraums | |
DE102019112380B4 (de) | Verfahren und System zur robusten Sprechererkennungsaktivierung | |
DE102015100900A1 (de) | Einstellen einer Spracherkennung unter Verwendung einer Kontextinformation | |
DE102014109121B4 (de) | Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes | |
DE102014107027A1 (de) | Management von virtuellen Assistentaktionseinheiten | |
DE60036931T2 (de) | Anwender-sprachschnittstelle für sprachgesteuerte systeme | |
DE112016006133T5 (de) | Stimmenerweiterter wahrnehmungsmodus | |
DE202017105669U1 (de) | Modalitätslernen an mobilen Vorrichtungen | |
DE102016103218A1 (de) | Blickbasierte Benachrichtigungsantwort | |
DE102016103216A1 (de) | Serielle visuelle Präsentation für tragbare Anzeigen | |
DE102016125494A1 (de) | Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale | |
DE112016000287T5 (de) | Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung | |
DE102014109122A1 (de) | Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen | |
DE102020202489A1 (de) | Verfahren und system zur sehr genauen schlüsselausdruckserkennung für vorrichtung mit geringen ressourcen | |
DE102016109521A1 (de) | Multimodale Disambiguierung einer sprachunterstützten Eingabe | |
DE112016005688T5 (de) | System zur Tonerfassung und -erzeugung über Nasalvibration | |
DE102017126306A1 (de) | Kontextabhängiger Koversionsmodus für digitalen Assistenten | |
DE102019104304B4 (de) | Dynamische Anpassung von Sprachverständnissystemen an akustische Umgebungen | |
DE102018131935A1 (de) | Time-Capsule-basierte Sprechhilfe | |
DE102018114453A1 (de) | Interaktive Sessions | |
DE102015109204A1 (de) | Echtzeitänderung eines Eingabeverfahrens basierend auf Sprachkontext | |
DE102018114658A1 (de) | Eingabe während einer Unterhaltungssitzung | |
DE102017115936A1 (de) | Systeme und Verfahren zum Aktivieren eines Sprachassistenten und Bereitstellen eines Indikators, dass der Sprachassistent Hilfe zu leisten hat |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G10L0015020000 Ipc: G10L0025480000 |
|
R020 | Patent grant now final | ||
R082 | Change of representative |
Representative=s name: SCHWEIGER, MARTIN, DIPL.-ING. UNIV., DE |