DE19712632A1 - Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten - Google Patents

Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten

Info

Publication number
DE19712632A1
DE19712632A1 DE1997112632 DE19712632A DE19712632A1 DE 19712632 A1 DE19712632 A1 DE 19712632A1 DE 1997112632 DE1997112632 DE 1997112632 DE 19712632 A DE19712632 A DE 19712632A DE 19712632 A1 DE19712632 A1 DE 19712632A1
Authority
DE
Germany
Prior art keywords
microphone
signal
signals
audio signals
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE1997112632
Other languages
English (en)
Inventor
Imre Dr Varga
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Thomson Brandt GmbH
Original Assignee
Deutsche Thomson Brandt GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Thomson Brandt GmbH filed Critical Deutsche Thomson Brandt GmbH
Priority to DE1997112632 priority Critical patent/DE19712632A1/de
Priority to EP98104636A priority patent/EP0867860A3/de
Priority to JP10068436A priority patent/JPH10282993A/ja
Publication of DE19712632A1 publication Critical patent/DE19712632A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Selective Calling Equipment (AREA)

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Sprachfernsteuerung von Geräten, insbesondere von Geräten der Unterhaltungselektronik.
Stand der Technik
Die Sprachfernsteuerung bekommt in der Unterhaltungselektronik eine immer größere Bedeutung. Einerseits wird durch die Sprachfernsteuerung die Ergonomie, das heißt die Qualität der Bedienbarkeit der Geräte wesentlich verbessert, andererseits wird für Behinderte eine Benutzung oft erst möglich.
Üblicherweise besteht die Sprachsteuerung aus einem Mikrophon, welches den Schall in ein elektrisches Signal wandelt, einer Signalverarbeitung, einem Spracherkenner, der die elektrischen Signale in Worte wandelt, sowie einem Systemmanager zur Steuerung des Systems. Die Spracherkennung ihrerseits beruht auf einer Mustererkennung, jeder gesprochene Befehl wird dabei mit gespeicherten Informationen verglichen.
Hierbei tritt das Problem auf, daß die Spracherkenner die Muster nicht eindeutig erkennen und damit nicht die erforderliche Störfestigkeit aufweisen, falls die akustische Umgebung des Benutzers mit Geräuschen belastet ist, d. h. falls akustische Störeinflusse, insbesondere durch eine Tonwiedergabe des Gerätes, vorliegen. Die Befehle müssen dann so oft wiederholt ausgesprochen werden bis sie erkannt werden. Dies vermindert die Attraktivität des Sprachsteuerungssystems. Bei sehr starken Störeinflüssen kann eine Sprachsteuerung dann sogar völlig unmöglich sein.
Erfindung
Der Erfindung liegt die Aufgabe zugrunde, ein System zur verbesserten Robustheit gegen akustische Störungen bei der Sprachfernsteuerung von Geräten, insbesondere von Geräten der Unterhaltungselektronik, anzugeben. Diese Aufgabe wird durch das in Anspruch 1 angegebene System gelöst.
Im Prinzip besteht das erfindungsgemäße System für die Sprachfernsteuerung von Geräten, die über mindestens einen Lautsprecher Audiosignale abgeben, mit einem Mikrophon oder mehreren Mikrophonen zur Umwandlung von Sprachbefehlen in elektrische Signale und mit einer Spracherkennungseinheit zur Umwandlung dieser elektrischen Signale in Bedienungsbefehle, darin, daß das Mikrophonsignal aus Sprachbefehlen, Audiosignalen und anderen Hintergrundgeräuschen bestehen kann und eine Tonkompensationseinheit vorgesehen ist, in der die von dem Gerät abgegebenen Audiosignale am Ort des Mikrophons oder der Mikrophone durch eine Modellierung der Übertragungswege im Raum von den Lautsprechern zu den Mikrophonen abgeschätzt werden und zu einer Korrektur des Mikrophonsignals benutzt werden. Hierdurch wird eine Erkennung der Bedienungsbefehle verbessert, was zu einer erhöhten Robustheit der Sprachfernbedienung führt, oder überhaupt erst ermöglicht.
Hierbei werden die Mikrophonsignale vorzugsweise zunächst der Tonkompensationseinheit zugeführt, dann die kompensierten Signale einer Geräuschunterdrückungseinheit zugeführt, in der Hintergrundgeräusche möglichst gut eliminiert werden und dann einer Spracherkennungseinheit zugeführt, in der mit Hilfe einer Mustererkennung die Befehle erkannt werden.
Es kann hierbei ein Mikrophon in einer dafür vorgesehenen Einheit (z. B. in einer Fernbedienung) integriert sein, ebenso können jedoch ein Mikrophon oder mehrere Mikrophone in dem Gehäuse des Gerätes integriert werden.
Vorteilhaft kann es insbesondere sein, aus mehreren Audiosignalen ein Monosignal zu gewinnen, welches der Tonkompensationseinheit zugeführt wird, weil dadurch die Komplexität der Tonkompensationseinheit reduziert wird. Besonders vorteilhaft ist der Tonkompensator in Form eines adaptiven NLMS-FIR-Filters ausgestaltet. So wird die Tonkompensation auch z. B. bei sich bewegenden Sprechern möglich.
Ebenso ist es, falls verschiedene Lautsprechersignale vorliegen, von Vorteil für jedes der verschiedenen Lautsprechersignale ein separates adaptives Filter vorzusehen, da dieses eine bessere Kompensation ermöglicht.
Schließlich können im Fall von mehreren Mikrophonen diese als Array angeordnet sein, um damit eine ausgeprägte Richtcharakteristik zu erzielen.
Zeichnung
Anhand der Figuren werden Ausführungsbeispiele der Erfindung beschrieben. Diese zeigen in:
Fig. 1 eine Sprachsteuerung mit einer Fernbedienung, in die ein Mikrofon integriert ist, und mit Monosignalbildung der Lautsprechersignale,
Fig. 2 ein Blockschaltbild eines adaptiven Tonkompensators,
Fig. 3 ein Blockdiagramm einer Anordnung zu spektralen Substraktion für die Geräuschunterdrückung,
Fig. 4 eine Sprachsteuerung mit einer Fernbedienung, in die ein Mikrofon integriert ist, ohne Monosignalbildung der Lautsprechersignale,
Fig. 5 eine Sprachsteuerung mit mehreren Mikrofonen, die im Fernsehergehäuse integriert sind.
Ausführungs-Beispiele
In Fig. 1 ist eine erfindungsgemäße Sprachsteuerung dargestellt. Ein Mikrophon MIC ist in diesem Fall in die Fernbedienung RCU integriert. Das Mikrophon kann hierbei eine gewisse Richtcharakteristik (Kugel, Niere, Superniere) aufweisen, damit möglichst nur das Nutzsignal, d. h. die Sprache aufgenommen wird. Mit der Fernbedienung kann ein Fernseher TV z. B. mittels RF-Modulation oder über Kabel bedient werden. In dem Fernseher TV sind unter anderem zwei Lautsprecher L1 und L2 sowie ein Monobilder MON, ein Tonkompensator SCOMP, eine Einheit zur Geräuschunterdrückung NSUP und eine Spracherkennungseinheit SREC integriert.
Das Mikrophonsignal besteht im Normalfall aus einer Mischung des Nutzsignals, der Fernsehtonanteile und anderen Geräuschen im Raum. Das Mikrophonsignal wird RF-moduliert, in das Gerät TV übertragen und dort dem primären Eingang des Tonkompensators SCOMP zugeführt. Einem weiteren Eingang des Kompensators (Referenz- oder Sekundäreingang) wird das Signal zugeführt, das aus den Signalen, die zu den Lautsprechern L1 und L2 gelangen, durch Monobildung gewonnen wird. Der Tonkompensator modelliert dann die Übertragungswege im Raum von den Lautsprechern zum Mikrophon. Hierfür sollten adaptive Systeme eingesetzt werden, da die Statistik der verschiedenen Signalanteile a priori nicht bekannt sind.
Ein einfacher Aufbau für einen adaptiven Tonkompensator ist in Fig. 2 dargestellt. Das Mikrophonsignal i wird dem Primäreingang, das monophone Lautsprechersignal r über einen weiteren Eingang dem adaptiven Filter AF zugeführt. In dem adaptiven Filter AF wird das Lautsprechersignal am Mikrophonort abgeschätzt und liefert das gefilterte Signal y. Dieses Signal y wird nun von dem über den Primäreingang zugeführten Mikrophonsignal i subtrahiert und liefert damit am Ausgang o ein um die Lautsprechersignale reduziertes Signal e. Dieses Signal e wird wiederum dem adaptiven Filter AF zugeführt.
Eine Möglichkeit zur Gestaltung des adaptiven Tonkompensators ist die Verwendung eines adaptiven NLMS- FIR-Filters. Bei einem solchen Filter wird ein NLMS- Algorithmus verwendet, der ein spezieller LMS (Least-Mean- Squares)-Algorithmus ist.
Der LMS-Algorithmus dient zur Adaption der Koeffizienten h1, h2, . . ., hN des FIR Filters nach folgender Gleichung:
hi(n+1) = hi(n)+a.e(n).x(n-i+1), i=1,2, . . ., N
wobei die Variablen wie folgt definiert sind
n: diskreter Zeitindex
a: Schrittgröße
x: Abtastwert des Referenzeinganges
e: Fehlersignal,
mit e=d-y, d: Signal am Primär-Eingang,
y: Signal am FIR-Filter-Ausgang.
Der NLMS (Normalized LMS)-Algorithmus erweitert den LMS- Algorithmus durch die Normierung der Adaption auf die Leistung des Referenzeingangssignals:
hi (n+1) = hi (n) +a.e (n).x(n-i+1)/Px(n)
wobei Px die Leistung des Signals x bedeutet. Px kann z. B. berechnet werden nach
Px(n+1) =q.Px(n) + (1-q).xˆ2(n), q<1
Der Vorteil des NLMS-Algorithmus im Vergleich zum LMS- Algorithmus ist die Unabhängigkeit der Adaptionseigenschaften von der Leistung des Eingangsignals, was vor allem bei pulsierenden Signalen (wie z. B. Sprache, Musik) wichtig ist.
Das adaptive Filter im Tonkompensator erstellt nun aus dem Referenzeingang die angenäherten Anteile im Mikrophonsignal, die mit dem Referenzeingang korreliert sind. Das bedeutet, daß der adaptive Filter aus dem (monophonen) Lautsprechersignal diejenigen Signalanteile generiert, die aus den Lautsprechern durch den akustischen Raum zum Mikrophon gelangen. Der Ausgang des Tonkompensators ist das Differenzsignal des Mikrophonsignals und des Ausganges des adaptiven Filters, es enthält daher reduzierte Lautsprechersignalanteile und unveränderte Nutzsignalanteile (Sprache).
Dieses Signal wird dann dem Eingang der Geräuschunterdrückung zugeführt. Diese Bearbeitungsstufe hat die Aufgabe, die Geräuschkomponenten zu reduzieren, deren Quelle nicht die Lautsprecher sind (z. B. Straßenlärm, andere Haushaltsgeräte wie z. B. Staubsauger, Hintergrundmusik usw.).
Es kann hierbei eine spektrale Subtraktion zur Geräuschunterdrückung, wie in Fig. 3 dargestellt, genutzt werden. Ein Sprachpausendetektor SD entscheidet nach einer Fensterung W des Eingangsignals i', ob der jeweilige Block Sprache oder eine Pause enthält. Der Block wird Fourier­ transformiert FFT und der Absolutwert berechnet. Wenn der Block keine Sprache enthält, wird das gemessene Betragsspektrum als das Geräuschspektrum in einem Speicher RAM abgespeichert. Wenn der Block dagegen gestörte Sprache enthält, wird aus seinem Betragsspektrum das in der vorherigen Pause abgespeicherte Geräuschbetragsspektrum abgezogen. Das resultierende Ausgangsbetragsspektrum wird nach einer Glättung SM durch die Phase P des Eingangssignals ergänzt und invers-Fourier-transformiert IFFT. Schließlich wird aus den Blöcken das zeitkontinuierliche Signal hergestellt, z. B. durch eine Summation von Samples des Signals, bevor das Signal o' ausgegeben wird.
Das aufbereitete Signal am Ausgang der Geräuschunterdrückung hat dann einen höheren Signal- Rauschabstand. Dieses Signal wird dem Eingang des Spracherkenners SREC zugeführt, der nun für die Bedienungsbefehle bessere Erkennungsraten liefert und robuster arbeitet.
Unter Bedienungsbefehlen werden hierbei die verschiedensten an das Gerät gerichteten Äußerungen des Benutzers verstanden. Dieses können bei sogenannten Command-and- Control-Systemen Kommandos wie z. B. "Bild heller", "Ton aus" oder "Erstes Programm" sein. Ebenso kann bei sogenannten Dialogsystemen ein Dialog zwischen dem Benutzer und dem Gerät erfolgen. So kann ein Bedienungsbefehl z. B. lauten "Wird heute Tennis übertragen?". Das Gerät könnte auf diese Frage dann z. B. mit "Ja, um 18.30 Uhr im ersten Programm" antworten.
Bevor die Sprachsteuerung genutzt werden kann, erfolgt bei sprecherabhängigen Erkennern zunächst ein Sprachtraining, in dem gelernt wird, wie der jeweilige Benutzer die Steuerbefehle ausspricht. Die gesprochenen Befehle werden abgespeichert und bei einer späteren Sprachsteuerung mit den gesprochenen Befehlen verglichen. Es kann hierbei insbesondere bei zusammengesetzten Befehlen, die aus mehreren Worten bestehen, sinnvoll sein, die Teilbefehle zunächst auf einem Display der Fernbedienung oder auf dem Bildschirm anzuzeigen. Bei sprecherunabhängigen Erkennern wird das Training dagegen bereits vom Hersteller durchgeführt.
Ein weiteres Ausführungsbeispiel ist in Fig. 4 dargestellt. Hierbei werden die Lautsprechersignale des Gerätes (TV, Stereoanlage) nicht zu einem Monosignal auf summiert sondern einzeln jeweils einem adaptiven Filter im Tonkompensator SCOMP geführt. Es sind daher mehrere Referenzeingänge für den adaptiven Tonkompensator vorgesehen. Das Fehlersignal, und damit das Ausgangssignal dieses Multi-Referenz Tonkompensators ist die Differenz zwischen dem Mikrophonsignal und der Summe aller adaptiven Filterausgänge. Durch einen höheren Aufwand in der adaptiven Filterung wird so eine größere Unterdrückung der TV-Tonsignalanteile im Mikrophonsignal erreicht. Vor allem bei mehreren Lautsprechern ist - dieser Unterschied erheblich, z. B. bei Surroundsystemen mit 5 Lautsprechern oder bei Dolby ProLogic-Wiedergabe.
Das Ausführungsbeispiel gemäß Fig. 5 zeichnet sich durch die Verwendung mehrerer Mikrophone MIC1, MIC2, MIC3 aus, die als Array angeordnet sind. So ist es möglich, eine ausgeprägte Richtcharakteristik und dadurch einen größeren Sprechabstand im Vergleich zu einem Mikrophon zu erreichen.
Dabei wird vorausgesetzt, daß das Nutzsignal aus einer bestimmten Richtung, insbesondere von vorne, auf das Array eintrifft. Die Richtcharakteristik kommt dann durch die Geometrie des Arrays zustande. Die Mikrophone sind in diesem Fall in das Gehäuse des Gerätes, z. B. des Fernsehers, selbst integriert, um ein Freisprechen zu ermöglichen.
Eine solche Anordnung kann auch für die Bedienung von Computerspielen, die üblicherweise auch eine Tonausgabe aufweisen, genutzt werden. Das Computerspiel kann hierbei auf einem Computer, auf einem Fernseher oder auf einer Mischform dieser Geräte gespielt werden. Bei einer Computer-Sprachsteuerung gelangt die Sprache hierbei üblicherweise über Mikrophon und Soundkarte in den Computer. Das Mikrophon wiederum kann statt im Gehäuse auch in einem Bedienungsgerät wie z. B. einer Computermaus oder einem sogenannten Joystick integriert sein oder als Kopfmikrophon ausgestattet sein, daß sich unmittelbar vor dem Mund befindet.
Durch die Verwendung der Erfindung wird die Robustheit der Sprachfernbedienung erhöht und damit u. a. die Spracherkennungsrate wesentlich verbessert. Dadurch wird eine verbesserte Sprachfernbedienung von verschiedensten Geräten der Unterhaltungselektronik, wie z. B. von TV- Geräten, Videorecordern, Satellitenempfängern, Audiogeräten und kompletten Stereoanlagen, aber ebenso von Personal Computern oder von anderen Haushaltsgeräten möglich.

Claims (9)

1. System für die Sprachfernsteuerung von Geräten (TV), die über mindestens einen Lautsprecher (L1, L2) Audiosignale abgeben, mit einem Mikrophon (MIC) oder mehreren Mikrophonen (MIC1, MIC2, MIC3) zur Umwandlung von Sprachbefehlen in elektrische Signale und mit einer Spracherkennungseinheit (SREC) zur Umwandlung dieser elektrischen Signale in Bedienungsbefehle, dadurch gekennzeichnet, daß das Mikrophonsignal aus Sprachbefehlen, Audiosignalen und anderen Hintergrundgeräuschen bestehen kann und eine Tonkompensationseinheit (SCOMP) vorgesehen ist, in der die von dem Gerät abgegebenen Audiosignale am Ort des Mikrophons oder der Mikrophone durch eine Modellierung der Übertragungswege im Raum von den Lautsprechern zu den Mikrophonen abgeschätzt werden und zu einer Korrektur des Mikrophonsignals benutzt werden.
2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Mikrophonsignale zunächst der Tonkompensationseinheit (SCOMP) zugeführt werden, dann die kompensierten Signale einer Geräuschunterdrückungseinheit (NSUP) zugeführt werden, in der Hintergrundgeräusche möglichst gut eliminiert werden und dann einer Spracherkennungseinheit (SREC) zugeführt werden, in der mit Hilfe einer Mustererkennung die Befehle erkannt werden.
3. System nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Tonkompensationseinheit (SCOMP) einen oder mehrere adaptive Filter (AF) enthält.
4. System nach Anspruch 3, dadurch gekennzeichnet, daß für Audiosignale von verschiedenen Lautsprechern verschiedene adaptive Filter vorgesehen sind.
5. System nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß der oder die adaptiven Filter in Form von adaptiven NLMS-FIR-Filtern ausgestaltet sind.
6. System nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß aus mehreren Audiosignalen ein Monosignal (MON) gewonnen wird, welches der Tonkompensationseinheit zugeführt wird.
7. System nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß ein Mikrophon (MIC) in einer zur Bedienung des Gerätes vorgesehenen Einheit (RCU), insbesondere einer Fernbedienung, integriert ist.
8. System nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß mindestens ein Mikrophon (MIC1, MIC2, MIC3) in dem Gehäuse des Gerätes (TV) integriert ist.
9. System nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß mehrere Mikrophone als Array angeordnet sind, um damit eine ausgeprägte Richtcharakteristik zu erzielen.
DE1997112632 1997-03-26 1997-03-26 Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten Withdrawn DE19712632A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE1997112632 DE19712632A1 (de) 1997-03-26 1997-03-26 Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten
EP98104636A EP0867860A3 (de) 1997-03-26 1998-03-14 Verfahren und Vorrichtung zur sprachgesteuerten Fernbedienung mit Interferenzkompensation von Geräten
JP10068436A JPH10282993A (ja) 1997-03-26 1998-03-18 機器の音声作動式遠隔制御システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1997112632 DE19712632A1 (de) 1997-03-26 1997-03-26 Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten

Publications (1)

Publication Number Publication Date
DE19712632A1 true DE19712632A1 (de) 1998-10-01

Family

ID=7824636

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1997112632 Withdrawn DE19712632A1 (de) 1997-03-26 1997-03-26 Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten

Country Status (3)

Country Link
EP (1) EP0867860A3 (de)
JP (1) JPH10282993A (de)
DE (1) DE19712632A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19943872A1 (de) * 1999-09-14 2001-03-15 Thomson Brandt Gmbh Vorrichtung zur Anpassung der Richtcharakteristik von Mikrofonen für die Sprachsteuerung
DE19944467A1 (de) * 1999-09-16 2001-03-29 Siemens Audiologische Technik Verfahren zur Reduzierung von akustischen Störsignalen
DE10006240A1 (de) * 2000-02-11 2001-08-16 Bsh Bosch Siemens Hausgeraete Elektrogerät mit Spracheingabeeinheit und Verfahren zur Spracheingabe

Families Citing this family (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7283964B1 (en) 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US6584439B1 (en) 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
EP1079352B1 (de) * 1999-08-27 2012-10-10 Thomson Licensing Sprachgesteuertes Fernbedienungssystem
DE19943875A1 (de) * 1999-09-14 2001-03-15 Thomson Brandt Gmbh System zur Sprachsteuerung mit einem Mikrofonarray
EP1133768B1 (de) * 1999-09-23 2009-06-03 Koninklijke Philips Electronics N.V. Unterhaltungselektroniksystem mit spracherkenner
DE10002321C2 (de) * 2000-01-20 2002-11-14 Micronas Munich Gmbh Sprachgesteuerte Vorrichtung und System mit einer derartigen sprachgesteuerten Vorrichtung
WO2001055833A1 (en) 2000-01-28 2001-08-02 Lake Technology Limited Spatialized audio system for use in a geographical environment
EP1269306A4 (de) * 2000-01-28 2008-09-03 Dolby Lab Licensing Corp Räumlich orientiertes audiosystem zur verwendung in einer geographischen umgebung
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
AU4323800A (en) 2000-05-06 2001-11-20 Nanyang Technological University System for noise suppression, transceiver and method for noise suppression
ATE342567T1 (de) * 2000-07-28 2006-11-15 Koninkl Philips Electronics Nv System zur steuerung eines gerätes mittels sprachbefehlen
DE10058786A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts
KR100552468B1 (ko) * 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
US7349849B2 (en) 2001-08-08 2008-03-25 Apple, Inc. Spacing for microphone elements
CN1271595C (zh) * 2001-12-17 2006-08-23 旭化成株式会社 语音识别方法
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
DE10252457A1 (de) * 2002-11-12 2004-05-27 Harman Becker Automotive Systems Gmbh Spracheingabe-Interface
US20060087924A1 (en) * 2004-10-22 2006-04-27 Lance Fried Audio/video portable electronic devices providing wireless audio communication and speech and/or voice recognition command operation
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5589323B2 (ja) * 2009-08-27 2014-09-17 ヤマハ株式会社 音信号処理装置
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (de) 2013-02-07 2021-04-21 Apple Inc. Sprachauslöser für digitalen assistent
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN108271096A (zh) * 2018-01-30 2018-07-10 上海乐愚智能科技有限公司 一种任务执行方法、装置、智能音箱及存储介质
US11170798B2 (en) * 2018-12-12 2021-11-09 Bby Solutions, Inc. Remote audio pickup and noise cancellation system and method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4015381A1 (de) * 1989-05-16 1990-11-22 Smiths Industries Plc Spracherkennungsgeraet und verfahren zur spracherkennung
DE4029697A1 (de) * 1989-12-29 1991-07-04 Pioneer Electronic Corp Sprachgesteuertes fernbedienungssystem
EP0720149A1 (de) * 1994-12-30 1996-07-03 AT&T Corp. Verfahren und Vorrichtung zur Kompensierung von Geräuschen
DE19514849A1 (de) * 1995-04-26 1996-10-31 Sel Alcatel Ag Verfahren zur Fernsteuerung und Vorrichtung dafür

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0522779A (ja) * 1991-07-09 1993-01-29 Sony Corp 音声認識遠隔制御装置
DE19521258A1 (de) * 1995-06-10 1996-12-12 Philips Patentverwaltung Spracherkennungssystem

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4015381A1 (de) * 1989-05-16 1990-11-22 Smiths Industries Plc Spracherkennungsgeraet und verfahren zur spracherkennung
DE4029697A1 (de) * 1989-12-29 1991-07-04 Pioneer Electronic Corp Sprachgesteuertes fernbedienungssystem
EP0720149A1 (de) * 1994-12-30 1996-07-03 AT&T Corp. Verfahren und Vorrichtung zur Kompensierung von Geräuschen
DE19514849A1 (de) * 1995-04-26 1996-10-31 Sel Alcatel Ag Verfahren zur Fernsteuerung und Vorrichtung dafür

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19943872A1 (de) * 1999-09-14 2001-03-15 Thomson Brandt Gmbh Vorrichtung zur Anpassung der Richtcharakteristik von Mikrofonen für die Sprachsteuerung
DE19944467A1 (de) * 1999-09-16 2001-03-29 Siemens Audiologische Technik Verfahren zur Reduzierung von akustischen Störsignalen
DE19944467C2 (de) * 1999-09-16 2002-06-06 Siemens Audiologische Technik Verfahren zur Reduzierung von akustischen Störsignalen
DE10006240A1 (de) * 2000-02-11 2001-08-16 Bsh Bosch Siemens Hausgeraete Elektrogerät mit Spracheingabeeinheit und Verfahren zur Spracheingabe
US6778964B2 (en) 2000-02-11 2004-08-17 Bsh Bosch Und Siemens Hausgerate Gmbh Electrical appliance voice input unit and method with interference correction based on operational status of noise source

Also Published As

Publication number Publication date
EP0867860A3 (de) 1999-04-14
JPH10282993A (ja) 1998-10-23
EP0867860A2 (de) 1998-09-30

Similar Documents

Publication Publication Date Title
DE19712632A1 (de) Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten
DE10118653C2 (de) Verfahren zur Geräuschreduktion
DE60212528T2 (de) Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung
EP1520447B1 (de) Verfahren und vorrichtung zur erzeugung von daten über die gegenseitige lage von mindestens drei schallwandlern
DE60217444T2 (de) Sprachgesteuertes elektronisches Gerät
DE60120062T2 (de) Sprachsteuerung von elektronischen Geräten
DE102007048973B4 (de) Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
DE69908463T2 (de) Verfahren und Einrichtung zur mehrkanaligen Kompensation eines akustischen Echos
US20190206417A1 (en) Content-based audio stream separation
EP1118979B1 (de) Sprachgesteuerte Vorrichtung
DE602005005186T2 (de) Verfahren und system zur schallquellen-trennung
EP1340224A1 (de) Verfahren zur steuerung eines eine akustische ausgabeeinrichtung aufweisenden geräts
DE10018666A1 (de) Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
DE19646055A1 (de) Verfahren und Vorrichtung zur Abbildung von Schallquellen auf Lautsprecher
DE10030105A1 (de) Spracherkennungseinrichtung
DE112017002299T5 (de) Stereotrennung und Richtungsunterdrückung mit Omni-Richtmikrofonen
DE60319796T2 (de) Rauschreduzierung und audiovisuelle Sprachaktivitätsdetektion
DE19521258A1 (de) Spracherkennungssystem
DE10153188A1 (de) Vorrichtung und Verfahren zur mehrkanaligen akustischen Echokompensation mit variabler Kanalzahl
DE60304147T2 (de) Virtuelle Mikrophonanordnung
EP2200341A1 (de) Verfahren zum Betrieb eines Hörhilfegerätes sowie Hörhilfegerät mit einer Quellentrennungseinrichtung
EP0467157B1 (de) Sprachgesteuertes Gerät der Unterhaltungselektronik, insbesondere Videorecorder
DE19948907A1 (de) Verfahren zur Signalverarbeitung in einer Hörhilfe sowie Hörhilfe
DE60027170T2 (de) Anordnung zur audiosignalverarbeitung
DE112018002744T5 (de) Schallerfassung

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8120 Willingness to grant licenses paragraph 23
8139 Disposal/non-payment of the annual fee