DE60120062T2 - Sprachsteuerung von elektronischen Geräten - Google Patents
Sprachsteuerung von elektronischen Geräten Download PDFInfo
- Publication number
- DE60120062T2 DE60120062T2 DE60120062T DE60120062T DE60120062T2 DE 60120062 T2 DE60120062 T2 DE 60120062T2 DE 60120062 T DE60120062 T DE 60120062T DE 60120062 T DE60120062 T DE 60120062T DE 60120062 T2 DE60120062 T2 DE 60120062T2
- Authority
- DE
- Germany
- Prior art keywords
- user
- voice
- accepted
- speech
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000012512 characterization method Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 37
- 230000000007 visual effect Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Details Of Television Systems (AREA)
- Selective Calling Equipment (AREA)
- Navigation (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
Description
- Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Sprachsteuerung von einem Gerät der Unterhaltungselektronik
- Stand der Technik
- Die Bedienung von Unterhaltungselektronikgeräten, wie z.B. Fernsehgeräten oder Videorekordern, kann für den Benutzer durch eine Sprachsteuerung vereinfacht werden. So ist es bekannt, sprachgesteuert Geräteeinstellungen zu verändern, Bedienfunktionen wie z.B. eine Senderwahl auszuführen oder Programmierungen vorzunehmen.
- Die von dem Benutzer gesprochenen Bedienbefehle werden hierfür zunächst als Schallsignale detektiert, in elektrische Signale gewandelt und digitalisiert. Die digitalisierten Sprachsignale werden dann einem Spracherkennungssystem zugeführt. Die Spracherkennung basiert hierbei üblicherweise auf einem Akustik- und einem Sprachmodell. Das akustische Modell nutzt eine große Anzahl von Sprachmustern, wobei mathematische Algorithmen dazu verwendet werden, die akustisch am besten passenden Worte zu einem gesprochenen Wort anzugeben. Das Sprachmodell wiederum basiert auf einer Analyse, bei der anhand von einer Vielzahl von Dokumentproben festgestellt wird, in welchem Kontext und wie häufig gewisse Wörter normalerweise verwendet werden.
- Gegenwärtige Systeme sehen vor, die Bedienungsbefehle in das in einer Fernbedienung integrierte Mikrofon zu sprechen. Indem die Fernbedienung unmittelbar vor den Mund des Benutzers gehalten wird, wird so eine Verschlechterung der Erkennungsrate durch störende Hintergrundgeräusche verhindert. Dieses erfordert jedoch, wie bei herkömmlichen Fernbedienungen auch, daß der Benutzer die Fernbedienung weiterhin zur Hand nehmen muß. Ein Komfortgewinn läßt sich erreichen, wenn für die Spracheingabe ein oder mehrere Mikrofone in dem Unterhaltungselektronikgerät vorgesehen sind, so daß der Benutzer eine Bedienung von einer beliebigen Stelle des Raumes ohne Mitführen der Fernbedienung vornehmen kann. Die erforderliche Unterdrückung von Hintergrundstörungen kann in diesem Fall durch die Verwendung spezieller Mikrofon-Arrays und Verfahren wie dem sogenannten „Statistical beamforming" oder „blind source Separation" erfolgen. Das bediente Gerät ist aber nicht in der Lage zu ermitteln, welche Spracheingaben von dem gegenwärtigen Benutzer erfolgen. Es ist daher nicht möglich, und nur auf diese Bedienbefehle zu reagieren, Äußerungen von anderen Personen dagegen zu ignorieren.
- Ein weiterer Ansatz zur Erhöhung des Benutzerkomforts wird in der automatischen Zwischenspeicherung von Fernsehprogrammen auf in Fernsehern oder Set-Top-Boxen integrierten Festplatten gesehen. Nach einer Analyse der Sehgewohnheiten werden hierbei automatisch die Programme oder Programmarten aufgezeichnet, die der Benutzer vorher regelmäßig gewählt hat. Wenn der Benutzer dann zu irgendeiner Zeit seinen Fernseher einschaltet, kann er mit gewisser Wahrscheinlichkeit seine Lieblingssendungen anschauen. Die Qualität der Analyse wird jedoch im Falle mehrerer Benutzer dadurch beeinträchtigt, daß nicht unterschieden werden kann, welcher Benutzer den Fernseher wann bedient.
- WO 00/39789 beschreibt die Kombination von Spracherkennungs- und Sprecherverifikations-Techniken um nur eine Ausführung von durch autorisierte Benutzer geäußerte Spracheingaben, zu garantieren.
- Erfindung
- Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Sprachsteuerung anzugeben, welches die vorgenannten Nachteile vermeidet. Diese Aufgabe wird durch das in Anspruch 1 angegebene Verfahren gelöst.
- Im Prinzip besteht das Verfahren zur Sprachsteuerung von einem Gerät der Unterhaltungselektronik darin, daß Spracheingaben eines Benutzers in digitalisierte Sprachsignale umgewandelt werden. Aus den digitalisierten Sprachsignalen werden erste Merkmale extrahiert, die charakteristisch für die einzelnen Laute der Sprache sind und so eine Erkennung der gesprochenen Laute ermöglichen. Weiterhin werden aus den digitalisierten Sprachsignalen zweite Merkmale extrahiert, die eine Charakterisierung der Stimme des jeweiligen Benutzers ermöglichen und für eine Unterscheidung der Spracheingaben von verschiedenen Benutzern verwendet werden. Nach einem Sprachkommando von einem ersten Benutzer werden weitere Sprachkommandos nur noch von diesem ersten Benutzer akzeptiert, indem die weiteren Spracheingaben auf charakteristische Sprachmerkmale geprüft werden und nur dann akzeptiert werden, wenn sie aufgrund dieser Merkmale demselben Sprecher zuzuordnen sind.
- Hiermit kann sichergestellt werden, daß zeitabschnittsweise nur einer von mehreren gleichzeitigen Benutzern das betreffende Gerät per Sprache bedienen kann – ähnlich dem Fall, daß nur einer von mehreren Benutzern über eine passende Fernbedienung verfügt.
- Insbesondere kann es von Vorteil sein, daß ein Sprachkommando zum Einschalten des Gerätes von einem beliebigen ersten Benutzer akzeptiert wird und danach Sprachkommandoeingaben nur noch von diesem ersten Benutzer akzeptiert werden.
- Ein Sprachkommando zum Ausschalten des Gerätes kann vorzugsweise nur von dem ersten Benutzer akzeptiert werden, wobei nach dem Ausschalten des Gerätes wieder Sprachkommandos von einem beliebigen Benutzer akzeptiert werden.
- Für bestimmte Anwendungen kann es jedoch auch von Vorteil sein, daß ein Sprachkommando zum Ausschalten des Gerätes von einem beliebigen Benutzer akzeptiert wird.
- Ebenso kann vorteilhafterweise ein Bedienbefehl vorgesehen sein, ab dessen Eingabe durch den ersten Benutzer Sprachkommandos von einem zweiten Benutzer akzeptiert werden. Dieses ermöglicht, die Bediengewalt weiterzugeben, entsprechend dem Weiterreichen einer Fernbedienung von einem ersten zu einem zweiten Benutzer.
- Besonders vorteilhaft kann es sein, daß eine Identifizierung der verschiedenen Benutzer erfolgt, um eine Analyse der Sehgewohnheiten vorzunehmen und hieraus Benutzerprofile der verschiedenen Benutzer zu erstellen.
- Vorzugsweise wird ein so gewonnenes Benutzerprofil bei einer Zwischenspeicherung von Fernsehprogrammen verwendet, um eine getrennte Zwischenspeicherung von bevorzugten Sendungen für verschiedene Benutzer zu ermöglichen.
- Ebenso kann das Benutzerprofil verwendet werden, um Vorschläge für zu betrachtende Sendungen vorzunehmen, die auf den Sehgewohnheiten des verschiedenen Benutzers abgestimmt sind.
- Zeichnungen
- Anhand der Zeichnungen werden Ausführungsbeispiele der Erfindung beschrieben. Diese zeigen in
-
1 schematisch den Verfahrensablauf zur Unterscheidung der Sprachkommandos von verschiedenen Benutzern, um zukünftige Sprachkommandos nur noch von bestimmten Benutzern zu akzeptieren; -
2 schematisch den Verfahrensablauf zur Identifizierung verschiedener Benutzer, um hieraus Benutzerprofile der verschiedenen Benutzer zu erstellen. - Ausführungsbeispiele
- In
1 ist schematisch der Ablauf eines ersten Ausführungsbeispiels in Form eines Flußdiagrams dargestellt. Bei einem sprachgesteuerten Fernseher erfolgt hier eine Unterscheidung der Spracheingaben von verschiedenen Benutzern, um zukünftige Spracheingaben nur noch von bestimmten Benutzern zu akzeptieren. - Zunächst werden in einem ersten Verfahrensschritt
1 die Schallsignale in elektrische Signale umgewandelt, so daß ein analoges Sprachsignal vorliegt, welches wiederum in ein digitales Sprachsignal umgewandelt wird. - Dann werden in einem nächsten Verfahrensschritt
2 aus dem digitalisierten akustischen Signal erste Merkmale gewonnen, die möglichst typisch für die einzelnen Laute der Sprache und robust gegenüber Störungen und Schwankungen in der Aussprache sind. Ebenso werden in dem Verfahrensschritt3 aus dem digitalisierten akustischen Signal zweite Merkmale extrahiert, die eine Charakterisierung der Stimme des jeweiligen Benutzers ermöglichen und für eine Unterscheidung der Spracheingaben von verschiedenen Benutzern verwendet werden. Diese Merkmalsextraktion erfolgt in dem dargestellten Ausführungsbeispiel getrennt für den Spracherkenner und den Sprechererkenner, kann aber auch gemeinsam erfolgen. - Basierend auf den ersten Merkmalen erfolgt dann die eigentliche Spracherkennung im Verfahrensschritt
4 . In Verfahrensschritt5 wird mit Hilfe der zweiten Merkmale eine Sprechererkennung durchgeführt, um den gerade sprechenden Benutzer zu identifizieren. Ebenso kann jedoch lediglich eine Abspeicherung der zweiten Merkmale erfolgen, um so eine Unterscheidung zu anderen Benutzern zu ermöglichen ohne das eine Identifizierung der einzelnen Benutzer erfolgt. - In dem Verfahrensschritt
6 wird dann geprüft, ob der Fernseher bereits eingeschaltet ist. Wenn dieses der Fall ist, werden die Verfahrensschritte7 und8 durchlaufen, anderenfalls die Verfahrensschritte9 und10 . Sollte der Fernseher noch nicht eingeschaltet sein, so wird als nächstes im Verfahrensschritt9 geprüft, ob ein Einschaltkommando wie beispielsweise „An", „Fernseher an" vorliegt. Falls dieses der Fall ist, so wird im Verfahrensschritt10 der Fernseher angeschaltet und der Benutzer, von dem die Eingabe stammt, vermerkt. Falls statt einer Identifizierung lediglich eine Unterscheidung von verschiedenen Benutzern erfolgt, werden entsprechend die zweiten Merkmale, die den aktuellen Benutzer charakterisieren, abgespeichert. Anschließend wird, ebenso wie für den Fall, daß im Verfahrensschritt9 kein Einschaltkommando vorlag, zu Verfahrensschritt1 zurückgekehrt. - Bei bereits eingeschaltetem Fernseher folgt auf Verfahrensschritt
6 der Verfahrensschritt7 . In diesem wird überprüft, ob die Spracheingabe von dem bereits vorher in dem Verfahrensschritt10 vermerkten Benutzer erfolgt ist. Falls dieses der Fall ist, wird in dem Verfahrensschritt8 das eingegebene Kommando zur Steuerung des sprachgesteuerten Systems, z. B. zu einer Menüsteuerung bzw. -navigation, verwendet. Anschließend wird, ebenso wie für den Fall, daß im Verfahrensschritt7 eine Abweichung der Benutzer festgestellt wurde, zu Verfahrensschritt1 zurückgekehrt. - Es sind verschiedene Abwandlungen, von diesem Ausführungsbeispiel denkbar. So kann eine Spracheingabe zum Ausschalten des Gerätes auch von einem beliebigen Benutzer akzeptiert werden. Ebenso kann ein Bedienungsbefehl vorgesehen sein, bei dessen Eingabe durch den ersten Benutzer zukünftig auch Spracheingaben von einem zweiten Benutzer oder weiteren Benutzern akzeptiert werden.
- In
2 ist schematisch der Ablauf eines zweiten Ausführungsbeispiels in Form eines Flußdiagrams dargestellt. In diesem Fall erfolgt bei einem sprachgesteuerten Fernseher eine Identifizierung verschiedener Benutzer, um hieraus Benutzerprofile für diese Benutzer zu erstellen. - Die Verfahrensschritte
1 bis5 stimmen hierbei mit dem Ausführungsbeispiel aus1 überein, wobei es in Verfahrensschritt5 nun jedoch unbedingt erforderlich ist, den gerade sprechenden Benutzer zu identifizieren. Die verschiedenen Abzweigungen in den Verfahrensschritten6 ,7 und9 sind dagegen nun nicht erforderlich. Die der Spracheingabe entsprechenden Bedienbefehle werden in dem Verfahrensschritt8 ausgeführt. Weiterhin wird in dem Verfahrensschritt11 der identifizierte Benutzer, von dem die Eingabe stammt, zusammen mit Angaben zur aktuellen Zeit und dem Fernsehkanal oder Angaben zu der gerade laufenden Sendung abgespeichert. Diese Angaben können hierbei bereits im Fernsehgerät vorliegen oder auch mit dem Fernsehsignal als Zusatzsignal, bei analogem Fernsehsignal insbesondere in der vertikalen Austastlücke, übertragen werden. So kann beispielsweise die Uhrzeit aus einer internen Uhr verwendet werden oder aber das in Videotext übertragene Zeitsignal ausgewertet werden. Ebenso kann der Fernsehkanal unmittelbar aus dem gerade gewählten Programmplatz des Fernsehgerätes ermittelt werden oder aber aus entsprechenden Angaben im Videotext- oder VPS-Signal. Schließlich können auch Angaben zu der gerade laufenden Sendung, d.h. der Titel oder die Sparte wie z.B. Unterhaltung, Sport etc. einem bereits im Gerät vorliegenden EPG oder aber auch entsprechend übertragenen Daten entnommen werden. - Die durch die Verwendung der Sprechererkennung ermittelten Benutzerprofile können insbesondere bei der Zwischenspeicherung von TV-Programmen auf Festplatten oder ähnlichen Speichermedien, die in Fernsehern und Set-Top Boxen vorgesehen werden, eingesetzt werden. Die Genauigkeit der Analyse der Sehgewohnheiten erhöht sich hierbei deutlich durch die Erkennung des jeweiligen Benutzers. Für das Beispiel einer Familie, bei der die Kinder deutlich mehr Zeit vor dem Fernseher verbringen als die Eltern, wird daher die Festplatte nicht mehr nur mit Kinderprogrammen aufgefüllt. Vielmehr kann durch die zusätzliche Sprechererkennung die Sehgewohnheitsanalyse für mehrere Familienmitglieder getrennt erstellt werden. Der begrenzte Zwischenspeicher-Platz der Festplatte kann dann nach einem bestimmten Schlüssel auf die einzelnen Benutzer aufgeteilt werden, so daß jeder Benutzer seinen vorbestimmten Anteil an zwischengespeicherten Fernsehprogrammen erhält.
- Ebenso können durch die Verwendung der Sprechererkennung ermittelte Benutzerprofile auch für die Aufzeichnung von Radioprogrammen oder andere übertragene Daten verwendet werden.
- Zur Detektion der Sprachsignale kann ein einzelnes Mikrofon, aber auch ein Mikrofonarray aus zwei oder mehreren Mikrofonen vorgesehen sein. Das Mikrofonarray kann beispielsweise in einem Fernsehempfänger integriert sein. Die Mikrofone setzen die detektierten Schallsignale in elektrische Signale um, die durch Verstärker verstärkt, durch AD-Wandler in digitale Signale umgewandelt und dann einer Signalverarbeitungseinheit zugeführt werden. Diese kann den jeweiligen Aufenthaltsort des Benutzers durch eine unterschiedliche Skalierung bzw. Verarbeitung der detektierten Schallsignale berücksichtigen. Weiterhin kann auch eine Korrektur der Mikrofonsignalen bezüglich der von den Lautsprechern abgegebenen Schallsignale erfolgen. Das so bearbeitete Signal wird dann dem Spracherkenner und Sprecherkenner zugeführt, wobei Algorithmen oder Hardwareeinheiten separat aber ebenso gemeinsam ausgeführt sein können. Die ermittelten Befehle sowie die Identität des Benutzers werden dann schließlich einem Systemmanager zur Steuerung des Systems zugeführt.
- Die Erfindung kann bei der Sprachfernbedienung von verschiedensten Geräten der Unterhaltungselektronik, wie z. B. von TV-Geräten, Videorecordern, DVD-Spielern, Satellitenempfängern, TV-Video-Kombinationen, Audiogeräten oder kompletten Audiosystemen eingesetzt werden.
Claims (9)
- Verfahren zur Sprachsteuerung von einem Gerät der Unterhaltungselektronik, mit den folgenden Schritten: Spracheingaben eines Benutzers werden in digitalisierte Sprachsignale umgewandelt; wobei aus den digitalisierten Sprachsignalen erste Merkmale extrahiert werden, die charakteristisch für die einzelnen Laute der Sprache sind und so eine Erkennung der gesprochenen Laute ermöglichen, und wobei aus den digitalisierten Sprachsignalen zweite Merkmale extrahiert werden, die eine Charakterisierung der Stimme des jeweiligen Benutzers ermöglichen und für eine Unterscheidung der Spracheingaben von verschiedenen Benutzern verwendet werden; dadurch gekennzeichnet, daß nach einem Sprachkommando von einem ersten Benutzer weitere Spracheingaben nur noch von diesem ersten Benutzer akzeptiert werden, indem die weiteren Spracheingaben auf charakteristische Sprachmerkmale geprüft werden und nur dann akzeptiert werden, wenn sie aufgrund dieser Merkmale demselben Sprecher zuzuordnen sind.
- Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß ein Sprachkommando zum Einschalten des Gerätes von einem beliebigen ersten Benutzer akzeptiert wird und danach Sprachkommandos vorübergehend nur von diesem ersten Benutzer akzeptiert werden.
- Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß ein Sprachkommando zum Ausschalten des Gerätes nur von dem ersten Benutzer akzeptiert wird und daß nach dem Ausschalten des Gerätes wieder Sprachkommandos von einem beliebigen Benutzer akzeptiert werden.
- Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß ein Sprachkommando zum Ausschalten des Gerätes von einem beliebigen Benutzer akzeptiert wird.
- Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß ein Bedienungsbefehl vorgesehen ist, nach dessen Eingabe durch den ersten Benutzer Spracheingaben von einem zweiten Benutzer akzeptiert werden.
- Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eine Identifizierung der verschiedenen Benutzer und eine Analyse der Sehgewohnheiten der identifizierten Benutzer erfolgt, um hieraus Benutzerprofile der verschiedenen Benutzer zu erstellen.
- Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß das Benutzerprofil bei einer Zwischenspeicherung von Fernsehprogrammen verwendet wird, um eine getrennte Zwischenspeicherung von bevorzugten Sendungen für verschiedene Benutzer zu ermöglichen.
- Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß das Benutzerprofil verwendet wird, um dem identifizierten Benutzer Vorschläge für zu betrachtende Sendungen zu machen.
- Vorrichtung mit Mittel zur Durchführung jeder der Schritte eines Verfahrens nach einem der vorhergehenden Ansprüche.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10046561 | 2000-09-19 | ||
DE10046561 | 2000-09-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60120062D1 DE60120062D1 (de) | 2006-07-06 |
DE60120062T2 true DE60120062T2 (de) | 2006-11-16 |
Family
ID=7656945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60120062T Expired - Lifetime DE60120062T2 (de) | 2000-09-19 | 2001-08-06 | Sprachsteuerung von elektronischen Geräten |
Country Status (7)
Country | Link |
---|---|
US (1) | US7136817B2 (de) |
EP (1) | EP1189206B1 (de) |
JP (2) | JP4947860B2 (de) |
KR (1) | KR100845476B1 (de) |
CN (1) | CN1185623C (de) |
AT (1) | ATE328345T1 (de) |
DE (1) | DE60120062T2 (de) |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7324947B2 (en) | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
WO2003085639A1 (en) * | 2002-04-08 | 2003-10-16 | Koninklijke Philips Electronics N.V. | Controlling an apparatus based on speech |
KR101034524B1 (ko) * | 2002-10-23 | 2011-05-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 음성에 근거하여 장치를 제어하는 음성 제어 유닛, 제어되는 장치 및 장치를 제어하는 방법 |
EP1426924A1 (de) * | 2002-12-03 | 2004-06-09 | Alcatel | Sprechererkennung zur Zurückweisung von Hintergundsprechern |
KR20050023941A (ko) * | 2003-09-03 | 2005-03-10 | 삼성전자주식회사 | 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법 |
US8295446B1 (en) * | 2004-09-03 | 2012-10-23 | Confinement Telephony Technology, Llc | Telephony system and method with enhanced call monitoring, recording and retrieval |
JP3824168B2 (ja) * | 2004-11-08 | 2006-09-20 | 松下電器産業株式会社 | ディジタル映像再生装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
CN101038742B (zh) * | 2006-03-16 | 2011-06-22 | 鸿富锦精密工业(深圳)有限公司 | 利用影像特征辅助语音遥控的装置及方法 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8797465B2 (en) * | 2007-05-08 | 2014-08-05 | Sony Corporation | Applications for remote control devices with added functionalities |
JP4307498B2 (ja) * | 2007-07-10 | 2009-08-05 | 本田技研工業株式会社 | ナビ装置、ナビシステム |
CN101452507A (zh) * | 2007-12-06 | 2009-06-10 | 深圳富泰宏精密工业有限公司 | 手持行动电子装置语音认证系统及方法 |
CN101493987B (zh) * | 2008-01-24 | 2011-08-31 | 深圳富泰宏精密工业有限公司 | 手机声控遥控系统及方法 |
CN101902587A (zh) * | 2009-06-01 | 2010-12-01 | 沈阳同方多媒体科技有限公司 | 一种通过语音对电视机进行控制的系统 |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US11012732B2 (en) | 2009-06-25 | 2021-05-18 | DISH Technologies L.L.C. | Voice enabled media presentation systems and methods |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN101882370A (zh) * | 2010-06-30 | 2010-11-10 | 中山大学 | 一种语音识别遥控器 |
WO2012169679A1 (ko) * | 2011-06-10 | 2012-12-13 | 엘지전자 주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템 |
US20130238326A1 (en) * | 2012-03-08 | 2013-09-12 | Lg Electronics Inc. | Apparatus and method for multiple device voice control |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9606767B2 (en) * | 2012-06-13 | 2017-03-28 | Nvoq Incorporated | Apparatus and methods for managing resources for a system using voice recognition |
CN103543930A (zh) * | 2012-07-13 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 一种电子书操作控制方法及装置 |
US9786281B1 (en) * | 2012-08-02 | 2017-10-10 | Amazon Technologies, Inc. | Household agent learning |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR102091236B1 (ko) * | 2012-09-28 | 2020-03-18 | 삼성전자 주식회사 | 전자기기 및 그 제어방법 |
US9460715B2 (en) * | 2013-03-04 | 2016-10-04 | Amazon Technologies, Inc. | Identification using audio signatures and additional characteristics |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9911421B2 (en) * | 2013-06-10 | 2018-03-06 | Panasonic Intellectual Property Corporation Of America | Speaker identification method, speaker identification apparatus, and information management method |
KR20150012464A (ko) * | 2013-07-25 | 2015-02-04 | 삼성전자주식회사 | 디스플레이 장치 및 개인화 서비스 제공 방법 |
JP6360484B2 (ja) * | 2013-09-03 | 2018-07-18 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話制御方法 |
CN103533391B (zh) * | 2013-10-12 | 2016-09-14 | 青岛旲天下智能科技有限公司 | 一种声控式交互的双向互动数字电视盒系统的工作方法 |
KR102210433B1 (ko) | 2014-01-21 | 2021-02-01 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
KR20150092996A (ko) * | 2014-02-06 | 2015-08-17 | 삼성전자주식회사 | 디스플레이 장치 및 이를 이용한 전자 장치의 제어 방법 |
JP6436400B2 (ja) * | 2014-03-28 | 2018-12-12 | パナソニックIpマネジメント株式会社 | 音声コマンド入力装置および音声コマンド入力方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
KR102246900B1 (ko) | 2014-07-29 | 2021-04-30 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
CN104378710A (zh) * | 2014-11-18 | 2015-02-25 | 康佳集团股份有限公司 | 一种无线音箱 |
US10152299B2 (en) * | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
TWI555393B (zh) * | 2015-08-24 | 2016-10-21 | 晨星半導體股份有限公司 | 電視節目智慧播放方法與其控制裝置 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
DE102015015040A1 (de) | 2015-11-12 | 2017-05-18 | Schneider Gmbh & Co. Kg | Verfahren, Anlage und System zur Bearbeitung optischer Linsen |
JP6571587B2 (ja) * | 2016-05-18 | 2019-09-04 | 日本電信電話株式会社 | 音声入力装置、その方法、及びプログラム |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
CN106162254A (zh) * | 2016-06-30 | 2016-11-23 | 深圳市九洲电器有限公司 | 一种用户语音分析方法及系统 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10715604B1 (en) * | 2017-10-26 | 2020-07-14 | Amazon Technologies, Inc. | Remote system processing based on a previously identified user |
US10567515B1 (en) | 2017-10-26 | 2020-02-18 | Amazon Technologies, Inc. | Speech processing performed with respect to first and second user profiles in a dialog session |
CN108509107A (zh) * | 2018-03-26 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 应用功能信息显示方法、装置及终端设备 |
US11145299B2 (en) | 2018-04-19 | 2021-10-12 | X Development Llc | Managing voice interface devices |
US10949228B1 (en) * | 2018-09-28 | 2021-03-16 | United Services Automobile Association (Usaa) | System and method for controlling the content of a device in response to an audible request |
US11468197B2 (en) * | 2019-05-06 | 2022-10-11 | Apple Inc. | Configuring context-based restrictions for a computing device |
CN113848747A (zh) * | 2021-11-03 | 2021-12-28 | 珠海格力电器股份有限公司 | 智能家居设备控制方法及装置 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4757525A (en) * | 1982-09-29 | 1988-07-12 | Vmx, Inc. | Electronic audio communications system with voice command features |
US4866777A (en) * | 1984-11-09 | 1989-09-12 | Alcatel Usa Corporation | Apparatus for extracting features from a speech signal |
JPS61130999A (ja) * | 1984-11-30 | 1986-06-18 | 株式会社神戸製鋼所 | 音声認識装置 |
JPS61138999A (ja) * | 1984-12-12 | 1986-06-26 | 株式会社神戸製鋼所 | 音声認識装置 |
US5127043A (en) * | 1990-05-15 | 1992-06-30 | Vcs Industries, Inc. | Simultaneous speaker-independent voice recognition and verification over a telephone network |
US6400996B1 (en) * | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
US6192255B1 (en) * | 1992-12-15 | 2001-02-20 | Texas Instruments Incorporated | Communication system and methods for enhanced information transfer |
US5717743A (en) * | 1992-12-16 | 1998-02-10 | Texas Instruments Incorporated | Transparent telephone access system using voice authorization |
US6081782A (en) * | 1993-12-29 | 2000-06-27 | Lucent Technologies Inc. | Voice command control and verification system |
US5623539A (en) * | 1994-01-27 | 1997-04-22 | Lucent Technologies Inc. | Using voice signal analysis to identify authorized users of a telephone system |
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
US5835894A (en) * | 1995-01-19 | 1998-11-10 | Ann Adcock Corporation | Speaker and command verification method |
US5774858A (en) * | 1995-10-23 | 1998-06-30 | Taubkin; Vladimir L. | Speech analysis method of protecting a vehicle from unauthorized accessing and controlling |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US5752231A (en) * | 1996-02-12 | 1998-05-12 | Texas Instruments Incorporated | Method and system for performing speaker verification on a spoken utterance |
JPH1031577A (ja) * | 1996-07-17 | 1998-02-03 | Brother Ind Ltd | 音声入力情報処理システム |
KR100206799B1 (ko) * | 1996-08-19 | 1999-07-01 | 구자홍 | 화자 인식형 캠코더 |
US5777571A (en) * | 1996-10-02 | 1998-07-07 | Holtek Microelectronics, Inc. | Remote control device for voice recognition and user identification restrictions |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
AU7304798A (en) * | 1996-11-22 | 1998-06-10 | T-Netix, Inc. | Voice recognition for information system access and transaction process ing |
IL119948A (en) * | 1996-12-31 | 2004-09-27 | News Datacom Ltd | Voice activated communication system and program guide |
US5907326A (en) * | 1997-03-10 | 1999-05-25 | International Business Machines Corporation | System and method for updating cultural profiles with dragging and dropping locale objects |
KR19980085738A (ko) * | 1997-05-30 | 1998-12-05 | 배순훈 | 음성 인식 리모콘 |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US5946653A (en) * | 1997-10-01 | 1999-08-31 | Motorola, Inc. | Speaker independent speech recognition system and method |
AU7833898A (en) * | 1997-11-20 | 1999-06-15 | Nielsen Media Research, Inc. | Voice recognition unit for audience measurement system |
JPH11327753A (ja) * | 1997-11-27 | 1999-11-30 | Matsushita Electric Ind Co Ltd | 制御方法及びプログラム記録媒体 |
IL127791A (en) * | 1998-04-21 | 2003-06-24 | Ibm | System and method for selecting and accessing portions of information stream(s) from a television |
US6421453B1 (en) * | 1998-05-15 | 2002-07-16 | International Business Machines Corporation | Apparatus and methods for user recognition employing behavioral passwords |
US6167251A (en) * | 1998-10-02 | 2000-12-26 | Telespree Communications | Keyless portable cellular phone system having remote voice recognition |
JP2000250944A (ja) * | 1998-12-28 | 2000-09-14 | Toshiba Corp | 情報提供方法、情報提供装置、情報受信装置、並びに情報記述方法 |
WO2000039789A1 (en) * | 1998-12-29 | 2000-07-06 | Alcatel Usa Sourcing, L.P. | Security and user convenience through voice commands |
US6804638B2 (en) * | 1999-04-30 | 2004-10-12 | Recent Memory Incorporated | Device and method for selective recall and preservation of events prior to decision to record the events |
US6584439B1 (en) * | 1999-05-21 | 2003-06-24 | Winbond Electronics Corporation | Method and apparatus for controlling voice controlled devices |
JP2001268669A (ja) * | 2000-03-21 | 2001-09-28 | Ricoh Co Ltd | 移動電話端末を利用した機器制御装置、方法、及び記録媒体 |
US7047196B2 (en) * | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
US6754629B1 (en) * | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
US6498970B2 (en) * | 2001-04-17 | 2002-12-24 | Koninklijke Phillips Electronics N.V. | Automatic access to an automobile via biometrics |
US6785647B2 (en) * | 2001-04-20 | 2004-08-31 | William R. Hutchison | Speech recognition system with network accessible speech processing resources |
US6601762B2 (en) * | 2001-06-15 | 2003-08-05 | Koninklijke Philips Electronics N.V. | Point-of-sale (POS) voice authentication transaction system |
-
2001
- 2001-08-06 EP EP01402126A patent/EP1189206B1/de not_active Expired - Lifetime
- 2001-08-06 DE DE60120062T patent/DE60120062T2/de not_active Expired - Lifetime
- 2001-08-06 AT AT01402126T patent/ATE328345T1/de not_active IP Right Cessation
- 2001-08-29 KR KR1020010052377A patent/KR100845476B1/ko active IP Right Grant
- 2001-09-05 CN CNB011312858A patent/CN1185623C/zh not_active Expired - Lifetime
- 2001-09-11 JP JP2001275281A patent/JP4947860B2/ja not_active Expired - Lifetime
- 2001-09-14 US US09/952,126 patent/US7136817B2/en not_active Expired - Lifetime
-
2011
- 2011-12-20 JP JP2011278728A patent/JP5442703B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE60120062D1 (de) | 2006-07-06 |
JP2012100309A (ja) | 2012-05-24 |
JP5442703B2 (ja) | 2014-03-12 |
EP1189206A2 (de) | 2002-03-20 |
EP1189206A3 (de) | 2002-08-21 |
US20020035477A1 (en) | 2002-03-21 |
CN1345029A (zh) | 2002-04-17 |
EP1189206B1 (de) | 2006-05-31 |
JP4947860B2 (ja) | 2012-06-06 |
KR20020022561A (ko) | 2002-03-27 |
ATE328345T1 (de) | 2006-06-15 |
US7136817B2 (en) | 2006-11-14 |
JP2002123295A (ja) | 2002-04-26 |
KR100845476B1 (ko) | 2008-07-14 |
CN1185623C (zh) | 2005-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60120062T2 (de) | Sprachsteuerung von elektronischen Geräten | |
DE60123747T2 (de) | Spracherkennungsbasiertes Untertitelungssystem | |
DE60217444T2 (de) | Sprachgesteuertes elektronisches Gerät | |
DE60005422T2 (de) | Automatische Suche nach Tonkanälen mittels Vergleich von vom Benutzer gesprochenen Wörtern im Untertiteltext oder Audioinhalt für interaktives Fernsehen | |
DE60012065T2 (de) | Verfahren und Vorrichtung zur Fernsehkanalauswahl unter Verwendung von Sprachverständnis | |
EP1118979B1 (de) | Sprachgesteuerte Vorrichtung | |
DE102009051508B4 (de) | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung | |
DE112004001539B4 (de) | Spracherkennung bei einem Fahrzeugradiosystem | |
DE60032982T2 (de) | Spracherkennung zur Steuerung eines Geräts | |
EP1139333A2 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
EP1912474A1 (de) | Verfahren zum Betreiben einer Hörhilfe, sowie Hörhilfe | |
DE10163213A1 (de) | Verfahren zum Betrieb eines Spracherkennungssystems | |
DE60319710T2 (de) | Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale | |
DE102019126688A1 (de) | System und verfahren zur automatischen untertitelanzeige | |
DE3610600A1 (de) | Verfahren zum heraussuchen der gewuenschten sprachinformation beim empfang von fernsehsignalen mit mehreren tonkanaelen | |
EP0467157B1 (de) | Sprachgesteuertes Gerät der Unterhaltungselektronik, insbesondere Videorecorder | |
DE19757385A1 (de) | Verfahren und Vorrichtung zur Unterdrückung von Werbung für Geräte der Unterhaltungselektronik | |
DE60022269T2 (de) | Sprachbasiertes Manipulationsverfahren und -gerät | |
DE3612360A1 (de) | Einrichtung zur untertitelung von fernsehsignalen | |
DE19944325A1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
WO2020048778A1 (de) | Verfahren zur steuerung einer multimedia-einrichtung sowie computerprogramm und einrichtung dazu | |
DE19805043B4 (de) | Rundfunkempfänger und Verfahren zum Betreiben eines solchen | |
DE102015005271B4 (de) | Medienabspielvorrichtung mit Mute-Funktion für ein Kraftfahrzeug | |
DE112014006822B4 (de) | Digitalrundfunk-Empfangsvorrichtung und Tuning-Verfahren derselben | |
DE4419693A1 (de) | Verfahren und Einrichtung zum Unterdrücken bestimmter Videoszenen und dazugehöriger Begleittöne |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8320 | Willingness to grant licences declared (paragraph 23) | ||
8364 | No opposition during term of opposition |