EP4004908B1

EP4004908B1 - Aktivierung von spracherkennung

Info

Publication number: EP4004908B1
Application number: EP20757126.6A
Authority: EP
Inventors: Sungrack YUN; Young Mo Kang; Hye Jin Jang; Byeonggeun KIM; Kyu Woong Hwang
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-07-30
Filing date: 2020-07-30
Publication date: 2024-10-09
Anticipated expiration: 2040-07-30
Also published as: US11437031B2; US20210035571A1; JP2022543201A; CN114144831A; PH12021553299A1; KR20220041831A; JP7645230B2; WO2021021970A1; TW202121115A; BR112022000922A2; TWI871343B; CN114144831B; KR102926603B1; EP4004908C0; EP4004908A1

Claims

Gerät (102) zur Verarbeitung eines Audiosignals, das Eingangston (106) darstellt, wobei das Gerät (102) Folgendes umfasst:
einen oder mehrere Sensoren (120), die mit einem Handdetektor gekoppelt und zum Liefern von Sensordaten an den Handdetektor konfiguriert sind;

einen Handdetektor (130);

und ein automatisches Spracherkennungssystem (140), das einen Puffer und eine automatische Spracherkennungsmaschine enthält;

wobei der Handdetektor (130) konfiguriert ist zum:
Erzeugen einer ersten Anzeige als Reaktion auf die Erkennung, über die ein oder mehreren Sensoren (120), dass sich mindestens ein Teil einer Hand innerhalb eines Bereichs von 10 cm bis 30 cm von den ein oder mehreren Sensoren (120) befindet; und

Erzeugen einer zweiten Anzeige als Reaktion auf die Erkennung, dass sich der Teil der Hand nicht mehr innerhalb eines Bereichs von 10 cm bis 30 cm von den ein oder mehreren Sensoren (120) befindet, wobei die zweite Anzeige einem Sprechende-Signal entspricht, das die automatische Spracherkennungsmaschine (330) veranlasst, mit der Verarbeitung von Audiodaten aus dem Puffer (320) zu beginnen; und

wobei das automatische Spracherkennungssystem (140) zum Einleiten der Pufferung des Audiosignals als Reaktion auf die erste Anzeige und zum Verarbeiten des Audiosignals konfiguriert ist, wobei das Audiosignal den zwischen der Erzeugung der ersten Anzeige und der Erzeugung der zweiten Anzeige empfangenen Eingangston (106) umfasst.
Gerät (102) nach Anspruch 1, das ferner Folgendes umfasst:
einen Bildschirm (110), wobei der Handdetektor (130) zum Erzeugen der ersten Anzeige als Reaktion auf die Erkennung mindestens eines Teils der Hand über dem Bildschirm (110) konfiguriert ist; und

ein Mikrofon (112), das zum Aktivieren als Reaktion auf die erste Anzeige konfiguriert ist, um das Audiosignal auf der Basis des Eingangstons (106) zu erzeugen.
Gerät (102) nach Anspruch 2, wobei der Handdetektor (130) zum Erzeugen der ersten Anzeige als Reaktion auf die Erkennung konfiguriert ist, dass sich der Teil der Hand in einem Abstand von 10 Zentimetern bis 30 Zentimetern von dem Bildschirm (110) befindet.
Gerät (102) nach Anspruch 1, wobei die ein oder mehreren Sensoren (120) eine Kamera (202) umfassen, die zum Liefern von Bilddaten an den Handdetektor (130) konfiguriert ist, wobei die Kamera (202) vorzugsweise einen Low-Power-Umgebungslichtsensor (204) umfasst, der zum Erzeugen der Bilddaten konfiguriert ist.
Gerät (102) nach Anspruch 1, wobei der Handdetektor (130) einen Handmusterdetektor (230) enthält, der zum Verarbeiten der Bilddaten konfiguriert ist, um festzustellen, ob die Bilddaten ein Handmuster enthalten.
Gerät (102) nach Anspruch 5, wobei die ein oder mehreren Sensoren (120) ferner einen Infrarotsensor (208) umfassen.
Gerät (102) nach Anspruch 6, wobei der Handdetektor (130) ferner einen Handtemperaturdetektor (234) enthält, der zum Verarbeiten von Infrarotsensordaten von dem Infrarotsensor (208) konfiguriert ist.
Gerät (102) nach Anspruch 1, das ferner eine Aktivierungsschaltung (302) umfasst, die mit dem Handdetektor (130) gekoppelt und zum Aktivieren des automatischen Spracherkennungssystems (140) als Reaktion auf den Empfang der ersten Anzeige konfiguriert ist.
Gerät (102) nach Anspruch 1, wobei der Handdetektor (130) und das automatische Spracherkennungssystem (140) in ein Fahrzeug integriert sind.
Gerät (102) nach Anspruch 1, wobei der Handdetektor (130) und das automatische Spracherkennungssystem (140) in ein tragbares Kommunikationsgerät oder in ein Virtual-Reality- oder Augmented-Reality-Headset integriert sind.
Verfahren zum Verarbeiten eines Audiosignals, das Eingangston darstellt, wobei das Verfahren Folgendes beinhaltet:
Erzeugen einer ersten Anzeige als Reaktion auf das Erkennen (604), über einen oder mehrere Sensoren eines Geräts, dass sich mindestens ein Teil einer Hand innerhalb eines Bereichs von 10 cm bis 30 cm von den ein oder mehreren Sensoren befindet;

Aktivieren (606), als Reaktion auf die erzeugte erste Anzeige, eines automatischen Spracherkennungssystems, um die Pufferung des Audiosignals einzuleiten;

Erzeugen einer zweiten Anzeige als Reaktion auf die Erkennung (608), an dem Gerät, dass sich der Teil der Hand nicht mehr innerhalb eines Bereichs von 10 cm bis 30 cm von den ein oder mehreren Sensoren befindet, wobei die erzeugte zweite Anzeige einem Sprechende-Signal entspricht;

Aktivieren, als Reaktion auf die erzeugte zweite Anzeige, einer automatischen Spracherkennungsmaschine, um mit der Verarbeitung des gepufferten Audiosignals zu beginnen;

wobei das gepufferte Audiosignal den Eingangston umfasst, der zwischen der Erzeugung der ersten Anzeige und der Erzeugung der zweiten Anzeige empfangen wurde.
Nichtflüchtiges computerlesbares Medium, das Befehle umfasst, die bei Ausführung durch einen oder mehrere Prozessoren eines Geräts, wobei das Gerät ein automatisches Spracherkennungssystem mit einem Puffer und einer automatischen Spracherkennungsmaschine, einen Handdetektor und einen oder mehrere Sensoren umfasst, die mit dem Handdetektor gekoppelt und zum Liefern von Sensordaten an den Handdetektor konfiguriert sind, die ein oder mehreren Prozessoren zum Durchführen des Verfahrens nach Anspruch 11 veranlassen.