DE102022121919A1 - Sprachauslöser basierend auf akustischem raum - Google Patents

Sprachauslöser basierend auf akustischem raum Download PDF

Info

Publication number
DE102022121919A1
DE102022121919A1 DE102022121919.4A DE102022121919A DE102022121919A1 DE 102022121919 A1 DE102022121919 A1 DE 102022121919A1 DE 102022121919 A DE102022121919 A DE 102022121919A DE 102022121919 A1 DE102022121919 A1 DE 102022121919A1
Authority
DE
Germany
Prior art keywords
computing device
user
speech
gaze
acoustic space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022121919.4A
Other languages
English (en)
Inventor
Prateek Murgai
Ashrith Deshpande
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of DE102022121919A1 publication Critical patent/DE102022121919A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Eine Vielzahl von Mikrofonsignale kann erhalten werden. In der Vielzahl von Mikrofonsignalen kann eine Sprache eines Benutzers erfasst werden. Ein Blick eines Benutzers kann basierend auf der Vielzahl von Mikrofonsignalen bestimmt werden. Eine sprachaktivierte Antwort der Rechenvorrichtung kann als Reaktion darauf durchgeführt werden, dass der Blick des Benutzers auf die Rechenvorrichtung gerichtet ist. Andere Gesichtspunkte werden beschrieben und beansprucht.

Description

  • QUERVERWEIS AUF VERWANDTE ANMELDUNG
  • Diese Anmeldung beansprucht den Vorteil der vorläufigen US-Patentanmeldung Nr. 63/239,567 , eingereicht am 1. September 2021, die durch Bezugnahme hierin in ihrer Gesamtheit aufgenommen ist.
  • STAND DER TECHNIK
  • Rechenvorrichtungen, wie zum Beispiel Computer, Lautsprecher, Fernseher, Smartphones, Tabletcomputer und Elektrogeräte, können in den tagtäglichen Umgebungen zahlreich sein. Viele solche Rechenvorrichtungen können in einem gemeinsam genutzten Raum vorliegend sein, wie einem Wohnzimmer, einer Küche, einem Empfangsbereich, einem Büro, einem Schlafzimmer oder einem anderen geschlossenen Raum. Einige Rechenvorrichtungen weisen Mikrofone auf, die Klänge erkennen. Die Mikrofone prägen die erkannten Klänge Mikrofonsignalen ein, wo jene Klänge zum weiteren Verarbeiten oder zur Speicherung getragen werden können.
  • KURZDARSTELLUNG
  • Rechenvorrichtungen können Mikrofonsignale verarbeiten, um Klänge in den Mikrofonsignalen zu erfassen. In einigen Fällen kann eine elektronische Vorrichtung Mikrofonsignale verarbeiten, um zu erfassen, ob die Mikrofone Sprache eines Benutzers aufgenommen haben. Wenn Sprache vorliegend ist, dann kann eine Vorrichtung eine sprachaktivierte Antwort auslösen, wie ein Aufwecken aus einem Schlafzustand, ein Erfassen eines Sprachbefehls oder ein Antworten auf einen Sprachbefehl, ein Identifizieren eines Benutzers und/oder andere Vorgänge.
  • Ein Raum, wie ein Wohnzimmer, eine Küche, ein Eingangsbereich, ein Büro, ein Schlafzimmer oder ein anderer geschlossener Bereich, kann mehrere Rechenvorrichtungen aufweisen, die innerhalb von ihm platziert sind. Es kann jedoch unerwünscht sein, dass jede Vorrichtung als Reaktion auf eine Sprache eines Benutzers ausgelöst wird. Ein Bestimmen, welche Vorrichtung für sprachaktivierte oder „freihändige“ Anwendungen auszulösen ist, kann kompliziert sein. Somit kann die schiere Anzahl von Vorrichtungen, die in einem einzelnen Raum vorliegen, ein sprachaktiviertes Verhalten einer Vorrichtung verkomplizieren.
  • Zusätzlich können die Räume, in denen diese Vorrichtungen platziert sind, miteinander verbunden sein, was die Frage, welche Vorrichtung ausgelöst werden soll, weiter verkomplizieren kann. Zum Beispiel können unterschiedliche Räume über Gänge, Treppenhäuser, Eingangswege, Türwege, würfelförmige Wände und andere Öffnungen, die Räume verbinden, verbunden sein. Komplexitäten in dem Raum des Benutzers können zu einem unbeabsichtigten Auslösen einer oder mehrerer Vorrichtungen als Reaktion auf eine Sprache eines Benutzers führen.
  • In einem Gesichtspunkt schließt ein Verfahren, das von einer Rechenvorrichtung durchgeführt wird, ein Erhalten einer Vielzahl von Mikrofonsignalen, die von einer Vielzahl von Mikrofonen erzeugt werden, ein Erfassen einer Sprache eines Benutzers in der Vielzahl von Mikrofonsignalen, ein Bestimmen eines Blicks eines Benutzers basierend auf der Vielzahl von Mikrofonsignalen und ein Auslösen einer sprachaktivierten Antwort der Rechenvorrichtung als Reaktion darauf ein, dass der Blick des Benutzers auf die Rechenvorrichtung gerichtet ist. Insofern kann der Blick des Benutzers als ein Ersatz für die Absicht des Benutzers verwendet werden. Wenn der Benutzer einer Vorrichtung zugewandt ist und zu ihr spricht, dann kann die Vorrichtung davon ausgehen, dass der Benutzer beabsichtigt, dass sie ihm antwortet.
  • In einem Gesichtspunkt schließt ein Verfahren, das von einer Rechenvorrichtung durchgeführt wird, ein Erhalten einer Vielzahl von Mikrofonsignalen, die von einer Vielzahl von Mikrofonen erzeugt werden, ein Erfassen einer Sprache eines Benutzers in der Vielzahl von Mikrofonsignalen, ein Bestimmen, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht, mit einem trainierten neuronalen Netzwerk und ein Auslösen einer sprachaktivierten Antwort der Rechenvorrichtung basierend darauf, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht, ein. Insofern kann eine Vorrichtung, die sich in einem anderen akustischen Raum als der Benutzer befindet, die Sprache des Benutzers ignorieren.
  • Ein akustischer Raum kann als ein geschlossener Raum verstanden werden. Wie erwähnt, können unterschiedliche akustische Räume miteinander verbunden sein. Unterschiedliche akustische Räume können unterschiedliche akustische Eigenschaften aufweisen, zum Beispiel, wie Klang in dem akustischen Raum wiedergegeben wird, die Richtungen, in denen die wiedergegebene Akustik in den akustischen Raum gelangt, wie Klang in dem akustischen Raum abklingt, wie Klang in Bezug auf eine Richtung gefiltert werden kann, und/oder andere akustische Eigenschaften, die eine Raumimpulsantwort des akustischen Raums kennzeichnen können. In einigen Gesichtspunkten können auch in einem gemeinsam genutzten Raum, wie einem sehr großen Raum, eine Region des Raums und eine andere Region des Raums als unterschiedliche akustische Räume behandelt werden, basierend darauf, ob sie unterschiedliche akustische Eigenschaften aufweisen.
  • In einigen Gesichtspunkten wird eine Rechenvorrichtung sowohl basierend auf dem Blick des Benutzers als auch basierend darauf ausgelöst, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit dem Benutzer entsteht. Wenn also mehrere Vorrichtungen in miteinander verbundenen Räumen vorliegen, kann eine Vorrichtung, die sich in dem gleichen akustischen Raum befindet und auf die der Benutzer blickt, ausgelöst werden. Ein Entscheidungsfindungssystem kann Informationen von mehreren Vorrichtungen sammeln und bestimmen, welche Vorrichtung auszulösen ist. Zum Beispiel kann das Entscheidungssystem bestimmen, welche Vorrichtung auszulösen ist, indem Vorrichtungen, die sich in dem gemeinsam genutzten akustischen Raum mit dem Benutzer befinden, vorausgewählt werden, und die Vorrichtung ausgelöst wird, die sich in dieser Vorauswahl befindet, und weist die stärkste Angabe damit auf, dass der Benutzer auf die Vorrichtung blickt. Die anderen Vorrichtungen können die Sprache ignorieren.
  • Die vorstehende Kurzdarstellung schließt keine vollständige Liste aller Gesichtspunkte der vorliegenden Offenbarung ein. Die Offenbarung soll alle in die Praxis umsetzbaren Systeme und Verfahren aus allen geeigneten Kombinationen der oben zusammengefassten, verschiedenen Gesichtspunkte einschließen, ebenso wie solche, die in der nachstehenden detaillierten Beschreibung offenbart werden und die in den Ansprüchen ausdrücklich genannt sind. Solche Kombinationen können bestimmte Vorteile aufweisen, die in der obigen Kurzdarstellung nicht spezifisch angegeben sind.
  • Figurenliste
  • Verschiedene Gesichtspunkte der Offenbarung hierhin werden in beispielhafter und nicht einschränkender Weise in den Figuren der begleitenden Zeichnungen veranschaulicht, in denen gleiche Bezüge gleiche Elemente angeben. Es sei darauf hingewiesen, dass sich Verweise auf „einen“ Gesichtspunkt in dieser Offenbarung nicht notwendigerweise auf denselben Gesichtspunkt beziehen, und sie bedeuten mindestens einen. Außerdem kann der Kürze halber und zur Reduzierung der Gesamtzahl von Figuren eine gegebene Figur verwendet werden, um die Merkmale von mehr als einem Gesichtspunkt der Offenbarung zu veranschaulichen, und möglicherweise sind nicht alle Elemente in der Figur für einen gegebenen Gesichtspunkt erforderlich.
    • 1 zeigt ein Verfahren zum Auslösen einer Vorrichtung basierend auf akustischer Blickerfassung gemäß einigen Gesichtspunkten.
    • 2 zeigt ein Verfahren zum Auslösen einer Vorrichtung basierend auf einem gemeinsam genutzten akustischen Raum gemäß einigen Gesichtspunkten.
    • 3 veranschaulicht ein beispielhaftes Szenarium zum Auslösen einer Vorrichtung gemäß einigen Gesichtspunkten.
    • 4 veranschaulicht ein System und einen Ablauf zum Auslösen einer Vorrichtung gemäß einigen Gesichtspunkten.
    • 5 veranschaulicht eine Vielzahl von Rechenvorrichtungen in Kommunikation, um ein Auslösen zu bestimmen, gemäß einigen Gesichtspunkten.
    • 6 veranschaulicht ein Beispiel eines Audioverarbeitungssystems gemäß einigen Gesichtspunkten.
  • DETAILLIERTE BESCHREIBUNG
  • 1 zeigt ein Verfahren zum Auslösen einer Vorrichtung basierend auf akustischer Blickerfassung gemäß einigen Gesichtspunkten. Das Verfahren 100 kann mit verschiedenen beschriebenen Gesichtspunkten durchgeführt werden. Das Verfahren kann durch Hardware (z. B. Schaltlogik, dedizierte Logik, programmierbare Logik, einen Prozessor, eine Verarbeitungsvorrichtung, eine zentrale Verarbeitungseinheit (CPU), ein System-on-Chip (SoC) usw.), Software (z. B. Anweisungen, die auf einer Verarbeitungsvorrichtung laufen/ausgeführt werden), Firmware (z. B. Mikrocode) oder eine Kombination davon durchgeführt werden, die als Rechenvorrichtung oder elektronische Vorrichtung verstanden werden kann. Obwohl spezifische Funktionsblöcke („Blöcke“) in dem Verfahren beschrieben sind, sind solche Blöcke Beispiele. Das heißt, Gesichtspunkte sind gut dazu geeignet, verschiedene andere Blöcke oder Varianten der Blöcke, die in dem Verfahren angeben sind, durchzuführen. Es versteht sich, dass die Blöcke in dem Verfahren in einer Reihenfolge durchgeführt werden können, die anders als präsentiert ist, und dass möglicherweise nicht alle der Blöcke in dem Verfahren durchgeführt werden.
  • Bei Block 102 kann eine Rechenvorrichtung eine Vielzahl von Mikrofonsignalen erhalten, die von einer Vielzahl von Mikrofonen erzeugt werden. Die Rechenvorrichtung kann ein Computer, ein Lautsprecher (z. B. ein intelligenter Lautsprecher), ein Fernseher, ein Smartphone, ein Tabletcomputer, ein Elektrogerät, ein Medienwiedergabegerät oder eine andere Rechenvorrichtung sein.
  • Die Vielzahl von Mikrofonen kann der Rechenvorrichtung systemeigen (z. B. innerhalb eines Gehäuses oder auf einem Gehäuse der Rechenvorrichtung integriert) oder in eine separate Rechenvorrichtung integriert sein. Die separate Rechenvorrichtung oder die systemeigene Rechenvorrichtung können als ein Entscheidungsfindungssystem dienen, das auch Eingaben von anderen Rechenvorrichtungen erhalten kann, die dazu verwendet werden können zu bestimmen, welche der Rechenvorrichtungen ausgelöst werden soll, wie in anderen Abschnitten beschrieben.
  • Bei Block 104 kann die Rechenvorrichtung in der Vielzahl von Mikrofonsignalen Sprache eines Benutzers erfassen. Zum Beispiel kann die Rechenvorrichtung einen Spracherfassungsalgorithmus, der auch als ein Sprachaktivitätserfassungalgorithmus (VAD-Algorithmus) verstanden werden kann, bei den Mikrofonsignalen anwenden. Eine Sprachaktivitätserfassung kann als eine Technik verstanden werden, bei der das Vorliegen oder Fehlen von menschlicher Sprache erfasst wird. Ein VAD-Algorithmus kann Merkmale (zum Beispiel Signal-Rausch-Verhältnis, Linienspektralfrequenzen, Vollbandenergie, Niedrigbandenergie, Nulldurchgangsrate oder andere Merkmale) von einem oder mehreren Abschnitten der Mikrofonsignale extrahieren und eine Klassifizierungsregel auf die Merkmale anwenden, um zu klassifizieren, ob der Abschnitt Sprache enthält oder nicht. Eine Rechenvorrichtung kann variierende VAD-Algorithmen dazu verwenden, Sprache zu erfassen, ohne von dem Schutzumfang der Offenbarung abzuweichen. Die Erfassung kann dazu verwendet werden, eine sprachaktivierte Antwort auszulösen. Wie beschrieben, können mehrere Vorrichtungen in einem oder mehreren Räumen vorliegen, die miteinander verbunden sein können, wodurch die Frage verkompliziert wird, welche Vorrichtung ausgelöst werden soll.
  • Bei Block 106 kann die Rechenvorrichtung einen Blick eines Benutzers basierend auf der Vielzahl von Mikrofonsignalen bestimmen. Zum Beispiel kann die Rechenvorrichtung die Sprache des Benutzers in jedem der Mikrofonsignale analysieren, um den Blick des Benutzers zu bestimmen. Ein Blick kann als eine Richtung verstanden werden, in der ein Kopf und Mund des Benutzers zeigen. Der Blick des Benutzers kann als ein Ersatz für die Absicht des Benutzers verwendet werden. In einigen Gesichtspunkten kann Block 106 als Reaktion auf die Erfassung der Sprache des Benutzers bei Block 104 durchgeführt werden.
  • In einigen Beispielen kann ein Bestimmen des Blicks des Benutzers ein Bestimmen des Verhältnisses zwischen Direktschall und Nachhall (DRR) unter Verwendung der Vielzahl von Mikrofonsignalen einschließen. Das DRR kann als das Verhältnis des Schalldruckpegels an einer gegebenen Stelle, eines Direktschalls von einer Richtungsquelle zu dem nachhallenden Schalldruckpegel, der gleichzeitig auf die gleiche Stelle trifft, verstanden werden.
  • Die Rechenvorrichtung kann darauf schließen, dass der Blick des Benutzers in Richtung der Mikrofone gerichtet ist, welche die Sprache des Benutzers erkennen, wenn das DRR hoch ist (z. B. über einem Schwellenwert). Wenn der Blick des Benutzers in Richtung der Mikrofone gerichtet ist, kann Sprache, die von den Mikrofonen erkannt wird, eine große direkte Komponente aufweisen, die als die Sprache verstanden werden kann, die sich direkt von dem Benutzer zu den Mikrofonen bewegt. Umgekehrt gibt dies an, dass, wenn das DRR niedrig ist (z. B. unter einem Schwellenwert), die Sprache und durch eine Störung der Blick des Benutzers von dem Mikrofonarray weg gerichtet ist. In einem solchen Fall prallt die meiste akustische Energie der Sprache, anstatt sich direkt zu den Mikrofonen zu bewegen, von einer oder mehreren Oberflächen ab, bevor sie von den Mikrofonen als Nachhaller erkannt wird.
  • Die Mikrofone können ein Mikrofonarray bilden, das in die Rechenvorrichtung oder in eine externe Rechenvorrichtung integriert ist. In dem Fall, dass die Mikrofone innerhalb der lokalen Rechenvorrichtung integriert sind, kann bestimmt werden, dass der Blick des Benutzers auf die Rechenvorrichtung gerichtet ist, wenn das DRR einen Schwellenwert erfüllt. In dem Fall, dass die Rechenvorrichtung als ein Entscheidungsfinder für eine Vielzahl von Rechenvorrichtungen fungiert, kann bestimmt werden, dass der Blick des Benutzers auf die Rechenvorrichtung mit der höchsten Blicksicherheit (z. B. einem höchsten DRR) gerichtet ist.
  • Wenn zum Beispiel ein intelligenter Lautsprecher mit integrierten Mikrofonen bestimmt, dass ein DRR einen Schwellenwert DRR von Wert ,x` erfüllt, dann kann der intelligente Lautsprecher bestimmen, dass der Blick des Benutzers in Richtung des intelligenten Lautsprechers gerichtet ist. In einem anderen Beispiel kann der intelligente Lautsprecher, wenn ein intelligenter Lautsprecher als ein Entscheidungsfinder für eine oder mehrere andere Vorrichtungen fungiert, das DRR der erfassten Sprache von seinen eigenen Mikrofonsignalen bestimmen und das DRR von den anderen Vorrichtungen erhalten. Der intelligente Lautsprecher kann dann bestimmen, welche der Vorrichtungen, einschließlich er selbst, das höchste DRR aufweist. Der intelligente Lautsprecher kann die Vorrichtung mit dem höchsten DRR darauf richten, auszulösen, die sie selbst oder eine der anderen Vorrichtungen sein kann.
  • In einigen Gesichtspunkten schließt ein Bestimmen des Blicks des Benutzers ein Erzeugen einer Vielzahl von akustischen Aufnahmestrahlen von der Vielzahl von Mikrofonsignalen und ein Messen von direktem und nachhallendem akustischen Klang in der Vielzahl von akustischen Aufnahmestrahlen ein. Zum Beispiel kann jedes der Mikrofone eine feste Position in Bezug aufeinander aufweisen, die zusammen ein Mikrofonarray bilden. Die Rechenvorrichtung kann Strahlbildungsfilter, die auch als räumliche Filter verstanden werden können, auf die Vielzahl von Mikrofonsignale anwenden. Die angewendeten Filter schaffen eine konstruktive und destruktive Störung zwischen den Mikrofonsignalen, sodass akustische Energie aus einigen Richtungen betont wird, während akustische Energie aus anderen Richtungen weniger betont wird. Die Positionen, an denen die akustische Energie betont wird, können als die akustischen Aufnahmestrahlen verstanden werden. Wenn zum Beispiel ein oder zwei der akustischen Aufnahmestrahlen eine dominante Menge an Sprache im Vergleich zu den anderen akustischen Aufnahmestrahlen aufnimmt/aufnehmen, dann kann dies angeben, dass ein Teil der akustischen Energie direkt von einer Quelle stammt. Das DRR kann als hoch bestimmt werden und kann einen Schwellenwert erfüllen, der angibt, dass der Blick des Benutzers in Richtung des Mikrofonarrays gerichtet ist. Umgekehrt kann dann, wenn die Sprache in jedem der akustischen Aufnahmestrahlen nicht wesentlich von einem Mittelwert der Sprache abweicht oder einen Schwellenwert DRR nicht erfüllt, dies angeben, dass die Sprache von dem Mikrofonarray aus grob allen Richtungen als Nachhall aufgenommen wird, was wiederum angibt, dass der Blick des Benutzers wahrscheinlich von dem Mikrofonarray weg gerichtet ist. Andere Audioverarbeitungstechniken können dazu verwendet werden, einen Blick des Benutzers oder das DRR zu bestimmen.
  • Bei Block 108 kann die Rechenvorrichtung eine sprachaktivierte Antwort der Rechenvorrichtung als Reaktion darauf auslösen, dass der Blick des Benutzers auf die Rechenvorrichtung gerichtet ist. In einigen Gesichtspunkten löst die Rechenvorrichtung dann, wenn der Blick des Benutzers nicht auf die Rechenvorrichtung gerichtet ist (z. B. die Blicksicherheit niedriger als die von anderen Rechenvorrichtungen ist, und/oder die Blicksicherheit unter einem Schwellenwert liegt), die sprachaktivierte Antwort nicht aus. Eine sprachaktivierte Antwort kann einen Vorgang einschließen, der von der Rechenvorrichtung durchgeführt wird, der vor dem Auslösen nicht durchgeführt wurde.
  • Zum Beispiel kann die Rechenvorrichtung ein Aufwecken der Rechenvorrichtung auslösen. Vorrichtungen können in einem Schlafmodus arbeiten, in dem ein Verarbeiten von Vorgängen eingeschränkt ist. Wenn die Vorrichtung ausgelöst wird, kann sie einen Aufweckmodus eingeben und andere Vorgänge auslösen, die durchzuführen sind, wie zum Beispiel ein Einschalten eines Bildschirms, Verarbeiten von Mikrofonsignalen mit hinzugefügten Spracherkennungsfähigkeiten, oder andere Vorgänge durchführen, die nicht in dem Schlafmodus durchgeführt werden.
  • Zusätzlich oder alternativ kann die sprachaktivierte Antwort ein Verarbeiten der Sprache einschließen, um einen Sprachbefehl zu erfassen. Zum Beispiel kann die Rechenvorrichtung basierend darauf, dass der Blick des Benutzers auf die Rechenvorrichtung gerichtet ist, eine oder mehrere automatische Spracherkennungsalgorithmen (ASR-Algorithmen) auf die Mikrofonsignale anwenden, um zu erfassen, ob ein Sprachbefehl, zum Beispiel „spiel Musik“ oder „bring mich nach Hause“, in der Sprache vorliegt. Die Rechenvorrichtung kann dann auf den Sprachbefehl antworten, indem sie zusätzliche Vorgänge durchführt, wie ein Starten einer Musikspielanwendung, einer Navigationsanwendung oder einer anderen Anwendung, abhängig von dem erfassten Sprachbefehl. In einigen Beispielen kann die Rechenvorrichtung einen Spracherkennungsalgorithmus auf die Sprache anwenden, um den Benutzer zu identifizieren, von dem die Sprache stammt. Zum Beispiel kann die Rechenvorrichtung die erkannte Sprache mit bekannten Sprachsignaturen vergleichen, um eine Übereinstimmung zu bestimmen. Die Rechenvorrichtung kann eine oder mehrere Vorgänge basierend auf einem Identifizieren des Benutzers durchführen. Zum Beispiel können Benutzereinstellungen oder -vorzüge (z. B. bevorzugte Audio- oder Inhaltseinstellungen), die dem identifizierten Benutzer zugeordnet sind, dazu verwendet werden, die Antwort auf den Benutzer anzupassen.
  • 2 zeigt ein Verfahren zum Auslösen einer Vorrichtung basierend auf akustischer Blickerfassung gemäß einigen Gesichtspunkten. Das Verfahren 200 kann mit verschiedenen beschriebenen Gesichtspunkten durchgeführt werden. Das Verfahren kann durch Hardware (z. B. Schaltlogik, dedizierte Logik, programmierbare Logik, einen Prozessor, eine Verarbeitungsvorrichtung, eine zentrale Verarbeitungseinheit (CPU), ein System-on-Chip (SoC) usw.), Software (z. B. Anweisungen, die auf einer Verarbeitungsvorrichtung laufen/ausgeführt werden), Firmware (z. B. Mikrocode) oder eine Kombination davon durchgeführt werden, die als Rechenvorrichtung oder elektronische Vorrichtung verstanden werden kann. Obwohl spezifische Funktionsblöcke („Blöcke“) in dem Verfahren beschrieben sind, sind solche Blöcke Beispiele. Das heißt, Gesichtspunkte sind gut dazu geeignet, verschiedene andere Blöcke oder Varianten der Blöcke, die in dem Verfahren angeben sind, durchzuführen. Es versteht sich, dass die Blöcke in dem Verfahren in einer Reihenfolge durchgeführt werden können, die anders als präsentiert ist, und dass möglicherweise nicht alle der Blöcke in dem Verfahren durchgeführt werden.
  • Bei Block 202 kann eine Rechenvorrichtung eine Vielzahl von Mikrofonsignalen erhalten, die von einer Vielzahl von Mikrofonen erzeugt werden. Die Mikrofone können ein Mikrofonarray bilden, das innerhalb eines gemeinsam genutzten Gehäuses der Rechenvorrichtung integriert ist, es versteht sich jedoch, dass Gesichtspunkte dieses Verfahrens auch darauf anwendbar sind, wenn eine Rechenvorrichtung Informationen von einer Vielzahl von Rechenvorrichtungen sammelt und bestimmt, welche der Rechenvorrichtungen auszulösen sind, wie in anderen Abschnitten beschrieben.
  • Bei Block 204 kann eine Rechenvorrichtung in der Vielzahl von Mikrofonsignalen Sprache eines Benutzers erfassen, wie in anderen Abschnitten beschrieben. Sprache kann sich auf gesprochene Sprache oder einen anderen Klang beziehen (z. B. ein Husten, Pfeifen oder einen anderen Klang), der von einem Mund eines Benutzers geäußert wird.
  • Bei Block 206 kann die Rechenvorrichtung mit einem trainierten neuronalen Netz bestimmen, ob die Sprache in einem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht. Ein akustischer Raum kann als gemeinsam genutzt verstanden werden, wenn Gegenstände auf eine ähnliche Weise akustische Energie erfahren. Zum Beispiel bewegt sich eine akustische Energie in unterschiedlichen akustischen Räumen unterschiedlich. Dies kann einschließen, wie der Klang in dem Raum herumprallt, wie ein Klang aus unterschiedlichen Richtungen in dem Raum absorbiert wird, wie schnell er abnimmt, andere Klänge, die in dem akustischen Raum vorliegen, Nachhallzeit und andere akustische Eigenschaften, die eine Raumimpulsantwort kennzeichnen können. In einigen Gesichtspunkten kann Block 206 als Reaktion auf ein Erfassen von Sprache bei Block 204 durchgeführt werden.
  • Wenn ferner ein Raum (z. B. ein Büro) groß ist und unterschiedliche Oberflächenmaterialien, Möbel, Geometrie oder andere Faktoren aufweist, welche die akustische Antwort eines Klangs beeinflussen können, dann kann dieser Raum Regionen aufweisen, die als unterschiedliche akustische Räume behandelt werden. Üblicherweise kann ein Raum (z. B. ein Schlafzimmer) aufgrund der unterschiedlichen Geometrie des Raums, Gegenständen und Möbeln in dem Raum, Oberflächenmaterialien oder anderen Faktoren, welche die akustische Reaktion von Klang in jenen Räumen beeinflussen, unterschiedliche akustische Eigenschaften als ein anderer Raum (z. B. ein Wohnzimmer) aufweisen.
  • Das trainierte neuronale Netz kann als Eingabe die rohen Mikrofonsignalen oder Merkmale, die aus den rohen Mikrofonsignalen extrahiert werden, empfangen. Das trainierte neuronale Netz kann einen Sicherheitswert ausgeben, der angibt, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht. In einigen Gesichtspunkten kann das trainierte neuronale Netz eine binäre Klassifizierung durchführen, zum Beispiel durch Ausgeben einer ,1', um anzugeben, dass sich der Benutzer innerhalb eines gemeinsam genutzten akustischen Raums wie das Mikrofonarray befindet, oder eine ,0`, um anzugeben, dass sich der Benutzer in einem anderen akustischen Raum befindet und nicht innerhalb des gemeinsam genutzten akustischen Raums. In einigen Gesichtspunkten kann das trainierte neuronale Netzwerk einen kontinuierlichen Wert ausgeben, zum Beispiel einen Wert von ,0` bis ,x`, wobei ,0' die niedrigste Sicherheit angibt, dass sich der Benutzer in dem gemeinsam genutzten akustischen Raum befindet, und ,x` die höchste Sicherheit angibt, dass sich der Benutzer in dem gemeinsam genutzten akustischen Raum befindet.
  • Das trainierte neuronale Netz kann ein tiefes neuronales Netz (DNN) mit einer ersten Schicht von Knoten einschließen, welche die Mikrofonsignale oder Merkmale, die daraus extrahiert werden, als Eingabe empfängt. Das DNN kann N Schichten von Knoten einschließen. Jeder der Knoten kann eine Aktivierungsfunktion berechnen, die ein Ergebnis zu einem oder mehreren Knoten in einer nächsten Schicht leitet. Verbindungen zwischen den Knoten können gewichtet werden, um den Einfluss der Verbindung auf den nächsten Knoten zu bestimmen. Während der Trainingsphase können diese Gewichtungen schrittweise mit einem Trainingsdatensatz aktualisiert werden. Der Trainingsdatensatz kann Sprache in einem Raum sowie andere Klänge in dem gleichen Raum oder einem anderen Raum einschließen. Zum Beispiel kann der Trainingsdatensatz Klang einschließen, der von Lautsprechern der Rechenvorrichtung erzeugt wird, und von dem Mikrofonarray der Rechenvorrichtung aufgenommen wird, sowie Sprache eines Benutzers in dem gleichen Raum oder einem anderen Raum als die Rechenvorrichtung. Die Rechenvorrichtung kann eine Schätzung (die Ausgabe) bereitstellen, ob die Sprache im gleichen Raum wie die Rechenvorrichtung liegt oder nicht. Eine Rückmeldung kann dem neuronalen Netz bereitgestellt werden, was als Backpropagation verstanden werden kann, um die Gewichtungen so abzustimmen, dass das neuronale Netz korrekt schätzt, ob der Raum in dem gleichen akustischen Raum wie das Mikrofonarray oder in einem anderen akustischen Raum auftritt. Dieser Prozess kann für viele Beispiele wiederholt werden, die in dem Trainingssatz vorliegen. Auf eine solche Weise können die Gewichte so optimiert werden, dass das trainierte neuronale Netz erfassen kann, wann die Sprache in dem gleichen akustischen Raum oder einem anderen akustischen Raum von dem Array von Mikrofonen entsteht.
  • Bei Block 208 kann die Rechenvorrichtung eine sprachaktivierte Antwort der Rechenvorrichtung basierend darauf, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht. Wie in Bezug auf 1 erläutert, kann die sprachaktivierte Antwort ein Aufwecken der Rechenvorrichtung, Erfassen eines Sprachbefehls in der Sprache, Antworten auf einen Sprachbefehl in der Sprache und/oder Bestimmen einer Identität des Benutzers basierend auf der Sprache einschließen. Insofern kann die Rechenvorrichtung Sprache eines Benutzers ignorieren, wenn sich der Benutzer in einem anderen Raum befindet, aber dem Benutzer antworten, wenn sich die Sprache in dem gleichen Raum wie die Vorrichtung befindet. Wie erläutert, kann die Rechenvorrichtung in einigen Gesichtspunkten eine von einer Vielzahl von Rechenvorrichtungen sein, die Sprache erkennen. In einem solchen Fall kann eine Ausgewählte der Vielzahl von Rechenvorrichtungen als Reaktion auf ein Bestimmen ausgelöst werden, dass die Sprache in dem gemeinsam genutzten akustischen Raum mit der Ausgewählten der Vielzahl von Rechenvorrichtungen entsteht. Die Rechenvorrichtungen, die sich in einem anderen akustischen Raum als der Benutzer befinden, können die Sprache ignorieren.
  • In einigen Gesichtspunkten können Vorgänge, die unter Verwendung von Sprache eines Benutzers beschrieben werden, basierend auf Nichtsprachklängen durchgeführt werden, die in der Umgebung aufgenommen werden. Zum Beispiel kann Verfahren 200 basierend auf Nichtsprachklängen durchgeführt werden, die in der Vielzahl von Mikrofonen aufgenommen werden. Zum Beispiel kann das Verfahren bei Block 204 einen Klang in der Umgebung erkennen, wie zum Beispiel von einem Fenster oder einer Tür, einer Uhr, einem Fernseher oder einem anderen Klang in der Umgebung. Bei Block 206 kann das Verfahren bestimmen, ob der Klang in einem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht. Bei Block 208 kann das Verfahren eine Antwort, wie eine beliebige der sprachaktivierten Antworten oder eine andere Antwort, basierend darauf auslösen, ob der Klang in dem gemeinsam genutzten akustischen Raum mit der Vorrichtung entsteht.
  • In einigen Beispielen können Gesichtspunkte von 2 und 1 kombiniert werden. Zum Beispiel kann eine Rechenvorrichtung die sprachaktivierte Antwort basierend auf einer Bestimmung, dass die Sprache in dem gemeinsam genutzten akustischen Raum mit der Ausgewählten der Vielzahl von Rechenvorrichtungen entsteht, und basierend auf einer Bestimmung auslösen, dass der Blick des Benutzers auf die Ausgewählte der Vielzahl von Rechenvorrichtungen gerichtet ist. Zum Beispiel können die Vorrichtungen, die sich in dem gemeinsam genutzten akustischen Raum befinden, vorausgewählt werden, um zu bestimmen, welche ausgelöst werden sollte. Von jenen Vorrichtungen können die Vorrichtungen ausgelöst werden, in dessen Richtung der Blick des Benutzers am meisten gerichtet ist (z. B. mit einem höchsten DRR). Auf eine solche Weise wird dann die Vorrichtung ausgelöst, auf die der Benutzer innerhalb des Raums blickt, wenn mehrere Vorrichtungen in dem gleichen Raum sind, sodass ein Benutzer nicht überfordert wird, wenn mehrere Vorrichtungen ausgelöst werden. Vorrichtungen in einem anderen Raum und/oder, die nicht dem Blick des Benutzers ausgesetzt sind, können die Sprache einfach ignorieren.
  • 3 veranschaulicht ein beispielhaftes Szenarium zum Auslösen einer Vorrichtung gemäß einigen Gesichtspunkten. In diesem Szenario kann sich ein Benutzer 304 in einem akustischen Raum 310 befinden. Akustischer Raum 310 kann mit einem zweiten akustischen Raum 312 durch eine Öffnung verbunden sein, die eine Türöffnung, ein Gang, ein Eingangsweg oder eine andere Öffnung sein kann. Obwohl als Räume mit vier Wänden gezeigt, versteht es sich, dass ein akustischer Raum eine variierende Geometrie und Größe aufweisen kann. Zum Beispiel können Wände nicht rechteckige Formen bilden, Wände und Decken können gekrümmt sein, und Gegenstände, wie Möbel, Elektrogeräte, Abdeckungen und mehr, können in Räumen angeordnet sein.
  • Vorrichtung 306 und Vorrichtung 308 können sich beide in dem gleichen akustischen Raum 310 wie der Benutzer 304 befinden. Vorrichtung 302 kann sich in dem zweiten akustischen Raum 312 befinden. Diese Rechenvorrichtungen können jeweils Klang durch ein jeweiliges Mikrofonarray erkennen. In diesem Szenario weist der Benutzer einen Blick 314 auf, der auf Vorrichtung 308 gerichtet ist. Der Benutzer murmelt einen Satz, zum Beispiel, „Hey Hal‟, der von dem Benutzer dazu vorgesehen ist, eine sprachaktivierte Antwort von Vorrichtung 308 hervorzurufen.
  • Die Vorrichtung 302 kann die Sprache des Benutzers in ihrem Mikrofonarray erfassen. Die Vorrichtung 302 kann bestimmen, dass sich der Benutzer in einem anderen akustischen Raum befindet und die Sprache des Benutzers, ,Hey Hal`, ignorieren. In einigen Gesichtspunkten muss die Vorrichtung 302 den Blick des Benutzers nicht bestimmen, vorausgesetzt, dass die Vorrichtung bereits als in einem anderen Raum liegend erachtet wird.
  • Ebenso können Vorrichtung 306 und Vorrichtung 308 die Sprache des Benutzers in ihrem jeweiligen Mikrofonarray erfassen. In diesem Beispiel können sowohl Vorrichtung 306 als auch Vorrichtung 308 bestimmen, dass sich der Benutzer in dem gemeinsam genutzten akustischen Raum 310 befindet. Vorrichtung 308 und Vorrichtung 306 können unabhängig voneinander aus der Perspektive von ihren jeweiligen Mikrofonarrays den Blick 314 des Benutzers bestimmen.
  • Die Vorrichtung 306 kann basierend auf einem Schwellenwert und/oder einem Blicksicherheitsvergleich mit anderen Vorrichtungen, wie Vorrichtung 308, erachten, dass der Blick nicht auf die Vorrichtung 306 gerichtet ist. Vorrichtung 308 kann bestimmen, dass der Blick auf Vorrichtung 308 gerichtet ist, was auf einem Schwellenwert und/oder einem Blicksicherheitsvergleich mit den anderen Vorrichtungen, wie Vorrichtung 306, basieren kann. Infolgedessen kann Vorrichtung 308 eine sprachaktivierte Antwort als Reaktion auf die Sprache des Benutzers, ,Hey Hal` auslösen, während Vorrichtung 306 nicht ausgelöst wird. In einigen Gesichtspunkten können die Vorrichtungen Informationen (z. B. Blicksicherheit, eine akustische Raumklassifizierung und/oder Nachhallzeiten) durch Kommunizieren miteinander über ein Netzwerk teilen, wie in anderen Abschnitten beschrieben. In einigen Gesichtspunkten kann die Sprache des Benutzers einen Auslösersatz enthalten, der als ein beschränktes Vokabular verstanden werden kann, das von der Rechenvorrichtung während eines reduzierten Fähigkeitsmodus (z. B. eines Schlafmodus) erkannt werden kann, der, wenn er erfasst wird, eine sprachaktivierte Antwort auslöst, wie ein Aufwecken.
  • 4 veranschaulicht ein System und einen Ablauf zum Auslösen einer Vorrichtung gemäß einigen Gesichtspunkten. Mikrofone 410 können ein Mikrofonarray für eine jeweilige Rechenvorrichtung bilden.
  • Bei Block 406 kann die Rechenvorrichtung eine akustische Raumklassifizierung durchführen. Wie erläutert, kann ein künstliches neuronales Netz 412, wie ein DNN, die Mikrofonsignale verarbeiten, um einen Sicherheitswert auszugeben (z. B. eine hohe Sicherheit oder eine niedrige Sicherheit), der angibt, wenn sich der Benutzer in dem gleichen Raum wie die Vorrichtung befindet. Der Sicherheitswert kann als ein akustischer Raumklassifizierer verstanden werden, sodass die Wertigkeit des Werts klassifiziert, ob sich die Rechenvorrichtung in dem gemeinsam genutzten akustischen Raum mit dem Benutzer befindet oder nicht. Wie in anderen Abschnitten beschrieben, kann das neuronale Netz dazu trainiert werden, Informationen bezüglich Richtungswiedergaben, Abnahmen und einer anderen akustischen Antwort des Raums zu erfassen, die es dazu verwendet, zu erfassen, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit der Vorrichtung entsteht oder nicht.
  • Bei Block 408 kann die Rechenvorrichtung die Sprache in den Mikrofonsignalen analysieren, um eine akustische Blickvorhersage durchzuführen. Wie in anderen Abschnitten erläutert, kann die Vorrichtung das DRR unter Verwendung der Mikrofonsignale auf der Vorrichtung schätzen, um eine Vorhersage zu treffen, ob der Benutzer in die Richtung der Vorrichtung sieht. Je höher das DRR, desto sicherer kann die Vorrichtung vorhersagen, dass der Blick des Benutzers auf die Vorrichtung gerichtet ist. Umgekehrt, je niedriger das DRR, desto sicherer kann die Vorrichtung vorhersagen, dass der Blick des Benutzers nicht auf die Vorrichtung gerichtet ist. Somit kann das DRR als ein Sicherheitswert verwendet werden, der den Blick des Benutzers angibt. Das DRR kann basierend auf einem Strahlenbilden bestimmt werden. Ein Strahlenbilder 414 kann räumliche Filter auf die Mikrofonsignale anwenden, um akustische Aufnahmestrahlen zu bilden, die den DRR messen, wie in anderen Abschnitten beschrieben. Das DRR kann für unterschiedliche Teilbänder bestimmt werden.
  • Bei Block 402, der ein optionaler Block ist, kann die Rechenvorrichtung eine Blindraumschätzung unter Verwendung von einem oder mehreren Mikrofonsignale durchführen. Diese Technik, die mit einem einzelnen Mikrofonsignal durchgeführt werden kann, kann eine Nachhallzeit für unterschiedliche Teilbänder von einer Fernfeldschallquelle blind schätzen. Unterschiedliche akustische Räume können variierende Nachhallzeiten in unterschiedlichen Teilbändern basierend auf Unterschieden im Volumen, in der Geometrie, in Gegenständen innerhalb des Raums und/oder in Oberflächenmaterialien des Raums aufweisen. Insofern können diese Informationen dazu verwendet werden, jede Vorrichtung mit der Teilbandnachhallzeit des akustischen Raums zu markieren, innerhalb dessen sich die Vorrichtung befindet. Diese Informationen können (z. B. in einem Computerspeicher) gehalten werden und rekursiv in zukünftigen Auslösern verwendet werden, um zu verifizieren, ob eine Vorrichtung/Vorrichtungen in dem gleichen akustischen Raum vorhanden ist/sind oder sich bewegt hat/haben, indem zukünftig geschätzte Nachhallzeiten mit den aus der Vergangenheit verglichen werden. Somit kann die Nachhallzeit an diesem Block 402 bestimmt werden und für zukünftige Auslöserereignisse verwendet werden, um den akustischen Raum der Rechenvorrichtung zu rekonstruieren. Wenn zum Beispiel Sprache von einer ersten Vorrichtung erfasst wird, kann die erste Vorrichtung Vorgänge von Block 406 durchführen, kann aber Probleme beim Bestimmen mit hoher Sicherheit haben, ob sich der Benutzer in dem gemeinsam genutzten akustischen Raum mit der ersten Vorrichtung befindet oder nicht. Die Entscheidungsfindungsvorrichtung kann die Nachhallzeit der ersten Vorrichtung mit einer zweiten Vorrichtung basierend darauf, dass sie die gleiche oder eine ähnliche Teilbandnachhallzeit aufweisen, bestätigen. Das Entscheidungssystem kann dann basierend darauf, ob sich die zweite Vorrichtung in dem gemeinsam genutzten akustischen Raum mit dem Benutzer befindet oder nicht, bestimmen, ob sich die erste Vorrichtung in dem gleichen Raum wie der Benutzer befindet.
  • Jeder der Blöcke 406, 408 und 402 kann unter Verwendung von Mikrofonsignalen durchgeführt werden, die von dem Mikrofonarray der jeweiligen Rechenvorrichtung erzeugt werden. Die Ausgaben jedes Blocks können bei Block 404 von einer Entscheidungsfindungsvorrichtung erhalten werden, die eine beliebige der jeweiligen Rechenvorrichtungen oder eine separate Rechenvorrichtung sein kann. Bei Block 404 kann die Entscheidungsfindungsvorrichtung von jeder von einer oder mehreren Rechenvorrichtungen a) eine Angabe eines Blicks eines Benutzers in Bezug auf eine jeweilige der einen oder mehreren Rechenvorrichtungen (z. B. einem DRR-Wert oder einem Sicherheitswert) und/oder b) eine Angabe darüber erhalten, ob die Sprache in einem gemeinsam genutzten akustischen Raum mit der jeweiligen der einen oder der mehreren Rechenvorrichtungen entsteht (z. B. einem akustischen Raumklassifizierer oder einem Sicherheitswert, der von dem neuronalen Netz der jeweiligen Vorrichtung ausgegeben wird). Die Entscheidungsfindungsvorrichtung kann eine der einen oder mehreren Rechenvorrichtungen auswählen, um eine sprachaktivierte Antwort basierend auf der Blickangabe und der akustischen Raumangabe auszulösen. Zum Beispiel kann die Entscheidungsfindungsvorrichtung von der einen oder den mehreren Rechenvorrichtungen jene auswählen, die angeben, dass sie sich in dem gemeinsam genutzten akustischen Raum mit dem Benutzer befinden. Von diesen vorausgewählten Rechenvorrichtungen kann die Entscheidungsfindungsvorrichtung die Vorrichtung auswählen, welche die höchste Blicksicherheit aufweist.
  • Zum Beispiel kann bezogen auf 5 eine Vorrichtung 504 Mikrofonsignale von ihrem Mikrofonarray 506 verarbeiten, um einen Sicherheitswert für einen Blick eines Benutzers und einen Sicherheitswert zu bestimmen, der angibt, ob sie sich in einem gemeinsam genutzten akustischen Raum mit dem Benutzer befindet. Separat kann Vorrichtung 508 Mikrofonsignale von ihrem Mikrofonarray 510 verarbeiten, um einen Sicherheitswert für einen Blick eines Benutzers und einen Sicherheitswert zu bestimmen, der angibt, ob es sich in einem gemeinsam genutzten akustischen Raum mit dem Benutzer befindet. Ebenso separat kann Vorrichtung 512 Mikrofonsignale von ihrem Mikrofonarray 514 verarbeiten, um einen Sicherheitswert für einen Blick eines Benutzers und einen Sicherheitswert zu bestimmen, der angibt, ob es sich in einem gemeinsam genutzten akustischen Raum mit dem Benutzer befindet. Diese Sicherheitswerte können von Vorrichtung 504 erhalten werden, die als die Entscheidungsfindungsvorrichtung bezeichnet werden kann.
  • Zum Beispiel können die Vorrichtungen über Netzwerk 502 kommunizieren, um die Sicherheitswerte mit der Entscheidungsfindungsvorrichtung zu teilen. Die Entscheidungsfindungsvorrichtung kann mit den Vorrichtungen über das Netzwerk kommunizieren, welche von ihnen auszulösen ist. Das Netzwerk kann ein drahtgebundenes und/oder drahtloses Netzwerk sein. Vorrichtungen können unter Verwendung eines oder mehrerer Netzwerkprotokolle kommunizieren, wie zum Beispiel TCP/IP, Ethernet, WLAN, LTE, 3G, 4G, 5G oder ein anderes Netzwerkkommunikationsprotokoll.
  • In einigen Gesichtspunkten kann mehr als eine Vorrichtung die Rolle einer Entscheidungsfindungsvorrichtung übernehmen. In einigen Gesichtspunkten kann jede von ihnen individuell entscheiden, ob sie basierend auf einem Erfüllen eines Blickschwellenwerts auszulösen ist oder nicht, und/oder wenn sich die Vorrichtung in dem gemeinsam genutzten akustischen Raum befindet. Somit müssen die Vorrichtungen in einigen Gesichtspunkten keine Informationen zusammenlegen, um zu entscheiden, ob eine Antwort auf die Sprache des Benutzers auszulösen ist oder nicht.
  • 6 veranschaulicht eine beispielhafte Rechenvorrichtung 602, die als ein Audioverarbeitungssystem verstanden werden kann, gemäß einigen Gesichtspunkten. Das Audioverarbeitungssystem kann eine Rechenvorrichtung sein, wie zum Beispiel ein Desktopcomputer, ein Tabletcomputer, ein Smartphone, ein Computerlaptop, ein intelligenter Lautsprecher, ein Medienwiedergabegerät, ein Haushaltsgerät, eine Kopfhörerset, eine am Kopf montierte Anzeige (HMD), eine intelligente Brille, ein Infotainmentsystem für ein Automobil oder ein anderes Fahrzeug oder eine andere Rechenvorrichtung. Das System kann dazu konfiguriert sein, das Verfahren und die Prozesse, die in der vorliegenden Offenbarung beschrieben sind, durchzuführen.
  • Obwohl verschiedene Komponenten eines Audioverarbeitungssystems gezeigt sind, die in Kopfhörer, Lautsprechersysteme, Mikrofonarrays und Unterhaltungssysteme integriert sein können, ist diese Veranschaulichung lediglich ein Beispiel einer bestimmten Implementierung der Arten von Komponenten, die in dem Audioverarbeitungssystem vorliegen können. Es ist nicht beabsichtigt, dass dieses Beispiel eine bestimmte Architektur oder Art und Weise eines Miteinanderverbindens der Komponenten darstellen, da solche Details für die Gesichtspunkte hierin nicht relevant sind. Es versteht sich auch, dass andere Arten von Audioverarbeitungssystemen, die weniger oder mehr Komponenten als gezeigt aufweisen, auch verwendet werden können. Demgemäß sind die hierin beschriebenen Prozesse nicht auf eine Verwendung mit der gezeigten Hardware und Software beschränkt.
  • Das Audioverarbeitungssystem kann einen oder mehrere Busse 618 einschließen, die dazu dienen, die verschiedenen Komponenten des Systems miteinander zu verbinden. Ein oder mehrere Prozessoren 604 sind an den Bus gekoppelt, wie aus dem Stand der Technik bekannt ist. Der/die Prozessor(en) kann/können Mikroprozessoren oder Spezialprozessoren, ein System-on-Chip (SOC), eine Zentraleinheit, eine Grafikverarbeitungseinheit, ein Prozessor, der durch eine anwendungsspezifische integrierte Schaltung (ASIC) erzeugt wird, oder Kombinationen davon sein. Speicher 610 kann einen Festwertspeicher (ROM), einen flüchtigen Speicher und einen nichtflüchtigen Speicher oder Kombinationen davon einschließen, die unter Verwendung von Techniken, die aus dem Stand der Technik bekannt sind, an den Bus gekoppelt sind. Sensoren 616 können eine IMU und/oder eine oder mehrere Kameras (z. B. eine RGB-Kamera, eine rGBD-Kamera, Tiefenkamera usw.) oder andere hierin beschriebene Sensoren einschließen. Das Audioverarbeitungssystem kann ferner eine Anzeige 614 (z. B. eine HMD oder eine Touchscreenanzeige) einschließen.
  • Speicher 610 kann mit dem Bus verbunden sein und kann einen DRAM, ein Festplattenlaufwerk oder einen Flash-Speicher oder ein magnetisches optisches Laufwerk oder einen magnetischen Speicher oder ein optisches Laufwerk oder andere Arten von Speichersystemen einschließen, die Daten beibehalten, auch nachdem die Stromversorgung des Systems entfernt wurde. In einem Gesichtspunkt ruft der Prozessor 604 Computerprogrammanweisungen ab, die in einem maschinenlesbaren Speichermedium (Speicher) gespeichert sind, und führt jene Anweisungen aus, um hierin beschriebene Vorgänge durchzuführen.
  • Audiohardware, obwohl nicht gezeigt, kann an den einen oder die mehreren Busse gekoppelt sein, um Audiosignale zu empfangen, die von Lautsprechern 608 zu verarbeiten und auszugeben sind. Audiohardware kann Digital-Analog- und/oder Analog-Digital-Wandler einschließen. Audiohardware kann außerdem Audioverstärker und Filter einschließen. Die Audiohardware kann auch eine Schnittstelle mit Mikrofonen 606 (z. B. Mikrofonarrays) bilden, um Audiosignale (egal, ob analog oder digital) zu empfangen, sie gegebenenfalls zu digitalisieren und die Signale dem Bus zu kommunizieren.
  • Kommunikationsmodul 612 kann mit entfernten Vorrichtungen und Netzwerken über eine drahtgebundene oder drahtlose Schnittstelle kommunizieren. Zum Beispiel kann ein Kommunikationsmodul über bekannte Technologien, wie TCP/IP, Ethernet, WLAN, 3G, 4G, 5G, Bluetooth, ZigBee oder andere äquivalente Technologien, kommunizieren. Das Kommunikationsmodul kann drahtgebundene oder drahtlose Sender und Empfänger einschließen, die mit vernetzten Vorrichtungen, wie Servern (z. B. der Cloud), und/oder anderen Vorrichtungen, wie entfernten Lautsprechern und entfernten Mikrofonen, kommunizieren (z. B. Daten empfangen und senden) können.
  • Es versteht sich, dass die hierin offenbarten Gesichtspunkte einen Speicher nutzen können, der vom System entfernt ist, wie eine Netzwerkspeichervorrichtung, die über eine Netzwerkschnittstelle, wie eine Modem- oder Ethernet-Schnittstelle, mit dem Audioverarbeitungssystem gekoppelt ist. Die Busse können miteinander über verschiedene Brücken, Steuerungen und/oder Adapter verbunden sein, wie aus dem Stand der Technik gut bekannt ist. In einem Gesichtspunkt kann/können eine oder mehrere Netzwerkvorrichtung(en) an den Bus gekoppelt sein. Die Netzvorrichtung(en) kann/können drahtgebundene Netzwerkvorrichtungen (z. B. Ethernet) oder drahtlose Netzwerkvorrichtungen (z. B. WLAN, Bluetooth) sein. Unter einigen Gesichtspunkten können verschiedene beschriebene Gesichtspunkte (z. B. Simulation, Analyse, Schätzung, Modellierung, Objekterkennung usw.) von einem vernetzten Server in Kommunikation mit der Erfassungsvorrichtung durchgeführt werden.
  • Verschiedene hierin beschriebene Gesichtspunkte können mindestens teilweise in Software ausgeführt sein. Das heißt, die Techniken können in einem Audioverarbeitungssystem als Reaktion darauf ausgeführt werden, dass sein Prozessor eine Sequenz von Anweisungen ausführt, die in einem Speichermedium, wie einem nichtflüchtigen maschinenlesbaren Speichermedium (z. B. DRAM oder Flash-Speicher), enthalten sind. Unter verschiedenen Gesichtspunkten kann die festverdrahtete Schaltung in Kombination mit Softwareanweisungen verwendet werden, um die hierin beschriebenen Techniken zu implementieren. Somit sind die Techniken nicht auf irgendeine spezifische Kombination von Hardwareschaltlogik und Software oder auf irgendeine bestimmte Quelle für die Anweisungen, die durch das Audioverarbeitungssystem ausgeführt werden, beschränkt.
  • In der Beschreibung wird bestimmte Terminologie verwendet, um Merkmale verschiedener Gesichtspunkte zu beschreiben. Zum Beispiel sind in bestimmten Situationen die Begriffe „Modul“, „Prozessor“, „Einheit“, „Renderer“, „System“, „Vorrichtung“, „Filter“, „Hallgerät“, „Block“, „Rekonstruierer“, „Simulator“ und „Komponente“ repräsentativ für Hardware und/oder Software, die dazu konfiguriert sind, einen oder mehrere Prozesse oder Funktionen durchzuführen. Zum Beispiel schließen Beispiele für „Hardware“ eine integrierte Schaltung, wie einen Prozessor (z. B. einen digitalen Signalprozessor, einen Mikroprozessor, eine anwendungsspezifische integrierte Schaltung, eine Mikrosteuerung usw.) ein, sind aber nicht darauf beschränkt oder begrenzt. Somit können unterschiedliche Kombinationen von Hardware und/oder Software implementiert werden, um die Prozesse oder Funktionen, die durch die obigen Begriffe beschrieben sind, durchzuführen, wie sie von einem Fachmann verstanden werden. Selbstverständlich kann die Hardware alternativ als endlicher Automat oder sogar kombinatorische Logik implementiert sein. Ein Beispiel für „Software“ schließt ausführbaren Code in Form einer Anwendung, eines Applets, einer Routine oder sogar einer Reihe von Anweisungen ein. Wie oben erwähnt, kann die Software auf jeder Art von maschinenlesbarem Medium gespeichert sein.
  • Einige Abschnitte der vorhergehenden detaillierten Beschreibungen wurden in Form von Algorithmen und symbolischen Darstellungen von Vorgängen an Datenbits innerhalb eines Computerspeichers dargestellt. Diese algorithmischen Beschreibungen und Darstellungen stellen die Wege dar, die durch den Fachmann auf dem Gebiet der Audioverarbeitung verwendet werden, um anderen Fachleuten die Substanz seiner Arbeit am effektivsten zu vermitteln. Ein Algorithmus wird hier und allgemein als eine selbstständige Folge von Vorgängen betrachtet, die zu einem gewünschten Ergebnis führen. Bei den Vorgängen handelt es sich um diejenigen, die physische Bearbeitungen physischer Quantitäten erfordern. Es ist jedoch zu beachten, dass alle diese und ähnliche Begriffen den entsprechenden physischen Quantitäten zuzuordnen sind und lediglich praktische, auf diese Quantitäten angewandte Kennzeichnungen darstellen. Sofern nicht speziell anders angegeben als anhand der vorstehenden Erörterung ersichtlich, ist zu ersehen, dass sich innerhalb der Beschreibung Erörterungen, die Begriffe, wie die in den nachstehenden Ansprüchen dargelegten nutzen, auf die Aktion und Prozesse eines Audioverarbeitungssystems oder einer ähnlichen elektronischen Vorrichtung beziehen, das/die Daten, die als physische (elektronische) Quantitäten innerhalb der Register und Speicher des Systems dargestellt werden, bearbeitet und in andere Daten umwandelt, die gleichermaßen als physische Quantitäten innerhalb der Systemspeicher oder -register oder anderen solchen Informationsspeicher-, -übertragungs- oder -anzeigevorrichtungen dargestellt werden.
  • Die hierin beschriebenen Prozesse und Blöcke sind nicht auf die beschriebenen spezifischen Beispiele beschränkt und sind nicht auf die spezifischen Reihenfolgen beschränkt, die als Beispiele hierin verwendet werden. Vielmehr kann jeder der Verarbeitungsblöcke neu geordnet, kombiniert oder entfernt werden, parallel oder seriell durchgeführt werden, wie es erforderlich ist, um die oben dargelegten Ergebnisse zu erzielen. Die Verarbeitungsblöcke, die mit dem Implementieren des Audioverarbeitungssystems verbunden sind, können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen, die auf einem nichtflüchtigen computerlesbaren Speichermedium gespeichert sind, um die Funktionen des Systems durchzuführen. Das gesamte Audioverarbeitungssystem oder ein Teil davon kann als Speziallogikschaltlogik (z. B. ein FPGA (Field-Programmable Gate Array) und/oder ein ASIC (Application-Specific Integrated Circuit)) implementiert sein. Das gesamte Audiosystem oder ein Teil davon kann unter Verwendung einer elektronischen Hardwareschaltlogik implementiert werden, die elektronische Vorrichtungen, wie mindestens eines von einem Prozessor, einem Speicher, einer programmierbaren Logikvorrichtung oder einem Logikgatter, einschließt. Ferner können Prozesse in jeder Kombination von Hardwarevorrichtungen und Softwarekomponenten implementiert werden.
  • Auch wenn bestimmte Gesichtspunkte beschrieben und in den begleitenden Zeichnungen gezeigt worden sind, versteht es sich, dass solche Gesichtspunkte lediglich veranschaulichend und nicht begrenzend sind, und dass die Offenbarung nicht auf die gezeigten und beschriebenen spezifischen Konstruktionen und Anordnungen beschränkt ist, da den Fachleuten verschiedene andere Modifikationen einfallen können.
  • Um das Patentamt und alle Leser von Patenten, die basierend auf dieser Anmeldung erteilt werden, bei der Auslegung der beiliegenden Ansprüche zu unterstützen, möchten die Anmelder darauf hinweisen, dass sie sich bei keinem der beiliegenden Ansprüche oder Anspruchselemente auf die Anwendung von 35 U.S.C. 112(f) berufen möchten, es sei denn, die Begriffe „Mittel für“ oder „Schritt für“ werden ausdrücklich in dem bestimmten Anspruch verwendet.
  • Es versteht sich, dass die Verwendung persönlich identifizierbarer Informationen Datenschutzrichtlinien und -praktiken folgen sollte, von denen allgemein anerkannt wird, dass sie branchenspezifische oder behördliche Anforderungen zur Wahrung des Datenschutzes von Benutzern erfüllen oder überschreiten. Insbesondere sollten Daten mit persönlich identifizierbaren Information so verwaltet und gehandhabt werden, dass Risiken eines unbeabsichtigten oder unautorisierten Zugangs oder einer unbeabsichtigten oder unautorisierten Verwendung minimiert werden, und die Art einer autorisierten Verwendung sollte Benutzern klar angegeben werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 63239567 [0001]

Claims (20)

  1. Verfahren, das durch eine Rechenvorrichtung durchgeführt wird, umfassend: Erhalten einer Vielzahl von Mikrofonsignalen, die von einer Vielzahl von Mikrofonen erzeugt werden; Erfassen einer Sprache eines Benutzers in der Vielzahl von Mikrofonsignalen; Bestimmen, ob die Sprache in einem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht; Bestimmen eines Blicks eines Benutzers basierend auf der Vielzahl von Mikrofonsignalen; und Auslösen einer sprachaktivierten Antwort der Rechenvorrichtung als Reaktion auf eine Bestimmung, dass die Sprache in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht und der Blick des Benutzers auf die Rechenvorrichtung gerichtet ist.
  2. Verfahren nach Anspruch 1, wobei ein Bestimmen des Blicks des Benutzers ein Schätzen eines Verhältnisses zwischen Direktschall und Nachhall (DRR) unter Verwendung der Vielzahl von Mikrofonsignalen einschließt.
  3. Verfahren nach Anspruch 2, wobei bestimmt wird, dass der Blick des Benutzers auf die Rechenvorrichtung gerichtet ist, wenn das DRR einen Schwellenwert erfüllt oder wenn das DRR höher als ein zweites DRR ist, das von Mikrofonsignalen einer zweiten Vorrichtung bestimmt wird.
  4. Verfahren nach Anspruch 1, wobei ein Bestimmen des Blicks des Benutzers ein Erzeugen einer Vielzahl von akustischen Aufnahmestrahlen von der Vielzahl von Mikrofonsignalen und ein Messen von direktem und nachhallendem akustischen Klang in der Vielzahl von akustischen Aufnahmestrahlen einschließt.
  5. Verfahren nach Anspruch 1, wobei ein Bestimmen, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht, basierend auf einem trainierten neuronalen Netz durchgeführt wird.
  6. Verfahren nach Anspruch 5, wobei das trainierte neuronale Netz dazu trainiert ist, einen Sicherheitswert auszugeben, der angibt, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht.
  7. Verfahren nach Anspruch 5, wobei die Rechenvorrichtung eine von einer Vielzahl von Rechenvorrichtungen ist, welche die Sprache erkennt, und eine Ausgewählte der Vielzahl von Rechenvorrichtungen ausgelöst wird als Reaktion auf ein Bestimmen, dass die Sprache in dem gemeinsam genutzten akustischen Raum mit der Ausgewählten der Vielzahl von Rechenvorrichtungen entsteht, und ein Bestimmen, dass der Blick des Benutzers auf die Ausgewählte der Vielzahl von Rechenvorrichtungen gerichtet ist.
  8. Verfahren nach Anspruch 1, ferner umfassend ein Durchführen einer Blindraumschätzung unter Verwendung von mindestens einem der Mikrofonsignale, um die Nachhallzeit eines akustischen Raums der Rechenvorrichtung zu bestimmen, wobei die Nachhallzeit dazu verwendet wird, den akustischen Raum der Rechenvorrichtung zu rekonstruieren.
  9. Verfahren nach Anspruch 1, wobei die sprachaktivierte Antwort mindestens eines einschließt von: einem Aufwecken der Rechenvorrichtung, Verarbeiten der Sprache, um einen Sprachbefehl zu erfassen, Antworten auf einen Sprachbefehl in der Sprache oder Bestimmen einer Identität des Benutzers basierend auf der Sprache.
  10. Verfahren, das durch eine Rechenvorrichtung durchgeführt wird, umfassend: Erhalten einer Vielzahl von Mikrofonsignalen, die von einer Vielzahl von Mikrofonen erzeugt werden; Erfassen einer Sprache eines Benutzers in der Vielzahl von Mikrofonsignalen; Bestimmen, ob die Sprache in einem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht, mit einem trainierten neuronalen Netzwerk; und Auslösen einer sprachaktivierten Antwort der Rechenvorrichtung basierend darauf, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht.
  11. Verfahren nach Anspruch 10, wobei das trainierte neuronale Netz dazu trainiert ist, einen Sicherheitswert auszugeben, der angibt, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht.
  12. Verfahren nach Anspruch 10, wobei die sprachaktivierte Antwort der Rechenvorrichtung nicht ausgelöst wird, wenn die Sprache nicht in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht.
  13. Verfahren nach Anspruch 10, ferner umfassend: Bestimmen eines Blicks des Benutzers basierend auf der Vielzahl von Mikrofonsignalen; und Auslösen der sprachaktivierten Antwort der Rechenvorrichtung basierend darauf, ob die Sprache in dem gemeinsam genutzten akustischen Raum mit der Rechenvorrichtung entsteht, und als Reaktion darauf, dass der Blick des Benutzers auf die Rechenvorrichtung gerichtet ist.
  14. Verfahren nach Anspruch 13, wobei ein Bestimmen des Blicks des Benutzers ein Schätzen eines Verhältnisses zwischen Direktschall und Nachhall (DRR) unter Verwendung der Vielzahl von Mikrofonsignalen einschließt.
  15. Verfahren nach Anspruch 14, wobei bestimmt wird, dass der Blick des Benutzers auf die Rechenvorrichtung gerichtet ist, wenn das DRR einen Schwellenwert erfüllt oder wenn das DRR höher als ein zweites DRR ist, das von Mikrofonsignalen einer zweiten Vorrichtung bestimmt wird.
  16. Verfahren nach Anspruch 13, wobei ein Schätzen des DRR ein Erzeugen einer Vielzahl von akustischen Aufnahmestrahlen von der Vielzahl von Mikrofonsignalen und ein Messen von direktem und nachhallendem akustischen Klang für jeden der Vielzahl von akustischen Aufnahmestrahlen einschließt.
  17. Verfahren nach Anspruch 10, wobei die Rechenvorrichtung eine von einer Vielzahl von Rechenvorrichtungen ist, und eine Ausgewählte der Vielzahl von Rechenvorrichtungen ausgelöst wird basierend auf einer Bestimmung, dass die Sprache in dem gemeinsam genutzten akustischen Raum mit der Ausgewählten der Vielzahl von Rechenvorrichtungen entsteht, und einer Bestimmung, dass ein Blick des Benutzers auf die Ausgewählte der Vielzahl von Rechenvorrichtungen gerichtet ist.
  18. Verfahren nach Anspruch 10, wobei die sprachaktivierte Antwort mindestens eines einschließt von: einem Aufwecken der Rechenvorrichtung, Erfassen eines Sprachbefehls in der Sprache, Antworten auf einen Sprachbefehl in der Sprache und Bestimmen einer Identität des Benutzers basierend auf der Sprache.
  19. Verfahren, das durch eine Rechenvorrichtung durchgeführt wird, umfassend: Erhalten einer Angabe eines Blicks eines Benutzers in Bezug auf eine jeweilige der einen oder der mehreren Rechenvorrichtungen und einer Angabe davon, ob eine Sprache eines Benutzers in einem gemeinsamen akustischen Raum mit der jeweiligen der einen oder der mehreren Rechenvorrichtungen entsteht, von jeder von einer oder mehreren Rechenvorrichtungen; und Auswählen einer der einen oder mehreren Rechenvorrichtungen, um eine sprachaktivierte Antwort auszulösen basierend auf einer Angabe von der Ausgewählten der einen oder mehreren Rechenvorrichtungen, dass der Blick des Benutzers auf die Ausgewählte der einen oder mehreren Rechenvorrichtungen gerichtet ist, und einer Angabe von der Ausgewählten der einen oder mehreren Rechenvorrichtungen, dass die Sprache des Benutzers in einem gemeinsam genutzten akustischen Raum mit der Ausgewählten der einen oder mehreren Rechenvorrichtungen entsteht.
  20. Verfahren nach Anspruch 19, ferner umfassend ein Erhalten einer Nachhallzeit eines jeweiligen akustischen Raums von jeder der einen oder mehreren Rechenvorrichtungen, um den jeweiligen akustischen Raum jeder der einen oder mehreren Rechenvorrichtungen zu rekonstruieren.
DE102022121919.4A 2021-09-01 2022-08-30 Sprachauslöser basierend auf akustischem raum Pending DE102022121919A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202163239567P 2021-09-01 2021-09-01
US63/239,567 2021-09-01

Publications (1)

Publication Number Publication Date
DE102022121919A1 true DE102022121919A1 (de) 2023-03-02

Family

ID=84540693

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022121919.4A Pending DE102022121919A1 (de) 2021-09-01 2022-08-30 Sprachauslöser basierend auf akustischem raum

Country Status (5)

Country Link
US (1) US20230062634A1 (de)
KR (1) KR20230033624A (de)
CN (1) CN115731933A (de)
DE (1) DE102022121919A1 (de)
GB (1) GB2617420B (de)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
US11437020B2 (en) * 2016-02-10 2022-09-06 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
CA3047844A1 (en) * 2016-12-23 2018-06-28 Eyexpo Technology Corp. System and method for providing virtual reality interface

Also Published As

Publication number Publication date
GB202211193D0 (en) 2022-09-14
CN115731933A (zh) 2023-03-03
GB2617420B (en) 2024-06-19
KR20230033624A (ko) 2023-03-08
GB2617420A (en) 2023-10-11
US20230062634A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
EP3317879B1 (de) Verfahren und vorrichtung zum zuordnen von geräuschen und zum analysieren
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE102019106204A1 (de) Dekompression von Ultraschallsignalen die mittels Signalobjektklassen komprimiert wurden
DE112015004185T5 (de) Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
DE112015003945T5 (de) Mehrquellen-Rauschunterdrückung
US11631394B2 (en) System and method for determining occupancy
DE112013000440T5 (de) Zonenorientierte Anwesenheitskontrolle durch Lokalisieren von Stimmprofilen
DE112020002355T5 (de) Audioverarbeitung
DE102014012184B4 (de) Vorrichtung und Verfahren zur automatischen Erkennung und Klassifizierung von akustischen Signalen in einem Überwachungsbereich
DE102020125613A1 (de) Leichtgewichtige audioquellen-ortserfassung über vollständige 360 ° mit zwei mikrofonen
DE102017209585A1 (de) System und verfahren zur selektiven verstärkung eines akustischen signals
DE60301146T2 (de) Verfahren und system zum repräsentieren eines schallfeldes
DE102022106036A1 (de) Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug
DE102022121919A1 (de) Sprachauslöser basierend auf akustischem raum
DE102015004458A1 (de) Vorrichtung und Verfahren für einen klassifizierenden, rauchkammerlosen Luftzustandssensor
DE102018119104A1 (de) Übertragen von audio an einen identifizierten empfänger
DE102014019773A1 (de) Vorrichtung und Verfahren zur Unterscheidung von festen Objekten, Kochdunst und Rauch mittels des Displays eines Mobiltelefons
DE112020001542T5 (de) Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren
DE112019004709T5 (de) Sprachgerät, server, steuersystem, steuerverfahren und programm
DE102021103310B4 (de) Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum
DE102022123713A1 (de) Bestimmen einer virtuellen hörumgebung
WO2011106809A1 (de) Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen
DE102023210596A1 (de) Vorhersagen von Klangangenehmheit unter Verwendung eines Maschinenlernmodells mit Regressionsvorhersage
EP3929885A1 (de) Verfahren für die gebäudeautomation
DE102022212902A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes

Legal Events

Date Code Title Description
R012 Request for examination validly filed