DE102013002963A1 - Steuerung unter Anwendung zeitlich und/oder spektral kompakter Audiobefehle - Google Patents

Steuerung unter Anwendung zeitlich und/oder spektral kompakter Audiobefehle Download PDF

Info

Publication number
DE102013002963A1
DE102013002963A1 DE102013002963A DE102013002963A DE102013002963A1 DE 102013002963 A1 DE102013002963 A1 DE 102013002963A1 DE 102013002963 A DE102013002963 A DE 102013002963A DE 102013002963 A DE102013002963 A DE 102013002963A DE 102013002963 A1 DE102013002963 A1 DE 102013002963A1
Authority
DE
Germany
Prior art keywords
command
phonetic
audio
voice
discrimination unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102013002963A
Other languages
English (en)
Inventor
Henry P. Largey
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nvidia Corp
Original Assignee
Nvidia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nvidia Corp filed Critical Nvidia Corp
Publication of DE102013002963A1 publication Critical patent/DE102013002963A1/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

Ein klangaktiviertes Steuerungssystem enthält einen Audioempfänger und eine Befehlsunterscheidungseinheit. Der Empfänger ist ausgebildet, eine Audiosignalform zu empfangen und daraus eine digitale Audiosignalform zu erzeugen. Die Befehlsunterscheidungseinheit ist ausgebildet, einen zeitlich und/oder spektral kompakten nicht-phonetischen Audiobefehl in der digitalen Audiosignalform zu erfassen und ein sprachaktiviertes System während des Betriebs in Reaktion auf den nicht-phonetischen Befehl zu steuern.

Description

  • Technisches Gebiet
  • Diese Anmeldung betrifft allgemein Geräte bzw. Einrichtung, Systeme und Verfahren zum Steuern des Betriebs einer elektronischen Einrichtung.
  • Hintergrund
  • Diverse elektronische Einrichtungen können beispielsweise durch Sequenzen aus Tastenbetätigungen oder gesprochener Wörter gesteuert werden. Beispielsweise kann in einigen Fällen eine elektronische Einrichtung direkt durch Sprachbefehle gesteuert werden. In anderen Fällen ist ein Steuerungssystem, beispielsweise ein auf Sprache reagierendes System (VRS) so gestaltet, dass es auf phonetische Befehle oder Schlüsselwörter reagiert. Jedoch kann es in gewissen Situationen schwierig sein, die Einrichtung aufgrund des Umgebungsgeräuschpegels zu steuern, etwa bei im Hintergrund stattfindenden Unterhaltungen.
  • Überblick
  • Ein Aspekt stellt ein schall- bzw. klangaktiviertes Steuerungssystem bereit, das einen Empfänger und eine Befehlsunterscheidungseinheit umfasst. Der Empfänger ist ausgebildet, eine Audiosignalform zu empfangen und eine digitale Audiosignalform aus der Audiosignalform zu erzeugen. Die Befehlsunterscheidungseinheit ist ausgebildet, einen zeitlich und/oder spektral kompakten nicht-phonetischen Audiobefehl in der digitalen Audiosignalform zu erkennen und ein sprachaktiviertes System in Reaktion auf den nicht-phonetischen Befehl zu steuern.
  • Ein weiterer Aspekt stellt eine elektronische Einrichtung bereit. Die elektronische Einrichtung umfasst einen Audioempfänger und eine Befehlsübersetzungseinheit. Der Audioempfänger ist ausgebildet, eine digitale Audiosignalform aus einem empfangenen Audiosignal zu erzeugen. Die Befehlsübersetzungseinheit ist ausgebildet, einen zeitlich und/oder spektral kompakten nicht-phonetischen Audiobefehl in der digitalen Audiosignalform zu erkennen. Die Befehlsübersetzungseinheit synthetisiert einen phonetischen Befehl aus dem nicht-phonetischen Befehl in Reaktion auf das Erkennen des nicht-phonetischen Befehls.
  • Eine noch weitere Ausführungsform stellt ein Verfahren zum Bereitstellen einer sprachaktivierten Steuerung bereit. Das Verfahren umfasst das Bereitstellen eines Analog-Digital-Wandlers (ADC), der ausgebildet ist, eine empfangene Audiosignalform in eine digitale Audiosignalform umzuwandeln. Der ADC ist mit einer Befehlsunterscheidungseinheit verbunden. Die Befehlsunterscheidungseinheit ist wiederum ausgebildet, einen zeitlich und/oder spektral kompakten nicht-phonetischen Audiobefehl in der digitalen Audiosignalform zu erkennen. Die Befehlsunterscheidungseinheit ist ferner ausgebildet, ein sprachaktiviertes System in Reaktion auf den nicht-phonetischen Befehl zu steuern.
  • Kurze Beschreibung
  • Es wird nun auf die folgenden Beschreibungen in Verbindung mit den begleitenden Zeichnungen verwiesen, in denen:
  • 1A und 1B entsprechend eine Zeitbereichs- und eine Frequenzbereichsdarstellung eines nicht-phonetischen Befehls zeigen, der in diversen Ausführungsformen verwendet wird, um ein sprachaktiviertes Gerät oder ein System zu steuern;
  • 2A und 2B entsprechend eine Zeitbereichsdarstellung eines Audiosignals mit einer zeitlich kompakten Signalfolge und einen Leistungshöchstwert, der mit der zeitlich kompakten Signalfolge verknüpft ist zeigen;
  • 3A eine Frequenzbereichsdarstellung eines Audiosignals, beispielsweise eine Zusammensetzung der Klänge in einem stark bevölkerten Raum, zeigt;
  • 3B eine Frequenzbereichsdarstellung wie in 3A zeigt, wobei zusätzlich die in 1B gezeigten spektralen Komponenten enthalten sind;
  • 4 eine elektronische Einrichtung in einer Ausführungsform zeigt, die eine Befehlsunterscheidungseinheit aufweist, die ausgebildet ist, ein zeitlich und/oder spektral kompaktes Signal innerhalb eines empfangenen Audiosignals zu erkennen, wobei die Befehlsunterscheidungseinheit einen Sprachbefehl für eine verdrahtete oder kabellose Übertragung synthetisiert;
  • 5 ein Flussdiagramm eines Verfahrens zum Betreiben einer elektronischen Einrichtung, etwa der Einrichtung aus 4, zeigt, um das Auftreten eines nicht-phonetischen Befehls zu erfassen;
  • 6 Aspekte von Ausführungsformen einer elektronischen Einrichtung zeigt, wobei eine Befehlsunterscheidungseinheit Befehle für einen Funktionsblock in Reaktion auf einen erkannten nicht-phonetischen Befehl bereitstellt;
  • 7 ein auf Sprache reagierendes System in einer Ausführungsform darstellt, wobei eine Befehlsunterscheidungseinheit einen empfangenen nicht-phonetischen Befehl in einen synthetisierten phonetischen Befehl übersetzt, für den das auf Sprache reagierende System ausgebildet ist zu reagieren; und
  • 8 ein Verfahren zeigt, beispielsweise die Herstellung einer Einrichtung oder eines Systems gemäß diversen Ausführungsformen der Erfindung.
  • Detaillierte Beschreibung
  • Diverse Ausführungsformen betreffen ein zeitlich-kompaktes und/oder spektral kompaktes nicht-phonetisches Audiosignal. Ein Audiosignal kann dabei ein zeitlich kompaktes und/oder ein spektral kompaktes Signal sein. 1A zeigt ohne Einschränkung ein repräsentatives zeitlich kompaktes Audiosignal 110, und 1B ein Spektrum 120 eines repräsentativen spektral kompakten Audiosignals. Es sei zunächst auf 1A verwiesen; zeitlich kompakt, wie es in der Erläuterung und in den Ansprüchen verstanden wird, ist so definiert, dass eine Zeitdauer in der Größenordnung von oder kürzer als die Zeitdauer eines gesprochenen Phonems vorliegt. Beispielsweise kann ein gesprochenes Wort in eine Reihe von Phonemen aufgeteilt werden, die bei einer normalen Sprechgeschwindigkeit eine Dauer von ungefähr 100 bis 500 ms besitzen. Einige Sprachgebilde, etwa Konsonanten, können eine kürzere Dauer, beispielsweise weniger als ungefähr 100 ms besitzen. Somit kann das Audiosignal 110 eine Dauer ΔT von ungefähr 500 ms oder weniger aufweisen.
  • Gemäß 1B ist spektral kompakt, wie es hierin in der Erläuterung und in den Ansprüchen verwendet wird, so definiert, dass mindestens 50% der akustischen Energie des nicht-phonetischen Audiosignals vorhanden und innerhalb einer spektralen Bandbreite konzentriert sind, die deutlich kleiner ist als die spektrale Bandbreite einer typischen menschlichen Stimmgebung. Wesentlich kleiner in diesem Zusammenhang bedeutet ungefähr 10% oder weniger der menschlichen Sprachspektrumsbandbreite. Beispielsweise liegen spektrale Komponenten der menschlichen Sprache typischer Weise in einem Bereich von ungefähr 100 Hz bis ungefähr 5 kHz. Das Sprachband des elektromagnetischen Spektrums, beispielsweise von ungefähr 300 Hz bis ungefähr 3 kHz, wird häufig verwendet, um Sprachsignale über Telefonanlagen zu übermitteln. Gemäß 1B kann ein spektral kompaktes Audiosignal mindestens 50% der akustischen Energie aufweisen, die innerhalb einer Bandbreite Δf von ungefähr einem Zehntel der Sprachbandbreite, beispielsweise ungefähr 500 Hz oder weniger, konzentriert ist.
  • Diverse hierin beschriebene Ausführungsformen stellen Einrichtungen, Systeme und Verfahren zum Verbessern der Kommunikation mit sprachaktivierten Systemen, etwa auf Sprache reagierende Systeme (VRS) und der Sprachsteuerung elektronischer Einrichtungen (im Weiteren als VRD bezeichnet) bereit. Obwohl ein derartiges System oder eine Einrichtung unter Bedingungen mit geringen Umgebungsgeräuschen gut funktionieren kann, kann bei einem Anstieg des Hintergrundgeräuschpegels in einem zu großen Maße die Einrichtung oder das Systemverhalten aufgrund der schlechten Erkennung der Sprachbefehle beeinträchtigt sein. Dieses Problem kann insbesondere in Situationen sehr ausgeprägt sein, in denen die Hintergrundgeräusche Unterhaltungen oder andere Quellen für Wörter beinhalten, die mit den beabsichtigten phonetischen Befehlen im Wettstreit sein können oder diese übertönen können, die von dem Anwender des automatisierten Systems oder der Einrichtung gesprochen werden.
  • Der Erfinder hat erkannt, dass die zuvor genannten Schwierigkeiten mit Sprachbefehlen im Wesentlichen vermieden werden können, indem eine kurze Signalfolge an Audioenergie bereitgestellt wird, die außerhalb der Gruppe von Klängen liegt, die typischer Weise als Sprache interpretiert werden. In diversen Ausführungsformen wird ein nicht-vokalisierter Klang oder ein Klang, der selten oder im Wesentlichen nie in normalen Unterhaltungen in der von dem Anwender gesprochenen Sprache verwendet wird, eingesetzt, um mit dem System oder der Einrichtung zu kommunizieren.
  • Im hierin verwendeten Sinne umfasst der Begriff „nicht-phonetischer Befehl” nicht-linguistische Klänge, die durch menschliche Stimmgebung erzeugt werden. Im Gegensatz dazu bezeichnet ein „phonetischer Befehl” Wörter oder Bereiche von Wörtern, die größer als ein einzelner Konsonant sind, die durch menschliche Stimmgebung erzeugt werden. Der nicht-phonetische Befehl kann in einigen Ausführungsformen als ein Achtungssignal bzw. Marke für das empfangene System oder die Einrichtung verwendet werden, dahingehend, dass phonetische Befehle bevorstehen, oder der nicht-phonetische Befehl kann einige oder alle phonetische Befehle erweitern oder ersetzen, so dass phonetische Befehle nicht erforderlich sind, um mit dem System oder der Einrichtung zu kommunizieren. Der Begriff „nicht-phonetischer Befehl” schließt explizit elektronisch erzeugte Signalformen aus.
  • Im hierin verwendeten Sinne schließt „Sprache” explizit Sprachen aus, die auf Knack- bzw. Klickkonsonanten beruhen, etwa Sprachen, die umgangssprachlich als „Klicksprache” bezeichnet werden, wovon Xhosa ein Beispiel ist.
  • Hierin wird der Begriff „Zeitbereich” abgekürzt mit „TD”, wobei eine derartige Abkürzung nicht die Klarheit der Offenbarung beeinträchtigt. In ähnlicher Weise kann der Begriff „Frequenzbereich” als „FD” abgekürzt sein.
  • Ein nicht-phonetischer Befehl, wie er durch 1A und/oder 1B repräsentiert ist, kann einem Hintergrund-Audiosignal überlagert sein. Der Hintergrund kann beispielsweise dadurch erzeugt sein, dass mehrere Personen gleichzeitig sprechen, wie dies auf einer Party oder einem Treffen, der Fall ist, oder kann durch Maschinen, Straßenlärm, etc., verursacht sein. Das Hintergrundgeräusch kann relativ gleichmäßig im Hinblick auf die Zeit, Frequenz oder beides sein, aber dies ist nicht notwendiger Weise der Fall. Der nicht-phonetische Befehl ist spektral und/oder zeitlich von anderen Klängen in dem Hintergrundgeräusch unterscheidbar. Daher erwartet man, dass die Überlagerung eines zeitlich und/oder spektral kompakten Signals mit dem Hintergrund mittels einer Unterscheidungsschaltung, wie sie nachfolgend beschrieben ist, erfassbar ist.
  • Um diesen Punkt darzustellen, repräsentiert 2A eine TD-Signalform 210 eines Audiosignals, beispielsweise eine Mischung aus Klängen von mehreren Quellen, beispielsweise mehrere überlappende Lautsprecher. Die Signalform 210 kann ein elektrisches Signal sein, das von einem Audiowandler, beispielsweise einem Mikrophon, gewonnen wird. Die Signalform 210 besitzt einen Hintergrundrauschen mit ungefähr konstanter Intensität Io, wobei Ausführungsformen nicht darauf eingeschränkt sind. In einigen Fällen kann die Intensität des Hintergrundrauschens zeitabhängig sein oder sogar 0 sein. Die Signalform 210 enthält Bereiche 220, die die Umgebungsklänge in einem lauten Raum darstellen. Ein Bereich 230 enthält einen nicht-phonetischen Befehl, der ohne Einschränkung durch das zeitlich kompakte Audiosignal 110 repräsentiert ist.
  • 2B zeigt ein Maß der akustischen Leistung der Signalform 210. Eine Hintergrundleistung Po ist ungefähr konstant über die Bereiche 220 hinweg, aber es gibt auch Ausführungsformen, die nicht darauf eingeschränkt sind. Daher kann in einigen Fällen die Hintergrundleistung zeitabhängig sein, oder diese kann sogar 0 sein. Ein Leistungshöchstwert 240 ist zeitlich mit der Signalform 110 korreliert. Der Leistungshöchstwert 240 entspricht einer Zunahme an Lautstärke, die durch den nicht-phonetischen Befehl erzeugt wird. Somit kann der Leistungshöchstwert 240 verwendet werden, um das Auftreten des zeitlich kompakten Audiosignals 110 innerhalb der Signalform 210 zu erfassen. Der Leistungshöchstwert 240 ist ein Maß der Zunahme an Volumen bzw. Lautstärke, die von dem VRS oder VRD erfasst wird.
  • Der Leistungshöchstwert 240 und das Spektrum 120 stellen Signale bereit, die erfasst und genutzt werden können, um das Auftreten eines nicht-phonetischen Befehls zu bestimmen. In einigen Ausführungsformen wird eine zeitlich lokalisierte Zunahme an Leistung, die durch den Leistungshöchstwert 240 exemplarisch repräsentiert ist, angewendet, um das Auftreten eines nicht-phonetischen Befehls zu bestimmen bzw. ermitteln, ohne auf das Spektrum 120 zurückzugreifen. In anderen Ausführungsformen wird das Auftreten eines nicht-phonetischen Befehls bestimmt, indem das Spektrum 120 verwendet wird, ohne auf den Leistungshöchstwert 240 zurückzugreifen. In noch anderen Ausführungsformen werden sowohl das Spektrum 120 als auch der Leistungshöchstwert 240 verwendet, um das Auftreten eines nicht-phonetischen Befehls zu bestimmen.
  • 3A3B zeigen Aspekte eines spektral kompakten Audiobefehls, der im Frequenzbereich betrachtet wird. 3A zeigt ohne Beschränkung ein Spektrum 310, das ein Hintergrundrauschen repräsentiert, etwa mehrere sich überlagernde Unterhaltungen in einem bevölkerten Raum. Obwohl Ausführungsformen der Erfindung ohne ein derartiges Hintergrundrauschen ausgeführt werden können, kommen die Vorteile derartiger Ausführungsformen dennoch besser zum Tragen, wenn Hintergrundrauschen vorhanden ist. 3B zeigt ein zusammengesetztes Spektrum 320, das eine Kombination des Spektrums 310 und des Spektrums 120 ist. In diversen Ausführungsformen werden die Frequenzen des Spektrums 120 so festgelegt, dass die spektralen Komponenten leicht von dem Grundgeräusch des Hintergrundgeräuschspektrums 310 unterscheidbar sind. In derartigen Fällen sind, wie gezeigt ist, die Komponenten des Spektrums 120 in dem zusammengesetzten Spektrum 320 sichtbar. Wie nachfolgend beschrieben ist, wird die Erkennung dieser Komponenten mit oder ohne Erkennung des Leistungshöchstwerts 240 in diversen Ausführungsformen eingesetzt, um das Auftreten des nicht-phonetischen Befehls zu erfassen.
  • Es werden nun diverse Ausführungsformen der Erfindung in den 4, 5, 6A6C und 7 dargestellt. Diese Figuren können diverse funktionale Module enthalten, und die Erläuterung kann einen Bezug zu diesen Modulen beinhalten und diverse Modulfunktionen und Abhängigkeiten zwischen den Modulen beschreiben. Der Fachmann erkennt jedoch, dass die Grenzen zwischen derartigen Modulen lediglich anschaulicher Natur sind, und dass alternative Ausführungsformen Module miteinander verbinden können oder eine alternative Zerlegung der Funktion der Module beinhalten können. Beispielsweise können die hierin erläuterten Module in Untermodule zerlegt werden, die als mehrere Berechnungsprozesse und optional in mehreren elektronischen Einrichtungen, beispielsweise integrierten Schaltungen, auszuführen sind. Ferner können in alternativen Ausführungsformen mehrere Instanzen eines speziellen Moduls oder Untermoduls kombiniert sein. Des Weiteren erkennt der Fachmann, dass die in beispielhaften Ausführungsformen beschriebenen Funktionen lediglich anschaulicher Natur sind. Betriebsweisen können kombiniert werden oder die Arbeitsweise von Funktionen kann in zusätzliche Funktionen gemäß der Erfindung aufgeteilt werden.
  • 4 ist eine Blockansicht einer nicht beschränkenden Ausführungsform einer elektronischen Einrichtung 400, die gemäß nicht-phonetischen Befehlen arbeitet, die über eine Audiosignalform 405 empfangen werden. In diversen Ausführungsformen kann die Einrichtung 400 ein verkabeltes oder ein schnurloses Telefonhandgerät oder ein Funktelefon sein. Jedoch soll die Beschreibung dieser speziellen Ausführungsformen nicht beabsichtigen, den Schutzbereich der Erfindung auf derartige Einrichtungen zu beschränken.
  • Die Einrichtung 400 umfasst einen Audioempfänger 401, der einen Audiowandler 410 und einen Analog-Digital-Wandler (ADC) 420 enthält. Der Audiowandler 410 ist ausgebildet, die Audiosignalform 405 in eine entsprechende analoge elektrische Darstellung umzuwandeln, die im Weiteren als ein Audiosignal bezeichnet wird. Der ADC 420 wandelt das Audiosignal in eine digitalisierte Darstellung der Audiosignalform 405 um, die hierin als digitale Audiosignalform bezeichnet ist.
  • Eine Befehlsunterscheidungseinheit 430 empfängt die digitale Audiosignalform und führt diverse Verarbeitungsfunktionen daran aus, wie dies nachfolgend erläutert ist. Die Verarbeitungsfunktionen können gemäß Befehlen ausgeführt werden, die in einem Speicher 435 abgelegt sind. Die Funktionsweise der Befehlsunterscheidungseinheit 430 kann in beliebiger konventioneller oder nicht-konventioneller Weise eingerichtet werden, wozu ohne Einschränkung eine kommerzielle oder kundenspezifische integrierte Schaltung, eine Zustandsmaschine, eine speicherprogrammierbare Steuerung, eine Mikrosteuerung oder ein digitaler Signalprozessor (DSP) gehören.
  • Zu den diversen Funktionen, die von der Befehlsunterscheidungseinheit 430 bereitgestellt werden, gehören eine schnelle Fourier-Transformation (FFT) 440, ein FD-Analysator 450 und ein TD-Analysator 460. Wie dem Fachmann gut bekannt ist, kann die FFT 440 ein Spektrum 445 der empfangenen Audiosignalform 405 oder genauer gesagt der digitalen Audiosignalform bestimmen. Komponenten des Spektrums 445 können diverse Arten von durch Sprachbildung oder nicht durch Sprach erzeugten Klängen charakterisieren, wie dies zuvor beschrieben ist. Der FD-Analysator 450 führt eine spektrale Mustererkennung aus, um innerhalb des Spektrums 445 Klänge zu erkennen, die nicht mit normaler Sprachbildung verknüpft sind.
  • Der TD-Analysator 460 empfängt ebenfalls die digitale Audiosignalform. Der TD-Analysator 460 kann die digitale Audiosignalform analysieren, um das Auftreten zeitlich kompakter Leistungshöchstwerte zu bestimmen, etwa des Leistungshöchstwerts 240. In einigen Fällen verwendet die Befehlsunterscheidungseinheit 430 das Auftreten des erfassten Leistungshöchstwerts, um die spektrale Signatur des nicht-phonetischen Befehls in der digitalen Audiosignalform zeitlich zu lokalisieren. In anderen Fällen verwendet die Befehlsunterscheidungseinheit 430 Eigenschaften des Leistungshöchstwerts und Eigenschaften des Spektrums 445 zusammen, um das Auftreten des nicht-phonetischen Befehls zu bestimmen.
  • Die Befehlsunterscheidungseinheit 430 unterscheidet gewisse Klänge von Sprachgebilden, die typischer Weise in der Sprache erzeugt werden. Die Befehlsunterscheidungseinheit 430 kann eine derartige Bestimmung unter Anwendung des FD-Analysators 450 und/oder des TD-Analysators 460 durchführen. Die Befehlsunterscheidungseinheit 430 kann beispielsweise mittels des TD-Analysators 460 das Auftreten eines zeitlich kompakten Klangs ermitteln. Der zeitlich kompakte Klang besitzt typischer Weise ein Profil, das durch die Zeitbereichseigenschaften, etwa beispielsweise Intensität, Dauer, Anstiegszeit, Abfallszeit und Überschwingen gekennzeichnet ist. Diese Eigenschaften können in einigen Fällen ausreichend sein, um mit einem hohen Grad an Zuverlässigkeit bzw. Konfidenz zu bestimmen, dass der zeitlich kompakte Klang ein Audiobefehl ist.
  • Die Befehlsunterscheidungseinheit 430 kann ferner das Auftreten eines Audiobefehls durch die spektralen Eigenschaften bestimmen. Ein Klang aus einer speziellen Quelle besitzt typischer Weise eine spezielle bzw. unterscheidbare spektrale Signatur. Die Befehlsunterscheidungseinheit 430 bestimmt etwa das Auftreten eines Audiobefehls, wenn eine erfasste spektrale Signatur mit einer von mehreren Modell-Signaturen übereinstimmt, die in dem Speicher 435 abgelegt sind. Der Audiobefehl kann spektral kompakt sein, wodurch ein hohes Maß an Konfidenz bereitgestellt wird, dass der Audiobefehl in dem empfangenen Audiodatenstrom enthalten ist.
  • In einigen Ausführungsformen bestimmt die Befehlsunterscheidungseinheit 430 einen Konfidenzpegel einer Befehlserkennung aus dem FD-Analysator 450 oder dem TD-Analysator 460 und führt die andere Analyse nur dann aus, wenn der Konfidenzpegel unterhalb eines vorbestimmten Schwellwerts liegt. Eine derartige Vorgehensweise kann in einigen Fällen die Gesamtarbeitslast für die Befehlsunterscheidungseinheit 430 reduzieren.
  • Die nicht-phonetischen Befehle enthalten typischer Weise zeitliche und spektrale Eigenschaften, die es der Befehlsunterscheidungseinheit 430 ermöglichen, die nicht-phonetischen Befehle von normaler Sprache zu unterscheiden. In einigen Fällen werden derartige Klänge durch Stimmgebung eines Klangs erzeugt, der nicht üblicherweise mit gesprochenen Wörtern in einer speziellen Sprache im Zusammenhang steht. Beispielsweise kann ein Lautsprecher das Spektrum 120 mit Knacklauten, Knalllauten oder getrennten Konsonanten erzeugen.
  • Eine Klasse an Audiobefehlen umfasst unterscheidbare Stimmgebungen bzw. Vokalisierungen. Beispielsweise enthalten indio-europäische Sprachen im Allgemeinen und die englische Sprache insbesondere keine getrennten bzw. isolierten „Knacklaute”. Ein Knacklaut bzw. ein Klicklaut kann als einer von mehreren Konsonanten definiert werden, die in dem internationalen phonetischen Alphabet (IPA) aufgeführt sind. In einem nicht beschränkenden Beispiel enthält das IPA vier ältere Knacklaute: das laminale alveolare Reibknacken; das apikale abrupte Knacken; das laminale postalveolare abrupte Knacken; und das laterale alveolare Reibknacken. Unter Verwendung einer TD-Analyse und/oder FD-Analyse ist in einigen Ausführungsformen die Befehlsunterscheidungseinheit 430 so gestaltet, dass sie zwischen dem Auftreten derartiger Knackgeräusche in normaler Unterhaltung, beispielsweise als Teil eines gesprochenen Wortes, und dem Auftreten isolierter Knackgeräusche unterscheidet. Eine derartige Ausbildung kann ein allgemeines Unterscheidungsmodell beinhalten, das dafür beabsichtigt ist, auf viele oder die meisten Anwender anwendbar zu sein, oder ein derartiger Aufbau kann das Einüben durch einen speziellen Anwender der Einrichtung 400 beinhalten.
  • Das Einüben kann über einen Übungsmodus erfolgen. Der Übungsmodus kann beispielsweise den Anwender mit einem gewünschten synthetisierten phonetischen Befehl auffordern, woraufhin der Anwender einen oder mehrere nicht-phonetische Befehle erzeugen kann, die die Einrichtung 400 danach als den gewünschten synthetisierten Befehl übersetzt. Der Fachmann auf diesem Gebiet ist mit derartigen Übungsverfahren vertraut.
  • Der DSP kann zusätzlich oder alternativ so gestaltet sein, dass er zwischen durch Stimme erzeugten und nicht durch Stimme erzeugten Klängen unterscheidet. Nicht durch Stimme erzeugte Klänge können ein Klopfen oder Schläge gegen eine feste Oberfläche, ein Pfeifen oder Fingerschnipsen enthalten. In anderen Fällen kann der nicht-phonetische Befehl künstlich erzeugt werden, beispielsweise durch eine elektronische oder mechanische Einrichtung, die ausgebildet ist, einen Klang mit den gewünschten zeitlich kompakten und/oder spektral kompakten Eigenschaften zu erzeugen.
  • In einigen Ausführungsformen umfasst die Befehlsunterscheidungseinheit 430 einen Befehlssynthesizer 470. Der Befehlssynthesizer bzw. Synthetisierer 470 kann den durch den nicht-phonetischen Befehl spezifizierten Befehl erkennen und eine Audiosignalform bilden, die einen äquivalenten synthetisierten phonetischen Befehl übermittelt. Der synthetisierte Befehl kann im Weiteren als ein phonetischer Befehl bezeichnet werden, obwohl er nicht durch einen menschlichen Sprecher erzeugt ist. In einigen Ausführungsformen verwendet der Befehlssynthesizer 470 eine Eingabe aus dem FD-Analysator 450 und dem TD-Analysator 460 und bestimmt den beabsichtigten phonetischen Befehl aus den TD- und FD-Eigenschaften der Audiosignalform 405. Beispielsweise kann ein einzelnes vokalisiertes Knacken in „nein” umgewandelt werden, und ein doppeltes Knacken (beispielsweise zwei Knacklaute, die innerhalb einer vorbestimmten Dauer auftreten) können als ein „ja” interpretiert werden. Es können selbstverständlich andere Kombinationen aus Knacklauten oder andere nicht-phonetische Befehle in andere synthetisierte phonetische Befehle übersetzt werden.
  • Wenn die Befehlsunterscheidungseinheit 430 einen phonetischen Befehl erkennt bzw. bestimmt, der einem oder mehreren nicht-phonetischen Befehlen entspricht, kann die Befehlsunterscheidungseinheit 430 einen Multiplexer (MUX) 480 ansteuern, so dass dieser den synthetisierten phonetischen Befehl für die Übertragung zu dem empfangenen System auswählt. Ein Sender 490 empfängt die Ausgabe aus dem MUX 480 und sendet in einigen Ausführungsformen den Bit-Strom über eine Antenne 495. In anderen Ausführungsformen bereitet der Sender 490 die Ausgangsdaten für die Übertragung über eine Verdrahtung zu einem verdrahteten Telefonnetzwerk 499 auf (beispielsweise „ein gutes altes Telefonsystem”, oder POTS). Daher wird in derartigen Ausführungsformen der nicht-phonetische Befehl von der Einrichtung 400 eigentlich nicht gesendet. Stattdessen erhält das empfangene System, beispielsweise ein VRS, eine Signalform, die mit einem phonetischen Befehl, etwa „ja” oder „nein” konsistent ist. Bei Fehlen eines erfassten nicht-phonetischen Befehls kann die Befehlsunterscheidungseinheit 430 den MUX 480 so steuern, dass die digitale Audiosignalform, die von dem ADC 420 bereitgestellt wird, gesendet wird.
  • Es sei als nächstes auf 5 verwiesen; es ist ein Verfahren 500 bereitgestellt, um die Arbeitsweise der Einrichtung 400 gemäß einer nicht beschränkenden Ausführungsform darzustellen. In einem Schritt 510 überwacht die Befehlsunterscheidungseinheit 430 die digitale Audiosignalform im Hinblick auf das Auftreten eines Leistungshöchstwerts, beispielsweise des Leistungshöchstwerts 240. Wenn die Befehlsunterscheidungseinheit 430 keinen Leistungshöchstwert erkennt, kehrt das Verfahren 500 zu dem Schritt 510 zurück. Wenn stattdessen die Befehlsunterscheidungseinheit 430 die Anwesenheit eines Leistungshöchstwerts erkennt, geht das Verfahren zu einem Schritt 520 weiter.
  • In dem Schritt 520 bestimmt die Befehlsunterscheidungseinheit 430 das Spektrum der digitalen Audiosignalform, beispielsweise es wird die FFT berechnet, wenn der Leistungshöchstwert auftritt. Der Fachmann auf diesem Gebiet erkennt, dass eine derartige Bestimmung das Speichern der digitalen Audiosignalformdaten beinhalten kann, um eine spektrale Analyse zu ermöglichen, nachdem der Leistungshöchstwert in den Daten erkannt ist. Derartige gepufferte Daten können beispielsweise in einem Speicher 435 abgelegt werden. Nach dem Schritt 520 geht das Verfahren 500 zu einem Schritt 530 weiter.
  • Im Schritt 530 versucht die Befehlsunterscheidungseinheit 430, das in dem Schritt 520 ermittelte Spektrum mit einem oder mehreren Modellspektren oder mathematischen Beschreibungen von Modellspektren in Übereinstimmung zu bringen. Die Modellspektren oder ihre mathematischen Beschreibungen können beispielsweise in dem Speicher 435 abgelegt sein. Das Ineinklangbringen kann beispielsweise eine Bestimmung diverser Maßzahlen beinhalten, die die Qualität der Übereinstimmung und eine Übereinstimmungswahrscheinlichkeit beschreiben.
  • In einem Schritt 540 kann die Befehlsunterscheidungseinheit 430 bestimmen, ob eine Anpassung bzw. Übereinstimmung aufgetreten ist. Die Befehlsunterscheidungseinheit 430 benötigt gegebenenfalls, dass eine Übereinstimmungswahrscheinlichkeit einen vorbestimmten Wahrscheinlichkeitsschwellwert übersteigt, um einen Übereinstimmungskandidaten auszumachen, und sie kann dem Übereinstimmungskandidaten, der höchste Wahrscheinlichkeit besitzt, als denjenigen berichten, der mit dem Spektrum übereinstimmt. Eine Übereinstimmung kennzeichnet das Auftreten eines nicht-phonetischen Befehls. Wenn die Befehlsunterscheidungseinheit 430 das Auftreten einer Übereinstimmung ermittelt, geht das Verfahren 500 zu einem Schritt 550 weiter. Wenn keine Übereinstimmung ermittelt wird, kehrt das Verfahren 500 zu dem Schritt 510 zurück.
  • Im Schritt 550 ruft die Befehlsunterscheidungseinheit 430 aus einer Bibliothek an phonetischen Befehlssignalformen eine phonetische Befehlssignalform ab, die dem empfangenen nicht-phonetischen Befehl entspricht. Die Signalform kann beispielsweise ein Algorithmus sein, um einen synthetisierten phonetischen Befehl zu erzeugen, der dem nicht-phonetischen Befehl entspricht oder sie kann eine abgetastete Signalform sein.
  • In einem Schritt 560 synthetisiert die Befehlsunterscheidungseinheit 430 den phonetischen Befehl, beispielsweise mittels des Befehlssynthesizers 470. In einem Schritt 570 steuert die Befehlsunterscheidungseinheit 430 den MUX 480 derart, dass der synthetisierte phonetische Befehl gegen die digitale Audiosignalform zur Einspeisung in den Sender 490 ausgetauscht wird. Der synthetisierte phonetische Befehl wird dann anstelle des nicht-phonetischen Befehls übertragen.
  • In 6 ist ein System 600 gemäß einer weiteren Ausführungsform der Erfindung gezeigt. Das System 600 kann diverse Merkmale in gleicher Weise wie die Einrichtung 400 aufweisen, beispielsweise die Befehlsunterscheidungseinheit 430, den Speicher 435, die FFT 440, den FD-Analysator 450 und den TD-Analysator 460. Sofern dies nicht anders dargestellt wird, arbeiten diese Module in der Weise, wie dies zuvor beschrieben ist. Das System 600 umfasst ferner eine Eingangsschnittstelle 610 und einen Funktionsblock 620.
  • Die Eingangsschnittstelle 610 kann eine Reihe von unterschiedlichen Formen annehmen, wobei dies von der beabsichtigten Anwendung des Systems 600 abhängt. In einigen Ausführungsformen umfasst das System 600 ein sprachaktiviertes elektronisches Gerät bzw. Einrichtung, etwa ein globales Positioniersystem (GPS) als Navigationseinrichtung, ein intelligentes Telefon, einen digitalen Sprachrekorder oder dergleichen. In derartigen Ausführungsformen ist die Eingangsschnittstelle 610 so ausgebildet, wie dies für den Empfänger 401 (4) beschrieben ist. Somit kann die Eingangsschnittstelle 610 einen Audiowandler 410 und einen ADC 420 aufweisen, um eine Audiosignalform zu empfangen und die Signalform in eine digitale Audiosignalform umzuwandeln. Die Befehlsunterscheidungseinheit 430 kann die digitale Audiosignalform bearbeiten, wie dies zuvor beschrieben ist, um das Auftreten eines nicht-phonetischen Befehls zu erkennen.
  • Die Befehlsunterscheidungseinheit 430 kann das Auftreten und die Identität des nicht-phonetischen Befehls an den Funktionsblock 620 berichten. Der Funktionsblock 620 kann dann so arbeiten, dass die Kernfunktionsweise der Einrichtung 600, die mit dem nicht-phonetischen Befehl konsistent ist, ausgeführt wird.
  • Beispielsweise kann der Funktionsblock einen GPS-Empfänger 630 und Kartenfunktionen (nicht gezeigt) enthalten. Der GPS-Empfänger 630 kann ausgebildet sein, auf phonetische Sprachbefehle zu reagieren. Aufgrund von Straßenlärm oder anderen Kabinenhintergrundgeräuschen, wie dies zuvor beschrieben ist, kann es für den GPS-Empfänger 630 schwierig sein, einige Sprachbefehle aus dem Hintergrundgeräusch herauszulösen. Es können nicht-phonetische Befehle stattdessen oder zusätzlich zu phonetischen Befehlen verwendet werden, um den Betrieb des GPS-Empfängers 630 zu steuern. In einigen Ausführungsformen ist der GPS-Empfänger 630 ausgebildet, elektronische Signale aus der Befehlsunterscheidungseinheit 430 als äquivalent zu diversen phonetischen Befehlen zu interpretieren. In anderen Ausführungsformen enthält die Befehlsunterscheidungseinheit 430 den Befehlssynthesizer 470 und stellt einen phonetischen Befehl für den GPS-Empfänger 630 in Reaktion auf den nicht-phonetischen Befehl bereit. In ähnlicher Weise sind andere Ausführungsformen des Funktionsblocks 620, beispielsweise des Aufzeichnungsgeräts oder des intelligenten Telefons, so gestaltet, dass aus der Befehlsunterscheidungseinheit 430 ein elektronisches Signal empfangen wird, das das Auftreten eines nicht-phonetischen Befehls anzeigt, oder es wird ein synthetisierter Sprachbefehl empfangen, und dieser wird verarbeitet, so dass die entsprechende Grundfunktion beispielsweise das Aufzeichnen und das Anrufen ausgeführt wird.
  • In einigen Ausführungsformen sind die Befehlsunterscheidungseinheit 430 und/oder ihre zugehörigen Funktionen unmittelbar in die Einrichtung integriert, die den Funktionsblock 620 enthält. Beispielsweise können ein intelligentes Telefon oder eine GPS-Einheit einen Prozessor und einen Speicher aufweisen und sind daher ausgebildet, die FFT 440, den FD-Analysator 450 und den TD-Analysator 460 einzurichten. In derartigen Ausführungsformen umfassen daher gegebenenfalls das intelligente Telefon, das GPS-Gerät oder ähnliche Geräte keine zusätzlichen Komponenten, um die Befehlsunterscheidungseinheit 430 einzurichten.
  • Eine weitere Ausführungsform ist durch 7 beschrieben, die ein System 700, beispielsweise eine Ausführungsform eines VRS, zeigt, wie es von einer Bank oder einem Dienstleistungsanbieter verwendet werden kann, der einen Anrufer auffordert, Sprachantworten bereitzustellen, um durch Leistungsangebote zu navigieren, die für den Anrufer verfügbar sind. Das System 700 umfasst einen Empfänger 710, eine Befehlsunterscheidungseinheit (CD) 720 und ein VRS 730. Der Empfänger 710 und das VRS 730 können in konventioneller Ausführung vorgesehen sein mit Ausnahme, dass notwendige Modifizierungen vorhanden sind, um die zusätzlichen nachfolgend beschriebenen Eigenschaften verarbeiten oder berücksichtigen zu können. Der Empfänger 710 umfasst eine Funktion, um ein kabelloses Signal aus einer Antenne 740 oder ein verdrahtetes Signal aus einem POTS 745 zu empfangen. Der Empfänger 710 kann das empfangene Signal demodulieren und daraus Sprachbefehle extrahieren. Die Befehlsunterscheidungseinheit 720 kann ermitteln, dass die empfangenen Sprachbefehle phonetische Befehle sind und einen MUX 750 ansteuern, so dass die Sprachbefehle zu dem VRS 730 weitergeleitet werden.
  • Wenn die Befehlsunterscheidungseinheit 720 stattdessen das Vorhandensein eines nicht-phonetischen Befehls erkennt, wie dies zuvor beschrieben ist, kann die Befehlsunterscheidungseinheit 720 einen Synthesizer 760 ansteuern, so dass der entsprechende phonetische Befehl synthetisiert wird, und kann den MUX 750 steuern, so dass der synthetisierte phonetische Befehl zu dem VRS 730 weitergeleitet wird. Auf diese Weise kann das System 700 dem Anrufer die Möglichkeit bieten, die nicht-phonetischen Befehle zu verwenden, um mit dem VRS 730 zu kommunizieren, wenn der Anrufer in einer lauten Umgebung ist. In einigen Ausführungsformen kann die Funktion der Befehlsunterscheidungseinheit 720 unmittelbar in das VRS 730 integriert sein, so dass die Befehlsunterscheidungseinheit 720 direkt den empfangenen nicht-phonetischen Befehl an das VRS 730 übermittelt, ohne dass die Notwendigkeit der Synthetisierung des phonetischen Befehls besteht. In einigen Ausführungsformen wird der nicht-phonetische Befehl an die Befehlsunterscheidungseinheit 720 unter Anwendung einer außerhalb des Bandes erfolgenden Signalübermittlung übertragen, wodurch das Sprachband umgangen wird.
  • Fachleute auf dem Gebiet der digitalen Signalverarbeitung sind vertraut mit den erforderlichen Techniken, die zum Konfigurieren der Einrichtung 400 und/oder des Systems 600 und/oder des Systems 700, wie sie hierin beschrieben sind, erforderlich sind. Beispielsweise sind dem Fachmann diverse Verfahren bekannt, um Knallgeräusche und andere ähnliche Klänge aus digitalisierten Aufzeichnungen zu erkennen und zu entfernen. Derartige Verfahren können angewendet oder angepasst werden, wie dies erforderlich ist, ohne dass unnötig experimentiert wird, um die zuvor genannten Ausführungsformen und andere Ausführungsformen innerhalb des Schutzbereichs der Erfindung einzurichten.
  • In 8 ist ein Verfahren 800 zur Herstellung dargestellt, beispielsweise zur Ausbildung der zuvor genannten Ausführungsformen, etwa der Einrichtung 400 oder des Systems 600 oder 700. Die Schritte des Verfahrens 800 sind ohne Beschränkung durch Bezugnahme auf Elemente beschrieben, die zuvor hierin beispielsweise in den 4 bis 6 erläutert sind. Die Schritte des Verfahrens 800 können in einer anderen Reihenfolge als in der dargestellten Reihenfolge ausgeführt werden und in einigen Ausführungsformen können sie ganz weggelassen werden.
  • In einem Schritt 810 wird ein Empfänger, etwa der Empfänger 401, so gestaltet, dass er eine digitale Darstellung eines empfangenen Audiosignals, beispielsweise einer digitalen Audiosignalform, erzeugt. In einem Schritt 820 wird eine Befehlsunterscheidungseinheit, beispielsweise die Befehlsunterscheidungseinheit 430, so ausgebildet, dass sie einen zeitlich und/oder spektral kompakten Audiobefehl innerhalb der digitalen Darstellung erfasst und ein sprachaktiviertes System in Reaktion auf den erfassten Befehl steuert.
  • Einige der zuvor beschriebenen Ausführungsformen des Verfahrens 800 enthalten einen Schritt 830, in welchem ein Synthesizer, beispielsweise der Befehlssynthesizer 470, ausgebildet ist, einen phonetischen Befehl aus dem zeitlich und/oder spektral kompakten Audiobefehl zu synthetisieren.
  • In einigen der zuvor beschriebenen Ausführungsformen des Verfahrens 800 ist der kompakte Audiobefehl ein stimmerzeugtes Knackgeräusch. In einigen Ausführungsformen ist der kompakte Audiobefehl ein Schnippen. In einigen Ausführungsformen ist der Empfänger eine Komponente eines Telefonvermittlungssystems. In einigen der zuvor beschriebenen Ausführungsformen ist der Empfänger eine Komponente einer sprachaktivierten elektronischen Einrichtung.
  • Der Fachmann auf diesem Gebiet, an den sich die Anwendung richtet, erkennt, dass andere und weitere Hinzfügungen, Streichungen, Ergänzungen und Modifizierungen an den beschriebenen Ausführungsformen vorgenommen werden können.

Claims (10)

  1. Ein klangaktiviertes Steuerungssystem, mit: einem Audioempfänger, der ausgebildet ist, eine Audiosignalform zu empfangen und daraus eine digitale Audiosignalform zu erzeugen; einer Befehlsunterscheidungseinheit, die ausgebildet ist, einen zeitlich und/oder spektral kompakten nicht-phonetischen Audiobefehl innerhalb der digitalen Audiosignalform zu erfassen und ein sprachaktiviertes System in Reaktion auf den nicht-phonetischen Befehl zu steuern.
  2. Das System nach Anspruch 1, wobei der kompakte Audiobefehl ein stimmerzeugtes Klick- oder Knackgeräusch ist.
  3. Das System nach Anspruch 1, wobei der kompakte Audiobefehl ein Schnipsen ist.
  4. Das System nach Anspruch 1, wobei der Empfänger eine Komponente eines Telefonvermittlungssystems ist.
  5. Das System nach Anspruch 1, wobei die Befehlsunterscheidungseinheit ein sprachaktiviertes Befehlssystem umfasst, das ausgebildet ist, den zeitlich und/oder spektral kompakten Audiobefehl von einer gesprochenen Antwort zu unterscheiden.
  6. Das System nach Anspruch 1, wobei der Empfänger eine Komponente einer sprachaktivierten elektronischen Vorrichtung ist.
  7. Das System nach Anspruch 1, wobei die Befehlsunterscheidungseinheit ein digitaler Signalprozessor ist, der ausgebildet ist, das Auftreten des Audiobefehls in der digitalen Audiosignalform zu ermitteln.
  8. Das System nach Anspruch 7, wobei Bestimmen des Auftretens umfasst: Ausführen einer Leistungshöchstwertanalyse und einer spektralen Analyse der digitalen Audiosignalform.
  9. Eine elektronische Einrichtung mit: einem Audioempfänger, der ausgebildet ist, eine Audiosignalform zu empfangen und daraus eine digitale Audiosignalform zu erzeugen; einer Befehlsübersetzungseinheit, die ausgebildet ist, einen zeitlich und/oder spektral kompakten nicht-phonetischen Audiobefehl in der digitalen Audiosignalform zu erkennen und eine sprachaktiviertes System in Reaktion auf den nicht-phonetischen Audiobefehl zu steuern.
  10. Ein Verfahren zur Bereitstellung einer sprachaktivierten Steuerung, wobei das Verfahren umfasst: Bereitstellen eines Analog-Digital-Wandlers, der ausgebildet ist, eine empfangene Audiosignalform in eine digitale Audiosignalform umzuwandeln; Ankoppeln einer Befehlsunterscheidungseinheit an den Analog-Digital-Wandler, wobei die Befehlsunterscheidungseinheit ausgebildet ist um: einen zeitlich und/oder spektral kompakten nicht-phonetischen Audiobefehl in der digitalen Audiosignalform zu erfassen; und ein sprachaktiviertes System in Reaktion auf den nicht-phonetischen Befehl zu steuern.
DE102013002963A 2012-02-29 2013-02-22 Steuerung unter Anwendung zeitlich und/oder spektral kompakter Audiobefehle Ceased DE102013002963A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/408,863 2012-02-29
US13/408,863 US10276156B2 (en) 2012-02-29 2012-02-29 Control using temporally and/or spectrally compact audio commands

Publications (1)

Publication Number Publication Date
DE102013002963A1 true DE102013002963A1 (de) 2013-08-29

Family

ID=48950890

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102013002963A Ceased DE102013002963A1 (de) 2012-02-29 2013-02-22 Steuerung unter Anwendung zeitlich und/oder spektral kompakter Audiobefehle

Country Status (4)

Country Link
US (1) US10276156B2 (de)
CN (1) CN103295571A (de)
DE (1) DE102013002963A1 (de)
TW (1) TWI503814B (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
WO2018086521A1 (en) 2016-11-09 2018-05-17 Moore Kevin Daniel Martin Methods for reducing energy consumption in a heating, ventilation and air conditioning (hvac) system
CN109903751B (zh) 2017-12-08 2023-07-07 阿里巴巴集团控股有限公司 关键词确认方法和装置
CN112382281B (zh) * 2020-11-05 2023-11-21 北京百度网讯科技有限公司 一种语音识别方法、装置、电子设备和可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4507653A (en) 1983-06-29 1985-03-26 Bayer Edward B Electronic sound detecting unit for locating missing articles
US5270480A (en) * 1992-06-25 1993-12-14 Victor Company Of Japan, Ltd. Toy acting in response to a MIDI signal
US5493618A (en) * 1993-05-07 1996-02-20 Joseph Enterprises Method and apparatus for activating switches in response to different acoustic signals
DE19517470A1 (de) 1995-05-12 1996-11-14 Sel Alcatel Ag Digitaler Anrufbeantworter
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6760276B1 (en) * 2000-02-11 2004-07-06 Gerald S. Karr Acoustic signaling system
US6820056B1 (en) * 2000-11-21 2004-11-16 International Business Machines Corporation Recognizing non-verbal sound commands in an interactive computer controlled speech word recognition display system
JP5115058B2 (ja) * 2006-08-28 2013-01-09 株式会社Jvcケンウッド 電子機器の制御装置及び電子機器の制御方法
US20080083893A1 (en) * 2006-10-04 2008-04-10 Steven Rubenstein Voice-controlled faucet for water conservation
US20090182748A1 (en) * 2008-01-10 2009-07-16 Timothy Walker Interactive remote wireless system and method to assist in real estate transactions, and the like
TWI385932B (zh) 2008-03-26 2013-02-11 Asustek Comp Inc 遙控器以及其系統
KR20090107365A (ko) 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
KR101670741B1 (ko) * 2009-12-11 2016-10-31 엘지전자 주식회사 조명 장치
US8452260B2 (en) * 2010-03-25 2013-05-28 Hewlett-Packard Development Company, L.P. Methods and apparatus for unlocking an electronic device

Also Published As

Publication number Publication date
US20130226589A1 (en) 2013-08-29
TWI503814B (zh) 2015-10-11
TW201403587A (zh) 2014-01-16
CN103295571A (zh) 2013-09-11
US10276156B2 (en) 2019-04-30

Similar Documents

Publication Publication Date Title
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE102012217160B4 (de) Verfahren zum Korrigieren unverständlicher synthetischer Sprache
DE112014003337T5 (de) Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung
DE10122828A1 (de) Verfahren zum Training oder zur Adaption eines Spracherkenners
CN105657110B (zh) 语音通信的回声消除方法及装置
EP3451705A1 (de) Verfahren und vorrichtung zum schnellen erkennen der eigenen stimme
DE102016225204B4 (de) Verfahren zum Betrieb eines Hörgerätes
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
DE102013002963A1 (de) Steuerung unter Anwendung zeitlich und/oder spektral kompakter Audiobefehle
US9558730B2 (en) Audio signal processing system
DE112009002571T5 (de) Variable Rauschmaskierung während Phasen wesentlicher Stille
DE102019201456B3 (de) Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes
WO2008009429A1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
US7877252B2 (en) Automatic speech recognition method and apparatus, using non-linear envelope detection of signal power spectra
EP4189974A2 (de) System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality
DE102012102882A1 (de) Elektrische Vorrichtung und Verfahren zum Empfangen von Sprechstimmen-Signalen dafür
EP1062487B1 (de) Mikrophonanordnung für die spracherkennung unter variablen räumlichen bedingungen
EP2337378A2 (de) Verfahren zur Frequenztransposition bei einem Hörhilfegerät sowie Hörhilfegerät
EP1704561A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung
DE112020005717T5 (de) Erkennung von live-sprache
DE102006058758B4 (de) Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung
DE10016619A1 (de) Verfahren zur Herabsetzung von Störkomponenten in Sprachsignalen
DE102021103310B4 (de) Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum
CN106790957A (zh) 一种语音通信中的通信控制方法及装置
DE102011006472A1 (de) Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: KRAUS & WEISERT PATENTANWAELTE PARTGMBB, DE

R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final