DE112004000782T5 - Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus - Google Patents

Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus Download PDF

Info

Publication number
DE112004000782T5
DE112004000782T5 DE112004000782T DE112004000782T DE112004000782T5 DE 112004000782 T5 DE112004000782 T5 DE 112004000782T5 DE 112004000782 T DE112004000782 T DE 112004000782T DE 112004000782 T DE112004000782 T DE 112004000782T DE 112004000782 T5 DE112004000782 T5 DE 112004000782T5
Authority
DE
Germany
Prior art keywords
spoken
utterance
speech recognition
signal
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112004000782T
Other languages
English (en)
Inventor
Jordan Gloucester Cohen
Laurence S. Newton Gillick
Daniel L. Boston Roth
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voice Signal Technologies Inc
Original Assignee
Voice Signal Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voice Signal Technologies Inc filed Critical Voice Signal Technologies Inc
Publication of DE112004000782T5 publication Critical patent/DE112004000782T5/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Machine Translation (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

Verfahren zur Ausführung einer Spracherkennung bei einer mobilen Vorrichtung, wobei das Verfahren umfaßt:
Empfangen einer gesprochenen Äußerung von einem Anwender der mobilen Vorrichtung;
Verarbeiten eines Signals, das von der empfangenen, gesprochenen Äußerung erhalten wird, mit einem Spracherkennungsalgorithmus, wobei das Verarbeiten des erhaltenen Signals auch ein Bestimmen aufweist, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten;
wenn das Verarbeiten des erhaltenen Signals ergibt, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten, Ausführen eines Vorgangs, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern.

Description

  • TECHNISCHES GEBIET
  • Diese Erfindung bezieht sich im allgemeinen auf drahtlose Kommunikationsvorrichtungen mit Spracherkennungsfähigkeiten.
  • HINTERGRUND
  • Drahtlose Kommunikationsvorrichtungen, wie Mobilfunktelefone (Mobiltelefone), verwenden üblicherweise Spracherkennungsalgorithmen, die einem Anwender ermöglichen, die Vorrichtung in einem Freisprech- und Nicht-Sicht-Modus zu betreiben. Beispielsweise können Mobiltelefone, die zur Zeit auf dem Markt sind, gesprochene Befehle erkennen und ausführen, um einen abgehenden Telefonanruf zu initiieren, um einen eingehenden Telefonanruf zu beantworten und um andere Funktionen auszuführen. Viele dieser Mobiltelefone können auch einen gesprochen Namen erkennen, den erkannten Namen in einem elektronischen Telefonbuch lokalisieren und dann automatisch die Telefonnummer wählen, die mit dem erkannten Namen verbunden ist.
  • Spracherkennungsalgorithmen tendieren dazu, besser zu arbeiten, wenn die Umgebung, in der der Anwender die Vorrichtung betreibt, geringe Hintergrundgeräusche aufweist, das heißt, wenn das Signal-zu-Rausch-Verhältnis (SRV) des Sprachsignals hoch ist. Wenn der Pegel der Hintergrundgeräusche ansteigt, verringert sich das SRV des Sprachsignals, und die Fehlerrate des Spracherkennungsalgorithmus steigt typischerweise. Dies bedeutet, daß das gesprochene Wort entweder nicht oder nicht korrekt erkannt wird. Dies ist besonders bei Mobiltelefonen und anderen mobilen Kommuni kationsvorrichtungen ein Problem, bei denen die vorhandene Rechenleistung und der Rechenspeicher aufgrund der geringen Größe der kleineren Plattform sehr begrenzt sind. Des weiteren tendiert man dazu, Mobiltelefone und diese anderen mobilen Kommunikationsvorrichtungen in lauten Umgebungen zu verwenden. Beispielsweise sind zwei Orte, an denen Mobiltelefone üblicherweise verwendet werden, das Fahrzeug oder belebte Stadtstraßen. Das Sprachsignal wird im Fahrzeug, besonders wenn es auf einer Autobahn gefahren wird, mit einer signifikanten Menge von Fahrzeuggeräuschen gemischt (beispielsweise das Geräusch, das durch die Räder auf dem Belag verursacht wird, das Geräusch, das durch die über das Fahrzeug strömende Luft erzeugt wird, Musik aus dem Radio etc.). Und auf einer belebten Stadtstraße wird das Sprachsignal mit Verkehrsgeräuschen, Fahrzeughupen, Stimmen von sich in der Nähe befindenden, sprechenden Personen etc. gemischt.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Das beschriebene Ausführungsbeispiel informiert einen Anwender eines Mobiltelefons, wenn die Sprachumgebung für einen verläßlichen Betrieb des eingebauten Stimmenerkenners zu laut ist. Der Anwender des Mobiltelefons kann dann Schritte unternehmen, um das SRV zu erhöhen, beispielsweise entweder durch lauteres Sprechen oder durch Reduzieren des Geräuschpegels.
  • In einem Aspekt enthält ein Verfahren zur Ausführung von Spracherkennung bei einer mobilen Vorrichtung ein Erhalten einer gesprochenen Äußerung eines Anwenders einer mobilen Vorrichtung und Verarbeiten eines Signals, das von der erhaltenen gesprochenen Äußerung stammt, mit einem Spracherkennungsalgorithmus. Das Verarbeiten des erhaltenen Signals umfaßt auch ein Bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerungen zu ergeben. Das Verfahren enthält des weiteren ein Ausführen eines Vorgangs, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern, wenn das Verarbeiten des erhaltenen Signals ermittelt, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu ergeben.
  • Der Vorgang zur Verbesserung der Erkennung des Inhalts der gesprochenen Äußerung kann ein Alarmieren des Anwenders umfassen, daß dort zu viele Geräusche vorhanden waren, um eine verläßliche Erkennung der gesprochenen Äußerung zu ermöglichen. Der Vorgang kann ein Anfragen an den Anwender, die Äußerung zu wiederholen, oder ein Erzeugen eines Tonsignals oder eines visuellen Signals umfassen. Der Vorgang kann eine mechanische Vibration der mobilen Vorrichtung umfassen.
  • Der Vorgang zur Verbesserung der Erkennung des Inhalts der gesprochenen Äußerung kann ein Modifizieren des Spracherkennungsalgorithmus umfassen, um eine Erkennungsleistung in der Umgebung, in der die Äußerung gesprochen wurde, zu verbessern. Der Spracherkennungsalgorithmus kann ein akustisches Modell enthalten, wobei ein Modifizieren des Spracherkennungsalgorithmus ein Ändern des akustischen Modells umfaßt. Der Spracherkennungsalgorithmus kann ein akustisches Modell enthalten, das parameterisiert ist, um verschiedene Pegel von Hintergrundgeräuschen zu verarbeiten, wobei ein Modifizieren des Spracherkennungsalgorithmus ein Ändern von Parametern in dem akustischen Modell umfaßt, um sich auf den Pegel der Hintergrundgeräusche einzustellen.
  • Der Schritt des Bestimmens, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu ergeben, kann ein Berechnen eines Signal-zu-Rausch-Verhältnisses für die erhaltene Äußerung und ein Vergleichen des berechneten Signal-zu-Rausch-Verhältnisses mit einem Schwellenwert enthalten.
  • In einem anderen Aspekt enthält eine Ausführung ein Computerlesbares Medium, das Instruktionen gespeichert hat, die, wenn sie auf einem Prozessorsystem ausgeführt werden, das Prozessorsystem veranlassen, einen Spracherkennungsalgorithmus zu verwenden, um ein Signal zu verarbeiten, das von einer Äußerung stammt, die von einem Anwender gesprochen wurde. Die in dem Prozessorsystem ausgeführten Instruktionen bestimmen des weiteren, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu ergeben. Wenn ermittelt wird, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu ergeben, führen die in dem Prozessorsystem ausgeführten Instruktionen einen Vorgang aus, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern.
  • Die gespeicherten Instruktionen, die im Prozessorsystem ausgeführt werden, veranlassen das Prozessorsystem, einen Vorgang durch Alarmieren des Anwenders auszuführen, daß dort zu viele Geräusche waren, um eine verläßliche Erkennung der gesprochenen Äußerung zu ermöglichen, oder die Instruktionen veranlassen das Prozessorsystem, durch Berechnen eines Signal-zu-Rausch-Verhältnisses für die gesprochene Äußerung zu bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu ergeben. Die gespeicherten Instruktionen, die in dem Prozessorsystem ausgeführt werden, veranlassen das Prozessorsystem, auch durch Vergleichen des berechneten Signal-zu-Rausch-Verhältnisses mit einem Schwellenwert zu bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu erhalten.
  • Die in dem Prozessorsystem ausgeführten Instruktionen können das Prozessorsystem veranlassen, einen Vorgang durch Modifizieren des Spracherkennungsalgorithmus auszuführen, um die Erkennungsleistung in der Umgebung, in der die Äußerung gesprochen wurde, zu verbessern. Bei einem Ausführungsbeispiel enthält der Spracherkennungsalgorithmus ein akustisches Modell, und die gespeicherten Instruktionen veranlassen das Prozessorsystem, den Spracherkennungsalgorithmus durch Ändern des akustischen Modells zu modifizieren. Bei einem anderen Ausführungsbeispiel enthält der Sprachalgorithmus ein akustisches Modell, das parameterisiert ist, um verschiedene Pegel von Hintergrundgeräuschen zu verarbeiten. Die gespeicherten Instruktionen veranlassen das Prozessorsystem, den Spracherkennungsalgorithmus durch Ändern von Parametern in dem akustischen Modell zur Anpassung hinsichtlich des Pegels des Hintergrundgeräusches zu modifizieren.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Flußdiagramm des Betriebs eines Ausführungsbeispiels der Erfindung; und
  • 2 ist eine Blockschaltbild auf hoher Ebene für ein intelligentes Telefon (Smartphone), bei dem die hier beschriebene Funktionalität implementiert werden kann.
  • DETAILLIERTE BESCHREIBUNG
  • Das beschriebene Ausführungsbespiel ist ein Mobiltelefon mit einer Software, die eine Spracherkennungsfunktionalität bereitstellt, wie sie üblicherweise bei vielen Mobiltelefonen gefunden wird, die heutzutage käuflich erhältlich sind. Im allgemeinen ermöglicht die Spracherkennungsfunktionalität einem Anwender, die manuelle Tastatur zu umgehen und Befehle und Daten mit gesprochenen Wörtern einzugeben. In diesem Fall bestimmt die Software auch, wann die Umgebung, in der das Mobiltelefon verwendet wird, zu laut ist, um eine verläßliche Erkennung der durch den Anwender gesprochenen Wörter zu ergeben. Bei dem Ausführungsbeispiel, das im Detail unten beschrieben wird, mißt die Software ein SRV und vergleicht dieses mit einem vorbestimmten Schwellenwert, um zu bestimmen, ob dort zu viele Geräusche sind. Bei Bestimmung, daß die Umgebung zu laut ist, kann das Mobiltelefon dann einige Vorgänge auslösen, um diesem Problem zu begegnen. Beispielsweise alarmiert es entweder den Anwender von der Tatsache, daß die Umgebung zu laut ist, um eine verläßliche Erkennung zu ermöglichen, oder es modifiziert den internen Spracherkennungsalgorithmus, um die Erkennungsleistung in dieser bestimmten Umgebung zu verbessern.
  • Mit Hilfe des Flußdiagramms, das in 1 dargestellt ist, beschreiben wir nun den Betrieb eines bestimmten Ausführungsbeispiels der Erfindung. Im Folgenden werden wir alternative Ansätze, um zu bestimmen, wann die Umgebung zu laut ist, und alternative Ansätze beschreiben, um auf laute Umgebung zu reagieren. Schließlich werden wir ein typisches Mobiltelefon beschreiben, bei dem die Funktionalität implementiert werden kann.
  • Das Mobiltelefon erhält als erstes einen Aufwachbefehl (Block 200), welcher ein Knopfdruck, ein Tastenanschlag, ein bestimmtes gesprochenes Schlüsselwort oder einfach das Beginnen des Sprechens des Anwenders sein kann. Der Aufwachbefehl initiiert das Verfahren, das bestimmt, ob die Sprachumgebung zu laut ist. Wenn der Aufwachbefehl ein gesprochener Befehl ist, kann die Software konfiguriert sein, den Aufwachbefehl zu verwenden, um das SRV zu messen. Alternativ hierzu kann sie konfiguriert sein, auf die nächste Äußerung, die von dem Anwender erhalten wird, zu warten und diese nächste Äußerung (oder einen Teil dieser Äußerung) zu verwenden, um das SRV zu messen.
  • Um das SRV zu bestimmen, berechnet die Stimmenerkennungssoftware die Energie als eine Funktion der Zeit für die Äußerung (Block 202). Sie identifiziert dann den Teil der Äußerung mit der höchsten Energie (Block 204) und identifiziert den Teil mit der geringsten Energie (Block 206). Die Software verwendet diese zwei Werte, um ein SRV für die Äußerung zu berechnen (Block 208). In diesem Fall ist das SNV einfach das Verhältnis des höchsten Wertes zum geringsten Wert.
  • Bei dem beschriebenen Ausführungsbeispiel verarbeitet die Erkennungssoftware die erhaltene Äußerung auf einer Datenübertragungsblock-nach-Datenübertragungsblock-Basis, wobei jeder Datenübertragungsblock eine Sequenz von Abtastungen der Äußerungen darstellt. Für jeden Datenübertragungsblock berechnet die Software einen Energiewert. Sie tut dies durch Integrieren der abgetasteten Energie über den gesamte Datenübertragungsblock, so daß der berechnete Energiewert die gesamte Energie für den zugehörigen Datenübertragungsblock darstellt. Am Ende der Äußerung (oder nachdem einige Zeit nach dem Beginn der Äußerung vergangen ist) identifiziert die Software den Datenübertragungsblock mit dem höchsten Energiewert und den Datenübertragungsblock mit dem geringsten Energiewert. Sie berechnet dann das SRV durch Dividieren der Energie des Datenübertragungsblocks mit dem höchsten Energiewert durch die Energie des Datenübertragungsblocks mit dem geringsten Energiewert.
  • Die Stimmenerkennungssoftware vergleicht das berechnete Signal-zu-Rausch-Verhältnis mit einem Eignungs-Schwellenwert (Block 210). Der Schwellenwert stellt den Pegel dar, den das SRV für die Spracherkennung überschreiten muß, um eine akzeptable geringe Fehlerrate zu erzeugen. Der Schwellenwert kann empirisch, analytisch oder durch eine Kombination von beiden bestimmt werden. Die Software ermöglicht es dem Anwender auch, diesen Schwellenwert anzupassen, um die Leistung oder Sensibilität des Mobiltelefons einzustellen.
  • Wenn das Signal-zu-Rausch-Verhältnis den Eignungs-Schwellenwert nicht überschreitet, informiert die Stimmenerkennungssoftware den Anwender, daß das Signal-zu-Rausch-Verhältnis zu gering ist 212.
  • Wenn das Signal-zu-Rausch-Verhältnis nicht den Eignungs-Schwellenwert überschreitet, unternimmt die Stimmenerkennungssoftware Schritte, um diesem Problem zu entgegnen (Block 212). Bei dem beschriebenen Ausführungsbeispiel tut sie dies durch Unterbrechung der Erkennung und einfachem Alarmieren des Anwenders, daß dort für eine verläßliche Erkennung zuviel Lärm ist. Der Anwender kann dann versuchen, den Hintergrundgeräuschpegel zu reduzieren (beispielsweise durch Ändern seines Ortes, Verleisern des Radios, Warten, daß ein bestimmtes lautes Ereignis beendet wird etc.). Die Stimmenerkennungssoftware alarmiert den Anwender durch irgendeine oder mehrere von einer Anzahl von verschiedenen Wegen, die durch den Anwender konfiguriert werden können, einschließlich eines Tonsignals (das heißt ein Piepton oder ein Ton), ein visuelles Signal (d.h. eine Nachricht oder ein blinkendes Symbol auf dem Display des Mobiltelefons), ein fühlbares Signal (beispielsweise ein Vibrationspuls, wenn das Mobiltelefon so ausgestattet ist) oder irgendeine Kombination hiervon.
  • Wenn das Signal-zu-Rausch-Verhältnis den Eignungs-Schwellenwert überschreitet, fährt die Stimmenerkennungssoftware mit dem normalen Verfahren fort.
  • Die Spracherkennungsalgorithmen können andere Techniken (oder Kombinationen von diesen Techniken) zur Berechnung eines Signal-zu-Rausch-Verhältnisses für ein Sprachsignal verwenden. Im allgemeinen bestimmten diese Techniken die Menge an Energie in der eingehenden Sprache relativ zur Energie in der Nicht-Sprache. Eine alternative Technik ist die Erzeugung eines Energie-Histogramms über eine Äußerung oder eine Zeitspanne und die Berechnung eines Verhältnisses von Percentilen von niedriger Energie gegen Percentilen höherer Energie (beispielsweise 5-Prozent-Energiebereiche gegen 95-Prozent-Energiebereiche). Eine andere Technik ist die Verwendung eines HMM (Hidden Markov Model) mit zwei Zuständen und die Berechnung von Mittelwerten und Varianzen für die zwei Zustände, wobei einer der Zustände die Sprache darstellt und der andere Zustand das Geräusch darstellt.
  • Der Spracherkennungsalgorithmus kann auch eine Statistik berechnen, die sich auf das Signal-zu-Rausch-Verhältnis bezieht. Diese Statistik wird als "Verständlichkeitsindex" bezeichnet. Gemäß diesem Ansatz separiert die Spracherkennungssoftware die akustischen Datenübertragungsblöcke (oder Abtastungen innerhalb dieser Datenübertragungsblöcke) in diskrete Frequenzbereiche und berechnet ein Hochenergie-zu-Niedrigenergie-Verhältnis nur für eine Untermenge von diesen Frequenzbereichen. Beispielsweise kann in einer bestimmten Umgebung ein Geräusch in den Frequenzen von 300 Hz bis 600Hz überwiegen. So würde die Spracherkennungssoftware das Hochenergie-zu-Niedrigenergie-Verhältnis nur für Energien berechnen, die innerhalb dieses Frequenzbereichs fallen. Alternativ kann die Spracherkennungssoftware einen Gewichtungsfaktor auf jede der verschiedenen Frequenzbereiche anwenden und ein gewichtetes, gemischtes Hochenergie-zu-Niedrigenergie-Verhältnis berechnen.
  • Bei dem oben beschriebenen Ausführungsbeispiel reagiert die Spracherkennungssoftware auf ein Detektieren eines geringen SRV durch Alarmieren des Anwenders. Es existieren andere Weisen, wie es reagieren könnte, als Alternative zu oder zusätzlich zur Sendung eines einfachen Alarms. Beispielsweise kann die Spracherkennungssoftware den Anwender entweder visuell oder akustisch instruieren, die Äußerung zu wiederholen. Anstatt den Anwender zu alarmieren, könnte die Spracherkennungssoftware das akustische Modell modifizieren, um die laute Umgebung zu berücksichtigen, um einen Spracherzeuger zu erzeugen, der in dieser Umgebung besser arbeitet.
  • Beispielsweise könnte die Spracherkennungssoftware ein akustisches Modell enthalten, das von der lauten Sprache trainiert worden ist. Solch ein akustisches Modell könnte parameterisiert sein, um verschiedene Pegel von Geräuschen zu verarbeiten. In diesem Fall würde die Spracherkennungssoftware den geeigneten dieser Pegel in Abhängigkeit von dem berechneten Signal-zu-Rausch-Verhältnis auswählen. Alternativ könnte das akustische Modell skalierbar sein, um einen Bereich von Geräuschpegeln zu verarbeiten, wobei in diesem Fall die Spracherkennungssoftware das verwendete Modell gemäß dem berechneten Signal-zu-Rausch-Verhältnis skalieren würde. Ein noch weiterer Ansatz ist die Verwendung eines akustischen Modells, das parameterisiert ist, um Kategorien von Geräuschen zu verarbeiten (beispielsweise Fahrzeuggeräusche, Straßengeräusche, Auditoriumgeräusche etc), wobei in diesem Fall die Spracherkennungssoftware eine bestimmte Kategorie für das Modell in Abhängigkeit von der Anwender-Eingabe und/oder dem berechneten Signal-zu-Rausch-Verhältnis auswählen würde.
  • Ein noch weiterer Ansatz ist die Verwendung eines akustischen Modells mit einem unterschiedlichen phonetischen Bestand, um eine Umgebung mit lauten Geräuschen zu berücksichtigen. Beispielsweise kann eine Umgebung mit lauten Geräuschen bestimmte Konsonanten verdunkeln (beispielsweise "p's" und "b's"), so daß ein akustisches Modell mit einem phonetischen Bestand, der spezifisch ausgebildet ist, um solche verdunkelten Konsonanten zu dekodieren, in einer lauten Umgebung bezüglich des vorgegebenen akustischen Modell besser arbeitet.
  • Ein weiterer Ansatz würde sein, ein akustisches Modell mit einer unterschiedlichen Klassifizierungsgeometrie zu verwenden, um eine Umgebung mit geringem Signal-zu-Rausch-Verhältnis zu kompensieren. Derartige Klassifizierer enthalten HMMs, neurale Netzwerke oder andere Sprachklassifizierer, die aus dem Stand der Technik bekannt sind. Die Spracherkennungs software kann alternativ ein akustisches Modell mit unterschiedlicher Anfangs- und Endparameterisierung verwenden, um eine bessere Leistung in einer lauten Umgebung bereitzustellen. Beispielsweise kann ein akustisches Modell, das eine spektrale Darstellung des akustischen Signals verarbeitet, besser als ein akustisches Modell arbeiten, das eine Cepstraldarstellung des Signals verarbeitet, wenn das Geräusch auf einem bestimmten engen Frequenzbereich eingeschränkt wird. Dies ist dadurch bedingt, daß das Spektralmodell den lauten Frequenzbereich herausschneiden kann, während das Cepstralmodell dies nicht kann.
  • Ein Smartphone 100, wie in 2 dargestellt, ist ein Beispiel einer Plattform, die die oben beschriebene Spracherkennungsfunktion implementieren kann. Ein Beispiel eines Smartphones 100 ist ein Telefon, angetrieben mit einem Microsoft-Taschen-PC, das an seinem Kern einen Basisband DSP 102 (Digital-Signal-Prozessor) zur Verarbeitung der Mobilfunk-Kommunikationsfunktionen (einschließlich beispielsweise Stimmenband und Kanalkodierungsfunktion) und einen Anwendungsprozessor 104 (beispielsweise Intel StrongArm SA-1110) enthält, auf dem das Taschen-Computer betriebene System läuft. Das Telefon unterstützt GSM-Anrufe, SMS (Short Messaging Service)-Texmitteilungen, drahtlose E-Mail und Desktop-artiges Web-Browsing mit mehr traditionellen PDA-Merkmalen.
  • Ein RF-Erzeuger 106 und ein RF-Funksender/Empfänger 108, gefolgt von einem Leistungsverstärkermodul 110, implementieren die Übertragungs- und Empfangsfunktionen. Das Leistungsverstärkermodul verarbeitet die Endstufen-RF-Übertragungsaufgaben durch eine Antenne 112. Ein Interface ASIC 114 und ein Audio-CODEC 116 stellen Schnittstellen für einen Lautsprecher, ein Mikrofon und andere Eingabe/Ausgabevorrichtungen zur Verfügung, die in dem Telefon bereitgestellt sind, so wie eine numerische oder alphanumerische Tastatur (nicht dargestellt) zur Eingabe von Befehlen und Informationen.
  • DSP 102 verwendet einen Flash-Speicher 118 zur Speicherung von Codes. Eine Li-Ion (Litium-Ion)-Batterie 120 versorgt das Telefon, und ein Leistungs-Management-Modul 122, das an den DSP 102 gekoppelt ist, steuert den Energieverbrauch innerhalb des Telefons. SDRAM 124 und der Flash-Speicher 126 stellen einen flüchtigen Speicher bzw. einen nicht-flüchtigen Speicher für Anwendungsprozessoren 114 zur Verfügung. Diese Anordnung des Speichers enthält den Code für das Betriebssystem, den Code für anpaßbare Merkmale so wie das Telefonbuch und den Code für jede andere Anwendungssoftware in dem Smartphone, einschließlich der oben beschriebenen Stimmenerkennungssoftware. Die Anzeigedisplay-Vorrichtung für das Smartphone enthält einen LCD-Treiberchip 128, der einen LCD-Display 130 ansteuert. Es existiert auch ein Taktmodul 132, das die Taktsignale für die anderen Vorrichtungen innerhalb des Telefons und einen Indikator der Echt-Zeit bereitstellt. Alle oben beschriebenen Bauteile sind Einheiten innerhalb eines geeignet ausgebildeten Gehäuses 134.
  • Das oben beschriebene Smartphone 100 stellt den allgemeinen internen Aufbau einer Anzahl von unterschiedlichen, käuflich erhältlichen Smartphones dar, und der interne Schaltkreisaufbau dieser Telefone ist im allgemeinen aus dem Stand der Technik bekannt.
  • Andere Aspekte, Modifikationen und Ausführungsbeispiele liegen im Bereich der folgenden Ansprüche.
  • Zusammenfassung
  • Ein Verfahren zum Verarbeiten von Sprache in einer lauten Umgebung enthält ein Bestimmen, bei einem Aufwachbefehl, wann die Umgebung zu laut ist, um eine verläßliche Erkennung eines gesprochenen Wortes eines Anwenders zu erhalten, und Alarmieren des Anwenders, daß die Umgebung zu laut ist. Die Bestimmung, wann die Umgebung zu laut ist, enthält ein Berechnen eines Signal-zu-Rausch-Verhältnisses. Das Signal entspricht einer Menge Energie in der gesprochenen Äußerung, und das Rauschen entspricht einer Menge Energie in dem Hintergrundgeräusch. Das Verfahren enthält des weiteren ein Vergleichen des Signal-zu-Rausch-Verhältnisses mit einem Schwellenwert.

Claims (19)

  1. Verfahren zur Ausführung einer Spracherkennung bei einer mobilen Vorrichtung, wobei das Verfahren umfaßt: Empfangen einer gesprochenen Äußerung von einem Anwender der mobilen Vorrichtung; Verarbeiten eines Signals, das von der empfangenen, gesprochenen Äußerung erhalten wird, mit einem Spracherkennungsalgorithmus, wobei das Verarbeiten des erhaltenen Signals auch ein Bestimmen aufweist, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten; wenn das Verarbeiten des erhaltenen Signals ergibt, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten, Ausführen eines Vorgangs, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern.
  2. Verfahren nach Anspruch 1, bei dem das Ausführen des Vorgangs ein Alarmieren des Anwenders umfaßt, daß dort zu viele Geräusche waren, um eine verläßliche Erkennung der gesprochenen Äußerung zu ermöglichen.
  3. Verfahren nach Anspruch 2, bei dem das Alarmieren auch ein Fragen des Anwenders umfaßt, die Äußerung zu wiederholen.
  4. Verfahren nach Anspruch 2, bei dem das Alarmieren ein Erzeugen eines Tonsignals umfaßt.
  5. Verfahren nach Anspruch 2, bei dem das Alarmieren ein Erzeugen eines visuellen Signals umfaßt.
  6. Verfahren nach Anspruch 2, bei dem das Alarmieren ein Erzeugen eines fühlbaren Signals umfaßt.
  7. Verfahren nach Anspruch 6, bei dem das fühlbare Signal eine mechanische Vibration der mobilen Vorrichtung ist.
  8. Verfahren nach Anspruch 1, bei dem das Bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu erhalten, ein Berechnen eines Signals-zu-Rausch-Verhältnisses für die erhaltene Äußerung umfaßt.
  9. Verfahren nach Anspruch 8, bei dem das Bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu erhalten, des weiteren ein Vergleichen des berechneten Signal-zu-Rausch-Verhältnisses mit einem Schwellenwert umfaßt.
  10. Verfahren nach Anspruch 1, bei dem das Ausführen des Vorgangs ein Modifizieren des Spracherkennungsalgorithmus umfaßt, um die Erkennungsleistung in der Umgebung, in der die Äußerung gesprochen wurde, zu verbessern.
  11. Verfahren nach Anspruch 10, bei dem der Spracherkennungsalgorithmus ein akustisches Modell enthält und bei dem das Modifizieren des Spracherkennungsalgorithmus ein Ändern des akustischen Modells umfaßt.
  12. Verfahren nach Anspruch 10, bei dem der Spracherkennungsalgorithmus ein akustisches Modell enthält, das parameterisiert ist, um verschiedene Pegel von Hintergrundgeräuschen zu verarbeiten, und wobei das Modifizieren des Spracherkennungsalgorithmus ein Ändern der Parameter im akustischen Modell umfaßt, um sich an den Pegel der Hintergrundgeräusche anzupassen.
  13. Computerlesbares Medium, das Instruktionen speichert, die, wenn sie auf einem Prozessorsystem ausgeführt werden, das Prozessorsystem veranlassen: einen Spracherkennungsalgorithmus zu verwenden, um ein Signal zu verarbeiten, das von einer Äußerung erhalten wird, die durch einen Anwender gesprochen wird; zu bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten; und wenn bestimmt wird, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten, einen Vorgang auszuführen, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern.
  14. Computerlesbares Medium nach Anspruch 13, wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, den Vorgang durch Alarmieren des Anwenders auszuführen, daß dort zu viele Geräusche sind, um eine verläßliche Erkennung der gesprochenen Äußerung zu ermöglichen.
  15. Computerlesbares Medium nach Anspruch 13, wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, durch Berechnen eines Signals-zu-Rausch-Verhältnisses für die gesprochene Äußerung zu bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu erhalten.
  16. Computerlesbares Medium nach Anspruch 13, wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, auch durch Vergleich des berechneten Signal-zu-Rausch-Verhältnisses mit einem Schwellenwert zu bestimmen, ob die Umgebung in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu erhalten.
  17. Computerlesbares Medium nach Anspruch 13, wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, den Vorgang durch Modifizieren des Spracherkennungsalgorithmus auszuführen, um die Erkennungsleistung in der Umgebung, in der die Äußerung gesprochen wurde, zu verbessern.
  18. Computerlesbares Medium nach Anspruch 17, wobei der Spracherkennungsalgorithmus ein akustisches Modell enthält und wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, den Spracherkennungsalgorithmus durch Ändern des akustischen Modells zu modifizieren.
  19. Computerlesbares Medium nach Anspruch 17, wobei der Sprachalgorithmus ein akustisches Modell enthält, das parameterisiert ist, um unterschiedliche Pegel von Hintergrundgeräuschen zu verarbeiten, und wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, den Spracherkennungsalgorithmus durch Ändern von Parametern in dem akustischen Modell zu modifizieren, um sich auf den Pegel der Hintergrundgeräusche einzustellen.
DE112004000782T 2003-05-08 2004-05-10 Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus Withdrawn DE112004000782T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US46962703P 2003-05-08 2003-05-08
US60/469,627 2003-05-08
PCT/US2004/014498 WO2004102527A2 (en) 2003-05-08 2004-05-10 A signal-to-noise mediated speech recognition method

Publications (1)

Publication Number Publication Date
DE112004000782T5 true DE112004000782T5 (de) 2008-03-06

Family

ID=33452306

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112004000782T Withdrawn DE112004000782T5 (de) 2003-05-08 2004-05-10 Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus

Country Status (6)

Country Link
US (1) US20040260547A1 (de)
JP (1) JP2007501444A (de)
CN (1) CN1802694A (de)
DE (1) DE112004000782T5 (de)
GB (1) GB2417812B (de)
WO (1) WO2004102527A2 (de)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
TWI319152B (en) * 2005-10-04 2010-01-01 Ind Tech Res Inst Pre-stage detecting system and method for speech recognition
US7706297B1 (en) * 2006-05-19 2010-04-27 National Semiconductor Corporation System and method for providing real time signal to noise computation for a 100Mb Ethernet physical layer device
JPWO2008007616A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 無音声発声の入力警告装置と方法並びにプログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP5151103B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
JP5151102B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
KR100834679B1 (ko) * 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
US8019050B2 (en) * 2007-01-03 2011-09-13 Motorola Solutions, Inc. Method and apparatus for providing feedback of vocal quality to a user
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
WO2010054373A2 (en) * 2008-11-10 2010-05-14 Google Inc. Multisensory speech detection
JP5402089B2 (ja) * 2009-03-02 2014-01-29 富士通株式会社 音響信号変換装置、方法、及びプログラム
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
CN102044241B (zh) * 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
US8279052B2 (en) 2009-11-04 2012-10-02 Immersion Corporation Systems and methods for haptic confirmation of commands
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP6024180B2 (ja) * 2012-04-27 2016-11-09 富士通株式会社 音声認識装置、音声認識方法、及びプログラム
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9311931B2 (en) * 2012-08-09 2016-04-12 Plantronics, Inc. Context assisted adaptive noise reduction
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9691377B2 (en) * 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9251804B2 (en) 2012-11-21 2016-02-02 Empire Technology Development Llc Speech recognition
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9418651B2 (en) 2013-07-31 2016-08-16 Google Technology Holdings LLC Method and apparatus for mitigating false accepts of trigger phrases
US9031205B2 (en) * 2013-09-12 2015-05-12 Avaya Inc. Auto-detection of environment for mobile agent
EP3139377B1 (de) * 2014-05-02 2024-04-10 Sony Interactive Entertainment Inc. Führungsvorrichtung, führungsverfahren, programm und informationsspeichermedium
US9548065B2 (en) * 2014-05-05 2017-01-17 Sensory, Incorporated Energy post qualification for phrase spotting
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10074360B2 (en) * 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10678828B2 (en) * 2016-01-03 2020-06-09 Gracenote, Inc. Model-based media classification service using sensed media noise characteristics
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US20170294138A1 (en) * 2016-04-08 2017-10-12 Patricia Kavanagh Speech Improvement System and Method of Its Use
US10037677B2 (en) 2016-04-20 2018-07-31 Arizona Board Of Regents On Behalf Of Arizona State University Speech therapeutic devices and methods
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10283138B2 (en) * 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
US10462567B2 (en) 2016-10-11 2019-10-29 Ford Global Technologies, Llc Responding to HVAC-induced vehicle microphone buffeting
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN108447472B (zh) * 2017-02-16 2022-04-05 腾讯科技(深圳)有限公司 语音唤醒方法及装置
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10186260B2 (en) * 2017-05-31 2019-01-22 Ford Global Technologies, Llc Systems and methods for vehicle automatic speech recognition error detection
US10525921B2 (en) 2017-08-10 2020-01-07 Ford Global Technologies, Llc Monitoring windshield vibrations for vehicle collision detection
US10562449B2 (en) 2017-09-25 2020-02-18 Ford Global Technologies, Llc Accelerometer-based external sound monitoring during low speed maneuvers
US10479300B2 (en) 2017-10-06 2019-11-19 Ford Global Technologies, Llc Monitoring of vehicle window vibrations for voice-command recognition
KR102492727B1 (ko) * 2017-12-04 2023-02-01 삼성전자주식회사 전자장치 및 그 제어방법
CN108564948B (zh) * 2018-03-30 2021-01-15 联想(北京)有限公司 一种语音识别方法及电子设备
CN113555028B (zh) * 2021-07-19 2024-08-02 首约科技(北京)有限公司 一种用于车联网语音降噪的处理方法
WO2023050301A1 (zh) * 2021-09-30 2023-04-06 华为技术有限公司 语音质量评估、语音识别质量预测与提高的方法及装置
CN118158596B (zh) * 2023-12-07 2024-08-16 中国建筑科学研究院有限公司 应用于绿色建筑的基于掩蔽效应的智能声景控制方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2003A (en) * 1841-03-12 Improvement in horizontal windivhlls
JPH11194797A (ja) * 1997-12-26 1999-07-21 Kyocera Corp 音声認識作動装置
US6336091B1 (en) * 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US6370503B1 (en) * 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US6954657B2 (en) * 2000-06-30 2005-10-11 Texas Instruments Incorporated Wireless communication device having intelligent alerting system
US20020087306A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented noise normalization method and system
JP2002244696A (ja) * 2001-02-20 2002-08-30 Kenwood Corp 音声認識による制御装置
JP2003091299A (ja) * 2001-07-13 2003-03-28 Honda Motor Co Ltd 車載用音声認識装置
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems

Also Published As

Publication number Publication date
US20040260547A1 (en) 2004-12-23
GB2417812A (en) 2006-03-08
GB0523024D0 (en) 2005-12-21
WO2004102527A2 (en) 2004-11-25
WO2004102527A3 (en) 2005-02-24
JP2007501444A (ja) 2007-01-25
CN1802694A (zh) 2006-07-12
WO2004102527A8 (en) 2005-04-14
GB2417812B (en) 2007-04-18

Similar Documents

Publication Publication Date Title
DE112004000782T5 (de) Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus
DE102019112380B4 (de) Verfahren und System zur robusten Sprechererkennungsaktivierung
US6336091B1 (en) Communication device for screening speech recognizer input
DE60036931T2 (de) Anwender-sprachschnittstelle für sprachgesteuerte systeme
CN1306472C (zh) 分布式语音识别系统中用于发送语音活动的系统和方法
DE112014000709B4 (de) Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
CN1160698C (zh) 噪声信号中语音的端点定位
US6321197B1 (en) Communication device and method for endpointing speech utterances
DE69827667T2 (de) Vokoder basierter spracherkenner
DE60003971T2 (de) Verteilte Architektur zum Trainieren eines Spracherkennungssystems
CN103026407B (zh) 带宽扩展器
DE69232463T2 (de) Sprachgesteuertes nachrichtensystem und verarbeitungsverfahren
CN103065631B (zh) 一种语音识别的方法、装置
DE112018002857T5 (de) Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
CN1805008B (zh) 语音检测装置、自动图像拾取装置和语音检测方法
US20040122666A1 (en) Method and apparatus for displaying speech recognition results
DE112017003563T5 (de) Verfahren und system einer automatischen spracherkennung unter verwendung a-posteriori-vertrauenspunktzahlen
DE19956747C1 (de) Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
CN103971680A (zh) 一种语音识别的方法、装置
CN101599269A (zh) 语音端点检测方法及装置
DE112005000924T5 (de) Stimme über Short Message Service
CN109065075A (zh) 一种语音处理方法、装置、系统及计算机可读存储介质
CN108010513B (zh) 语音处理方法及设备
DE10251113A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
US20060100866A1 (en) Influencing automatic speech recognition signal-to-noise levels

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee