DE112004000782T5 - Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus - Google Patents
Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus Download PDFInfo
- Publication number
- DE112004000782T5 DE112004000782T5 DE112004000782T DE112004000782T DE112004000782T5 DE 112004000782 T5 DE112004000782 T5 DE 112004000782T5 DE 112004000782 T DE112004000782 T DE 112004000782T DE 112004000782 T DE112004000782 T DE 112004000782T DE 112004000782 T5 DE112004000782 T5 DE 112004000782T5
- Authority
- DE
- Germany
- Prior art keywords
- spoken
- utterance
- speech recognition
- signal
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000001404 mediated effect Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 24
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000013459 approach Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 229910001416 lithium ion Inorganic materials 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- QNXAVFXEJCPCJO-UHFFFAOYSA-N Diclosulam Chemical compound N=1N2C(OCC)=NC(F)=CC2=NC=1S(=O)(=O)NC1=C(Cl)C=CC=C1Cl QNXAVFXEJCPCJO-UHFFFAOYSA-N 0.000 description 1
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Navigation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Machine Translation (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Verfahren
zur Ausführung
einer Spracherkennung bei einer mobilen Vorrichtung, wobei das Verfahren
umfaßt:
Empfangen einer gesprochenen Äußerung von einem Anwender der mobilen Vorrichtung;
Verarbeiten eines Signals, das von der empfangenen, gesprochenen Äußerung erhalten wird, mit einem Spracherkennungsalgorithmus, wobei das Verarbeiten des erhaltenen Signals auch ein Bestimmen aufweist, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten;
wenn das Verarbeiten des erhaltenen Signals ergibt, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten, Ausführen eines Vorgangs, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern.
Empfangen einer gesprochenen Äußerung von einem Anwender der mobilen Vorrichtung;
Verarbeiten eines Signals, das von der empfangenen, gesprochenen Äußerung erhalten wird, mit einem Spracherkennungsalgorithmus, wobei das Verarbeiten des erhaltenen Signals auch ein Bestimmen aufweist, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten;
wenn das Verarbeiten des erhaltenen Signals ergibt, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten, Ausführen eines Vorgangs, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern.
Description
- TECHNISCHES GEBIET
- Diese Erfindung bezieht sich im allgemeinen auf drahtlose Kommunikationsvorrichtungen mit Spracherkennungsfähigkeiten.
- HINTERGRUND
- Drahtlose Kommunikationsvorrichtungen, wie Mobilfunktelefone (Mobiltelefone), verwenden üblicherweise Spracherkennungsalgorithmen, die einem Anwender ermöglichen, die Vorrichtung in einem Freisprech- und Nicht-Sicht-Modus zu betreiben. Beispielsweise können Mobiltelefone, die zur Zeit auf dem Markt sind, gesprochene Befehle erkennen und ausführen, um einen abgehenden Telefonanruf zu initiieren, um einen eingehenden Telefonanruf zu beantworten und um andere Funktionen auszuführen. Viele dieser Mobiltelefone können auch einen gesprochen Namen erkennen, den erkannten Namen in einem elektronischen Telefonbuch lokalisieren und dann automatisch die Telefonnummer wählen, die mit dem erkannten Namen verbunden ist.
- Spracherkennungsalgorithmen tendieren dazu, besser zu arbeiten, wenn die Umgebung, in der der Anwender die Vorrichtung betreibt, geringe Hintergrundgeräusche aufweist, das heißt, wenn das Signal-zu-Rausch-Verhältnis (SRV) des Sprachsignals hoch ist. Wenn der Pegel der Hintergrundgeräusche ansteigt, verringert sich das SRV des Sprachsignals, und die Fehlerrate des Spracherkennungsalgorithmus steigt typischerweise. Dies bedeutet, daß das gesprochene Wort entweder nicht oder nicht korrekt erkannt wird. Dies ist besonders bei Mobiltelefonen und anderen mobilen Kommuni kationsvorrichtungen ein Problem, bei denen die vorhandene Rechenleistung und der Rechenspeicher aufgrund der geringen Größe der kleineren Plattform sehr begrenzt sind. Des weiteren tendiert man dazu, Mobiltelefone und diese anderen mobilen Kommunikationsvorrichtungen in lauten Umgebungen zu verwenden. Beispielsweise sind zwei Orte, an denen Mobiltelefone üblicherweise verwendet werden, das Fahrzeug oder belebte Stadtstraßen. Das Sprachsignal wird im Fahrzeug, besonders wenn es auf einer Autobahn gefahren wird, mit einer signifikanten Menge von Fahrzeuggeräuschen gemischt (beispielsweise das Geräusch, das durch die Räder auf dem Belag verursacht wird, das Geräusch, das durch die über das Fahrzeug strömende Luft erzeugt wird, Musik aus dem Radio etc.). Und auf einer belebten Stadtstraße wird das Sprachsignal mit Verkehrsgeräuschen, Fahrzeughupen, Stimmen von sich in der Nähe befindenden, sprechenden Personen etc. gemischt.
- ZUSAMMENFASSUNG DER ERFINDUNG
- Das beschriebene Ausführungsbeispiel informiert einen Anwender eines Mobiltelefons, wenn die Sprachumgebung für einen verläßlichen Betrieb des eingebauten Stimmenerkenners zu laut ist. Der Anwender des Mobiltelefons kann dann Schritte unternehmen, um das SRV zu erhöhen, beispielsweise entweder durch lauteres Sprechen oder durch Reduzieren des Geräuschpegels.
- In einem Aspekt enthält ein Verfahren zur Ausführung von Spracherkennung bei einer mobilen Vorrichtung ein Erhalten einer gesprochenen Äußerung eines Anwenders einer mobilen Vorrichtung und Verarbeiten eines Signals, das von der erhaltenen gesprochenen Äußerung stammt, mit einem Spracherkennungsalgorithmus. Das Verarbeiten des erhaltenen Signals umfaßt auch ein Bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerungen zu ergeben. Das Verfahren enthält des weiteren ein Ausführen eines Vorgangs, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern, wenn das Verarbeiten des erhaltenen Signals ermittelt, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu ergeben.
- Der Vorgang zur Verbesserung der Erkennung des Inhalts der gesprochenen Äußerung kann ein Alarmieren des Anwenders umfassen, daß dort zu viele Geräusche vorhanden waren, um eine verläßliche Erkennung der gesprochenen Äußerung zu ermöglichen. Der Vorgang kann ein Anfragen an den Anwender, die Äußerung zu wiederholen, oder ein Erzeugen eines Tonsignals oder eines visuellen Signals umfassen. Der Vorgang kann eine mechanische Vibration der mobilen Vorrichtung umfassen.
- Der Vorgang zur Verbesserung der Erkennung des Inhalts der gesprochenen Äußerung kann ein Modifizieren des Spracherkennungsalgorithmus umfassen, um eine Erkennungsleistung in der Umgebung, in der die Äußerung gesprochen wurde, zu verbessern. Der Spracherkennungsalgorithmus kann ein akustisches Modell enthalten, wobei ein Modifizieren des Spracherkennungsalgorithmus ein Ändern des akustischen Modells umfaßt. Der Spracherkennungsalgorithmus kann ein akustisches Modell enthalten, das parameterisiert ist, um verschiedene Pegel von Hintergrundgeräuschen zu verarbeiten, wobei ein Modifizieren des Spracherkennungsalgorithmus ein Ändern von Parametern in dem akustischen Modell umfaßt, um sich auf den Pegel der Hintergrundgeräusche einzustellen.
- Der Schritt des Bestimmens, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu ergeben, kann ein Berechnen eines Signal-zu-Rausch-Verhältnisses für die erhaltene Äußerung und ein Vergleichen des berechneten Signal-zu-Rausch-Verhältnisses mit einem Schwellenwert enthalten.
- In einem anderen Aspekt enthält eine Ausführung ein Computerlesbares Medium, das Instruktionen gespeichert hat, die, wenn sie auf einem Prozessorsystem ausgeführt werden, das Prozessorsystem veranlassen, einen Spracherkennungsalgorithmus zu verwenden, um ein Signal zu verarbeiten, das von einer Äußerung stammt, die von einem Anwender gesprochen wurde. Die in dem Prozessorsystem ausgeführten Instruktionen bestimmen des weiteren, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu ergeben. Wenn ermittelt wird, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu ergeben, führen die in dem Prozessorsystem ausgeführten Instruktionen einen Vorgang aus, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern.
- Die gespeicherten Instruktionen, die im Prozessorsystem ausgeführt werden, veranlassen das Prozessorsystem, einen Vorgang durch Alarmieren des Anwenders auszuführen, daß dort zu viele Geräusche waren, um eine verläßliche Erkennung der gesprochenen Äußerung zu ermöglichen, oder die Instruktionen veranlassen das Prozessorsystem, durch Berechnen eines Signal-zu-Rausch-Verhältnisses für die gesprochene Äußerung zu bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu ergeben. Die gespeicherten Instruktionen, die in dem Prozessorsystem ausgeführt werden, veranlassen das Prozessorsystem, auch durch Vergleichen des berechneten Signal-zu-Rausch-Verhältnisses mit einem Schwellenwert zu bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu erhalten.
- Die in dem Prozessorsystem ausgeführten Instruktionen können das Prozessorsystem veranlassen, einen Vorgang durch Modifizieren des Spracherkennungsalgorithmus auszuführen, um die Erkennungsleistung in der Umgebung, in der die Äußerung gesprochen wurde, zu verbessern. Bei einem Ausführungsbeispiel enthält der Spracherkennungsalgorithmus ein akustisches Modell, und die gespeicherten Instruktionen veranlassen das Prozessorsystem, den Spracherkennungsalgorithmus durch Ändern des akustischen Modells zu modifizieren. Bei einem anderen Ausführungsbeispiel enthält der Sprachalgorithmus ein akustisches Modell, das parameterisiert ist, um verschiedene Pegel von Hintergrundgeräuschen zu verarbeiten. Die gespeicherten Instruktionen veranlassen das Prozessorsystem, den Spracherkennungsalgorithmus durch Ändern von Parametern in dem akustischen Modell zur Anpassung hinsichtlich des Pegels des Hintergrundgeräusches zu modifizieren.
- KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
1 ist ein Flußdiagramm des Betriebs eines Ausführungsbeispiels der Erfindung; und -
2 ist eine Blockschaltbild auf hoher Ebene für ein intelligentes Telefon (Smartphone), bei dem die hier beschriebene Funktionalität implementiert werden kann. - DETAILLIERTE BESCHREIBUNG
- Das beschriebene Ausführungsbespiel ist ein Mobiltelefon mit einer Software, die eine Spracherkennungsfunktionalität bereitstellt, wie sie üblicherweise bei vielen Mobiltelefonen gefunden wird, die heutzutage käuflich erhältlich sind. Im allgemeinen ermöglicht die Spracherkennungsfunktionalität einem Anwender, die manuelle Tastatur zu umgehen und Befehle und Daten mit gesprochenen Wörtern einzugeben. In diesem Fall bestimmt die Software auch, wann die Umgebung, in der das Mobiltelefon verwendet wird, zu laut ist, um eine verläßliche Erkennung der durch den Anwender gesprochenen Wörter zu ergeben. Bei dem Ausführungsbeispiel, das im Detail unten beschrieben wird, mißt die Software ein SRV und vergleicht dieses mit einem vorbestimmten Schwellenwert, um zu bestimmen, ob dort zu viele Geräusche sind. Bei Bestimmung, daß die Umgebung zu laut ist, kann das Mobiltelefon dann einige Vorgänge auslösen, um diesem Problem zu begegnen. Beispielsweise alarmiert es entweder den Anwender von der Tatsache, daß die Umgebung zu laut ist, um eine verläßliche Erkennung zu ermöglichen, oder es modifiziert den internen Spracherkennungsalgorithmus, um die Erkennungsleistung in dieser bestimmten Umgebung zu verbessern.
- Mit Hilfe des Flußdiagramms, das in
1 dargestellt ist, beschreiben wir nun den Betrieb eines bestimmten Ausführungsbeispiels der Erfindung. Im Folgenden werden wir alternative Ansätze, um zu bestimmen, wann die Umgebung zu laut ist, und alternative Ansätze beschreiben, um auf laute Umgebung zu reagieren. Schließlich werden wir ein typisches Mobiltelefon beschreiben, bei dem die Funktionalität implementiert werden kann. - Das Mobiltelefon erhält als erstes einen Aufwachbefehl (Block
200 ), welcher ein Knopfdruck, ein Tastenanschlag, ein bestimmtes gesprochenes Schlüsselwort oder einfach das Beginnen des Sprechens des Anwenders sein kann. Der Aufwachbefehl initiiert das Verfahren, das bestimmt, ob die Sprachumgebung zu laut ist. Wenn der Aufwachbefehl ein gesprochener Befehl ist, kann die Software konfiguriert sein, den Aufwachbefehl zu verwenden, um das SRV zu messen. Alternativ hierzu kann sie konfiguriert sein, auf die nächste Äußerung, die von dem Anwender erhalten wird, zu warten und diese nächste Äußerung (oder einen Teil dieser Äußerung) zu verwenden, um das SRV zu messen. - Um das SRV zu bestimmen, berechnet die Stimmenerkennungssoftware die Energie als eine Funktion der Zeit für die Äußerung (Block
202 ). Sie identifiziert dann den Teil der Äußerung mit der höchsten Energie (Block204 ) und identifiziert den Teil mit der geringsten Energie (Block206 ). Die Software verwendet diese zwei Werte, um ein SRV für die Äußerung zu berechnen (Block208 ). In diesem Fall ist das SNV einfach das Verhältnis des höchsten Wertes zum geringsten Wert. - Bei dem beschriebenen Ausführungsbeispiel verarbeitet die Erkennungssoftware die erhaltene Äußerung auf einer Datenübertragungsblock-nach-Datenübertragungsblock-Basis, wobei jeder Datenübertragungsblock eine Sequenz von Abtastungen der Äußerungen darstellt. Für jeden Datenübertragungsblock berechnet die Software einen Energiewert. Sie tut dies durch Integrieren der abgetasteten Energie über den gesamte Datenübertragungsblock, so daß der berechnete Energiewert die gesamte Energie für den zugehörigen Datenübertragungsblock darstellt. Am Ende der Äußerung (oder nachdem einige Zeit nach dem Beginn der Äußerung vergangen ist) identifiziert die Software den Datenübertragungsblock mit dem höchsten Energiewert und den Datenübertragungsblock mit dem geringsten Energiewert. Sie berechnet dann das SRV durch Dividieren der Energie des Datenübertragungsblocks mit dem höchsten Energiewert durch die Energie des Datenübertragungsblocks mit dem geringsten Energiewert.
- Die Stimmenerkennungssoftware vergleicht das berechnete Signal-zu-Rausch-Verhältnis mit einem Eignungs-Schwellenwert (Block
210 ). Der Schwellenwert stellt den Pegel dar, den das SRV für die Spracherkennung überschreiten muß, um eine akzeptable geringe Fehlerrate zu erzeugen. Der Schwellenwert kann empirisch, analytisch oder durch eine Kombination von beiden bestimmt werden. Die Software ermöglicht es dem Anwender auch, diesen Schwellenwert anzupassen, um die Leistung oder Sensibilität des Mobiltelefons einzustellen. - Wenn das Signal-zu-Rausch-Verhältnis den Eignungs-Schwellenwert nicht überschreitet, informiert die Stimmenerkennungssoftware den Anwender, daß das Signal-zu-Rausch-Verhältnis zu gering ist
212 . - Wenn das Signal-zu-Rausch-Verhältnis nicht den Eignungs-Schwellenwert überschreitet, unternimmt die Stimmenerkennungssoftware Schritte, um diesem Problem zu entgegnen (Block
212 ). Bei dem beschriebenen Ausführungsbeispiel tut sie dies durch Unterbrechung der Erkennung und einfachem Alarmieren des Anwenders, daß dort für eine verläßliche Erkennung zuviel Lärm ist. Der Anwender kann dann versuchen, den Hintergrundgeräuschpegel zu reduzieren (beispielsweise durch Ändern seines Ortes, Verleisern des Radios, Warten, daß ein bestimmtes lautes Ereignis beendet wird etc.). Die Stimmenerkennungssoftware alarmiert den Anwender durch irgendeine oder mehrere von einer Anzahl von verschiedenen Wegen, die durch den Anwender konfiguriert werden können, einschließlich eines Tonsignals (das heißt ein Piepton oder ein Ton), ein visuelles Signal (d.h. eine Nachricht oder ein blinkendes Symbol auf dem Display des Mobiltelefons), ein fühlbares Signal (beispielsweise ein Vibrationspuls, wenn das Mobiltelefon so ausgestattet ist) oder irgendeine Kombination hiervon. - Wenn das Signal-zu-Rausch-Verhältnis den Eignungs-Schwellenwert überschreitet, fährt die Stimmenerkennungssoftware mit dem normalen Verfahren fort.
- Die Spracherkennungsalgorithmen können andere Techniken (oder Kombinationen von diesen Techniken) zur Berechnung eines Signal-zu-Rausch-Verhältnisses für ein Sprachsignal verwenden. Im allgemeinen bestimmten diese Techniken die Menge an Energie in der eingehenden Sprache relativ zur Energie in der Nicht-Sprache. Eine alternative Technik ist die Erzeugung eines Energie-Histogramms über eine Äußerung oder eine Zeitspanne und die Berechnung eines Verhältnisses von Percentilen von niedriger Energie gegen Percentilen höherer Energie (beispielsweise 5-Prozent-Energiebereiche gegen 95-Prozent-Energiebereiche). Eine andere Technik ist die Verwendung eines HMM (Hidden Markov Model) mit zwei Zuständen und die Berechnung von Mittelwerten und Varianzen für die zwei Zustände, wobei einer der Zustände die Sprache darstellt und der andere Zustand das Geräusch darstellt.
- Der Spracherkennungsalgorithmus kann auch eine Statistik berechnen, die sich auf das Signal-zu-Rausch-Verhältnis bezieht. Diese Statistik wird als "Verständlichkeitsindex" bezeichnet. Gemäß diesem Ansatz separiert die Spracherkennungssoftware die akustischen Datenübertragungsblöcke (oder Abtastungen innerhalb dieser Datenübertragungsblöcke) in diskrete Frequenzbereiche und berechnet ein Hochenergie-zu-Niedrigenergie-Verhältnis nur für eine Untermenge von diesen Frequenzbereichen. Beispielsweise kann in einer bestimmten Umgebung ein Geräusch in den Frequenzen von 300 Hz bis 600Hz überwiegen. So würde die Spracherkennungssoftware das Hochenergie-zu-Niedrigenergie-Verhältnis nur für Energien berechnen, die innerhalb dieses Frequenzbereichs fallen. Alternativ kann die Spracherkennungssoftware einen Gewichtungsfaktor auf jede der verschiedenen Frequenzbereiche anwenden und ein gewichtetes, gemischtes Hochenergie-zu-Niedrigenergie-Verhältnis berechnen.
- Bei dem oben beschriebenen Ausführungsbeispiel reagiert die Spracherkennungssoftware auf ein Detektieren eines geringen SRV durch Alarmieren des Anwenders. Es existieren andere Weisen, wie es reagieren könnte, als Alternative zu oder zusätzlich zur Sendung eines einfachen Alarms. Beispielsweise kann die Spracherkennungssoftware den Anwender entweder visuell oder akustisch instruieren, die Äußerung zu wiederholen. Anstatt den Anwender zu alarmieren, könnte die Spracherkennungssoftware das akustische Modell modifizieren, um die laute Umgebung zu berücksichtigen, um einen Spracherzeuger zu erzeugen, der in dieser Umgebung besser arbeitet.
- Beispielsweise könnte die Spracherkennungssoftware ein akustisches Modell enthalten, das von der lauten Sprache trainiert worden ist. Solch ein akustisches Modell könnte parameterisiert sein, um verschiedene Pegel von Geräuschen zu verarbeiten. In diesem Fall würde die Spracherkennungssoftware den geeigneten dieser Pegel in Abhängigkeit von dem berechneten Signal-zu-Rausch-Verhältnis auswählen. Alternativ könnte das akustische Modell skalierbar sein, um einen Bereich von Geräuschpegeln zu verarbeiten, wobei in diesem Fall die Spracherkennungssoftware das verwendete Modell gemäß dem berechneten Signal-zu-Rausch-Verhältnis skalieren würde. Ein noch weiterer Ansatz ist die Verwendung eines akustischen Modells, das parameterisiert ist, um Kategorien von Geräuschen zu verarbeiten (beispielsweise Fahrzeuggeräusche, Straßengeräusche, Auditoriumgeräusche etc), wobei in diesem Fall die Spracherkennungssoftware eine bestimmte Kategorie für das Modell in Abhängigkeit von der Anwender-Eingabe und/oder dem berechneten Signal-zu-Rausch-Verhältnis auswählen würde.
- Ein noch weiterer Ansatz ist die Verwendung eines akustischen Modells mit einem unterschiedlichen phonetischen Bestand, um eine Umgebung mit lauten Geräuschen zu berücksichtigen. Beispielsweise kann eine Umgebung mit lauten Geräuschen bestimmte Konsonanten verdunkeln (beispielsweise "p's" und "b's"), so daß ein akustisches Modell mit einem phonetischen Bestand, der spezifisch ausgebildet ist, um solche verdunkelten Konsonanten zu dekodieren, in einer lauten Umgebung bezüglich des vorgegebenen akustischen Modell besser arbeitet.
- Ein weiterer Ansatz würde sein, ein akustisches Modell mit einer unterschiedlichen Klassifizierungsgeometrie zu verwenden, um eine Umgebung mit geringem Signal-zu-Rausch-Verhältnis zu kompensieren. Derartige Klassifizierer enthalten HMMs, neurale Netzwerke oder andere Sprachklassifizierer, die aus dem Stand der Technik bekannt sind. Die Spracherkennungs software kann alternativ ein akustisches Modell mit unterschiedlicher Anfangs- und Endparameterisierung verwenden, um eine bessere Leistung in einer lauten Umgebung bereitzustellen. Beispielsweise kann ein akustisches Modell, das eine spektrale Darstellung des akustischen Signals verarbeitet, besser als ein akustisches Modell arbeiten, das eine Cepstraldarstellung des Signals verarbeitet, wenn das Geräusch auf einem bestimmten engen Frequenzbereich eingeschränkt wird. Dies ist dadurch bedingt, daß das Spektralmodell den lauten Frequenzbereich herausschneiden kann, während das Cepstralmodell dies nicht kann.
- Ein Smartphone
100 , wie in2 dargestellt, ist ein Beispiel einer Plattform, die die oben beschriebene Spracherkennungsfunktion implementieren kann. Ein Beispiel eines Smartphones100 ist ein Telefon, angetrieben mit einem Microsoft-Taschen-PC, das an seinem Kern einen Basisband DSP102 (Digital-Signal-Prozessor) zur Verarbeitung der Mobilfunk-Kommunikationsfunktionen (einschließlich beispielsweise Stimmenband und Kanalkodierungsfunktion) und einen Anwendungsprozessor104 (beispielsweise Intel StrongArm SA-1110) enthält, auf dem das Taschen-Computer betriebene System läuft. Das Telefon unterstützt GSM-Anrufe, SMS (Short Messaging Service)-Texmitteilungen, drahtlose E-Mail und Desktop-artiges Web-Browsing mit mehr traditionellen PDA-Merkmalen. - Ein RF-Erzeuger
106 und ein RF-Funksender/Empfänger108 , gefolgt von einem Leistungsverstärkermodul110 , implementieren die Übertragungs- und Empfangsfunktionen. Das Leistungsverstärkermodul verarbeitet die Endstufen-RF-Übertragungsaufgaben durch eine Antenne112 . Ein Interface ASIC114 und ein Audio-CODEC116 stellen Schnittstellen für einen Lautsprecher, ein Mikrofon und andere Eingabe/Ausgabevorrichtungen zur Verfügung, die in dem Telefon bereitgestellt sind, so wie eine numerische oder alphanumerische Tastatur (nicht dargestellt) zur Eingabe von Befehlen und Informationen. - DSP
102 verwendet einen Flash-Speicher118 zur Speicherung von Codes. Eine Li-Ion (Litium-Ion)-Batterie120 versorgt das Telefon, und ein Leistungs-Management-Modul122 , das an den DSP102 gekoppelt ist, steuert den Energieverbrauch innerhalb des Telefons. SDRAM124 und der Flash-Speicher126 stellen einen flüchtigen Speicher bzw. einen nicht-flüchtigen Speicher für Anwendungsprozessoren114 zur Verfügung. Diese Anordnung des Speichers enthält den Code für das Betriebssystem, den Code für anpaßbare Merkmale so wie das Telefonbuch und den Code für jede andere Anwendungssoftware in dem Smartphone, einschließlich der oben beschriebenen Stimmenerkennungssoftware. Die Anzeigedisplay-Vorrichtung für das Smartphone enthält einen LCD-Treiberchip128 , der einen LCD-Display130 ansteuert. Es existiert auch ein Taktmodul132 , das die Taktsignale für die anderen Vorrichtungen innerhalb des Telefons und einen Indikator der Echt-Zeit bereitstellt. Alle oben beschriebenen Bauteile sind Einheiten innerhalb eines geeignet ausgebildeten Gehäuses134 . - Das oben beschriebene Smartphone
100 stellt den allgemeinen internen Aufbau einer Anzahl von unterschiedlichen, käuflich erhältlichen Smartphones dar, und der interne Schaltkreisaufbau dieser Telefone ist im allgemeinen aus dem Stand der Technik bekannt. - Andere Aspekte, Modifikationen und Ausführungsbeispiele liegen im Bereich der folgenden Ansprüche.
- Zusammenfassung
- Ein Verfahren zum Verarbeiten von Sprache in einer lauten Umgebung enthält ein Bestimmen, bei einem Aufwachbefehl, wann die Umgebung zu laut ist, um eine verläßliche Erkennung eines gesprochenen Wortes eines Anwenders zu erhalten, und Alarmieren des Anwenders, daß die Umgebung zu laut ist. Die Bestimmung, wann die Umgebung zu laut ist, enthält ein Berechnen eines Signal-zu-Rausch-Verhältnisses. Das Signal entspricht einer Menge Energie in der gesprochenen Äußerung, und das Rauschen entspricht einer Menge Energie in dem Hintergrundgeräusch. Das Verfahren enthält des weiteren ein Vergleichen des Signal-zu-Rausch-Verhältnisses mit einem Schwellenwert.
Claims (19)
- Verfahren zur Ausführung einer Spracherkennung bei einer mobilen Vorrichtung, wobei das Verfahren umfaßt: Empfangen einer gesprochenen Äußerung von einem Anwender der mobilen Vorrichtung; Verarbeiten eines Signals, das von der empfangenen, gesprochenen Äußerung erhalten wird, mit einem Spracherkennungsalgorithmus, wobei das Verarbeiten des erhaltenen Signals auch ein Bestimmen aufweist, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten; wenn das Verarbeiten des erhaltenen Signals ergibt, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten, Ausführen eines Vorgangs, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern.
- Verfahren nach Anspruch 1, bei dem das Ausführen des Vorgangs ein Alarmieren des Anwenders umfaßt, daß dort zu viele Geräusche waren, um eine verläßliche Erkennung der gesprochenen Äußerung zu ermöglichen.
- Verfahren nach Anspruch 2, bei dem das Alarmieren auch ein Fragen des Anwenders umfaßt, die Äußerung zu wiederholen.
- Verfahren nach Anspruch 2, bei dem das Alarmieren ein Erzeugen eines Tonsignals umfaßt.
- Verfahren nach Anspruch 2, bei dem das Alarmieren ein Erzeugen eines visuellen Signals umfaßt.
- Verfahren nach Anspruch 2, bei dem das Alarmieren ein Erzeugen eines fühlbaren Signals umfaßt.
- Verfahren nach Anspruch 6, bei dem das fühlbare Signal eine mechanische Vibration der mobilen Vorrichtung ist.
- Verfahren nach Anspruch 1, bei dem das Bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu erhalten, ein Berechnen eines Signals-zu-Rausch-Verhältnisses für die erhaltene Äußerung umfaßt.
- Verfahren nach Anspruch 8, bei dem das Bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu erhalten, des weiteren ein Vergleichen des berechneten Signal-zu-Rausch-Verhältnisses mit einem Schwellenwert umfaßt.
- Verfahren nach Anspruch 1, bei dem das Ausführen des Vorgangs ein Modifizieren des Spracherkennungsalgorithmus umfaßt, um die Erkennungsleistung in der Umgebung, in der die Äußerung gesprochen wurde, zu verbessern.
- Verfahren nach Anspruch 10, bei dem der Spracherkennungsalgorithmus ein akustisches Modell enthält und bei dem das Modifizieren des Spracherkennungsalgorithmus ein Ändern des akustischen Modells umfaßt.
- Verfahren nach Anspruch 10, bei dem der Spracherkennungsalgorithmus ein akustisches Modell enthält, das parameterisiert ist, um verschiedene Pegel von Hintergrundgeräuschen zu verarbeiten, und wobei das Modifizieren des Spracherkennungsalgorithmus ein Ändern der Parameter im akustischen Modell umfaßt, um sich an den Pegel der Hintergrundgeräusche anzupassen.
- Computerlesbares Medium, das Instruktionen speichert, die, wenn sie auf einem Prozessorsystem ausgeführt werden, das Prozessorsystem veranlassen: einen Spracherkennungsalgorithmus zu verwenden, um ein Signal zu verarbeiten, das von einer Äußerung erhalten wird, die durch einen Anwender gesprochen wird; zu bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten; und wenn bestimmt wird, daß die Umgebung zu laut ist, um eine verläßliche Erkennung der gesprochenen Äußerung zu erhalten, einen Vorgang auszuführen, um die Erkennung des Inhalts der gesprochenen Äußerung durch den Spracherkennungsalgorithmus zu verbessern.
- Computerlesbares Medium nach Anspruch 13, wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, den Vorgang durch Alarmieren des Anwenders auszuführen, daß dort zu viele Geräusche sind, um eine verläßliche Erkennung der gesprochenen Äußerung zu ermöglichen.
- Computerlesbares Medium nach Anspruch 13, wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, durch Berechnen eines Signals-zu-Rausch-Verhältnisses für die gesprochene Äußerung zu bestimmen, ob die Umgebung, in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu erhalten.
- Computerlesbares Medium nach Anspruch 13, wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, auch durch Vergleich des berechneten Signal-zu-Rausch-Verhältnisses mit einem Schwellenwert zu bestimmen, ob die Umgebung in der die Äußerung gesprochen wurde, zu laut ist, um eine verläßliche Erkennung zu erhalten.
- Computerlesbares Medium nach Anspruch 13, wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, den Vorgang durch Modifizieren des Spracherkennungsalgorithmus auszuführen, um die Erkennungsleistung in der Umgebung, in der die Äußerung gesprochen wurde, zu verbessern.
- Computerlesbares Medium nach Anspruch 17, wobei der Spracherkennungsalgorithmus ein akustisches Modell enthält und wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, den Spracherkennungsalgorithmus durch Ändern des akustischen Modells zu modifizieren.
- Computerlesbares Medium nach Anspruch 17, wobei der Sprachalgorithmus ein akustisches Modell enthält, das parameterisiert ist, um unterschiedliche Pegel von Hintergrundgeräuschen zu verarbeiten, und wobei die gespeicherten Instruktionen das Prozessorsystem veranlassen, den Spracherkennungsalgorithmus durch Ändern von Parametern in dem akustischen Modell zu modifizieren, um sich auf den Pegel der Hintergrundgeräusche einzustellen.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US46962703P | 2003-05-08 | 2003-05-08 | |
US60/469,627 | 2003-05-08 | ||
PCT/US2004/014498 WO2004102527A2 (en) | 2003-05-08 | 2004-05-10 | A signal-to-noise mediated speech recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
DE112004000782T5 true DE112004000782T5 (de) | 2008-03-06 |
Family
ID=33452306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112004000782T Withdrawn DE112004000782T5 (de) | 2003-05-08 | 2004-05-10 | Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus |
Country Status (6)
Country | Link |
---|---|
US (1) | US20040260547A1 (de) |
JP (1) | JP2007501444A (de) |
CN (1) | CN1802694A (de) |
DE (1) | DE112004000782T5 (de) |
GB (1) | GB2417812B (de) |
WO (1) | WO2004102527A2 (de) |
Families Citing this family (82)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8005668B2 (en) * | 2004-09-22 | 2011-08-23 | General Motors Llc | Adaptive confidence thresholds in telematics system speech recognition |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
TWI319152B (en) * | 2005-10-04 | 2010-01-01 | Ind Tech Res Inst | Pre-stage detecting system and method for speech recognition |
US7706297B1 (en) * | 2006-05-19 | 2010-04-27 | National Semiconductor Corporation | System and method for providing real time signal to noise computation for a 100Mb Ethernet physical layer device |
JPWO2008007616A1 (ja) * | 2006-07-13 | 2009-12-10 | 日本電気株式会社 | 無音声発声の入力警告装置と方法並びにプログラム |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP5151103B2 (ja) * | 2006-09-14 | 2013-02-27 | ヤマハ株式会社 | 音声認証装置、音声認証方法およびプログラム |
JP5151102B2 (ja) * | 2006-09-14 | 2013-02-27 | ヤマハ株式会社 | 音声認証装置、音声認証方法およびプログラム |
KR100834679B1 (ko) * | 2006-10-31 | 2008-06-02 | 삼성전자주식회사 | 음성 인식 오류 통보 장치 및 방법 |
US8019050B2 (en) * | 2007-01-03 | 2011-09-13 | Motorola Solutions, Inc. | Method and apparatus for providing feedback of vocal quality to a user |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
WO2010054373A2 (en) * | 2008-11-10 | 2010-05-14 | Google Inc. | Multisensory speech detection |
JP5402089B2 (ja) * | 2009-03-02 | 2014-01-29 | 富士通株式会社 | 音響信号変換装置、方法、及びプログラム |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
CN102044241B (zh) * | 2009-10-15 | 2012-04-04 | 华为技术有限公司 | 一种实现通信系统中背景噪声的跟踪的方法和装置 |
US8279052B2 (en) | 2009-11-04 | 2012-10-02 | Immersion Corporation | Systems and methods for haptic confirmation of commands |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP6024180B2 (ja) * | 2012-04-27 | 2016-11-09 | 富士通株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9311931B2 (en) * | 2012-08-09 | 2016-04-12 | Plantronics, Inc. | Context assisted adaptive noise reduction |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9691377B2 (en) * | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
US9251804B2 (en) | 2012-11-21 | 2016-02-02 | Empire Technology Development Llc | Speech recognition |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9418651B2 (en) | 2013-07-31 | 2016-08-16 | Google Technology Holdings LLC | Method and apparatus for mitigating false accepts of trigger phrases |
US9031205B2 (en) * | 2013-09-12 | 2015-05-12 | Avaya Inc. | Auto-detection of environment for mobile agent |
EP3139377B1 (de) * | 2014-05-02 | 2024-04-10 | Sony Interactive Entertainment Inc. | Führungsvorrichtung, führungsverfahren, programm und informationsspeichermedium |
US9548065B2 (en) * | 2014-05-05 | 2017-01-17 | Sensory, Incorporated | Energy post qualification for phrase spotting |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10074360B2 (en) * | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10678828B2 (en) * | 2016-01-03 | 2020-06-09 | Gracenote, Inc. | Model-based media classification service using sensed media noise characteristics |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US20170294138A1 (en) * | 2016-04-08 | 2017-10-12 | Patricia Kavanagh | Speech Improvement System and Method of Its Use |
US10037677B2 (en) | 2016-04-20 | 2018-07-31 | Arizona Board Of Regents On Behalf Of Arizona State University | Speech therapeutic devices and methods |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10283138B2 (en) * | 2016-10-03 | 2019-05-07 | Google Llc | Noise mitigation for a voice interface device |
US10462567B2 (en) | 2016-10-11 | 2019-10-29 | Ford Global Technologies, Llc | Responding to HVAC-induced vehicle microphone buffeting |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN108447472B (zh) * | 2017-02-16 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 语音唤醒方法及装置 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10186260B2 (en) * | 2017-05-31 | 2019-01-22 | Ford Global Technologies, Llc | Systems and methods for vehicle automatic speech recognition error detection |
US10525921B2 (en) | 2017-08-10 | 2020-01-07 | Ford Global Technologies, Llc | Monitoring windshield vibrations for vehicle collision detection |
US10562449B2 (en) | 2017-09-25 | 2020-02-18 | Ford Global Technologies, Llc | Accelerometer-based external sound monitoring during low speed maneuvers |
US10479300B2 (en) | 2017-10-06 | 2019-11-19 | Ford Global Technologies, Llc | Monitoring of vehicle window vibrations for voice-command recognition |
KR102492727B1 (ko) * | 2017-12-04 | 2023-02-01 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
CN108564948B (zh) * | 2018-03-30 | 2021-01-15 | 联想(北京)有限公司 | 一种语音识别方法及电子设备 |
CN113555028B (zh) * | 2021-07-19 | 2024-08-02 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
WO2023050301A1 (zh) * | 2021-09-30 | 2023-04-06 | 华为技术有限公司 | 语音质量评估、语音识别质量预测与提高的方法及装置 |
CN118158596B (zh) * | 2023-12-07 | 2024-08-16 | 中国建筑科学研究院有限公司 | 应用于绿色建筑的基于掩蔽效应的智能声景控制方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2003A (en) * | 1841-03-12 | Improvement in horizontal windivhlls | ||
JPH11194797A (ja) * | 1997-12-26 | 1999-07-21 | Kyocera Corp | 音声認識作動装置 |
US6336091B1 (en) * | 1999-01-22 | 2002-01-01 | Motorola, Inc. | Communication device for screening speech recognizer input |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
US6370503B1 (en) * | 1999-06-30 | 2002-04-09 | International Business Machines Corp. | Method and apparatus for improving speech recognition accuracy |
JP3969908B2 (ja) * | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
US6954657B2 (en) * | 2000-06-30 | 2005-10-11 | Texas Instruments Incorporated | Wireless communication device having intelligent alerting system |
US20020087306A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented noise normalization method and system |
JP2002244696A (ja) * | 2001-02-20 | 2002-08-30 | Kenwood Corp | 音声認識による制御装置 |
JP2003091299A (ja) * | 2001-07-13 | 2003-03-28 | Honda Motor Co Ltd | 車載用音声認識装置 |
US7487084B2 (en) * | 2001-10-30 | 2009-02-03 | International Business Machines Corporation | Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle |
DE10251113A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren zum Betrieb eines Spracherkennungssystems |
-
2004
- 2004-05-10 DE DE112004000782T patent/DE112004000782T5/de not_active Withdrawn
- 2004-05-10 GB GB0523024A patent/GB2417812B/en not_active Expired - Fee Related
- 2004-05-10 CN CNA2004800159417A patent/CN1802694A/zh active Pending
- 2004-05-10 JP JP2006532900A patent/JP2007501444A/ja not_active Withdrawn
- 2004-05-10 WO PCT/US2004/014498 patent/WO2004102527A2/en active Application Filing
- 2004-05-10 US US10/842,333 patent/US20040260547A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20040260547A1 (en) | 2004-12-23 |
GB2417812A (en) | 2006-03-08 |
GB0523024D0 (en) | 2005-12-21 |
WO2004102527A2 (en) | 2004-11-25 |
WO2004102527A3 (en) | 2005-02-24 |
JP2007501444A (ja) | 2007-01-25 |
CN1802694A (zh) | 2006-07-12 |
WO2004102527A8 (en) | 2005-04-14 |
GB2417812B (en) | 2007-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112004000782T5 (de) | Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus | |
DE102019112380B4 (de) | Verfahren und System zur robusten Sprechererkennungsaktivierung | |
US6336091B1 (en) | Communication device for screening speech recognizer input | |
DE60036931T2 (de) | Anwender-sprachschnittstelle für sprachgesteuerte systeme | |
CN1306472C (zh) | 分布式语音识别系统中用于发送语音活动的系统和方法 | |
DE112014000709B4 (de) | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten | |
CN1160698C (zh) | 噪声信号中语音的端点定位 | |
US6321197B1 (en) | Communication device and method for endpointing speech utterances | |
DE69827667T2 (de) | Vokoder basierter spracherkenner | |
DE60003971T2 (de) | Verteilte Architektur zum Trainieren eines Spracherkennungssystems | |
CN103026407B (zh) | 带宽扩展器 | |
DE69232463T2 (de) | Sprachgesteuertes nachrichtensystem und verarbeitungsverfahren | |
CN103065631B (zh) | 一种语音识别的方法、装置 | |
DE112018002857T5 (de) | Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen | |
CN1805008B (zh) | 语音检测装置、自动图像拾取装置和语音检测方法 | |
US20040122666A1 (en) | Method and apparatus for displaying speech recognition results | |
DE112017003563T5 (de) | Verfahren und system einer automatischen spracherkennung unter verwendung a-posteriori-vertrauenspunktzahlen | |
DE19956747C1 (de) | Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem | |
CN103971680A (zh) | 一种语音识别的方法、装置 | |
CN101599269A (zh) | 语音端点检测方法及装置 | |
DE112005000924T5 (de) | Stimme über Short Message Service | |
CN109065075A (zh) | 一种语音处理方法、装置、系统及计算机可读存储介质 | |
CN108010513B (zh) | 语音处理方法及设备 | |
DE10251113A1 (de) | Verfahren zum Betrieb eines Spracherkennungssystems | |
US20060100866A1 (en) | Influencing automatic speech recognition signal-to-noise levels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |