DE60033636T2 - Pausendetektion für die Spracherkennung - Google Patents

Pausendetektion für die Spracherkennung Download PDF

Info

Publication number
DE60033636T2
DE60033636T2 DE60033636T DE60033636T DE60033636T2 DE 60033636 T2 DE60033636 T2 DE 60033636T2 DE 60033636 T DE60033636 T DE 60033636T DE 60033636 T DE60033636 T DE 60033636T DE 60033636 T2 DE60033636 T2 DE 60033636T2
Authority
DE
Germany
Prior art keywords
subbands
power
thr
max
pause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60033636T
Other languages
English (en)
Other versions
DE60033636D1 (de
Inventor
Kari Laurila
Juha Häkkinen
Ramalingam Hariharan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of DE60033636D1 publication Critical patent/DE60033636D1/de
Publication of DE60033636T2 publication Critical patent/DE60033636T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Spracherkennung wie im Oberbegriff des beiliegenden Anspruchs 1 ausgeführt, ein Spracherkennungsgerät wie im Oberbegriff des beiliegenden Anspruchs 8 ausgeführt und ein sprachgesteuertes, drahtloses Kommunikationsgerät wie im Oberbegriff des beiliegenden Anspruchs 11 ausgeführt.
  • Zum Erleichtern des Gebrauchs von drahtlosen Kommunikationsgeräten wurden Spracherkennungsgeräte entwickelt, wodurch ein Benutzer Sprachbefehle äußern kann, die das Spracherkennungsgerät versucht zu erkennen und zu einer Funktion umzuwandeln, die dem Sprachbefehl, beispielsweise dem Befehl zum Wählen einer Telefonnummer, entspricht. Ein Problem bei der Implementierung von Sprachsteuerung war beispielsweise die Tatsache, dass verschiedene Benutzer die Sprachbefehle auf unterschiedliche Art und Weise sprechen: die Sprechgeschwindigkeit kann bei verschiedenen Benutzern unterschiedlich sein, wie auch die Sprechlautstärke, der Tonfall usw. Zudem wird Spracherkennung durch ein mögliches Hintergrundgeräusch gestört, dessen Einwirkung im Freien und in einem Kraftfahrzeug erheblich sein kann. Hintergrundgeräusch macht es schwierig, Wörter zu erkennen und zwischen verschiedenen Wörtern zu unterscheiden, z.B. auf das Äußern einer Telefonnummer hin.
  • Einige Spracherkennungsgeräte wenden ein Erkennungsverfahren auf Grundlage eines festgelegten Zeitfensters an. Damit steht dem Benutzer ein vorgegebener Zeitraum zur Verfügung, in dem er das gewünschte Befehlswort äußern muss. Nach dem Ablauf des Zeitfensters versucht das Spracherkennungsgerät herauszufinden, welches Wort/welcher Befehl von dem Benutzer geäußert wurde. Ein derartiges Verfahren auf Grundlage eines festgelegten Zeitfensters weist jedoch beispielsweise den Nachteil auf, dass alle Wörter, die geäußert werden sollen, nicht gleich lang sind; bei Namen ist beispielsweise der Vorname häufig deutlich kürzer als der Nachname. Daher wird nach einem kurzen Wort mehr Zeit für die Erkennung verbraucht als beim Erkennen eines längeren Worts. Das ist lästig für den Benutzer. Zudem muss das Zeitfenster gemäß langsameren Sprechern eingerichtet sein, sodass die Erkennung nicht beginnt, bevor das gesamte Wort ausgesprochen ist. Wenn Wörter schneller geäußert werden, verstärkt eine Verzögerung zwischen der Äußerung und der Erkennung die Lästigkeit.
  • Ein anderes bekanntes Spracherkennungsverfahren gründet auf Mustern, die aus Sprachsignalen ausgebildet sind, und ihrem Vergleich. Aus Befehlswörtern ausgebildete Muster werden im Voraus gespeichert, oder der Benutzer kann gewünschte Wörter programmiert haben, die zu Mustern ausgebildet und gespeichert wurden. Das Spracherkennungsgerät vergleicht die gespeicherten Muster mit Merkmalsvektoren, die aus Geräuschen ausgebildet sind, die der Benutzer während der Äußerung geäußert hat, und berechnet die Wahrscheinlichkeit für die verschiedenen Wörter (Befehlswörter) im Vokabular des Spracherkennungsgeräts. Wenn die Wahrscheinlichkeit für ein Befehlswort einen vorgegebenen Wert übersteigt, wählt das Spracherkennungsgerät dieses Befehlswort als das Erkennungsergebnis aus. Daher können unrichtige Erkennungsergebnisse insbesondere im Falle von Wörtern auftreten, bei denen der Anfang phonetisch einem anderen Wort des Vokabulars ähnelt. Beispielsweise hat der Benutzer die Wörter „Mari" und „Marika" in das Spracherkennungsgerät programmiert. Wenn der Benutzer das Wort „Marika" ausspricht, könnte das Spracherkennungsgerät „Mari" als Erkennungsentscheidung treffen, selbst wenn dem Benutzer noch keine Zeit geblieben sein könnte, das Ende des Worts auszusprechen. Derartige Spracherkennungsgeräte nutzen typischerweise das so genannte Hidden Markov Model-Spracherkennungsverfahren (HMM).
  • Die US-Patentschrift 4,870,686 legt ein Spracherkennungsverfahren und Spracherkennungsgerät vor, bei denen die Bestimmung des Endes von Wörtern durch den Benutzer auf Stille basiert; anders gesagt überprüft das Spracherkennungsgerät, ob ein wahrnehmbares Audiosignal vorliegt oder nicht. Ein Problem bei diesem Ansatz ist die Tatsache, dass ein zu lautes Hintergrundgeräusch die Erkennung von Pausen verhindern kann, wodurch die Spracherkennung nicht erfolgreich ist.
  • EP-A1-0784311 offenbart Stimmaktivitätserkennung in Unterbändern.
  • Es ist ein Ziel der vorliegenden Erfindung, ein verbessertes Verfahren zum Erkennen von Sprachpausen und ein Spracherkennungsgerät bereitzustellen. Die Erfindung basiert auf dem Gedanken, dass ein Klangband, das überprüft werden soll, in Unterbänder unterteilt wird und die Leistung des Signals auf jedem Unterband überprüft wird. Wenn die Leistung des Signals über einen genügend langen Zeitraum auf einer genügenden Anzahl von Unterbändern unterhalb einer bestimmten Grenze ist, wird gefolgert, dass eine Sprachpause vorliegt. Das Verfahren der vorliegenden Erfindung ist durch die Ausführungen im kennzeichnenden Teil des beiliegenden Anspruchs 1 gekennzeichnet. Das Spracherkennungsgerät gemäß der vorliegenden Erfindung ist durch die Ausführungen im kennzeichnenden Teil des beiliegenden Anspruchs 8 gekennzeichnet. Das drahtlose Kommunikationsgerät der vorliegenden Erfindung ist durch die Ausführungen im kennzeichnenden Teil des beiliegenden Anspruchs 11 gekennzeichnet.
  • Die vorliegende Erfindung bietet erhebliche Vorteile gegenüber den Ansätzen des Stands der Technik. Durch das Verfahren der Erfindung kann eine zuverlässigere Erkennung einer Lücke zwischen Wörtern als durch Verfahren des Stands der Technik erzielt sein. Daher ist die Zuverlässigkeit der Spracherkennung gesteigert und die Anzahl der unrichtigen oder verfehlten Erkennungen vermindert. Zudem ist das Spracherkennungsgerät bezüglich der Sprachweisen verschiedener Benutzer flexibler, da die Sprachbefehle ohne lästige Erkennungsverzögerung, oder ohne dass eine Erkennung vor Beendigung einer Äußerung stattfindet, langsamer oder schneller geäußert werden können.
  • Durch die Unterteilung in Unterbänder gemäß der Erfindung ist es möglich, den Effekt externer Einwirkung zu vermindern. Innere Störsignale beispielsweise in einem Kraftfahrzeug weisen typischerweise eine verhältnismäßig niedere Frequenz auf. In Ansätzen des Stands der Technik wird die Energie, die in dem gesamten Frequenzbereich des Signals enthalten ist, zur Erkennung genutzt, wobei Signale, die stark sind, aber eine schmale Bandbreite aufweisen, das Signal-Rausch-Verhältnis in einem erheblichen Grad vermindern. Stattdessen kann das Signal-Rausch-Verhältnis, wenn der Frequenzbereich, der überprüft werden soll, gemäß der Erfindung in Unterbänder unterteilt ist, auf solchen Unterbändern erheblich verbessert sein, auf denen die Proportion innerer Störsignale verhältnismäßig gering ist, wodurch die Zuverlässigkeit der Erkennung verbessert ist.
  • Im Folgenden wird die vorliegende Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen detaillierter beschrieben.
  • Es zeigen:
  • 1 ein Flussdiagramm, das das Verfahren gemäß einer vorteilhaften Ausführungsform der Erfindung darstellt,
  • 2 ein reduziertes Flussdiagramm, das das Spracherkennungsgerät gemäß einer vorteilhaften Ausführungsform der Erfindung zeigt,
  • 3 ein Zustandsmaschinendiagramm, das Rangfolgenfiltern darstellt, welches in dem Verfahren gemäß einer vorteilhaften Ausführungsform der Erfindung angewendet werden soll, und
  • 4 ein Flussdiagramm, das die Logik zum Erkennen einer Pause darstellt, die in dem Verfahren gemäß einer vorteilhaften Ausführungsform der Erfindung angewendet werden soll.
  • Das Folgende ist eine Beschreibung zur Funktionsweise des Verfahrens gemäß einer vorteilhaften Ausführungsform der Erfindung unter Bezugnahme auf das Flussdiagramm von 1 und unter Benutzung eines sprachgesteuerten, drahtlosen Kommunikationsgeräts MS gemäß dem Flussdiagramm von 2 als Beispiel. Bei der Spracherkennung wird ein akustisches Signal (Sprache) auf an sich bekannte Art und Weise durch ein Mikrophon, wie etwa ein Mikrofon 1a in dem drahtlosen Kommunikationsgerät MS oder ein Mikrofon 1b in einer Freisprecheinrichtung 2, in ein elektrisches Signal umgewandelt. Der Frequenzgang des Sprachsignals ist typischerweise auf den Frequenzbereich unter 10 kHz begrenzt, z.B. den Frequenzbereich von 100 Hz bis 10 kHz.
  • Der Frequenzgang von Sprache ist jedoch im gesamten Frequenzbereich nicht konstant, sondern es liegen mehr niedrigere Frequenzen als höhere Frequenzen vor. Zudem ist der Frequenzgang von Sprache für verschiedene Personen unterschiedlich. Bei dem Verfahren der Erfindung ist der Frequenzbereich, der überprüft werden soll, in schmalere Unterfrequenzbereiche unterteilt (eine Anzahl von M Unterbändern). Dies ist durch Block 101 in der beiliegenden 1 dargestellt. Diese Unterfrequenzbereiche sind nicht gleich breit hergestellt, sondern berücksichtigen die Frequenzcharakteristik von Sprache, womit einige der Unterfrequenzbereiche schmaler und einige breiter sind. Bei der niederen Frequenzcharakteristik von Sprache ist die Unterteilung dichter, d.h. die Unterfrequenzbereiche sind schmaler als für die höheren Frequenzen, die in der Sprache seltener sind. Dieser Gedanke wird ebenfalls bei der an sich bekannten Mel-Frequenzskala angewendet, bei der die Breite von Frequenzbändern auf der logarithmischen Frequenzfunktion basiert.
  • In Verbindung mit der Unterteilung in Unterbänder werden die Signale der Unterbänder in eine kleinere Samplefrequenz umgewandelt, beispielsweise durch Undersampling oder durch Tiefpassfiltern. Daher werden Samples vom Block 101 zur weiteren Verarbeitung auf dieser niedrigeren Sampling-Frequenz weitergeleitet. Diese Sampling-Frequenz beträgt vorteilhafterweise ungefähr 100 Hz, wobei es jedoch offensichtlich ist, dass außerdem andere Sampling-Frequenzen innerhalb des Anwendungsbereichs der vorliegenden Erfindung angewendet sein können. Diese Samples werden in die Merkmalsvektoren umgewandelt.
  • Ein im Mikrofon 1a, 1b ausgebildetes Signal wird in einem Verstärker 3a, 3b verstärkt und in einem Analog-Digital-Wandler 4 in digitale Form umgewandelt. Die Präzision der Analog-Digital-Umwandlung liegt typischerweise im Bereich von 12 bis 32 Bit, und bei der Umwandlung eines Sprachsignals werden Samples vorteilhafterweise 8.000 bis 14.000 Mal pro Sekunde genommen, wobei die Erfindung jedoch außerdem auf anderen Sampling-Raten Anwendung finden kann. Bei dem drahtlosen Kommunikationsgerät MS von 2 ist das Sampling derart angeordnet, dass es durch eine Steuerung 5 gesteuert wird. Das Audiosignal in digitaler Form wird an ein Spracherkennungsgerät 16 übertragen, das in einer Funktionsverbindung mit dem drahtlosen Kommunikationsgerät MS steht und in dem verschiedene Stufen des erfindungsgemäßen Verfahrens verarbeitet werden. Die Übertragung findet beispielsweise über Schnittstellenblöcke 6a, 6b und einen Schnittstellenbus 7 statt. In praktischen Lösungen kann das Spracherkennungsgerät 16 außerdem in dem drahtlosen Kommunikationsgerät MS selbst oder in einem anderen sprachgesteuerten Gerät oder als separates Zusatzgerät oder dergleichen angeordnet sein.
  • Die Unterteilung in Unterbänder erfolgt vorzugsweise in einem ersten Filterblock 8, zu dem das in digitale Form umgewandelte Signal geleitet wird. Dieser erste Filterblock 8 besteht aus mehreren Bandpassfiltern, die in dieser vorteilhaften Ausführungsform mit digitaler Technik implementiert sind und deren Frequenzbereiche und Bandbreiten des Durchlassbands voneinander abweichen. Somit durchläuft jedes bandgefilterte Teil des ursprünglichen Signals den jeweiligen Bandpassfilter. Aus Gründen der Übersichtlichkeit sind diese Bandpassfilter in 2 nicht separat gezeigt. Diese Bandpassfilter sind vorteilhafterweise in der Anwendungssoftware eines digitalen Signalprozessors (DSP) 13 implementiert, der an sich bekannt ist.
  • Bei der nächsten Stufe 102 wird die Anzahl der Unterbänder vorzugsweise durch Dezimieren in einem Dezimierungsblock 9 verringert, wobei eine Anzahl von L Unterbändern ausgebildet wird (L < M), deren Energiepegel messbar sind. Auf der Grundlage der Signalleistungspegel dieser Unterfrequenzbereiche ist es möglich, die Signalenergie in jedem Unterband zu bestimmen. Der Dezimierungsblock 9 kann außerdem in der Anwendungssoftware des digitalen Signalprozessors 13 implementiert sein.
  • Ein durch die Unterteilung in M Unterbänder gemäß Block 1 erzielter Vorteil ist, dass die Werte dieser M verschiedenen Unterbänder bei der Erkennung zum Bestätigen des Erkennungsergebnisses insbesondere bei einer Anwendung genutzt werden können, die Koeffizienten gemäß der Mel-Frequenzskala benutzt. Der Block 101 kann jedoch außerdem durch direktes Ausbilden von L Unterbändern implementiert sein, wodurch der Block 102 nicht notwendig ist.
  • Ein zweiter Filterblock 10 ist zum Tiefpassfiltern von Signalen der Unterbänder bereitgestellt, die auf der Dezimierungsstufe ausgebildet werden (Stufe 103 in 1), wobei kurze Änderungen der Signalstärke ausgefiltert werden und keine erhebliche Wirkung bei der Bestimmung des Energiepegels des Signals bei der weiteren Verarbeitung aufweisen können. Nach dem Filtern wird eine logarithmische Funktion des Energiepegels von jedem Unterband in Block 11 (Stufe 104) berechnet und die Berechnungsergebnisse in Speichermittel 14 (nicht gezeigt) gespeichert. Diese Puffer sind vorteilhafterweise FIFO-Puffer (First In-First Out), in denen die Berechnungsergebnisse als beispielsweise 8- oder 16-Bit-Zeichen gespeichert werden. Jeder Puffer nimmt N Berechnungsergebnisse auf. Der Wert N hängt von der betreffenden Anwendung ab. Somit stellen die Berechnungsergebnisse p(t), die im Puffer gespeichert sind, den gefilterten, logarithmischen Energiepegel des Unterbands zu verschiedenen Messmomenten dar.
  • Ein Anordnungsblock 12 führt so genanntes Rangfolgenfiltern für die Berechnungsergebnisse aus (Stufe 105), wobei die Rangfolge der verschiedenen Berechnungsergebnisse zueinander verglichen werden. An dieser Stufe 105 wird auf den Unterbändern überprüft, ob möglicherweise eine Sprechpause vorliegt. Diese Überprüfung ist in einem Zustandsmaschinendiagramm in 3 gezeigt. Die Operationen dieser Zustandsmaschine werden im Wesentlichen auf gleiche Art und Weise für jedes Unterband implementiert. Die verschiedenen Funktionszustände S0, S12, S2, S3 und S4 der Zustandsmaschine sind mit Kreisen veranschaulicht. In diesen Kreisen sind die Operationen markiert, die in jedem Funktionszustand ausgeführt werden sollen. Die Pfeile 301, 302, 303, 304 und 305 stellen die Übergänge von einem Funktionszustand in den nächsten dar. In Verbindung mit diesen Pfeilen sind die Kriterien markiert, deren Ausführung diesen Übergang einleitet. Die Kurven 306, 307 und 308 stellen die Situation dar, in der der Funktionszustand nicht geändert wird. Außerdem sind diese Kurven mit den Kriterien zum Beibehalten des Funktionszustands versehen.
  • In diesen Funktionszuständen S1, S2 und S3 ist eine Funktion f() gezeigt, die das Ausführen der folgenden Operationen in den Funktionszuständen darstellt: vorzugsweise N Berechnungsergebnisse p(t) werden in dem Puffer gespeichert, und der niedrigste Maximumwert p_min(t) und der höchste Minimumwert p_min(t) werden vorteilhafterweise durch die folgenden Formeln bestimmt: p_min(t) = min[max <p(i – N + 1), p(i – N + 2), ..., p(i)>],i = N, N + 1, ..., t p_max(t) = max[min <p(i – N + 1), p(i – N + 2), ..., p(i)>],i = N, N + 1, ..., t
  • Folglich ist in der Funktion f(t) der gesuchte Maximumwert p_max(t) der höchste Minimumwert, und der Minimumwert p_min(t) ist der niedrigste Maximumwert der Berechnungsergebnisse p(i), die in den verschiedenen Unterbandpuffern gespeichert sind. Danach wird die Mittelleistung p(t)m berechnet, die der Mittelwert der in dem Puffer gespeicherten Berechnungsergebnisse (p)t ist, und ein Schwellenwert thr durch die Formel thr = p_min + k – (p_max – p_min), wobei 0 < k < 1 ist. Als nächstes wird in der Funktion f() ein Vergleich zwischen der Mittelleistung p(t)m und dem oben berechneten Schwellenwert angestellt. Das Ergebnis der Berechnung leitet abhängig von dem Funktionszustand, in dem sich die Zustandsmaschine zu einem gegebenen Zeitpunkt befindet, verschiedene Operationen ein. Dies wird im Folgenden in Verbindung mit der Beschreibung der verschiedenen Funktionszustände detaillierter beschrieben.
  • Nach dem Speichern einer Gruppe unterbandspezifischer Berechnungsergebnisse p(t) der Sprache (N Ergebnisse pro Unterband) beginnt das Spracherkennungsgerät mit dem Ausführen der Zustandsmaschine, die in der Anwendungssoftware von entweder dem digitalen Signalprozessor 13 oder der Steuerung 5 implementiert ist. Das Timing kann auf eine an sich bekannte Art und Weise hergestellt werden, vorzugsweise mit einem Oszillator, wie etwa einem Kristalloszillator (nicht gezeigt). Die Ausführung wird vom Zustand S0 gestartet, in dem die Variablen, die in der Zustandsmaschine benutzt werden sollen, auf ihre Anfangswerte ((init()) gesetzt sind: ein Pausenzähler C ist auf null gesetzt, das Leistungsminimum p_min zum Startzeitpunkt t = 1 (p_min(t = 1)) ist auf den theoretischen Wert 8, in der Praxis auf den höchstmöglichen numerischen Wert gesetzt, der in dem Spracherkennungsgerät verfügbar ist. Dieser Maximumwert wird durch die Bitzahl beeinflusst, mit denen diese Werte berechnet werden. Entsprechend ist das Leistungsmaximum p_max zum Startzeitpunkt t = 1 (p_max (t = 1) auf den theoretischen Wert –8, in der Praxis auf den niedrigstmöglichen numerischen Wert gesetzt, der in dem Spracherkennungsgerät verfügbar ist.
  • Nach dem Einstellen der Anfangswerte leitet die Funktion zum Zustand S1, in dem die Operationen der Funktion f() ausgeführt werden, wobei beispielsweise das Leistungsminimum p_min und das Leistungsmaximum p_max sowie die Mittelleistung (p(t)m berechnet werden. Im Funktionszustand S1 wird außerdem der Pausenzähler C um eins erhöht. Dieser Funktionszustand herrscht bis zum Ablauf einer vorgegebenen Anfangsverzögerung vor. Dies wird durch Vergleichen des Pausenzählers C mit einem vorgegebenen Beginnwert BEG bestimmt. Auf der Stufe, auf der der Pausenzähler C den Beginnwert BEG erreicht hat, leitet die Operation zu Zustand S2 weiter.
  • Im Funktionszustand S2 wird der Pausenzähler C auf null gesetzt und die Operationen der Funktion f() ausgeführt, wie etwa das Speichern des neuen Berechnungsergebnisses p(t) und die Berechnung des Leistungsminimums p_min, des Leistungsmaximums p_max sowie der Mittelleistung p(t)m und des Schwellenwerts thr. Der berechnete Schwellenwert und die Mittelleistung werden miteinander verglichen, und wenn die Mittelleistung geringer als der Schwellenwert ist, leitet die Operation zu Zustand S3 weiter; in anderen Fällen wird der Funktionszustand nicht geändert, es werden jedoch die oben dargelegten Operationen dieses Funktionszustands S2 erneut ausgeführt.
  • Im Funktionszustand S3 wird der Pausenzähler C um eins erhöht und die Funktion f() ausgeführt. Wenn die Berechnung anzeigt, dass die Mittelleistung immer noch kleiner als der Schwellenwert ist, wird der Wert des Pausenzählers C überprüft, um herauszufinden, ob sich die Mittelleistung für einen bestimmten Zeitraum unterhalb des Leistungsschwellenwerts befunden hat. Der Ablauf dieser Zeitbegrenzung kann durch Vergleichen des Werts des Pausenzählers C mit einer Äußerungszeitbegrenzung END herausgefunden werden. Wenn der Wert des Zählers größer als die oder gleich der Ablaufzeitbegrenzung END ist, bedeutet das, dass keine Sprache auf dem Unterband erkannt werden kann, womit die Zustandsmaschine verlassen wird.
  • Wenn der Vergleich des Schwellenwerts und der Mittelleistung in dem Funktionszustand S3 jedoch gezeigt hat, dass die Mittelleistung den Leistungsschwellenwert überschritten hat, kann gefolgert werden, dass Sprache auf diesem Unterband erkannt wird, und die Zustandsmaschine kehrt zum Funktionszustand S2 zurück, in dem beispielsweise der Pausenzähler C zurückgesetzt und die Berechnung von vorne gestartet wird.
  • Mithin wurde der Betrieb der Zustandsmaschine, die in dem Verfahren gemäß einer vorteilhaften Ausführungsform der Erfindung benutzt werden soll, oben allgemein beschrieben. In einem Spracherkennungsgerät gemäß der Erfindung werden die oben dargelegten Funktionsstufen für jedes Unterband separat ausgeführt.
  • Das Samplen eines Sprachsignals wird vorteilhafterweise in Intervallen ausgeführt, wobei die Stufen 101 bis 104 nach der Berechnung jeden Merkmalsvektors ausgeführt werden, vorzugsweise in Intervallen von ungefähr 10 ms. Folglich werden in der Zustandsmaschine jeden Unterbands die Operationen gemäß dem jeweils aktiven Funktionszustand einmal ausgeführt (eine Berechnungszeit), z.B. wird bei Zustand S3 der Pausenzähler C(s) des betreffenden Unterbands erhöht, die Funktion f(s) wird ausgeführt, wobei beispielsweise ein Vergleich zwischen der Mittelleistung und dem Schwellenwert angestellt wird, und auf der Grundlage desselben wird der Funktionszustand entweder beibehalten oder geändert.
  • Nachdem eine Berechnungsrunde für die Zustandsmaschinen aller Unterbänder ausgeführt wurde, leitet der Betrieb zu Stufe 106 bei der Spracherkennung weiter, wobei auf Grundlage der von den verschiedenen Unterbändern empfangenen Information überprüft wird, ob eine genügend lange Sprachpause erkannt wurde. Diese Stufe 104 ist als Flussdiagramm in der beiliegenden 4 dargestellt. Zum Klären der Überprüfung werden einige Vergleichswerte bestimmt, die vorgegebene Anfangswerte vorzugsweise in Verbindung mit der Fertigung des Spracherkennungsgeräts sind, wobei diese Anfangswerte bei Bedarf entsprechend der betreffenden Anwendung und den Benutzungsbedingungen geändert werden können. Das Einstellen dieser Anfangswerte ist mit Block 401 im Flussdiagramm von 4 dargestellt:
    • – Aktivitätsschwelle SB_ACTIVE_TH, deren Wert größer als null, jedoch kleiner als die Erkennungszeitbegrenzung END ist,
    • – Erkennungsmenge SB_SUFF_TH, deren Wert größer as null, jedoch kleiner als die oder gleich der Anzahl L von Unterbändern ist,
    • – Minimumanzahl SB_MIN-TH von Unterbändern, deren Wert größer als null, jedoch kleiner als die Erkennungsmenge SB_SUFF_TH ist.
  • Bei dem Verfahren gemäß der Erfindung zum Erkennen einer Sprachpause wird überprüft, auf wie vielen Unterbändern der Energiepegel möglicherweise unter dem Leistungsschwellenwert geblieben ist und wie lange. Wie in der obigen Funktionsbeschreibung der Zustandsmaschine offenbart, zeigt der Pausenzähler C an, wie lange der Audioenergiepegel unter dem Leistungsschwellenwert geblieben ist. Daher wird der Wert des Zählers für jedes Unterband überprüft. Wenn der Wert des Zählers größer als die oder gleich der Erkennungszeitbegrenzung END ist (Block 402), bedeutet das, dass der Energiepegel des Unterbands so lange unter dem Leistungsschwellenwert geblieben ist, dass eine Bestimmung zum Erkennen einer Pause für dieses Unterband getroffen werden kann, d.h., es wird eine unterbandspezifische Bestimmung getroffen. Daher wird der Erkennungszähler SB_DET_NO vorzugsweise um eins erhöht.
  • Wenn der Wert des Zählers größer als die oder gleich der Aktivitätsschwelle SB_ACTIVE_TH ist (Block 404), war der Energiepegel auf diesem Unterband für einen Moment unter dem Leistungsschwellenwert, jedoch nicht für einen Zeitraum, der der Erkennungszeitbegrenzung END entspricht. Daher wird der Aktivitätszähler SB_ACT_NO in Block 405 vorzugsweise um eins erhöht. In anderen Fällen ist entweder ein Audiosignal auf dem Unterband oder war der Pegel des Audiosignals nur eine kurze Zeit unter dem Leistungsschwellenwert thr.
  • Als nächstes leitet der Betrieb weiter zu Block 406, in dem der Unterbandzähler i, der als eine zusätzliche Variable verwendet wird, um eins erhöht. Auf der Grundlage dieses Unterbandzählers i kann gefolgert werden, ob alle Unterbänder überprüft wurden (Block 407).
  • Wenn die Vergleiche mit den Pausenzählern angestellt wurden, wird überprüft, auf wie vielen Unterbändern eine Pause erkannt wurde (der Pausenzähler war größer als die oder gleich der Erkennungszeitbegrenzung END). Wenn die Anzahl derartiger Unterbänder größer als die oder gleich der Erkennungsmenge SB_SUFF_TH ist (Block 408), wird in dem Verfahren gefolgert, dass eine Sprachpause vorliegt (Pausenerkennungsbestimmung, Block 409), und es ist möglich, zur eigentlichen Spracherkennung weiterzuleiten, um herauszufinden, was der Benutzer geäußert hat. Wenn die Unterbandanzahl jedoch kleiner als die Erkennungsmenge SB_SUFF_TH ist, wird überprüft, ob die Anzahl von Unterbändern, die eine Pause enthalten, größer als die oder gleich der Minimumanzahl von Unterbändern SB_MIN_TH ist (Block 410). Ferner wird in Block 411 überprüft, ob jegliche der Unterbänder aktiv sind (der Pausenzähler war größer als die oder gleich der Aktivitätsschwelle SB_ACTIVE_TH, jedoch kleiner als die Erkennungszeitbegrenzung END). Bei dem Verfahren gemäß der Erfindung wird in dieser Situation eine Entscheidung getroffen, dass eine Sprachpause vorliegt, wenn keines der Unterbänder aktiv ist.
  • In einer Rauschsituation kann Rauschen auf einigen Unterbändern bewirken, dass eine Erkennungsbestimmung nicht auf allen Unterbändern getroffen werden kann, auch wenn es eine Sprachpause gäbe, die erkannt werden sollte. Daher ist es mittel des Unterbandminimums SB_MIN_TH möglich, die Erkennung einer Sprachpause insbesondere unter Rauschbedingungen zu bestätigen. Daher wird in einer Rauschsituation, wenn eine Pause auf zumindest der Minimumanzahl SB_MIN_TH von Unterbändern erkannt wird, eine Sprachpause erkannt, wenn die Pausenerkennungsbestimmung auf diesen Unterbändern für die Dauer der Erkennungszeitbegrenzung END in Kraft bleibt.
  • Folglich kann unter guten Bedingungen das Benutzen der Erkennungszeitbegrenzung END eine zu schnelle Bestimmung zum Erkennen einer Pause verhindern. Unter guten Bedingungen kann die Minimumanzahl von Unterbändern schnell eine Pausenerkennungsbestimmung bewirken, auch wenn keine derartige Sprachpause zu erkennen ist. Durch Abwarten der Erkennungszeitbegrenzung für im Wesentlichen alle Unterbänder wird bestätigt, dass tatsächlich eine Sprachpause vorliegt.
  • In einer anderen vorteilhaften Ausführungsform der Erfindung wird nicht vor dem Treffen der Bestimmung zum Erkennen einer Pause überprüft, ob jegliches der Unterbänder aktiv ist. Daher wird die Bestimmung zum Erkennen einer Pause auf der Grundlage der oben dargelegten Vergleichsergebnisse getroffen.
  • Die oben dargelegten Operationen können vorteilhafterweise beispielsweise in der Anwendungssoftware der Steuerung oder des digitalen Signalprozessors des Spracherkennungsgeräts implementiert sein.
  • Das oben dargelegte Verfahren zum Erkennen einer Sprachpause gemäß der vorteilhaften Ausführungsform der Erfindung kann auf der Stufe des Programmierens eines Spracherkennungsgeräts sowie auf der Spracherkennungsstufe angewendet werden. Auf der Programmierungsstufe können die Störbedingungen verhältnismäßig konstant gehalten sein. Wenn ein sprachgesteuertes Gerät benutzt wird, können jedoch die Hintergrundgeräuschmenge und andere Störungen in hohem Ausmaß schwanken. Zum Verbessern der Spracherkennungszuverlässigkeit insbesondere unter veränderlichen Bedingungen ist die Berechnung des Schwellenwerts thr mit Adaptivität ergänzt. Zum Erzielen dieser Adaptivität wird ein Modifizierungskoeffizient UPDATE_C benutzt, dessen Wert vorzugsweise größer als null und kleiner als eins ist. Dem Modifizierungskoeffizienten wird zunächst ein Anfangswert innerhalb des Wertbereichs gegeben. Dieser Modifizierungskoeffizient wird während der Spracherkennung vorzugsweise folgendermaßen aktualisiert. Auf Grundlage der Samples der Unterbänder, di in den Puffern gespeichert sind, werden ein Maximumleistungspegel win_max und ein Minimumleistungspegel win_min berechnet. Danach wird der berechnete Maximumleistungspegel win_max mit dem Leistungsmaximum p_max zu der Zeit verglichen und der berechnete Minimumleistungspegel win_min wird mit dem Leistungsminimum p_min verglichen. Wenn der Absolutwert der Differenz zwischen dem berechneten Maximumleistungspegel win_max und dem Leistungsmaximum p_max oder der Absolutwert der Differenz zwischen dem berechneten Minimumleistungspegel win_min und dem Leistungsminimum p_min von der vorhergehenden Berechnungszeit angestiegen ist, wird der Modifizierungskoeffizient UPDATE_C erhöht. Wenn andererseits der Absolutwert der Differenz zwischen dem berechneten Maximumleistungspegel win_max und dem Leistungsmaximum p_max oder der Absolutwert der Differenz zwischen dem berechneten Minimumleistungspegel win_min und dem Leistungsminimum p_min von der vorhergehenden Berechnungszeit abgenommen hat, wird der Modifizierungskoeffizient UPDATE_C verringert. Danach werden ein neues Leistungsmaximum und ein neues Leistungsminimum folgendermaßen berechnet: p_min(t) = (1 – UPDATE_C)·p_min(t – 1) + (UPDATE_C·win_min) p_max(t) = (1 – UPDATE_C)·p_max (t – 1) + (UPDATE_C·win_max)
  • Die berechneten neuen Leistungsmaximum- und -minimumwerte werden bei der nächsten Samplingrunde benutzt, beispielsweise in Verbindung mit dem Ausführen der Funktion f(). Die Bestimmung dieses adaptiven Koeffizienten weist beispielsweise den Vorteil auf, dass Änderungen der Umgebungsbedingungen bei der Spracherkennung besser berücksichtigt werden können und die Pausenerkennung zuverlässiger wird.
  • Die oben dargelegten, verschiedenen Operationen zum Erkennen einer Sprachpause können weitgehend in der Anwendungssoftware der Steuerung und/oder des digitalen Signalprozessors des Spracherkennungsgeräts implementiert sein. Bei dem Spracherkennungsgerät gemäß der Erfindung können einige der Funktionen, wie etwa die Unterteilung in Unterbänder, außerdem mit analoger Technik implementiert sein, die an sich bekannt ist. In Verbindung mit dem Ausführen des Verfahrens, beim Speichern der Berechnungsergebnisse, die auf verschiedenen Stufen vorzunehmen ist, den Variablen usw. ist es möglich, die Speichermittel 14 des Spracherkennungsgeräts zu benutzen, vorzugsweise einen Arbeitsspeicher (RAM), einen nichtflüchtigen Arbeitsspeicher (NVRAM), einen Flash-Speicher usw. Das Speichermittel 22 des drahtlosen Kommunikationsgeräts kann ebenfalls zum Speichern von Information benutzt sein.
  • 2, die das drahtlose Kommunikationsgerät MS gemäß einer vorteilhaften Ausführungsform der Erfindung zeigt, zeigt zusätzlich eine Tastatur 17, ein Display 18, einen Digital-Analog-Wandler 19, einen Kopfhörerverstärker 20a, einen Kopfhörer 21, einen Kopfhörerverstärker 20b für eine Freisprechfunktion 2, einen Kopfhörer 21b und einen Hochfrequenzblock 23, die alle an sich bekannt sind.
  • Die vorliegende Erfindung kann in Verbindung mit verschiedenen Spracherkennungssystemen angewendet werden, die mit unterschiedlichen Prinzipien funktionieren. Die Erfindung verbessert die Zuverlässigkeit der Erkennung von Sprachpausen, wodurch die Erkennungszuverlässigkeit der tatsächlichen Spracherkennung gewährleistet ist. Unter Benutzung des Verfahrens gemäß der Erfindung ist es nicht notwendig, die Spracherkennung in Verbindung mit einem festgelegten Zeitfenster auszuführen, bei dem die Erkennungsverzögerung im Wesentlichen nicht von der Geschwindigkeit abhängt, mit der der Benutzer Sprachbefehle äußert. Außerdem kann die Wirkung von Hintergrundrauschen auf die Spracherkennung auf Anwenden des Verfahrens der Erfindung hin kleiner gehalten sein, als es bei Spracherkennungsgeräten des Stands der Technik möglich ist.
  • Es ist offensichtlich, dass die Erfindung nicht lediglich auf die oben dargelegten Ausführungsformen beschränkt ist, sondern innerhalb des Anwendungsbereichs der beiliegenden Ansprüche modifiziert sein kann.

Claims (11)

  1. Verfahren zum Erkennen von Sprachpausen zur Spracherkennung, wobei bei dem Verfahren zum Erkennen von Sprachbefehlen, die vom Benutzer geäußert werden, die Stimme in ein elektrisches Signal umgewandelt wird, das Frequenzspektrum des elektrischen Signals in zwei oder mehr Unterbänder unterteilt wird, Samples der Signale auf den Unterbändern in Intervallen gespeichert werden, die Energiepegel der Unterbänder auf der Grundlage der gespeicherten Samples bestimmt werden, ein Leistungsschwellenwert (thr) bestimmt wird und die Energiepegel der Unterbänder mit dem Leistungsschwellenwert (thr) verglichen werden, dadurch gekennzeichnet, dass eine Erkennungszeitbegrenzung (END) und eine Erkennungsmenge (SB_SUFF_TH) bestimmt werden, die Vergleichsergebnisse zum Erzeugen eines Pausenerkennungsergebnisses benutzt werden, wobei die Berechnung der Länge einer Pause auf einem Unterband begonnen wird, wenn der Energiepegel des Unterbands unter den Leistungsschwellenwert (thr) fällt, wobei bei dem Verfahren eine unterbandspezifische Erkennung ausgeführt wird, wenn die Berechnung die Erkennungszeitbegrenzung (END) erreicht, überprüft wird, auf wie vielen Unterbändern der Energiepegel länger als die Erkennungszeitbegrenzung (END) unter dem Leistungsschwellenwert (thr) war, wobei eine Pausenerkennungsentscheidung getroffen wird, wenn die Anzahl von unterbandspezifischen Erkennungen größer als die oder gleich der Erkennungsmenge (SB_SUFF_TH) ist.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die unterbandspezifische Erkennung, Überprüfung und Pausenerkennungsentscheidung wiederholt werden.
  3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass bei dem Verfahren außerdem eine Aktivitätszeitbegrenzung (SB_ACTIVE_TH) und eine Aktivitätsmenge (SB_MIN_TH) bestimmt werden, wobei eine Pausenerkennung ausgeführt wird, wenn die Menge von unterbandspezifischen Erkennungen größer als die oder gleich der Aktivitätsmenge (SB_MIN_TH) ist und die Aktivitätszeitbegrenzung (SB_ACTIVE_TH) auf den anderen Unterbändern bei der Berechnung der Länge der Pause auf dem Unterband nicht erreicht wurde.
  4. Verfahren nach einem der Ansprüche 1, 2 oder 3, dadurch gekennzeichnet, dass der Leistungsschwellenwert (thr) mit der Formel thr = p_min + k·(p_max – p_min)berechnet wird, wobei p_min = das kleinste, von den gespeicherten Samples der Unterbänder bestimmte Leistungsmaximum ist und p_max = das größte, von den gespeicherten Samples der Unterbänder bestimmte Leistungsmaximum ist.
  5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Leistungsschwellenwert (thr) adaptiv durch Berücksichtigen des Umgebungsgeräuschpegels in jedem Moment berechnet wird.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass zum Berechnen des Leistungsschwellenwerts (thr) ein Modifikationskoeffizient (UPDATE_C) bestimmt wird und der größte Leistungspegel (win_max) und der kleinste Leistungspegel (win_min) der Unterbänder auf der Grundlage der gespeicherten Samples berechnet werden, wobei das Leistungsmaximum (p_max) und das Leistungsminimum (p_min) folgende Formel berechnet werden: p_max(i, t) = (1 – UPDATE_C)·p_max(i, t – 1) + (UPDATE_C·win_max) p_min(i, t) = (1 – UPDATE_C)·p_min(i, t – 1) + (UPDATE_C·win_min)wobei 0 < UPDATE_C < 1, 0 < i < L, und L die Anzahl von Unterbändern ist.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass bei dem Verfahren ferner – der Modifikationskoeffizient (UPDATE_C) erhöht wird, wenn der Absolutwert der Differenz zwischen dem berechneten höchsten Leistungspegel (win_max) und dem Leistungsmaximum (p_max) oder der Absolutwert der Differenz zwischen dem berechneten niedrigsten Leistungspegel (win_min) und dem Leistungsminimum (p_min) angestiegen ist, – der Modifikationskoeffizient (UPDATE_C) verringert wird, wenn der Absolutwert der Differenz zwischen dem berechneten höchsten Leistungspegel (win_max) und dem Leistungsmaximum (p_max) oder der Absolutwert der Differenz zwischen dem berechneten niedrigsten Leistungspegel (win_min) und dem Leistungsminimum (p_min) abgenommen hat.
  8. Spracherkennungsgerät (16), umfassend: – Mittel (1a, 1b) zum Umwandeln von von einem Benutzer geäußerten Sprachbefehlen in ein elektrisches Signal, – Mittel (8) zum Unterteilen des Frequenzspektrums des elektrischen Signals in zwei oder mehr Unterbänder, – Mittel (14) zum Speichern von Samples der Signale der Unterbänder in Intervallen, – Mittel (5, 13) zum Bestimmen von Energiepegeln der Unterbänder auf der Grundlage der gespeicherten Samples, – Mittel (5, 13) zum Bestimmen eines Leistungsschwellenwerts (thr), – Mittel (5, 13) zum Vergleichen der Energiepegel der Unterbänder mit dem Leistungsschwellenwert (thr) und – Mittel (5, 13) zum Erkennen einer Sprachpause auf der Grundlage der Vergleichsergebnisse; dadurch gekennzeichnet, dass eine Erkennungszeitbegrenzung (END) und eine Erkennungsmenge (SB_SUFF_TH) bestimmt sind, wobei Mittel zum Erkennen einer Sprachpause folgendes umfassen: – Mittel zum Beginnen einer Berechnung der Länge einer Pause auf einem Unterband, wenn der Energiepegel des Unterbands unter den Leistungsschwellenwert (thr) fällt, – Mittel zum Ausführen einer unterbandspezifischen Erkennung, wenn die Berechnung die Erkennungszeitbegrenzung (END) erreicht, – Mittel zum Überprüfen, auf wie vielen Unterbändern der Energiepegel länger als die Erkennungszeitbegrenzung (END) unter dem Leistungsschwellenwert (thr) war, wobei eine Pausenerkennungsentscheidung getroffen wird, wenn die Anzahl von unterbandspezifischen Erkennungen größer als die oder gleich der Erkennungsmenge (SB_SUFF_TH) ist.
  9. Spracherkennungsgerät (16) nach Anspruch 8, dadurch gekennzeichnet, dass der Leistungsschwellenwert mit der Formel thr = p_min + k·(p_max – p_min)berechnet wird, wobei p_min = das kleinste, von den gespeicherten Samples der Unterbänder bestimmte Leistungsmaximum ist und p_max = das größte, von den gespeicherten Samples der Unterbänder bestimmte Leistungsmaximum ist.
  10. Spracherkennungsgerät (16) nach einem der Ansprüche 8 oder 9, dadurch gekennzeichnet, dass es außerdem Mittel (10, 11) zum Filtern der Signale der Unterbänder vor der Speicherung umfasst.
  11. Drahtloses Kommunikationsgerät (MS), umfassend – Mittel (16) zum Erkennen von Sprache und Mittel (1a, 1b) zum Umwandeln von von einem Benutzer geäußerten Sprachbefehlen in ein elektrisches Signal, – Mittel (8) zum Unterteilen des Frequenzspektrums des elektrischen Signals in zwei oder mehr Unterbänder, – Mittel (14) zum Speichern von Samples der Signale der Unterbänder in Intervallen, – Mittel (5, 13) zum Bestimmen von Energiepegeln der Unterbänder auf der Grundlage der gespeicherten Samples, – Mittel (5, 13) zum Bestimmen eines Leistungsschwellenwerts (thr), – Mittel (5, 13) zum Vergleichen der Energiepegel der Unterbänder mit dem Leistungsschwellenwert (thr) und – Mittel (5, 13) zum Erkennen einer Sprachpause auf der Grundlage der Vergleichsergebnisse. dadurch gekennzeichnet, dass eine Erkennungszeitbegrenzung (END) und eine Erkennungsmenge (SB_SUFF_TH) bestimmt sind, wobei Mittel (5, 13) zum Erkennen einer Sprachpause folgendes umfassen: – Mittel zum Beginnen einer Berechnung der Länge einer Pause auf einem Unterband, wenn der Energiepegel des Unterbands unter den Leistungsschwellenwert (thr) fällt, – Mittel zum Ausführen einer unterbandspezifischen Erkennung, wenn die Berechnung die Erkennungszeitbegrenzung (END) erreicht, – Mittel zum Überprüfen, auf wie vielen Unterbändern der Energiepegel länger als die Erkennungszeitbegrenzung (END) unter dem Leistungsschwellenwert (thr) war, wobei eine Pausenerkennungsentscheidung getroffen wird, wenn die Anzahl von unterbandspezifischen Erkennungen größer als die oder gleich der Erkennungsmenge (SB_SUFF_TH) ist.
DE60033636T 1999-01-18 2000-01-17 Pausendetektion für die Spracherkennung Expired - Lifetime DE60033636T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI990078 1999-01-18
FI990078A FI118359B (fi) 1999-01-18 1999-01-18 Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
PCT/FI2000/000028 WO2000042600A2 (en) 1999-01-18 2000-01-17 Method in speech recognition and a speech recognition device

Publications (2)

Publication Number Publication Date
DE60033636D1 DE60033636D1 (de) 2007-04-12
DE60033636T2 true DE60033636T2 (de) 2007-06-21

Family

ID=8553379

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60033636T Expired - Lifetime DE60033636T2 (de) 1999-01-18 2000-01-17 Pausendetektion für die Spracherkennung

Country Status (8)

Country Link
US (1) US7146318B2 (de)
EP (1) EP1153387B1 (de)
JP (1) JP2002535708A (de)
AT (1) ATE355588T1 (de)
AU (1) AU2295800A (de)
DE (1) DE60033636T2 (de)
FI (1) FI118359B (de)
WO (1) WO2000042600A2 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
JP2002041073A (ja) * 2000-07-31 2002-02-08 Alpine Electronics Inc 音声認識装置
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US6771706B2 (en) 2001-03-23 2004-08-03 Qualcomm Incorporated Method and apparatus for utilizing channel state information in a wireless communication system
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
CN101320559B (zh) 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US9135809B2 (en) * 2008-06-20 2015-09-15 At&T Intellectual Property I, Lp Voice enabled remote control for a set-top box
CN102498514B (zh) * 2009-08-04 2014-06-18 诺基亚公司 用于音频信号分类的方法和装置
SI3493205T1 (sl) 2010-12-24 2021-03-31 Huawei Technologies Co., Ltd. Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu
ES2819032T3 (es) 2013-12-19 2021-04-14 Ericsson Telefon Ab L M Estimación de ruido de fondo en señales de audio
US10332564B1 (en) * 2015-06-25 2019-06-25 Amazon Technologies, Inc. Generating tags during video upload
US10090005B2 (en) * 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
US10825471B2 (en) * 2017-04-05 2020-11-03 Avago Technologies International Sales Pte. Limited Voice energy detection
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
CN111327395B (zh) * 2019-11-21 2023-04-11 沈连腾 一种宽带信号的盲检测方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
EP0167364A1 (de) * 1984-07-06 1986-01-08 AT&T Corp. Sprachpausenbestimmung mit Teilbandkodierung
GB8613327D0 (en) * 1986-06-02 1986-07-09 British Telecomm Speech processor
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5794199A (en) 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
US6108610A (en) * 1998-10-13 2000-08-22 Noise Cancellation Technologies, Inc. Method and system for updating noise estimates during pauses in an information signal
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin

Also Published As

Publication number Publication date
WO2000042600A2 (en) 2000-07-20
US7146318B2 (en) 2006-12-05
US20040236571A1 (en) 2004-11-25
AU2295800A (en) 2000-08-01
FI990078A0 (fi) 1999-01-18
EP1153387A2 (de) 2001-11-14
FI118359B (fi) 2007-10-15
EP1153387B1 (de) 2007-02-28
JP2002535708A (ja) 2002-10-22
ATE355588T1 (de) 2006-03-15
WO2000042600A3 (en) 2000-09-28
DE60033636D1 (de) 2007-04-12
FI990078A (fi) 2000-07-19

Similar Documents

Publication Publication Date Title
DE60033636T2 (de) Pausendetektion für die Spracherkennung
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE60024236T2 (de) Sprach endpunktbestimmung in einem rauschsignal
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69925168T2 (de) Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60204504T2 (de) Schlüsselworterkennung in einem verrauschten Signal
DE60007637T2 (de) Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
DE10006930B4 (de) System und Verfahren zur Spracherkennung
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE3009677A1 (de) Verfahren zur erkennung von sprache und sprachpausen
EP0668007A1 (de) Mobilfunkgerät mit freisprecheinrichtung
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
EP1258865A2 (de) Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen
DE112011106045B4 (de) Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren
DE19939102C1 (de) Verfahren und Anordnung zum Erkennen von Sprache
DE19521258A1 (de) Spracherkennungssystem
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
EP1456837B1 (de) Verfahren und vorrichtung zur spracherkennung
DE10043064B4 (de) Verfahren und Vorrichtung zur Elimination von Lautsprecherinterferenzen aus Mikrofonsignalen
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal

Legal Events

Date Code Title Description
8364 No opposition during term of opposition