DE60025333T2 - Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums - Google Patents

Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums Download PDF

Info

Publication number
DE60025333T2
DE60025333T2 DE60025333T DE60025333T DE60025333T2 DE 60025333 T2 DE60025333 T2 DE 60025333T2 DE 60025333 T DE60025333 T DE 60025333T DE 60025333 T DE60025333 T DE 60025333T DE 60025333 T2 DE60025333 T2 DE 60025333T2
Authority
DE
Germany
Prior art keywords
chi
frame
determining
value
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60025333T
Other languages
English (en)
Other versions
DE60025333D1 (de
Inventor
Philippe Gelin
Jean-Claude Santa Barbara Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp of North America
Original Assignee
Panasonic Corp of North America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp of North America filed Critical Panasonic Corp of North America
Publication of DE60025333D1 publication Critical patent/DE60025333D1/de
Application granted granted Critical
Publication of DE60025333T2 publication Critical patent/DE60025333T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Erkennen von Sprache aus einem Eingangssprachsignal, von der Art, die den Schritt des Abtastens des Eingangssprachsignals über mehrere Rahmen umfasst, wovon jeder der mehreren Rahmen mehrere digitale Abtastwerte aufweist.
  • Die Spracherkennungstechnologie ist heutzutage weit verbreitet. Typischerweise empfangen Spracherkennungssysteme ein zeitvariables Sprachsignal, das für gesprochene Wörter und Sätze steht. Diese Systeme versuchen, die Wörter und Sätze im Sprachsignal zu bestimmen, indem Bestandteile des Sprachsignals analysiert werden. Als erster Schritt müssen die meisten Spracherkennungssysteme zuerst diejenigen Teile des Signals, die gesprochene Wörter übertragen, aus den nicht sprachlichen Teilen des Signals isolieren. Dazu versuchen Spracherkennungssysteme, die Anfangs- und Endgrenzen eines Worts oder einer Gruppe von Wörtern im Sprachsignal zu bestimmen. Die genaue und zuverlässige Bestimmung von Anfangs- und Endgrenzen von Wörtern und Sätzen wirft vor allem dann ein herausforderndes Problem auf, wenn das Sprachsignal Hintergrundgeräusche enthält.
  • Spracherkennungssysteme greifen im Allgemeinen auf unterschiedliche Arten von Information zurück, die im Sprachsignal eingeschlossen sind, um die Stelle oder ein einzelnes Wort oder eine einzelne Gruppe von Wörtern im Signal zu bestimmen. Es wurde eine erste Gruppe von Spracherkennungsverfahren entwickelt, um Sprachsignale unter Verwendung von Zeitbereichsinformation des Signals zu analysieren. Typischerweise wird die Stärke oder Amplitude des Sprachsignals gemessen. Teile des Sprachsignals mit einer Stärke, die höher ist als ein Mindestschwellenwert, werden als Sprache bezeichnet; wohingegen diejenigen Teile des Sprachsignals mit einer Stärke, die unter dem Schwellenwert liegt, als nicht sprachlich bezeichnet werden. Andere ähnliche Verfahren bauten auf der Erfassung der Nulldurchgangsratenschwankungen oder den Spitzen und Tälern im Signal auf.
  • Eine zweite Gruppe von Spracherkennungsalgorithmen greift auf Signalinformation zurück, die aus dem Frequenzbereich extrahiert wird. In diesen Algorithmen wird die Veränderung des Frequenzspektrums bewertet, und die Erfassung beruht auf der Fre quenz dieser Veränderung, die über aufeinanderfolgende Rahmen berechnet wird. Alternativ wird die Varianz der Energie in jedem Frequenzband bewertet, und die Geräuscherfassung baut darauf auf, wann diese Varianzen einen bestimmten Schwellenwert unterschreiten.
  • Unglücklicherweise waren diese Spracherkennungsverfahren besonders dann unzuverlässig, wenn eine variable Geräuschkomponente im Sprachsignal vorhanden war. Man schätzte, dass viele der Fehler, die in einem typischen Spracherkennungssystem auftreten, das Ergebnis einer ungenauen Bestimmung der Stelle der Wörter im Sprachsignal sind. Um solche Fehler auf ein Mindestmaß zurückzufahren, muss das Verfahren zum stellenmäßigen Bestimmen von Wörtern im Sprachsignal die Grenzen der Wörter stellenmäßig zuverlässig und genau bestimmen können. Außerdem muss das Verfahren einfach und schnell genug sein, um eine Echtzeitverarbeitung des Sprachsignals zu ermöglichen. Das Verfahren muss sich auch ohne vorheriger Kenntnis des Geräuschs einer breiten Palette von Geräuschumgebungen anpassen können.
  • Eine Vorgehensweise zur Erfassung eines durch Geräusch beeinträchtigten Nutzsignals ist in der US 5,337,251 offenbart. Wie beschrieben ist, wird vom erwarteten Rauschabstand über einen Zeitschlitz ein Messwert ermittelt. Ein Messwert des erwarteten Weißrauschens allein wird über einen anderen Zeitschlitz ermittelt und die durchschnittliche Energie des Geräuschs und geräuschbeeinträchtigten Signals ermittelt, woraus sich ein Schwellenwert berechnen lässt.
  • Ein Signaldetektor, der die durchschnittliche Energie und Energiegehaltvarianz nutzt, ist in der US 5,323,337 offenbart. Ein Detektor unterscheidet zwischen Signalen, die Geräusch manifestieren, und Signalen, die Information manifestieren, die beide an einem Eingang erscheinen. Es werden Abtastwerte von den Signalen genommen, und ein Fourier-Filter bestimmt den Energiegehalt für jede Signalprobe. Ein Prozessor bestimmt dann den mittleren Energiegehalt und die Durchschnittsvarianz des Energiegehalts in allen Frequenzzellen in der Signalform.
  • Nach einem wie in Anspruch 1 beanspruchten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Erfassen von Sprache aus einem Eingangssprachsignal der vorgenannten Art bereitgestellt, das durch Bestimmen eines Frequenzspektrums für jeden der mehreren Rahmen; Aufbauen eines Geräuschmodells unter Verwendung von Frequenzspektren aus einem nicht sprachlichen Teil des Eingangssignals; und Verwenden eines Hypothesetests gekennzeichnet ist, um zu bestimmen, ob ein unbekannter Rahmen von den mehreren Rahmen mit dem Geräuschmodell korreliert, um dadurch Sprache aus dem Eingangssprachsignal zu erfassen.
  • In einer bevorzugten Ausführungsform umfasst der Schritt des Aufbauens eines Geräuschmodells darüber hinaus das Bestimmen eines Energiegehaltwerts für jedes von mehreren Frequenzbändern in mindestens zehn Rahmen am Anfang des Eingangssprachsignals; das Bestimmen eines Mittelwerts an jedem der mehreren Frequenzbänder für die Energiegehaltwerte, die mit den mindestens zehn Rahmen zusammenhängen; und das Bestimmen eines Varianzwerts für jeden Mittelwert, der mit den mindestens zehn Rahmen zusammenhängt, wodurch das Geräuschmodell für das Eingangssprachsignal aufgebaut wird.
  • Die Erfindung wird nun rein beispielhaft mit Bezug auf die beigefügten Zeichnungen beschrieben:
  • 1 ist ein Blockschema, das die Grundbestandteile eines Spracherfassungssystems darstellt;
  • 2 ist ein Ablaufdiagramm, das ein die vorliegende Erfindung verkörperndes Spracherfassungssystem veranschaulicht;
  • 3a und 3b sind detaillierte Ablaufdiagramme, die eine bevorzugte Ausführungsform des Spracherfassungsverfahrens der vorliegenden Erfindung zeigt;
  • 4 stellt die Normalverteilung eines Chi-Quadratmesswerts dar; und
  • 5 stellt ein mittleres Geräuschspektrum (und seine Varianz) über die ersten 100 Rahmen eines typischen Eingangssprachsignals dar.
  • In 1 ist ein Spracherfassungssystem 10 dargestellt. Typischerweise wird ein Eingangssprachsignal zuerst von einem A/D-Wandler 12 digital abgetastet. Als Nächstes wird durch einen Frequenzanalysator 14 aus dem digital abgetasteten Signal eine Frequenzbereichsinformation extrahiert. Schließlich wird die Frequenzbereichsinformation dazu verwendet, im Sprachdetektor 16 Sprache im Signal zu erfassen.
  • 2 stellt ein genaues und zuverlässiges Verfahren nach der vorliegenden Erfindung zum Erfassen von Sprache aus einem Eingangssprachsignal dar. Im Allgemeinen wird ein Wahrscheinlichkeitsverfahren eingesetzt, um jeden Rahmen des Signals entweder als sprachlich oder als nicht sprachlich zu klassifizieren. Zuerst teilt ein Block 22 das Sprachsignal in mehrere Rahmen auf. Einem Fachmann auf dem Gebiet wird schnell klar sein, dass solch ein Prozess synchron während der Aufzeichnung des Signals erfolgen kann, damit keine Verzögerung im Spracherkennungsprozess auftritt. Block 24 extrahiert Frequenzbereichsinformation aus jedem Rahmen, in dem die Frequenzbereichsinformation für jedes Frequenzband als Zufallsvariable und jeder Rahmen als Vorkommen dieser Zufallsvariablen erachtet wird. Indem die Frequenzbereichsinformation aus einem nicht sprachlichen Teil des Signals verwendet wird, wird im Block 26 ein bekannter Satz von Zufallsvariablen aufgebaut. Somit steht der bekannte Satz von Zufallsvariablen für die Geräuschkomponente des Sprachsignals.
  • Als Nächstes wird jeder unbekannte Rahmen dahingehend ausgewertet, ob er zu diesem Satz von Zufallsvariablen gehört oder nicht. Dazu wird eine einzige Zufallsvariable (z.B. ein Chi-Quadratwert) in Block 28 aus dem mit einem unbekannten Rahmen zusammenhängenden Satz von Zufallsvariablen gebildet. Die einzige Variable wird im Block 30 im Hinblick auf den bekannten Satz von Zufallsvariablen normiert und dann im Block 32 unter Verwendung des "Hypothesetests" als entweder sprachlich oder nicht sprachlich klassifiziert. Auf diese Weise wird jeder Rahmen, der nicht zum bekannten Satz von Zufallsvariablen gehört, als Sprache klassifiziert, und jeder Rahmen, der zu dem bekannten Satz von Zufallsvariablen gehört, wird als nicht sprachlich klassifiziert.
  • Eine ausführlichere Erklärung des Spracherfassungsverfahrens der vorliegenden Erfindung wird in Zusammenhang mit den 3A und 3B wiedergegeben. Das analoge Signal, das dem Sprachsignal entspricht (d.h. s(t)) wird im Block 42 auf im Stande der Technik hinlänglich bekannte Weise durch einen A/D-Wandler in eine digitale Form gebracht. Die digitalen Abtastwerte werden dann in Rahmen zerteilt. Jeder Rahmen muss eine zeitliche Definition aufweisen. Zu Darstellungszwecken ist der Rahmen als Fenstersignal w(n, t) = s(n·offset + t) definiert, worin n = Rahmenzahl und t = 1, ..., Fenstergröße sind. Wie dem Fachmann auf den Gebiet klar sein wird, sollte der Rahmen groß genug sein, um ausreichend viele Daten zur Frequenzanalyse bereitzustellen, und doch klein genug, um die Anfangs- und Endgrenzen eines Worts oder einer Gruppe von Wörtern im Sprachsignal genau zu identifizieren. In einer bevorzugten Ausführungsform wird das Sprachsignal digital mit 8 kHertz abgetastet, so dass jeder Rahmen 256 digitale Abtastwerte enthält und Segmenten des Sprachsignals von 30 ms entspricht.
  • Als Nächstes wird im Block 44 ein Frequenzspektrum aus jedem Rahmen extrahiert. Da Rauschen für gewöhnlich bei bestimmten Frequenzen auftritt, ist es vorteilhafter, die Rahmen der Signale in ihrem Frequenzbereich darzustellen. Typischerweise wird das Frequenzspektrum dadurch hergestellt, dass auf jeden der Rahmen eine schnelle Fouriertransformation oder eine andere Frequenzanalysetechnik angewendet wird. Im Falle einer schnellen Fouriertransformation wird das Frequenzspektrum als F(n, f) = FFT(w(n,t)) definiert, worin n = Rahmenzahl und f = 1, ..., F sind. Dementsprechend wird die Größenordnung oder der Energiegehaltwert für jedes der Frequenzbänder in einem bestimmten Rahmen als M(n, f) = abs(F(n, f)) definiert.
  • Unter Verwendung dieser Frequenzbereichsinformation aus dem Sprachsignal wird jeder der Rahmen dann entweder als Sprache oder nicht sprachlich klassifiziert. Wie durch den Entscheidungsblock 46 bestimmt wird, werden zumindest die ersten zehn Rahmen (vorzugsweise 20 Rahmen) des Signals verwendet, um ein Geräuschmodell aufzubauen, wie nachstehend noch ausführlicher erläutert wird. Die übrigen Rahmen des Signals werden dann auf Grundlage eines Vergleichs mit dem Sprachmodell entweder als Sprache oder als nicht sprachlich klassifiziert.
  • Im Block 48 wird für jeden Rahmen der Energiegehaltwert bei jedem Frequenzband im Hinblick auf das Geräuschmodell normiert. Diese Werte werden normiert nach:
    Figure 00050001
    worin μN(f) und σN(f) ein Mittel sind, und seine entsprechende Standardabweichung für die Energiegehaltwerte aus den Rahmen verwendet wird, um das Geräuschmodell aufzubauen.
  • Für jede bestehende Frequenz f kann Mnorm(n, f) als das n-te Abtastwertevorkommen einer Zufallsvariablen R(f) mit einer Normalverteilung angesehen werden. Davon ausgehend, dass die Normalverteilungen unabhängig sind, hat der Satz von Zufallsvariablen R(f) eine Chi-Quadratverteilung mit F Freiheitsgraden. Somit wird im Block 50 der Chi-Quadratwert unter Verwendung der normierten Werte des Rahmens wie folgt berechnet:
  • Figure 00050002
  • Auf diese Weise extrahiert der Chi-Quadratwert einen einzelnen Messwert, der für den Rahmen steht.
  • Als Nächstes kann der Chi-Quadratwert im Block 52 normiert werden, um die Genauigkeit des Spracherfassungssystems weiter zu verbessern. Wenn der Freiheitsgrad F zu 4 tendiert, tendiert der Chi-Quadratwert zu einer Normalverteilung. In der vorliegenden Erfindung wird, da F wahrscheinlich 30 überschreiten wird (d.h. im bevorzugten Fall F gleich 256 sein wird), unter der Annahme, dass die Hypothese unabhängig ist, die Normierung von X(n) bereitgestellt durch:
    Figure 00060001
    worin das Mittel und die Standardabweichung des Chi-Quadratwerts als μX = F bzw. σX= √2F geschätzt werden.
  • Eine weitere bevorzugte Ausführungsform für die Normierung des Chi-Quadrats besteht darin, die Annahme der Unabhängigkeit der Zufallsvariablen R(f) nicht zu berücksichtigen und X nach seinem eigenen geschätzten Mittel und seiner eigenen Varianz zu normieren. Dazu wird angenommen, dass X eine Chi-Quadratzufallsvariable mit Freiheitsgraden ist, die unbekannt sind und doch hoch genug, um ein Gauß'sche Verteilungsannäherung zu erhalten. Dies führt wie folgt zu einer Schätzung des Mittels μX und der Standardabweichung σX für X (wird auch als Chi-Quadratmodell bezeichnet):
  • Figure 00060002
  • Die wie unten gezeigte Normierung von X führt zu einer Standardnormalverteilung:
  • Figure 00060003
  • Jeder Rahmen kann dann entweder als Sprache oder als nicht sprachlich klassifiziert werden, indem der Hypothesetest verwendet wird. Um einen unbekannten Rahmen zu prüfen, wird der kritische Bereich XNorm (n) ≤ Xα. Da dies ein einseitiger Test ist (d.h. der untere Wert nicht verworfen werden kann), ist α der Konfidenzgrad. Indem die Normalannäherung des Chi-Quadrats verwendet wird, wird der Test auf XNorm (n) ≤ Xα vereinfacht.
  • Xα ist dergestalt, dass der Integralwert von –∞ bis Xα der Normalverteilung gleich 1 – α ist, wie in 4 gezeigt ist. In Kenntnis, dass
    Figure 00070001
    und dass die Fehlerfunktion als
    Figure 00070002
    definiert ist, wird 1 – α bereitgestellt durch:
  • Figure 00070003
  • Indem die Umkehrfunktion der Fehlerfunktion x = erfinν(z) eingeführt wird, so dass z = erf(x) ist, wird ein Schwellenwert Xα zur Verwendung im Hypothesetest vorzugsweise geschätzt als:
  • Figure 00070004
  • Auf diese Weise kann der Schwellenwert je nach der gewünschten Genauigkeit des Spracherfassungssystems vordefiniert werden, weil er nur von α abhängt. Beispielsweise ist X0,01 = 2,3262; X0,01 = 1,2816, X0,2 = 0,8416.
  • Mit Bezug auf 3B wird jeder unbekannte Rahmen im Entscheidungsblock 56 nach XNorm (n) ≤ Xα klassifiziert. Wenn der normierte Chi-Quadratwert für den Rahmen größer ist als der vordefinierte Schwellenwert, wird der Rahmen, wie in Block 58 gezeigt, als Sprache eingestuft. Ist der normierte Chi-Quadratwert für den Rahmen kleiner oder gleich dem vordefinierten Schwellenwert, wird der Rahmen, wie in Block 60 gezeigt, als nicht sprachlich eingestuft. In jedem Fall geht die Verarbeitung mit dem nächsten unbekannten Rahmen weiter. Sobald ein unbekannter Rahmen als Geräusch eingestuft wurde, kann er auch dazu hergenommen werden, das Geräuschmodell neu zu bewerten. Deshalb aktualisieren die Blöcke 62 und 64 optional das Geräuschmodell, und aktualisieren das Chi-Quadratmodell auf Grundlage dieses Rahmens.
  • Ein Geräuschmodell wird aus den ersten Rahmen des Eingangssprachsignals aufgebaut. 5 stellt das mittlere Geräuschspektrum (und seine Varianz) über die ersten 100 Rahmen eines typischen Eingangssprachsignals dar. Es wird angenommen, dass die ersten zehn Rahmen (aber vorzugsweise zwanzig Rahmen) des Sprachsignals keine Sprachinformation enthalten, und somit werden diese Rahmen zum Aufbauen des Geräuschmodells verwendet. Anders ausgedrückt, stehen diese Rahmen für das Geräusch, das im gesamten Sprachsignal eingeschlossen ist. Sollten diese Rahmen doch Sprachinformation enthalten, hat das Verfahren der vorliegenden Erfindung einen zusätzlichen Schutz eingebaut, wie nachstehend noch erläutert wird. Es ist vorstellbar, dass auch andere Teile des Sprachsignals, die keine Sprachinformation enthalten, zum Aufbau des Modells verwendet werden könnten.
  • Mit Bezug zurück auf 3a berechnet Block 66 ein Mittel μN(f) und eine Standardabweichung δN(f) des Energiegehaltwerts an jedem der Frequenzbänder dieser Rahmen. Für jeden dieser ersten zwanzig Rahmen normiert Block 69 das Freqrenzspektrum, Block 70 berechnet einen Chi-Quadratmesswert, Block 72 aktualisiert μX und σX des Chi-Quadratmodells mit XNorm und Block 74 normiert den Chi-Quadratmesswert. Ein Fachmann auf dem Gebiet wird schnell erkennen, dass XNorm beim Bewerten eines unbekannten Rahmens gebraucht wird. Alle diese Schritte stimmen mit der vorstehend beschriebenen Methodik überein.
  • Ein Überschätzungsmesswert kann verwendet werden, um die Gültigkeit des Geräuschmodells zu überprüfen. Wenn Sprache in den Rahmen vorhanden ist, die zum Aufbau des Geräuschmodells verwendet werden, findet eine Überschätzung des Geräuschspektrums statt. Diese Überschätzung kann entdeckt werden, wenn ein erster "echter" Geräuschrahmen vom Spracherfassungssystem analysiert wird. Um eine Überschätzung des Geräuschmodells zu erfassen, wird folgender Messwert eingesetzt:
  • Figure 00090001
  • Dieser Überschätzungsmesswert verwendet das normierte Spektrum, um von der Gesamtenergie unabhängig zu bleiben.
  • Allgemein ist der Chi-Quadratmesswert ein absolutes Maß, das den Abstand vom momentanen Rahmen zum Geräuschmodell angibt und deshalb auch dann positiv sein wird, wenn das Spektrum des momentanen Rahmens kleiner ist als das Geräuschmodell. Allerdings wird der Überschätzungsmesswert negativ sein, wenn ein "echter" Geräuschrahmen vom Spracherfassungssystem analysiert wird, wodurch eine Überschätzung des Geräuschmodells aktualisiert wird. In der bevorzugten Ausführungsform des Spracherfassungssystems zeigen eine aufeinander folgende Anzahl von Rahmen (vorzugsweise drei) mit einem negativen Wert beim Überschätzungsmesswert ein ungültiges Geräuschmodell an. In diesem Fall kann das Geräuschmodell neu initialisiert oder die Spracherfassung für dieses Sprachsignal abgebrochen werden.

Claims (13)

  1. Verfahren zum Erfassen von Sprache aus einem Eingangssprachsignal, das die folgenden Schritte umfasst: Abtasten des Eingangssignals über mehrere Rahmen, wovon jeder der mehreren Rahmen mehrere digitale Abtastwerte aufweist, Bestimmen eines Frequenzspektrums (24) für jeden der mehreren Rahmen; Aufbauen eines Geräuschmodells (26) unter Verwendung von Frequenzspektren aus einem nicht sprachlichen Signal des Eingangssignals durch Bestimmen eines Energiegehaltwerts für jedes von mehreren Frequenzbändern in mindestens einem Rahmen, der aus einem bekannten nicht sprachlichen Teil des Eingangssignals erhalten wurde; Bestimmen eines Mittelwerts an jedem der mehreren Frequenzbänder für die Energiegehaltwerte, die mit dem mindestens einen Rahmen zusammenhängen; Bestimmen eines Varianzwerts für jeden Mittelwert, der mit dem mindestens einen Rahmen zusammenhängt, wodurch das Geräuschmodell für das Eingangssprachsignal aufgebaut wird; und Bestimmen, wenn ein unbekannter Rahmen von den mehreren Rahmen mit dem Geräuschmodell korreliert, durch Bestimmen eines Energiegehaltwerts M(f) für jedes von mehreren Frequenzbändern in dem unbekannten Rahmen; Normieren von jedem der Energiegehaltwerte für den unbekannten Rahmen im Hinblick auf das Geräuschmodell; Bestimmen eines Chi-Quadratwerts (28) für jeden der normierten Energiegehaltwerte, die mit dem unbekannten Rahmen zusammenhängen; und Vergleichen des Chi-Quadratwerts mit einem Schwellenwert, wodurch bestimmt wird, ob der unbekannte Rahmen mit dem nicht sprachlichen Teil des Eingangssprachsignals korreliert.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Normierens von jedem der Energiegehaltwerte darüber hinaus umfasst, den Mittelwert und den Varianzwert zu verwenden, um die Energiegehaltwerte des unbekannten Rahmens zu normieren.
  3. Verfahren nach Anspruch 1, wobei der Schritt des Vergleichens des Chi-Quadratwerts darüber hinaus umfasst, ein vorbestimmtes Konfidenzintervall zu verwenden, um den Schwellenwert zu bestimmen.
  4. Verfahren nach Anspruch 1, darüber hinaus die folgenden Schritte umfassend: Bestimmen von Chi-Quadratwerten (28) für jeden Rahmen der mehreren Rahmen, die mit dem nicht sprachlichen Teil des Eingangssprachsignals zusammenhängen; Bestimmen eines Mittelwerts und eines Varianzwerts für die Chi-Quadratwerte, die mit dem nicht sprachlichen Teil des Eingangssprachsignals zusammenhängen; und Normieren des Chi-Quadratwerts (30) für den unbekannten Rahmen unter Verwendung des Mittelwerts und des Varianzwerts der Chi-Quadratwerte, bevor die Chi-Quadratwerte mit dem Schwellenwert verglichen werden.
  5. Verfahren nach Anspruch 1, darüber hinaus den Schritt des Verwendens des unbekannten Rahmens umfassend, um die Gültigkeit des Geräuschmodells zu überprüfen.
  6. Verfahren nach Anspruch 5, wobei des Schritt des Verwendens des unbekannten Rahmens darüber hinaus umfasst, einen Überschätzungsmesswert zu verwenden der
    Figure 00110001
    entspricht.
  7. Verfahren nach Anspruch 1, wobei der Schwellenwert bereitgestellt wird durch
    Figure 00110002
  8. Verfahren nach Anspruch 1, wobei der Schritt des Normierens von jedem der Energiegehaltwerte darüber hinaus die folgenden Schritte umfasst: Bestimmen eines Mittelwerts μN(f) an jedem der mehreren Frequenzbänder für die Energiegehaltwerte, die mit den Rahmen des nicht sprachlichen Teils des Eingangssprachsignals zusammenhängen; und Bestimmen eines Varianzwerts σN(f) für jeden Mittelwert, der mit den Rahmen des nicht sprachlichen Teils des Eingangssignals zusammenhängt, wodurch das Geräuschmodell aus dem nicht sprachlichen Teil des Eingangssprachsignals aufgebaut wird.
  9. Verfahren nach Anspruch 8, wobei der Schritt des Normierens von jedem der Energiegehaltwerte
    Figure 00120001
    entspricht.
  10. Verfahren nach Anspruch 1, darüber hinaus den Schritt des Normierens des Chi-Quadratwerts (30) X für den unbekannten Rahmen umfassend, bevor der Chi-Quadratwert mit dem Schwellenwert verglichen wird, wodurch die Normierung
    Figure 00120002
    entspricht, worin F die Freiheitsgrade für eine Chi-Quadratverteilung darstellt.
  11. Verfahren nach Anspruch 1, darüber hinaus die folgenden Schritte umfassend: Bestimmen eines Mittelwerts μx und eines Varianzwerts σx. für die Chi-Quadratwerte, die mit dem nicht sprachlichen Teil des Eingangssprachsignals zusammenhängen, und Normieren des Chi-Quadratwerts (30) für den unbekannten Rahmen unter Verwendung des Quadratmittelwerts und des Varianzwerts der Chi-Quadratwerte, bevor die Chi-Quadratwerte des unbekannten Rahmens mit dem Schwellenwert verglichen werden.
  12. Verfahren nach Anspruch 11, wobei der Schritt des Normierens des Chi-Quadratwerts
    Figure 00120003
    entspricht.
  13. Verfahren nach Anspruch 9, darüber hinaus den Schritt des Verwendens des unbekannten Rahmens umfassend, um die Gültigkeit des Geräuschmodells zu überprüfen.
DE60025333T 1999-03-05 2000-01-25 Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums Expired - Lifetime DE60025333T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US263292 1994-06-21
US09/263,292 US6327564B1 (en) 1999-03-05 1999-03-05 Speech detection using stochastic confidence measures on the frequency spectrum
PCT/US2000/001798 WO2000052683A1 (en) 1999-03-05 2000-01-25 Speech detection using stochastic confidence measures on the frequency spectrum

Publications (2)

Publication Number Publication Date
DE60025333D1 DE60025333D1 (de) 2006-03-30
DE60025333T2 true DE60025333T2 (de) 2006-07-13

Family

ID=23001154

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60025333T Expired - Lifetime DE60025333T2 (de) 1999-03-05 2000-01-25 Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums

Country Status (6)

Country Link
US (1) US6327564B1 (de)
EP (1) EP1163666B1 (de)
JP (1) JP4745502B2 (de)
DE (1) DE60025333T2 (de)
ES (1) ES2255978T3 (de)
WO (1) WO2000052683A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10120168A1 (de) 2001-04-18 2002-10-24 Deutsche Telekom Ag Verfahren zur Bestimmung von Intensitätskennwerten von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen
KR100429896B1 (ko) * 2001-11-22 2004-05-03 한국전자통신연구원 잡음 환경에서의 음성신호 검출방법 및 그 장치
FR2833103B1 (fr) * 2001-12-05 2004-07-09 France Telecom Systeme de detection de parole dans le bruit
US6850602B1 (en) 2002-03-27 2005-02-01 Avaya Technology Corp. Method and apparatus for answering machine detection in automatic dialing
FR2842643B1 (fr) * 2002-07-22 2004-09-03 France Telecom Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
US20080033906A1 (en) * 2006-08-03 2008-02-07 Michael Bender Improved performance and availability of a database
DK3118851T3 (da) * 2015-07-01 2021-02-22 Oticon As Forbedring af støjende tale baseret på statistiske tale- og støjmodeller

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56104399A (en) 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4780906A (en) * 1984-02-17 1988-10-25 Texas Instruments Incorporated Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
FR2677828B1 (fr) * 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
US5323337A (en) 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
US5617508A (en) 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5579431A (en) 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
IT1272653B (it) * 1993-09-20 1997-06-26 Alcatel Italia Metodo di riduzione del rumore, in particolare per riconoscimento automatico del parlato, e filtro atto ad implementare lo stesso
US5826230A (en) * 1994-07-18 1998-10-20 Matsushita Electric Industrial Co., Ltd. Speech detection device
JP3453898B2 (ja) * 1995-02-17 2003-10-06 ソニー株式会社 音声信号の雑音低減方法及び装置
JPH0990974A (ja) 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
GB9602700D0 (en) * 1996-02-09 1996-04-10 Canon Kk Pattern matching method and apparatus
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
JP3297307B2 (ja) * 1996-06-14 2002-07-02 沖電気工業株式会社 背景雑音消去装置
US5950154A (en) * 1996-07-15 1999-09-07 At&T Corp. Method and apparatus for measuring the noise content of transmitted speech
JP3069531B2 (ja) * 1997-03-14 2000-07-24 日本電信電話株式会社 音声認識方法
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method

Also Published As

Publication number Publication date
EP1163666A4 (de) 2003-04-16
ES2255978T3 (es) 2006-07-16
EP1163666B1 (de) 2006-01-04
DE60025333D1 (de) 2006-03-30
WO2000052683A1 (en) 2000-09-08
US6327564B1 (en) 2001-12-04
JP4745502B2 (ja) 2011-08-10
EP1163666A1 (de) 2001-12-19
JP2002538514A (ja) 2002-11-12

Similar Documents

Publication Publication Date Title
DE3306730C2 (de)
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69725670T2 (de) Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme
DE60023517T2 (de) Klassifizierung von schallquellen
DE69837107T2 (de) Gerät und verfahren zum feststellen von gefühlen
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE3339288A1 (de) Erkennungseinrichtung fuer mikrobrueche
DE69920047T2 (de) Detektion von reiner sprache in einem audio signal, mit hilfe einer detektionsgrösse (valley percentage)
DE60025333T2 (de) Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums
DE102004023824B4 (de) Vorrichtung und Verfahren zur Beurteilung einer Güteklasse eines zu prüfenden Objekts
US7672834B2 (en) Method and system for detecting and temporally relating components in non-stationary signals
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
EP2064898B1 (de) Vorrichtung zum bestimmen von informationen zur zeitlichen ausrichtung zweier informationssignale
DE60018690T2 (de) Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung
DE112017006049B4 (de) Verfahren und Vorrichtung zur Klangidentifizierung anhand periodischer Anzeichen
DE10120168A1 (de) Verfahren zur Bestimmung von Intensitätskennwerten von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition