DE69930961T2 - Vorrichtung und verfahren zur sprachsegmentierung - Google Patents

Vorrichtung und verfahren zur sprachsegmentierung Download PDF

Info

Publication number
DE69930961T2
DE69930961T2 DE69930961T DE69930961T DE69930961T2 DE 69930961 T2 DE69930961 T2 DE 69930961T2 DE 69930961 T DE69930961 T DE 69930961T DE 69930961 T DE69930961 T DE 69930961T DE 69930961 T2 DE69930961 T2 DE 69930961T2
Authority
DE
Germany
Prior art keywords
cluster
speech
clusters
merged
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69930961T
Other languages
English (en)
Other versions
DE69930961D1 (de
Inventor
Ning San Diego BI
Chienchung Rancho Santa Fe CHANG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of DE69930961D1 publication Critical patent/DE69930961D1/de
Application granted granted Critical
Publication of DE69930961T2 publication Critical patent/DE69930961T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

  • Ausgangspunkt der Erfindung
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf Spracherkennung. Insbesondere bezieht sich die vorliegende Erfindung auf ein System und ein Verfahren zum Segmentieren von Sprachsignalen zum Zwecke der Spracherkennung.
  • II. Beschreibung der Technik
  • Mustererkennungstechniken wurden weit verbreitet bei der Spracherkennung eingesetzt. Die Grundidee bei der Technik ist der Vergleich des Eingangssprachmusters mit einem Satz von Vorlagen, die jeweils ein voraufgezeichnetes Sprachmuster in einem Vokabular repräsentieren. Die Erkennung hat zur Folge, dass das Wort in dem Vokabular mit der Vorlage assoziiert ist, das das ähnlichste Sprachmuster zu dem des Eingangssprachmusters besitzt.
  • Für Menschen ist es üblicherweise nicht notwendig, das gesamte Detail in einer Äußerung (z.B. eines Worts) zu hören, um die Äußerung zu erkennen. Diese Tatsache zeigt, dass es einige sprachinhärente natürliche Redundanzen gibt. Viele Techniken wurden entwickelt zum Erkennen von Sprache, welche sich solche Redundanzen zu Nutze machen. Zum Beispiel zeigt das US-Patent Nr. 5,056,150 von Yu et al ein Echtzeitspracherkennungssystem, bei dem ein nicht lineares Zeitnormalisierungsverfahren verwendet wird zum Normalisieren eines Sprachmusters auf eine vorbestimmte Länge, in dem nur Spektren mit signifikanten zeitdynamischen Attributen behalten werden. Unter Verwendung dieses Verfahrens wird das Sprachmuster erheblich komprimiert, obwohl es gelegentlich dasselbe Spektrum wiederholt behält.
  • Eine weitere Technik zur Spracherkennung verwendet eine Sequenz von akustischen Segmenten, welche eine Sequenz von Spektralrahmen repräsentiert. Diese Segmente sind die Grundspracheinheiten, auf denen Spracher kennung basiert. Ein Vorgang zum Erzeugen der akustischen Segmente oder für die Durchführung der Segmentierung ist das Suchen nach den wahrscheinlichsten Diskontinuitätspunkten in der Spektralsequenz unter Verwendung eines dynamischen Programmierverfahrens. Diese ausgewählten Punkte werden als die Segmentgrenzen verwendet. Siehe J. Cohen „Segmenting Speech Using Dynamic Programming", J. Acoustic Soc. of America, Mai 1981, Band 69 (5), Seiten 1430–1437. Diese Technik sowie die Technik des oben beschriebenen US-Patents Nr. 5,056,150 basiert auf dem Suchen von signifikanten zeitdynamischen Attributen in dem Sprachmuster.
  • Eine weitere Technik, die verwendet wird zum Segmentieren von Sprache, basiert auf dem segmentierten K-Mittel Trainingvorgang (Segmental K-means Training Procedure). Siehe L. R. Rabiner et al., „A Segmental K-means Training Procedure for Connected Word Recognition", AT&T Technical Journal, Mai/Juni 1986, Band 65 (3), Seiten 21–31. Unter Verwendung eines iterativen Trainingsvorgangs wird eine Äußerung in Worte oder Subworteinheiten segmentiert. Jede dieser Einheiten wird dann als eine Sprachvorlage in einem Spracherkennungssystem verwendet. Der iterative Trainingsvorgang erfordert viele Berechnungsschritte, so dass er nicht in Echtzeit implementiert werden kann.
  • Diese Probleme und Nachteile werden zu einem gewissen Grad in EP-A-0 831 455 adressiert, die ein computerisiertes Verfahren des Segmentierens eines kontinuierlichen Signals beschreibt, um statistisch stationäre Einheiten des Signals zu bestimmen. Das Signal wird zu periodischen Intervallen abgetastet, um eine getimte bzw. zeitgesteuerte Sequenz von digitalen Abtastungen bzw. Samples zu erzeugen. Eine feste Anzahl von benachbarten Abtastungen wird in eine Vielzahl von nicht verbundenen Sätzen oder Rahmen gruppiert. Ein statistischer Abstand zwischen benachbarten Rahmen wird bestimmt. Ein benachbarter Satz wird in einen größeren Satz von Proben oder Abtastungen oder Clustern zusammengeführt bzw. vereint, wenn der statistische Abstand geringer ist als ein vorbestimmter Schwellenwert. Bei einem interaktiven Prozess wird der statistische Abstand zwischen den benachbar ten Sätzen bestimmt, und solange der Abstand kleiner ist als der vorbestimmte Schwellenwert, werden die Sätze interaktiv zusammengeführt bzw. vereint, um das Signal in statistisch stationäre Einheiten zu segmentieren.
  • Die Erfindung
  • Gemäß einem ersten Aspekt der Erfindung ist ein Verfahren zum Formen eines segmentierten Sprachsignals in einem Spracherkennungssystem aus einem Eingangssprachsignal mit einer Vielzahl von Rahmen gemäß Anspruch 1 vorgesehen.
  • Gemäß einem zweiten Aspekt ist eine Vorrichtung zum Formen eines segmentierten Sprachsignals gemäß Anspruch 14 vorgesehen.
  • Die vorliegende Erfindung ist auf ein System und ein Verfahren zum Formen eines segmentierten Sprachsignals aus einem Eingangssprachsignal mit einer Vielzahl von Rahmen gerichtet. Das segmentierte Sprachsignal sieht eine Vorlage vor, auf der eine Spracherkennung basiert. Zunächst wird das Eingangssprachsignal zu einem Frequenzdomänensignal mit einer Vielzahl von Sprachrahmen umgewandelt, wobei jeder Sprachrahmen des Frequenzdomänensignals repräsentiert wird durch wenigstens einen, aber üblicherweise mehrere Spektralwerte, die mit dem Sprachrahmen assoziiert ist/sind. Die Spektralwerte werden im Allgemeinen so ausgewählt, dass sie den akustischen Gehalt des Sprachrahmens umgeben. Ein Spektraldifferenzwert wird dann für jedes Paar benachbarter Rahmen des Frequenzdomänensignals bestimmt. Der Spektraldifferenzwert repräsentiert eine Differenz zwischen den Spektralwerten für das Paar von benachbarten Rahmen. Der Spektraldifferenzwert ist eine Anzeige der zeitdynamischen Attribute zwischen den Rahmen. Eine anfängliche Clustergrenze wird eingestellt zwischen jedem Paar von benachbarten Rahmen in dem Frequenzdomänensignal, und ein Varianzsignal wird jedem Einrahmencluster in dem Frequenzdomänensignal zugeordnet, wobei der Varianzwert für jedes Einrahmencluster gleich dem entsprechenden Spektraldifferenzwert ist.
  • Als nächstes wird ein Cluster-Zusammenführ- bzw. Vereinigungsparameter für jedes Paar von benachbarten Clustern berechnet. Der Cluster-Vereinigungsparameter wird berechnet, basierend auf den Spektraldifferenzwerten der benachbarten Cluster. Ein minimaler Cluster-Vereinigungsparameter wird ausgewählt aus der Vielzahl von Cluster-Vereinigungsparametern. Der minimale Vereinigungsparameter ist eine Anzeige für das unbedeutendste zeitdynamische Attribut. Ein vereinigter Cluster wird dann gebildet durch Auslöschen bzw. Entfernen einer Clustergrenze zwischen den Clustern, die mit dem minimalen Vereinigungsparameter assoziiert sind, und durch Zuordnen bzw. Zuweisen eines vereinigten Varianzwertes an den vereinigten Cluster, wobei der vereinigte Varianzwert eine Darstellung der Varianzwerte ist, die den Clustern zugewiesen sind, die mit dem minimalen Vereinigungsparameter assoziiert sind. Der Vorgang wird wiederholt um eine Vielzahl von vereinigten Clustern zu bilden, und das segmentierte Sprachsignal wird gemäß der Vielzahl von vereinigten Clustern gebildet.
  • Kurze Beschreibung der Zeichnungen
  • Die Merkmale, Ziele und Vorteile der vorliegenden Erfindung ergeben sich noch deutlicher aus der detaillierten nachfolgenden Beschreibung in Verbindung mit den Zeichnungen, in denen gleiche Bezugszeichen durchgehend entsprechend verwendet werden; in den Zeichnungen zeigt:
  • 1A und 1B ein Flussdiagramm, das den Betrieb eines Verfahrens zum Umwandeln eines Zeitdomänen-Eingangssprachsignals in ein segmentiertes Ausgangssprachsignal zeigt;
  • 2 ein Flussdiagramm, das den Betrieb eines Verfahrens zum Speichern bzw. Sichern einer Vielzahl von Sprachvorlagen zeigt, wobei jede gespeicherte bzw. gesicherte Sprachvorlage eine Darstellung einer bekannten Sprachäußerung ist;
  • 3 ein Flussdiagramm, das den Betrieb eines Verfahrens zum Erkennen einer Äußerung von einem Eingangssprachsignal zeigt;
  • 4 ein Graph, der die Frequenzdomänensignale und schlussendlichen Clustergrenzen zeigt, die mit der beispielhaften Äußerung assoziiert sind, die gemäß der vorliegenden Erfindung verarbeitet wurde;
  • 5 ein Graph, der die Varianzwerte zeigt, die mit jedem schlussendlich vereinigten Cluster gemäß 4 assoziiert sind;
  • 6 ein Hardwareblockdiagramm, das ein System zeigt zum Implementieren der Sprachsignalsegmentierung und Erkennungssysteme gemäß den 1 bis 3.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele Gemäß den 1A und 1B ist ein Flussdiagramm gezeigt, das den Betrieb eines Verfahrens 100 zum Umwandeln eines Zeitdomäneneingangssprachsignals in ein segmentiertes Ausgangssprachsignal zeigt. Wie nachfolgend noch näher beschrieben wird, umfasst das Verfahren 100 einen „Zeitcluster"-Algorithmus, der nicht linear ein Sprachsignal segmentiert, um Speicheranforderungen zu reduzieren und eine Spracherkennung zu erleichtern.
  • Anfänglich wird im Schritt 102 ein Eingangszeitdomänensprachsignal, das eine „Äußerung" repräsentiert, in eine Frequenzdomänen-Spektraldarstellung umgewandelt, unter Verwendung eines bekannten Transformationsalgorithmus, wie beispielsweise einer diskreter Fourier-Transformation (DFT = discrete Fourier transform), einer Bandpassfilterbank, von linear prädiktiven Codier-(LPC = linear predictive coding)Koeffizienten, von Linienspektrumspaaren (LSP = line spectrum pairs), oder Cepstral-Koeffizienten auf einer Rahmenbasis. In einem bevorzugten Ausführungsbeispiel wird ein separates Sequenzdomänenspektrum erzeugt aus der Eingangssprachwellenform und zwar alle 10 msec unter Verwendung eines 20 msec Zeitfensters. Somit besitzen die Fenster eine 10 msc Überlappung. Jedes Frequenzdomänenspektrum (Si) entspricht einem Sprachrahmen (n) und umfasst vorzugsweise wenigstens 6 diskrete Spektralwerte und bei einem bevorzugten Ausführungsbeispiel enthält jedes Spektrum 13 Spektralwerte (d.h. i = 1 bis 13). Das Frequenzdomänensprachsignal, das durch den Schritt 102 ausgegeben wird, umfasst L- Sprachrahmen und kann somit repräsentiert werden durch den folgenden Ausdruck (1): Sn,i für i = 1 bis 13, n = 1 bis L (1)
  • Eine graphische Darstellung eines Frequenzdomänensprachsignals, das 58 Rahmen (L = 58) umfasst, ist in 4 dargestellt. Wie in 4 dargestellt ist, kann jeder der 58 Rahmen in der Frequenzdomäne repräsentiert werden durch einen Vektor von 13 Spektralwerten. Die Eingangssprachwellenform, die zu der Frequenzdomäne im Schritt 102 umgewandelt wird, ist vorzugsweise nur auf den Teil des Zeitdomänensprachsignals limitiert, der eine „Äußerung" umfasst (eine „Äußerung" ist z.B. ein einzelnes Wort oder eine Phrase). Die Äußerung, die durch den Graph in 4 repräsentiert wird, entspricht dem Wort „Catherine".
  • Im Schritt 104 wird ein Spektraldifferenzwert für jedes Paar benachbarter Rahmen (n – 1, n) in dem Frequenzdomänensignalausgang des Schritts 102 berechnet. Der Spektraldifferenzwert für jedes Paar benachbarter Rahmen (n – 1, n) ist eine Darstellung einer Differenz zwischen den jeweiligen Spektralwerten, die mit jedem Rahmen in dem Paar benachbarter Rahmen assoziiert ist. Bei einer bevorzugten Ausführungsform, bei der die Bandpassfilterbank verwendet wird zum Umwandeln der Eingangszeitdomänenwellenform zu der Frequenzdomäne (in Schritt 102) kann der Spektraldifferenzwert für jedes Paar benachbarter Rahmen (n – 1, n) repräsentiert werden durch den folgenden Ausdruck (2):
  • Figure 00060001
  • Wenn alternativ LPC-Koeffizienten verwendet wurden zum Umwandeln aus der Zeitdomäne in die Frequenzdomäne im Schritt 102, dann würde der Spektraldifferenzwert für jedes Paar von benachbarten Rahmen (Dn-1,n) der Itakura-Verzerrung zwischen dem Paar von Spektren entsprechen, und wenn Cepstral-Koeffizienten oder eine diskrete Fourier-Transformation verwendet wurden zum Umwandeln aus der Zeitdomäne zu der Frequenzdomäne im Schritt 102, dann würde der Spektraldifferenzwert für jedes Paar von benachbarten Rahmen dem euklidischen Abstand zwischen dem Paar von Spektren entsprechen.
  • Als nächstes wird im Schritt 106 eine anfängliche Clustergrenze (Bk) zwischen jedem Paar von benachbarten Rahmen in dem Frequenzdomänensignalausgang von dem Schritt 102 zugewiesen. Diese anfänglichen Clustergrenzen sind in 4 dargestellt. Somit wird anfänglich der Frequenzdomänensignalausgang aus dem Schritt 102 in L-Cluster segmentiert, wobei jeder Cluster einem der Rahmen aus dem Frequenzdomänensignalausgang im Schritt 102 entspricht. Im Schritt 108 wird ein Zähler „c", der die derzeitige Anzahl von Clustern in dem Frequenzdomänensignal aufzeigt, auf L initialisiert (d.h. „c" wird auf die Anzahl von Rahmen in dem Frequenzdomänensignalausgang vom Schritt 102 initialisiert). Ferner wird im Schritt 110 ein anfänglicher Varianzwert (Vn) jedem Cluster in dem Frequenzdomänensignal zugewiesen. Bei einem bevorzugten Ausführungsbeispiel entspricht der anfängliche Varianzwert, der jedem Cluster zugewiesen wird, dem Spektraldifferenzwert (der im Schritt 104 berechnet wurde) und der mit dem Cluster assoziiert ist. Der Varianzwert für jedes Cluster (n) kann somit durch den folgenden Ausdruck (3) repräsentiert werden: Vn = Dn-1,n n = 2, ..., L (3)
  • Im Schritt 112 wird ein Clustervereinigungsparameter (CMP = cluster merge parameter) für jedes Paar von benachbarten Clustern in dem Frequenzdomänensignal berechnet. Der Clustervereinigungsparameter, der jedem Paar von benachbarten Clustern entspricht, ist eine Darstellung der kombinierten Varianz, die sich ergeben würde, wenn das Paar benachbarter Cluster vereinigt würde. Bei der bevorzugten Ausführungsform werden die Clustervereini gungsparameter {CMPi} c / i = 2, gemäß der nachfolgenden Gleichung (4) berechnet: CMPi = w1·Vi + w2·(Vi + Vi-1), i = 2, 3, ..., c, (4)wobei w1 und w2 Gewichtungsfaktoren sind, die von 0 bis 1 rangieren. Bei der bevorzugten Ausführungsform sind w1 und w2 beide gleich auf 0,5 gesetzt. Im Schritt 114 wird der Satz aus CMP's, der im Schritt 112 berechnet wurde, ausgewertet und das Cluster k, das den kleinsten CMP damit assoziiert besitzt, wird gemäß der folgenden Gleichung (5) ausgewählt: k = arg min i = 2 ... c CMPi (5)
  • Als nächstes wird in den Schritten 116 und 118 das Cluster mit dem kleinsten CMP (d.h. das kte Cluster) „vereinigt" in das vorhergehende benachbarte Cluster (d.h. das (k – 1)te Cluster) durch Ändern der (k – 1)te Clustergrenze zu der kte Clustergrenze und Zuweisen einer neuen Varianz für das vereinigte Cluster Vmerge und zwar gemäß der folgenden Gleichungen (6) und (7): B'k-1 = Bk (6) Vmerge = V'k-1 = Vk-1 + Vk (7)
  • Im Schritt 120 wird der Wert des Zählers „c" um 1 verringert und im Schritt 122 wird der Wert des Zählers „c" mit einer gewünschten Anzahl von Clustern verglichen. Die gewünschte Anzahl von Clustern wird vorzugsweise eingestellt zum Erreichen eines festen Signalkompressionsniveaus. Wenn somit der ursprüngliche Frequenzdomänensprachsignalausgang aus dem Schritt 102 58 Rahmen besaß, und das Ziel des Verfahrens 100 darin liegt ungefähr ein 6:1 Kompressionsverhältnis zu erreichen, dann würde die gewünschte Anzahl von Clustern, die im Schritt 122 verwendet wird, auf 10 gesetzt (1/6 von 58). Die Schritte 112, 114, 116, 118 und 120 werden wiederholt bis die gewünschte Anzahl von Clustern erhalten wurde. Zum Beispiel wurde gemäß 4 die gewünschte Anzahl von Clustern auf 10 gesetzt, und die schlussendlichen Clustergrenzen (B'k) für diese 10 Cluster sind in 4 dargestellt. Die assoziierten Varianzwerte sind in 5 dargestellt. Es sei erwähnt, dass während der Prozessschleife, die durch die Schritte 112, 114, 116, 118 und 120 dargestellt ist, die Varianzwerte berechnet werden können durch Summieren von Varianzwerten, die im Schritt 110 und in vorhergehenden Iterationen der Prozessschleife bestimmt wurden, um dadurch die Berechnungsanforderungen des Systems während der Ausführung der Prozessschleife zu optimieren bzw. zu verbessern.
  • Schlussendlich wird im Schritt 124 ein repräsentatives Spektrum (S-REPi) für jedes schlussendliche Cluster bestimmt durch Berechnen des Durchschnitts der Spektren (Sn,i) innerhalb jedes schlussendlichen Clusters (das definiert wird durch die schlussendlichen Clustergrenzen (B'k)) und zwar gemäß der nachfolgenden Gleichung (8):
    Figure 00090001
    wobei N(i) die Anzahl von Rahmen im Cluster i repräsentiert.
  • Alternativ kann S rep / i geschätzt werden durch ein Mitgliedsspektrum Sn,i, das im euklidischen Raum bzw. Abstand am nächsten an S rep / i liegt. Bei der bevorzugten Ausführungsform werden die repräsentativen Spektren {S rep / i} c / i = 1 welche den schlussendlichen Clustern entsprechen verkettet, um eine ausgehende segmentierte Sprachdarstellung zu bilden, die kompakter ist als der ursprüngliche Frequenzdomänensignalausgang aus dem Schritt 102.
  • In 2 ist ein Flussdiagramm gezeigt, das den Betrieb eines Verfahrens 200 darstellt zum Sichern bzw. Speichern einer Vielzahl von Sprachvorlagen, wobei jede gespeicherte Sprachvorlage eine Darstellung einer Sprachäußerung ist, die vor der Verarbeitung bekannt ist. Im Schritt 210 wird ein Eingangszeitdomänensprachsignal verarbeitet unter Verwendung bekannter Verfahren zum Detektieren der Endpunkte einer Sprachäußerung. Als nächstes wird im Schritt 220 der Teil des Eingangssprachsignals, der die Äußerung repräsentiert (d.h. der Teil des Sprachsignals zwischen den Endpunkten, die im Schritt 210 detektiert wurden) zu einer Frequenzdomänendarstellung umgewandelt. Das Verfahren, das verwendet wird zum Umwandeln des Eingangssprachsignals zu der Frequenzdomänendarstellung im Schritt 220, ist im Wesentlichen dasselbe, das im oben beschriebenen Schritt 102 verwendet wurde. Als nächstes wird im Schritt 230 das Frequenzdomänensignal aus dem Schritt 220 zu einem segmentierten Sprachsignal umgewandelt. Der Schritt 230 wird im Wesentlichen gemäß den Schritten 106 bis 124, die oben beschrieben wurden, durchgeführt. Schlussendlich wird im Schritt 240, das segmentierte Sprachsignal, das der bekannten Äußerung entspricht im Speicher gespeichert.
  • Eine nützliche Anwendung der vorliegenden Erfindung ist das Aufrufen von zuvor gespeicherten Telefonnummern in einem Mobiltelefon. Die Sprachvorlage einer bekannten Äußerung, die dem Namen einer Person entspricht, kann durch ein Spracherkennungssystem verwendet werden zum Aufrufen der gewünschten Telefonnummer. Wie noch deutlicher nachfolgend in Verbindung mit der 3 erklärt wird, können die gespeicherten Sprachvorlagen dann als Teil eines Spracherkennungssystems verwendet werden, um dem Bediener eines Mobiltelefons zu erlauben, eine gespeicherte Telefonnummer aufzurufen, die mit einer bestimmten Person assoziiert ist, und zwar einfach durch Aufsagen des Namens der Person in das Mikrofon.
  • In 3 ist ein Flussdiagramm gezeigt, das den Betrieb eines Verfahrens 300 zum Erkennen einer Äußerung aus einem Eingangssprachsignal darstellt. Im Schritt 310 wird ein Eingangs-Zeitdomänensprachsignal verarbeitet unter Verwendung bekannter Verfahren zum Detektieren der Endpunkte einer Sprachäußerung, die in dem Signal enthalten ist. Als nächstes wird im Schritt 320 der Teil des Eingangssprachsignals, der die Äußerung repräsentiert (d.h. der Teil des Sprachsignals zwischen den Endpunkten, die im Schritt 310 detektiert wurden) zu der Frequenzdomäne umgewandelt. Der Vorgang, der verwendet wird zum Umwandeln des Eingangssprachsignals zu der Frequenzdomäne im Schritt 320 ist im Wesentlichen derselbe, der in dem oben beschriebenen Schritt 102 verwendet wurde. Als nächstes wird im Schritt 330 das Frequenzdomänensignal aus dem Schritt 320 zu einem segmentierten Sprachsignal umgewandelt. Der Schritt 330 wird im Wesentlichen gemäß den Schritten 106 bis 124, die oben beschrieben wurden, durchgeführt. Im Schritt 340 wird das segmentierte Sprachsignal gegen Sprachvorlagen verglichen, die zuvor im Speicher gespeichert wurden (und zwar gemäß dem Schritt 240). Schlussendlich wird im Schritt 350 die Sprachvorlage, die im euklidischen Raum am nächsten an dem segmentierten Sprachsignal ist ausgewählt, und ein Signal, das mit der ausgewählten Vorlage assoziiert ist, wird ausgegeben.
  • Wie in 6 dargestellt ist, kann das Verfahren 300 im Kontext eines Mobiltelefons eingesetzt werden, um einem Bediener zu erlauben, automatisch eine Telefonnummer, die in dem Telefonspeicher gespeichert ist, aufzurufen. Bei diesem Beispiel äußert der Bediener den Namen einer Person, die der Bediener anrufen will in das Mikrofon 610 des Telefons (alternativ kann eine Sprachsignaldarstellung des Bedieners über die Antenne 612 zugeführt werden). Die Äußerung wird dann in ein segmentiertes Sprachsignal umgewandelt unter Verwendung des Zeitclustersystems und Verfahrens der vorliegenden Erfindung, und zwar in dem Mikroprozessor 630. Die Schritte 320 bis 350 werden vorzugsweise in Software unter Verwendung des Mikroprozessors 630 implementiert. Das segmentierte Sprachsignal wird dann durch den Mikroprozessor 630 mit Sprachvorlagen verglichen, die in dem Speicher 640 des Telefons gespeichert sind (wobei jede der gespeicherten Vorlagen dem Namen einer Person entspricht, die mit einer Telefonnummer assoziiert ist, die in dem Speicher 640 des Telefons gespeichert ist). Die gespeicherte Vorlage, die am nächsten an dem segmentierten Sprachsignal liegt, wird dann ausgewählt, und die Telefonnummer (die auch in dem Speicher 640 des Telefons gespeichert ist), die mit der ausgewählten Vorlage assoziiert ist, wird dann aus dem Speicher 640 aufgerufen, und dem Bediener auf der Anzeige 650 des Telefons gezeigt.
  • Die vorhergehende Beschreibung der bevorzugten Ausführungsbeispiele ist vorgesehen, um einem Fachmann die Durchführung der vorliegenden Erfindung zu ermöglichen. Unterschiedliche Modifikationen dieser Ausführungsformen werden sich dem Fachmann rasch ergeben, und die allgemeinen Grundlagen, die hier definiert werden, können auch auf andere Ausführungsformen ohne die Anwendung erfinderischer Tätigkeit angewendet werden. Somit ist die vorliegende Erfindung nicht auf die dargestellten Ausführungsbeispiele begrenzt, die hier dargestellt sind, sondern ihnen sollte der breiteste Umfang, der mit den Ansprüchen übereinstimmt, zugewiesen werden.

Claims (21)

  1. Verfahren zur Formung eines segmentierten Sprachsignals für ein Spracherkennungssystem aus einem Eingangssprachsignal mit einer Vielzahl von Rahmen, wobei das Verfahren Folgendes vorsieht: Umwandeln (102) des Eingangssprachsignals aus einem Zeitdomänensignals in ein Frequenzdomänensignal für eine Vielzahl von Sprachrahmen, wobei jeder Sprachrahmen in dem Frequenzdomänensignal durch mindestens einen Spektralwert, assoziiert mit dem Sprachrahmen, repräsentiert ist; Zuweisen (106) einer anfänglichen Clustergrenze zwischen jedem Paar von benachbarten Rahmen in dem Frequenzdomänensignal zum Definieren eines Clusters für jeden Sprachrahmen; Zuweisen (110) eines Varianzwertes zu jedem der erwähnten Cluster, basierend auf dem erwähnten mindestens einen Spektralwert, assoziiert mit den Rahmen in jedem Cluster; Bilden oder Formen (112 bis 120) eines vereinigten Clusters durch Löschen einer Clustergrenze zwischen einem Paar von benachbarten Clustern, basierend auf den erwähnten Varianzwerten; Wiederholen der Zuweisung eines Varianzwertes und Formen (112 bis 120) eines vereinigten Clusters, um eine Vielzahl von vereinigten Clustern zu bilden; und Formen des segmentierten Sprachsignals gemäß der erwähnten Vielzahl von vereinigten Clustern; wobei die Zuweisung (110) eines Varianzwertes zu jedem Cluster anfangs einen Varianzwert eines Spektral-Differenzwertes zuweist, der eine Differenz zwischen dem mindestens einen Spektralwert repräsentiert, der mit den Rahmen jedes Clusters assoziiert ist, die durch die anfänglichen Clustergrenzen definiert werden, und nachfolgend Varianzwerte zuweist (118), die die Varianzwerte von benachbarten Clustern repräsentieren, die die vereinigten Cluster bilden, dadurch gekennzeichnet, dass die darauf folgend zugewiesenen Varianzwerte bestimmt werden durch Summierung der erwähnten Varianzwerte der benachbarten Cluster, die die vereinigten Cluster bilden.
  2. Verfahren nach Anspruch 1, wobei das Formen (112 bis 120) eines vereinigten Clusters Folgendes aufweist: Berechnen (112) einer Vielzahl von Clustervereinigungsparametern (cluster merge parameters), wobei jeder der Clustervereinigungsparameter mit einem Paar von benachbarten Clustern assoziiert ist; Auswählen (114) eines minimalen Clustervereinigungsparameters aus der Vielzahl von Clustervereinigungsparametern; und Formen (116 bis 120) des vereinigten Clusters durch Löschen einer Clustergrenze zwischen dem erwähnten Paar von benachbarten Clustern, das mit dem erwähnten minimalen Vereinigungsparameter assoziiert ist.
  3. Verfahren nach Anspruch 1, wobei die Wiederholung (112 bis 120) fortgesetzt wird bis (122) eine vorbestimmte Anzahl von vereinigten Clustern geformt ist.
  4. Verfahren nach Anspruch 1, wobei jeder Sprachrahmen Fn in dem Frequenzdomänensignal repräsentiert wird durch eine Vielzahl I von Werten Sn,i und wobei der Spektraldifferenzwert für jedes Paar von benachbarten Rahmen Dn-1,n wie folgt bestimmt ist:
    Figure 00140001
  5. Verfahren nach Anspruch 2, wobei jeder der erwähnten Vielzahl von Clustervereinigungsparametern CMP bestimmt (112) wird, entsprechend den Varianzwerten Vi und ersten und zweiten Gewichtungsfaktoren w1, w2 und zwar wie folgt: CMPi = w1·Vi + w2·(Vi + Vi-1), i = 2, 3, ..., c.
  6. Verfahren nach Anspruch 1, wobei das Formen des segmentierten Sprachsignals ferner das Formen eines repräsentativen Vektors von Werten S rep / i aufweist, der mit jedem der erwähnten Vielzahl von vereinigten Clustern assoziiert ist.
  7. Verfahren nach Anspruch 6, wobei jeder der Werte S rep / i in jedem repräsentativen Vektor wie folgt bestimmt wird:
    Figure 00150001
    wobei N (i) die Anzahl der Rahmen im Cluster i repräsentiert.
  8. Verfahren nach Anspruch 1, wobei die Umwandlung (102) Folgendes aufweist: Auswählen eines repräsentativen Vektors aus Werten Sn,i, der mit jedem der Vielzahl von vereinigten Clustern assoziiert ist, durch Bestimmen eines durchschnittlichen Vektors von Werten, der mit jedem der Vielzahl von vereinigten Clustern assoziiert ist und anschließendes Auswählen eines Vektors, der mit einem Rahmen in dem Cluster, das im Euklidschen Raum am nächsten zu dem Durchschnittsvektor ist, assoziiert ist.
  9. Verfahren nach Anspruch 1, wobei die Umwandlung (102) des Eingangssprachsignals aus dem Zeitdomänensignal in das Frequenzdomänensignal eine Transformation verwendet, und zwar ausgewählt aus der folgenden Gruppe von Transformationen: Fourier- Transformationen, Bandpassfilterbank, lineare prädiktive Codierkoeffizienten, Zeilenspektrumspaare und Cepstral-Koeffizienten.
  10. Verfahren nach Anspruch 1, wobei das Eingangssprachsignal erste und zweite Endpunkte besitzt, wobei die ersten bzw. zweiten Endpunkte einem Anfang und einem Ende einer Sprachäußerung entsprechen.
  11. Verfahren nach Anspruch 10, wobei die Sprachäußerung eine bekannte Sprachäußerung ist und wobei das Verfahren das Speichern (240) des segmentierten Sprachsignals als ein Templat bzw. eine Vorlage aufweist.
  12. Verfahren nach Anspruch 1, wobei ferner Folgendes vorgesehen ist: Auswählen (300 bis 350) einer Sprachäußerung, die mit dem segmentierten Sprachsignal assoziiert ist, durch Vergleichen (340) des segmentierten Sprachsignals mit jedem von einer Vielzahl von Sprachvorlagen, wobei jede der erwähnten Vielzahl von Sprachvorlagen einer bekannten Sprachäußerung entspricht.
  13. Verfahren nach Anspruch 1, wobei ferner das segmentierte Sprachsignal in einem Speicher gespeichert wird.
  14. Vorrichtung zur Bildung oder Formung eines segmentierten Sprachsignals, die Folgendes aufweist: einen akustischen zu elektrischen Wandler (610), der ein akustisches Signal in ein elektrisches Signal umwandelt; einen Mikroprozessor (630) zum Verarbeiten des elektrischen Signals, wobei der Mikroprozessor (630) Folgendes aufweist: Mittel zum Umwandeln (102) des Eingangssprachsignals aus einem Zeitdomänensignal in ein Frequenzdomänensignal mit einer Vielzahl von Sprachrahmen, wobei jeder Sprachrahmen in dem Frequenzdomänensignal repräsentiert wird durch mindestens einen Spektralwert, der mit dem Sprachrahmen assoziiert ist; Mittel zum Zuweisen (106) einer anfänglichen Clustergrenze zwischen jedem Paar von benachbarten Rahmen in dem Frequenzdomänensignal zum Definieren eines Clusters für jeden der Sprachrahmen; Mittel zum Zuweisen (110) eines Varianzwertes zu jedem der erwähnten Cluster, und zwar basierend auf dem erwähnten mindestens einen Spektralwert, der mit den Rahmen in jedem Cluster assoziiert ist; Mittel zum Formen (112 bis 120) eines vereinigten Clusters durch Auslöschen einer Clustergrenze zwischen einem Paar von benachbarten Clustern, basierend auf den erwähnten Varianzwerten; Mittel zum Wiederholen der Zuweisung eines Varianzwertes und zum Bilden (112 bis 120) eines vereinigten Clusters um eine Vielzahl von vereinigten Clustern zu bilden; und Mittel zum Formen des erwähnten segmentierten Sprachsignals gemäß der Vielzahl von vereinigten Clustern; wobei die erwähnten Mittel zum Zuweisen (110) eines Varianzwertes zu jedem Cluster betätigbar sind, um anfänglich einen Varianzwert eines Spektraldifferenzwertes, der repräsentativ ist für eine Differenz zwischen dem mindestens einen Spektralwert, der mit den erwähnten Rahmen jedes Clusters assoziiert ist, die durch die erwähnten anfänglichen Clustergrenzen definiert werden, zuzuweisen und um nachfolgend Varianzwerte zuzuweisen (118), die repräsentativ sind für die Varianzwerte von benachbarten Clustern, die die vereinigten Cluster bilden, dadurch gekennzeichnet, dass: die Mittel zum Zuweisen eines Varianzwertes betätigbar sind, um die nachfolgend zugewiesenen Varianzwerte durch Summieren der Varianzwerte der benachbarten, die vereinigten Cluster bildenden Cluster zu bestimmen.
  15. Vorrichtung nach Anspruch 14, wobei die Mittel zum Formen eines vereinigten Clusters betätigbar sind, um: eine Vielzahl von Clustervereinigungsparametern zu berechnen (112), wobei jeder der erwähnten Clustervereinigungsparameter mit einem Paar von benachbarten Clustern assoziiert ist; einen minimalen Clustervereinigungsparameter auszuwählen (114) und zwar aus der erwähnten Vielzahl von Clustervereinigungsparametern; und den vereinigten Cluster zu bilden (116 bis 120) und zwar durch Auslöschen einer Clustergrenze zwischen dem erwähnten Paar von benachbarten Clustern, die mit den minimalen Vereinigungsparametern assoziiert sind.
  16. Vorrichtung nach Anspruch 14, wobei die Mittel zum Umwandeln betätigbar sind, um einen repräsentativen Vektor von Werten auszuwählen, der mit jeder der erwähnten Vielzahl von vereinigten Clustern assoziiert ist, durch Bestimmen eines Durchschnittsvektors von Werten, der mit jedem der erwähnten Vielzahl von vereinigten Clustern assoziiert ist, und zum anschließenden Auswählen eines Vektors, der mit einem Rahmen in dem Cluster assoziiert ist, der am nächsten im Euklidischen Raum am Durchschnittsvektor liegt.
  17. Vorrichtung nach Anspruch 14, wobei die Mittel zum Umwandeln betätigbar sind, um eine Transformation zu verwenden, ausgewählt aus der folgenden Gruppe von Transformationen: Fourier-Transformationen, Bandpassfilterbank, lineare prädiktive Codierkoeffizienten, Zeilenspektrumspaare und Cepstral-Koeffizienten.
  18. Vorrichtung nach Anspruch 14, wobei die Sprachäußerung erste und zweite Endpunkte besitzt, und wobei die ersten bzw. zweiten Endpunkte einem Beginn bzw. einem Ende einer Sprachäußerung entsprechen.
  19. Vorrichtung nach Anspruch 18, wobei ferner ein Speicherelement (640) an den Mikroprozessor (630) gekoppelt ist, wobei die Sprachäußerung eine bekannte Sprachäußerung ist, und wobei das segmentierte Sprachsignal als ein Templat bzw. eine Vorlage in dem Speicherelement (640) gespeichert wird.
  20. Vorrichtung nach Anspruch 14, wobei der Mikroprozessor (630) betätigbar ist zum Auswählen der Sprachäußerung, die mit dem segmentierten Sprachsignal assoziiert ist, und zwar durch Vergleichen des segmentierten Sprachsignals mit jeder einer Vielzahl von Sprachvorlagen, wobei jede der Vielzahl von Sprachvorlagen einer bekannten Sprachäußerung entspricht.
  21. Vorrichtung nach Anspruch 14, wobei ferner ein Speicherelement (640) vorgesehen ist, und zwar gekoppelt mit dem Mikroprozessor (630), der ferner derart konfiguriert ist, dass er das segmentierte Sprachsignal in dem Speicherelement (640) speichert.
DE69930961T 1999-01-04 1999-12-29 Vorrichtung und verfahren zur sprachsegmentierung Expired - Lifetime DE69930961T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US225891 1999-01-04
US09/225,891 US6278972B1 (en) 1999-01-04 1999-01-04 System and method for segmentation and recognition of speech signals
PCT/US1999/031308 WO2000041164A1 (en) 1999-01-04 1999-12-29 System and method for segmentation and recognition of speech signals

Publications (2)

Publication Number Publication Date
DE69930961D1 DE69930961D1 (de) 2006-05-24
DE69930961T2 true DE69930961T2 (de) 2007-01-04

Family

ID=22846699

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69930961T Expired - Lifetime DE69930961T2 (de) 1999-01-04 1999-12-29 Vorrichtung und verfahren zur sprachsegmentierung

Country Status (10)

Country Link
US (1) US6278972B1 (de)
EP (1) EP1141939B1 (de)
JP (1) JP4391701B2 (de)
KR (1) KR100699622B1 (de)
CN (1) CN1173333C (de)
AT (1) ATE323932T1 (de)
AU (1) AU2401500A (de)
DE (1) DE69930961T2 (de)
HK (1) HK1044063B (de)
WO (1) WO2000041164A1 (de)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US20030154181A1 (en) * 2002-01-25 2003-08-14 Nec Usa, Inc. Document clustering with cluster refinement and model selection capabilities
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
KR100435440B1 (ko) * 2002-03-18 2004-06-10 정희석 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식장치 및 그 방법
US7050973B2 (en) * 2002-04-22 2006-05-23 Intel Corporation Speaker recognition using dynamic time warp template spotting
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
US7509257B2 (en) * 2002-12-24 2009-03-24 Marvell International Ltd. Method and apparatus for adapting reference templates
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
WO2007083931A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
US20080189109A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Segmentation posterior based boundary point determination
CN101998289B (zh) * 2009-08-19 2015-01-28 中兴通讯股份有限公司 一种集群终端呼叫过程中控制声音播放设备的方法及装置
US20130151248A1 (en) * 2011-12-08 2013-06-13 Forrest Baker, IV Apparatus, System, and Method For Distinguishing Voice in a Communication Stream
BR112015018040B1 (pt) 2013-01-29 2022-01-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Ênfase de baixa frequência para codificação com base em lpc em domínio de frequência
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
CN105161094A (zh) * 2015-06-26 2015-12-16 徐信 一种语音音频切分手动调整切分点的系统及方法
CN111785296B (zh) * 2020-05-26 2022-06-10 浙江大学 基于重复旋律的音乐分段边界识别方法
CN115580682B (zh) * 2022-12-07 2023-04-28 北京云迹科技股份有限公司 机器人拨打电话的接通挂断时刻的确定的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8503304A (nl) * 1985-11-29 1987-06-16 Philips Nv Werkwijze en inrichting voor het segmenteren van een uit een akoestisch signaal, bij voorbeeld een spraaksignaal, afgeleid elektrisch signaal.
CN1013525B (zh) 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
EP0706172A1 (de) * 1994-10-04 1996-04-10 Hughes Aircraft Company Sprachkodierer und Dekodierer mit niedriger Bitrate
US6314392B1 (en) 1996-09-20 2001-11-06 Digital Equipment Corporation Method and apparatus for clustering-based signal segmentation

Also Published As

Publication number Publication date
CN1348580A (zh) 2002-05-08
CN1173333C (zh) 2004-10-27
JP2002534718A (ja) 2002-10-15
DE69930961D1 (de) 2006-05-24
EP1141939A1 (de) 2001-10-10
JP4391701B2 (ja) 2009-12-24
KR20010089769A (ko) 2001-10-08
ATE323932T1 (de) 2006-05-15
HK1044063B (zh) 2005-05-20
EP1141939B1 (de) 2006-04-19
WO2000041164A1 (en) 2000-07-13
US6278972B1 (en) 2001-08-21
HK1044063A1 (en) 2002-10-04
KR100699622B1 (ko) 2007-03-23
AU2401500A (en) 2000-07-24

Similar Documents

Publication Publication Date Title
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69705830T2 (de) Sprachverarbeitung
DE69032777T2 (de) Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE2953262C2 (de)
DE69826446T2 (de) Stimmumwandlung
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE3688747T2 (de) Optimales verfahren für datenermässigung in einem spracherkennungssystem.
DE60025748T2 (de) Spracherkennung
DE60004331T2 (de) Sprecher-erkennung
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE69819438T2 (de) Verfahren zur Spracherkennung
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE10030105A1 (de) Spracherkennungseinrichtung
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale

Legal Events

Date Code Title Description
8364 No opposition during term of opposition