-
Hintergrund
der Erfindung Technisches Gebiet
-
Die Erfindung bezieht sich auf ein
Verfahren und eine Vorrichtung zum Analysieren einer gesprochenen
Sequenz von Nummern.
-
Erörterung
des Standes der Technik
-
Unzählige technische Anwendungen
erfordern die Erkennung einer gesprochenen Sequenz von Nummern.
Viele Mobiltelefone umfassen das Merkmal der Sprachanwahl durch
sprachliches Äußern einer
Telefonnummer. Ferner erfordern Anwendungen für den elektronischen Handel
die Erkennung von gesprochenen Bestellnummern und gesprochenen Kreditkartennummern.
-
Die WO-A-89/04035 offenbart ein Verfahren zum
Erkennen einer Nummer wie einer Telefonnummer, die aus einer Vielzahl
von Ziffern besteht. Die Ziffern werden einzeln oder in Sequenzen
gesprochen. Zwei sprachliche Äußerungen,
die eine oder mehrere Ziffern umfassen, können durch benutzerbestimmtes
Setzen von Pausen getrennt werden. Eine Pausenzeit zwischen zwei Äußerungen
wird überwacht,
und wenn einer Äußerung ein
vorbestimmtes Pausenzeitintervall folgt, werden die erkannten Ziffern über einen
Sprachsynthesizer wiedergegeben. Dann kann mit einer weiteren Äußerung,
die eine oder mehrere Ziffern umfasst, begonnen werden, und nur
die nächste Äußerung wird
nach einer nachfolgenden Pause wiedergegeben.
-
Obwohl die Erkennung von gesprochenen Ziffern
und gesprochenen Ziffersequenzen auch unter ungünstigen Geräuschbedingungen zuverlässig funktioniert,
ist die automatische Erkennung von auf natürliche Weise gesprochenen Nummern
wie "zweiundzwanzig (twenty two)" oder "fünfhundertdreißig (five
hundred thirty)" schwieriger. Das liegt daran, dass gesprochene
Sequenzen von Nummern wie "zweiundzwanzig (twenty two)" oder "fünfhundertdreißig (five
hundred thirty)" für
mehr als einen numerischen Wert stehen können. Die gesprochene Nummernsequenz
"zweiundzwanzig (twenty two)" kann beispielsweise für den einzelnen
numerischen Wert "22" oder für
die zwei numerischen Werte "20" und "2" stehen. Als ein weiteres
Beispiel kann die Sequenz "fünfhundertdreißig (five
hundred thirty)" sowohl für
den numerischen Wert "530" als auch für die zwei numerischen Werte
"500" und " 30" stehen.
-
Bei dem automatischen Erkennen einer
gesprochenen Sequenz von Nummern wird der Erkennungsprozess zunehmend
schwieriger, wenn Nummern mit einem langen numerischen Wert oder
eine lange Sequenz von Nummern analysiert werden muss. Demnach kann
die gesprochene Sequenz von Nummern "tausendvierhundertsechsundfünfzig (thousand
four hundred fifty six)" für
einen einzelnen numerischen Wert oder für bis zu fünf numerische Werte stehen.
Alles in allem existieren acht Möglichkeiten:
"1456", "1000" und "4" und "100" und "50" und "6", "1000" und "456",
"1000" und "400" und "56", "1000" und "400" und "50" und "6", "1400"
und "56", "1400" und "50" und "6", "1450" und "6".
-
Diese Zweideutigkeiten treten nicht
nur in der englischen Sprache auf. In der deutschen Sprache steht
z. B. die auf natürliche
Weise gesprochene Sequenz von Nummern "einhundert zehn" sowohl für den einzelnen
numerischen Wert "110" als auch für die zwei numerischen Werte
"100" und "10". Jedoch können
sich die Zweideutigkeiten, die sich auf einen oder mehrere numerischen
Werte einer gesprochenen Sequenz von Nummern beziehen, in den verschiedenen
Sprachen unterscheiden. Während
z. B. in der französischen
Sprache "siebenundvierzig (quarante sept)" sowohl für den einzelnen
numerischen Wert "47" steht als auch für die zwei numerischen Werte
"40" und "7", tritt diese Zweideutigkeit in der deutschen Sprache
nicht auf. In der deutschen Sprache wird der numerische Wert "47"
als "siebenundvierzig" ausgesprochen und die Sequenz der zwei numerischen
Werte "40" und "7" wird als "vierzig sieben" ausgesprochen.
-
Deshalb besteht ein Bedürfnis nach
einem Verfahren und einer Vorrichtung zum Analysieren einer gesprochenen
Sequenz von Nummern, welche eine robuste Unterscheidung zwischen
verschiedenen semantischen Interpretationen in Bezug auf einen oder
mehrere darin enthaltenen numerischen Werte ermöglichen.
-
Zusammenfassung
der Erfindung
-
Die vorliegende Erfindung kommt diesem Bedürfnis nach
durch Bereitstellen eines Verfahrens zum Analysieren einer gesprochenen
Sequenz von Nummern, wobei die Nummern durch automatische Spracherkennung
erkannt werden und wobei das Verfahren ein Ermitteln einer Pausenlänge zwischen zwei
aufeinander folgenden Nummern und ein Entscheiden, ob die zwei aufeinander
folgenden Nummern zu einem einzigen numerischen Wert gehören oder
nicht auf der Grundlage der ermittelten Pausenlänge umfasst. Eine Vorrichtung
zum Analysieren einer gesprochenen Sequenz von Nummern umfasst einen
automatischen Spracherkenner, eine prosodische Einheit zum Ermitteln
einer Pausenlänge
zwischen zwei aufeinander folgenden Nummern und eine Verarbeitungseinheit
zum Entscheiden, ob die zwei aufeinander folgenden Nummern zu einem
einzigen numerischen Wert gehören
oder nicht auf der Grundlage der ermittelten Pausenlänge.
-
Gemäß der Erfindung wird die Sprechpausenlänge zwischen
zwei aufeinander folgend gesprochenen Nummern als das einzige prosodische
Kriterium oder als eines von einer Vielzahl prosodischer Kriterien
zum Beurteilen verwendet, ob die zwei aufeinander folgend gesprochenen
Nummern zu einem einzigen numerischen Wert oder zu zwei verschiedenen
numerischen Werten gehören.
Die Sprechpausenlänge
ist ein robustes prosodisches Kriterium zum Analysieren einer gesprochenen
Sequenz von Nummern. Weitere prosodische Parameter neben der Sprechpausenlänge, auf
welcher die Entscheidung basieren kann, ob zwei aufeinander folgend
gesprochene Nummern zu einem einzigen numerischen Wert gehören, sind
aus E. Nöth
et al. "Prosodische Information: Begriffsbestimmung und Nutzen für das Sprachverstehen",
in Paulus, Wahl (ed.), Mustererkennung 1997, Informatik aktuell,
Springer-Verlag, Heidelberg, 1997, Seiten 37–52, bekannt.
-
Die Entscheidung, ob zwei aufeinander
folgend gesprochene Nummern zu einem einzigen numerischen Wert gehören oder
nicht kann eine "harte" Entscheidung oder eine "weiche" Entscheidung
sein. Die "harte" Entscheidung kann auf der Feststellung basieren,
ob bestimmte Schwellenwerte prosodischer Parameter überschritten
wurden oder nicht. Eine "weiche" Entscheidung kann mittels eines
sog. Klassifizierers, z. B. einem neuronalen Netzwerk, getroffen
werden, welcher eine Vielzahl von prosodischen Parametern berücksichtigt
und welcher z. B. eine auf Wahrscheinlichkeiten beruhende Entscheidung
trifft.
-
Gemäß einer bevorzugten Ausführungsform der
Erfindung wird automatisch entschieden, dass zwei aufeinander folgende
Nummern nicht zu einem einzigen numerischen Wert gehören, wenn
ein bestimmter Pausenlängen-Schwellenwert überschritten wird.
Solch ein Mechanismus entspricht der akustischen Wahrnehmung eines
menschlichen Zuhörers. Die
zwei gesprochenen Nummern "20" und "2" (twenty two) beispielsweise
werden von einem menschlichen Zuhörer eindeutig als zwei getrennte
numerische Werte (d.h. "20" und "2") aufgefasst, wenn zwischen dem
Aussprechen der Nummern "20" und "2" eine Sprechpause ausreichender
Dauer ge macht wird. Andererseits werden die gesprochenen Nummern
"20" und "2" als ein einziger numerischer Wert (d.h. "22") aufgefasst,
wenn keine oder nahezu keine Sprechpause gemacht wird.
-
Der Sprechpausenlängen-Schwellenwert, welcher
die Grundlage für
die Entscheidung bildet, ob zwei aufeinander folgende Nummern zu
einem einzigen numerischen Wert gehören oder nicht, kann anfänglich auf
einen bestimmten Wert gesetzt werden. Dieser Wert kann ein empirischer
Wert sein, der auf der Grundlage einer repräsentativen Sprachdatenbank
geschätzt
wurde. Der Pausenlängen-Schwellenwert
kann auch einstellbar sein. Dies ermöglicht einem Anwender, den
Sprechpausenlängen-Schwellenwert
an seine eigene Sprechweise anzupassen, z. B. durch Ändern des
Schwellenwert-Wertes in den Systemeinstellungen der Vorrichtung.
-
Es wurde herausgefunden, dass eine
robuste Einstellung eines Pausenlängen-Schwellenwertes stark mit dem Sprechtempo
verknüpft
ist, welches wiederum von dem einzelnen Sprecher abhängt. In der
Praxis kann das Sprechtempo verschiedener Sprecher innerhalb eines
großen
Bereiches variieren. Gemäß einer
bevorzugten Ausführungsform
der Erfindung wird deshalb der Pausenlängen-Schwellenwert automatisch
an die Sprechgewohnheit eines aktuellen Benutzers angepasst. Dies
kann z. B. durch Analysieren früher
ermittelter Sprechpausenlängen innerhalb
eines oder mehrerer früher
geäußerten numerischen
Werte erfolgen, welche der Benutzer bereits als korrekt bestätigt hat.
Ein neuer Pausenlängen-Schwellenwert
kann entweder als der Mittel- oder der Medianwert, der aus diesen
früher
ermittelten Sprechpausenlängen
berechnet wurde, eingestellt werden oder er kann irgendwo zwischen
dem alten Schwellenwert und dem Mittel- oder dem Medianwert der
früher
ermittelten Sprechpausenlängen eingestellt
werden. Mit anderen Worten: der Pausenlängen-Schwellenwert wird verschoben.
-
Die Entscheidung, ob zwei aufeinander
folgend gesprochene Nummern zu einem einzigen numerischen Wert gehören oder
nicht kann robuster getroffen werden, wenn die Entscheidung nicht
nur auf der Sprechpausenlänge
basiert, sondern auch auf den vorher erwähnten, weiteren prosodischen
Parametern neben der Sprechpausenlänge. Diese weiteren prosodischen
Parameter können
sich auf eine Phonem-Dauer wie die Verlängerung am Satzende oder die
Verlängerung
vor Begrenzungen beziehen, auf die Form der Energiekontur oder spezielle
Tonhöhen-Bewegungen wie dem
Abfall am Satzende. Vorzugsweise werden entsprechende Schwellenwerte auch
für diese
weiteren prosodischen Parameter bereitgestellt. Die Entscheidung,
ob zwei aufeinander folgende Nummern zu einem einzigen numeri schen Wert
gehören
oder nicht kann dementsprechend auch auf dem Kriterium basieren,
ob ein entsprechender Schwellenwert eines weiteren prosodischen Parameters überschritten
wurde oder nicht.
-
Wie der Pausenlängen-Schwellenwert können die
entsprechenden Schwellenwerte der weiteren prosodischen Parameter
benutzereinstellbar sein oder in Abhängigkeit von der Sprechgewohnheit
des Benutzers automatisch eingestellt werden oder können in Übereinstimmung
mit geeigneten Übungsdaten
eingestellt werden. Außerdem
können
vorher ermittelte weitere prosodische Parameter von vorher geäußerten numerischen
Werten, welchen der Benutzer die Korrektheit bereits bestätigt hat,
zum Versetzen der entsprechenden Schwellenwerte der prosodischen
Parameter verwendet werden.
-
In vielen Sprachen zeigen Verbindungsworte zwischen
zwei aufeinander folgenden Nummern einer gesprochenen Sequenz von
Nummern an, dass die zwei aufeinander folgenden Nummern zu einem einzigen
numerischen Wert gehören.
In der englischen Sprache zum Beispiel ist ein solches Verbindungswort
das Wort "and" („und").
Somit steht die gesprochene Sequenz von Nummern "einhundert und zehn"
(„one
hundred and ten") üblicherweise
für den numerischen
Wert "110", sogar wenn die gesamte Pausenlänge zwischen "hundert" und
"zehn", die Pausenlänge
zwischen "hundert " und "und" oder die Pausenlänge zwischen "und" und "zehn"
einen vorher eingestellten Pausenlängen-Schwellenwert überschreitet.
-
Um eine gesprochene Sequenz von Nummern,
die eine oder mehrere Verbindungsworte zwischen zwei aufeinander
folgenden Nummern umfasst, richtig zu analysieren, umfasst eine
bevorzugte Ausführungsform
der Erfindung das Merkmal der Erkennung eines solchen Verbindungswortes.
Gemäß einer
ersten Variante der Erfindung wird festgestellt, dass zwei aufeinander
folgende Nummern jedes Mal zu einem einzigen numerischen Wert gehören, wenn ein
Verbindungswort zwischen den zwei Nummern angeordnet ist.
-
Gemäß einer zweiten Variante wird
bei Erkennung eines Verbindungswortes zwischen zwei aufeinander
folgenden Nummern der Pausenlängen-Schwellenwert
zum Bestimmen, ob die zwei aufeinander folgenden Nummern zu einem
einzigen numerischen Wert gehören
oder nicht, ausgetauscht. Mit anderen Worten: bei Erkennung eines
Verbindungswortes basiert die Entscheidung, ob zwei aufeinander
folgende Nummern zu einem einzigen numerischen Wert gehören oder
nicht auf einem anderen Pausenlängen-Schwellenwert
als in dem Fall, wenn kein solches Verbindungs wort erkannt wird. Folglich
werden zwei unterschiedliche Pausenlängen-Schwellenwerte verwendet. Das Analysieren
einer gesprochenen Sequenz von Nummern wird somit robuster, weil
in bestimmten Fällen
die aufeinander folgenden Nummern zu verschiedenen numerischen Werten
gehören,
obwohl ein Verbindungswort dazwischen angeordnet ist, besonders
in Fällen,
in denen die Pausenlänge
zwischen den zwei aufeinander folgenden Nummern extrem lange ist
(z. B. wenn ein Benutzer lange Pausen zwischen dem Verbindungswort
und der Nummer, die dem Verbindungswort vorausgeht oder folgt, setzt).
-
Es existieren mehrere Möglichkeiten
zum Ermitteln einer Sprechpausenlänge zwischen zwei aufeinander
folgenden Nummern einer gesprochenen Sequenz von Nummern. Die Pausenlänge kann
z. B. direkt durch Messen eines Stille-Intervalls zwischen zwei
aufeinander folgend gesprochenen Nummern ermittelt werden. Dies
kann mit einem sog. Sprachaktivitätsdetektor erfolgen. Eine Sprechpausenlänge kann
auch indirekt unter Verwendung der Information, die als ein Nebenprodukt
des Prozesses der automatischen Spracherkennung erhalten wird, ermittelt
werden. Während
der automatischen Spracherkennung werden nicht nur die Worte selbst,
sondern auch ihre jeweiligen Anfangs- und Endpunkte auf einer Zeitachse
berechnet. Die Pausenlänge
kann somit basierend auf einem Endpunkt der ersten von zwei aufeinander
folgenden Nummern und einem Anfangspunkt einer zweiten von zwei
aufeinander folgenden Nummern ermittelt werden. Insbesondere in
geräuschvollen
Umgebungen führt
diese Technik üblicherweise
zu robusteren Ergebnissen als das Messen eines Stille-Intervalls
zwischen zwei aufeinander folgenden Nummern.
-
Kurze Beschreibung
der Zeichnungen
-
Weitere Aspekte und Vorteile der
Erfindung ergeben sich beim Lesen der folgenden detaillierten Beschreibung
bevorzugter Ausführungsformen
der Erfindung und durch Bezugnahme auf die Zeichnungen. Es zeigen:
-
1 ein
schematisches Diagramm einer Vorrichtung zum Analysieren einer gesprochenen Sequenz
von Nummern gemäß der Erfindung;
und
-
2 ein
schematisches Diagramm eines Verfahrens zum Analysieren einer gesprochenen
Sequenz von Nummern gemäß der Erfindung.
-
Beschreibung
der bevorzugten Ausführungsformen
-
1 veranschaulicht
ein schematisches Diagramm einer Vorrichtung 100 zum Analysieren
einer gesprochenen Sequenz von Nummern gemäß der Erfindung. Die in 1 dargestellte Analysevorrichtung 100 umfasst
einen automatischen Spracherkenner 120, eine prosodische
Einheit 140 zum Ermitteln einer Pausenlänge zwischen zwei aufeinander
folgenden Nummern, eine Verarbeitungseinheit 160 zum Entscheiden,
ob die zwei aufeinander folgenden Nummern zu einem einzigen numerischen
Wert gehören,
und eine Eingabeeinheit 180.
-
Beim Sprechen einer Sequenz von Nummern
wie „fünfhundertdreißig" ("five
hundred thirty") erkennt der automatische Spracherkenner 120 jede der
gesprochenen Nummern sowie Verbindungsworte, die innerhalb der gesprochenen
Sequenz von Nummern enthalten sind. Während des Erkennungsvorgangs
werden die Anfangs- und Endpunkte der erkannten Nummern und Verbindungsworte
berechnet. Diese Anfangs- und Endpunkte werden an die prosodische
Einheit 140 zum Ermitteln der Pausenlänge zwischen zwei aufeinander
folgenden Nummern oder zwischen einem Verbindungswort und einer
vorausgehenden oder folgenden Nummer ausgegeben.
-
Die Verarbeitungseinheit 160 erhält Eingaben
von sowohl dem automatischen Spracherkenner 120 als auch
von der prosodischen Einheit 140. Basierend auf den Nummern,
die von dem automatischen Spracherkenner 120 erkannt wurden,
dem Vorhandensein von Verbindungsworten zwischen zwei aufeinander
folgenden Nummern und der Pausenlänge zwischen zwei aufeinander
folgenden Nummern oder einem Verbindungswort und einer Nummer, der
das Verbindungswort vorausgeht oder folgt, analysiert die Verarbeitungseinheit 160 die
gesprochene Sequenz von Nummern in Bezug auf den einen oder die
mehreren darin enthaltenen numerischen Werte.
-
Die Verarbeitungseinheit 160 entscheidet,
ob zwei aufeinander folgende Nummern zu einem einzigen numerischen
Wert gehören
oder nicht auf der Grundlage eines Pausenlängen-Schwellenwertes. Dieser
Pausenlängen-Schwellenwert
wird anfänglich auf
einen Wert zwischen 100 ms und 1 s gesetzt, vorzugsweise auf einen
Wert von 200 ms.
-
Mittels einer Eingabeeinheit 180 hat
ein Benutzer die Möglichkeit,
diesen anfänglichen
Schwellenwert an seine eigene Sprechweise anzupassen. Die Eingabeeinheit
180 umfasst
einen grafischen oder physikalischen Schieberegler, der es erlaubt, den
Schwellenwert innerhalb eines vorbestimmten Bereiches einzustellen.
Die Eingabeeinheit 180 erlaubt ferner die Auswahl einer
automatischen Anpassung des Schwellenwertes an die Sprechgewohnheit eines
oder mehrerer Benutzer der Vorrichtung 100.
-
Die Funktion der Vorrichtung 100 wird
nachstehend unter Bezugnahme auf 2 detaillierter beschrieben.
-
Zunächst wird automatisch oder
durch den Benutzer oder gemäß geeigneter Übungsdaten
ein Pausenlängen-Schwellenwert Θ auf einen
bestimmten Wert gesetzt. Danach spricht der Benutzer die Sequenz
"fünfhundertdreißig" („five hundred
thirty"), die aus den drei Nummern "fünf", "hundert" und "dreißig" besteht.
Diese gesprochenen Nummern werden einer automatischen Spracherkennung
in dem automatischen Erkenner 120 unterzogen. Der automatische
Spracherkenner 120 erkennt die drei Nummern "fünf", "hundert"
und "dreißig"
mit ihren jeweiligen Anfangs- und Endpunkten. Die Erkennung der
jeweiligen Anfangs- und Endpunkte zeigt an, dass eine erste Pause
zwischen der ersten Nummer "fünf'
und der zweiten Nummer "hundert" und eine zweite Pause zwischen
der zweiten Nummer "hundert" und der dritten Nummer "dreißig" besteht.
-
Die Anfangs- und Endpunkte der drei
Nummern werden in die prosodischen Einheit 140 eingegeben,
welche eine Pausenlänge
P1 der ersten Pause sowie eine Pausenlänge P2 der zweiten Pause ermittelt.
Die drei von dem automatischen Spracherkenner 120 erkannten
Nummern und die zwei Pausenlängen
P1 und P2, die durch die prosodische Einheit 140 ermittelt
wurden, werden in die Verarbeitungseinheit 160 eingegeben,
welche auf der Grundlage der gemessenen Pausenlängen P1 und P2 entscheidet,
ob zwei aufeinander folgende Nummern zu einem einzigen numerischen
Wert gehören.
-
Wenn sowohl die Pausenlänge P1 als
auch die Pausenlänge
P2 den Pausenlängen-Schwellenwert Θ überschreitet,
entscheidet die Verarbeitungseinheit 160, dass die gesprochene
Sequenz von Nummern drei numerische Wert enthält, d.h. "5", "100" und "30".
Wenn keine der zwei Pausenlängen P1
und P2 den Pausenlängen-Schwellenwert Θ überschreitet,
entscheidet die Verarbeitungseinheit 160, dass die gesprochene
Sequenz von Nummern einen einzigen numerischen Wert, d.h. "530",
enthält.
-
Wenn die Verarbeitungseinheit 160 feststellt, dass
nur die erste Pausenlänge
P1 den Pausenlängen-Schwellenwert Θ überschreitet,
entscheidet sie, dass die gesprochene Sequenz von Nummern die zwei
numerischen Werte "5" und "130" enthält. Wenn andererseits nur die
zweite Pausenlänge
P2 den Pausenlängen-Schwellenwert Θ überschreitet,
entscheidet die Verarbeitungseinheit 160, dass die gesprochene
Sequenz von Nummern die zwei numerischen Werte "500" und "30" enthält.
-
Gemäß dem in 2 dargestellten Verfahren wird die Pausenlänge P1 vor
der Pausenlänge
P2 ermittelt. Dies erlaubt, die gesprochene Sequenz von Nummern
in der Reihenfolge der gesprochenen Nummern zu analysieren. Natürlich können die
Pausenlängen
P1 und P2 auch in einer anderen Reihenfolge ermittelt und analysiert
werden. Dies kann erfordern, dass alle Nummern der Sequenz von Nummern vor
dem Analyseschritt gesprochen werden müssen.
-
Obwohl sich das in 2 dargestellte Verfahren auf eine Entscheidung
bezieht, welche ausschließlich
auf der ermittelten Pausenlänge
basiert, kann die in 1 dargestellte
prosodische Einheit 140 auch weitere prosodische Parameter
neben der Pausenlänge
ermitteln, und die Entscheidung kann auch auf diesen weiteren prosodischen
Parametern basieren. Ansonsten kann der automatische Spracherkenner 120 auch
Verbindungsworte innerhalb einer gesprochenen Sequenz von Nummern
erkennen, und die Verarbeitungseinheit 160 kann, bei Erkennung
eines Verbindungswortes, einen anderen Schwellenwert bezüglich des
einen oder der mehreren prosodischen Parametern anwenden, auf welchen
die Entscheidung basiert. Außerdem
kann die Entscheidung ausschließlich
auf einem oder mehreren prosodischen Parametern neben der Pausenlänge basieren.
-
Die Vorrichtung 100 und
das Verfahren gemäß der Erfindung
können
für viele
Anwendungen verwendet werden, z. B. für stationäre Systeme für elektronischen
Handel oder mobile Anwendungen wie Mobiltelefone.