DE60002868T2 - Verfahren und Einrichtung zur Analyse einer Folge von gesprochenen Nummern - Google Patents

Verfahren und Einrichtung zur Analyse einer Folge von gesprochenen Nummern Download PDF

Info

Publication number
DE60002868T2
DE60002868T2 DE60002868T DE60002868T DE60002868T2 DE 60002868 T2 DE60002868 T2 DE 60002868T2 DE 60002868 T DE60002868 T DE 60002868T DE 60002868 T DE60002868 T DE 60002868T DE 60002868 T2 DE60002868 T2 DE 60002868T2
Authority
DE
Germany
Prior art keywords
numbers
pause
length
spoken
pause length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60002868T
Other languages
English (en)
Other versions
DE60002868D1 (de
Inventor
Rainer Klisch
Ralph Schleifer
Andreas Kiessling
Volker Springer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of DE60002868D1 publication Critical patent/DE60002868D1/de
Application granted granted Critical
Publication of DE60002868T2 publication Critical patent/DE60002868T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Traffic Control Systems (AREA)
  • Machine Translation (AREA)

Description

  • Hintergrund der Erfindung Technisches Gebiet
  • Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Analysieren einer gesprochenen Sequenz von Nummern.
  • Erörterung des Standes der Technik
  • Unzählige technische Anwendungen erfordern die Erkennung einer gesprochenen Sequenz von Nummern. Viele Mobiltelefone umfassen das Merkmal der Sprachanwahl durch sprachliches Äußern einer Telefonnummer. Ferner erfordern Anwendungen für den elektronischen Handel die Erkennung von gesprochenen Bestellnummern und gesprochenen Kreditkartennummern.
  • Die WO-A-89/04035 offenbart ein Verfahren zum Erkennen einer Nummer wie einer Telefonnummer, die aus einer Vielzahl von Ziffern besteht. Die Ziffern werden einzeln oder in Sequenzen gesprochen. Zwei sprachliche Äußerungen, die eine oder mehrere Ziffern umfassen, können durch benutzerbestimmtes Setzen von Pausen getrennt werden. Eine Pausenzeit zwischen zwei Äußerungen wird überwacht, und wenn einer Äußerung ein vorbestimmtes Pausenzeitintervall folgt, werden die erkannten Ziffern über einen Sprachsynthesizer wiedergegeben. Dann kann mit einer weiteren Äußerung, die eine oder mehrere Ziffern umfasst, begonnen werden, und nur die nächste Äußerung wird nach einer nachfolgenden Pause wiedergegeben.
  • Obwohl die Erkennung von gesprochenen Ziffern und gesprochenen Ziffersequenzen auch unter ungünstigen Geräuschbedingungen zuverlässig funktioniert, ist die automatische Erkennung von auf natürliche Weise gesprochenen Nummern wie "zweiundzwanzig (twenty two)" oder "fünfhundertdreißig (five hundred thirty)" schwieriger. Das liegt daran, dass gesprochene Sequenzen von Nummern wie "zweiundzwanzig (twenty two)" oder "fünfhundertdreißig (five hundred thirty)" für mehr als einen numerischen Wert stehen können. Die gesprochene Nummernsequenz "zweiundzwanzig (twenty two)" kann beispielsweise für den einzelnen numerischen Wert "22" oder für die zwei numerischen Werte "20" und "2" stehen. Als ein weiteres Beispiel kann die Sequenz "fünfhundertdreißig (five hundred thirty)" sowohl für den numerischen Wert "530" als auch für die zwei numerischen Werte "500" und " 30" stehen.
  • Bei dem automatischen Erkennen einer gesprochenen Sequenz von Nummern wird der Erkennungsprozess zunehmend schwieriger, wenn Nummern mit einem langen numerischen Wert oder eine lange Sequenz von Nummern analysiert werden muss. Demnach kann die gesprochene Sequenz von Nummern "tausendvierhundertsechsundfünfzig (thousand four hundred fifty six)" für einen einzelnen numerischen Wert oder für bis zu fünf numerische Werte stehen. Alles in allem existieren acht Möglichkeiten: "1456", "1000" und "4" und "100" und "50" und "6", "1000" und "456", "1000" und "400" und "56", "1000" und "400" und "50" und "6", "1400" und "56", "1400" und "50" und "6", "1450" und "6".
  • Diese Zweideutigkeiten treten nicht nur in der englischen Sprache auf. In der deutschen Sprache steht z. B. die auf natürliche Weise gesprochene Sequenz von Nummern "einhundert zehn" sowohl für den einzelnen numerischen Wert "110" als auch für die zwei numerischen Werte "100" und "10". Jedoch können sich die Zweideutigkeiten, die sich auf einen oder mehrere numerischen Werte einer gesprochenen Sequenz von Nummern beziehen, in den verschiedenen Sprachen unterscheiden. Während z. B. in der französischen Sprache "siebenundvierzig (quarante sept)" sowohl für den einzelnen numerischen Wert "47" steht als auch für die zwei numerischen Werte "40" und "7", tritt diese Zweideutigkeit in der deutschen Sprache nicht auf. In der deutschen Sprache wird der numerische Wert "47" als "siebenundvierzig" ausgesprochen und die Sequenz der zwei numerischen Werte "40" und "7" wird als "vierzig sieben" ausgesprochen.
  • Deshalb besteht ein Bedürfnis nach einem Verfahren und einer Vorrichtung zum Analysieren einer gesprochenen Sequenz von Nummern, welche eine robuste Unterscheidung zwischen verschiedenen semantischen Interpretationen in Bezug auf einen oder mehrere darin enthaltenen numerischen Werte ermöglichen.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung kommt diesem Bedürfnis nach durch Bereitstellen eines Verfahrens zum Analysieren einer gesprochenen Sequenz von Nummern, wobei die Nummern durch automatische Spracherkennung erkannt werden und wobei das Verfahren ein Ermitteln einer Pausenlänge zwischen zwei aufeinander folgenden Nummern und ein Entscheiden, ob die zwei aufeinander folgenden Nummern zu einem einzigen numerischen Wert gehören oder nicht auf der Grundlage der ermittelten Pausenlänge umfasst. Eine Vorrichtung zum Analysieren einer gesprochenen Sequenz von Nummern umfasst einen automatischen Spracherkenner, eine prosodische Einheit zum Ermitteln einer Pausenlänge zwischen zwei aufeinander folgenden Nummern und eine Verarbeitungseinheit zum Entscheiden, ob die zwei aufeinander folgenden Nummern zu einem einzigen numerischen Wert gehören oder nicht auf der Grundlage der ermittelten Pausenlänge.
  • Gemäß der Erfindung wird die Sprechpausenlänge zwischen zwei aufeinander folgend gesprochenen Nummern als das einzige prosodische Kriterium oder als eines von einer Vielzahl prosodischer Kriterien zum Beurteilen verwendet, ob die zwei aufeinander folgend gesprochenen Nummern zu einem einzigen numerischen Wert oder zu zwei verschiedenen numerischen Werten gehören. Die Sprechpausenlänge ist ein robustes prosodisches Kriterium zum Analysieren einer gesprochenen Sequenz von Nummern. Weitere prosodische Parameter neben der Sprechpausenlänge, auf welcher die Entscheidung basieren kann, ob zwei aufeinander folgend gesprochene Nummern zu einem einzigen numerischen Wert gehören, sind aus E. Nöth et al. "Prosodische Information: Begriffsbestimmung und Nutzen für das Sprachverstehen", in Paulus, Wahl (ed.), Mustererkennung 1997, Informatik aktuell, Springer-Verlag, Heidelberg, 1997, Seiten 37–52, bekannt.
  • Die Entscheidung, ob zwei aufeinander folgend gesprochene Nummern zu einem einzigen numerischen Wert gehören oder nicht kann eine "harte" Entscheidung oder eine "weiche" Entscheidung sein. Die "harte" Entscheidung kann auf der Feststellung basieren, ob bestimmte Schwellenwerte prosodischer Parameter überschritten wurden oder nicht. Eine "weiche" Entscheidung kann mittels eines sog. Klassifizierers, z. B. einem neuronalen Netzwerk, getroffen werden, welcher eine Vielzahl von prosodischen Parametern berücksichtigt und welcher z. B. eine auf Wahrscheinlichkeiten beruhende Entscheidung trifft.
  • Gemäß einer bevorzugten Ausführungsform der Erfindung wird automatisch entschieden, dass zwei aufeinander folgende Nummern nicht zu einem einzigen numerischen Wert gehören, wenn ein bestimmter Pausenlängen-Schwellenwert überschritten wird. Solch ein Mechanismus entspricht der akustischen Wahrnehmung eines menschlichen Zuhörers. Die zwei gesprochenen Nummern "20" und "2" (twenty two) beispielsweise werden von einem menschlichen Zuhörer eindeutig als zwei getrennte numerische Werte (d.h. "20" und "2") aufgefasst, wenn zwischen dem Aussprechen der Nummern "20" und "2" eine Sprechpause ausreichender Dauer ge macht wird. Andererseits werden die gesprochenen Nummern "20" und "2" als ein einziger numerischer Wert (d.h. "22") aufgefasst, wenn keine oder nahezu keine Sprechpause gemacht wird.
  • Der Sprechpausenlängen-Schwellenwert, welcher die Grundlage für die Entscheidung bildet, ob zwei aufeinander folgende Nummern zu einem einzigen numerischen Wert gehören oder nicht, kann anfänglich auf einen bestimmten Wert gesetzt werden. Dieser Wert kann ein empirischer Wert sein, der auf der Grundlage einer repräsentativen Sprachdatenbank geschätzt wurde. Der Pausenlängen-Schwellenwert kann auch einstellbar sein. Dies ermöglicht einem Anwender, den Sprechpausenlängen-Schwellenwert an seine eigene Sprechweise anzupassen, z. B. durch Ändern des Schwellenwert-Wertes in den Systemeinstellungen der Vorrichtung.
  • Es wurde herausgefunden, dass eine robuste Einstellung eines Pausenlängen-Schwellenwertes stark mit dem Sprechtempo verknüpft ist, welches wiederum von dem einzelnen Sprecher abhängt. In der Praxis kann das Sprechtempo verschiedener Sprecher innerhalb eines großen Bereiches variieren. Gemäß einer bevorzugten Ausführungsform der Erfindung wird deshalb der Pausenlängen-Schwellenwert automatisch an die Sprechgewohnheit eines aktuellen Benutzers angepasst. Dies kann z. B. durch Analysieren früher ermittelter Sprechpausenlängen innerhalb eines oder mehrerer früher geäußerten numerischen Werte erfolgen, welche der Benutzer bereits als korrekt bestätigt hat. Ein neuer Pausenlängen-Schwellenwert kann entweder als der Mittel- oder der Medianwert, der aus diesen früher ermittelten Sprechpausenlängen berechnet wurde, eingestellt werden oder er kann irgendwo zwischen dem alten Schwellenwert und dem Mittel- oder dem Medianwert der früher ermittelten Sprechpausenlängen eingestellt werden. Mit anderen Worten: der Pausenlängen-Schwellenwert wird verschoben.
  • Die Entscheidung, ob zwei aufeinander folgend gesprochene Nummern zu einem einzigen numerischen Wert gehören oder nicht kann robuster getroffen werden, wenn die Entscheidung nicht nur auf der Sprechpausenlänge basiert, sondern auch auf den vorher erwähnten, weiteren prosodischen Parametern neben der Sprechpausenlänge. Diese weiteren prosodischen Parameter können sich auf eine Phonem-Dauer wie die Verlängerung am Satzende oder die Verlängerung vor Begrenzungen beziehen, auf die Form der Energiekontur oder spezielle Tonhöhen-Bewegungen wie dem Abfall am Satzende. Vorzugsweise werden entsprechende Schwellenwerte auch für diese weiteren prosodischen Parameter bereitgestellt. Die Entscheidung, ob zwei aufeinander folgende Nummern zu einem einzigen numeri schen Wert gehören oder nicht kann dementsprechend auch auf dem Kriterium basieren, ob ein entsprechender Schwellenwert eines weiteren prosodischen Parameters überschritten wurde oder nicht.
  • Wie der Pausenlängen-Schwellenwert können die entsprechenden Schwellenwerte der weiteren prosodischen Parameter benutzereinstellbar sein oder in Abhängigkeit von der Sprechgewohnheit des Benutzers automatisch eingestellt werden oder können in Übereinstimmung mit geeigneten Übungsdaten eingestellt werden. Außerdem können vorher ermittelte weitere prosodische Parameter von vorher geäußerten numerischen Werten, welchen der Benutzer die Korrektheit bereits bestätigt hat, zum Versetzen der entsprechenden Schwellenwerte der prosodischen Parameter verwendet werden.
  • In vielen Sprachen zeigen Verbindungsworte zwischen zwei aufeinander folgenden Nummern einer gesprochenen Sequenz von Nummern an, dass die zwei aufeinander folgenden Nummern zu einem einzigen numerischen Wert gehören. In der englischen Sprache zum Beispiel ist ein solches Verbindungswort das Wort "and" („und"). Somit steht die gesprochene Sequenz von Nummern "einhundert und zehn" („one hundred and ten") üblicherweise für den numerischen Wert "110", sogar wenn die gesamte Pausenlänge zwischen "hundert" und "zehn", die Pausenlänge zwischen "hundert " und "und" oder die Pausenlänge zwischen "und" und "zehn" einen vorher eingestellten Pausenlängen-Schwellenwert überschreitet.
  • Um eine gesprochene Sequenz von Nummern, die eine oder mehrere Verbindungsworte zwischen zwei aufeinander folgenden Nummern umfasst, richtig zu analysieren, umfasst eine bevorzugte Ausführungsform der Erfindung das Merkmal der Erkennung eines solchen Verbindungswortes. Gemäß einer ersten Variante der Erfindung wird festgestellt, dass zwei aufeinander folgende Nummern jedes Mal zu einem einzigen numerischen Wert gehören, wenn ein Verbindungswort zwischen den zwei Nummern angeordnet ist.
  • Gemäß einer zweiten Variante wird bei Erkennung eines Verbindungswortes zwischen zwei aufeinander folgenden Nummern der Pausenlängen-Schwellenwert zum Bestimmen, ob die zwei aufeinander folgenden Nummern zu einem einzigen numerischen Wert gehören oder nicht, ausgetauscht. Mit anderen Worten: bei Erkennung eines Verbindungswortes basiert die Entscheidung, ob zwei aufeinander folgende Nummern zu einem einzigen numerischen Wert gehören oder nicht auf einem anderen Pausenlängen-Schwellenwert als in dem Fall, wenn kein solches Verbindungs wort erkannt wird. Folglich werden zwei unterschiedliche Pausenlängen-Schwellenwerte verwendet. Das Analysieren einer gesprochenen Sequenz von Nummern wird somit robuster, weil in bestimmten Fällen die aufeinander folgenden Nummern zu verschiedenen numerischen Werten gehören, obwohl ein Verbindungswort dazwischen angeordnet ist, besonders in Fällen, in denen die Pausenlänge zwischen den zwei aufeinander folgenden Nummern extrem lange ist (z. B. wenn ein Benutzer lange Pausen zwischen dem Verbindungswort und der Nummer, die dem Verbindungswort vorausgeht oder folgt, setzt).
  • Es existieren mehrere Möglichkeiten zum Ermitteln einer Sprechpausenlänge zwischen zwei aufeinander folgenden Nummern einer gesprochenen Sequenz von Nummern. Die Pausenlänge kann z. B. direkt durch Messen eines Stille-Intervalls zwischen zwei aufeinander folgend gesprochenen Nummern ermittelt werden. Dies kann mit einem sog. Sprachaktivitätsdetektor erfolgen. Eine Sprechpausenlänge kann auch indirekt unter Verwendung der Information, die als ein Nebenprodukt des Prozesses der automatischen Spracherkennung erhalten wird, ermittelt werden. Während der automatischen Spracherkennung werden nicht nur die Worte selbst, sondern auch ihre jeweiligen Anfangs- und Endpunkte auf einer Zeitachse berechnet. Die Pausenlänge kann somit basierend auf einem Endpunkt der ersten von zwei aufeinander folgenden Nummern und einem Anfangspunkt einer zweiten von zwei aufeinander folgenden Nummern ermittelt werden. Insbesondere in geräuschvollen Umgebungen führt diese Technik üblicherweise zu robusteren Ergebnissen als das Messen eines Stille-Intervalls zwischen zwei aufeinander folgenden Nummern.
  • Kurze Beschreibung der Zeichnungen
  • Weitere Aspekte und Vorteile der Erfindung ergeben sich beim Lesen der folgenden detaillierten Beschreibung bevorzugter Ausführungsformen der Erfindung und durch Bezugnahme auf die Zeichnungen. Es zeigen:
  • 1 ein schematisches Diagramm einer Vorrichtung zum Analysieren einer gesprochenen Sequenz von Nummern gemäß der Erfindung; und
  • 2 ein schematisches Diagramm eines Verfahrens zum Analysieren einer gesprochenen Sequenz von Nummern gemäß der Erfindung.
  • Beschreibung der bevorzugten Ausführungsformen
  • 1 veranschaulicht ein schematisches Diagramm einer Vorrichtung 100 zum Analysieren einer gesprochenen Sequenz von Nummern gemäß der Erfindung. Die in 1 dargestellte Analysevorrichtung 100 umfasst einen automatischen Spracherkenner 120, eine prosodische Einheit 140 zum Ermitteln einer Pausenlänge zwischen zwei aufeinander folgenden Nummern, eine Verarbeitungseinheit 160 zum Entscheiden, ob die zwei aufeinander folgenden Nummern zu einem einzigen numerischen Wert gehören, und eine Eingabeeinheit 180.
  • Beim Sprechen einer Sequenz von Nummern wie „fünfhundertdreißig" ("five hundred thirty") erkennt der automatische Spracherkenner 120 jede der gesprochenen Nummern sowie Verbindungsworte, die innerhalb der gesprochenen Sequenz von Nummern enthalten sind. Während des Erkennungsvorgangs werden die Anfangs- und Endpunkte der erkannten Nummern und Verbindungsworte berechnet. Diese Anfangs- und Endpunkte werden an die prosodische Einheit 140 zum Ermitteln der Pausenlänge zwischen zwei aufeinander folgenden Nummern oder zwischen einem Verbindungswort und einer vorausgehenden oder folgenden Nummer ausgegeben.
  • Die Verarbeitungseinheit 160 erhält Eingaben von sowohl dem automatischen Spracherkenner 120 als auch von der prosodischen Einheit 140. Basierend auf den Nummern, die von dem automatischen Spracherkenner 120 erkannt wurden, dem Vorhandensein von Verbindungsworten zwischen zwei aufeinander folgenden Nummern und der Pausenlänge zwischen zwei aufeinander folgenden Nummern oder einem Verbindungswort und einer Nummer, der das Verbindungswort vorausgeht oder folgt, analysiert die Verarbeitungseinheit 160 die gesprochene Sequenz von Nummern in Bezug auf den einen oder die mehreren darin enthaltenen numerischen Werte.
  • Die Verarbeitungseinheit 160 entscheidet, ob zwei aufeinander folgende Nummern zu einem einzigen numerischen Wert gehören oder nicht auf der Grundlage eines Pausenlängen-Schwellenwertes. Dieser Pausenlängen-Schwellenwert wird anfänglich auf einen Wert zwischen 100 ms und 1 s gesetzt, vorzugsweise auf einen Wert von 200 ms.
  • Mittels einer Eingabeeinheit 180 hat ein Benutzer die Möglichkeit, diesen anfänglichen Schwellenwert an seine eigene Sprechweise anzupassen. Die Eingabeeinheit 180 umfasst einen grafischen oder physikalischen Schieberegler, der es erlaubt, den Schwellenwert innerhalb eines vorbestimmten Bereiches einzustellen. Die Eingabeeinheit 180 erlaubt ferner die Auswahl einer automatischen Anpassung des Schwellenwertes an die Sprechgewohnheit eines oder mehrerer Benutzer der Vorrichtung 100.
  • Die Funktion der Vorrichtung 100 wird nachstehend unter Bezugnahme auf 2 detaillierter beschrieben.
  • Zunächst wird automatisch oder durch den Benutzer oder gemäß geeigneter Übungsdaten ein Pausenlängen-Schwellenwert Θ auf einen bestimmten Wert gesetzt. Danach spricht der Benutzer die Sequenz "fünfhundertdreißig" („five hundred thirty"), die aus den drei Nummern "fünf", "hundert" und "dreißig" besteht. Diese gesprochenen Nummern werden einer automatischen Spracherkennung in dem automatischen Erkenner 120 unterzogen. Der automatische Spracherkenner 120 erkennt die drei Nummern "fünf", "hundert" und "dreißig" mit ihren jeweiligen Anfangs- und Endpunkten. Die Erkennung der jeweiligen Anfangs- und Endpunkte zeigt an, dass eine erste Pause zwischen der ersten Nummer "fünf' und der zweiten Nummer "hundert" und eine zweite Pause zwischen der zweiten Nummer "hundert" und der dritten Nummer "dreißig" besteht.
  • Die Anfangs- und Endpunkte der drei Nummern werden in die prosodischen Einheit 140 eingegeben, welche eine Pausenlänge P1 der ersten Pause sowie eine Pausenlänge P2 der zweiten Pause ermittelt. Die drei von dem automatischen Spracherkenner 120 erkannten Nummern und die zwei Pausenlängen P1 und P2, die durch die prosodische Einheit 140 ermittelt wurden, werden in die Verarbeitungseinheit 160 eingegeben, welche auf der Grundlage der gemessenen Pausenlängen P1 und P2 entscheidet, ob zwei aufeinander folgende Nummern zu einem einzigen numerischen Wert gehören.
  • Wenn sowohl die Pausenlänge P1 als auch die Pausenlänge P2 den Pausenlängen-Schwellenwert Θ überschreitet, entscheidet die Verarbeitungseinheit 160, dass die gesprochene Sequenz von Nummern drei numerische Wert enthält, d.h. "5", "100" und "30". Wenn keine der zwei Pausenlängen P1 und P2 den Pausenlängen-Schwellenwert Θ überschreitet, entscheidet die Verarbeitungseinheit 160, dass die gesprochene Sequenz von Nummern einen einzigen numerischen Wert, d.h. "530", enthält.
  • Wenn die Verarbeitungseinheit 160 feststellt, dass nur die erste Pausenlänge P1 den Pausenlängen-Schwellenwert Θ überschreitet, entscheidet sie, dass die gesprochene Sequenz von Nummern die zwei numerischen Werte "5" und "130" enthält. Wenn andererseits nur die zweite Pausenlänge P2 den Pausenlängen-Schwellenwert Θ überschreitet, entscheidet die Verarbeitungseinheit 160, dass die gesprochene Sequenz von Nummern die zwei numerischen Werte "500" und "30" enthält.
  • Gemäß dem in 2 dargestellten Verfahren wird die Pausenlänge P1 vor der Pausenlänge P2 ermittelt. Dies erlaubt, die gesprochene Sequenz von Nummern in der Reihenfolge der gesprochenen Nummern zu analysieren. Natürlich können die Pausenlängen P1 und P2 auch in einer anderen Reihenfolge ermittelt und analysiert werden. Dies kann erfordern, dass alle Nummern der Sequenz von Nummern vor dem Analyseschritt gesprochen werden müssen.
  • Obwohl sich das in 2 dargestellte Verfahren auf eine Entscheidung bezieht, welche ausschließlich auf der ermittelten Pausenlänge basiert, kann die in 1 dargestellte prosodische Einheit 140 auch weitere prosodische Parameter neben der Pausenlänge ermitteln, und die Entscheidung kann auch auf diesen weiteren prosodischen Parametern basieren. Ansonsten kann der automatische Spracherkenner 120 auch Verbindungsworte innerhalb einer gesprochenen Sequenz von Nummern erkennen, und die Verarbeitungseinheit 160 kann, bei Erkennung eines Verbindungswortes, einen anderen Schwellenwert bezüglich des einen oder der mehreren prosodischen Parametern anwenden, auf welchen die Entscheidung basiert. Außerdem kann die Entscheidung ausschließlich auf einem oder mehreren prosodischen Parametern neben der Pausenlänge basieren.
  • Die Vorrichtung 100 und das Verfahren gemäß der Erfindung können für viele Anwendungen verwendet werden, z. B. für stationäre Systeme für elektronischen Handel oder mobile Anwendungen wie Mobiltelefone.

Claims (14)

  1. Verfahren zum Analysieren einer gesprochenen Sequenz von Nummern, die mittels automatischer Spracherkennung erkannt wurden, umfassend: – Ermitteln einer Sprechpausenlänge zwischen zwei aufeinanderfolgenden Nummern; und – Entscheiden, ob die beiden aufeinanderfolgenden Nummern zu einem einzigen numerischen Wert gehören oder nicht auf der Grundlage der ermittelten Pausenlänge.
  2. Verfahren nach Anspruch 1, weiter umfassend das Ermitteln eines oder mehrerer weiterer prosodischer Parameter abgesehen von der Pausenlänge und Entscheiden, ob die beiden aufeinanderfolgenden Nummern zu einem einzigen numerischen Wert gehören oder nicht auf der Grundlage auch des einen oder der mehreren weiteren prosodischen Parameter.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Entscheidung auf einem Schwellenwert der Pausenlänge und/oder des einen oder der mehreren prosodischen Parameter basiert.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass der Schwellenwert anfänglich auf einen empirischen Wert gesetzt ist.
  5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass der Schwellenwert von einem Benutzer einstellbar ist.
  6. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass der Schwellenwert automatisch in Abhängigkeit von der Sprechgewohnheit eines Benutzers oder in Abhängigkeit von geeigneten Übungsdaten eingestellt wird.
  7. Verfahren nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet; dass der Schwellenwert der Pausenlänge und/oder der weiteren prosodischen Parameter basierend auf einer oder mehreren vorher ermittelten Pausenlängen und/oder vorher ermittelten weiteren prosodischen Parameter, die sich auf einen oder mehrere korrekt ermittelte numerische Werte beziehen, geändert wird.
  8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Pausenlänge durch Messen eines Stille-Intervalls zwischen zwei aufeinanderfolgenden Nummern ermittelt wird.
  9. Verfahren nach einem der Ansprüche 1 bis 7, weiter umfassend das Erhalten eines Endpunkts einer ersten der beiden aufeinanderfolgenden Num- mern und eines Anfangspunkts einer zweiten der beiden aufeinandertolgenden Nummern während der automatischen Spracherkennung und das Ermitteln der Pausenlänge basierend auf dem Endpunkt und dem Anfangspunkt.
  10. Verfahren nach einem der Ansprüche 1 bis 9, weiter umfassend das Erkennen eines Verbindungsworts innerhalb der gesprochenen Sequenz von Nummern.
  11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass dann, wenn ein Verbindungswort erkannt wird, die Entscheidung, ob die zwei aufeinanderfolgenden Nummern zu einem einzigen numerischen Wert gehören oder nicht auf einem anderen Pausenlängen-Schwellenwert basiert.
  12. Vorrichtung (100) zum Analysieren einer gesprochenen Sequenz von Nummern, umfassend: – einen automatischen Spracherkenner (120); – eine prosodische Einheit (140) zum Ermitteln einer Sprechpausenlänge zwischen zwei aufeinandertolgenden Nummern; und – eine Verarbeitungseinheit (160) zum Entscheiden, ob die beiden aufeinanderfolgenden Nummern zu einem einzigen numerischen Wert gehören oder nicht basierend auf der ermittelten Pausenlänge.
  13. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass die prosodische Einheit (140) einen oder mehrere weitere prosodische Parameter abgesehen von der Sprechpausenlänge ermittelt und dass die Verarbeitungseinheit (160) auch basierend auf dem einen oder den mehreren weiteren prosodischen Parametern entscheidet, ob die beiden aufeinanderfoigenden Nummern zu einem einzigen numerischen Wert gehören oder nicht.
  14. Vorrichtung nach Anspruch 12 oder 13, dadurch gekennzeichnet, das der automatische Spracherkennen (120) ein Verbindungswort zwischen der gesprochenen Sequenz von Nummern erkennt.
DE60002868T 2000-09-29 2000-09-29 Verfahren und Einrichtung zur Analyse einer Folge von gesprochenen Nummern Expired - Fee Related DE60002868T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP00121468A EP1193686B1 (de) 2000-09-29 2000-09-29 Verfahren und Einrichtung zur Analyse einer Folge von gesprochenen Nummern

Publications (2)

Publication Number Publication Date
DE60002868D1 DE60002868D1 (de) 2003-06-26
DE60002868T2 true DE60002868T2 (de) 2004-04-01

Family

ID=8169986

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60002868T Expired - Fee Related DE60002868T2 (de) 2000-09-29 2000-09-29 Verfahren und Einrichtung zur Analyse einer Folge von gesprochenen Nummern

Country Status (6)

Country Link
EP (1) EP1193686B1 (de)
JP (1) JP2004510209A (de)
AT (1) ATE241195T1 (de)
AU (1) AU2002214981A1 (de)
DE (1) DE60002868T2 (de)
WO (1) WO2002027711A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812313B2 (en) 2008-12-17 2014-08-19 Nec Corporation Voice activity detector, voice activity detection program, and parameter adjusting method
AU2016428215A1 (en) 2016-10-31 2019-05-16 Rovi Guides, Inc. Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset
WO2018174884A1 (en) 2017-03-23 2018-09-27 Rovi Guides, Inc. Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset
KR102428911B1 (ko) 2017-05-24 2022-08-03 로비 가이드스, 인크. 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4336421A (en) * 1980-04-08 1982-06-22 Threshold Technology, Inc. Apparatus and method for recognizing spoken words
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung
JPH0944181A (ja) * 1995-08-03 1997-02-14 Dia Instr:Kk 音声認識方法及び装置
EP0770986A3 (de) * 1995-10-26 1998-06-17 Dragon Systems Inc. Modifizierte Einzelworterkennung
JP3069531B2 (ja) * 1997-03-14 2000-07-24 日本電信電話株式会社 音声認識方法
JP3578587B2 (ja) * 1997-03-28 2004-10-20 株式会社リコー 音声認識装置および音声認識方法

Also Published As

Publication number Publication date
DE60002868D1 (de) 2003-06-26
AU2002214981A1 (en) 2002-04-08
JP2004510209A (ja) 2004-04-02
WO2002027711A1 (en) 2002-04-04
ATE241195T1 (de) 2003-06-15
EP1193686A1 (de) 2002-04-03
EP1193686B1 (de) 2003-05-21

Similar Documents

Publication Publication Date Title
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69127961T2 (de) Verfahren zur Spracherkennung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE69010722T2 (de) Spracherkennungssystem.
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE68924134T2 (de) Spracherkennungssystem.
DE69321656T2 (de) Verfahren zur Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE3242866C2 (de)
EP0797185A2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee