WO2009106031A1 - Method for operating an electronic assistance system - Google Patents

Method for operating an electronic assistance system Download PDF

Info

Publication number
WO2009106031A1
WO2009106031A1 PCT/DE2009/000156 DE2009000156W WO2009106031A1 WO 2009106031 A1 WO2009106031 A1 WO 2009106031A1 DE 2009000156 W DE2009000156 W DE 2009000156W WO 2009106031 A1 WO2009106031 A1 WO 2009106031A1
Authority
WO
WIPO (PCT)
Prior art keywords
phoneme
data
context
database
processing stage
Prior art date
Application number
PCT/DE2009/000156
Other languages
German (de)
French (fr)
Inventor
Mathias Mühlfelder
Original Assignee
Navigon Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Navigon Ag filed Critical Navigon Ag
Publication of WO2009106031A1 publication Critical patent/WO2009106031A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the invention relates to a method for operating an electronic assistance system with voice recognition module according to the preamble of claim 1.
  • keyboards are typically used where the user inputs the input data in alphanumeric form.
  • Assistance systems with speech recognition modules have also been in widespread use for some years.
  • the input interface is equipped with voice recognition. This means that the user generally speaks his user instructions, ie his input data, into a recording device, for example a microphone of the assistance system, and this operator instruction is recorded there.
  • the speech recognition module the spoken user instructions are then further processed and interpreted in order to recognize the contents of the spoken operator's instruction and to be able to further process it in electronic form.
  • the well-known speech recognition modules of electro- are limited to comparing, in a first processing stage, the spoken operator instruction recorded with the recording device with phoneme data records stored in a database.
  • the phoneme data sets may be, for example, acoustic files, in particular WAV files or phoneme vectors.
  • the phoneme record with the content stored therein is always selected for further processing, which has yielded the highest acoustic match in the first processing stage.
  • the inventive method is based on the basic idea that the speech recognition module is extended with a second processing stage.
  • this second processing stage at least for a part of the phoneme data sets, the contents stored therein are compared with the context data stored in a context database.
  • the match score determined in the first processing stage which alone characterizes the acoustic match between the spoken operator statement and the phoneme record, may then be modified depending on the context comparison made in the second stage of the processing. At least the phoneme record with the best modified match score is then passed to the other parts of the Assistance System for further processing.
  • the processing according to the invention of the phoneme data sets in the second processing stage for processing the content context comparison represents a considerable additional effort in the context of the Data processing.
  • it is thus achieved that all phoneme data sets which did not produce sufficiently good results in the first comparison stage during the acoustic comparison are already filtered out before the context comparison in the second processing stage.
  • the phoneme data record with the respectively best modified agreement value is forwarded for further processing.
  • the content stored in the phoneme record can then be automatically selected for further processing and further processed in downstream function modules.
  • This may be done, for example, by giving the user the contents of the phoneme records with the relatively highest modified match values are displayed and the user then confirms one of the phoneme records by an appropriate selection.
  • the phoneme records with the relatively highest modified match values are sorted in a list.
  • the sorting of phoneme records in the list can be done according to the size of their respective modified match score. In other words, this means that the phoneme data record with the best modified match value is arranged at the first position of the list and that the phoneme data records are sorted according to their respective modified match value.
  • the size of the list can often be defined by a certain number of phoneme records to be included in the list. For example, if the list contains five locations, the list will include the five phoneme records that have the five highest modified match values.
  • the way in which the context comparison is carried out in the second processing stage is fundamentally arbitrary.
  • earlier entries of the user's data which have been confirmed by the user for use, are stored in the context database. This is based on the basic consideration that input data confirmed by the user earlier on is entered by the same user with a relatively high probability again.
  • the content of the phoneme data records is then compared in the second processing stage. For the phoneme records that match the content with the previous input data stored in the context database, the match score is increased to make the selection of those phoneme records more likely.
  • a context database contains user-specific address data.
  • This may be, for example, the electronic address book of a user.
  • For all addresses stored in the user's electronic address book have a correspondingly high probability as possible destination points for the navigation system.
  • a context database contains the starting points or destination points which have already been the basis of route planning in the past. Because certain start or finish points are approached by the user again and again and are therefore to be considered in the later route planning as well as particularly probable hits.
  • a context database containing data describing the meaning of cities.
  • This may, for example, be the population and / or the city area of a city. Because the selection of a city with a large population or large urban area is much more likely than, for example, the selection of a small village.
  • the electronic assistance system in the manner of a media player, in particular in the manner of an MP3 player be formed. Again, the user often has to enter his input data with very little input comfort, so that the improvement of the input comfort by means of appropriate voice inputs with high probability of hit is of great importance.
  • the context database may preferably include data on preferred tunes and / or data for user-specific rating of tunes and / or data at the time of storing music. Because the user-preferred pieces of music that are stored, for example, in favorite lists, or the pieces of music that have received a high user-specific rating from the user or only recently stored on the media player, have a significantly higher hit probability than other pieces of music .
  • the method according to the invention can also be installed on ticket machines. Again, in turn, the input of a variety of input data by the user is necessary, which is also often completely untrained.
  • the contents of the phoneme records can then be compared with the data from preferred destination stations or with data from nearby destination stations or with the data on the size or meaning of destination stations.
  • Fig. 1 a sorted result list with the contents of several
  • FIG. 2 shows the result list according to FIG. 1 after passing through the second processing stage.
  • place 1 shows a list 01 in whose first column five place names are written. These place names are the contents of phoneme data records which have been recognized by acoustic comparison in a voice comparison on a navigation system as possible hits in a first processing stage. According to the match score of the acoustic match, the place “Würzbach” was identified as the most probable hit and therefore provided with the prioritization 1. The hit "millcast”, on the other hand, has the lowest acoustic match score and thus receives the worst prioritization, namely 5 points.
  • FIG. 2 shows the list 01a after the recognized locations have undergone a content context comparison in a second processing stage.
  • this contextual comparison of content it was found that the user already very often uses the place "Würzburg" as the destination of his
  • the hit "Würzburg” is modified with a higher matching value and now receives the highest prioritization 1.
  • the others Hits of the list 1 are subjected to a content context comparison and the respective match values are modified, so that "Mühlburg” after this modification instead of the prioritization 5 the prioritization 3 and "Würzbach” instead of the prioritization 1 the prioritization 4 receives.
  • the locations according to the list 1 are then subsequently passed on for further processing and can be displayed to the user of a navigation system in the appropriate order as possible destinations.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)

Abstract

The invention relates to a method for operating an electronic assistance system, comprising an acoustic recording device on which spoken operator instructions can be recorded and processed using a voice recognition module, wherein in a first processing stage of the voice recognition module the spoken operator instructions are compared to phoneme data set stored in a database, and wherein the phoneme data sets in accordance with the respective acoustic concordance rates thereof are evaluated using a concordance value, wherein in a second processing stage of the voice recognition module at least for part of the phoneme data sets the content of the phoneme data sets is compared to the context data stored in at least one context database, wherein the concordance value of the phoneme data sets determined in the first processing stage is modified as a function of the result of the content-related context comparison, and wherein at least the phoneme data set with the best modified concordance value is forwarded for processing.

Description

Verfahren zum Betrieb eines elektronischen Assistenzsystems Method for operating an electronic assistance system
Die Erfindung betrifft ein Verfahren zum Betrieb eines elektronischen Assistenzsystems mit Spracherkennungsmodul nach dem Oberbegriff des Anspruchs 1.The invention relates to a method for operating an electronic assistance system with voice recognition module according to the preamble of claim 1.
Zur Eingabe von Eingabedaten an elektronischen Assistenzsystemen werden üblicherweise Tastaturen benutzt, an denen der Benutzer die Eingabedaten in alphanumerischer Form eingibt. Seit einigen Jahren finden auch Assistenzsysteme mit Spracherkennungsmodulen immer breitere Verwendung. Bei diesen Assistenzsystemen mit Spracherkennungsmodul ist die Eingabeschnittstelle mit einer Spracherkennung ausgestattet. Dies bedeutet, dass der Benutzer seine Bedieneranwei- sungen, d.h. seine Eingabedaten, ganz allgemein in eine Aufnahmeeinrichtung, beispielsweise ein Mikrofon des Assistenzsystems, hineinspricht und diese Bedieneranweisung dort aufgenommen wird. Im Spracherkennungsmodul werden die gesprochenen Bedieneranweisungen dann weiterverarbeitet und interpretiert, um den Inhalt der gesprochenen Bedieneranweisung zu erkennen und in elektronischer Form weiterverarbeiten zu können. Die bekannten Spracherkennungsmodule von elektro- nischen Assistenzsystemen beschränken sich gemäß dem vorbekannten Stand der Technik darauf, in einer ersten Verarbeitungsstufe die gesprochene und mit der Aufnahmeeinrichtung aufgenommene Bedieneranweisung mit in einer Datenbank gespeicherten Phonem-Datensätzen zu vergleichen. Bei den Phonem-Datensätzen kann es sich beispielsweise um Akustikdateien, insbesondere WAV-Dateien oder Phonem-Vektoren, handeln.For inputting data to electronic assistance systems, keyboards are typically used where the user inputs the input data in alphanumeric form. Assistance systems with speech recognition modules have also been in widespread use for some years. In these assistance systems with voice recognition module, the input interface is equipped with voice recognition. This means that the user generally speaks his user instructions, ie his input data, into a recording device, for example a microphone of the assistance system, and this operator instruction is recorded there. In the speech recognition module, the spoken user instructions are then further processed and interpreted in order to recognize the contents of the spoken operator's instruction and to be able to further process it in electronic form. The well-known speech recognition modules of electro- According to the prior art, technical assistance systems are limited to comparing, in a first processing stage, the spoken operator instruction recorded with the recording device with phoneme data records stored in a database. The phoneme data sets may be, for example, acoustic files, in particular WAV files or phoneme vectors.
In jedem Phonem-Datensatz ist dabei zugleich auch noch ein bestimmter Inhalt in elektronischer Form gespeichert. Bei ausreichender Überein- Stimmung zwischen der aufgenommenen Bedieneranweisung und dem Phonem-Datensatz wird dieser Inhalt dann zur Weiterverarbeitung weitergegeben.At the same time, in each phoneme record, a specific content is also stored in electronic form. If there is sufficient agreement between the recorded operator instruction and the phoneme record, this content is then passed on for further processing.
Dies bedeutet mit anderen Worten, dass bei den bekannten Spracherken- nungsmodulen immer der Phonem-Datensatz mit dem darin gespeicherten Inhalt zur Weiterverarbeitung ausgewählt wird, der in der ersten Verarbeitungsstufe die höchste akustische Übereinstimmung ergeben hat. Probleme ergeben sich aus dieser Art der Spracherkennung immer dann, wenn ähnlich klingende Worte bzw. Spracheingaben voneinander zu unterscheiden sind. Aufgrund der häufig sehr unterschiedlichen Sprech- weise der verschiedenen Benutzer kann es dann sehr leicht zu vielenIn other words, in the known speech recognition modules, the phoneme record with the content stored therein is always selected for further processing, which has yielded the highest acoustic match in the first processing stage. Problems arise from this type of speech recognition whenever similar-sounding words or speech inputs are to be distinguished from one another. Due to the often very different speech of the different users, it can then be very easy to many
Interpretationen kommen, so dass das Spracherkennungsmodul nicht den vom Benutzer eigentlich gewünschten Inhalt der Spracheingabe erkennt.Interpretations come so that the speech recognition module does not recognize the content of the speech input actually desired by the user.
Ausgehend von diesem Stand der Technik ist es deshalb Aufgabe der vorliegenden Erfindung, ein Verfahren zum Betrieb eines elektronischen Assistenzsystems vorzuschlagen, mit dem die Treffergenauigkeit des Spracherkennungsmoduls erhöht werden kann.Based on this prior art, it is therefore an object of the present invention to propose a method for operating an electronic assistance system, with which the accuracy of the recognition of the speech recognition module can be increased.
Diese Aufgabe wird durch ein Verfahren nach der Lehre des Anspruchs 1 gelöst. Vorteilhafte Ausführungsformen der Erfindung sind Gegenstand der Unter ansprüche.This object is achieved by a method according to the teaching of claim 1. Advantageous embodiments of the invention are the subject of the subclaims.
Das erfindungsgemäße Verfahren beruht auf dem Grundgedanken, dass das Spracherkennungsmodul mit einer zweiten Verarbeitungsstufe erwei- tert wird. In dieser zweiten Verarbeitungsstufe werden zumindest für einen Teil der Phonem-Datensätze die darin jeweils gespeicherten Inhalte mit den in einer Kontextdatenbank gespeicherten Kontextdaten verglichen. Der in der ersten Verarbeitungsstufe ermittelte Übereinstimmungswert, der allein die akustische Übereinstimmung zwischen der gesprochenen Bedieneranweisung und dem Phonem-Datensatz charakterisiert, kann dann in Abhängigkeit von dem in der zweiten Verarbeitungsstufe vorgenommenen Kontextvergleich modifiziert werden. Zumindest der Phonem-Datensatz mit dem besten modifizierten Übereinstimmungswert wird dann zur Weiterverarbeitung an die anderen Teile des Assis- tenzsystems weitergegeben.The inventive method is based on the basic idea that the speech recognition module is extended with a second processing stage. In this second processing stage, at least for a part of the phoneme data sets, the contents stored therein are compared with the context data stored in a context database. The match score determined in the first processing stage, which alone characterizes the acoustic match between the spoken operator statement and the phoneme record, may then be modified depending on the context comparison made in the second stage of the processing. At least the phoneme record with the best modified match score is then passed to the other parts of the Assistance System for further processing.
Durch die erfindungsgemäße Erweiterung des Spracherkennungsmoduls mit der zweiten Verarbeitungsstufe wird erreicht, dass die Übereinstimmung der vom Benutzer gesprochenen Bedieneranweisung nicht mehr nur noch rein akustisch bewertet wird, sondern auch eine inhaltliche Kon- textbewertung erfolgt. Dadurch wird es möglich, dass beispielsweise Phonem-Datensätze, die zwar eine relativ hohe akustische Übereinstimmung ergeben haben, aber aufgrund ihres Kontextes sehr unwahrscheinlich erscheinen, einen entsprechend schlechteren Übereinstimmungswert erhalten und somit mit entsprechend geringerer Wahrscheinlichkeit zur Weiterverarbeitung vorgesehen werden. Letztendlich kann durch Anwendung des erfindungsgemäßen Verfahrens die Trefferwahrscheinlichkeit bei der Erkennung von gesprochenen Bedieneranweisungen erheblich verbessert werden.Due to the expansion of the speech recognition module according to the invention with the second processing stage, it is achieved that the agreement of the user instruction spoken by the user is no longer evaluated purely acoustically, but that a contextual text evaluation is also carried out. This makes it possible, for example, for phoneme data sets which, although they have given a relatively high acoustic match, but because of their context appear very unlikely, to receive a correspondingly poorer match value and thus be provided with a correspondingly lower probability for further processing. Finally, by applying the method according to the invention, the probability of hit in the recognition of spoken user instructions can be considerably improved.
Die erfindungsgemäße Verarbeitung der Phonem-Datensätze in der zweiten Verarbeitungsstufe zur Abarbeitung des inhaltlichen Kontextvergleichs stellt einen durchaus erheblichen Zusatzaufwand bei der Datenverarbeitung dar. Um den zusätzlichen Datenverarbeitungsaufwand insgesamt auf ein tolerierbares Maß zu begrenzen, ist es deshalb besonders vorteilhaft, wenn nicht alle Phonem-Datensätze dem Kontextvergleich in der zweiten Verarbeitungsstufe unterzogen werden, sondern nur die Phonem-Datensätze an die zweite Verarbeitungsstufe zum inhaltlichen Kontextvergleich weitergegeben werden, deren in der ersten Verarbeitungsstufe ermittelter Übereinstimmungswert oberhalb eines vorgegebenen Grenzwerts liegt. Im Ergebnis wird dadurch also erreicht, dass alle Phonem-Datensätze, die beim akustischen Vergleich in der ersten Verar- beitungsstufe keine ausreichend guten Ergebnisse erbracht haben, bereits vor dem Kontextvergleich in der zweiten Verarbeitungsstufe ausgefiltert werden.The processing according to the invention of the phoneme data sets in the second processing stage for processing the content context comparison represents a considerable additional effort in the context of the Data processing. To limit the additional data processing overhead to a tolerable level, it is therefore particularly advantageous if not all phoneme data sets are subjected to the context comparison in the second processing stage, but only the phoneme data records passed to the second processing stage for content context comparison whose match value determined in the first processing stage is above a predetermined threshold. As a result, it is thus achieved that all phoneme data sets which did not produce sufficiently good results in the first comparison stage during the acoustic comparison are already filtered out before the context comparison in the second processing stage.
In der Grundform des erfindungsgemäßen Verfahrens wird jeweils nur der Phonem-Datensatz mit dem jeweils besten modifizierten Überein- stimmungswert zur Weiterverarbeitung weitergegeben. In der Weiterverarbeitung kann beispielsweise dann der im Phonem-Datensatz gespeicherte Inhalt automatisch zur Weiterverarbeitung ausgewählt und in nachgelagerten Funktionsmodulen weiterverarbeitet werden. Vielfach ist es jedoch wünschenswert, dass nicht nur der Phonem-Datensatz mit der besten Bewertung weitergegeben wird. Beispielsweise ist es bei elektronischen Assistenzsystemen vielfach üblich, dass dem Benutzer eine Gruppe von Treffern mit den relativ höchsten Bewertungen zur Auswahl angezeigt wird, so dass die tatsächliche Auswahl durch den Benutzer dann noch bestätigt werden muss. Im Hinblick auf das erfindungsgemäße Verfahren bedeutet dies, dass dann mehrere Phonem-Datensätze mit den relativ höchsten modifizierten Übereinstimmungswerten nach der zweiten Verarbeitungsstufe zur Weiterverarbeitung weitergegeben werden, um dem Benutzer beispielsweise die Auswahl eines dieser Phonem- Datensätze für die Weiterverarbeitung anzubieten. Dies kann beispiels- weise dadurch erfolgen, dass dem Benutzer die Inhalte der Phonem- Datensätze mit den relativ höchsten modifizierten Übereinstimmungs- werten angezeigt werden und der Benutzer dann durch eine geeignete Auswahl einen der Phonem-Datensätze bestätigt.In the basic form of the method according to the invention, in each case only the phoneme data record with the respectively best modified agreement value is forwarded for further processing. In further processing, for example, the content stored in the phoneme record can then be automatically selected for further processing and further processed in downstream function modules. In many cases, however, it is desirable that not only the phoneme record with the best rating be passed on. For example, in electronic assistance systems, it is common practice for the user to be presented with a group of matches with the relatively highest scores for selection, so that the actual selection by the user must then be confirmed. With regard to the method according to the invention, this means that a plurality of phoneme data records having the relatively highest modified match values are then passed on to the second processing stage for further processing in order to offer the user, for example, the selection of one of these phoneme data records for further processing. This may be done, for example, by giving the user the contents of the phoneme records with the relatively highest modified match values are displayed and the user then confirms one of the phoneme records by an appropriate selection.
Um die Auswahl durch den Benutzer zu erleichtern, ist es besonders vorteilhaft, wenn die Phonem-Datensätze mit den relativ höchsten modifizierten Übereinstimmungswerten in einer Liste sortiert werden. Die Sortierung der Phonem-Datensätze in der Liste kann dabei nach Größe ihres jeweiligen modifizierten Übereinstimmungswertes erfolgen. Dies bedeutet mit anderen Worten, dass an der ersten Stelle der Liste jeweils der Phonem-Datensatz mit dem besten modifizierten Überein- stimmungswert angeordnet ist und sich daran die Phonem-Datensätze abgestuft nach ihrem jeweiligen modifizierten Übereinstimmungswert sortiert anschließen. Die Größe der Liste kann dabei vielfach durch eine bestimmte Anzahl von in der Liste aufzunehmenden Phonem-Datensätzen definiert sein. Enthält die Liste beispielsweise fünf Speicherplätze, werden in der Liste die fünf Phonem-Datensätze aufgenommen, die die fünf höchsten modifizierten Übereinstimmungswerte aufweisen.To facilitate selection by the user, it is particularly advantageous if the phoneme records with the relatively highest modified match values are sorted in a list. The sorting of phoneme records in the list can be done according to the size of their respective modified match score. In other words, this means that the phoneme data record with the best modified match value is arranged at the first position of the list and that the phoneme data records are sorted according to their respective modified match value. The size of the list can often be defined by a certain number of phoneme records to be included in the list. For example, if the list contains five locations, the list will include the five phoneme records that have the five highest modified match values.
In welcher Weise der Kontextvergleich in der zweiten Verarbeitungsstufe vorgenommen wird, ist grundsätzlich beliebig. Nach einer ersten bevorzugten Verfahrensvariante sind in der Kontextdatenbank frühere Einga- ben der Daten des Benutzers, die vom Benutzer für die Benutzung bestätigt wurden, gespeichert. Dem liegt die Grundüberlegung zugrunde, dass zu einem früheren Zeitpunkt vom Benutzer bestätigte Eingabedaten mit relativ hoher Wahrscheinlichkeit erneut von dem gleichen Benutzer eingegeben werden. Mit diesen in der Kontextdatenbank gespeicherten und in der Vergangenheit bereits mindestens einmal bestätigten Eingabedaten wird der Inhalt der Phonem-Datensätze dann in der zweiten Verarbeitungsstufe verglichen. Für die Phonem-Datensätze, für die eine Übereinstimmung des Inhalts mit den in der Kontextdatenbank gespeicherten früheren Eingabedaten festgestellt wird, wird der Übereinstim- mungswert erhöht, um die Auswahl dieser Phonem-Datensätze entsprechend wahrscheinlicher zu machen. Welchen Zweck das elektronische Assistenzsystem in seiner Grundfunktion erfüllt, ist wiederum grundsätzlich beliebig, da die Auswertung von akustischen Spracheingaben für eine Vielzahl von unterschiedlichen Funktionssystemen von Interesse ist. Von besonders großer Bedeutung für den Benutzerkomfort ist die elektronische Spracherkennung jedoch für Navigationssysteme, insbesondere mobile bzw. fest eingebaute Navigationsgeräte. Denn beim Betrieb solcher Navigationssysteme muss der Benutzer eine Vielzahl von Eingaben machen, wobei die Tastatureingabe aufgrund der Nutzung, beispielsweise in einem Kraftfahrzeug, vielfach als sehr unbequem empfunden wird.The way in which the context comparison is carried out in the second processing stage is fundamentally arbitrary. According to a first preferred variant of the method, earlier entries of the user's data, which have been confirmed by the user for use, are stored in the context database. This is based on the basic consideration that input data confirmed by the user earlier on is entered by the same user with a relatively high probability again. With these input data stored in the context database and already confirmed at least once in the past, the content of the phoneme data records is then compared in the second processing stage. For the phoneme records that match the content with the previous input data stored in the context database, the match score is increased to make the selection of those phoneme records more likely. Which purpose the electronic assistance system fulfills in its basic function is again basically arbitrary, since the evaluation of acoustic speech inputs is of interest for a multiplicity of different functional systems. However, electronic speech recognition is of particular importance for user comfort for navigation systems, in particular mobile or permanently installed navigation devices. For when operating such navigation systems, the user must make a variety of inputs, the keyboard input due to the use, for example in a motor vehicle, is often perceived as very uncomfortable.
Im Hinblick auf die Benutzung des erfindungsgemäßen Verfahrens beim Betrieb von Navigationssystemen ist es weiterhin besonders vorteilhaft, wenn eine Kontextdatenbank benutzerspezifische Adressdaten enthält. Dabei kann es sich beispielsweise um das elektronische Adressbuch eines Benutzers handeln. Denn alle im elektronischen Adressbuch des Benutzers gespeicherten Adressen weisen eine entsprechend hohe Wahrscheinlichkeit als mögliche Zielpunkte für das Navigationssystem auf.With regard to the use of the method according to the invention in the operation of navigation systems, it is furthermore particularly advantageous if a context database contains user-specific address data. This may be, for example, the electronic address book of a user. For all addresses stored in the user's electronic address book have a correspondingly high probability as possible destination points for the navigation system.
Weiterhin ist es bei Betrieb des erfindungsgemäßen Verfahrens in einem Navigationssystem besonders vorteilhaft, wenn eine Kontextdatenbank die Startpunkte bzw. Zielpunkte enthält, die bereits in der Vergangenheit Grundlage einer Routenplanung gewesen sind. Denn bestimmte Startoder Zielpunkte werden vom Benutzer immer wieder angefahren und sind deshalb bei der späteren Routenplanung als auch besonders wahrscheinliche Treffer anzusehen.Furthermore, when operating the method according to the invention in a navigation system, it is particularly advantageous if a context database contains the starting points or destination points which have already been the basis of route planning in the past. Because certain start or finish points are approached by the user again and again and are therefore to be considered in the later route planning as well as particularly probable hits.
Gemäß einer weiteren Variante ist außerdem noch eine Kontextdatenbank vorhanden, in der Daten zur Beschreibung der Bedeutung von Städten enthalten sind. Dabei kann es sich beispielsweise um die Einwohnerzahl und/oder die Stadtfläche einer Stadt handeln. Denn die Auswahl einer Stadt mit großer Einwohnerzahl bzw. großer Stadtfläche ist erheblich wahrscheinlicher als beispielsweise die Auswahl eines kleinen Dorfes. Alternativ zur Verwendung des erfindungsgemäßen Verfahrens in einem Navigationssystem kann das elektronische Assistenzsystem auch in der Art eines Medienabspielgeräts, insbesondere in der Art eines MP3- Abspielgeräts, ausgebildet sein. Auch hier muss der Benutzer vielfach mit sehr geringem Eingabekomfort seine Eingabedaten eingeben, so dass die Verbesserung des Eingabekomforts durch entsprechende Spracheingaben bei hoher Trefferwahrscheinlichkeit von großer Bedeutung ist.According to another variant, there is also a context database containing data describing the meaning of cities. This may, for example, be the population and / or the city area of a city. Because the selection of a city with a large population or large urban area is much more likely than, for example, the selection of a small village. Alternatively to the use of the method according to the invention in one Navigation system, the electronic assistance system in the manner of a media player, in particular in the manner of an MP3 player, be formed. Again, the user often has to enter his input data with very little input comfort, so that the improvement of the input comfort by means of appropriate voice inputs with high probability of hit is of great importance.
Beim Betrieb des Verfahrens auf einem Medienabspielgerät kann die Kontextdatenbank bevorzugt Daten zu bevorzugten Musikstücken und/oder Daten zur benutzerspezifischen Bewertung von Musikstücken und/oder Daten zum Zeitpunkt der Abspeicherung von Musikstücken enthalten. Denn die vom Benutzer favorisierten Musikstücke, die beispielsweise in Favoritenlisten gespeichert sind, bzw. die Musikstücke, die vom Benutzer eine hohe benutzerspezifische Bewertung erhalten haben oder erst vor kurzer Zeit auf dem Medienabspielgerät abgespei- chert wurden, weisen eine deutlich höhere Trefferwahrscheinlichkeit auf als andere Musikstücke.In operating the method on a media player, the context database may preferably include data on preferred tunes and / or data for user-specific rating of tunes and / or data at the time of storing music. Because the user-preferred pieces of music that are stored, for example, in favorite lists, or the pieces of music that have received a high user-specific rating from the user or only recently stored on the media player, have a significantly higher hit probability than other pieces of music ,
Gemäß einer weiteren Funktionsalternative kann das erfindungsgemäße Verfahren auch auf Fahrkartenautomaten installiert werden. Auch hier ist wiederum die Eingabe von einer Vielzahl von Eingabedaten durch den Benutzer notwendig, der zudem vielfach völlig ungeübt ist.According to a further functional alternative, the method according to the invention can also be installed on ticket machines. Again, in turn, the input of a variety of input data by the user is necessary, which is also often completely untrained.
Beim Kontextvergleich auf einem Fahrkartenautomaten können die Inhalte der Phonem-Datensätze dann mit den Daten von bevorzugten Zielbahnhöfen bzw. mit Daten von nahe gelegenen Zielbahnhöfen oder mit den Daten zur Größe oder Bedeutung von Zielbahnhöfen verglichen werden.When comparing the context on a ticket vending machine, the contents of the phoneme records can then be compared with the data from preferred destination stations or with data from nearby destination stations or with the data on the size or meaning of destination stations.
Verschiedene Aspekte der Erfindung sind in der Zeichnung schematisiert dargestellt und werden nachfolgend beispielhaft erläutert. Es zeigen:Various aspects of the invention are illustrated schematically in the drawings and are explained below by way of example. Show it:
Fig. 1 : eine sortierte Ergebnisliste mit den Inhalten mehrererFig. 1: a sorted result list with the contents of several
Phonem-Datensätze nach Durchlaufen der ersten Verarbeitungsstufe;Phoneme records after passing through the first stage of processing;
Fig. 2 : die Ergebnisliste gemäß Fig. 1 nach Durchlaufen der zweiten Verarbeitungsstufe.FIG. 2 shows the result list according to FIG. 1 after passing through the second processing stage. FIG.
Fig. 1 zeigt eine Liste 01 , in deren erster Spalte fünf Ortsnamen angeschrieben sind. Bei diesen Ortsnamen handelt es sich um die Inhalte von Phonem-Datensätzen, die beim akustischen Vergleich mit einer Sprach- eingäbe an einem Navigationssystem als mögliche Treffer in einer ersten Verarbeitungsstufe durch akustischen Vergleich erkannt worden sind. Entsprechend dem Übereinstimmungswert der akustischen Übereinstimmung wurde der Ort „Würzbach" als wahrscheinlichster Treffer identifiziert und deshalb mit der Priorisierung 1 versehen. Der Treffer „Mühl- bürg" weist dagegen den geringsten akustischen Übereinstimmungswert auf und erhält damit die schlechteste Priorisierung, nämlich 5 Punkte.1 shows a list 01 in whose first column five place names are written. These place names are the contents of phoneme data records which have been recognized by acoustic comparison in a voice comparison on a navigation system as possible hits in a first processing stage. According to the match score of the acoustic match, the place "Würzbach" was identified as the most probable hit and therefore provided with the prioritization 1. The hit "millcast", on the other hand, has the lowest acoustic match score and thus receives the worst prioritization, namely 5 points.
Fig. 2 zeigt die Liste 01 a, nachdem die erkannten Orte in einer zweiten Verarbeitungsstufe einen inhaltlichen Kontextvergleich durchlaufen haben. Bei diesem inhaltlichen Kontextvergleich wurde festgestellt, dass der Benutzer den Ort „Würzburg" bereits sehr häufig als Ziel seinerFIG. 2 shows the list 01a after the recognized locations have undergone a content context comparison in a second processing stage. In this contextual comparison of content it was found that the user already very often uses the place "Würzburg" as the destination of his
Routenplanung eingegeben hat und außerdem eine Vielzahl von Adressen in seinem persönlichen Adressbuch unter der Stadt „Würzburg" gespeichert sind. Aufgrund dieses inhaltlichen Kontextvergleiches wird der Treffer „Würzburg" mit einem höheren Übereinstimmungswert modifi- ziert und erhält nunmehr die höchste Priorisierung 1. Auch die anderen Treffer der Liste 1 werden einem inhaltlichen Kontextvergleich unterzogen und die jeweiligen Übereinstimmungswerte modifiziert, so dass „Mühlburg" nach dieser Modifikation statt der Priorisierung 5 die Priorisierung 3 und „Würzbach" statt der Priorisierung 1 die Priorisierung 4 erhält. Die Orte gemäß der Liste 1 werden dann anschließend zur Weiterverarbeitung weitergegeben und können dem Benutzer eines Navigationssystems in der entsprechenden Reihenfolge als mögliche Zielorte angezeigt werden. As a result of this content-related context comparison, the hit "Würzburg" is modified with a higher matching value and now receives the highest prioritization 1. Also the others Hits of the list 1 are subjected to a content context comparison and the respective match values are modified, so that "Mühlburg" after this modification instead of the prioritization 5 the prioritization 3 and "Würzbach" instead of the prioritization 1 the prioritization 4 receives. The locations according to the list 1 are then subsequently passed on for further processing and can be displayed to the user of a navigation system in the appropriate order as possible destinations.

Claims

Patentansprüche claims
1. Verfahren zum Betrieb eines elektronischen Assistenzsystems mit einer akustischen Aufnahmeeinrichtung, an der gesprochene Bedie- neranweisungen aufgenommen werden können und mit einem Sprach- erkennungsmodul weiterverarbeitet werden, wobei in einer ersten Verarbeitungsstufe des Spracherkennungsmoduls die gesprochenen Bedieneranweisungen mit in einer Datenbank gespeicherten Phonem- Datensätzen verglichen werden, und wobei die Phonem-Datensätze entsprechend ihrer jeweiligen akustischen Übereinstimmungsrate mit einem Übereinstimmungswert bewertet werden, dadurch gekennzeichnet, dass in einer zweiten Verarbeitungsstufe des Spracherkennungsmoduls zumindest für einen Teil der Phonem-Datensätze die Inhalte der Phonem-Datensätze mit den in zumindest einer Kontextdatenbank gespeicherten Kontextdaten verglichen werden, wobei der in der ersten Verarbeitungsstufe ermittelte Übereinstimmungswert der Phonem- Datensätze in Abhängigkeit vom Ergebnis des inhaltlichen Kontextvergleichs modifiziert wird, und wobei zumindest der Phonem- Datensatz mit dem besten modifizierten Übereinstimmungswert zur1. A method for operating an electronic assistance system with an acoustic recording device, can be recorded at the spoken operator instructions and processed with a speech recognition module, wherein compared in a first processing stage of the speech recognition module, the spoken user instructions with phoneme records stored in a database in which the phoneme data sets are evaluated according to their respective acoustic match rate with a match score, characterized in that in a second processing stage of the speech recognition module at least for a portion of the phoneme records the contents of the phoneme records are stored in at least one context database Context data are compared, wherein the determined in the first processing stage match value of the phoneme data records depending on the result of the content context comparison mod if at least the phoneme record with the best modified match score for
Weiterverarbeitung weitergegeben wird.Further processing is passed on.
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass nur die Phonem-Datensätze an die zweite Verarbeitungsstufe zum inhaltlichen Kontextvergleich weitergegeben werden, deren in der ersten Verarbeitungsstufe ermittelter Übereinstimmungswert o- berhalb eines vorgegebenen Grenzwerts liegt. 2. The method according to claim 1, characterized in that only the phoneme data records are forwarded to the second processing stage for content context comparison, whose determined in the first processing level match value o- is above a predetermined limit.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass mehrere Phonem-Datensätze mit den relativ höchsten modifizierten Übereinstimmungswerten nach der zweiten Verarbeitungsstu- fe zur Weiterverarbeitung weitergegeben werden.3. The method according to claim 1 or 2, characterized in that a plurality of phoneme data records with the relatively highest modified match values are passed on for further processing after the second processing stages.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Phonem-Datensätze mit den relativ höchsten modifizierten Übereinstimmungswerten nach der Größe ihres jeweiligen modifizier- ten Übereinstimmungswertes geordnet in einer Liste sortiert werden.4. Method according to claim 1, characterized in that the phoneme data records with the relatively highest modified match values are sorted in a list according to the size of their respective modified match score.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass in der Kontextdatenbank frühere Eingabedaten, die vom Benutzer bestätigt wurden, gespeichert sind, wobei in der zweiten Verar- beitungsstufe der Übereinstimmungswert eines Phonem-Datensatzes erhöhend modifiziert wird, wenn der Inhalt des Phonem-Datensatzes mit einem in der Kontextdatenbank gespeicherten, in der Vergangenheit bestätigten Eingabedatum übereinstimmt.5. The method according to claim 1, wherein in the context database, previous input data that has been confirmed by the user are stored, wherein in the second processing stage the match value of a phoneme record is modified in an increasing manner if the content of the phoneme record with a stored in the context database, confirmed in the past input date.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass das elektronische Assistenzsystem in der Art eines Navigationssystems ausgebildet ist.6. The method according to any one of claims 1 to 5, characterized in that the electronic assistance system is designed in the manner of a navigation system.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass als eine Kontextdatenbank eine benutzerspezifische Adressdatenbank verwendet wird. 7. The method according to any one of claims 1 to 6, characterized in that a user-specific address database is used as a context database.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass als eine Kontextdatenbank eine Datenbank mit Startpunkten oder Zielpunkten verwendet wird, die in der Vergangenheit Grundlage ei- ner Routenplanung gewesen sind.8. The method according to any one of claims 1 to 7, characterized in that is used as a context database, a database with starting points or destination points, which have been the basis of a route planning in the past.
9. Verfahren nach einem der Ansprüche 6 bis 8, dadurch gekennzeichnet, dass in einer Kontextdatenbank Daten zur Beschreibung der Bedeutung von Städten, insbesondere die Einwohnerzahl und/oder die Stadtfläche, enthalten sind.9. The method according to any one of claims 6 to 8, characterized in that in a context database data for describing the meaning of cities, in particular the population and / or the city area are included.
10. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass das elektronische Assistenzsystem in der Art eines Medienab- spielgeräts, insbesondere eines MP3-Abspielgeräts, ausgebildet ist.10. The method according to any one of claims 1 to 5, characterized in that the electronic assistance system in the manner of a Medienab- playing device, in particular an MP3 player, is formed.
1 1. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass in der Kontextdatenbank Daten zu bevorzugten Musikstücken und/oder Daten zur benutzerspezifischen Bewertung der Musikstücke und/oder Daten zum Zeitpunkt der Abspeicherung der Musikstücke enthalten sind.1 1. A method according to claim 10, characterized in that in the context database data on preferred pieces of music and / or data for user-specific evaluation of the pieces of music and / or data at the time of storage of the pieces of music are included.
12. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass das elektronische Assistenzsystem in der Art eines Fahrkartenautomaten ausgebildet ist. 12. The method according to any one of claims 1 to 5, characterized in that the electronic assistance system is designed in the manner of a ticket vending machine.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass in der Kontextdatenbank Daten zu bevorzugten Zielbahnhöfen und/oder Daten zu nahe gelegenen Zielbahnhöfen und/oder Daten zur Größe oder Bedeutung von Zielbahnhöfen enthalten sind. 13. The method according to claim 12, characterized in that in the context database data on preferred destination stations and / or data to nearby destination stations and / or data on the size or importance of destination stations are included.
PCT/DE2009/000156 2008-02-29 2009-02-06 Method for operating an electronic assistance system WO2009106031A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
DE102008012067.7 2008-02-29
DE102008012067 2008-02-29
DE102008021954A DE102008021954A1 (en) 2008-02-29 2008-05-02 Method for operating an electronic assistance system
DE102008021954.1 2008-05-02

Publications (1)

Publication Number Publication Date
WO2009106031A1 true WO2009106031A1 (en) 2009-09-03

Family

ID=40911440

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2009/000156 WO2009106031A1 (en) 2008-02-29 2009-02-06 Method for operating an electronic assistance system

Country Status (2)

Country Link
DE (1) DE102008021954A1 (en)
WO (1) WO2009106031A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011116460A1 (en) 2011-10-20 2013-04-25 Volkswagen Aktiengesellschaft Method for providing user interface of e.g. navigation system for passenger car, involves outputting confirmation to user according to user inputs, where confirmation comprises non specific confirmation independent of word portion group
DE102013007964B4 (en) 2013-05-10 2022-08-18 Audi Ag Automotive input device with character recognition
DE102015226408A1 (en) * 2015-12-22 2017-06-22 Robert Bosch Gmbh Method and apparatus for performing speech recognition for controlling at least one function of a vehicle
DE102016221466B4 (en) * 2016-11-02 2019-02-21 Audi Ag Method for processing a user input and motor vehicle with a data processing device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0905662A2 (en) * 1997-09-24 1999-03-31 Philips Patentverwaltung GmbH Input system for at least locality and street names
DE10218226A1 (en) * 2002-04-24 2003-11-06 Volkswagen Ag Speech-control method for multimedia device in motor vehicle, by allocating phoneme data as speech label to individual multimedia files, e.g. titles of tracks
EP1435605A2 (en) * 2002-12-31 2004-07-07 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
EP1562357A1 (en) * 2004-02-05 2005-08-10 Avaya Technology Corp. Methods and apparatus for data caching to improve name recognition in large namespaces
US20070033043A1 (en) * 2005-07-08 2007-02-08 Toshiyuki Hyakumoto Speech recognition apparatus, navigation apparatus including a speech recognition apparatus, and speech recognition method

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19933524A1 (en) * 1999-07-16 2001-01-18 Nokia Mobile Phones Ltd Procedure for entering data into a system
DE10125825B4 (en) * 2001-05-26 2014-09-11 Robert Bosch Gmbh Method for voice input and data carrier
DE10131157C1 (en) * 2001-06-29 2002-07-04 Project49 Ag Dynamic grammatical weighting method for speech recognition system has existing probability distribution for grammatical entries modified for each identified user
DE10306022B3 (en) * 2003-02-13 2004-02-19 Siemens Ag Speech recognition method for telephone, personal digital assistant, notepad computer or automobile navigation system uses 3-stage individual word identification
DE102005018174A1 (en) * 2005-04-19 2006-11-02 Daimlerchrysler Ag Method for the targeted determination of a complete input data record in a speech dialogue 11
DE102007016887B3 (en) * 2007-04-10 2008-07-31 Siemens Ag Method for operating navigation system, involves entering address information into corresponding phonetic address information, where address information is decoded in phonetic code

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0905662A2 (en) * 1997-09-24 1999-03-31 Philips Patentverwaltung GmbH Input system for at least locality and street names
DE10218226A1 (en) * 2002-04-24 2003-11-06 Volkswagen Ag Speech-control method for multimedia device in motor vehicle, by allocating phoneme data as speech label to individual multimedia files, e.g. titles of tracks
EP1435605A2 (en) * 2002-12-31 2004-07-07 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
EP1562357A1 (en) * 2004-02-05 2005-08-10 Avaya Technology Corp. Methods and apparatus for data caching to improve name recognition in large namespaces
US20070033043A1 (en) * 2005-07-08 2007-02-08 Toshiyuki Hyakumoto Speech recognition apparatus, navigation apparatus including a speech recognition apparatus, and speech recognition method

Also Published As

Publication number Publication date
DE102008021954A1 (en) 2009-09-03

Similar Documents

Publication Publication Date Title
DE69937176T2 (en) Segmentation method to extend the active vocabulary of speech recognizers
WO2009140781A1 (en) Method for classification and removal of undesired portions from a comment for speech recognition
EP2815396B1 (en) Method for phoneticizing a data list and speech-controlled user interface
WO2009106031A1 (en) Method for operating an electronic assistance system
EP1264301A1 (en) Method for recognition of verbal utterances by a non-mother tongue speaker in a speech processing system
EP3152753B1 (en) Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules
EP1282897B1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
WO2004086360A1 (en) Speaker-dependent voice recognition method and voice recognition system
EP1640969B1 (en) Procedure of speaker adaptation for Hidden-Markov-Model based speech recognition system
DE60029456T2 (en) Method for online adjustment of pronunciation dictionaries
DE102005030965B4 (en) Extension of the dynamic vocabulary of a speech recognition system by further voice enrollments
EP2006835B1 (en) Method for determining a list of hypotheses from a vocabulary of a speech recognition system
DE102013222520B4 (en) METHOD FOR A LANGUAGE SYSTEM OF A VEHICLE
EP1184838B1 (en) Phonetic transcription for speech synthesis
WO1999005681A1 (en) Process for storing search parameters of an image sequence and access to an image stream in said image sequence
EP3115886A1 (en) Method for operating a voice controlled system and voice controlled system
EP1224661B1 (en) Method and arrangement for verifying a speaker with a computer
DE112009003930B4 (en) Voice recognition device
DE4111781A1 (en) COMPUTER SYSTEM FOR VOICE RECOGNITION
DE102016008862A1 (en) Method for configuring a voice-controlled operating device, voice-controlled operating device and motor vehicle
DE19640502A1 (en) Method for determining an acoustic model for a word
DE102008062923A1 (en) Method for generating hit list during automatic speech recognition of driver of vehicle, involves generating hit list by Levenshtein process based on spoken-word group of that is determined as hit from speech recognition
DE4240978A1 (en) Improving recognition quality for speaker identification - verifying characteristic vectors and corresp. index sequence provided by vector quantisation
DE102016004287A1 (en) Method for speech recognition in a motor vehicle
DE102013019208A1 (en) Motor vehicle voice control

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09715534

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 09715534

Country of ref document: EP

Kind code of ref document: A1