EP0865031B1 - System for speech recognition of digits - Google Patents

System for speech recognition of digits Download PDF

Info

Publication number
EP0865031B1
EP0865031B1 EP98200694A EP98200694A EP0865031B1 EP 0865031 B1 EP0865031 B1 EP 0865031B1 EP 98200694 A EP98200694 A EP 98200694A EP 98200694 A EP98200694 A EP 98200694A EP 0865031 B1 EP0865031 B1 EP 0865031B1
Authority
EP
European Patent Office
Prior art keywords
digits
sequence
digit
digit sequence
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP98200694A
Other languages
German (de)
French (fr)
Other versions
EP0865031A3 (en
EP0865031A2 (en
Inventor
Stephan Dipl.-Ing. Gamm
Nils Dr. Lenke
Jörg Dipl.-Ing. Ockel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Koninklijke Philips NV
Original Assignee
Philips Intellectual Property and Standards GmbH
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH, Koninklijke Philips Electronics NV filed Critical Philips Intellectual Property and Standards GmbH
Publication of EP0865031A2 publication Critical patent/EP0865031A2/en
Publication of EP0865031A3 publication Critical patent/EP0865031A3/en
Application granted granted Critical
Publication of EP0865031B1 publication Critical patent/EP0865031B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the invention relates to a system for speech recognition of digits a control arrangement for recognizing at least one sequence of digits and Output of the recognized digits of at least one sequence of digits.
  • Such a system is known, for example, from WO 95/06309 A1 and contains a remote control with a microphone and a circuit to form a modulated infrared signal.
  • the voice inputs recorded by the microphone of a user are transmitted to a control device by means of an infrared signal, which converts the voice input into code words and an evaluation circuit for Formation of control commands, e.g. for a VCR or TV implements.
  • certain Functions can be carried out in the television or video recorder. For example can choose a channel, adjust the volume or play of a video tape can be stopped.
  • WO-A-89/04035 is an automatic Known speech recognition system that is part of a phone. Entering Telephone numbers are made by voice input from a user.
  • the invention is therefore based on the object of a system for speech recognition to create, in which the transmission of incorrectly recognized digits prevented becomes.
  • the invention is achieved by a system of the type mentioned in the introduction in that if at least one incorrectly identified digit of a first sequence of digits is provided, the control arrangement is provided for comparing a spoken second sequence of digits with the first sequence of digits, that the control arrangement for determining connected digits of a part of the first sequence of digits, which has the most matches with the digits of the second sequence of digits, is provided if the number of digits of the second sequence of digits is less than the number of the first sequence of digits, and that the control arrangement is provided to replace the digits of the determined part of the first sequence of digits with the non-matching digits of the second sequence of digits.
  • verification of the voice inputs is carried out made by the user.
  • the digits are specifically corrected here, that have not been understood.
  • the speech recognition can according to the from the Publication "Hermann Ney, Volker Steinbiß, Xavier Aubert, Reinhold Haeb-Umbach: Progress in Large Vocabulary, Continuous Speech Recognition, in: H. Niemann, R. de Mori, G. Hanrieder: Progress and Prospects of Speech Research and Technology, 1994, pages 75 to 92 "are known methods.
  • linked strings of digits are created using hidden Markov models recognized. After an entered string of digits for the purpose of verification has been issued, the user has the option of the recognized sequence of digits to accept or reject and then certain numbers again enter.
  • the digits are either output by the control arrangement by speech synthesis or by output of pre-recorded and saved Single digits.
  • the tax arrangement must contain the digits 0 to 9 and certain tax inputs, such as. Understand “yes”, “no” etc.
  • the user When a first sequence of digits has been recognized, the user is asked whether this has been understood correctly. If not, the user will asked to enter a new voice. Here he can complete one Enter new sequence of digits or just a partial sequence of digits. Subsequently the first sequence of digits and the newly entered second sequence of digits compared. The control arrangement then determines part of the first sequence of digits, which has the most numerical matches with the digits of the second sequence of digits having. The prerequisite is that the number of digits is the second String of digits is less than the number of the first string of digits. Then be the digits of the part of the first sequence of digits by the mismatched ones Digits of the second sequence of digits replaced.
  • Such a system can be part of a telephone, for example, in which the Telephone number is given via voice input.
  • the invention System used in a value-added voice service e.g. voice dialing in the network
  • the system according to the invention has the advantage that only such digits with the corresponding context entered by the user in the event of a correction become. For example, only the number before and after one is used by the user incorrectly understood number announced again. This form of correction corresponds to that natural, familiar procedure and is also faster than that Enter the entire sequence of digits again. In addition, the prospect of success is at This type of correction is larger, because by entering a partial digit sequence the The risk of detection errors is lower.
  • the control arrangement determines the number of digits during the evaluation the first and second sequence of digits and determines which digits of all contiguous parts of the first sequence of digits with the second sequence of digits to match. If there are several parts or partial sequences of the first sequence of digits have the same number of matches, a substring of them is for the correction selected.
  • the first partial sequence determined can be several Substrings with a matching number of digits with the second Partial sequence can be selected.
  • control arrangement for marking at least one replaced digit in the first partial sequence by a digit of the second partial sequence and for outputting a marked digit provided with an emphasis.
  • the control arrangement specifies digits an odd position of the digit sequence with an increasing and digits at one straight and at the last position of the digit sequence with a falling accent.
  • This form of natural output with pairwise prosody becomes a enables better recording of the digits.
  • the output of a corrected digit with emphasis allows easier success monitoring.
  • control arrangement After evaluating a first and a second sequence of digits, the control arrangement forms with the output of a corrected first sequence of digits to the User whether the number sequence is recognized correctly.
  • the invention also relates to a method for speech recognition of digits, in which at least one sequence of digits is recognized and the recognized digits of at least one sequence of digits are output. It is provided that in the case of at least one incorrectly recognized digit of a first digit sequence, a spoken second digit sequence is compared with the first digit sequence, that contiguous digits of a part of the first sequence of digits which have the most matches with the digits of the second sequence of digits are determined if the number of digits of the second sequence of digits is less than the number of the first sequence of digits, and that the digits of the determined part of the first sequence of digits are replaced by the non-matching digits of the second sequence of digits.
  • the speech recognition arrangement 4 shows an exemplary embodiment of a system for speech recognition by Numbers shown, which is a microphone 1, two amplifiers 2 and 3, one Speech recognition arrangement 4, an evaluation circuit 5 and a loudspeaker 6 contains.
  • the speech recognition arrangement 4 and the evaluation circuit 5 form one Control arrangement 33.
  • Voice inputs of a user are made via the microphone 1 entered.
  • the system receives special voice inputs, namely certain ones Numeric sequences (e.g. "3 8 7 4 2 1 6") and control inputs via the amplifier 2 be delivered to the speech recognition arrangement 4.
  • the speech recognition arrangement 4 can, for example, from a signal processor with appropriate Peripheral circuits exist, the program running in operation one Speech recognition enabled. Such programs are known and the Methods underlying the program can e.g.
  • the user entered and Recognized sequences of digits are used as code words (e.g. in ASCII code) Evaluation circuit 5 given.
  • the evaluation circuit 5 is a voice output arrangement included, which forms speech outputs from the recognized digits.
  • the speech output arrangement can either be from a speech synthesizer exist, which delivers the synthesized digits to amplifier 3, or Narrator takes stored from a memory Speech segments of a speaker, which are also fed to the amplifier 3.
  • the speech output is then via the speaker 6 to the user Check announced.
  • the evaluation circuit also determines Announcements or phrases output, such as: "Is the number sequence correct has been understood? ". The user can then use a misunderstood Make corrections to the digit or sequence of digits.
  • the evaluation circuit 5 also contains, for example, a microprocessor corresponding peripheral circuits, which software modules for processing the recognized control inputs and digits and for controlling the voice output arrangement having.
  • 2 schematically shows the flow diagram of the main process shown to recognize digits. After a string of digits from the speech recognition device 4 what has been received by the abbreviated Notation ERK_ZN in a block 7 of FIG. 2 is indicated for the An analysis and accent marking (AN_AK, Block 8) carried out. There are digits in a sequence of digits with an odd number Position with a "b" and digits of the digit sequence with a straight position with marked with an "e".
  • the last digit in the string of characters will be regardless of whether it is is an even or odd position of the digit sequence, marked with an "e".
  • the output created a pairwise prosody. For example, the number sequence "3 8 7 4 2 1 6 "marked as follows:" 3b 8e 7b 4e 2b 1e 6e ".
  • a query block 11 (OK?) Checks how the Answer is. If the user answered "Yes”, the number sequence is recognized and the entry is completed. The recognized sequence of digits can then be used to Further processing can be used. If the answer is "no", the system asks the user for a correction, which is indicated by the abbreviation AU_FR in a block 12 is shown. The user can then create a completely new one Enter a sequence of digits or a partial digit sequence. The subsequent one Speech recognition process and analysis of the newly entered sequence of digits indicated by the abbreviation ERK_ZK in a block 13. To the speech recognition and analysis in block 13 is the one already described above further analysis and accent marking (block 8) carried out.
  • the analysis indicated by block 13 is shown in FIG 3 and 4 explained in more detail.
  • the start of the analysis in FIG. 3 is identified by ST.
  • the first loop be run through a total of five times, since a total of five parts of the digit sequence Z1 ("3 8 7", “8 7 4", “7 4 2", “4 2 1” and “2 1 6") with the digit sequence Z2 be compared. If the comparison in block 17 shows that the value of the variable m is greater than the difference in the length of the digit sequences of Z1 and Z2, the first is Loop ends and a transition is made to a second loop Flow chart is shown in Fig. 4. The transition to the second loop gives the Mark "A" (block 18).
  • n gives in each case the position of a digit in the digit sequence Z2 and the variable t the number of Matching digits between the part of the part to be compared Sequence of digits Z1 and the sequence of digits Z2.
  • the subsequent query block 20 is as well as blocks 21, 22 and 23 part of a sub-loop. In block 20 checks whether the value of the variable n is less than the length of the digit sequence Z2 is.
  • the second loop which is shown in the flow diagram of FIG. 4, marks the Digits of the part of the digit sequence Z1 that differ from the digits of the digit sequence Z2. 4 begins with the mark "A" in the Block 27.
  • the variable n is set to zero set, which shows a block 28. This variable n denotes the position of a Number in the string Z2.
  • the second loop consists of the query blocks 29 and 30 and further blocks 31 and 32. In the query block 29 it is checked whether the value of the variable n is less than the length of the digit sequence Z2 (n ⁇ L (Z2)). If this is not the case, the analysis is ended.
  • the new sequence of digits is Z1 with the digits "3 8 7 5 2 16" from the old sequence of digits Z1 with the digits "3 8 7 4 2 16 "and the sequence of digits Z2 with the digits" 7 5 2 " the number "4" has been replaced by the number "5".
  • Block 8 also receives from block 13 the marking of the replaced digit or digits with the Letter "a”. The block is then, as described above, in block 8 of the digits with the letters "b” and "e”. For the marked A corresponding voice output is generated in block 9.
  • a Digit that is marked with "b” will appear with increasing accent and a digit that marked with “e” is output with a falling accent.
  • a number with the letter “a” is highlighted with an emphasis, to notify the user of the change made.
  • the marking of the new number sequence Z1 for the example is as follows: "3b 8e 7b a5e 2b 1e 6e ".
  • control arrangement 33 is also designed as a computer system can be, which the functions of the speech recognition arrangement 4 and the Evaluation circuit 5 executes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Facsimile Transmission Control (AREA)

Description

Die Erfindung bezieht sich auf ein System zur Spracherkennung von Ziffern mit einer Steueranordnung zur Erkennung von wenigstens einer Ziffernfolge und zur Ausgabe der erkannten Ziffern wenigstens einer Ziffernfolge.The invention relates to a system for speech recognition of digits a control arrangement for recognizing at least one sequence of digits and Output of the recognized digits of at least one sequence of digits.

Ein solches System ist beispielsweise aus der WO 95/06309 A1 bekannt und enthält eine Fernbedienung mit einem Mikrofon und eine Schaltung zur Bildung eines modulierten Infrarotsignals. Die von dem Mikrofon aufgenommenen Spracheingaben eines Benutzers werden mittels Infrarotsignal zu einer Steuervorrichtung übertragen, welche die Spracheingaben in Codeworte umsetzt und einer Auswerteschaltung zur Bildung von Steuerbefehlen, z.B. für einen Videorecorder oder Fernsehgerät umsetzt. Mit Hilfe einzelner Spracheingaben oder -kommandos können bestimmte Funktionen im Fernsehgerät oder Videorecorder durchgeführt werden. Beispielsweise kann ein Kanal gewählt, die Lautstärke eingestellt oder auch die Wiedergabe eines Videobandes gestoppt werden. Es ist auch eine Zeitprogrammierung für den Videorecorder beschrieben, bei dem durch Eingabe von Kanal, Datum, Startzeit und Ende eine Programmierung in einer fest vorgegebenen Reihenfolge vorgesehen ist. Bei der Spracheingabe ist die Eingabe von Ziffern erforderlich. Nach der Eingabe von Ziffern, beispielsweise für einen Kanal oder eine Uhrzeit werden daraus Ausgaben gebildet, um eine entsprechende Steuerung des Videogerätes oder Fernsehgerätes vorzunehmen. Hierbei findet ein Vergleich mit abgespeicherten Mustern statt. Falls eine Ziffer falsch erkannt und einem falschen Muster zugeordnet worden ist, wird eine fehlerhafte Steuerung vollzogen.Such a system is known, for example, from WO 95/06309 A1 and contains a remote control with a microphone and a circuit to form a modulated infrared signal. The voice inputs recorded by the microphone of a user are transmitted to a control device by means of an infrared signal, which converts the voice input into code words and an evaluation circuit for Formation of control commands, e.g. for a VCR or TV implements. With the help of individual voice inputs or commands, certain Functions can be carried out in the television or video recorder. For example can choose a channel, adjust the volume or play of a video tape can be stopped. It is also a time programming for the VCR described in which by entering the channel, date, start time and At the end of programming in a predetermined sequence is provided. Numbers are required for voice input. After entering of digits, for example for a channel or a time, from it Expenses formed to control the video device or control TV set. A comparison is made with saved ones Patterns instead. If a number is incorrectly recognized and assigned a wrong pattern incorrect control is carried out.

Weiterhin ist aus der Patentschrift WO-A-89/04035 ein automatisches Spracherkennungssystem bekannt, das Bestandteil eines Telefons ist. Die Eingabe von Telefonnummern erfolgt dabei mittels Spracheingabe eines Benutzers.Furthermore, from the patent specification WO-A-89/04035 is an automatic Known speech recognition system that is part of a phone. Entering Telephone numbers are made by voice input from a user.

Der Erfindung liegt daher die Aufgabe zugrunde, ein System zur Spracherkennung zu schaffen, bei dem eine Weitergabe von nicht korrekt erkannten Ziffern verhindert wird. The invention is therefore based on the object of a system for speech recognition to create, in which the transmission of incorrectly recognized digits prevented becomes.

Die Erfindung wird durch ein System der eingangs genannten Art dadurch gelöst, daß bei wenigstens einer falsch erkannten Ziffer einer ersten Ziffernfolge die Steueranordnung zum Vergleich einer gesprochenen zweiten Ziffernfolge mit der ersten Ziffernfolge vorgesehen ist,
daß die Steueranordnung zur Ermittlung von zusammenhängenden Ziffern eines Teils der ersten Ziffernfolge, welche die meisten Übereinstimmungen mit den Ziffern der zweiten Ziffernfolge aufweist, dann vorgesehen ist, wenn die Anzahl der Ziffern der zweiten Ziffernfolge kleiner als die Anzahl der ersten Ziffernfolge ist, und
daß die Steueranordnung zur Ersetzung der Ziffern des ermittelten Teils der ersten Ziffernfolge durch die nicht übereinstimmenden Ziffern der zweiten Ziffernfolge vorgesehen ist.
The invention is achieved by a system of the type mentioned in the introduction in that if at least one incorrectly identified digit of a first sequence of digits is provided, the control arrangement is provided for comparing a spoken second sequence of digits with the first sequence of digits,
that the control arrangement for determining connected digits of a part of the first sequence of digits, which has the most matches with the digits of the second sequence of digits, is provided if the number of digits of the second sequence of digits is less than the number of the first sequence of digits, and
that the control arrangement is provided to replace the digits of the determined part of the first sequence of digits with the non-matching digits of the second sequence of digits.

Bei dem erfindungsgemäßen System wird eine Verifikation der Spracheingaben durch den Benutzer vorgenommen. Es werden hierbei gezielt die Ziffern korrigiert, die nicht verstanden worden sind. Die Spracherkennung kann nach den aus der Veröffentlichung "Hermann Ney, Volker Steinbiß, Xavier Aubert, Reinhold Haeb-Umbach: Progress in Large Vocabulary, Continuous Speech Recognition, in: H. Niemann, R. de Mori, G. Hanrieder: Progress and Prospects of Speech Research and Technology, 1994, Seiten 75 bis 92" bekannten Verfahren entnommen werden. Hierbei werden verbundene Ziffernketten mit Hilfe von Hidden-Markov-Modellen erkannt. Nachdem eine eingegebene Ziffernkette zu dem Zweck der Verifikation ausgegeben worden ist, hat der Benutzer die Möglichkeit die erkannte Ziffernfolge zu akzeptieren oder zurückzuweisen und anschließend bestimmte Ziffern nochmals einzugeben. Die Ausgabe der Ziffern erfolgt durch die Steueranordnung entweder durch Sprachsynthese oder durch Ausgabe voraufgezeichneter und gespeicherter Einzelziffern. Die Steueranordnung muß die Ziffern 0 bis 9 und bestimmte Steuereingaben, wie z.B. "ja", "nein" usw. verstehen. In the system according to the invention, verification of the voice inputs is carried out made by the user. The digits are specifically corrected here, that have not been understood. The speech recognition can according to the from the Publication "Hermann Ney, Volker Steinbiß, Xavier Aubert, Reinhold Haeb-Umbach: Progress in Large Vocabulary, Continuous Speech Recognition, in: H. Niemann, R. de Mori, G. Hanrieder: Progress and Prospects of Speech Research and Technology, 1994, pages 75 to 92 "are known methods. Here, linked strings of digits are created using hidden Markov models recognized. After an entered string of digits for the purpose of verification has been issued, the user has the option of the recognized sequence of digits to accept or reject and then certain numbers again enter. The digits are either output by the control arrangement by speech synthesis or by output of pre-recorded and saved Single digits. The tax arrangement must contain the digits 0 to 9 and certain tax inputs, such as. Understand "yes", "no" etc.

Wenn eine erste Ziffernfolge erkannt worden ist, wird der Benutzer gefragt, ob diese korrekt verstanden worden ist. Ist dies nicht der Fall, wird der Benutzer aufgefordert eine neue Spracheingabe vorzunehmen. Hierbei kann er eine komplett neue Ziffernfolge oder auch nur eine Teilziffernfolge eingeben. Anschließend werden die erste Ziffernfolge und die neu eingegebene, zweite Ziffernfolge verglichen. Die Steueranordnung ermittelt dann einen Teil der ersten Ziffernfolge, welcher die meisten Ziffernübereinstimmungen mit den Ziffern der zweiten Ziffernfolge aufweist. Voraussetzung dabei ist, daß die Anzahl der Ziffern der zweiten Ziffernfolge kleiner als die Anzahl der ersten Ziffernfolge ist. Anschließend werden die Ziffern des Teils der ersten Ziffernfolge durch die nicht übereinstimmenden Ziffern der zweiten Ziffernfolge ersetzt.When a first sequence of digits has been recognized, the user is asked whether this has been understood correctly. If not, the user will asked to enter a new voice. Here he can complete one Enter new sequence of digits or just a partial sequence of digits. Subsequently the first sequence of digits and the newly entered second sequence of digits compared. The control arrangement then determines part of the first sequence of digits, which has the most numerical matches with the digits of the second sequence of digits having. The prerequisite is that the number of digits is the second String of digits is less than the number of the first string of digits. Then be the digits of the part of the first sequence of digits by the mismatched ones Digits of the second sequence of digits replaced.

Ein solches System kann beispielsweise Bestandteil eines Telefons sein, bei dem die Telefonnummer über die Spracheingabe erfolgt. Ferner kann das erfindungsgemäße System in einem Sprachmehrwertdienst (z.B. Sprachwahl im Netz) eingesetzt werden.Such a system can be part of a telephone, for example, in which the Telephone number is given via voice input. Furthermore, the invention System used in a value-added voice service (e.g. voice dialing in the network) become.

Das erfindungsgemäße System weist den Vorteil auf, daß nur solche Ziffern mit dem entsprechenden Kontext von dem Benutzer bei einer Korrektur eingegeben werden. Beispielsweise werden von dem Benutzer nur die Ziffer vor und nach einer falsch verstandenen Ziffer neu angesagt. Diese Form der Korrektur entspricht dem natürlichen, dem Benutzer gewohnten Vorgehen und ist auch schneller als das erneute Eingeben der gesamten Ziffernfolge. Außerdem ist die Erfolgsaussicht bei dieser Art der Korrektur größer, da durch die Eingabe einer Teilziffernfolge die Gefahr von Erkennungsfehlern geringer ist.The system according to the invention has the advantage that only such digits with the corresponding context entered by the user in the event of a correction become. For example, only the number before and after one is used by the user incorrectly understood number announced again. This form of correction corresponds to that natural, familiar procedure and is also faster than that Enter the entire sequence of digits again. In addition, the prospect of success is at This type of correction is larger, because by entering a partial digit sequence the The risk of detection errors is lower.

Die Steueranordnung bestimmt bei der Auswertung jeweils die Anzahl der Ziffern der ersten und zweiten Ziffernfolge und ermittelt, welche Ziffern aller zusammenhängenden Teile der ersten Ziffernfolge mit der zweiten Ziffernfolge übereinstimmen. Falls mehrere Teile bzw. Teilfolgen der ersten Ziffernfolge die gleiche Anzahl von Übereinstimmungen aufweisen, wird eine Teilfolge davon für die Korrektur ausgewählt. Hierbei kann die erste ermittelte Teilfolge mehrerer Teilfolgen mit einer übereinstimmenden Anzahl von Ziffern mit der zweiten Teilfolge ausgewählt werden.The control arrangement determines the number of digits during the evaluation the first and second sequence of digits and determines which digits of all contiguous parts of the first sequence of digits with the second sequence of digits to match. If there are several parts or partial sequences of the first sequence of digits have the same number of matches, a substring of them is for the correction selected. Here, the first partial sequence determined can be several Substrings with a matching number of digits with the second Partial sequence can be selected.

Ferner ist die Steueranordnung zur Markierung wenigstens einer ersetzten Ziffer in der ersten Teilfolge durch eine Ziffer der zweiten Teilfolge und zur Ausgabe einer markierten Ziffer mit einer Betonung vorgesehen. Auch die anderen Ziffern werden mit einem bestimmten Akzent ausgesprochen. Die Steueranordnung gibt Ziffern an einer ungeraden Position der Ziffernfolge mit einem steigenden und Ziffern an einer geraden und an der letzten Position der Ziffernfolge mit fallenden Akzent aus. Durch diese Form der natürlichen Ausgabe mit paarweiser Prosodie wird ein besseres Aufnehmen der Ziffern ermöglicht. Die Ausgabe einer korrigierten Ziffer mit Betonung (kontrastiver Akzent) erlaubt eine einfachere Erfolgskontrolle.Furthermore, the control arrangement for marking at least one replaced digit in the first partial sequence by a digit of the second partial sequence and for outputting a marked digit provided with an emphasis. The other digits too pronounced with a certain accent. The control arrangement specifies digits an odd position of the digit sequence with an increasing and digits at one straight and at the last position of the digit sequence with a falling accent. This form of natural output with pairwise prosody becomes a enables better recording of the digits. The output of a corrected digit with emphasis (contrasting accent) allows easier success monitoring.

Nach der Auswertung einer ersten und zweiten Ziffernfolge bildet die Steueranordnung mit der Ausgabe einer korrigierten ersten Ziffernfolge eine Frage an den Benutzer, ob die Ziffernfolge korrekt erkannt ist.After evaluating a first and a second sequence of digits, the control arrangement forms with the output of a corrected first sequence of digits to the User whether the number sequence is recognized correctly.

Die Erfindung bezieht sich auch auf ein Verfahren zur Spracherkennung von Ziffern, bei dem wenigstens eine Ziffernfolge erkannt wird und die erkannten Ziffern wenigstens einer Ziffernfolge ausgegeben werden. Hierbei ist vorgesehen,
daß bei wenigstens einer falsch erkannten Ziffer einer ersten Ziffernfolge eine gesprochene zweite Ziffernfolge mit der ersten Ziffernfolge verglichen wird,
daß zusammenhängende Ziffern eines Teils der ersten Ziffernfolge, welche die meisten Übereinstimmungen mit den Ziffern der zweiten Ziffernfolge aufweist, dann ermittelt werden, wenn die Anzahl der Ziffern der zweiten Ziffernfolge kleiner als die Anzahl der ersten Ziffernfolge ist, und
daß die Ziffern des ermittelten Teils der ersten Ziffernfolge durch die nicht übereinstimmenden Ziffern der zweiten Ziffernfolge ersetzt werden.
The invention also relates to a method for speech recognition of digits, in which at least one sequence of digits is recognized and the recognized digits of at least one sequence of digits are output. It is provided
that in the case of at least one incorrectly recognized digit of a first digit sequence, a spoken second digit sequence is compared with the first digit sequence,
that contiguous digits of a part of the first sequence of digits which have the most matches with the digits of the second sequence of digits are determined if the number of digits of the second sequence of digits is less than the number of the first sequence of digits, and
that the digits of the determined part of the first sequence of digits are replaced by the non-matching digits of the second sequence of digits.

Ausführungsbeispiele der Erfindung werden nachstehend anhand der Figuren näher erläutert. Es zeigen:

Fig. 1
ein System zur Spracherkennung und
Fig. 2 bis 4
Ablaufdiagramme zur Erläuterung der Verfahren zur Spracherkennung.
Exemplary embodiments of the invention are explained in more detail below with reference to the figures. Show it:
Fig. 1
a system for speech recognition and
2 to 4
Flow diagrams for explaining the methods of speech recognition.

In Fig. 1 ist ein Ausführungsbeispiel eines Systems zur Spracherkennung von Ziffern dargestellt, welches ein Mikrofon 1, zwei Verstärker 2 und 3, eine Spracherkennungsanordnung 4, eine Auswerteschaltung 5 und einen Lautsprecher 6 enthält. Die Spracherkennungsanordnung 4 und die Auswerteschaltung 5 bilden eine Steueranordnung 33. Über das Mikrofon 1 werden Spracheingaben eines Benutzers eingegeben. Das System erhält spezielle Spracheingaben, nämlich bestimmte Ziffernfolgen (z.B. "3 8 7 4 2 1 6") und Steuereingaben, die über den Verstärker 2 zur Spracherkennungsanordnung 4 geliefert werden. Die Spracherkennungsanordnung 4 kann beispielsweise aus einem Signalprozessor mit entsprechenden Peripherieschaltungen bestehen, dessen im Betrieb laufendes Programm eine Spracherkennung ermöglicht. Solche Programme sind bekannt und die dem Programm zugrundeliegenden Verfahren können z.B. dem Dokument "Hermann Ney, Volker Steinbiß, Xavier Aubert, Reinhold Haeb-Umbach: Progress in Large Vocabulary, Continuous Speech Recognition, in: H. Niemann, R. De Mori, G. Hanrieder: Progress and Prospects of Speech Research and Technology, 1994, Seiten 75 bis 92" entnommen werden. Die vom Benutzer eingegebenen und erkannten Ziffernfolgen werden als Codeworte (z.B. im ASCII-Code) zur Auswerteschaltung 5 gegeben. In der Auswerteschaltung 5 ist eine Sprachausgabeanordnung enthalten, die aus den erkannten Ziffern wieder Sprachausgaben bildet. Hierbei kann die Sprachausgabeanordnung entweder aus einem Sprachsynthetisierer bestehen, der die synthetisierten Ziffern zum Verstärker 3 liefert, oder die Sprachausgabeanordnung entnimmt aus einem Speicher gespeicherte Sprachsegemente eines Sprechers, die ebenfalls dem Verstärker 3 zugeführt werden. 1 shows an exemplary embodiment of a system for speech recognition by Numbers shown, which is a microphone 1, two amplifiers 2 and 3, one Speech recognition arrangement 4, an evaluation circuit 5 and a loudspeaker 6 contains. The speech recognition arrangement 4 and the evaluation circuit 5 form one Control arrangement 33. Voice inputs of a user are made via the microphone 1 entered. The system receives special voice inputs, namely certain ones Numeric sequences (e.g. "3 8 7 4 2 1 6") and control inputs via the amplifier 2 be delivered to the speech recognition arrangement 4. The speech recognition arrangement 4 can, for example, from a signal processor with appropriate Peripheral circuits exist, the program running in operation one Speech recognition enabled. Such programs are known and the Methods underlying the program can e.g. the document "Hermann Ney, Volker Steinbiß, Xavier Aubert, Reinhold Haeb-Umbach: Progress in Large Vocabulary, Continuous Speech Recognition, in: H. Niemann, R. De Mori, G. Hanrieder: Progress and Prospects of Speech Research and Technology, 1994, Pages 75 to 92 ". The user entered and Recognized sequences of digits are used as code words (e.g. in ASCII code) Evaluation circuit 5 given. In the evaluation circuit 5 is a voice output arrangement included, which forms speech outputs from the recognized digits. Here, the speech output arrangement can either be from a speech synthesizer exist, which delivers the synthesized digits to amplifier 3, or Narrator takes stored from a memory Speech segments of a speaker, which are also fed to the amplifier 3.

Die Sprachausgaben werden dann über den Lautsprecher 6 dem Benutzer zur Überprüfung angesagt. Hierbei werden von der Auswerteschaltung auch bestimmte Ansagen bzw. Phrasen ausgegeben, wie z.B.: "Ist die Ziffernfolge korrekt verstanden worden?". Der Benutzer kann anschließend bei einer falsch verstandenen Ziffer oder Ziffernfolge Korrekturen vornehmen.The speech output is then via the speaker 6 to the user Check announced. Here, the evaluation circuit also determines Announcements or phrases output, such as: "Is the number sequence correct has been understood? ". The user can then use a misunderstood Make corrections to the digit or sequence of digits.

Die Auswerteschaltung 5 enthält beispielsweise noch einen Mikroprozessor mit entsprechenden Peripherieschaltungen, welcher Softwaremodule zur Verarbeitung der erkannten Steuereingaben und Ziffern und zur Steuerung der Sprachausgabeanordnung aufweist. In Fig. 2 ist schematisch das Ablaufdiagramm des Hauptprozesses zur Erkennung von Ziffern dargestellt. Nachdem eine Ziffernfolge von der Spracherkennungsanordnung 4 empfangen worden ist, was durch die abkürzende Schreibweise ERK_ZN in einem Block 7 der Fig. 2 angedeutet ist, wird für die Sprachausgabe eine Analyse und Akzentmarkierung (AN_AK, Block 8) durchgeführt. Es werden dabei Ziffern einer Ziffernfolge mit einer ungeraden Position mit einem "b" und Ziffern der Ziffernfolge mit einer geraden Position mit einem "e" markiert. Die letzte Ziffer der Ziffernfolge wird unabhängig davon, ob es eine gerade oder ungerade Position der Ziffernfolge ist, mit einem "e" markiert. Das bedeutet, daß die Ziffer an der ersten, dritten, fünften Position usw. der Ziffernfolge mit einem "b" und die Ziffer an der zweiten, vierten, sechsten Position usw. der Ziffernfolge mit einem "e" gekennzeichnet werden. Hiermit wird für die Ausgabe eine paarweise Prosodie erzeugt. Beispielsweise wird die Ziffernfolge "3 8 7 4 2 1 6" folgendermaßen markiert: "3b 8e 7b 4e 2b 1e 6e".The evaluation circuit 5 also contains, for example, a microprocessor corresponding peripheral circuits, which software modules for processing the recognized control inputs and digits and for controlling the voice output arrangement having. 2 schematically shows the flow diagram of the main process shown to recognize digits. After a string of digits from the speech recognition device 4 what has been received by the abbreviated Notation ERK_ZN in a block 7 of FIG. 2 is indicated for the An analysis and accent marking (AN_AK, Block 8) carried out. There are digits in a sequence of digits with an odd number Position with a "b" and digits of the digit sequence with a straight position with marked with an "e". The last digit in the string of characters will be regardless of whether it is is an even or odd position of the digit sequence, marked with an "e". The means that the number is in the first, third, fifth position etc. of the number sequence with a "b" and the digit in the second, fourth, sixth position etc. the Sequence of digits are marked with an "e". Hereby for the output created a pairwise prosody. For example, the number sequence "3 8 7 4 2 1 6 "marked as follows:" 3b 8e 7b 4e 2b 1e 6e ".

Im Ablaufdiagramm nach Fig. 2 wird der nächste Schritt nach dem Block 8 durch einen Block 9 (AU_KO) angegeben. Dieser kennzeichnet die Ausgabe der erkannten Ziffernfolge und die Frage, ob die Ziffernfolge korrekt erkannt worden ist. Bei der Ausgabe der Ziffernfolge verwendet die Sprachausgabeanordnung der Auswerteschaltung 5 zwei Phrasenvarianten. Eine Ziffer wird entweder mit steigendem oder mit fallendem Akzent ausgegeben. Für die Ziffern, die mit "b" markiert sind, werden Phrasen mit steigendem Akzent verwendet und für die Ziffern, die mit "e" markiert sind, werden Phrasen mit fallendem Akzent verwendet. Hierdurch ergibt sich bei der Sprachausgabe ein paarweiser Prosodieverlauf, der dem natürlichen Sprechverhalten von Menschen entspricht.The next step after block 8 is carried out in the flow chart according to FIG a block 9 (AU_KO) specified. This marks the output of the recognized Sequence of digits and the question of whether the sequence of digits was recognized correctly. In the Output of the number sequence uses the speech output arrangement of the evaluation circuit 5 two phrase variants. A digit will either increase or issued with a falling accent. For the digits marked with "b", phrases with increasing accent are used and for the digits that start with "e" phrases with a falling accent are used. This gives a pairwise prosody course, which is the natural Speaking behavior of people.

Nachdem die Antwort des Benutzers auf die Frage des Systems erkannt worden ist (Block 10, ERK_A), wird in einem Abfrageblock 11 (OK ?) geprüft, wie die Antwort lautet. Hat der Benutzer mit "Ja" geantwortet, ist die Ziffernfolge erkannt und die Eingabe abgeschlossen. Die erkannte Ziffernfolge kann dann zur Weiterverarbeitung verwendet werden. Ist die Antwort "Nein", bittet das System den Benutzer um eine Korrektur, was durch die abkürzende Schreibweise AU_FR in einem Block 12 dargestellt ist. Der Benutzer kann daraufhin eine komplett neue Ziffernfolge oder eine Teilziffernfolge eingeben. Der sich anschließende Spracherkennungsprozeß und die Analyse der neu eingegebenen Ziffernfolge wird durch die abkürzende Schreibweise ERK_ZK in einem Block 13 angegeben. Nach der Spracherkennung und Analyse in Block 13 wird die schon oben beschriebene weitere Analyse und Akzentmarkierung (Block 8) durchgeführt.After the user's response to the system question has been recognized (Block 10, ERK_A), a query block 11 (OK?) Checks how the Answer is. If the user answered "Yes", the number sequence is recognized and the entry is completed. The recognized sequence of digits can then be used to Further processing can be used. If the answer is "no", the system asks the user for a correction, which is indicated by the abbreviation AU_FR in a block 12 is shown. The user can then create a completely new one Enter a sequence of digits or a partial digit sequence. The subsequent one Speech recognition process and analysis of the newly entered sequence of digits indicated by the abbreviation ERK_ZK in a block 13. To the speech recognition and analysis in block 13 is the one already described above further analysis and accent marking (block 8) carried out.

Die durch Block 13 angedeutete Analyse wird mit Hilfe der Ablaufdiagramme in den Fig. 3 und 4 näher erläutert. Der Analysebeginn in Fig. 3 ist durch ST gekennzeichnet. Zuerst wird geprüft, ob die Länge L(Z1) der alten Ziffernfolge Z1 kleiner als die Länge L(Z2) der neuen Ziffernfolge Z2 ist (Block 14: L(Z1) < L(Z2)). Ist dies nicht der Fall, wird die alte Ziffernfolge Z1 durch die neue Ziffernfolge Z2 ersetzt, was in einem Block 15 durch Z1 → Z2 angegeben wird. Hiermit endet dann die Analyse (EN). Ist die Ziffernfolge Z1 jedoch größer oder gleich der neuen Ziffernfolge Z2 werden, wie in einem Block 16 aufgeführt, die Variablen m, mT und mS gleich Null gesetzt (m = 0, mT = 0, mS = 0).The analysis indicated by block 13 is shown in FIG 3 and 4 explained in more detail. The start of the analysis in FIG. 3 is identified by ST. First it is checked whether the length L (Z1) of the old sequence of digits Z1 is smaller than the length L (Z2) of the new digit sequence Z2 (block 14: L (Z1) <L (Z2)). is if this is not the case, the old sequence Z1 is replaced by the new sequence Z2 replaced what is indicated in a block 15 by Z1 → Z2. This then ends the analysis. However, if the digit sequence Z1 is greater than or equal to the new one Numeric sequence Z2, as listed in a block 16, the variables m, mT and mS set to zero (m = 0, mT = 0, mS = 0).

Es folgt die Beschreibung des Teils des Ablaufdiagramms, welcher herausfindet, welcher Teil der alten Ziffernfolge Z1 der neuen Ziffernfolge Z2 am ähnlichsten ist. The following is the description of the part of the flow chart which finds out which part of the old number sequence Z1 is most similar to the new number sequence Z2.

Hierbei wird am Anfang einer ersten Schleife zuerst geprüft (Block 17), ob die Ziffernfolge Z2 mit jedem Teil der Ziffernfolge von Z1 verglichen worden ist. Es wird in Block 17 also geprüft, ob der Wert der Variablen m kleiner oder gleich der Differenz der Länge der Zifferfolgen von Z1 und Z2 ist: m ≤ L(Z1) - L(Z2). Wenn beispielsweise die Ziffernfolge Z1 die Ziffern "3 8 7 4 2 1 6" und die Ziffernfolge Z2 die Ziffern "7 5 2" aufweist, ist die Länge der Ziffernfolge Z1 gleich 7 und die Länge der Ziffernfolge Z2 gleich 3. Somit muß die erste Schleife insgesamt fünfmal durchlaufen werden, da insgesamt fünf Teile der Ziffernfolge Z1 ("3 8 7", "8 7 4", "7 4 2", "4 2 1" und "2 1 6") mit der Ziffernfolge Z2 verglichen werden. Ergibt der Vergleich in Block 17, daß der Wert der Variablen m größer als die Differenz der Länge der Ziffernfolgen von Z1 und Z2 ist, ist die erste Schleife beendet und es wird zu einer zweiten Schleife übergegangen, deren Ablaufdiagramm in Fig. 4 gezeigt ist. Den Übergang zur zweiten Schleife gibt die Marke "A" (Block 18) an.At the beginning of a first loop, it is first checked (block 17) whether the Sequence of digits Z2 has been compared with each part of the sequence of digits of Z1. It it is checked in block 17 whether the value of the variable m is less than or equal to that The difference in the length of the digit sequences of Z1 and Z2 is: m ≤ L (Z1) - L (Z2). For example, if the digit sequence Z1 the digits "3 8 7 4 2 1 6" and the Sequence of digits Z2 has the digits "7 5 2", the length of the digit sequence is Z1 equal to 7 and the length of the digit sequence Z2 equal to 3. So the first loop be run through a total of five times, since a total of five parts of the digit sequence Z1 ("3 8 7", "8 7 4", "7 4 2", "4 2 1" and "2 1 6") with the digit sequence Z2 be compared. If the comparison in block 17 shows that the value of the variable m is greater than the difference in the length of the digit sequences of Z1 and Z2, the first is Loop ends and a transition is made to a second loop Flow chart is shown in Fig. 4. The transition to the second loop gives the Mark "A" (block 18).

Ist der Vergleich m ≤ L(Z1) - L(Z2)) wahr, werden, wie in einem Block 19 gezeigt, zwei weitere Variablen n und t auf Null gesetzt. Die Variable n gibt jeweils die Position einer Ziffer in der Ziffernfolge Z2 und die Variable t die Anzahl der Übereinstimmungen von Ziffern zwischen dem zu vergleichenden Teil der Ziffernfolge Z1 und der Ziffernfolge Z2 an. Der nachfolgende Abfrageblock 20 ist ebenso wie die Blöcke 21, 22 und 23 Teil einer Unterschleife. Im Block 20 wird überprüft, ob der Wert der Variablen n kleiner als die Länge der Ziffernfolge Z2 ist. Ist dies der Fall wird im Abfrageblock 21 gefragt, ob die Ziffer an der Position m+n der Ziffernfolge Z1 gleich der Ziffer an der Position n der Ziffernfolge Z2 ist (Z1(m+n) = Z2(n)). Wird diese Abfrage bejaht, wird die Variable t inkrementiert (Block 22). Im negativen Fall wird ebenso wie nach der Bearbeitung von Block 22 zum Block 23 gesprungen. Der Block 23 gibt das Inkrementieren der Variablen n an. Anschließend wird die weitere Bearbeitung im Block 20 fortgesetzt. If the comparison m L L (Z1) - L (Z2)) is true, as in a block 19 shown, two further variables n and t set to zero. The variable n gives in each case the position of a digit in the digit sequence Z2 and the variable t the number of Matching digits between the part of the part to be compared Sequence of digits Z1 and the sequence of digits Z2. The subsequent query block 20 is as well as blocks 21, 22 and 23 part of a sub-loop. In block 20 checks whether the value of the variable n is less than the length of the digit sequence Z2 is. If this is the case, query block 21 asks whether the digit is at the position m + n of the digit sequence Z1 is equal to the digit at position n of the digit sequence Z2 (Z1 (m + n) = Z2 (n)). If this query is answered in the affirmative, the variable t is incremented (Block 22). In the negative case, just as after the processing of block 22 jumped to block 23. Block 23 gives the incrementing of variable n on. The further processing is then continued in block 20.

Tritt der Fall ein, daß der Wert der Variablen n größer oder gleich der Länge der Ziffernfolge Z2 ist (Block 20), wird die weitere Bearbeitung bei einem Abfrageblock 24 fortgeführt. Hier wird geprüft, ob der Wert der Variablen t größer als der Wert der Variablen mT ist. Ist dies der Fall wird die Variable mT gleich t und die Variable mS gleich m gesetzt (Block 25). Die Variable mS gibt den Teil der Ziffernfolge Z1 an, welcher die meisten Ziffernübereinstimmungen mit der Ziffernfolge Z2 aufweist. Die Variable mT enthält hierfür die Anzahl der Übereinstimmungen. Im nächsten Schritt nach einem negativen Abfrageergebnis des Blockes 24 oder nach der Setzung der Variablen mT und mS in Block 25 wird die Variable m inkrementiert, wie in einem Block 26 gezeigt. Hiermit ist die erste Schleife beendet, in der ein Teil der Ziffernfolge Z1 ermittelt wird, der mit der Ziffernfolge Z2 am besten übereinstimmt. Bei dem oben genannten Beispiel ist der Teil mit den Ziffern "7 4 2" in der Ziffernfolge Z1 mit den Ziffern "3 8 7 4 2 16" der Ziffernfolge Z2 mit den Ziffern "7 5 2" am ähnlichsten.Occurs when the value of the variable n is greater than or equal to the length of the Numeric sequence is Z2 (block 20), the further processing in a query block 24 continued. Here it is checked whether the value of the variable t is greater than that Value of the variable mT is. If this is the case, the variable mT becomes t and the Variable mS set equal to m (block 25). The variable mS gives the part of the Sequence of digits Z1, which matches most of the digits with the sequence of digits Z2 has. The variable mT contains the number of matches for this. In the next step after a negative query result of block 24 or after setting the variables mT and mS in block 25, the variable m is incremented, as shown in block 26. This completes the first loop, in a part of the digit sequence Z1 is determined, which with the digit sequence Z2 on best matches. In the example above, the part is with the digits "7 4 2" in the digit sequence Z1 with the digits "3 8 7 4 2 16" in the digit sequence Z2 most similar with the digits "7 5 2".

Die zweite Schleife, die im Ablaufdiagramm der Fig. 4 dargestellt ist, markiert die Ziffern des Teils der Ziffernfolge Z1, die von den Ziffern der Ziffernfolge Z2 abweichen. Das Ablaufdiagramm gemäß Fig. 4 beginnt mit der Marke "A" in dem Block 27. Vor Beginn der zweiten Schleife wird die Variable n auf den Wert Null gesetzt, was ein Block 28 zeigt. Diese Variable n kennzeichnet die Position einer Ziffer in der Zeichenfolge Z2. Die zweite Schleife besteht aus den Abfrageblöcken 29 und 30 und weiteren Blöcken 31 und 32. Im Abfrageblock 29 wird geprüft, ob der Wert der Variablen n kleiner als die Länge der Ziffernfolge Z2 ist (n < L(Z2)). Ist dies nicht der Fall wird die Analyse beendet. Im anderen Fall wird geprüft, ob eine Ziffer des Teils der Ziffernfolge Z1 gleich der zugeordneten Ziffer der Ziffernfolge Z2 ist (Block 30). Der mathematische Ausdruck hierzu lautet: Z1(m+n) = Z2(n). Wenn die Ziffer an der Position m+n der Ziffernfolge Z1 mit der Ziffer an der Position n der Ziffernfolge Z2 übereinstimmt, wird als nächstes zum Block 32 gegangen. Im anderen Fall, bei Nichtübereinstimmung der Ziffern wird die Ziffer an der Position n+m der Ziffernfolge Z1 durch die Ziffer an der Position n der Ziffernfolge Z2 ersetzt. Dieser Fall wird in dem Block 31 durch den Ausdruck Z1(m+n) → Z2(n) gekennzeichnet. Zusätzlich wird die ersetzte Ziffer mit einem "a" gekennzeichnet. Diese Kennzeichnung wird im Block 31 durch den Ausdruck a Z1(m+n) angegeben. Im nächsten Schritt wird dann ein Inkrementieren der Variablen n durchgeführt, wie in Block 32 gezeigt. Die weitere Bearbeitung erfolgt dann wieder bei Abfrageblock 29.The second loop, which is shown in the flow diagram of FIG. 4, marks the Digits of the part of the digit sequence Z1 that differ from the digits of the digit sequence Z2. 4 begins with the mark "A" in the Block 27. Before the start of the second loop, the variable n is set to zero set, which shows a block 28. This variable n denotes the position of a Number in the string Z2. The second loop consists of the query blocks 29 and 30 and further blocks 31 and 32. In the query block 29 it is checked whether the value of the variable n is less than the length of the digit sequence Z2 (n <L (Z2)). If this is not the case, the analysis is ended. Otherwise it is checked whether a digit of the part of the digit sequence Z1 equal to the assigned digit of the Sequence of digits is Z2 (block 30). The mathematical expression for this is: Z1 (m + n) = Z2 (n). If the digit at position m + n of the digit sequence Z1 with the number at position n of the sequence of digits Z2 will be next went to block 32. Otherwise, if the digits do not match the number at the position n + m of the number sequence Z1 is replaced by the number at the Position n of the digit sequence Z2 replaced. This case is in block 31 by the Expression Z1 (m + n) → Z2 (n) marked. In addition, the replaced digit is marked with marked with an "a". This identification is in block 31 by the Expression a Z1 (m + n) specified. The next step is incrementing of the variable n, as shown in block 32. The further processing then takes place again at query block 29.

Nachdem in Block 13 (Fig. 2) die Analyse durchgeführt worden ist, wird die neue Ziffernfolge Z1 an den Block 8 geliefert. Beispielsweise ist die neue Ziffernfolge Z1 mit den Ziffern "3 8 7 5 2 16" aus der alten Ziffernfolge Z1 mit den Ziffern "3 8 7 4 2 16" und der Ziffernfolge Z2 mit den Ziffern "7 5 2" gebildet worden. Hierbei ist die Ziffer "4" durch die Ziffer "5" ersetzt worden. Zusätzlich erhält der Block 8 von dem Block 13 die Markierung der ersetzten Ziffer oder Ziffern mit dem Buchstaben "a". In dem Block 8 wird dann, wie oben beschrieben, die Markierung der Ziffern mit den Buchstaben "b" und "e" durchgeführt. Für die markierte Ziffernfolge wird im Block 9 eine entsprechende Sprachausgabe erzeugt. Eine Ziffer, die mit "b" markiert ist, wird mit steigendem Akzent und eine Ziffer, die mit "e" markiert ist, wird mit fallendem Akzent ausgegeben. Eine Ziffer die mit dem Buchstaben "a" markiert ist, wird zusätzlich noch mit einer Betonung unterlegt, um dem Benutzer die vorgenommene Änderung anzugeben. Die Markierung der neuen Ziffernfolge Z1 lautet für das Beispiel folgendermaßen: "3b 8e 7b a5e 2b 1e 6e".After the analysis has been performed in block 13 (FIG. 2), the new one Numeric sequence Z1 delivered to block 8. For example, the new sequence of digits is Z1 with the digits "3 8 7 5 2 16" from the old sequence of digits Z1 with the digits "3 8 7 4 2 16 "and the sequence of digits Z2 with the digits" 7 5 2 " the number "4" has been replaced by the number "5". Block 8 also receives from block 13 the marking of the replaced digit or digits with the Letter "a". The block is then, as described above, in block 8 of the digits with the letters "b" and "e". For the marked A corresponding voice output is generated in block 9. A Digit that is marked with "b" will appear with increasing accent and a digit that marked with "e" is output with a falling accent. A number with the letter "a" is highlighted with an emphasis, to notify the user of the change made. The marking of the new number sequence Z1 for the example is as follows: "3b 8e 7b a5e 2b 1e 6e ".

Die in der Fig. 2 im Ablaufdiagramm dargestellte Schleife aus den Blöcken 8 bis 13 wird solange durchlaufen, bis der Benutzer das Ergebnis akzeptiert.The loop shown in FIG. 2 in the flow chart from blocks 8 to 13 is run through until the user accepts the result.

Es sei noch erwähnt, daß die Steueranordnung 33 auch als Computersystem ausgebildet sein kann, welches die Funktionen der Spracherkennungsanordnung 4 und der Auswerteschaltung 5 ausführt.It should also be mentioned that the control arrangement 33 is also designed as a computer system can be, which the functions of the speech recognition arrangement 4 and the Evaluation circuit 5 executes.

Claims (6)

  1. A speech recognition system for digits, comprising a control device (33) for recognizing at least one spoken digit sequence and for producing the recognized digits of at least one digit sequence, characterized in that, when there is at least one erroneously recognized digit of a spoken first digit sequence, the control device (33) is provided for comparing a spoken second digit sequence with the first digit sequence, in that the control device (33) is provided for determining correlating digits of a part of the first digit sequence which sequence has the most matches with the digits of the second digit sequence when the number of digits of the second digit sequence is smaller than the number of digits of the first digit sequence, and in that the control device (33) is provided for substituting the non-matching digits of the second digit sequence for the digits of the determined part of the first digit sequence.
  2. A system as claimed in claim 1, characterized in that the control device (33) is used for
    determining the number of digits of the first and second digit sequence,
    determining the match of the digits of all the correlating parts of the first digit sequence with the second digit sequence,
    selecting a part of the first digit sequence having the most matches if more parts of the first digit sequence have the same number of matching digits.
  3. A system as claimed in claim 1, characterized in that the control device (33) is used for marking at least a substituted digit in the first digit sequence by a digit of the second digit sequence and for producing a marked digit with a sound.
  4. A system as claimed in claim 1, characterized in that when a corrected first digit sequence is produced and after the evaluation of a first and a second digit sequence, the control device (33) is used for forming a question to the user whether the digit sequence has been recognized correctly.
  5. A system as claimed in claim 1, characterized in that the control device (33) is used for producing the digits on an odd position of the digit sequence with rising stress and digits on an even and on the last position of the digit sequence with falling stress.
  6. A speech recognition method of digits in which at least one spoken digit sequence is recognized and the recognized digits of at least one digit sequence are produced, characterized in that in the event of at least one erroneously recognized digit of a spoken first digit sequence, a spoken second digit sequence is compared with the first digit sequence, in that correlating digits of a part of the first digit sequence which sequence has the most matches with the digits of the second digit sequence are determined when the number of digits of the second digit sequence is smaller than the number of the first digit sequence, and in that the digits of the determined part of the first digit sequence are replaced by the non-matching digits of the second digit sequence.
EP98200694A 1997-03-11 1998-03-04 System for speech recognition of digits Expired - Lifetime EP0865031B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19709990 1997-03-11
DE19709990A DE19709990C2 (en) 1997-03-11 1997-03-11 System for recognizing spoken sequences of digits

Publications (3)

Publication Number Publication Date
EP0865031A2 EP0865031A2 (en) 1998-09-16
EP0865031A3 EP0865031A3 (en) 1999-03-17
EP0865031B1 true EP0865031B1 (en) 2003-06-18

Family

ID=7822969

Family Applications (1)

Application Number Title Priority Date Filing Date
EP98200694A Expired - Lifetime EP0865031B1 (en) 1997-03-11 1998-03-04 System for speech recognition of digits

Country Status (4)

Country Link
US (1) US6078887A (en)
EP (1) EP0865031B1 (en)
JP (1) JP4216361B2 (en)
DE (2) DE19709990C2 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19938649A1 (en) * 1999-08-05 2001-02-15 Deutsche Telekom Ag Method and device for recognizing speech triggers speech-controlled procedures by recognizing specific keywords in detected speech signals from the results of a prosodic examination or intonation analysis of the keywords.
JP2001236091A (en) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> Method and device for error correcting voice recognition result
JP4604377B2 (en) * 2001-03-27 2011-01-05 株式会社デンソー Voice recognition device
DE10216117A1 (en) * 2002-04-12 2003-10-23 Philips Intellectual Property Symbol sequence voice recognition involves determining sub-symbol sequence to be corrected by comparing second sequence with sub-sequences longer or shorter than second sequence by number of symbols
EP1376999A1 (en) * 2002-06-21 2004-01-02 BRITISH TELECOMMUNICATIONS public limited company Spoken alpha-numeric sequence entry system with repair mode
JP4542974B2 (en) * 2005-09-27 2010-09-15 株式会社東芝 Speech recognition apparatus, speech recognition method, and speech recognition program
WO2007047487A1 (en) * 2005-10-14 2007-04-26 Nuance Communications, Inc. One-step repair of misrecognized recognition strings
JP4672686B2 (en) * 2007-02-16 2011-04-20 株式会社デンソー Voice recognition device and navigation device
DE102015213720B4 (en) * 2015-07-21 2020-01-23 Volkswagen Aktiengesellschaft Method for detecting an input by a speech recognition system and speech recognition system
US11367432B2 (en) * 2019-05-03 2022-06-21 Google Llc End-to-end automated speech recognition on numeric sequences

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3519972A1 (en) * 1985-06-04 1986-12-04 Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt Radiopaging arrangement with additional transmission of numerical information
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
DE69232407T2 (en) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Speech dialogue system to facilitate computer-human interaction
DE4225475A1 (en) * 1992-08-01 1994-02-03 Philips Patentverwaltung Speech recognition device
WO1995006309A1 (en) * 1993-08-27 1995-03-02 Voice Powered Technology International, Inc. Voice operated remote control system
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input

Also Published As

Publication number Publication date
JPH10254489A (en) 1998-09-25
DE59808726D1 (en) 2003-07-24
US6078887A (en) 2000-06-20
EP0865031A3 (en) 1999-03-17
DE19709990A1 (en) 1998-09-24
JP4216361B2 (en) 2009-01-28
EP0865031A2 (en) 1998-09-16
DE19709990C2 (en) 2000-03-02

Similar Documents

Publication Publication Date Title
DE69818930T2 (en) Method for aligning text to audio signals
DE3878541T2 (en) METHOD AND DEVICE FOR GENERATING A MARKOV MODEL REFERENCE PATTERN FROM WOERTERN.
AT390685B (en) TEXT PROCESSING SYSTEM
EP0614172A2 (en) Method and device for determining words in a speech signal
DE3645118C2 (en)
EP0865031B1 (en) System for speech recognition of digits
DE3416238C2 (en) Extreme narrow band transmission system and method for transmission of messages
EP0702353B1 (en) System and method for outputting synthetic speech in response to input speech signals
DE3216800A1 (en) ARRANGEMENT FOR ENTERING COMMAND WORDS BY LANGUAGE
EP0994461A2 (en) Method for automatically recognising a spelled speech utterance
DE3723078A1 (en) METHOD FOR DETECTING CONTINUOUSLY SPOKEN WORDS
DE69819690T2 (en) LANGUAGE RECOGNITION USING A COMMAND LIKE
DE2326517A1 (en) METHOD AND CIRCUIT ARRANGEMENT FOR DETECTING SPOKEN WORDS
DE19922974A1 (en) Method and device for processing a document
DE3733659C2 (en)
EP0836175A2 (en) Process and apparatus for the deduct from at least a sequence of words of a speech signal
DE3152514C2 (en)
DE69636731T2 (en) System and method for recording names in a voice recognition database
DE4002336A1 (en) REFERENCE MODEL RENEWAL PROCESS
DE3853702T2 (en) Voice recognition.
DE10216117A1 (en) Symbol sequence voice recognition involves determining sub-symbol sequence to be corrected by comparing second sequence with sub-sequences longer or shorter than second sequence by number of symbols
DE3750199T2 (en) Continuous speech recognition system.
DE10022586A1 (en) Generating speech database for target vocabulary involves concatenating training text segments with target vocabulary words according to phonetic description
EP0677835B1 (en) Process to ascertain a series of words
DE3215868C2 (en)

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): DE FR GB

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

17P Request for examination filed

Effective date: 19990917

AKX Designation fees paid

Free format text: DE FR GB

RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH

RIC1 Information provided on ipc code assigned before grant

Free format text: 7G 10L 15/22 A

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH

AK Designated contracting states

Designated state(s): DE FR GB

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REF Corresponds to:

Ref document number: 59808726

Country of ref document: DE

Date of ref document: 20030724

Kind code of ref document: P

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)
REG Reference to a national code

Ref country code: GB

Ref legal event code: 746

Effective date: 20030704

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

REG Reference to a national code

Ref country code: FR

Ref legal event code: D6

26N No opposition filed

Effective date: 20040319

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 59808726

Country of ref document: DE

Owner name: PHILIPS GMBH, DE

Free format text: FORMER OWNER: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20099 HAMBURG, DE

Effective date: 20140327

Ref country code: DE

Ref legal event code: R081

Ref document number: 59808726

Country of ref document: DE

Owner name: PHILIPS DEUTSCHLAND GMBH, DE

Free format text: FORMER OWNER: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20099 HAMBURG, DE

Effective date: 20140327

REG Reference to a national code

Ref country code: FR

Ref legal event code: CD

Owner name: PHILIPS INTELLECTUAL PROPERTY & S

Effective date: 20141126

Ref country code: FR

Ref legal event code: CA

Effective date: 20141126

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 59808726

Country of ref document: DE

Representative=s name: MEISSNER BOLTE PATENTANWAELTE RECHTSANWAELTE P, DE

Ref country code: DE

Ref legal event code: R082

Ref document number: 59808726

Country of ref document: DE

Representative=s name: MEISSNER, BOLTE & PARTNER GBR, DE

Ref country code: DE

Ref legal event code: R081

Ref document number: 59808726

Country of ref document: DE

Owner name: PHILIPS GMBH, DE

Free format text: FORMER OWNER: PHILIPS DEUTSCHLAND GMBH, 20099 HAMBURG, DE

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 19

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20170327

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20170330

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20170531

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R071

Ref document number: 59808726

Country of ref document: DE

REG Reference to a national code

Ref country code: GB

Ref legal event code: PE20

Expiry date: 20180303

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20180303