EP1190413A2 - Verfahren und vorrichtung zur spracherkennung - Google Patents
Verfahren und vorrichtung zur spracherkennungInfo
- Publication number
- EP1190413A2 EP1190413A2 EP00929282A EP00929282A EP1190413A2 EP 1190413 A2 EP1190413 A2 EP 1190413A2 EP 00929282 A EP00929282 A EP 00929282A EP 00929282 A EP00929282 A EP 00929282A EP 1190413 A2 EP1190413 A2 EP 1190413A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- keyword
- speech recognition
- recognition system
- sequence
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 230000004044 response Effects 0.000 claims abstract 3
- 230000015654 memory Effects 0.000 claims description 24
- 239000000872 buffer Substances 0.000 claims description 14
- 230000003139 buffering effect Effects 0.000 claims description 8
- 230000003111 delayed effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims 1
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Definitions
- Voice control systems has been one of the main lines of development in computer technology for years. In the course of this development, considerable progress has been made and marketable voice recognition systems have been established that also prove themselves in practical use. Advanced systems of this type are also generally suitable for voice control of a computer or connected peripheral devices. Simple speech recognition systems, which, however, can only process a relatively small vocabulary, are also already being used in the areas of consumer electronics and automotive equipment, as well as in other areas in which acoustic control of devices is possible and sensible due to a limited vocabulary.
- Keyword sequences mostly have a relatively strictly defined information structure, which, when processed appropriately, enables particularly simple and reliable recognition, and they are also often associated with voice control tasks, such as entering a number code, a telephone number, a time or one date.
- voice control tasks such as entering a number code, a telephone number, a time or one date.
- the processing of such sequences takes place according to the state of the art (and to a certain extent quite successfully) in Framework of conventional speech recognition systems, for example on the basis of the known hidden Markov modeling, whereby a step-by-step output of the recognition result is also possible - for example by means of the partial traceback method.
- the invention is based on the object of specifying a method of the generic type and an apparatus for carrying out the method, which enable a more reliable, simpler and faster recognition of keyword sequences.
- the invention includes the essential idea of solving the problem of recognizing a coherent keyword sequence better and more reliably by dividing the recognition process into two or more sub-steps, in each of which a specific speech recognition system is used. This idea is based on the realization that speech recognition systems with a relatively small vocabulary can work significantly faster and more safely than
- Speech recognition systems with a large vocabulary It also proceeds from the idea that certain key word sequences that occur frequently and that are meaningful in everyday language use also have a relatively clearly defined information structure, so that conditional activation of several existing speech recognition systems, each with a specific vocabulary, in successive sub-steps depending on the acquisition result of the respective one preceding sub-step is advantageously applicable. Furthermore, the invention is based on the knowledge that, especially under adverse acoustic conditions (with loud ambient noise or relatively strong distortions), speech recognition systems small vocabulary provide much better accuracy than those with large vocabulary. The conditional use of several systems with a small vocabulary therefore increases the detection rate for keyword sequences as such and, on the other hand, reduces the rate of incorrect detections.
- the interlinked speech recognition systems are successively activated and, after solving their specific recording task and storing a recorded keyword or part of a keyword sequence, are deactivated again, whereupon another system is activated to solve its assigned recording task, a detected further keyword or another Part of a keyword sequence is stored, etc. etc.
- keyword sequences are put together in an orderly manner and output or transmitted to a corresponding control unit for the realization of a control task.
- a time window is predetermined in the speech stream, within which a second (or further one) ) The result of the registration must be available.
- this time window can be an absolute one
- Time span or a time span related to actually incoming speech signals After the window has passed in the absence of a detection result, the system first used is reactivated.
- Speech recognition systems enables a buffering of the speech data is provided.
- a process that follows the FIFO (first-in, first-out) principle continuously stores a last section of the speech stream with a predetermined length as a buffer section.
- the length of the buffer section depends on the detection speed of the first speech recognition system, which must be so long that the time period between the utterance of the keyword and its detection is buffered (with an additional security amount).
- the speech stream is processed with a delay by this buffer section in the second acquisition step, which is triggered by the presence of the result of the first acquisition step.
- a particularly important application of the invention is represented by key word sequences in which the first keyword or the first part is such that it is followed regularly by a section or part of the speech stream containing a number or numbers.
- a system specially adapted to the recognition of numbers or combinations of numbers is used as the second speech recognition system.
- the terms "number”, “telephone number”, “date”, “time” or the like can be used as the first keywords of a keyword sequence. occur, and these terms will be followed by strings of digits or certain combinations of digits / words, for the recognition of which a system with a correspondingly limited vocabulary can be activated.
- Keyword sequences Another important field of application for the voice control of computers or computer peripherals is keyword sequences, in which the first key word is one Class of devices (eg "device"), while in other parts of the sequence special devices or devices are named that are to be activated in any way.
- device Class of devices
- special devices or devices are named that are to be activated in any way.
- Voice control of other technical devices in the professional or private sector for example devices in the car or in the household (such as navigation systems, audio or video systems, household devices, telecommunications terminal devices, toys etc.) of great economic interest.
- devices in the car or in the household such as navigation systems, audio or video systems, household devices, telecommunications terminal devices, toys etc.
- FIG. 1 shows a schematic illustration of a simple embodiment of the invention in the form of a functional block diagram
- Fig. 2 is a graphical representation to illustrate the
- Fig. 3 is a schematic representation of a further embodiment in the form of a functional block diagram.
- the speech stream S is at a branch point 101 divided into two (information-equal) speech streams Sl and S2.
- the partial speech stream S1 arrives directly at the input of a first speech recognition unit 102, specifically at a first input of a first detection stage 102a, to the second input of which a first vocabulary memory 102b is connected.
- the first detection stage 102a has a control output connected to a speech recognition sequence control 103 and a data output connected to a first keyword memory 104.
- the second partial speech stream S2 arrives at the input of a ring speech buffer 105, in which the last section of the speech stream is temporarily stored and at whose output a partial speech stream S2 'delayed by the buffer speech stream section is thus output. This comes to
- a second speech recognition unit 106 which - analogous to the first speech recognition unit 102 - consists of a second acquisition stage 106a and a second vocabulary memory 106b.
- the data output of the second detection stage 106a is connected to a second keyword memory 107.
- the outputs of both keyword memories 104, 107 are connected to inputs of a sequence memory 108, the output of which also represents the output of the device 100.
- the speech recognition sequence control has two control outputs which are connected to control inputs of the first and second speech recognition units 102 and 106, respectively.
- the speech stream S (in the form of the partial speech stream S1 carrying the entire information content) is checked in the first speech recognition unit 102, which is activated by the speech recognition sequence controller 103 at the start of the recognition process, to determine whether a word stored in the first vocabulary memory 102b occurs. If such a word occurs, this is registered in the first detection unit 102a and the word in question is transferred to the first keyword memory 104 and at the same time a control signal is output to the speech recognition sequence controller 103. This thereupon deactivates the first speech recognition unit 102 and activates the second - until then inactive - speech recognition unit 106.
- the delayed partial speech stream S2 1 arrives at its input, and (like the partial speech stream S1 in the first detection unit 102) this is detected in the second detection unit 106 when a second keyword occurs of a set of words stored in the second vocabulary memory 106b.
- a second keyword is detected by the second detection stage 106a, it is output to the second keyword memory 107.
- a control signal is output to the speech recognition sequence controller 103, which then deactivates the second speech recognition unit 106 again and activates the first speech recognition unit 102 instead.
- the speech recognition sequence controller 103 controls an output of the words stored in the first and second keyword memories 104, 107 to the sequence memory 106, where they are stored in an orderly manner and are provided for output from the device 100.
- this completes the acquisition of a keyword sequence using two different speech recognition units with differentiated, respectively reduced vocabulary.
- ⁇ device> an element from a finite set of devices, e.g. "Computer”
- System time recognizer 5. System: detection of the individual device names from a predetermined supply.
- System 1 must also provide information about the (time) end point of the recognized keyword sequence.
- the recognition continues at this point, so buffering is necessary.
- the detection systems have to keep pace at least.
- FIG. 2 The function of buffering the last section of the speech stream for seamless processing by the second speech recognition unit (“System 2”) is outlined in FIG. 2.
- System 1 the time of detection of a first keyword sequence "input telephone number" by the first speech recognition unit ("System 1")
- t E the time end point of this first keyword sequence
- P h the time end point of this first keyword sequence
- P h the corresponding scanning position of the system 2 at the same time t 0 (at which it is currently being activated).
- the buffering thus clearly ensures that the time which elapses through the processing time of the system 1 until the detection of the first keyword sequence, which of course corresponds to a section of the voice stream, does not lead to a loss of voice stream data. Without the buffering, the first two digits "4" and "6" would in principle be lost for the system 2 in the example shown here and would therefore no longer be accessible to a detection.
- FIG. 3 shows a speech processing device 200 which is modified compared to the device from FIG. 1 and which is distinguished by a double cascading of speech recognition systems and a selection option for different systems in the second stage.
- the first and second stages with the components 201 to 208 are essentially the same as in the device according to FIG. 1 and are designated with corresponding reference numerals, and these components are not explained again here.
- the sequence memory 208 is designed here, as symbolized by the division with two dashed vertical lines, to accommodate a three-part keyword sequence.
- the partial signal stream S2 'from (here: first) speech buffer 205 is branched at a branch point 209 on the one hand to the second detection stage 206a and on the other hand to a second speech buffer 210.
- the third speech recognition unit 211 also contains a specific vocabulary memory 211b which is connected to a further input of the third detection stage 211a. Also analogous to the execution of the first and second Here too, the (third) detection stage is followed by a (third) keyword memory 212, which in turn is connected on the output side to the sequence memory 208.
- the assemblies 210 to 212 implement, as can be easily derived from the above explanations for FIG. 1, a third step of recognizing a keyword sequence which also corresponds to a third hierarchical level of the method.
- a selector stage 203S is connected to the output of the first detection stage (in addition to the first keyword memory 204), which is organized in the form of a lookup table and in each case assigns and records one of several available second speech recognition units to individually acquired first keywords outputs the corresponding selection signal to the speech recognition sequence control 203.
- the dash-dotted arrows projecting upward from this indicate that, in addition to the second speech recognition unit 206 shown in the figure, other speech recognition units of the second level can optionally be controlled. Of course, these, too - like the second speech recognition unit 206 shown in the figure is assigned the third speech recognition unit 211 - can again be assigned speech recognition units of the third level.
- a similar selector stage can also be provided between the second and third levels, so that a selected one of several third-party speech recognition units available is activated at this level as a function of the recognized second keyword or second part of a keyword sequence could be.
- cascading is also possible with a single buffer, the delay time of which is then variable and which tends to have to be reduced in order to implement step-keeping processing.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Abstract
Verfahren zur Spracherkennung, bei dem ein Abschnitt eines kontinuierlichen Sprachstromes von gesprochenen Wörtern durch Vergleich mit gespeicherten Mustern detektiert wird, wobei im Ansprechen auf die Erfassung eines ersten Schlüsselworts dieses gespeichert, ein erstes Spracherkennungssystem deaktiviert und ein zweites Spracherkennungssystem aktiviert und in einem zweiten Erfassungsschritt mittels des zweiten Spracherkennungssystems der Sprachstrom auf das Auftreten eines vorbestimmten zweiten Schlüsselworts oder einer zweiten Schlüsselwortsequenz geprüft wird.
Description
Beschreibung
Verfahren und Vorrichtung zur Spracherkennung
Die Entwicklung alltagstauglicher Spracherkennungs- und
Sprachsteuersysteme stellt seit Jahren eine der Hauptentwicklungslinien der Computertechnik dar. Im Zuge dieser Entwicklung wurden erhebliche Fortschritte erreicht und marktfähige Spracherkennungssysteme etabliert, die sich im praktischen Einsatz auch bewähren. Fortgeschrittene Systeme dieser Art sind auch grundsätzlich zur Sprachsteuerung eines Computers bzw. von angeschlossenen Peripheriegeräten geeignet. Einfache Spracherkennungssysteme, die allerdings nur ein relativ geringes Vokabular verarbeiten können, werden auch bereits in den Bereichen Konsumelektronik und KFZ-Ausrüstung sowie weiteren Bereichen eingesetzt, in denen eine akustische Steuerung von Geräten aufgrund eines begrenzten Vokabulars möglich und sinnvoll ist.
Gewisse Probleme bestehen noch hinsichtlich der Verarbeitungsgeschwindigkeit, d.h. des Schritthaltens mit schneller Sprache, sowie - bei den höher entwickelten Systemen - hinsichtlich der hohen Ansprüche an die Hardware-Basis sowie auch relativ hoher Anschaffungskosten.
Besondere Aufmerksamkeit bei der Weiterentwicklung der Spracherkennungssysteme verdient das Problem der Erkennung von Schlüsselwortsequenzen in einem kontinuierlichen Strom von gesprochenen Wörtern. Derartige Schlüsselwortsequenzen haben zumeist eine relativ streng festgelegte Informationsstruktur, die bei einer geeigneten Verarbeitung eine besonders einfache und zuverlässige Erkennung ermöglicht, und zudem stehen sie vielfach in Verbindung mit Sprachsteuerungs- aufgaben, etwa der Eingabe eines Zahlencodes, einer Telefon- nummer, einer Uhrzeit oder eines Datums. Die Verarbeitung derartiger Sequenzen geschieht nach dem Stand der Technik (und bis zu einem gewissen Grade durchaus erfolgreich) im
Rahmen üblicher Spracherkennungssysteme, beispielsweise auf der Grundlage der bekannten Hidden-Markov-Modellierung, wobei auch eine schritthaltende Ausgabe des Erkennungsergebnisses möglich ist - beispielsweise durch das Verfahren der partiel- len Rückverfolgung ("Partial Traceback").
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren der gattungsgemäßen Art sowie eine Vorrichtung zur Durchführung des Verfahrens anzugeben, die eine zuverlässigere, einfachere und schnellere Erkennung von Schlüsselwortsequenzen ermöglichen.
Diese Aufgabe wird hinsichtlich ihres Verfahrensaspektes durch ein Verfahren mit den Merkmalen des Anspruchs 1 und hinsichtlich ihres Vorrichtungsaspektes durch eine Vorrichtung mit den Merkmalen des Anspruchs 9 gelöst.
Die Erfindung schließt den wesentlichen Gedanken ein, das Problem der Erkennung einer zusammenhängenden Schlüsselwort- sequenz durch Aufteilung des Erkennungsprozesses in zwei oder mehr Teilschritte, bei denen jeweils ein spezifisches Spracherkennungssystem zum Einsatz kommt, besser und sicherer zu lösen. Dieser Gedanke geht von der Erkenntnis aus, daß Spracherkennungssysteme mit einem relativ kleinen Vokabular entscheidend schneller und sicherer arbeiten können als
Spracherkennungssysteme mit einem großen Vokabular. Sie geht weiter von dem Gedanken aus, das bestimmte, im täglichen Sprachgebrauch häufig vorkommende und bedeutungsvolle Schlüsselwortsequenzen auch eine relativ klar festgelegte Informa- tionsstruktur haben, so daß eine bedingte Aktivierung mehrerer vorhandener Spracherkennungssysteme mit jeweils spezifischem Vokabular bei aufeinanderfolgenden Teilschritten in Abhängigkeit vom Erfassungsergebnis des jeweils vorangehenden Teilschrittes vorteilhaft anwendbar ist. Weiterhin beruht die Erfindung auf der Erkenntnis, daß insbesondere unter widrigen akustischen Bedingungen (bei lauten Umgebungsgeräuschen oder relativ starken Verzerrungen) Spracherkennungssysteme mit
kleinem Vokabular eine wesentlich bessere Genauigkeit als solche mit großem Vokabular liefern. Der bedingte Einsatz von mehreren Systemen mit kleinem Vokabular erhöht daher die De- tektionsrate für Schlüsselwortsequenzen als solche und senkt auf der anderen Seite die Rate von Fehldetektionen.
Erfindungsgemäß ist vorgesehen, daß die miteinander verknüpften Spracherkennungssysteme sukzessive aktiviert und nach Lösung ihrer spezifischen Erfassungsaufgabe und Speicherung eines erfaßten Schlüsselwortes bzw. eines Teils einer Schlüsselwortsequenz wieder deaktiviert werden, woraufhin ein anderes System zur Lösung seiner zugeordneten Erfassungsaufgabe aktiviert, ein erfaßtes weiteres Schlüsselwort oder ein weiterer Teil einer Schlüsselwortsequenz gespeichert wird usw. usf.. Die jeweils erfaßten Schlüsselworte bzw. Teile von
Schlüsselwortsequenzen werden nach Abschluß des Erfassungsvorganges geordnet zusammengefügt und ausgegeben bzw. zur Realisierung einer Steuerungsaufgabe an eine entsprechende Steuereinheit übertragen.
In einer bevorzugten Ausgestaltung des Verfahrens wird in Abhängigkeit von der Art des ersten erfaßten Schlüsselwortes oder Teiles einer Schlüsselwortsequenz von mehreren gewissermaßen in Bereitschaft gehaltenen Spracherkennungssystemen das aufgrund des ersten Erfassungs-Teilergebnisses als geeignet erscheinende ausgewählt und aktiviert.
Gemäß einer weiteren bevorzugten Ausgestaltung wird nach Erfassung eines ersten Schlüsselwortes bzw. Teiles einer Schlüsselwortsequenz für die Erfassung eines zweiten Schlüsselwortes bzw. Teiles der Schlüsselwortsequenz (und analog für weitere Teile einer Sequenz) ein Zeitfenster im Sprachstrom vorbestimmt, innerhalb dessen ein zweites (bzw. weiteres) Erfassungsergebnis vorliegen muß. Dieses Zeitfenster kann, je nach konkreter Systemkonfiguration, eine absolute
Zeitspanne oder eine auf tatsächlich einlaufende Sprachsignale bezogene Zeitspanne sein. Nach Verstreichen des Fensters
ohne Vorliegen eines Erfassungsergebnisses erfolgt insbesondere eine Reaktivierung des zuerst eingesetzten Systems.
In einer weiteren vorteilhaften Ausfuhrung, die eine verlust- lose Umschaltung zwischen den einzelnen eingesetzten
Spracherkennungssystemen ermöglicht, ist eine Pufferung der Sprachdaten vorgesehen. Es wird also wahrend des ersten Erfassungsschrittes in einem dem FIFO (First-In-First-Out) - Prinzip folgenden Vorgang laufend ein jeweils letzter Abschnitt des Sprachstroms mit vorbestimmter Lange als Pufferabschnitt zwischengespeichert. Die Lange des Pufferabschnitts richtet sich nach der Erfassungsgeschwindigkeit des ersten Spracherkennungssystems, den er muß so lang sein, daß der zwischen dem Aussprechen des Schlüsselwortes und dessen Erfassung liegende Zeitabschnitt (mit einem zusätzlichen Sicherheitsbetrag) gepuffert wird. Der Sprachstrom wird mit Verzögerung um diesen Pufferabschnitt im zweiten Erfassungs- schπtt, der durch das Vorliegen des Ergebnisses des ersten Erfassungsschrittes getriggert wird, verarbeitet.
Eine besonders wichtige Applikation der Erfindung stellen Schlusselwortsequenzen dar, bei denen das erste Schlüsselwort bzw. der erste Teil so geartet ist, daß darauf regelmäßig eine Ziffer oder ein Ziffern enthaltender Abschnitt des Sprachstromes folgt. In diesem Fall wird als zweites Spracherkennungssystem ein speziell an die Erkennung von Ziffern bzw. Ziffernkombinationen angepaßtes System verwendet. Beispielsweise können als erste Schlusselworte einer Schlussel- wortsequenz die Begriffe "Nummer", "Telefonnummer", "Datum", "Uhrzeit" o.a. auftreten, und auf diese Begriffe werden Ziffernketten oder bestimmte Ziffern/Wort-Kombinationen folgen, für deren Erkennung ein System mit entsprechend eingeschränktem Vokabular aktiviert werden kann.
Ein f r die Sprachsteuerung von Computern bzw. einer Computerperipherie wichtiges weiteres Anwendungsfeld sind Schlusselwortsequenzen, m denen das erste Schlüsselwort eine
Klasse von Vorrichtungen (z.B. "Gerat") bezeichnet, wahrend in weiteren Teilen der Sequenz spezielle Vorrichtungen bzw. Gerate benannt werden, die in irgendeiner Weise aktiviert werden sollen. Auch hier ist, wie leicht einzusehen ist, der miteinander verknüpfte Einsatz von einfachen Spracherken- nungssystemen mit ausgesprochen reduziertem Vokabular und damit sehr hoher Erkennungssicherheit möglich.
Neben der erwähnten wichtigen Anwendung der Sprachsteuerung eines Computers bzw. von Computerperipherie ist auch die
Sprachsteuerung anderer technischer Gerate im professionellen oder privaten Bereich, beispielsweise von Geraten im Auto oder im Haushalt (etwa Navigationssystemen, Audio- oder Video-Systemen, Haushaltsgeraten, Telekommunikations-Endgera- ten, Spielzeug etc.), von großem wirtschaftlichem Interesse.
Die Vorrichtungsaspekte der vorgeschlagenen Losung ergeben sich im wesentlichen unmittelbar aus den Verfahrensaspekten; im übrigen ergeben sich Vorteile und Zweckmäßigkeiten der Erfindung aus den Unteranspruchen sowie der nachfolgenden Beschreibung bevorzugter Ausfuhrungsbeispiele anhand der Figuren. Von diesen zeigen:
Fig. 1 eine schematische Darstellung einer einfachen Ausfuh- rungsfor der Erfindung in Form eines Funktions-Block- schaltbildes,
Fig. 2 eine grafische Darstellung zur Verdeutlichung des
Prinzips der Sprachstrompufferung gemäß einer vorteil- haften Ausgestaltung der Erfindung und
Fig. 3 eine schematische Darstellung einer weiteren Ausfuhrungsform m Form eines Funktions-Blockschaltbildes.
In Fig. 1 ist schematisch eine Spracherkennungsvorrichtung 100 zur Detektion von Schlusselwortsequenzen m einem kontinuierlichen Sprachstrom S dargestellt. Der Sprachstrom S wird
an einem Verzweigungspunkt 101 in zwei (informationsgleiche) Sprachströme Sl und S2 aufgeteilt. Der Teil-Sprachstrom Sl gelangt unmittelbar zum Eingang einer ersten Spracherken- nungseinheit 102, und zwar zu einem ersten Eingang einer ersten Erfassungsstufe 102a, mit deren zweitem Eingang ein erster Vokabularspeicher 102b verbunden ist. Die erste Erfas- sungsstufe 102a hat einen mit einer Spracherkennungs-Ablauf- steuerung 103 verbundenen Steuerausgang und einen mit einem ersten Schlüsselwortspeicher 104 verbundenen Datenausgang.
Der zweite Teil-Sprachstrom S2 gelangt zum Eingang eines Ring-Sprachpuffers 105, in dem der jeweils letzte Abschnitt des Sprachstromes zwischengespeichert wird und an dessen Ausgang somit ein um den Puffer-Sprachstromabschnitt verzögerter Teil-Sprachstrom S2 ' ausgegeben wird. Dieser gelangt zum
Eingang einer zweiten Spracherkennungseinheit 106, die - analog zur ersten Spracherkennungseinheit 102 - aus einer zweiten Erfassungsstufe 106a und einem zweiten Vokabularspeicher 106b besteht. Der Datenausgang der zweiten Erfassungsstufe 106a ist mit einem zweiten Schlüsselwortspeicher 107 verbunden. Die Ausgänge beider Schlüsselwortspeicher 104, 107 sind mit Eingängen eines Sequenzspeichers 108 verbunden, dessen Ausgang zugleich den Ausgang der Vorrichtung 100 darstellt. Die Spracherkennungs-AblaufSteuerung hat zwei Steuerausgänge, die mit Steuereingängen der ersten bzw. zweiten Spracherkennungseinheit 102 bzw. 106 verbunden sind.
Der Sprachstrom S wird (in Gestalt des den gesamten Informationsgehalt tragenden Teil-Sprachstrom Sl) in der ersten Spracherkennungseinheit 102, die durch die Spracherkennungs- AblaufSteuerung 103 zu Beginn des Erkennungsvorgangs aktiviert wird, daraufhin geprüft, ob ein im ersten Vokabularspeicher 102b gespeichertes Wort auftritt. Kommt ein solches Wort vor, wird dies in der ersten Erfassungseinheit 102a re- gistriert und das betreffende Wort in den ersten Schlüsselwortspeicher 104 übernommen und zugleich ein Steuersignal an die Spracherkennungs-AblaufSteuerung 103 ausgegeben. Diese
deaktiviert daraufhin die erste Spracherkennungseinheit 102 und aktiviert die zweite - bis dahin nicht aktive - Spracherkennungseinheit 106.
Zu deren Eingang gelangt nach Durchlaufen des Ring-Sprachpuffers 105 der verzögerte Teil-Sprachstrom S21, und dieser wird (ebenso wie der Teil-Sprachstrom Sl in der ersten Erfassungs- einheit 102) in der zweiten Erfassungseinheit 106 auf das Auftreten eines zweiten Schlüsselwortes aus einer Menge von im zweiten Vokabularspeicher 106b gespeicherten Worten geprüft. Bei Erfassung eines solchen zweiten Schlüsselwortes durch die zweite Erfassungsstufe 106a wird dieses an den zweiten Schlüsselwortspeicher 107 ausgegeben. Zugleich wird ein Steuersignal an die Spracherkennungs-AblaufSteuerung 103 ausgegeben, die daraufhin die zweite Spracherkennungseinheit 106 wieder deaktiviert und statt ihrer wieder die erste Spracherkennungseinheit 102 aktiviert.
Weiterhin steuert die Spracherkennungs-AblaufSteuerung 103 eine Ausgabe der im ersten und zweiten Schlüsselwortspeicher 104, 107 gespeicherten Worte an den Sequenzspeicher 106, wo diese geordnet abgelegt und zur Ausgabe aus der Vorrichtung 100 bereitgestellt werden. Damit ist in diesem einfachen Beispiel die Erfassung einer Schlüsselwortsequenz unter abge- stuftem Einsatz zweier unterschiedlicher Spracherkennungsein- heiten mit differierendem, jeweils reduziertem Vokabular abgeschlossen .
Die konkrete Anwendung des vorgeschlagenen Verfahrens und der oben skizzierten Vorrichtung soll an einem praktisch relevanten Anwendungsbeispiel etwas näher skizziert werden:
Es sollen folgende Wortsequenzen erkannt werden
- Eingabe Telefonnummer <Ziffernkette> - Eingabe Datum <Datum>
- Eingabe Uhrzeit <Uhrzeit>
- Abfrage Gerät <Gerät>,
wobei die in spitzen Klammern stehenden Ausdrücke folgende Bedeutung haben sollen:
<Ziffernkette>: kontinuierlich aufeinanderfolgende Ziffern <Datum>: ein Datumsausdruck, z.B. "2. November 99" <Uhrzeit>: ein Uhrzeitausdruck, z.B. "10 nach 9"
<Gerät>: ein Element aus einer endlichen Menge von Geräten, z.B. "Computer"
Es werden folgende Spracherkennungssysteme erstellt: 1. System: Detektion der Sequenzen: "Eingabe Telefonnummer", "Eingabe Datum", "Eingabe Uhrzeit", "Abfrage Gerät"
2. System: Ziffernkettenerkenner
3. System: Datumserkenner
4. System: Uhrzeiterkenner 5. System: Detektion der einzelnen Gerätenamen aus einem vorbestimmten Vorrat.
Abhängig vom Ergebnis des Systems 1 wird eines der Systeme 2 bis 5 aktiviert. Das System 1 muß zusätzlich noch die Infor- mation über den (zeitlichen) Endpunkt der erkannten Ξchlüs- selwortsequenz liefern. Bei der Aktivierung eines der Systeme 2 bis 5 wird dann die Erkennung an diesem Punkt fortgesetzt, deshalb ist eine Pufferung notwendig. Weiterhin müssen die Erkennungssysteme mindestens schritthaltend arbeiten.
In Fig. 2 ist die Funktion der Pufferung des letzten Abschnitts des Sprachstromes zur lückenlosen Verarbeitung durch die zweite Spracherkennungseinheit ("System 2") skizziert. Mit to ist der Zeitpunkt der Detektion einer ersten Schlüsselwortsequenz "Eingabe Telefonnummer" durch die erste Spracherkennungseinheit ("System 1") bezeichnet, mit tE der zeitliche Endpunkt dieser ersten Schlüsselwortsequenz, mit Ph,ι eine Position im Puffer-System, zu der das System 1 zum Zeitpunkt t0 aktuell die Sprachdaten liest, und mit Ph,2 die entsprechende Abtastposition des Systems 2 zum gleichen Zeitpunkt t0 (zu dem es gerade aktiviert wird) .
Durch die Pufferung wird also ersichtlich gewährleistet, daß die durch die Verarbeitungszeit des Systems 1 bis zur Detektion der ersten Schlüsselwortsequenz verstreichende Zeit, der natürlich ein Abschnitt des Sprachstromes entspricht, nicht zu einem Verlust an Sprachstromdaten führt. Ohne die Pufferungen wären im hier gezeigten Beispiel die beiden ersten Ziffern "4" und "6" für das System 2 prinzipiell verloren und damit insgesamt einer Detektion nicht mehr zugänglich.
In Fig. 3 ist eine gegenüber der Vorrichtung aus Fig. 1 modifizierte Sprachverarbeitungsvorrichtung 200 gezeigt, die sich durch eine zweifache Kaskadierung von Spracherkennungssyste- en sowie eine Auswahlmöglichkeit für verschiedene Systeme in der zweiten Stufe auszeichnet. Im übrigen sind die erste und zweite Stufe mit den Komponenten 201 bis 208 im wesentlichen dieselben wie bei der Vorrichtung nach Fig. 1 und mit einander entsprechenden Bezugsziffern bezeichnet, und diese Komponenten werden hier nicht nochmals erläutert.
Der Sequenzspeicher 208 ist hier - wie durch die Unterteilung mit zwei gestrichelten vertikalen Linien symbolisiert ist - zur Aufnahme einer dreiteiligen Schlüsselwortsequenz ausgebildet. Der Teil-Signalstrom S2 ' vom (hier: ersten) Sprachpuffer 205 wird in einem Verzweigungspunkt 209 einerseits zur zweiten Erfassungsstufe 206a und andererseits zu einem zweiten Sprachpuffer 210 verzweigt. Dort findet eine weitere Pufferung bzw. Verzögerung des am Ausgang bereitstehenden (somit zweifach verzögerten) Teil-Sprachstroms S2.2'' statt. Dieser wird dem Eingang einer dritten Spracherkennungseinheit 211, und zwar konkret einer dritten Erfassungsstufe 211a, zugeführt.
Die dritte Spracherkennungseinheit 211 enthält ebenso wie die erste und zweite Spracherkennungseinheit 202 und 206 zudem einen spezifischen Vokabularspeicher 211b, der mit einem weiteren Eingang der dritten Erfassungsstufe 211a verbunden ist. Ebenfalls analog zur Ausführung der ersten und zweiten
Spracherkennungseinheit ist auch hier der (dritten) Erfassungsstufe ein (dritter) Schlüsselwortspeicher 212 nachgeschaltet, der seinerseits ausgangsseitig mit dem Sequenzspeicher 208 verbunden ist. Die Baugruppen 210 bis 212 realisie- ren, wie sich ohne weiteres aus den obigen Erläuterungen zu Fig. 1 ableiten läßt, einen dritten Schritt der Erkennung einer Schlüsselwortsequenz, der auch einer dritten hierarchischen Ebene des Verfahrens entspricht.
Es ist noch darauf hinzuweisen, daß mit dem Ausgang der ersten Erfassungsstufe (neben dem ersten Schlüsselwortspeicher 204) eine Selektorstufe 203S verbunden ist, welche in Form eines Lookup-Table organisiert ist und einzeln erfaßten ersten Schlüsselworten jeweils eine von mehreren verfügbaren zweiten Spracherkennungseinheiten zuordnet und ein entsprechendes Auswahlsignal an die Spracherkennungs-Ablaufsteuerung 203 ausgibt. Durch die von dieser nach oben ragenden strichpunktierten Pfeile ist angedeutet, daß außer der in der Figur gezeigten zweiten Spracherkennungseinheit 206 wahlweise andere Spracherkennungseinheiten der zweiten Ebene angesteuert werden können. Auch diesen können natürlich - wie der in der Figur gezeigten zweiten Spracherkennungseinheit 206 die dritte Spracherkennungseinheit 211 zugeordnet ist - wiederum Spracherkennungseinheiten der dritten Ebene zugeordnet sein. Weiterhin kann, wie sich leicht einsehen läßt, auch zwischen der zweiten und dritten Ebene eine ähnliche Selek- torstufe vorgesehen sein, so daß auch auf dieser Ebene in Abhängigkeit vom erkannten zweiten Schlüsselwort bzw. zweiten Teil einer Schlüsselwortsequenz eine ausgewählte von mehreren bereitstehenden dritten Spracherkennungseinheiten aktiviert werden könnte. Schließlich ist eine Kaskadierung auch mit einem einzigen Puffer möglich, dessen Verzögerungszeit dann variabel ist und zur Realisierung einer schritthaltenden Verarbeitung tendenziell verringert werden muß.
Auch in übrigen Einzelheiten ist die Ausführung der Erfindung nicht auf die obigen Beispiele beschränkt, sondern auch in
einer Vielzahl von im fachmännischen Ermessen liegenden Abwandlungen möglich.
Claims
1. Verfahren zur Spracherkennung, bei dem ein Abschnitt eines kontinuierlichen Sprachstromes von gesprochenen Wörtern durch Vergleich mit gespeicherten Mustern detektiert wird, d a d u r c h g e k e n n z e i c h n e t, daß
- in einem ersten Erfassungsschritt mittels eines ersten Spracherkennungssystems der Sprachstrom auf das Auftreten eines vorbestimmten ersten Schlüsselworts oder einer ersten Schlüsselwortsequenz geprüft,
- im Ansprechen auf die Erfassung eines ersten Schlüsselworts oder einer ersten Schlüsselwortsequenz dieses bzw. diese gespeichert, das erste Spracherkennungssystem deaktiviert und ein zweites Spracherkennungssystem aktiviert, - in einem zweiten Erfassungsschritt mittels des zweiten
Spracherkennungssystems der Sprachstrom auf das Auftreten eines vorbestimmten zweiten Schlüsselworts oder einer zweiten Schlüsselwortsequenz geprüft,
- im Ansprechen auf die Erfassung des zweiten Schlüsselworts oder der zweiten Schlüsselwortsequenz dieses bzw. diese gespeichert, das zweite Spracherkennungssystem deaktiviert und das erste oder ein weiteres Spracherkennungssystem aktiviert und
- die gespeicherten ersten und zweiten Schlüsselworte bzw. Schlüsselwortsequenzen zusammengefügt und ausgegeben oder zur Ausgabe bereitgestellt werden.
2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß in Abhängigkeit von der Art des ersten erfaßten Schlüsselworts bzw. der ersten Schlüsselwortsequenz ein ausgewähltes von mehreren verfügbaren zweiten Spracherkennungssystemen aktiviert wird.
3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, daß für die Erfassung des zweiten Schlüsselworts bzw. der zweiten Schlüsselwortsequenz ein Zeitfenster im Sprachstrom vorbestimmt wird.
4. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß während des ersten Erfassungsschrittes in einem Speichervorgang laufend ein jeweils letzter Abschnitt des Sprachstromes als Pufferabschnitt zwischengespeichert und der zweite Erfassungsschritt mit dem um den Pufferabschnitt verzögerten Sprachstrom ausgeführt wird, wobei die zeitliche Länge des Pufferabschnitts in Abhängigkeit von der Erfassungszeitkonstanten des ersten Spracherkennungssystems bestimmt wird.
5. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß als erstes Schlüsselwort bzw. erste Schlüsselwortsequenz ein solches bzw. eine solche vorbestimmt ist, auf das/die regelmäßig eine Ziffer oder ein Ziffern enthaltender Abschnitt als zweites Schlüsselwort bzw. zweite Schlüsselwortsequenz folgt, und daß als zweites Spracherkennungssystem ein an die Ziffernerkennung angepaßtes Spracherkennungssystem eingesetzt wird.
6. Verfahren nach Anspruch 5, d a d u r c h g e k e n n z e i c h n e t, daß als erstes Schlüsselwort eines der Worte "Nummer", "Telefonnummer", "Datum" oder "Uhrzeit" vorbestimmt ist und die zweite Schlüsselwortsequenz eine Ziffernkette bzw. Datums- oder Uhrzeitangabe ist.
7. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß es mehr als zwei Erfassungsschritte unter Einsatz jeweils eines spezifischen Spracherkennungssystems aufweist.
8. Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch die Anwendung zur Sprachsteuerung eines Computers oder eines über einen Computer gesteuerten Gerätes oder eines Telekommu- nikations- oder eines Konsumelektronik-Gerätes.
9. Vorrichtung (100; 200) zur Durchführung des Verfahrens nach einem der vorangehenden Ansprüche, mit einem ersten Spracherkennungssystem (102; 202) zur Erfas- sung des Auftretens eines vorbestimmten ersten Schlüsselwortes oder einer Schlüsselwortsequenz in einem kontinuierlichen Sprachstrom, einem zweiten Spracherkennungssystem (106; 206) zur Erfassung des Auftretens eines vorbestimmten zweiten, auf das erste Schlüsselwort oder die erste Schlüsselwortsequenz folgenden zweiten Schlüsselworts oder einer zweiten Schlüsselwortsequenz in dem kontinuierlichen Sprachstrom und einer Spracherkennungs-AblaufSteuerung (103; 203) zur initialen Aktivierung des ersten Spracherkennungssystems und zur bedingten späteren Aktivierung des zweiten Spracherkennungssystems in Abhängigkeit von einem Erfassungsergebnis des ersten Spracherkennungssystems, wobei das erste und zweite Spracherkennungssystem einen ersten bzw. zweiten Vokabularspeicher (102b, 106b; 202b, 206b) mit unterschiedlichem Wortschatz aufweisen.
10. Vorrichtung nach Anspruch 9, gekennzeichnet durch einen Pufferspeicher, insbesondere Ringpuffer, (105; 205, 210) zur Pufferung des kontinuierlichen Sprachstroms zur Überbrückung einer Verarbeitungszeit des ersten Spracherkennungssystems (102; 202) zur Erfassung des ersten Schlüsselworts oder der ersten Schlüsselwortsequenz.
11 . Vorrichtung nach Anspruch 9 oder 10 , d a d u r c h g e k e n n z e i c h n e t , daß mehr als zwei Spracherkennungssysteme (202, 206, 211) zur abgestuften bedingten Erfassung von mehr als zwei miteinander verknüpften Schlüsselworten oder Schlüsselwortsequenzen vorgesehen sind.
12. Vorrichtung nach einem der Ansprüche 9 bis 11, gekennzeichnet durch je einen jedem Spracherkennungssystem zugeordneten Schlüsselwortspeicher (104, 107; 204, 207, 212) und einen mit den Schlüsselwortspeichern verbundenen Sequenzspeicher (108; 208) zur geordneten Speicherung einer aus den Speicherinhalten der Schlüsselwortspeicher zusammengesetzten Sequenz.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19929000 | 1999-06-24 | ||
| DE19929000 | 1999-06-24 | ||
| PCT/DE2000/001056 WO2001001389A2 (de) | 1999-06-24 | 2000-04-05 | Verfahren und vorrichtung zur spracherkennung |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| EP1190413A2 true EP1190413A2 (de) | 2002-03-27 |
Family
ID=7912410
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP00929282A Withdrawn EP1190413A2 (de) | 1999-06-24 | 2000-04-05 | Verfahren und vorrichtung zur spracherkennung |
Country Status (4)
| Country | Link |
|---|---|
| EP (1) | EP1190413A2 (de) |
| CN (1) | CN1365487A (de) |
| HU (1) | HUP0201923A2 (de) |
| WO (1) | WO2001001389A2 (de) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
| US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
Families Citing this family (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE10120513C1 (de) | 2001-04-26 | 2003-01-09 | Siemens Ag | Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache |
| JP2004343232A (ja) * | 2003-05-13 | 2004-12-02 | Nec Corp | 通信装置及び通信方法 |
| DE102007033472A1 (de) * | 2007-07-18 | 2009-01-29 | Siemens Ag | Verfahren zur Spracherkennung |
| CN102374864B (zh) * | 2010-08-13 | 2014-12-31 | 国基电子(上海)有限公司 | 语音导航设备及语音导航方法 |
| DE102010040553A1 (de) * | 2010-09-10 | 2012-03-15 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
| DE102010049869B4 (de) * | 2010-10-28 | 2023-03-16 | Volkswagen Ag | Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu |
| CN102332265B (zh) * | 2011-06-20 | 2014-04-16 | 浙江吉利汽车研究院有限公司 | 一种提高汽车声控系统语音识别率的方法 |
| US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
| CN102708858A (zh) * | 2012-06-27 | 2012-10-03 | 厦门思德电子科技有限公司 | 基于编组方式的语音库实现语音识别系统及其方法 |
| US10229676B2 (en) | 2012-10-05 | 2019-03-12 | Avaya Inc. | Phrase spotting systems and methods |
| DE102013001219B4 (de) * | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
| WO2015030474A1 (ko) | 2013-08-26 | 2015-03-05 | 삼성전자 주식회사 | 음성 인식을 위한 전자 장치 및 방법 |
| CN105302082A (zh) * | 2014-06-08 | 2016-02-03 | 上海能感物联网有限公司 | 非特定人外语语音现场自动导航并驾驶汽车的控制器装置 |
| CN104538030A (zh) * | 2014-12-11 | 2015-04-22 | 科大讯飞股份有限公司 | 一种可以通过语音控制家电的控制系统与方法 |
| CN105261356A (zh) * | 2015-10-30 | 2016-01-20 | 桂林信通科技有限公司 | 一种语音识别系统及方法 |
| CN105912092B (zh) * | 2016-04-06 | 2019-08-13 | 北京地平线机器人技术研发有限公司 | 人机交互中的语音唤醒方法及语音识别装置 |
| CN107331391A (zh) * | 2017-06-06 | 2017-11-07 | 北京云知声信息技术有限公司 | 一种数字种类的确定方法及装置 |
| CN107331396A (zh) * | 2017-07-05 | 2017-11-07 | 北京云知声信息技术有限公司 | 输出数字的方法及装置 |
| CN109003604A (zh) * | 2018-06-20 | 2018-12-14 | 恒玄科技(上海)有限公司 | 一种实现低功耗待机的语音识别方法及系统 |
| CN110211576B (zh) * | 2019-04-28 | 2021-07-30 | 北京蓦然认知科技有限公司 | 一种语音识别的方法、装置和系统 |
| US11694685B2 (en) | 2020-12-10 | 2023-07-04 | Google Llc | Hotphrase triggering based on a sequence of detections |
| US12100385B2 (en) | 2021-04-22 | 2024-09-24 | Microsoft Technology Licensing, Llc | Systems, methods and interfaces for multilingual processing |
| DE102021005206B3 (de) | 2021-10-19 | 2022-11-03 | Mercedes-Benz Group AG | Verfahren und Vorrichtung zur Bestimmung eines mehrteiligen Schlüsselwortes |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
-
2000
- 2000-04-05 EP EP00929282A patent/EP1190413A2/de not_active Withdrawn
- 2000-04-05 HU HU0201923A patent/HUP0201923A2/hu unknown
- 2000-04-05 WO PCT/DE2000/001056 patent/WO2001001389A2/de not_active Ceased
- 2000-04-05 CN CN00809342A patent/CN1365487A/zh active Pending
Non-Patent Citations (1)
| Title |
|---|
| See references of WO0101389A2 * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
| US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
Also Published As
| Publication number | Publication date |
|---|---|
| CN1365487A (zh) | 2002-08-21 |
| HUP0201923A2 (en) | 2002-09-28 |
| WO2001001389A2 (de) | 2001-01-04 |
| WO2001001389A3 (de) | 2001-03-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2001001389A2 (de) | Verfahren und vorrichtung zur spracherkennung | |
| DE69705891T2 (de) | Verfahren und Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen Signalmodells | |
| EP0304129B1 (de) | Verfahren und Anordnung zum Aufbereiten eines Kennsignals | |
| DE69827202T2 (de) | Verfahren und Vorrichtung zum Zählen von Wörtern für die Erkennung kontinuierlicher Sprache zur Verwendung bei zuverlässiger Sprachansage-Unterbrechung und frühzeitiger Sprach-Endpunktbestimmung | |
| DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
| EP0319078A2 (de) | Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens | |
| WO1996029695A1 (de) | Verfahren und anordnung zur spracherkennung bei wortkomposita enthaltenden sprachen | |
| DE3422877C2 (de) | ||
| EP1085499A2 (de) | Erkennung einer in buchstabierter Form vorliegenden Sprachäusserungseingabe | |
| DE3149134C2 (de) | Verfahren und Vorrichtung zur Bstimmung von Endpunkten eines Sprachausdrucks | |
| EP1125278B1 (de) | Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte | |
| DE19920501A1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese | |
| DE69801493T2 (de) | Sprachanalysessystem | |
| EP0813734B1 (de) | Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird | |
| DE69700472T2 (de) | Automatische spracherkennung | |
| EP1238250A2 (de) | Spracherkennungsverfahren und -einrichtung | |
| EP1063633B1 (de) | Verfahren zum Training eines automatischen Spracherkenners | |
| DE19514849A1 (de) | Verfahren zur Fernsteuerung und Vorrichtung dafür | |
| EP0834859B1 (de) | Verfahren zum Bestimmen eines akustischen Modells für ein Wort | |
| EP0760151B1 (de) | Verfahren zur erkennung von sprachsignalen und anordnung zum durchführen des verfahrens | |
| DE3928049A1 (de) | Sprachgesteuertes archivsystem | |
| DE10122087C1 (de) | Verfahren zum Training und Betrieb eines Spracherkenners, Spracherkenner und Spracherkenner-Trainingssystem | |
| DE3137314A1 (de) | Schaltungsanordnung fuer sprachgesteuerte freisprechgeraete | |
| EP0519360A2 (de) | Einrichtung und Verfahren zum Erkennen von Sprache | |
| DE19824450A1 (de) | Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
| 17P | Request for examination filed |
Effective date: 20011108 |
|
| AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
| GRAH | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOS IGRA |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
| 18D | Application deemed to be withdrawn |
Effective date: 20030729 |