DE4438185A1

DE4438185A1 - System for determining words from a speech signal

Info

Publication number: DE4438185A1
Application number: DE4438185A
Authority: DE
Inventors: Stefan Dobler; Hans-William Dr Ruehl
Original assignee: Philips Patentverwaltung GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 1994-09-20
Filing date: 1994-10-26
Publication date: 1996-03-21
Also published as: DE59507882D1; KR960011835A; KR100350003B1; TW291555B

Description

Die Erfindung betrifft ein System zum Ermitteln eines vorgegebenen Vokabulars aus einem Sprachsignal mitThe invention relates to a system for determining a given vocabulary from a speech signal

- First means for recording the speech signal and for delivering a sequence of digital test signals,
- second means for storing sequences of Reference signals that match the words of the vocabulary correspond,
- third means with the first and the second Means are coupled to compare the test signals with first reference signals for generation an evaluation for each first reference signal, the of the difference between the test signal and the depends on the first reference signal, the first Reference signal equal to or in a predetermined way adjacent to a second reference signal within of the episode in question, with the previous one passing test signal successfully through a comparison was led, and with the third funds inserted are directed to depending on the distance to this second reference signal the evaluation by one of the Transition probability-dependent transition value to increase
- fourth means for adding up the increased Evaluation values for each sequence of reference signals, which are compared to successive test signals and to determine an optimal sequence with the smallest sum of the increased valuation values and to output the word or words associated with belong to this optimal sequence.

Ein derartiges System ist bekannt aus der DE 32 15 868 C2. Dieses bekannte System dient insbesondere zum Ermitteln von Wortfolgen, wobei für die einzelnen Wörter ent sprechende Folgen von Referenzsignalen gespeichert sind und besondere Maßnahmen ergriffen werden, um Wortübergänge zu ermitteln. Die Vergleiche der aufeinanderfolgenden Testsignale mit den Referenzsignalen bzw. deren Ergebnisse können in einem zweidimensionalen Raster dargestellt werden, wobei für jede Folge von Referenzsignalen, mit denen ausgehend von dem Startpunkt im Wort aufeinander folgende Testsignale verglichen wurden, bestimmt wird, welches Referenzsignal mit dem folgenden Testsignal die kleinste Summe der Bewertungen ergibt, um einen Pfad im Raster von einem bestimmten Startpunkt in einem Wort bis zum Ende dieses Wortes zu finden. Dazu wird innerhalb des Wortes ein folgendes Testsignal mit den Referenzwerten verglichen, die in einer bestimmten Nachbarschaft zum gerade erreichten Ende des Pfades liegen. Auf diese Weise wird eine nichtlineare Zeitanpassung des tatsächlich gesprochenen Wortes mit der Folge der Referenzwerte dieses Wortes erreicht. Innerhalb eines Wortes werden die verschiedenen Übergänge, d. h. die Nachbarschaft des bei einem Testsignal als optimal gefundenen Referenzwertes zu dem optimalen Referenzwert beim vorhergehenden Testsignal, gleichwertig behandelt.Such a system is known from DE 32 15 868 C2. This known system is used in particular to determine of word sequences, whereby ent for the individual words speaking sequences of reference signals are stored and special measures are taken to ensure word transitions to determine. The comparisons of the successive Test signals with the reference signals and their results can be represented in a two-dimensional grid with each sequence of reference signals, with those starting from each other in the word from the starting point the following test signals were compared, it is determined which reference signal with the following test signal smallest sum of the evaluations results in a path in Grid from a certain starting point in a word to to find at the end of this word. This is done within the Word a following test signal with the reference values compared to that in a particular neighborhood just reached the end of the path. In this way becomes a nonlinear time adjustment of the actually spoken word with the sequence of the reference values of this Word reached. Within a word, the different transitions, d. H. the neighborhood of the at a test signal as the optimally found reference value the optimal reference value for the previous test signal, treated equally.

Aus der DE 37 10 507 A1 ist ein ähnliches System zur Erkennung gesprochener Wörter bekannt, bei dem die unter schiedliche Nachbarschaft der optimalen Referenzsignale für aufeinanderfolgende Testsignale berücksichtigt wird. Dabei werden also die Übergangswahrscheinlichkeiten explizit modelliert. Insbesondere wird abhängig von dieser Nachbarschaft ein fester Übergangswert zur Bewertung addiert. Dabei wird davon ausgegangen, daß die Bewertung durch den negativen Logarithmus der Wahrscheinlichkeit, daß das tatsächlich gesprochene Wort an dieser Stelle dem betreffenden Referenzsignal entspricht, gebildet wird. A similar system is known from DE 37 10 507 A1 Recognition of spoken words known in which the under different neighborhood of the optimal reference signals is taken into account for successive test signals. So the transition probabilities become modeled explicitly. In particular, it becomes dependent on this Neighborhood a fixed transition value for evaluation added. It is assumed that the evaluation by the negative logarithm of probability that the word actually spoken at this point corresponds to the reference signal concerned, is formed.

Durch entsprechende Wahl der Übergangswerte kann ein diagonaler Verlauf des Pfades bevorzugt werden, da dieser am wahrscheinlichsten ist, denn dann entspricht die Geschwindigkeit, mit der ein Wort gesprochen wird, der Folge der Referenzsignale. Auf diese Weise können Wörter auch bei unterschiedlicher Sprechweise erkannt werden, jedoch mit unterschiedlicher Bewertung. Durch die Wahl der Übergangswerte wird also die Sprechgeschwindigkeit modelliert.By choosing the appropriate transition values, a diagonal course of the path are preferred because of this is most likely because then the The speed at which a word is spoken Follow the reference signals. That way words can be recognized even when speaking differently, but with different ratings. By choosing the The speech speed becomes the transition value modeled.

Die Referenzwerte werden anhand von Testsätzen ermittelt, die vor der eigentlichen Benutzung des Systems gesprochen werden müssen. Wenn das System für einen bestimmten Benutzer beabsichtigt ist, werden die Testsätze nur von diesem Benutzer aufgenommen. Damit ist dann auch gleich zeitig dessen Sprechgeschwindigkeit modelliert. Wenn das System jedoch mehreren Benutzern dienen soll bzw. im Idealfall ganz sprecherunabhängig sein soll, können die Referenzwerte aus Testsätzen einer Anzahl verschiedener Sprecher gewonnen werden. Sowohl für die Referenzwerte selbst als auch für die Übergangswerte werden dabei dann Mittelwerte bestimmt, wobei die letzteren für alle Stellen innerhalb aller Wörter als gleich angenommen werden. Dies ergibt jedoch eine geringere Zuverlässigkeit bei der Erkennung, denn wenn ein Benutzer beispielsweise sehr schnell spricht, so daß der optimale Pfad der Referenz signale durch das Wort steiler als die Diagonale verläuft, ergibt sich durch die Übergangswerte insgesamt ein ungünstiger Bewertungswert, und das gesprochene Wort kann leichter mit ähnlich klingenden Referenzwörtern verwechselt werden.The reference values are determined using test sets, who spoke before actually using the system Need to become. If the system for a particular Users are intended to use the test sets only added to this user. That is the same modeled its speech speed in time. If that However, the system should serve several users or in Ideally, they should be completely speaker-independent Reference values from test sets of a number of different ones Speakers can be won. Both for the reference values itself as well as for the transition values Mean values are determined, the latter for all digits are assumed to be the same within all words. This however, results in less reliability in the Detection because if a user for example very speaks quickly so that the optimal path of reference signals through the word are steeper than the diagonal, results from the transition values as a whole unfavorable valuation value, and the spoken word can easier with similar sounding reference words be confused.

Aufgabe der Erfindung ist es, ein System der eingangs genannten Art anzugeben, das bei Benutzung durch verschie dene Sprecher eine verbesserte Zuverlässigkeit aufweist. The object of the invention is a system of the beginning Specify the type mentioned, which when used by various whose spokesman has improved reliability.

Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß fünfte Mittel zum Verändern der Übergangswerte in neue Übergangswerte für nachfolgende Vergleiche in Abhängigkeit von der Abweichung der Länge des Sprachsignals, von dem die mit der optimalen Folge von Referenzwerten vergliche nen Testsignale abgeleitet sind, von der Länge der optimalen Folge von Referenzsignalen.This object is achieved in that fifth means of changing the transition values into new ones Transitional values for subsequent comparisons depending on the deviation of the length of the speech signal from which which compared with the optimal sequence of reference values NEN test signals are derived from the length of the optimal sequence of reference signals.

Bei dem erfindungsgemäßen System wird also durch Anpassung der Übergangswerte die Folge von Referenzsignalen an die Sprechgeschwindigkeit des momentanen Benutzers angepaßt. Sobald ein Wort erkannt und ggf. bestätigt worden ist, kann die Anpassung der Übergangswerte erfolgen, so daß folgende Wörter zuverlässiger erkannt werden.In the system according to the invention, therefore, by adaptation the transition values the sequence of reference signals to the Adjusted speech speed of the current user. As soon as a word has been recognized and, if necessary, confirmed, the transition values can be adjusted so that following words can be recognized more reliably.

Eine gute Möglichkeit, die Übergangswerte anzupassen, besteht nach einer Ausgestaltung der Erfindung darin, daß die fünften Mittel eingerichtet sind, um abhängig von dem VerhältnisA good way to adjust the transition values according to one embodiment of the invention is that the fifth means are set to depend on the relationship

mit T gleich der Länge der Folge von Testsignalen und N gleich der Länge der Folge von Referenzsignalen die Übergangswerte a wie folgt in neue Übergangswerte a′ zu ändern:where T is the length of the sequence of test signals and N equal to the length of the sequence of reference signals Transition values a into new transition values a ′ as follows to change:

a′_i,i = a_i,i - (n-1)b
a′_i,i+1 = a_i,i+1
a′_i,i+2 = a_i,i+2 + (n-1)b,a ′ _{i, i} = a _{i, i} - (n-1) b
a ′ _{i, i + 1} = a _{i, i + 1}
a ′ _{i, i + 2} = a _{i, i + 2} + (n-1) b,

wobei der Index i,i bedeutet, daß das erste Referenzsignal gleich dem zweiten Referenzsignal ist, der Index i,i+1 bedeutet, daß das erste und das zweite Referenzsignal unmittelbar benachbart sind, der Index i,i+2 bedeutet, daß das erste und das zweite Referenzsignal durch ein weiteres Referenzsignal getrennt sind, und b einen festgelegten Proportionalitätsfaktor bedeutet.where the index i, i means that the first reference signal is equal to the second reference signal, the index i, i + 1 means that the first and the second reference signal are immediately adjacent, the index i, i + 2 means that the first and the second reference signal by another Reference signal are separated, and b a fixed Proportionality factor means.

Es wird also das Verhältnis der Länge des tatsächlich gesprochenen Worts zu der Länge der Folge der Referenz signale verwendet, um die Übergangswerte derart zu verändern, daß die gesamte Übergangswahrscheinlichkeit für alle Übergänge konstant bleibt, indem die eine Abweichung von der Diagonalen um das gleiche Maß bevorzugt wird, um die die andere Abweichung von der Diagonalen benachteiligt wird.So it actually becomes the ratio of the length of the spoken word to the length of the sequence of the reference signals used to get the transition values like this change that the total transition probability for all transitions remain constant by making one deviation from the diagonal by the same amount is preferred to which disadvantages the other deviation from the diagonal becomes.

Diese Berücksichtigung der tatsächlichen Sprech geschwindigkeit des aktuellen Benutzers des Systems verbessert die Zuverlässigkeit der Erkennung erheblich.This takes into account the actual speaking speed of the current user of the system significantly improves the reliability of the detection.

Eine weitere Verbesserung ist dadurch möglich, wenn nach einer Ausgestaltung der Erfindung zusätzlich noch sechste Mittel vorgesehen sind zum Ändern der Referenzwerte r_i in neue Referenzwerte r′_i in folgender Weise:A further improvement is possible if, according to an embodiment of the invention, sixth means are additionally provided for changing the reference values r _i into new reference values r ′ _i in the following way:

r′_i = r_i(1-c) + c · y_t r ′ _i = r _i (1-c) + c · y _t

wobei y_t das Testsignal ist, das in der optimalen Folge von Referenzwerten mit dem Referenzwert r_i verglichen wurde, und c ein vorbestimmter Wert ist. Dadurch wird also nicht nur die Sprechgeschwindigkeit, sondern auch der Tonfall, d. h. der Vokaltrakt des Sprechers, berücksichtigt. Diese Anpassung der Referenzwerte an einen aktuellen Sprecher ist grundsätzlich bekannt, jedoch nicht in Verbindung mit der Anpassung an die Sprechgeschwindigkeit.where y _{t is} the test signal that was compared with the reference value r _i in the optimal sequence of reference values, and c is a predetermined value. This not only takes into account the speaking speed, but also the tone, ie the vocal tract of the speaker. This adaptation of the reference values to a current speaker is known in principle, but not in connection with the adaptation to the speaking speed.

Die Anpassung an die Sprechgeschwindigkeit und ggf. die Aussprache des momentanen Sprechers sollte zurückhaltend erfolgen, damit sie nicht an zufällige Extremwerte der Sprechweise des momentanen Sprechers bei einem einzelnen Wort oder sehr wenigen Wörtern erfolgt, während derselbe Sprecher anschließend seine Sprechweise verändert. Das Ausmaß der Anpassung kann bei der Sprechgeschwindigkeit durch den Proportionalitätsfaktor b und ggf. bei der Änderung der Referenzwerte selbst durch den vorbestimmten Wert c erfolgen; diese beiden Werte sollten nicht zu groß gewählt werden. Damit aber dennoch eine gute Anpassung an die Sprechweise des momentanen Sprechers erfolgen kann, ist es nach einer weiteren Ausgestaltung der Erfindung zweckmäßig, daß wenigstens die Änderung der Referenzwerte in demselben Sprachsignal mehrmals erfolgt. Dadurch wird nach mehreren erkannten Wörtern eine schrittweise Anpassung an die Sprechweise des momentanen Sprechers erreicht.The adaptation to the speech speed and, if necessary, the Pronunciation of the current speaker should be reserved done so that they do not reach random extreme values of the How the current speaker speaks to a single person Word or very few words is done while the same Speaker then changed his speech. The Extent of adjustment can be made at speech speed by the proportionality factor b and, if applicable, by the Change of the reference values even by the predetermined one Value c take place; these two values should not be too large to get voted. But with that a good adjustment the way of speaking of the current speaker can take place, it is according to a further embodiment of the invention expedient that at least the change in the reference values done several times in the same speech signal. This will one step after several recognized words Adaptation to the speech of the current speaker reached.

Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung näher erläutert. Es zeigenEmbodiments of the invention are as follows explained in more detail with reference to the drawing. Show it

Fig. 1 ein schematisches Blockschaltbild des erfin dungsgemäßen Systems, Fig. 1 is a schematic block diagram of the system according OF INVENTION dung,

Fig. 2 ein Diagramm zur Erläuterung der Bildung von Pfaden durch aufeinanderfolgende Wörter, Fig. 2 is a diagram for explaining the formation of paths through consecutive words,

Fig. 3 ein Diagramm zur Erläuterung der Übergänge bei zwei aufeinanderfolgenden Testsignalen. Fig. 3 is a diagram for explaining the transitions in two successive test signals.

In dem Blockschaltbild in Fig. 1 dient ein Mikrofon 2 dazu, ein von einem Sprecher gesprochenes akustisches Signal in ein elektrisches Signal umzusetzen. Dieses Signal wird dann in dem Block 10 weiterverarbeitet, indem es digitalisiert wird und beispielsweise die einzelnen Frequenzanteile des Sprachsignals abschnittsweise bestimmt werden. Die Länge solcher Abschnitte ist beispielsweise ein einheitlicher Wert zwischen 10 ms und 20 ms. Vom Block 10 werden schließlich die Testsignale an den Block 30 abgegeben.In the block diagram in FIG. 1, a microphone 2 is used to convert an acoustic signal spoken by a speaker into an electrical signal. This signal is then further processed in block 10 by digitizing it and, for example, determining the individual frequency components of the speech signal in sections. The length of such sections is, for example, a uniform value between 10 ms and 20 ms. Finally, the test signals are sent from block 10 to block 30 .

In Block 30 werden die Testsignale mit Referenzsignalen vergleichen, die aus einem Speicher 20 zugeführt werden, der von dem Block 30 angesteuert bzw. adressiert wird. Diese Referenzsignale sind vorher durch Analyse von Testsätzen, die vorzugsweise von mehreren verschiedenen Sprechern gesprochen wurden, ermittelt worden. Durch die Vergleiche werden Bewertungen ermittelt, die um Übergangs werte, die im Block 30 gespeichert sind, erhöht werden. Diese erhöhten Bewertungen werden im Block 40 über verschiedene Pfade durch unterschiedliche Wörter auf summiert. Diese Aufsummierung kann jedoch auch gleich bei den Vergleichen für die Ermittlung der Bewertungen erfolgen. Am Ende eines Wortes bzw. am Ende eines Sprach signals, das auch mehrere Wörter umfassen kann, wird im Block 40 der optimale Gesamtpfad ermittelt und die ent sprechende Wortfolge an dem Block 70 ausgegeben. Dies kann beispielsweise ein Bildschirm sein, vorzugsweise ist dies jedoch eine Anordnung, das durch Sprachkommandos gesteuert werden soll.In block 30 , the test signals are compared with reference signals which are supplied from a memory 20 which is controlled or addressed by block 30 . These reference signals have previously been determined by analyzing test sentences, which were preferably spoken by several different speakers. The comparisons determine ratings that are increased by transition values that are stored in block 30 . These increased scores are summed up in block 40 over different paths by different words. However, this summation can also take place directly in the comparisons for determining the evaluations. At the end of a word or at the end of a speech signal, which can also comprise several words, the optimal overall path is determined in block 40 and the corresponding word sequence is output at block 70 . This can be a screen, for example, but is preferably an arrangement that is to be controlled by voice commands.

Die Durchführung der Vergleiche aufeinanderfolgender Testsignale mit Referenzsignalen verschiedener Wörter und die Bestimmung der optimalen Folge soll näher anhand der Fig. 2 erläutert werden. Die Zeitachse t gibt die Folge der Testsignale an, die aus dem empfangenen Sprachsignal ermittelt wurde, während die Achse R die Folge von Referenzsignalen für mehrere Wörter darstellt, die hier der Übersichtlichkeit halber übereinander angeordnet sind. Aus Fig. 2 ist zu erkennen, daß die ersten Testsignale die beste Übereinstimmung mit der Folge R1 von Referenz signalen zeigen, die einem Wort W1 zugeordnet ist. Es werden stets auch Vergleiche mit den Anfängen anderer Folgen R2 und R3 begonnen, die anderen Wörtern zugeordnet sind, jedoch wird hier angenommen, daß die Ähnlichkeit so gering ist, daß diese Folgen von Vergleichen bald abge brochen werden. Entsprechend beginnen allgemein auch mit den folgenden Testsignalen erneut Vergleiche mit beispielsweise der Folge R1 von Testsignalen, die jedoch ebenfalls bald abgebrochen werden, da die später gesprochenen Teile des Sprachsignals zu verschieden sind vom Anfang der Folge R1 von Referenzsignalen.The execution of the comparisons of successive test signals with reference signals of different words and the determination of the optimal sequence will be explained in more detail with reference to FIG. 2. The time axis t indicates the sequence of the test signals which was determined from the received speech signal, while the axis R represents the sequence of reference signals for several words, which are arranged one above the other for the sake of clarity. From Fig. 2 it can be seen that the first test signals show the best match with the sequence R1 of reference signals which is assigned to a word W1. Comparisons are always started with the beginning of other sequences R2 and R3, which are assigned to other words, but it is assumed here that the similarity is so low that these sequences of comparisons will soon be canceled. Accordingly, comparisons with the following test signals generally begin again with, for example, the sequence R1 of test signals, which, however, will also be terminated soon, since the parts of the speech signal spoken later are too different from the beginning of the sequence R1 of reference signals.

Nach Beendigung des Pfades durch die Folge R1 von Referenzsignalen, wobei dieser Pfad also einem Wort W1 entspricht, werden die Vergleiche mit den Anfängen der Folgen R1 bis R3 von Referenzsignalen fortgesetzt, und in diesem Beispiel wird angenommen, daß der nun beginnende Pfad durch die Folge R1 von Referenzsignalen den optimalen Pfad bzw. Teilpfad ergibt, so daß als nächstes ein Wort W3 als erkannt ausgegeben wird. In ähnlicher Weise setzen sich die Vergleiche fort, wenn das Sprachsignal noch länger andauert, weil noch mehr Wörter gesprochen werden.After completing the path through the R1 sequence of Reference signals, this path being a word W1 corresponds to the comparisons with the beginnings of the Sequences R1 to R3 of reference signals continued, and in In this example it is assumed that the beginning Path through the sequence R1 of reference signals the optimal Path or partial path results, so that next a word W3 is output as recognized. Put in a similar way the comparisons continue if the speech signal is still lasts longer because more words are spoken.

Die Vorgänge bei der Durchführung der Vergleiche innerhalb eines Wortes werden anhand der Fig. 3 näher erläutert, die einen kleinen Ausschnitt aus der Fig. 2 darstellt, nämlich nur für zwei aufeinanderfolgende Testsignale zu den Zeitpunkten t und t+1 zusammen mit einigen Referenz signalen r_i, r_i+1, r_i+2 usw. Es wird angenommen, daß mit dem Testsignal zum Zeitpunkt t der optimale Pfad P vorläufig beim Referenzwert r geendet hat. Das nächste Testsignal zum Zeitpunkt t+1 wird dann mit den Referenzsignalen r_i, r_i+1 und r_i+2 verglichen, entsprechend den zugelassenen Übergängen a_i,i, a_i,i+1 und a_i,i+2, denen gleich bezeichnete Übergangswerte zugeordnet sind. Diese Übergangswerte entsprechen im beschriebenen Beispiel dem negativen Logarithmus der Übergangswahrscheinlichkeiten. Der Vergleich des Testsignals zum Zeitpunkt t+1 mit dem Referenzsignal r ergibt eine vom Unterschied zwischen beiden Signalen abhängige Bewertung, die um den Übergangs wert a_i,i, erhöht wird. Entsprechend gibt der Vergleich dieses Testsignals mit dem Referenzsignal r_i+1 eine Bewertung, die um den Übergangswert a_i,i+1 erhöht wird. In gleicher Weise ergibt der Vergleich dieses Testsignals mit dem Referenzsignal r_i+2 eine Bewertung, die um den Über gangswert a_i,i+2 erhöht wird. Die Übergangswerte a_i,i und a_i,i+2 sind beispielsweise gleich oder nur wenig unterschiedlich, während der Übergangswert a_i,i+1 merklich kleiner ist. Wenn das Testsignal zum Zeitpunkt t+1 zu allen drei darge stellten Referenzsignalen etwa den gleichen Unterschied aufweist, was durchaus möglich ist, da benachbarte Referenzwerte häufig ähnlich sind, wird also beim Vergleich mit dem Referenzwert r_i+1 die kleinste um den Übergangswert erhöhte Bewertung auftreten, so daß der im Referenzwert r geendete Pfad P diagonal fortgesetzt wird. Diese diagonale Richtung ist also bevorzugt.The processes involved in carrying out the comparisons within a word are explained in more detail with reference to FIG. 3, which represents a small section from FIG. 2, namely only for two successive test signals at times t and t + 1 together with some reference signals r _i , r _{i + 1} , r _{i + 2} etc. It is assumed that with the test signal at time t the optimal path P has provisionally ended at the reference value r. The next test signal at time t + 1 is then compared with the reference signals r _i , r _{i + 1} and r _{i + 2} , corresponding to the permitted transitions a _{i, i} , a _{i, i + 1} and a _{i, i + 2} , which are assigned the same transition values. In the example described, these transition values correspond to the negative logarithm of the transition probabilities. The comparison of the test signal at the point in time t + 1 with the reference signal r gives an evaluation which is dependent on the difference between the two signals and which is increased by the transition value a _{i, i} . Correspondingly, the comparison of this test signal with the reference signal r _{i + 1} gives an evaluation, which is increased by the transition value a _{i, i + 1} . In the same way, the comparison of this test signal with the reference signal r _{i + 2} gives an evaluation which is increased by the transition value a _{i, i + 2} . The transition values a _{i, i} and a _{i, i + 2} are, for example, the same or only slightly different, while the transition value a _{i, i + 1 is} noticeably smaller. If the test signal at time t + 1 has approximately the same difference to all three illustrated reference signals, which is quite possible since neighboring reference values are often similar, the comparison with the reference value r _{i + 1 will be} the smallest evaluation increased by the transition value occur so that the path P ended in the reference value r is continued diagonally. This diagonal direction is therefore preferred.

Bei einem schnell sprechenden Sprecher würde das Test signal zum Zeitpunkt t+1 ähnlicher dem Referenzwert r_i+2 sein. Wenn jedoch der Übergangswert a_i,i+2 zuviel größer ist als der Übergangswert a_i,i+1, könnte dann jedoch fälschlich doch die diagonale Richtung erzwungen werden. Wenn dies im Wort, d. h. in der Folge der Referenzsignale mehrmals auftritt, ergibt sich am Ende eine ungünstigere Summe der Bewertungen, als der abgesehen von der zu schnellen Sprechweise im übrigen guten Ähnlichkeit zwischen der Folge der Testsignale und der Folge der Referenzsignale entspricht. Dies führt zu einer unzuverlässigeren Erkennung insgesamt. Es ist also zweckmäßig, sobald erkannt ist, daß der Sprecher in einem bestimmten Ausmaß zu schnell oder zu langsam spricht , die Übergangswerte zu verändern, um eine Richtung entsprechend abweichend von der Diagonalen eher zu bevorzugen.With a fast speaking speaker, the test signal at time t + 1 would be more similar to the reference value r _{i + 2} . However, if the transition value a _{i, i + 2 is} too much larger than the transition value a _{i, i + 1} , the diagonal direction could be wrongly forced. If this occurs several times in the word, ie in the sequence of the reference signals, the end result is a less favorable sum of the ratings than the good similarity between the sequence of the test signals and the sequence of the reference signals, apart from the way the speech is too fast. This leads to less reliable detection overall. It is therefore expedient, as soon as it is recognized that the speaker is speaking too quickly or too slowly to a certain extent, to change the transition values in order to prefer a direction that deviates from the diagonal.

Diese Anpassung erfolgt in Block 50 in Fig. 1 auf folgende Weise. This adjustment takes place in block 50 in FIG. 1 in the following way.

Wenn ein Wort oder auch eine kurze Wortfolge erkannt worden ist, d. h. es ist in wenigstens einer Folge von Referenzsignalen ein bis zum Ende dieser Folge führender Pfad ermittelt worden, steht dann also fest, wie viele Testsignale dafür notwendig waren. Da die Anzahl der Referenzsignale dieser Folge gegeben ist, kann nun das Verhältnis n berechnet werdenIf a word or even a short phrase is recognized has been d. H. it is in at least one episode of Reference signals leading to the end of this sequence Path has been determined, it is then clear how many Test signals were necessary for this. Because the number of Given this sequence, reference signals can now Ratio n can be calculated

Dabei gibt T die Anzahl der Testsignale an, mit denen das Wort erkannt wurde, und N gibt die Anzahl der Referenz signale in der betreffenden Folge an. Mit diesem Verhält nis n werden aus denen vorhandenen Übergangswerten a nun neue Übergangswerte a′ bestimmt:T indicates the number of test signals with which the Word was recognized and N gives the number of reference signals in the relevant episode. With this ratio nis n are now a from the existing transition values new transition values a ′ determines:

a′_i,i = a_i,i - (n-1)b
a′_i,i+1 = a_i,i+1
a′_i,i+2 = a_i,i+2 + (n-1)b.a ′ _{i, i} = a _{i, i} - (n-1) b
a ′ _{i, i + 1} = a _{i, i + 1}
a ′ _{i, i + 2} = a _{i, i + 2} + (n-1) b.

Der Proportionalitätsfaktor b bestimmt dabei, in welchem Maße die Anpassung der Übergangswerte an die Sprechweise des Sprechers erfolgt. Damit diese Anpassung nicht zu stark von zufälligen Extremwerten in der Sprechweise des Sprechers abhängt, sollte der Wert b nicht zu groß gewählt werden. Ein Wert b = 180 hat sich als guter Kompromiß herausgestellt, wenn die Übergangswerte a, wie bereits erwähnt, durch den negativen Logarithmus der Übergangs wahrscheinlichkeiten dargestellt sind. Unabhängig von diesem Wert wird der Übergangswert für die Diagonale also konstant gehalten, während der steilere Übergangswert a_i,i+2 bei schneller Sprechweise um das gleiche Ausmaß verkleinert wird, wie der Übergangswert für den flacheren Übergang a_i,i vergrößert wird. Dadurch wird insgesamt ein steilerer Übergang zwischen den Referenzsignalen für aufeinanderfolgende Testsignale bevorzugt. Entsprechendes gilt für eine langsame Sprechweise. Die neuen Übergangs werte werden nun zum Block 30 übertragen und dort für die folgenden Vergleiche verwendet.The proportionality factor b determines the extent to which the transition values are adapted to the speaker's manner of speaking. So that this adaptation does not depend too much on random extreme values in the speaker's speech, the value b should not be chosen too large. A value of b = 180 has proven to be a good compromise if, as already mentioned, the transition values a are represented by the negative logarithm of the transition probabilities. Irrespective of this value, the transition value for the diagonal is thus kept constant, while the steeper transition value a _{i, i + 2 is} reduced by the same amount in faster speech as the transition value for the flatter transition a _{i, i is} increased. As a result, a steeper transition between the reference signals is preferred for successive test signals. The same applies to slow speaking. The new transition values are now transferred to block 30 and used there for the following comparisons.

Eine weitere Verbesserung der Zuverlässigkeit der Erkennung kann erreicht werden, wenn zusätzlich die Referenzsignale selbst an die Aussprache des Sprechers angepaßt werden. Dies erfolgt in Block 60 in Fig. 1 auf folgende Weise.A further improvement in the reliability of the recognition can be achieved if the reference signals themselves are additionally adapted to the pronunciation of the speaker. This is done in block 60 in Fig. 1 in the following manner.

Nachdem wie vorher beschrieben ein Wort erkannt worden ist, werden die Testsignale nochmals verglichen, nun jedoch nur mit der Folge von Referenzsignalen, in der vorher der der optimale Pfad gefunden wurde, und jedes Referenzsignal r_i wird auf folgende Weise in ein angepaßtes Referenzsignal r′_i umgewandelt:After a word has been recognized as described above, the test signals are compared again, but now only with the sequence of reference signals in which the optimum path was previously found, and each reference signal r _i is converted into an adapted reference signal r ′ in the following way. _i converted:

r′_i = r_i(1-c) + c · y_t.r ′ _i = r _i (1-c) + c · y _t .

Darin ist y_t das Testsignal, das zum Zeitpunkt t mit dem Referenzsignal r_i verglichen wurde, während der Faktor c angibt, in welchem Ausmaße das bisherige Referenzsignal geändert wurde. Ein Wert von c = 0,13 wurde als zweckmäßig festgestellt, insbesondere dann, wenn die Referenzsignale in mehreren Schritten mit aufeinanderfolgenden Wörtern angepaßt werden.In this, y _{t is} the test signal that was compared with the reference signal r _i at time t, while the factor c indicates the extent to which the previous reference signal was changed. A value of c = 0.13 was found to be expedient, especially when the reference signals are adapted in several steps with successive words.

Bisher wurde davon ausgegangen, daß eine Folge von Referenzsignalen jeweils ein Wort darstellt. Es sind jedoch auch Systeme zur Spracherkennung bekannt, bei denen die einzelnen Folgen von Referenzsignalen Phoneme dar stellen, die in vielen Wörtern gleich sein können. Aus den erkannten Phonemen werden dann Wörter gebildet. Auch für solche Systeme ist das vorstehend beschriebene Verfahren zur Anpassung der Übergangswerte und gegebenenfalls der Referenzsignale anwendbar.So far it has been assumed that a sequence of Reference signals each represent a word. There are however also known systems for speech recognition in which the individual sequences of reference signals represent phonemes places that can be the same in many words. From the recognized phonemes are then formed into words. Also for such systems is the method described above to adjust the transition values and, if necessary, the Reference signals applicable.

Weiterhin ist das Verfahren auch anwendbar, wenn die Übergangswerte nicht wie im genannten Ausführungsbeispiel für alle Referenzsignale gleich, sondern abhängig von der Stelle des Referenzsignals innerhalb der Folge unter schiedlich sind. Der Anpassungsfaktor b muß dabei gegebe nenfalls stellenabhängig bestimmt werden.Furthermore, the method can also be used if the Transitional values are not as in the exemplary embodiment mentioned the same for all reference signals, but depending on the Place the reference signal within the sequence under are different. The adjustment factor b must be given can be determined depending on the position.

Claims

1. System for determining words of a given vocabulary from a speech signal with

first means for recording the speech signal and for delivering a sequence of digital test signals,
second means for storing sequences of reference signals which correspond to the words of the vocabulary,
- third means, coupled to the first and second means, for comparing the test signals with first reference signals to generate a rating for each first reference signal, which depends on the difference between the test signal and the first reference signal, the first reference signal being the same with or in a predetermined manner is adjacent to a second reference signal within the relevant sequence, with which a comparison was successfully carried out in the previous test signal, and the third means being set up to change the evaluation depending on the distance to this second reference signal to increase a transition value dependent on the transition probability,
fourth means for summing the increased evaluation values for each sequence of reference signals which have been compared with successive test signals, for determining an optimal sequence with the smallest sum of the increased evaluation values and for outputting the word or words which belong to this optimal sequence ,

characterized by fifth means for changing the transition values into new transition values for subsequent comparisons depending on the deviation of the length of the speech signal, from which the test signals compared with the optimal sequence of reference values are derived, from the length of the optimal sequence of reference signals.

2. System according to claim 1, characterized in that the fifth means are set up to depend on the ratio with T equal to the length of the sequence of test signals and N equal to the length of the sequence of reference signals, the transition values a change into new transition values a ′ as follows: a ′ _{i, i} = a _{i, i} - (n-1) b
a ′ _{i, i + 1} = a _{i, i + 1}
a ′ _{i, i + 2} = a _{i, i + 2} + (n-1) b, where the index i, i means that the first reference signal is equal to the second reference signal, the index i, i + 1 means that the first and the second reference signal are immediately adjacent, the index i, i + 2 means that the first and the second reference signal are separated by a further reference signal, and b means a fixed proportionality factor.

3. System according to claim 1 or 2, characterized by sixth means for changing the reference values r _i in new reference values r ' _i in the following manner: r' _i = r _i (1-c) + c · y _t (3) where y _{t is} the test signal that was compared with the reference value r in the optimal sequence of reference values, and c is a predetermined value.

4. System according to one of claims 1, 2 or 3, characterized in that at least the change in Reference values in the same speech signal several times repeated.