EP0319078A2 - Method and apparatus for the determination of the begin and end points of isolated words in a speech signal - Google Patents

Method and apparatus for the determination of the begin and end points of isolated words in a speech signal Download PDF

Info

Publication number
EP0319078A2
EP0319078A2 EP88202629A EP88202629A EP0319078A2 EP 0319078 A2 EP0319078 A2 EP 0319078A2 EP 88202629 A EP88202629 A EP 88202629A EP 88202629 A EP88202629 A EP 88202629A EP 0319078 A2 EP0319078 A2 EP 0319078A2
Authority
EP
European Patent Office
Prior art keywords
window
value
signal
digital values
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP88202629A
Other languages
German (de)
French (fr)
Other versions
EP0319078A3 (en
Inventor
Dieter Dr. Mergel
Hermann Dr. Ney
Horst Tomaschewski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Koninklijke Philips NV
Original Assignee
Philips Patentverwaltung GmbH
Philips Gloeilampenfabrieken NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH, Philips Gloeilampenfabrieken NV, Koninklijke Philips Electronics NV filed Critical Philips Patentverwaltung GmbH
Publication of EP0319078A2 publication Critical patent/EP0319078A2/en
Publication of EP0319078A3 publication Critical patent/EP0319078A3/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Definitions

  • the invention relates to a method for determining the starting point and end point of a word signal corresponding to an isolated spoken word in a speech signal by determining an extreme value in a sequence of digital values derived from the speech signal, taking into account values of the signal curve surrounding the extreme value and a threshold value.
  • Such methods for determining the start and end point in a speech signal are used in particular if the speech signal consists of words spoken in isolation or very short word groups and these words or word groups are to be recognized automatically.
  • the actual word signal is accompanied by interference and noise and pauses as well as by background noise such as loud inhalation.
  • background noise such as loud inhalation.
  • the object of the invention is therefore to provide a method of the type mentioned at the outset which enables the most reliable possible determination of the start and end point even in the case of speech signals which are overlaid by essential interference signals.
  • a number of previously successively arriving digital values are assigned to three adjacent windows, of which the first window (end window) a predetermined first number of the last arrived digital values, the second window (signal window) one between a predetermined first value and a predetermined larger second value varying second number of digital values and the third window (initial window) comprises a predetermined third number of digital values that for each new digital value from the digital values in the first window and successively for each value of the second number from the digital values of the associated third window a threshold is formed by which each digital value of the second window is reduced, that the sum of the digital values thus reduced for each value of the second Number compared with a highest sum previously formed in the same way and, depending on the comparison result, is stored as a new highest sum together with position information about the position of the second window within the sequence of the digital values, and that the position information last saved indicate the starting point and the end point of the word signal .
  • the determination of the start and end points takes place continuously with the arrival of the speech signal, so that for each at least provisionally optimal determination of the end points, the recognition of the speech signal can begin, which is terminated when a more favorable value for the end points is found, so that faster detection is also possible.
  • the threshold value that is used in the determination of the end points should originate as much as possible from the interference signal, the size of which is not, however, readily known. This is done according to the invention by taking into account a respective area before and after the assumed position of the word signal.
  • This threshold value can be formed particularly easily by forming the threshold value from the sum of the digital values in the first and third window and a correction value. Such a sum formation can be carried out very easily and quickly.
  • a fixed value can be selected as the correction value, which takes into account, for example, a general quality of the speech signal.
  • this correction value further takes into account the course of the speech signal, is characterized in that for each new digital value at the smallest value of the second number, the sum of the digital values of the second window is formed and stored if a previously stored second window sum is smaller, and the sum of the digital values of the third window is formed and stored if a previously stored third window sum is larger, and the correction value is formed from the difference between the two stored window sums. In this way, not only the areas outside the assumed endpoints are included, but also that Voice signal between the endpoints.
  • the correction value is the difference between the two window sums divided by a constant predetermined signal-to-noise ratio value.
  • the predefined signal-to-noise ratio value is then a measure of the average quality of the voice signal and is smaller the more the voice signal is disturbed, as is the case, for example, with voice transmission over telephone lines.
  • An arrangement for carrying out the method according to the invention which has a first memory for recording digital values derived from a speech signal, is characterized according to the invention by a second memory for recording intermediate results, a computing unit which receives the digital values from the first memory and intermediate results from the second memory and determines the energy in each of the windows and the further intermediate results, a comparator for comparing intermediate results from the second memory with values supplied by the computing unit and for controlling the writing of the latter values into the second memory, a control unit for addressing the first and second memories and the computing unit in accordance with the method steps, and a counting arrangement for counting the different second numbers of digital values in the second window and for delivering an end of loop signal to the control unit after a predetermined number of different second numbers.
  • the control unit can be a sequence controller that is controlled by a stored program. A particularly simple structure is obtained if at least the computing unit and the control unit are implemented by a microprocessor. If necessary, this can also take over the function of the comparator and the counting arrangement.
  • the signal curve shown in FIG. 1a for example, as energy E or amplitude of the speech signal over time t has currently arrived and sampled up to time m1 and is in the form of digital samples.
  • the continuously displayed signal curve is therefore present in the digital range as a sequence of discrete points, which, however, does not significantly influence the further explanation.
  • the signal curve is now divided into three adjacent windows, of which the first window of the samples values range from m1 to m2 and is called the end window because it represents the temporary end of the speech signal in terms of time.
  • the middle window ranges from the sample values m2 to the sample value m3.
  • the actual word signal is accepted here, which has a higher energy value than the speech signal parts before and after it.
  • the point m3 is gradually changed between a minimum distance and a maximum distance from the time m2 for the endpoint determination procedure to be described.
  • the third window extends from the respective time m3 to time m4, the distance between which is again constant.
  • each distance value can only belong to one of the windows, i.e. the middle window begins, when the first window reaches the sample value at the time m2, with the sample value immediately to the left, and the same applies to the third window.
  • this fact is not further emphasized in the following explanation, but continues to assume a quasi-continuous signal curve.
  • 1b assumes a later point in time at which the voice signal has already arrived by the point in time n1.
  • a larger signal window is assumed, so that its start at time n3 is further away from time n2 than in FIG. 1a.
  • the point in time n4 is the beginning of the initial window at an even earlier point in time.
  • An essential criterion when determining the end points of the speech signal is the area of the speech signal within the signal window, reduced by a threshold value SW, which depends, among other things, on the area under the speech signal in the first and in the third window.
  • SW which depends, among other things, on the area under the speech signal in the first and in the third window.
  • the areas under the speech signal is represented by the sum of the digitized samples within the respective window.
  • Fig. 1a the area in the start and end window is still relatively large, so that there is a higher threshold SW m . From the figure it can be seen immediately that the area reduced by the threshold value in the middle window becomes larger when the start and end windows are pulled further apart, ie when the subsequent arriving parts of the signal curve are waited for and the width of the signal window is chosen to be larger.
  • the area of the speech signal that is briefly below the threshold value SW n within this signal window also makes a negative contribution, but is exceeded by the higher signal section to the left of it, so that extending the middle window extends beyond this area of the speech signal overall an increase in the total area in the signal window above the threshold value SW n results.
  • the aforementioned start and end point will be determined with the method according to the flow chart in Figs. 2a and 2b.
  • the symbol 10 means the start of the entire process, i.e. the beginning of the speech signal.
  • various initial values are set, a number of samples corresponding to the length of the end window, the minimum signal window and the initial window are waited for before the method can start, and a special filter function is carried out. This consists in the fact that the smallest value is selected from each three consecutive samples and is fed to the method as a digital value. For example, every 10 ms a sample value is taken from the speech signal which represents the instantaneous value or the integrated value since the last sample value, and the sample values are digitized.
  • a digital value is supplied to the method every 30 ms, so that 30 ms are available for carrying out the following method steps.
  • the supplied digital values are saved because they will still be needed at later times, at least for a signal duration that corresponds to the sum of the predetermined maximum duration of the signal window and the two other windows.
  • the energy EF k is determined in the initial window between the points m3 and m4 in FIG. 1a or n3 and n4 in FIG. 1b by summing up the signal values therein. In block 13, this value is divided by the length B F of the initial window and thus the average energy eF k is determined in this window.
  • a comparison 14 checks whether this mean value eF k is smaller than a stored value eF sp , and if this is the case, this smaller value is stored in block 15, ie eF sp is replaced by the current value eF k .
  • the energy ES k of the signal window with a minimum length is determined in block 16, i.e. the area under the speech signal curve between the points m2 and m3 in FIG the stored digital values are summed up in this area.
  • a comparison 17 then checks whether this energy ES k is greater than a stored energy ES sp .
  • the stored value is replaced by the new value in block 18, then or if the new value is not greater than the stored value, the mean energy ES k is determined in block 20 by the total energy ES k by the minimum width B s0 of the signal window is divided.
  • the width B of this window and of the other windows is given by the number of digital values contained therein.
  • a correction value thN is then determined in block 21 from the difference between the average energy eS k in the signal window and eF k in the initial window, which is divided by an assumed signal-to-noise ratio value SNR.
  • the average energy in the end window is determined in block 22 in a manner corresponding to that in the initial window.
  • Steps 12 to 22 run once for each newly arrived digital value, while connection point 23 now leads to a loop which is run through once for each permitted width of the signal window. These individual runs are indicated with index 1.
  • This loop is indicated in FIG. 2 b, which begins with the connection point 23.
  • this value 1 is set to the initial value zero.
  • the average energy value eF1 of the initial window at the respective shift 1 is determined from the minimum width of the signal window in accordance with block 13, and in block 31 the value determined in this way is determined in relation to the average energy value of the final window determined in block 22 and to that correction value thN determined in block 21 is added in order to determine the threshold value thr.
  • the energy ES 1 of the signal window is determined in the respective width by adding up the digital values in this window.
  • the threshold value thr multiplied by the respective width B S1 of the signal window, is subtracted from this value.
  • This effective energy EPS1 is regarded as the energy of the speech signal in the signal window, which protrudes beyond the interference signal, this interference signal can not be determined directly, but a probable value in the form of the threshold value is derived in the manner described above.
  • the recognition process can begin each time the values are stored in block 35, so that when the steady state is finally recognized in block 38, the recognition process can already be well advanced that faster detection, possibly detection in real time, is possible in this way.
  • a sound converter 40 picks up a speech signal and converts it into an electrical signal. This is fed to a unit 42 which takes samples from the continuous signal at regular time intervals and digitizes them. The unit 44 selects the smallest from three consecutive digitized samples and feeds the digital values thus determined to a memory 50. If the unit 42 takes a sample value from the speech signal every 10 ms, the memory 50 thus receives a new digital value every 30 ms. This is stored at an address which is supplied by a control unit 52 via the connection 53.
  • control unit 52 also addresses the memory 50 for reading out the stored digital values, which are fed to a computing unit 54.
  • these is also controlled by the control unit 52 via a connection 51 and carries out the computing steps which are indicated in the flowchart in FIGS. 2a and 2b with the blocks 12, 13, 16, 20 to 22 and 30 to 33.
  • the computing unit 54 determines the energy in the initial window by summing up the corresponding digital values addressed by the control unit in the memory 50 and forms the average energy. This is fed via line 55 to a comparator 58 which receives the corresponding previously stored value at the other input from a second memory 56 via its data output line 57.
  • the second memory 56 is also addressed by the control unit 52 via the line 59.
  • comparator 58 If the newly determined value on line 55 is smaller than the stored value on line 57, comparator 58 generates a corresponding signal and feeds it to second memory 56, so that the new one is now at the addressed location the line 55 existing value is stored. This corresponds to blocks 14 and 17 in Fig. 2a.
  • the other calculations and comparisons are also carried out in a corresponding manner, the computing unit 54 receiving the values required there, in particular in steps 21, 31 and 33, from the second memory 56 via the line 57.
  • the control unit 52 supplies these values to the data input of the second memory 56 via the line 69.
  • the counter 60 which counts the index 1.
  • the counter 60 is set to the initial position by the control unit 52 via line 65 and supplied with counting clocks, as indicated in steps 29 and 36 in FIG. 2b.
  • the comparison 38 is expediently carried out in the control unit 52.
  • control unit 52 and the computing unit 54 are formed by a microprocessor. This can then also take over the function of the comparator 58 and the counter 60, so that overall a very simple structure results.

Abstract

To determine the beginning and end point of a word signal within a speech signal from words spoken in isolation, three adjacent windows for the last stored digital values which have previously arrived are determined with each new digital value, the centre window of which is to contain the actual word signal. The length of this centre window is varied between a minimum and a maximum value for each digital value and from the energy contained therein, a threshold value is in each case subtracted which is determined from the two adjacent windows. In this manner, the method according to the invention in each case takes into consideration the complete speech signal instead of individual isolated regions, as a result of which the end point can be determined more reliably. …<IMAGE>…

Description

Die Erfindung betrifft ein Verfahren zum Bestimmen von Anfangspunkt und Endpunkt eines Wortsignals entsprechend einem isoliert gesprochenen Wort in einem Sprachsignal durch Ermittlung eines Extremwertes in einer vom Sprach­signal abgeleiteten Folge von Digitalwerten bei Berück­sichtigung von den Extremwert umgebenden Werten des Signalverlaufs und eines Schwellwertes.The invention relates to a method for determining the starting point and end point of a word signal corresponding to an isolated spoken word in a speech signal by determining an extreme value in a sequence of digital values derived from the speech signal, taking into account values of the signal curve surrounding the extreme value and a threshold value.

Derartige Verfahren zur Bestimmung von Anfangs- und End­punkt in einem Sprachsignal werden insbesondere verwendet, wenn das Sprachsignal aus isoliert gesprochenen Wörtern oder sehr kurzen Wortgruppen besteht und diese Wörter bzw. Wortgruppen automatisch erkannt werden sollen. Das eigentliche Wortsignal ist bei fast allen Anwendungen im Sprachsignal durch Störungen und Rauschen und Pausen sowie durch Nebengeräusche wie lautes Einatmen begleitet. Für eine möglichst zuverlässige Erkennung des oder der Wörter im Sprachsignal ist es jedoch wichtig, genau mit dem Sprachsignalteil die Erkennung zu beginnen, die auch den Anfang des zu erkennenden Wortes darstellt.Such methods for determining the start and end point in a speech signal are used in particular if the speech signal consists of words spoken in isolation or very short word groups and these words or word groups are to be recognized automatically. In almost all speech signal applications, the actual word signal is accompanied by interference and noise and pauses as well as by background noise such as loud inhalation. However, for the most reliable recognition of the word or words in the speech signal, it is important to start the recognition precisely with the speech signal part, which also represents the beginning of the word to be recognized.

Es sind bereits verschiedene Verfahren zur Bestimmung von Anfangs- und Endpunkt bekannt. In ICASSP 84 Proceedings, 19. bis 21. März 1984, St. Diego, Kalifornia, ist auf den Seiten 18B.7.1 bis 18B.7.4 ein Verfahren zur Detektion von Endpunkten in einem Sprachsignal beschrieben, das mit der Autokorrelationsmatrix des Sprachsignals arbeitet. Eine solche Matrix ist nur mit einem erheblichen Rechenaufwand zu bilden, und die Ergebnisse sind nicht unter allen Bedingungen befriedigend. In der WO 86/03047 wird ein Endpunktdetektor verwendet, der das Sprachsignal in Blöcke unterteilt, die einander überlappen. Diese Blöcke sind jedoch festgelegt, unabhängig von dem Verlauf des Sprachsignals, und es wird der Block mit der maximalen Energie festgestellt und der davorliegende Block mit einer Energie unterhalb eines Schwellwertes bestimmt, der um ein bestimmtes Maß unter der maximalen Energie liegt. Mit weiteren aufwendigen Schritten werden dann eine Anzahl derartiger Maxima und deren Dauer ermittelt und daraus längerdauernde Energiemaxima errechnet. Auch hierbei ist insbesondere bei Überlagerung des Sprachsignals mit stärkeren Störungen eine zuverlässige Endpunkterkennung schwierig und unzuverlässig.Various methods for determining the start and end point are already known. ICASSP 84 Proceedings, March 19-21, 1984, St. Diego, California, on pages 18B.7.1 to 18B.7.4 describes a method for the detection of end points in a speech signal which works with the autocorrelation matrix of the speech signal. Such a matrix can only be formed with a considerable amount of computation, and the results are not satisfactory under all conditions. In WO 86/03047 an end point detector is used which divides the speech signal into blocks divided that overlap each other. However, these blocks are fixed, regardless of the course of the speech signal, and the block with the maximum energy is determined and the block in front with it is determined with an energy below a threshold value which is a certain amount below the maximum energy. A number of such maxima and their duration are then determined with further complex steps and longer energy maxima are calculated therefrom. Here too, reliable endpoint recognition is difficult and unreliable, particularly when the speech signal is overlaid with stronger interference.

Aufgabe der Erfindung ist es daher, ein Verfahren der eingangs genannten Art anzugeben, das eine möglichst zuverlässige Anfangs- und Endpunktbestimmung auch bei Sprachsignalen ermöglicht, die durch wesentliche Stör­signale überlagert sind.The object of the invention is therefore to provide a method of the type mentioned at the outset which enables the most reliable possible determination of the start and end point even in the case of speech signals which are overlaid by essential interference signals.

Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß eine Anzahl vorher aufeinanderfolgend eingetroffener Digitalwerte drei benachbarten Fenstern zugeordnet werden, von denen das erste Fenster (Endfenster) eine vorgegebene erste Anzahl der zuletzt eingetroffenen Digitalwerte, das zweite Fenster (Signalfenster) eine zwischen einem vorgegebenen ersten Wert und einem vorgegebenen größeren zweiten Wert variierende zweite Anzahl Digitalwerte und das dritte Fenster (Anfangsfenster) eine vorgegebene dritte Anzahl Digitalwerte umfaßt, daß für jeden neuen Digitalwert aus den Digitalwerten im ersten Fenster und aufeinanderfolgend für je einen Wert der zweiten Anzahl aus den Digitalwerten des zugehörigen dritten Fensters ein Schwellwert gebildet wird, um den jeder Digitalwert des zweiten Fensters vermindert wird, daß die Summe der so verminderten Digitalwerte für jeden Wert der zweiten Anzahl mit einer höchsten früher auf gleiche Weise gebil­deten Summe verglichen und abhängig vom Vergleichsergebnis als neue höchste Summe zusammen mit Lageangaben über die Lage des zweiten Fensters innerhalb der Folge der Digital­werte gespeichert wird, und daß die zuletzt gespeicherten Lageangaben den Anfangspunkt und den Endpunkt des Wortsignals angeben.This object is achieved in that a number of previously successively arriving digital values are assigned to three adjacent windows, of which the first window (end window) a predetermined first number of the last arrived digital values, the second window (signal window) one between a predetermined first value and a predetermined larger second value varying second number of digital values and the third window (initial window) comprises a predetermined third number of digital values that for each new digital value from the digital values in the first window and successively for each value of the second number from the digital values of the associated third window a threshold is formed by which each digital value of the second window is reduced, that the sum of the digital values thus reduced for each value of the second Number compared with a highest sum previously formed in the same way and, depending on the comparison result, is stored as a new highest sum together with position information about the position of the second window within the sequence of the digital values, and that the position information last saved indicate the starting point and the end point of the word signal .

Es werden also keine festen Schwellwerte oder einfache absolute Maxima verwendet, sondern es werden quasi ver­schiedene Anfangs- und Endpunkte im Sprachsignal ange­nommen und dafür geprüft, ob die Energie des darin ent­haltenen Sprachsignals jeweils größer ist als bei anderen angenommenen Endpunkten, wobei ein Schwellwert subtrahiert wird, der aus den benachbarten Bereichen zu beiden Seiten des angenommenen Bereichs des Wortsignals bestimmt wird. Auf diese Weise wird also kein lokales, sondern ein globales Kriterium über das gesamte Sprachsignal ver­wendet, indem nur ein derartiges Sprachsignal als Wort­signal gewertet wird, das über seine Umgebung maximal herausragt. Da die minimale und maximale Breite des zweiten Fensters, das also das Wortsignal darstellt, begrenzt ist, ist eine zusätzliche Sicherheit gegen Störungen gegeben und besteht außerdem die Möglichkeit, mehrere hintereinander isoliert gesprochene Wörter ein­deutig voneinander zu trennen. Die Ermittlung von Anfangs- und Endpunkt erfolgt kontinuierlich mit dem Eintreffen des Sprachsignals, so daß für jede zumindest vorläufig optimale Bestimmung der Endpunkte bereits die Erkennung des Sprachsignals beginnen kann, wobei diese abgebrochen wird, wenn ein günstigerer Wert für die Endpunkte gefunden ist, so daß auch eine schnellere Erkennung möglich ist.So no fixed threshold values or simple absolute maxima are used, rather quasi different start and end points in the speech signal are assumed and it is checked whether the energy of the speech signal contained therein is respectively greater than at other assumed end points, a threshold value being subtracted, which is determined from the adjacent areas on both sides of the assumed area of the word signal. In this way, therefore, a local, rather than a global, criterion is used for the entire speech signal, in that only such a speech signal is evaluated as a word signal that projects as far as possible beyond its surroundings. Since the minimum and maximum width of the second window, which therefore represents the word signal, is limited, there is additional security against interference and there is also the possibility of clearly separating several words spoken in isolation. The determination of the start and end points takes place continuously with the arrival of the speech signal, so that for each at least provisionally optimal determination of the end points, the recognition of the speech signal can begin, which is terminated when a more favorable value for the end points is found, so that faster detection is also possible.

Um die Zuverlässigkeit weiter zu erhöhen und beispiels­weise kurze unbetonte Bereiche innerhalb eines Wortes nicht bereits als Endpunkt zu erkennen, ist es nach einer Ausgestaltung der Erfindung zweckmäßig, daß nur diejenigen Lageangaben, die für eine vorgegebene Anzahl aufeinander­folgend eingetroffener Digitalwerte unverändert geblieben sind, als Anfangspunkt und Endpunkt verwendet werden. Es wird also geprüft, ob nach dem Endpunkt eine ausreichend lange Sprachpause folgt.To further increase reliability and, for example, short unstressed areas within a word not already recognizable as the end point, it is expedient according to one embodiment of the invention that only those position information that have remained unchanged for a predetermined number of successively arriving digital values are used as the start point and end point. It is therefore checked whether there is a sufficiently long speech pause after the end point.

Der Schwellwert, der bei der Bestimmung der Endpunkte verwendet wird, sollte möglichst weitgehend vom Störsignal ausgehen, dessen Größe jedoch nicht ohne weiteres bekannt ist. Dies erfolgt erfindungsgemäß durch Berücksichtigung je eines Bereiches vor und nach der angenommenen Lage des Wortsignals. Besonders einfach kann dieser Schwellwert dadurch gebildet werden, daß der Schwellwert aus der Summe der Digitalwerte im ersten und im dritten Fenster und eines Korrekturwertes gebildet wird. Eine derartige Summenbildung kann sehr einfach und schnell durchgeführt werden.The threshold value that is used in the determination of the end points should originate as much as possible from the interference signal, the size of which is not, however, readily known. This is done according to the invention by taking into account a respective area before and after the assumed position of the word signal. This threshold value can be formed particularly easily by forming the threshold value from the sum of the digital values in the first and third window and a correction value. Such a sum formation can be carried out very easily and quickly.

Als Korrekturwert kann ein fester Wert gewählt werden, der beispielsweise eine allgemeine Qualität des Sprachsignals berücksichtigt. Eine weitere Ausgestaltung der Erfindung, bei der dieser Korrekturwert den Verlauf des Sprachsignals weiter berücksichtigt, ist dadurch gekennzeichnet, daß für jeden neuen Digitalwert beim kleinsten Wert der zweiten Anzahl die Summe der Digitalwerte des zweiten Fensters gebildet und abgespeichert wird, wenn eine vorher abge­speicherte zweite Fenstersumme kleiner ist, und die Summe der Digitalwerte des dritten Fensters gebildet und abge­speichert wird, wenn eine vorher abgespeicherte dritte Fenstersumme größer ist, und aus der Differenz der beiden abgespeicherten Fenstersummen der Korrekturwert gebildet wird. Auf diese Weise gehen also nicht nur die Bereiche außerhalb der angenommenen Endpunkte ein, sondern auch das Sprachsignal zwischen den Endpunkten. Insbesondere ist es zweckmäßig, daß der Korrekturwert die durch einen kon­stanten vorgegebenen Signal-Rausch-Verhältniswert divi­dierte Differenz der beiden Fenstersummen ist. Der vorge­gebene Signal-Rausch-Verhältniswert ist dann ein Maß für die mittlere Qualität des Sprachsignals und ist um so kleiner, je stärker das Sprachsignal gestört ist, wie dies beispielsweise bei Sprachübertragung über Telefonleitungen der Fall ist.A fixed value can be selected as the correction value, which takes into account, for example, a general quality of the speech signal. A further embodiment of the invention, in which this correction value further takes into account the course of the speech signal, is characterized in that for each new digital value at the smallest value of the second number, the sum of the digital values of the second window is formed and stored if a previously stored second window sum is smaller, and the sum of the digital values of the third window is formed and stored if a previously stored third window sum is larger, and the correction value is formed from the difference between the two stored window sums. In this way, not only the areas outside the assumed endpoints are included, but also that Voice signal between the endpoints. In particular, it is expedient that the correction value is the difference between the two window sums divided by a constant predetermined signal-to-noise ratio value. The predefined signal-to-noise ratio value is then a measure of the average quality of the voice signal and is smaller the more the voice signal is disturbed, as is the case, for example, with voice transmission over telephone lines.

Es kann in der Praxis leicht vorkommen, daß dem Sprach­signal Störsignale überlagert sind, die zwar sehr kurz sind, jedoch eine hohe Amplitude aufweisen. Um auch in diesem Falle die Sicherheit der Endpunkterkennung zu erhöhen, ist es nach einer weiteren Ausgestaltung der Erfindung zweckmäßig, daß als Digitalwert der kleinste von jeweils mehreren aufeinanderfolgenden digitalisierten Abtastwerten des Sprachsignals verwendet wird. Diese Maßnahme stellt ein sehr wirksames Filter für das Sprach­signal dar.In practice it can easily happen that interference signals are superimposed on the speech signal, which are very short but have a high amplitude. In order to increase the security of the end point detection in this case as well, it is expedient according to a further embodiment of the invention that the smallest of several successive digitized samples of the speech signal is used as the digital value. This measure represents a very effective filter for the speech signal.

Eine Anordnung zur Durchführung des erfindungsgemäßen Verfahrens, die einen ersten Speicher zur Aufnahme von aus einem Sprachsignal abgeleiteten Digitalwerten aufweist, ist gemäß der Erfindung gekennzeichnet durch einen zweiten Speicher zur Aufnahme von Zwischenergeb­nissen,
eine Recheneinheit, die die Digitalwerte aus dem ersten Speicher sowie Zwischenergebnisse aus dem zweiten Speicher empfängt und die Energie in jeweils einem der Fenster sowie die weiteren Zwischenergebnisse bestimmt,
einen Vergleicher zum Vergleichen von Zwischenergebnissen aus dem zweiten Speicher mit von der Recheneinheit ge­lieferten Werten und zum Steuern des Einschreibens der letzteren Werte in den zweiten Speicher,
eine Steuereinheit zum Adressieren des ersten und des zweiten Speichers und der Recheneinheit entsprechend den Verfahrensschritten, und
eine Zählanordnung zum Zählen der unterschiedlichen zweiten Anzahlen von Digitalwerten im zweiten Fenster und zum Abgeben eines Scheleifenendesignals an die Steuerein­heit nach einer vorgegebenen Anzahl unterschiedlicher zweiter Anzahlen. Die Steuereinheit kann eine Ablauf­steuerung sein, die durch ein gespeichertes Programm ge­steuert wird. Ein besonders einfacher Aufbau wird erhal­ten, wenn mindestens die Recheneinheit und die Steuerein­heit durch einen Mikroprozessor realisiert sind. Dieser kann gegebenenfalls auch die Funktion des Vergleichers und der Zählanordnung übernehmen.
An arrangement for carrying out the method according to the invention, which has a first memory for recording digital values derived from a speech signal, is characterized according to the invention by a second memory for recording intermediate results,
a computing unit which receives the digital values from the first memory and intermediate results from the second memory and determines the energy in each of the windows and the further intermediate results,
a comparator for comparing intermediate results from the second memory with values supplied by the computing unit and for controlling the writing of the latter values into the second memory,
a control unit for addressing the first and second memories and the computing unit in accordance with the method steps, and
a counting arrangement for counting the different second numbers of digital values in the second window and for delivering an end of loop signal to the control unit after a predetermined number of different second numbers. The control unit can be a sequence controller that is controlled by a stored program. A particularly simple structure is obtained if at least the computing unit and the control unit are implemented by a microprocessor. If necessary, this can also take over the function of the comparator and the counting arrangement.

Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung erläutert. Es zeigen

  • Fig. 1a und 1b mit verschiedenen Lagen der Fenster,
  • Fig. 2a und 2b ein Flußdiagramm für den Ablauf des Verfahrens zur Endpunktbestimmung,
  • Fig. 3 schematisch ein Blockschaltbild einer Anordnung zur Durchführung des Verfahrens.
Embodiments of the invention are explained below with reference to the drawing. Show it
  • 1a and 1b with different positions of the window,
  • 2a and 2b is a flow chart for the sequence of the method for determining the end point,
  • Fig. 3 schematically shows a block diagram of an arrangement for performing the method.

Der in Fig. 1a dargestellte beispielsweise Signalverlauf als Energie E oder Amplitude des Sprachsignals über die Zeit t sei momentan bis zum Zeitpunkt m1 eingetroffen und abgetastet und liegt in Form von digitalen Abtastwerten vor. Der kontinuierlich dargestellte Signalverlauf liegt also im digitalen Bereich als Folge diskreter Punkte vor, was jedoch die weitere Erläuterung nicht wesentlich beeinflußt.The signal curve shown in FIG. 1a, for example, as energy E or amplitude of the speech signal over time t has currently arrived and sampled up to time m1 and is in the form of digital samples. The continuously displayed signal curve is therefore present in the digital range as a sequence of discrete points, which, however, does not significantly influence the further explanation.

Der Signalverlauf wird nun in drei benachbarte Fenster eingeteilt, von denen das erste Fenster von den Abtast werten m1 bis m2 reicht und mit Endfenster bezeichnet wird, weil es zeitlich gesehen das vorläufige Ende des Sprachsignals darstellt. Das mittlere Fenster reicht von den Abtastwerten m2 bis zum Abtastwert m3. Hierin wird das eigentliche Wortsignal angenommen, das einen höheren Energiewert als die Sprachsignalteile davor und dahinter hat. Der Punkt m3 wird für das zu beschreibende Verfahren der Endpunktbestimmung schrittweise zwischen einem mini­malen Abstand und einem maximalen Abstand vom Zeitpunkt m2 verändert. Das dritte Fenster reicht vom jeweiligen Zeit­punkt m3 bis zum Zeitpunkt m4, deren Abstand wiederum konstant ist.The signal curve is now divided into three adjacent windows, of which the first window of the samples values range from m1 to m2 and is called the end window because it represents the temporary end of the speech signal in terms of time. The middle window ranges from the sample values m2 to the sample value m3. The actual word signal is accepted here, which has a higher energy value than the speech signal parts before and after it. The point m3 is gradually changed between a minimum distance and a maximum distance from the time m2 for the endpoint determination procedure to be described. The third window extends from the respective time m3 to time m4, the distance between which is again constant.

Es sei bemerkt, daß jeder Abstandswert nur zu einem der Fenster gehören kann, d.h. das mittlere Fenster beginnt, wenn das erste Fenster bis zum Abtastwert zum Zeitpunkt m2 reicht, mit dem unmittelbar links danebenliegenden Abtast­wert, und entsprechendes gilt auch für das dritte Fenster. Der Einfachheit halber wird diese Tatsache in der folgenden Erläuterung nicht weiter betont, sondern weiter­hin ein quasi kontinuierlicher Signalverlauf angenommen.It should be noted that each distance value can only belong to one of the windows, i.e. the middle window begins, when the first window reaches the sample value at the time m2, with the sample value immediately to the left, and the same applies to the third window. For the sake of simplicity, this fact is not further emphasized in the following explanation, but continues to assume a quasi-continuous signal curve.

In Fig. 1b ist ein späterer Zeitpunkt angenommen, bei dem das Sprachsignal bereits bis zum Zeitpunkt n1 eingetroffen ist. Außerdem ist ein größeres Signalfenster angenommen, so daß dessen Beginn beim Zeitpunkt n3 weiter vom Zeit­punkt n2 entfernt liegt als bei Fig. 1a. Entsprechend liegt dann auch der Zeitpunkt n4 als Beginn des Anfangs­fensters zu einem noch früheren Zeitpunkt.1b assumes a later point in time at which the voice signal has already arrived by the point in time n1. In addition, a larger signal window is assumed, so that its start at time n3 is further away from time n2 than in FIG. 1a. Correspondingly, the point in time n4 is the beginning of the initial window at an even earlier point in time.

Ein wesentliches Kriterium bei der Bestimmung der End­punkte des Sprachsignals ist die Fläche des Sprachsignals innerhalb des Signalfensters, vermindert um einen Schwell­wert SW, der u.a. von der Fläche unter dem Sprachsignal im ersten und im dritten Fenster abhängt. Die Flächen unter dem Sprachsignal werden im übrigen durch die Summe der digitalisierten Abtastwerte innerhalb des jeweiligen Fensters dargestellt.An essential criterion when determining the end points of the speech signal is the area of the speech signal within the signal window, reduced by a threshold value SW, which depends, among other things, on the area under the speech signal in the first and in the third window. The areas under the speech signal is represented by the sum of the digitized samples within the respective window.

In Fig. 1a ist die Fläche in dem Anfangs- und Endfenster noch relativ groß, so daß sich ein höherer Schwellwert SWm ergibt. Aus der Figur ist unmittelbar zu erkennen, daß die um den Schwellwert verminderte Fläche im mittleren Fenster größer wird, wenn Anfangs- und Endfenster weiter aus­einandergezogen werden, d.h. wenn die noch folgenden ein­treffenden Teile des Signalverlaufs abgewartet werden und die Breite des Signalfensters größer gewählt wird.In Fig. 1a, the area in the start and end window is still relatively large, so that there is a higher threshold SW m . From the figure it can be seen immediately that the area reduced by the threshold value in the middle window becomes larger when the start and end windows are pulled further apart, ie when the subsequent arriving parts of the signal curve are waited for and the width of the signal window is chosen to be larger.

In Fig. 1b ist dieser Fall nun dargestellt, wobei die Fläche unter dem Sprachsignal im Anfangs- und im End­fenster nun wesentlich kleiner ist, so daß auch der Schwellwert SWn niedriger liegt, jedoch ist nun zu erkennen, daß die Teile des Sprachsignals, die dem Anfangs- und Endfenster am nächsten liegen, einen nega­tiven Beitrag zur Gesamtfläche im Signalfenster abzüglich des Schwellwertes SWn liefern, da diese Signalwerte kleiner sind als der Schwellwert. Bei der optimalen Entscheidung fallen Anfangs- und Endpunkt auf Zeiten, bei denen der Signalwert gleich dem Schwellwert ist. Der Bereich des Sprachsignals, der innerhalb dieses Signalfensters kurzzeitig unterhalb des Schwellwerts SWn liegt, liefert zwar ebenfalls einen negativen Beitrag, der jedoch durch den links davon liegenden höheren Signalabschnitt übertroffen wird, so daß sich durch Verlängern des mittleren Fensters über diesen Bereich des Sprachsignals hinaus insgesamt eine Vergrößerung der Gesamtfläche im Signalfenster oberhalb des Schwellwertes SWn ergibt. Der vorher genannte Anfangs- und Endpunkt wird mit dem Verfahren entsprechend dem Flußdiagramm in Fig. 2a und 2b bestimmt.In Fig. 1b this case is now shown, the area under the speech signal in the start and in the end window is now significantly smaller, so that the threshold SW n is lower, but it can now be seen that the parts of the speech signal closest to the start and end window, make a negative contribution to the total area in the signal window minus the threshold value SW n , since these signal values are smaller than the threshold value. In the optimal decision, the start and end points fall on times when the signal value is equal to the threshold value. The area of the speech signal that is briefly below the threshold value SW n within this signal window also makes a negative contribution, but is exceeded by the higher signal section to the left of it, so that extending the middle window extends beyond this area of the speech signal overall an increase in the total area in the signal window above the threshold value SW n results. The aforementioned start and end point will be determined with the method according to the flow chart in Figs. 2a and 2b.

Das Symbol 10 bedeutet den Start des gesamten Ablaufs, d.h. den Beginn des Sprachsignals. Im Block 11 werden verschiedene Anfangswerte eingestellt, eine Anzahl Abtast­werte entsprechend der Länge des Endfensters, des mini­malen Signalfensters und des Anfangsfensters abgewartet, bevor das Verfahren starten kann, sowie eine spezielle Filterfunktion durchgeführt. Diese besteht darin, daß von jeweils drei aufeinanderfolgenden Abtastwerten der kleinste Wert gewählt und als Digitalwert dem Verfahren zugeführt wird. Beispielsweise wird alle 10 ms ein Abtast­wert dem Sprachsignal entnommen, der den Momentanwert oder den integrierten Wert seit dem letzten Abtastwert dar­stellt, und die Abtastwerte werden digitalisiert. Wenn von jeweils drei aufeinanderfolgenden Abtastwerten der kleinste ausgewählt wird, werden dem Verfahren also alle 30 ms ein Digitalwert zugeführt, so daß für die Durch­führung der folgenden Verfahrensschritte 30 ms zur Ver­fügung stehen. Die zugeführten Digitalwerte werden gespeichert, da sie zu späteren Zeitpunkten noch benötigt werden, und zwar mindestens über eine Signaldauer, die der Summe aus der vorgegebenen maximalen Dauer des Signal­fensters und der beiden anderen Fenster entspricht.The symbol 10 means the start of the entire process, i.e. the beginning of the speech signal. In block 11, various initial values are set, a number of samples corresponding to the length of the end window, the minimum signal window and the initial window are waited for before the method can start, and a special filter function is carried out. This consists in the fact that the smallest value is selected from each three consecutive samples and is fed to the method as a digital value. For example, every 10 ms a sample value is taken from the speech signal which represents the instantaneous value or the integrated value since the last sample value, and the sample values are digitized. If the smallest of three successive sample values is selected, a digital value is supplied to the method every 30 ms, so that 30 ms are available for carrying out the following method steps. The supplied digital values are saved because they will still be needed at later times, at least for a signal duration that corresponds to the sum of the predetermined maximum duration of the signal window and the two other windows.

Im Block 12 wird die Energie EFk im Anfangsfenster zwischen den Punkten m3 und m4 in Fig. 1a bzw. n3 und n4 in Fig. 1b durch Aufsummieren der darin liegenden Signal­werte bestimmt. Im Block 13 wird dieser Wert durch die Länge BF des Anfangsfensters dividiert und damit die mittlere Energie eFk in diesem Fenster bestimmt.In block 12, the energy EF k is determined in the initial window between the points m3 and m4 in FIG. 1a or n3 and n4 in FIG. 1b by summing up the signal values therein. In block 13, this value is divided by the length B F of the initial window and thus the average energy eF k is determined in this window.

In einem Vergleich 14 wird geprüft, ob dieser mittlere Wert eFk kleiner ist als ein gespeicherter Wert eFsp, und wenn dies der Fall ist, wird im Block 15 dieser kleinere Wert gespeichert, d.h. eFsp wird durch den momentanen Wert eFk ersetzt. Nach dem Block 15 oder wenn der neue Wert nicht kleiner ist als der gespeicherte Wert wird im Block 16 die Energie ESk des Signalfensters mit minimaler Länge bestimmt, also die Fläche unter dem Sprachsignal­verlauf zwischen den Punkten m2 und m3 in Fig. 1a, wofür ebenfalls die gespeicherten Digitalwerte in diesem Bereich aufsummiert werden. Danach wird in einem Vergleich 17 geprüft, ob diese Energie ESk größer ist als eine ge­speicherte Energie ESsp. Wenn dies der Fall ist, wird im Block 18 der gespeicherte Wert durch den neuen Wert ersetzt, danach oder wenn der neue Wert nicht größer ist als der gespeicherte Wert, wird im Block 20 die mittlere Energie ESk bestimmt, indem die Gesamtenergie ESk durch die minimale Breite Bs0 des Signalfensters dividiert wird. Die Breite B dieses Fensters sowie der anderen Fenster wird jeweils durch die Anzahl darinliegender Digitalwerte angegeben.A comparison 14 checks whether this mean value eF k is smaller than a stored value eF sp , and if this is the case, this smaller value is stored in block 15, ie eF sp is replaced by the current value eF k . After block 15 or if the new value is not less than the stored value, the energy ES k of the signal window with a minimum length is determined in block 16, i.e. the area under the speech signal curve between the points m2 and m3 in FIG the stored digital values are summed up in this area. A comparison 17 then checks whether this energy ES k is greater than a stored energy ES sp . If this is the case, the stored value is replaced by the new value in block 18, then or if the new value is not greater than the stored value, the mean energy ES k is determined in block 20 by the total energy ES k by the minimum width B s0 of the signal window is divided. The width B of this window and of the other windows is given by the number of digital values contained therein.

Danach wird im Block 21 ein Korrekturwert thN aus der Differenz zwischen der mittleren Energie eSk im Signal­fenster und eFk im Anfangsfenster, die durch einen ange­nommenen Signal-Rausch-Verhältniswert SNR dividiert wird, bestimmt. Schließlich wird im Block 22 die mittlere Energie im Endfenster, also zwischen den Punkten m1 und m2 in Fig. 1a oder n1 und n2 in Fig. 1b auf entsprechende Weise wie im Anfangsfenster bestimmt.A correction value thN is then determined in block 21 from the difference between the average energy eS k in the signal window and eF k in the initial window, which is divided by an assumed signal-to-noise ratio value SNR. Finally, the average energy in the end window, that is to say between the points m1 and m2 in FIG. 1a or n1 and n2 in FIG. 1b, is determined in block 22 in a manner corresponding to that in the initial window.

Die Schritte 12 bis 22 laufen bei jedem neu eingetroffenen Digitalwert einmal ab, während der Verbindungspunkt 23 nun zu einer Schleife führt, die für jede zugelassene Breite des Signalfensters einmal durchlaufen wird. Diese einzel­nen Durchläufe werden mit dem Index 1 angedeutet.Steps 12 to 22 run once for each newly arrived digital value, while connection point 23 now leads to a loop which is run through once for each permitted width of the signal window. These individual runs are indicated with index 1.

In Fig. 2b ist diese Schleife angegeben, die mit dem Verbindungspunkt 23 beginnt. Im Block 29 wird dieser Wert 1 auf den Anfangswert Null gesetzt. Im folgenden Block 30 wird der mittlere Energiewert eF₁ des Anfangs­fensters bei der jeweiligen Verschiebung 1 von der minimalen Breite des Signalfensters aus entsprechend Block 13 bestimmt, und im Block 31 wird der so ermittelte Wert zu dem im Block 22 ermittelten mittleren Energiewert des Endfensters und zu dem im Block 21 ermittelten Korrekturwert thN addiert, um den Schwellwert thr zu ermitteln. Danach wird im Block 32 die Energie ES₁ des Signalfensters in der jeweiligen Breite durch Aufsummieren der Digitalwerte in diesem Fenster bestimmt. Im Block 33 wird schließlich von diesem Wert der Schwellwert thr, multipliziert mit der jeweiligen Breite BS1 des Signal­fensters, subtrahiert. Dies ist die Fläche unter dem Signalverlauf in Fig. 1a zwischen den Punkten m2 und m3 bzw. in Fig. 1b zwischen den Punkten n2 und n3, vermindert um die Fläche unterhalb des Schwellwertes SWm bzw. SWn zwischen diesen Punkten. Diese effektive Energie EPS₁ wird als die Energie des Sprachsignals in dem Signalfenster angesehen, die über das Störsignal hinausragt, wobei dieses Störsignal nicht direkt ermittelt werden kann, sondern ein wahrscheinlicher Wert in Form des Schwell­wertes in der vorher beschriebenen Weise abgeleitet wird.This loop is indicated in FIG. 2 b, which begins with the connection point 23. In block 29, this value 1 is set to the initial value zero. In the following block 30, the average energy value eF₁ of the initial window at the respective shift 1 is determined from the minimum width of the signal window in accordance with block 13, and in block 31 the value determined in this way is determined in relation to the average energy value of the final window determined in block 22 and to that correction value thN determined in block 21 is added in order to determine the threshold value thr. Then in block 32 the energy ES 1 of the signal window is determined in the respective width by adding up the digital values in this window. Finally, in block 33, the threshold value thr, multiplied by the respective width B S1 of the signal window, is subtracted from this value. This is the area under the signal curve in Fig. 1a between the points m2 and m3 or in Fig. 1b between the points n2 and n3, minus the area below the threshold value SW m or SW n between these points. This effective energy EPS₁ is regarded as the energy of the speech signal in the signal window, which protrudes beyond the interference signal, this interference signal can not be determined directly, but a probable value in the form of the threshold value is derived in the manner described above.

Beim Vergleich 34 wird geprüft, ob diese zuletzt ermittel­te effektive Energie EPSe des Sprachsignals über einem ge­speicherten Wert EPSS liegt. Wenn dies der Fall ist, wird im Block 35 dieser neue Wert abgespeichert, ferner wird gespeichert, bei welchem zuletzt eingetroffenen Digitalwert dies erfolgt ist, indem ein momentaner Index k als Wert ksp gespeichert wird, und ferner werden Anfangs- und Endpunkt des Signalfensters, d.h. die Werte m2 und m3 in Fig. 1a bzw. n2 und n3 in Fig. 1b ge­ speichert. Daran anschließend oder, wenn beim Vergleich 34 der neue Wert nicht größer ist als der gespeicherte, wird im Block 36 der Schleifenwert 1 um 1 erhöht, und im Vergleich 37 wird geprüft, ob dieser Wert 1 den vorge­gebenen Maximalwert L entsprechend der maximalen Breite des Signalfensters erreicht hat. Wenn dies nicht der Fall ist, wird zum Block 30 zurückgegangen.In comparison 34, it is checked whether this last-determined effective energy EPS e of the speech signal is above a stored value EPS S. If this is the case, this new value is stored in block 35, the last digital value that was received is saved by storing a current index k as the value k sp , and the start and end point of the signal window, ie the values m2 and m3 in Fig. 1a or n2 and n3 in Fig. 1b ge saves. Subsequent to this, or if the new value in comparison 34 is not greater than the stored value, the loop value 1 is increased by 1 in block 36, and it is checked in comparison 37 whether this value 1 corresponds to the predetermined maximum value L corresponding to the maximum width of the signal window has reached. If not, the process returns to block 30.

Anderenfalls wird im Vergleich 38 geprüft, ob das ge­fundene Maximum der Energie im Sprachfenster stationär ist, d.h. ob eine ausreichende Anzahl KST von weiteren Digitalwerten zugeführt worden ist, ohne daß ein höherer Energiewert gefunden worden ist. Wenn dies nicht der Fall ist, wird zum Block 12 zurückgegangen und der nächste Digitalwert verarbeitet. Wenn jedoch seit einer vorgege­benen Anzahl neu zugeführter Digitalwerte keine höhere Energie im Signalfenster festgestellt worden ist, wird angenommen, daß die zuletzt im Block 35 abgespeicherte effektive Energie dasjenige Signalfenster angibt, das dem Wortsignal innerhalb des Sprachsignals am besten ent­spricht, und die dabei abgespeicherten Lagewerte des Fensters, d.h. die Punkte m2 und m3 bzw. n2 und n3 geben den gesuchten Anfangspunkt und Endpunkt des Wortsignals an.Otherwise, it is checked in comparison 38 whether the maximum energy found in the speech window is stationary, ie whether a sufficient number K ST of additional digital values has been supplied without a higher energy value having been found. If this is not the case, the process returns to block 12 and the next digital value is processed. However, if no higher energy has been detected in the signal window since a predetermined number of newly added digital values, it is assumed that the effective energy last stored in block 35 indicates the signal window that best corresponds to the word signal within the speech signal, and the position values of the stored Window, ie the points m2 and m3 or n2 and n3 indicate the searched start point and end point of the word signal.

In dem Flußdiagramm in Fig. 2a und 2b sind nur die not­wendigsten Verfahrensschritte angegeben. Es sind Ein­sparungen bei der Durchführung der Rechenschritte in dem Verfahren insbesondere dadurch möglich, daß Zwischenwerte gespeichert werden. Beispielsweise können die Energie­werte EFk bzw. die entsprechenden mittleren Energiewerte, die in dem Block 12 bzw. 13 ermittelt worden sind, stets zwischengespeichert werden, da diese bei den folgenden zugeführten Digitalwerten wieder verwendet werden können, denn das Anfangsfenster für die kleinste Breite des Signalfensters für einen bestimmten Digitalwert hat die gleiche Lage wie das Anfangsfenster bei dem folgenden Digitalwert, wenn das Signalfenster um eine Einheit gegen­über dem minimalen Wert vergrößert ist, usw. Entsprechen­des gilt auch für die Energie im Signalfenster. Diese Einsparung an Rechenzeit erfordert jedoch einen höheren Speicherungs- und Adressensteuerungsaufwand für die Zwischenspeicher.Only the most necessary process steps are indicated in the flow chart in FIGS. 2a and 2b. Savings in performing the arithmetic steps in the method are possible in particular by storing intermediate values. For example, the energy values EF k or the corresponding mean energy values, which were determined in blocks 12 and 13, can always be temporarily stored, since these can be used again in the following digital values that are supplied. because the initial window for the smallest width of the signal window for a certain digital value has the same position as the initial window for the following digital value, if the signal window is enlarged by one unit compared to the minimum value, etc. The same applies to the energy in the signal window. However, this saving in computing time requires a higher storage and address control effort for the buffers.

Wenn das beschriebene Verfahren in Verbindung mit auto­matischer Spracherkennung verwendet wird, kann der Er­kennungsvorgang bei jedem neuen Abspeichern der Werte im Block 35 beginnen, so daß dann, wenn der stationäre Zu­stand im Block 38 schließlich erkannt ist, das Erkennungs­verfahren bereits weit fortgeschritten sein kann, so daß auf diese Weise eine schnellere Erkennung, ggf. eine Erkennung in Echtzeit, möglich ist.If the described method is used in conjunction with automatic speech recognition, the recognition process can begin each time the values are stored in block 35, so that when the steady state is finally recognized in block 38, the recognition process can already be well advanced that faster detection, possibly detection in real time, is possible in this way.

Bei der in Fig. 3 dargestellten Anordnung nimmt ein Schallwandler 40 ein Sprachsignal auf und setzt es in ein elektrisches Signal um. Dieses wird einer Einheit 42 zugeführt, die dem kontinuierlichen Signal in regelmäßigen Zeitabständen Abtastwerte entnimmt und diese digitali­siert. Die Einheit 44 wählt aus jeweils drei aufeinander­folgenden digitalisierten Abtastwerten den kleinsten aus und führt die so ermittelten Digitalwerte einem Speicher 50 zu. Wenn die Einheit 42 alle 10 ms einen Abtastwert dem Sprachsignal entnimmt, erhält der Speicher 50 also alle 30 ms einen neuen Digitalwert. Dieser wird an einer Adresse abgespeichert, die von einer Steuereinheit 52 über die Verbindung 53 zugeführt wird.In the arrangement shown in FIG. 3, a sound converter 40 picks up a speech signal and converts it into an electrical signal. This is fed to a unit 42 which takes samples from the continuous signal at regular time intervals and digitizes them. The unit 44 selects the smallest from three consecutive digitized samples and feeds the digital values thus determined to a memory 50. If the unit 42 takes a sample value from the speech signal every 10 ms, the memory 50 thus receives a new digital value every 30 ms. This is stored at an address which is supplied by a control unit 52 via the connection 53.

Entsprechend adressiert die Steuereinheit 52 den Speicher 50 auch zum Auslesen der gespeicherten Digital­werte, die einer Recheneinheit 54 zugeführt werden. Diese wird ebenfalls von der Steuereinheit 52 über eine Verbin­dung 51 gesteuert und führt die Rechenschritte aus, die in dem Flußdiagramm in Fig. 2a und 2b mit den Blöcken 12, 13, 16, 20 bis 22 und 30 bis 33 angegeben sind. Insbesondere bestimmt die Recheneinheit 54 die Energie im Anfangs­fenster durch Aufsummieren der entsprechenden, von der Steuereinheit im Speicher 50 adressierten Digitalwerte und bildet die mittlere Energie. Diese wird über die Leitung 55 einem Vergleicher 58 zugeführt, der am anderen Eingang aus einem zweiten Speicher 56 über dessen Daten­ausgangsleitung 57 den entsprechenden früher gespeicherten Wert empfängt. Der zweite Speicher 56 wird dabei ebenfalls von der Steuereinheit 52 über die Leitung 59 adressiert. Wenn der auf der Leitung 55 vorhandene, neu ermittelte Wert kleiner ist als der auf der Leitung 57 vorhandene gespeicherte Wert, erzeugt der Vergleicher 58 ein ent­sprechendes Signal und führt es dem zweiten Speicher 56 zu, so daß nun an der adressierten Stelle der neue, auf der Leitung 55 vorhandene Wert gespeichert wird. Dies ent­spricht den Blöcken 14 und 17 in Fig. 2a. In entsprechen­der Weise werden auch die anderen Berechnungen und Vergleiche durchgeführt, wobei die Recheneinheit 54 insbesondere bei den Schritten 21, 31 und 33 die dort erforderlichen Werte aus dem zweiten Speicher 56 über die Leitung 57 erhält. Für das Abspeichern der weiteren Werte beim Schritt 35 führt die Steuereinheit 52 diese Werte über die Leitung 69 dem Dateneingang des zweiten Speichers 56 zu.Correspondingly, the control unit 52 also addresses the memory 50 for reading out the stored digital values, which are fed to a computing unit 54. These is also controlled by the control unit 52 via a connection 51 and carries out the computing steps which are indicated in the flowchart in FIGS. 2a and 2b with the blocks 12, 13, 16, 20 to 22 and 30 to 33. In particular, the computing unit 54 determines the energy in the initial window by summing up the corresponding digital values addressed by the control unit in the memory 50 and forms the average energy. This is fed via line 55 to a comparator 58 which receives the corresponding previously stored value at the other input from a second memory 56 via its data output line 57. The second memory 56 is also addressed by the control unit 52 via the line 59. If the newly determined value on line 55 is smaller than the stored value on line 57, comparator 58 generates a corresponding signal and feeds it to second memory 56, so that the new one is now at the addressed location the line 55 existing value is stored. This corresponds to blocks 14 and 17 in Fig. 2a. The other calculations and comparisons are also carried out in a corresponding manner, the computing unit 54 receiving the values required there, in particular in steps 21, 31 and 33, from the second memory 56 via the line 57. To store the further values in step 35, the control unit 52 supplies these values to the data input of the second memory 56 via the line 69.

Ferner ist noch ein Zähler 60 vorhanden, der den Index l zählt. Über die Leitung 65 wird der Zähler 60 von der Steuereinheit 52 auf die Anfangsstellung gesetzt und mit Zähltakten versorgt, wie bei den Schritten 29 und 36 in Fig. 2b angegeben ist. Jeweils wenn der Zähler 60 eine Anzahl L Taktsignale empfangen hat, die dem Unterschied zwischen dem kleinsten und dem größten Signalfenster ent­spricht, gibt er über die Leitung 63 ein Schleifenende­signal an die Steuereinheit 52 ab. Dies entspricht dem Vergleich 37 in Fig. 2b. Der Vergleich 38 wird zweckmäßig in der Steuereinheit 52 durchgeführt.There is also a counter 60 which counts the index 1. The counter 60 is set to the initial position by the control unit 52 via line 65 and supplied with counting clocks, as indicated in steps 29 and 36 in FIG. 2b. Each time the counter 60 has received a number of L clock signals, the difference between the smallest and the largest signal window, it outputs an end-of-loop signal to the control unit 52 via the line 63. This corresponds to comparison 37 in FIG. 2b. The comparison 38 is expediently carried out in the control unit 52.

Eine einfache Realisierung der Anordnung nach Fig. 3 besteht darin, daß die Steuereinheit 52 und die Rechen­einheit 54 durch einen Mikroprozessor gebildet werden. Dieser kann dann auch noch die Funktion des Ver­gleichers 58 und des Zählers 60 übernehmen, so daß sich insgesamt ein sehr einfacher Aufbau ergibt.A simple implementation of the arrangement according to FIG. 3 is that the control unit 52 and the computing unit 54 are formed by a microprocessor. This can then also take over the function of the comparator 58 and the counter 60, so that overall a very simple structure results.

Claims (8)

1. Verfahren zum Bestimmen von Anfangspunkt und End­punkt eines Wortsignals entsprechend einem isoliert gesprochenen Wort in einem Sprachsignal durch Ermittlung eines Extremwertes in einer vom Sprachsignal abgeleiteten Folge von Digitalwerten bei Berücksichtigung von den Extremwert umgebenden Werten des Signalverlaufs und eines Schwellwertes,
dadurch gekennzeichnet, daß eine Anzahl vorher aufein­anderfolgend eingetroffener Digitalwerte drei benachbarten Fenstern zugeordnet werden, von denen das erste Fenster (Endfenster) eine vorgegebene erste Anzahl (BR) der zuletzt eingetroffenen Digitalwerte, das zweite Fenster (Signalfenster) eine zwischen einem vorgegebenen ersten Wert und einem vorgegebenen größeren zweiten Wert variierende zweite Anzahl (BS1) Digitalwerte und das dritte Fenster (Anfangsfenster) eine vorgegebene dritte Anzahl (BF) Digitalwerte umfaßt, daß für jeden neuen Digitalwert aus den Digitalwerten im ersten Fenster und aufeinanderfolgend für je einen Wert (1) der zweiten Anzahl (BS1) aus den Digitalwerten des zugehörigen dritten Fensters ein Schwellwert (thr) gebildet wird, um den jeder Digitalwert des zweiten Fensters vermindert wird, daß die Summe der so verminderten Digitalwerte für jeden Wert der zweiten Anzahl mit einer höchsten früher auf gleiche Weise gebildeten Summe verglichen und abhängig vom Vergleichsergebnis als neue höchste Summe zusammen mit Lageangaben über die Lage des zweiten Fensters innerhalb der Folge der Digitalwerte gespeichert wird, und daß die zuletzt gespeicherten Lageangaben den Anfangspunkt und den Endpunkt des Wortsignals angeben.
1. Method for determining the start point and end point of a word signal corresponding to an isolated spoken word in a speech signal by determining an extreme value in a sequence of digital values derived from the speech signal, taking into account values of the signal curve surrounding the extreme value and a threshold value,
characterized in that a number of previously successive digital values are assigned to three adjacent windows, of which the first window (end window) a predetermined first number (B R ) of the last arrived digital values, the second window (signal window) one between a predetermined first value and a predetermined larger second value varying second number (B S1 ) digital values and the third window (initial window) comprises a predetermined third number (B F ) digital values that for each new digital value from the digital values in the first window and successively for each value (1 ) the second number (B S1 ) from the digital values of the associated third window, a threshold value (thr) is formed, by which each digital value of the second window is reduced, so that the sum of the digital values thus reduced for each value of the second number with a highest earlier compared in the same way and depending on the The comparison result is stored as the new highest sum together with position information about the position of the second window within the sequence of the digital values, and that the position information last saved indicate the starting point and the end point of the word signal.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, daß nur diejenigen Lageangaben, die für eine vorgegebene Anzahl aufeinanderfolgend einge­troffener Digitalwerte unverändert geblieben sind, als Anfangspunkt und Endpunkt verwendet werden.
2. The method according to claim 1,
characterized in that only those position information which have remained unchanged for a predetermined number of successively arriving digital values are used as the starting point and end point.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet, daß der Schwellwert aus der Summe der Digitalwerte im ersten und im dritten Fenster und eines Korrekturwertes gebildet wird.
3. The method according to claim 1 or 2,
characterized in that the threshold value is formed from the sum of the digital values in the first and third window and a correction value.
4. Verfahren nach Anspruch 3,
dadurch gekennzeichnet, daß für jeden neuen Digitalwert beim kleinsten Wert der zweiten Anzahl (BS0) die Summe der Digitalwerte des zweiten Fensters gebildet und abge­speichert wird, wenn eine vorher abgespeicherte zweite Fenstersumme kleiner ist, und die Summe der Digitalwerte des dritten Fensters gebildet und abgespeichert wird, wenn eine vorher abgespeicherte dritte Fenstersumme größer ist, und aus der Differenz der beiden abgespeicherten Fenster­summen der Korrekturwert gebildet wird.
4. The method according to claim 3,
characterized in that for each new digital value at the smallest value of the second number (B S0 ), the sum of the digital values of the second window is formed and stored if a previously stored second window sum is smaller, and the sum of the digital values of the third window is formed and stored is when a previously saved third window sum is larger and the correction value is formed from the difference between the two stored window sums.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet, daß der Korrekturwert die durch einen konstanten vorgegebenen Signal-Rausch-Verhältniswert dividierte Differenz der beiden Fenstersummen ist.
5. The method according to claim 4,
characterized in that the correction value is the difference between the two window sums divided by a constant predetermined signal-to-noise ratio value.
6. Verfahren nach einem der Ansprüche 1 bis 5,
dadurch gekennzeichnet, daß als Digitalwert der kleinste von jeweils drei aufeinanderfolgenden digitalisierten Abtastwerten des Sprachsignals verwendet wird.
6. The method according to any one of claims 1 to 5,
characterized in that the smallest of three consecutive digitized samples of the speech signal is used as the digital value.
7. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6, mit einem ersten Speicher zum Aufnehmen von aus einem Sprachsignal abgeleiteten Digital­werten,
gekennzeichnet durch
einen zweiten Speicher zur Aufnahme von Zwischenergeb­nissen,
eine Recheneinheit, die die Digitalwerte aus dem ersten Speicher sowie Zwischenergebnisse aus dem zweiten Speicher empfängt und die Energie in jeweils einem der Fenster sowie die weiteren Zwischenergebnisse bestimmt,
einen Vergleicher zum Vergleichen von Zwischenergebnissen aus dem zweiten Speicher mit von der Recheneinheit ge­lieferten Werten und zum Steuern des Einschreibens der letzteren Werte in den zweiten Speicher,
eine Steuereinheit zum Adressieren des ersten und des zweiten Speichers und der Recheneinheit entsprechend den Verfahrensschritten, und
eine Zählanordnung zum Zählen der unterschiedlichen zweiten Anzahlen von Digitalwerten im zweiten Fenster und zum Abgeben eines Schleifenendesignals an die Steuer­einheit nach einer vorgegebenen Anzahl unterschiedlicher zweiter Anzahlen.
7. Arrangement for carrying out the method according to one of claims 1 to 6, with a first memory for recording digital values derived from a speech signal,
marked by
a second memory for recording intermediate results,
a computing unit which receives the digital values from the first memory and intermediate results from the second memory and determines the energy in each of the windows and the further intermediate results,
a comparator for comparing intermediate results from the second memory with values supplied by the computing unit and for controlling the writing of the latter values into the second memory,
a control unit for addressing the first and second memories and the computing unit in accordance with the method steps, and
a counting arrangement for counting the different second numbers of digital values in the second window and for emitting an end of loop signal to the control unit after a predetermined number of different second numbers.
8. Anordnung nach Anspruch 7,
dadurch gekennzeichnet, daß mindestens die Recheneinheit und die Steuereinheit durch einen Mikroprozessor reali­siert sind.
8. Arrangement according to claim 7,
characterized in that at least the computing unit and the control unit are implemented by a microprocessor.
EP88202629A 1987-11-24 1988-11-23 Method and apparatus for the determination of the begin and end points of isolated words in a speech signal Withdrawn EP0319078A3 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19873739681 DE3739681A1 (en) 1987-11-24 1987-11-24 METHOD FOR DETERMINING START AND END POINT ISOLATED SPOKEN WORDS IN A VOICE SIGNAL AND ARRANGEMENT FOR IMPLEMENTING THE METHOD
DE3739681 1987-11-24

Publications (2)

Publication Number Publication Date
EP0319078A2 true EP0319078A2 (en) 1989-06-07
EP0319078A3 EP0319078A3 (en) 1990-01-10

Family

ID=6341078

Family Applications (1)

Application Number Title Priority Date Filing Date
EP88202629A Withdrawn EP0319078A3 (en) 1987-11-24 1988-11-23 Method and apparatus for the determination of the begin and end points of isolated words in a speech signal

Country Status (4)

Country Link
US (1) US4945566A (en)
EP (1) EP0319078A3 (en)
JP (1) JPH01167799A (en)
DE (1) DE3739681A1 (en)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5148429A (en) * 1988-10-27 1992-09-15 Kabushiki Kaisha Toshiba Voice data transmission system and method
WO1993021588A1 (en) * 1992-04-10 1993-10-28 Avid Technology, Inc. Digital audio workstation providing digital storage and display of video information
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5634020A (en) * 1992-12-31 1997-05-27 Avid Technology, Inc. Apparatus and method for displaying audio data as a discrete waveform
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
US5675778A (en) * 1993-10-04 1997-10-07 Fostex Corporation Of America Method and apparatus for audio editing incorporating visual comparison
DE4422545A1 (en) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start / end point detection for word recognition
US5638486A (en) * 1994-10-26 1997-06-10 Motorola, Inc. Method and system for continuous speech recognition using voting techniques
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
US5819217A (en) * 1995-12-21 1998-10-06 Nynex Science & Technology, Inc. Method and system for differentiating between speech and noise
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6321197B1 (en) * 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US7568758B2 (en) * 2007-01-03 2009-08-04 Kolcraft Enterprises High chairs and methods to use high chairs
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986003047A1 (en) * 1984-11-08 1986-05-22 American Telephone & Telegraph Endpoint detector

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3243231A1 (en) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg METHOD FOR DETECTING VOICE BREAKS
JPS59115625A (en) * 1982-12-22 1984-07-04 Nec Corp Voice detector

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986003047A1 (en) * 1984-11-08 1986-05-22 American Telephone & Telegraph Endpoint detector

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PATENT ABSTRACTS OF JAPAN, unexamined applications, Sektion E, Band 1, Nr. 156, 13. Dezember 1977 THE PATENT OFFICE JAPANESE GOVERNMENT Seite 8422 E 77 *
PATENT ABSTRACTS OF JAPAN, unexamined applications, Sektion E, Band 3, Nr. 15, 9. Februar 1979 THE PATENT OFFICE JAPANESE GOVERNMENT Seite 97 E 89 *
PATENT ABSTRACTS OF JAPAN, unexamined applications, Sektion E, Band 4, Nr. 5, 16. JÛnner 1980 THE PATENT OFFICE JAPANESE GOVERNMENT Seite 10 E 165 *

Also Published As

Publication number Publication date
US4945566A (en) 1990-07-31
DE3739681A1 (en) 1989-06-08
JPH01167799A (en) 1989-07-03
EP0319078A3 (en) 1990-01-10

Similar Documents

Publication Publication Date Title
EP0319078A2 (en) Method and apparatus for the determination of the begin and end points of isolated words in a speech signal
EP0299572B1 (en) Method for connected word recognition
DE69725802T2 (en) Pre-filtering using lexical trees for speech recognition
DE3101851C2 (en) Device for recognizing speech
DE3233637C2 (en) Device for determining the duration of speech signals
DE69917361T2 (en) Device for speech detection in ambient noise
DE2536640C3 (en) Arrangement for the detection of noises
DE2034623C2 (en) Method for recognizing speech signals in noise
DE2326517A1 (en) METHOD AND CIRCUIT ARRANGEMENT FOR DETECTING SPOKEN WORDS
EP0533260A2 (en) Method and apparatus for recognizing the uttered words in a speech signal
EP0076233B1 (en) Method and apparatus for redundancy-reducing digital speech processing
EP0533261A2 (en) Method and apparatus for recognizing uttered words in a speech signal
DE3422877C2 (en)
EP0285221A2 (en) Method for detecting continually pronounced words
EP1190413A2 (en) Voice recognition method and device
EP0533259B1 (en) Method and apparatus for recognizing a sequence of words
EP0285222B1 (en) Method for detecting associatively pronounced words
DE19639844A1 (en) Method for deriving at least one sequence of words from a speech signal
EP0677836B1 (en) Process for ascertaining a series of words and arrangement for this process
DE19716862A1 (en) Voice activity detection
DE3710507A1 (en) METHOD FOR DETECTING CONTINUOUSLY SPOKEN WORDS
EP0703569A1 (en) System for finding out words from a speech signal
EP0813734B1 (en) Method of recognising at least one defined pattern modelled using hidden markov models in a time-variable test signal on which at least one interference signal is superimposed
DE3215868A1 (en) Method and arrangement for recognising the words in a continuous word chain
EP0677835B1 (en) Process to ascertain a series of words

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): DE FR GB

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): DE FR GB

17P Request for examination filed

Effective date: 19900626

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 19920603