EP0319078A2

EP0319078A2 - Method and apparatus for the determination of the begin and end points of isolated words in a speech signal

Info

Publication number: EP0319078A2
Application number: EP88202629A
Authority: EP
Inventors: Dieter Dr. Mergel; Hermann Dr. Ney; Horst Tomaschewski
Original assignee: Philips Patentverwaltung GmbH; Philips Gloeilampenfabrieken NV; Koninklijke Philips Electronics NV
Current assignee: Philips Intellectual Property and Standards GmbH; Koninklijke Philips NV
Priority date: 1987-11-24
Filing date: 1988-11-23
Publication date: 1989-06-07
Also published as: US4945566A; DE3739681A1; JPH01167799A; EP0319078A3

Abstract

To determine the beginning and end point of a word signal within a speech signal from words spoken in isolation, three adjacent windows for the last stored digital values which have previously arrived are determined with each new digital value, the centre window of which is to contain the actual word signal. The length of this centre window is varied between a minimum and a maximum value for each digital value and from the energy contained therein, a threshold value is in each case subtracted which is determined from the two adjacent windows. In this manner, the method according to the invention in each case takes into consideration the complete speech signal instead of individual isolated regions, as a result of which the end point can be determined more reliably. …<IMAGE>…

Description

Die Erfindung betrifft ein Verfahren zum Bestimmen von Anfangspunkt und Endpunkt eines Wortsignals entsprechend einem isoliert gesprochenen Wort in einem Sprachsignal durch Ermittlung eines Extremwertes in einer vom Sprachsignal abgeleiteten Folge von Digitalwerten bei Berücksichtigung von den Extremwert umgebenden Werten des Signalverlaufs und eines Schwellwertes.The invention relates to a method for determining the starting point and end point of a word signal corresponding to an isolated spoken word in a speech signal by determining an extreme value in a sequence of digital values derived from the speech signal, taking into account values of the signal curve surrounding the extreme value and a threshold value.

Derartige Verfahren zur Bestimmung von Anfangs- und Endpunkt in einem Sprachsignal werden insbesondere verwendet, wenn das Sprachsignal aus isoliert gesprochenen Wörtern oder sehr kurzen Wortgruppen besteht und diese Wörter bzw. Wortgruppen automatisch erkannt werden sollen. Das eigentliche Wortsignal ist bei fast allen Anwendungen im Sprachsignal durch Störungen und Rauschen und Pausen sowie durch Nebengeräusche wie lautes Einatmen begleitet. Für eine möglichst zuverlässige Erkennung des oder der Wörter im Sprachsignal ist es jedoch wichtig, genau mit dem Sprachsignalteil die Erkennung zu beginnen, die auch den Anfang des zu erkennenden Wortes darstellt.Such methods for determining the start and end point in a speech signal are used in particular if the speech signal consists of words spoken in isolation or very short word groups and these words or word groups are to be recognized automatically. In almost all speech signal applications, the actual word signal is accompanied by interference and noise and pauses as well as by background noise such as loud inhalation. However, for the most reliable recognition of the word or words in the speech signal, it is important to start the recognition precisely with the speech signal part, which also represents the beginning of the word to be recognized.

Es sind bereits verschiedene Verfahren zur Bestimmung von Anfangs- und Endpunkt bekannt. In ICASSP 84 Proceedings, 19. bis 21. März 1984, St. Diego, Kalifornia, ist auf den Seiten 18B.7.1 bis 18B.7.4 ein Verfahren zur Detektion von Endpunkten in einem Sprachsignal beschrieben, das mit der Autokorrelationsmatrix des Sprachsignals arbeitet. Eine solche Matrix ist nur mit einem erheblichen Rechenaufwand zu bilden, und die Ergebnisse sind nicht unter allen Bedingungen befriedigend. In der WO 86/03047 wird ein Endpunktdetektor verwendet, der das Sprachsignal in Blöcke unterteilt, die einander überlappen. Diese Blöcke sind jedoch festgelegt, unabhängig von dem Verlauf des Sprachsignals, und es wird der Block mit der maximalen Energie festgestellt und der davorliegende Block mit einer Energie unterhalb eines Schwellwertes bestimmt, der um ein bestimmtes Maß unter der maximalen Energie liegt. Mit weiteren aufwendigen Schritten werden dann eine Anzahl derartiger Maxima und deren Dauer ermittelt und daraus längerdauernde Energiemaxima errechnet. Auch hierbei ist insbesondere bei Überlagerung des Sprachsignals mit stärkeren Störungen eine zuverlässige Endpunkterkennung schwierig und unzuverlässig.Various methods for determining the start and end point are already known. ICASSP 84 Proceedings, March 19-21, 1984, St. Diego, California, on pages 18B.7.1 to 18B.7.4 describes a method for the detection of end points in a speech signal which works with the autocorrelation matrix of the speech signal. Such a matrix can only be formed with a considerable amount of computation, and the results are not satisfactory under all conditions. In WO 86/03047 an end point detector is used which divides the speech signal into blocks divided that overlap each other. However, these blocks are fixed, regardless of the course of the speech signal, and the block with the maximum energy is determined and the block in front with it is determined with an energy below a threshold value which is a certain amount below the maximum energy. A number of such maxima and their duration are then determined with further complex steps and longer energy maxima are calculated therefrom. Here too, reliable endpoint recognition is difficult and unreliable, particularly when the speech signal is overlaid with stronger interference.

Aufgabe der Erfindung ist es daher, ein Verfahren der eingangs genannten Art anzugeben, das eine möglichst zuverlässige Anfangs- und Endpunktbestimmung auch bei Sprachsignalen ermöglicht, die durch wesentliche Störsignale überlagert sind.The object of the invention is therefore to provide a method of the type mentioned at the outset which enables the most reliable possible determination of the start and end point even in the case of speech signals which are overlaid by essential interference signals.

Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß eine Anzahl vorher aufeinanderfolgend eingetroffener Digitalwerte drei benachbarten Fenstern zugeordnet werden, von denen das erste Fenster (Endfenster) eine vorgegebene erste Anzahl der zuletzt eingetroffenen Digitalwerte, das zweite Fenster (Signalfenster) eine zwischen einem vorgegebenen ersten Wert und einem vorgegebenen größeren zweiten Wert variierende zweite Anzahl Digitalwerte und das dritte Fenster (Anfangsfenster) eine vorgegebene dritte Anzahl Digitalwerte umfaßt, daß für jeden neuen Digitalwert aus den Digitalwerten im ersten Fenster und aufeinanderfolgend für je einen Wert der zweiten Anzahl aus den Digitalwerten des zugehörigen dritten Fensters ein Schwellwert gebildet wird, um den jeder Digitalwert des zweiten Fensters vermindert wird, daß die Summe der so verminderten Digitalwerte für jeden Wert der zweiten Anzahl mit einer höchsten früher auf gleiche Weise gebildeten Summe verglichen und abhängig vom Vergleichsergebnis als neue höchste Summe zusammen mit Lageangaben über die Lage des zweiten Fensters innerhalb der Folge der Digitalwerte gespeichert wird, und daß die zuletzt gespeicherten Lageangaben den Anfangspunkt und den Endpunkt des Wortsignals angeben.This object is achieved in that a number of previously successively arriving digital values are assigned to three adjacent windows, of which the first window (end window) a predetermined first number of the last arrived digital values, the second window (signal window) one between a predetermined first value and a predetermined larger second value varying second number of digital values and the third window (initial window) comprises a predetermined third number of digital values that for each new digital value from the digital values in the first window and successively for each value of the second number from the digital values of the associated third window a threshold is formed by which each digital value of the second window is reduced, that the sum of the digital values thus reduced for each value of the second Number compared with a highest sum previously formed in the same way and, depending on the comparison result, is stored as a new highest sum together with position information about the position of the second window within the sequence of the digital values, and that the position information last saved indicate the starting point and the end point of the word signal .

Es werden also keine festen Schwellwerte oder einfache absolute Maxima verwendet, sondern es werden quasi verschiedene Anfangs- und Endpunkte im Sprachsignal angenommen und dafür geprüft, ob die Energie des darin enthaltenen Sprachsignals jeweils größer ist als bei anderen angenommenen Endpunkten, wobei ein Schwellwert subtrahiert wird, der aus den benachbarten Bereichen zu beiden Seiten des angenommenen Bereichs des Wortsignals bestimmt wird. Auf diese Weise wird also kein lokales, sondern ein globales Kriterium über das gesamte Sprachsignal verwendet, indem nur ein derartiges Sprachsignal als Wortsignal gewertet wird, das über seine Umgebung maximal herausragt. Da die minimale und maximale Breite des zweiten Fensters, das also das Wortsignal darstellt, begrenzt ist, ist eine zusätzliche Sicherheit gegen Störungen gegeben und besteht außerdem die Möglichkeit, mehrere hintereinander isoliert gesprochene Wörter eindeutig voneinander zu trennen. Die Ermittlung von Anfangs- und Endpunkt erfolgt kontinuierlich mit dem Eintreffen des Sprachsignals, so daß für jede zumindest vorläufig optimale Bestimmung der Endpunkte bereits die Erkennung des Sprachsignals beginnen kann, wobei diese abgebrochen wird, wenn ein günstigerer Wert für die Endpunkte gefunden ist, so daß auch eine schnellere Erkennung möglich ist.So no fixed threshold values or simple absolute maxima are used, rather quasi different start and end points in the speech signal are assumed and it is checked whether the energy of the speech signal contained therein is respectively greater than at other assumed end points, a threshold value being subtracted, which is determined from the adjacent areas on both sides of the assumed area of the word signal. In this way, therefore, a local, rather than a global, criterion is used for the entire speech signal, in that only such a speech signal is evaluated as a word signal that projects as far as possible beyond its surroundings. Since the minimum and maximum width of the second window, which therefore represents the word signal, is limited, there is additional security against interference and there is also the possibility of clearly separating several words spoken in isolation. The determination of the start and end points takes place continuously with the arrival of the speech signal, so that for each at least provisionally optimal determination of the end points, the recognition of the speech signal can begin, which is terminated when a more favorable value for the end points is found, so that faster detection is also possible.

Um die Zuverlässigkeit weiter zu erhöhen und beispielsweise kurze unbetonte Bereiche innerhalb eines Wortes nicht bereits als Endpunkt zu erkennen, ist es nach einer Ausgestaltung der Erfindung zweckmäßig, daß nur diejenigen Lageangaben, die für eine vorgegebene Anzahl aufeinanderfolgend eingetroffener Digitalwerte unverändert geblieben sind, als Anfangspunkt und Endpunkt verwendet werden. Es wird also geprüft, ob nach dem Endpunkt eine ausreichend lange Sprachpause folgt.To further increase reliability and, for example, short unstressed areas within a word not already recognizable as the end point, it is expedient according to one embodiment of the invention that only those position information that have remained unchanged for a predetermined number of successively arriving digital values are used as the start point and end point. It is therefore checked whether there is a sufficiently long speech pause after the end point.

Der Schwellwert, der bei der Bestimmung der Endpunkte verwendet wird, sollte möglichst weitgehend vom Störsignal ausgehen, dessen Größe jedoch nicht ohne weiteres bekannt ist. Dies erfolgt erfindungsgemäß durch Berücksichtigung je eines Bereiches vor und nach der angenommenen Lage des Wortsignals. Besonders einfach kann dieser Schwellwert dadurch gebildet werden, daß der Schwellwert aus der Summe der Digitalwerte im ersten und im dritten Fenster und eines Korrekturwertes gebildet wird. Eine derartige Summenbildung kann sehr einfach und schnell durchgeführt werden.The threshold value that is used in the determination of the end points should originate as much as possible from the interference signal, the size of which is not, however, readily known. This is done according to the invention by taking into account a respective area before and after the assumed position of the word signal. This threshold value can be formed particularly easily by forming the threshold value from the sum of the digital values in the first and third window and a correction value. Such a sum formation can be carried out very easily and quickly.

Als Korrekturwert kann ein fester Wert gewählt werden, der beispielsweise eine allgemeine Qualität des Sprachsignals berücksichtigt. Eine weitere Ausgestaltung der Erfindung, bei der dieser Korrekturwert den Verlauf des Sprachsignals weiter berücksichtigt, ist dadurch gekennzeichnet, daß für jeden neuen Digitalwert beim kleinsten Wert der zweiten Anzahl die Summe der Digitalwerte des zweiten Fensters gebildet und abgespeichert wird, wenn eine vorher abgespeicherte zweite Fenstersumme kleiner ist, und die Summe der Digitalwerte des dritten Fensters gebildet und abgespeichert wird, wenn eine vorher abgespeicherte dritte Fenstersumme größer ist, und aus der Differenz der beiden abgespeicherten Fenstersummen der Korrekturwert gebildet wird. Auf diese Weise gehen also nicht nur die Bereiche außerhalb der angenommenen Endpunkte ein, sondern auch das Sprachsignal zwischen den Endpunkten. Insbesondere ist es zweckmäßig, daß der Korrekturwert die durch einen konstanten vorgegebenen Signal-Rausch-Verhältniswert dividierte Differenz der beiden Fenstersummen ist. Der vorgegebene Signal-Rausch-Verhältniswert ist dann ein Maß für die mittlere Qualität des Sprachsignals und ist um so kleiner, je stärker das Sprachsignal gestört ist, wie dies beispielsweise bei Sprachübertragung über Telefonleitungen der Fall ist.A fixed value can be selected as the correction value, which takes into account, for example, a general quality of the speech signal. A further embodiment of the invention, in which this correction value further takes into account the course of the speech signal, is characterized in that for each new digital value at the smallest value of the second number, the sum of the digital values of the second window is formed and stored if a previously stored second window sum is smaller, and the sum of the digital values of the third window is formed and stored if a previously stored third window sum is larger, and the correction value is formed from the difference between the two stored window sums. In this way, not only the areas outside the assumed endpoints are included, but also that Voice signal between the endpoints. In particular, it is expedient that the correction value is the difference between the two window sums divided by a constant predetermined signal-to-noise ratio value. The predefined signal-to-noise ratio value is then a measure of the average quality of the voice signal and is smaller the more the voice signal is disturbed, as is the case, for example, with voice transmission over telephone lines.

Es kann in der Praxis leicht vorkommen, daß dem Sprachsignal Störsignale überlagert sind, die zwar sehr kurz sind, jedoch eine hohe Amplitude aufweisen. Um auch in diesem Falle die Sicherheit der Endpunkterkennung zu erhöhen, ist es nach einer weiteren Ausgestaltung der Erfindung zweckmäßig, daß als Digitalwert der kleinste von jeweils mehreren aufeinanderfolgenden digitalisierten Abtastwerten des Sprachsignals verwendet wird. Diese Maßnahme stellt ein sehr wirksames Filter für das Sprachsignal dar.In practice it can easily happen that interference signals are superimposed on the speech signal, which are very short but have a high amplitude. In order to increase the security of the end point detection in this case as well, it is expedient according to a further embodiment of the invention that the smallest of several successive digitized samples of the speech signal is used as the digital value. This measure represents a very effective filter for the speech signal.

Eine Anordnung zur Durchführung des erfindungsgemäßen Verfahrens, die einen ersten Speicher zur Aufnahme von aus einem Sprachsignal abgeleiteten Digitalwerten aufweist, ist gemäß der Erfindung gekennzeichnet durch einen zweiten Speicher zur Aufnahme von Zwischenergebnissen,
eine Recheneinheit, die die Digitalwerte aus dem ersten Speicher sowie Zwischenergebnisse aus dem zweiten Speicher empfängt und die Energie in jeweils einem der Fenster sowie die weiteren Zwischenergebnisse bestimmt,
einen Vergleicher zum Vergleichen von Zwischenergebnissen aus dem zweiten Speicher mit von der Recheneinheit gelieferten Werten und zum Steuern des Einschreibens der letzteren Werte in den zweiten Speicher,
eine Steuereinheit zum Adressieren des ersten und des zweiten Speichers und der Recheneinheit entsprechend den Verfahrensschritten, und
eine Zählanordnung zum Zählen der unterschiedlichen zweiten Anzahlen von Digitalwerten im zweiten Fenster und zum Abgeben eines Scheleifenendesignals an die Steuereinheit nach einer vorgegebenen Anzahl unterschiedlicher zweiter Anzahlen. Die Steuereinheit kann eine Ablaufsteuerung sein, die durch ein gespeichertes Programm gesteuert wird. Ein besonders einfacher Aufbau wird erhalten, wenn mindestens die Recheneinheit und die Steuereinheit durch einen Mikroprozessor realisiert sind. Dieser kann gegebenenfalls auch die Funktion des Vergleichers und der Zählanordnung übernehmen.An arrangement for carrying out the method according to the invention, which has a first memory for recording digital values derived from a speech signal, is characterized according to the invention by a second memory for recording intermediate results,
a computing unit which receives the digital values from the first memory and intermediate results from the second memory and determines the energy in each of the windows and the further intermediate results,
a comparator for comparing intermediate results from the second memory with values supplied by the computing unit and for controlling the writing of the latter values into the second memory,
a control unit for addressing the first and second memories and the computing unit in accordance with the method steps, and
a counting arrangement for counting the different second numbers of digital values in the second window and for delivering an end of loop signal to the control unit after a predetermined number of different second numbers. The control unit can be a sequence controller that is controlled by a stored program. A particularly simple structure is obtained if at least the computing unit and the control unit are implemented by a microprocessor. If necessary, this can also take over the function of the comparator and the counting arrangement.

Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung erläutert. Es zeigen

Fig. 1a und 1b mit verschiedenen Lagen der Fenster,
Fig. 2a und 2b ein Flußdiagramm für den Ablauf des Verfahrens zur Endpunktbestimmung,
Fig. 3 schematisch ein Blockschaltbild einer Anordnung zur Durchführung des Verfahrens.

Embodiments of the invention are explained below with reference to the drawing. Show it

1a and 1b with different positions of the window,
2a and 2b is a flow chart for the sequence of the method for determining the end point,
Fig. 3 schematically shows a block diagram of an arrangement for performing the method.

Der in Fig. 1a dargestellte beispielsweise Signalverlauf als Energie E oder Amplitude des Sprachsignals über die Zeit t sei momentan bis zum Zeitpunkt m1 eingetroffen und abgetastet und liegt in Form von digitalen Abtastwerten vor. Der kontinuierlich dargestellte Signalverlauf liegt also im digitalen Bereich als Folge diskreter Punkte vor, was jedoch die weitere Erläuterung nicht wesentlich beeinflußt.The signal curve shown in FIG. 1a, for example, as energy E or amplitude of the speech signal over time t has currently arrived and sampled up to time m1 and is in the form of digital samples. The continuously displayed signal curve is therefore present in the digital range as a sequence of discrete points, which, however, does not significantly influence the further explanation.

Der Signalverlauf wird nun in drei benachbarte Fenster eingeteilt, von denen das erste Fenster von den Abtast werten m1 bis m2 reicht und mit Endfenster bezeichnet wird, weil es zeitlich gesehen das vorläufige Ende des Sprachsignals darstellt. Das mittlere Fenster reicht von den Abtastwerten m2 bis zum Abtastwert m3. Hierin wird das eigentliche Wortsignal angenommen, das einen höheren Energiewert als die Sprachsignalteile davor und dahinter hat. Der Punkt m3 wird für das zu beschreibende Verfahren der Endpunktbestimmung schrittweise zwischen einem minimalen Abstand und einem maximalen Abstand vom Zeitpunkt m2 verändert. Das dritte Fenster reicht vom jeweiligen Zeitpunkt m3 bis zum Zeitpunkt m4, deren Abstand wiederum konstant ist.The signal curve is now divided into three adjacent windows, of which the first window of the samples values range from m1 to m2 and is called the end window because it represents the temporary end of the speech signal in terms of time. The middle window ranges from the sample values m2 to the sample value m3. The actual word signal is accepted here, which has a higher energy value than the speech signal parts before and after it. The point m3 is gradually changed between a minimum distance and a maximum distance from the time m2 for the endpoint determination procedure to be described. The third window extends from the respective time m3 to time m4, the distance between which is again constant.

Es sei bemerkt, daß jeder Abstandswert nur zu einem der Fenster gehören kann, d.h. das mittlere Fenster beginnt, wenn das erste Fenster bis zum Abtastwert zum Zeitpunkt m2 reicht, mit dem unmittelbar links danebenliegenden Abtastwert, und entsprechendes gilt auch für das dritte Fenster. Der Einfachheit halber wird diese Tatsache in der folgenden Erläuterung nicht weiter betont, sondern weiterhin ein quasi kontinuierlicher Signalverlauf angenommen.It should be noted that each distance value can only belong to one of the windows, i.e. the middle window begins, when the first window reaches the sample value at the time m2, with the sample value immediately to the left, and the same applies to the third window. For the sake of simplicity, this fact is not further emphasized in the following explanation, but continues to assume a quasi-continuous signal curve.

In Fig. 1b ist ein späterer Zeitpunkt angenommen, bei dem das Sprachsignal bereits bis zum Zeitpunkt n1 eingetroffen ist. Außerdem ist ein größeres Signalfenster angenommen, so daß dessen Beginn beim Zeitpunkt n3 weiter vom Zeitpunkt n2 entfernt liegt als bei Fig. 1a. Entsprechend liegt dann auch der Zeitpunkt n4 als Beginn des Anfangsfensters zu einem noch früheren Zeitpunkt.1b assumes a later point in time at which the voice signal has already arrived by the point in time n1. In addition, a larger signal window is assumed, so that its start at time n3 is further away from time n2 than in FIG. 1a. Correspondingly, the point in time n4 is the beginning of the initial window at an even earlier point in time.

Ein wesentliches Kriterium bei der Bestimmung der Endpunkte des Sprachsignals ist die Fläche des Sprachsignals innerhalb des Signalfensters, vermindert um einen Schwellwert SW, der u.a. von der Fläche unter dem Sprachsignal im ersten und im dritten Fenster abhängt. Die Flächen unter dem Sprachsignal werden im übrigen durch die Summe der digitalisierten Abtastwerte innerhalb des jeweiligen Fensters dargestellt.An essential criterion when determining the end points of the speech signal is the area of the speech signal within the signal window, reduced by a threshold value SW, which depends, among other things, on the area under the speech signal in the first and in the third window. The areas under the speech signal is represented by the sum of the digitized samples within the respective window.

In Fig. 1a ist die Fläche in dem Anfangs- und Endfenster noch relativ groß, so daß sich ein höherer Schwellwert SW_m ergibt. Aus der Figur ist unmittelbar zu erkennen, daß die um den Schwellwert verminderte Fläche im mittleren Fenster größer wird, wenn Anfangs- und Endfenster weiter auseinandergezogen werden, d.h. wenn die noch folgenden eintreffenden Teile des Signalverlaufs abgewartet werden und die Breite des Signalfensters größer gewählt wird.In Fig. 1a, the area in the start and end window is still relatively large, so that there is a higher threshold SW _m . From the figure it can be seen immediately that the area reduced by the threshold value in the middle window becomes larger when the start and end windows are pulled further apart, ie when the subsequent arriving parts of the signal curve are waited for and the width of the signal window is chosen to be larger.

In Fig. 1b ist dieser Fall nun dargestellt, wobei die Fläche unter dem Sprachsignal im Anfangs- und im Endfenster nun wesentlich kleiner ist, so daß auch der Schwellwert SW_n niedriger liegt, jedoch ist nun zu erkennen, daß die Teile des Sprachsignals, die dem Anfangs- und Endfenster am nächsten liegen, einen negativen Beitrag zur Gesamtfläche im Signalfenster abzüglich des Schwellwertes SW_n liefern, da diese Signalwerte kleiner sind als der Schwellwert. Bei der optimalen Entscheidung fallen Anfangs- und Endpunkt auf Zeiten, bei denen der Signalwert gleich dem Schwellwert ist. Der Bereich des Sprachsignals, der innerhalb dieses Signalfensters kurzzeitig unterhalb des Schwellwerts SW_n liegt, liefert zwar ebenfalls einen negativen Beitrag, der jedoch durch den links davon liegenden höheren Signalabschnitt übertroffen wird, so daß sich durch Verlängern des mittleren Fensters über diesen Bereich des Sprachsignals hinaus insgesamt eine Vergrößerung der Gesamtfläche im Signalfenster oberhalb des Schwellwertes SW_n ergibt. Der vorher genannte Anfangs- und Endpunkt wird mit dem Verfahren entsprechend dem Flußdiagramm in Fig. 2a und 2b bestimmt.In Fig. 1b this case is now shown, the area under the speech signal in the start and in the end window is now significantly smaller, so that the threshold SW _{n is} lower, but it can now be seen that the parts of the speech signal closest to the start and end window, make a negative contribution to the total area in the signal window minus the threshold value SW _n , since these signal values are smaller than the threshold value. In the optimal decision, the start and end points fall on times when the signal value is equal to the threshold value. The area of the speech signal that is briefly below the threshold value SW _n within this signal window also makes a negative contribution, but is exceeded by the higher signal section to the left of it, so that extending the middle window extends beyond this area of the speech signal overall an increase in the total area in the signal window above the threshold value SW _n results. The aforementioned start and end point will be determined with the method according to the flow chart in Figs. 2a and 2b.

Das Symbol 10 bedeutet den Start des gesamten Ablaufs, d.h. den Beginn des Sprachsignals. Im Block 11 werden verschiedene Anfangswerte eingestellt, eine Anzahl Abtastwerte entsprechend der Länge des Endfensters, des minimalen Signalfensters und des Anfangsfensters abgewartet, bevor das Verfahren starten kann, sowie eine spezielle Filterfunktion durchgeführt. Diese besteht darin, daß von jeweils drei aufeinanderfolgenden Abtastwerten der kleinste Wert gewählt und als Digitalwert dem Verfahren zugeführt wird. Beispielsweise wird alle 10 ms ein Abtastwert dem Sprachsignal entnommen, der den Momentanwert oder den integrierten Wert seit dem letzten Abtastwert darstellt, und die Abtastwerte werden digitalisiert. Wenn von jeweils drei aufeinanderfolgenden Abtastwerten der kleinste ausgewählt wird, werden dem Verfahren also alle 30 ms ein Digitalwert zugeführt, so daß für die Durchführung der folgenden Verfahrensschritte 30 ms zur Verfügung stehen. Die zugeführten Digitalwerte werden gespeichert, da sie zu späteren Zeitpunkten noch benötigt werden, und zwar mindestens über eine Signaldauer, die der Summe aus der vorgegebenen maximalen Dauer des Signalfensters und der beiden anderen Fenster entspricht.The symbol 10 means the start of the entire process, i.e. the beginning of the speech signal. In block 11, various initial values are set, a number of samples corresponding to the length of the end window, the minimum signal window and the initial window are waited for before the method can start, and a special filter function is carried out. This consists in the fact that the smallest value is selected from each three consecutive samples and is fed to the method as a digital value. For example, every 10 ms a sample value is taken from the speech signal which represents the instantaneous value or the integrated value since the last sample value, and the sample values are digitized. If the smallest of three successive sample values is selected, a digital value is supplied to the method every 30 ms, so that 30 ms are available for carrying out the following method steps. The supplied digital values are saved because they will still be needed at later times, at least for a signal duration that corresponds to the sum of the predetermined maximum duration of the signal window and the two other windows.

Im Block 12 wird die Energie EF_k im Anfangsfenster zwischen den Punkten m3 und m4 in Fig. 1a bzw. n3 und n4 in Fig. 1b durch Aufsummieren der darin liegenden Signalwerte bestimmt. Im Block 13 wird dieser Wert durch die Länge B_F des Anfangsfensters dividiert und damit die mittlere Energie eF_k in diesem Fenster bestimmt.In block 12, the energy EF _{k is determined} in the initial window between the points m3 and m4 in FIG. 1a or n3 and n4 in FIG. 1b by summing up the signal values therein. In block 13, this value is divided by the length B _{F of} the initial window and thus the average energy eF _{k is determined} in this window.

In einem Vergleich 14 wird geprüft, ob dieser mittlere Wert eF_k kleiner ist als ein gespeicherter Wert eF_sp, und wenn dies der Fall ist, wird im Block 15 dieser kleinere Wert gespeichert, d.h. eF_sp wird durch den momentanen Wert eF_k ersetzt. Nach dem Block 15 oder wenn der neue Wert nicht kleiner ist als der gespeicherte Wert wird im Block 16 die Energie ES_k des Signalfensters mit minimaler Länge bestimmt, also die Fläche unter dem Sprachsignalverlauf zwischen den Punkten m2 und m3 in Fig. 1a, wofür ebenfalls die gespeicherten Digitalwerte in diesem Bereich aufsummiert werden. Danach wird in einem Vergleich 17 geprüft, ob diese Energie ES_k größer ist als eine gespeicherte Energie ES_sp. Wenn dies der Fall ist, wird im Block 18 der gespeicherte Wert durch den neuen Wert ersetzt, danach oder wenn der neue Wert nicht größer ist als der gespeicherte Wert, wird im Block 20 die mittlere Energie ES_k bestimmt, indem die Gesamtenergie ES_k durch die minimale Breite B_s0 des Signalfensters dividiert wird. Die Breite B dieses Fensters sowie der anderen Fenster wird jeweils durch die Anzahl darinliegender Digitalwerte angegeben.A comparison 14 checks whether this mean value eF _{k is} smaller than a stored value eF _sp , and if this is the case, this smaller value is stored in block 15, ie eF _sp is replaced by the current value eF _k . After block 15 or if the new value is not less than the stored value, the energy ES _{k of} the signal window with a minimum length is determined in block 16, i.e. the area under the speech signal curve between the points m2 and m3 in FIG the stored digital values are summed up in this area. A comparison 17 then checks whether this energy ES _{k is} greater than a stored energy ES _sp . If this is the case, the stored value is replaced by the new value in block 18, then or if the new value is not greater than the stored value, the mean energy ES _{k is} determined in block 20 by the total energy ES _k by the minimum width B _{s0 of} the signal _{window is} divided. The width B of this window and of the other windows is given by the number of digital values contained therein.

Danach wird im Block 21 ein Korrekturwert thN aus der Differenz zwischen der mittleren Energie eS_k im Signalfenster und eF_k im Anfangsfenster, die durch einen angenommenen Signal-Rausch-Verhältniswert SNR dividiert wird, bestimmt. Schließlich wird im Block 22 die mittlere Energie im Endfenster, also zwischen den Punkten m1 und m2 in Fig. 1a oder n1 und n2 in Fig. 1b auf entsprechende Weise wie im Anfangsfenster bestimmt.A correction value thN is then determined in block 21 from the difference between the average energy eS _k in the signal window and eF _k in the initial window, which is divided by an assumed signal-to-noise ratio value SNR. Finally, the average energy in the end window, that is to say between the points m1 and m2 in FIG. 1a or n1 and n2 in FIG. 1b, is determined in block 22 in a manner corresponding to that in the initial window.

Die Schritte 12 bis 22 laufen bei jedem neu eingetroffenen Digitalwert einmal ab, während der Verbindungspunkt 23 nun zu einer Schleife führt, die für jede zugelassene Breite des Signalfensters einmal durchlaufen wird. Diese einzelnen Durchläufe werden mit dem Index 1 angedeutet.Steps 12 to 22 run once for each newly arrived digital value, while connection point 23 now leads to a loop which is run through once for each permitted width of the signal window. These individual runs are indicated with index 1.

In Fig. 2b ist diese Schleife angegeben, die mit dem Verbindungspunkt 23 beginnt. Im Block 29 wird dieser Wert 1 auf den Anfangswert Null gesetzt. Im folgenden Block 30 wird der mittlere Energiewert eF₁ des Anfangsfensters bei der jeweiligen Verschiebung 1 von der minimalen Breite des Signalfensters aus entsprechend Block 13 bestimmt, und im Block 31 wird der so ermittelte Wert zu dem im Block 22 ermittelten mittleren Energiewert des Endfensters und zu dem im Block 21 ermittelten Korrekturwert thN addiert, um den Schwellwert thr zu ermitteln. Danach wird im Block 32 die Energie ES₁ des Signalfensters in der jeweiligen Breite durch Aufsummieren der Digitalwerte in diesem Fenster bestimmt. Im Block 33 wird schließlich von diesem Wert der Schwellwert thr, multipliziert mit der jeweiligen Breite B_S1 des Signalfensters, subtrahiert. Dies ist die Fläche unter dem Signalverlauf in Fig. 1a zwischen den Punkten m2 und m3 bzw. in Fig. 1b zwischen den Punkten n2 und n3, vermindert um die Fläche unterhalb des Schwellwertes SW_m bzw. SW_n zwischen diesen Punkten. Diese effektive Energie EPS₁ wird als die Energie des Sprachsignals in dem Signalfenster angesehen, die über das Störsignal hinausragt, wobei dieses Störsignal nicht direkt ermittelt werden kann, sondern ein wahrscheinlicher Wert in Form des Schwellwertes in der vorher beschriebenen Weise abgeleitet wird.This loop is indicated in FIG. 2 b, which begins with the connection point 23. In block 29, this value 1 is set to the initial value zero. In the following block 30, the average energy value eF₁ of the initial window at the respective shift 1 is determined from the minimum width of the signal window in accordance with block 13, and in block 31 the value determined in this way is determined in relation to the average energy value of the final window determined in block 22 and to that correction value thN determined in block 21 is added in order to determine the threshold value thr. Then in block 32 the energy ES 1 of the signal window is determined in the respective width by adding up the digital values in this window. Finally, in block 33, the threshold value thr, multiplied by the respective width B _{S1 of} the signal window, is subtracted from this value. This is the area under the signal curve in Fig. 1a between the points m2 and m3 or in Fig. 1b between the points n2 and n3, minus the area below the threshold value SW _m or SW _n between these points. This effective energy EPS₁ is regarded as the energy of the speech signal in the signal window, which protrudes beyond the interference signal, this interference signal can not be determined directly, but a probable value in the form of the threshold value is derived in the manner described above.

Beim Vergleich 34 wird geprüft, ob diese zuletzt ermittelte effektive Energie EPS_e des Sprachsignals über einem gespeicherten Wert EPS_S liegt. Wenn dies der Fall ist, wird im Block 35 dieser neue Wert abgespeichert, ferner wird gespeichert, bei welchem zuletzt eingetroffenen Digitalwert dies erfolgt ist, indem ein momentaner Index k als Wert k_sp gespeichert wird, und ferner werden Anfangs- und Endpunkt des Signalfensters, d.h. die Werte m2 und m3 in Fig. 1a bzw. n2 und n3 in Fig. 1b ge speichert. Daran anschließend oder, wenn beim Vergleich 34 der neue Wert nicht größer ist als der gespeicherte, wird im Block 36 der Schleifenwert 1 um 1 erhöht, und im Vergleich 37 wird geprüft, ob dieser Wert 1 den vorgegebenen Maximalwert L entsprechend der maximalen Breite des Signalfensters erreicht hat. Wenn dies nicht der Fall ist, wird zum Block 30 zurückgegangen.In comparison 34, it is checked whether this last-determined effective energy EPS _{e of} the speech signal is above a stored value EPS _S. If this is the case, this new value is stored in block 35, the last digital value that was received is saved by storing a current index k as the value k _sp , and the start and end point of the signal window, ie the values m2 and m3 in Fig. 1a or n2 and n3 in Fig. 1b ge saves. Subsequent to this, or if the new value in comparison 34 is not greater than the stored value, the loop value 1 is increased by 1 in block 36, and it is checked in comparison 37 whether this value 1 corresponds to the predetermined maximum value L corresponding to the maximum width of the signal window has reached. If not, the process returns to block 30.

Anderenfalls wird im Vergleich 38 geprüft, ob das gefundene Maximum der Energie im Sprachfenster stationär ist, d.h. ob eine ausreichende Anzahl K_ST von weiteren Digitalwerten zugeführt worden ist, ohne daß ein höherer Energiewert gefunden worden ist. Wenn dies nicht der Fall ist, wird zum Block 12 zurückgegangen und der nächste Digitalwert verarbeitet. Wenn jedoch seit einer vorgegebenen Anzahl neu zugeführter Digitalwerte keine höhere Energie im Signalfenster festgestellt worden ist, wird angenommen, daß die zuletzt im Block 35 abgespeicherte effektive Energie dasjenige Signalfenster angibt, das dem Wortsignal innerhalb des Sprachsignals am besten entspricht, und die dabei abgespeicherten Lagewerte des Fensters, d.h. die Punkte m2 und m3 bzw. n2 und n3 geben den gesuchten Anfangspunkt und Endpunkt des Wortsignals an.Otherwise, it is checked in comparison 38 whether the maximum energy found in the speech window is stationary, ie whether a sufficient number K _ST of additional digital values has been supplied without a higher energy value having been found. If this is not the case, the process returns to block 12 and the next digital value is processed. However, if no higher energy has been detected in the signal window since a predetermined number of newly added digital values, it is assumed that the effective energy last stored in block 35 indicates the signal window that best corresponds to the word signal within the speech signal, and the position values of the stored Window, ie the points m2 and m3 or n2 and n3 indicate the searched start point and end point of the word signal.

In dem Flußdiagramm in Fig. 2a und 2b sind nur die notwendigsten Verfahrensschritte angegeben. Es sind Einsparungen bei der Durchführung der Rechenschritte in dem Verfahren insbesondere dadurch möglich, daß Zwischenwerte gespeichert werden. Beispielsweise können die Energiewerte EF_k bzw. die entsprechenden mittleren Energiewerte, die in dem Block 12 bzw. 13 ermittelt worden sind, stets zwischengespeichert werden, da diese bei den folgenden zugeführten Digitalwerten wieder verwendet werden können, denn das Anfangsfenster für die kleinste Breite des Signalfensters für einen bestimmten Digitalwert hat die gleiche Lage wie das Anfangsfenster bei dem folgenden Digitalwert, wenn das Signalfenster um eine Einheit gegenüber dem minimalen Wert vergrößert ist, usw. Entsprechendes gilt auch für die Energie im Signalfenster. Diese Einsparung an Rechenzeit erfordert jedoch einen höheren Speicherungs- und Adressensteuerungsaufwand für die Zwischenspeicher.Only the most necessary process steps are indicated in the flow chart in FIGS. 2a and 2b. Savings in performing the arithmetic steps in the method are possible in particular by storing intermediate values. For example, the energy values EF _k or the corresponding mean energy values, which were determined in blocks 12 and 13, can always be temporarily stored, since these can be used again in the following digital values that are supplied. because the initial window for the smallest width of the signal window for a certain digital value has the same position as the initial window for the following digital value, if the signal window is enlarged by one unit compared to the minimum value, etc. The same applies to the energy in the signal window. However, this saving in computing time requires a higher storage and address control effort for the buffers.

Wenn das beschriebene Verfahren in Verbindung mit automatischer Spracherkennung verwendet wird, kann der Erkennungsvorgang bei jedem neuen Abspeichern der Werte im Block 35 beginnen, so daß dann, wenn der stationäre Zustand im Block 38 schließlich erkannt ist, das Erkennungsverfahren bereits weit fortgeschritten sein kann, so daß auf diese Weise eine schnellere Erkennung, ggf. eine Erkennung in Echtzeit, möglich ist.If the described method is used in conjunction with automatic speech recognition, the recognition process can begin each time the values are stored in block 35, so that when the steady state is finally recognized in block 38, the recognition process can already be well advanced that faster detection, possibly detection in real time, is possible in this way.

Bei der in Fig. 3 dargestellten Anordnung nimmt ein Schallwandler 40 ein Sprachsignal auf und setzt es in ein elektrisches Signal um. Dieses wird einer Einheit 42 zugeführt, die dem kontinuierlichen Signal in regelmäßigen Zeitabständen Abtastwerte entnimmt und diese digitalisiert. Die Einheit 44 wählt aus jeweils drei aufeinanderfolgenden digitalisierten Abtastwerten den kleinsten aus und führt die so ermittelten Digitalwerte einem Speicher 50 zu. Wenn die Einheit 42 alle 10 ms einen Abtastwert dem Sprachsignal entnimmt, erhält der Speicher 50 also alle 30 ms einen neuen Digitalwert. Dieser wird an einer Adresse abgespeichert, die von einer Steuereinheit 52 über die Verbindung 53 zugeführt wird.In the arrangement shown in FIG. 3, a sound converter 40 picks up a speech signal and converts it into an electrical signal. This is fed to a unit 42 which takes samples from the continuous signal at regular time intervals and digitizes them. The unit 44 selects the smallest from three consecutive digitized samples and feeds the digital values thus determined to a memory 50. If the unit 42 takes a sample value from the speech signal every 10 ms, the memory 50 thus receives a new digital value every 30 ms. This is stored at an address which is supplied by a control unit 52 via the connection 53.

Entsprechend adressiert die Steuereinheit 52 den Speicher 50 auch zum Auslesen der gespeicherten Digitalwerte, die einer Recheneinheit 54 zugeführt werden. Diese wird ebenfalls von der Steuereinheit 52 über eine Verbindung 51 gesteuert und führt die Rechenschritte aus, die in dem Flußdiagramm in Fig. 2a und 2b mit den Blöcken 12, 13, 16, 20 bis 22 und 30 bis 33 angegeben sind. Insbesondere bestimmt die Recheneinheit 54 die Energie im Anfangsfenster durch Aufsummieren der entsprechenden, von der Steuereinheit im Speicher 50 adressierten Digitalwerte und bildet die mittlere Energie. Diese wird über die Leitung 55 einem Vergleicher 58 zugeführt, der am anderen Eingang aus einem zweiten Speicher 56 über dessen Datenausgangsleitung 57 den entsprechenden früher gespeicherten Wert empfängt. Der zweite Speicher 56 wird dabei ebenfalls von der Steuereinheit 52 über die Leitung 59 adressiert. Wenn der auf der Leitung 55 vorhandene, neu ermittelte Wert kleiner ist als der auf der Leitung 57 vorhandene gespeicherte Wert, erzeugt der Vergleicher 58 ein entsprechendes Signal und führt es dem zweiten Speicher 56 zu, so daß nun an der adressierten Stelle der neue, auf der Leitung 55 vorhandene Wert gespeichert wird. Dies entspricht den Blöcken 14 und 17 in Fig. 2a. In entsprechender Weise werden auch die anderen Berechnungen und Vergleiche durchgeführt, wobei die Recheneinheit 54 insbesondere bei den Schritten 21, 31 und 33 die dort erforderlichen Werte aus dem zweiten Speicher 56 über die Leitung 57 erhält. Für das Abspeichern der weiteren Werte beim Schritt 35 führt die Steuereinheit 52 diese Werte über die Leitung 69 dem Dateneingang des zweiten Speichers 56 zu.Correspondingly, the control unit 52 also addresses the memory 50 for reading out the stored digital values, which are fed to a computing unit 54. These is also controlled by the control unit 52 via a connection 51 and carries out the computing steps which are indicated in the flowchart in FIGS. 2a and 2b with the blocks 12, 13, 16, 20 to 22 and 30 to 33. In particular, the computing unit 54 determines the energy in the initial window by summing up the corresponding digital values addressed by the control unit in the memory 50 and forms the average energy. This is fed via line 55 to a comparator 58 which receives the corresponding previously stored value at the other input from a second memory 56 via its data output line 57. The second memory 56 is also addressed by the control unit 52 via the line 59. If the newly determined value on line 55 is smaller than the stored value on line 57, comparator 58 generates a corresponding signal and feeds it to second memory 56, so that the new one is now at the addressed location the line 55 existing value is stored. This corresponds to blocks 14 and 17 in Fig. 2a. The other calculations and comparisons are also carried out in a corresponding manner, the computing unit 54 receiving the values required there, in particular in steps 21, 31 and 33, from the second memory 56 via the line 57. To store the further values in step 35, the control unit 52 supplies these values to the data input of the second memory 56 via the line 69.

Ferner ist noch ein Zähler 60 vorhanden, der den Index l zählt. Über die Leitung 65 wird der Zähler 60 von der Steuereinheit 52 auf die Anfangsstellung gesetzt und mit Zähltakten versorgt, wie bei den Schritten 29 und 36 in Fig. 2b angegeben ist. Jeweils wenn der Zähler 60 eine Anzahl L Taktsignale empfangen hat, die dem Unterschied zwischen dem kleinsten und dem größten Signalfenster entspricht, gibt er über die Leitung 63 ein Schleifenendesignal an die Steuereinheit 52 ab. Dies entspricht dem Vergleich 37 in Fig. 2b. Der Vergleich 38 wird zweckmäßig in der Steuereinheit 52 durchgeführt.There is also a counter 60 which counts the index 1. The counter 60 is set to the initial position by the control unit 52 via line 65 and supplied with counting clocks, as indicated in steps 29 and 36 in FIG. 2b. Each time the counter 60 has received a number of L clock signals, the difference between the smallest and the largest signal window, it outputs an end-of-loop signal to the control unit 52 via the line 63. This corresponds to comparison 37 in FIG. 2b. The comparison 38 is expediently carried out in the control unit 52.

Eine einfache Realisierung der Anordnung nach Fig. 3 besteht darin, daß die Steuereinheit 52 und die Recheneinheit 54 durch einen Mikroprozessor gebildet werden. Dieser kann dann auch noch die Funktion des Vergleichers 58 und des Zählers 60 übernehmen, so daß sich insgesamt ein sehr einfacher Aufbau ergibt.A simple implementation of the arrangement according to FIG. 3 is that the control unit 52 and the computing unit 54 are formed by a microprocessor. This can then also take over the function of the comparator 58 and the counter 60, so that overall a very simple structure results.

Claims

1. Method for determining the start point and end point of a word signal corresponding to an isolated spoken word in a speech signal by determining an extreme value in a sequence of digital values derived from the speech signal, taking into account values of the signal curve surrounding the extreme value and a threshold value,
characterized in that a number of previously successive digital values are assigned to three adjacent windows, of which the first window (end window) a predetermined first number (B _R ) of the last arrived digital values, the second window (signal window) one between a predetermined first value and a predetermined larger second value varying second number (B _S1 ) digital values and the third window (initial window) comprises a predetermined third number (B _F ) digital values that for each new digital value from the digital values in the first window and successively for each value (1 ) the second number (B _S1 ) from the digital values of the associated third window, a threshold value (thr) is formed, by which each digital value of the second window is reduced, so that the sum of the digital values thus reduced for each value of the second number with a highest earlier compared in the same way and depending on the The comparison result is stored as the new highest sum together with position information about the position of the second window within the sequence of the digital values, and that the position information last saved indicate the starting point and the end point of the word signal.

2. The method according to claim 1,
characterized in that only those position information which have remained unchanged for a predetermined number of successively arriving digital values are used as the starting point and end point.

3. The method according to claim 1 or 2,
characterized in that the threshold value is formed from the sum of the digital values in the first and third window and a correction value.

4. The method according to claim 3,
characterized in that for each new digital value at the smallest value of the second number (B _S0 ), the sum of the digital values of the second window is formed and stored if a previously stored second window sum is smaller, and the sum of the digital values of the third window is formed and stored is when a previously saved third window sum is larger and the correction value is formed from the difference between the two stored window sums.

5. The method according to claim 4,
characterized in that the correction value is the difference between the two window sums divided by a constant predetermined signal-to-noise ratio value.

6. The method according to any one of claims 1 to 5,
characterized in that the smallest of three consecutive digitized samples of the speech signal is used as the digital value.

7. Arrangement for carrying out the method according to one of claims 1 to 6, with a first memory for recording digital values derived from a speech signal,
marked by
a second memory for recording intermediate results,
a computing unit which receives the digital values from the first memory and intermediate results from the second memory and determines the energy in each of the windows and the further intermediate results,
a comparator for comparing intermediate results from the second memory with values supplied by the computing unit and for controlling the writing of the latter values into the second memory,
a control unit for addressing the first and second memories and the computing unit in accordance with the method steps, and
a counting arrangement for counting the different second numbers of digital values in the second window and for emitting an end of loop signal to the control unit after a predetermined number of different second numbers.

8. Arrangement according to claim 7,
characterized in that at least the computing unit and the control unit are implemented by a microprocessor.