EP0319078A2 - Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens - Google Patents
Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens Download PDFInfo
- Publication number
- EP0319078A2 EP0319078A2 EP88202629A EP88202629A EP0319078A2 EP 0319078 A2 EP0319078 A2 EP 0319078A2 EP 88202629 A EP88202629 A EP 88202629A EP 88202629 A EP88202629 A EP 88202629A EP 0319078 A2 EP0319078 A2 EP 0319078A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- window
- value
- signal
- digital values
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Definitions
- the invention relates to a method for determining the starting point and end point of a word signal corresponding to an isolated spoken word in a speech signal by determining an extreme value in a sequence of digital values derived from the speech signal, taking into account values of the signal curve surrounding the extreme value and a threshold value.
- Such methods for determining the start and end point in a speech signal are used in particular if the speech signal consists of words spoken in isolation or very short word groups and these words or word groups are to be recognized automatically.
- the actual word signal is accompanied by interference and noise and pauses as well as by background noise such as loud inhalation.
- background noise such as loud inhalation.
- the object of the invention is therefore to provide a method of the type mentioned at the outset which enables the most reliable possible determination of the start and end point even in the case of speech signals which are overlaid by essential interference signals.
- a number of previously successively arriving digital values are assigned to three adjacent windows, of which the first window (end window) a predetermined first number of the last arrived digital values, the second window (signal window) one between a predetermined first value and a predetermined larger second value varying second number of digital values and the third window (initial window) comprises a predetermined third number of digital values that for each new digital value from the digital values in the first window and successively for each value of the second number from the digital values of the associated third window a threshold is formed by which each digital value of the second window is reduced, that the sum of the digital values thus reduced for each value of the second Number compared with a highest sum previously formed in the same way and, depending on the comparison result, is stored as a new highest sum together with position information about the position of the second window within the sequence of the digital values, and that the position information last saved indicate the starting point and the end point of the word signal .
- the determination of the start and end points takes place continuously with the arrival of the speech signal, so that for each at least provisionally optimal determination of the end points, the recognition of the speech signal can begin, which is terminated when a more favorable value for the end points is found, so that faster detection is also possible.
- the threshold value that is used in the determination of the end points should originate as much as possible from the interference signal, the size of which is not, however, readily known. This is done according to the invention by taking into account a respective area before and after the assumed position of the word signal.
- This threshold value can be formed particularly easily by forming the threshold value from the sum of the digital values in the first and third window and a correction value. Such a sum formation can be carried out very easily and quickly.
- a fixed value can be selected as the correction value, which takes into account, for example, a general quality of the speech signal.
- this correction value further takes into account the course of the speech signal, is characterized in that for each new digital value at the smallest value of the second number, the sum of the digital values of the second window is formed and stored if a previously stored second window sum is smaller, and the sum of the digital values of the third window is formed and stored if a previously stored third window sum is larger, and the correction value is formed from the difference between the two stored window sums. In this way, not only the areas outside the assumed endpoints are included, but also that Voice signal between the endpoints.
- the correction value is the difference between the two window sums divided by a constant predetermined signal-to-noise ratio value.
- the predefined signal-to-noise ratio value is then a measure of the average quality of the voice signal and is smaller the more the voice signal is disturbed, as is the case, for example, with voice transmission over telephone lines.
- An arrangement for carrying out the method according to the invention which has a first memory for recording digital values derived from a speech signal, is characterized according to the invention by a second memory for recording intermediate results, a computing unit which receives the digital values from the first memory and intermediate results from the second memory and determines the energy in each of the windows and the further intermediate results, a comparator for comparing intermediate results from the second memory with values supplied by the computing unit and for controlling the writing of the latter values into the second memory, a control unit for addressing the first and second memories and the computing unit in accordance with the method steps, and a counting arrangement for counting the different second numbers of digital values in the second window and for delivering an end of loop signal to the control unit after a predetermined number of different second numbers.
- the control unit can be a sequence controller that is controlled by a stored program. A particularly simple structure is obtained if at least the computing unit and the control unit are implemented by a microprocessor. If necessary, this can also take over the function of the comparator and the counting arrangement.
- the signal curve shown in FIG. 1a for example, as energy E or amplitude of the speech signal over time t has currently arrived and sampled up to time m1 and is in the form of digital samples.
- the continuously displayed signal curve is therefore present in the digital range as a sequence of discrete points, which, however, does not significantly influence the further explanation.
- the signal curve is now divided into three adjacent windows, of which the first window of the samples values range from m1 to m2 and is called the end window because it represents the temporary end of the speech signal in terms of time.
- the middle window ranges from the sample values m2 to the sample value m3.
- the actual word signal is accepted here, which has a higher energy value than the speech signal parts before and after it.
- the point m3 is gradually changed between a minimum distance and a maximum distance from the time m2 for the endpoint determination procedure to be described.
- the third window extends from the respective time m3 to time m4, the distance between which is again constant.
- each distance value can only belong to one of the windows, i.e. the middle window begins, when the first window reaches the sample value at the time m2, with the sample value immediately to the left, and the same applies to the third window.
- this fact is not further emphasized in the following explanation, but continues to assume a quasi-continuous signal curve.
- 1b assumes a later point in time at which the voice signal has already arrived by the point in time n1.
- a larger signal window is assumed, so that its start at time n3 is further away from time n2 than in FIG. 1a.
- the point in time n4 is the beginning of the initial window at an even earlier point in time.
- An essential criterion when determining the end points of the speech signal is the area of the speech signal within the signal window, reduced by a threshold value SW, which depends, among other things, on the area under the speech signal in the first and in the third window.
- SW which depends, among other things, on the area under the speech signal in the first and in the third window.
- the areas under the speech signal is represented by the sum of the digitized samples within the respective window.
- Fig. 1a the area in the start and end window is still relatively large, so that there is a higher threshold SW m . From the figure it can be seen immediately that the area reduced by the threshold value in the middle window becomes larger when the start and end windows are pulled further apart, ie when the subsequent arriving parts of the signal curve are waited for and the width of the signal window is chosen to be larger.
- the area of the speech signal that is briefly below the threshold value SW n within this signal window also makes a negative contribution, but is exceeded by the higher signal section to the left of it, so that extending the middle window extends beyond this area of the speech signal overall an increase in the total area in the signal window above the threshold value SW n results.
- the aforementioned start and end point will be determined with the method according to the flow chart in Figs. 2a and 2b.
- the symbol 10 means the start of the entire process, i.e. the beginning of the speech signal.
- various initial values are set, a number of samples corresponding to the length of the end window, the minimum signal window and the initial window are waited for before the method can start, and a special filter function is carried out. This consists in the fact that the smallest value is selected from each three consecutive samples and is fed to the method as a digital value. For example, every 10 ms a sample value is taken from the speech signal which represents the instantaneous value or the integrated value since the last sample value, and the sample values are digitized.
- a digital value is supplied to the method every 30 ms, so that 30 ms are available for carrying out the following method steps.
- the supplied digital values are saved because they will still be needed at later times, at least for a signal duration that corresponds to the sum of the predetermined maximum duration of the signal window and the two other windows.
- the energy EF k is determined in the initial window between the points m3 and m4 in FIG. 1a or n3 and n4 in FIG. 1b by summing up the signal values therein. In block 13, this value is divided by the length B F of the initial window and thus the average energy eF k is determined in this window.
- a comparison 14 checks whether this mean value eF k is smaller than a stored value eF sp , and if this is the case, this smaller value is stored in block 15, ie eF sp is replaced by the current value eF k .
- the energy ES k of the signal window with a minimum length is determined in block 16, i.e. the area under the speech signal curve between the points m2 and m3 in FIG the stored digital values are summed up in this area.
- a comparison 17 then checks whether this energy ES k is greater than a stored energy ES sp .
- the stored value is replaced by the new value in block 18, then or if the new value is not greater than the stored value, the mean energy ES k is determined in block 20 by the total energy ES k by the minimum width B s0 of the signal window is divided.
- the width B of this window and of the other windows is given by the number of digital values contained therein.
- a correction value thN is then determined in block 21 from the difference between the average energy eS k in the signal window and eF k in the initial window, which is divided by an assumed signal-to-noise ratio value SNR.
- the average energy in the end window is determined in block 22 in a manner corresponding to that in the initial window.
- Steps 12 to 22 run once for each newly arrived digital value, while connection point 23 now leads to a loop which is run through once for each permitted width of the signal window. These individual runs are indicated with index 1.
- This loop is indicated in FIG. 2 b, which begins with the connection point 23.
- this value 1 is set to the initial value zero.
- the average energy value eF1 of the initial window at the respective shift 1 is determined from the minimum width of the signal window in accordance with block 13, and in block 31 the value determined in this way is determined in relation to the average energy value of the final window determined in block 22 and to that correction value thN determined in block 21 is added in order to determine the threshold value thr.
- the energy ES 1 of the signal window is determined in the respective width by adding up the digital values in this window.
- the threshold value thr multiplied by the respective width B S1 of the signal window, is subtracted from this value.
- This effective energy EPS1 is regarded as the energy of the speech signal in the signal window, which protrudes beyond the interference signal, this interference signal can not be determined directly, but a probable value in the form of the threshold value is derived in the manner described above.
- the recognition process can begin each time the values are stored in block 35, so that when the steady state is finally recognized in block 38, the recognition process can already be well advanced that faster detection, possibly detection in real time, is possible in this way.
- a sound converter 40 picks up a speech signal and converts it into an electrical signal. This is fed to a unit 42 which takes samples from the continuous signal at regular time intervals and digitizes them. The unit 44 selects the smallest from three consecutive digitized samples and feeds the digital values thus determined to a memory 50. If the unit 42 takes a sample value from the speech signal every 10 ms, the memory 50 thus receives a new digital value every 30 ms. This is stored at an address which is supplied by a control unit 52 via the connection 53.
- control unit 52 also addresses the memory 50 for reading out the stored digital values, which are fed to a computing unit 54.
- these is also controlled by the control unit 52 via a connection 51 and carries out the computing steps which are indicated in the flowchart in FIGS. 2a and 2b with the blocks 12, 13, 16, 20 to 22 and 30 to 33.
- the computing unit 54 determines the energy in the initial window by summing up the corresponding digital values addressed by the control unit in the memory 50 and forms the average energy. This is fed via line 55 to a comparator 58 which receives the corresponding previously stored value at the other input from a second memory 56 via its data output line 57.
- the second memory 56 is also addressed by the control unit 52 via the line 59.
- comparator 58 If the newly determined value on line 55 is smaller than the stored value on line 57, comparator 58 generates a corresponding signal and feeds it to second memory 56, so that the new one is now at the addressed location the line 55 existing value is stored. This corresponds to blocks 14 and 17 in Fig. 2a.
- the other calculations and comparisons are also carried out in a corresponding manner, the computing unit 54 receiving the values required there, in particular in steps 21, 31 and 33, from the second memory 56 via the line 57.
- the control unit 52 supplies these values to the data input of the second memory 56 via the line 69.
- the counter 60 which counts the index 1.
- the counter 60 is set to the initial position by the control unit 52 via line 65 and supplied with counting clocks, as indicated in steps 29 and 36 in FIG. 2b.
- the comparison 38 is expediently carried out in the control unit 52.
- control unit 52 and the computing unit 54 are formed by a microprocessor. This can then also take over the function of the comparator 58 and the counter 60, so that overall a very simple structure results.
Abstract
Zur Ermittlung von Anfangs- und Endpunkt eines Wortsignals innerhalb eines Sprachsignals aus isoliert gesprochenen Wörtern werden bei jedem neuen Digitalwert drei benachbarte Fenster für die letzten bisher eingetroffenen gespeicherten Digitalwerte bestimmt, von denen das mittlere Fenster das eigentliche Wortsignal enthalten soll. Die Länge dieses mittleren Fensters wird für jeden Digitalwert zwischen einem minimalen und einem maximalen Wert variiert, und von der darin enthaltenen Energie wird jeweils ein Schwellwert subtrahiert, der aus den beiden benachbarten Fenstern bestimmt wird. Auf diese Weise berücksichtigt das erfindungsgemäße Verfahren jeweils das gesamte Sprachsignal anstatt einzelner isolierter Bereiche, wodurch eine zuverlässigere Endpunktbestimmung möglich ist.
Description
- Die Erfindung betrifft ein Verfahren zum Bestimmen von Anfangspunkt und Endpunkt eines Wortsignals entsprechend einem isoliert gesprochenen Wort in einem Sprachsignal durch Ermittlung eines Extremwertes in einer vom Sprachsignal abgeleiteten Folge von Digitalwerten bei Berücksichtigung von den Extremwert umgebenden Werten des Signalverlaufs und eines Schwellwertes.
- Derartige Verfahren zur Bestimmung von Anfangs- und Endpunkt in einem Sprachsignal werden insbesondere verwendet, wenn das Sprachsignal aus isoliert gesprochenen Wörtern oder sehr kurzen Wortgruppen besteht und diese Wörter bzw. Wortgruppen automatisch erkannt werden sollen. Das eigentliche Wortsignal ist bei fast allen Anwendungen im Sprachsignal durch Störungen und Rauschen und Pausen sowie durch Nebengeräusche wie lautes Einatmen begleitet. Für eine möglichst zuverlässige Erkennung des oder der Wörter im Sprachsignal ist es jedoch wichtig, genau mit dem Sprachsignalteil die Erkennung zu beginnen, die auch den Anfang des zu erkennenden Wortes darstellt.
- Es sind bereits verschiedene Verfahren zur Bestimmung von Anfangs- und Endpunkt bekannt. In ICASSP 84 Proceedings, 19. bis 21. März 1984, St. Diego, Kalifornia, ist auf den Seiten 18B.7.1 bis 18B.7.4 ein Verfahren zur Detektion von Endpunkten in einem Sprachsignal beschrieben, das mit der Autokorrelationsmatrix des Sprachsignals arbeitet. Eine solche Matrix ist nur mit einem erheblichen Rechenaufwand zu bilden, und die Ergebnisse sind nicht unter allen Bedingungen befriedigend. In der WO 86/03047 wird ein Endpunktdetektor verwendet, der das Sprachsignal in Blöcke unterteilt, die einander überlappen. Diese Blöcke sind jedoch festgelegt, unabhängig von dem Verlauf des Sprachsignals, und es wird der Block mit der maximalen Energie festgestellt und der davorliegende Block mit einer Energie unterhalb eines Schwellwertes bestimmt, der um ein bestimmtes Maß unter der maximalen Energie liegt. Mit weiteren aufwendigen Schritten werden dann eine Anzahl derartiger Maxima und deren Dauer ermittelt und daraus längerdauernde Energiemaxima errechnet. Auch hierbei ist insbesondere bei Überlagerung des Sprachsignals mit stärkeren Störungen eine zuverlässige Endpunkterkennung schwierig und unzuverlässig.
- Aufgabe der Erfindung ist es daher, ein Verfahren der eingangs genannten Art anzugeben, das eine möglichst zuverlässige Anfangs- und Endpunktbestimmung auch bei Sprachsignalen ermöglicht, die durch wesentliche Störsignale überlagert sind.
- Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß eine Anzahl vorher aufeinanderfolgend eingetroffener Digitalwerte drei benachbarten Fenstern zugeordnet werden, von denen das erste Fenster (Endfenster) eine vorgegebene erste Anzahl der zuletzt eingetroffenen Digitalwerte, das zweite Fenster (Signalfenster) eine zwischen einem vorgegebenen ersten Wert und einem vorgegebenen größeren zweiten Wert variierende zweite Anzahl Digitalwerte und das dritte Fenster (Anfangsfenster) eine vorgegebene dritte Anzahl Digitalwerte umfaßt, daß für jeden neuen Digitalwert aus den Digitalwerten im ersten Fenster und aufeinanderfolgend für je einen Wert der zweiten Anzahl aus den Digitalwerten des zugehörigen dritten Fensters ein Schwellwert gebildet wird, um den jeder Digitalwert des zweiten Fensters vermindert wird, daß die Summe der so verminderten Digitalwerte für jeden Wert der zweiten Anzahl mit einer höchsten früher auf gleiche Weise gebildeten Summe verglichen und abhängig vom Vergleichsergebnis als neue höchste Summe zusammen mit Lageangaben über die Lage des zweiten Fensters innerhalb der Folge der Digitalwerte gespeichert wird, und daß die zuletzt gespeicherten Lageangaben den Anfangspunkt und den Endpunkt des Wortsignals angeben.
- Es werden also keine festen Schwellwerte oder einfache absolute Maxima verwendet, sondern es werden quasi verschiedene Anfangs- und Endpunkte im Sprachsignal angenommen und dafür geprüft, ob die Energie des darin enthaltenen Sprachsignals jeweils größer ist als bei anderen angenommenen Endpunkten, wobei ein Schwellwert subtrahiert wird, der aus den benachbarten Bereichen zu beiden Seiten des angenommenen Bereichs des Wortsignals bestimmt wird. Auf diese Weise wird also kein lokales, sondern ein globales Kriterium über das gesamte Sprachsignal verwendet, indem nur ein derartiges Sprachsignal als Wortsignal gewertet wird, das über seine Umgebung maximal herausragt. Da die minimale und maximale Breite des zweiten Fensters, das also das Wortsignal darstellt, begrenzt ist, ist eine zusätzliche Sicherheit gegen Störungen gegeben und besteht außerdem die Möglichkeit, mehrere hintereinander isoliert gesprochene Wörter eindeutig voneinander zu trennen. Die Ermittlung von Anfangs- und Endpunkt erfolgt kontinuierlich mit dem Eintreffen des Sprachsignals, so daß für jede zumindest vorläufig optimale Bestimmung der Endpunkte bereits die Erkennung des Sprachsignals beginnen kann, wobei diese abgebrochen wird, wenn ein günstigerer Wert für die Endpunkte gefunden ist, so daß auch eine schnellere Erkennung möglich ist.
- Um die Zuverlässigkeit weiter zu erhöhen und beispielsweise kurze unbetonte Bereiche innerhalb eines Wortes nicht bereits als Endpunkt zu erkennen, ist es nach einer Ausgestaltung der Erfindung zweckmäßig, daß nur diejenigen Lageangaben, die für eine vorgegebene Anzahl aufeinanderfolgend eingetroffener Digitalwerte unverändert geblieben sind, als Anfangspunkt und Endpunkt verwendet werden. Es wird also geprüft, ob nach dem Endpunkt eine ausreichend lange Sprachpause folgt.
- Der Schwellwert, der bei der Bestimmung der Endpunkte verwendet wird, sollte möglichst weitgehend vom Störsignal ausgehen, dessen Größe jedoch nicht ohne weiteres bekannt ist. Dies erfolgt erfindungsgemäß durch Berücksichtigung je eines Bereiches vor und nach der angenommenen Lage des Wortsignals. Besonders einfach kann dieser Schwellwert dadurch gebildet werden, daß der Schwellwert aus der Summe der Digitalwerte im ersten und im dritten Fenster und eines Korrekturwertes gebildet wird. Eine derartige Summenbildung kann sehr einfach und schnell durchgeführt werden.
- Als Korrekturwert kann ein fester Wert gewählt werden, der beispielsweise eine allgemeine Qualität des Sprachsignals berücksichtigt. Eine weitere Ausgestaltung der Erfindung, bei der dieser Korrekturwert den Verlauf des Sprachsignals weiter berücksichtigt, ist dadurch gekennzeichnet, daß für jeden neuen Digitalwert beim kleinsten Wert der zweiten Anzahl die Summe der Digitalwerte des zweiten Fensters gebildet und abgespeichert wird, wenn eine vorher abgespeicherte zweite Fenstersumme kleiner ist, und die Summe der Digitalwerte des dritten Fensters gebildet und abgespeichert wird, wenn eine vorher abgespeicherte dritte Fenstersumme größer ist, und aus der Differenz der beiden abgespeicherten Fenstersummen der Korrekturwert gebildet wird. Auf diese Weise gehen also nicht nur die Bereiche außerhalb der angenommenen Endpunkte ein, sondern auch das Sprachsignal zwischen den Endpunkten. Insbesondere ist es zweckmäßig, daß der Korrekturwert die durch einen konstanten vorgegebenen Signal-Rausch-Verhältniswert dividierte Differenz der beiden Fenstersummen ist. Der vorgegebene Signal-Rausch-Verhältniswert ist dann ein Maß für die mittlere Qualität des Sprachsignals und ist um so kleiner, je stärker das Sprachsignal gestört ist, wie dies beispielsweise bei Sprachübertragung über Telefonleitungen der Fall ist.
- Es kann in der Praxis leicht vorkommen, daß dem Sprachsignal Störsignale überlagert sind, die zwar sehr kurz sind, jedoch eine hohe Amplitude aufweisen. Um auch in diesem Falle die Sicherheit der Endpunkterkennung zu erhöhen, ist es nach einer weiteren Ausgestaltung der Erfindung zweckmäßig, daß als Digitalwert der kleinste von jeweils mehreren aufeinanderfolgenden digitalisierten Abtastwerten des Sprachsignals verwendet wird. Diese Maßnahme stellt ein sehr wirksames Filter für das Sprachsignal dar.
- Eine Anordnung zur Durchführung des erfindungsgemäßen Verfahrens, die einen ersten Speicher zur Aufnahme von aus einem Sprachsignal abgeleiteten Digitalwerten aufweist, ist gemäß der Erfindung gekennzeichnet durch einen zweiten Speicher zur Aufnahme von Zwischenergebnissen,
eine Recheneinheit, die die Digitalwerte aus dem ersten Speicher sowie Zwischenergebnisse aus dem zweiten Speicher empfängt und die Energie in jeweils einem der Fenster sowie die weiteren Zwischenergebnisse bestimmt,
einen Vergleicher zum Vergleichen von Zwischenergebnissen aus dem zweiten Speicher mit von der Recheneinheit gelieferten Werten und zum Steuern des Einschreibens der letzteren Werte in den zweiten Speicher,
eine Steuereinheit zum Adressieren des ersten und des zweiten Speichers und der Recheneinheit entsprechend den Verfahrensschritten, und
eine Zählanordnung zum Zählen der unterschiedlichen zweiten Anzahlen von Digitalwerten im zweiten Fenster und zum Abgeben eines Scheleifenendesignals an die Steuereinheit nach einer vorgegebenen Anzahl unterschiedlicher zweiter Anzahlen. Die Steuereinheit kann eine Ablaufsteuerung sein, die durch ein gespeichertes Programm gesteuert wird. Ein besonders einfacher Aufbau wird erhalten, wenn mindestens die Recheneinheit und die Steuereinheit durch einen Mikroprozessor realisiert sind. Dieser kann gegebenenfalls auch die Funktion des Vergleichers und der Zählanordnung übernehmen. - Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung erläutert. Es zeigen
- Fig. 1a und 1b mit verschiedenen Lagen der Fenster,
- Fig. 2a und 2b ein Flußdiagramm für den Ablauf des Verfahrens zur Endpunktbestimmung,
- Fig. 3 schematisch ein Blockschaltbild einer Anordnung zur Durchführung des Verfahrens.
- Der in Fig. 1a dargestellte beispielsweise Signalverlauf als Energie E oder Amplitude des Sprachsignals über die Zeit t sei momentan bis zum Zeitpunkt m1 eingetroffen und abgetastet und liegt in Form von digitalen Abtastwerten vor. Der kontinuierlich dargestellte Signalverlauf liegt also im digitalen Bereich als Folge diskreter Punkte vor, was jedoch die weitere Erläuterung nicht wesentlich beeinflußt.
- Der Signalverlauf wird nun in drei benachbarte Fenster eingeteilt, von denen das erste Fenster von den Abtast werten m1 bis m2 reicht und mit Endfenster bezeichnet wird, weil es zeitlich gesehen das vorläufige Ende des Sprachsignals darstellt. Das mittlere Fenster reicht von den Abtastwerten m2 bis zum Abtastwert m3. Hierin wird das eigentliche Wortsignal angenommen, das einen höheren Energiewert als die Sprachsignalteile davor und dahinter hat. Der Punkt m3 wird für das zu beschreibende Verfahren der Endpunktbestimmung schrittweise zwischen einem minimalen Abstand und einem maximalen Abstand vom Zeitpunkt m2 verändert. Das dritte Fenster reicht vom jeweiligen Zeitpunkt m3 bis zum Zeitpunkt m4, deren Abstand wiederum konstant ist.
- Es sei bemerkt, daß jeder Abstandswert nur zu einem der Fenster gehören kann, d.h. das mittlere Fenster beginnt, wenn das erste Fenster bis zum Abtastwert zum Zeitpunkt m2 reicht, mit dem unmittelbar links danebenliegenden Abtastwert, und entsprechendes gilt auch für das dritte Fenster. Der Einfachheit halber wird diese Tatsache in der folgenden Erläuterung nicht weiter betont, sondern weiterhin ein quasi kontinuierlicher Signalverlauf angenommen.
- In Fig. 1b ist ein späterer Zeitpunkt angenommen, bei dem das Sprachsignal bereits bis zum Zeitpunkt n1 eingetroffen ist. Außerdem ist ein größeres Signalfenster angenommen, so daß dessen Beginn beim Zeitpunkt n3 weiter vom Zeitpunkt n2 entfernt liegt als bei Fig. 1a. Entsprechend liegt dann auch der Zeitpunkt n4 als Beginn des Anfangsfensters zu einem noch früheren Zeitpunkt.
- Ein wesentliches Kriterium bei der Bestimmung der Endpunkte des Sprachsignals ist die Fläche des Sprachsignals innerhalb des Signalfensters, vermindert um einen Schwellwert SW, der u.a. von der Fläche unter dem Sprachsignal im ersten und im dritten Fenster abhängt. Die Flächen unter dem Sprachsignal werden im übrigen durch die Summe der digitalisierten Abtastwerte innerhalb des jeweiligen Fensters dargestellt.
- In Fig. 1a ist die Fläche in dem Anfangs- und Endfenster noch relativ groß, so daß sich ein höherer Schwellwert SWm ergibt. Aus der Figur ist unmittelbar zu erkennen, daß die um den Schwellwert verminderte Fläche im mittleren Fenster größer wird, wenn Anfangs- und Endfenster weiter auseinandergezogen werden, d.h. wenn die noch folgenden eintreffenden Teile des Signalverlaufs abgewartet werden und die Breite des Signalfensters größer gewählt wird.
- In Fig. 1b ist dieser Fall nun dargestellt, wobei die Fläche unter dem Sprachsignal im Anfangs- und im Endfenster nun wesentlich kleiner ist, so daß auch der Schwellwert SWn niedriger liegt, jedoch ist nun zu erkennen, daß die Teile des Sprachsignals, die dem Anfangs- und Endfenster am nächsten liegen, einen negativen Beitrag zur Gesamtfläche im Signalfenster abzüglich des Schwellwertes SWn liefern, da diese Signalwerte kleiner sind als der Schwellwert. Bei der optimalen Entscheidung fallen Anfangs- und Endpunkt auf Zeiten, bei denen der Signalwert gleich dem Schwellwert ist. Der Bereich des Sprachsignals, der innerhalb dieses Signalfensters kurzzeitig unterhalb des Schwellwerts SWn liegt, liefert zwar ebenfalls einen negativen Beitrag, der jedoch durch den links davon liegenden höheren Signalabschnitt übertroffen wird, so daß sich durch Verlängern des mittleren Fensters über diesen Bereich des Sprachsignals hinaus insgesamt eine Vergrößerung der Gesamtfläche im Signalfenster oberhalb des Schwellwertes SWn ergibt. Der vorher genannte Anfangs- und Endpunkt wird mit dem Verfahren entsprechend dem Flußdiagramm in Fig. 2a und 2b bestimmt.
- Das Symbol 10 bedeutet den Start des gesamten Ablaufs, d.h. den Beginn des Sprachsignals. Im Block 11 werden verschiedene Anfangswerte eingestellt, eine Anzahl Abtastwerte entsprechend der Länge des Endfensters, des minimalen Signalfensters und des Anfangsfensters abgewartet, bevor das Verfahren starten kann, sowie eine spezielle Filterfunktion durchgeführt. Diese besteht darin, daß von jeweils drei aufeinanderfolgenden Abtastwerten der kleinste Wert gewählt und als Digitalwert dem Verfahren zugeführt wird. Beispielsweise wird alle 10 ms ein Abtastwert dem Sprachsignal entnommen, der den Momentanwert oder den integrierten Wert seit dem letzten Abtastwert darstellt, und die Abtastwerte werden digitalisiert. Wenn von jeweils drei aufeinanderfolgenden Abtastwerten der kleinste ausgewählt wird, werden dem Verfahren also alle 30 ms ein Digitalwert zugeführt, so daß für die Durchführung der folgenden Verfahrensschritte 30 ms zur Verfügung stehen. Die zugeführten Digitalwerte werden gespeichert, da sie zu späteren Zeitpunkten noch benötigt werden, und zwar mindestens über eine Signaldauer, die der Summe aus der vorgegebenen maximalen Dauer des Signalfensters und der beiden anderen Fenster entspricht.
- Im Block 12 wird die Energie EFk im Anfangsfenster zwischen den Punkten m3 und m4 in Fig. 1a bzw. n3 und n4 in Fig. 1b durch Aufsummieren der darin liegenden Signalwerte bestimmt. Im Block 13 wird dieser Wert durch die Länge BF des Anfangsfensters dividiert und damit die mittlere Energie eFk in diesem Fenster bestimmt.
- In einem Vergleich 14 wird geprüft, ob dieser mittlere Wert eFk kleiner ist als ein gespeicherter Wert eFsp, und wenn dies der Fall ist, wird im Block 15 dieser kleinere Wert gespeichert, d.h. eFsp wird durch den momentanen Wert eFk ersetzt. Nach dem Block 15 oder wenn der neue Wert nicht kleiner ist als der gespeicherte Wert wird im Block 16 die Energie ESk des Signalfensters mit minimaler Länge bestimmt, also die Fläche unter dem Sprachsignalverlauf zwischen den Punkten m2 und m3 in Fig. 1a, wofür ebenfalls die gespeicherten Digitalwerte in diesem Bereich aufsummiert werden. Danach wird in einem Vergleich 17 geprüft, ob diese Energie ESk größer ist als eine gespeicherte Energie ESsp. Wenn dies der Fall ist, wird im Block 18 der gespeicherte Wert durch den neuen Wert ersetzt, danach oder wenn der neue Wert nicht größer ist als der gespeicherte Wert, wird im Block 20 die mittlere Energie ESk bestimmt, indem die Gesamtenergie ESk durch die minimale Breite Bs0 des Signalfensters dividiert wird. Die Breite B dieses Fensters sowie der anderen Fenster wird jeweils durch die Anzahl darinliegender Digitalwerte angegeben.
- Danach wird im Block 21 ein Korrekturwert thN aus der Differenz zwischen der mittleren Energie eSk im Signalfenster und eFk im Anfangsfenster, die durch einen angenommenen Signal-Rausch-Verhältniswert SNR dividiert wird, bestimmt. Schließlich wird im Block 22 die mittlere Energie im Endfenster, also zwischen den Punkten m1 und m2 in Fig. 1a oder n1 und n2 in Fig. 1b auf entsprechende Weise wie im Anfangsfenster bestimmt.
- Die Schritte 12 bis 22 laufen bei jedem neu eingetroffenen Digitalwert einmal ab, während der Verbindungspunkt 23 nun zu einer Schleife führt, die für jede zugelassene Breite des Signalfensters einmal durchlaufen wird. Diese einzelnen Durchläufe werden mit dem Index 1 angedeutet.
- In Fig. 2b ist diese Schleife angegeben, die mit dem Verbindungspunkt 23 beginnt. Im Block 29 wird dieser Wert 1 auf den Anfangswert Null gesetzt. Im folgenden Block 30 wird der mittlere Energiewert eF₁ des Anfangsfensters bei der jeweiligen Verschiebung 1 von der minimalen Breite des Signalfensters aus entsprechend Block 13 bestimmt, und im Block 31 wird der so ermittelte Wert zu dem im Block 22 ermittelten mittleren Energiewert des Endfensters und zu dem im Block 21 ermittelten Korrekturwert thN addiert, um den Schwellwert thr zu ermitteln. Danach wird im Block 32 die Energie ES₁ des Signalfensters in der jeweiligen Breite durch Aufsummieren der Digitalwerte in diesem Fenster bestimmt. Im Block 33 wird schließlich von diesem Wert der Schwellwert thr, multipliziert mit der jeweiligen Breite BS1 des Signalfensters, subtrahiert. Dies ist die Fläche unter dem Signalverlauf in Fig. 1a zwischen den Punkten m2 und m3 bzw. in Fig. 1b zwischen den Punkten n2 und n3, vermindert um die Fläche unterhalb des Schwellwertes SWm bzw. SWn zwischen diesen Punkten. Diese effektive Energie EPS₁ wird als die Energie des Sprachsignals in dem Signalfenster angesehen, die über das Störsignal hinausragt, wobei dieses Störsignal nicht direkt ermittelt werden kann, sondern ein wahrscheinlicher Wert in Form des Schwellwertes in der vorher beschriebenen Weise abgeleitet wird.
- Beim Vergleich 34 wird geprüft, ob diese zuletzt ermittelte effektive Energie EPSe des Sprachsignals über einem gespeicherten Wert EPSS liegt. Wenn dies der Fall ist, wird im Block 35 dieser neue Wert abgespeichert, ferner wird gespeichert, bei welchem zuletzt eingetroffenen Digitalwert dies erfolgt ist, indem ein momentaner Index k als Wert ksp gespeichert wird, und ferner werden Anfangs- und Endpunkt des Signalfensters, d.h. die Werte m2 und m3 in Fig. 1a bzw. n2 und n3 in Fig. 1b ge speichert. Daran anschließend oder, wenn beim Vergleich 34 der neue Wert nicht größer ist als der gespeicherte, wird im Block 36 der Schleifenwert 1 um 1 erhöht, und im Vergleich 37 wird geprüft, ob dieser Wert 1 den vorgegebenen Maximalwert L entsprechend der maximalen Breite des Signalfensters erreicht hat. Wenn dies nicht der Fall ist, wird zum Block 30 zurückgegangen.
- Anderenfalls wird im Vergleich 38 geprüft, ob das gefundene Maximum der Energie im Sprachfenster stationär ist, d.h. ob eine ausreichende Anzahl KST von weiteren Digitalwerten zugeführt worden ist, ohne daß ein höherer Energiewert gefunden worden ist. Wenn dies nicht der Fall ist, wird zum Block 12 zurückgegangen und der nächste Digitalwert verarbeitet. Wenn jedoch seit einer vorgegebenen Anzahl neu zugeführter Digitalwerte keine höhere Energie im Signalfenster festgestellt worden ist, wird angenommen, daß die zuletzt im Block 35 abgespeicherte effektive Energie dasjenige Signalfenster angibt, das dem Wortsignal innerhalb des Sprachsignals am besten entspricht, und die dabei abgespeicherten Lagewerte des Fensters, d.h. die Punkte m2 und m3 bzw. n2 und n3 geben den gesuchten Anfangspunkt und Endpunkt des Wortsignals an.
- In dem Flußdiagramm in Fig. 2a und 2b sind nur die notwendigsten Verfahrensschritte angegeben. Es sind Einsparungen bei der Durchführung der Rechenschritte in dem Verfahren insbesondere dadurch möglich, daß Zwischenwerte gespeichert werden. Beispielsweise können die Energiewerte EFk bzw. die entsprechenden mittleren Energiewerte, die in dem Block 12 bzw. 13 ermittelt worden sind, stets zwischengespeichert werden, da diese bei den folgenden zugeführten Digitalwerten wieder verwendet werden können, denn das Anfangsfenster für die kleinste Breite des Signalfensters für einen bestimmten Digitalwert hat die gleiche Lage wie das Anfangsfenster bei dem folgenden Digitalwert, wenn das Signalfenster um eine Einheit gegenüber dem minimalen Wert vergrößert ist, usw. Entsprechendes gilt auch für die Energie im Signalfenster. Diese Einsparung an Rechenzeit erfordert jedoch einen höheren Speicherungs- und Adressensteuerungsaufwand für die Zwischenspeicher.
- Wenn das beschriebene Verfahren in Verbindung mit automatischer Spracherkennung verwendet wird, kann der Erkennungsvorgang bei jedem neuen Abspeichern der Werte im Block 35 beginnen, so daß dann, wenn der stationäre Zustand im Block 38 schließlich erkannt ist, das Erkennungsverfahren bereits weit fortgeschritten sein kann, so daß auf diese Weise eine schnellere Erkennung, ggf. eine Erkennung in Echtzeit, möglich ist.
- Bei der in Fig. 3 dargestellten Anordnung nimmt ein Schallwandler 40 ein Sprachsignal auf und setzt es in ein elektrisches Signal um. Dieses wird einer Einheit 42 zugeführt, die dem kontinuierlichen Signal in regelmäßigen Zeitabständen Abtastwerte entnimmt und diese digitalisiert. Die Einheit 44 wählt aus jeweils drei aufeinanderfolgenden digitalisierten Abtastwerten den kleinsten aus und führt die so ermittelten Digitalwerte einem Speicher 50 zu. Wenn die Einheit 42 alle 10 ms einen Abtastwert dem Sprachsignal entnimmt, erhält der Speicher 50 also alle 30 ms einen neuen Digitalwert. Dieser wird an einer Adresse abgespeichert, die von einer Steuereinheit 52 über die Verbindung 53 zugeführt wird.
- Entsprechend adressiert die Steuereinheit 52 den Speicher 50 auch zum Auslesen der gespeicherten Digitalwerte, die einer Recheneinheit 54 zugeführt werden. Diese wird ebenfalls von der Steuereinheit 52 über eine Verbindung 51 gesteuert und führt die Rechenschritte aus, die in dem Flußdiagramm in Fig. 2a und 2b mit den Blöcken 12, 13, 16, 20 bis 22 und 30 bis 33 angegeben sind. Insbesondere bestimmt die Recheneinheit 54 die Energie im Anfangsfenster durch Aufsummieren der entsprechenden, von der Steuereinheit im Speicher 50 adressierten Digitalwerte und bildet die mittlere Energie. Diese wird über die Leitung 55 einem Vergleicher 58 zugeführt, der am anderen Eingang aus einem zweiten Speicher 56 über dessen Datenausgangsleitung 57 den entsprechenden früher gespeicherten Wert empfängt. Der zweite Speicher 56 wird dabei ebenfalls von der Steuereinheit 52 über die Leitung 59 adressiert. Wenn der auf der Leitung 55 vorhandene, neu ermittelte Wert kleiner ist als der auf der Leitung 57 vorhandene gespeicherte Wert, erzeugt der Vergleicher 58 ein entsprechendes Signal und führt es dem zweiten Speicher 56 zu, so daß nun an der adressierten Stelle der neue, auf der Leitung 55 vorhandene Wert gespeichert wird. Dies entspricht den Blöcken 14 und 17 in Fig. 2a. In entsprechender Weise werden auch die anderen Berechnungen und Vergleiche durchgeführt, wobei die Recheneinheit 54 insbesondere bei den Schritten 21, 31 und 33 die dort erforderlichen Werte aus dem zweiten Speicher 56 über die Leitung 57 erhält. Für das Abspeichern der weiteren Werte beim Schritt 35 führt die Steuereinheit 52 diese Werte über die Leitung 69 dem Dateneingang des zweiten Speichers 56 zu.
- Ferner ist noch ein Zähler 60 vorhanden, der den Index l zählt. Über die Leitung 65 wird der Zähler 60 von der Steuereinheit 52 auf die Anfangsstellung gesetzt und mit Zähltakten versorgt, wie bei den Schritten 29 und 36 in Fig. 2b angegeben ist. Jeweils wenn der Zähler 60 eine Anzahl L Taktsignale empfangen hat, die dem Unterschied zwischen dem kleinsten und dem größten Signalfenster entspricht, gibt er über die Leitung 63 ein Schleifenendesignal an die Steuereinheit 52 ab. Dies entspricht dem Vergleich 37 in Fig. 2b. Der Vergleich 38 wird zweckmäßig in der Steuereinheit 52 durchgeführt.
- Eine einfache Realisierung der Anordnung nach Fig. 3 besteht darin, daß die Steuereinheit 52 und die Recheneinheit 54 durch einen Mikroprozessor gebildet werden. Dieser kann dann auch noch die Funktion des Vergleichers 58 und des Zählers 60 übernehmen, so daß sich insgesamt ein sehr einfacher Aufbau ergibt.
Claims (8)
1. Verfahren zum Bestimmen von Anfangspunkt und Endpunkt eines Wortsignals entsprechend einem isoliert gesprochenen Wort in einem Sprachsignal durch Ermittlung eines Extremwertes in einer vom Sprachsignal abgeleiteten Folge von Digitalwerten bei Berücksichtigung von den Extremwert umgebenden Werten des Signalverlaufs und eines Schwellwertes,
dadurch gekennzeichnet, daß eine Anzahl vorher aufeinanderfolgend eingetroffener Digitalwerte drei benachbarten Fenstern zugeordnet werden, von denen das erste Fenster (Endfenster) eine vorgegebene erste Anzahl (BR) der zuletzt eingetroffenen Digitalwerte, das zweite Fenster (Signalfenster) eine zwischen einem vorgegebenen ersten Wert und einem vorgegebenen größeren zweiten Wert variierende zweite Anzahl (BS1) Digitalwerte und das dritte Fenster (Anfangsfenster) eine vorgegebene dritte Anzahl (BF) Digitalwerte umfaßt, daß für jeden neuen Digitalwert aus den Digitalwerten im ersten Fenster und aufeinanderfolgend für je einen Wert (1) der zweiten Anzahl (BS1) aus den Digitalwerten des zugehörigen dritten Fensters ein Schwellwert (thr) gebildet wird, um den jeder Digitalwert des zweiten Fensters vermindert wird, daß die Summe der so verminderten Digitalwerte für jeden Wert der zweiten Anzahl mit einer höchsten früher auf gleiche Weise gebildeten Summe verglichen und abhängig vom Vergleichsergebnis als neue höchste Summe zusammen mit Lageangaben über die Lage des zweiten Fensters innerhalb der Folge der Digitalwerte gespeichert wird, und daß die zuletzt gespeicherten Lageangaben den Anfangspunkt und den Endpunkt des Wortsignals angeben.
dadurch gekennzeichnet, daß eine Anzahl vorher aufeinanderfolgend eingetroffener Digitalwerte drei benachbarten Fenstern zugeordnet werden, von denen das erste Fenster (Endfenster) eine vorgegebene erste Anzahl (BR) der zuletzt eingetroffenen Digitalwerte, das zweite Fenster (Signalfenster) eine zwischen einem vorgegebenen ersten Wert und einem vorgegebenen größeren zweiten Wert variierende zweite Anzahl (BS1) Digitalwerte und das dritte Fenster (Anfangsfenster) eine vorgegebene dritte Anzahl (BF) Digitalwerte umfaßt, daß für jeden neuen Digitalwert aus den Digitalwerten im ersten Fenster und aufeinanderfolgend für je einen Wert (1) der zweiten Anzahl (BS1) aus den Digitalwerten des zugehörigen dritten Fensters ein Schwellwert (thr) gebildet wird, um den jeder Digitalwert des zweiten Fensters vermindert wird, daß die Summe der so verminderten Digitalwerte für jeden Wert der zweiten Anzahl mit einer höchsten früher auf gleiche Weise gebildeten Summe verglichen und abhängig vom Vergleichsergebnis als neue höchste Summe zusammen mit Lageangaben über die Lage des zweiten Fensters innerhalb der Folge der Digitalwerte gespeichert wird, und daß die zuletzt gespeicherten Lageangaben den Anfangspunkt und den Endpunkt des Wortsignals angeben.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, daß nur diejenigen Lageangaben, die für eine vorgegebene Anzahl aufeinanderfolgend eingetroffener Digitalwerte unverändert geblieben sind, als Anfangspunkt und Endpunkt verwendet werden.
dadurch gekennzeichnet, daß nur diejenigen Lageangaben, die für eine vorgegebene Anzahl aufeinanderfolgend eingetroffener Digitalwerte unverändert geblieben sind, als Anfangspunkt und Endpunkt verwendet werden.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet, daß der Schwellwert aus der Summe der Digitalwerte im ersten und im dritten Fenster und eines Korrekturwertes gebildet wird.
dadurch gekennzeichnet, daß der Schwellwert aus der Summe der Digitalwerte im ersten und im dritten Fenster und eines Korrekturwertes gebildet wird.
4. Verfahren nach Anspruch 3,
dadurch gekennzeichnet, daß für jeden neuen Digitalwert beim kleinsten Wert der zweiten Anzahl (BS0) die Summe der Digitalwerte des zweiten Fensters gebildet und abgespeichert wird, wenn eine vorher abgespeicherte zweite Fenstersumme kleiner ist, und die Summe der Digitalwerte des dritten Fensters gebildet und abgespeichert wird, wenn eine vorher abgespeicherte dritte Fenstersumme größer ist, und aus der Differenz der beiden abgespeicherten Fenstersummen der Korrekturwert gebildet wird.
dadurch gekennzeichnet, daß für jeden neuen Digitalwert beim kleinsten Wert der zweiten Anzahl (BS0) die Summe der Digitalwerte des zweiten Fensters gebildet und abgespeichert wird, wenn eine vorher abgespeicherte zweite Fenstersumme kleiner ist, und die Summe der Digitalwerte des dritten Fensters gebildet und abgespeichert wird, wenn eine vorher abgespeicherte dritte Fenstersumme größer ist, und aus der Differenz der beiden abgespeicherten Fenstersummen der Korrekturwert gebildet wird.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet, daß der Korrekturwert die durch einen konstanten vorgegebenen Signal-Rausch-Verhältniswert dividierte Differenz der beiden Fenstersummen ist.
dadurch gekennzeichnet, daß der Korrekturwert die durch einen konstanten vorgegebenen Signal-Rausch-Verhältniswert dividierte Differenz der beiden Fenstersummen ist.
6. Verfahren nach einem der Ansprüche 1 bis 5,
dadurch gekennzeichnet, daß als Digitalwert der kleinste von jeweils drei aufeinanderfolgenden digitalisierten Abtastwerten des Sprachsignals verwendet wird.
dadurch gekennzeichnet, daß als Digitalwert der kleinste von jeweils drei aufeinanderfolgenden digitalisierten Abtastwerten des Sprachsignals verwendet wird.
7. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6, mit einem ersten Speicher zum Aufnehmen von aus einem Sprachsignal abgeleiteten Digitalwerten,
gekennzeichnet durch
einen zweiten Speicher zur Aufnahme von Zwischenergebnissen,
eine Recheneinheit, die die Digitalwerte aus dem ersten Speicher sowie Zwischenergebnisse aus dem zweiten Speicher empfängt und die Energie in jeweils einem der Fenster sowie die weiteren Zwischenergebnisse bestimmt,
einen Vergleicher zum Vergleichen von Zwischenergebnissen aus dem zweiten Speicher mit von der Recheneinheit gelieferten Werten und zum Steuern des Einschreibens der letzteren Werte in den zweiten Speicher,
eine Steuereinheit zum Adressieren des ersten und des zweiten Speichers und der Recheneinheit entsprechend den Verfahrensschritten, und
eine Zählanordnung zum Zählen der unterschiedlichen zweiten Anzahlen von Digitalwerten im zweiten Fenster und zum Abgeben eines Schleifenendesignals an die Steuereinheit nach einer vorgegebenen Anzahl unterschiedlicher zweiter Anzahlen.
gekennzeichnet durch
einen zweiten Speicher zur Aufnahme von Zwischenergebnissen,
eine Recheneinheit, die die Digitalwerte aus dem ersten Speicher sowie Zwischenergebnisse aus dem zweiten Speicher empfängt und die Energie in jeweils einem der Fenster sowie die weiteren Zwischenergebnisse bestimmt,
einen Vergleicher zum Vergleichen von Zwischenergebnissen aus dem zweiten Speicher mit von der Recheneinheit gelieferten Werten und zum Steuern des Einschreibens der letzteren Werte in den zweiten Speicher,
eine Steuereinheit zum Adressieren des ersten und des zweiten Speichers und der Recheneinheit entsprechend den Verfahrensschritten, und
eine Zählanordnung zum Zählen der unterschiedlichen zweiten Anzahlen von Digitalwerten im zweiten Fenster und zum Abgeben eines Schleifenendesignals an die Steuereinheit nach einer vorgegebenen Anzahl unterschiedlicher zweiter Anzahlen.
8. Anordnung nach Anspruch 7,
dadurch gekennzeichnet, daß mindestens die Recheneinheit und die Steuereinheit durch einen Mikroprozessor realisiert sind.
dadurch gekennzeichnet, daß mindestens die Recheneinheit und die Steuereinheit durch einen Mikroprozessor realisiert sind.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19873739681 DE3739681A1 (de) | 1987-11-24 | 1987-11-24 | Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens |
DE3739681 | 1987-11-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
EP0319078A2 true EP0319078A2 (de) | 1989-06-07 |
EP0319078A3 EP0319078A3 (de) | 1990-01-10 |
Family
ID=6341078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP88202629A Withdrawn EP0319078A3 (de) | 1987-11-24 | 1988-11-23 | Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens |
Country Status (4)
Country | Link |
---|---|
US (1) | US4945566A (de) |
EP (1) | EP0319078A3 (de) |
JP (1) | JPH01167799A (de) |
DE (1) | DE3739681A1 (de) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5148429A (en) * | 1988-10-27 | 1992-09-15 | Kabushiki Kaisha Toshiba | Voice data transmission system and method |
JP3067801B2 (ja) * | 1992-04-10 | 2000-07-24 | アヴィッド・テクノロジー・インコーポレーテッド | ビデオ情報のデジタル記憶及び表示を提供するデジタル・オーディオ・ワークステーション |
US5634020A (en) * | 1992-12-31 | 1997-05-27 | Avid Technology, Inc. | Apparatus and method for displaying audio data as a discrete waveform |
US5692104A (en) * | 1992-12-31 | 1997-11-25 | Apple Computer, Inc. | Method and apparatus for detecting end points of speech activity |
US5596680A (en) * | 1992-12-31 | 1997-01-21 | Apple Computer, Inc. | Method and apparatus for detecting speech activity using cepstrum vectors |
US5675778A (en) * | 1993-10-04 | 1997-10-07 | Fostex Corporation Of America | Method and apparatus for audio editing incorporating visual comparison |
DE4422545A1 (de) * | 1994-06-28 | 1996-01-04 | Sel Alcatel Ag | Start-/Endpunkt-Detektion zur Worterkennung |
US5638486A (en) * | 1994-10-26 | 1997-06-10 | Motorola, Inc. | Method and system for continuous speech recognition using voting techniques |
US5596679A (en) * | 1994-10-26 | 1997-01-21 | Motorola, Inc. | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs |
US5638487A (en) * | 1994-12-30 | 1997-06-10 | Purespeech, Inc. | Automatic speech recognition |
US5819217A (en) * | 1995-12-21 | 1998-10-06 | Nynex Science & Technology, Inc. | Method and system for differentiating between speech and noise |
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
US6321197B1 (en) * | 1999-01-22 | 2001-11-20 | Motorola, Inc. | Communication device and method for endpointing speech utterances |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
US6865528B1 (en) * | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
US7031908B1 (en) * | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US7200559B2 (en) * | 2003-05-29 | 2007-04-03 | Microsoft Corporation | Semantic object synchronous understanding implemented with speech application language tags |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US7568758B2 (en) * | 2007-01-03 | 2009-08-04 | Kolcraft Enterprises | High chairs and methods to use high chairs |
US9099098B2 (en) * | 2012-01-20 | 2015-08-04 | Qualcomm Incorporated | Voice activity detection in presence of background noise |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1986003047A1 (en) * | 1984-11-08 | 1986-05-22 | American Telephone & Telegraph | Endpoint detector |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3243231A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
JPS59115625A (ja) * | 1982-12-22 | 1984-07-04 | Nec Corp | 音声検出器 |
-
1987
- 1987-11-24 DE DE19873739681 patent/DE3739681A1/de not_active Withdrawn
-
1988
- 1988-11-18 US US07/274,093 patent/US4945566A/en not_active Expired - Fee Related
- 1988-11-22 JP JP63293724A patent/JPH01167799A/ja active Pending
- 1988-11-23 EP EP88202629A patent/EP0319078A3/de not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1986003047A1 (en) * | 1984-11-08 | 1986-05-22 | American Telephone & Telegraph | Endpoint detector |
Non-Patent Citations (3)
Title |
---|
PATENT ABSTRACTS OF JAPAN, unexamined applications, Sektion E, Band 1, Nr. 156, 13. Dezember 1977 THE PATENT OFFICE JAPANESE GOVERNMENT Seite 8422 E 77 * |
PATENT ABSTRACTS OF JAPAN, unexamined applications, Sektion E, Band 3, Nr. 15, 9. Februar 1979 THE PATENT OFFICE JAPANESE GOVERNMENT Seite 97 E 89 * |
PATENT ABSTRACTS OF JAPAN, unexamined applications, Sektion E, Band 4, Nr. 5, 16. JÛnner 1980 THE PATENT OFFICE JAPANESE GOVERNMENT Seite 10 E 165 * |
Also Published As
Publication number | Publication date |
---|---|
EP0319078A3 (de) | 1990-01-10 |
DE3739681A1 (de) | 1989-06-08 |
JPH01167799A (ja) | 1989-07-03 |
US4945566A (en) | 1990-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0319078A2 (de) | Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens | |
EP0299572B1 (de) | Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern | |
DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
DE3101851C2 (de) | Vorrichtung zum Erkennen von Sprache | |
DE3233637C2 (de) | Vorrichtung zur Bestimmung der Dauer von Sprachsignalen | |
DE69917361T2 (de) | Vorrichtung zur Sprachdetektion bei Umgebungsgeräuschen | |
DE2536640C3 (de) | Anordnung zur Erkennung von Geräuschen | |
DE2034623C2 (de) | Verfahren für das Erkennen von Sprachsignalen in Rauschen | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
EP0533260A2 (de) | Verfahren und Anordnung zum Erkennen der gesprochenen Wörter in einem Sprachsignal | |
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
EP0533261A2 (de) | Verfahren und Anordnung zum Erkennen gesprochener Wörter in einem Sprachsignal | |
DE3422877C2 (de) | ||
EP0285221A2 (de) | Verfahren zum Erkennen kontinuierlich gesprochener Wörter | |
EP1190413A2 (de) | Verfahren und vorrichtung zur spracherkennung | |
EP0533259B1 (de) | Verfahren und Anordnung zum Erkennen einer Folge von Wörtern | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE19639844A1 (de) | Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal | |
EP0677836B1 (de) | Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens | |
DE19716862A1 (de) | Sprachaktivitätserkennung | |
DE3710507A1 (de) | Verfahren zum erkennen kontinuierlich gesprochener woerter | |
EP0703569A1 (de) | System zum Ermitteln von Wörtern aus einem Sprachsignal | |
EP0813734B1 (de) | Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird | |
DE3215868A1 (de) | Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette | |
EP0677835B1 (de) | Verfahren zum Ermitteln einer Folge von Wörtern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): DE FR GB |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): DE FR GB |
|
17P | Request for examination filed |
Effective date: 19900626 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 19920603 |