EP0319078A2 - Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens - Google Patents

Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens Download PDF

Info

Publication number
EP0319078A2
EP0319078A2 EP88202629A EP88202629A EP0319078A2 EP 0319078 A2 EP0319078 A2 EP 0319078A2 EP 88202629 A EP88202629 A EP 88202629A EP 88202629 A EP88202629 A EP 88202629A EP 0319078 A2 EP0319078 A2 EP 0319078A2
Authority
EP
European Patent Office
Prior art keywords
window
value
signal
digital values
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP88202629A
Other languages
English (en)
French (fr)
Other versions
EP0319078A3 (de
Inventor
Dieter Dr. Mergel
Hermann Dr. Ney
Horst Tomaschewski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Koninklijke Philips NV
Original Assignee
Philips Patentverwaltung GmbH
Philips Gloeilampenfabrieken NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH, Philips Gloeilampenfabrieken NV, Koninklijke Philips Electronics NV filed Critical Philips Patentverwaltung GmbH
Publication of EP0319078A2 publication Critical patent/EP0319078A2/de
Publication of EP0319078A3 publication Critical patent/EP0319078A3/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Definitions

  • the invention relates to a method for determining the starting point and end point of a word signal corresponding to an isolated spoken word in a speech signal by determining an extreme value in a sequence of digital values derived from the speech signal, taking into account values of the signal curve surrounding the extreme value and a threshold value.
  • Such methods for determining the start and end point in a speech signal are used in particular if the speech signal consists of words spoken in isolation or very short word groups and these words or word groups are to be recognized automatically.
  • the actual word signal is accompanied by interference and noise and pauses as well as by background noise such as loud inhalation.
  • background noise such as loud inhalation.
  • the object of the invention is therefore to provide a method of the type mentioned at the outset which enables the most reliable possible determination of the start and end point even in the case of speech signals which are overlaid by essential interference signals.
  • a number of previously successively arriving digital values are assigned to three adjacent windows, of which the first window (end window) a predetermined first number of the last arrived digital values, the second window (signal window) one between a predetermined first value and a predetermined larger second value varying second number of digital values and the third window (initial window) comprises a predetermined third number of digital values that for each new digital value from the digital values in the first window and successively for each value of the second number from the digital values of the associated third window a threshold is formed by which each digital value of the second window is reduced, that the sum of the digital values thus reduced for each value of the second Number compared with a highest sum previously formed in the same way and, depending on the comparison result, is stored as a new highest sum together with position information about the position of the second window within the sequence of the digital values, and that the position information last saved indicate the starting point and the end point of the word signal .
  • the determination of the start and end points takes place continuously with the arrival of the speech signal, so that for each at least provisionally optimal determination of the end points, the recognition of the speech signal can begin, which is terminated when a more favorable value for the end points is found, so that faster detection is also possible.
  • the threshold value that is used in the determination of the end points should originate as much as possible from the interference signal, the size of which is not, however, readily known. This is done according to the invention by taking into account a respective area before and after the assumed position of the word signal.
  • This threshold value can be formed particularly easily by forming the threshold value from the sum of the digital values in the first and third window and a correction value. Such a sum formation can be carried out very easily and quickly.
  • a fixed value can be selected as the correction value, which takes into account, for example, a general quality of the speech signal.
  • this correction value further takes into account the course of the speech signal, is characterized in that for each new digital value at the smallest value of the second number, the sum of the digital values of the second window is formed and stored if a previously stored second window sum is smaller, and the sum of the digital values of the third window is formed and stored if a previously stored third window sum is larger, and the correction value is formed from the difference between the two stored window sums. In this way, not only the areas outside the assumed endpoints are included, but also that Voice signal between the endpoints.
  • the correction value is the difference between the two window sums divided by a constant predetermined signal-to-noise ratio value.
  • the predefined signal-to-noise ratio value is then a measure of the average quality of the voice signal and is smaller the more the voice signal is disturbed, as is the case, for example, with voice transmission over telephone lines.
  • An arrangement for carrying out the method according to the invention which has a first memory for recording digital values derived from a speech signal, is characterized according to the invention by a second memory for recording intermediate results, a computing unit which receives the digital values from the first memory and intermediate results from the second memory and determines the energy in each of the windows and the further intermediate results, a comparator for comparing intermediate results from the second memory with values supplied by the computing unit and for controlling the writing of the latter values into the second memory, a control unit for addressing the first and second memories and the computing unit in accordance with the method steps, and a counting arrangement for counting the different second numbers of digital values in the second window and for delivering an end of loop signal to the control unit after a predetermined number of different second numbers.
  • the control unit can be a sequence controller that is controlled by a stored program. A particularly simple structure is obtained if at least the computing unit and the control unit are implemented by a microprocessor. If necessary, this can also take over the function of the comparator and the counting arrangement.
  • the signal curve shown in FIG. 1a for example, as energy E or amplitude of the speech signal over time t has currently arrived and sampled up to time m1 and is in the form of digital samples.
  • the continuously displayed signal curve is therefore present in the digital range as a sequence of discrete points, which, however, does not significantly influence the further explanation.
  • the signal curve is now divided into three adjacent windows, of which the first window of the samples values range from m1 to m2 and is called the end window because it represents the temporary end of the speech signal in terms of time.
  • the middle window ranges from the sample values m2 to the sample value m3.
  • the actual word signal is accepted here, which has a higher energy value than the speech signal parts before and after it.
  • the point m3 is gradually changed between a minimum distance and a maximum distance from the time m2 for the endpoint determination procedure to be described.
  • the third window extends from the respective time m3 to time m4, the distance between which is again constant.
  • each distance value can only belong to one of the windows, i.e. the middle window begins, when the first window reaches the sample value at the time m2, with the sample value immediately to the left, and the same applies to the third window.
  • this fact is not further emphasized in the following explanation, but continues to assume a quasi-continuous signal curve.
  • 1b assumes a later point in time at which the voice signal has already arrived by the point in time n1.
  • a larger signal window is assumed, so that its start at time n3 is further away from time n2 than in FIG. 1a.
  • the point in time n4 is the beginning of the initial window at an even earlier point in time.
  • An essential criterion when determining the end points of the speech signal is the area of the speech signal within the signal window, reduced by a threshold value SW, which depends, among other things, on the area under the speech signal in the first and in the third window.
  • SW which depends, among other things, on the area under the speech signal in the first and in the third window.
  • the areas under the speech signal is represented by the sum of the digitized samples within the respective window.
  • Fig. 1a the area in the start and end window is still relatively large, so that there is a higher threshold SW m . From the figure it can be seen immediately that the area reduced by the threshold value in the middle window becomes larger when the start and end windows are pulled further apart, ie when the subsequent arriving parts of the signal curve are waited for and the width of the signal window is chosen to be larger.
  • the area of the speech signal that is briefly below the threshold value SW n within this signal window also makes a negative contribution, but is exceeded by the higher signal section to the left of it, so that extending the middle window extends beyond this area of the speech signal overall an increase in the total area in the signal window above the threshold value SW n results.
  • the aforementioned start and end point will be determined with the method according to the flow chart in Figs. 2a and 2b.
  • the symbol 10 means the start of the entire process, i.e. the beginning of the speech signal.
  • various initial values are set, a number of samples corresponding to the length of the end window, the minimum signal window and the initial window are waited for before the method can start, and a special filter function is carried out. This consists in the fact that the smallest value is selected from each three consecutive samples and is fed to the method as a digital value. For example, every 10 ms a sample value is taken from the speech signal which represents the instantaneous value or the integrated value since the last sample value, and the sample values are digitized.
  • a digital value is supplied to the method every 30 ms, so that 30 ms are available for carrying out the following method steps.
  • the supplied digital values are saved because they will still be needed at later times, at least for a signal duration that corresponds to the sum of the predetermined maximum duration of the signal window and the two other windows.
  • the energy EF k is determined in the initial window between the points m3 and m4 in FIG. 1a or n3 and n4 in FIG. 1b by summing up the signal values therein. In block 13, this value is divided by the length B F of the initial window and thus the average energy eF k is determined in this window.
  • a comparison 14 checks whether this mean value eF k is smaller than a stored value eF sp , and if this is the case, this smaller value is stored in block 15, ie eF sp is replaced by the current value eF k .
  • the energy ES k of the signal window with a minimum length is determined in block 16, i.e. the area under the speech signal curve between the points m2 and m3 in FIG the stored digital values are summed up in this area.
  • a comparison 17 then checks whether this energy ES k is greater than a stored energy ES sp .
  • the stored value is replaced by the new value in block 18, then or if the new value is not greater than the stored value, the mean energy ES k is determined in block 20 by the total energy ES k by the minimum width B s0 of the signal window is divided.
  • the width B of this window and of the other windows is given by the number of digital values contained therein.
  • a correction value thN is then determined in block 21 from the difference between the average energy eS k in the signal window and eF k in the initial window, which is divided by an assumed signal-to-noise ratio value SNR.
  • the average energy in the end window is determined in block 22 in a manner corresponding to that in the initial window.
  • Steps 12 to 22 run once for each newly arrived digital value, while connection point 23 now leads to a loop which is run through once for each permitted width of the signal window. These individual runs are indicated with index 1.
  • This loop is indicated in FIG. 2 b, which begins with the connection point 23.
  • this value 1 is set to the initial value zero.
  • the average energy value eF1 of the initial window at the respective shift 1 is determined from the minimum width of the signal window in accordance with block 13, and in block 31 the value determined in this way is determined in relation to the average energy value of the final window determined in block 22 and to that correction value thN determined in block 21 is added in order to determine the threshold value thr.
  • the energy ES 1 of the signal window is determined in the respective width by adding up the digital values in this window.
  • the threshold value thr multiplied by the respective width B S1 of the signal window, is subtracted from this value.
  • This effective energy EPS1 is regarded as the energy of the speech signal in the signal window, which protrudes beyond the interference signal, this interference signal can not be determined directly, but a probable value in the form of the threshold value is derived in the manner described above.
  • the recognition process can begin each time the values are stored in block 35, so that when the steady state is finally recognized in block 38, the recognition process can already be well advanced that faster detection, possibly detection in real time, is possible in this way.
  • a sound converter 40 picks up a speech signal and converts it into an electrical signal. This is fed to a unit 42 which takes samples from the continuous signal at regular time intervals and digitizes them. The unit 44 selects the smallest from three consecutive digitized samples and feeds the digital values thus determined to a memory 50. If the unit 42 takes a sample value from the speech signal every 10 ms, the memory 50 thus receives a new digital value every 30 ms. This is stored at an address which is supplied by a control unit 52 via the connection 53.
  • control unit 52 also addresses the memory 50 for reading out the stored digital values, which are fed to a computing unit 54.
  • these is also controlled by the control unit 52 via a connection 51 and carries out the computing steps which are indicated in the flowchart in FIGS. 2a and 2b with the blocks 12, 13, 16, 20 to 22 and 30 to 33.
  • the computing unit 54 determines the energy in the initial window by summing up the corresponding digital values addressed by the control unit in the memory 50 and forms the average energy. This is fed via line 55 to a comparator 58 which receives the corresponding previously stored value at the other input from a second memory 56 via its data output line 57.
  • the second memory 56 is also addressed by the control unit 52 via the line 59.
  • comparator 58 If the newly determined value on line 55 is smaller than the stored value on line 57, comparator 58 generates a corresponding signal and feeds it to second memory 56, so that the new one is now at the addressed location the line 55 existing value is stored. This corresponds to blocks 14 and 17 in Fig. 2a.
  • the other calculations and comparisons are also carried out in a corresponding manner, the computing unit 54 receiving the values required there, in particular in steps 21, 31 and 33, from the second memory 56 via the line 57.
  • the control unit 52 supplies these values to the data input of the second memory 56 via the line 69.
  • the counter 60 which counts the index 1.
  • the counter 60 is set to the initial position by the control unit 52 via line 65 and supplied with counting clocks, as indicated in steps 29 and 36 in FIG. 2b.
  • the comparison 38 is expediently carried out in the control unit 52.
  • control unit 52 and the computing unit 54 are formed by a microprocessor. This can then also take over the function of the comparator 58 and the counter 60, so that overall a very simple structure results.

Abstract

Zur Ermittlung von Anfangs- und Endpunkt eines Wortsignals innerhalb eines Sprachsignals aus isoliert gesprochenen Wörtern werden bei jedem neuen Digitalwert drei benachbarte Fenster für die letzten bisher eingetroffenen gespeicherten Digitalwerte bestimmt, von denen das mittlere Fenster das eigentliche Wortsignal enthalten soll. Die Länge dieses mittleren Fensters wird für jeden Digitalwert zwischen einem minimalen und einem maximalen Wert variiert, und von der darin enthaltenen Energie wird jeweils ein Schwellwert subtrahiert, der aus den beiden benachbarten Fenstern bestimmt wird. Auf diese Weise berücksichtigt das erfindungsgemäße Verfahren jeweils das gesamte Sprachsignal anstatt einzelner isolierter Bereiche, wodurch eine zuverlässigere Endpunktbestimmung möglich ist.

Description

  • Die Erfindung betrifft ein Verfahren zum Bestimmen von Anfangspunkt und Endpunkt eines Wortsignals entsprechend einem isoliert gesprochenen Wort in einem Sprachsignal durch Ermittlung eines Extremwertes in einer vom Sprach­signal abgeleiteten Folge von Digitalwerten bei Berück­sichtigung von den Extremwert umgebenden Werten des Signalverlaufs und eines Schwellwertes.
  • Derartige Verfahren zur Bestimmung von Anfangs- und End­punkt in einem Sprachsignal werden insbesondere verwendet, wenn das Sprachsignal aus isoliert gesprochenen Wörtern oder sehr kurzen Wortgruppen besteht und diese Wörter bzw. Wortgruppen automatisch erkannt werden sollen. Das eigentliche Wortsignal ist bei fast allen Anwendungen im Sprachsignal durch Störungen und Rauschen und Pausen sowie durch Nebengeräusche wie lautes Einatmen begleitet. Für eine möglichst zuverlässige Erkennung des oder der Wörter im Sprachsignal ist es jedoch wichtig, genau mit dem Sprachsignalteil die Erkennung zu beginnen, die auch den Anfang des zu erkennenden Wortes darstellt.
  • Es sind bereits verschiedene Verfahren zur Bestimmung von Anfangs- und Endpunkt bekannt. In ICASSP 84 Proceedings, 19. bis 21. März 1984, St. Diego, Kalifornia, ist auf den Seiten 18B.7.1 bis 18B.7.4 ein Verfahren zur Detektion von Endpunkten in einem Sprachsignal beschrieben, das mit der Autokorrelationsmatrix des Sprachsignals arbeitet. Eine solche Matrix ist nur mit einem erheblichen Rechenaufwand zu bilden, und die Ergebnisse sind nicht unter allen Bedingungen befriedigend. In der WO 86/03047 wird ein Endpunktdetektor verwendet, der das Sprachsignal in Blöcke unterteilt, die einander überlappen. Diese Blöcke sind jedoch festgelegt, unabhängig von dem Verlauf des Sprachsignals, und es wird der Block mit der maximalen Energie festgestellt und der davorliegende Block mit einer Energie unterhalb eines Schwellwertes bestimmt, der um ein bestimmtes Maß unter der maximalen Energie liegt. Mit weiteren aufwendigen Schritten werden dann eine Anzahl derartiger Maxima und deren Dauer ermittelt und daraus längerdauernde Energiemaxima errechnet. Auch hierbei ist insbesondere bei Überlagerung des Sprachsignals mit stärkeren Störungen eine zuverlässige Endpunkterkennung schwierig und unzuverlässig.
  • Aufgabe der Erfindung ist es daher, ein Verfahren der eingangs genannten Art anzugeben, das eine möglichst zuverlässige Anfangs- und Endpunktbestimmung auch bei Sprachsignalen ermöglicht, die durch wesentliche Stör­signale überlagert sind.
  • Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß eine Anzahl vorher aufeinanderfolgend eingetroffener Digitalwerte drei benachbarten Fenstern zugeordnet werden, von denen das erste Fenster (Endfenster) eine vorgegebene erste Anzahl der zuletzt eingetroffenen Digitalwerte, das zweite Fenster (Signalfenster) eine zwischen einem vorgegebenen ersten Wert und einem vorgegebenen größeren zweiten Wert variierende zweite Anzahl Digitalwerte und das dritte Fenster (Anfangsfenster) eine vorgegebene dritte Anzahl Digitalwerte umfaßt, daß für jeden neuen Digitalwert aus den Digitalwerten im ersten Fenster und aufeinanderfolgend für je einen Wert der zweiten Anzahl aus den Digitalwerten des zugehörigen dritten Fensters ein Schwellwert gebildet wird, um den jeder Digitalwert des zweiten Fensters vermindert wird, daß die Summe der so verminderten Digitalwerte für jeden Wert der zweiten Anzahl mit einer höchsten früher auf gleiche Weise gebil­deten Summe verglichen und abhängig vom Vergleichsergebnis als neue höchste Summe zusammen mit Lageangaben über die Lage des zweiten Fensters innerhalb der Folge der Digital­werte gespeichert wird, und daß die zuletzt gespeicherten Lageangaben den Anfangspunkt und den Endpunkt des Wortsignals angeben.
  • Es werden also keine festen Schwellwerte oder einfache absolute Maxima verwendet, sondern es werden quasi ver­schiedene Anfangs- und Endpunkte im Sprachsignal ange­nommen und dafür geprüft, ob die Energie des darin ent­haltenen Sprachsignals jeweils größer ist als bei anderen angenommenen Endpunkten, wobei ein Schwellwert subtrahiert wird, der aus den benachbarten Bereichen zu beiden Seiten des angenommenen Bereichs des Wortsignals bestimmt wird. Auf diese Weise wird also kein lokales, sondern ein globales Kriterium über das gesamte Sprachsignal ver­wendet, indem nur ein derartiges Sprachsignal als Wort­signal gewertet wird, das über seine Umgebung maximal herausragt. Da die minimale und maximale Breite des zweiten Fensters, das also das Wortsignal darstellt, begrenzt ist, ist eine zusätzliche Sicherheit gegen Störungen gegeben und besteht außerdem die Möglichkeit, mehrere hintereinander isoliert gesprochene Wörter ein­deutig voneinander zu trennen. Die Ermittlung von Anfangs- und Endpunkt erfolgt kontinuierlich mit dem Eintreffen des Sprachsignals, so daß für jede zumindest vorläufig optimale Bestimmung der Endpunkte bereits die Erkennung des Sprachsignals beginnen kann, wobei diese abgebrochen wird, wenn ein günstigerer Wert für die Endpunkte gefunden ist, so daß auch eine schnellere Erkennung möglich ist.
  • Um die Zuverlässigkeit weiter zu erhöhen und beispiels­weise kurze unbetonte Bereiche innerhalb eines Wortes nicht bereits als Endpunkt zu erkennen, ist es nach einer Ausgestaltung der Erfindung zweckmäßig, daß nur diejenigen Lageangaben, die für eine vorgegebene Anzahl aufeinander­folgend eingetroffener Digitalwerte unverändert geblieben sind, als Anfangspunkt und Endpunkt verwendet werden. Es wird also geprüft, ob nach dem Endpunkt eine ausreichend lange Sprachpause folgt.
  • Der Schwellwert, der bei der Bestimmung der Endpunkte verwendet wird, sollte möglichst weitgehend vom Störsignal ausgehen, dessen Größe jedoch nicht ohne weiteres bekannt ist. Dies erfolgt erfindungsgemäß durch Berücksichtigung je eines Bereiches vor und nach der angenommenen Lage des Wortsignals. Besonders einfach kann dieser Schwellwert dadurch gebildet werden, daß der Schwellwert aus der Summe der Digitalwerte im ersten und im dritten Fenster und eines Korrekturwertes gebildet wird. Eine derartige Summenbildung kann sehr einfach und schnell durchgeführt werden.
  • Als Korrekturwert kann ein fester Wert gewählt werden, der beispielsweise eine allgemeine Qualität des Sprachsignals berücksichtigt. Eine weitere Ausgestaltung der Erfindung, bei der dieser Korrekturwert den Verlauf des Sprachsignals weiter berücksichtigt, ist dadurch gekennzeichnet, daß für jeden neuen Digitalwert beim kleinsten Wert der zweiten Anzahl die Summe der Digitalwerte des zweiten Fensters gebildet und abgespeichert wird, wenn eine vorher abge­speicherte zweite Fenstersumme kleiner ist, und die Summe der Digitalwerte des dritten Fensters gebildet und abge­speichert wird, wenn eine vorher abgespeicherte dritte Fenstersumme größer ist, und aus der Differenz der beiden abgespeicherten Fenstersummen der Korrekturwert gebildet wird. Auf diese Weise gehen also nicht nur die Bereiche außerhalb der angenommenen Endpunkte ein, sondern auch das Sprachsignal zwischen den Endpunkten. Insbesondere ist es zweckmäßig, daß der Korrekturwert die durch einen kon­stanten vorgegebenen Signal-Rausch-Verhältniswert divi­dierte Differenz der beiden Fenstersummen ist. Der vorge­gebene Signal-Rausch-Verhältniswert ist dann ein Maß für die mittlere Qualität des Sprachsignals und ist um so kleiner, je stärker das Sprachsignal gestört ist, wie dies beispielsweise bei Sprachübertragung über Telefonleitungen der Fall ist.
  • Es kann in der Praxis leicht vorkommen, daß dem Sprach­signal Störsignale überlagert sind, die zwar sehr kurz sind, jedoch eine hohe Amplitude aufweisen. Um auch in diesem Falle die Sicherheit der Endpunkterkennung zu erhöhen, ist es nach einer weiteren Ausgestaltung der Erfindung zweckmäßig, daß als Digitalwert der kleinste von jeweils mehreren aufeinanderfolgenden digitalisierten Abtastwerten des Sprachsignals verwendet wird. Diese Maßnahme stellt ein sehr wirksames Filter für das Sprach­signal dar.
  • Eine Anordnung zur Durchführung des erfindungsgemäßen Verfahrens, die einen ersten Speicher zur Aufnahme von aus einem Sprachsignal abgeleiteten Digitalwerten aufweist, ist gemäß der Erfindung gekennzeichnet durch einen zweiten Speicher zur Aufnahme von Zwischenergeb­nissen,
    eine Recheneinheit, die die Digitalwerte aus dem ersten Speicher sowie Zwischenergebnisse aus dem zweiten Speicher empfängt und die Energie in jeweils einem der Fenster sowie die weiteren Zwischenergebnisse bestimmt,
    einen Vergleicher zum Vergleichen von Zwischenergebnissen aus dem zweiten Speicher mit von der Recheneinheit ge­lieferten Werten und zum Steuern des Einschreibens der letzteren Werte in den zweiten Speicher,
    eine Steuereinheit zum Adressieren des ersten und des zweiten Speichers und der Recheneinheit entsprechend den Verfahrensschritten, und
    eine Zählanordnung zum Zählen der unterschiedlichen zweiten Anzahlen von Digitalwerten im zweiten Fenster und zum Abgeben eines Scheleifenendesignals an die Steuerein­heit nach einer vorgegebenen Anzahl unterschiedlicher zweiter Anzahlen. Die Steuereinheit kann eine Ablauf­steuerung sein, die durch ein gespeichertes Programm ge­steuert wird. Ein besonders einfacher Aufbau wird erhal­ten, wenn mindestens die Recheneinheit und die Steuerein­heit durch einen Mikroprozessor realisiert sind. Dieser kann gegebenenfalls auch die Funktion des Vergleichers und der Zählanordnung übernehmen.
  • Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung erläutert. Es zeigen
    • Fig. 1a und 1b mit verschiedenen Lagen der Fenster,
    • Fig. 2a und 2b ein Flußdiagramm für den Ablauf des Verfahrens zur Endpunktbestimmung,
    • Fig. 3 schematisch ein Blockschaltbild einer Anordnung zur Durchführung des Verfahrens.
  • Der in Fig. 1a dargestellte beispielsweise Signalverlauf als Energie E oder Amplitude des Sprachsignals über die Zeit t sei momentan bis zum Zeitpunkt m1 eingetroffen und abgetastet und liegt in Form von digitalen Abtastwerten vor. Der kontinuierlich dargestellte Signalverlauf liegt also im digitalen Bereich als Folge diskreter Punkte vor, was jedoch die weitere Erläuterung nicht wesentlich beeinflußt.
  • Der Signalverlauf wird nun in drei benachbarte Fenster eingeteilt, von denen das erste Fenster von den Abtast werten m1 bis m2 reicht und mit Endfenster bezeichnet wird, weil es zeitlich gesehen das vorläufige Ende des Sprachsignals darstellt. Das mittlere Fenster reicht von den Abtastwerten m2 bis zum Abtastwert m3. Hierin wird das eigentliche Wortsignal angenommen, das einen höheren Energiewert als die Sprachsignalteile davor und dahinter hat. Der Punkt m3 wird für das zu beschreibende Verfahren der Endpunktbestimmung schrittweise zwischen einem mini­malen Abstand und einem maximalen Abstand vom Zeitpunkt m2 verändert. Das dritte Fenster reicht vom jeweiligen Zeit­punkt m3 bis zum Zeitpunkt m4, deren Abstand wiederum konstant ist.
  • Es sei bemerkt, daß jeder Abstandswert nur zu einem der Fenster gehören kann, d.h. das mittlere Fenster beginnt, wenn das erste Fenster bis zum Abtastwert zum Zeitpunkt m2 reicht, mit dem unmittelbar links danebenliegenden Abtast­wert, und entsprechendes gilt auch für das dritte Fenster. Der Einfachheit halber wird diese Tatsache in der folgenden Erläuterung nicht weiter betont, sondern weiter­hin ein quasi kontinuierlicher Signalverlauf angenommen.
  • In Fig. 1b ist ein späterer Zeitpunkt angenommen, bei dem das Sprachsignal bereits bis zum Zeitpunkt n1 eingetroffen ist. Außerdem ist ein größeres Signalfenster angenommen, so daß dessen Beginn beim Zeitpunkt n3 weiter vom Zeit­punkt n2 entfernt liegt als bei Fig. 1a. Entsprechend liegt dann auch der Zeitpunkt n4 als Beginn des Anfangs­fensters zu einem noch früheren Zeitpunkt.
  • Ein wesentliches Kriterium bei der Bestimmung der End­punkte des Sprachsignals ist die Fläche des Sprachsignals innerhalb des Signalfensters, vermindert um einen Schwell­wert SW, der u.a. von der Fläche unter dem Sprachsignal im ersten und im dritten Fenster abhängt. Die Flächen unter dem Sprachsignal werden im übrigen durch die Summe der digitalisierten Abtastwerte innerhalb des jeweiligen Fensters dargestellt.
  • In Fig. 1a ist die Fläche in dem Anfangs- und Endfenster noch relativ groß, so daß sich ein höherer Schwellwert SWm ergibt. Aus der Figur ist unmittelbar zu erkennen, daß die um den Schwellwert verminderte Fläche im mittleren Fenster größer wird, wenn Anfangs- und Endfenster weiter aus­einandergezogen werden, d.h. wenn die noch folgenden ein­treffenden Teile des Signalverlaufs abgewartet werden und die Breite des Signalfensters größer gewählt wird.
  • In Fig. 1b ist dieser Fall nun dargestellt, wobei die Fläche unter dem Sprachsignal im Anfangs- und im End­fenster nun wesentlich kleiner ist, so daß auch der Schwellwert SWn niedriger liegt, jedoch ist nun zu erkennen, daß die Teile des Sprachsignals, die dem Anfangs- und Endfenster am nächsten liegen, einen nega­tiven Beitrag zur Gesamtfläche im Signalfenster abzüglich des Schwellwertes SWn liefern, da diese Signalwerte kleiner sind als der Schwellwert. Bei der optimalen Entscheidung fallen Anfangs- und Endpunkt auf Zeiten, bei denen der Signalwert gleich dem Schwellwert ist. Der Bereich des Sprachsignals, der innerhalb dieses Signalfensters kurzzeitig unterhalb des Schwellwerts SWn liegt, liefert zwar ebenfalls einen negativen Beitrag, der jedoch durch den links davon liegenden höheren Signalabschnitt übertroffen wird, so daß sich durch Verlängern des mittleren Fensters über diesen Bereich des Sprachsignals hinaus insgesamt eine Vergrößerung der Gesamtfläche im Signalfenster oberhalb des Schwellwertes SWn ergibt. Der vorher genannte Anfangs- und Endpunkt wird mit dem Verfahren entsprechend dem Flußdiagramm in Fig. 2a und 2b bestimmt.
  • Das Symbol 10 bedeutet den Start des gesamten Ablaufs, d.h. den Beginn des Sprachsignals. Im Block 11 werden verschiedene Anfangswerte eingestellt, eine Anzahl Abtast­werte entsprechend der Länge des Endfensters, des mini­malen Signalfensters und des Anfangsfensters abgewartet, bevor das Verfahren starten kann, sowie eine spezielle Filterfunktion durchgeführt. Diese besteht darin, daß von jeweils drei aufeinanderfolgenden Abtastwerten der kleinste Wert gewählt und als Digitalwert dem Verfahren zugeführt wird. Beispielsweise wird alle 10 ms ein Abtast­wert dem Sprachsignal entnommen, der den Momentanwert oder den integrierten Wert seit dem letzten Abtastwert dar­stellt, und die Abtastwerte werden digitalisiert. Wenn von jeweils drei aufeinanderfolgenden Abtastwerten der kleinste ausgewählt wird, werden dem Verfahren also alle 30 ms ein Digitalwert zugeführt, so daß für die Durch­führung der folgenden Verfahrensschritte 30 ms zur Ver­fügung stehen. Die zugeführten Digitalwerte werden gespeichert, da sie zu späteren Zeitpunkten noch benötigt werden, und zwar mindestens über eine Signaldauer, die der Summe aus der vorgegebenen maximalen Dauer des Signal­fensters und der beiden anderen Fenster entspricht.
  • Im Block 12 wird die Energie EFk im Anfangsfenster zwischen den Punkten m3 und m4 in Fig. 1a bzw. n3 und n4 in Fig. 1b durch Aufsummieren der darin liegenden Signal­werte bestimmt. Im Block 13 wird dieser Wert durch die Länge BF des Anfangsfensters dividiert und damit die mittlere Energie eFk in diesem Fenster bestimmt.
  • In einem Vergleich 14 wird geprüft, ob dieser mittlere Wert eFk kleiner ist als ein gespeicherter Wert eFsp, und wenn dies der Fall ist, wird im Block 15 dieser kleinere Wert gespeichert, d.h. eFsp wird durch den momentanen Wert eFk ersetzt. Nach dem Block 15 oder wenn der neue Wert nicht kleiner ist als der gespeicherte Wert wird im Block 16 die Energie ESk des Signalfensters mit minimaler Länge bestimmt, also die Fläche unter dem Sprachsignal­verlauf zwischen den Punkten m2 und m3 in Fig. 1a, wofür ebenfalls die gespeicherten Digitalwerte in diesem Bereich aufsummiert werden. Danach wird in einem Vergleich 17 geprüft, ob diese Energie ESk größer ist als eine ge­speicherte Energie ESsp. Wenn dies der Fall ist, wird im Block 18 der gespeicherte Wert durch den neuen Wert ersetzt, danach oder wenn der neue Wert nicht größer ist als der gespeicherte Wert, wird im Block 20 die mittlere Energie ESk bestimmt, indem die Gesamtenergie ESk durch die minimale Breite Bs0 des Signalfensters dividiert wird. Die Breite B dieses Fensters sowie der anderen Fenster wird jeweils durch die Anzahl darinliegender Digitalwerte angegeben.
  • Danach wird im Block 21 ein Korrekturwert thN aus der Differenz zwischen der mittleren Energie eSk im Signal­fenster und eFk im Anfangsfenster, die durch einen ange­nommenen Signal-Rausch-Verhältniswert SNR dividiert wird, bestimmt. Schließlich wird im Block 22 die mittlere Energie im Endfenster, also zwischen den Punkten m1 und m2 in Fig. 1a oder n1 und n2 in Fig. 1b auf entsprechende Weise wie im Anfangsfenster bestimmt.
  • Die Schritte 12 bis 22 laufen bei jedem neu eingetroffenen Digitalwert einmal ab, während der Verbindungspunkt 23 nun zu einer Schleife führt, die für jede zugelassene Breite des Signalfensters einmal durchlaufen wird. Diese einzel­nen Durchläufe werden mit dem Index 1 angedeutet.
  • In Fig. 2b ist diese Schleife angegeben, die mit dem Verbindungspunkt 23 beginnt. Im Block 29 wird dieser Wert 1 auf den Anfangswert Null gesetzt. Im folgenden Block 30 wird der mittlere Energiewert eF₁ des Anfangs­fensters bei der jeweiligen Verschiebung 1 von der minimalen Breite des Signalfensters aus entsprechend Block 13 bestimmt, und im Block 31 wird der so ermittelte Wert zu dem im Block 22 ermittelten mittleren Energiewert des Endfensters und zu dem im Block 21 ermittelten Korrekturwert thN addiert, um den Schwellwert thr zu ermitteln. Danach wird im Block 32 die Energie ES₁ des Signalfensters in der jeweiligen Breite durch Aufsummieren der Digitalwerte in diesem Fenster bestimmt. Im Block 33 wird schließlich von diesem Wert der Schwellwert thr, multipliziert mit der jeweiligen Breite BS1 des Signal­fensters, subtrahiert. Dies ist die Fläche unter dem Signalverlauf in Fig. 1a zwischen den Punkten m2 und m3 bzw. in Fig. 1b zwischen den Punkten n2 und n3, vermindert um die Fläche unterhalb des Schwellwertes SWm bzw. SWn zwischen diesen Punkten. Diese effektive Energie EPS₁ wird als die Energie des Sprachsignals in dem Signalfenster angesehen, die über das Störsignal hinausragt, wobei dieses Störsignal nicht direkt ermittelt werden kann, sondern ein wahrscheinlicher Wert in Form des Schwell­wertes in der vorher beschriebenen Weise abgeleitet wird.
  • Beim Vergleich 34 wird geprüft, ob diese zuletzt ermittel­te effektive Energie EPSe des Sprachsignals über einem ge­speicherten Wert EPSS liegt. Wenn dies der Fall ist, wird im Block 35 dieser neue Wert abgespeichert, ferner wird gespeichert, bei welchem zuletzt eingetroffenen Digitalwert dies erfolgt ist, indem ein momentaner Index k als Wert ksp gespeichert wird, und ferner werden Anfangs- und Endpunkt des Signalfensters, d.h. die Werte m2 und m3 in Fig. 1a bzw. n2 und n3 in Fig. 1b ge­ speichert. Daran anschließend oder, wenn beim Vergleich 34 der neue Wert nicht größer ist als der gespeicherte, wird im Block 36 der Schleifenwert 1 um 1 erhöht, und im Vergleich 37 wird geprüft, ob dieser Wert 1 den vorge­gebenen Maximalwert L entsprechend der maximalen Breite des Signalfensters erreicht hat. Wenn dies nicht der Fall ist, wird zum Block 30 zurückgegangen.
  • Anderenfalls wird im Vergleich 38 geprüft, ob das ge­fundene Maximum der Energie im Sprachfenster stationär ist, d.h. ob eine ausreichende Anzahl KST von weiteren Digitalwerten zugeführt worden ist, ohne daß ein höherer Energiewert gefunden worden ist. Wenn dies nicht der Fall ist, wird zum Block 12 zurückgegangen und der nächste Digitalwert verarbeitet. Wenn jedoch seit einer vorgege­benen Anzahl neu zugeführter Digitalwerte keine höhere Energie im Signalfenster festgestellt worden ist, wird angenommen, daß die zuletzt im Block 35 abgespeicherte effektive Energie dasjenige Signalfenster angibt, das dem Wortsignal innerhalb des Sprachsignals am besten ent­spricht, und die dabei abgespeicherten Lagewerte des Fensters, d.h. die Punkte m2 und m3 bzw. n2 und n3 geben den gesuchten Anfangspunkt und Endpunkt des Wortsignals an.
  • In dem Flußdiagramm in Fig. 2a und 2b sind nur die not­wendigsten Verfahrensschritte angegeben. Es sind Ein­sparungen bei der Durchführung der Rechenschritte in dem Verfahren insbesondere dadurch möglich, daß Zwischenwerte gespeichert werden. Beispielsweise können die Energie­werte EFk bzw. die entsprechenden mittleren Energiewerte, die in dem Block 12 bzw. 13 ermittelt worden sind, stets zwischengespeichert werden, da diese bei den folgenden zugeführten Digitalwerten wieder verwendet werden können, denn das Anfangsfenster für die kleinste Breite des Signalfensters für einen bestimmten Digitalwert hat die gleiche Lage wie das Anfangsfenster bei dem folgenden Digitalwert, wenn das Signalfenster um eine Einheit gegen­über dem minimalen Wert vergrößert ist, usw. Entsprechen­des gilt auch für die Energie im Signalfenster. Diese Einsparung an Rechenzeit erfordert jedoch einen höheren Speicherungs- und Adressensteuerungsaufwand für die Zwischenspeicher.
  • Wenn das beschriebene Verfahren in Verbindung mit auto­matischer Spracherkennung verwendet wird, kann der Er­kennungsvorgang bei jedem neuen Abspeichern der Werte im Block 35 beginnen, so daß dann, wenn der stationäre Zu­stand im Block 38 schließlich erkannt ist, das Erkennungs­verfahren bereits weit fortgeschritten sein kann, so daß auf diese Weise eine schnellere Erkennung, ggf. eine Erkennung in Echtzeit, möglich ist.
  • Bei der in Fig. 3 dargestellten Anordnung nimmt ein Schallwandler 40 ein Sprachsignal auf und setzt es in ein elektrisches Signal um. Dieses wird einer Einheit 42 zugeführt, die dem kontinuierlichen Signal in regelmäßigen Zeitabständen Abtastwerte entnimmt und diese digitali­siert. Die Einheit 44 wählt aus jeweils drei aufeinander­folgenden digitalisierten Abtastwerten den kleinsten aus und führt die so ermittelten Digitalwerte einem Speicher 50 zu. Wenn die Einheit 42 alle 10 ms einen Abtastwert dem Sprachsignal entnimmt, erhält der Speicher 50 also alle 30 ms einen neuen Digitalwert. Dieser wird an einer Adresse abgespeichert, die von einer Steuereinheit 52 über die Verbindung 53 zugeführt wird.
  • Entsprechend adressiert die Steuereinheit 52 den Speicher 50 auch zum Auslesen der gespeicherten Digital­werte, die einer Recheneinheit 54 zugeführt werden. Diese wird ebenfalls von der Steuereinheit 52 über eine Verbin­dung 51 gesteuert und führt die Rechenschritte aus, die in dem Flußdiagramm in Fig. 2a und 2b mit den Blöcken 12, 13, 16, 20 bis 22 und 30 bis 33 angegeben sind. Insbesondere bestimmt die Recheneinheit 54 die Energie im Anfangs­fenster durch Aufsummieren der entsprechenden, von der Steuereinheit im Speicher 50 adressierten Digitalwerte und bildet die mittlere Energie. Diese wird über die Leitung 55 einem Vergleicher 58 zugeführt, der am anderen Eingang aus einem zweiten Speicher 56 über dessen Daten­ausgangsleitung 57 den entsprechenden früher gespeicherten Wert empfängt. Der zweite Speicher 56 wird dabei ebenfalls von der Steuereinheit 52 über die Leitung 59 adressiert. Wenn der auf der Leitung 55 vorhandene, neu ermittelte Wert kleiner ist als der auf der Leitung 57 vorhandene gespeicherte Wert, erzeugt der Vergleicher 58 ein ent­sprechendes Signal und führt es dem zweiten Speicher 56 zu, so daß nun an der adressierten Stelle der neue, auf der Leitung 55 vorhandene Wert gespeichert wird. Dies ent­spricht den Blöcken 14 und 17 in Fig. 2a. In entsprechen­der Weise werden auch die anderen Berechnungen und Vergleiche durchgeführt, wobei die Recheneinheit 54 insbesondere bei den Schritten 21, 31 und 33 die dort erforderlichen Werte aus dem zweiten Speicher 56 über die Leitung 57 erhält. Für das Abspeichern der weiteren Werte beim Schritt 35 führt die Steuereinheit 52 diese Werte über die Leitung 69 dem Dateneingang des zweiten Speichers 56 zu.
  • Ferner ist noch ein Zähler 60 vorhanden, der den Index l zählt. Über die Leitung 65 wird der Zähler 60 von der Steuereinheit 52 auf die Anfangsstellung gesetzt und mit Zähltakten versorgt, wie bei den Schritten 29 und 36 in Fig. 2b angegeben ist. Jeweils wenn der Zähler 60 eine Anzahl L Taktsignale empfangen hat, die dem Unterschied zwischen dem kleinsten und dem größten Signalfenster ent­spricht, gibt er über die Leitung 63 ein Schleifenende­signal an die Steuereinheit 52 ab. Dies entspricht dem Vergleich 37 in Fig. 2b. Der Vergleich 38 wird zweckmäßig in der Steuereinheit 52 durchgeführt.
  • Eine einfache Realisierung der Anordnung nach Fig. 3 besteht darin, daß die Steuereinheit 52 und die Rechen­einheit 54 durch einen Mikroprozessor gebildet werden. Dieser kann dann auch noch die Funktion des Ver­gleichers 58 und des Zählers 60 übernehmen, so daß sich insgesamt ein sehr einfacher Aufbau ergibt.

Claims (8)

1. Verfahren zum Bestimmen von Anfangspunkt und End­punkt eines Wortsignals entsprechend einem isoliert gesprochenen Wort in einem Sprachsignal durch Ermittlung eines Extremwertes in einer vom Sprachsignal abgeleiteten Folge von Digitalwerten bei Berücksichtigung von den Extremwert umgebenden Werten des Signalverlaufs und eines Schwellwertes,
dadurch gekennzeichnet, daß eine Anzahl vorher aufein­anderfolgend eingetroffener Digitalwerte drei benachbarten Fenstern zugeordnet werden, von denen das erste Fenster (Endfenster) eine vorgegebene erste Anzahl (BR) der zuletzt eingetroffenen Digitalwerte, das zweite Fenster (Signalfenster) eine zwischen einem vorgegebenen ersten Wert und einem vorgegebenen größeren zweiten Wert variierende zweite Anzahl (BS1) Digitalwerte und das dritte Fenster (Anfangsfenster) eine vorgegebene dritte Anzahl (BF) Digitalwerte umfaßt, daß für jeden neuen Digitalwert aus den Digitalwerten im ersten Fenster und aufeinanderfolgend für je einen Wert (1) der zweiten Anzahl (BS1) aus den Digitalwerten des zugehörigen dritten Fensters ein Schwellwert (thr) gebildet wird, um den jeder Digitalwert des zweiten Fensters vermindert wird, daß die Summe der so verminderten Digitalwerte für jeden Wert der zweiten Anzahl mit einer höchsten früher auf gleiche Weise gebildeten Summe verglichen und abhängig vom Vergleichsergebnis als neue höchste Summe zusammen mit Lageangaben über die Lage des zweiten Fensters innerhalb der Folge der Digitalwerte gespeichert wird, und daß die zuletzt gespeicherten Lageangaben den Anfangspunkt und den Endpunkt des Wortsignals angeben.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, daß nur diejenigen Lageangaben, die für eine vorgegebene Anzahl aufeinanderfolgend einge­troffener Digitalwerte unverändert geblieben sind, als Anfangspunkt und Endpunkt verwendet werden.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet, daß der Schwellwert aus der Summe der Digitalwerte im ersten und im dritten Fenster und eines Korrekturwertes gebildet wird.
4. Verfahren nach Anspruch 3,
dadurch gekennzeichnet, daß für jeden neuen Digitalwert beim kleinsten Wert der zweiten Anzahl (BS0) die Summe der Digitalwerte des zweiten Fensters gebildet und abge­speichert wird, wenn eine vorher abgespeicherte zweite Fenstersumme kleiner ist, und die Summe der Digitalwerte des dritten Fensters gebildet und abgespeichert wird, wenn eine vorher abgespeicherte dritte Fenstersumme größer ist, und aus der Differenz der beiden abgespeicherten Fenster­summen der Korrekturwert gebildet wird.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet, daß der Korrekturwert die durch einen konstanten vorgegebenen Signal-Rausch-Verhältniswert dividierte Differenz der beiden Fenstersummen ist.
6. Verfahren nach einem der Ansprüche 1 bis 5,
dadurch gekennzeichnet, daß als Digitalwert der kleinste von jeweils drei aufeinanderfolgenden digitalisierten Abtastwerten des Sprachsignals verwendet wird.
7. Anordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6, mit einem ersten Speicher zum Aufnehmen von aus einem Sprachsignal abgeleiteten Digital­werten,
gekennzeichnet durch
einen zweiten Speicher zur Aufnahme von Zwischenergeb­nissen,
eine Recheneinheit, die die Digitalwerte aus dem ersten Speicher sowie Zwischenergebnisse aus dem zweiten Speicher empfängt und die Energie in jeweils einem der Fenster sowie die weiteren Zwischenergebnisse bestimmt,
einen Vergleicher zum Vergleichen von Zwischenergebnissen aus dem zweiten Speicher mit von der Recheneinheit ge­lieferten Werten und zum Steuern des Einschreibens der letzteren Werte in den zweiten Speicher,
eine Steuereinheit zum Adressieren des ersten und des zweiten Speichers und der Recheneinheit entsprechend den Verfahrensschritten, und
eine Zählanordnung zum Zählen der unterschiedlichen zweiten Anzahlen von Digitalwerten im zweiten Fenster und zum Abgeben eines Schleifenendesignals an die Steuer­einheit nach einer vorgegebenen Anzahl unterschiedlicher zweiter Anzahlen.
8. Anordnung nach Anspruch 7,
dadurch gekennzeichnet, daß mindestens die Recheneinheit und die Steuereinheit durch einen Mikroprozessor reali­siert sind.
EP88202629A 1987-11-24 1988-11-23 Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens Withdrawn EP0319078A3 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19873739681 DE3739681A1 (de) 1987-11-24 1987-11-24 Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
DE3739681 1987-11-24

Publications (2)

Publication Number Publication Date
EP0319078A2 true EP0319078A2 (de) 1989-06-07
EP0319078A3 EP0319078A3 (de) 1990-01-10

Family

ID=6341078

Family Applications (1)

Application Number Title Priority Date Filing Date
EP88202629A Withdrawn EP0319078A3 (de) 1987-11-24 1988-11-23 Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens

Country Status (4)

Country Link
US (1) US4945566A (de)
EP (1) EP0319078A3 (de)
JP (1) JPH01167799A (de)
DE (1) DE3739681A1 (de)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5148429A (en) * 1988-10-27 1992-09-15 Kabushiki Kaisha Toshiba Voice data transmission system and method
JP3067801B2 (ja) * 1992-04-10 2000-07-24 アヴィッド・テクノロジー・インコーポレーテッド ビデオ情報のデジタル記憶及び表示を提供するデジタル・オーディオ・ワークステーション
US5634020A (en) * 1992-12-31 1997-05-27 Avid Technology, Inc. Apparatus and method for displaying audio data as a discrete waveform
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5675778A (en) * 1993-10-04 1997-10-07 Fostex Corporation Of America Method and apparatus for audio editing incorporating visual comparison
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
US5638486A (en) * 1994-10-26 1997-06-10 Motorola, Inc. Method and system for continuous speech recognition using voting techniques
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
US5819217A (en) * 1995-12-21 1998-10-06 Nynex Science & Technology, Inc. Method and system for differentiating between speech and noise
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6321197B1 (en) * 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7568758B2 (en) * 2007-01-03 2009-08-04 Kolcraft Enterprises High chairs and methods to use high chairs
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986003047A1 (en) * 1984-11-08 1986-05-22 American Telephone & Telegraph Endpoint detector

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3243231A1 (de) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur erkennung von sprachpausen
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986003047A1 (en) * 1984-11-08 1986-05-22 American Telephone & Telegraph Endpoint detector

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PATENT ABSTRACTS OF JAPAN, unexamined applications, Sektion E, Band 1, Nr. 156, 13. Dezember 1977 THE PATENT OFFICE JAPANESE GOVERNMENT Seite 8422 E 77 *
PATENT ABSTRACTS OF JAPAN, unexamined applications, Sektion E, Band 3, Nr. 15, 9. Februar 1979 THE PATENT OFFICE JAPANESE GOVERNMENT Seite 97 E 89 *
PATENT ABSTRACTS OF JAPAN, unexamined applications, Sektion E, Band 4, Nr. 5, 16. JÛnner 1980 THE PATENT OFFICE JAPANESE GOVERNMENT Seite 10 E 165 *

Also Published As

Publication number Publication date
EP0319078A3 (de) 1990-01-10
DE3739681A1 (de) 1989-06-08
JPH01167799A (ja) 1989-07-03
US4945566A (en) 1990-07-31

Similar Documents

Publication Publication Date Title
EP0319078A2 (de) Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens
EP0299572B1 (de) Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE3101851C2 (de) Vorrichtung zum Erkennen von Sprache
DE3233637C2 (de) Vorrichtung zur Bestimmung der Dauer von Sprachsignalen
DE69917361T2 (de) Vorrichtung zur Sprachdetektion bei Umgebungsgeräuschen
DE2536640C3 (de) Anordnung zur Erkennung von Geräuschen
DE2034623C2 (de) Verfahren für das Erkennen von Sprachsignalen in Rauschen
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
EP0533260A2 (de) Verfahren und Anordnung zum Erkennen der gesprochenen Wörter in einem Sprachsignal
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
EP0533261A2 (de) Verfahren und Anordnung zum Erkennen gesprochener Wörter in einem Sprachsignal
DE3422877C2 (de)
EP0285221A2 (de) Verfahren zum Erkennen kontinuierlich gesprochener Wörter
EP1190413A2 (de) Verfahren und vorrichtung zur spracherkennung
EP0533259B1 (de) Verfahren und Anordnung zum Erkennen einer Folge von Wörtern
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE19639844A1 (de) Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
EP0677836B1 (de) Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens
DE19716862A1 (de) Sprachaktivitätserkennung
DE3710507A1 (de) Verfahren zum erkennen kontinuierlich gesprochener woerter
EP0703569A1 (de) System zum Ermitteln von Wörtern aus einem Sprachsignal
EP0813734B1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
DE3215868A1 (de) Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette
EP0677835B1 (de) Verfahren zum Ermitteln einer Folge von Wörtern

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): DE FR GB

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): DE FR GB

17P Request for examination filed

Effective date: 19900626

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 19920603