EP0334023A2 - Verfahren zur Erkennung von Sprachsignalen - Google Patents

Verfahren zur Erkennung von Sprachsignalen Download PDF

Info

Publication number
EP0334023A2
EP0334023A2 EP89102876A EP89102876A EP0334023A2 EP 0334023 A2 EP0334023 A2 EP 0334023A2 EP 89102876 A EP89102876 A EP 89102876A EP 89102876 A EP89102876 A EP 89102876A EP 0334023 A2 EP0334023 A2 EP 0334023A2
Authority
EP
European Patent Office
Prior art keywords
signal
speech
amplitude
signals
control amplifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP89102876A
Other languages
English (en)
French (fr)
Other versions
EP0334023A3 (de
Inventor
Hans Wilhelm Dipl.-Ing. Gierlich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telenorma GmbH
Original Assignee
Telenorma Telefonbau und Normalzeit GmbH
Telefonbau und Normalzeit GmbH
Telenorma GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telenorma Telefonbau und Normalzeit GmbH, Telefonbau und Normalzeit GmbH, Telenorma GmbH filed Critical Telenorma Telefonbau und Normalzeit GmbH
Publication of EP0334023A2 publication Critical patent/EP0334023A2/de
Publication of EP0334023A3 publication Critical patent/EP0334023A3/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • the invention relates to a method for recognizing speech signals, these first being fed to a low-pass filter, the pass band of which is in the range of the basic speech frequency.
  • the recognition of voice signals is of great importance, since the presence of voice signals can be used as a criterion for increasing the gain.
  • the amplification of the transmit and receive signal is controlled as a function of the presence of a speech signal. The same applies to conference facilities.
  • the object of the invention is now to provide a method for recognizing speech signals, in which the presence of speech signals is recognized after a very short time, without this suppressing initial syllables.
  • This object is achieved in that the signals appearing at the output of the low-pass filter are checked for the amplitude and duration of a specific amplitude and in that a speech signal is recognized when at least three successive amplitudes have occurred within a predetermined time frame.
  • the signals are first checked for maximum amplitude values. As soon as a maximum amplitude value is determined, the period of time within which a further maximum amplitude value occurs is measured in order to be able to recognize speech signals in this way.
  • the three amplitudes A1 to A3 shown in FIG. 1 are the amplitudes of a speech signal which are present at the output of a low-pass filter whose cut-off frequency is approximately 400 Hz.
  • the signals supplied to the input of the low-pass filter are generated, for example, by a microphone and are composed of room noises and speech signals.
  • the method according to the invention for recognizing speech signals now essentially uses the frequency range of the fundamental speech frequency (80 to 333 Hz) for analysis.
  • the most important feature for the detection of speech signals is the period of the vibrations of the speech signals, which is in the range of 3 to 12.5 ms at the basic speech frequency depending on the speaker. This first feature is used to distinguish between speech and noise.
  • the detection of zero crossings in the speech signal is not expedient, since in the event of interference, for example due to noise, the number of zero crossings can increase so greatly that speech recognition is no longer possible in this way.
  • the method according to the invention uses the maxima of the speech signal to recognize speech. If these are then within a predetermined amplitude time window, then a first criterion for the presence of speech signals is given. The choice of window parameters has a significant influence on the period detection.
  • the window size is chosen such that it is smaller than half the smallest possible period of the basic speech frequency so that both positive and negative maximum values of the speech signal can be recognized. This is necessary because the speech signal is not symmetrical with respect to the dynamic range.
  • the window size is therefore approximately 0.9 ms.
  • the amplitude tolerance of the maximum values is very small over a few periods in the case of an undisturbed speech signal, but can be increased significantly at high interference levels due to additive superimposition of the interference signal.
  • the amplitude window is approximately plus minus 20% of the first maximum.
  • the amplitude A1 has been recognized as the maximum value, whereupon its duration t1 is stored as a period.
  • the time window of the period PF begins at the temporal center of the amplitude A1 of the first maximum M1 to run, which is open between 3 and 12.5 ms. If the next amplitude A2 now falls within the time window of the period PF, since its time window ZF lies within the amplitude window AF, the duration of the amplitude A2 is identified as the second maximum by storing the value t2.
  • the amplitude window AF is defined as a threshold as a function of the amplitude value of the first maximum M1.
  • a simple counting process for detecting the three successive amplitudes A1 to A3, which meet the conditions described above, can already be used to conclude that a speech signal is present, in which case it is not necessary to store the period durations t1 to t3.
  • two methods can be used for a more precise determination of speech signals, which are described below.
  • the degree of correlation between the individual periods is determined. Through a cross correlation between the successive signal sections of a period length, high values for the nominated cross correlation coefficient are achieved in the areas in which speech is present. However, if the detected period is only random maxima in the specified interval, the correlation analysis gives small values.
  • the second or, in the case of detection of several periods the third period is correlated with the first. If three periods are correlated, the smaller of the two values is used for the decision. This reduces the frequency of errors in the case of randomly detected periods, particularly in the event of interference by noise signals. If more periods are used for the detection, the detection speed slows down, however, no further improvement can be achieved since the values of KKF (k. N p ) decrease significantly due to the amplitude and frequency modulation of the speech signal.
  • a further improvement in the decision can be achieved if, instead of evaluating the cross-correlation function for speech decision, the nominated mean square error between the recognized periods is used.
  • the decisive advantage of this method for speech detection is the recognition time.
  • the detection time is 37.5 ms.
  • the analysis using the simplified method described at the beginning gives approximately the same results as the evaluation method with cross-correlation or after determining the mean square error.
  • the detection rate is on average 5% below the detection rate of the previously described method, but can also assume higher values depending on the noise situation. Differences to the above-mentioned procedure become clear when the speech sequence is disturbed. With the selected parameters, the period detection can deliver an increased number of wrong decisions, depending on the respective background noise, for some background noise situations.
  • reflections of the interference signal if they meet the criteria for the presence of speech, are recognized as speech and lead to incorrect decisions.
  • the detection of sinusoidal interference in the area of the fundamental speech frequency is only possible on the basis of the duration and frequency constancy of this interference signal.
  • the selection of the method for speech detection to be used is essentially determined by the expected useful / interference power ratios and the interference noises.
  • useful / interference power ratios of more than 12 dB
  • the simplified detection method can already be used without arithmetic operations.
  • all methods only have a short signal delay in the range of the detection time (9 to 37 ms) Sequence so that initial syllables are not suppressed.
  • the method presented can be implemented, for example, with the aid of a signal processor SP (see FIG. 2).
  • the analog signal from the microphone M is sampled and digitized via the analog / digital converter W1.
  • the sample values obtained in this way can be used by the signal processor according to the method according to the invention for speech detection. If speech is recognized, the microphone signal can be amplified by the control amplifier RV1 by a fixed amount at the instigation of the signal processor SP.
  • Such an arrangement is suitable, for example, for microphones which are located in a room with a large amount of noise.
  • the amplification of the speech signals results in better intelligibility.
  • a hands-free device in the presence of a speech signal in the signal of the microphone M, the control amplifier RV2 is caused by the signal processor SP to attenuate the signal for the loudspeaker LS accordingly, in order in this way to to prevent acoustic feedback between loudspeaker LS and microphone M.
  • the control amplifier RV2 could be influenced at the instigation of the signal processor SP in such a way that it amplifies the input signal to achieve a better intelligibility of the loudspeaker signal LS.
  • the signal processor receives at its inputs SE and EE data words which represent the samples of the signals. Data words are also applied to the connected lines at the outputs SA and EA of the signal processor SP. To avoid the suppression of initial syllables, the input signals can be delayed using the signal processor SP by a time which is in the range of the recognition time (5-37 ms). Likewise, a fall time can be caused by the signal processor SP for the control signals influencing the control amplifiers RV, which are of the order of magnitude of 200 to 900 ms and are used to bridge unvoiced sounds and short speech pauses between words and sentences.
  • the low-pass filtering function with a cut-off frequency of 400 Hz can also be carried out by the signal processor SP.
  • Another application of the method according to the invention is also conceivable in the context of an intercom system, the other direction being attenuated as a function of voice signals in one direction at the instigation of the signal processor.
  • a signal processor is not further discussed in the context of this description, but such signal processors are sold, for example, by Texas Instruments under the designation TMS 320 or by Fujitsu under the designation MB 8764. Such a signal processor is to be programmed in such a way that the described method steps run automatically.
  • the analog / digital converters W1 and W4 serve to convert the analog signals into digital signals for signal processing in the signal processor SP, while the conversion of the digital signals occurring at the outputs SA and EA into analog signals by the digital / analog converters W2 and W3 takes place.
  • control amplifiers RV1 and RV2 can also be dispensed with if the function of amplifying the signals is taken over by the signal processor SP itself, which can also be designed as a suitable microprocessor.
  • the implementation of the method according to the invention is conceivable by means of a corresponding, discretely constructed analog circuit arrangement or also a correspondingly designed customer circuit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Bei bekannten Erkennungsschaltungen für Sprachsignale wird nach einer Bandpaßfilterung für die Sprachgrundfrequenz des Mikrofonsignals die Einhüllende von Sprache desselben detektiert und das Detektionssignal zur Steuerung eines Regelverstärkers derart verwendet, daß dieser bei fehlendem Detektionssignal das Mikrofonsignal dämpft und bei vorhandenem Detektionssignal verstärkt. Ein derartiges Verfahren hat eine Detektionszeit zur Folge, die in einer Größenordnung von 200 ms liegt. Durch das neue Verfahren soll eine kürzere Detektionszeit erreicht werden. Dies geschieht dadurch, daß die am Ausgang des Tiefpaßfilters auftretenden Signale auf Amplitude und Dauer einer bestimmten Amplitude überprüft werden und daß dann ein Sprachsignal erkannt wird, wenn mindestens drei aufeinanderfolgende Amplituden im Bereich der Sprachgrundfrequenz aufgetreten sind. Die Erkennung von Sprachsignalen kann besonders in Verbindung mit einem Signalprozessor zur Verstärkungsregelung von Mikrofonsignalen in störgeräuscherfüllter Umgebung erfolgen, wobei nur bei Vorliegen von Sprachsignalen eine Verstärkung stattfindet oder auch bei Wechselsprech- oder Gegensprechanlagen angewendet werden, um bei Vorliegen eines Sprachsignals das Signal in der betreffenden Richtung zu verstärken und in der Gegenrichtung zu dämpfen.

Description

  • Die Erfindung betrifft ein Verfahren zur Erkennung von Sprachsignalen, wobei diese zunächst einem Tiefpaß zugeführt werden, dessen Durchlaß­bereich im Bereich der Sprachgrundfrequenz liegt.
  • Auf dem Gebiet der Elektroakustik ist die Erkennung von Sprachsignalen von großer Bedeutung, da das Vorliegen von Sprachsignalen als Kriterium für die Anhebung der Verstärkung herangezogen werden kann. So wird bei­spielsweise zur akustischen Entkopplung von Freisprecheinrichtungen die Verstärkung des Sende- und Empfangssignals in Abhängigkeit vom Vorliegen eines Sprachsignals gesteuert. Das gleiche gilt für Konferenzeinrich­tungen.
  • Es ist bereits vorgeschlagen worden (P 37 34 446.3), die Störgeräusch­kompensation für ein Mikrofon dadurch zu erreichen, daß bei Vorhanden­sein eines Sprachsignals dasselbe einer größeren Verstärkung unterworfen wird, um auf diese Weise eine bessere Verständlichkeit bei starkem Hinter­grundgeräusch zu erreichen. Dabei wird nach einer Bandpaßfilterung für die Sprachgrundfrequenz die Einhüllende von Sprache des Mikrofonsignals de­tektiert und das Detektionssignal einem Zeitglied zugeführt, welches eine bestimmte Ansprechverzögerung aufweist. Das Ausgangssignal des Zeitglieds dient dann zur Steuerung eines, das Mikrofonsignal verstärkenden Regelver­stärkers. Nachteilig bei diesem Verfahren ist die Verwendung von Zeit­gliedern zur Bearbeitung des Mikrofonsignals, wodurch die Gefahr besteht, daß Anfangssilben unterdrückt werden.
  • Die Aufgabe der Erfindung besteht nun darin, ein Verfahren zur Erkennung von Sprachsignalen anzugeben, bei welchem schon nach sehr kurzer Zeit das Vorliegen von Sprachsignalen erkannt wird, ohne daß es hierbei zu einer Unterdrückung von Anfangssilben kommt.
  • Diese Aufgabe wird dadurch gelöst, daß die am Ausgang des Tiefpaßfilters auftretenden Signale auf Amplitude und Dauer einer bestimmten Amplitude überprüft werden und daß dann ein Sprachsignal erkannt wird, wenn mindestens drei aufeinanderfolgende Amplituden innerhalb eines vorgegebenen Zeitrasters aufgetreten sind.
  • Die Signale werden zunächst nach Amplitudenhöchstwerten überprüft. Sobald ein Amplitudenhöchstwert festgestellt wird, wird der Zeitraum gemessen, innerhalb dessen ein weiterer Amplitudenhöchstwert auftritt, um auf diese Weise Sprachsignale erkennen zu können.
  • Die Erfindung wird anhand eines Ausführungsbeispiels näher erläutert, welches in der Zeichnung dargestellt ist.
  • Es zeigt:
    • Fig. 1 eine Darstellung der Perioden eines Sprach­signals in Verbindung mit den Auswertekriterien und
    • Fig. 2 das Blockschaltbild für eine Anordnung zur Durch­führung des Verfahrens.
  • Die in Fig. 1 dargestellten drei Amplituden A1 bis A3 sind die Amplituden eines Sprachsignals, welche am Ausgang eines Tiefpaßfilters anstehen, dessen Grenzfrequenz bei ca. 400 Hz liegt. Die dem Eingang des Tiefpaßfilters zuge­führten Signale werden beispielsweise von einem Mikrofon erzeugt und setzen sich aus Raumgeräuschen und Sprachsignalen zusammen.
  • Das erfindungsgemäße Verfahren zur Erkennung von Sprachsignalen benutzt nun zur Analyse im wesentlichen den Frequenzbereich der Sprachgrundfrequenz ( 80 bis 333 Hz). Das wichtigste Merkmal zur Erkennung von Sprachsignalen ist die Periodendauer der Schwingungen der Sprachsignale, die bei der Sprachgrundfrequenz je nach Sprecher im Bereich von 3 bis 12,5 ms liegt. Dieses erste Merkmal dient zur Unterscheidung zwischen Sprache und Störgeräusch. Zur sicheren Er­kennung von Sprachsignalen ist die Detektion von Nulldurchgängen im Sprachsignal nicht sinnvoll, da sich bei Störung, beispielsweise durch Rauschen,die Anzahl der Nulldurchgänge so stark erhöhen kann, so daß eine Erkennung von Sprache auf diese Weise nicht mehr möglich ist. Das Verfahren gemäß der Erfindung benutzt zur Erkennung von Sprache die Maxima des Sprachsignals. Liegen diese dann doch innerhalb eines vorgegebenen Amplituden-Zeitfensters, so ist ein erstes Kriterium für das Vorhandensein von Sprachsignalen gegeben. Einen wesentlichen Einfluß auf die Periodenerkennung hat die Wahl der Fensterparameter.
  • 1. Fenstergröße für ein örtliches Amplitudenmaximum.
  • Die Fenstergröße wird derart gewählt, daß diese kleiner ist als die Hälfte der kleinstmöglichen Periode der Sprachgrundfrequenz, damit sowohl positive als auch negative Maximalwerte des Sprach­signals erkannt werden können. Dies ist notwendig, da das Sprach­signal bezüglich des Aussteuerungsbereichs nicht symmetrisch ist. Die Fenstergröße beträgt demnach ca. 0,9 ms.
  • 2. Amplitudenfenster
  • Die Amplitudentoleranz der Maximalwerte ist bei ungestörtem Sprachsignal über einige Perioden sehr gering, kann aber bei hohen Störpegeln infolge additiver Überlagerung des Störsignals deutlich vergrößert werden. Das Amplitudenfenster beträgt ca. plus­minus 20 % des ersten Maximums.
  • 3. Abstandstoleranz der gefundenen Maximalwerte
  • Bei ungestörter Sprache ist der Abstand der Maximalwerte der Signale nicht konstant, da das Sprachsignal frequenz­moduliert wird. Ein streng periodischer Verlauf des Anregungs­signals kann nicht erwartet werden, die Schwankungen der Sprach­grundfrequenz können deshalb erheblich sein. Einen quasi perio­dischen Verlauf weisen jedoch die stimmhaften, eingeschwungenen Laute auf. Wird das Signal gestört (beispielsweise additiv durch Rauschen), so kann sich eine zusätzliche Verschiebung der Signalmaxima in zeitlicher Richtung ergeben. Durchgeführte Untersuchungen haben gezeigt, daß der Toleranzbereich für die Detektion der Signalmaxima ca. 15 % betragen kann.
  • Unter diesen Randbedingungen kann davon ausgegangen werden, daß auch bei ungestörtem Sprachsignal nie mehr als 10 Perioden des Signals die vorgegebenen Kriterien erfüllen, so daß anhand des erfindungsgemäßen Verfahrens auch periodische, nicht modulierte Störsignale, deren Frequenz im Bereich der Sprachgrundfrequenz liegt, von Sprachsignalen unterscheiden werden können.
  • Sobald ein Maximalwert erkannt wird, wird dessen zeitliche Position abgespeichert. Erfüllt der nächste auftretende Maximalwert nicht die weiter unten beschriebenen Bedingungen, so werden die Daten des ersten Maximalwertes gelöscht und diejenigen des nächsten Maximalwertes an dessen Stelle eingespeichert.
  • Bei dem in Fig. 1 gezeigten Beispiel einer Amplitudenfolge wird davon ausgegangen, daß die gezeigten drei Maximalwerte M1 bis M3 sämtliche zur Erkennung von Sprachsignalen erforderliche Bedingungen erfüllen. Die Amplitude A1 ist als Maximalwert er­kannt worden, woraufhin deren Dauer t1 als Periodendauer abge­speichert wird. Bei der zeitlichen Mitte der Amplitude A1 des ersten Maximums M1 beginnt das Zeitfenster der Periode PF zu laufen, welches zwischen 3 und 12,5 ms geöffnet ist. Fällt nun die nächste Amplitude A2 in das Zeitfenster der Periode PF, da deren Zeitfenster ZF innerhalb des Amplitudenfensters AF liegt, dann wird die Dauer der Amplitude A2 als zweites Maximum durch Einspeicherung des Wertes t2 gekennzeichnet. Liegt nun die Amplitude A3 innerhalb eines Zeitfensters F, welches durch die Periodendauer t2 ± 7,5 % bestimmt wird, so wird auch der Zeitwert t3 des dritten Maximums M3 abgespeichert. Es wird noch darauf hingewiesen, daß das Amplitudenfenster AF als Schwelle in Abhängigkeit von dem Amplituden­wert des ersten Maximums M1 festgelegt wird.
  • Durch einen einfachen Zählvorgang zur Erfassung der drei aufeinander­folgenden Amplituden A1 bis A3, welche die oben beschriebenen Be­dingungen erfüllen, kann bereits auf Vorliegen eines Sprachsignals geschlossen werden, wobei in diesem Fall eine Abspeicherung der Perioden­dauern t1 bis t3 nicht notwendig ist. Für eine genauere Bestimmung von Sprachsignalen können jedoch zwei Verfahren herangezogen werden, die im folgenden beschrieben werden.
  • Wurden mehrere Perioden einer Schwingung im Sprachgrundfrequenzbereich erkannt, so erfolgt die Bestimmung des Korrelationsgrades zwischen den einzelnen Perioden. Durch eine Kreuzkorrelation zwischen den aufeinander­folgenden Signalabschnitten einer Periodenlänge werden hohe Werte für den nomierten Kreuzkorrelationskoeffizienten in den Bereichen erreicht, in denen Sprache vorhanden ist. Handelt es sich bei der detektierten Periode jedoch nur um zufällige Maxima im vorgegebenen Intervall, so ergibt die Korrelationsanalyse kleine Werte.
    Figure imgb0001
    Zur Bestimmung von KKF (k . Np) wird die zweite bzw. im Falle der Detektion mehrerer Perioden auch die dritte Periode mit der ersten korreliert. Werden drei Perioden korreliert, so wird zur Entschei­dung der kleinere der beiden Werte herangezogen. Dies vermindert ins­besondere bei Störung durch Rauschsignale die Fehlerhäufigkeit bei zufällig detektierten Perioden. Werden mehr Perioden zur Detektion herangezogen, so vermindert sich die Detektionsgeschwindigkeit, eine weitere Verbesserung ist jedoch nicht zu erzielen, da die Werte von KKF (k . Np) aufgrund der Amplituden- und Frequenzmodulation des Sprach­signals deutlich abnehmen.
  • Eine weitere Verbesserung der Entscheidung kann dadurch erzielt werden, wenn anstelle der Auswertung der Kreuzkorrelationsfunktion zur Sprach­entscheidung der nomierte mittlere quadratische Fehler zwischen den erkannten Perioden benutzt wird.
    Figure imgb0002
  • Die Verwendung dieses Fehlerkriteriums führt bei ungestörter Sprache zu ähnlichen Ergebnissen, wie die Bildung der KKF (k . Np). Unter­schiede ergeben sich jedoch bei gestörtem Sprachsignal. Bei Bildung der KKF (k . Np) führt die Unterscheidung zwischen Sprache und Störung anhand des Korrelationskoeffizientens häufiger zu Fehlentscheidungen als die Bildung 1-Δf². Sowohl KKF (k . Np) als auch 1-Δf² können Werte im Bereich von 0 bis 1 annehmen. Überschreitet der Wert von KKF (k . Np) bzw. von 1-Δf² einen Wert von beispielsweise 0,7, so wird das Eingangssignal als Sprache markiert. Untersuchungen haben gezeigt, daß die Wahl der Schwelle unkritisch ist, sie kann auch im Bereich von 0,3 bis 0,9 ge­wählt werden.
  • Der entscheidende Vorteil dieses Verfahrens zur Sprachdetektion ist die Erkennungszeit. Im ungünstigsten Fall, d. h. wenn der Sprecher eine Stimmgrundfrequenz von 80 Hz hat und bei einer Detektion von drei Perioden beträgt die Detektionszeit 37,5 ms.
  • Bei ungestörten Signalen ergibt die Analyse nach dem eingangs beschriebenen vereinfachten Verfahren annähernd die gleichen Ergebnisse, wie das Aus­werteverfahren mit Kreuzkorrelation oder nach Ermittlung des mittleren quadratischen Fehlers. Die Erkennungsrate liegt im Mittel 5 % unter der Erkennungsrate des zuvor beschriebenen Verfahrens, kann aber auch je nach Störschallsituation höhere Werte annehmen. Unterschiede zu dem vorgenannten Verfahren werden bei Störung der Sprachsequenz deutlich. Bei den gewählten Parametern kann die Periodenerkennung, abhängig vom jeweiligen Störgeräusch, für einige Störschallsituationen eine erhöhte Anzahl von Fehlentscheidungen liefern. Insbesondere bei Störung durch impulshaltige Signale werden Reflektionen des Störsignals, wenn sie die Kriterien für das Vorhandensein von Sprache erfüllen, als Sprache er­kannt und führen zu Fehlentscheidungen. Die Detektion von sinusförmigen Störanteilen im Bereich der Sprachgrundfrequenz ist nur anhand der zeit­lichen Dauer und Frequenzkonstanz dieses Störsignals möglich.
  • Die Auswahl des anzuwendenden Verfahrens zur Sprachdetektion wird im wesentlichen von den zu erwartenden Nutz-/Störleistungsverhältnissen sowie den Störgeräuschen bestimmt. Bei Nutz-/Störleistungsverhältnissen von größer 12 dB kann bereits das vereinfachte Detektionsverfahren ohne Rechenvorgänge angewandt werden. Sämtliche Verfahren haben jedoch nur eine kurze Signalverzögerung im Bereich der Detektionszeit (9 bis 37 ms) zur Folge, so daß Anfangssilben nicht unterdrückt werden.
  • Die Realisierung des vorgestellten Verfahrens kann beispielsweise mit Hilfe eines Signalprozessors SP (s. Fig. 2) erfolgen. Das analoge Signal des Mikrofons M wird über den Analog/Digitalwandler W1 abge­tastet und digitalisiert. Die so gewonnenen Abtastwerte können ge­mäß dem erfindungsgemäßen Verfahren zur Sprachdetektion durch den Signal­prozessor herangezogen werden. Wird Sprache erkannt, so kann das Mikrofon­signal um einen festgelegten Betrag auf Veranlassung des Signalprozessors SP durch den Regelverstärker RV1 verstärkt werden.
  • Eine derartige Anordnung ist beispielsweise für Mikrofone geeignet, welche sich in einem Raum mit einem großen Störgeräuschen befinden. Durch die Verstärkung der Sprachsignale wird auf diese Weise eine bessere Verständlichkeit erzielt.
  • Bei dem in Fig. 2 gezeigten Anwendungsbeispiel ist eine Freisprechein­richtung vorhanden, wobei bei dieser bei Vorhandensein eines Sprachsignals im Signal des Mikrofons M der Regelverstärker RV2 durch den Signalpro­zessor SP veranlaßt wird, das Signal für den Lautsprecher LS entsprechend zu dämpfen, um auf diese Weise eine akustische Rückkopplung zwischen Laut­sprecher LS und Mikrofon M zu verhindern. Umgekehrt könnte auch bei Vor­liegen von Sprachsignalen für den Lautsprecher LS der Regelverstärker RV2 auf Veranlassung des Signalprozessors SP derart beeinflußt werden, daß diese das Eingangssignal höher verstärkt, um auf diese Weise eine bessere Verständlichkeit des Lautsprechersignals LS zu erreichen.
  • Der Signalprozessor erhält an seinen Eingängen SE und EE Datenworte, welche die Abtastwerte der Signale darstellen. Ebenso werden an den Ausgängen SA und EA des Signalprozessors SP Datenworte an die ange­schlossenen Leitungen angelegt. Zur Vermeidung der Unterdrückung von An­fangssilben können die Eingangssignale mit Hilfe des Signalprozessors SP um eine Zeit verzögert werden, welche im Bereich der Erkennungszeit (5-­37ms) liegen. Ebenso kann durch den Signalprozessor SP eine Abfallzeit für die die Regelverstärker RV beinflussenden Steuersignale erzeugt werden, die in einer Größenordnung von 200 bis 900 ms liegt und zur Überbrückung von stimmlosen Lauten und kurzen Sprachpausen zwischen Wörtern und Sätzen dient. Die Funktion der Tiefpaßfilterung mit einer Grenzfrequenz von 400 Hz kann ebenfalls durch den Signalprozessor SP vorgenommen werden.
  • Eine andere Anwendung des erfindungsgemäßen Verfahrens ist auch im Rahmen einer Gegensprechanlage denkbar, wobei in Abhängigkeit von Sprachsignalen in der einen Richtung die andere Richtung auf Veranlassung des Signalpro­zessors entsprechend gedämpft wird.
  • Auf den Aufbau eines Signalprozessors wird im Rahmen dieser Beschreibung nicht weiter eingegangen, derartige Signalprozessoren werden jedoch bei­spielsweise von der Firma Texas Instruments unter der Bezeichnung TMS 320 oder von der Firma Fujitsu unter der Bezeichnung MB 8764 vertrieben. Ein solchen Signalprozessor ist derart zu programmieren, daß die be­schriebenen Verfahrensschritte selbstätig ablaufen. Zur Umsetzung der analogen Signale in digitale Signale zur Signalverarbeitung in dem Signal­prozessor SP dienen die Analog/Digital-Wandler W1 und W4, während die Um­setzung der an den Ausgängen SA und EA auftretenden digitalen Signale in analoge Signale durch die Digital/Analog-Wandler W2 und W3 erfolgt.
  • Im Gegensatz zu dem in Fig. 2 gezeigten Blockschaltbild kann auch auf die Regelverstärker RV1 und RV2 verzichtet werden, wenn die Funktion der Verstärkung der Signale durch den Signalprozessor SP selbst übernommen wird, der auch als geeigneter Mikroprozessor ausgebildet sein kann. Ebenso ist die Durchführung des erfindungsgemäßen Verfahrens durch eine entsprechen­de diskret aufgebaute analoge Schaltungsanordnung oder auch einen ent­sprechend ausgebildeten Kundenschaltkreis denkbar.

Claims (20)

1. Verfahren zur Erkennung von Sprachsignalen, wobei diese zunächst einem Tiefpaß zugeführt werden, dessen Durchlaßbereich im Be­reich der Sprachgrundfrequenz liegt,
dadurch gekennzeichnet,
daß die am Ausgang des Tiefpaßfilters auftretenden Signale auf Amplitude und Dauer einer bestimmten Amplitude überprüft werden und daß dann ein Sprachsignal erkannt wird, wenn mindestens drei aufeinanderfolgende Amplituden im Bereich der Sprachgrundfre­quenz aufgetreten sind.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß das Tiefpaßfilter eine obere Grenzfrequenz von höchstens 400 Hz aufweist.
3. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß die Dauer der Überprüfung einer Amplitude über ein Zeitfenster (ZF) erfolgt, dessen Länge kleiner ist, als die Hälfte der kürzesten Periode der Sprachgrundfrequenz.
4. Verfahren nach einem der Ansprüche 1 bis 3,
dadurch gekennzeichnet,
daß sowohl positive als auch negative Amplituden überprüft werden.
5. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß die Überprüfung der folgenden Amplituden über ein Amplituden­fenster (AF) erfolgt, dessen Amplitudenbereich in Abhängigkeit von dem ersten erkannten Amplitudenhöchstwert festgelegt wird.
6. Verfahren nach Anspruch 5,
dadurch gekennzeichnet,
daß das Amplitudenfenster einen Amplitudenbereich von + 20 bis -20 % des Amplitudenhöchstwertes aufweist.
7. Verfahren nach einem der Ansprüche 1 oder 5,
dadurch gekennzeichnet,
daß der Zeitraum zwischen dem ersten erkannten Amplitudenhöchstwert und dem folgenden im Amplitudenfenster (AF) liegenden Amplitude innerhalb eines vorgegebenen Zeitrahmens gemessen wird.
8. Verfahren nach Anspruch 7,
dadurch gekennzeichnet,
daß der Zeitrahmen (PF) zwischen 3 und 12,5 ms liegt.
9. Verfahren nach Anspruch 7,
dadurch gekennzeichnet,
daß der dritte Amplitudenhöchstwert (A3) in einem Zeitfenster ( F) liegen muß, dessen Lage durch den Abstand zwischen dem ersten (A1) und dem zweiten (A2) Amplitudenhöchstwert bestimmt wird und innerhalb einer Toleranz von ± 7,5 % desselben liegt.
10. Verfahren nach einem der Ansprüche 1 bis 9,
dadurch gekennzeichnet,
daß die erste Periode und die zweite Periode bzw. die erste Periode und die dritte Periode zur Bestimmung der Kreuz-Korre­lationsgrade benutzt wird.
11. Verfahren nach einem der Ansprüche 1 bis 10,
dadurch gekennzeichnet,
daß aus den gemessenen Zeiträumen der ersten und der zweiten bzw. der ersten und der dritten Periode der normierte mittlere quadratische Fehler ermittelt wird.
12. Verfahren nach einem der Ansprüche 10 oder 11,
dadurch gekennzeichnet,
daß die ermittelten Werte mit Hilfe einer wählbaren Schwelle über­prüft werden und daß bei Überschreiten der Schwelle durch einen er­mittelten Wert ein Sprachsignal erkannt wird.
13. Verfahren nach einem der Ansprüche 1 bis 12,
dadurch gekennzeichnet,
daß das analoge Sprachsignal einem Analog/Digital-Wandler zugeführt wird.
14. Verfahren nach einem der Ansprüche 1 bis 13,
dadurch gekennzeichnet,
daß das digitalisierte Sprachsignal einem Signalprozessor (SP) zugeführt wird, welcher ein, das Vorliegen eines Sprachsignals kennzeichnendes Ausgangssignal liefert.
15. Verfahren für eine Mikrofonverstärkerschaltung mit einem Regelver­stärker nach einem der Ansprüche 1 bis 14 ,
dadurch gekennzeichnet,
daß bei Vorliegen eines Sprachsignals das Eingangssignal des Regel­verstärkers (RV) auf Veranlassung des Signalprozessors um einen vor­gegebenen Wert verstärkt wird.
16. Verfahren für eine Freisprecheinrichtung mit je einem Regelverstärker, für das Mikrofon- und das Lautsprechersignal nach einem der Ansprüche 1 bis 15,
dadurch gekennzeichnet,
daß bei Vorliegen eines Sprachsignals des Mikrofons (M) das Lautsprecher­signal um einen vorgegebenen Wert durch den zugeordneten Regelverstärker (RV2) auf Veranlassung des Signalprozessors (SP) gedämpft wird.
17.Verfahren nach einem der Ansprüche 14 bis 16,
dadurch gekennzeichnet,
daß durch den Signalprozessor (SP) das Mikrofonsignal um den Betrag der Erkennungszeit von Sprachsignalen verzögert wird.
18.Verfahren für eine Gegensprecheinrichtung mit je einem in jeder der beiden Richtungen liegenden Regelverstärker nach einem der Ansprüche 1 bis 17,
dadurch gekennzeichnet,
daß durch den Signalprozessor (SP) bei Vorliegen eines Sprach­signals der betreffende Regelverstärker aufgesteuert und der andere Regelverstärker gedämpft wird.
19. Verfahren nach einem der Ansprüche 1 bis 18,
dadurch gekennzeichnet,
daß das Steuersignal für den bzw. die Regelverstärker nach Aus­bleiben eines Sprachsignals für eine bestimmte Zeit aufrechterhalten wird.
20. Verfahren nach einem der Ansprüche 1 bis 19,
dadurch gekennzeichnet,
daß die Funktion der Regelverstärker (Rv1, Rv2) durch den Signal­prozessor (SP) übernommen wird.
EP19890102876 1988-03-25 1989-02-20 Verfahren zur Erkennung von Sprachsignalen Withdrawn EP0334023A3 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19883810068 DE3810068A1 (de) 1988-03-25 1988-03-25 Verfahren zur erkennung von sprachsignalen
DE3810068 1988-03-25

Publications (2)

Publication Number Publication Date
EP0334023A2 true EP0334023A2 (de) 1989-09-27
EP0334023A3 EP0334023A3 (de) 1991-02-06

Family

ID=6350648

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19890102876 Withdrawn EP0334023A3 (de) 1988-03-25 1989-02-20 Verfahren zur Erkennung von Sprachsignalen

Country Status (2)

Country Link
EP (1) EP0334023A3 (de)
DE (1) DE3810068A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992013340A1 (en) * 1991-01-18 1992-08-06 Theis Peter F System for distinguishing or counting spoken itemized expressions
WO1997000515A1 (en) * 1995-06-19 1997-01-03 Fjaellbrandt Tore Method and arrangement for determining a pitch frequency in an acoustic signal
WO2000070602A1 (en) * 1999-05-18 2000-11-23 Voxlab Oy Method of evaluating the rhythmicity of a digital signal composed of samples

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822726A (en) * 1995-01-31 1998-10-13 Motorola, Inc. Speech presence detector based on sparse time-random signal samples
DE10321625B4 (de) * 2003-05-13 2007-08-23 Gehrke Kommunikationssyteme Gmbh Signalübertragungsvorrichtung und Verfahren zum Regeln einer Signalübertragungsvorrichtung

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3751602A (en) * 1971-08-13 1973-08-07 Bell Telephone Labor Inc Loudspeaking telephone
FR2380612A1 (fr) * 1977-02-09 1978-09-08 Thomson Csf Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif
EP0120325A1 (de) * 1983-03-01 1984-10-03 Alcatel N.V. Schaltungsanordnung für einen Freisprechapparat

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3513260A (en) * 1967-10-13 1970-05-19 Ibm Speech presence detector
US4484344A (en) * 1982-03-01 1984-11-20 Rockwell International Corporation Voice operated switch

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3751602A (en) * 1971-08-13 1973-08-07 Bell Telephone Labor Inc Loudspeaking telephone
FR2380612A1 (fr) * 1977-02-09 1978-09-08 Thomson Csf Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif
EP0120325A1 (de) * 1983-03-01 1984-10-03 Alcatel N.V. Schaltungsanordnung für einen Freisprechapparat

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ELECTRONICS LETTERS, Band 14, Nr. 4, 16. Febrar 1978, Seiten 109-110, Hitchin, GB; N.R. MALIK et al.: "Adaptive instantaneous pitch detector with microcomputer error correction" *
ELEKTRONIK, Band 36, Nr. 22, 30. Oktober 1987, Seiten 87-90, M}nchen, DE; C. DESAI: "Frei sprechen ohne R}ckkopplung" *
IEEE TRANSACTIONS ON CONSUMER ELECTRONICS, Band 34, Nr. 3, August 1988, Seiten 824-833, New York, US; M. GOTO et al.: "Microprocessor based English speech training system" *
N.T.I.S. TECHN. NOTES, Juni 1988, Seite 450, Springfield, US; "Pitch-learning algorithm for speech encoders" *
THE JOURNAL OF ACOUSTICAL SOCIETY OF AMERICA, Band 46, Nr. 2, Teil 2, 1969, Seiten 442-448, New York, US; B. GOLD et al.: "Parallel processing techniques for estimating pitch periods of speech in the time domain" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992013340A1 (en) * 1991-01-18 1992-08-06 Theis Peter F System for distinguishing or counting spoken itemized expressions
WO1997000515A1 (en) * 1995-06-19 1997-01-03 Fjaellbrandt Tore Method and arrangement for determining a pitch frequency in an acoustic signal
WO2000070602A1 (en) * 1999-05-18 2000-11-23 Voxlab Oy Method of evaluating the rhythmicity of a digital signal composed of samples

Also Published As

Publication number Publication date
DE3810068C2 (de) 1990-01-11
DE3810068A1 (de) 1989-10-05
EP0334023A3 (de) 1991-02-06

Similar Documents

Publication Publication Date Title
DE2719973C2 (de)
DE69331181T2 (de) Tonverstärkervorrichtung mit automatischer Unterdrückung akustischer Rückkopplung
DE3802903C2 (de)
DE69917361T2 (de) Vorrichtung zur Sprachdetektion bei Umgebungsgeräuschen
DE2518320A1 (de) Verfahren und detektorschaltung zum feststellen einer signalaktivitaet im tonfrequenzbereich bei einer fernsprechverbindungsleitung
DE69915711T2 (de) Verfahren und signalprozessor zur verstärkung von sprachsignal-komponenten in einem hörhilfegerät
DE3235279C2 (de) Spracherkennungseinrichtung
DE1248225B (de) Verfahren und Vorrichtung zum genauen Ermitteln der Herzschlagfrequenz
DE69529223T2 (de) Testverfahren
DE3525472A1 (de) Anordnung zum detektieren impulsartiger stoerungen und anordnung zum unterdruecken impulsartiger stoerungen mit einer anordnung zum detektieren impulsartiger stoerungen
CH691787A5 (de) Klirrunterdruckung bei Hörgeräten mit AGC.
EP1101390B1 (de) Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe
EP0334023A2 (de) Verfahren zur Erkennung von Sprachsignalen
DE3733983A1 (de) Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen
DE3102385A1 (de) Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern
DE3101483A1 (de) Datenerkennungsdetektor bei einer zeitabhaengigen sprechinterpoliereinrichtung
DE2302360A1 (de) Einrichtung mit einer sende- und einer empfangsstation zum erzeugen, umformen und uebertragen von signalen
DE3734446C2 (de)
DE3779708T2 (de) Schaltungsanordnung zur isolationsgewaehrung zwischen den uebertragungswegen eines freisprechapparates.
DE69608822T2 (de) Hörgerät mit verbessertem perzentilgenerator
DE69208602T2 (de) Ein den Frequenzhub begrenzender Übertragungsschaltkreis
EP1458216A2 (de) Vorrichtung und Verfahren zur Adaption von Hörgerätemikrofonen
CH654962A5 (de) Zentrale schaltungseinrichtung zur sprecherkennung fuer ein tasi-system.
DE19854341A1 (de) Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
DE2752657C2 (de)

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH DE ES FR GB IT LI LU NL SE

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: TELENORMA GMBH

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): AT BE CH DE ES FR GB IT LI LU NL SE

17P Request for examination filed

Effective date: 19910306

17Q First examination report despatched

Effective date: 19921221

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Withdrawal date: 19930408