EP0111947A1 - Arrangement for the detection of silence in speech signals - Google Patents

Arrangement for the detection of silence in speech signals Download PDF

Info

Publication number
EP0111947A1
EP0111947A1 EP83201642A EP83201642A EP0111947A1 EP 0111947 A1 EP0111947 A1 EP 0111947A1 EP 83201642 A EP83201642 A EP 83201642A EP 83201642 A EP83201642 A EP 83201642A EP 0111947 A1 EP0111947 A1 EP 0111947A1
Authority
EP
European Patent Office
Prior art keywords
short
term
term mean
value
estimated value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP83201642A
Other languages
German (de)
French (fr)
Inventor
Bernd Dipl.-Ing. Selbach
Peter Dr. Ing. Vary
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Kommunikations Industrie AG
Koninklijke Philips NV
Original Assignee
Philips Kommunikations Industrie AG
Philips Gloeilampenfabrieken NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Kommunikations Industrie AG, Philips Gloeilampenfabrieken NV, Koninklijke Philips Electronics NV filed Critical Philips Kommunikations Industrie AG
Publication of EP0111947A1 publication Critical patent/EP0111947A1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • the invention relates to an arrangement for recognizing speech pauses from the short-term spectrum of a speech signal, which can be superimposed by interference signals.
  • Such an arrangement is e.g. the prerequisite for the suppression of interference signals when making calls from an acoustically disturbed environment.
  • characteristic parameters of the interference signal are measured and used to filter out the interference as completely as possible from the signal to be transmitted using adaptive filters.
  • this speech pause detection does not take into account the fact that unvoiced sounds, for example, lead to a drop in performance in the speech signal and the relevant speech sections are therefore incorrectly regarded as speech pauses. Such wrong decisions occur in the known arrangement The more often the speech signal is overlaid with interference signals.
  • the arrangement is also intended to enable speech pause recognition even if the average noise level changes slowly.
  • the arrangement according to the invention can be used particularly advantageously if - cf. the application example mentioned at the beginning - an arrangement is used for noise suppression, which is based on a short-term Fourier analysis of the disturbed speech signal.
  • the filter bank mentioned in the arrangement according to the invention then need not be provided separately.
  • the disturbed voice signal is applied to an input terminal E.
  • An analog-to-digital converter A / D generates a sequence of digitized samples from the analog input signal.
  • the Samples are applied to a filter bank FB through which at times T (n) a - referred to in the following central clock - clock, a set W (n) of M Fourier coefficients y L (n), Y2 (n) ... YM (n) of the short-term spectrum is determined.
  • an averager MB determines a short-term average value G (n), which is approximately one It represents a measure of the average power of the disturbed speech signal, the averaging time being of the order of 100 ms. The exact averaging process is discussed below.
  • a unit GL smoothes the sequence of the short-term mean values G (n), so that in the event of the final decision to take a break from speech, brief power drops in the speech signal caused by unvoiced sounds are not misinterpreted as pauses.
  • a unit PA in FIG. 1 determines an estimated value P (n) of the noise power, i.e.
  • a comparator V emits a signal to a unit EN.
  • the unit EN has a signal 25 times in succession received by the comparator V, the presence of a speech pause is indicated by its output signal at a terminal A.
  • the filter bank FB determines, for example, a set W (n) of M " 30 Fourier coefficients of the short-term spectrum every 4 ms, that is, among other things, the period of the central clock is 4 ms.
  • the determination of the short-term mean value G (n) at the clock instants T (n ) represents both an averaging over all Fourier coefficients Y1 (n) ... YM (n) at a fixed point in time T (n) as well as an averaging over the coefficients at different clock instants.
  • an auxiliary quantity H (n) which is obtained by averaging only those Fourier coefficients that are determined at time T (n), ie or depending on whether you want to use the arithmetic mean of the amounts or the amount squares. Since the amount of components is less when using the amounts, the first option for the auxiliary variable H (n) will generally be preferred.
  • the short-term mean value G (n) is now obtained according to the invention by averaging over the size H at different times:
  • the number N of the points in time taken into account is 25.
  • Recursive averaging is less expensive because the number of components required is reduced according to which the short-term mean value G (n) at the cycle time ⁇ (n) results as a linear combination of the short-term average value G (n-1) at the cycle time T (n-1) and the auxiliary variable H (n).
  • a typical value of constant 6 is 0.1.
  • GG (n) a smoothed short-term mean value GG (n) and an estimated value P (n) for the average noise power.
  • the smoothed value GG (n) can be obtained, for example, with the aid of a linear digital filter, in which the weighted average of three successive short-term mean values G (n), G (n-1) and G (n-2) is obtained as the output variable GG (n) ) results.
  • the weights (filter coefficients) 1/4, 1/2 and 1/4 have proven to be favorable.
  • Another option is median filtering. For example, five successive values G (n) ... G (n-4) are arranged in size and then the third value is read out as the output value GG (n) of the filter.
  • the continuous determination of the estimated value P (n) can also be carried out in two ways. Either a longer speech pause is first determined and then the value of P (n) is updated with a short-term mean value G (n) that falls within this speech pause. Due to the constant updating of the estimated value P (n), the speech pause recognition is still possible in the arrangement according to the invention even if the noise level changes slowly.
  • a longer pause is recognized by the fact that the inequality K times in succession.
  • the difference between two successive short-term mean values G (n) and G (n-1) must fall K times under a barrier D.
  • the barrier D is selected proportional to the short-term mean value G (n) in order to arrive at the same statements if, for example, the level of all signals would be doubled.
  • G (n) is the thirtieth value for which the above inequality is satisfied
  • the estimated value P (n) is renewed according to the equation that is, the new estimated value P (n) is a linear combination of the old estimated value P (n-1) and the last determined short-term mean value G (n) falling into a longer pause.
  • Another way of obtaining the best possible estimate P (n) for a slowly changing noise output is to increase the already existing estimate P (n-1) by a fixed amount c at each clock instant z (n), if the estimate P (n-1) is smaller than the short-term mean G (n). So every time the inequality P (n-1) ⁇ G (n) is satisfied set.
  • the threshold S which is used for the pause decision, is larger than the estimated value P (n).
  • the relationship S 1.15P (n) is typical of the relationship between the threshold S and the estimated value P (n) if the amounts of the Fourier coefficients are used to determine the short-term mean values.
  • the relationship S 1.3P (n) is typical.
  • Diagram a) of FIG. 2 shows an example of the sequence of the smoothed (and standardized to one) short-term mean values GG (1), GG (2) ... of an undisturbed speech signal.
  • the sequence of the GG (n) is plotted against time.
  • the time interval under consideration is approximately 5 seconds long.
  • the location of the speech pauses can be recognized from the fact that the quantities GG (n) assume the value 0 there.
  • Diagram b) shows the sequence of GG (n) that was obtained from a disturbed speech signal.
  • the speech signals on which diagrams a) and b) are based are identical.
  • the dotted curve in diagram b) is the result of the estimated values P (n), which was determined using the second of the options shown above.
  • the result of the speech pause determination is shown in diagram c).
  • the presence of a pause in speech is shown in this diagram by the fact that the ordinate assumes the value 1 during the speech pause and 0 outside the speech pause.

Abstract

Die beschriebene Anordnung zur Erkennung von Pausen in einem Sprachsignal ermöglicht die Pausenerkennung auch dann, wenn dem Sprachsignal ein langsam veränderliches Störsignal überlagert ist. Zur Pausenerkennung werden aus Kurzzeit-Fourier-Koeffizienten des gestörten Sprachsignales Mittelwerte bestimmt, die ein ungefähres Maß für die mittlere Leistung von etwa 100ms langen Abschnitten des gestörten Sprachsignales sind. Die Folge dieser Kurzzeitmittelwerte wird dann durch lineare Filterung oder durch ein Medianfilter geglättet. Parallel zum Glättungsvorgang wird aus der Folge der Kurzzeitmittelwerte ein Schätzwert für die über einige Sekunden gemittelte Leistung des Störsignales gewonnen. Ist der geglättete Kurzzeitmittelwert mehrmals kleiner als eine zum erwähnten Schätzwert proportionale Schwelle, so wird auf Sprachpause entschieden.The described arrangement for recognizing pauses in a speech signal enables pause detection even when a slowly changing interference signal is superimposed on the speech signal. For pause detection, mean values are determined from short-term Fourier coefficients of the disturbed speech signal, which are an approximate measure for the average power of approximately 100 ms long sections of the disturbed speech signal. The sequence of these short-term mean values is then smoothed by linear filtering or by a median filter. In parallel to the smoothing process, an estimate of the noise signal power averaged over a few seconds is obtained from the sequence of the short-term mean values. If the smoothed short-term mean value is several times smaller than a threshold proportional to the mentioned estimated value, a decision is made to pause the speech.

Description

Die Erfindung betrifft eine Anordnung zur Erkennung von Sprachpausen aus dem Kurzzeitspektrum eines Sprachsignales, das von Störsignalen überlagert sein kann.The invention relates to an arrangement for recognizing speech pauses from the short-term spectrum of a speech signal, which can be superimposed by interference signals.

Eine derartige Anordnung ist z.B. die Voraussetzung für die Unterdrückung von Störsignalen beim Telefonieren aus einer akustisch gestörten Umgebung. Während der Sprachpausen werden charakteristische Parameter des Störsignales gemessen und dazu verwendet, die Störungen vor der Übertragung möglichst vollständig aus dem zu übertragenden Signal mit adaptiven Filtern herauszufiltern.Such an arrangement is e.g. the prerequisite for the suppression of interference signals when making calls from an acoustically disturbed environment. During the pauses in speech, characteristic parameters of the interference signal are measured and used to filter out the interference as completely as possible from the signal to be transmitted using adaptive filters.

Aus der DE-AS 24 55 447, Spalte 10 ist eine Anordnung in analoger Technik zur Erkennung von Sprachpausen bekannt, der folgende IrJirkungsvreise zugrunde liegt: Das Sprachsignal wird in gleich lange Abschnitte zerlegt und für jeden Abschnitt wird durch Gleichrichtung und Mittelwertbildung ein Spannungswert gewonnen, der zur mittleren Lautstärke des Abschnittes proportional ist. Schließlich wird durch Mittelwertbildung über mehrere Sprachabschnitte ein weiterer Spannungswert bestimmt, der zur mittleren Gesprächslautstärke proportional ist. Durch einen Vergleich der beiden Mittelwerte wird entschieden, ob ein Abschnitt einer Sprachpause angehört oder nicht.From DE-AS 24 55 447, column 10, an arrangement in analog technology for recognizing speech pauses is known, which is based on the following effects: the speech signal is broken down into sections of equal length and a voltage value is obtained for each section by rectification and averaging, which is proportional to the average volume of the section. Finally, by averaging over several speech sections, a further voltage value is determined that is proportional to the average volume of the conversation. By comparing the two mean values, it is decided whether a section belongs to a speech pause or not.

Bei dieser Sprachpausenerkennung ist unter anderem nicht berücksichtigt, daß z.B. stimmlose Laute zu einem Leistungseinbruch im Sprachsignal führen und die betreffenden Sprachabschnitte deshalb fälschlicherweise als Sprachpausen angesehen werden. Derartige Fehlentscheidungen treten bei der bekannten Anordnung um so häufiger auf, je stärker das Sprachsignal von Störsignalen überlagert ist.Among other things, this speech pause detection does not take into account the fact that unvoiced sounds, for example, lead to a drop in performance in the speech signal and the relevant speech sections are therefore incorrectly regarded as speech pauses. Such wrong decisions occur in the known arrangement The more often the speech signal is overlaid with interference signals.

Es ist deshalb Aufgabe der Erfindungeine Anordnung der eingangs genannten Art anzugeben, bei der Fehlentscheidungen im oben erläuterten Sinne vermieden werden. Die Anordnung soll darüberhinaus eine Sprachpausenerkennung auch dann ermöglichen, wenn sich die mittlere Geräuschleistung langsam verändert.It is therefore an object of the invention to provide an arrangement of the type mentioned at the beginning, in which incorrect decisions in the sense explained above are avoided. The arrangement is also intended to enable speech pause recognition even if the average noise level changes slowly.

Diese Aufgabe wird durch die im Kennzeichen des Anspruches 1 angegebenen Merkmale gelöst. Die erfindungsgemäße Anordnung ist dann besonders vorteilhaft anzuwenden, wenn - vgl. das eingangs erwähnte Anwendungsbeispiel - zur Geräuschunterdrückung eine Anordnung eingesetzt wird, die auf einer Kurzzeit-Fourier-Analyse des gestörten Sprachsignales basiert. Die in der erfindungsgemäßen Anordnung erwähnte Filterbank braucht dann nicht gesondert vorgesehen zu werden.This object is achieved by the features specified in the characterizing part of claim 1. The arrangement according to the invention can be used particularly advantageously if - cf. the application example mentioned at the beginning - an arrangement is used for noise suppression, which is based on a short-term Fourier analysis of the disturbed speech signal. The filter bank mentioned in the arrangement according to the invention then need not be provided separately.

Vorteilhafte Ausgestaltungen der Erfindung geben die Unteransprüche an.Advantageous refinements of the invention specify the subclaims.

Anhand der Figuren soll die Erfindung näher erläutert werden.The invention will be explained in more detail with reference to the figures.

Es zeigt:

  • Fig.1 ein Blockschaltbild der erfindungsgemäßen Anordnung,
  • Fig.2 Diagramme zur Erläuterung der UirkunosMeise der erfindunosoemäßen Anordnung.
It shows:
  • 1 shows a block diagram of the arrangement according to the invention,
  • 2 shows diagrams to explain the Uirkunos M else the erfindunosoemäßen arrangement.

Im Blockschaltbild nach Fig.1 wird das gestörte Sprachsignal an einer Eingangsklemme E angelegt. Ein Analog-Digital-Umsetzer A/D erzeugt aus dem analogen Eingangssignal eine Folge von digitalisierten Abtastwerten. Die Abtastwerte werden einer Filterbank FB zugeführt, durch die zu Zeitpunkten T (n) eines - im folgenden Zentraltakt genannten - Taktes ein Satz W(n) von M Fourier-Koeffizienten Yl(n), Y2(n)...YM(n) des Kurzzeitspektrums bestimmt wird.In the block diagram of Figure 1, the disturbed voice signal is applied to an input terminal E. An analog-to-digital converter A / D generates a sequence of digitized samples from the analog input signal. The Samples are applied to a filter bank FB through which at times T (n) a - referred to in the following central clock - clock, a set W (n) of M Fourier coefficients y L (n), Y2 (n) ... YM (n) of the short-term spectrum is determined.

Von der erfindungsgemäßen.ßnordnung werden nur Fourier-Koeffizienten bestimmt, deren zugehörige Frequenzen im Frequenzbereich zwischen 0 Hz und etwa 3000 Hz liegen, da dieser Bereich der Bereich größter spektraler Energiedichte der Sprache ist. Dadurch wird die Sprachpausenerkennung verbessert, wenn das Spektrum des Störsignales einen größeren Frequenzbereich überdeckt.Only Fourier coefficients are determined by the inventive arrangement whose associated frequencies are in the frequency range between 0 Hz and approximately 3000 Hz, since this range is the range of the greatest spectral energy density of speech. This improves speech pause detection when the spectrum of the interference signal covers a larger frequency range.

Aus dem Satz W(n) der Fourier-Koeffizienten Y1(n), Y2(n)... YM(n) und aus den vorangegangenen Sätzen von Fourier-Koeffizienten bestimmt ein Mittelwertbildner MB einen Kurzzeitmittelwert G(n), der näherungsweise ein Maß für die mittlere Leistung des gestörten Sprachsignales darstellt, wobei die Mittelungszeit in der Größenordnung von 100ms liegt. Auf den genauen Mittelungsvorgang wird weiter unten eingegangen. Eine Einheit GL glättet die Folge der Kurzzeitmittelwerte G(n), damit bei der endgültigen Entscheidung auf Sprachpause kurzzeitige, durch stimmlose Laute verursachte Leistungseinbrüche im Sprachsignal nicht als Pausen mißdeutet werden. Eine Einheit PA in Fig.1 bestimmt einen Schätzwert P(n) der Geräuschleistung, d.h., der Leistung des Störsignales, sowie eine davon abhängige erste Schwelle S, auf deren Bestimmung ebenfalls weiter unten eingegangen wird. Liegt die Folge GG(n) der geglätteten Kurzzeitmittelwerte unter der Schwelle S, so gibt ein Vergleicher V ein Signal an eine Einheit EN ab.From the set W (n) of the Fourier coefficients Y1 (n), Y2 (n) ... YM (n) and from the previous sets of Fourier coefficients, an averager MB determines a short-term average value G (n), which is approximately one It represents a measure of the average power of the disturbed speech signal, the averaging time being of the order of 100 ms. The exact averaging process is discussed below. A unit GL smoothes the sequence of the short-term mean values G (n), so that in the event of the final decision to take a break from speech, brief power drops in the speech signal caused by unvoiced sounds are not misinterpreted as pauses. A unit PA in FIG. 1 determines an estimated value P (n) of the noise power, i.e. the power of the interference signal, and a dependent first threshold S, the determination of which is also discussed below. If the sequence GG (n) of the smoothed short-term mean values lies below the threshold S, a comparator V emits a signal to a unit EN.

Hat die Einheit EN z.B. 25 Mal nacheinander ein Signal vom Vergleicher V erhalten, so wird durch ihr Ausgangssignal an einer Klemme A das Vorliegen einer Sprachpause angezeigt.For example, the unit EN has a signal 25 times in succession received by the comparator V, the presence of a speech pause is indicated by its output signal at a terminal A.

Die Filterbank FB bestimmt z.B. alle 4 ms einen Satz W(n) von M " 30 Fourier-Koeffizienten des Kurzzeitspektrums, d.h. unter anderem, die Periodendauer des Zentraltaktes beträgt 4 ms. Die Bestimmung des Kurzzeitmittelwertes G(n) zu den Taktzeitpunkten T (n) stellt sowohl eine Mittelung über alle Fourier-Koeffizienten Y1(n) ... YM(n) zu einem festen Zeitpunkt T(n) als auch eine Mittelung über die Koeffizienten zu verschiedenen Taktzeitpunkten dar. Zur formelhaften Beschreibung des Mittelungsvorganges werde eine Hilfsgröße H(n) eingeführt, die sich durch Mittelung nur derjenigen Fourier-Koeffizienten ergibt, die zum Zeitpunkt T(n) bestimmt werden, d.h.,

Figure imgb0001
oder
Figure imgb0002
je nachdem, ob man das arithmetische Mittel der Beträge oder der Betragsquadrate verwenden will. Da der Bauteileaufwand bei der Verwendung der Beträge geringer ist, wird man im allgemeinen die erste Möglichkeit für die Hilfsgröße H(n) vorziehen.The filter bank FB determines, for example, a set W (n) of M " 30 Fourier coefficients of the short-term spectrum every 4 ms, that is, among other things, the period of the central clock is 4 ms. The determination of the short-term mean value G (n) at the clock instants T (n ) represents both an averaging over all Fourier coefficients Y1 (n) ... YM (n) at a fixed point in time T (n) as well as an averaging over the coefficients at different clock instants. For the formulaic description of the averaging process, an auxiliary quantity H (n), which is obtained by averaging only those Fourier coefficients that are determined at time T (n), ie
Figure imgb0001
or
Figure imgb0002
depending on whether you want to use the arithmetic mean of the amounts or the amount squares. Since the amount of components is less when using the amounts, the first option for the auxiliary variable H (n) will generally be preferred.

Der Kurzzeitmittelwert G(n) ergibt sich erfindungsgemäß nun durch Mittelung über die Größe H zu verschiedenen Zeitpunkten:

Figure imgb0003
The short-term mean value G (n) is now obtained according to the invention by averaging over the size H at different times:
Figure imgb0003

Die Zahl N der berücksichtigten Zeitpunkte liegt bei 25.The number N of the points in time taken into account is 25.

Günstiger, da zur Realisierung der Bauteileaufwand geringer wird, ist die rekursive Mittelung

Figure imgb0004
nach der sich der Kurzzeitmittelwert G(n) zum Taktzeitpunkt τ(n) als Linearkombination des Kurzzeitmittelwertes G(n-1) zum Taktzeitpunkt T (n-1) und der Hilfsgröße H(n) ergibt. Ein typischer Wert der Konstante 6 ist 0,1.Recursive averaging is less expensive because the number of components required is reduced
Figure imgb0004
according to which the short-term mean value G (n) at the cycle time τ (n) results as a linear combination of the short-term average value G (n-1) at the cycle time T (n-1) and the auxiliary variable H (n). A typical value of constant 6 is 0.1.

Aus der Folge der Kurzzeitmittelwerte G(n) werden erfindungsgemäß nun zu jedem Taktzeitpunkt T(n) zwei weitere Größen ermittelt, nämlich ein geglätteter Kurzzeitmittelwert GG(n) und ein Schätzwert P(n) für die mittlere Geräuschleistung. Der geglättete Wert GG(n) läßt sich z.B. mit Hilfe eines linearen Digitalfilters gewinnen, bei dem sich als Ausgangsgröße GG(n) das gewichtete Mittel von drei aufeinanderfolgenden Kurzzeitmittelwerten G(n), G(n-1) und G(n-2) ergibt. Die Gewichte (Filter-Koeffizienten) 1/4, 1/2 und 1/4 haben sich dabei als günstig erwiesen.From the sequence of the short-term mean values G (n), according to the invention, two further variables are now determined at every cycle time T (n), namely a smoothed short-term mean value GG (n) and an estimated value P (n) for the average noise power. The smoothed value GG (n) can be obtained, for example, with the aid of a linear digital filter, in which the weighted average of three successive short-term mean values G (n), G (n-1) and G (n-2) is obtained as the output variable GG (n) ) results. The weights (filter coefficients) 1/4, 1/2 and 1/4 have proven to be favorable.

Eine andere Möglichkeit ist die Medianfilterung. Bei ihr werden z.B. fünf aufeinanderfolgende Werte G(n)... G(n-4) der Größe nach angeordnet und dann der dritte Wert als Ausgangswert GG(n) des Filters ausgelesen.Another option is median filtering. For example, five successive values G (n) ... G (n-4) are arranged in size and then the third value is read out as the output value GG (n) of the filter.

Die fortlaufende Bestimmung des Schätzwertes P(n) kann ebenfalls auf zwei Arten erfolgen. Entweder wird zunächst eine längere Sprachpause ermittelt und dann mit einem Kurzzeitmittelwert G(n), der in diese Sprachpause fällt, der Wert von P(n) aktualisiert. Durch die ständige Aktualisierung des Schätzwertes P(n) ist bei der erfindungsgemäßen Anordnung die Sprachpausenerkennung auch dann noch möglich, wenn sich der Geräuschpegel langsam verändert.The continuous determination of the estimated value P (n) can also be carried out in two ways. Either a longer speech pause is first determined and then the value of P (n) is updated with a short-term mean value G (n) that falls within this speech pause. Due to the constant updating of the estimated value P (n), the speech pause recognition is still possible in the arrangement according to the invention even if the noise level changes slowly.

Eine längere Pause wird dadurch erkannt, daß die Ungleichung

Figure imgb0005
K Mal nacheinander erfüllt ist. Die Differenz zweier aufeinanderfolgender Kurzzeitmittelwerte G(n) und G(n-1) muß also K Mal unter eine Schranke D fallen. Die Schranke D wird proportional zum Kurzzeitmittelwert G(n) gewählt, um zu gleichen Aussagen zu gelangen, wenn z.B. die Pegel aller Signale verdoppelt würden.A longer pause is recognized by the fact that the inequality
Figure imgb0005
K times in succession. The difference between two successive short-term mean values G (n) and G (n-1) must fall K times under a barrier D. The barrier D is selected proportional to the short-term mean value G (n) in order to arrive at the same statements if, for example, the level of all signals would be doubled.

Als günstig haben sich die Werte K = 30 und Y = 1,1 erwiesen. Ist also G(n) z.B. der dreißigste Wert, für den die oben angegebene Ungleichung erfüllt ist, so wird der Schätzwert P(n) erneuert und zwar nach der Gleichung

Figure imgb0006
d.h., der neue Schätzwert P(n) ist eine.Linearkombination aus dem alten Schätzwert P(n-1) und dem zuletzt bestimmten, in eine längere Pause fallenden Kurzzeitmittelwert G(n). Für die Konstante « ist 0,5 ein günstiger Wert. Liegt-keine längere Pause vor, so wird der alte Schätzwert beibehalten, d.h., es wird P(n) = P(n-1) gesetzt.The values K = 30 and Y = 1.1 have proven to be favorable. For example, if G (n) is the thirtieth value for which the above inequality is satisfied, then the estimated value P (n) is renewed according to the equation
Figure imgb0006
that is, the new estimated value P (n) is a linear combination of the old estimated value P (n-1) and the last determined short-term mean value G (n) falling into a longer pause. 0.5 is a favorable value for the constant. If there is no longer pause, the old estimate is retained, ie P (n) = P (n-1) is set.

Ein anderer Weg, einen möglichst guten Schätzwert P(n) für eine langsam veränderliche Geräuschleistung zu erhalten, besteht darin, zu jedem Taktzeitpunkt z(n) eine Vergrößerung des schon vorhandenen Schätzwertes P(n-1) um einen festen Betrag c vorzunehmen, wenn der Schätzwert P(n-1) kleiner als der Kurzzeitmittelwert G(n) ist. Jedes Mal also, wenn die Ungleichung P(n-1)< G(n) erfüllt ist, wird

Figure imgb0007
gesetzt.Another way of obtaining the best possible estimate P (n) for a slowly changing noise output is to increase the already existing estimate P (n-1) by a fixed amount c at each clock instant z (n), if the estimate P (n-1) is smaller than the short-term mean G (n). So every time the inequality P (n-1) <G (n) is satisfied
Figure imgb0007
set.

Die Konstante c ist so zu wählen, daß der Schätzwert bei ungehinderter Vergrößerung in ein bis zwei Sekunden die Aussteuerungsgrenze erreicht hat. Liegt andererseits der schon vorhandene Schätzwert P(n-1) über dem augenblicklichen Kurzzeitmittelwert G(n), so wird der neue Schätzwert P(n) gegenüber dem vorhandenen erniedrigt, und zwar gemäß der Gleichung

Figure imgb0008
die den neuen Schätzwert als Linearkombination des vorangegangenen Schätzwertes und des augenblicklichen Kurzzeitmittelwertes G(n) darstellt. Die Erniedrigung des Schätzwertes läßt sich am deutlichsten erkennen, wenn die Konstante β zu eins gewählt wird. Dann ergibt sich nämlich P(n) = G(n)<P(n-1). Werte um 0,5 haben sich jedoch für die Konstante β als günstiger erwiesen.The constant c is to be chosen so that the estimation value reaches the modulation limit in one to two seconds with unimpeded enlargement. If, on the other hand, the already existing estimated value P (n-1) lies above the current short-term mean value G (n), the new estimated value P (n) is lowered compared to the existing one, specifically according to the equation
Figure imgb0008
which represents the new estimated value as a linear combination of the previous estimated value and the current short-term mean value G (n). The lowering of the estimated value can be seen most clearly if the constant β is chosen to be one. Then we have P (n) = G (n) <P (n-1). However, values around 0.5 have proven to be more favorable for the constant β.

Die Schwelle S, die zur Pausenentscheidung herangezogen wird, ist größer als der Schätzwert P(n). Typisch für den Zusammenhang zwischen der Schwelle S und dem Schätzwert P(n) ist die Gleichung S = 1,15P(n), wenn für die Bestimmung der Kurzzeitmittelwerte die Beträge der Fourier-Koeffizienten verwendet werden. Bei Verwendung der Betragsquadrate ist der Zusammenhang S = 1,3P(n) typisch.The threshold S, which is used for the pause decision, is larger than the estimated value P (n). The relationship S = 1.15P (n) is typical of the relationship between the threshold S and the estimated value P (n) if the amounts of the Fourier coefficients are used to determine the short-term mean values. When using the squares of amounts, the relationship S = 1.3P (n) is typical.

Diagramm a) der Fig.2 zeigt ein Beispiel für die Folge der geglätteten (und auf Eins normierten) Kurzzeitmittelwerte GG(1), GG(2) ... eines ungestörten Sprachsignales. Die Folge der GG(n) ist gegen die Zeit aufgetragen. Das betrachtete Zeitintervall hat eine Länge von etwa 5 Sekunden. Die Lage der Sprachpausen ist daran zu erkennen, daß dort die Größen GG(n) den Wert 0 annehmen.Diagram a) of FIG. 2 shows an example of the sequence of the smoothed (and standardized to one) short-term mean values GG (1), GG (2) ... of an undisturbed speech signal. The sequence of the GG (n) is plotted against time. The time interval under consideration is approximately 5 seconds long. The location of the speech pauses can be recognized from the fact that the quantities GG (n) assume the value 0 there.

Im Diagramm b) ist diejenige Folge der GG(n) aufgetragen, die aus einem gestörten Sprachsignal gewonnen - wurde. Die den Diagrammen a) und b) zugrunde liegenden Sprachsignale sind identisch. Die punktiert eingezeichnete Kurve im Diagramm b) ist die Folge der Schätzwerte P(n), die nach der zweiten der oben aufgezeigten Möglichkeiten ermittelt wurde. Das Ergebnis der Sprachpausenbestimmung ist im Diagramm c) dargestellt. Das Vorliegen einer Sprachpause ist in diesem Diagramm dadurch erkennbar gemacht, daß die Ordinate während der Sprachpause den Wert 1 und außerhalb der Sprachpause den Wert 0 annimmt.Diagram b) shows the sequence of GG (n) that was obtained from a disturbed speech signal. The speech signals on which diagrams a) and b) are based are identical. The dotted curve in diagram b) is the result of the estimated values P (n), which was determined using the second of the options shown above. The result of the speech pause determination is shown in diagram c). The presence of a pause in speech is shown in this diagram by the fact that the ordinate assumes the value 1 during the speech pause and 0 outside the speech pause.

Claims (9)

1. Anordnung zur Erkennung von Sprachpausen aus dem Kurzzeitspektrum eines Sprachsignales, das von Störsignalen überlagert sein kann, dadurch gekennzeichnet, daß zu jedem Taktzeitpunkt 7(n) eines Zentraltaktes a) eine Filterbank (FB) aus Abtastproben des gestörten Sprachsignales einen Satz W(n) aus M Fourier-Koeffizienten Y1(n), Y2(n) ... YM(n) des Kurzzeitspektrums bestimmt, b) ein Mittelwertbildner (MB) aus allen M Fourier-Koeffizienten des Satzes W(n) wie aus den NM Fourier-Koeffizienten der Sätze W(n-1), W(n-2) ... W(n-N) einen Kurzzeitmittelwert G(n) bestimmt, der ein Mittel der Beträge oder der Betragsquadrate aller berücksichtigten Fourier-Koeffizienten darstellt, c) eine erste Einheit (PA) einen Schätzwert P(n) der Geräuschleistung ermittelt, der eine Funktion des Schätzwertes P(n-1) zum vorangegangenen Taktzeitpunkt und des Kurzzeitmittelwertes G(n) ist, d) eine zweite Einheit (GL) einen geglätteten Kurzzeitmittelwert GG(n) bestimmt, der eine Funktion des Kurzzeitmittelwertes G(n) sowie weiterer Kurzzeitmittelwerte zu vorangegangenen Taktzeitpunkten ist, e) ein Vergleicher (V) ein Signal an eine nachgeschaltete Einheit (EN) abgibt, wenn der geglättete Kurzzeitmittelwert GG(n) unter eine vom Schätzwert P(n) abhängige erste Schwelle (S) fällt und die nachgeschaltete Einheit (EN) dann das Vorliegen einer Sprachpause anzeigt, wenn sie mehrmals lückenlos nacheinander das Signal vom Vergleicher (V) empfangen hat. 1. Arrangement for the detection of speech pauses from the short-term spectrum of a speech signal, which may be superimposed by interference signals, characterized in that at each clock time 7 (n) a central clock a) a filter bank (FB) determines a set W (n) from M Fourier coefficients Y1 (n), Y2 (n) ... YM (n) of the short-term spectrum from samples of the disturbed speech signal, b) an averager (MB) from all M Fourier coefficients of the set W (n) as from the NM Fourier coefficients of the sets W (n-1), W (n-2) ... W (nN) a short-term average G (n), which is an average of the amounts or the amount squares of all considered Fourier coefficients, c) a first unit (PA) determines an estimated value P (n) of the noise power, which is a function of the estimated value P (n-1) at the previous clock time and the short-term mean value G (n), d) a second unit (GL) determines a smoothed short-term mean value GG (n), which is a function of the short-term mean value G (n) and further short-term mean values at previous cycle times, e) a comparator (V) emits a signal to a downstream unit (EN) when the smoothed short-term mean value GG (n) falls below a first threshold (S) dependent on the estimated value P (n) falls and the downstream unit (EN) then indicates the presence of a speech pause if it has received the signal from the comparator (V) several times in succession without gaps. 2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß als Kurzzeitmittelwert G(n) das arithmetische Mittel aus den Beträgen der Fourier-Koeffizienten verwendet wird.2. Arrangement according to claim 1, characterized in that the arithmetic mean of the amounts of the Fourier coefficients is used as the short-term mean G (n). 3. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Kurzzeitmittelwert G(n) rekursiv nach der Gleichung G(n) =(l-J)G(n-l)+cfH(n) bestimmt wird, wobei H(n) ein Mittel aller zum Zeitpunkten) erhaltenen Fourier Koeffizienten darstellt und eine erste Konstante bedeutet.3. Arrangement according to claim 1, characterized in that the short-term mean G (n) is recursively determined according to the equation G (n) = (lJ) G (nl) + cfH (n), where H (n) is an average of all Represents Fourier coefficients obtained and means a first constant. 4. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) nur dann nach der Gleichung
Figure imgb0009
mitv(-als einer zweiten Konstanten bestimmt wird, wenn die Differenz der Kurzzeitmittelwerte G(n)-G(n-1) betragsmäßig unter einer zweiten Schwelle (D) liegt und dieser Fall lückenlos für eine Anzahl K vorangegangener Taktzeitpunkte eingetreten ist, und daß anderenfalls der Schätzwert P(n) gleich dem vorangegangenen SchätzwertP(n-1) gesetzt wird.
4. Arrangement according to claim 1, characterized in that the estimated value P (n) only then according to the equation
Figure imgb0009
mitv (- is determined as a second constant if the difference between the short-term mean values G (n) -G (n-1) is below a second threshold (D) and this case has occurred without interruption for a number K of preceding clock instants, and that otherwise the estimate P (n) is set equal to the previous estimate P (n-1).
5. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) nur dann nach der Gleichung
Figure imgb0010
mit c als einer dritten Konstanten bestimmt wird, wenn die Ungleichung
Figure imgb0011
erfüllt ist und daß anderenfalls der Schätzwert P(n) mit einer vierten Konstanten β zu
Figure imgb0012
gewählt wird.
5. Arrangement according to claim 1, characterized in that the estimated value P (n) only then according to the equation
Figure imgb0010
with c being determined as a third constant if the inequality
Figure imgb0011
is satisfied and that otherwise the estimated value P (n) increases with a fourth constant β
Figure imgb0012
is chosen.
6. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die erste Schwelle (S) proportional zum Schätzwert P(n) gewählt wird.6. Arrangement according to claim 1, characterized in that the first threshold (S) is selected proportional to the estimated value P (n). 7. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der geglättete Kurzzeitmittelwert GG(n) aus den drei Kurzzeitmittelwerten G(n), G(n-1) und G(n-2) nach der Formel
Figure imgb0013
gewonnen wird, wobei die Konstanten co, c1, c2 alle größer oder gleich 0 sind und ihre Summe den Wert 1 hat.
7. Arrangement according to claim 1, characterized in that the smoothed short-term mean GG (n) from the three short-term mean values G (n), G (n-1) and G (n-2) according to the formula
Figure imgb0013
is obtained, the constants c o , c 1 , c 2 are all greater than or equal to 0 and their sum has the value 1.
8. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der geglättete Kurzzeitmittelwert GG(n) durch Glättung mit einem Median-Filter gewonnen wird.8. Arrangement according to claim 1, characterized in that the smoothed short-term mean GG (n) is obtained by smoothing with a median filter. 9. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die zweite Schwelle (D) proportional zum Kurzzeitmittelwert G(n) gewählt wird.9. Arrangement according to claim 3, characterized in that the second threshold (D) is selected proportional to the short-term mean G (n).
EP83201642A 1982-11-23 1983-11-17 Arrangement for the detection of silence in speech signals Withdrawn EP0111947A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE3243232 1982-11-23
DE19823243232 DE3243232A1 (en) 1982-11-23 1982-11-23 METHOD FOR DETECTING VOICE BREAKS

Publications (1)

Publication Number Publication Date
EP0111947A1 true EP0111947A1 (en) 1984-06-27

Family

ID=6178781

Family Applications (1)

Application Number Title Priority Date Filing Date
EP83201642A Withdrawn EP0111947A1 (en) 1982-11-23 1983-11-17 Arrangement for the detection of silence in speech signals

Country Status (6)

Country Link
US (1) US4682361A (en)
EP (1) EP0111947A1 (en)
JP (1) JPS59105696A (en)
AU (1) AU561287B2 (en)
CA (1) CA1206620A (en)
DE (1) DE3243232A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996002911A1 (en) * 1992-10-05 1996-02-01 Matsushita Electric Industrial Co., Ltd. Speech detection device
US5826230A (en) * 1994-07-18 1998-10-20 Matsushita Electric Industrial Co., Ltd. Speech detection device

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3626862A1 (en) * 1986-08-08 1988-02-11 Philips Patentverwaltung MULTI-STAGE TRANSMITTER ANTENNA COUPLING DEVICE
US4782904A (en) * 1986-11-07 1988-11-08 Ohaus Scale Corporation Electronic balance
JPH04204898A (en) * 1990-11-30 1992-07-27 Matsushita Electric Ind Co Ltd Sound section deciding method
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5323337A (en) * 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
DE4405723A1 (en) * 1994-02-23 1995-08-24 Daimler Benz Ag Method for noise reduction of a disturbed speech signal
FR2797343B1 (en) * 1999-08-04 2001-10-05 Matra Nortel Communications VOICE ACTIVITY DETECTION METHOD AND DEVICE
DE19956572B4 (en) * 1999-11-24 2006-05-11 STÜTZ, Andreas Method of telecommunication and communication terminal
DE10052626A1 (en) * 2000-10-24 2002-05-02 Alcatel Sa Adaptive noise level estimator
US7768252B2 (en) * 2007-03-01 2010-08-03 Samsung Electro-Mechanics Systems and methods for determining sensing thresholds of a multi-resolution spectrum sensing (MRSS) technique for cognitive radio (CR) systems
US9899038B2 (en) 2016-06-30 2018-02-20 Karen Elaine Khaleghi Electronic notebook system
US10235998B1 (en) 2018-02-28 2019-03-19 Karen Elaine Khaleghi Health monitoring system and appliance
RU2691603C1 (en) * 2018-08-22 2019-06-14 Акционерное общество "Концерн "Созвездие" Method of separating speech and pauses by analyzing values of interference correlation function and signal and interference mixture
US10559307B1 (en) 2019-02-13 2020-02-11 Karen Elaine Khaleghi Impaired operator detection and interlock apparatus
US10735191B1 (en) 2019-07-25 2020-08-04 The Notebook, Llc Apparatus and methods for secure distributed communications and data access

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2316814A1 (en) * 1975-07-03 1977-01-28 Telettra Lab Telefon METHOD AND DEVICE FOR DETECTION OF THE PRESENCE AND / OR ABSENCE OF A SPEECH SIGNAL IN TELEPHONE LINES
FR2389963A1 (en) * 1977-05-07 1978-12-01 Philips Nv
FR2451680A1 (en) * 1979-03-12 1980-10-10 Soumagne Joel SPEECH / SILENCE DISCRIMINATOR FOR SPEECH INTERPOLATION
DE3235279A1 (en) * 1981-09-25 1983-04-21 Nissan Motor Co., Ltd., Yokohama, Kanagawa VOICE RECOGNITION DEVICE

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3507999A (en) * 1967-12-20 1970-04-21 Bell Telephone Labor Inc Speech-noise discriminator
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
JPS56104399A (en) * 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
JPS5876899A (en) * 1981-10-31 1983-05-10 株式会社東芝 Voice segment detector

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2316814A1 (en) * 1975-07-03 1977-01-28 Telettra Lab Telefon METHOD AND DEVICE FOR DETECTION OF THE PRESENCE AND / OR ABSENCE OF A SPEECH SIGNAL IN TELEPHONE LINES
FR2389963A1 (en) * 1977-05-07 1978-12-01 Philips Nv
FR2451680A1 (en) * 1979-03-12 1980-10-10 Soumagne Joel SPEECH / SILENCE DISCRIMINATOR FOR SPEECH INTERPOLATION
DE3235279A1 (en) * 1981-09-25 1983-04-21 Nissan Motor Co., Ltd., Yokohama, Kanagawa VOICE RECOGNITION DEVICE

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IEEE TRANSACTIONS ON ACOUSTICS, SPEECH & SIGNAL PROCESSING, Band ASSP-27, Nr. 5, Oktober 1979, Seiten 512-530, New York, US *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996002911A1 (en) * 1992-10-05 1996-02-01 Matsushita Electric Industrial Co., Ltd. Speech detection device
US5826230A (en) * 1994-07-18 1998-10-20 Matsushita Electric Industrial Co., Ltd. Speech detection device

Also Published As

Publication number Publication date
CA1206620A (en) 1986-06-24
JPS59105696A (en) 1984-06-19
AU561287B2 (en) 1987-05-07
AU2154683A (en) 1984-05-31
US4682361A (en) 1987-07-21
DE3243232A1 (en) 1984-05-24

Similar Documents

Publication Publication Date Title
EP0111947A1 (en) Arrangement for the detection of silence in speech signals
EP0110467B2 (en) Arrangement for the detection of speech intervals
DE69913262T2 (en) DEVICE AND METHOD FOR ADJUSTING THE NOISE THRESHOLD FOR DETECTING VOICE ACTIVITY IN A NON-STATIONARY NOISE ENVIRONMENT
DE69534285T3 (en) Method and apparatus for selecting the coding rate in a variable rate vocoder
DE3802903C2 (en)
DE19948308C2 (en) Method and device for noise suppression in speech transmission
DE2233872C2 (en) Method for determining the fundamental wave period of a speech signal
DE19736669C1 (en) Beat detection method for time discrete audio signal
DE3101851A1 (en) METHOD FOR SCANNING LANGUAGE
DE60200632T2 (en) Method for voice activity detection in a signal, and voice encoder with device for carrying out the method
DE19715126C2 (en) Speech signal coding device
EP3089481A1 (en) Method for frequency-dependent noise suppression in an input signal
EP0584388A1 (en) Method of producing a signal corresponding to a patient&#39;s minute-volume
EP1052881B1 (en) Hearing aid with oscillation detector and method for detecting oscillations in a hearing aid
EP0135229A2 (en) Method and circuit for establishing conference connections in a switching system
DE102005039621A1 (en) Method and apparatus for the adaptive reduction of noise and background signals in a speech processing system
EP1453355B1 (en) Signal processing in a hearing aid
DE4222914A1 (en) Switching arrangement for generating a speed-proportional pulse train
EP1458216A2 (en) Device and method for adaption of microphones in a hearing aid
DE2251579A1 (en) ARRANGEMENT FOR DETERMINING CHARACTERISTICS OF AN ELECTRICAL INPUT SIGNAL
EP1005016A2 (en) Method and circuit arrangement for measuring speech level in a speech processing system
DE2904426A1 (en) ANALOG VOICE ENCODER AND DECODER
DE10244699B4 (en) Method for determining speech activity
DE3400103C2 (en) Method and device for suppressing a signal
DE2334459C3 (en) Differentiation between voiced and unvoiced sounds in speech signal evaluation

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Designated state(s): BE DE FR GB IT SE

17P Request for examination filed

Effective date: 19840824

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Withdrawal date: 19851213

RIN1 Information on inventor provided before grant (corrected)

Inventor name: SELBACH, BERND, DIPL.-ING.

Inventor name: VARY, PETER, DR. ING.