EP0111947A1 - Arrangement for the detection of silence in speech signals - Google Patents
Arrangement for the detection of silence in speech signals Download PDFInfo
- Publication number
- EP0111947A1 EP0111947A1 EP83201642A EP83201642A EP0111947A1 EP 0111947 A1 EP0111947 A1 EP 0111947A1 EP 83201642 A EP83201642 A EP 83201642A EP 83201642 A EP83201642 A EP 83201642A EP 0111947 A1 EP0111947 A1 EP 0111947A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- short
- term
- term mean
- value
- estimated value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Definitions
- the invention relates to an arrangement for recognizing speech pauses from the short-term spectrum of a speech signal, which can be superimposed by interference signals.
- Such an arrangement is e.g. the prerequisite for the suppression of interference signals when making calls from an acoustically disturbed environment.
- characteristic parameters of the interference signal are measured and used to filter out the interference as completely as possible from the signal to be transmitted using adaptive filters.
- this speech pause detection does not take into account the fact that unvoiced sounds, for example, lead to a drop in performance in the speech signal and the relevant speech sections are therefore incorrectly regarded as speech pauses. Such wrong decisions occur in the known arrangement The more often the speech signal is overlaid with interference signals.
- the arrangement is also intended to enable speech pause recognition even if the average noise level changes slowly.
- the arrangement according to the invention can be used particularly advantageously if - cf. the application example mentioned at the beginning - an arrangement is used for noise suppression, which is based on a short-term Fourier analysis of the disturbed speech signal.
- the filter bank mentioned in the arrangement according to the invention then need not be provided separately.
- the disturbed voice signal is applied to an input terminal E.
- An analog-to-digital converter A / D generates a sequence of digitized samples from the analog input signal.
- the Samples are applied to a filter bank FB through which at times T (n) a - referred to in the following central clock - clock, a set W (n) of M Fourier coefficients y L (n), Y2 (n) ... YM (n) of the short-term spectrum is determined.
- an averager MB determines a short-term average value G (n), which is approximately one It represents a measure of the average power of the disturbed speech signal, the averaging time being of the order of 100 ms. The exact averaging process is discussed below.
- a unit GL smoothes the sequence of the short-term mean values G (n), so that in the event of the final decision to take a break from speech, brief power drops in the speech signal caused by unvoiced sounds are not misinterpreted as pauses.
- a unit PA in FIG. 1 determines an estimated value P (n) of the noise power, i.e.
- a comparator V emits a signal to a unit EN.
- the unit EN has a signal 25 times in succession received by the comparator V, the presence of a speech pause is indicated by its output signal at a terminal A.
- the filter bank FB determines, for example, a set W (n) of M " 30 Fourier coefficients of the short-term spectrum every 4 ms, that is, among other things, the period of the central clock is 4 ms.
- the determination of the short-term mean value G (n) at the clock instants T (n ) represents both an averaging over all Fourier coefficients Y1 (n) ... YM (n) at a fixed point in time T (n) as well as an averaging over the coefficients at different clock instants.
- an auxiliary quantity H (n) which is obtained by averaging only those Fourier coefficients that are determined at time T (n), ie or depending on whether you want to use the arithmetic mean of the amounts or the amount squares. Since the amount of components is less when using the amounts, the first option for the auxiliary variable H (n) will generally be preferred.
- the short-term mean value G (n) is now obtained according to the invention by averaging over the size H at different times:
- the number N of the points in time taken into account is 25.
- Recursive averaging is less expensive because the number of components required is reduced according to which the short-term mean value G (n) at the cycle time ⁇ (n) results as a linear combination of the short-term average value G (n-1) at the cycle time T (n-1) and the auxiliary variable H (n).
- a typical value of constant 6 is 0.1.
- GG (n) a smoothed short-term mean value GG (n) and an estimated value P (n) for the average noise power.
- the smoothed value GG (n) can be obtained, for example, with the aid of a linear digital filter, in which the weighted average of three successive short-term mean values G (n), G (n-1) and G (n-2) is obtained as the output variable GG (n) ) results.
- the weights (filter coefficients) 1/4, 1/2 and 1/4 have proven to be favorable.
- Another option is median filtering. For example, five successive values G (n) ... G (n-4) are arranged in size and then the third value is read out as the output value GG (n) of the filter.
- the continuous determination of the estimated value P (n) can also be carried out in two ways. Either a longer speech pause is first determined and then the value of P (n) is updated with a short-term mean value G (n) that falls within this speech pause. Due to the constant updating of the estimated value P (n), the speech pause recognition is still possible in the arrangement according to the invention even if the noise level changes slowly.
- a longer pause is recognized by the fact that the inequality K times in succession.
- the difference between two successive short-term mean values G (n) and G (n-1) must fall K times under a barrier D.
- the barrier D is selected proportional to the short-term mean value G (n) in order to arrive at the same statements if, for example, the level of all signals would be doubled.
- G (n) is the thirtieth value for which the above inequality is satisfied
- the estimated value P (n) is renewed according to the equation that is, the new estimated value P (n) is a linear combination of the old estimated value P (n-1) and the last determined short-term mean value G (n) falling into a longer pause.
- Another way of obtaining the best possible estimate P (n) for a slowly changing noise output is to increase the already existing estimate P (n-1) by a fixed amount c at each clock instant z (n), if the estimate P (n-1) is smaller than the short-term mean G (n). So every time the inequality P (n-1) ⁇ G (n) is satisfied set.
- the threshold S which is used for the pause decision, is larger than the estimated value P (n).
- the relationship S 1.15P (n) is typical of the relationship between the threshold S and the estimated value P (n) if the amounts of the Fourier coefficients are used to determine the short-term mean values.
- the relationship S 1.3P (n) is typical.
- Diagram a) of FIG. 2 shows an example of the sequence of the smoothed (and standardized to one) short-term mean values GG (1), GG (2) ... of an undisturbed speech signal.
- the sequence of the GG (n) is plotted against time.
- the time interval under consideration is approximately 5 seconds long.
- the location of the speech pauses can be recognized from the fact that the quantities GG (n) assume the value 0 there.
- Diagram b) shows the sequence of GG (n) that was obtained from a disturbed speech signal.
- the speech signals on which diagrams a) and b) are based are identical.
- the dotted curve in diagram b) is the result of the estimated values P (n), which was determined using the second of the options shown above.
- the result of the speech pause determination is shown in diagram c).
- the presence of a pause in speech is shown in this diagram by the fact that the ordinate assumes the value 1 during the speech pause and 0 outside the speech pause.
Abstract
Die beschriebene Anordnung zur Erkennung von Pausen in einem Sprachsignal ermöglicht die Pausenerkennung auch dann, wenn dem Sprachsignal ein langsam veränderliches Störsignal überlagert ist. Zur Pausenerkennung werden aus Kurzzeit-Fourier-Koeffizienten des gestörten Sprachsignales Mittelwerte bestimmt, die ein ungefähres Maß für die mittlere Leistung von etwa 100ms langen Abschnitten des gestörten Sprachsignales sind. Die Folge dieser Kurzzeitmittelwerte wird dann durch lineare Filterung oder durch ein Medianfilter geglättet. Parallel zum Glättungsvorgang wird aus der Folge der Kurzzeitmittelwerte ein Schätzwert für die über einige Sekunden gemittelte Leistung des Störsignales gewonnen. Ist der geglättete Kurzzeitmittelwert mehrmals kleiner als eine zum erwähnten Schätzwert proportionale Schwelle, so wird auf Sprachpause entschieden.The described arrangement for recognizing pauses in a speech signal enables pause detection even when a slowly changing interference signal is superimposed on the speech signal. For pause detection, mean values are determined from short-term Fourier coefficients of the disturbed speech signal, which are an approximate measure for the average power of approximately 100 ms long sections of the disturbed speech signal. The sequence of these short-term mean values is then smoothed by linear filtering or by a median filter. In parallel to the smoothing process, an estimate of the noise signal power averaged over a few seconds is obtained from the sequence of the short-term mean values. If the smoothed short-term mean value is several times smaller than a threshold proportional to the mentioned estimated value, a decision is made to pause the speech.
Description
Die Erfindung betrifft eine Anordnung zur Erkennung von Sprachpausen aus dem Kurzzeitspektrum eines Sprachsignales, das von Störsignalen überlagert sein kann.The invention relates to an arrangement for recognizing speech pauses from the short-term spectrum of a speech signal, which can be superimposed by interference signals.
Eine derartige Anordnung ist z.B. die Voraussetzung für die Unterdrückung von Störsignalen beim Telefonieren aus einer akustisch gestörten Umgebung. Während der Sprachpausen werden charakteristische Parameter des Störsignales gemessen und dazu verwendet, die Störungen vor der Übertragung möglichst vollständig aus dem zu übertragenden Signal mit adaptiven Filtern herauszufiltern.Such an arrangement is e.g. the prerequisite for the suppression of interference signals when making calls from an acoustically disturbed environment. During the pauses in speech, characteristic parameters of the interference signal are measured and used to filter out the interference as completely as possible from the signal to be transmitted using adaptive filters.
Aus der DE-AS 24 55 447, Spalte 10 ist eine Anordnung in analoger Technik zur Erkennung von Sprachpausen bekannt, der folgende IrJirkungsvreise zugrunde liegt: Das Sprachsignal wird in gleich lange Abschnitte zerlegt und für jeden Abschnitt wird durch Gleichrichtung und Mittelwertbildung ein Spannungswert gewonnen, der zur mittleren Lautstärke des Abschnittes proportional ist. Schließlich wird durch Mittelwertbildung über mehrere Sprachabschnitte ein weiterer Spannungswert bestimmt, der zur mittleren Gesprächslautstärke proportional ist. Durch einen Vergleich der beiden Mittelwerte wird entschieden, ob ein Abschnitt einer Sprachpause angehört oder nicht.From DE-AS 24 55 447, column 10, an arrangement in analog technology for recognizing speech pauses is known, which is based on the following effects: the speech signal is broken down into sections of equal length and a voltage value is obtained for each section by rectification and averaging, which is proportional to the average volume of the section. Finally, by averaging over several speech sections, a further voltage value is determined that is proportional to the average volume of the conversation. By comparing the two mean values, it is decided whether a section belongs to a speech pause or not.
Bei dieser Sprachpausenerkennung ist unter anderem nicht berücksichtigt, daß z.B. stimmlose Laute zu einem Leistungseinbruch im Sprachsignal führen und die betreffenden Sprachabschnitte deshalb fälschlicherweise als Sprachpausen angesehen werden. Derartige Fehlentscheidungen treten bei der bekannten Anordnung um so häufiger auf, je stärker das Sprachsignal von Störsignalen überlagert ist.Among other things, this speech pause detection does not take into account the fact that unvoiced sounds, for example, lead to a drop in performance in the speech signal and the relevant speech sections are therefore incorrectly regarded as speech pauses. Such wrong decisions occur in the known arrangement The more often the speech signal is overlaid with interference signals.
Es ist deshalb Aufgabe der Erfindungeine Anordnung der eingangs genannten Art anzugeben, bei der Fehlentscheidungen im oben erläuterten Sinne vermieden werden. Die Anordnung soll darüberhinaus eine Sprachpausenerkennung auch dann ermöglichen, wenn sich die mittlere Geräuschleistung langsam verändert.It is therefore an object of the invention to provide an arrangement of the type mentioned at the beginning, in which incorrect decisions in the sense explained above are avoided. The arrangement is also intended to enable speech pause recognition even if the average noise level changes slowly.
Diese Aufgabe wird durch die im Kennzeichen des Anspruches 1 angegebenen Merkmale gelöst. Die erfindungsgemäße Anordnung ist dann besonders vorteilhaft anzuwenden, wenn - vgl. das eingangs erwähnte Anwendungsbeispiel - zur Geräuschunterdrückung eine Anordnung eingesetzt wird, die auf einer Kurzzeit-Fourier-Analyse des gestörten Sprachsignales basiert. Die in der erfindungsgemäßen Anordnung erwähnte Filterbank braucht dann nicht gesondert vorgesehen zu werden.This object is achieved by the features specified in the characterizing part of claim 1. The arrangement according to the invention can be used particularly advantageously if - cf. the application example mentioned at the beginning - an arrangement is used for noise suppression, which is based on a short-term Fourier analysis of the disturbed speech signal. The filter bank mentioned in the arrangement according to the invention then need not be provided separately.
Vorteilhafte Ausgestaltungen der Erfindung geben die Unteransprüche an.Advantageous refinements of the invention specify the subclaims.
Anhand der Figuren soll die Erfindung näher erläutert werden.The invention will be explained in more detail with reference to the figures.
Es zeigt:
- Fig.1 ein Blockschaltbild der erfindungsgemäßen Anordnung,
- Fig.2 Diagramme zur Erläuterung der UirkunosMeise der erfindunosoemäßen Anordnung.
- 1 shows a block diagram of the arrangement according to the invention,
- 2 shows diagrams to explain the Uirkunos M else the erfindunosoemäßen arrangement.
Im Blockschaltbild nach Fig.1 wird das gestörte Sprachsignal an einer Eingangsklemme E angelegt. Ein Analog-Digital-Umsetzer A/D erzeugt aus dem analogen Eingangssignal eine Folge von digitalisierten Abtastwerten. Die Abtastwerte werden einer Filterbank FB zugeführt, durch die zu Zeitpunkten T (n) eines - im folgenden Zentraltakt genannten - Taktes ein Satz W(n) von M Fourier-Koeffizienten Yl(n), Y2(n)...YM(n) des Kurzzeitspektrums bestimmt wird.In the block diagram of Figure 1, the disturbed voice signal is applied to an input terminal E. An analog-to-digital converter A / D generates a sequence of digitized samples from the analog input signal. The Samples are applied to a filter bank FB through which at times T (n) a - referred to in the following central clock - clock, a set W (n) of M Fourier coefficients y L (n), Y2 (n) ... YM (n) of the short-term spectrum is determined.
Von der erfindungsgemäßen.ßnordnung werden nur Fourier-Koeffizienten bestimmt, deren zugehörige Frequenzen im Frequenzbereich zwischen 0 Hz und etwa 3000 Hz liegen, da dieser Bereich der Bereich größter spektraler Energiedichte der Sprache ist. Dadurch wird die Sprachpausenerkennung verbessert, wenn das Spektrum des Störsignales einen größeren Frequenzbereich überdeckt.Only Fourier coefficients are determined by the inventive arrangement whose associated frequencies are in the frequency range between 0 Hz and approximately 3000 Hz, since this range is the range of the greatest spectral energy density of speech. This improves speech pause detection when the spectrum of the interference signal covers a larger frequency range.
Aus dem Satz W(n) der Fourier-Koeffizienten Y1(n), Y2(n)... YM(n) und aus den vorangegangenen Sätzen von Fourier-Koeffizienten bestimmt ein Mittelwertbildner MB einen Kurzzeitmittelwert G(n), der näherungsweise ein Maß für die mittlere Leistung des gestörten Sprachsignales darstellt, wobei die Mittelungszeit in der Größenordnung von 100ms liegt. Auf den genauen Mittelungsvorgang wird weiter unten eingegangen. Eine Einheit GL glättet die Folge der Kurzzeitmittelwerte G(n), damit bei der endgültigen Entscheidung auf Sprachpause kurzzeitige, durch stimmlose Laute verursachte Leistungseinbrüche im Sprachsignal nicht als Pausen mißdeutet werden. Eine Einheit PA in Fig.1 bestimmt einen Schätzwert P(n) der Geräuschleistung, d.h., der Leistung des Störsignales, sowie eine davon abhängige erste Schwelle S, auf deren Bestimmung ebenfalls weiter unten eingegangen wird. Liegt die Folge GG(n) der geglätteten Kurzzeitmittelwerte unter der Schwelle S, so gibt ein Vergleicher V ein Signal an eine Einheit EN ab.From the set W (n) of the Fourier coefficients Y1 (n), Y2 (n) ... YM (n) and from the previous sets of Fourier coefficients, an averager MB determines a short-term average value G (n), which is approximately one It represents a measure of the average power of the disturbed speech signal, the averaging time being of the order of 100 ms. The exact averaging process is discussed below. A unit GL smoothes the sequence of the short-term mean values G (n), so that in the event of the final decision to take a break from speech, brief power drops in the speech signal caused by unvoiced sounds are not misinterpreted as pauses. A unit PA in FIG. 1 determines an estimated value P (n) of the noise power, i.e. the power of the interference signal, and a dependent first threshold S, the determination of which is also discussed below. If the sequence GG (n) of the smoothed short-term mean values lies below the threshold S, a comparator V emits a signal to a unit EN.
Hat die Einheit EN z.B. 25 Mal nacheinander ein Signal vom Vergleicher V erhalten, so wird durch ihr Ausgangssignal an einer Klemme A das Vorliegen einer Sprachpause angezeigt.For example, the unit EN has a signal 25 times in succession received by the comparator V, the presence of a speech pause is indicated by its output signal at a terminal A.
Die Filterbank FB bestimmt z.B. alle 4 ms einen Satz W(n) von M " 30 Fourier-Koeffizienten des Kurzzeitspektrums, d.h. unter anderem, die Periodendauer des Zentraltaktes beträgt 4 ms. Die Bestimmung des Kurzzeitmittelwertes G(n) zu den Taktzeitpunkten T (n) stellt sowohl eine Mittelung über alle Fourier-Koeffizienten Y1(n) ... YM(n) zu einem festen Zeitpunkt T(n) als auch eine Mittelung über die Koeffizienten zu verschiedenen Taktzeitpunkten dar. Zur formelhaften Beschreibung des Mittelungsvorganges werde eine Hilfsgröße H(n) eingeführt, die sich durch Mittelung nur derjenigen Fourier-Koeffizienten ergibt, die zum Zeitpunkt T(n) bestimmt werden, d.h.,
Der Kurzzeitmittelwert G(n) ergibt sich erfindungsgemäß nun durch Mittelung über die Größe H zu verschiedenen Zeitpunkten:
Die Zahl N der berücksichtigten Zeitpunkte liegt bei 25.The number N of the points in time taken into account is 25.
Günstiger, da zur Realisierung der Bauteileaufwand geringer wird, ist die rekursive Mittelung
Aus der Folge der Kurzzeitmittelwerte G(n) werden erfindungsgemäß nun zu jedem Taktzeitpunkt T(n) zwei weitere Größen ermittelt, nämlich ein geglätteter Kurzzeitmittelwert GG(n) und ein Schätzwert P(n) für die mittlere Geräuschleistung. Der geglättete Wert GG(n) läßt sich z.B. mit Hilfe eines linearen Digitalfilters gewinnen, bei dem sich als Ausgangsgröße GG(n) das gewichtete Mittel von drei aufeinanderfolgenden Kurzzeitmittelwerten G(n), G(n-1) und G(n-2) ergibt. Die Gewichte (Filter-Koeffizienten) 1/4, 1/2 und 1/4 haben sich dabei als günstig erwiesen.From the sequence of the short-term mean values G (n), according to the invention, two further variables are now determined at every cycle time T (n), namely a smoothed short-term mean value GG (n) and an estimated value P (n) for the average noise power. The smoothed value GG (n) can be obtained, for example, with the aid of a linear digital filter, in which the weighted average of three successive short-term mean values G (n), G (n-1) and G (n-2) is obtained as the output variable GG (n) ) results. The weights (filter coefficients) 1/4, 1/2 and 1/4 have proven to be favorable.
Eine andere Möglichkeit ist die Medianfilterung. Bei ihr werden z.B. fünf aufeinanderfolgende Werte G(n)... G(n-4) der Größe nach angeordnet und dann der dritte Wert als Ausgangswert GG(n) des Filters ausgelesen.Another option is median filtering. For example, five successive values G (n) ... G (n-4) are arranged in size and then the third value is read out as the output value GG (n) of the filter.
Die fortlaufende Bestimmung des Schätzwertes P(n) kann ebenfalls auf zwei Arten erfolgen. Entweder wird zunächst eine längere Sprachpause ermittelt und dann mit einem Kurzzeitmittelwert G(n), der in diese Sprachpause fällt, der Wert von P(n) aktualisiert. Durch die ständige Aktualisierung des Schätzwertes P(n) ist bei der erfindungsgemäßen Anordnung die Sprachpausenerkennung auch dann noch möglich, wenn sich der Geräuschpegel langsam verändert.The continuous determination of the estimated value P (n) can also be carried out in two ways. Either a longer speech pause is first determined and then the value of P (n) is updated with a short-term mean value G (n) that falls within this speech pause. Due to the constant updating of the estimated value P (n), the speech pause recognition is still possible in the arrangement according to the invention even if the noise level changes slowly.
Eine längere Pause wird dadurch erkannt, daß die Ungleichung
Als günstig haben sich die Werte K = 30 und Y = 1,1 erwiesen. Ist also G(n) z.B. der dreißigste Wert, für den die oben angegebene Ungleichung erfüllt ist, so wird der Schätzwert P(n) erneuert und zwar nach der Gleichung
Ein anderer Weg, einen möglichst guten Schätzwert P(n) für eine langsam veränderliche Geräuschleistung zu erhalten, besteht darin, zu jedem Taktzeitpunkt z(n) eine Vergrößerung des schon vorhandenen Schätzwertes P(n-1) um einen festen Betrag c vorzunehmen, wenn der Schätzwert P(n-1) kleiner als der Kurzzeitmittelwert G(n) ist. Jedes Mal also, wenn die Ungleichung P(n-1)< G(n) erfüllt ist, wird
Die Konstante c ist so zu wählen, daß der Schätzwert bei ungehinderter Vergrößerung in ein bis zwei Sekunden die Aussteuerungsgrenze erreicht hat. Liegt andererseits der schon vorhandene Schätzwert P(n-1) über dem augenblicklichen Kurzzeitmittelwert G(n), so wird der neue Schätzwert P(n) gegenüber dem vorhandenen erniedrigt, und zwar gemäß der Gleichung
Die Schwelle S, die zur Pausenentscheidung herangezogen wird, ist größer als der Schätzwert P(n). Typisch für den Zusammenhang zwischen der Schwelle S und dem Schätzwert P(n) ist die Gleichung S = 1,15P(n), wenn für die Bestimmung der Kurzzeitmittelwerte die Beträge der Fourier-Koeffizienten verwendet werden. Bei Verwendung der Betragsquadrate ist der Zusammenhang S = 1,3P(n) typisch.The threshold S, which is used for the pause decision, is larger than the estimated value P (n). The relationship S = 1.15P (n) is typical of the relationship between the threshold S and the estimated value P (n) if the amounts of the Fourier coefficients are used to determine the short-term mean values. When using the squares of amounts, the relationship S = 1.3P (n) is typical.
Diagramm a) der Fig.2 zeigt ein Beispiel für die Folge der geglätteten (und auf Eins normierten) Kurzzeitmittelwerte GG(1), GG(2) ... eines ungestörten Sprachsignales. Die Folge der GG(n) ist gegen die Zeit aufgetragen. Das betrachtete Zeitintervall hat eine Länge von etwa 5 Sekunden. Die Lage der Sprachpausen ist daran zu erkennen, daß dort die Größen GG(n) den Wert 0 annehmen.Diagram a) of FIG. 2 shows an example of the sequence of the smoothed (and standardized to one) short-term mean values GG (1), GG (2) ... of an undisturbed speech signal. The sequence of the GG (n) is plotted against time. The time interval under consideration is approximately 5 seconds long. The location of the speech pauses can be recognized from the fact that the quantities GG (n) assume the value 0 there.
Im Diagramm b) ist diejenige Folge der GG(n) aufgetragen, die aus einem gestörten Sprachsignal gewonnen - wurde. Die den Diagrammen a) und b) zugrunde liegenden Sprachsignale sind identisch. Die punktiert eingezeichnete Kurve im Diagramm b) ist die Folge der Schätzwerte P(n), die nach der zweiten der oben aufgezeigten Möglichkeiten ermittelt wurde. Das Ergebnis der Sprachpausenbestimmung ist im Diagramm c) dargestellt. Das Vorliegen einer Sprachpause ist in diesem Diagramm dadurch erkennbar gemacht, daß die Ordinate während der Sprachpause den Wert 1 und außerhalb der Sprachpause den Wert 0 annimmt.Diagram b) shows the sequence of GG (n) that was obtained from a disturbed speech signal. The speech signals on which diagrams a) and b) are based are identical. The dotted curve in diagram b) is the result of the estimated values P (n), which was determined using the second of the options shown above. The result of the speech pause determination is shown in diagram c). The presence of a pause in speech is shown in this diagram by the fact that the ordinate assumes the value 1 during the speech pause and 0 outside the speech pause.
Claims (9)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE3243232 | 1982-11-23 | ||
DE19823243232 DE3243232A1 (en) | 1982-11-23 | 1982-11-23 | METHOD FOR DETECTING VOICE BREAKS |
Publications (1)
Publication Number | Publication Date |
---|---|
EP0111947A1 true EP0111947A1 (en) | 1984-06-27 |
Family
ID=6178781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP83201642A Withdrawn EP0111947A1 (en) | 1982-11-23 | 1983-11-17 | Arrangement for the detection of silence in speech signals |
Country Status (6)
Country | Link |
---|---|
US (1) | US4682361A (en) |
EP (1) | EP0111947A1 (en) |
JP (1) | JPS59105696A (en) |
AU (1) | AU561287B2 (en) |
CA (1) | CA1206620A (en) |
DE (1) | DE3243232A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996002911A1 (en) * | 1992-10-05 | 1996-02-01 | Matsushita Electric Industrial Co., Ltd. | Speech detection device |
US5826230A (en) * | 1994-07-18 | 1998-10-20 | Matsushita Electric Industrial Co., Ltd. | Speech detection device |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3626862A1 (en) * | 1986-08-08 | 1988-02-11 | Philips Patentverwaltung | MULTI-STAGE TRANSMITTER ANTENNA COUPLING DEVICE |
US4782904A (en) * | 1986-11-07 | 1988-11-08 | Ohaus Scale Corporation | Electronic balance |
JPH04204898A (en) * | 1990-11-30 | 1992-07-27 | Matsushita Electric Ind Co Ltd | Sound section deciding method |
US5305422A (en) * | 1992-02-28 | 1994-04-19 | Panasonic Technologies, Inc. | Method for determining boundaries of isolated words within a speech signal |
US5323337A (en) * | 1992-08-04 | 1994-06-21 | Loral Aerospace Corp. | Signal detector employing mean energy and variance of energy content comparison for noise detection |
DE4405723A1 (en) * | 1994-02-23 | 1995-08-24 | Daimler Benz Ag | Method for noise reduction of a disturbed speech signal |
FR2797343B1 (en) * | 1999-08-04 | 2001-10-05 | Matra Nortel Communications | VOICE ACTIVITY DETECTION METHOD AND DEVICE |
DE19956572B4 (en) * | 1999-11-24 | 2006-05-11 | STÜTZ, Andreas | Method of telecommunication and communication terminal |
DE10052626A1 (en) * | 2000-10-24 | 2002-05-02 | Alcatel Sa | Adaptive noise level estimator |
US7768252B2 (en) * | 2007-03-01 | 2010-08-03 | Samsung Electro-Mechanics | Systems and methods for determining sensing thresholds of a multi-resolution spectrum sensing (MRSS) technique for cognitive radio (CR) systems |
US9899038B2 (en) | 2016-06-30 | 2018-02-20 | Karen Elaine Khaleghi | Electronic notebook system |
US10235998B1 (en) | 2018-02-28 | 2019-03-19 | Karen Elaine Khaleghi | Health monitoring system and appliance |
RU2691603C1 (en) * | 2018-08-22 | 2019-06-14 | Акционерное общество "Концерн "Созвездие" | Method of separating speech and pauses by analyzing values of interference correlation function and signal and interference mixture |
US10559307B1 (en) | 2019-02-13 | 2020-02-11 | Karen Elaine Khaleghi | Impaired operator detection and interlock apparatus |
US10735191B1 (en) | 2019-07-25 | 2020-08-04 | The Notebook, Llc | Apparatus and methods for secure distributed communications and data access |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2316814A1 (en) * | 1975-07-03 | 1977-01-28 | Telettra Lab Telefon | METHOD AND DEVICE FOR DETECTION OF THE PRESENCE AND / OR ABSENCE OF A SPEECH SIGNAL IN TELEPHONE LINES |
FR2389963A1 (en) * | 1977-05-07 | 1978-12-01 | Philips Nv | |
FR2451680A1 (en) * | 1979-03-12 | 1980-10-10 | Soumagne Joel | SPEECH / SILENCE DISCRIMINATOR FOR SPEECH INTERPOLATION |
DE3235279A1 (en) * | 1981-09-25 | 1983-04-21 | Nissan Motor Co., Ltd., Yokohama, Kanagawa | VOICE RECOGNITION DEVICE |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3507999A (en) * | 1967-12-20 | 1970-04-21 | Bell Telephone Labor Inc | Speech-noise discriminator |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
JPS56104399A (en) * | 1980-01-23 | 1981-08-20 | Hitachi Ltd | Voice interval detection system |
JPS56135898A (en) * | 1980-03-26 | 1981-10-23 | Sanyo Electric Co | Voice recognition device |
US4357491A (en) * | 1980-09-16 | 1982-11-02 | Northern Telecom Limited | Method of and apparatus for detecting speech in a voice channel signal |
JPS5876899A (en) * | 1981-10-31 | 1983-05-10 | 株式会社東芝 | Voice segment detector |
-
1982
- 1982-11-23 DE DE19823243232 patent/DE3243232A1/en not_active Ceased
-
1983
- 1983-11-17 CA CA000441365A patent/CA1206620A/en not_active Expired
- 1983-11-17 EP EP83201642A patent/EP0111947A1/en not_active Withdrawn
- 1983-11-17 US US06/552,994 patent/US4682361A/en not_active Expired - Fee Related
- 1983-11-21 AU AU21546/83A patent/AU561287B2/en not_active Ceased
- 1983-11-22 JP JP58220471A patent/JPS59105696A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2316814A1 (en) * | 1975-07-03 | 1977-01-28 | Telettra Lab Telefon | METHOD AND DEVICE FOR DETECTION OF THE PRESENCE AND / OR ABSENCE OF A SPEECH SIGNAL IN TELEPHONE LINES |
FR2389963A1 (en) * | 1977-05-07 | 1978-12-01 | Philips Nv | |
FR2451680A1 (en) * | 1979-03-12 | 1980-10-10 | Soumagne Joel | SPEECH / SILENCE DISCRIMINATOR FOR SPEECH INTERPOLATION |
DE3235279A1 (en) * | 1981-09-25 | 1983-04-21 | Nissan Motor Co., Ltd., Yokohama, Kanagawa | VOICE RECOGNITION DEVICE |
Non-Patent Citations (1)
Title |
---|
IEEE TRANSACTIONS ON ACOUSTICS, SPEECH & SIGNAL PROCESSING, Band ASSP-27, Nr. 5, Oktober 1979, Seiten 512-530, New York, US * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996002911A1 (en) * | 1992-10-05 | 1996-02-01 | Matsushita Electric Industrial Co., Ltd. | Speech detection device |
US5826230A (en) * | 1994-07-18 | 1998-10-20 | Matsushita Electric Industrial Co., Ltd. | Speech detection device |
Also Published As
Publication number | Publication date |
---|---|
CA1206620A (en) | 1986-06-24 |
JPS59105696A (en) | 1984-06-19 |
AU561287B2 (en) | 1987-05-07 |
AU2154683A (en) | 1984-05-31 |
US4682361A (en) | 1987-07-21 |
DE3243232A1 (en) | 1984-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0111947A1 (en) | Arrangement for the detection of silence in speech signals | |
EP0110467B2 (en) | Arrangement for the detection of speech intervals | |
DE69913262T2 (en) | DEVICE AND METHOD FOR ADJUSTING THE NOISE THRESHOLD FOR DETECTING VOICE ACTIVITY IN A NON-STATIONARY NOISE ENVIRONMENT | |
DE69534285T3 (en) | Method and apparatus for selecting the coding rate in a variable rate vocoder | |
DE3802903C2 (en) | ||
DE19948308C2 (en) | Method and device for noise suppression in speech transmission | |
DE2233872C2 (en) | Method for determining the fundamental wave period of a speech signal | |
DE19736669C1 (en) | Beat detection method for time discrete audio signal | |
DE3101851A1 (en) | METHOD FOR SCANNING LANGUAGE | |
DE60200632T2 (en) | Method for voice activity detection in a signal, and voice encoder with device for carrying out the method | |
DE19715126C2 (en) | Speech signal coding device | |
EP3089481A1 (en) | Method for frequency-dependent noise suppression in an input signal | |
EP0584388A1 (en) | Method of producing a signal corresponding to a patient's minute-volume | |
EP1052881B1 (en) | Hearing aid with oscillation detector and method for detecting oscillations in a hearing aid | |
EP0135229A2 (en) | Method and circuit for establishing conference connections in a switching system | |
DE102005039621A1 (en) | Method and apparatus for the adaptive reduction of noise and background signals in a speech processing system | |
EP1453355B1 (en) | Signal processing in a hearing aid | |
DE4222914A1 (en) | Switching arrangement for generating a speed-proportional pulse train | |
EP1458216A2 (en) | Device and method for adaption of microphones in a hearing aid | |
DE2251579A1 (en) | ARRANGEMENT FOR DETERMINING CHARACTERISTICS OF AN ELECTRICAL INPUT SIGNAL | |
EP1005016A2 (en) | Method and circuit arrangement for measuring speech level in a speech processing system | |
DE2904426A1 (en) | ANALOG VOICE ENCODER AND DECODER | |
DE10244699B4 (en) | Method for determining speech activity | |
DE3400103C2 (en) | Method and device for suppressing a signal | |
DE2334459C3 (en) | Differentiation between voiced and unvoiced sounds in speech signal evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Designated state(s): BE DE FR GB IT SE |
|
17P | Request for examination filed |
Effective date: 19840824 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN |
|
18W | Application withdrawn |
Withdrawal date: 19851213 |
|
RIN1 | Information on inventor provided before grant (corrected) |
Inventor name: SELBACH, BERND, DIPL.-ING. Inventor name: VARY, PETER, DR. ING. |