DE68929442T2 - Device for recording speech sounds - Google Patents
Device for recording speech soundsInfo
- Publication number
- DE68929442T2 DE68929442T2 DE68929442T DE68929442T DE68929442T2 DE 68929442 T2 DE68929442 T2 DE 68929442T2 DE 68929442 T DE68929442 T DE 68929442T DE 68929442 T DE68929442 T DE 68929442T DE 68929442 T2 DE68929442 T2 DE 68929442T2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- input signal
- signal
- noise
- absence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003595 spectral effect Effects 0.000 claims abstract description 23
- 238000005259 measurement Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 6
- 238000001228 spectrum Methods 0.000 description 30
- 101100311330 Schizosaccharomyces pombe (strain 972 / ATCC 24843) uap56 gene Proteins 0.000 description 19
- 101150018444 sub2 gene Proteins 0.000 description 19
- 230000004044 response Effects 0.000 description 12
- 230000006978 adaptation Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 206010019133 Hangover Diseases 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 101710096660 Probable acetoacetate decarboxylase 2 Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
- Noise Elimination (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Description
Eine Vorrichtung zur Erfassung von Sprachlauten ist eine Vorrichtung, der mit dem Ziel, Perioden, in denen gesprochen wird, bzw. Perioden zu erfassen, die nur Rauschen enthalten, ein Signal zugeführt wird. Obwohl die vorliegende Erfindung nicht darauf beschränkt ist, sind eine Anwendung von besonderem Interesse für derartige Detektoren mobile Funktelefonsysteme, bei denen die Kenntnis eines Vorliegens oder Fehlens von Sprachlauten von einer Sprachcodiereinrichtung genutzt werden kann, um die effiziente Nutzung des Funkspektrums zu verbessern, und bei denen auch der Rauschpegel (von in Fahrzeugen montierten Einheiten) mit großer Wahrscheinlichkeit hoch ist.A speech sound detector is a device to which a signal is applied with the aim of detecting periods of speech or periods containing only noise. Although the present invention is not so limited, an application of particular interest for such detectors is mobile radio telephone systems where knowledge of the presence or absence of speech sounds can be used by a speech encoder to improve the efficient use of the radio spectrum and where the noise level (from vehicle-mounted units) is also likely to be high.
Das Wesentliche an der Erfassung von Sprachlauten ist die Lokalisierung eines Meßwerts, der deutlich zwischen Perioden unterscheidet, in denen Sprachlaute vorliegen und in denen keine Sprachlaute vorliegen. Bei Vorrichtungen, die eine Sprachcodiereinrichtung enthalten, ist jederzeit eine Reihe von Parametern von der einen oder anderen Stufe der Codiereinrichtung verfügbar, und daher ist es wünschenswert, die erforderliche Verarbeitung durch die Nutzung einiger dieser Parameter wirtschaftlich zu gestalten. In vielen Umgebungen treten die Hauptquellen des Rauschens in bekannten, definierten Bereichen des Frequenzspektrums auf. In einem fahrenden Fahrzeug konzentriert sich beispielsweise ein Großteil des Rauschens (beispielsweise Motorengeräusche) auf die niedrigen Frequenzbereiche des Spektrums. Wenn eine derartige Kenntnis der spektralen Position des Rauschens verfügbar ist, ist es wünschenswert, die Entscheidung, ob Sprachlaute vorliegen oder nicht, auf Messungen zu gründen, die dem Teil des Spektrums entnommen sind, der verhältnismäßig wenig Rauschen enthält. In der Praxis wäre es selbstverständlich möglich, das Signal vor der Analyse zur Erfassung von Sprachlauten vorzufiltern, doch wenn der Sprachdetektor dem Ausgang einer Sprachcodiereinrichtung folgt, würde eine Vorabfilterung das zu codierende Sprachsignal verzerren.The essence of speech sound detection is the location of a measurement which clearly distinguishes between periods in which speech sounds are present and periods in which speech sounds are not present. In devices incorporating a speech encoder, a number of parameters from one or other stage of the encoder are available at any time and it is therefore desirable to make the necessary processing economical by using some of these parameters. In many environments the main sources of noise occur in known, defined regions of the frequency spectrum. In a moving vehicle, for example, much of the noise (e.g. engine noise) is concentrated in the low frequency regions of the spectrum. If such knowledge of the spectral position of the noise is available, it is desirable to base the decision as to whether or not speech sounds are present on measurements taken from the part of the spectrum which contains relatively little noise. In practice it would of course be possible to pre-filter the signal before analysis for speech sound detection, but if the speech detector is to be connected to the output a speech coding device, pre-filtering would distort the speech signal to be coded.
In der US4358738 ist ein Sprachdetektor offenbart, der das Eingangssignal durch Filtern des Eingangssignals durch zwei manuell ausgeglichene Bandpaßfilter (für die analoge Komponenten verwendet werden) mit einer vorgegebenen Rauschkennlinie vergleicht, um zwei frequenzabhängige Energiesegmente zu erzeugen. Dieses Verfahren ist aus vielen Gründen nur beschränkt nutzbar; erstens wird bei einer so groben Anordnung die Tatsache ignoriert, daß viele Arien von Rauschen zwischen zwei Bändern ein Energiegleichgewicht aufweisen können, das einem Sprachsignal ähnelt, zweitens ist ein Abgleich der Filter arbeitsintensiv und erfordert für den Abgleich eine manuelle Erfassung der Rauschperioden, und drittens kann sich eine derartige Vorrichtung nicht an ein verändertes Rauschen oder Spektrumsänderungen in der Umgebung (oder den Kommunikationskanälen) einstellen.US4358738 discloses a speech detector which compares the input signal with a given noise characteristic by filtering the input signal through two manually balanced bandpass filters (for which analog components are used) to produce two frequency dependent energy segments. This method is of limited use for many reasons; firstly, such a crude arrangement ignores the fact that many types of noise between two bands can have an energy balance similar to a speech signal, secondly, balancing the filters is labor intensive and requires manual detection of the noise periods for balancing, and thirdly, such a device cannot adapt to changing noise or spectrum changes in the environment (or the communication channels).
In "IEEE Transactions on Acoustics, Speech Signal Processing", Bd. ASSP-25, Nr. 4, August 1977, Seiten 338-343, Rabiner et al., "Application of an LPC Distance Measure to the Voiced Unvoiced Silence Detection Problem", ist eine Klassifizierungseinrichtung zur Unterscheidung zwischen über eine Telefonleitung übertragener Stille, stimmloser Sprache und stimmhafter Sprache offenbart. Das Verfahren umfaßt die anfängliche Verwendung manuell klassifizierter Rahmen von "Stille" sowie "stimmhaften" und "stimmlosen" Sprachsignalen zur Ansteuerung von Bezugsmustern und den anschließenden Vergleich des eingegebenen Signals mit jedem dieser Rahmen unter Verwendung eines Vergleichsmeßwerts und die Auswahl des Bezugsrahmens, das dem eingegebenen Signal am nächsten kommt. Dieses Verfahren teilt dahingehend einige der Nachteile der US4358738, daß es extensive manuelle Eingriffe bei der Auswahl der "Stille" repräsentierenden Rahmen anhand erlernter Daten und die Erzeugung des Bezugsmusters anhand dieser erfordert und daß Veränderungen der Umgebung zu fehlerhaften Identifikationen führen, da das Bezugsmuster fest ist. Diese Probleme sind im Vergleich zu den von Rabiner beschriebenen Umgebungen mit niedrigem Rauschpegel (der Stille bei einer Telefonleitung) bei Umgebungen mit hohem Rauschpegel (wie bei einem fahrenden Fahrzeug) noch erheblich schwerwiegender.In "IEEE Transactions on Acoustics, Speech Signal Processing", vol. ASSP-25, no. 4, August 1977, pages 338-343, Rabiner et al., "Application of an LPC Distance Measure to the Voiced Unvoiced Silence Detection Problem", a classifier for distinguishing between silence, unvoiced speech and voiced speech transmitted over a telephone line is disclosed. The method involves initially using manually classified frames of "silence" and "voiced" and "unvoiced" speech signals to drive reference patterns and then comparing the input signal to each of these frames using a comparison measure and selecting the reference frame that is closest to the input signal. This method shares some of the disadvantages of US4358738 in that it requires extensive manual intervention in selecting the frames representing "silence" from learned data and generating the reference pattern from this; and that changes in the environment lead to erroneous identifications because the reference pattern is fixed. These problems are significantly more severe in high-noise environments (such as a moving vehicle) than in the low-noise environments (the silence of a telephone line) described by Rabiner.
In der unter 01277 15A veröffentlichten europäischen Patentanmeldung und dem US-Patent 4672669 ist eine Vorrichtung zur Erfassung von Sprachlauten beschrieben, bei der eine erste Prüfung an der Signalamplitude vorgenommen wird und eine zweite Überprüfung auf der Analyse von Veränderungen des kurzfristigen Signalspektrums basiert. Genauer erfolgt die Spektralanalyse durch Vergleich der Autokorrelation des Signals mit der eines früheren Teils des Signals, der für sprachfrei gehalten wird.European patent application published under 01277 15A and US patent 4672669 describe an apparatus for detecting speech sounds in which a first check is made on the signal amplitude and a second check is based on the analysis of changes in the short-term signal spectrum. More specifically, the spectral analysis is performed by comparing the autocorrelation of the signal with that of an earlier part of the signal which is considered to be speech-free.
Gemäß einem Aspekt der vorliegenden Erfindung wird eine Vorrichtung zur Erfassung von Sprachlauten geschaffen, dieAccording to one aspect of the present invention, a device for detecting speech sounds is provided which
(i) einen ersten Sprachdetektor (3-6, 14), der durch Erzeugen eines Meßwerts der spektralen Ähnlichkeit zwischen einem Teil eines Eingangssignals und einem Teil des Eingangssignals arbeitet, von dem angenommen wird, daß er frei von Sprache ist, um ein Ausgangssignal zu erzeugen, das das Vorhandensein oder Fehlen von Sprachlauten im Eingangssignal angibt;(i) a first speech detector (3-6, 14) operating by producing a measure of spectral similarity between a portion of an input signal and a portion of the input signal assumed to be free of speech, to produce an output signal indicative of the presence or absence of speech sounds in the input signal;
(ii) einen Speicher (15) zum Speichern von dem sprachfreien Teil entnommenen Daten und(ii) a memory (15) for storing data extracted from the non-speech part and
(iii) einen Hilfssprachdetektor (20) umfaßt;(iii) an auxiliary speech detector (20);
dadurch gekennzeichnet, daß der Hilfssprachdetektor (20) die Aktualisierung des Speichers (15) steuert, wobei der Hilfssprachdetektor (20) durch Erzeugen eines Meßwerts der spektralen Ähnlichkeit zwischen einem aktuellen Teil des Eingangssignals und einem früheren Teil des Eingangssignals arbeitet.characterized in that the auxiliary speech detector (20) controls the updating of the memory (15), the auxiliary speech detector (20) operating by generating a measure of the spectral similarity between a current part of the input signal and an earlier part of the input signal.
Gemäß einem weiteren Aspekt wird durch die Erfindung eine Vorrichtung zur Erfassung von Sprachlauten geschaffen, dieAccording to a further aspect, the invention provides a device for detecting speech sounds, which
(i) eine Einrichtung (1) zum Empfangen eines Eingangssignals;(i) means (1) for receiving an input signal;
(ii) einen Speicher (15) zum Speichern eines ein Rauschen repräsentierenden Signals, das eine geschätzte Rauschkomponente des Eingangssignals repräsentiert;(ii) a memory (15) for storing a noise representative signal representing an estimated noise component of the input signal;
(iii) eine Einrichtung (3-6, 14) zur periodischen Erzeugung eines Meßwerts der spektralen Ähnlichkeit zwischen einem Teil des Eingangssignals und der geschätzten Rauschkomponente anhand des Eingangssignals und des ein Rauschen repräsentierenden Signals;(iii) means (3-6, 14) for periodically generating a measure of the spectral similarity between a portion of the input signal and the estimated noise component from the input signal and the signal representing noise;
(iv) eine Einrichtung (7) zum Vergleichen des Meßwerts mit einem Schwellenwert zur Erzeugung eines Ausgangs, der das Vorhandensein oder Fehlen von Sprachlauten angibt;(iv) means (7) for comparing the measured value with a threshold value to produce an output indicative of the presence or absence of speech sounds;
(v) einem Hilfssprachdetektor (20) und(v) an auxiliary speech detector (20) and
(vi) eine Speicheraktualisierungseinrichtung zur Aktualisierung des Speichers anhand des Eingangssignals umfaßt;(vi) memory updating means for updating the memory based on the input signal;
dadurch gekennzeichnet, daß der Hilfssprachdetektor abhängig von einem Meßwert der spektralen Ähnlichkeit zwischen einem aktuellen Teil des Eingangssignals und einem vorhergehenden Teil des Eingangssignals betrieben werden kann, um ein Steuersignal zu erzeugen, das das Vorhandensein oder Fehlen von Sprachlauten angibt, und daß die Speicheraktualisierungseinrichtung so betrieben werden kann, daß sie den Speicher nur dann anhand des Eingangssignals aktualisiert, wenn das Steuersignal das Fehlen von Sprachlauten angibt.characterized in that the auxiliary speech detector is operable to generate a control signal indicative of the presence or absence of speech sounds in response to a measurement of the spectral similarity between a current portion of the input signal and a preceding portion of the input signal, and in that the memory updating means is operable to that it updates the memory based on the input signal only when the control signal indicates the absence of speech sounds.
Weitere Aspekte der vorliegenden Erfindung sind, wie in den Ansprüchen definiert.Further aspects of the present invention are as defined in the claims.
Unter Bezugnahme auf die beiliegenden Zeichnungen werden nachstehend einige Ausführungsformen der Erfindung beispielhaft beschrieben. Es zeigen:With reference to the accompanying drawings, some embodiments of the invention are described below by way of example. In the drawings:
Fig. 1 ein Blockdiagramm eines in unserem europäischen Patent Nr. 335 521 offenbarten Sprachdetektors;Fig. 1 is a block diagram of a speech detector disclosed in our European Patent No. 335,521;
Fig. 2 einen zweiten in unserem europäischen Patent Nr. 335 521 offenbarten Sprachdetektor undFig. 2 shows a second speech detector disclosed in our European Patent No. 335 521 and
Fig. 3 eine Ausführungsform der vorliegenden Erfindung.Fig. 3 shows an embodiment of the present invention.
Das in unserem europäischen Patent Nr. 335 521 offenbarte allgemeine Prinzip, das dem ersten Sprachdetektor zugrunde liegt, ist wie folgt.The general principle underlying the first speech detector disclosed in our European Patent No. 335 521 is as follows.
Ein Rahmen aus n Signalproben (s&sub0;, s&sub1;, s&sub2;, s&sub5;, s&sub4;, ..., Sn-1) ergibt (wenn die Proben aus vorhergehenden Rahmen ignoriert werden) nach dem Durchlaufen eines fiktiven, finiten, digitalen Impulsreaktionsfilters (digitalen FIR-Filters) vierter Ordnung mit einer Impulsreaktion (1, h&sub0;, h&sub1;, h&sub2;, h&sub3;) ein gefiltertes Signal, für das gilt:A frame of n signal samples (s₀, s₁, s₂, s₅, s₄, ..., Sn-1) yields (if the samples from previous frames are ignored) after passing through a fictitious, finite, fourth-order digital impulse response filter (digital FIR filter) with an impulse response (1, h₀, h₁, h₂, h₃) a filtered signal for which the following applies:
s' =s' =
(s&sub0;),(s0),
(s&sub1; + hos&sub0;),(s₁ + hos₀),
(s&sub2; + h&sub0;s&sub1; + h&sub1;s&sub0;),(s 2 + h 0 s 1 + h 1 s 0 ),
(s&sub5; + h&sub0;s&sub2; + h&sub1;s&sub1; + h&sub2;s&sub0;),(s 5 + h 0 s 2 + h 1 s 1 + h 2 s 0 ),
(s&sub4; + h&sub0;s&sub3; + h&sub1;s&sub2; + h&sub2;s&sub1; + h&sub1;s&sub0;),(s 4 + h 0 s 3 + h 1 s 2 + h 2 s 1 + h 1 s 0 ),
(s&sub5; + h&sub0;s&sub4; + h&sub1;s&sub3; + h&sub2;s&sub2; + h&sub3;s&sub4;,(s5 + h0 s4 + h1 s3 + h2 s2 + h3 s4 ,
(s&sub6; + h&sub0;s&sub5; + h&sub1;s&sub4; + h&sub2;s&sub3; + h&sub3;s&sub2;),(s 6 + h 0 s 5 + h 1 s 4 + h 2 s 3 + h 3 s 2 ),
(s&sub7; ...)(p.7...)
Der Autokorrelationskoeffizient nullter Ordnung ist die Summe des Quadrats jedes Terms, die normalisiert, d. h. durch die Gesamtzahl der Terme dividiert werden kann (bei konstanten Rahmenlängen ist es leichter, auf die Division zu verzichten); also ist der des gefilterten SignalsThe zero-order autocorrelation coefficient is the sum of the square of each term, which can be normalized, i.e. divided by the total number of terms (with constant frame lengths it is easier to dispense with division); thus the sum of the filtered signal is
R'&sub0; = (s'i)²,R'₀ = (s'i)²,
und dies ist daher ein Meßwert der Potenz des fiktiven gefilterten Signals s' - anders ausgedrückt, des Teils des Signals s, der in das Paßband des fiktiven Filters fällt,and this is therefore a measurement of the power of the fictitious filtered signal s' - in other words, the part of the signal s that falls within the passband of the fictitious filter,
Als Erweiterung gilt unter Vernachlässigung der ersten vier TermeThe extension is considered to be neglecting the first four terms
R'&sub0; = (s&sub4; + h&sub0;s&sub3; + h&sub1;s&sub2; + h&sub2;s&sub1; + h&sub3;s&sub0;)²R'0 = (s 4 + h 0 s 3 + h 1 s 2 + h 2 s 1 + h 3 s 0 )²
+ (s&sub5; + h&sub0;s&sub4; +h&sub1;s&sub3; + h&sub2;s&sub2; + h&sub3;s&sub1;)²+ (s5 + h0 s4 +h1 s3 + h2 s2 + h3 s1 )²
+ ...+ ...
= s&sub4;² + h&sub0;s&sub4;s&sub3; + h&sub1;s&sub4;s&sub2; + h&sub2;s&sub4;s&sub1; + h&sub3;s&sub4;s&sub0;= s&sub4;² + h&sub0;s&sub4;s&sub3; + h&sub1;s&sub4;s&sub2; + h&sub2;s&sub4;s&sub1; + h&sub3;s&sub4;s&sub0;
+ h&sub0;s&sub4;sa + h&sub0;²s&sub3;² + h&sub0;h&sub1;s&sub3;s&sub2; + h&sub0;h&sub2;s&sub3;s&sub1; + h&sub0;h&sub3;s&sub3;s&sub0;+ h0 s4 sa + h02 s32 + h0 h1 s3 s2 + h&sub0;h&sub2;s&sub3;s&sub1; + h&sub0;h&sub3;s&sub3;s&sub0;
+ h&sub1;s&sub4;s&sub2; + h&sub0;h&sub1;s&sub3;s&sub2; + h&sub1;²s&sub2;² + h&sub1;h&sub2;s&sub2;s&sub1; + h&sub1;h&sub3;s&sub2;s&sub0;+ h&sub1;s&sub4;s&sub2; + h&sub0;h&sub1;s&sub3;s&sub2; + h&sub1;²s&sub2;² + h&sub1;h&sub2;s&sub2;s&sub1; + h&sub1;h&sub3;s&sub2;s&sub0;
+ h&sub2;s&sub4;s&sub1; + h&sub0;h&sub2;s&sub3;s&sub1; + h&sub1;h&sub2;s&sub1; + h&sub2;²s&sub1;² + h&sub2;h&sub3;s&sub1;s&sub0;+ h&sub2;s&sub4;s&sub1; + h&sub0;h&sub2;s&sub3;s&sub1; + h&sub1;h&sub2;s&sub1; + h&sub2;²s&sub1;² + h&sub2;h&sub3;s&sub1;s&sub0;
+ h&sub3;s&sub4;s&sub0; + h&sub0;h&sub3;s&sub3;s&sub0; + h&sub1;h&sub3;s&sub2;s&sub0; + h&sub2;h&sub3;s&sub1;s&sub0; + hs&sub2;s&sub0;&sub2;+ h&sub3;s&sub4;s&sub0; + h&sub0;h&sub3;s&sub3;s&sub0; + h&sub1;h&sub3;s&sub2;s&sub0; + h&sub2;h&sub3;s&sub1;s&sub0; + hs&sub2;s&sub0;&sub2;
+ ...+ ...
= R&sub0; (1 + h&sub0;² + h&sub1;² + h&sub2;² + h&sub3;¹= R0 (1 + h0² + h12 + h22 + h31
+ R&sub1; (2h&sub0; + 2h&sub0;h&sub1; + 2h&sub1;h&sub2; + 2h&sub2;h&sub3;)+ R&sub1; (2h0 + 2h0 h1 + 2h1 h2 + 2h2 h3 )
+ R&sub2; (2h&sub1; + 2h&sub1;h&sub3; + 2h&sub0;h&sub2;)+ R&sub2; (2h1 + 2h1 h3 + 2h0 h2 )
+ R&sub3; (2h&sub2; + 2h&sub0;h&sub3;)+ R&sub3; (2h2 + 2h0 h3 )
+ R&sub4; (2h&sub3;)+ R4; (2h3)
Daher kann R'&sub0; anhand einer Kombination der durch die in Klammern stehenden Konstanten, die das Frequenzband bestimmen, auf den der Wert von R'&sub0; reagiert, gewichteten Autokorrelationskoeffizienten Ri ermittelt werden. Tatsächlich sind die in Klammern stehenden Terme die Autokorrelationskoeffizienten der Impulsantwort des fiktiven Filters, so daß der vorstehende Ausdruck aufTherefore, R'0 can be determined from a combination of the autocorrelation coefficients Ri weighted by the constants in parentheses that determine the frequency band to which the value of R'0 responds. In fact, the terms in parentheses are the autocorrelation coefficients of the impulse response of the fictitious filter, so that the above expression can be reduced to
R'&sub0; = R&sub0;H&sub0; + 2 RiHi ... (1)R'0 = R0 H0 + 2 RiHi ... (1)
vereinfacht werden kann, wobei N die Filterordnung und Hi die (nicht normalisierten) Autokorrelationskoeffizienten der Impulsantwort des Filters sind.where N is the filter order and Hi is the (unnormalized) autocorrelation coefficients of the impulse response of the filter.
Anders ausgedrückt kann die Wirkung der Autokorrelationskoeffizienten des Signals beim Filtern eines Signals durch die Erzeugung einer gewichteten Summe der Autokorrelationskoeffizienten des (ungefilterten) Signals unter Verwendung der Impulsantwort, die das erforderliche Filter gehabt hätte, simuliert werden.In other words, the effect of the signal's autocorrelation coefficients when filtering a signal can be simulated by generating a weighted sum of the autocorrelation coefficients of the (unfiltered) signal using the impulse response that the required filter would have had.
Daher kann durch einen verhältnismäßig einfachen Algorithmus, der eine geringe Anzahl an Multiplikationsoperationen einschließt, die Wirkung eines digitalen Filters simuliert werden, das typischer Weise ein Hundertfaches dieser Anzahl an Multiplikationsoperationen erfordert.Therefore, a relatively simple algorithm involving a small number of multiplication operations can simulate the effect of a digital filter that typically requires a hundred times this number of multiplication operations.
Die Filteroperation kann alternativ als eine Form von Spektrumsvergleich betrachtet werden, wobei das Signalspektrum mit einem Bezugsspektrum (der Umkehrung der Reaktion des fiktiven Filters) abgeglichen wird. Da das fiktive Filter bei dieser Anwendung so ausgewählt ist, daß es der Umkehrung des Rauschspektrums angenähert ist, kann diese Operation als Spektralvergleich zwischen Sprach- und Rauschspektren betrachtet werden, und der so erzeugte nullte Autokorrelationskoeffizient (d. h. die Energie des invertierten, gefilterten Signals) als Meßwert der Unähnlichkeit zwischen den Spektren. Der Itakura-Saito-Verzerrungsmeßwert wird bei einer LPC verwendet, um die Übereinstimmung zwischen dem Prädiktorfilter und dem Eingangsspektrum zu beurteilen, und wird in einer Form durchThe filtering operation can alternatively be viewed as a form of spectrum comparison, where the signal spectrum is compared with a reference spectrum (the inverse of the response of the fictitious filter). Since the fictitious filter in this application is chosen to approximate the inverse of the noise spectrum , this operation can be considered as a spectral comparison between speech and noise spectra, and the zeroth autocorrelation coefficient thus generated (i.e. the energy of the inverted, filtered signal) as a measure of the dissimilarity between the spectra. The Itakura-Saito distortion measure is used in an LPC to assess the agreement between the predictor filter and the input spectrum, and is given in a form by
M = R&sub0;A&sub0; + 2 RiAiM = R�0;A�0; + 2 RiAi
ausgedrückt, wobei Aa, etc. die Autokorrelationskoeffizienten des LPC-Parametersatzes sind. Es ist ersichtlich, daß dies der oben abgeleiteten Beziehung sehr ähnlich ist, und wenn im Gedächtnis behalten wird, daß die LPC-Koeffizienten die Anzapfungen eines FIR-Filters mit der invertierten Spektralreaktion des Eingangssignals sind, so daß der LPC-Koeffizientensatz die Impulsantwort des inversen LPC- Filters ist, ist offensichtlich, daß der Itakura-Saito- Verzerrungsmeßwert tatsächlich lediglich eine Form der Gleichung 1 ist, wobei das Ansprechverhalten H des Filters die Umkehrung der Spektrumsform eines All-Pol-Modells des Eingangssignals ist.where Aa, etc. are the autocorrelation coefficients of the LPC parameter set. It can be seen that this is very similar to the relationship derived above, and if it is remembered that the LPC coefficients are the taps of an FIR filter with the inverted spectral response of the input signal, so that the LPC coefficient set is the impulse response of the inverse LPC filter, it is obvious that the Itakura-Saito distortion measure is actually just a form of equation 1, where the response H of the filter is the inverse of the spectrum shape of an all-pole model of the input signal.
Tatsächlich ist es auch möglich, die Spektren unter Verwendung der LPC-Koeffizienten des Prüfspektrums und der Autokorrelationskoeffizienten des Bezugsspektrums zu transponieren, um einen anderen Meßwert der spektralen Ähnlichkeit zu erhalten.In fact, it is also possible to transpose the spectra using the LPC coefficients of the test spectrum and the autocorrelation coefficients of the reference spectrum to obtain another measure of spectral similarity.
Der I-S-Verzerrungsmeßwert ist in "Speech Coding based upon Vector Quantisation" von A. Buzo, A. H. Gray, R. M. Gray und J. D. Markel, IEEE Trans on ASSP, Bd. ASSP-28, Nr. 5, Oktober 1980 genauer besprochen.The I-S distortion measure is discussed in more detail in "Speech Coding based upon Vector Quantisation" by A. Buzo, A. H. Gray, R. M. Gray and J. D. Markel, IEEE Trans on ASSP, Vol. ASSP-28, No. 5, October 1980.
Da die Rahmen eines Signal nur eine endliche Länge aufweisen und eine Reihe von Termen (N, wobei N die Ordnung des Filters ist) vernachlässigt werden, ist das obige Ergebnis nur eine Annäherung; es liefert jedoch einen überraschend guten Indikator für das Vorhandensein oder Fehlen von Sprache und kann somit bei der Spracherfassung als Meßwert M verwendet werden. In einer Umgebung, in der daß Rauschspektrum allgemein bekannt und stationär ist, ist es gut möglich, einfach feste Koeffizienten h&sub0;, h&sub1;, etc. zu verwenden, um das inverse Rauschfilter zu bilden.Since the frames of a signal have only a finite length and a number of terms (N, where N is the order of the filter) are neglected, the above result is only an approximation; however, it provides a surprisingly good indicator of the presence or absence of speech and can thus be used as a measurement M in speech detection. In an environment where the noise spectrum is well known and stationary, it is quite possible to simply use fixed coefficients h₀, h₁, etc. to form the inverse noise filter.
Eine Vorrichtung, die sich auf Umgebungen mit unterschiedlichen Hintergrundgeräuschen einstellen kann, ist jedoch breiter verwendbar.However, a device that can adapt to environments with different background noises has a wider range of uses.
Gemäß Fig. 1 wird bei dem in unserem europäischen Patent Nr. 335 521 beschriebenen ersten Sprachdetektor an einem Eingang 1 ein Signal von einem (nicht dargestellten) Mikrofon empfangen und durch einen Analog-Digital-Wandler mit einer geeigneten Abtastgeschwindigkeit in digitale Proben s umgewandelt. Eine LPC- Analyseeinheit 3 (eines bekannten Typs von LPC-Codiereinrichtung) leitet dann für aufeinanderfolgende Rahmen von n (beispielsweise 160) Proben einen Satz von N (beispielsweise 8 oder 12) LPC- Filterkoeffizienten Li ab, die übertragen werden, um die eingegebene Sprache zu repräsentieren. Das Sprachsignal s dringt auch in eine Korrelatoreinheit 4 ein (die normalerweise ein Teil der LPC- Codiereinrichtung 3 ist, da der Autokorrelationsvektor Ri der Sprache normalerweise auch als Schritt der LPC-Analyse erzeugt wird, obwohl selbstverständlich ein separater Korrelator vorgesehen sein könnte). Der Korrelator 4 erzeugt den Autokorrelationsvektor Ri einschließlich des Korrelationskoeffizienten R&sub0; nullter Ordnung und mindestens zwei weiterer Autokorrelationskoeffizienten R&sub1;, R&sub2;, R&sub5;. Diese werden dann einer Multiplikationseinheit 5 zugeführt.Referring to Fig. 1, in the first speech detector described in our European Patent No. 335,521, a signal from a microphone (not shown) is received at an input 1 and converted into digital samples s by an analog-to-digital converter at a suitable sampling rate. An LPC analysis unit 3 (of a known type of LPC encoder) then derives, for successive frames of n (e.g. 160) samples, a set of N (e.g. 8 or 12) LPC filter coefficients Li which are transmitted to represent the input speech. The speech signal s also enters a correlator unit 4 (which is normally part of the LPC encoder 3, since the autocorrelation vector Ri of the speech is normally also generated as a step of the LPC analysis, although of course a separate correlator could be provided). The correlator 4 generates the autocorrelation vector Ri including the zeroth order correlation coefficient R0 and at least two further autocorrelation coefficients R₁, R₂, R₅. These are then fed to a multiplication unit 5.
Ein zweiter Eingang 11 ist an ein zweites Mikrofon angeschlossen, das vom Lautsprecher entfernt angeordnet ist, damit es nur das Hintergrundrauschen empfängt. Der Eingang von diesem Mikrofon wird durch einen AD-Wandler 12 in eine Kette digitaler Eingangsproben umgewandelt und durch eine zweite LPC-Analyseeinrichtung 13 einer LPC-Analyse unterzogen. Die von der Analyseeinrichtung 13 erzeugten LPC-"Rausch"-Koeffizienten werden zur Korrelatoreinheit 14 geleitet, der so erzeugte Autokorrelationsvektor wird von der Multiplikationseinrichtung 5 Term für Term mit den Autokorrelationskoeffizienten Ri des Eingangssignals von dem Sprachmikrofon multipliziert, und die so erzeugten gewichteten Koeffizienten werden in einer Addiereinrichtung 6 gemäß der Gleichung 1 kombiniert, um ein Filter mit der umgekehrten Form des Rauschspektrums von dem nur das Rauschen übertragenden Mikrofon (die in der Praxis der Form des Rauschspektrums des das Signal und das Rauschen übertragenden Mikrofons entspricht) anzuwenden und damit den größten Teil des Rauschens herauszufiltern. Der resultierende Meßwert M wird von einer Schwellenwerteinrichtung einem Vergleich mit einem Schwellenwert unterzogen, um einen logischen Ausgang 8 zu erzeugen, der das Vorhandensein oder Fehlen von Sprache angibt; wenn M hoch ist, wird davon ausgegangen, daß Sprache vorliegt.A second input 11 is connected to a second microphone which is located away from the loudspeaker so that it receives only the background noise. The input from this microphone is converted into a chain of digital input samples by an AD converter 12 and subjected to LPC analysis by a second LPC analysis device 13. The LPC "noise" coefficients produced by the analysis means 13 are fed to the correlator unit 14, the autocorrelation vector thus produced is multiplied term by term by the autocorrelation coefficients Ri of the input signal from the speech microphone by the multiplication means 5, and the weighted coefficients thus produced are combined in an adder means 6 according to equation 1 to apply a filter having the inverse shape of the noise spectrum from the microphone transmitting only the noise (which in practice corresponds to the shape of the noise spectrum of the microphone transmitting both the signal and the noise) and thereby filter out most of the noise. The resulting measurement value M is compared with a threshold value by a threshold device to produce a logic output 8 indicating the presence or absence of speech; if M is high, speech is assumed to be present.
Der Sprachdetektor erfordert jedoch zwei Mikrofone und zwei LPC-Analyseeinrichtungen, was die benötigte Vorrichtung kostspieliger und komplexer macht.However, the speech detector requires two microphones and two LPC analyzers, which makes the required device more expensive and complex.
Bei einer alternativen Implementation des ersten Sprachdetektors wird ein entsprechender, unter Verwendung der Autokorrelationen vom Rauschmikrofon 11 und der LPC-Koeffizienten vom Hauptmikrofon 1 erzeugter Meßwert verwendet, was bedeutet, daß anstelle einer LPC-Analyseeinrichtung ein zusätzlicher Autokorrelator erforderlich wäre.In an alternative implementation of the first speech detector, a corresponding one is generated using the autocorrelations from the noise microphone 11 and the LPC coefficients from the main microphone 1 generated measurement value is used, which means that instead of an LPC analysis device an additional autocorrelator would be required.
Beide Implementierungen des ersten Sprachdetektors sind daher für die Arbeit in unterschiedlichen Umgebungen mit Hintergrundgeräuschen in unterschiedlichen Frequenzen oder in einer gegebenen Umgebung mit einem veränderlichen Rauschspektrum geeignet.Both implementations of the first speech detector are therefore suitable for working in different environments with background noise at different frequencies or in a given environment with a changing noise spectrum.
Gemäß Fig. 2 ist in einem in unserem europäischen Patent Nr. 335 521 offenbarten zweiten Sprachdetektor ein Puffer 15 vorgesehen, in dem ein von dem Mikrofoneingang 1 in einer "sprachfreien" (d. h. einer nur ein Rauschen enthaltenden) Periode abgeleiteter Satz LPC-Koeffizienten (bzw. der Autokorrelationsvektor des Satzes) gespeichert ist. Diese Koeffizienten werden dann unter Verwendung der Gleichung 1 zur Ableitung eines Meßwerts verwendet, der natürlich ebenfalls dem Itakura-Seito-Verzerrungsmeßwert entspricht, mit der Ausnahme, daß anstelle des vorliegenden Rahmens von LPC- Koeffizienten ein einzelner, gespeicherter, einer Annäherung der Umkehrung des Rauschspektrums entsprechender Rahmen von LPC- Koeffizienten verwendet wird.Referring to Figure 2, in a second speech detector disclosed in our European Patent No. 335,521, a buffer 15 is provided in which a set of LPC coefficients (or the autocorrelation vector of the set) derived from the microphone input 1 in a "speech-free" (i.e., one containing only noise) period is stored. These coefficients are then used to derive a measurement using Equation 1 which, of course, also corresponds to the Itakura-Seito distortion measurement, with the exception that instead of the present frame of LPC coefficients, a single, stored frame of LPC coefficients corresponding to an approximation of the inverse of the noise spectrum is used.
Der von der Analyseeinrichtung 3 ausgegebene LPC- Koeffizientenvektor Li wird ebenfalls an einen Korrelator 14 weitergeleitet, der einen Autokorrelationsvektor des LPC-Koeffizientenvektors erzeugt. Der Pufferspeicher 15 wird durch den Sprache/keine Sprache anzeigenden Ausgang der Schwellenwerteinrichtung 7, beispielsweise mittels eines Mehrfachschalters 16, über den die Ausgänge des Korrelators 14, die jeden Autokorrelationskoeffizienten tragen, an den Puffer 15 angeschlossen werden, so gesteuert, daß der Puffer während der Sprache enthaltenden Rahmen die "Rausch"- Autokorrelationskoeffizienten hält, während der "Rausch"-Rahmen jedoch ein neuer Satz von LPC-Koeffizienten zur Aktualisierung des Puffers verwendet werden kann. Es ist offensichtlich, daß der Korrelator 14 hinter dem Puffer 15 angeordnet sein könnte. Ferner muß die Entscheidung, ob Sprache vorliegt oder nicht, für die Koeffizientenaktualisierung nicht anhand des Ausgangs 8 erfolgen, sondern könnte (und wird vorzugsweise) anderweitig abgeleitet werden.The LPC coefficient vector Li output by the analysis device 3 is also passed to a correlator 14 which generates an autocorrelation vector of the LPC coefficient vector. The buffer memory 15 is controlled by the speech/no-speech indicating output of the threshold device 7, for example by means of a multiple switch 16 via which the outputs of the correlator 14 carrying each autocorrelation coefficient are connected to the buffer 15, so that the buffer stores the "noise" signal during the speech-containing frame. autocorrelation coefficients, but during the "noise" frame a new set of LPC coefficients can be used to update the buffer. It is obvious that the correlator 14 could be placed after the buffer 15. Furthermore, the decision as to whether or not speech is present for the coefficient update need not be made from the output 8, but could (and preferably is) derived from elsewhere.
Da häufig Perioden ohne Sprache auftreten, werden die im Puffer gespeicherten LPC-Koeffizienten von Zeit zu Zeit aktualisiert, so daß die Vorrichtung dadurch zur Verfolgung von Veränderungen des Rauschspektrums geeignet ist. Es ist offensichtlich, daß eine derartige Aktualisierung des Puffers nur gelegentlich nötig sein oder nur einmal zu Beginn des Betriebs des Detektors erfolgen kann, wenn das Rauschspektrum (wie es häufig der Fall ist) über die Zeit verhältnismäßig stationär ist, doch in einer Mobilfunkumgebung ist eine häufige Aktualisierung zu bevorzugen.Since periods of no speech often occur, the LPC coefficients stored in the buffer are updated from time to time, thereby making the device suitable for tracking changes in the noise spectrum. It is obvious that such an update of the buffer may only be necessary occasionally, or only once at the start of operation of the detector if the noise spectrum is relatively stationary over time (as is often the case), but in a cellular environment frequent updating is preferable.
Bei einer Modifikation des zweiten Sprachdetektors verwendet das System anfangs die Gleichung 1 mit einem einfachen, festen Hochpaßfilter entsprechenden Koeffiziententermen und beginnt anschließend, sich durch Umschalten auf die Verwendung von LPC- "Rauschperioden"-Koeffizienten anzupassen. Wenn die Spracherkennung aus irgendwelchen Gründen scheitert, kann das System zur Verwendung des einfachen Hochpaßfilters zurückkehren.In a modification of the second speech detector, the system initially uses Equation 1 with a simple, fixed high-pass filter corresponding coefficient terms and then begins to adapt by switching to the use of LPC "noise period" coefficients. If speech recognition fails for any reason, the system can revert to using the simple high-pass filter.
Es ist möglich, die vorstehend beschriebenen Meßwerte durch eine Division durch 1% zu normalisieren, so daß der Ausdruck, an dem der Vergleich mit dem Schwellenwert vorgenommen werden soll, die folgende Form annimmt: It is possible to normalize the measurements described above by dividing by 1%, so that the expression to be compared with the threshold takes the following form:
Dieser Meßwert ist unabhängig von der Gesamtsignalenergie in einem Rahmen und wird daher für erhebliche Signalpegeländerungen kompensiert, ergibt aber einen eher weniger markanten Kontrast zwischen "Rausch"- und "Sprach"-Pegeln und wird daher vorzugsweise nicht in Umgebungen mit starken Hintergrundgeräuschen eingesetzt.This measurement is independent of the total signal energy in a frame and is therefore compensated for significant signal level changes, but results in a rather less pronounced contrast between "noise" and "speech" levels and is therefore preferably not used in environments with strong background noise.
Statt der Verwendung der LPC-Analyse zum Ableiten der inversen Filterkoeffizienten des Rauschsignals (entweder vom Rauschmikrofon oder aus nur das Rauschen enthaltenden Perioden, wie bei dem vorstehend beschriebenen ersten und zweiten Sprachdetektor) ist es möglich, das inverse Rauschspektrum unter Verwendung eines adaptiven Filters eines bekannten Typs zu modellieren; da sich das Rauschspektrum nur langsam verändert (wie nachstehend besprochen) ist die bei derartigen Filtern übliche, relativ langsame Koeffizientenanpassungsgeschwindigkeit akzeptabel. Bei einer Implementation, die Fig. 1 entspricht, wird die LPC-Analyseeinheit 13 einfach durch ein adaptives Filter (beispielsweise ein Transversal-FIR- oder Brückenfilter) ersetzt, das so angeschlossen ist, daß es das eingegebene Rauschen durch Modellieren des inversen Filters aufhellt, und seine Koeffizienten werden, wie zuvor, dem Autokorrelator 14 zugeführt.Instead of using LPC analysis to derive the inverse filter coefficients of the noise signal (either from the noise microphone or from periods containing only the noise, as in the first and second speech detectors described above), it is possible to model the inverse noise spectrum using an adaptive filter of a known type; since the noise spectrum changes only slowly (as discussed below), the relatively slow coefficient adaptation speed typical of such filters is acceptable. In an implementation corresponding to Fig. 1, the LPC analysis unit 13 is simply replaced by an adaptive filter (for example a transversal FIR or bridge filter) connected to lighten the input noise by modeling the inverse filter, and its coefficients are fed to the autocorrelator 14 as before.
Bei einer zweiten Implementation, die der gemäß Fig. 2 entspricht, wird die LPC-Analyseeinrichtung 3 durch ein solches adaptives Filter ersetzt, und auf eine Puffereinrichtung 15 wird verzichtet, doch der Schalter 16 funktioniert so, daß er eine Anpassung der Koeffizienten durch das adaptive Filter während der Perioden verhindert, in denen gesprochen wird.In a second implementation, corresponding to that of Fig. 2, the LPC analysis device 3 is replaced by such an adaptive filter and a buffer device 15 is omitted, but the switch 16 functions to prevent adaptation of the coefficients by the adaptive filter during periods of speech.
Nachstehend wird ein Sprachdetektor gemäß einer Ausführungsform der vorliegenden Erfindung beschrieben.A speech detector according to an embodiment of the present invention will be described below.
Aus Vorstehendem geht klar hervor, daß der LPC- Koeffizientenvektor einfach die Impulsantwort eines FIR-Filters mit einem Ansprechverhalten ist, das der invertierten spektralen Form des Eingangssignals angenähert ist. Wenn der Itakura-Saito- Verzerrungsmeßwert zwischen aufeinanderfolgenden Rahmen erzeugt wird, entspricht dies tatsächlich der durch das LPC-Filter des vorhergehenden Rahmens gefilterten Potenz des Signals. Wenn sich daher die Spektren aufeinanderfolgender Rahmen wenig unterscheiden, entgeht eine dementsprechend geringe Menge der spektralen Leistung eines Rahmens der Filterung, und der Meßwert ist niedrig. Dementsprechend erzeugt eine große Differenz zwischen den Spektren der Rahmen einen hohen Itakura-Saito-Verzerrungsmeßwert, so daß die Messung die spektrale Ähnlichkeit zwischen aufeinanderfolgenden Rahmen wiedergibt. Bei einer Sprachcodiereinrichtung ist es wünschenswert, die Datengeschwindigkeit zu minimieren, so daß die Rahmenlänge so lang wie möglich eingestellt wird; anders ausgedrückt sollte ein Sprachsignal von Rahmen zu Rahmen eine signifikante spektrale Veränderung zeigen, wenn die Rahmenlänge lang genug ist (ist dies nicht der Fall, ist die Codierung redundant). Das Rauschen hat andererseits eine sich von Rahmen zu Rahmen nur langsam verändernde spektrale Form, und daher ist der Itakura- Saito-Verzerrungsmeßwert in einer Periode, in der Sprache in dem Signal fehlt, dementsprechend niedrig, da die Anwendung des inversen LPC-Filters des vorhergehenden Rahmens den größten Teil der Rauschenergie "herausfiltert".From the above, it is clear that the LPC coefficient vector is simply the impulse response of an FIR filter with a response approximating the inverted spectral shape of the input signal. When the Itakura-Saito distortion measurement is produced between successive frames, it actually corresponds to the power of the signal filtered by the LPC filter of the previous frame. Therefore, if the spectra of successive frames differ little, a correspondingly small amount of the spectral power of a frame escapes filtering and the measurement is low. Accordingly, a large difference between the spectra of the frames produces a high Itakura-Saito distortion measurement, so that the measurement reflects the spectral similarity between successive frames. In a speech encoder, it is desirable to minimize the data rate, so the frame length is set as long as possible; in other words, a speech signal should show a significant spectral change from frame to frame if the frame length is long enough (if this is not the case, the coding is redundant). The noise, on the other hand, has a spectral shape that changes only slowly from frame to frame, and so the Itakura-Saito distortion measure is correspondingly low during a period when speech is absent from the signal, since the application of the inverse LPC filter of the previous frame "filters out" most of the noise energy.
Typischer Weise ist der Itakura-Saito-Verzerrungsmeßwert zwischen aufeinanderfolgenden Rahmen bei einem Signal mit starkem Rauschen, das Sprache mit Unterbrechungen enthält, während der Perioden mit Sprache höher als während Perioden, in denen nur ein Rauschen vorliegt; der Grad der Veränderung ist (wie durch die Standardabweichung dargestellt) ebenfalls höher und verändert sich mit weniger Unterbrechungen.Typically, for a highly noisy signal containing intermittent speech, the Itakura-Saito distortion measure between consecutive frames is higher during periods of speech than during periods of noise only; the degree of change is (as indicated by the standard deviation) is also higher and changes with fewer interruptions.
Es wird darauf hingewiesen, daß die Standardabweichung der Standardabweichung von M auch ein zuverlässiger Meßwert ist; die Wirkung der Verwendung jeder Standardabweichung ist im wesentlichen eine Glättung der Messung.It should be noted that the standard deviation of the standard deviation of M is also a reliable measure; the effect of using any standard deviation is essentially to smooth the measurement.
Bei dieser Ausführungsform ist der zur Feststellung, ob Sprache vorhanden ist, verwendete, gemessene Parameter vorzugsweise die Standardabweichung des Itakura-Saito-Verzerrungsmeßwerts, doch es können auch andere Messungen der Abweichung und andere spektrale Verzerrungsmeßwerte (beispielsweise auf der Grundlage der FFT-Analyse) verwendet werden.In this embodiment, the measured parameter used to determine whether speech is present is preferably the standard deviation of the Itakura-Saito distortion measure, but other measures of deviation and other spectral distortion measures (e.g. based on FFT analysis) may also be used.
Es wurde festgestellt, daß es vorteilhaft ist, bei der Erfassung von Sprachlauten einen adaptiven Schwellenwert zu verwenden. Derartige Schwellenwerte dürfen nicht während der Sprache enthaltenden Perioden eingestellt werden, oder das Sprachsignal wird durch den Schwellenwert entfernt. Dementsprechend ist es erforderlich, die Schwellenwerteinstelleinrichtung unter Verwendung eines Sprache/keine Sprache anzeigenden Steuersignals zu steuern; und vorzugsweise ist dieses Steuersignal unabhängig vom Ausgang der Einrichtung zur Anpassung des Schwellenwerts.It has been found advantageous to use an adaptive threshold when detecting speech sounds. Such thresholds must not be adjusted during periods containing speech or the speech signal will be removed by the threshold. Accordingly, it is necessary to control the threshold adjusting means using a speech/no speech indicating control signal; and preferably this control signal is independent of the output of the threshold adjusting means.
Der Schwellenwert T wird adaptiv eingestellt, um den Schwellenwertpegel unmittelbar über dem Pegel des Meßwerts M zu halten, wenn ein Rauschen vorliegt. Da der Meßwert im allgemeinen zufällig schwankt, wenn Hintergrundgeräusche vorliegen, wird der Schwellenwert durch die Bestimmung eines Durchschnittspegels über eine Reihe von Blöcken und Einstellen des Schwellenwerts auf einen zu dem Durchschnittswert proportionalen Pegel verändert. In einer lauten Umgebung ist dies jedoch normalerweise nicht ausreichend, und daher wird auch eine Ermittlung des Grads der Veränderung des Parameters über mehrere Blocks berücksichtigt.The threshold T is adjusted adaptively to keep the threshold level just above the level of the measured value M when noise is present. Since the measured value generally fluctuates randomly when background noise is present, the threshold is varied by determining an average level over a series of blocks and adjusting the threshold to a level proportional to the average. However, in a noisy environment this is usually not sufficient and Therefore, a determination of the degree of change of the parameter over several blocks is also taken into account.
Der Schwellenwert T wird daher vorzugsweise gemäßThe threshold value T is therefore preferably determined according to
T = M' + K·dT = M' + K d
berechnet; wobei M' der Durchschnittswert der Meßwerte über mehrere aufeinanderfolgende Rahmen, d die Standardabweichung der Meßwerte über diese Rahmen und K eine Konstante (die typischer Weise 2 ist) sind.where M' is the average of the measurements over several consecutive frames, d is the standard deviation of the measurements over these frames and K is a constant (which is typically 2).
In der Praxis wird die Anpassung vorzugsweise nicht unmittelbar nach der Feststellung des Fehlens von Sprache wieder aufgenommen, sondern es wird gewartet, um sicherzustellen, daß der Abfall stabil ist (um ein wiederholtes, rasches Umschalten zwischen dem Zustand, in dem eine Anpassung erfolgt, und dem Zustand, in dem keine Anpassung erfolgt, zu verhindern.In practice, adaptation is preferably not resumed immediately after the absence of speech is detected, but rather one waits to ensure that the decay is stable (to prevent repeated, rapid switching between the state in which adaptation occurs and the state in which no adaptation occurs).
Gemäß Fig. 3 empfängt bei einer bevorzugten Ausführungsform der Erfindung, die die vorstehend besprochenen Aspekte beinhaltet, ein Eingang 1 ein Signal, das abgetastet und durch einen Analog-Digital-Wandler (ADC) 2 digitalisiert und dem Eingang einer inversen Filtereinrichtung 3 zugeführt wird, die in der Praxis Teil einer Sprachcodiereinrichtung ist, die die Sprachlaute verarbeiten soll und (typischer Weise acht) Koeffizienten Li eines Filters erzeugt, die der Umkehrung des Eingangssignalspektrums entsprechen. Das digitalisierte Signal wird auch einem Autokorrelator 4 zugeführt (der Teil der Analyseeinrichtung 3 ist), der den Autokorrelationsvektor Ri des Eingangssignals (oder zumindest so viele Terme niedriger Ordnung, wie LPC-Koeffizienten vorhanden sind) erzeugt. Die Funktionsweise dieser Teile der Vorrichtung ist, wie in den Fig. 1 und 2 beschrieben. Vorzugsweise wird dann über mehrere aufeinanderfolgende (typischer Weise 5-20 ms lange) Sprachrahmen ein Durchschnittswert der Autokorrelationskoeffizienten Ri gebildet, um ihre Zuverlässigkeit zu verbessern. Dies kann durch Speichern jedes von dem Autokorrelator 4 ausgegebenen Satzes von Autokorrelationskoeffizienten in einem Puffer 4a und Verwenden einer Einrichtung 4b zur Ermittlung eines Durchschnittswerts zur Erzeugung einer gewichteten Summe der aktuellen Autokorrelationskoeffizienten R1 und der im Puffer 4a gespeicherten und von diesem zugeführten Autokorrelationskoeffizienten der vorhergehenden Rahmen erreicht werden. Die so abgeleiteten durchschnittlichen Autokorrelationskoeffizienten Rai werden einer Gewichtungs- und Additionseinrichtung 5, 6 zugeführt, die von einem Autokorrelator 14 über einen Puffer 15 auch den Autokorrelationsvektor Ai der gespeicherten inversen Filterkoeffizienten Li für eine Periode, in der ein Rauschen vorliegt, empfängt und anhand von Rai und Ai Meßwerte erzeugt, die vorzugsweise wie folgt definiert sind:Referring to Fig. 3, in a preferred embodiment of the invention incorporating the aspects discussed above, an input 1 receives a signal which is sampled and digitized by an analog-to-digital converter (ADC) 2 and fed to the input of an inverse filter device 3 which in practice is part of a speech coding device intended to process the speech sounds and produces (typically eight) coefficients Li of a filter corresponding to the inverse of the input signal spectrum. The digitized signal is also fed to an autocorrelator 4 (which is part of the analysis device 3) which produces the autocorrelation vector Ri of the input signal (or at least as many low order terms as there are LPC coefficients). The operation of these parts of the device is as described in Figs. 1 and 2. Preferably, an average value of the Autocorrelation coefficients Ri are formed to improve their reliability. This can be achieved by storing each set of autocorrelation coefficients output by the autocorrelator 4 in a buffer 4a and using an average means 4b to generate a weighted sum of the current autocorrelation coefficients R1 and the autocorrelation coefficients of the previous frames stored in and supplied from the buffer 4a. The average autocorrelation coefficients Rai thus derived are supplied to a weighting and adding means 5, 6 which also receives from an autocorrelator 14 via a buffer 15 the autocorrelation vector Ai of the stored inverse filter coefficients Li for a period in which noise is present and generates measured values from Rai and Ai which are preferably defined as follows:
M = A&sub0; + Σ M = A₀ + Σ
Dieser Meßwert wird dann durch die Schwellenwerteinrichtung 7 mit einem Schwellenpegel verglichen, und das logische Ergebnis liefert eine Angabe hinsichtlich des Vorhandenseins oder Fehlens von Sprache im Ausgang 8.This measurement is then compared with a threshold level by the threshold device 7, and the logical result provides an indication of the presence or absence of speech at the output 8.
Damit die inversen Filterkoeffizienten Li einer ungefähren Schätzung des Rauschspektrums entsprechen, ist eine Aktualisierung dieser Koeffizienten während der Rauschperiode (und selbstverständlich keine Aktualisierung während der Perioden, in denen gesprochen wird) wünschenswert. Vorzugsweise hängt die Entscheidung, ob gesprochen wird oder nicht, auf der die Aktualisierung basiert, nicht vom Ergebnis der Aktualisierung ab, anderenfalls könnte ein einziger, falsch identifizierter Rahmen eines Signals zur Folge haben, daß der Sprachdetektor anschließend "den Blick verliert" und die folgenden Rahmen falsch identifiziert. Daher ist vorzugsweise eine Steuersignalerzeugungsschaltung 20, effizienter Weise ein separater Sprachdetektor, vorgesehen, die ein unabhängiges Steuersignal erzeugt, das der inversen Steuerfilteranalyseeinrichtung 3 (oder dem Puffer 8) das Vorhandensein oder Fehlen von Sprache anzeigt, so daß die Autokorrelationskoeffizienten Ai des inversen Filters, die zur Erzeugung des Meßwerts M verwendet werden, nur während der Perioden aktualisiert werden, in denen nur ein Rauschen enthalten ist. Die Steuersignalerzeugungsschaltung 20 umfaßt eine LPC- Analyseeinrichtung 21 (die wiederum ein Teil der Sprachcodiereinrichtung sein und insbesondere durch die Analyseeinrichtung 3 ausgeführt sein kann), die einen Satz dem eingegebenen Signal entsprechender LPC-Koeffizienten Mi erzeugt, und einen Autokorrelator 21a (der durch einen Autokorrelator 3a ausgeführt sein kann), der die Autokorrelationskoeffizienten Bi von M; ableitet. Wird die Analyseeinrichtung 21 durch die Analyseeinrichtung 3 ausgeführt, gelten Mi = Li und Bi = Ai. Diese Autokorrelationskoeffizienten werden dann der Gewichtungs- und Additionseinrichtung 22, 23 (äquivalent zu 5, 6) zugeführt, die auch den Autokorrelationsvektor Ri des Eingangssignals von dem Autokorrelator 4 empfängt. So wird ein Meßwert der spektralen Ähnlichkeit zwischen dem eingegebenen Sprachrahmen und dem vorhergehenden Sprachrahmen berechnet; dabei kann es sich um den Itakura-Saito-Verzerrungsmeßwert zwischen Ri des gegenwärtigen Rahmens und Bi des vorhergehenden Rahmens handeln, wie vorstehend offenbart, oder er kann statt dessen durch Berechnen des itakura-Saito-Verzerrungsmeßwerts für Ri und Bi des gegenwärtigen Rahmens und Subtrahieren des entsprechenden Meßwerts für den vorherigen, im Puffer 24 gespeicherten Rahmen (in der Subtraktionseinrichtung 25) zur Erzeugung eines spektralen Differenzsignals abgeleitet werden (in beiden Fällen wird der Meßwert vorzugsweise durch eine Division durch R&sub0; energienormalisiert). Der Puffer 24 wird dann selbstverständlich aktualisiert. Dieses spektrale Differenzsignal ist, wie vorstehend besprochen, nach dem Abgleich mit einem Schwellenwert durch eine Schwellenwerteinrichtung 26 ein Indikator für das Vorhandensein oder Fehlen von Sprache. Wir haben jedoch festgestellt, daß dieser Meßwert, obwohl er ausgezeichnet zur Unterscheidung zwischen Rauschen und stimmloser Sprache ist (eine Aufgabe, für die Systeme gemäß dem Stand der Technik im allgemeinen ungeeignet sind), zur Unterscheidung zwischen Hintergrundgeräuschen und stimmhafter Sprache im allgemeinen weniger geeignet ist. Dementsprechend ist in der Schaltung 20 vorzugsweise ferner eine Schaltung zur Erfassung stimmhafter Sprache mit einer Tonhöhenanalyseeinrichtung 27 vorgesehen (die in der Praxis als ein Teil der Sprachcodiereinrichtung fungieren und insbesondere den von einer Mehrfachimpuls-LPC-Codiereinrichtung erzeugten, langfristigen Vorhersageverzögerungswert messen kann). Die Tonhöhenanalyseeinrichtung 27 erzeugt ein logisches Signal, daß "wahr" ist, wenn stimmhafte Sprache erfaßt wird, wobei dieses Signal zusammen mit dem von der Schwellenwerteinrichtung 26 durch den Vergleich mit dem Schwellenwert ermittelten Meßwert (der im allgemeinen "wahr" ist, wenn stimmlose Sprache vorliegt) den Eingängen eines NICHT- ODER-Gatters 28 zugeführt wird, um ein Signal zu erzeugen, das "falsch" ist, wenn Sprache vorhanden ist, und "wahr", wenn ein Rauschen vorliegt. Dieses Signal wird dem Puffer 8 (bzw. der inversen Filteranalyseeinrichtung 3) zugeführt, so daß die inversen Filterkoeffizienten Li nur während der Perioden aktualisiert wird, in denen nur ein Rauschen vorliegt.In order for the inverse filter coefficients Li to correspond to an approximate estimate of the noise spectrum, it is desirable to update these coefficients during the noise period (and of course not to update them during periods of speech). Preferably, the decision whether or not speech is present, on which the update is based, does not depend on the result of the update, otherwise a single wrongly identified frame of a signal could cause the speech detector to subsequently "lose sight"and incorrectly identifies the following frames. Therefore, a control signal generating circuit 20, effectively a separate speech detector, is preferably provided which generates an independent control signal indicating the presence or absence of speech to the inverse control filter analysis device 3 (or the buffer 8), so that the autocorrelation coefficients Ai of the inverse filter used to generate the measured value M are only updated during the periods in which only noise is contained. The control signal generating circuit 20 comprises an LPC analysis device 21 (which in turn may be part of the speech coding device and in particular may be implemented by the analysis device 3) which generates a set of LPC coefficients Mi corresponding to the input signal, and an autocorrelator 21a (which may be implemented by an autocorrelator 3a) which derives the autocorrelation coefficients Bi from M;. When the analysis device 21 is implemented by the analysis device 3, Mi = Li and Bi = Ai. These autocorrelation coefficients are then fed to the weighting and adding means 22, 23 (equivalent to 5, 6) which also receives the autocorrelation vector Ri of the input signal from the autocorrelator 4. Thus, a measure of the spectral similarity between the input speech frame and the previous speech frame is calculated; this may be the Itakura-Saito distortion measure between Ri of the current frame and Bi of the previous frame as disclosed above, or may instead be derived by calculating the Itakura-Saito distortion measure for Ri and Bi of the current frame and subtracting the corresponding measure for the previous frame stored in the buffer 24 (in the subtraction means 25) to produce a spectral difference signal (in both cases the measure is preferably energy normalized by division by R₀). The buffer 24 is then, of course, updated. This spectral difference signal, after being thresholded by a thresholding means 26, as discussed above, is an indicator of the presence or absence of speech. However, we have found that this measure, although excellent at distinguishing between noise and unvoiced speech (a task for which prior art systems are generally inadequate), is generally less suitable for distinguishing between background noise and voiced speech. Accordingly, the circuit 20 preferably further includes a voiced speech detection circuit comprising a pitch analyzer 27 (which in practice may function as part of the speech encoder and in particular may measure the long term prediction delay value produced by a multi-pulse LPC encoder). The pitch analyzer 27 produces a logic signal which is "true" when voiced speech is detected, which signal, together with the measurement determined by the thresholder 26 by comparison with the threshold (which is generally "true" when unvoiced speech is present) is fed to the inputs of a NOR gate 28 to produce a signal which is "false" when speech is present and "true" when noise is present. This signal is fed to the buffer 8 (or the inverse filter analyzer 3) so that the inverse filter coefficients Li are updated only during the periods when only noise is present.
Der Schwellenwertanpassungseinrichtung 29 ist auch so angeschlossen, daß sie den Steuerausgang der Steuersignalerzeugungsschaltung 20 in Form eines das Fehlen von Sprache anzeigenden Signals empfängt. Der Ausgang der Schwellenwertanpassungseinrichtung 29 wird der Schwellenwerteinrichtung 7 zugeführt. Die Schwellerlwertanpassungseinrichtung arbeitet, indem sie den Schwellenwert in Schritten hoch- oder herunterzählt, die proportional zu dem aktuellen Schwellenwert sind, bis der Schwellenwert dem Rauschenergiepegel (der z. B. günstiger Weise von den Gewichtungs- und Additionsschaltungen 22, 23 abgeleitet werden kann) angenähert ist. Wenn das Eingangssignal sehr schwach ist, kann es wünschenswert sein, den Schwellenwert automatisch auf einen festen, niedrigen Pegel einzustellen, da die von der ADC 2 erzeugte Wirkung der Signalquantisierung bei niedrigen Signalpegeln unzuverlässige Ergebnisse liefern kann.The threshold adjustment device 29 is also connected to provide the control output of the control signal generating circuit 20 in the form of a signal indicating the absence of speech. signal. The output of the threshold adjuster 29 is fed to the threshold adjuster 7. The threshold adjuster operates by counting the threshold up or down in steps proportional to the current threshold until the threshold approaches the noise energy level (which may conveniently be derived from the weighting and summing circuits 22, 23, for example). If the input signal is very weak, it may be desirable to automatically set the threshold to a fixed, low level, since the signal quantization effect produced by the ADC 2 may give unreliable results at low signal levels.
Es kann ferner eine "Überhangerzeugungseinrichtung" 30 vorgesehen sein, die die Dauer der Anzeigen von Sprache nach der Schwellenwerteinrichtung 7 mißt, und wenn das Vorhandensein von Sprache für eine Periode angezeigt wurde, die eine vorgegebene Zeitkonstante übersteigt, wird der Ausgang für eine kurze "Überhangperiode" hoch gehalten. Auf diese Weise wird ein Abschneiden der Mitte von Sprachlauten mit niedrigem Pegel verhindert, und eine geeignete Auswahl der Zeitkonstante verhindert eine Aktivierung des Überhanggenerators 30 durch kurze Lärmspitzen, die fälschlicher Weise als Sprache angezeigt werden.A "hangover generator" 30 may also be provided which measures the duration of indications of speech after the threshold means 7 and if the presence of speech has been indicated for a period exceeding a predetermined time constant, the output is held high for a short "hangover" period. In this way, clipping of the center of low level speech sounds is prevented and appropriate selection of the time constant prevents activation of the hangover generator 30 by short noise peaks which are falsely indicated as speech.
Es ist natürlich offensichtlich, daß sämtliche vorstehend beschriebenen Funktionen von einer einzigen, geeignet programmierten digitalen Verarbeitungseinrichtung, beispielsweise einem digitalen Signalverarbeitungschip (DSP-Chip) als Teil eines so implementierten LPC-Codec (dies ist die bevorzugte Implementation) oder durch einen geeignet programmierten Mikrocomputer oder Mikrosteuerungschip mit einer zugehörigen Speichervorrichtung ausgeführt werden können.It is of course obvious that all the functions described above can be performed by a single, suitably programmed digital processing device, for example a digital signal processing chip (DSP chip) as part of an LPC codec implemented in this way (this is the preferred implementation) or by a suitably programmed microcomputer or microcontroller chip with an associated storage device.
Günstiger Weise kann die Spracherfassungsvorrichtung, wie vorstehend beschrieben, als Teil eines LPC-Codec implementiert werden. Alternativ kann die Stimmerkennung von dem Codec entfernt erfolgen, wenn die Autokorrelationskoeffizienten des Signals oder zugehörige Meßwerte (Teilkorrelations- oder "Parcor"-Koeffizienten) an eine entfernte Station übertragen werden.Conveniently, the speech detection device can be implemented as part of an LPC codec as described above. Alternatively, voice detection can be performed remotely from the codec when the signal's autocorrelation coefficients or associated measurements (partial correlation or "parcor" coefficients) are transmitted to a remote station.
Claims (4)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB888805795A GB8805795D0 (en) | 1988-03-11 | 1988-03-11 | Voice activity detector |
GB888813346A GB8813346D0 (en) | 1988-06-06 | 1988-06-06 | Voice activity detection |
GB888820105A GB8820105D0 (en) | 1988-08-24 | 1988-08-24 | Voice activity detection |
Publications (2)
Publication Number | Publication Date |
---|---|
DE68929442D1 DE68929442D1 (en) | 2003-01-23 |
DE68929442T2 true DE68929442T2 (en) | 2003-10-02 |
Family
ID=27263821
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE68929442T Expired - Lifetime DE68929442T2 (en) | 1988-03-11 | 1989-03-10 | Device for recording speech sounds |
DE68910859T Expired - Lifetime DE68910859T2 (en) | 1988-03-11 | 1989-03-10 | Detection for the presence of a speech signal. |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE68910859T Expired - Lifetime DE68910859T2 (en) | 1988-03-11 | 1989-03-10 | Detection for the presence of a speech signal. |
Country Status (16)
Country | Link |
---|---|
EP (2) | EP0548054B1 (en) |
JP (2) | JP3321156B2 (en) |
KR (1) | KR0161258B1 (en) |
AU (1) | AU608432B2 (en) |
BR (1) | BR8907308A (en) |
CA (1) | CA1335003C (en) |
DE (2) | DE68929442T2 (en) |
DK (1) | DK175478B1 (en) |
ES (2) | ES2188588T3 (en) |
FI (2) | FI110726B (en) |
HK (1) | HK135896A (en) |
IE (1) | IE61863B1 (en) |
NO (2) | NO304858B1 (en) |
NZ (1) | NZ228290A (en) |
PT (1) | PT89978B (en) |
WO (1) | WO1989008910A1 (en) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2643593B2 (en) * | 1989-11-28 | 1997-08-20 | 日本電気株式会社 | Voice / modem signal identification circuit |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
US5241692A (en) * | 1991-02-19 | 1993-08-31 | Motorola, Inc. | Interference reduction system for a speech recognition device |
FR2697101B1 (en) * | 1992-10-21 | 1994-11-25 | Sextant Avionique | Speech detection method. |
SE470577B (en) * | 1993-01-29 | 1994-09-19 | Ericsson Telefon Ab L M | Method and apparatus for encoding and / or decoding background noise |
JPH06332492A (en) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | Method and device for voice detection |
SE501305C2 (en) * | 1993-05-26 | 1995-01-09 | Ericsson Telefon Ab L M | Method and apparatus for discriminating between stationary and non-stationary signals |
EP0633658A3 (en) * | 1993-07-06 | 1996-01-17 | Hughes Aircraft Co | Voice activated transmission coupled AGC circuit. |
IN184794B (en) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
SE501981C2 (en) * | 1993-11-02 | 1995-07-03 | Ericsson Telefon Ab L M | Method and apparatus for discriminating between stationary and non-stationary signals |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
FR2727236B1 (en) * | 1994-11-22 | 1996-12-27 | Alcatel Mobile Comm France | DETECTION OF VOICE ACTIVITY |
GB2317084B (en) * | 1995-04-28 | 2000-01-19 | Northern Telecom Ltd | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
GB2306010A (en) * | 1995-10-04 | 1997-04-23 | Univ Wales Medicine | A method of classifying signals |
FR2739995B1 (en) * | 1995-10-13 | 1997-12-12 | Massaloux Dominique | METHOD AND DEVICE FOR CREATING COMFORT NOISE IN A DIGITAL SPEECH TRANSMISSION SYSTEM |
US5794199A (en) * | 1996-01-29 | 1998-08-11 | Texas Instruments Incorporated | Method and system for improved discontinuous speech transmission |
DE69716266T2 (en) | 1996-07-03 | 2003-06-12 | British Telecommunications P.L.C., London | VOICE ACTIVITY DETECTOR |
US6618701B2 (en) | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
DE10052626A1 (en) * | 2000-10-24 | 2002-05-02 | Alcatel Sa | Adaptive noise level estimator |
CN1617606A (en) * | 2003-11-12 | 2005-05-18 | 皇家飞利浦电子股份有限公司 | Method and device for transmitting non voice data in voice channel |
US7155388B2 (en) * | 2004-06-30 | 2006-12-26 | Motorola, Inc. | Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization |
US7139701B2 (en) * | 2004-06-30 | 2006-11-21 | Motorola, Inc. | Method for detecting and attenuating inhalation noise in a communication system |
FI20045315A (en) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Detection of voice activity in an audio signal |
US8708702B2 (en) * | 2004-09-16 | 2014-04-29 | Lena Foundation | Systems and methods for learning using contextual feedback |
US8775168B2 (en) | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
US8175871B2 (en) | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
US8954324B2 (en) | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8223988B2 (en) | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
US8275136B2 (en) | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
US8244528B2 (en) | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
US8611556B2 (en) | 2008-04-25 | 2013-12-17 | Nokia Corporation | Calibrating multiple microphones |
ES2371619B1 (en) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | VOICE SEGMENT DETECTION PROCEDURE. |
EP2491549A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | Detector and method for voice activity detection |
CN108985277B (en) * | 2018-08-24 | 2020-11-10 | 广东石油化工学院 | Method and system for filtering background noise in power signal |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3509281A (en) * | 1966-09-29 | 1970-04-28 | Ibm | Voicing detection system |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US4358738A (en) * | 1976-06-07 | 1982-11-09 | Kahn Leonard R | Signal presence determination method for use in a contaminated medium |
JPS5636246A (en) * | 1979-08-31 | 1981-04-09 | Nec Corp | Stereo signal demodulating circuit |
JPS59115625A (en) * | 1982-12-22 | 1984-07-04 | Nec Corp | Voice detector |
EP0127718B1 (en) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Process for activity detection in a voice transmission system |
JPS6196817A (en) * | 1984-10-17 | 1986-05-15 | Sharp Corp | Filter |
-
1989
- 1989-03-10 IE IE77489A patent/IE61863B1/en not_active IP Right Cessation
- 1989-03-10 PT PT89978A patent/PT89978B/en not_active IP Right Cessation
- 1989-03-10 NZ NZ228290A patent/NZ228290A/en unknown
- 1989-03-10 ES ES93200015T patent/ES2188588T3/en not_active Expired - Lifetime
- 1989-03-10 DE DE68929442T patent/DE68929442T2/en not_active Expired - Lifetime
- 1989-03-10 AU AU33554/89A patent/AU608432B2/en not_active Expired
- 1989-03-10 KR KR1019890702099A patent/KR0161258B1/en not_active IP Right Cessation
- 1989-03-10 DE DE68910859T patent/DE68910859T2/en not_active Expired - Lifetime
- 1989-03-10 JP JP50377289A patent/JP3321156B2/en not_active Expired - Lifetime
- 1989-03-10 ES ES89302422T patent/ES2047664T3/en not_active Expired - Lifetime
- 1989-03-10 EP EP93200015A patent/EP0548054B1/en not_active Expired - Lifetime
- 1989-03-10 BR BR898907308A patent/BR8907308A/en not_active IP Right Cessation
- 1989-03-10 WO PCT/GB1989/000247 patent/WO1989008910A1/en active IP Right Grant
- 1989-03-10 EP EP89302422A patent/EP0335521B1/en not_active Expired - Lifetime
- 1989-03-10 CA CA000593386A patent/CA1335003C/en not_active Expired - Lifetime
-
1990
- 1990-09-07 DK DK199002156A patent/DK175478B1/en not_active IP Right Cessation
- 1990-09-07 FI FI904410A patent/FI110726B/en not_active IP Right Cessation
- 1990-09-10 NO NO903936A patent/NO304858B1/en not_active IP Right Cessation
-
1996
- 1996-07-25 HK HK135896A patent/HK135896A/en not_active IP Right Cessation
-
1998
- 1998-06-04 NO NO982568A patent/NO316610B1/en not_active IP Right Cessation
-
1999
- 1999-11-18 JP JP32819899A patent/JP3423906B2/en not_active Expired - Lifetime
-
2001
- 2001-05-04 FI FI20010933A patent/FI115328B/en not_active IP Right Cessation
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE68929442T2 (en) | Device for recording speech sounds | |
DE69432943T2 (en) | Method and device for speech detection | |
DE69420400T2 (en) | METHOD AND DEVICE FOR SPEAKER RECOGNITION | |
DE69614989T2 (en) | Method and device for determining speech activity in a speech signal and a communication device | |
DE69613646T2 (en) | Method for speech detection in case of strong ambient noise | |
DE69836785T2 (en) | Audio signal compression, speech signal compression and speech recognition | |
DE69535709T2 (en) | Method and apparatus for selecting the coding rate in a variable rate vocoder | |
DE3856280T2 (en) | Noise reduction system | |
DE69716266T2 (en) | VOICE ACTIVITY DETECTOR | |
DE69520067T2 (en) | Method and device for identifying an input signal | |
DE69616568T2 (en) | PATTERN RECOGNITION | |
DE69412913T2 (en) | Method and device for digital speech coding with speech signal height estimation and classification in digital speech coders | |
DE69530442T2 (en) | Device for speech coding | |
DE60131639T2 (en) | Apparatus and methods for determining noise cancellation performance values for a voice communication system | |
DE69619284T3 (en) | Device for expanding the voice bandwidth | |
DE69529356T2 (en) | Waveform interpolation by breaking it down into noise and periodic signal components | |
DE69121145T2 (en) | SPECTRAL EVALUATION METHOD FOR IMPROVING RESISTANCE TO NOISE IN VOICE RECOGNITION | |
DE69814517T2 (en) | speech coding | |
DE69105760T2 (en) | Device for signal processing. | |
DE69321656T2 (en) | Speech recognition method | |
DE68912692T2 (en) | Transmission system suitable for voice quality modification by classifying the voice signals. | |
DE69300413T2 (en) | Method of identifying voice and call history signals. | |
DE69416668T2 (en) | DISTINCTION BETWEEN STATIONARY AND NON-STATIONARY SIGNALS | |
DE3043516C2 (en) | Method and device for speech recognition | |
DE69706650T2 (en) | SYSTEM AND METHOD FOR ERROR CORRECTION IN A CORRELATION BASED FREQUENCY ESTIMATE DEVICE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8327 | Change in the person/name/address of the patent owner |
Owner name: LG ELECTRONICS INC., SEOUL, KR |
|
8364 | No opposition during term of opposition |