EP0076233B1 - Method and apparatus for redundancy-reducing digital speech processing - Google Patents
Method and apparatus for redundancy-reducing digital speech processing Download PDFInfo
- Publication number
- EP0076233B1 EP0076233B1 EP82810390A EP82810390A EP0076233B1 EP 0076233 B1 EP0076233 B1 EP 0076233B1 EP 82810390 A EP82810390 A EP 82810390A EP 82810390 A EP82810390 A EP 82810390A EP 0076233 B1 EP0076233 B1 EP 0076233B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- speech
- process according
- energy
- decision
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims description 50
- 238000012545 processing Methods 0.000 title claims description 12
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 13
- 238000005311 autocorrelation function Methods 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000005284 excitation Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002146 bilateral effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Definitions
- the invention relates to a redundancy-reducing digital speech processing method that works according to the linear prediction method and to a corresponding device according to the preamble of claim 1 and claim 33.
- LPC vocoders are not yet fully satisfactory. Although the language synthesized again after the analysis is usually still relatively understandable, it is distorted and sounds artificial. A main cause for this lies u. a. above all in the difficulty of making the decision with certainty whether there is a voiced or an unvoiced speech section with sufficient certainty. Other causes include poor determination of the pitch period and accurate determination of the sound filter parameters.
- the present invention is now primarily concerned with the first of these difficulties and aims to improve a digital speech processing method or system of the type defined at the outset in such a way that it makes more accurate or more reliable voiced-unvoiced decisions and thus an improvement in Quality of the synthesized language leads.
- a number of decision criteria are known for the voiced-voiceless classification, which are used individually or in part in combination. Common criteria are e.g. B. the energy of the speech signal, the number of zero crossings of the same within a certain time period, the normalized residual error energy, d. H. the ratio of the energy of the prediction error signal to that of the speech signal, and the level of the second maximum of the autocorrelation function of the speech signal or of the prediction error signal. Furthermore, it is also common to carry out a cross-comparison to one or more neighboring language sections. A clear and comparative representation of the most important classification criteria and methods is e.g. B. the publication by L. R. Rabiner et al. refer to.
- a common feature of all of these known methods and criteria is that two-sided decisions are always made by definitely assigning the language section to one or the other of the two options, depending on whether the criteria or criteria in question are met or not. In this way, it can be achieved with a suitable selection and, if necessary, a combination of the decision criteria, a relatively high degree of accuracy, however, as practice shows, wrong decisions still occur relatively often, which significantly affect the quality of the synthesized language.
- a main reason for this lies in the fact that, in spite of all redundancy, voice signals generally have an unsteady character, due to which it is simply not possible to set the decision thresholds used in the respective criteria in such a way that a reliable statement can be made on both sides. A certain degree of uncertainty always remains and must be accepted.
- the invention now proceeds from this previously used principle of bilateral decisions and instead uses a strategy in which only unilateral, but practically absolutely safe decisions are made.
- a language section is only clearly classified as voiced or unvoiced if a certain criterion is met. However, if the criterion is not met, the language section is not already definitely judged to be unvoiced or voiced, but is subject to a further classification criterion. This in turn only makes a safe decision in one direction if the relevant criterion is met, otherwise the decision procedure is continued in an analogous manner. This continues until a safe classification is possible. Extensive studies have shown that with a suitable selection and order of the criteria, a maximum of about six to seven decision steps are usually required.
- the positions of the respective decisions are for the degree of security of the individual decisions applicable thresholds. The more extreme these decision thresholds are, the more selective the criteria and the safer the decisions. However, with increasing selectivity of the individual criteria, the number of the maximum necessary decision-making operations increases. In practice, however, it is easily possible to set the thresholds in such a way that practically absolute (one-sided) decision-making certainty is achieved without the total number of criteria or decision-making operations increasing above the level specified above.
- this is from some source, e.g. B. a microphone 1 originating analog voice signal in a filter 2 band limited and then sampled and digitized in an A / D converter 3.
- the sampling rate is about 6 to 16 kHz, preferably about 8 kHz.
- the resolution is about 8 to 12 bit.
- the pass band of the filter 2 usually extends from approximately 80 Hz to approximately 3.1-3.4 kHz in the case of so-called broadband speech, and from approximately 300 Hz to 3.1-3.4 kHz in the telephone language.
- the digital speech signal s n is divided into successive, preferably overlapping speech sections, so-called frames.
- the speech section length can be approximately 10 to 30 msec, preferably approximately 20 msec.
- the frame rate ie the number of frames per second, is approximately 30 to 100, preferably approximately 45 to 70.
- sections as short as possible and correspondingly high frame rates are desirable, but this is appropriate on the one hand, the limited performance of the computer used in real-time processing and, on the other hand, the demand for the lowest possible bit rates during transmission.
- the analysis is essentially divided into two main procedures, firstly in the calculation of the amplification factor or volume parameter and the coefficients or filter parameters of the underlying vocal tract model filter and secondly in the voiced-unvoiced decision and in determining the pitch -Period in voiced case.
- the filter coefficients are obtained in a parameter calculator 4 by solving the system of equations which is obtained when the energy of the prediction error, ie the energy of the difference between the actual samples and the samples estimated on the basis of the model assumption in the interval under consideration (speech section) is minimized as a function of the coefficients becomes.
- the system of equations is preferably solved using the autocorrelation method using an algorithm according to Durbin (cf., for example, BLB Rabiner and RW Schafer "Digital Processing of Speech Signals", Prentice-Hall Inc., Englewood Cliffs, NJ 1978, pp. 411-413) .
- the so-called reflection coefficients (k j ) also result, which are less sensitive transforms of the filter coefficients (a j ) to quantization.
- the amount of reflection coefficients in stable filters is always less than 1 and, moreover, their amount decreases with increasing atomic number. Because of these advantages, the reflection coefficients (k j ) are preferably transmitted instead of the filter coefficients (a;).
- the volume parameter G results from the algorithm as a by-product.
- the digital speech signal Sn is first temporarily stored in a buffer 5 until the filter parameters (a;) have been calculated.
- the signal then passes through an inverse filter 6 set with the parameters (a j ), which has an inverse transfer function to the transfer function of the vocal tract model filter.
- the result of this inverse filtering is a prediction error signal e " , which is similar to the excitation signal x " multiplied by the gain factor G.
- This prediction error signal e n is now in the case of telephone speech directly or in the case of broadband speech via a low-pass filter 7 fed to an autocorrelation stage 8, which forms the autocorrelation function AKF standardized to the zero-order autocorrelation maximum, from which the pitch period p is determined in a pitch extraction stage 9, in a known manner as the distance between the second autocorrelation maximum RXX and the first maximum (zero-order), an adaptive search method is preferably used.
- the low-pass filter 7 will be explained further below. At this point it should only be mentioned that it can be bridged by means of a switch 10 for telephone speech and could also be arranged in front of the inverse filter 6.
- the speech section under consideration is classified as voiced or unvoiced according to the decision procedure according to the invention to be explained in more detail in a decision stage 11 which is supported by an energy determination stage 12 and a zero crossing determination stage 13.
- the pitch parameter p is set to zero.
- the parameter calculator described above determines a set of filter parameters for each speech section (frame).
- the filter parameters could also be determined differently, for example continuously by means of adaptive inverse filtering or another known method, the filter parameters being readjusted continuously with each sampling cycle, but only at the times determined by the frame rate for further processing or Transmission will be provided.
- the invention is in no way restricted in this regard. It is only essential that there is a set of filter parameters for each language section.
- the recovery or synthesis of the speech signal from the parameters takes place in a known manner in that the parameters initially decoded in a decoder 15 are fed to a pulse-noise generator 16, an amplifier 17 and a vocal tract model filter 18 and the output signal of the model filter 18 by means of a D / A converter 19 brought into analog form and then after the usual filtering 20 by a playback device, for. B. a speaker 21 is made audible.
- the volume parameter G controls the amplification factor of the amplifier 17, the filter parameters (kj) define the transfer function of the sound formation or vocal tract model filter 18.
- Fig. 2 An example of such a system is shown in Fig. 2 as a block diagram.
- the multi-processor system shown essentially comprises four functional blocks, namely a main processor 50, two secondary processors 60 and 70 and an input / output unit 80. It implements both analysis and synthesis.
- the input / output unit 80 contains the stages designated 81 for analog signal processing, such as amplifiers, filters and automatic gain control, as well as the A / D converter and the D / A converter.
- the main processor 50 carries out the actual speech analysis or synthesis, for which purpose the determination of the filter parameters and the volume parameters (parameter calculator 4), the determination of energy and zero crossings of the speech signal (stages 12 and 13), the voiced-unvoiced decision (stage 11) and the determination of the pitch period (stage 9) or, on the synthesis side, the generation of the output signal (stage 16), its volume variation (stage 17) and its filtering in the speech model filter (filter 18).
- the main processor 50 is supported by the secondary processor 60, which carries out the intermediate storage (buffer 5), inverse filtering (stage 6), optionally the low-pass filtering (stage 7) and the autocorrelation (stage 8).
- the secondary processor 70 finally deals exclusively with the coding or decoding of the speech parameters and with the data traffic with z.
- the voiced-unvoiced decision-making procedure is explained in more detail below.
- a longer analysis interval is preferably used as a basis for the voiced-unvoiced decision and the determination of the pitch period than for the determination of the filter coefficients.
- the analysis interval is the same as the language section under consideration; for pit extraction, on the other hand, the analysis interval extends on both sides of the language section into the respectively adjacent language section, for example up to about half of the same. In this way, a more reliable and less erratic pitch extraction can be carried out.
- the energy of a signal is referred to in the following, this always means the relative energy of the signal in the analysis interval, that is to say standardized to the dynamic range of the A / D converter 3.
- FIGS. 3 and 4 show the flow diagrams of two particularly expedient decision-making processes according to the invention, specifically in FIG. 3 a variant for broadband voice and in FIG. 4 one for telephone voice.
- an energy test is carried out as the first decision criterion.
- the (relative, standardized) energy Es of the speech signal s n is compared with a minimum energy threshold EL which is set so low that the speech section can certainly be called unvoiced if the energy Es does not lie above this threshold.
- Practical values for this minimum energy threshold EL is 1.1 - 10- 4 to 1.4 - 10 -4, preferably about 1.2 - 10. 4 These values apply in the event that all digital scanning signals are shown in the standard format (range ⁇ 1). For other signal formats, the values must be multiplied by the corresponding factors.
- the next criterion is a zero-crossing test.
- the number of zero crossings of the digital voice signal is determined in the analysis interval and compared with a maximum number of ZCU. If the number is greater than this maximum number, the speech section is clearly rated as unvoiced, otherwise a further decision criterion is used.
- the maximum number ZCU is approximately 105 to 120, preferably approximately 110 zero crossings for an analysis interval length of 256 samples.
- the normalized autocorrelation function AFK of the low-pass filtered prediction error signal e is used, namely the normalized autocorrelation maximum RXX, which is at a distance from the zero-order maximum identified by the index IP, is compared with a threshold value RU and evaluated as correct if this threshold value is exceeded, otherwise the next criterion is proceeded in.
- Practically favorable values for the threshold value are 0.55 to 0.75, preferably about 0.6.
- the energy of the low-pass filtered prediction error signal e n is examined. If this energy ratio V o is smaller than a first, lower ratio threshold VL, the speech section is rated as voiced. Otherwise there is a further comparison with a second, higher ratio threshold VU, the decision being made unvoiced if the energy ratio V o is above this higher threshold VU. This second comparison may also be omitted.
- Suitable values for the two ratio thresholds VL and VU are 0.05 to 0.15 and 0.6 to 0.75, preferably about 0.1 and 0.7.
- the next decision criterion is yet another energy test, whereby the energy Es of the speech signal is compared to a second, higher minimum energy threshold EU and this time the decision is made as to when the energy Es of the speech signal exceeds this threshold EU.
- Practical values for these higher minimum energy threshold EU are 1.3 - 10-- 3 to 1.8 - 10 -3, preferably about 1.5 - 10 3rd
- the autocorrelation maximum RXX is first compared with a second, lower threshold value RM. If this threshold is exceeded, the decision will be made by voice. Otherwise, a cross-comparison with the two (possibly also only one) immediately preceding language sections is carried out as the last criterion. The speech section is only rated as unvoiced if the (or one) of the two previous speech sections were also unvoiced. Otherwise, the decision will be final. Suitable values for the threshold value RM are 0.35 to 0.45, preferably approximately 0.42.
- the prediction error signal e n becomes low-pass in broadband speech filtered.
- This low-pass filtering causes the frequency distributions of the autocorrelation maximum values to be split up between unvoiced and voiced speech sections and thus makes it easier to determine the decision threshold while at the same time reducing the frequency of errors. It also enables better pitch extraction, ie determining the pitch period.
- An essential condition for this, however, is that the low-pass filtering is carried out with an extremely high slope of approximately 150 to 180 db / octave.
- the (digital) filter used should have an elliptical characteristic, the cut-off frequency should be in the range of 700-1200 Hz, preferably 800 to 900 Hz.
- the decision process for telephone speech shown in FIG. 4 largely corresponds to that for broadband speech. Only the sequence of the second energy test and the second zero-crossing test is reversed (not mandatory) and the second test of the auto-correlation maximum RXX is also omitted, since this would not work for telephone speech.
- the individual decision thresholds are partly different, depending on the differences between the telephone language and the broadband language. Practical values are shown in the table below.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Error Detection And Correction (AREA)
- Exchange Systems With Centralized Control (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
Abstract
Description
Die Erfindung betrifft ein nach der Methode der linearen Prädiktion arbeitendes redundanzverminderndes digitales Sprachverarbeitungsverfahren und eine entsprechende Vorrichtung gemäß dem Oberbegriff von Patentanspruch 1 bzw. Patentanspruch 33.The invention relates to a redundancy-reducing digital speech processing method that works according to the linear prediction method and to a corresponding device according to the preamble of
Derartige Sprachverarbeitungssysteme, sogenannte LPC-Vocoder, erlauben eine erhebliche Redundanzreduktion bei der digitalen Übertragung von Sprachsignalen. Sie gewinnen heute immer mehr an Bedeutung und sind Gegenstand zahlreicher Veröffentlichungen und Patente, von denen hier nur einige repräsentative rein beispielsweise angeführt sind:
- B. S. Atal und S. L. Hanauer, Journal Acoust. Soc. Am., 50, S. 637-655,1971
- R. W. Schafer und L. R. Rabiner, Proc. IEEE Vol. 63, No. 4, S. 662-677, 1975
- L. R. Rabiner et al., Trans-Acoustics, Speech and Signal Proc., Vol. 24, No. 5, S. 399-418, 1976
- B. Gold, Proc. IEEE Vol. 65, No. 12, S. 1636-1658,1977
- A. Kurematsu et al, Proc. IEEE, ICASSP, Washington 1979, S. 69-72
- S. Horvath, »LPC-Vocoder, Entwicklungsstand und Perspektiven«,
- Sammelband Kolloquiumsvorträge »Krieg im Äther«, XVII. Folge, Bern, 1978
- US-
PS 3 624 302 - US-
PS 3 631 520 - US-
PS 3 909 533
- BS Atal and SL Hanauer, Journal Acoust. Soc. Am., 50, pp. 637-655, 1971
- RW Schafer and LR Rabiner, Proc. IEEE Vol. 63, No. 4, pp. 662-677, 1975
- LR Rabiner et al., Trans-Acoustics, Speech and Signal Proc., Vol. 24, No. 5, pp. 399-418, 1976
- B. Gold, Proc. IEEE Vol. 65, No. 12, pp. 1636-1658, 1977
- A. Kurematsu et al, Proc. IEEE, ICASSP, Washington 1979, pp. 69-72
- S. Horvath, "LPC vocoder, development status and perspectives",
- Anthology colloquium lectures »War in the Aether«, XVII. Episode, Bern, 1978
- U.S. Patent 3,624,302
- U.S. Patent 3,631,520
- U.S. Patent 3,909,533
Die bekannten und erhältlichen LPC-Vocoder arbeiten noch nicht voll zufriedenstellend. Zwar ist die nach der Analyse wieder synthetisierte Sprache meistens noch relativ verständlich, jedoch ist sie verzerrt und tönt künstlich. Eine Hauptursache dafür liegt u. a. vor allem in der Schwierigkeit, den Entscheid, ob ein stimmhafter oder ein stimmloser Sprachabschnitt vorliegt, mit ausreichender Sicherheit zu treffen. Weitere Ursachen sind mangelhafte Bestimmung der Pitchperiode und genaue Bestimmung der Klangbildungsfilterparameter.The known and available LPC vocoders are not yet fully satisfactory. Although the language synthesized again after the analysis is usually still relatively understandable, it is distorted and sounds artificial. A main cause for this lies u. a. above all in the difficulty of making the decision with certainty whether there is a voiced or an unvoiced speech section with sufficient certainty. Other causes include poor determination of the pitch period and accurate determination of the sound filter parameters.
Die vorliegende Erfindung befaßt sich nun vornehmlich mit der ersten dieser Schwierigkeiten und hat zum Ziel, ein digitales Sprachverarbeitungsverfahren bzw. -system der eingangs definierten Art dahingehend zu verbessern, daß es zu treffenderen bzw. sichereren Stimmhaft-Stimmlos-Entscheiden und damit zu einer Verbesserung der Qualität der synthetisierten Sprache führt.The present invention is now primarily concerned with the first of these difficulties and aims to improve a digital speech processing method or system of the type defined at the outset in such a way that it makes more accurate or more reliable voiced-unvoiced decisions and thus an improvement in Quality of the synthesized language leads.
Das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung sind in den Ansprüchen 1 und 33 beschrieben. Bevorzugte Ausführungsvarianten ergeben sich aus den abhängigen Ansprüchen.The inventive method and the inventive device are described in
Für die Stimmhaft-Stimmlos-Klassifikation sind eine Reihe von Entscheidungskriterien bekannt, die jeweils einzeln oder zum Teil auch kombiniert angewandt werden. Übliche Kriterien sind z. B. die Energie des Sprachsignals, die Anzahl der Nulldurchgänge desselben innerhalb eines gewissen Zeitabschnitts, die normierte Restfehlerenergie, d. h. das Verhältnis der Energie des Prädiktionsfehlersignals zu der des Sprachsignals, und die Höhe des zweiten Maximums der Autokorrelationsfunktion des Sprachsignals oder des Prädiktionsfehlersignals. Ferner ist es auch üblich, einen Quervergleich zu einem oder mehreren benachbarten Sprachabschnitten durchzuführen. Eine übersichtliche und vergleichende Darstellung der wichtigsten Klassifikationskriterien und -methoden ist z. B. der eingangs angeführten Veröffentlichung von L. R. Rabiner et al. zu entnehmen.A number of decision criteria are known for the voiced-voiceless classification, which are used individually or in part in combination. Common criteria are e.g. B. the energy of the speech signal, the number of zero crossings of the same within a certain time period, the normalized residual error energy, d. H. the ratio of the energy of the prediction error signal to that of the speech signal, and the level of the second maximum of the autocorrelation function of the speech signal or of the prediction error signal. Furthermore, it is also common to carry out a cross-comparison to one or more neighboring language sections. A clear and comparative representation of the most important classification criteria and methods is e.g. B. the publication by L. R. Rabiner et al. refer to.
Ein gemeinsames Merkmal aller dieser bekannten Methoden und Kriterien ist, daß stets zweiseitige Entscheide getroffen werden, indem der Sprachabschnitt jeweils definitiv der einen oder der anderen der beiden Möglichkeiten zugeordnet wird, je nachdem, ob das oder die betreffenden Kriterien erfüllt sind oder nicht. Es kann zwar auf diese Weise bei geeigneter Auswahl und gegebenenfalls Kombination der Entscheidungskriterien eine relativ hohe Treffsicherheit erzielt werden, wie die Praxis jedoch zeigt, treten dabei immer noch relativ häufig Fehlentscheidungen auf, welche die Qualität der synthetisierten Sprache erheblich in Mitleidenschaft ziehen. Ein Hauptgrund dafür liegt in der Tatsache, daß Sprachsignale im allgemeinen trotz aller Redundanz einen instationären Charakter haben, aufgrund dessen es einfach nicht möglich ist, die bei den jeweiligen Kriterien benützten Entscheidungsschwellen so zu legen, daß nach beiden Seiten eine sichere Aussage gemacht werden kann. Eine gewisse Unsicherheit bleibt stets vorhanden und muß inkauf genommen werden.A common feature of all of these known methods and criteria is that two-sided decisions are always made by definitely assigning the language section to one or the other of the two options, depending on whether the criteria or criteria in question are met or not. In this way, it can be achieved with a suitable selection and, if necessary, a combination of the decision criteria, a relatively high degree of accuracy, however, as practice shows, wrong decisions still occur relatively often, which significantly affect the quality of the synthesized language. A main reason for this lies in the fact that, in spite of all redundancy, voice signals generally have an unsteady character, due to which it is simply not possible to set the decision thresholds used in the respective criteria in such a way that a reliable statement can be made on both sides. A certain degree of uncertainty always remains and must be accepted.
In Erkenntnis dieses Sachverhalts geht nun die Erfindung von diesem bisher ausschließlich benutzten Prinzip der zweiseitigen Entscheidungen ab und verwendet stattdessen eine Strategie, bei der nur einseitige, dafür aber praktisch absolut sichere Entscheidungen getroffen werden. Mit anderen Worten heißt dies, daß ein Sprachabschnitt nur dann eindeutig als stimmhaft oder stimmlos klassifiziert wird, wenn ein gewisses Kriterium erfüllt ist. Falls das Kriterium jedoch nicht erfüllt ist, wird der Sprachabschnitt nicht bereits definitiv als stimmlos bzw. stimmhaft beurteilt, sondern einem weiteren Klassifizierungskriterium unterworfen. In diesem erfolgt wiederum nur ein sicherer Entscheid in einer Richtung, falls das betreffende Kriterium erfüllt ist, andernfalls wird das Entscheidungsprocedere in analoger Weise fortgesetzt. Dies geht so lange weiter, bis eine sichere Klassifikation möglich ist. Umfangreiche Untersuchungen haben gezeigt, daß dazu bei geeigneter Auswahl und Reihenfolge der Kriterien in der Regel maximal etwa sechs bis sieben Entscheidungsschritte erforderlich sind.In recognition of this fact, the invention now proceeds from this previously used principle of bilateral decisions and instead uses a strategy in which only unilateral, but practically absolutely safe decisions are made. In other words, a language section is only clearly classified as voiced or unvoiced if a certain criterion is met. However, if the criterion is not met, the language section is not already definitely judged to be unvoiced or voiced, but is subject to a further classification criterion. This in turn only makes a safe decision in one direction if the relevant criterion is met, otherwise the decision procedure is continued in an analogous manner. This continues until a safe classification is possible. Extensive studies have shown that with a suitable selection and order of the criteria, a maximum of about six to seven decision steps are usually required.
Für den Grad der Sicherheit der einzelnen Entscheidungen sind die Lagen der jeweiligen Entscheidungsschwellen maßgebend. Je extremer diese Entscheidungsschwellen sind, desto selektiver sind die Kriterien und desto sicherer die Entscheide. Mit zunehmender Selektivität der einzelnen Kriterien steigt aber auch die Zahl der maximal notwendigen Entscheidungsoperationen. In der Praxis ist es jedoch ohne weiteres möglich, die Schwellen so zu legen, daß praktisch absolute (einseitige) Entscheidungssicherheit erreicht wird, ohne daß die Gesamtanzahl der Kriterien bzw. Entscheidungsoperationen über das oben angegebene Maß ansteigt.The positions of the respective decisions are for the degree of security of the individual decisions applicable thresholds. The more extreme these decision thresholds are, the more selective the criteria and the safer the decisions. However, with increasing selectivity of the individual criteria, the number of the maximum necessary decision-making operations increases. In practice, however, it is easily possible to set the thresholds in such a way that practically absolute (one-sided) decision-making certainty is achieved without the total number of criteria or decision-making operations increasing above the level specified above.
Im folgenden wird die Erfindung anhand der Zeichnung näher erläutert. Es zeigt
- Fig. 1 ein stark vereinfachtes Blockschema einer erfindungsgemäßen Sprachdigitalisierungsvorrichtung,
- Fig. 2 ein Blockschaltbild eines entsprechenden Multi-Prozessor-Systems und
- Fig. 3 und 4 Flußschemen zweier verschiedener Verfahrensabläufe für den Stimmhaft-Stimmlos-Entscheid.
- 1 shows a greatly simplified block diagram of a speech digitizing device according to the invention,
- Fig. 2 is a block diagram of a corresponding multi-processor system and
- 3 and 4 flow diagrams of two different procedures for the voiced-unvoiced decision.
Für die Analyse wird das von irgendeiner Quelle, z. B. einem Mikrophon 1 stammende analoge Sprachsignal in einem Filter 2 bandbegrenzt und dann in einem A/D-Wandler 3 abgetastet und digitalisiert. Die Abtastrate beträgt dabei etwa 6 bis 16 kHz, vorzugsweise etwa 8 kHz. Die Auflösung ist etwa 8 bis 12 bit. Der Durchlaßbereich des Filters 2 erstreckt sich bei sog. Breitbandsprache gewöhnlich von ca. 80 Hz bis etwa 3,1-3,4 kHz, bei Telefonsprache von etwa 300 Hz bis 3,1-3,4 kHz.For analysis, this is from some source, e.g. B. a
Für die nun einsetzende eigentliche Analyse bzw. redundanzvermindernde Verarbeitung wird das digitale Sprachsignal sn in aufeinanderfolgende, vorzugsweise überlappende Sprachabschnitte, sog. Frames, eingeteilt. Die Sprachabschnittslänge kann etwa 10 bis 30 msec, vorzugsweise etwa 20 msec betragen. Die Frame-Rate, d. h. die Anzahl von Frames pro Sekunde, beträgt etwa 30 bis 100, vorzugsweise etwa 45 bis 70. Im Interesse hoher Auflösung und damit Sprachqualität bei der Synthetisierung sind möglichst kurze Abschnitte und entsprechende hohe Frame-Raten erstrebenswert, jedoch stehen dem einerseits bei Echtzeit-Verarbeitung das begrenzte Leistungsvermögen des eingesetzten Computers und anderseits die Forderung möglichst niedriger Bitraten bei der Übertragung entgegen.For the actual analysis or processing to reduce redundancy, the digital speech signal s n is divided into successive, preferably overlapping speech sections, so-called frames. The speech section length can be approximately 10 to 30 msec, preferably approximately 20 msec. The frame rate, ie the number of frames per second, is approximately 30 to 100, preferably approximately 45 to 70. In the interest of high resolution and thus voice quality in the synthesis, sections as short as possible and correspondingly high frame rates are desirable, but this is appropriate on the one hand, the limited performance of the computer used in real-time processing and, on the other hand, the demand for the lowest possible bit rates during transmission.
Für jeden dieser Sprachabschnitte erfolgt nun eine Analyse des Sprachsignals nach den Prinzipien der linearen Prädiktion, wie sie z. B. in den eingangs erwähnten Publikationen beschrieben sind. Grundlage der linearen Prädiktion ist ein parametrisches Modell der Spracherzeugung. Ein zeitdiskretes Allpol-Digitalfilter modelliert die Klangformung durch Hals- und Mundtrakt (Vokaltrakt). Bei stimmhaften Lauten ist die Anregung dieses Filters eine periodische Pulsfolge, deren Frequenz, die sog. Pitchfrequenz, die periodische Anregung durch die Stimmbänder idealisiert. Bei stimmlosen Lauten ist die Anregung weißes Rauschen, idealisierend für die Luftturbulenz im Hals bei nicht angeregten Stimmbändern. Ein Verstärkungsfaktor schließlich kontrolliert die Lautstärke. Auf der Grundlage dieses Modells ist somit das Sprachsignal durch die folgenden Parameter vollständig bestimmt:
- 1. Die Information, ob der zu synthetisierende Laut stimmhaft oder stimmlos ist,
- 2. die Pitch-Periode (bzw. die Pitch Frequenz) bei stimmhaften Lauten (bei stimmlosen ist die Pitch- periode per def. gleich 0)
- 3. die Koeffizienten des zugrundegelegten Allpol-Digitalfilters (Vokaltraktmodells) und
- 4. der Verstärkungsfaktor.
- 1. The information as to whether the sound to be synthesized is voiced or unvoiced,
- 2. the pitch period (or the pitch frequency) for voiced sounds (for voiceless ones the pitch period by definition is 0)
- 3. the coefficients of the underlying all-pole digital filter (vocal tract model) and
- 4. the gain factor.
Die Analyse gliedert sich demnach im wesentlichen in zwei Hauptprozeduren, und zwar zum einen in die Berechnung des Verstärkungsfaktors bzw. Lautstärkeparameters sowie der Koeffizienten bzw. Filterparameter des zugrundeliegenden Vokaltrakt-Modellfilters und zum anderen in den Stimmhaft-Stimmlos-Entscheid und in die Ermittlung der Pitch-Periode im stimmhaften Falle.The analysis is essentially divided into two main procedures, firstly in the calculation of the amplification factor or volume parameter and the coefficients or filter parameters of the underlying vocal tract model filter and secondly in the voiced-unvoiced decision and in determining the pitch -Period in voiced case.
Die Filterkoeffizienten werden in einem Parameterrechner 4 durch Lösung des Gleichungssystems gewonnen, welches erhalten wird, wenn die Energie des Prädiktionsfehlers, d. h. die Energie der Differenz zwischen den tatsächlichen Abtastwerten und den aufgrund der Modellannahme geschätzten Abtastwerten im betrachteten Intervall (Sprachabschnitt) in Funktion der Koeffizienten minimiert wird. Die Auflösung des Gleichungssystems erfolgt vorzugsweise nach der Autokorrelationsmethode mittels eines Algorithmus nach Durbin (vgl. z. B. L. B. Rabiner and R. W. Schafer »Digital Processing of Speech Signals«, Prentice-Hall Inc., Englewood Cliffs, N.J. 1978, S. 411-413). Dabei ergeben sich neben den Filterkoeffizienten bzw. -parametern (a;) gleichzeitig auch die sog. Reflexionskoeffizienten (kj), welche auf Quantisierung weniger empfindliche Transformierte der Filterkoeffizienten (aj) sind. Die Reflexionskoeffizienten sind bei stabilen Filtern dem Betrag nach stets kleiner als 1 und außerdem nimmt ihr Betrag mit zunehmender Ordnungszahl ab. Wegen dieser Vorteile werden bevorzugt die Reflexionskoeffizienten (kj) statt der Filterkoeffizienten (a;) übertragen. Der Lautstärkeparameter G ergibt sich aus dem Algorithmus als Nebenprodukt.The filter coefficients are obtained in a parameter calculator 4 by solving the system of equations which is obtained when the energy of the prediction error, ie the energy of the difference between the actual samples and the samples estimated on the basis of the model assumption in the interval under consideration (speech section) is minimized as a function of the coefficients becomes. The system of equations is preferably solved using the autocorrelation method using an algorithm according to Durbin (cf., for example, BLB Rabiner and RW Schafer "Digital Processing of Speech Signals", Prentice-Hall Inc., Englewood Cliffs, NJ 1978, pp. 411-413) . In addition to the filter coefficients or parameters (a;), the so-called reflection coefficients (k j ) also result, which are less sensitive transforms of the filter coefficients (a j ) to quantization. The amount of reflection coefficients in stable filters is always less than 1 and, moreover, their amount decreases with increasing atomic number. Because of these advantages, the reflection coefficients (k j ) are preferably transmitted instead of the filter coefficients (a;). The volume parameter G results from the algorithm as a by-product.
Zur Auffindung der Pitch-Periode p (Periode der Stimmbandgrundfrequenz) wird das digitale Sprachsignal Sn in einem Buffer 5 zunächst solange zwischengespeichert, bis die Filterparameter (a;) berechnet sind. Dann passiert das Signal ein mit den Parametern (aj) eingestelltes Inversfilter 6, welches eine zur Übertragungsfunktion des Vokaltraktmodellfilters inverse Übertragungsfunktion besitzt. Das Ergebnis dieser Invers-Filterung ist ein Prädiktionsfehlersignal e", welches dem mit dem Verstärkungsfaktor G multiplizierten Anregungssignal x" ähnlich ist. Dieses Prädiktionsfehlersignal en wird nun im Falle von Telefonsprache direkt oder im Falle von Breitbandsprache über ein Tiefpaßfilter 7 einer Autokorrelationsstufe 8 zugeführt, welche daraus die auf das Autokorrelationsmaximum nullter Ordnung normierte Autokorrelationsfunktion AKF bildet, anhand welcher in einer Pitchextraktionsstufe 9 die Pitchperiode p ermittelt wird, und zwar in bekannter Weise als Abstand des zweiten Autokorrelationsmaximums RXX vom ersten Maximum (nullter Ordnung), wobei vorzugsweise ein adaptives Suchverfahren angewandt wird.In order to find the pitch period p (period of the basic vocal cord frequency), the digital speech signal Sn is first temporarily stored in a buffer 5 until the filter parameters (a;) have been calculated. The signal then passes through an inverse filter 6 set with the parameters (a j ), which has an inverse transfer function to the transfer function of the vocal tract model filter. The result of this inverse filtering is a prediction error signal e " , which is similar to the excitation signal x " multiplied by the gain factor G. This prediction error signal e n is now in the case of telephone speech directly or in the case of broadband speech via a low-pass filter 7 fed to an autocorrelation stage 8, which forms the autocorrelation function AKF standardized to the zero-order autocorrelation maximum, from which the pitch period p is determined in a
Die Bedeutung des Tiefpaßfilters 7 wird weiter unten noch erläutert. An dieser Stelle sei lediglich erwähnt, daß es mittels eines Schalters 10 für Telefonsprache überbrückbar ist und ferner auch vor dem Inversfilter 6 angeordnet sein könnte.The meaning of the low-pass filter 7 will be explained further below. At this point it should only be mentioned that it can be bridged by means of a switch 10 for telephone speech and could also be arranged in front of the inverse filter 6.
Die Klassifikation des betrachteten Sprachabschnitts als stimmhaft oder stimmlos erfolgt nach dem noch genauer zu erläuternden erfindungsgemäßen Entscheidungsprocedere in einer Entscheidungsstufe 11, welche von einer Energiebestimmungsstufe 12 und einer Nulldurchgangsbestimmungsstufe 13 unterstützt wird. Im stimmlosen Fall wird der Pitch-Parameter p gleich null gesetzt.The speech section under consideration is classified as voiced or unvoiced according to the decision procedure according to the invention to be explained in more detail in a
Der vorstehend beschriebene Parameterrechner ermittelt pro Sprachabschnitt (Frame) je einen Satz Filterparameter. Selbstverständlich könnten die Filterparameter auch anders bestimmt werden, beispielsweise laufend mittels einer adaptiven inversen Filtrierung oder eines anderen bekannten Verfahrens, wobei die Filterparameter zwar mit jedem Abtasttakt laufend nachgeregelt, aber nur jeweils zu den durch die Frame-Rate festgelegten Zeitpunkten für die weitere Verarbeitung bzw. Übertragung bereitgestellt werden. Die Erfindung ist diesbezüglich in keiner Weise eingeschränkt. Wesentlich ist lediglich, daß für jeden Sprachabschnitt ein Satz Filterparameter vorliegt.The parameter calculator described above determines a set of filter parameters for each speech section (frame). Of course, the filter parameters could also be determined differently, for example continuously by means of adaptive inverse filtering or another known method, the filter parameters being readjusted continuously with each sampling cycle, but only at the times determined by the frame rate for further processing or Transmission will be provided. The invention is in no way restricted in this regard. It is only essential that there is a set of filter parameters for each language section.
Die nunmehr vollzählig vorliegenden Parameter (kj), G und p werden dann einer Codierungsstufe 14 zugeführt, wo sie in eine für die Übertragung geeignete Form gebracht und bereitgestellt werden.The now complete parameters (kj), G and p are then fed to a coding stage 14, where they are brought into a form suitable for transmission and provided.
Die Rückgewinnung bzw. Synthese des Sprachsignals aus den Parametern erfolgt in bekannter Weise dadurch, daß die zunächst in einem Decoder 15 decodierten Parameter einem Puls-Rausch-Generator 16, einem Verstärker 17 und einem Vokaltraktmodellfilter 18 zugeführt werden und das Ausgangssignal des Modellfilters 18 mittels eines D/A-Wandlers 19 in analoge Form gebracht und dann nach der üblichen Filterung 20 durch ein Wiedergabegerät, z. B. einen Lautsprecher 21 hörbar gemacht wird. Der Puls-Rauschgenerator 16 erzeugt die durch den Verstärker 17 verstärkte Anregung x" des Vokaltraktmodellfilters 18, und zwar im stimmlosen Falle (p = 0) weißes Rauschen und im stimmhaften Falle (p?'=0) eine periodische Pulsfolge der durch die Pitchperiode p festgelegten Frequenz. Der Lautstärkeparameter G kontrolliert den Verstärkungsfaktor des Verstärkers 17, die Filterparameter(kj) definieren die Übertragungsfunktion des Klangbildungs- bzw. Vokaltraktmodellfilters 18.The recovery or synthesis of the speech signal from the parameters takes place in a known manner in that the parameters initially decoded in a decoder 15 are fed to a pulse-
Vorstehend wurde der allgemeine Aufbau und die Funktion der erfindungsgemäßen Sprachverarbeitungsvorrichtung der einfacheren Verständlichkeit halber anhand diskreter Funktionsstufen erläutert. Es ist für den Fachmann jedoch selbstverständlich, daß sämtliche Funktionen bzw. Funktionsstufen zwischen dem analyseseitigen A/D-Wandler 3 und dem syntheseseitigen D/A-Wandler 19, in denen also digitale Signale verarbeitet werden, in der Praxis vorzugsweise durch einen entsprechend programmierten Computer oder einen Mikroprozessor oder dergleichen implementiert sind. Die softwaremäßige Realisierung der einzelnen Funktionsstufen, wie z. B. der Parameterrechner, die diversen Digitalfilter, Autokorrelation etc. ist für den mit der Datenverarbeitungstechnik vertrauten Fachmann Routine und in der Fachliteratur beschrieben (siehe z. B. IEEE Digital Signal Processing Comittee: »Programsfor Digital Signal Processing«, IEEE Press Book 1980).The general structure and function of the speech processing device according to the invention has been explained above for the sake of clarity using discrete function levels. However, it is self-evident to the person skilled in the art that all functions or functional levels between the analysis-side A /
Für Echtzeit-Anwendungen sind insbesondere bei hohen Abtastarten und kurzen Sprachabschnitten wegen der dann großen Anzahl von in kürzester Zeit zu bewältigenden Operationen extrem leistungsfähige Rechner erforderlich. Für solche Zwecke werden dann am besten Multi-Prozessor-Systeme mit einer geeigneten Aufgabenteilung eingesetzt. Ein Beispiel für ein solches System ist in Fig. 2 als Blockschema dargestellt.Extremely powerful computers are required for real-time applications, in particular in the case of high scanning types and short speech sections, because of the large number of operations that can then be completed in a very short time. For such purposes it is best to use multi-processor systems with a suitable division of tasks. An example of such a system is shown in Fig. 2 as a block diagram.
Das dargestellte Multi-Prozessor-System umfaßt im wesentlichen vier Funktionsblöcke, und zwar einen Hauptprozessor 50, zwei Nebenprozessoren 60 und 70 und eine Eingabe/Ausgabe-Einheit 80. Es implementiert sowohl Analyse als auch Synthese.The multi-processor system shown essentially comprises four functional blocks, namely a
Die Eingabe/Ausgabe-Einheit 80 enthält die mit 81 bezeichneten Stufen zur analogen Signalverarbeitung, wie Verstärker, Filter und automatische Verstärkungsregelung, sowie den A/D-Wandler und den D/A-Wandler.The input /
Der Hauptprozessor 50 führt die eigentliche Sprachanalyse bzw. -synthese durch, wozu die Bestimmung der Filterparameter und der Lautstärkeparameter (Parameterrechner 4), die Bestimmung von Energie und Nulldurchgängen des Sprachsignals (Stufen 12 und 13), die Stimmhaft-Stimmlos Entscheidung (Stufe 11) und die Bestimmung der Pitchperiode (Stufe 9) bzw. syntheseseitig die Erzeugung des Ausgangssignals (Stufe 16), dessen Lautstärkevariation (Stufe 17) und dessen Filtrierung im Sprachmodellfilter (Filter 18) gehören.The
Der Hauptprozessor 50 wird dabei vom Nebenprozessor 60 unterstützt, welcher die Zwischenspeicherung (Buffer 5), Inversfiltrierung (Stufe 6), gegebenenfalls die Tiefpaßfiltrierung (Stufe 7) und die Autokorrelation (Stufe 8) durchführt.The
Der Nebenprozessor 70 schließlich befaßt sich ausschließlich mit der Codierung bzw. Decodierung der Sprachparameter sowie mit dem Datenverkehr mit z. B. einem Modem 90 od. dgl. via eine mit 71 bezeichnete Schnittstelle.The
Im folgenden wird das Stimmhaft-Stimmlos-Entscheidungsprocedere näher erläutert. Vorweg sei erwähnt, daß für den Stimmhaft-Stimmlos-Entscheid und die Bestimmung der Pitch-Periode vorzugsweise ein längeres Analyseintervall zugrundegelegt wird als für die Bestimmung der Filterkoeffizienten. Für die letzteren ist das Analyseintervall gleich dem betrachteten Sprachabschnitt, für die Pitchextraktion hingegen erstreckt sich das Analyseintervall zu beiden Seiten des Sprachabschnitts in den jeweils benachbarten Sprachabschnitt, beispielsweise bis etwa zur Hälfte desselben. Auf diese Weise läßt sich eine zuverlässigere und weniger sprunghafte Pitchextraktion durchführen. Ferner sei klargestellt, daß, wenn im folgenden von der Energie eines Signals gesprochen wird, damit stets die relative, also auf den Dynamikumfang des A/D-Wandlers 3 normierte Energie des Signals im Analyseintervall gemeint ist.The voiced-unvoiced decision-making procedure is explained in more detail below. Be beforehand mentions that a longer analysis interval is preferably used as a basis for the voiced-unvoiced decision and the determination of the pitch period than for the determination of the filter coefficients. For the latter, the analysis interval is the same as the language section under consideration; for pit extraction, on the other hand, the analysis interval extends on both sides of the language section into the respectively adjacent language section, for example up to about half of the same. In this way, a more reliable and less erratic pitch extraction can be carried out. Furthermore, it should be clarified that when the energy of a signal is referred to in the following, this always means the relative energy of the signal in the analysis interval, that is to say standardized to the dynamic range of the A /
Grundlegendes Prinzip des erfindungsgemäßen Stimmhaft-Stimmlos-Entscheids ist, wie schon weiter vorne erläutert, daß nur sichere Entscheide getroffen werden. Unter »sicher« wird dabei ein Entscheid verstanden, der eine wenigstens 97%ige, vorzugsweise wesentlich höhere und insbesondere sogar absolute Treffsicherheit bzw. entsprechend geringe statistische Fehlerquote aufweist.The basic principle of the voiced-voiceless decision according to the invention is, as already explained above, that only safe decisions are made. “Safe” is understood to mean a decision that has an at least 97%, preferably significantly higher and in particular even absolute accuracy or a correspondingly low statistical error rate.
In den Fig. 3 und 4 sind die Flußdiagramme von zwei besonders zweckmäßigen erfindungsgemäßen Entscheidungsabläufen dargestellt, und zwar in Fig. 3 eine Variante für Breitbandsprache und in Fig. 4 eine solche für Telefonsprache.FIGS. 3 and 4 show the flow diagrams of two particularly expedient decision-making processes according to the invention, specifically in FIG. 3 a variant for broadband voice and in FIG. 4 one for telephone voice.
Gemäß Fig. 3 wird als erstes Entscheidungskriterium ein Energietest durchgeführt. Dabei wird die (relative, normierte) Energie Es des Sprachsignals sn mit einer Mindestenergieschwelle EL verglichen, die so tief angesetzt ist, daß der Sprachabschnitt mit Sicherheit als stimmlos bezeichnet werden kann, wenn die Energie Es nicht über dieser Schwelle liegt. Praktische Werte für diese Mindestenergieschwelle EL sind 1,1 - 10-4 bis 1,4 - 10 4, vorzugsweise etwa 1,2 - 10-4. Diese Werte gelten für den Fall, daß alle digitalen Abtastsignale im Einheitsformat (Bereich ±1) dargestellt sind. Bei anderen Signalformaten sind die Werte mit entsprechenden Faktoren zu multiplizieren.3, an energy test is carried out as the first decision criterion. The (relative, standardized) energy Es of the speech signal s n is compared with a minimum energy threshold EL which is set so low that the speech section can certainly be called unvoiced if the energy Es does not lie above this threshold. Practical values for this minimum energy threshold EL is 1.1 - 10- 4 to 1.4 - 10 -4, preferably about 1.2 - 10. 4 These values apply in the event that all digital scanning signals are shown in the standard format (range ± 1). For other signal formats, the values must be multiplied by the corresponding factors.
Wenn die Energie Es des Sprachsignals über dieser Schwelle liegt, kann keine eindeutige Aussage getroffen werden und es erfolgt als nächstes Kriterium ein Nulldurchgangstest. Dabei wird die Anzahl der Nulldurchgänge des digitalen Sprachsignals im Analyseintervall festgestellt und mit einer Maximalanzahl ZCU verglichen. Falls die Anzahl größer ist als diese Maximalanzahl, wird der Sprachabschnitt eindeutig als stimmlos bewertet, andernfalls wird ein weiteres Entscheidungskriterium herangezogen. Für einen praktisch ausreichend sicheren Entscheid beträgt die Maximalanzahl ZCU etwa 105 bis 120, vorzugsweise etwa 110 Nulldurchgänge für eine Analyseintervallänge von 256 Abtastwerten.If the energy Es of the speech signal lies above this threshold, no clear statement can be made and the next criterion is a zero-crossing test. The number of zero crossings of the digital voice signal is determined in the analysis interval and compared with a maximum number of ZCU. If the number is greater than this maximum number, the speech section is clearly rated as unvoiced, otherwise a further decision criterion is used. For a practically sufficiently reliable decision, the maximum number ZCU is approximately 105 to 120, preferably approximately 110 zero crossings for an analysis interval length of 256 samples.
Die angegebene Reihenfolge von Energietest und Nulldurchgangstest hat sich in der Praxis gut bewährt. Sie könnte jedoch auch umgekehrt sein, wobei dann die Entscheidungsschwellen modifiziert werden müßten.The specified sequence of energy test and zero crossing test has proven itself in practice. However, it could also be the other way round, in which case the decision thresholds would have to be modified.
Als nächstes Entscheidungskriterium wird die normierte Autokorrelationsfunktion AFK des tiefpaßfiltrierten Prädiktionsfehlersignals e" herangezogen, und zwar wird das normierte Autokorrelationsmaximum RXX, welches sich in einem durch den Index IP gekennzeichneten Abstand vom Maximum nullter Ordnung befindet, mit einem Schwellenwert RU verglichen und als stimmhaft bewertet, wenn dieser Schwellenwert überschritten wird. Andernfalls wird zum nächsten Kriterium weitergegangen. Praktisch günstige Werte für den Schwellenwert sind 0,55 bis 0,75, vorzugsweise etwa 0,6.As the next decision criterion, the normalized autocorrelation function AFK of the low-pass filtered prediction error signal e "is used, namely the normalized autocorrelation maximum RXX, which is at a distance from the zero-order maximum identified by the index IP, is compared with a threshold value RU and evaluated as correct if this threshold value is exceeded, otherwise the next criterion is proceeded in. Practically favorable values for the threshold value are 0.55 to 0.75, preferably about 0.6.
Als nächstes wird die Energie des tiefpaßfiltrierten Prädiktionsfehlersignals en, genauer das Verhältnis Vo derselben zur Energie Es des Sprachsignals, untersucht. Wenn dieses Energieverhältnis Vo kleiner ist als eine erste, tiefere Verhältnisschwelle VL, wird der Sprachabschnitt als stimmhaft bewertet. Andernfalls erfolgt ein weiterer Vergleich mit einer zweiten, höheren Verhältnisschwelle VU, wobei auf stimmlos entschieden wird, wenn das Energieverhältnis Vo über dieser höheren Schwelle VU liegt. Dieser zweite Vergleich kann eventuell auch entfallen.Next, the energy of the low-pass filtered prediction error signal e n , more precisely the ratio V o thereof to the energy Es of the speech signal, is examined. If this energy ratio V o is smaller than a first, lower ratio threshold VL, the speech section is rated as voiced. Otherwise there is a further comparison with a second, higher ratio threshold VU, the decision being made unvoiced if the energy ratio V o is above this higher threshold VU. This second comparison may also be omitted.
Geeignete Werte für die beiden Verhältnisschwellen VL und VU sind 0,05 bis 0,15 bzw. 0,6 bis 0,75, vorzugsweise etwa 0,1 bzw. 0,7.Suitable values for the two ratio thresholds VL and VU are 0.05 to 0.15 and 0.6 to 0.75, preferably about 0.1 and 0.7.
Falls auch diese Untersuchung der Restfehlerenergie zu keinem eindeutigen Resultat geführt hat, erfolgt ein weiterer Nulldurchgangstest mit einer tieferen Entscheidungsschwelle bzw. Maximalanzahl ZCL, wobei auf stimmlos entschieden wird, wenn diese Maximalanzahl überschritten wird. Geeignete Werte für diese tiefere Maximalanzahl ZCL sind 70 bis 90, vorzugsweise etwa 80 auf 256 Abtastwerte.If this investigation of the residual error energy has not led to a clear result, another zero-crossing test is carried out with a lower decision threshold or maximum number ZCL, the decision being made unvoiced if this maximum number is exceeded. Suitable values for this lower maximum number ZCL are 70 to 90, preferably approximately 80 to 256 samples.
Im Zweifelsfalle wird als nächstes Entscheidungskriterium noch ein weiterer Energietest durchgeführt, wobei die Energie Es des Sprachsignals mit einer zweiten, höheren Mindestenergieschwelle EU verglichen und diesmal auf stimmhaft entschieden wird, wenn die Energie Es des Sprachsignals diese Schwelle EU übersteigt. Praktische Werte für diese höhere Mindestenergieschwelle EU sind 1,3 - 10--3 bis 1,8 - 10 3, vorzugsweise etwa 1,5 - 10-3.In case of doubt, the next decision criterion is yet another energy test, whereby the energy Es of the speech signal is compared to a second, higher minimum energy threshold EU and this time the decision is made as to when the energy Es of the speech signal exceeds this threshold EU. Practical values for these higher minimum energy threshold EU are 1.3 - 10-- 3 to 1.8 - 10 -3, preferably about 1.5 - 10 3rd
Sollte auch dann noch kein eindeutiger Entscheid vorliegen, wird zunächst das Autokorrelationsmaximum RXX mit einem zweiten, tieferen Schwellenwert RM verglichen. Wird dieser Schwellenwert überstiegen, wird auf stimmhaft entschieden. Andernfalls wird als letztes Kriterium ein Quervergleich mit den beiden (gegebenenfalls auch nur einem) unmittelbar vorangegangenen Sprachabschnitten durchgeführt. Dabei wird der Sprachabschnitt nur dann als stimmlos bewertet, wenn die (bzw. der eine) beiden vorangegangenen Sprachabschnitte ebenfalls stimmlos waren. Andernfalls wird endgültig auf stimmhaft entschieden. Geeignete Werte für den Schwellenwert RM sind 0,35 bis 0,45, vorzugsweise etwa 0,42.If there is still no clear decision, the autocorrelation maximum RXX is first compared with a second, lower threshold value RM. If this threshold is exceeded, the decision will be made by voice. Otherwise, a cross-comparison with the two (possibly also only one) immediately preceding language sections is carried out as the last criterion. The speech section is only rated as unvoiced if the (or one) of the two previous speech sections were also unvoiced. Otherwise, the decision will be final. Suitable values for the threshold value RM are 0.35 to 0.45, preferably approximately 0.42.
Wie schon weiter vorne erwähnt, wird das Prädiktionsfehlersignal en bei Breitbandsprache tiefpaßfiltriert. Diese Tiefpaßfiltrierung bewirkt eine Aufsplittung der Häufigkeitsverteilungen der Autokorrelationsmaximalwerte zwischen stimmlosen und stimmhaften Sprachabschnitten und erleichtert damit die Festlegung der Entscheidungsschwelle bei gleichzeitiger Verringerung der Fehlerhäufigkeit. Ferner wird damit auch eine bessere Pitchextraktion, d. h. Bestimmung der Pitchperiode, ermöglicht. Wesentliche Bedingung dafür ist jedoch, daß die Tiefpaßfiltrierung mit extrem hoher Flankensteilheit von ca. 150 bis 180 db/Oktave erfolgt. Das verwendete (digitale) Filter sollte eine elliptische Charakteristik besitzen, die Grenzfrequenz soll im Bereich von 700-1200 Hz, vorzugsweise 800 bis 900 Hz liegen.As mentioned earlier, the prediction error signal e n becomes low-pass in broadband speech filtered. This low-pass filtering causes the frequency distributions of the autocorrelation maximum values to be split up between unvoiced and voiced speech sections and thus makes it easier to determine the decision threshold while at the same time reducing the frequency of errors. It also enables better pitch extraction, ie determining the pitch period. An essential condition for this, however, is that the low-pass filtering is carried out with an extremely high slope of approximately 150 to 180 db / octave. The (digital) filter used should have an elliptical characteristic, the cut-off frequency should be in the range of 700-1200 Hz, preferably 800 to 900 Hz.
Bei Telefonsprache, der gegenüber der Breitbandsprache der Frequenzbereich unter 300 Hz fehlt, bringt diese Tiefpaßfiltrierung keine Vorteile, sondern ist sogar eher nachteilig. Sie wird daher bei Telefonsprache weggelassen. Dies kann einfach durch Schließen des Schalters 10 oder softwaremassig (durch Nichtausführung des entsprechenden Programmteils) bewerkstelligt werden.In the case of telephone speech, which lacks the frequency range below 300 Hz compared to broadband speech, this low-pass filtering has no advantages, but is actually rather disadvantageous. It is therefore omitted in the telephone language. This can be accomplished simply by closing the switch 10 or in software (by not executing the corresponding program part).
Der in Fig. 4 dargestellte Entscheidungsablauf für Telefonsprache stimmt weitestgehend mit dem für Breitbandsprache überein. Es ist lediglich die Reihenfolge von zweitem Energietest und zweitem Nulldurchgangstest vertauscht (nicht zwingend) und ferner ist der zweite Test des Autokorrelationsmaximums RXX weggelassen, da dieser bei Telefonsprache nichts bringen würde. Die einzelnen Entscheidungsschwellen sind entsprechend den Unterschieden der Telefonsprache gegenüber der Breitbandsprache zum Teil anders gelegt. Für die Praxis günstige Werte gehen aus der nachstehenden Tabelle hervor.
Mit den beiden vorstehend beschriebenen Entscheidungsabläufen wurde eine Stimmhaft-Stimmlos-Entscheidung mit extrem kleinen Fehlerquoten erreicht. Es versteht sich, daß die Reihenfolge der Kriterien sowie die Kriterien selbst im Prinzip auch anders sein könnten, wesentlich ist lediglich, daß bei jedem Kriterium immer nur sichere Entscheide getroffen werden.With the two decision processes described above, a voiced-unvoiced decision was achieved with extremely small error rates. It goes without saying that the order of the criteria and the criteria themselves could in principle also be different, the only important thing is that only reliable decisions are made for each criterion.
Claims (34)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AT82810390T ATE15563T1 (en) | 1981-09-24 | 1982-09-20 | METHOD AND DEVICE FOR REDUNDANCY-REDUCING DIGITAL SPEECH PROCESSING. |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CH616781 | 1981-09-24 | ||
CH6167/81 | 1981-09-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
EP0076233A1 EP0076233A1 (en) | 1983-04-06 |
EP0076233B1 true EP0076233B1 (en) | 1985-09-11 |
Family
ID=4305323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP82810390A Expired EP0076233B1 (en) | 1981-09-24 | 1982-09-20 | Method and apparatus for redundancy-reducing digital speech processing |
Country Status (6)
Country | Link |
---|---|
US (1) | US4589131A (en) |
EP (1) | EP0076233B1 (en) |
JP (1) | JPS5870299A (en) |
AT (1) | ATE15563T1 (en) |
CA (1) | CA1184657A (en) |
DE (1) | DE3266204D1 (en) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8400728A (en) * | 1984-03-07 | 1985-10-01 | Philips Nv | DIGITAL VOICE CODER WITH BASE BAND RESIDUCODING. |
US5208861A (en) * | 1988-06-16 | 1993-05-04 | Yamaha Corporation | Pitch extraction apparatus for an acoustic signal waveform |
US4972474A (en) * | 1989-05-01 | 1990-11-20 | Cylink Corporation | Integer encryptor |
IT1229725B (en) * | 1989-05-15 | 1991-09-07 | Face Standard Ind | METHOD AND STRUCTURAL PROVISION FOR THE DIFFERENTIATION BETWEEN SOUND AND DEAF SPEAKING ELEMENTS |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US5280525A (en) * | 1991-09-27 | 1994-01-18 | At&T Bell Laboratories | Adaptive frequency dependent compensation for telecommunications channels |
US5361379A (en) * | 1991-10-03 | 1994-11-01 | Rockwell International Corporation | Soft-decision classifier |
FR2684226B1 (en) * | 1991-11-22 | 1993-12-24 | Thomson Csf | ROUTE DECISION METHOD AND DEVICE FOR VERY LOW FLOW VOCODER. |
JP2746033B2 (en) * | 1992-12-24 | 1998-04-28 | 日本電気株式会社 | Audio decoding device |
US5471527A (en) | 1993-12-02 | 1995-11-28 | Dsc Communications Corporation | Voice enhancement system and method |
TW271524B (en) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5970441A (en) * | 1997-08-25 | 1999-10-19 | Telefonaktiebolaget Lm Ericsson | Detection of periodicity information from an audio signal |
US6381570B2 (en) * | 1999-02-12 | 2002-04-30 | Telogy Networks, Inc. | Adaptive two-threshold method for discriminating noise from speech in a communication signal |
US6980950B1 (en) * | 1999-10-22 | 2005-12-27 | Texas Instruments Incorporated | Automatic utterance detector with high noise immunity |
GB2357683A (en) * | 1999-12-24 | 2001-06-27 | Nokia Mobile Phones Ltd | Voiced/unvoiced determination for speech coding |
KR101008022B1 (en) * | 2004-02-10 | 2011-01-14 | 삼성전자주식회사 | Voiced sound and unvoiced sound detection method and apparatus |
JP5446874B2 (en) * | 2007-11-27 | 2014-03-19 | 日本電気株式会社 | Voice detection system, voice detection method, and voice detection program |
DE102008042579B4 (en) * | 2008-10-02 | 2020-07-23 | Robert Bosch Gmbh | Procedure for masking errors in the event of incorrect transmission of voice data |
CN101859568B (en) * | 2009-04-10 | 2012-05-30 | 比亚迪股份有限公司 | Method and device for eliminating voice background noise |
US9454976B2 (en) | 2013-10-14 | 2016-09-27 | Zanavox | Efficient discrimination of voiced and unvoiced sounds |
CN112885380B (en) * | 2021-01-26 | 2024-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | Method, device, equipment and medium for detecting clear and voiced sounds |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2908761A (en) * | 1954-10-20 | 1959-10-13 | Bell Telephone Labor Inc | Voice pitch determination |
US3102928A (en) * | 1960-12-23 | 1963-09-03 | Bell Telephone Labor Inc | Vocoder excitation generator |
US3083266A (en) * | 1961-02-28 | 1963-03-26 | Bell Telephone Labor Inc | Vocoder apparatus |
US4004096A (en) * | 1975-02-18 | 1977-01-18 | The United States Of America As Represented By The Secretary Of The Army | Process for extracting pitch information |
US4074069A (en) * | 1975-06-18 | 1978-02-14 | Nippon Telegraph & Telephone Public Corporation | Method and apparatus for judging voiced and unvoiced conditions of speech signal |
US4281218A (en) * | 1979-10-26 | 1981-07-28 | Bell Telephone Laboratories, Incorporated | Speech-nonspeech detector-classifier |
-
1982
- 1982-09-20 DE DE8282810390T patent/DE3266204D1/en not_active Expired
- 1982-09-20 AT AT82810390T patent/ATE15563T1/en not_active IP Right Cessation
- 1982-09-20 EP EP82810390A patent/EP0076233B1/en not_active Expired
- 1982-09-22 CA CA000411900A patent/CA1184657A/en not_active Expired
- 1982-09-23 US US06/421,883 patent/US4589131A/en not_active Expired - Fee Related
- 1982-09-24 JP JP57165153A patent/JPS5870299A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
ATE15563T1 (en) | 1985-09-15 |
US4589131A (en) | 1986-05-13 |
CA1184657A (en) | 1985-03-26 |
EP0076233A1 (en) | 1983-04-06 |
DE3266204D1 (en) | 1985-10-17 |
JPS5870299A (en) | 1983-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0076233B1 (en) | Method and apparatus for redundancy-reducing digital speech processing | |
EP0076234B1 (en) | Method and apparatus for reduced redundancy digital speech processing | |
DE69926851T2 (en) | Method and apparatus for voice activity detection | |
DE69938374T2 (en) | Method and apparatus for speech recognition using both a neural network and hidden Markov models | |
DE69329511T2 (en) | Method and device for distinguishing between voiced and unvoiced sounds | |
DE69432943T2 (en) | Method and device for speech detection | |
DE3244476C2 (en) | ||
DE69412913T2 (en) | Method and device for digital speech coding with speech signal height estimation and classification in digital speech coders | |
DE69420400T2 (en) | METHOD AND DEVICE FOR SPEAKER RECOGNITION | |
DE69726235T2 (en) | Method and device for speech recognition | |
DE69816177T2 (en) | Speech / pause differentiation using unguided adaptation of hidden Markov models | |
DE69830017T2 (en) | Method and device for speech recognition | |
DE102007001255A1 (en) | Audio signal processing method and apparatus and computer program | |
DE2326517A1 (en) | METHOD AND CIRCUIT ARRANGEMENT FOR DETECTING SPOKEN WORDS | |
EP0815553B1 (en) | Method of detecting a pause between two signal patterns on a time-variable measurement signal | |
DE69720134T2 (en) | Speech recognizer using fundamental frequency intensity data | |
EP3291234B1 (en) | Method for evaluation of a quality of the voice usage of a speaker | |
DE19942178C1 (en) | Method of preparing database for automatic speech processing enables very simple generation of database contg. grapheme-phoneme association | |
DE69918635T2 (en) | Apparatus and method for speech processing | |
DE3043516C2 (en) | Method and device for speech recognition | |
DE3733659C2 (en) | ||
DE69411817T2 (en) | METHOD AND DEVICE FOR CODING / DECODING BACKGROUND NOISE | |
DE2636032B2 (en) | Electrical circuit arrangement for extracting the fundamental oscillation period from a speech signal | |
DE69922769T2 (en) | Apparatus and method for speech processing | |
DE60018690T2 (en) | Method and device for voiced / unvoiced decision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 19820922 |
|
AK | Designated contracting states |
Designated state(s): AT CH DE FR GB IT LI NL SE |
|
ITF | It: translation for a ep patent filed | ||
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Designated state(s): AT CH DE FR GB IT LI NL SE |
|
REF | Corresponds to: |
Ref document number: 15563 Country of ref document: AT Date of ref document: 19850915 Kind code of ref document: T |
|
REF | Corresponds to: |
Ref document number: 3266204 Country of ref document: DE Date of ref document: 19851017 |
|
ET | Fr: translation filed | ||
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: AT Payment date: 19860825 Year of fee payment: 5 |
|
26N | No opposition filed | ||
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: NL Payment date: 19870930 Year of fee payment: 6 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PUE Owner name: OMNISEC AG |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: TP |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: 732 |
|
ITPR | It: changes in ownership of a european patent |
Owner name: CESSIONE;OMNISEC AG |
|
NLS | Nl: assignments of ep-patents |
Owner name: OMNISEC AG TE REGENSDORF, ZWITSERLAND. |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Effective date: 19880920 Ref country code: AT Effective date: 19880920 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LI Effective date: 19880930 Ref country code: CH Effective date: 19880930 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Effective date: 19890401 |
|
NLV4 | Nl: lapsed or anulled due to non-payment of the annual fee | ||
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 19890531 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee | ||
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Effective date: 19890601 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: SE Payment date: 19890921 Year of fee payment: 8 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SE Effective date: 19900921 |
|
EUG | Se: european patent has lapsed |
Ref document number: 82810390.3 Effective date: 19910527 |