EP0076233B1 - Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung - Google Patents

Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung Download PDF

Info

Publication number
EP0076233B1
EP0076233B1 EP82810390A EP82810390A EP0076233B1 EP 0076233 B1 EP0076233 B1 EP 0076233B1 EP 82810390 A EP82810390 A EP 82810390A EP 82810390 A EP82810390 A EP 82810390A EP 0076233 B1 EP0076233 B1 EP 0076233B1
Authority
EP
European Patent Office
Prior art keywords
speech
process according
energy
decision
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
EP82810390A
Other languages
English (en)
French (fr)
Other versions
EP0076233A1 (de
Inventor
Stephan Dr. Horvath
Yung-Shain Wu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omnisec AG Te Regensdorf Zwitserland
Original Assignee
Gretag AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gretag AG filed Critical Gretag AG
Priority to AT82810390T priority Critical patent/ATE15563T1/de
Publication of EP0076233A1 publication Critical patent/EP0076233A1/de
Application granted granted Critical
Publication of EP0076233B1 publication Critical patent/EP0076233B1/de
Expired legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Definitions

  • the invention relates to a redundancy-reducing digital speech processing method that works according to the linear prediction method and to a corresponding device according to the preamble of claim 1 and claim 33.
  • LPC vocoders are not yet fully satisfactory. Although the language synthesized again after the analysis is usually still relatively understandable, it is distorted and sounds artificial. A main cause for this lies u. a. above all in the difficulty of making the decision with certainty whether there is a voiced or an unvoiced speech section with sufficient certainty. Other causes include poor determination of the pitch period and accurate determination of the sound filter parameters.
  • the present invention is now primarily concerned with the first of these difficulties and aims to improve a digital speech processing method or system of the type defined at the outset in such a way that it makes more accurate or more reliable voiced-unvoiced decisions and thus an improvement in Quality of the synthesized language leads.
  • a number of decision criteria are known for the voiced-voiceless classification, which are used individually or in part in combination. Common criteria are e.g. B. the energy of the speech signal, the number of zero crossings of the same within a certain time period, the normalized residual error energy, d. H. the ratio of the energy of the prediction error signal to that of the speech signal, and the level of the second maximum of the autocorrelation function of the speech signal or of the prediction error signal. Furthermore, it is also common to carry out a cross-comparison to one or more neighboring language sections. A clear and comparative representation of the most important classification criteria and methods is e.g. B. the publication by L. R. Rabiner et al. refer to.
  • a common feature of all of these known methods and criteria is that two-sided decisions are always made by definitely assigning the language section to one or the other of the two options, depending on whether the criteria or criteria in question are met or not. In this way, it can be achieved with a suitable selection and, if necessary, a combination of the decision criteria, a relatively high degree of accuracy, however, as practice shows, wrong decisions still occur relatively often, which significantly affect the quality of the synthesized language.
  • a main reason for this lies in the fact that, in spite of all redundancy, voice signals generally have an unsteady character, due to which it is simply not possible to set the decision thresholds used in the respective criteria in such a way that a reliable statement can be made on both sides. A certain degree of uncertainty always remains and must be accepted.
  • the invention now proceeds from this previously used principle of bilateral decisions and instead uses a strategy in which only unilateral, but practically absolutely safe decisions are made.
  • a language section is only clearly classified as voiced or unvoiced if a certain criterion is met. However, if the criterion is not met, the language section is not already definitely judged to be unvoiced or voiced, but is subject to a further classification criterion. This in turn only makes a safe decision in one direction if the relevant criterion is met, otherwise the decision procedure is continued in an analogous manner. This continues until a safe classification is possible. Extensive studies have shown that with a suitable selection and order of the criteria, a maximum of about six to seven decision steps are usually required.
  • the positions of the respective decisions are for the degree of security of the individual decisions applicable thresholds. The more extreme these decision thresholds are, the more selective the criteria and the safer the decisions. However, with increasing selectivity of the individual criteria, the number of the maximum necessary decision-making operations increases. In practice, however, it is easily possible to set the thresholds in such a way that practically absolute (one-sided) decision-making certainty is achieved without the total number of criteria or decision-making operations increasing above the level specified above.
  • this is from some source, e.g. B. a microphone 1 originating analog voice signal in a filter 2 band limited and then sampled and digitized in an A / D converter 3.
  • the sampling rate is about 6 to 16 kHz, preferably about 8 kHz.
  • the resolution is about 8 to 12 bit.
  • the pass band of the filter 2 usually extends from approximately 80 Hz to approximately 3.1-3.4 kHz in the case of so-called broadband speech, and from approximately 300 Hz to 3.1-3.4 kHz in the telephone language.
  • the digital speech signal s n is divided into successive, preferably overlapping speech sections, so-called frames.
  • the speech section length can be approximately 10 to 30 msec, preferably approximately 20 msec.
  • the frame rate ie the number of frames per second, is approximately 30 to 100, preferably approximately 45 to 70.
  • sections as short as possible and correspondingly high frame rates are desirable, but this is appropriate on the one hand, the limited performance of the computer used in real-time processing and, on the other hand, the demand for the lowest possible bit rates during transmission.
  • the analysis is essentially divided into two main procedures, firstly in the calculation of the amplification factor or volume parameter and the coefficients or filter parameters of the underlying vocal tract model filter and secondly in the voiced-unvoiced decision and in determining the pitch -Period in voiced case.
  • the filter coefficients are obtained in a parameter calculator 4 by solving the system of equations which is obtained when the energy of the prediction error, ie the energy of the difference between the actual samples and the samples estimated on the basis of the model assumption in the interval under consideration (speech section) is minimized as a function of the coefficients becomes.
  • the system of equations is preferably solved using the autocorrelation method using an algorithm according to Durbin (cf., for example, BLB Rabiner and RW Schafer "Digital Processing of Speech Signals", Prentice-Hall Inc., Englewood Cliffs, NJ 1978, pp. 411-413) .
  • the so-called reflection coefficients (k j ) also result, which are less sensitive transforms of the filter coefficients (a j ) to quantization.
  • the amount of reflection coefficients in stable filters is always less than 1 and, moreover, their amount decreases with increasing atomic number. Because of these advantages, the reflection coefficients (k j ) are preferably transmitted instead of the filter coefficients (a;).
  • the volume parameter G results from the algorithm as a by-product.
  • the digital speech signal Sn is first temporarily stored in a buffer 5 until the filter parameters (a;) have been calculated.
  • the signal then passes through an inverse filter 6 set with the parameters (a j ), which has an inverse transfer function to the transfer function of the vocal tract model filter.
  • the result of this inverse filtering is a prediction error signal e " , which is similar to the excitation signal x " multiplied by the gain factor G.
  • This prediction error signal e n is now in the case of telephone speech directly or in the case of broadband speech via a low-pass filter 7 fed to an autocorrelation stage 8, which forms the autocorrelation function AKF standardized to the zero-order autocorrelation maximum, from which the pitch period p is determined in a pitch extraction stage 9, in a known manner as the distance between the second autocorrelation maximum RXX and the first maximum (zero-order), an adaptive search method is preferably used.
  • the low-pass filter 7 will be explained further below. At this point it should only be mentioned that it can be bridged by means of a switch 10 for telephone speech and could also be arranged in front of the inverse filter 6.
  • the speech section under consideration is classified as voiced or unvoiced according to the decision procedure according to the invention to be explained in more detail in a decision stage 11 which is supported by an energy determination stage 12 and a zero crossing determination stage 13.
  • the pitch parameter p is set to zero.
  • the parameter calculator described above determines a set of filter parameters for each speech section (frame).
  • the filter parameters could also be determined differently, for example continuously by means of adaptive inverse filtering or another known method, the filter parameters being readjusted continuously with each sampling cycle, but only at the times determined by the frame rate for further processing or Transmission will be provided.
  • the invention is in no way restricted in this regard. It is only essential that there is a set of filter parameters for each language section.
  • the recovery or synthesis of the speech signal from the parameters takes place in a known manner in that the parameters initially decoded in a decoder 15 are fed to a pulse-noise generator 16, an amplifier 17 and a vocal tract model filter 18 and the output signal of the model filter 18 by means of a D / A converter 19 brought into analog form and then after the usual filtering 20 by a playback device, for. B. a speaker 21 is made audible.
  • the volume parameter G controls the amplification factor of the amplifier 17, the filter parameters (kj) define the transfer function of the sound formation or vocal tract model filter 18.
  • Fig. 2 An example of such a system is shown in Fig. 2 as a block diagram.
  • the multi-processor system shown essentially comprises four functional blocks, namely a main processor 50, two secondary processors 60 and 70 and an input / output unit 80. It implements both analysis and synthesis.
  • the input / output unit 80 contains the stages designated 81 for analog signal processing, such as amplifiers, filters and automatic gain control, as well as the A / D converter and the D / A converter.
  • the main processor 50 carries out the actual speech analysis or synthesis, for which purpose the determination of the filter parameters and the volume parameters (parameter calculator 4), the determination of energy and zero crossings of the speech signal (stages 12 and 13), the voiced-unvoiced decision (stage 11) and the determination of the pitch period (stage 9) or, on the synthesis side, the generation of the output signal (stage 16), its volume variation (stage 17) and its filtering in the speech model filter (filter 18).
  • the main processor 50 is supported by the secondary processor 60, which carries out the intermediate storage (buffer 5), inverse filtering (stage 6), optionally the low-pass filtering (stage 7) and the autocorrelation (stage 8).
  • the secondary processor 70 finally deals exclusively with the coding or decoding of the speech parameters and with the data traffic with z.
  • the voiced-unvoiced decision-making procedure is explained in more detail below.
  • a longer analysis interval is preferably used as a basis for the voiced-unvoiced decision and the determination of the pitch period than for the determination of the filter coefficients.
  • the analysis interval is the same as the language section under consideration; for pit extraction, on the other hand, the analysis interval extends on both sides of the language section into the respectively adjacent language section, for example up to about half of the same. In this way, a more reliable and less erratic pitch extraction can be carried out.
  • the energy of a signal is referred to in the following, this always means the relative energy of the signal in the analysis interval, that is to say standardized to the dynamic range of the A / D converter 3.
  • FIGS. 3 and 4 show the flow diagrams of two particularly expedient decision-making processes according to the invention, specifically in FIG. 3 a variant for broadband voice and in FIG. 4 one for telephone voice.
  • an energy test is carried out as the first decision criterion.
  • the (relative, standardized) energy Es of the speech signal s n is compared with a minimum energy threshold EL which is set so low that the speech section can certainly be called unvoiced if the energy Es does not lie above this threshold.
  • Practical values for this minimum energy threshold EL is 1.1 - 10- 4 to 1.4 - 10 -4, preferably about 1.2 - 10. 4 These values apply in the event that all digital scanning signals are shown in the standard format (range ⁇ 1). For other signal formats, the values must be multiplied by the corresponding factors.
  • the next criterion is a zero-crossing test.
  • the number of zero crossings of the digital voice signal is determined in the analysis interval and compared with a maximum number of ZCU. If the number is greater than this maximum number, the speech section is clearly rated as unvoiced, otherwise a further decision criterion is used.
  • the maximum number ZCU is approximately 105 to 120, preferably approximately 110 zero crossings for an analysis interval length of 256 samples.
  • the normalized autocorrelation function AFK of the low-pass filtered prediction error signal e is used, namely the normalized autocorrelation maximum RXX, which is at a distance from the zero-order maximum identified by the index IP, is compared with a threshold value RU and evaluated as correct if this threshold value is exceeded, otherwise the next criterion is proceeded in.
  • Practically favorable values for the threshold value are 0.55 to 0.75, preferably about 0.6.
  • the energy of the low-pass filtered prediction error signal e n is examined. If this energy ratio V o is smaller than a first, lower ratio threshold VL, the speech section is rated as voiced. Otherwise there is a further comparison with a second, higher ratio threshold VU, the decision being made unvoiced if the energy ratio V o is above this higher threshold VU. This second comparison may also be omitted.
  • Suitable values for the two ratio thresholds VL and VU are 0.05 to 0.15 and 0.6 to 0.75, preferably about 0.1 and 0.7.
  • the next decision criterion is yet another energy test, whereby the energy Es of the speech signal is compared to a second, higher minimum energy threshold EU and this time the decision is made as to when the energy Es of the speech signal exceeds this threshold EU.
  • Practical values for these higher minimum energy threshold EU are 1.3 - 10-- 3 to 1.8 - 10 -3, preferably about 1.5 - 10 3rd
  • the autocorrelation maximum RXX is first compared with a second, lower threshold value RM. If this threshold is exceeded, the decision will be made by voice. Otherwise, a cross-comparison with the two (possibly also only one) immediately preceding language sections is carried out as the last criterion. The speech section is only rated as unvoiced if the (or one) of the two previous speech sections were also unvoiced. Otherwise, the decision will be final. Suitable values for the threshold value RM are 0.35 to 0.45, preferably approximately 0.42.
  • the prediction error signal e n becomes low-pass in broadband speech filtered.
  • This low-pass filtering causes the frequency distributions of the autocorrelation maximum values to be split up between unvoiced and voiced speech sections and thus makes it easier to determine the decision threshold while at the same time reducing the frequency of errors. It also enables better pitch extraction, ie determining the pitch period.
  • An essential condition for this, however, is that the low-pass filtering is carried out with an extremely high slope of approximately 150 to 180 db / octave.
  • the (digital) filter used should have an elliptical characteristic, the cut-off frequency should be in the range of 700-1200 Hz, preferably 800 to 900 Hz.
  • the decision process for telephone speech shown in FIG. 4 largely corresponds to that for broadband speech. Only the sequence of the second energy test and the second zero-crossing test is reversed (not mandatory) and the second test of the auto-correlation maximum RXX is also omitted, since this would not work for telephone speech.
  • the individual decision thresholds are partly different, depending on the differences between the telephone language and the broadband language. Practical values are shown in the table below.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Error Detection And Correction (AREA)

Description

  • Die Erfindung betrifft ein nach der Methode der linearen Prädiktion arbeitendes redundanzverminderndes digitales Sprachverarbeitungsverfahren und eine entsprechende Vorrichtung gemäß dem Oberbegriff von Patentanspruch 1 bzw. Patentanspruch 33.
  • Derartige Sprachverarbeitungssysteme, sogenannte LPC-Vocoder, erlauben eine erhebliche Redundanzreduktion bei der digitalen Übertragung von Sprachsignalen. Sie gewinnen heute immer mehr an Bedeutung und sind Gegenstand zahlreicher Veröffentlichungen und Patente, von denen hier nur einige repräsentative rein beispielsweise angeführt sind:
    • B. S. Atal und S. L. Hanauer, Journal Acoust. Soc. Am., 50, S. 637-655,1971
    • R. W. Schafer und L. R. Rabiner, Proc. IEEE Vol. 63, No. 4, S. 662-677, 1975
    • L. R. Rabiner et al., Trans-Acoustics, Speech and Signal Proc., Vol. 24, No. 5, S. 399-418, 1976
    • B. Gold, Proc. IEEE Vol. 65, No. 12, S. 1636-1658,1977
    • A. Kurematsu et al, Proc. IEEE, ICASSP, Washington 1979, S. 69-72
    • S. Horvath, »LPC-Vocoder, Entwicklungsstand und Perspektiven«,
    • Sammelband Kolloquiumsvorträge »Krieg im Äther«, XVII. Folge, Bern, 1978
    • US-PS 3 624 302
    • US-PS 3 631 520
    • US-PS 3 909 533
  • Die bekannten und erhältlichen LPC-Vocoder arbeiten noch nicht voll zufriedenstellend. Zwar ist die nach der Analyse wieder synthetisierte Sprache meistens noch relativ verständlich, jedoch ist sie verzerrt und tönt künstlich. Eine Hauptursache dafür liegt u. a. vor allem in der Schwierigkeit, den Entscheid, ob ein stimmhafter oder ein stimmloser Sprachabschnitt vorliegt, mit ausreichender Sicherheit zu treffen. Weitere Ursachen sind mangelhafte Bestimmung der Pitchperiode und genaue Bestimmung der Klangbildungsfilterparameter.
  • Die vorliegende Erfindung befaßt sich nun vornehmlich mit der ersten dieser Schwierigkeiten und hat zum Ziel, ein digitales Sprachverarbeitungsverfahren bzw. -system der eingangs definierten Art dahingehend zu verbessern, daß es zu treffenderen bzw. sichereren Stimmhaft-Stimmlos-Entscheiden und damit zu einer Verbesserung der Qualität der synthetisierten Sprache führt.
  • Das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung sind in den Ansprüchen 1 und 33 beschrieben. Bevorzugte Ausführungsvarianten ergeben sich aus den abhängigen Ansprüchen.
  • Für die Stimmhaft-Stimmlos-Klassifikation sind eine Reihe von Entscheidungskriterien bekannt, die jeweils einzeln oder zum Teil auch kombiniert angewandt werden. Übliche Kriterien sind z. B. die Energie des Sprachsignals, die Anzahl der Nulldurchgänge desselben innerhalb eines gewissen Zeitabschnitts, die normierte Restfehlerenergie, d. h. das Verhältnis der Energie des Prädiktionsfehlersignals zu der des Sprachsignals, und die Höhe des zweiten Maximums der Autokorrelationsfunktion des Sprachsignals oder des Prädiktionsfehlersignals. Ferner ist es auch üblich, einen Quervergleich zu einem oder mehreren benachbarten Sprachabschnitten durchzuführen. Eine übersichtliche und vergleichende Darstellung der wichtigsten Klassifikationskriterien und -methoden ist z. B. der eingangs angeführten Veröffentlichung von L. R. Rabiner et al. zu entnehmen.
  • Ein gemeinsames Merkmal aller dieser bekannten Methoden und Kriterien ist, daß stets zweiseitige Entscheide getroffen werden, indem der Sprachabschnitt jeweils definitiv der einen oder der anderen der beiden Möglichkeiten zugeordnet wird, je nachdem, ob das oder die betreffenden Kriterien erfüllt sind oder nicht. Es kann zwar auf diese Weise bei geeigneter Auswahl und gegebenenfalls Kombination der Entscheidungskriterien eine relativ hohe Treffsicherheit erzielt werden, wie die Praxis jedoch zeigt, treten dabei immer noch relativ häufig Fehlentscheidungen auf, welche die Qualität der synthetisierten Sprache erheblich in Mitleidenschaft ziehen. Ein Hauptgrund dafür liegt in der Tatsache, daß Sprachsignale im allgemeinen trotz aller Redundanz einen instationären Charakter haben, aufgrund dessen es einfach nicht möglich ist, die bei den jeweiligen Kriterien benützten Entscheidungsschwellen so zu legen, daß nach beiden Seiten eine sichere Aussage gemacht werden kann. Eine gewisse Unsicherheit bleibt stets vorhanden und muß inkauf genommen werden.
  • In Erkenntnis dieses Sachverhalts geht nun die Erfindung von diesem bisher ausschließlich benutzten Prinzip der zweiseitigen Entscheidungen ab und verwendet stattdessen eine Strategie, bei der nur einseitige, dafür aber praktisch absolut sichere Entscheidungen getroffen werden. Mit anderen Worten heißt dies, daß ein Sprachabschnitt nur dann eindeutig als stimmhaft oder stimmlos klassifiziert wird, wenn ein gewisses Kriterium erfüllt ist. Falls das Kriterium jedoch nicht erfüllt ist, wird der Sprachabschnitt nicht bereits definitiv als stimmlos bzw. stimmhaft beurteilt, sondern einem weiteren Klassifizierungskriterium unterworfen. In diesem erfolgt wiederum nur ein sicherer Entscheid in einer Richtung, falls das betreffende Kriterium erfüllt ist, andernfalls wird das Entscheidungsprocedere in analoger Weise fortgesetzt. Dies geht so lange weiter, bis eine sichere Klassifikation möglich ist. Umfangreiche Untersuchungen haben gezeigt, daß dazu bei geeigneter Auswahl und Reihenfolge der Kriterien in der Regel maximal etwa sechs bis sieben Entscheidungsschritte erforderlich sind.
  • Für den Grad der Sicherheit der einzelnen Entscheidungen sind die Lagen der jeweiligen Entscheidungsschwellen maßgebend. Je extremer diese Entscheidungsschwellen sind, desto selektiver sind die Kriterien und desto sicherer die Entscheide. Mit zunehmender Selektivität der einzelnen Kriterien steigt aber auch die Zahl der maximal notwendigen Entscheidungsoperationen. In der Praxis ist es jedoch ohne weiteres möglich, die Schwellen so zu legen, daß praktisch absolute (einseitige) Entscheidungssicherheit erreicht wird, ohne daß die Gesamtanzahl der Kriterien bzw. Entscheidungsoperationen über das oben angegebene Maß ansteigt.
  • Im folgenden wird die Erfindung anhand der Zeichnung näher erläutert. Es zeigt
    • Fig. 1 ein stark vereinfachtes Blockschema einer erfindungsgemäßen Sprachdigitalisierungsvorrichtung,
    • Fig. 2 ein Blockschaltbild eines entsprechenden Multi-Prozessor-Systems und
    • Fig. 3 und 4 Flußschemen zweier verschiedener Verfahrensabläufe für den Stimmhaft-Stimmlos-Entscheid.
  • Für die Analyse wird das von irgendeiner Quelle, z. B. einem Mikrophon 1 stammende analoge Sprachsignal in einem Filter 2 bandbegrenzt und dann in einem A/D-Wandler 3 abgetastet und digitalisiert. Die Abtastrate beträgt dabei etwa 6 bis 16 kHz, vorzugsweise etwa 8 kHz. Die Auflösung ist etwa 8 bis 12 bit. Der Durchlaßbereich des Filters 2 erstreckt sich bei sog. Breitbandsprache gewöhnlich von ca. 80 Hz bis etwa 3,1-3,4 kHz, bei Telefonsprache von etwa 300 Hz bis 3,1-3,4 kHz.
  • Für die nun einsetzende eigentliche Analyse bzw. redundanzvermindernde Verarbeitung wird das digitale Sprachsignal sn in aufeinanderfolgende, vorzugsweise überlappende Sprachabschnitte, sog. Frames, eingeteilt. Die Sprachabschnittslänge kann etwa 10 bis 30 msec, vorzugsweise etwa 20 msec betragen. Die Frame-Rate, d. h. die Anzahl von Frames pro Sekunde, beträgt etwa 30 bis 100, vorzugsweise etwa 45 bis 70. Im Interesse hoher Auflösung und damit Sprachqualität bei der Synthetisierung sind möglichst kurze Abschnitte und entsprechende hohe Frame-Raten erstrebenswert, jedoch stehen dem einerseits bei Echtzeit-Verarbeitung das begrenzte Leistungsvermögen des eingesetzten Computers und anderseits die Forderung möglichst niedriger Bitraten bei der Übertragung entgegen.
  • Für jeden dieser Sprachabschnitte erfolgt nun eine Analyse des Sprachsignals nach den Prinzipien der linearen Prädiktion, wie sie z. B. in den eingangs erwähnten Publikationen beschrieben sind. Grundlage der linearen Prädiktion ist ein parametrisches Modell der Spracherzeugung. Ein zeitdiskretes Allpol-Digitalfilter modelliert die Klangformung durch Hals- und Mundtrakt (Vokaltrakt). Bei stimmhaften Lauten ist die Anregung dieses Filters eine periodische Pulsfolge, deren Frequenz, die sog. Pitchfrequenz, die periodische Anregung durch die Stimmbänder idealisiert. Bei stimmlosen Lauten ist die Anregung weißes Rauschen, idealisierend für die Luftturbulenz im Hals bei nicht angeregten Stimmbändern. Ein Verstärkungsfaktor schließlich kontrolliert die Lautstärke. Auf der Grundlage dieses Modells ist somit das Sprachsignal durch die folgenden Parameter vollständig bestimmt:
    • 1. Die Information, ob der zu synthetisierende Laut stimmhaft oder stimmlos ist,
    • 2. die Pitch-Periode (bzw. die Pitch Frequenz) bei stimmhaften Lauten (bei stimmlosen ist die Pitch- periode per def. gleich 0)
    • 3. die Koeffizienten des zugrundegelegten Allpol-Digitalfilters (Vokaltraktmodells) und
    • 4. der Verstärkungsfaktor.
  • Die Analyse gliedert sich demnach im wesentlichen in zwei Hauptprozeduren, und zwar zum einen in die Berechnung des Verstärkungsfaktors bzw. Lautstärkeparameters sowie der Koeffizienten bzw. Filterparameter des zugrundeliegenden Vokaltrakt-Modellfilters und zum anderen in den Stimmhaft-Stimmlos-Entscheid und in die Ermittlung der Pitch-Periode im stimmhaften Falle.
  • Die Filterkoeffizienten werden in einem Parameterrechner 4 durch Lösung des Gleichungssystems gewonnen, welches erhalten wird, wenn die Energie des Prädiktionsfehlers, d. h. die Energie der Differenz zwischen den tatsächlichen Abtastwerten und den aufgrund der Modellannahme geschätzten Abtastwerten im betrachteten Intervall (Sprachabschnitt) in Funktion der Koeffizienten minimiert wird. Die Auflösung des Gleichungssystems erfolgt vorzugsweise nach der Autokorrelationsmethode mittels eines Algorithmus nach Durbin (vgl. z. B. L. B. Rabiner and R. W. Schafer »Digital Processing of Speech Signals«, Prentice-Hall Inc., Englewood Cliffs, N.J. 1978, S. 411-413). Dabei ergeben sich neben den Filterkoeffizienten bzw. -parametern (a;) gleichzeitig auch die sog. Reflexionskoeffizienten (kj), welche auf Quantisierung weniger empfindliche Transformierte der Filterkoeffizienten (aj) sind. Die Reflexionskoeffizienten sind bei stabilen Filtern dem Betrag nach stets kleiner als 1 und außerdem nimmt ihr Betrag mit zunehmender Ordnungszahl ab. Wegen dieser Vorteile werden bevorzugt die Reflexionskoeffizienten (kj) statt der Filterkoeffizienten (a;) übertragen. Der Lautstärkeparameter G ergibt sich aus dem Algorithmus als Nebenprodukt.
  • Zur Auffindung der Pitch-Periode p (Periode der Stimmbandgrundfrequenz) wird das digitale Sprachsignal Sn in einem Buffer 5 zunächst solange zwischengespeichert, bis die Filterparameter (a;) berechnet sind. Dann passiert das Signal ein mit den Parametern (aj) eingestelltes Inversfilter 6, welches eine zur Übertragungsfunktion des Vokaltraktmodellfilters inverse Übertragungsfunktion besitzt. Das Ergebnis dieser Invers-Filterung ist ein Prädiktionsfehlersignal e", welches dem mit dem Verstärkungsfaktor G multiplizierten Anregungssignal x" ähnlich ist. Dieses Prädiktionsfehlersignal en wird nun im Falle von Telefonsprache direkt oder im Falle von Breitbandsprache über ein Tiefpaßfilter 7 einer Autokorrelationsstufe 8 zugeführt, welche daraus die auf das Autokorrelationsmaximum nullter Ordnung normierte Autokorrelationsfunktion AKF bildet, anhand welcher in einer Pitchextraktionsstufe 9 die Pitchperiode p ermittelt wird, und zwar in bekannter Weise als Abstand des zweiten Autokorrelationsmaximums RXX vom ersten Maximum (nullter Ordnung), wobei vorzugsweise ein adaptives Suchverfahren angewandt wird.
  • Die Bedeutung des Tiefpaßfilters 7 wird weiter unten noch erläutert. An dieser Stelle sei lediglich erwähnt, daß es mittels eines Schalters 10 für Telefonsprache überbrückbar ist und ferner auch vor dem Inversfilter 6 angeordnet sein könnte.
  • Die Klassifikation des betrachteten Sprachabschnitts als stimmhaft oder stimmlos erfolgt nach dem noch genauer zu erläuternden erfindungsgemäßen Entscheidungsprocedere in einer Entscheidungsstufe 11, welche von einer Energiebestimmungsstufe 12 und einer Nulldurchgangsbestimmungsstufe 13 unterstützt wird. Im stimmlosen Fall wird der Pitch-Parameter p gleich null gesetzt.
  • Der vorstehend beschriebene Parameterrechner ermittelt pro Sprachabschnitt (Frame) je einen Satz Filterparameter. Selbstverständlich könnten die Filterparameter auch anders bestimmt werden, beispielsweise laufend mittels einer adaptiven inversen Filtrierung oder eines anderen bekannten Verfahrens, wobei die Filterparameter zwar mit jedem Abtasttakt laufend nachgeregelt, aber nur jeweils zu den durch die Frame-Rate festgelegten Zeitpunkten für die weitere Verarbeitung bzw. Übertragung bereitgestellt werden. Die Erfindung ist diesbezüglich in keiner Weise eingeschränkt. Wesentlich ist lediglich, daß für jeden Sprachabschnitt ein Satz Filterparameter vorliegt.
  • Die nunmehr vollzählig vorliegenden Parameter (kj), G und p werden dann einer Codierungsstufe 14 zugeführt, wo sie in eine für die Übertragung geeignete Form gebracht und bereitgestellt werden.
  • Die Rückgewinnung bzw. Synthese des Sprachsignals aus den Parametern erfolgt in bekannter Weise dadurch, daß die zunächst in einem Decoder 15 decodierten Parameter einem Puls-Rausch-Generator 16, einem Verstärker 17 und einem Vokaltraktmodellfilter 18 zugeführt werden und das Ausgangssignal des Modellfilters 18 mittels eines D/A-Wandlers 19 in analoge Form gebracht und dann nach der üblichen Filterung 20 durch ein Wiedergabegerät, z. B. einen Lautsprecher 21 hörbar gemacht wird. Der Puls-Rauschgenerator 16 erzeugt die durch den Verstärker 17 verstärkte Anregung x" des Vokaltraktmodellfilters 18, und zwar im stimmlosen Falle (p = 0) weißes Rauschen und im stimmhaften Falle (p?'=0) eine periodische Pulsfolge der durch die Pitchperiode p festgelegten Frequenz. Der Lautstärkeparameter G kontrolliert den Verstärkungsfaktor des Verstärkers 17, die Filterparameter(kj) definieren die Übertragungsfunktion des Klangbildungs- bzw. Vokaltraktmodellfilters 18.
  • Vorstehend wurde der allgemeine Aufbau und die Funktion der erfindungsgemäßen Sprachverarbeitungsvorrichtung der einfacheren Verständlichkeit halber anhand diskreter Funktionsstufen erläutert. Es ist für den Fachmann jedoch selbstverständlich, daß sämtliche Funktionen bzw. Funktionsstufen zwischen dem analyseseitigen A/D-Wandler 3 und dem syntheseseitigen D/A-Wandler 19, in denen also digitale Signale verarbeitet werden, in der Praxis vorzugsweise durch einen entsprechend programmierten Computer oder einen Mikroprozessor oder dergleichen implementiert sind. Die softwaremäßige Realisierung der einzelnen Funktionsstufen, wie z. B. der Parameterrechner, die diversen Digitalfilter, Autokorrelation etc. ist für den mit der Datenverarbeitungstechnik vertrauten Fachmann Routine und in der Fachliteratur beschrieben (siehe z. B. IEEE Digital Signal Processing Comittee: »Programsfor Digital Signal Processing«, IEEE Press Book 1980).
  • Für Echtzeit-Anwendungen sind insbesondere bei hohen Abtastarten und kurzen Sprachabschnitten wegen der dann großen Anzahl von in kürzester Zeit zu bewältigenden Operationen extrem leistungsfähige Rechner erforderlich. Für solche Zwecke werden dann am besten Multi-Prozessor-Systeme mit einer geeigneten Aufgabenteilung eingesetzt. Ein Beispiel für ein solches System ist in Fig. 2 als Blockschema dargestellt.
  • Das dargestellte Multi-Prozessor-System umfaßt im wesentlichen vier Funktionsblöcke, und zwar einen Hauptprozessor 50, zwei Nebenprozessoren 60 und 70 und eine Eingabe/Ausgabe-Einheit 80. Es implementiert sowohl Analyse als auch Synthese.
  • Die Eingabe/Ausgabe-Einheit 80 enthält die mit 81 bezeichneten Stufen zur analogen Signalverarbeitung, wie Verstärker, Filter und automatische Verstärkungsregelung, sowie den A/D-Wandler und den D/A-Wandler.
  • Der Hauptprozessor 50 führt die eigentliche Sprachanalyse bzw. -synthese durch, wozu die Bestimmung der Filterparameter und der Lautstärkeparameter (Parameterrechner 4), die Bestimmung von Energie und Nulldurchgängen des Sprachsignals (Stufen 12 und 13), die Stimmhaft-Stimmlos Entscheidung (Stufe 11) und die Bestimmung der Pitchperiode (Stufe 9) bzw. syntheseseitig die Erzeugung des Ausgangssignals (Stufe 16), dessen Lautstärkevariation (Stufe 17) und dessen Filtrierung im Sprachmodellfilter (Filter 18) gehören.
  • Der Hauptprozessor 50 wird dabei vom Nebenprozessor 60 unterstützt, welcher die Zwischenspeicherung (Buffer 5), Inversfiltrierung (Stufe 6), gegebenenfalls die Tiefpaßfiltrierung (Stufe 7) und die Autokorrelation (Stufe 8) durchführt.
  • Der Nebenprozessor 70 schließlich befaßt sich ausschließlich mit der Codierung bzw. Decodierung der Sprachparameter sowie mit dem Datenverkehr mit z. B. einem Modem 90 od. dgl. via eine mit 71 bezeichnete Schnittstelle.
  • Im folgenden wird das Stimmhaft-Stimmlos-Entscheidungsprocedere näher erläutert. Vorweg sei erwähnt, daß für den Stimmhaft-Stimmlos-Entscheid und die Bestimmung der Pitch-Periode vorzugsweise ein längeres Analyseintervall zugrundegelegt wird als für die Bestimmung der Filterkoeffizienten. Für die letzteren ist das Analyseintervall gleich dem betrachteten Sprachabschnitt, für die Pitchextraktion hingegen erstreckt sich das Analyseintervall zu beiden Seiten des Sprachabschnitts in den jeweils benachbarten Sprachabschnitt, beispielsweise bis etwa zur Hälfte desselben. Auf diese Weise läßt sich eine zuverlässigere und weniger sprunghafte Pitchextraktion durchführen. Ferner sei klargestellt, daß, wenn im folgenden von der Energie eines Signals gesprochen wird, damit stets die relative, also auf den Dynamikumfang des A/D-Wandlers 3 normierte Energie des Signals im Analyseintervall gemeint ist.
  • Grundlegendes Prinzip des erfindungsgemäßen Stimmhaft-Stimmlos-Entscheids ist, wie schon weiter vorne erläutert, daß nur sichere Entscheide getroffen werden. Unter »sicher« wird dabei ein Entscheid verstanden, der eine wenigstens 97%ige, vorzugsweise wesentlich höhere und insbesondere sogar absolute Treffsicherheit bzw. entsprechend geringe statistische Fehlerquote aufweist.
  • In den Fig. 3 und 4 sind die Flußdiagramme von zwei besonders zweckmäßigen erfindungsgemäßen Entscheidungsabläufen dargestellt, und zwar in Fig. 3 eine Variante für Breitbandsprache und in Fig. 4 eine solche für Telefonsprache.
  • Gemäß Fig. 3 wird als erstes Entscheidungskriterium ein Energietest durchgeführt. Dabei wird die (relative, normierte) Energie Es des Sprachsignals sn mit einer Mindestenergieschwelle EL verglichen, die so tief angesetzt ist, daß der Sprachabschnitt mit Sicherheit als stimmlos bezeichnet werden kann, wenn die Energie Es nicht über dieser Schwelle liegt. Praktische Werte für diese Mindestenergieschwelle EL sind 1,1 - 10-4 bis 1,4 - 10 4, vorzugsweise etwa 1,2 - 10-4. Diese Werte gelten für den Fall, daß alle digitalen Abtastsignale im Einheitsformat (Bereich ±1) dargestellt sind. Bei anderen Signalformaten sind die Werte mit entsprechenden Faktoren zu multiplizieren.
  • Wenn die Energie Es des Sprachsignals über dieser Schwelle liegt, kann keine eindeutige Aussage getroffen werden und es erfolgt als nächstes Kriterium ein Nulldurchgangstest. Dabei wird die Anzahl der Nulldurchgänge des digitalen Sprachsignals im Analyseintervall festgestellt und mit einer Maximalanzahl ZCU verglichen. Falls die Anzahl größer ist als diese Maximalanzahl, wird der Sprachabschnitt eindeutig als stimmlos bewertet, andernfalls wird ein weiteres Entscheidungskriterium herangezogen. Für einen praktisch ausreichend sicheren Entscheid beträgt die Maximalanzahl ZCU etwa 105 bis 120, vorzugsweise etwa 110 Nulldurchgänge für eine Analyseintervallänge von 256 Abtastwerten.
  • Die angegebene Reihenfolge von Energietest und Nulldurchgangstest hat sich in der Praxis gut bewährt. Sie könnte jedoch auch umgekehrt sein, wobei dann die Entscheidungsschwellen modifiziert werden müßten.
  • Als nächstes Entscheidungskriterium wird die normierte Autokorrelationsfunktion AFK des tiefpaßfiltrierten Prädiktionsfehlersignals e" herangezogen, und zwar wird das normierte Autokorrelationsmaximum RXX, welches sich in einem durch den Index IP gekennzeichneten Abstand vom Maximum nullter Ordnung befindet, mit einem Schwellenwert RU verglichen und als stimmhaft bewertet, wenn dieser Schwellenwert überschritten wird. Andernfalls wird zum nächsten Kriterium weitergegangen. Praktisch günstige Werte für den Schwellenwert sind 0,55 bis 0,75, vorzugsweise etwa 0,6.
  • Als nächstes wird die Energie des tiefpaßfiltrierten Prädiktionsfehlersignals en, genauer das Verhältnis Vo derselben zur Energie Es des Sprachsignals, untersucht. Wenn dieses Energieverhältnis Vo kleiner ist als eine erste, tiefere Verhältnisschwelle VL, wird der Sprachabschnitt als stimmhaft bewertet. Andernfalls erfolgt ein weiterer Vergleich mit einer zweiten, höheren Verhältnisschwelle VU, wobei auf stimmlos entschieden wird, wenn das Energieverhältnis Vo über dieser höheren Schwelle VU liegt. Dieser zweite Vergleich kann eventuell auch entfallen.
  • Geeignete Werte für die beiden Verhältnisschwellen VL und VU sind 0,05 bis 0,15 bzw. 0,6 bis 0,75, vorzugsweise etwa 0,1 bzw. 0,7.
  • Falls auch diese Untersuchung der Restfehlerenergie zu keinem eindeutigen Resultat geführt hat, erfolgt ein weiterer Nulldurchgangstest mit einer tieferen Entscheidungsschwelle bzw. Maximalanzahl ZCL, wobei auf stimmlos entschieden wird, wenn diese Maximalanzahl überschritten wird. Geeignete Werte für diese tiefere Maximalanzahl ZCL sind 70 bis 90, vorzugsweise etwa 80 auf 256 Abtastwerte.
  • Im Zweifelsfalle wird als nächstes Entscheidungskriterium noch ein weiterer Energietest durchgeführt, wobei die Energie Es des Sprachsignals mit einer zweiten, höheren Mindestenergieschwelle EU verglichen und diesmal auf stimmhaft entschieden wird, wenn die Energie Es des Sprachsignals diese Schwelle EU übersteigt. Praktische Werte für diese höhere Mindestenergieschwelle EU sind 1,3 - 10--3 bis 1,8 - 10 3, vorzugsweise etwa 1,5 - 10-3.
  • Sollte auch dann noch kein eindeutiger Entscheid vorliegen, wird zunächst das Autokorrelationsmaximum RXX mit einem zweiten, tieferen Schwellenwert RM verglichen. Wird dieser Schwellenwert überstiegen, wird auf stimmhaft entschieden. Andernfalls wird als letztes Kriterium ein Quervergleich mit den beiden (gegebenenfalls auch nur einem) unmittelbar vorangegangenen Sprachabschnitten durchgeführt. Dabei wird der Sprachabschnitt nur dann als stimmlos bewertet, wenn die (bzw. der eine) beiden vorangegangenen Sprachabschnitte ebenfalls stimmlos waren. Andernfalls wird endgültig auf stimmhaft entschieden. Geeignete Werte für den Schwellenwert RM sind 0,35 bis 0,45, vorzugsweise etwa 0,42.
  • Wie schon weiter vorne erwähnt, wird das Prädiktionsfehlersignal en bei Breitbandsprache tiefpaßfiltriert. Diese Tiefpaßfiltrierung bewirkt eine Aufsplittung der Häufigkeitsverteilungen der Autokorrelationsmaximalwerte zwischen stimmlosen und stimmhaften Sprachabschnitten und erleichtert damit die Festlegung der Entscheidungsschwelle bei gleichzeitiger Verringerung der Fehlerhäufigkeit. Ferner wird damit auch eine bessere Pitchextraktion, d. h. Bestimmung der Pitchperiode, ermöglicht. Wesentliche Bedingung dafür ist jedoch, daß die Tiefpaßfiltrierung mit extrem hoher Flankensteilheit von ca. 150 bis 180 db/Oktave erfolgt. Das verwendete (digitale) Filter sollte eine elliptische Charakteristik besitzen, die Grenzfrequenz soll im Bereich von 700-1200 Hz, vorzugsweise 800 bis 900 Hz liegen.
  • Bei Telefonsprache, der gegenüber der Breitbandsprache der Frequenzbereich unter 300 Hz fehlt, bringt diese Tiefpaßfiltrierung keine Vorteile, sondern ist sogar eher nachteilig. Sie wird daher bei Telefonsprache weggelassen. Dies kann einfach durch Schließen des Schalters 10 oder softwaremassig (durch Nichtausführung des entsprechenden Programmteils) bewerkstelligt werden.
  • Der in Fig. 4 dargestellte Entscheidungsablauf für Telefonsprache stimmt weitestgehend mit dem für Breitbandsprache überein. Es ist lediglich die Reihenfolge von zweitem Energietest und zweitem Nulldurchgangstest vertauscht (nicht zwingend) und ferner ist der zweite Test des Autokorrelationsmaximums RXX weggelassen, da dieser bei Telefonsprache nichts bringen würde. Die einzelnen Entscheidungsschwellen sind entsprechend den Unterschieden der Telefonsprache gegenüber der Breitbandsprache zum Teil anders gelegt. Für die Praxis günstige Werte gehen aus der nachstehenden Tabelle hervor.
    Figure imgb0001
  • Mit den beiden vorstehend beschriebenen Entscheidungsabläufen wurde eine Stimmhaft-Stimmlos-Entscheidung mit extrem kleinen Fehlerquoten erreicht. Es versteht sich, daß die Reihenfolge der Kriterien sowie die Kriterien selbst im Prinzip auch anders sein könnten, wesentlich ist lediglich, daß bei jedem Kriterium immer nur sichere Entscheide getroffen werden.

Claims (34)

1. Redundanzverminderndes Sprachverarbeitungsverfahren nach der Methode der linearen Prädiktion, bei welchem das durch Abtastung eines gegebenenfalls bandbegrenzten Analogsprachsignals gewonnene digitale Sprachsignal in Abschnitte eingeteilt wird und für jeden Sprachabschnitt die Parameter eines Sprachmodellfilters berechnet und ein Stimmhaft-Simmlos-Entscheid getroffen sowie im stimmhaften Falle die Periode der Stimmbandgrundfrequenz (Pitch-Periode) bestimmt werden, dadurch gekennzeichnet, daß für den Stimmhaft-Stimmlos-Entscheid das Sprachsignal oder ein daraus abgeleitetes Signal zunächst nach einem ersten Schwellenwertkriterium analysiert wird, wobei der Schwellenwert so gewählt wird, daß bei Erfüllung des Kriteriums ein zu zumindest 97%, vorzugsweise 100% sicherer Entscheid vorliegt, daß bei Nichterfüllung des ersten Kriteriums das Sprachsignal oder ein daraus abgeleitetes Signal nach einem zweiten, anderen Schwellenwertkriterium analysiert wird, wobei der Schwellenwert so gewählt wird, daß bei Erfüllung des Kriteriums ein zu zumindest 97%, vorzugsweise 100% sicherer Entscheid vorliegt, und daß bei Nichterfüllung auch des zweiten Kriteriums das Sprachsignal oder ein daraus abgeleitetes Signal wenigstens einem weiteren, anderen Entscheidungskriterium unterzogen wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das erste Kriterium ein Energietest ist, bei dem die relative Energie (Es) des Sprachsignals bestimmt und der Sprachabschnitt als stimmlos bewertet wird, wenn die Energie (Es) eine Mindestenergieschwelle (EL) nicht überschreitet.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das erste Kriterium ein Nulldurchgangstest ist, bei welchem die Anzahl (ZC) der Nulldurchgänge des Sprachsignals bestimmt und der Sprachabschnitt als stimmlos bewertet wird, wenn diese Anzahl (ZC) eine Maximalanzahl (ZCU) übersteigt.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das zweite Kriterium ein Nulldurchgangstest gemäß Anspruch 3 ist.
5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß ein weiteres Kriterium ein Schwellenwerttest einer normierten Autokorrelationsfunktion (AKF) ist, welche durch Autokorrelation des aus dem digitalen Sprachsignal mittels eines Inversfilters mit zum Sprachmodellfilter inverser Übertragungsfunktion gebildetes Prädiktionsfehlersignals gewonnen wird, wobei der Abschnitt als stimmhaft bewertet wird, wenn das zweite Maximum (RXX) der normierten Autokorrelationsfunktion (AKF) einen Schwellenwert (RU) überschreitet.
6. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß ein weiteres Kriterium ein Restfehlerenergietest ist, wobei aus dem digitalen Sprachsignal mittels eines Inversfilters mit zum Sprachmodellfilter inverser Übertragungsfunktion das Prädiktionsfehlersignal gebildet sowie dessen Energie und auch die Energie (Es) des Sprachsignals ermittelt wird und wobei ferner das Verhältnis (Vo) der Energie des Prädiktionsfehlersignals zur Energie (Es) des Sprachsignals gebildet und mit einer unteren Verhältnisschwelle (VL) verglichen und der Sprachabschnitt als stimmhaft bewertet wird, wenn dieses Verhältnis (V") kleiner als die Schwelle (VL) ist.
7. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß das Energieverhältnis (Vo) zusätzlich mit einer oberen Verhältnisschwelle (VU) verglichen und der Sprachabschnitt als stimmlos bewertet wird, wenn das Verhältnis (Vo) größer als diese obere Schwelle (VU) ist.
8. Verfahren nach Anspruch 2 oder4 und einem der Ansprüche 5 bis 7, dadurch gekennzeichnet, daß ein weiteres Entscheidungskriterium ein zweiter Energietest ist, wobei die Energie (Es) des Sprachsignals mit einer zweiten, höheren Mindestenergieschwelle (EU) verglichen und der Sprachabschnitt als stimmhaft bewertet wird, wenn die Energie (Es) diese höhere Mindestenergieschwelle (EU) überschreitet.
9. Verfahren nach Anspruch 3 oder4 und einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, daß ein weiteres Entscheidungskriterium ein zweiter Nulldurchgangstest ist, wobei die Anzahl (ZC) der Nulldurchgänge des Sprachsignals mit einer zweiten, tieferen Maximalanzahl (ZCL) verglichen und der Sprachabschnitt als stimmlos bewertet wird, wenn die Anzahl (ZC) diese tiefere Maximalanzahl (ZCL) übersteigt.
10. Verfahren nach Anspruch 5 und einem der Ansprüche 6 und 7, dadurch gekennzeichnet, daß ein weiteres Entscheidungskriterium in einem zweiten Schwellenwerttest der normierten Autokorrelationsfunktion (AKF) besteht, wobei der Abschnitt als stimmhaft bewertet wird, wenn das zweite Maximum (RXX) der normierten Autokorrelationsfunktion (AKF) über einem zweiten, niedrigeren Schwellenwert (RM) liegt.
11. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß ein weiteres Entscheidungskriterium ein Quervergleich mit vorzugsweise zwei bis drei dem betreffenden Sprachabschnitt unmittelbar vorausgegangenen Sprachabschnitten ist, wobei der Sprachabschnitt nur dann als stimmlos bewertet wird, wenn alle diese vorangegangenen Sprachabschnitte ebenfalls stimmlos waren.
12. Verfahren nach Anspruch 5 und einem der Ansprüche 6 bis 11, dadurch gekennzeichnet, daß das für die Bildung des Prädiktionsfehlersignals dem Inversfilter zugeführte Sprachsignal oder das Prädiktionsfehlersignal vor der Autokorrelation tiefpaßfiltriert wird.
13. Verfahren nach den Ansprüchen 4 bis 12, dadurch gekennzeichnet, daß der Stimmhaft-Stimmlos-Entscheid anhand der Entscheidungskriterien erster Energietest, erster Nulldurchgangstest, erster Schwellenwerttest der Autokorrelationsfunktion, Restfehlerenergietest bzw. -teste, zweiter Nulldurchgangstest, zweiter Energietest, zweiter Schwellenwerttest der Autokorrelationsfunktion und Quervergleich durchgeführt wird.
14. Verfahren nach den Ansprüchen 4 bis 9 und 11, dadurch gekennzeichnet, daß der Stimmhaft-Stimmlos-Entscheid anhand der Entscheidungskriterien erster Energietest, erster Nulldurchgangstest, erster Schwellenwerttest der Autokorrelationsfunktion, Restfehlerenergietest bzw. -teste, zweiter Energietest, zweiter Nulldurchgangstest und Quervergleich durchgeführt wird.
15. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß die Tiefpaßfiltrierung des Prädiktionsfehlersignals mit einer Grenzfrequenz von 700 bis 1200 Hz, vorzugsweise 800 bis 900 Hz erfolgt.
16. Verfahren nach Anspruch 12 oder 15, dadurch gekennzeichnet, daß die Tiefpaßfiltrierung mittels eines steilflankigen Digitalfilters (7) mit elliptischer Charakteristik und einer Flankensteilheit von mindestens 150 bis 180 db/Oktave erfolgt.
17. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß bei Breitbandsprache der Schwellenwert (RU) im Bereich von 0,55 bis 0,75, vorzugsweise etwa 0,6, bezogen auf das Autokorrelationsmaximum nullter Ordnung, gewählt wird.
18. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei Breitbandsprache der tiefere Schwellenwert (RM) im Bereich von 0,35 bis 0,45, vorzugsweise etwa 0,42, bezogen auf das Autokorrelationsmaximum nullter Ordnung, gewählt wird.
19. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß bei Breitbandsprache die Mindestenergieschwelle (EL) im Bereich von 1,1 - 10-4 bis 1,4 - 10 4, vorzugsweise etwa 1,20 - 10-4 gewählt wird.
19. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß bei Breitbandsprache die Mindestenergieschwelle (EL) im Bereich von 1,10 - 10-4 bis 1,4 . 10 4, vorzugsweise etwa 1,2 - 10 gewählt wird.
20. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß bei Breitbandsprache die höhere Mindestenergieschwelle (EU) im Bereich von 1,3 - 10 3 bis 1,8 103, vorzugsweise etwa 1,5 . 10 3 gewählt wird.
21. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß bei Breitbandsprache die Maximalanzahl (ZCU) im Bereich von 105 bis 120, vorzugsweise etwa 110, bezogen auf eine Sprachabschnittlänge von 256 Abtastwerten, gewählt wird.
22. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß bei Breitbandsprache die tiefere Maximalanzahl (ZCL) im Bereich von 70 bis 90, vorzugsweise etwa 80, bezogen auf eine Sprachabschnittlänge von 256 Abtastwerten, gewählt wird.
23. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß bei Breitbandsprache die obere Verhältnisschwelle (VU) im Bereich von 0,6 bis 0,75, vorzugsweise etwa 0,7 gewählt wird.
24. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß bei Breitbandsprache die untere Verhältnisschwelle (VL) im Bereich von 0,05 bis 0,15, vorzugsweise etwa 0,1 gewählt wird.
25. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß bei Telefonsprache der Schwellenwert (RU) im Bereich von 0,2 bis 0,4, vorzugsweise etwa 0,25, bezogen auf das Autokorrelationsmaximum nullter Ordnung, gewählt wird.
26. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß bei Telefonsprache die Mindestenergieschwelle (EL) im Bereich von 1,4 - 10 -5 sbis 1,6 · 10 -5, vorzugsweise etwa 1,5 - 10-5 gewählt wird.
27. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß bei Telefonsprache die höhere Mindestenergieschwelle (EU) im Bereich von 1,3 - 10 3 bis 1,8 - 10 3, vorzugsweise etwa 1,5 - 10 gewählt wird.
28. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß bei Telefonsprache die Maximalanzahl (ZCU) im Bereich von 120 bis 140, vorzugsweise etwa 130, bezogen auf eine Sprachabschnittlänge von 256 Abtastwerten, gewählt wird.
29. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß bei Telefonsprache die tiefere Maximalanzahl (ZCL) im Bereich von 100 bis 120, vorzugsweise etwa 110, bezogen auf eine Sprachabschnittlänge von 256 Abtastwerten, gewählt wird.
30. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß bei Telefonsprache die obere Verhältnisschwelle (VU) im Bereich von 0,5 bis 0,7, vorzugsweise etwa 0,6 gewählt wird.
31. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß bei Telefonsprache die untere Verhältnisschwelle (VL) im Bereich von 0,05 bis 0,15, vorzugsweise etwa 0,1 gewählt wird.
32. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß für die Stimmhaft-Stimmlos-Entscheidung ein Entscheidungssprachabschnitt analysiert wird, der sich aus dem Sprachabschnitt, für welchen der Entscheid getroffen wird, und je wenigstens einem Teil der beiden dem betreffenden Sprachabschnitt benachbarten Sprachabschnitte zusammensetzt.
33. Vorrichtung zur Durchführung des Verfahrens gemäß einem der vorangehenden Ansprüche, mit einem Signalaufbereitungsteil, welcher das analoge Sprachsignal taktweise abtastet und die dabei erhaltenen Abtastwerte digitalisiert, und mit einem Analyseteil, welcher das digitalisierte Sprachsignal abschnittsweise analysiert und einen Parameterrechner, eine Pitchentscheidungsstufe und eine Pitchberechnungsstufe enthält, dadurch gekennzeichnet, daß der Analyseteil ein Multiprozessorsystem mit einem Hauptprozessor (50) und zwei Nebenprozessoren (60, 70) ist, wobei ein Nebenprozessor (60) das Sprachsignal zwischenspeichert, aus dem zwischengespeicherten Sprachsignal durch eine Inversfiltrierung das Prädiktionsfehlersignal erzeugt und aus diesem, gegebenenfalls nach einer Tiefpaßfiltrierung, die normierte Autokorrelationsfunktion bildet, wobei der Hauptprozessor (50) die eigentliche Analyse des Sprachsignals durchführt, und wobei der andere Nebenprozessor (70) für die Codierung der vom Hauptprozessor in Verbindung mit dem ersten Nebenprozessor ermittelten Sprachparameter verantwortlich ist.
EP82810390A 1981-09-24 1982-09-20 Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung Expired EP0076233B1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AT82810390T ATE15563T1 (de) 1981-09-24 1982-09-20 Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung.

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CH616781 1981-09-24
CH6167/81 1981-09-24

Publications (2)

Publication Number Publication Date
EP0076233A1 EP0076233A1 (de) 1983-04-06
EP0076233B1 true EP0076233B1 (de) 1985-09-11

Family

ID=4305323

Family Applications (1)

Application Number Title Priority Date Filing Date
EP82810390A Expired EP0076233B1 (de) 1981-09-24 1982-09-20 Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung

Country Status (6)

Country Link
US (1) US4589131A (de)
EP (1) EP0076233B1 (de)
JP (1) JPS5870299A (de)
AT (1) ATE15563T1 (de)
CA (1) CA1184657A (de)
DE (1) DE3266204D1 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
US5208861A (en) * 1988-06-16 1993-05-04 Yamaha Corporation Pitch extraction apparatus for an acoustic signal waveform
US4972474A (en) * 1989-05-01 1990-11-20 Cylink Corporation Integer encryptor
IT1229725B (it) * 1989-05-15 1991-09-07 Face Standard Ind Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5280525A (en) * 1991-09-27 1994-01-18 At&T Bell Laboratories Adaptive frequency dependent compensation for telecommunications channels
US5361379A (en) * 1991-10-03 1994-11-01 Rockwell International Corporation Soft-decision classifier
FR2684226B1 (fr) * 1991-11-22 1993-12-24 Thomson Csf Procede et dispositif de decision de voisement pour vocodeur a tres faible debit.
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
US5471527A (en) 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
TW271524B (de) * 1994-08-05 1996-03-01 Qualcomm Inc
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
US6381570B2 (en) * 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
GB2357683A (en) * 1999-12-24 2001-06-27 Nokia Mobile Phones Ltd Voiced/unvoiced determination for speech coding
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
JP5446874B2 (ja) * 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
DE102008042579B4 (de) * 2008-10-02 2020-07-23 Robert Bosch Gmbh Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
CN101859568B (zh) * 2009-04-10 2012-05-30 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
US9454976B2 (en) 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds
CN112885380B (zh) * 2021-01-26 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2908761A (en) * 1954-10-20 1959-10-13 Bell Telephone Labor Inc Voice pitch determination
US3102928A (en) * 1960-12-23 1963-09-03 Bell Telephone Labor Inc Vocoder excitation generator
US3083266A (en) * 1961-02-28 1963-03-26 Bell Telephone Labor Inc Vocoder apparatus
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4074069A (en) * 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier

Also Published As

Publication number Publication date
JPS5870299A (ja) 1983-04-26
US4589131A (en) 1986-05-13
DE3266204D1 (en) 1985-10-17
CA1184657A (en) 1985-03-26
ATE15563T1 (de) 1985-09-15
EP0076233A1 (de) 1983-04-06

Similar Documents

Publication Publication Date Title
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE3244476C2 (de)
DE69412913T2 (de) Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69420183T2 (de) Verfahren und Vorrichtung zur Sprachkodierung und Sprachdekodierung und Sprachnachverarbeitung
DE102007001255A1 (de) Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
EP0815553B1 (de) Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3733659C2 (de)
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60018690T2 (de) Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung
DE19920501A1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 19820922

AK Designated contracting states

Designated state(s): AT CH DE FR GB IT LI NL SE

ITF It: translation for a ep patent filed
GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Designated state(s): AT CH DE FR GB IT LI NL SE

REF Corresponds to:

Ref document number: 15563

Country of ref document: AT

Date of ref document: 19850915

Kind code of ref document: T

REF Corresponds to:

Ref document number: 3266204

Country of ref document: DE

Date of ref document: 19851017

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: AT

Payment date: 19860825

Year of fee payment: 5

26N No opposition filed
PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 19870930

Year of fee payment: 6

REG Reference to a national code

Ref country code: CH

Ref legal event code: PUE

Owner name: OMNISEC AG

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732

ITPR It: changes in ownership of a european patent

Owner name: CESSIONE;OMNISEC AG

NLS Nl: assignments of ep-patents

Owner name: OMNISEC AG TE REGENSDORF, ZWITSERLAND.

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Effective date: 19880920

Ref country code: AT

Effective date: 19880920

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Effective date: 19880930

Ref country code: CH

Effective date: 19880930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Effective date: 19890401

NLV4 Nl: lapsed or anulled due to non-payment of the annual fee
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 19890531

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

GBPC Gb: european patent ceased through non-payment of renewal fee
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Effective date: 19890601

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: SE

Payment date: 19890921

Year of fee payment: 8

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Effective date: 19900921

EUG Se: european patent has lapsed

Ref document number: 82810390.3

Effective date: 19910527