DE2233872C2 - Method for determining the fundamental wave period of a speech signal - Google Patents

Method for determining the fundamental wave period of a speech signal

Info

Publication number
DE2233872C2
DE2233872C2 DE2233872A DE2233872A DE2233872C2 DE 2233872 C2 DE2233872 C2 DE 2233872C2 DE 2233872 A DE2233872 A DE 2233872A DE 2233872 A DE2233872 A DE 2233872A DE 2233872 C2 DE2233872 C2 DE 2233872C2
Authority
DE
Germany
Prior art keywords
signal
speech
speech signal
value
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE2233872A
Other languages
German (de)
Other versions
DE2233872A1 (en
Inventor
Bishnu Saroop Murray Hill N.J. Atal
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of DE2233872A1 publication Critical patent/DE2233872A1/en
Application granted granted Critical
Publication of DE2233872C2 publication Critical patent/DE2233872C2/en
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Pitch periods in a complex speech signal are determined by evaluating the error in predicting the value of a sample of the signal on the basis of past sample values, and by locating samples for which the prediction error is large. Advantageously, the prediction error signal is devoid of all formant structure, so that there is no chance of confusing pitch signal peaks with formant peaks. A voiced-unvoiced decision is obtained from the ratio of the mean-squared value of the speech signal to the mean-squared value of the prediction error signal.

Description

Die Erfindung betrifft ein Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals, bei dem zur Vorhersage des augenblicklichen Wertes jedes Abtastwertes des Sprachsignals jeweils eine bewertete Summierung einer Anzahl früherer .Sprachsignalabtastwerte verwendet wird und der vorhergesagte Signalnbtastwert von dem tatsächlichen Signalabtastwert zur Erzeugung eines Differenzsignals subtrahiert wird.The invention relates to a method for determining the fundamental wave period of a speech signal in which for predicting the instantaneous value of each sample value of the speech signal, one weighted each Summation of a number of previous speech signal samples is used and the predicted signal sample is subtracted from the actual signal sample to produce a difference signal.

Es sind Einrichtungen zur Verringerung der Kanalkapazität, die für die Übertragung von Sprachsignalen erforderlich ist. bekannt. Die bekannteste Einrichtung dieser Art ist der Vocoder. Ferner ist es auch bekannt, die Redundanz von Sprachsignale durch eine lineare Vorhersage-Technik /u beseitigen. Bei diesen Einrichtungen wird ein .Sprachsignal analysiert, um seine kennzeichnenden Eigenschaften /u bestimmen, woraufhin dann codierte Informationen bezüglich dieser Eigenschaften anstelle des Sprachsignals selbst übertragen werden. Auf der Empfangsseite wird dann aus der codierten Information ein künstliches Sprachsignal erzeugt. Ein Merkmal des .Sprachsignals ist seine Grund- oder Tonhöhenfrequenz. Diese Eigenschaft bezeichnet die Grundfrequen/. mit der die Stimmbänder während der Erzeugung verschiedener stimmhafter Sprachsignale vibrieren.There are facilities to reduce the channel capacity, which is required for the transmission of voice signals. known. The most famous facility of this type is the vocoder. It is also known to reduce the redundancy of speech signals by a linear Eliminate prediction technique / u. In these facilities, a speech signal is analyzed to determine its defining characteristic properties / u, whereupon coded information regarding this Properties are transmitted instead of the voice signal itself. On the receiving side, the encoded information generates an artificial speech signal. One of the characteristics of the speech signal is its Fundamental or pitch frequency. This property describes the fundamental frequencies /. with which the vocal cords vibrate during the generation of various voiced speech signals.

Das eingangs definierte Verfahren zur Bestimmung der Grundfrequenz eines Sprachsignals ist aus der CAPS 8 44 193 bekannt. Damit das Signal für die b5 Übertragung hinsichtlich des gewünschten Informationsgehaltes die niedrigste mögliche Entropie beinhaltet, werden bei diesem bekannten Verfahren sämtliche redundanten Merkmale aus dem zu ubertiagenden Sprachsignal entfernt. Dabei wird die Redundanz zur Bandbreitenverringerung dadurch beseitigt, daß derjenige Teil des Eingangssignals, welcher aus dem früher übertragenen Signal vorhersagbar ist. entfernt wird. Zur Übertragung gelangt dann lediglich der nicht voraussagbare Teil des Signals. Um die Akkumulierung von Codierfehlern zu vermeiden, wird sendeseitig nicht das Eingangssprachsignal zur Bestimmung des Differenzsignals herangezogen, sondern das Sprachsignal aus den vorher übertragenen, codierten Signalen rekonstruiert. Zur Lösung der Aufgabe ist es auch erforderlich, sowohl die Grundfrequenzmerkmale als auch die Formantmerkmale aus dem Differenzsignal zu entfernen.The method defined at the outset for determining the fundamental frequency of a speech signal is known from CAPS 8 44 193. So that the signal for the b 5 transmission contains the lowest possible entropy with regard to the desired information content, in this known method all redundant features are removed from the speech signal to be transmitted. In this case, the redundancy for reducing the bandwidth is eliminated by the fact that that part of the input signal which can be predicted from the signal transmitted earlier. Will get removed. Only the unpredictable part of the signal is then transmitted. In order to avoid the accumulation of coding errors, the input speech signal is not used at the transmitting end to determine the difference signal, but rather the speech signal is reconstructed from the previously transmitted, coded signals. To achieve the object, it is also necessary to remove both the fundamental frequency features and the formant features from the difference signal.

Der Erfindung liegt die Aufgabe zugrunde, die Grundfrequenz eines Sprachsignals weitgehend fehlerfrei aus den Vorhersagedaten zu bestimmen, wobei auch eine Unabhängigkeit vom Formantcharakter des Sprachsignals angestrebt wird.The invention is based on the object To determine the fundamental frequency of a speech signal largely error-free from the forecast data, with also independence from the formant character of the speech signal is sought.

Diese Aufgabe wird gemäß der Erfindung dadurch gelöst, daß als Zeitraum, welcher die Anzahl der Λ kt^ctiuorlo -»■■»- /~Za%*,lnmtn** Aar *>r>wl%tiwtmetnt*»r* According to the invention, this object is achieved in that the time period which is the number of Λ kt ^ ctiuorlo - »■■» - / ~ Za% *, lnmtn ** Aar *>r> wl% tiwtmetnt * »r *

(IL-IUjinbltb <-UI UknillllUllg U^J TÜI llklgVjUglVII(IL-IUjinbltb <-UI UknillllUllg U ^ J TÜI llklgVjUglVII

Abtastwertes umfaßt. 1 Millisekunde gewählt wird, daß man die Frequenz feststellt, mit der Differenzsignalspitzenwerte oberhalb eines vorgegebenen Schwellenwertes auftreten, und daß die so ermittelte Frequenz als Grundfrequenz des Sprachsignals mit der zugehörigen Grundwellenperkyde klassifiziert wird.Sample includes. 1 millisecond is chosen to determine the frequency with the difference signal peaks occur above a predetermined threshold value, and that the frequency thus determined as The fundamental frequency of the speech signal is classified with the associated fundamental wave peaks.

Weiterbildungen der Erfindung sind den Unteransprüchen zu entnehmen.Further developments of the invention can be found in the subclaims.

Die gemäß der Erfindung erhaltene Grundfrequenz eines Sprachsignals bzw. der Stimmbänder kann dann weiter verwendet werden, beispielsweise zur Bestimmung des Stimmhaft-Stimmloscharakters des Sprachsignals. The fundamental frequency of a speech signal or the vocal cords obtained according to the invention can then can be used further, for example to determine the voiced-voiceless character of the speech signal.

Die Vorteile der Erfindung, nämlich die weitgehend fehlerfreie Bestimmung der Sprachgrundfrequenz, basieren auf der Analyse eines komplexen Sprachsignals zur Bestimmung seiner Grundfrequenz. Diese Analyse beruht auf der Analyse rles Ft'ilVrs zwischen einem vorhergesagten Wert des Sprachsignals. basierend auf seinen früheren Abiastwerten, jnd seinem im Augenblick gerade vorliegenden Wert. Das Zeitintervall, das durch eine Anzahl von Abtastwerten repräsentiert und für die Gewinnung des Vorhersagewertes verwendet wird, ist in typischer Weise eine Millisekunde lang. Aufgrund eines bei der Vorhersage verwendeten Kurzzeitspeichers stellen die vorhergesagten Signalwerte weitgehend die Formantstruktur des Sprachsignals dar. Die Grundfrequenzanalyseeinrichiung nach der Erfindung ist besonders effektiv, da bei der Erzeugung eines Differen/signals. d. h. des Vorhersagefehlersignals, die Formantstruktur des Signals aus dem Eingangssignal entfernt worden ist. Da jedoch die Grundfrequenzpenodc der Sprachsignale in typischer Weise in einem Bereich von j ms bis 20 ms liegt, ist die Vorhersage der Grundfrequen/siruktur. basierend juf einem Zeitintervall von einer Millisekunde eines vergangenen Sprachabschnittes völlig vernachlässigbar Daher bleibt die Cjrundfrequenzinformation in dem Vorhcrsagefehlersignal enthalten, so daB nur eine geringe oder gar keine Rückwirkung durch die Formantstruktur auftritt, und die Spitzenabtrennoperation für die Erzeugung eines Meßwertes der Sprachgrundfrequenz des Eingangssignals wirksam ist.The advantages of the invention, namely the largely error-free determination of the basic speech frequency, are based on the analysis of a complex speech signal to determine its fundamental frequency. This analysis is based on the analysis rles Ft'ilVrs between a predicted value of the speech signal. based on his previous Abiast values, and his at the moment just present value. The time interval represented by a number of samples and is used to obtain the predictive value is typically a millisecond long. The predicted signal values are based on a short-term memory used in the prediction largely represents the formant structure of the speech signal the invention is particularly effective because in generating a differen / signal. d. H. the prediction error signal, the formant structure of the signal has been removed from the input signal. However, since the The fundamental frequency penodc of the speech signals is typically in a range from j ms to 20 ms Prediction of the basic frequency / structure. based juf a time interval of one millisecond of a previous segment of speech is completely negligible Therefore, the fundamental frequency information remains in the Contain prediction error signal so that only one there is little or no feedback from the formant structure, and the tip severing operation is effective for generating a measured value of the fundamental speech frequency of the input signal.

Ein weiterer Vorteil basiert auf der zusätzlichen Verwendung von Vorhersagefehlerabtastungen zur Erzeugung eines Stimmhaft-Stimmlos-Unterschei-Another advantage is based on the additional use of prediction error samples Creation of a voiced-voiceless distinction

dungssignals. Die Siimmhafientschcidiing wird abgeleitet aus dem Verhältnis des Effektivwertes, also des quadratischen Mittelwertes der Eingangssignalabtastwerte zum Effektivwert der entsprechenden Vorhersagefehlcrabtastwcrte. signal. The Siimmhafientschcidiing is derived from the ratio of the effective value, i.e. the root mean square value of the input signal samples to the root mean square value of the corresponding prediction error samples.

Im folgenden wird die Erfindung anhand der Figuren beispielsweise näher erläutert. Es zeigtIn the following, the invention is explained in more detail with reference to the figures, for example. It shows

F i g. 1 das Blockschaltbild eines Sprachsignalanalysators. das das Prinzip der Erfindung verdeutlicht undF i g. 1 shows the block diagram of a speech signal analyzer. that illustrates the principle of the invention and

Fig.2 eine Larstellung der Wellenform eines stimmhaften Sprachsignals.der Positionen festgestellter Grundfrequenzimpulse in dem stimmhaften Sprachsignal (vertikale Linien) und eines stimmlosen Sprachsegments. Fig.2 is a representation of the waveform of a voiced speech signal. of the positions of determined fundamental frequency pulses in the voiced speech signal (vertical lines) and an unvoiced speech segment.

Ein Signalanalysator, der das Prinzip der Erfindung beinhaltet, ist in F i g. 1 dargestellt. Die Sprachsignale, die von einer beliebigen Quelle geliefert werden, werden zu dem Analysator übertragen und durch ein Tiefpaßfilter 10 geschleust. Das Filter 10 hat eine typische Grundfrequenz in der Gegend von 5 kHz. Das sich ergebende Signal wird dann mit einer Frequenz von etwa 1OkHz im Abtaster Ii abgetastet, wobei dieser Abtastvorgang von den Signalen des Taktgeoers 12 gesteuert wird. Die Sprachabtastwerte. s,„ die au' diese Weise abgeleitet werden, werden zu einer Speichereinheit 13 übertragen, die diese Signale geordnet speichert und zwar in typischen Blöcken von 200 Abtastungen, d. h. Si, S). .., sjoo. Die Blöcke oder Rahmen von Abtastwerten werden periodisch aus der Speichereinheit 13 entnommen, beispielsweise ebenfalls von ;inem Signal des Taktgebers 12 gesteuert und zu einer adaptiven Vorhersageschaltung 14. einem Vorhersage-Parameterrechner und zu einem Subtrahiernetz 16 übertragen.A signal analyzer incorporating the principle of the invention is shown in FIG. 1 shown. The speech signals which are supplied from any source are transmitted to the analyzer and through a Low-pass filter 10 funneled. The filter 10 has a typical fundamental frequency in the region of 5 kHz. That The resulting signal is then sampled at a frequency of about 10 kHz in the sampler Ii, which Sampling process of the signals of the clock generator 12 is controlled. The speech samples. s, “the au 'this Manner, are transmitted to a memory unit 13 which stores these signals in an orderly manner in typical blocks of 200 samples, d. H. Si, S). .., sjoo. The blocks or frames of Samples are periodically taken from the storage unit 13, for example also from; inem Signal of the clock 12 controlled and to an adaptive prediction circuit 14. a prediction parameter calculator and transmitted to a subtraction network 16.

Die adaptive Vorhersageschaltung 14 bearbeitet die π angelieferten Signale btastwerte. um den augenblicklichen Wert jedes Abtastwertes auf der Basis einer gewichteten Summation einer Anzahl von früheren Abtastwerten vorherzusagen. Die Vorhersageoperation erfolgt auf der Basis Abtastwert zu Abtastwert, und die ίο Vorhersageschaltung 14 wird periodisch mit einem neuen Rahmen von Abtastungen von der Speichereinheit 13 beschickt. Eine für die Verwendung in dem System gemäß der vorliegenden Erfindung geeignete adaptive Vorhersageschaltung ist beispielsweise in der -n US-PS 36 31 520ausführlich beschrieben.The adaptive prediction circuit 14 processes the π delivered signals bsample values. by the current value of each sample based on a predict weighted summation of a number of previous samples. The prediction operation is done on the basis of sample to sample, and the ίο Prediction circuit 14 is periodic with a new frame of samples from the memory unit 13 loaded. One suitable for use in the system according to the present invention adaptive prediction circuit is for example in the -n US-PS 36 31 520 described in detail.

Zur Anpassung des sich konstant ändernden Charakters des Eingangssprachsignals, wird die adaptive Vorhersageschaltung 14 so gesteuert, daß sie sich an den laufenden Signalzustand anpaßt. Es hat sich als ίο genügend erwiesen, die Werte der verwendeten Parameter nachzustellen, um die Vorhersageschaltung in Intervallen zu steuern, die mit der Grundwellenperiode des Signals vergleichbar sind. Da das exakte CirundwellenintervaU nicht zur Verfügung steht (obwohl das Grundfrequen/ausgungssignal des Systems in einer Rückkoppelanordnung /ur Annäherung des Iniervalls einer späteren Grundwellcnperiode verwendet werden kann), ist eine Nachstellung der Parameterwerte in Intervallen von etwa der Zeit von 200 Abtastungen vollständig ausreichend. Dieses entspricht einem Zeitintervall von etwa 20 msek.To adapt the constantly changing character of the input speech signal, the adaptive Prediction circuit 14 is controlled so that it adapts to the current signal state. It turned out to be ίο Proven enough to re-adjust the values of the parameters used to make the prediction circuit at intervals comparable to the fundamental wave period of the signal. Since the exact CirundwelleintervaU is not available (although the fundamental frequency / output signal of the system is in a feedback arrangement / used to approximate the interval of a later fundamental wave period is a readjustment of the parameter values in intervals of about the time of 200 Samples completely sufficient. This corresponds to a time interval of about 20 msec.

Der Vorhersage-Parameterrechner 15 bearbeitet so Sprachablastwerte der Speichereinheit 13. um eine Folge von Parametersignalen ;) = ;/i. ./>. ... a„ zu erzeugen, die periodisch zur Nachstellung der Vorhcrsageschaltung 14 verwendet werden. Die Paramcnterwer-Ic .7 werden so gewühlt, daß sie den quadratischen Mittelwcrt-Vorhersagefehler des Systems minimal halten. Eine ausführliche Erläuterung der Beziehung der Parametersignale <; zu dem Eingangssignal, ihrer Erzeugung und die Art in der sie zur Steuerung der Vorhersageschaltung verwendet werden, werden ausführlich in der obengenannten US-Patentschrift erläutert. Die Parametersignale des Vorhersage-Parameterrechners 15 werden noch vordem Zeitpunkt erzeugt, zu dem ein Signalblock in der Vorhersageschaltung 14 verarbeitet wird, und zwar wegen der der Vorhersageoperation inhärenten Verzögerung. In typischer Weise v/erden die Parametersteuersignale innerhalb eines Intervalls erzeugt, daß der Zeit von annähet nd 60 Abtastungen entspricht.The prediction parameter computer 15 thus processes the speech load values of the storage unit 13 by a sequence of parameter signals;) =; / i. ./>. ... a " to generate, which are used periodically to readjust the forecast circuit 14. The parameters are chosen to minimize the root mean square prediction error of the system. A detailed explanation of the relationship of the parameter signals <; the input signal, its generation, and the manner in which it is used to control the prediction circuit are discussed in detail in the aforementioned U.S. patent. The parameter signals of the prediction parameter calculator 15 are generated before the point in time at which a signal block is processed in the prediction circuit 14 because of the delay inherent in the prediction operation. Typically, the parameter control signals are generated within an interval corresponding to approximately 60 samples in time.

Die Abtastwerte, die von der adaptiven Vorhersageschaltung 14 erzeugt werden, werden in dem Subtrahiernetz 16 von dem tatsächlichen Wert der entsprechenden Signalabtastungen, die von der Speichereinheit 13 zu dem Subtrahiernetz 16 übertragen werden, subtrahiert. Das sich ergebende Differenzsignal repräsentiert den Fehler bei der Vorhersage des Signaiwertes. Dieses Signa! wird daher »Vorhersagefehler« genannt. Offensichtlich wird eine geeignete Verzögerung vorgesehen, beispielsweise für das Auslesen der Abtastwerte aus der Speichereinheit 13 oder bei uVer Abgabe an das Subtrahiernetzwerk 16, damit für die Vervollständigung der Vorhersageoperation genügend Zeit zur Verfügung steht. Natürlich werden alle hier beschriebenen Operationen auf konventionelle Weise synchron ausgeführt.The samples generated by the adaptive prediction circuit 14 are in the subtraction network 16 from the actual value of the corresponding signal samples received from the memory unit 13 are transmitted to the subtracting network 16, subtracted. The resulting difference signal represents the error in predicting the signal value. This Signa! is therefore "prediction error" called. Obviously, a suitable delay is provided, for example for reading out the Samples from the storage unit 13 or at uVer Delivered to the subtracting network 16 to be sufficient to complete the prediction operation Time is available. Of course, all of the operations described here are performed in a conventional manner executed synchronously.

Es ist für die genannten Operationen von Bedeutung, daß die Signalabtastwerte weitgehend auf der Basis ihrer formanten Zugehörigkeit vorhergesagt werden. Vorhergesagte Signale stellen daher im wesentlichen die Formantstruktur des Eingangssignais dar. Da die vorhergesagten Signalwerte von den tatsächlichen Signalwerten subtrahiert werden, ist das Vorhersagefehlersignal am Ausgang des Subtrahiernetzwerkes 18 im wesentlichen frei von jeglicher Formanter Info-mation. Dennoch hat sich das Vorhersagefehlersignal zur Bewahrung und Bezeichnung des Grundfrequenzcharakter . des übertragenen Signals als notwendig erwiesen.It is important for the operations mentioned that the signal samples are largely based on their formant affiliation can be predicted. Predicted signals therefore essentially represent represents the formant structure of the input signal. Since the predicted signal values differ from the actual Signal values are subtracted, the prediction error signal is at the output of the subtraction network 18 essentially free of any formant information. Nevertheless, the prediction error signal has been used to preserve and denote the fundamental frequency character . of the transmitted signal proved to be necessary.

Die Vorhersagefehlersignale der Subtrahierschaltung 16 werden über das Tiefpassfilter 17 geleitet. Dieses Filter 17 besitzt eine relativ niedrige Gruniifrequewz. da die Sprachgrundfrequenz des anliegenden Signals im allgemeinen im unteren Bereich des Bandes liegt. Die Beseitigung höherer Frequenzanteile hilft bei der Isolation des Grundfrequenzsignals.The prediction error signals of the subtracting circuit 16 are passed through the low-pass filter 17. This Filter 17 has a relatively low basic frequency. there the fundamental speech frequency of the applied signal is generally in the lower range of the band. the Eliminating higher frequency components helps isolate the fundamental frequency signal.

Die Positionen der individuellen Grundfrequen/impulse in dem übertragenen Signal werden dadurch bestimmt, daß die Abtastwerte lokalisiert werden, für die der Vorhersagefehlerwert groß ist. Die von dem Filter 17 übertragenen Abtastwerte besitzen daher Amplituden, die der Pifferen/ /wischen dem rbertrage· nen Signalabtastwert und dem vorhergesigten Signal proportional sind. Es isl daher notwendig, nur die Grundfrequenz des Vorhersage(Fehler-)Signals zu suchen. Dieses kam mit jedem beliebigen Grundfrequen/detekto' 18 durch gführt werden. Ein geeigneter Detektor besteht aus einem Halbwellengleichrichter 19, der zur Aufrechterhaltung nur der positive" Spitze des Signals verwendet wird, um spätere Operationen zu vereinfachen. Das gleichgerichtete Signal wird dann zu dem Spitzciiiibtrcnnci 20 übertragen, der den größten Abtastwert in jedem Signalrahnien sucht. Derartige Spitzcnabtrenner sind an sich bekannt und werdenThe positions of the individual basic frequencies / impulses in the transmitted signal are determined by locating the samples for which the prediction error value is large. The samples transmitted by the filter 17 therefore have Amplitudes that the pipers / / carry over a signal sample and the previous signal are proportional. It is therefore necessary to only use the fundamental frequency of the prediction (error) signal Looking for. This could be carried out with any fundamental frequency / detekto '18. A suitable one Detector consists of a half-wave rectifier 19, the to maintain only the positive "tip of the Signal is used to simplify later operations. The rectified signal then becomes too the Spitzciiiibtrcnnci 20, which is the largest Searches for a sample in each signal frame. Such pointed rippers are known per se and will be

häufig in (iniiKlfrequciizdeleklorcii verwende!, insbcsoiidere in solchen des Cepsiruintvps. Auf diese Weise ermittelte Spitzensignale werden /ii einem Schwellenweitdetektor 21 übertragen, iler auf einen Pegel eingestellt ist. bei eiern kleinere Spitzen am Ausgang des Analysalors unterdrückt werden. Der Schwellenwert ist so eingestellt, dall er an die festgestellten wahren Grundfrequenzspitzen angep.ißt ist. beispielsweise an F.rl'ahrungswerte. Die sich ergebende l'oljre von Grundfreqiien/impiilsen is', für die Grundfreqiienz oiler Periode des anliegenden Sprachsignals iiidikativ und sie kann auf jede gewünschte Weise weiter verwendet werden.often in (iniiKlfrequciizdeleklorcii use !, especially in those of the cepsiruintvps. In this way detected peak signals are / ii a threshold width detector 21 transmitted, iler on a level is set. if there are any smaller peaks at the output of the analyzer are suppressed. The threshold is adjusted so that it is adapted to the true fundamental frequency peaks determined. for example F. nutritional values. The resulting l'oljre of fundamental freqiien / impiilsen is', for the fundamental freqiien oiler Period of the applied speech signal is indicative and can be further used in any desired way will.

Alternativ hierzu kann, wie von früher schon bekannt. der Grundfrequenzdetektor einen Autokorrelator enthalten, dem ein Spitzenabtrenner und ein Schwellenwertdetektor nachfolgen.Alternatively, you can, as already known from earlier. the fundamental frequency detector included an autocorrelator, a peak clipper and a threshold detector follow.

F i g. 2 zeigt ein typisches Intervall des Sprachsignals. In der Zeile A ist ein stimmhaftes Spraehsegment gezeigt. Die Zeile Π illustriert die Impulsfolge, die von dem Grundfrequenzdetekto;· 18 als Ausgangssignal des Analysators erzeugt wurde. In der Zeile C ist dagegen ein typisches stimmloses Sprachsegment dargestellt.F i g. Figure 2 shows a typical interval of the speech signal. In line A , a voiced speech segment is shown. Line Π illustrates the pulse train generated by the fundamental frequency detector; · 18 as the output signal of the analyzer. In contrast, line C shows a typical unvoiced speech segment.

Um sicherzustellen, daß eine klare Unterscheidung zwischen stimmhaften und stimmlosen Signalsegrncnten möglich ist. wird gemäß der Erfindung ein Stimmhaft-/ Stimmlos-Unterscheidungssignal erzeugt. Hiernach basiert die Stimmhaft7Stimmlos-Entscheidung auf dem Verhältnis des quadratischen Mittelwertes der Sprachabtastwerte zu dem quadratischen Mittelwert der Vorhersagefehlerabtastwerte. Es hat sich gezeigt, daß dieses Verhältnis für stimmlose Sprachabschnitte beträchtlich kleiner ist als für stimmhafte Sprachabschnitte und zwar in typischer Weise um einen Faktor von etwa 10.To make sure there is a clear distinction between voiced and unvoiced signal lines is possible. a voiced / unvoiced discrimination signal is generated according to the invention. Based on this the voiced 7 voiceless decision on the ratio of the root mean square value of the speech samples to the root mean square of the prediction error samples. It has been shown that this ratio is considerably smaller for unvoiced speech segments than for voiced speech segments typically by a factor of about 10.

Daher werden die Sprachabtastwerte von dem Abiastwert zu dem quadratischen Mittelwertnetzwerk 22 und die Vorhersagefehierabtastwcrte von dem Subtrahiernetzwerk 16 zu dem quadratischen Mittelwertnetzwerk 23 übertragen. Die Netzwerke für die Erzeugung eines Signals . das den Mittelwert der Folge von Abtastwerten proportional ist. sind an sich bekannt und sie werden häufig in Einrichtungen für die akustische Signalverarbeitung verwendet. Ein typisches Netzwerk enthält eine Einrichtung zur Erzeugung einesTherefore, the speech samples become the root mean square network from the sampled value 22 and the prediction incorrect samples from the subtract network 16 to the root mean square network 23 transferred. The networks for generating a signal. that is the mean of the sequence of samples is proportional. are known per se and they are often used in facilities for the acoustic signal processing used. A typical network includes a facility for creating a

Signals, das dem (Quadrat jedes Nignalablaslwenes proportional ist. ein Addiernetzwcrk ftir die Aufsuniniierung einer Folge um quadratischen Signalw eilen und ein Teilernetzwerk für die Erzeugung eines Signals, ilas viiien Durchschnittswert "der Mittelwert des aufsiiminierten quadratischen Signals proportional ist.Signal corresponding to the (square of each Nignalablaslwenes is proportional. an adding network for the unification a sequence by quadratic signal periods and a dividing network for generating a signal, ilas viiien average value "the mean of the the summed quadratic signal is proportional.

/wei Signale, jeweils dem quadratischen Mittelwert von Sprachabtasiwerten und dem quadratischen Mittelwert der Vorhersagefehlerabtastwerie proportional, werden zu dem Teiler 24 übertragen, der an seinem Ausgang ein Signal erzeugt, das dem Quotienten der beiden .Signalwerte entspricht. Dieses (Juoticnicnsignal wird dann /u dem Schwellen^ eisdetektor 25 übenragen. der ein erstes Signal fur (Juoiicnicnwertc groller als K). als Angabe für ein stimmhaftes Signalinter\all und ein zweites Signal fur (.hioiicntcii kleiner .ils M) erzeugt, das als Angabe fur ein stimmloses Signalintervall dient. Die Ausgangssignalc des Detektors 25 können in jeder gewünschten Weise verwendet werden, um den .Stimmcharakter des Eingangssigrals anzugeben / white signals, each proportional to the root mean square value of speech samples and the root mean square value of the prediction error samples, are transmitted to the divider 24, which generates a signal at its output which corresponds to the quotient of the two signal values. This (Juoticnicnsignal is then / u the thresholds ^ ice detector practice protrude 25th generates a first signal for (Juoiicnicnwertc Groller than K). As an indication of a voiced signal Inter \ all and a second signal for (.hioiicntcii smaller .ils M) serves as an indication of an unvoiced signal interval. The output signals of the detector 25 can be used in any desired manner in order to indicate the vocal character of the input signal

Die Einrichtung zur (irundfrcqucnzbcsiimiiuing gemäß der Erfindung verbessert zusammen mit der Siininiari-Eiitscheidimgseinriclitung weilgehend die Zuverlässigkeit, mit der zwei wichtige Sprachcharakteristiken bestimmt werden können. Diese verbesserte Zuverlässigkeit stammt in erster Linie von dem tatsächlichen Fehlen der Formantenstruktur in dem Signa) zu dem Zeitpunkt, zu dem die Grundfrequen/-messung durchgeführt wird. Darüberhinaus ist der beschriebene Grundfrequenzdeiektor insbesondere für eine Anwendung in einem Sprachübertragung- oder Sprachanalysesystem geeignet, indem eine lineare Vorhersageeinrichtung verwendet wird. Für diesen Fall wird das Vorhersagefehlersignal, das zu dem Subtrahiernetzwerk 16 übertragen wird, von der bei der Kodierung der Sprachsignale verwendeten Vorhersageschaitung erzeugt.The device for (irundfrcqucnzbcsiimiiuing according to the invention, together with the Siininiari-Eiitscheidimgseinriclitung, improves the reliability, with the two important language characteristics can be determined. This improved reliability comes primarily from that actual absence of the formant structure in the signa) at the time when the fundamental frequency / measurement is carried out. In addition, the basic frequency detector described is particularly suitable for an application in a speech transmission or speech analysis system by using a linear Prediction device is used. In this case the prediction error signal transmitted to the subtracting network 16 is derived from the at Coding of the speech signals used prediction circuit generated.

Ferner kann das Stimmentscheidungssignal im Zusammenhang mit anderen Kriterien verwendet werden, wie beispielsweise der spektralen Balance der niedrigen Frequenzen zu den höheren Frequenzen, '<im die Siimmhaft-/Stimmlos-Entscheidung noch zuverlässiger zu machen.Furthermore, the vote decision signal can be used in connection with other criteria such as the spectral balance of the low frequencies to the higher frequencies, '<im to make the unvoiced / unvoiced decision even more reliable.

Hierzu 1 Blatt Zeichnungen For this purpose, 1 sheet of drawings

Claims (2)

Patentansprüche:Patent claims: 1. Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals, bei dem zur Vorhersage des augenblicklichen Wertes jedes Abtastwertes des Sprachsignals jeweils eine bewertete Summierung einer Anzahl früherer Sprachsignalabtastwerte verwendet wird und der vorhergesagte Signalabtasiwert von dem tatsächlichen Signalabtastwert zur Erzeugung eines Differenzsignals subtrahiert wird. dadurch gekennzeichnet.1. Method for determining the fundamental wave period of a speech signal, in which for prediction a weighted summation of the instantaneous value of each sample value of the speech signal a number of previous speech signal samples is used and the predicted signal sample is subtracted from the actual signal sample to produce a difference signal. characterized. daß als Zeitraum, welcher die Anzahl der Abtastwerte zur Gewinnung des vorhergesagten Abtastwertes umfaßt, I Millisekunde gewählt wird,
daß man die Frequenz feststellt, mit der Differenz- i\ Signalspitzenwerte oberhalb eines vorgegebenen Schwellenwertes auftreten,
that I millisecond is selected as the period of time which comprises the number of samples for obtaining the predicted sample,
that determines the frequency, occurring at the differential i \ signal peak values above a predetermined threshold,
und daß die so ermittelte Frequenz als Grundfrequenz des Sprachsignals mit der zugehörigen Grundwellenperiode klassifiziert wird.and that the frequency determined in this way is used as the fundamental frequency of the speech signal with the associated Fundamental wave period is classified.
2. Anwendung des Verfahrens nach Anspruch I zur Bestimmung des S;irnmhaf'.-Siirr.rn!oscharak;crs eines Sprachsignals, dadurch gekennzeichnet, daß ein erstes, zum Effektivwert des Sprachsignals proportionales Signal, ein zweites, zum Effektivwert des Differenzsignal proportionales und ein drittes Signal erzeugt werden, das zu dem Verhältnis des ersten zum zweiten Effektivwertsignal proportional ist. wobei Werte des dritten Signals größer als ein vorgegebener Schwellenwert zur Angabe eines jo stimmhaften Sprachsignals und Werte des dritten Signals kleber als der vorgegebene Schwellenwert zur Angabe eines stimmlosen Sprachsignals dienen.2. Application of the method according to claim I. for determining the S; irnmhaf '.- Siirr.rn! oscharak; crs of a speech signal, characterized in that a first, to the rms value of the speech signal proportional signal, a second, proportional to the rms value of the difference signal, and a third Signal are generated which is proportional to the ratio of the first to the second RMS signal is. wherein values of the third signal are greater than a predetermined threshold value for indicating a jo voiced speech signal and values of the third signal are closer than the predetermined threshold value serve to indicate an unvoiced speech signal.
DE2233872A 1971-07-09 1972-07-10 Method for determining the fundamental wave period of a speech signal Expired DE2233872C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US16117371A 1971-07-09 1971-07-09

Publications (2)

Publication Number Publication Date
DE2233872A1 DE2233872A1 (en) 1973-01-18
DE2233872C2 true DE2233872C2 (en) 1983-11-03

Family

ID=22580131

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2233872A Expired DE2233872C2 (en) 1971-07-09 1972-07-10 Method for determining the fundamental wave period of a speech signal

Country Status (6)

Country Link
US (1) US3740476A (en)
JP (2) JPS5524118B1 (en)
CA (1) CA967285A (en)
DE (1) DE2233872C2 (en)
FR (1) FR2145501B1 (en)
NL (1) NL7209311A (en)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3979557A (en) * 1974-07-03 1976-09-07 International Telephone And Telegraph Corporation Speech processor system for pitch period extraction using prediction filters
US4074069A (en) * 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal
JPS6051720B2 (en) * 1975-08-22 1985-11-15 日本電信電話株式会社 Fundamental period extraction device for speech
US4038495A (en) * 1975-11-14 1977-07-26 Rockwell International Corporation Speech analyzer/synthesizer using recursive filters
US4070709A (en) * 1976-10-13 1978-01-24 The United States Of America As Represented By The Secretary Of The Air Force Piecewise linear predictive coding system
DE2649259C2 (en) * 1976-10-29 1983-06-09 Felten & Guilleaume Fernmeldeanlagen GmbH, 8500 Nürnberg Method for the automatic detection of disturbed telephone speech
US4133976A (en) * 1978-04-07 1979-01-09 Bell Telephone Laboratories, Incorporated Predictive speech signal coding with reduced noise effects
US4164626A (en) * 1978-05-05 1979-08-14 Motorola, Inc. Pitch detector and method thereof
US4280387A (en) * 1979-02-26 1981-07-28 Norlin Music, Inc. Frequency following circuit
JPS5918717B2 (en) * 1979-02-28 1984-04-28 ケイディディ株式会社 Adaptive pitch extraction method
US4383135A (en) * 1980-01-23 1983-05-10 Scott Instruments Corporation Method and apparatus for speech recognition
US4472832A (en) * 1981-12-01 1984-09-18 At&T Bell Laboratories Digital speech coder
USRE32580E (en) * 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
JPS58140798A (en) * 1982-02-15 1983-08-20 株式会社日立製作所 Voice pitch extraction
JPS5922602U (en) * 1982-08-04 1984-02-13 長山 勉 Hair washing stand for infants, etc. in the bathroom
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
JPS6050901U (en) * 1983-09-16 1985-04-10 ▲いざさ▼ 秀之 Air mattress for infants
US4675863A (en) * 1985-03-20 1987-06-23 International Mobile Machines Corp. Subscriber RF telephone system for providing multiple speech and/or data signals simultaneously over either a single or a plurality of RF channels
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
USRE34247E (en) * 1985-12-26 1993-05-11 At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US5010574A (en) * 1989-06-13 1991-04-23 At&T Bell Laboratories Vector quantizer search arrangement
FR2670313A1 (en) * 1990-12-11 1992-06-12 Thomson Csf METHOD AND DEVICE FOR EVALUATING THE PERIODICITY AND VOICE SIGNAL VOICE IN VOCODERS AT VERY LOW SPEED.
SE467806B (en) * 1991-01-14 1992-09-14 Ericsson Telefon Ab L M METHOD OF QUANTIZING LINE SPECTRAL FREQUENCIES (LSF) IN CALCULATING PARAMETERS FOR AN ANALYZE FILTER INCLUDED IN A SPEED CODES
US5353372A (en) * 1992-01-27 1994-10-04 The Board Of Trustees Of The Leland Stanford Junior University Accurate pitch measurement and tracking system and method
US5546383A (en) * 1993-09-30 1996-08-13 Cooley; David M. Modularly clustered radiotelephone system
US5471527A (en) * 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5586126A (en) * 1993-12-30 1996-12-17 Yoder; John Sample amplitude error detection and correction apparatus and method for use with a low information content signal
SE508788C2 (en) * 1995-04-12 1998-11-02 Ericsson Telefon Ab L M Method of determining the positions within a speech frame for excitation pulses
US5717819A (en) * 1995-04-28 1998-02-10 Motorola, Inc. Methods and apparatus for encoding/decoding speech signals at low bit rates
US6140568A (en) * 1997-11-06 2000-10-31 Innovative Music Systems, Inc. System and method for automatically detecting a set of fundamental frequencies simultaneously present in an audio signal
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
JP2004297273A (en) * 2003-03-26 2004-10-21 Kenwood Corp Apparatus and method for eliminating noise in sound signal, and program
JP3827317B2 (en) * 2004-06-03 2006-09-27 任天堂株式会社 Command processing unit
WO2010031109A1 (en) * 2008-09-19 2010-03-25 Newsouth Innovations Pty Limited Method of analysing an audio signal
US11443761B2 (en) 2018-09-01 2022-09-13 Indian Institute Of Technology Bombay Real-time pitch tracking by detection of glottal excitation epochs in speech signal using Hilbert envelope

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2732424A (en) * 1956-01-24 oliver
DD49355A (en) *
CA844193A (en) * 1970-06-09 Western Electric Company, Incorporated Predictive coding of speech signals
US2221523A (en) * 1938-03-17 1940-11-12 Ora L Railsback Pitch determining apparatus
US2927969A (en) * 1954-10-20 1960-03-08 Bell Telephone Labor Inc Determination of pitch frequency of complex wave
US2908761A (en) * 1954-10-20 1959-10-13 Bell Telephone Labor Inc Voice pitch determination
US3026375A (en) * 1958-05-09 1962-03-20 Bell Telephone Labor Inc Transmission of quantized signals
US3405237A (en) * 1965-06-01 1968-10-08 Bell Telephone Labor Inc Apparatus for determining the periodicity and aperiodicity of a complex wave
US3420955A (en) * 1965-11-19 1969-01-07 Bell Telephone Labor Inc Automatic peak selector
US3437757A (en) * 1966-06-15 1969-04-08 Bell Telephone Labor Inc Speech analysis system
DE1572520A1 (en) * 1967-06-08 1970-02-19 Telefunken Patent Method for recognizing speech sounds
GB1180288A (en) * 1967-06-23 1970-02-04 Standard Telephones Cables Ltd Analysing Complex Signal Waveforms
US3631520A (en) * 1968-08-19 1971-12-28 Bell Telephone Labor Inc Predictive coding of speech signals
DE2062589C3 (en) * 1970-12-18 1981-03-12 Siemens AG, 1000 Berlin und 8000 München Method for determining the fundamental frequency of an at least temporarily periodic signal

Also Published As

Publication number Publication date
FR2145501B1 (en) 1976-08-13
CA967285A (en) 1975-05-06
JPS5524118B1 (en) 1980-06-26
DE2233872A1 (en) 1973-01-18
FR2145501A1 (en) 1973-02-23
NL7209311A (en) 1973-01-11
US3740476A (en) 1973-06-19
JPS5774800A (en) 1982-05-11

Similar Documents

Publication Publication Date Title
DE2233872C2 (en) Method for determining the fundamental wave period of a speech signal
DE2945414C2 (en) Speech signal prediction processor and method of processing a speech power signal
DE68912692T2 (en) Transmission system suitable for voice quality modification by classifying the voice signals.
DE69837822T2 (en) Method and device for decoding speech signals
DE69009545T2 (en) Speech analysis and synthesis processes.
DE3782025T2 (en) METHOD FOR IMPROVING THE QUALITY OF ENCODED LANGUAGE.
EP1386307B2 (en) Method and device for determining a quality measure for an audio signal
EP0277613B1 (en) Audio signal transmission method
DE2229149A1 (en) Method of transmitting speech
DE2626793B2 (en) Electrical circuitry for determining the voiced or unvoiced state of a speech signal
DE3506912A1 (en) METHOD FOR TRANSMITTING AN AUDIO SIGNAL
DE19715126C2 (en) Speech signal coding device
DE2636032C3 (en) Electrical circuit arrangement for extracting the fundamental oscillation period from a speech signal
DE19722705A1 (en) Method of determining volume of input speech signal for speech encoding
DE2622423A1 (en) VOCODER SYSTEM
EP1382034B1 (en) Method for determining intensity parameters of background noise in speech pauses of voice signals
DE60018246T2 (en) SYSTEM FOR TRANSMITTING AN AUDIO SIGNAL
DE4324292C1 (en) Method for determining a quantity characterising the quality of digital speech transmission
DE60110541T2 (en) Method for speech recognition with noise-dependent normalization of the variance
DE3036440A1 (en) VOICE EVALUATOR
DE2357949A1 (en) PROCEDURE FOR DETERMINING THE INTERVAL CORRESPONDING TO THE PERIOD OF THE EXCITATION FREQUENCY OF THE VOICE RANGES
DE2303497A1 (en) METHOD FOR TRANSMISSION OF VOICE SIGNALS
DE2062589C3 (en) Method for determining the fundamental frequency of an at least temporarily periodic signal
DE4315313C2 (en) Vector coding method especially for speech signals
DE69834993T2 (en) VOICE TRANSMISSION SYSTEM

Legal Events

Date Code Title Description
E77 Valid patent as to the heymanns-index 1977
OD Request for examination
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee