EP0310636B1 - Abstandsmessungskontrolle eines multidetektorsystems - Google Patents

Abstandsmessungskontrolle eines multidetektorsystems Download PDF

Info

Publication number
EP0310636B1
EP0310636B1 EP88901684A EP88901684A EP0310636B1 EP 0310636 B1 EP0310636 B1 EP 0310636B1 EP 88901684 A EP88901684 A EP 88901684A EP 88901684 A EP88901684 A EP 88901684A EP 0310636 B1 EP0310636 B1 EP 0310636B1
Authority
EP
European Patent Office
Prior art keywords
voiced
value
calculating
frames
unvoiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP88901684A
Other languages
English (en)
French (fr)
Other versions
EP0310636A1 (de
Inventor
David Lynn Thomson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc, AT&T Corp filed Critical American Telephone and Telegraph Co Inc
Priority to AT88901684T priority Critical patent/ATE80488T1/de
Publication of EP0310636A1 publication Critical patent/EP0310636A1/de
Application granted granted Critical
Publication of EP0310636B1 publication Critical patent/EP0310636B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Definitions

  • This invention relates to determining whether or not speech has a fundamental frequency present. This is also referred to as a voicing decision. More particularly, the invention is directed to selecting one of a plurality of voiced detectors which are concurrently processing speech samples for making the voicing decision with the selection being based on a distance measurement calculation.
  • This paper discloses the utilization of multiple linear discriminant voiced detectors each utilizing different weights and threshold values to process the same speech classifiers for each frame of speech.
  • the weights and thresholds for each detector are determined by utilizing training data. For each detector, a different level of white noise is added to the training data.
  • the detector to be utilized to make the voicing decision is determined by examining the signal-to-noise ratio, SNR.
  • SNR signal-to-noise ratio
  • the range of possible values that the SNR can have is subdivided into subranges with each subrange being assigned to one of the detectors. For each frame, the SNR is calculated, the subrange is determined, and the detector associated with this subrange is selected to make the voicing decision.
  • Atal and Rabiner disclose a system in which various measures (zero crossings, log energy, autocorrelation, first linear prediction coefficient and normalised prediction error) are combined, using predetermined mean values and covariances for the three classes of signal (voiced, unvoiced and silence) to produce three distances, one for each class. The class with the smallest distance is then assigned to the signal.
  • a problem with the prior art approach is that it does not perform well with respect to a speech environment in which characteristics of the speech itself have been altered.
  • the method used by Campbell is only adapted to white noise and cannot adjust for coloured noise. Therefore, there exists a need for a method of selecting between a plurality of voiced detectors that allows detection in a varying speech environment.
  • FIG. 1 illustrates an apparatus for performing the unvoiced/voiced decision operation by selecting between one of two voiced detectors. It would obvious to one skilled in the art to use more than two voiced detectors in FIG. 1.
  • the selection between detectors 102 and 103 is based on a distance measurement that is generated by each detector and transmitted to distance comparator 104. Each generated distance measurement represents a merit value indicating the correctness of the generating detector's voicing decision.
  • Distance comparator 104 compares the two distance measurement values and controls a multiplexer 105 such that the detector generating the greatest distance measurement value is selected to make the unvoiced/voiced decision. However, for other types of measurements, the lowest merit value would indicate the detector making the most accurate voicing decision.
  • the distance measurement may be the Mahalanobis distance.
  • detector 102 is a discriminant detector
  • detector 103 is a statistical detector.
  • the detectors could all be of the same type and that there could be more than two detectors present in the system.
  • Classifier generator 101 is responsive to each frame of speech to generate classifiers which advantageously may be the log of the speech energy, the log of the LPC gain, the log area ratio of the first reflection coefficient, and the squared correlation coefficient of two speech segments one frame long which are offset by one pitch period.
  • classifiers advantageously may be the log of the speech energy, the log of the LPC gain, the log area ratio of the first reflection coefficient, and the squared correlation coefficient of two speech segments one frame long which are offset by one pitch period.
  • the calculation of these classifiers involves digitally sampling analog speech, forming frames of the digital samples, and processing those frames and is well known in the art.
  • Generator 101 transmits the classifiers to detectors 102 and 103 via path 106.
  • Detectors 102 and 103 are responsive to the classifiers received via path 106 to make unvoiced/voiced decisions and transmit these decisions via paths 107 and 110, respectively, to multiplexer 105.
  • the detectors determine a distance measure between voiced and unvoiced frames and transmit these distances via paths 108 and 109 to comparator 104.
  • these distances may be Mahalanobis distances or other generalized distances.
  • Comparator 104 is responsive to the distances received via paths 108 and 109 to control multiplexer 105 so that the latter multiplexer selects the output of the detector that is generating the largest distance.
  • FIG. 2 illustrates, in greater detail, statistical voiced detector 103.
  • a set of classifiers also referred to as a vector of classifiers is received via path 106 from classifier generator 101.
  • Silence detector 201 is responsive to these classifiers to determine whether or not speech is present in the present frame. If speech is present, detector 201 transmits a signal via path 210. If no speech (silence) is present in the frame, then only subtractor 207 and U/V determinator 205 are operational for that particular frame. Whether speech is present or not, the unvoiced/voiced decision is made for every frame by determinator 205.
  • classifier averager 202 In response to the signal from detector 201, classifier averager 202 maintains an average of the individual classifiers received via path 106 by averaging in the classifiers for the present frame with the classifiers for previous frames. If speech (non-silence) is present in the frame, silence detector 201 signals statistical calculator 203, generator 206, and averager 202 via path 210.
  • Statistical calculator 203 calculates statistical distributions for voiced and unvoiced frames.
  • calculator 203 is responsive to the signal received via path 210 to calculate the overall probability that any frame is unvoiced and the probability that any frame is voiced.
  • statistical calculator 203 calculates the statistical value that each classifier would have if the frame was unvoiced and the statistical value that each classifier would have if the frame was voiced.
  • calculator 203 calculates the covariance matrix of the classifiers.
  • that statistical value may be the mean. The calculations performed by calculator 203 are not only based on the present frame but on previous frames as well.
  • Statistical calculator 203 performs these calculations not only on the basis of the classifiers received for the present frame via path 106 and the average of the classifiers received path 211 but also on the basis of the weight for each classifiers and a threshold value defining whether a frame is unvoiced or voiced received via path 213 from weights calculator 204.
  • Weights calculator 204 is responsive to the probabilities, covariance matrix, and statistical values of the classifiers for the present frame as generated by calculator 203 and received via path 212 to recalculate the values used as weight vector a, for each of the classifiers and the threshold value b, for the present frame. Then, these new values of a and b are transmitted back to statistical calculator 203 via path 213.
  • weights calculator 204 transmits the weights and the statistical values for the classifiers in both the unvoiced and voiced regions via path 214, determinator 205, and path 208 to generator 206.
  • the latter generator is responsive to This information to calculate the distance measure which is subsequently transmitted via path 109 to comparator 104 as illustrated in FIG. 1.
  • U/V determinator 205 is responsive to the information transmitted via paths 214 and 215 to determine whether or not the frame is unvoiced or voiced and to transmit this decision via path 110 to multiplexer 105 of FIG. 1.
  • Averager 202, statistical calculator 203, and weights calculator 204 implement an improved EM algorithm similar to that suggested in the article by N. E. Day entitled “Estimating the Components of a Mixture of Normal Distributions ", Biometrika, Vol. 56, no. 3, pp. 463-474, 1969.
  • calculator 203 determines the probability that the frame represented by the present vector x n is unvoiced by solving equation 7 shown below where, advantageously, the components of vector a are initialized as follows: component corresponding to log of the speech energy equals 0.3918606, component corresponding to log of the LPC gain equals -0.0520902, component corresponding to log area ratio of the first reflection coefficient equals 0.5637082, and component corresponding to squared correlation coefficient equals 1. 361249; and b initially equals -8.36454: P(u
  • x n ) 1 1 + exp(a′x n +b) .
  • calculator 203 determines the probability that the classifiers represent a voiced frame by solving the following: P(v
  • x n) 1-P(u
  • x n) Next, calculator 203 determines the overall probability that any frame will be unvoiced by solving equation 9 for p n : p n (1-z) P n-1 + z P(u
  • calculator 203 After determining the probability that a frame will be unvoiced, calculator 203 then determines two vectors, u and v, which give the mean values of each classifier for both unvoiced and voiced type frames.
  • Vectors u and v are the statistical averages for unvoiced and voiced frames, respectively.
  • Vector u statistical average unvoiced vector, contains the mean values of each classifier if a frame is unvoiced; and vector v, statistical average voiced vector, gives the mean value for each classifier if a frame is voiced.
  • x n)/ p n - zx n v n (1-z)v n-1 + z x n P(v
  • Weights calculator 204 is responsive to this information to calculate new values for vector a and scalar b. These new values are then transmitted back to statistical calculator 203 via path 213. This allows detector 103 to adapt rapidly to changing environments. Advantageously, if the new values for vector a and scalar b are not transmitted back to statistical calculator 203, detector 103 will continue to adapt to changing environments since vectors u and v are being updated. As will be seen, determinator 205 uses vectors u and v as well as vector a and scalar b to make the voicing decision. If n is greater than advantageously 99, vector a and scalar b are calculated as follows.
  • weights calculator 204 transmits vectors a, u, and v to block 205 via path 214. If the frame contained silence only equation 6 is calculated.
  • Determinator 205 is responsive to this transmitted information to decide whether the present frame is voiced or unvoiced. If the element of vector (v n - u n ) corresponding to power is positive, then, a frame is declared voiced if the following equation is true: a′x n - a′(u n +v n) /2 > 0; or if the element of vector (v n - u n ) corresponding to power is negative, then, a frame is declared voiced if the following equation is true: a′x n - a′(u n +v n) /2 ⁇ 0 .
  • Equation 14 can also be rewritten as: a′ x n + b - log[(1-p n) /p n] > 0 .
  • Equation 15 can also be rewritten as: a′x n + b - log[(1-p n) /p n ] ⁇ 0 . If the previous conditions are not meet, determinator 205 declares the frame unvoiced. Equations 14 and 15 represent decision regions for making the voicing decision. The log term of the rewritten forms of equations 14 and 15 can be eliminated with some change of performance.
  • the element corresponding to power is the log of the speech energy.
  • d a′x n + b - log[(1-p n) /p n] .
  • d a′x n + b - log[(1-p n) /p n] .
  • P d is initially set to .5.
  • Equation 25 uses Hotelling's two-sample T2 statistic to calculate the distance measure. For equation 25, the larger the merit value the greater the separation. However, other merit values exist where the smaller the merit value the greater the separation.
  • A2 2 (m1 - m0)2 (k1 + k0) .
  • A2 a′(v n -u n)
  • Discriminant detector 102 makes the unvoiced/voiced decision by transmitting information to multiplexer 105 via path 107 indicating a voiced frame if a′x+b > 0. If this condition is not true, then detector 102 indicates an unvoiced frame.
  • the values for vector a and scalar b used by detector 102 are advantageously identical to the initial values of a and b for statistical voiced detector 103.
  • Detector 102 determines the distance measure in a manner similar to generator 206 by performing calculations similar to those given in equations 16 through 28.
  • FIGS. 3 and 4 illustrate, in greater detail, the operations performed by statistical voiced detector 103 of FIG.2.
  • Blocks 302 and 300 implement blocks 202 and 201 of FIG. 2, respectively.
  • Blocks 304 through 318 implement statistical calculator 203.
  • Blocks 320 and 322 implement weights calculator 204, and blocks 326 through 338 implement block 205 of FIG.2.
  • Generator 206 of FIG. 2 is implemented by block 340.
  • Subtractor 207 is implemented by block 308 or block 324.
  • Block 302 calculates the vector which represents the average of the classifiers for the present frame and all previous frames.
  • Block 300 determines whether speech or silence is present in the present frame; and if silence is present in the present frame, the mean for each classfier is subtracted from each classifier by block 324 before control is transferred to decision block 326. However, if speech is present in the present frame, then the statistical and weights calculations are performed by blocks 304 through 322.
  • the average vector is found in block 302.
  • Second, the sums of the squares and products matrix is calculated in block 304.
  • the latter matrix along with the vector X representing the mean of the classifiers for the present and past frames is then utilized to calculate the covariance matrix, T, in block 306.
  • the mean X is then subtracted from the classifier vector x n in block 308.
  • Block 310 then calculates the probability that the present frame is unvoiced by utilizing the present weight vector a, the present threshold value b, and the classifier vector for the present frame, x n . After calculating the probability that the present frame is unvoiced, the probability that the present frame is voiced is calculated by block 312. Then, the overall probability, p n , that any frame will be unvoiced is calculated by block 314.
  • Blocks 316 and 318 calculate two vectors: u and v.
  • the values contained in vector u represent the statistical average values that each classifier would have if the frame were unvoiced.
  • vector v contains values representing the statistical average values that each classifier would have if the frame were voiced.
  • the actual vectors of classifiers for the present and previous frames are clustered around either vector u or vector v.
  • the vectors representing the classifiers for the previous and present frames are clustered around vector u if these frames are found to be unvoiced; otherwise, the previous classifier vectors are clustered around vector v.
  • control is transferred to decision block 320. If N is greater than 99, control is transferred to block 322; otherwise, control is transferred to block 326. Upon receiving control, block 322 then calculates a new weight vector a and a new treshold value b. The vector a and value b are used in the next sequential frame by the preceding blocks in FIG. 3.
  • N is required to be greater than infinity, vector a and scalar b will never be changed, and detector 103 will adapt solely in response to vectors v and u as illustrated in blocks 326 through 338.
  • Blocks 326 through 338 implement u/v determinator 205 of FIG. 2.
  • Block 326 determines whether the power term of vector v of the present frame is greater than or equal to the power term of vector u. If this condition is true, then decision block 328 is executed. The latter decision block determines whether the test for voiced or unvoiced is met. If the frame is found to be voiced in decision block 328, then the frame is so marked as voiced by block 330 otherwise the frame is marked as unvoiced by block 332. If the power term of vector v is less than the power term of vector u for the present frame, blocks 334 through 338 function are executed and function in a similar manner. Finally, block 340 calculates the distance measure.
  • FIG. 5 illustrates, in greater detail the operations performed by block 340 of FIG. 4.
  • Decision block 501 determines whether the frame has been indicated as unvoiced or voiced by examining the calculations 330, 332, 336, or 338. If the frame has been designated as voiced, path 507 is selected.
  • Block 510 calculates probability P d , and block 502 recalculates the mean, m1, for the voiced frames and block 503 recalculates the variance, k1, for voiced frames. If the frame was determined to be unvoiced, decision block 501 selects path 508.
  • Block 509 recalculates probability P d
  • block 504 recalculates mean, m0, for unvoiced frames
  • block 505 recalculates the variance k0 for unvoiced frames.
  • block 506 calculates the distance measure by performing the calculations indicated.

Claims (23)

  1. Vorrichtung zur Bestimmung des Vorhandenseins eines stimmhaften Lautes in Rahmen von Sprache mit einer Vielzahl von unabhängigen Detektoreinrichtungen (102, 103) zur Feststellung des stimmhaften Lautes in einem Rahmen,
    dadurch gekennzeichnet,
    daß jede der Detektoreinrichtungen eine Einrichtung (209) zur Berechnung eines Gütewertes umfaßt, der den Abstand zwischen stimmhaften und stimmlosen Sprachrahmen definiert, und
    daß die Vorrichtung eine Einrichtung (104, 105) zur Auswahl einer der Detektoreinrichtungen für die Anzeige des Vorhandenseins des stimmhaften Lautes auswählt, wenn die gewählte Detektoreinrichtung einen Gütewert berechnet, der besser ist als der von jeder anderen Detektoreinrichtung berechnete Gütewert.
  2. Vorrichtung nach Anspruch 1,
    bei der die Berechnungseinrichtung jeder Detektoreinrichtung eine statistische Berechnung durchführt, um den Gütewert zu bestimmen.
  3. Vorrichtung nach Anspruch 2,
    bei der die statistischen Berechnungen Abstandsmessungsberechnungen sind.
  4. Vorrichtung nach Anspruch 2,
    bei der die eine Detektoreinrichtung eine Einrichtung umfaßt, die anzeigt, daß ein Rahmen stimmhaft ist, wenn der stimmhafte Laut festgestellt wird, und anzeigt, daß ein Rahmen stimmlos ist, wenn der stimmhafte Laut nicht vorhanden ist,
    die Berechnungseinrichtung für die eine Detektoreinrichtung ferner eine Einrichtung zur Bestimmung einer Diskriminanzvariablen für jeden vorhergehenden und augenblicklichen Rahmen umfaßt,
    ferner eine Einrichtung zur Bestimmung eines Mittelwertes für stimmhafte Rahmen der vorhergehenden und augenblicklichen Rahmen,
    eine Einrichtung zur Bestimmung eines Varianzwertes für stimmhafte Rahmen der vorhergehenden und augenblicklichen Rahmen,
    eine Einrichtung zur Bestimmung eines Mittelwertes stimmloser Rahmen der vorhergehenden und augenblicklichen Rahmen,
    eine Einrichtung zur Bestimmung eines Varianzwertes stimmloser Rahmen der vorhergehenden und augenblicklichen Rahmen und
    eine Einrichtung zur Bestimmung des Gütewertes für die eine Detektoreinrichtung aus den bestimmten stimmhaften Mittel- und Varianzwerten und den bestimmten stimmlosen Mittel- und Varianzwerten.
  5. Vorrichtung nach Anspruch 4,
    bei der die Einrichtung zur Bestimmung des Gütewertes für die eine Detektoreinrichtung eine Einrichtung zur Summierung der Varianzwerte umfaßt,
    ferner eine Einrichtung zur Berechnung einer gewichteten Summe der Varianzwerte,
    eine Einrichtung zum Subtrahieren des Mittelwertes der stimmlosen rahmen von dem Mittelwert der stimmhaften Rahmen,
    eine Einrichtung zum quadrieren des subtrahierten Wertes und
    eine Einrichtung zum Dividieren der gewichteten Summe durch die Summe der quadrierten Werte, wodurch der Gütewert für die eine Detektoreinrichtung erzeugt wird.
  6. Vorrichtung nach Anspruch 5,
    bei der die Einrichtung zur Berechnung der gewichteten Summe eine Einrichtung zur Berechnung eines ersten Wahrscheinlichkeitswertes umfaßt dafür, daß die eine Detektoreinrichtung das Vorhandensein des stimmhaften Lautes im augenblicklichen Rahmen anzeigt,
    ferner eine Einrichtung zur Berechnung eines zweiten Wahrscheinlichkeitswertes dafür, daß die eine Detektoreinrichtung das Fehlen des stimmhaften Lautes im augenblicklichen Rahmen anzeigt,
    eine Einrichtung zur Multiplikation der Varianz der stimmhaften Rahmen aus den vorhergehenden und augenblicklichen Rahmen mit dem ersten Wahrscheinlichkeitswert und der Varianz der stimmlosen Rahmen aus den vorhergehenden und augenblicklichen Rahmen mit dem zweiten Wahrscheinlichkeitswert und
    eine Einrichtung zur Bildung der gewichteten Summe aus dem Ergebnis der Multiplikationen.
  7. Vorrichtung nach Anspruch 6,
    bei der die Divisionseinrichtung eine Einrichtung zur Multiplikation der Ergebnisse der Division der gewichteten Summe durch die Summe der quadrierten Werte mit dem ersten und dem zweiten Wahrscheinlichkeitswert umfaßt, um den Gütewert für die eine Detektoreinrichtung zu erzeugen.
  8. Vorrichtung nach Anspruch 7,
    bei der die Einrichtung zur Anzeige dafür, daß der Rahmen stimmhaft und stimmlos ist, eine Einrichtung umfaßt, die unter Ansprechen auf einen Satz von Sprachattribute des augenblicklichen Sprachrahmens definierenden Klassifizierangaben einen Satz statistischer Parameter berechnet,
    ferner eine Einrichtung, die unter Ansprechen auf den berechneten Satz von Parametern einen Satz von Gewichtungen berechnet, die je einer der Klassifizierangaben zugeordnet ist, und eine Einrichtung, die unter Ansprechen auf den berechneten Satz von Gewichtungen und Klassifizierangaben sowie den Satz von Parametern das Vorhandensein des stimmhaften Lautes in dem Sprachrahmen bestimmt.
  9. Vorrichtung nach Anspruch 8,
    bei der die Einrichtung zur Berechnung des Satzes von Gewichtungen eine Einrichtung zur Berechnung eines Schwellenwertes unter Ansprechen auf den Satz von Parametern umfaßt,
    ferner eine Einrichtung, die den Satz von Gewichtungen und den Schwellenwert an die Einrichtung zur Berechnung des Satzes von statistischen Parametern zur Verwendung für die Berechnung eines weiteren Satzes von Parametern für einen weiteren Sprachrahmen überträgt, und
    wobei die Einrichtung zur Berechnung des Satzes statistischer Parameter ferner unter Ansprechen auf den übertragenen Satz von Gewichtungen und einen weiteren Satz von Klassifizierangaben, die die Sprachattribute des weiteren Rahmens definieren, einen weiteren Satz statistischer Parameter berechnet.
  10. Vorrichtung zur Bestimmung des Vorhandenseins eines stimmhaften Lautes in Sprachrahmen mit
    einer ersten Einrichtung (102) zur Erzeugung eines ersten Signals, das das Vorhandensein des stimmhaften Lautes in einem der Sprachrahmen anzeigt,
    einer zweiten Einrichtung (103) zur Erzeugung eines zweiten Signals, das das Vorhandensein des stimmhaften Lautes in dem einen Sprachrahmen anzeigt,
    dadurch gekennzeichnet,
    daß die erste Einrichtung eine Einrichtung zur Berechnung eines ersten verallgemeinerten Distanzwertes umfaßt, der den Grad des Abstandes zwischen den stimmhaften und stimmlosen, durch die erste Einrichtung bestimmten Rahmen darstellt,
    daß die zweite Einrichtung eine Einrichtung (206) zur Berechnung eines zweiten verallgemeinerten Distanzwertes aufweist, der den Grad des Abstandes zwischen stimmhaften und stimmlosen, durch die zweite Einrichtung bestimmten Rahmens darstellt, und
    eine Einrichtung (104, 105) zur Auswahl des ersten Signals umfaßt, um das Vorhandensein des stimmhaften Lautes anzuzeigen, wenn der erste verallgemeinerte Distanzwert besser als der zweite verallgemeinerte Distanzwert ist, und zur Auswahl des zweiten Signals, um das Vorhandensein des stimmhaften Lautes anzuzeigen, wenn der zweite verallgemeinerte Distanzwert besser als der erste verallgemeinerte Distanzwert ist.
  11. Vorrichtung nach Anspruch 10,
    bei der die verallgemeinerten Distanzwerte die Mahalanobis-Distanzwerte sind.
  12. Vorrichtung nach Anspruch 11,
    bei der die erste Einrichtung ferner eine Einrichtung umfaßt, die unter Ansprechen auf einen Satz von Sprachattribute eines Sprachrahmens definierende Klassifizierangaben einen Satz von statistischen Parametern errechnet,
    ferner eine Einrichtung, die unter Ansprechen auf den berechneten Satz von Parametern einen Satz von Gewichtungen berechnet, die je einer der Klassifizierangaben zugeordnet sind, und
    eine Einrichtung, die unter Ansprechen auf den berechneten Satz von Gewichtungen und Klassifizierangaben sowie den Satz von Parametern das Vorhandensein des stimmhaften Lautes in dem Sprachrahmen bestimmt.
  13. Vorrichtung nach Anspruch 12,
    bei der die Einrichtung zur Berechnung des ersten verallgemeinerten Distanzwertes eine Einrichtung umfaßt, die unter Ansprechen auf den berechneten Satz von Parametern und den berechneten Satz von Gewichtungen den ersten verallgemeinerten Distanzwert bestimmt.
  14. Vorrichtung nach Anspruch 13,
    bei der die zweite Einrichtung ein Diskriminanten-Stimmhaft-Detektor ist.
  15. Vorrichtung nach Anspruch 14,
    bei der die Einrichtung zur Berechnung des zweiten verallgemeinerten Distanzwertes eine Einrichtung zur Bestimmung eines Mittelwertes für stimmhafte Rahmen der vorhergehenden und augenblicklichen Rahmen umfaßt, ferner eine Einrichtung zur Bestimmung eines Mittelwertes für stimmlose Rahmen der vorhergehenden und augenblicklichen Rahmen,
    eine Einrichtung zur Bestimmung eines Varianzwertes der stimmlosen Rahmen von den vorhergehenden und augenblicklichen Rahmen und
    eine Einrichtung zur Bestimmung des zweiten Distanzmeßwertes aus den bestimmten stimmhaften Mittel-und Varianzwerten sowie den bestimmten stimmlosen Mittel-und Varianzwerten.
  16. Vorrichtung nach Anspruch 15,
    bei der die Einrichtung zur Bestimmung des zweiten Distanzmeßwertes umfaßt:
    eine Einrichtung zur Berechnung der gewichteten Summe der Varianzwerte,
    eine Einrichtung zum Subtrahieren des Mittelwertes der stimmlosen Rahmen von dem Mittelwert der stimmhaften Rahmen,
    eine Einrichtung zum quadrieren des subtrahierten Wertem und
    eine Einrichtung zum Dividieren der gewichteten Summe der Varianzwerte durch die Summe der quadrierten Werte und dadurch Erzeugen des zweiten Distanzmeßwertes.
  17. Verfahren zur Bestimmung des Vorhandenseins eines stimmhaften Lautes in Sprachrahmen unter Verwendung eines ersten und eines zweiten Stimmhaft-Detektorverfahrens (102, 103) zur Feststellung des stimmhaften Lautes in einem Rahmen,
    gekennzeichnet durch:
    Berechnen eines ersten Gütewertes, der den Abstand zwischen stimmhaften und stimmlosen Sprachrahmen durch das erste Stimmhaft-Detektorverfahren definiert, Berechnen eines zweiten Gütewertes, der den Abstand zwischen den stimmhaften und stimmlosen Sprachrahmen durch das zweite Stimmhaft-Detektorverfahren definiert, und
    Auswählen (104, 105) des ersten Stimmhaft-Detektorverfahrens zur Anzeige des Vorhandenseins des stimmhaften Lautes, wenn der erste Gütewert besser als der zweite Gütewert ist, und
    Auswählen des zweiten Stimmhaft-Detektorverfahrens des Anzeige des Vorhandenseins des stimmhaften Lautes, wenn der zweite Gütewert besser als der erste Gütewert ist.
  18. Verfahren nach Anspruch 17,
    bei dem der Schritt zur Berechnung des ersten und zweiten Wertes je den Schritt der Durchführung einer statistischen Berechnung zur Bestimmung des ersten bzw. zweiten Wertes umfaßt.
  19. Verfahren nach Anspruch 18, bei dem die statistischen Berechnungen Distanzmeßberechnungen sind.
  20. Verfahren nach Anspruch 18,
    bei dem ferner die Schritte vorgesehen sind, anzuzeigen, daß ein Rahmen stimmhaft ist, wenn der stimmhafte Laut festgestellt wird, und daß ein Rahmen stimmlos ist, wenn das erste Stimmhaft-Detektorverfahren feststellt, daß der stimmhafte Laut nicht vorhanden ist, und wobei der Schritt zur Berechnung des ersten Wertes ferner die Schritte umfaßt:
    Bestimmen einer Diskriminanzvariablen für jeden vorhergehenden und augenblicklichen Rahmen, Bestimmen eines Mittelwertes für stimmhafte Rahmen der vorhergehenden und augenblicklichen Rahmen,
    Bestimmen eines Varianzwertes für die stimmhaften Rahmen der vorhergehenden und augenblicklichen Rahmen,
    Bestimmen eines Mittelwertes für die stimmlosen Rahmen der vorhergehenden und augenblicklichen Rahmen,
    Bestimmen eines Varianzwertes für die stimmlosen Rahmen der vorhergehenden und augenblicklichen Rahmen, und
    Bestimmen des ersten Wertes aus den bestimmten stimmhaften Mittel- und Varianzwerten und den bestimmten stimmlosen Mittel- und Varianzwerten.
  21. Verfahren nach Anspruch 20,
    bei dem der Schritt zur Bestimmung des ersten Wertes die Schritte umfaßt:
    Summieren der Varianzwerte,
    Berechnen der gewichteten Summe der Varianzwerte,
    Subtrahieren des Mittelwertes der stimmlosen Rahmen vom Mittelwert der stimmhaften Rahmen,
    Quadrieren der subtrahierten Werte und
    Dividieren der gewichteten Summe von Varianzwerten durch die Summe der quadrierten Varianzwerte und dadurch Erzeugen des statistischen Wertes.
  22. Verfahren nach Anspruch 21,
    bei dem der Schritt der Berechnung der gewichteten Summe die Schritte umfaßt:
    Berechnen eines ersten Wahrscheinlichkeitswertes dafür, daß der Schritt zur Bestimmung des ersten Wertes das Vorhandensein des stimmhaften Lautes im augenblicklichen Rahmen anzeigt,
    Berechnen eines zweiten Wahrscheinlichkeitswertes dafür, daß der Schritt der Bestimmung des ersten Wertes die Abwesenheit des stimmhaften Lautes im augenblicklichen Rahmen anzeigt,
    Multiplizieren der Varianz der stimmhaften Rahmen von den vorhergehenden und augenblicklichen Rahmen mit dem ersten Wahrscheinlichkeitswert und der Varianz der stimmlosen Rahmen von den vorhergehenden und augenblicklichen Rahmen mit dem zweiten Wahrscheinlichkeitswert, und
    Bilden der gewichteten Summe aus den Ergebnissen der Multiplikationen.
  23. Verfahren nach Anspruch 22,
    bei dem der Dividierschritt das Multiplizieren der Ergebnisse aus der Division der gewichteten Summe durch die Summe der quadrierten Werte mit dem ersten und dem zweiten Wahrscheinlichkeitswert zur Erzeugung des ersten Wertes umfaßt.
EP88901684A 1987-04-03 1988-01-11 Abstandsmessungskontrolle eines multidetektorsystems Expired - Lifetime EP0310636B1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AT88901684T ATE80488T1 (de) 1987-04-03 1988-01-11 Abstandsmessungskontrolle eines multidetektorsystems.

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US3429787A 1987-04-03 1987-04-03
US34297 1987-04-03

Publications (2)

Publication Number Publication Date
EP0310636A1 EP0310636A1 (de) 1989-04-12
EP0310636B1 true EP0310636B1 (de) 1992-09-09

Family

ID=21875527

Family Applications (1)

Application Number Title Priority Date Filing Date
EP88901684A Expired - Lifetime EP0310636B1 (de) 1987-04-03 1988-01-11 Abstandsmessungskontrolle eines multidetektorsystems

Country Status (8)

Country Link
EP (1) EP0310636B1 (de)
JP (1) JPH0795238B2 (de)
AT (1) ATE80488T1 (de)
CA (1) CA1336212C (de)
DE (1) DE3874471T2 (de)
HK (1) HK108993A (de)
SG (1) SG59693G (de)
WO (1) WO1988007740A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
JP3670217B2 (ja) 2000-09-06 2005-07-13 国立大学法人名古屋大学 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法
JP4517045B2 (ja) 2005-04-01 2010-08-04 独立行政法人産業技術総合研究所 音高推定方法及び装置並びに音高推定用プラグラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60114900A (ja) * 1983-11-25 1985-06-21 松下電器産業株式会社 有音・無音判定法
JPS60200300A (ja) * 1984-03-23 1985-10-09 松下電器産業株式会社 音声の始端・終端検出装置
JPS6148898A (ja) * 1984-08-16 1986-03-10 松下電器産業株式会社 音声の有声無声判定装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ICASSP 86 Proceedings, IEEE-IECEJ-ASJ International Conference on Acoustics, Speech, and Signal Processing, 7-11 April 1986, Tokyo, Japan, volume 1 of 4, IEEE, (New York, US), D.P. Prezas et al.: "Fast and accurate pitch detection using pattern recognition and adaptive time-domain analysis", pages 109-112 see pages 110, 111: "Final voicing and pitch" *
IEEE Transactions on Acoustics, Speech, and Signal Processing, volume ASSP-24, no. 3, June 1976, (New York, US), B.S. Atal et al.: "A pattern recognition approach to voiced-unvoiched-silence classification with applications to speech recognition", pages 201-212 see page 201, right-hand column, lines 14-26 *

Also Published As

Publication number Publication date
DE3874471D1 (de) 1992-10-15
EP0310636A1 (de) 1989-04-12
SG59693G (en) 1993-07-09
DE3874471T2 (de) 1993-02-25
HK108993A (en) 1993-10-22
CA1336212C (en) 1995-07-04
AU1242988A (en) 1988-11-02
WO1988007740A1 (en) 1988-10-06
JPH0795238B2 (ja) 1995-10-11
JPH01502853A (ja) 1989-09-28
AU602957B2 (en) 1990-11-01
ATE80488T1 (de) 1992-09-15

Similar Documents

Publication Publication Date Title
EP0335521B1 (de) Detektion für die Anwesenheit eines Sprachsignals
US4100370A (en) Voice verification system based on word pronunciation
US6314396B1 (en) Automatic gain control in a speech recognition system
US20020165713A1 (en) Detection of sound activity
JPH0844386A (ja) 単語認識のための始点、終点の検出方法
US4937870A (en) Speech recognition arrangement
US5046100A (en) Adaptive multivariate estimating apparatus
US4864307A (en) Method and device for the automatic recognition of targets from "Doppler" ec
US5007093A (en) Adaptive threshold voiced detector
US4890328A (en) Voice synthesis utilizing multi-level filter excitation
US4972490A (en) Distance measurement control of a multiple detector system
US5806031A (en) Method and recognizer for recognizing tonal acoustic sound signals
EP0310636B1 (de) Abstandsmessungskontrolle eines multidetektorsystems
EP0308433B1 (de) Adaptive multivariable analyseeinrichtung
EP0421744B1 (de) Verfahren und Einrichtung zur Spracherkennung
EP0309561B1 (de) Detektor für stimmhafte laute mit adaptiver schwelle
JP2002258881A (ja) 音声検出装置及び音声検出プログラム
AU612737B2 (en) A phoneme recognition system
JP3373532B2 (ja) 音声分析の方法と装置
JP3032215B2 (ja) 有音検出装置及びその方法
KR100349656B1 (ko) 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법
JPH067352B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE DE FR GB IT NL

17P Request for examination filed

Effective date: 19890328

17Q First examination report despatched

Effective date: 19910402

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE DE FR GB IT NL

REF Corresponds to:

Ref document number: 80488

Country of ref document: AT

Date of ref document: 19920915

Kind code of ref document: T

REF Corresponds to:

Ref document number: 3874471

Country of ref document: DE

Date of ref document: 19921015

ET Fr: translation filed
ITF It: translation for a ep patent filed

Owner name: MODIANO & ASSOCIATI S.R

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: BE

Payment date: 20000106

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: AT

Payment date: 20000330

Year of fee payment: 13

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20010111

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20010131

BERE Be: lapsed

Owner name: AMERICAN TELEPHONE AND TELEGRAPH CY

Effective date: 20010131

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20011221

Year of fee payment: 15

REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20020107

Year of fee payment: 15

Ref country code: GB

Payment date: 20020107

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20020328

Year of fee payment: 15

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030111

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030801

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030801

GBPC Gb: european patent ceased through non-payment of renewal fee
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030930

NLV4 Nl: lapsed or anulled due to non-payment of the annual fee

Effective date: 20030801

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050111