EP0052041A1 - Method and device for pitch period determination - Google Patents
Method and device for pitch period determination Download PDFInfo
- Publication number
- EP0052041A1 EP0052041A1 EP81401684A EP81401684A EP0052041A1 EP 0052041 A1 EP0052041 A1 EP 0052041A1 EP 81401684 A EP81401684 A EP 81401684A EP 81401684 A EP81401684 A EP 81401684A EP 0052041 A1 EP0052041 A1 EP 0052041A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- alternations
- test
- signal
- measurements
- melody
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 137
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 230000000717 retained effect Effects 0.000 claims abstract description 35
- 238000005259 measurement Methods 0.000 claims abstract description 25
- 238000010998 test method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims 1
- 239000011800 void material Substances 0.000 claims 1
- 238000011897 real-time detection Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000036039 immunity Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Definitions
- the invention relates to the analysis of speech signals and more particularly to a method for detecting the melody frequency of voices heard in a speech signal and to a device intended for implementing this method.
- voiced sounds are made up of vowels or liquid or sonic consonants and have well-defined spectral properties that are not found in unvoiced sounds made up of deaf consonants. These voiced sounds have a generally greater amplitude than unvoiced sounds and a very marked periodicity in the speech signal.
- the value of the frequency corresponding to this periodicity is the melody frequency included, depending on the people between 60 and 300 Hz.
- This melody frequency is a fundamental parameter of speech which is evaluated in most vocoders, the quality of the detection of this frequency directly influencing the quality of the speech restored after decoding.
- the second, of temporal type seek a periodicity directly on the temporal signal. They generally use a reduced set of data, for example time intervals between zero crossings (or between signal maximums), or counting the signal's zero crossings for a determined duration; decision criteria. take into account the properties observed on the speech signals. Calculations are more reduced with this type of detection, but the corresponding detection devices do not perform very well in the presence of noise and during the transitions between voiced signal and unvoiced signal.
- a method and a device for detecting the melody period using, as a data set, the measurements of the energy in the successive arches of the speech signal have also been described. This device benefits, compared to more common time type devices, from better noise immunity and from a more selective voicing criterion which limits false detections.
- detection requires the cutting of the signal into frames of fixed length, the calculations allowing the recognition of a voiced sound can only be carried out with a delay frame. Furthermore, there is a risk of detection of the frequency twice the melody frequency because the criterion making it possible to avoid such detection is only effective in the middle of a neighboring segment. Finally, the division of the signal into frames of fixed length which are not linked to the content of the speech signal harms the quality of the measurement, in particular during the transitions between voiced signal and unvoiced signal.
- the subject of the invention is a method of real-time detection of the melody frequency in speech, of the time type, using measurements of the energy between zero crossings, as well as measurements of the time intervals between these passages at zero. zero.
- the method avoids false detections, in particular the detection of the double frequency, has good immunity against noise, and moreover does not significantly increase the complexity of the device intended for its implementation compared with known devices.
- a method of detecting, in real time, the melody frequency in speech from a reduced set of data measured on this signal is mainly characterized in that this set is composed of a measurements. (i variable) of the energy in the successive alternations of this signal and of measurements t .
- test procedure implemented on these data includes an acquisition phase during which a first series of tests confers, when it is verified, the acquired character in the neighborhood and results in the calculation of a first melody period value, and a holding phase during which a second series when confirmed, confirms the acquired character of the voicing and results in the updating of the value of the melody period, this second series of tests being repeated as long as the acquired character of the voicing is preserved and a new phase d acquisition being implemented when the acquired character of the settlement is lost.
- the invention also relates to a device intended for the implementation of this melody frequency detection method.
- the time intervals t (i variable) between zero crossings are stored in a first table and the corresponding sums a. are stored in a second table. These two tables are established in real time.
- the discrimination between voiced and unvoiced signal segments is obtained by following different criteria depending on the phase: during a so-called “acquisition” phase, the device follows a first test procedure according to a first set of criteria, while during a second phase called “holding”, the device follows a second test procedure according to a second set of criteria. When, during this holding phase, the test indicates that the voiced character of the signal is lost, a new acquisition phase begins.
- FIG. 1 The device for detecting the melody frequency intended for the implementation of this process very succinctly described above is represented in FIG. 1.
- This device comprises an analog processing circuit 10 with two inputs, E 1 and E 2 respectively. suitable for connection to a microphone and line output amplifier.
- This analog processing device comprises: an amplifier 11 whose input is connected to the input E 1 , a second variable gain amplifier 12 whose input is connected to the output of the amplifier 11 on the one hand, and directly at the entrance E 2 on the other hand.
- the output of this low pass filter 13 is connected to the input signal from an analog to digital converter 20.
- This converter also includes a clock input H setting the frequency of the samples taken from the analog signal.
- This clock input is coupled to the output of a clock 1, delivering a signal at the frequency H. , via a frequency divider 2 whose output delivers a clock signal H.
- the converter can deliver the digital values of the samples in the form of words of 8 binary elements, one binary element being reserved for the sign of the sample.
- the device also includes a set of digital circuits 30 and a microprocessor 40.
- the digital processing circuits are connected on the one hand to the output of the analog digital converter and to the clock output H, on the other hand to the microprocessor.
- These circuits are more precisely: an accumulator 31 intended to add up the values of the successive samples which are supplied to its multiple signal input in the form of words of 8 binary elements by the converter; the sums are supplied in the form of words of 12 binary elements of which only the 8 most significant are transferred to the microprocessor 40 to be put in memory.
- a zero detector 32 whose signal input receives the binary element characteristic of the sign of the samples supplied by the converter
- This zero-crossing detection circuit is a simple logic circuit which compares the sign of the sample present at the output of the converter with the sign of the previous sample stored in this circuit.
- This detector has an output which supplies an interrupt pulse 1 to the microprocessor 40.
- the zero detector also includes a clock input H.
- the digital processing circuits also include a counter 33 having an input connected to the output H of the divider 2 and a reset input, RESET; this counter allows the microprocessor to be given measurements of the time elapsed between two resets.
- these circuits 30 also include a frame counter 34, the input of which is also connected to the output H of the divider 2 and the output of which supplies interrupt pulses 1 to the microprocessor, for displaying and storing the results obtained during a test procedure; this circuit also has a reset input, not shown.
- the microprocessor 40 comprises: an MPU processing unit, 41; a random access memory RAM, 44, the content of which can be modified and read at will, and which makes it possible to store the values of the sums a and of time intervals t. as well as the intermediate values useful for detection; a read only memory, PROM, 45 in which the test program making it possible to determine the melody frequency is recorded; a display device 46 displaying when appropriate the detected values.
- These elements 41 to 46 are connected to each other and to a PIA interface circuit, 42 via a bidirectional link bus 47, the interface circuit also being connected by bidirectional data buses 35, 36, 37 to the accumulator. reader 31 and counters 33 and 34.
- the address bus and address decoders have not been shown in this diagram for simplicity.
- Data acquisition from the filtered and sampled signal is obtained by the digital processing circuits in connection with the microprocessor in the following manner.
- an interrupt pulse I e supplied by the zero crossing detector 32 to the interface circuit 42 controls the transfer of the content a. of the accumulator 31 in a first memory table 44 (via the link bus 35 between the accumulator and the interface circuit 42, the interface circuit 42 and the link bus 47 between the circuit interface and memory 44), and the transfer of content t. of the counter 33 in a second table of the memory 44 (via the link bus 36, the interface 42, and the link bus 47).
- the interface circuit 42 controls the resetting to zero of the accumulator 31 and of the counter 33.
- the test procedure takes place in real time, which makes it possible to limit the size of the RAM required, the two tables each having, for example, 256 memory boxes, and the new data being rewritten on the old already tested.
- reading and writing indices of these tables are provided and an additional test, not detailed here, makes it possible to ensure in reading that the reading index does not exceed the writing index (in order to do not reuse values already tested) and in writing that the writing index does not exceed the reading index (which would cause the loss of untested values).
- test procedure implemented from this data takes into account the form of the speech signal and takes place from a test program recorded in the program memory 45.
- the test procedure characteristic of the detection method of the melody frequency will be explained in detail below in conjunction with the signal diagrams of FIGS. 2, 3, 4 and 9 and with the sequential diagrams of the test program represented in FIGS. 5 to 8.
- FIG. 2 shows an example of a signal segment seen at the start of speech.
- This signal consists of positive and negative alternations whose maximum amplitude, duration, and energy are variable.
- the voiced signal is characterized by the fact that two successive alternations sives (of different signs) having energies higher than those of the alternations of the same sign preceding and following, can be detected in this signal. These particular alternations are repeated at an almost constant period, called the melody period.
- the first test makes it possible to find two successive alternations of contrary signs, whose energies exceed given thresholds, S l p and S 1n , the beginning of the first of these two alternations which can constitute the beginning of the melody period when the following tests are also verified.
- test I The flowchart of the corresponding test program is shown in FIG. 5, this test being designated by test I below.
- the reading index of the tables of the memory 44, i is incremented.
- a sum a i and the corresponding time interval t. are read from memory.
- a test on the sign of the sum a i then makes it possible to test the value of the sum a i with respect to the thresholds defined above, S 1p and S 1n .
- the "atest" pointer is set to zero.
- a new reading of the variables is then undertaken.
- the corresponding value of the sum a i is loaded into a register and constitutes the value a l p or a 1n , according to the sign of the sum, value likely to constitute the first sum of the beginning of the melody period.
- the value of the corresponding time interval t. is loaded into a register and constitutes a value t p or t n according to the positive or negative sign of the corresponding sum.
- This sign is also kept in memory in a "first sign" register in order to subsequently search for the start of the following periods only on sums of the same sign.
- the value of the read index, i is also kept in memory in an "initial" register for possible later use.
- the pointer "atest" is incremented by 1.
- a test on the value of this pointer with respect to 2 is then implemented before searching for the following sum making it possible to characterize completely the beginning of the melody period.
- This second sum must exceed the corresponding sign threshold. If it does not exceed the threshold, atest is reduced to zero and the test resumes with the following sum.
- the point "atest” is again incremented and the test of the value of this pointer with respect to 2 is then checked. The first two values a l p and a 1n greater than the thresholds S l p and S 1n , are then found.
- test procedure then continues to search for the start of the second melody period, at the same time as the time intervals between zero crossings are added to allow a value of the melody period to be determined later.
- FIG. 6 represents the test procedure making it possible to determine the start of this second period and the first values of time intervals between the sums with the same sign of the first two groups.
- the reading index is first incremented, then a sum and the corresponding time interval, a i and t i , are read from the memory.
- the sign of the sum a i is tested and two parallel branches are possible according to the sign of the sum.
- a check of the alternation of the sums sign is carried out. When this alternation condition is not verified, a referral makes it possible to change branches after correction of the overflow. These branch changes are shown in dotted lines in the figure.
- the time interval, called "current”, t 12p or t 12n between the sum of the first group, a 1n or a 1p of the same sign as the sum a. being tested and the start of the alternation corresponding to this sum being tested is calculated as follows: t 12 p new value is equal to t 12p old value plus t p plus t. Then the value of the time interval between zero crossings, t i , corresponding to this sum under test is stored in a register (t or t n according to its sign) which makes it possible to calculate the time interval current.
- Test II is then finished and test III, making it possible to search for the start of the third voiced period, can then begin.
- FIG. 7 and FIG. 8 represent the test III which makes it possible, from the first and the second group of sums retained, to search for the third group of sums which can characterize this beginning of the third period; the acquisition of all the values of sums retained and the values of corresponding time intervals indicates that the voiced character of the signal is acquired and makes it possible then to calculate a value of the melody period which takes account of the time intervals between beginning of period.
- T m characterizing a minimum melody period and e a maximum tolerated time difference
- the first two tests, (1) and (2) on the value of the current time verify that the current time is long enough to constitute a melody period.
- the third is on the contrary intended to ensure that this current time value is not too large.
- this condition is that values of sums a i rejected are not greater than the previous sums same sign retained.
- a l p, a 2 p and a 1n a 2n would normally be retained, but the condition described above implemented in test III will not be verified because a'3p, rejected by the duration criteria, is greater than a 2 p retained.
- test program III The flow of test program III is shown in Figures 7 and 8. These figures also show the flow of test IV used when the voiced character of the signal is acquired to verify that the voiced character is maintained. Indeed, the sequences corresponding to the third test, test III, and to the fourth test, test IV, differ only by internal connections which depend on the value of the pointer "atest", and by the values of thresholds to which the sums are compared at. being tested. These threshold values and the corresponding test are defined as follows:
- test branches III and IV Certain branches of the sequence are common to tests III and IV.
- Non-detailed symmetrical negative branches correspond to the positive branches detailed in these figures. They differ only in the index of variables and thresholds (n instead of p and the direction of comparison for the test with respect to the threshold).
- the diagram shown has a first entry, start of test III, l, when the voiced character is not acquired; another entry, 2, start test IV, allows when the voiced character is acquired, to reset the test variables and to update the previous values retained at 2 , a 3 and t 23 in a 1 , a 2 and t 12 ( for positive and negative values) when the search advances by a period.
- This offset appears in FIG. 9 which represents a voiced signal segment tested during a maintenance phase (the old values are put in parentheses above the new values).
- the reading index is incremented; the sum a and the time interval t i are read from the memory.
- a test on the sign of the sum allows to choose the branch of the suitable test procedure. In the following it is assumed that the first sum retained in test I is positive, that is to say that the first sum tested in test III is also positive.
- the current time interval t 23 p is calculated and this time interval is tested.
- the search is reset from test I.
- the time interval t. is put in memory and atest is brought back to 4 in order to cancel the previous sum retained and to start again the search for the beginning of the third period.
- a "first sign" test is carried out. This test makes it possible to ensure that the value about to be retained (a 3n in the example retained) is indeed of opposite sign compared to the first sum retained.
- a new test which is then the fourth test, is carried out (by switching to entry point 2, start of test IV) to find out whether the voiced character of the signal is maintained.
- condition (4) over the time intervals is not checked, the value of atest is reduced by 2 and the test is repeated at point 3.
- the basic procedure is similar to that of the third test but additional branches are provided so that particular signal configurations which do not satisfy all the conditions indicated above (which would lead for test III to a definitive rejection of the alternation considered) are interpreted as voiced signals when the voiced character was previously acquired.
- These particular configurations are shown in FIG. 10. They are such that one of the alternations of the start of the n th period, the first or the second, which may be positive or negative, has an energy below the threshold S 4 p or S 4n fixed, the other exceeding the corresponding threshold.
- the values of the different variables used for the procedure are shown in Figure 10 next to the corresponding configuration.
- the test procedure is such that the correction branches "case 1", "case 2", make it possible to exit the IV test -by retaining the previous sum rejected at i-1 and calculating the period in a normal way.
- the voiced - unvoiced decision is made directly from the test result, by the value of the period.
- the value of the period, result of the procedure of test can be corrected by calculating an average value.
- the measurement of the value of the melody period can be given in real time or with a delay frame, an output register being provided for storing the current value of the melody period at suitably chosen times.
- the voiced - unvoiced decision logic can be a little more elaborate: For example, an additional duration criterion is introduced so that a voiced segment is always greater than 25 ms for example. Likewise, a segment whose detection method would indicate the unvoiced character but whose duration would be less than 25 ms is masked by the insertion of melody values interpolated from those evaluated on adjacent voiced segments.
- the melody frequency detection method described above can be performed with a microprocessor of modest performance. It was implemented during its study on a ROCKWELL microcomputer, AIM 65, built around an MPU 6502 microprocessor.
- test procedure described above by way of example and the detection device associated with it can be modified without departing from the scope of the invention.
- the device represented in FIG. 1 comprises an interface circuit 42. It is also possible to use two PIA interface circuits, these possibly making it possible to carry out additional interruptions and to introduce several modes of execution, continuous real-time execution mode for a system in operation, or launched execution for a certain number of frames when the processing is carried out on recorded data.
- the flowcharts of the test procedures described above can be modified, for example by modifying the order of the elementary tests when possible, without departing from the scope of the invention.
- the threshold values indicated above by way of example can also be chosen for example according to the type of voice (male voice and female voice).
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
L'invention se rapporte à la détection en temps réel de signal voisé et à la mesure de la fréquence de mélodie correspondante dans un signal de parole. Le procédé utilise un ensemble de données caractéristiques du signal de parole, fournies par des circuits de traitement (10, 20, 30): des mesures des intervalles de temps entre passages à zéro et des mesures de l'énergie dans les alternances de ce signal. La procédure de test mise en oeuvre par un microprocesseur (40) retient les alternances dont les énergies dépassent des seuils caractérisant les débuts de période de mélodie. Ces seuils sont prédéterminés pour les deux premières sommes successives retenues, puis dépendent des valeurs d'énergie des alternances précédentes retenues différemment selon que le caractère voisé du signal est acquis ou non. Des tests complémentaires sont mis en oeuvre pour minimiser les erreurs de détection. Application, notamment, au traitement des signaux de parole pour les vocodeurs.The invention relates to the real-time detection of a voiced signal and to the measurement of the corresponding melody frequency in a speech signal. The method uses a set of data characteristic of the speech signal, supplied by processing circuits (10, 20, 30): measurements of the time intervals between zero crossings and measurements of the energy in the alternations of this signal. . The test procedure implemented by a microprocessor (40) retains alternations whose energies exceed thresholds characterizing the start of the melody period. These thresholds are predetermined for the first two successive sums retained, then depend on the energy values of the previous half-waves retained differently depending on whether the voiced character of the signal is acquired or not. Additional tests are implemented to minimize detection errors. Application, in particular, to the processing of speech signals for vocoders.
Description
L'invention se rapporte à l'analyse de signaux de parole et plus particulièrement à un procédé de détection de la fréquence de mélodie des sons voisés dans un signal de parole et à un dispositif destiné à la mise en oeuvre de ce procédé.The invention relates to the analysis of speech signals and more particularly to a method for detecting the melody frequency of voices heard in a speech signal and to a device intended for implementing this method.
Dans la parole, les sons voisés sont constitués de voyelles ou de consonnes liquides ou sonores et possèdent des propriétés spectrales bien définies qui ne se retrouvent pas dans les sons non voisés constitués par des consonnes sourdes. Ces sons voisés présentent une amplitude généralement plus importante que les sons non voisés et une périodicité très marquée dans le signal de parole. La valeur de la fréquence correspondant à cette périodicité (liée à la vibration des cordes vocales) est la fréquence de mélodie comprise, suivant les personnes entre 60 et 300 Hz.In speech, voiced sounds are made up of vowels or liquid or sonic consonants and have well-defined spectral properties that are not found in unvoiced sounds made up of deaf consonants. These voiced sounds have a generally greater amplitude than unvoiced sounds and a very marked periodicity in the speech signal. The value of the frequency corresponding to this periodicity (linked to the vibration of the vocal cords) is the melody frequency included, depending on the people between 60 and 300 Hz.
Cette fréquence de mélodie est un paramètre fondamental de la parole qui est évalué dans la plupart des vocodeurs, la qualité de la détection de cette fréquence influant directement sur la qualité de la parole restituée après décodage.This melody frequency is a fundamental parameter of speech which is evaluated in most vocoders, the quality of the detection of this frequency directly influencing the quality of the speech restored after decoding.
L'analyse de l'état de la technique permet de distinguer deux classes de procédés et dispositifs de détection de la fréquence de mélodie :
- Les premiers procèdent par analyse systématique du signal de parole, analyse du spectre ou autocorrélation, et mettent en oeuvre un volume de calculs généralement trop important pour conduire à des réalisations en temps réel au moyen de systèmes relativement simples.
- The former proceed by systematic analysis of the speech signal, spectrum analysis or autocorrelation, and use a volume of calculations generally too large to lead to real time realizations by means of relatively simple systems.
Les seconds, de type temporel, recherchent une périodicité directement sur le signal temporel. Ils utilisent en général un ensemble de données réduit, par exemple des intervalles de temps entre passages à zéro (ou entre maximums du signal), ou le comptage des passages à zéro du signal pendant une durée déterminée ; les critères de décision. tiennent compte des propriétés observées sur les signaux de parole. Les calculs sont plus réduits avec ce type de détection, mais les dispositifs de détection correspondants ne sont pas très performants en présence de bruit et pendant les transitions signal voisé - signal non voisé. Un procédé et un dispositif de détection de la période de mélodie utilisant, comme ensemble de données, les mesures de l'énergie dans les arches successives du signal de parole ont également été décrits. Ce dispositif bénéficie, par rapport aux dispositifs de type temporel plus courants, d'une meilleure immunité contre le bruit et d'un critère de voisement plus sélectif qui limite les fausses détections. Cependant, la détection nécessite le découpage du signal en trames de longueur fixe, les calculs permettant la reconnaissance d'un son voisé ne pouvant être effectués qu'avec une trame de retard. Par ailleurs, il existe un risque de détection de la fréquence double de la fréquence de mélodie car le critère permettant d'éviter une telle détection n'est effectif qu'en milieu de segment voisé. Enfin, le découpage du signal en trames de longueur fixe qui ne sont pas liées au contenu du signal de parole nuit à la qualité de la mesure, en particulier pendant les transitions signal voisé - signal non voisé.The second, of temporal type, seek a periodicity directly on the temporal signal. They generally use a reduced set of data, for example time intervals between zero crossings (or between signal maximums), or counting the signal's zero crossings for a determined duration; decision criteria. take into account the properties observed on the speech signals. Calculations are more reduced with this type of detection, but the corresponding detection devices do not perform very well in the presence of noise and during the transitions between voiced signal and unvoiced signal. A method and a device for detecting the melody period using, as a data set, the measurements of the energy in the successive arches of the speech signal have also been described. This device benefits, compared to more common time type devices, from better noise immunity and from a more selective voicing criterion which limits false detections. However, detection requires the cutting of the signal into frames of fixed length, the calculations allowing the recognition of a voiced sound can only be carried out with a delay frame. Furthermore, there is a risk of detection of the frequency twice the melody frequency because the criterion making it possible to avoid such detection is only effective in the middle of a neighboring segment. Finally, the division of the signal into frames of fixed length which are not linked to the content of the speech signal harms the quality of the measurement, in particular during the transitions between voiced signal and unvoiced signal.
L'invention a pour objet un procédé de détection en temps réel de la fréquence de mélodie dans la parole, de type temporel, utilisant des mesures de l'énergie entre passages à zéro, ainsi que des mesures des intervalles de temps entre ces passages à zéro. Le procédé évite les fausses détections, en particulier la détection de la fréquence double, a une bonne immunité contre le bruit, et par ailleurs n'augmente pas sensiblement la complexité du dispositif destiné à sa mise en oeuvre par rapport aux dispositifs connus.The subject of the invention is a method of real-time detection of the melody frequency in speech, of the time type, using measurements of the energy between zero crossings, as well as measurements of the time intervals between these passages at zero. zero. The method avoids false detections, in particular the detection of the double frequency, has good immunity against noise, and moreover does not significantly increase the complexity of the device intended for its implementation compared with known devices.
Selon l'invention, un procédé de détection, en temps réel, de la fréquence de mélodie dans la parole à partir d'un ensemble réduit de données mesurées sur ce signal, est principalement caractérisé en ce que cet ensemble est composé de mesures a. (i variable) de l'énergie dans les alternances successives de ce signal et de mesures t. associées des durées de ces alternances, et en ce que la procédure de test mise en oeuvre sur ces données comporte une phase d'acquisition pendant laquelle une première série de tests confère, lorsqu'elle est vérifiée, le caractère acquis au voisement et aboutit au calcul d'une première valeur de période de mélodie, et une phase de maintien pendant laquelle une seconde série de test confirme lorsqu'elle est vérifiée, le caractère acquis du voisement et aboutit à l'actualisation de la valeur de la période de mélodie, cette seconde série de tests étant répétée tant que le caractère acquis du voisement est conservé et une nouvelle phase d'acquisition étant mise en oeuvre lorsque le caractère acquis du voisement est perdu.According to the invention, a method of detecting, in real time, the melody frequency in speech from a reduced set of data measured on this signal, is mainly characterized in that this set is composed of a measurements. (i variable) of the energy in the successive alternations of this signal and of measurements t . associated with the durations of these alternations, and in that the test procedure implemented on these data includes an acquisition phase during which a first series of tests confers, when it is verified, the acquired character in the neighborhood and results in the calculation of a first melody period value, and a holding phase during which a second series when confirmed, confirms the acquired character of the voicing and results in the updating of the value of the melody period, this second series of tests being repeated as long as the acquired character of the voicing is preserved and a new phase d acquisition being implemented when the acquired character of the settlement is lost.
L'invention a également pour objet un dispositif destiné à la mise en oeuvre de ce procédé de détection de fréquence de mélodie.The invention also relates to a device intended for the implementation of this melody frequency detection method.
L'invention sera mieux comprise et d'autres caractéristiques apparaîtront à l'aide de la description qui suit en référence aux figures annexées.
- - La figure 1 est le schéma du dispositif de détection suivant l'invention.
- - La figure 2 représente un exemple de segment de signal voisé, en début de parole ;
- - Les figures 3 et 4 représentent d'autres exemples de segments de signaux voisés, en début de parole, risquant de conduire à de fausses détections ;
- - Les figures 5, 6, 7 et 8 représentent des diagrammes séquentiels des différentes phases du procédé de détection de la fréquence de mélodie ;
- - La figure 9 représente un exemple de segment de signal voisé en cours de parole ;
- - La figure 10 représente quelques configurations particulières de l'énergie dans les alternances du signal voisé.
- - Figure 1 is the diagram of the detection device according to the invention.
- - Figure 2 shows an example of a voiced signal segment, at the start of speech;
- - Figures 3 and 4 show other examples of segments of voiced signals, at the start of speech, likely to lead to false detections;
- - Figures 5, 6, 7 and 8 show sequential diagrams of the different phases of the melody frequency detection method;
- - Figure 9 shows an example of signal segment voiced during speech;
- - Figure 10 represents some particular configurations of the energy in the alternations of the voiced signal.
Le procédé de détection de la fréquence de mélodie utilise, pour rechercher la présence de signal voisé, et pour mesurer la période de mélodie correspondante, un ensemble réduit de données constitué de la façon suivante : le signal de parole est d'abord filtré par un filtre passe bas dont la fréquence de coupure est f = 800 Hz ; ce signal filtré est ensuite échantillonné. Puis, à partir du signal filtré et échantillonné, les données utiles à la détection sont obtenues par détection des passages à zéro de ce signal et "intégration" entre passages à zéro consécutifs ; les sommes correspondantes donnent une estimation de l'énergie dans chaque alternance positive ou négative du signal. Les intervalles de temps t (i variable) entre passages à zéro sont mis en mémoire dans une première table et les sommes correspondantes a. sont mises en mémoire dans une seconde table. Ces deux tables sont établies en temps réel. Enfin, à partir de cet ensemble de données réduit, la discrimination entre segments du signal voisés et non voisés est obtenue en suivant des critères différents selon les phases : durant une phase dite "d'acquisition", le dispositif suit une première procédure de test selon un premier ensemble de critères, tandis que durant une seconde phase dite "de maintien", le dispositif suit une seconde procédure de test selon un second ensemble de critères. Lorsque, au cours de cette phase de maintien, le test indique que le caractère voisé du signal est perdu, une nouvelle phase d'acquisition commence.The melody frequency detection method uses, to search for the presence of a voiced signal, and to measure the corresponding melody period, a reduced set of data constituted as follows: the speech signal is first filtered by a low pass filter with cutoff frequency f = 800 Hz; this filtered signal is then sampled. Then, from the filtered and sampled signal, the data useful for detection is obtained by detecting the zero crossings of this signal and "integration" between consecutive zero crossings; the corresponding sums give an estimate of the energy in each positive or negative alternation of the signal. The time intervals t (i variable) between zero crossings are stored in a first table and the corresponding sums a. are stored in a second table. These two tables are established in real time. Finally, from this reduced data set, the discrimination between voiced and unvoiced signal segments is obtained by following different criteria depending on the phase: during a so-called "acquisition" phase, the device follows a first test procedure according to a first set of criteria, while during a second phase called "holding", the device follows a second test procedure according to a second set of criteria. When, during this holding phase, the test indicates that the voiced character of the signal is lost, a new acquisition phase begins.
Durant ces procédures, des tests supplémentaires de protection sont introduits pour éviter les fausses détections.During these procedures, additional protection tests are introduced to avoid false detections.
Le dispositif de détection de la fréquence de mélodie destiné à la mise en oeuvre de ce procédé très succinctement décrit ci-dessus est représenté sur la figure 1. Ce dispositif comporte un circuit de traitement analogique 10 à deux entrées, E1 et E2 respectivement adaptées à une connexion à un microphone et à l'amplificateur de sortie d'une ligne. Ce dispositif de traitement analogique comporte : un amplificateur 11 dont l'entrée est reliée à l'entrée E1 , un second amplificateur à gain variable 12 dont l'entrée est reliée à la sortie de l'amplificateur 11 d'une part, et directement à l'entrée E2 d'autre part. Cet amplificateur 12 a sa sortie reliée à l'entrée d'un filtre passe bas 13 dont la fréquence de coupure est, comme indiqué ci-dessus, f = 800 Hz. La sortie de ce filtre passe bas 13 est reliée à l'entrée de signal d'un convertisseur analogique numérique 20. Ce convertisseur comporte par ailleurs une entrée d'horloge H fixant la fréquence des échantillons prélevés sur le signal analogique. Cette entrée d'horloge est couplée à la sortie d'une horloge 1, délivrant un signal à la fréquence H. , par l'intermédiaire d'un diviseur de fréquence 2 dont la sortie délivre un signal d'horloge H.The device for detecting the melody frequency intended for the implementation of this process very succinctly described above is represented in FIG. 1. This device comprises an
A titre d'exemple, le convertisseur peut délivrer les valeurs numériques des échantillons sous forme de mots de 8 éléments binaires, un élément binaire étant réservé au signe de l'échantillon.As an example, the converter can deliver the digital values of the samples in the form of words of 8 binary elements, one binary element being reserved for the sign of the sample.
Le dispositif comporte également un ensemble de circuits numériques 30 et un microprocesseur 40. Les circuits de traitement numériques sont reliés d'une part à la sortie du convertisseur analogique numérique et à la sortie d'horloge H, d'autre part au microprocesseur. Ces circuits sont plus précisément : un accumulateur 31 destiné à faire la somme des valeurs des échantillons successifs qui sont fournis à son entrée multiple de signal sous forme de mots de 8 éléments binaires par le convertisseur ; les sommes sont fournies sous forme de mots de 12 éléments binaires dont seuls les 8 de plus forts poids sont transférés au microprocesseur 40 pour être mis en mémoire. Un détecteur de zéro 32 dont l'entrée de signal reçoit l'élément binaire caractéristique du signe des échantillons fournis par le convertisseur Ce circuit de détection de passages à zéro est un circuit logique simple qui compare le signe de l'échantillon présent à la sortie du convertisseur avec le signe de l'échantillon précédent mis en mémoire dans ce circuit. Ce détecteur a une sortie qui fournit une impulsion d'interruption 1 au microprocesseur 40. Le détecteur de zéro comporte également une entrée d'horloge H. Les circuits de traitement numériques comportent également un compteur 33 ayant une entrée reliée à la sortie H du diviseur 2 et une entrée de remise à zéro, RAZ ; ce compteur permet de donner au microprocesseur des mesures du temps écoulé entre deux remises à zéro. Enfin, ces circuits 30 comportent également un compteur de trames 34 dont l'entrée est également reliée à la sortie H du diviseur 2 et dont la sortie fournit des impulsions d'interruption 1 au microprocesseur, pour l'affichage et la mise en mémoire des résultats obtenus lors d'une procédure de test ; ce circuit a aussi une entrée de remise à zéro, non représentée.The device also includes a set of
Le microprocesseur 40 comporte : une unité de traitement MPU, 41 ; une mémoire vive RAM, 44, dont le contenu peut être modifié et lu à volonté, et qui permet de mettre en mémoire les valeurs des sommes a et des intervalles de temps t. ainsi que les valeurs intermédiaires utiles à la détection ; une mémoire morte, PROM, 45 dans laquelle est enregistré le programme de test permettant de déterminer la fréquence de mélodie ; un dispositif d'affichage 46 affichant lorsqu'il y a lieu les valeurs détectées. Ces éléments 41 à 46 sont reliés entre eux et à un circuit d'interface PIA, 42 via un bus de liaison bidirectionnel 47, le circuit d'interface étant relié également par des bus de données bidirectionnels 35, 36, 37 à l'accumulateur 31 et aux compteurs 33 et 34. Le bus d'adresse et les décodeurs d'adresse n'ont pas été représentés sur ce schéma pour simplifier.The
L'acquisition des données à partir du signal filtré et échantillonné est obtenue par les circuits de traitement numériques en liaison avec le microprocesseur de la manière suivante.Data acquisition from the filtered and sampled signal is obtained by the digital processing circuits in connection with the microprocessor in the following manner.
Comme indiqué ci-dessus, une impulsion d'interruption Ie fournie par le détecteur de passages à zéro 32 au circuit d'interface 42 commande le transfert du contenu a. de l'accumulateur 31 dans une première table de la mémoire 44 (par l'intermédiaire du bus de liaison 35 entre l'accumulateur et le circuit d'interface 42, du circuit d'interface 42 et du bus de liaison 47 entre le circuit d'interface et la mémoire 44), et le transfert du contenu t. du compteur 33 dans une seconde table de la mémoire 44 (via le bus de liaison 36, l'interface 42, et le bus de liaison 47).As indicated above, an interrupt pulse I e supplied by the zero
Après ces transferts, le circuit d'interface 42 commande la remise à zéro de l'accumulateur 31 et du compteur 33. La procédure de test se déroule en temps réel, ce qui permet de limiter la taille de la R.A.M nécessaire, les deux tables possédant chacune, par exemple, 256 cases mémoire, et les nouvelles données étant réinscrites sur les anciennes déjà testées. Pour cela, des indices de lecture et d'écriture de ces tables sont prévus et un test annexe, non détaillé ici, permet de s'assurer en lecture que l'indice de lecture ne dépasse pas l'indice d'écriture (afin de ne pas réutiliser des valeurs déjà testées) et en écriture que l'indice d'écriture ne dépasse pas l'indice de lecture (ce qui ferait perdre des valeurs non testées).After these transfers, the
La procédure de test mise en oeuvre à partir de ces données prend en compte la forme du signal de parole et se déroule à partir d'un programme de test enregistré dans la mémoire de programme 45. La procédure de test caractéristique du procédé de détection de la fréquence de mélodie va être expliquée en détails ci-après en liaison avec les diagrammes de signaux des figures 2, 3, 4 et 9 et avec les diagrammes séquentiels du programme de test représentés sur les figures 5 à 8.The test procedure implemented from this data takes into account the form of the speech signal and takes place from a test program recorded in the
La figure 2 représente un exemple de segment de signal voisé en début de parole. Ce signal est constitué d'alternances positives et négatives dont l'amplitude maximale, la durée, et l'énergie sont variables. Le signal voisé est caractérisé par le fait que deux alternances successives (de signes différents) ayant des énergies supérieures à celles des alternances de même signe précédentes et suivantes, peuvent être détectées dans ce signal. Ces alternances particulières se répètent à une période quasi-constante, dite période de mélodie.FIG. 2 shows an example of a signal segment seen at the start of speech. This signal consists of positive and negative alternations whose maximum amplitude, duration, and energy are variable. The voiced signal is characterized by the fact that two successive alternations sives (of different signs) having energies higher than those of the alternations of the same sign preceding and following, can be detected in this signal. These particular alternations are repeated at an almost constant period, called the melody period.
D'une manière générale, le procédé de détection suivant l'invention consiste :
- - pour la phase d'acquisition du signal voisé, à détecter trois groupes de deux alternances successives, dont les énergies (alp et a1n, a 2p et a2n, a et a ) et la configuration dans le temps répondent à un ensemble de critères ; lorsque ces critères sont vérifiés, le caractère voisé du signal est acquis, trois débuts de période de mélodie ayant été trouvés, et une première valeur de la période de mélodie est calculée ;
- - pour l'entretien du caractère voisé en cours de test, il est vérifié que des alternances ayant des énergies dépassant des seuils définis en fonction des valeurs d'énergie des alternances précédentes retenues sont présentes dans le signal à des intervalles.de temps voisins de la période de mélodie initiale calculée ; la valeur de cette période est alors actualisée.
- - for the acquisition phase of the voiced signal, to detect three groups of two successive half-waves, whose energies (a l p and a 1n , a 2 p and a 2n , a and a) and the configuration over time respond to a set of criteria; when these criteria are verified, the voiced character of the signal is acquired, three beginnings of melody period having been found, and a first value of the melody period is calculated;
- - for the maintenance of the voiced character during the test, it is verified that alternations having energies exceeding thresholds defined according to the energy values of the previous alternations selected are present in the signal at intervals of time close to the initial melody period calculated; the value of this period is then updated.
Lorsque le test d'entretien du caractère voisé n'est pas vérifié, une nouvelle procédure d'acquisition est engagée.When the maintenance test for the voiced character is not verified, a new acquisition procedure is initiated.
Un pointeur "atest" est prévu pour l'aiguillage dans les différents tests élémentaires, l'état de ce registre étant caractéristique de l'avancement de la détection :
- - atest = 0 : début de la phase d'acquisition ; aucun test n'est vérifié ;
- - atest = 1 : la première alternance susceptible de caractériser le début de la première période voisée est retenue ;
- - atest = 2 : l'alternance successive de la première période voisée est retenue ;
- - atest = 3 : la première alternance susceptible de caractériser le début de la seconde période voisée est retenue ;
- - atest = 4 : l'alternance successive de la seconde période voisée est retenue ;
- - atest = 5 : la première alternance susceptible de constituer le début de la troisième période voisée est retenue ;
- - atest = 6 : l'alternance successive de la troisième période voisée est retenue ;
- - atest = 7 : la première alternance susceptible de constituer le début d'une nième période voisée est retenue ;
- - atest = 8 : la seconde alternance de la nième période voisée est retenue.
- - atest = 0: start of the acquisition phase; no test is verified;
- - atest = 1: the first alternation likely to characterize the start of the first voiced period is retained;
- - atest = 2: the successive alternation of the first voiced period is retained;
- - atest = 3: the first alternation likely to characterize the start of the second voiced period is retained;
- - atest = 4: the successive alternation of the second voiced period is retained;
- - atest = 5: the first alternation likely to constitute the start of the third voiced period is retained;
- - atest = 6: the successive alternation of the third voiced period is retained;
- - atest = 7: the first alternation likely to constitute the start of a n th voiced period is retained;
- - atest = 8: the second alternation of the nth voiced period is retained.
Avant de pouvoir effectuer une première mesure de la période de mélodie, le premier test permet de trouver deux alternances successives de signes contraires, dont les énergies dépassent des seuils donnés, Slp et S1n, le début de la première de ces deux alternances pouvant constituer le début de la période de mélodie lorsque les tests suivants sont également vérifiés.Before being able to make a first measurement of the melody period, the first test makes it possible to find two successive alternations of contrary signs, whose energies exceed given thresholds, S l p and S 1n , the beginning of the first of these two alternations which can constitute the beginning of the melody period when the following tests are also verified.
L'organigramme du programme de test correspondant est représenté sur la figure 5, ce test étant désigné par test I dans la suite. Après une phase d'initialisation de toutes les variables, l'indice de lecture des tables de la mémoire 44, i, est incrémenté. Ensuite une somme ai et l'intervalle de temps correspondant t. sont lus dans la mémoire. Un test sur le signe de la somme ai permet alors de tester la valeur de la somme ai par rapport aux seuils définis ci-dessus, S1p et S1n. Lorsque ce test est négatif le pointeur "atest" est mis à zéro. Une nouvelle lecture des variables est alors entreprise. Lorsque l'un de ces tests est positif, la valeur correspondante de la somme ai est chargée dans un registre et constitue la valeur alp ou a1n, suivant le signe de la somme, valeur susceptible de constituer la première somme d'un début de période de mélodie. La valeur de l'intervalle de temps correspondant t. est chargée dans un registre et constitue une valeur tp ou tn suivant le signe positif ou négatif de la somme correspondante. Ce signe est par ailleurs gardé en mémoire dans un registre "signe premier" afin de ne rechercher ultérieurement le début des périodes suivantes que sur des sommes de même signe. De plus, la valeur de l'index de lecture, i, est également gardée en mémoire dans un registre "initial" pour être utilisée éventuellement ultérieurement. Lorsque cette première somme est détectée, le pointeur "atest", initialement à zéro, est incrémenté de 1. Un test sur la valeur de ce pointeur par rapport à 2 est alors mis en oeuvre avant de rechercher la somme suivante permettant de caractériser complètement le début de la période de mélodie. Cette seconde somme doit dépasser le seuil de signe correspondant. Si elle ne dépasse pas le seuil, atest est ramené à zéro et le test reprend avec la somme suivante. Lorsque cette deuxième somme de signe contraire est également trouvée, le point "atest" est à nouveau incrémenté et le test de la valeur de ce pointeur par rapport à 2 est alors vérifié. Les deux premières valeurs alp et a1n supérieures aux seuils Slp et S1n, sont alors trouvées.The flowchart of the corresponding test program is shown in FIG. 5, this test being designated by test I below. After an initialization phase of all the variables, the reading index of the tables of the
La procédure de test se poursuit alors pour la recherche du début de la seconde période de mélodie, en même temps que les intervalles de temps entre passages à zéro sont additionnés pour permettre de déterminer, ultérieurement, une valeur de la période de mélodie.The test procedure then continues to search for the start of the second melody period, at the same time as the time intervals between zero crossings are added to allow a value of the melody period to be determined later.
La figure 6 représente la procédure de test permettant de déterminer le début de cette deuxième période et les premières valeurs d'intervalles de temps entre les sommes retenues de même signe des deux premiers groupes. Comme précédemment l'indice de lecture est d'abord incrémenté, puis une somme et l'intervalle de temps correspondant, ai et ti, sont lus dans la mémoire. Le signe de la somme ai est testé et deux branches parallèles sont possibles suivant le signe de la somme. Au début de chaque branche, une vérification de l'alternance du signe des sommes est effectuée. Lorsque cette condition d'alternance n'est pas vérifiée, un aiguillage permet de changer de branche après correction du débordement. Ces changements de branches sont représentés en pointillés sur la figure. Lorsque la condition d'alternance est bien vérifiée, l'intervalle de temps, dit "courant", t12p ou t12n entre la somme du premier groupe, a1n ou a1p de même signe que la somme a. en cours de test et le début de l'alternance correspondant à cette somme en cours de test est calculé de la façon suivante : t12p nouvelle valeur est égale à t12p ancienne valeur plus tp plus t . Puis la valeur de l'intervalle de temps entre passages à zéro, ti , correspondant à cette somme en cours de test est mise en mémoire dans un registre (t ou tn suivant son signe) qui permet de calculer l'intervalle de temps courant.FIG. 6 represents the test procedure making it possible to determine the start of this second period and the first values of time intervals between the sums with the same sign of the first two groups. As before, the reading index is first incremented, then a sum and the corresponding time interval, a i and t i , are read from the memory. The sign of the sum a i is tested and two parallel branches are possible according to the sign of the sum. At the beginning of each branch, a check of the alternation of the sums sign is carried out. When this alternation condition is not verified, a referral makes it possible to change branches after correction of the overflow. These branch changes are shown in dotted lines in the figure. When the alternation condition is well verified, the time interval, called "current", t 12p or t 12n between the sum of the first group, a 1n or a 1p of the same sign as the sum a. being tested and the start of the alternation corresponding to this sum being tested is calculated as follows: t 12 p new value is equal to t 12p old value plus t p plus t. Then the value of the time interval between zero crossings, t i , corresponding to this sum under test is stored in a register (t or t n according to its sign) which makes it possible to calculate the time interval current.
La valeur de cet intervalle de temps courant, soit t12p ou t12n, est alors comparée à la valeur maximum TM de la période de mélodie ; cette valeur TM étant une donnée préenregistrée :
- - Lorsque cet intervalle de temps courant est supérieur à TM , les premières alternances retenues, correspondant aux sommes alp et aln' ne pouvaient pas correspondre à un début de période de mélodie et le programme est réaiguillé vers le premier test, après réinitialisation des valeurs de temps courant et de la variable "atest", et incrémentation de la valeur du registre "initial" mise en mémoire.
- - Par contre, lorsque la valeur de temps courant ne dépasse pas la période maximale TM , la valeur de la somme correspondante ai est comparée à un seuil fonction de la valeur de la première somme de même signe retenue.
- - En effet, les sommes du deuxième groupe permettant de caractériser le début de la deuxième période ont des valeurs situées dans un voisinage des valeurs des premières sommes retenues. Dans l'exemple mis en oeuvre, le test est effectué par rapport à des valeurs de seuil :
- - Lorsque le résultat de ce test est négatif, un test sur la valeur du pointeur "atest" est réalisé, de façon à incrémenter l'indice de lecture i et à calculer directement la valeur du temps courant sans effectuer de test sur la valeur suivante de la somme ; en effet cette somme suivante ne peut pas constituer le début de la seconde période compte tenu de son signe (atest est alors égal à 2).
- - Par contre, lorsque le résultat du test sur la valeur de la somme est positif, la valeur de la somme correspondante peut constituer la première somme a2p ou a2n du deuxième groupe, correspondant au début de la seconde période, et la variable "atest" est incrémentée. Seule la première des deux sommes a été trouvée et un test du pointeur "atest" par rapport à "4" permet d'engager une nouvelle procédure de test puisque, à ce moment atest = 3. Les mêmes tests sur la valeur suivante permettent soit de vérifier les mêmes critères, au signe près, sur la somme suivante, soit de retourner au début du test I après réinitialisation lorsque le critère de durée par rapport à la période maximale n'est pas vérifié ou au début du test II lorsque le critère de durée est vérifié mais pas le critère sur la valeur de la somme. Alors atest est ramené à la valeur 2 car la somme précédente retenue ne peut constituer le début de la deuxième période puisque la somme suivante ne peut être retenue.
- - Lorsque les deux valeurs successives ont été trouvées le pointeur "atest", qui est à nouveau incrémenté, a alors la valeur quatre ; ce qui indique que le second test est terminé. Une dernière comparaison de la différence entre la valeur du temps courant t12p et la valeur du temps courant t12n (chacune de ces deux valeurs pouvant donner une valeur de la période de mélodie) permet de vérifier que cette différence est inférieure à un écart de temps déterminé, tpn; ; ce test permet de s'assurer que le signal est suffisamment régulier pour qu'on puisse caractériser une période de mélodie et permet d'éliminer les erreurs évidentes. tpn peut être choisi égal à 256 µS (soit 20 échantillons à 7,8 kHz). Cet écart entre t12p et t12n est aussi l'écart entre les premières alternances des deux groupes retenues.
- - When this current time interval is greater than T M , the first half-waves selected, corresponding to the sums a l p and a ln ' could not correspond to the start of the melody period and the program is redirected to the first test, after reinitialization of the current time values and of the "atest" variable, and incrementation of the value of the "initial" register put in memory.
- - On the other hand, when the current time value does not exceed the maximum period T M , the value of the sum corresponding to i is compared with a threshold depending on the value of the first sum of the same sign retained.
- - Indeed, the sums of the second group used to characterize the start of the second period have values located in the vicinity of the values of the first sums used. In the example implemented, the test is carried out with respect to threshold values:
- - When the result of this test is negative, a test on the value of the pointer "atest" is carried out, so as to increment the reading index i and to directly calculate the value of the current time without performing a test on the following value of the sum; indeed this next sum cannot constitute the beginning of the second period given its sign (atest is then equal to 2).
- - On the other hand, when the result of the test on the value of the sum is positive, the value of the corresponding sum can constitute the first sum a 2 p or a 2n of the second group, corresponding to the start of the second period, and the variable "atest" is incremented. Only the first of the two sums has been found and a test of the pointer "atest" compared to "4" allows to initiate a new test procedure since, at this time atest = 3. The same tests on the following value allow either to verify the same criteria, except for the sign, on the following sum, either to return to the start of test I after reinitialization when the duration criterion in relation to the maximum period is not verified or to the start of test II when the criterion duration is checked but not the criterion on the value of the sum. Then atest is brought back to the
value 2 because the previous sum retained cannot constitute the beginning of the second period since the following sum cannot be retained. - - When the two successive values have been found, the pointer "atest", which is again incremented, then has the value four; which indicates that the second test is complete. A final comparison of the difference between the value of the current time t 12p and the value of the current time t 12n (each of these two values can give a value of the melody period) makes it possible to verify that this difference is less than a difference of determined time, t pn ; ; this test ensures that the signal is regular enough to characterize a melody period and eliminates obvious errors. t pn can be chosen equal to 256 µS (i.e. 20 samples at 7.8 kHz). This difference between t 12 p and t 12n is also the difference between the first half-waves of the two groups selected.
Le test II est alors terminé et le test III, permettant de rechercher le début de la troisième période voisée, peut alors commencer.Test II is then finished and test III, making it possible to search for the start of the third voiced period, can then begin.
La figure 7 et la figure 8 représentent le test III qui permet, à partir du premier et du second groupe de sommes retenues, de rechercher le troisième groupe de sommes qui pourra caractériser ce début de troisième période ; l'acquisition de l'ensemble des valeurs de sommes retenues et les valeurs d'intervalles de temps correspondantes indique que le caractère voisé du signal est acquis et permet de calculer alors une valeur de la période de mélodie qui tient compte des intervalles de temps entre débuts de période.FIG. 7 and FIG. 8 represent the test III which makes it possible, from the first and the second group of sums retained, to search for the third group of sums which can characterize this beginning of the third period; the acquisition of all the values of sums retained and the values of corresponding time intervals indicates that the voiced character of the signal is acquired and makes it possible then to calculate a value of the melody period which takes account of the time intervals between beginning of period.
Avant de décrire le déroulement du test III, les différents tests qui y sont réalisés sont présentés ci-dessous.Before describing the course of test III, the various tests carried out there are presented below.
Comme pour les deux premiers tests, les valeurs de sommes a sont comparées à des valeurs de seuils ; ces valeurs de seuils S3p et S3n dépendent des sommes précédentes de même signe retenues de la façon suivante :
De plus, comme dans les deux premiers tests, les intervalles de temps courant (entre la somme retenue de même signe caractérisant le début de la seconde période et la somme en cours de test), t23p et t23n, sont comparés à des valeurs de durée définies de la façon suivante :
Tm caractérisant une période de mélodie minimum et e un écart de temps maximum toléré, sont des données préenregistrées. Les deux premiers tests, (1) et (2) sur la valeur du temps courant permettent de vérifier que le temps courant est assez long pour pouvoir constituer une période de mélodie. Le troisième est au contraire destiné à s'assurer que cette valeur de temps courant n'est pas trop grande.T m characterizing a minimum melody period and e a maximum tolerated time difference, are prerecorded data. The first two tests, (1) and (2) on the value of the current time verify that the current time is long enough to constitute a melody period. The third is on the contrary intended to ensure that this current time value is not too large.
Une condition supplémentaire de monotonie dans la progression des sommes est également requise afin d'éviter de détecter la demi- période. La figure 3 représente un segment de signal voisé qui, si cette condition supplémentaire n'était pas imposée, conduirait à une détection de fréquence double en retenant les sommes indiquées a1p et a1n, a2p et a 2n , et a 3p et a3n, alors que a2p et a2n correspondent à des alternances en milieu de période de mélodie. Cette condition de monotonie est :
- 1 a 2 - a1| + |a2 - a3| ≤ qmax, qmax étant une donnée préenregistrée, les sommes a1, a2 et a3 étant affectées des indices p ou n selon la branche du test en cours.
- 1 to 2 - to 1 | + | a 2 - a 3 | ≤ q max , q max being a prerecorded datum, the sums a 1 , a 2 and a 3 being assigned indices p or n depending on the branch of the test in progress.
Par ailleurs, pour se protéger contre des erreurs d'acquisition susceptibles de se produire dans une configuration de signal voisé telle que celle représentée sur la figure 4, où les milieux de période sont retenus au lieu des débuts de période (ce qui peut conduire à une perte de synchronisation en milieu de segment voisé ou à la détection ultérieure de demi- période, fréquence de mélodie double), une autre condition supplémentaire est imposée : cette condition est que des valeurs de sommes ai rejetées ne soient pas supérieures aux sommes précédentes de même signe retenues. Pour le segment voisé représenté sur la figure 4, alp , a 2p et a1n, a 2n seraient normalement retenues, mais la condition décrite ci-dessus mise en oeuvre dans le test III ne sera pas vérifiée car a'3p , rejetée par les critères de durée, est supérieure à a2p retenue. Dans ce cas, ce sont, les valeurs a' qui correspondent aux débuts de période, et auraient dû être retenues, et l'ensemble de la recherche est reprise depuis le début du test I.Furthermore, to protect against acquisition errors likely to occur in a voiced signal configuration such as that shown in FIG. 4, where the midpoints of the period are retained instead of the start of the period (which can lead to a loss of synchronization in the middle of a segment or at the subsequent detection of half a period, double melody frequency), another additional condition is imposed: this condition is that values of sums a i rejected are not greater than the previous sums same sign retained. For the voiced segment represented in FIG. 4, a l p, a 2 p and a 1n , a 2n would normally be retained, but the condition described above implemented in test III will not be verified because a'3p, rejected by the duration criteria, is greater than a 2 p retained. In this case, these are the values a 'which correspond to the start of the period, and should have been retained, and all of the research has been resumed since the start of test I.
Le déroulement du programme de test III est représenté sur les figures 7 et 8. Ces figures représentent également le déroulement du test IV utilisé lorsque le caractère voisé du signal est acquis pour vérifier que le caractère voisé se maintient. En effet, les séquences correspondant au troisième test, test III, et au quatrième test, test IV, ne diffèrent que par des branchements internes qui dépendent de la valeur du pointeur "atest", et par les valeurs de seuils auxquelles sont comparées les sommes a. en cours de test. Ces valeurs de seuils et le test correspondant sont définis de la façon suivante :
Ces conditions sont proches de celles du test III mais la tolérance sur les seuils est plus large (¾ et .non plus
Certaines branches de la séquence sont communes aux tests III et IV. De plus, celles qui, après test du pointeur "atest" correspondent à atest = 4 ou 5 sont des branches de test III et celles qui correspondent à atest = 6 ou 7 sont des branches de test IV. Pour simplifier les figures, seules les branches relatives aux sommes positives ont été représentées. Des branches négatives symétriques non détaillées correspondent aux branches positives détaillées sur ces figures. Elles ne diffèrent que par l'indice des variables et des seuils (n au lieu de p et le sens de la comparaison pour le test par rapport au seuil).Certain branches of the sequence are common to tests III and IV. In addition, those which, after testing the "atest" pointer correspond to atest = 4 or 5 are test branches III and those which correspond to atest = 6 or 7 are test branches IV. To simplify the figures, only the branches relating to positive sums have been shown. Non-detailed symmetrical negative branches correspond to the positive branches detailed in these figures. They differ only in the index of variables and thresholds (n instead of p and the direction of comparison for the test with respect to the threshold).
Le diagramme représenté comporte une première entrée, début test III, l, lorsque le caractère voisé n'est pas acquis ; une autre entrée, 2, début test IV, permet lorsque le caractère voisé est acquis, de réinitialiser les variables de test et d'actualiser les valeurs précédentes retenues a2 , a 3 et t 23 en a1, a2 et t12 (pour les valeurs positives et négatives) lorsque la recherche avance d'une période. Ce décalage apparaît sur la figure 9 qui représente un segment de signal voisé testé lors d'une phase de maintien (les anciennes valeurs sont mises entre parenthèses au-dessus des nouvelles valeurs). Puis dans une branche commune à test III et test IV, l'indice de lecture est incrémenté ; la somme a et l'intervalle de temps ti sont lus dans la mémoire. Un test sur le signe de la somme permet de choisir la branche de la procédure de test convenable. Dans la suite on suppose que la première somme retenue dans test I est positive, c'est-à-dire que la première somme testée dans test III est également positive. L'intervalle de temps courant t23p est calculé et cet intervalle de temps est testé.The diagram shown has a first entry, start of test III, l, when the voiced character is not acquired; another entry, 2, start test IV, allows when the voiced character is acquired, to reset the test variables and to update the previous values retained at 2 , a 3 and t 23 in a 1 , a 2 and t 12 ( for positive and negative values) when the search advances by a period. This offset appears in FIG. 9 which represents a voiced signal segment tested during a maintenance phase (the old values are put in parentheses above the new values). Then in a branch common to test III and test IV, the reading index is incremented; the sum a and the time interval t i are read from the memory. A test on the sign of the sum allows to choose the branch of the suitable test procedure. In the following it is assumed that the first sum retained in test I is positive, that is to say that the first sum tested in test III is also positive. The current time interval t 23 p is calculated and this time interval is tested.
Si cet intervalle est trop court pour pouvoir correspondre à une période de mélodie (t23p<t12p - e ou t23p<tmin) et que la somme en cours de test est cependant supérieure à a2p, les premières sommes retenues étaient mauvaises (figure 4) et toute la recherche est réinitialisée à partir du test I, car le caractère voisé n'était pas acquis (atest = 4). Par contre, si cette somme n'est pas supérieure à a2p , ce qui est le cas normal, le temps courant est actualisé et l'indice de lecture est incrémenté pour la lecture d'une valeur de temps ti, mise en mémoire dans le registre permettant de calculer le temps courant, et le temps courant est calculé. Puis le test est repris au niveau de la première incrémentation de l'indice de lecture (point 3), ce qui permet de tester l'alternance suivante de même signe.If this interval is too short to be able to correspond to a melody period (t 23p <t 12p - e or t 23p <t min ) and the sum under test is however greater than a 2p , the first sums retained were bad (Figure 4) and all the search is reset from test I, because the voiced character was not acquired (atest = 4). On the other hand, if this sum is not greater than a 2 p, which is the normal case, the current time is updated and the reading index is incremented for the reading of a time value t i , set memory in the register for calculating the current time, and the current time is calculated. Then the test is resumed at the level of the first increment of the reading index (point 3), which makes it possible to test the following alternation of the same sign.
Si l'intervalle de temps t23p n'est pas trop court mais au contraire qu'il dépasse la valeur t12p + e, toutes les variables sont réinitialisées et la recherche est reprise à partir du test I car le début d'une troisième période n'a pas été trouvé.If the time interval t 23 p is not too short but on the contrary that it exceeds the value t 12p + e, all the variables are reset and the search is resumed from test I because the beginning of a third period was not found.
Si l'intervalle de temps t23p n'est pas trop court et qu'en même temps il ne dépasse pas la valeur t12p + e, cet intervalle peut correspondre à la période de mélodie. En conséquence, le test sur la valeur de la somme par rapport au seuil Sp (S3p dans ce test III) est effectué. Si ce test n'est pas vérifié, la valeur du temps courant est actualisée, l'indice de lecture est incrémenté et l'intervalle de temps ti qui lui correspond est mis en mémoire. Le test de l'alternance suivante de même signe est entrepris par retour au point 3 du test.If the time interval t 23 p is not too short and at the same time it does not exceed the value t 12p + e, this interval may correspond to the melody period. Consequently, the test on the value of the sum with respect to the threshold S p (S 3p in this test III) is carried out. If this test is not verified, the value of the current time is updated, the reading index is incremented and the time interval t i which corresponds to it is stored in memory. The following alternation test of the same sign is undertaken by returning to
Lorsque la somme ai est supérieure au seuil la première somme a3 de la troisième période (a3p dans l'exemple retenu, "signe premier" étant positif) est trouvée à condition que le critère de monotonie entre les valeurs a1, a2 et a3 indiqué ci-dessus soit également vérifié. Alors que a3p = a.. Sinon le test est repris au début de test I.When the sum a i is greater than the threshold, the first sum a 3 of the third period (a 3 p in the example used, "first sign" being positive) is found provided that the criterion of monotony between the values a 1 , a 2 and a 3 indicated above be also checked. Whereas a 3p = a .. Otherwise the test is repeated at the start of test I.
La valeur de atest est alors incrémentée (atest = 5) (figure 8), puis cette valeur de atest est comparée à 6 et 8. Comme le test III n'est pas terminé, ce test est négatif. En reprenant le test III au point 3 il reste à vérifier par l'autre branche (branche négative dans l'exemple retenu) que l'énergie dans l'alternance suivante dépasse également le seuil qui lui est associé pour que cette somme puisse être retenue comme la seconde de la troisième période. Pour cela les mêmes tests sur l'intervalle de temps sont réalisés. Lorsque cet intervalle (t23n dans l'exemple retenu est trop court et que la somme a. en cours de test est supérieure à a2n, toute la recherche est réinitialisée à partir de test I, car le caractère voisé n'était pas acquis (atest = 5). Par contre si cette somme n'est pas supérieure à a2n, le temps courant est actualisé, la valeur de atest est ramenée à 4 et le test III reprend au point 3 sur la somme suivante pour recommencer la recherche du début de troisième période.The value of atest is then incremented (atest = 5) (Figure 8), then this value of atest is compared with 6 and 8. As test III is not finished, this test is negative. By repeating test III in
Si l'intervalle de temps (t23n) dépasse la valeur maximale, la recherche est réinitialisée à partir de test I. De même, si la valeur en cours de test ne dépasse pas le seuil correspondant S3n (comme lors d'un échec sur les deux premiers tests de durée) le temps courant est calculé, l'intervalle de temps t. est mis en mémoire et atest est ramené à 4 afin d'annuler la somme précédente retenue et de recommencer la recherche du début de troisième période. Après le test du critère de monotonie (retour au début de test I si ce critère n'est pas vérifié) atest étant égal à 5, un test sur "signe premier" est effectué. Ce test permet de s'assurer que la valeur sur le point d'être retenue (a3n dans l'exemple retenu) est bien de signe contraire par rapport à la première somme retenue.If the time interval (t 23n ) exceeds the maximum value, the search is reset from test I. Similarly, if the value under test does not exceed the corresponding threshold S 3n (as during a failure on the first two duration tests) the current time is calculated, the time interval t. is put in memory and atest is brought back to 4 in order to cancel the previous sum retained and to start again the search for the beginning of the third period. After the test of the monotony criterion (return to the start of test I if this criterion is not verified) atest being equal to 5, a "first sign" test is carried out. This test makes it possible to ensure that the value about to be retained (a 3n in the example retained) is indeed of opposite sign compared to the first sum retained.
Puis comme précédemment, le pointeur atest est incrémenté et atest est alors égal à 6. La deuxième alternance de la 3e période est trouvée. Le même critère que dans test II sur la différence des périodes débutant à des alternances de signes contraires est alors vérifié pour éliminer les erreurs évidentes: t23n - t23p |<tpn - (4). Si cette condition est vérifiée, la valeur de la période de mélodie est calculée :
Un nouveau test, qui est alors le quatrième test, est effectué (par aiguillage au point d'entrée 2, début test IV) pour rechercher si le caractère voisé du signal se maintient.A new test, which is then the fourth test, is carried out (by switching to
Si la condition (4) sur les intervalles de temps n'est pas vérifiée, la valeur de atest est diminuée de 2 et le test reprend au point 3.If condition (4) over the time intervals is not checked, the value of atest is reduced by 2 and the test is repeated at
Pour le quatrième test, la procédure de base est semblable à celle du troisième test mais des branches supplémentaires sont prévues afin que des configurations particulières de signaux qui ne satisfont pas toutes les conditions indiquées ci-dessus (ce qui conduirait pour le test III à un rejet définitif de l'alternance considérée) soient interprétées comme des signaux voisés lorsque le caractère voisé était précédemment acquis. Ces configurations particulières sont représentées sur la figure 10. Elles sont telles que l'une des alternances du début de la nième période, la première ou la seconde, qui peut être positive ou négative, a une énergie inférieure au seuil S4p ou S4n fixé, l'autre dépassant le seuil correspondant. Pour chacune de ces configurations, les valeurs des différentes variables utilisées pour le déroulement de la procédure sont indiquées sur la figure 10 à côté de la configuration correspondante.For the fourth test, the basic procedure is similar to that of the third test but additional branches are provided so that particular signal configurations which do not satisfy all the conditions indicated above (which would lead for test III to a definitive rejection of the alternation considered) are interpreted as voiced signals when the voiced character was previously acquired. These particular configurations are shown in FIG. 10. They are such that one of the alternations of the start of the n th period, the first or the second, which may be positive or negative, has an energy below the threshold S 4 p or S 4n fixed, the other exceeding the corresponding threshold. For each of these configurations, the values of the different variables used for the procedure are shown in Figure 10 next to the corresponding configuration.
Lorsque, atest étant égal à 6, la somme retenue a; est telle que
Lorsque, atest étant égal à 7, le signe de la somme en cours de test est celui attendu, ai < 0 et signe premier positif ou ai > 0 et signe premier négatif, mais que cette somme est inférieure en valeur absolue au seuil ou lorsque atest étant égal à 7, l'intervalle de temps courant est devenu trop grand, t23p> t12p + e ou t23n > t12n + e, seule la première somme de la nième période (respectivement a3p et a3n pour les cas 3 et 4) est retenue et la période de mélodie est alors égale à l'intervalle de temps correspondant, t23p ou t23n. Ces corrections sont très importantes car ces configurations particulières se produisent fréquemment et conduiraient si elles n'étaient pas prises en compte à une détection période double.When, atest being equal to 7, the sign of the sum being tested is that expected, a i <0 and positive prime sign or a i > 0 and negative prime sign, but this sum is less in absolute value at the threshold or when atest being equal to 7, the current time interval has become too large, t 23p > t 12p + e or t 23n > t 12n + e, only the first sum of the n th period (respectively a 3 p and a 3n for
La décision voisé - non voisé est effectuée directement à partir du résultat du test, par la valeur de la période. Lorsque la décision est demandée a un rythme différent de celui du test, au rythme trame (donné le compteur trame 34) par les impulsions d'interruption de sortie 15 appliquées au microprocesseur 40, la valeur de la période, résultat de la procédure de test, peut être corrigée en calculant une valeur moyenne. En effet la mesure de la valeur de la période de mélodie peut être donnée en temps réel ou avec une trame de retard, un registre de sortie étant prévu pour la mise en mémoire de la valeur courante de la période de mélodie à des instants convenablement choisis. Lorsqu'en cours de procédure de test, le test III ou le test IV échoue, ou lorsque aucun passage à zéro n'est détecté pendant une trame, ce.registre de sortie est remis à zéro.The voiced - unvoiced decision is made directly from the test result, by the value of the period. When the decision is requested at a rate different from that of the test, at the frame rate (given the frame counter 34) by the output interrupt
Cependant la logique de décision voisé - non voisé peut être un peu plus élaborée : Par exemple, un critère de durée supplémentaire est introduit de façon qu'un segment voisé soit toujours supérieur à 25 ms par exemple. De même un segment dont le procédé de détection indiquerait le caractère non voisé mais dont la durée serait inférieure à 25 ms est masqué par l'insertion de valeurs de mélodie interpolées à partir de celles évaluées sur des segments voisés adjacents.However, the voiced - unvoiced decision logic can be a little more elaborate: For example, an additional duration criterion is introduced so that a voiced segment is always greater than 25 ms for example. Likewise, a segment whose detection method would indicate the unvoiced character but whose duration would be less than 25 ms is masked by the insertion of melody values interpolated from those evaluated on adjacent voiced segments.
Le procédé de détection de la fréquence de mélodie décrit ci-dessus peut être exécuté avec un microprocesseur de performances modestes. Il a été mis en oeuvre lors de son étude sur un micro-ordinateur ROCKWELL,AIM 65, bâti autour d'un microprocesseur MPU 6502.The melody frequency detection method described above can be performed with a microprocessor of modest performance. It was implemented during its study on a ROCKWELL microcomputer, AIM 65, built around an MPU 6502 microprocessor.
La procédure de test décrite ci-dessus à titre d'exemple et le dispositif de détection qui lui est associé peuvent être modifiés sans pour autant sortir du cadre de l'invention.The test procedure described above by way of example and the detection device associated with it can be modified without departing from the scope of the invention.
Par exemple, le dispositif représenté sur la figure 1 comporte un circuit d'interface 42. Il est également possible d'utiliser deux circuits PIA d'interface, ceux-ci permettant éventuellement d'effectuer des interruptions supplémentaires et d'introduire plusieurs modes d'exécution, mode d'exécution en temps réel continu pour un système en cours d'exploitation, ou exécution lancée pour un certain nombre de trames lorsque le traitement est effectué sur des données enregistrées.For example, the device represented in FIG. 1 comprises an
Par ailleurs, les organigrammes des procédures de test décrits ci-dessus peuvent être modifiés, par exemple en modifiant l'ordre des tests élémentaires lorsque cela est possible, sans sortir du cadre de l'invention. De plus les valeurs de seuil indiquées ci-dessus à titre d'exemple peuvent également être choisies par exemple en fonction du type de voix (voix d'hommes et voix de femmes).Furthermore, the flowcharts of the test procedures described above can be modified, for example by modifying the order of the elementary tests when possible, without departing from the scope of the invention. In addition, the threshold values indicated above by way of example can also be chosen for example according to the type of voice (male voice and female voice).
Claims (10)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8023881 | 1980-11-07 | ||
FR8023881A FR2494017B1 (en) | 1980-11-07 | 1980-11-07 | METHOD FOR DETECTING THE MELODY FREQUENCY IN A SPEECH SIGNAL AND DEVICE FOR CARRYING OUT SAID METHOD |
Publications (2)
Publication Number | Publication Date |
---|---|
EP0052041A1 true EP0052041A1 (en) | 1982-05-19 |
EP0052041B1 EP0052041B1 (en) | 1986-01-02 |
Family
ID=9247815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP81401684A Expired EP0052041B1 (en) | 1980-11-07 | 1981-10-23 | Method and device for pitch period determination |
Country Status (4)
Country | Link |
---|---|
US (1) | US4443857A (en) |
EP (1) | EP0052041B1 (en) |
DE (1) | DE3173397D1 (en) |
FR (1) | FR2494017B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0092611A1 (en) * | 1982-04-27 | 1983-11-02 | Koninklijke Philips Electronics N.V. | Speech analysis system |
EP0292929A2 (en) * | 1987-05-29 | 1988-11-30 | Kozo Iizuka Director-General of Agency of Industrial Science and Technology | Method of feature extraction and recognition of voice and recognition apparatus |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2556476B1 (en) * | 1983-12-13 | 1987-12-18 | Thomson Csf | RADIOGONIOMETER WITH ARRIVAL TIME DEVICE, SINGLE-CHANNEL, SUITABLE FOR PROCESSING AMPLITUDE MODULATED SIGNALS OF TYPE A3J OR A1 |
US4764966A (en) * | 1985-10-11 | 1988-08-16 | International Business Machines Corporation | Method and apparatus for voice detection having adaptive sensitivity |
US5208861A (en) * | 1988-06-16 | 1993-05-04 | Yamaha Corporation | Pitch extraction apparatus for an acoustic signal waveform |
US5774862A (en) * | 1989-06-19 | 1998-06-30 | Ho; Kit-Fun | Computer communication system |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
DE19841683A1 (en) * | 1998-09-11 | 2000-05-11 | Hans Kull | Device and method for digital speech processing |
CN104978971B (en) * | 2014-04-08 | 2019-04-05 | 科大讯飞股份有限公司 | A kind of method and system for evaluating spoken language |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1170306A (en) * | 1967-11-16 | 1969-11-12 | Standard Telephones Cables Ltd | Apparatus for Analysing Complex Waveforms |
JPS5712999B2 (en) * | 1974-04-08 | 1982-03-13 | ||
US4015088A (en) * | 1975-10-31 | 1977-03-29 | Bell Telephone Laboratories, Incorporated | Real-time speech analyzer |
US4061878A (en) * | 1976-05-10 | 1977-12-06 | Universite De Sherbrooke | Method and apparatus for speech detection of PCM multiplexed voice channels |
-
1980
- 1980-11-07 FR FR8023881A patent/FR2494017B1/en not_active Expired
-
1981
- 1981-10-23 DE DE8181401684T patent/DE3173397D1/en not_active Expired
- 1981-10-23 EP EP81401684A patent/EP0052041B1/en not_active Expired
- 1981-11-04 US US06/318,135 patent/US4443857A/en not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
Electronics Letters, Vol. 14, No. 4, 16 Fevrier 1978 Stevenage (GB) N.R. MALIK et al.: "Adaptive Instantaneous Pitch Detector with Microcomputer Error Correction", pages 109-110. * "Hardware" et "Software" * * |
IEEE Transactions on Communication Technology, Vol. COM-18, No. 4, Aout 1970 New York (US) T. BIALLY et al.: "A Digital Channel Vocoder", pages 435-441. * pages 438,439: "Pitch Detector" * * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0092611A1 (en) * | 1982-04-27 | 1983-11-02 | Koninklijke Philips Electronics N.V. | Speech analysis system |
EP0292929A2 (en) * | 1987-05-29 | 1988-11-30 | Kozo Iizuka Director-General of Agency of Industrial Science and Technology | Method of feature extraction and recognition of voice and recognition apparatus |
EP0292929A3 (en) * | 1987-05-29 | 1990-02-14 | Agency Ind Science Techn | Method of feature extraction and recognition of voice and recognition apparatus |
Also Published As
Publication number | Publication date |
---|---|
FR2494017B1 (en) | 1985-10-25 |
EP0052041B1 (en) | 1986-01-02 |
US4443857A (en) | 1984-04-17 |
DE3173397D1 (en) | 1986-02-13 |
FR2494017A1 (en) | 1982-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0867856B1 (en) | Method and apparatus for vocal activity detection | |
EP0052041B1 (en) | Method and device for pitch period determination | |
FR2522179A1 (en) | METHOD AND APPARATUS FOR RECOGNIZING WORDS FOR RECOGNIZING PARTICULAR PHONEMES OF THE VOICE SIGNAL WHATEVER THE PERSON WHO SPEAKS | |
EP0363233B1 (en) | Method and apparatus for speech synthesis by wave form overlapping and adding | |
FR2495330A1 (en) | PERIOD MEASURING SYSTEM | |
BE1010336A3 (en) | Synthesis method of its. | |
EP0027066B1 (en) | Device for detecting speech signals and transmit-receive switching system comprising such a device | |
EP1451548A2 (en) | Speech detection system in an audio signal in noisy surrounding | |
CA1174383A (en) | Speech detection in a telephone circuit signal | |
EP0071505B1 (en) | Method and device for sampling a sinusoidal signal by a frequency-multiplied signal | |
FR2846458A1 (en) | METHOD FOR AUTOMATIC PROCESSING OF A SPOKEN SIGNAL. | |
Kim et al. | Pitch detection with average magnitude difference function using adaptive threshold algorithm for estimating shimmer and jitter | |
EP1021805B1 (en) | Method and apparatus for conditioning a digital speech signal | |
EP0148672B1 (en) | Single-channel radio direction finder using the difference in time of arrival and adapted to process amplitude-modulated signals of the a3j or a1 type | |
FR2944909A1 (en) | Detection device for use in surveillance system to detect events in audio flow, has regrouping unit regrouping time intervals, and signaling unit signaling detection of events when rhythmic patterns are identified | |
FR3039026A1 (en) | METHOD FOR TRANSMITTING INFORMATION TO BE RECORDED | |
FR2684226A1 (en) | METHOD AND DEVICE FOR VOTING DECISION FOR VOCODER AT VERY LOW RATE. | |
CA2019774C (en) | Device for detecting in a binary signal a pointer consisting of a continuous sequence of binary elements having the same value | |
WO2021239280A1 (en) | System for identifying a speaker | |
EP4287648A1 (en) | Electronic device and associated processing method, acoustic apparatus and computer program | |
JP3288052B2 (en) | Fundamental frequency extraction method | |
JPS58209799A (en) | Voice message identification system | |
FR2751776A1 (en) | METHOD OF EXTRACTING THE BASIC FREQUENCY OF A SPEECH SIGNAL | |
FR2691829A1 (en) | Speech recognition system using neural network and fuzzy logic processing | |
FR2581465A1 (en) | METHOD AND DEVICE FOR CONTROLLING PROCESSES BY SOUND |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Designated state(s): DE GB SE |
|
17P | Request for examination filed |
Effective date: 19821004 |
|
RBV | Designated contracting states (corrected) |
Designated state(s): DE GB |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Designated state(s): DE GB |
|
REF | Corresponds to: |
Ref document number: 3173397 Country of ref document: DE Date of ref document: 19860213 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed | ||
REG | Reference to a national code |
Ref country code: GB Ref legal event code: 746 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 19920917 Year of fee payment: 12 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 19920918 Year of fee payment: 12 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Effective date: 19931023 |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 19931023 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Effective date: 19940701 |