EP4287648A1 - Electronic device and associated processing method, acoustic apparatus and computer program - Google Patents
Electronic device and associated processing method, acoustic apparatus and computer program Download PDFInfo
- Publication number
- EP4287648A1 EP4287648A1 EP23175647.9A EP23175647A EP4287648A1 EP 4287648 A1 EP4287648 A1 EP 4287648A1 EP 23175647 A EP23175647 A EP 23175647A EP 4287648 A1 EP4287648 A1 EP 4287648A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- voice
- module
- noise
- hybrid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000004590 computer program Methods 0.000 title claims description 7
- 238000012545 processing Methods 0.000 claims abstract description 65
- 238000009396 hybridization Methods 0.000 claims abstract description 41
- 230000009467 reduction Effects 0.000 claims abstract description 29
- 230000003595 spectral effect Effects 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims description 61
- 238000001514 detection method Methods 0.000 claims description 57
- 206010002953 Aphonia Diseases 0.000 claims description 30
- 210000000988 bone and bone Anatomy 0.000 claims description 29
- 230000005284 excitation Effects 0.000 claims description 22
- 230000001131 transforming effect Effects 0.000 claims description 18
- 230000005236 sound signal Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 11
- 210000001260 vocal cord Anatomy 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 4
- 238000011282 treatment Methods 0.000 claims description 3
- 230000010355 oscillation Effects 0.000 claims 6
- 238000001228 spectrum Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 11
- 238000005070 sampling Methods 0.000 description 8
- 230000001681 protective effect Effects 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 210000003625 skull Anatomy 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241000251556 Chordata Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012885 constant function Methods 0.000 description 2
- ALEXXDVDDISNDU-JZYPGELDSA-N cortisol 21-acetate Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@@](C(=O)COC(=O)C)(O)[C@@]1(C)C[C@@H]2O ALEXXDVDDISNDU-JZYPGELDSA-N 0.000 description 2
- 235000021183 entrée Nutrition 0.000 description 2
- 230000036039 immunity Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 241000861223 Issus Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 210000000860 cochlear nerve Anatomy 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 229940082150 encore Drugs 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/46—Special adaptations for use as contact microphones, e.g. on musical instrument, on stethoscope
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R11/00—Transducers of moving-armature or moving-core type
- H04R11/02—Loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1008—Earpieces of the supra-aural or circum-aural type
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/10—Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
- H04R2201/107—Monophonic and stereophonic headphones with microphone for two-way hands free communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/05—Noise reduction with a separate noise microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
Definitions
- the present invention relates to an electronic processing device for an acoustic apparatus.
- the presence or absence of voice is preferably still determined from the second signal from the osteophonic transducer, the presence or absence of voice being better detectable in a signal coming from an osteophonic microphone, rather than in a signal coming from from an overhead microphone.
- the acoustic device further comprises two lateral acoustic modules resting on the lateral sides of the skull and capable of transmitting a sound signal to the auditory nerve.
- the invention also relates to a computer program comprising software instructions which, when executed by a computer, implement a processing method as defined above.
- the expression “substantially equal to” defines a relationship of equality of plus or minus 20%, more preferably more or less 10%, more preferably more or less 5%. .
- an acoustic device 10 comprises a first microphone 12, also called an aerial microphone, capable of receiving acoustic sound waves and transforming them into a first electrical signal, such as a first analog signal, and a second microphone 14, also called microphone osteophonic or even solid-body microphone, capable of receiving vibratory oscillations by bone conduction and transforming them into a second electrical signal, such as a second analog signal.
- a first microphone 12 also called an aerial microphone
- a second microphone 14 also called microphone osteophonic or even solid-body microphone, capable of receiving vibratory oscillations by bone conduction and transforming them into a second electrical signal, such as a second analog signal.
- the acoustic apparatus 10 comprises a protective housing 18 and a processing device 20 disposed within the protective housing 18, the processing device 20 being connected to the first microphone 12 and the second microphone 14, and configured to receive in input the first and second analog signals and output a corrected signal in which the noise has been reduced.
- the acoustic device 10 also comprises two side acoustic modules 22, an upper arch 24, a rear arch 26 for connecting the acoustic modules and a connection cable 27, the connection cable 27 being equipped at its end with a connector, not shown.
- the side acoustic modules 22, the upper arch 24, the rear arch 26 and the connection cable 27 are known per se, for example from the document FR 3 019 422 B1 .
- the second microphone 14 is also known, for example from the document FR 3 019 422 B1 , and comprises a transducer with mechanical bone excitation, not shown, capable of receiving by bone conduction, in particular through a corresponding bone of the skull, the vibration waves of the sound signal coming from the vocal cords of the user and of transforming it into the second electrical signal.
- the bone mechanical excitation transducer is also called osteophonic transducer, or solid-body transducer.
- the second microphone 14 is also connected to the input of the processing device 20.
- the first microphone 12 and the second microphone 14 are not arranged in the protective housing 18, but are arranged in an additional housing 28, the additional housing 28 being connected to one of the two acoustic modules 22 by two connecting arms 29.
- the electroacoustic transducer and the mechanical bone excitation transducer are then each arranged in the additional housing 28.
- This additional housing 28 is preferably intended to be applied in contact with the right side of the user's skull, and is then preferably connected to the right acoustic module 22.
- the second microphone 14 is not placed in the protective housing 18, but is arranged in another additional housing, the other additional housing being connected to one of the two acoustic modules 22 by two connecting arms.
- the bone mechanical excitation transducer of the second microphone is then placed in the other additional housing.
- This other additional housing is preferably intended to be applied in contact with the right side of the user's skull, and is then preferably connected to the right acoustic module 22.
- the first microphone 12 comprises a protuberance, for example made integrally with the protective housing 18.
- the second microphone 14 in particular its bone mechanical excitation transducer, is arranged inside the protective housing 18 .
- the electronic processing device 20 further comprises a voice activity detection module 36 connected to the hybridization module 30.
- the hybridization module 30, the estimation module 32, the noise reduction module 34, as well as in optional addition the voice activity detection module 36 are each produced in the form of software, or of a software brick, executable by the processor 44.
- the memory 42 of the processing device 20 is then capable of storing software for hybridizing the first and second analog signals into a hybrid signal, software for estimating the noise in the hybrid signal, and noise reduction software in the hybrid signal, as well as in optional addition voice activity detection software in the hybrid signal.
- the processor 44 is then capable of executing each of the software programs among the hybridization software, the estimation software and the noise reduction software, as well as in optional addition the voice activity detection software.
- the hybridization module 30, the estimation module 32, the noise reduction module 34, as well as in optional addition the voice activity detection module 36 are each produced in the form of a programmable logic component, such as an FPGA ( Field Programmable Gate Array ) , or an integrated circuit, such as an ASIC ( Application Specifies Integrated Circuit ) .
- a programmable logic component such as an FPGA ( Field Programmable Gate Array )
- an integrated circuit such as an ASIC ( Application Specifies Integrated Circuit ) .
- the electronic processing device 20 When the electronic processing device 20 is produced in the form of one or more software programs, that is to say in the form of a computer program, also called a computer program product, it is also capable of being recorded on a medium, not shown, readable by computer.
- the computer-readable medium is for example a medium capable of storing electronic instructions and of being coupled to a bus of a computer system.
- the readable medium is an optical disk, a magneto-optical disk, a ROM memory, a RAM memory, any type of non-volatile memory (for example EPROM, EEPROM, FLASH, NVRAM), a magnetic card or an optical card.
- a computer program comprising software instructions is then stored on the readable medium.
- the hybridization module 30 is for example configured to obtain a first filtered signal by applying to the first signal a first filter associated with a first frequency range; to obtain a second filtered signal by applying to the second signal a second filter associated with a second frequency range; then to calculate the signal hybrid by summing the first filtered signal and the second filtered signal, the second frequency range being distinct from the first frequency range.
- the first frequency range typically includes frequencies higher than those of the second frequency range; the first and second frequency ranges being for example disjoint.
- the hybridization module 30 is also configured to convert the second analog signal into a second digital signal, as the second analog signal is received, and to generate second successive sections from the second signal. digital.
- the hybridization module 30 is then configured to calculate hybrid sections of the hybrid signal gradually, from the first and second sections generated; the corrected signal then being calculated from said hybrid sections.
- the hybridization module 30 further comprises a second time-frequency converter 62, connected to the output of the second analog-digital converter 60 and configured to calculate a second spectrum X ⁇ k ost of the second digital signal x k ost , typically via a Fourier transform, such as the fast Fourier transform, or FFT.
- the hybridization module 30 then comprises a second filtering unit 64, connected to the output of the second time-frequency converter 62 and configured to apply the second filter, typically the Gaussian low-pass filter with a cutoff frequency f c substantially equal to 1000 Hz, to obtain the second filtered signal X ⁇ k ost B.F. .
- the hybridization module 30 also includes an adder 70, also called an adder, connected at the output of the first filtering unit 54, and the second filtering unit 64, and configured to sum the first signal filtered X ⁇ k air HF and the second filtered signal X ⁇ k ost B.F. in order to obtain the hybrid signal X ⁇ k hyb .
- an adder 70 also called an adder
- An overlap rate then corresponds to a ratio, within each new first section, between the number of samples from the previous first section used and the total number of samples from the first section, that is to say from the new first segment generated; or respectively to the ratio, within each new second section, between the number of samples from the previous second section used and the total number of samples from the second section.
- the overlap rate is for example between 50% and 75%, that is to say between 0.5 and 0.75. In other words, within each new first section, between half and three-quarters of the last samples from the previous first section are used; and similarly within each new second section, between half and three-quarters of the last samples from the previous second section are used. This overlap between sections is illustrated in Figure 3 .
- the overlap rate is substantially equal to 50%, and that the section x' k-1 then comprises 50% of samples from the previous section, corresponding to the last half of the section x k- 2 in this example; and 50% new samples, corresponding to the first half of the section x k-1 in this example.
- the estimation module 32 is configured to estimate noise in the hybrid signal.
- the noise reduction module 34 comprises a generalized spectral subtraction unit 80, also called SSG unit 80, capable of implementing the generalized spectral subtraction algorithm.
- the function ⁇ k [m] will be a piecewise constant function, where each chunk will correspond to a frequency band determined by the user.
- the noise reduction module 34 further comprises a frequency-time converter 82, connected to the output of the generalized spectral subtraction unit 80, and configured to calculate a time signal from the frequency signal coming from the SSG unit 80 , typically via an inverse Fourier transform, such as an inverse fast Fourier transform, also denoted IFFT ( Inverse Fast Fourier Transform ) .
- IFFT Inverse Fast Fourier Transform
- the voice activity detection module 36 is configured to determine a presence of voice or an absence of voice in each section of the hybrid signal.
- the voice activity detection module 36 is for example configured to determine the presence of voice or the absence of voice from the second signal from the bone mechanical excitation transducer; and preferably only from said second signal, without taking into account the first signal.
- the detection of voice activity is then carried out after filtering in the frequency domain (also operating in the time domain) of the solid-body signal.
- the voice activity detection module 36 is then preferably configured to determine the presence of voice or the absence of voice from the second filtered signal from the second filtered signal. X ⁇ k ost B.F. from the second filtering unit 64.
- the voice activity detection module 36 is configured to calculate an RMS value for each section of the second signal, i.e. for each second section; then to determine the presence of voice or absence of voice based on respective RMS values.
- the processing is based on the calculation of the signal energy section by section. However here, thanks to the noise-immune nature of the filtered solid-state microphone signal, the energy of the voice will emerge all the time from the noise floor energy. Calculating the RMS level then allows us to know the energy of the signal.
- the effective value, also called RMS value (from the English Root Mean Square, meaning square mean), of a periodic signal is the square root of the average of the square of this quantity, over a time interval given or the square root of the moment of order two (or variance) of the signal.
- the voice activity detection module 36 is configured to determine the presence of voices or the absence of voices based on an average value of M last calculated RMS values, also called smoothed RMS, and/or of a variation in RMS value between a current RMS value and a previous RMS value, also called rate of variation of the RMS level, with M an integer greater than or equal to 1.
- threshold values A and B are predefined as a function of the dynamics of the acoustic device 10, for example as a function of the gain of the microphone concerned, in particular of the second microphone 14, etc.
- the sampling frequency is preferably less than 22,050 Hz, allowing a bandwidth in the interval [0; 11,025 Hz]. Consequently, to have signal sections of approximately 20 ms at this sampling frequency, these must typically contain 512 samples.
- the processing applied to the signal to reduce noise is largely carried out in the frequency domain, which is more suitable for denoising because the aim is to reduce the level in the frequency bands containing the most noise.
- problems of discontinuities and inaccuracies can appear from one section to another, and an overlap of sections, with an overlap rate preferably greater than 50%, ideally equal to 75%, as described above, is then advantageously used to attenuate them.
- the processing device 20 calculates, via its hybridization module 30, the hybrid signal from the first and second analog signals, coming from the first and second microphones 12, 14, in the manner described previously.
- the processing device 20 determines, via its voice activity detection module 36, a presence of voice or an absence of voice in each section of the hybrid signal, in the manner described above.
- the processing device 20 then estimates, during the next step 120 and via its estimation module 32, the noise in the hybrid signal, obtained previously during the hybridization step 100, in the manner described above.
- the noise is then, during the estimation step 120, estimated in the hybrid signal according to each section with a determined absence of voice, in the manner described previously.
- the processing method is in real time or near real time, with a latency of approximately 20 to 30 ms, and block processing, applied section by section to the input signal.
- step 130 the processing process returns to the initial step 100, and more generally, each of the steps 100, optionally 110, 120 and 130 is repeated regularly in order to be implemented for each successive signal section.
- curve 200 then represents an example with a signal coming from an aerial recording of a speaker speaking in a highly noisy environment (vehicle noise at more than 90 db(A)).
- vehicle noise at more than 90 db(A) vehicle noise at more than 90 db(A)
- the 250 curve at the figure 5 presents the same signal after the implementation of the processing device 20 according to the invention.
- the noise is greatly attenuated with the processing device 20 according to the invention, while observing that the parts corresponding to the voice are clearly visible and then have good intelligibility.
- FIG 8 illustrates the implementation of the processing device 20 according to the invention, and in particular the detection of vocal activity according to the invention from the second signal coming from the transducer with mechanical bone excitation, this on the same recording as that used for the examples of figures 6 And 7 , but with the second osteophonic microphone 14, and then the use of the generalized spectral subtraction algorithm.
- the curve 520 represents the RMS level of this signal coming from the second osteophonic microphone 14 over time with the threshold level to be exceeded for decision-making, the threshold level being represented by the horizontal line 530 in dotted line.
- Curve 540 corresponds to the algorithm's estimation of the RMS level of the background noise in the phases where the detection of voice activity has determined an absence of voice.
- the signal sent to the interlocutor would be, without implementation work of the invention, altered by the unwanted capture of a portion of background noise.
- the electronic processing device 20 according to the invention makes it possible to reduce the presence of this background noise in the signal sent to the interlocutor, and in particular to filter the voice from this noise, in order to aim to send only the signal useful to the interlocutor via the radio.
- results obtained with the electronic processing device 20 according to the invention in particular those presented above with regard to the figures 5 And 8 , further show the synergy between the detection of vocal activity based on the capture of a signal via the second osteophonic microphone 14 and the reduction of noise via the generalized spectral subtraction algorithm.
- This synergy allows for very good precision regarding vocal activity, which allows the noise spectrum to be updated effectively.
- the results obtained with the generalized spectral subtraction algorithm are then improved, while using a limited number of calculation operations.
- the electronic processing device 20, and the associated processing method make it possible to further improve the reduction of noise in the signal delivered at the output of the acoustic device 10.
Abstract
Ce dispositif électronique de traitement (20) pour un appareil acoustique (10) comportant un premier microphone (12) aérien et un deuxième microphone (14) ostéophonique, est configuré pour être connecté aux premier et deuxième microphones (12,14), pour recevoir en entrée des premier, et respectivement deuxième, signaux analogiques issus des premier, et respectivement deuxième, microphones (12,14) et pour délivrer en sortie un signal corrigé.Le dispositif de traitement (20) comprend :- un module d'hybridation (30) configuré pour calculer un signal hybride à partir des premier et deuxième signaux analogiques ;- un module d'estimation (32) configuré pour estimer un bruit dans le signal hybride ;- un module de réduction de bruit (34) configuré pour calculer le signal corrigé en appliquant un algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé.This electronic processing device (20) for an acoustic device (10) comprising a first aerial microphone (12) and a second osteophonic microphone (14), is configured to be connected to the first and second microphones (12,14), to receive as input to the first, and respectively second, analog signals coming from the first, and respectively second, microphones (12,14) and to deliver a corrected signal at the output. The processing device (20) comprises: - a hybridization module ( 30) configured to calculate a hybrid signal from the first and second analog signals; - an estimation module (32) configured to estimate noise in the hybrid signal; - a noise reduction module (34) configured to calculate the signal corrected by applying a generalized spectral subtraction algorithm to the hybrid signal and as a function of the estimated noise.
Description
La présente invention concerne un dispositif électronique de traitement pour un appareil acoustique.The present invention relates to an electronic processing device for an acoustic apparatus.
L'invention concerne également un appareil acoustique comprenant un premier microphone comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d'un signal sonore issu de cordes vocales d'un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ; un deuxième microphone comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique ; et un tel dispositif électronique de traitement connecté aux premier et deuxième microphones, le dispositif de traitement étant configuré pour recevoir en entrée les premier et deuxième signaux analogiques, puis pour délivrer en sortie un signal corrigé.The invention also relates to an acoustic apparatus comprising a first microphone comprising an electroacoustic transducer capable of receiving acoustic sound waves of a sound signal coming from a user's vocal cords and of transforming said acoustic waves into a first analog signal; a second microphone comprising a transducer with mechanical bone excitation capable of receiving by bone conduction vibrational oscillations of said sound signal and of transforming said vibrational oscillations into a second analog signal; and such an electronic processing device connected to the first and second microphones, the processing device being configured to receive the first and second analog signals as input, then to output a corrected signal.
Le dispositif électronique de traitement comprend un module d'hybridation configuré pour calculer un signal hybride à partir des premier et deuxième signaux analogiques.The electronic processing device includes a hybridization module configured to calculate a hybrid signal from the first and second analog signals.
L'invention concerne aussi un procédé de traitement mis en oeuvre par un tel dispositif électronique de traitement ; ainsi qu'un programme d'ordinateur comportant des instructions logicielles qui, lorsqu'elles sont exécutées par un ordinateur, mettent en oeuvre un tel procédé de traitement.The invention also relates to a processing method implemented by such an electronic processing device; as well as a computer program comprising software instructions which, when executed by a computer, implement such a processing method.
On connaît du document
Toutefois, avec un tel appareil acoustique, la réduction de bruit n'est pas toujours optimale, et il subsiste parfois du bruit de fond relativement élevé dans le signal délivré en sortie de l'appareil acoustique.However, with such an acoustic device, the noise reduction is not always optimal, and there is sometimes relatively high background noise in the signal delivered at the output of the acoustic device.
Le but de l'invention est alors de proposer un dispositif électronique de traitement, et un procédé de traitement associé, permettant d'améliorer encore la réduction du bruit dans le signal délivré en sortie de l'appareil acoustique, c'est-à-dire de réduire la présence de bruit dans ledit signal.The aim of the invention is then to propose an electronic processing device, and an associated processing method, making it possible to further improve the reduction of noise in the signal delivered at the output of the acoustic device, that is to say say to reduce the presence of noise in said signal.
A cet effet, l'invention a pour objet un dispositif électronique de traitement pour un appareil acoustique,
- l'appareil acoustique comprenant un premier microphone comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d'un signal sonore issu de cordes vocales d'un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ; et un deuxième microphone comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique,
- le dispositif électronique de traitement étant configuré pour être connecté aux premier et deuxième microphones, pour recevoir en entrée les premier et deuxième signaux analogiques et pour délivrer en sortie un signal corrigé,
- le dispositif électronique de traitement comprenant :
- un module d'hybridation configuré pour calculer un signal hybride à partir des premier et deuxième signaux analogiques ;
- un module d'estimation connecté au module d'hybridation et configuré pour estimer un bruit dans le signal hybride ; et
- un module de réduction de bruit connecté au module d'hybridation et au module d'estimation, le module de réduction de bruit étant configuré pour calculer le signal corrigé en appliquant un algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé.
- the acoustic apparatus comprising a first microphone comprising an electroacoustic transducer capable of receiving acoustic sound waves of a sound signal coming from a user's vocal cords and of transforming said acoustic waves into a first analog signal; and a second microphone comprising a transducer with mechanical bone excitation capable of receiving by bone conduction vibrational oscillations of said sound signal and of transforming said vibrational oscillations into a second analog signal,
- the electronic processing device being configured to be connected to the first and second microphones, to receive the first and second analog signals as input and to output a corrected signal,
- the electronic processing device comprising:
- a hybridization module configured to calculate a hybrid signal from the first and second analog signals;
- an estimation module connected to the hybridization module and configured to estimate noise in the hybrid signal; And
- a noise reduction module connected to the hybridization module and to the estimation module, the noise reduction module being configured to calculate the corrected signal by applying a generalized spectral subtraction algorithm to the hybrid signal and as a function of the estimated noise.
Avec le dispositif électronique de traitement selon l'invention, le fait d'estimer le bruit dans le signal hybride calculé à partir des premier et deuxième signaux analogiques, c'est-à-dire dans le signal hybride obtenu à partir des signaux issus d'une part du transducteur électroacoustique, ou aérien, et d'autre part du transducteur à excitation mécanique osseuse, également appelé transducteur ostéophonique, ou encore solidien, permet d'avoir une estimation plus précise du bruit, puis ensuite d'obtenir - via le module de réduction du bruit - un meilleur signal corrigé en appliquant l'algorithme de soustraction spectrale généralisée au signal de hybride et en fonction du bruit ainsi estimé.With the electronic processing device according to the invention, the fact of estimating the noise in the hybrid signal calculated from the first and second analog signals, that is to say in the hybrid signal obtained from the signals resulting from 'on the one hand the electroacoustic, or aerial, transducer, and on the other hand the transducer with mechanical bone excitation, also called osteophonic, or even solidian, transducer, makes it possible to have a more precise estimate of the noise, then to obtain - via the noise reduction module - a better signal corrected by applying the generalized spectral subtraction algorithm to the hybrid signal and based on the noise thus estimated.
De préférence, le signal hybride comporte plusieurs tronçons successifs, chaque tronçon correspondant au signal hybride au cours d'une période temporelle, et le dispositif de traitement comporte en outre un module de détection d'activité vocale apte à déterminer si chaque tronçon du signal hybride comporte une présence de voix ou non, le module d'estimation étant alors configuré pour estimer le bruit dans le signal hybride seulement à partir de chaque tronçon sans voix.Preferably, the hybrid signal comprises several successive sections, each section corresponding to the hybrid signal during a time period, and the device processing further comprises a voice activity detection module capable of determining whether each section of the hybrid signal includes a presence of voice or not, the estimation module then being configured to estimate the noise in the hybrid signal only from every voiceless stretch.
La présence ou l'absence de voix est de préférence encore déterminée à partir du deuxième signal issu du transducteur ostéophonique, la présence ou l'absence de voix étant mieux détectable dans un signal provenant d'un microphone ostéophonique, plutôt que dans un signal provenant d'un microphone aérien.The presence or absence of voice is preferably still determined from the second signal from the osteophonic transducer, the presence or absence of voice being better detectable in a signal coming from an osteophonic microphone, rather than in a signal coming from from an overhead microphone.
Suivant d'autres aspects avantageux de l'invention, le dispositif électronique de traitement comprend une ou plusieurs des caractéristiques suivantes, prises isolément ou suivant toutes les combinaisons techniquement possibles :
- le signal hybride comporte plusieurs tronçons successifs, et le dispositif comprend en outre un module de détection d'activité vocale connecté au module d'hybridation et configuré pour déterminer une présence de voix ou une absence de voix dans chaque tronçon du signal hybride ; le module d'estimation étant alors configuré pour estimer le bruit dans le signal hybride en fonction de chaque tronçon avec une absence déterminée de voix ;
- le module de détection d'activité vocale est configuré pour déterminer la présence de voix ou l'absence de voix à partir du deuxième signal issu du transducteur à excitation mécanique osseuse ;
le module de détection d'activité vocale étant de préférence configuré pour déterminer la présence de voix ou l'absence de voix uniquement à partir du deuxième signal, sans prise en compte du premier signal ; - le deuxième signal comporte plusieurs tronçons successifs, et le module de détection d'activité vocale est configuré pour calculer une valeur RMS pour chaque tronçon du deuxième signal, puis pour déterminer la présence de voix ou l'absence de voix en fonction de valeur(s) RMS respective(s) ;
- le module de détection d'activité vocale est configuré pour déterminer la présence de voix ou l'absence de voix en fonction d'une valeur moyenne de M dernière(s) valeur(s) RMS calculée(s) et/ou d'une variation de valeur RMS entre une valeur RMS courante et une valeur RMS précédente, M étant un nombre entier supérieur ou égal à 1 ;
le module de détection d'activité vocale étant de préférence configuré pour déterminer la présence de voix si ladite valeur moyenne est supérieure ou égale à un seuil prédéfini de moyenne ou si ladite variation de valeur RMS est supérieure ou égale à un seuil prédéfini de variation ; - le module d'hybridation est configuré pour convertir le premier signal analogique en un premier signal numérique, au fur et à mesure de la réception du premier signal analogique, et pour générer des premiers tronçons successifs à partir du premier signal numérique, chaque nouveau premier tronçon généré comportant des échantillons d'un premier tronçon précédent et de nouveaux échantillons du premier signal numérique ; et
- le module d'hybridation est configuré pour convertir le deuxième signal analogique en un deuxième signal numérique, au fur et à mesure de la réception du deuxième signal analogique, et pour générer des deuxièmes tronçons successifs à partir du deuxième signal numérique, chaque nouveau deuxième tronçon généré comportant des échantillons d'un deuxième tronçon précédent et de nouveaux échantillons du deuxième signal numérique ;
- des tronçons hybrides du signal hybride étant alors calculés au fur et à mesure à partir des premiers et deuxièmes tronçons générés ; le signal corrigé étant ensuite calculé à partir desdits tronçons hybrides ;
- le module d'hybridation est configuré pour obtenir un premier signal filtré en appliquant au premier signal un premier filtre associé à une première plage de fréquences ; pour obtenir un deuxième signal filtré en appliquant au deuxième signal un deuxième filtre associé à une deuxième plage de fréquences ; puis pour calculer le signal hybride en sommant le premier signal filtré et le deuxième signal filtré, la deuxième plage de fréquences étant distincte de la première plage de fréquences ;
- la première plage de fréquences comportant de préférence des fréquences supérieures à celles de la deuxième plage de fréquences ;
- les première et deuxième plages de fréquences étant de préférence encore disjointes.
- the hybrid signal comprises several successive sections, and the device further comprises a voice activity detection module connected to the hybridization module and configured to determine a presence of voice or an absence of voice in each section of the hybrid signal; the estimation module then being configured to estimate the noise in the hybrid signal as a function of each section with a determined absence of voice;
- the voice activity detection module is configured to determine the presence of voice or the absence of voice from the second signal from the bone mechanical excitation transducer;
the voice activity detection module being preferably configured to determine the presence of voice or the absence of voice solely from the second signal, without taking into account the first signal; - the second signal comprises several successive sections, and the voice activity detection module is configured to calculate an RMS value for each section of the second signal, then to determine the presence of voice or the absence of voice as a function of value(s ) respective RMS(s);
- the voice activity detection module is configured to determine the presence of voices or the absence of voices based on an average value of M last calculated RMS value(s) and/or a variation in RMS value between a current RMS value and a previous RMS value, M being an integer greater than or equal to 1;
the voice activity detection module being preferably configured to determine the presence of voices if said average value is greater than or equal to a predefined average threshold or if said RMS value variation is greater than or equal to a predefined variation threshold; - the hybridization module is configured to convert the first analog signal into a first digital signal, as the first analog signal is received, and to generate successive first sections from the first digital signal, each new first section generated comprising samples of a first previous section and new samples of the first digital signal; And
- the hybridization module is configured to convert the second analog signal into a second digital signal, as the second analog signal is received, and to generate successive second sections from the second digital signal, each new second section generated comprising samples of a second previous section and new samples of the second digital signal;
- hybrid sections of the hybrid signal then being calculated progressively from the first and second sections generated; the corrected signal then being calculated from said hybrid sections;
- the hybridization module is configured to obtain a first filtered signal by applying to the first signal a first filter associated with a first frequency range; to obtain a second filtered signal by applying to the second signal a second filter associated with a second frequency range; then to calculate the hybrid signal by summing the first filtered signal and the second filtered signal, the second frequency range being distinct from the first frequency range;
- the first frequency range preferably comprising frequencies higher than those of the second frequency range;
- the first and second frequency ranges being preferably still disjoint.
L'invention concerne également un appareil acoustique comprenant :
- un premier microphone comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d'un signal sonore issu de cordes vocales d'un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ;
- un deuxième microphone comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique ;
- un dispositif électronique de traitement connecté aux premier et deuxième microphones, le dispositif électronique de traitement étant configuré pour recevoir en entrée les premier et deuxième signaux analogiques, puis pour délivrer en sortie un signal corrigé ; le dispositif électronique de traitement étant tel que défini ci-dessus.
- a first microphone comprising an electroacoustic transducer capable of receiving acoustic sound waves of a sound signal coming from the vocal cords of a user and of transforming said acoustic waves into a first analog signal;
- a second microphone comprising a transducer with mechanical bone excitation capable of receiving by bone conduction vibrational oscillations of said sound signal and of transforming said vibrational oscillations into a second analog signal;
- an electronic processing device connected to the first and second microphones, the electronic processing device being configured to receive the first and second analog signals as input, then to output a corrected signal; the electronic processing device being as defined above.
Suivant un autre aspect avantageux de l'invention, l'appareil acoustique comprend en outre deux modules acoustiques latéraux en appui sur les flancs latéraux du crâne et propres à transmettre un signal sonore au nerf auditif.According to another advantageous aspect of the invention, the acoustic device further comprises two lateral acoustic modules resting on the lateral sides of the skull and capable of transmitting a sound signal to the auditory nerve.
L'invention concerne aussi un équipement de tête pour opérateur comprenant un casque de protection, et un appareil acoustique tel que défini ci-dessus.The invention also relates to head equipment for an operator comprising a protective helmet, and an acoustic device as defined above.
L'invention a également pour objet un procédé de traitement, le procédé étant mis en oeuvre par un dispositif électronique de traitement connecté à des premier et deuxième microphones, le premier microphone comportant un transducteur électroacoustique apte à recevoir des ondes sonores acoustiques d'un signal sonore issu de cordes vocales d'un utilisateur et à transformer lesdites ondes acoustiques en un premier signal analogique ; et le deuxième microphone comportant un transducteur à excitation mécanique osseuse apte à recevoir par conduction osseuse des oscillations vibratoires dudit signal sonore et à transformer lesdites oscillations vibratoires en un deuxième signal analogique, le dispositif électronique de traitement étant configuré pour recevoir en entrée les premier et deuxième signaux analogiques et pour délivrer en sortie un signal corrigé,
le procédé de traitement comprenant :
- une étape d'hybridation comportant le calcul d'un signal hybride à partir des premier et deuxième signaux analogiques ;
- une étape d'estimation d'un bruit dans le signal hybride ; et
- une étape de réduction de bruit comportant le calcul du signal corrigé en appliquant un algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé.
the treatment process comprising:
- a hybridization step comprising the calculation of a hybrid signal from the first and second analog signals;
- a step of estimating noise in the hybrid signal; And
- a noise reduction step comprising the calculation of the corrected signal by applying a generalized spectral subtraction algorithm to the hybrid signal and as a function of the estimated noise.
L'invention concerne également un programme d'ordinateur comportant des instructions logicielles qui, lorsqu'elles sont exécutées par un ordinateur, mettent en oeuvre un procédé de traitement tel que défini ci-dessus.The invention also relates to a computer program comprising software instructions which, when executed by a computer, implement a processing method as defined above.
Ces caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description qui va suivre, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :
- la
figure 1 est une vue d'ensemble en perspective d'un appareil acoustique selon l'invention, l'appareil acoustique comprenant un premier microphone aérien, un deuxième microphone ostéophonique, et un dispositif électronique de traitement à délivrer un signal électrique corrigé à partir des signaux électriques issus des premier et deuxième microphones ; - la
figure 2 est une représentation schématique sous forme d'un synoptique du dispositif de traitement de lafigure 1 , connecté au premier microphone aérien et au deuxième microphone ostéophonique ; - la
figure 3 est une représentation schématique d'une génération de tronçons chevauchés, effectuée par le dispositif de traitement de lafigure 1 ; - la
figure 4 est un organigramme d'un procédé de traitement selon l'invention, le procédé étant mis en oeuvre par le dispositif de traitement de lafigure 1 ; - la
figure 5 est une vue représentant, en partie supérieure, un signal de voix bruité enregistré par un microphone aérien de l'état de la technique ; et en partie inférieure, un signal hybride obtenu avec les premier et deuxième microphones, et après réduction de bruit via le dispositif de traitement de lafigure 1 ; - la
figure 6 est une vue avec plusieurs courbes illustrant une détection d'activité vocale de l'état de la technique, via un microphone aérien et pour un seuil de détection bas ; - la
figure 7 est une vue analogue à celle de lafigure 6 , pour un seuil de détection plus élevé ; et - la
figure 8 est une vue analogue à celles desfigures 6 et 7 , illustrant une détection d'activité vocale selon l'invention, via un microphone ostéophonique.
- there
figure 1 is an overall perspective view of an acoustic device according to the invention, the acoustic device comprising a first aerial microphone, a second osteophonic microphone, and an electronic processing device for delivering an electrical signal corrected from the electrical signals from the first and second microphones; - there
figure 2 is a schematic representation in the form of a synoptic of the device for processing thefigure 1 , connected to the first aerial microphone and the second osteophonic microphone; - there
Figure 3 is a schematic representation of a generation of overlapped sections, carried out by the processing device of thefigure 1 ; - there
figure 4 is a flowchart of a processing method according to the invention, the method being implemented by the processing device of thefigure 1 ; - there
figure 5 is a view representing, in the upper part, a noisy voice signal recorded by an aerial microphone of the state of the art; and in the lower part, a hybrid signal obtained with the first and second microphones, and after noise reduction via the noise processing device.figure 1 ; - there
Figure 6 is a view with several curves illustrating voice activity detection of the state of the art, via an aerial microphone and for a low detection threshold; - there
Figure 7 is a view analogous to that of theFigure 6 , for a higher detection threshold; And - there
figure 8 is a view analogous to those offigures 6 And7 , illustrating detection of vocal activity according to the invention, via an osteophonic microphone.
Dans la suite de la description, l'expression « sensiblement égal(e) à » définit une relation d'égalité à plus ou moins 20%, de préférence encore à plus ou moins 10%, de préférence encore à plus ou moins 5%.In the remainder of the description, the expression “substantially equal to” defines a relationship of equality of plus or minus 20%, more preferably more or less 10%, more preferably more or less 5%. .
Sur la
L'appareil acoustique 10 comprend un boîtier de protection 18 et un dispositif de traitement 20 disposé à l'intérieur du boîtier de protection 18, le dispositif de traitement 20 étant connecté au premier microphone 12 et au deuxième microphone 14, et configuré pour recevoir en entrée les premier et deuxième signaux analogiques et délivrer en sortie un signal corrigé dans lequel le bruit a été réduit.The
En complément, l'appareil acoustique 10 comprend également deux modules acoustiques 22 latéraux, un arceau supérieur 24, un arceau arrière 26 de liaison des modules acoustiques et un câble de connexion 27, le câble de connexion 27 étant équipé à son extrémité d'un connecteur, non représenté. Les modules acoustiques latéraux 22, l'arceau supérieur 24, l'arceau arrière 26 et le câble de connexion 27 sont connus en soi, par exemple du document
Le premier microphone 12 est connu, par exemple du document
Le deuxième microphone 14 est également connu, par exemple du document
Dans l'exemple de la
En variante, comme illustré dans l'exemple de la figure 13 du document
En variante encore, comme illustré dans l'exemple de la
Le dispositif électronique de traitement 20 comprend un module d'hybridation 30 connecté au premier microphone 12 et au deuxième microphone 14 ; un module d'estimation 32 connecté au module d'hybridation 30 ; et un module de réduction de bruit 34 connecté au module d'hybridation 30 et au module d'estimation 32, comme représenté sur la
En complément facultatif, le dispositif électronique de traitement 20 comprend en outre un module de détection d'activité vocale 36 connecté au module d'hybridation 30.As an optional complement, the
Dans l'exemple de la
Dans l'exemple de la
En variante non représentée, le module d'hybridation 30, le module d'estimation 32, le module de réduction de bruit 34, ainsi qu'en complément facultatif le module de détection d'activité vocale 36, sont réalisés chacun sous forme d'un composant logique programmable, tel qu'un FPGA (de l'anglais Field Programmable Gate Array), ou encore d'un circuit intégré, tel qu'un ASIC (de l'anglais Application Spécifie Integrated Circuit). As a variant not shown, the
Lorsque le dispositif électronique de traitement 20 est réalisé sous forme d'un ou plusieurs logiciels, c'est-à-dire sous forme d'un programme d'ordinateur, également appelé produit programme d'ordinateur, il est en outre apte à être enregistré sur un support, non représenté, lisible par ordinateur. Le support lisible par ordinateur est par exemple un medium apte à mémoriser des instructions électroniques et à être couplé à un bus d'un système informatique. A titre d'exemple, le support lisible est un disque optique, un disque magnéto-optique, une mémoire ROM, une mémoire RAM, tout type de mémoire non-volatile (par exemple EPROM, EEPROM, FLASH, NVRAM), une carte magnétique ou une carte optique. Sur le support lisible est alors mémorisé un programme d'ordinateur comprenant des instructions logicielles.When the
Le module d'hybridation 30 est configuré pour calculer le signal hybride à partir des premier et deuxième signaux analogiques.The
Le module d'hybridation 30 est par exemple configuré pour obtenir un premier signal filtré en appliquant au premier signal un premier filtre associé à une première plage de fréquences ; pour obtenir un deuxième signal filtré en appliquant au deuxième signal un deuxième filtre associé à une deuxième plage de fréquences ; puis pour calculer le signal hybride en sommant le premier signal filtré et le deuxième signal filtré, la deuxième plage de fréquences étant distincte de la première plage de fréquences.The
La première plage de fréquences comporte typiquement des fréquences supérieures à celles de la deuxième plage de fréquences ; les première et deuxième plages de fréquences étant par exemple disjointes.The first frequency range typically includes frequencies higher than those of the second frequency range; the first and second frequency ranges being for example disjoint.
Le premier filtre est typiquement un filtre passe-haut avec une fréquence de coupure fc sensiblement égale à 1000 Hz, le filtre passe-haut étant par exemple un filtre passe-haut gaussien. Le deuxième filtre est typiquement un filtre passe-bas avec une fréquence de coupure également sensiblement égale à 1000 Hz, le filtre passe-bas étant par exemple un filtre passe-bas gaussien. Autrement dit, la première plage de fréquences est alors la plage des fréquences supérieures à 1000 Hz, et la deuxième plage de fréquence est celle des fréquences inférieures à 1000 Hz.The first filter is typically a high-pass filter with a cutoff frequency f c substantially equal to 1000 Hz, the high-pass filter being for example a Gaussian high-pass filter. The second filter is typically a low-pass filter with a cutoff frequency also substantially equal to 1000 Hz, the low-pass filter being for example a Gaussian low-pass filter. In other words, the first frequency range is then the range of frequencies above 1000 Hz, and the second frequency range is that of frequencies below 1000 Hz.
En complément, le module d'hybridation 30 est configuré pour convertir le premier signal analogique en un premier signal numérique, au fur et à mesure de la réception du premier signal analogique, et pour générer des premiers tronçons successifs à partir du premier signal numérique.In addition, the
Selon ce complément, le module d'hybridation 30 est également configuré pour convertir le deuxième signal analogique en un deuxième signal numérique, au fur et à mesure de la réception du deuxième signal analogique, et pour générer des deuxièmes tronçons successifs à partir du deuxième signal numérique.According to this addition, the
Selon ce complément facultatif, le module d'hybridation 30 est alors configuré pour calculer des tronçons hybrides du signal hybride au fur et à mesure, à partir des premiers et deuxièmes tronçons générés ; le signal corrigé étant ensuite calculé à partir desdits tronçons hybrides.According to this optional addition, the
Dans l'exemple de la
Dans l'exemple de la
Dans l'exemple de la
Dans l'exemple de la
Par convention, dans la présente description, pour un signal noté x, sa forme continue dans le temps est notée x(t), et sa forme discrétisée est notée x[n] où n est un entier naturel, n formant alors une variable représentant le temps discrétisé. Dans le domaine fréquentiel, m représente la variable de fréquence discrète, comprise entre 0 et N/2, où N représente le nombre d'échantillons par tronçon, par exemple égal à 512.By convention, in the present description, for a signal denoted x, its continuous form over time is denoted x(t), and its discretized form is denoted x[n] where n is a natural integer, n then forming a variable representing discretized time. In the frequency domain, m represents the discrete frequency variable, between 0 and N/2, where N represents the number of samples per section, for example equal to 512.
La forme discrétisée de chaque signal vérifie alors l'équation suivante :
- où n est la variable entière représentant le temps discrétisé, et
- Te est un pas de discrétisation temporelle vérifiant l'équation suivante :
- where n is the integer variable representing the discretized time, and
- T e is a temporal discretization step verifying the following equation:
La variable de fréquence discrète m est typiquement associée à un vecteur fréquence f[m] vérifiant l'équation suivante :
- où N est le nombre d'échantillons compris dans un tronçon,
- m est la variable de fréquence discrète, et
- fe est la fréquence d'échantillonnage.
- where N is the number of samples included in a section,
- m is the discrete frequency variable, and
- f e is the sampling frequency.
La fréquence varie alors typiquement entre 0 Hz et fe/2 Hz, avec un pas fréquentiel égal à fe/N.The frequency then typically varies between 0 Hz and f e /2 Hz, with a frequency step equal to f e /N.
Par convention, le kème tronçon du signal x est noté xk ou xk [n], et
La soustraction spectrale décrite par la suite ne nécessite de travailler que sur le spectre en amplitude du signal, la phase étant conservée et inchangée tout au long du processus, avec
Dans l'exemple de la
Le module hybridation 30 est alors par exemple configuré pour calculer le signal hybride
Les valeurs des constantes α et β sont de préférence réglables permettant d'avoir un signal de sortie au niveau équivalent à celui d'entrée du premier microphone 12 aérien. En outre, cela permet de donner une éventuelle prépondérance au signal aérien, ou respectivement au signal ostéophonique.The values of the constants α and β are preferably adjustable making it possible to have an output signal at the level equivalent to that of the input of the first
En complément facultatif, le module d'hybridation 30 est configuré, lors de la génération des premiers tronçons successifs, pour générer chaque nouveau premier tronçon avec des échantillons d'un premier tronçon précédent et de nouveaux échantillons du premier signal numérique.As an optional complement, the
Selon ce complément facultatif, le module d'hybridation 30 est configuré de manière analogue, lors de la génération des deuxièmes tronçons successifs, pour générer chaque nouveau deuxième tronçon avec des échantillons d'un deuxième tronçon précédent et de nouveaux échantillons du deuxième signal numérique.According to this optional complement, the
Il y a alors un chevauchement entre les premiers tronçons successifs ainsi générés, c'est-à-dire d'un premier tronçon généré au suivant ; et de manière analogue entre les deuxièmes tronçons successifs ainsi générés, c'est-à-dire d'un deuxième tronçon généré au suivant.There is then an overlap between the first successive sections thus generated, that is to say from a first section generated to the next; and similarly between the second successive sections thus generated, that is to say from a second section generated to the next.
Un taux de chevauchement correspond alors à un ratio, au sein de chaque nouveau premier tronçon, entre le nombre d'échantillons du premier tronçon précédent utilisés et le nombre total d'échantillons du premier tronçon, c'est-à-dire du nouveau premier tronçon généré ; ou respectivement au ratio, au sein de chaque nouveau deuxième tronçon, entre le nombre d'échantillons du deuxième tronçon précédent utilisés et le nombre total d'échantillons du deuxième tronçon. Le taux de chevauchement est par exemple compris entre 50 % et 75 %, c'est-à-dire entre 0,5 et 0,75. Autrement dit, au sein de chaque nouveau premier tronçon, entre la moitié et trois-quarts des derniers échantillons du premier tronçon précédent sont utilisés ; et de manière analogue au sein de chaque nouveau deuxième tronçon, entre la moitié et trois-quarts des derniers échantillons du deuxième tronçon précédent sont utilisés. Ce chevauchement entre tronçons est illustré à la
Sur la
Dans l'exemple de la
Sur la
Dans le cas d'un chevauchement à 50% le tronçon de sortie yk out vérifie alors typiquement l'équation suivante :
- où N représente le nombre d'échantillons par tronçon, par exemple égal à 512,
- yi représente un tronçon obtenu après réduction de bruit à partir d'un tronçon physique xi, et
- y'i représente un tronçon obtenu après réduction de bruit à partir d'un tronçon chevauché x'i.
- where N represents the number of samples per section, for example equal to 512,
- y i represents a section obtained after noise reduction from a physical section x i , and
- y' i represents a section obtained after noise reduction from an overlapped section x' i .
Le module d'estimation 32 est configuré pour estimer un bruit dans le signal hybride.The
Lorsqu'on complément facultatif, le module de détection d'activité vocale 36 est configuré pour déterminer une présence de voix ou une absence de voix dans chaque tronçon du signal hybride, le module d'estimation 32 est alors configuré pour estimer le bruit dans le signal hybride en fonction de chaque tronçon avec une absence déterminée de voix.When optional, the voice
Autrement dit, lorsque le module de détection d'activité vocale 36 détermine une présence de voix dans un tronçon donné, le spectre du bruit n'est pas mis à jour. Au contraire, lorsque le module de détection d'activité vocale 36 détermine une présence de voix dans un tronçon donné, le spectre du bruit de fond est mis à jour. Cette mise à jour du spectre du bruit de fond est alors effectuée lorsque le tronçon n'est pas de la voix et que la probabilité que cela soit du bruit est élevée. La robustesse du module de détection d'activité vocale 36 permettra d'avoir autant plus de précision sur l'estimation et la poursuite du bruit.In other words, when the voice
Selon ce complément facultatif, le module d'estimation 32 est typiquement configuré pour mettre à jour le spectre du bruit de fond |Ñk | selon l'équation suivante :
- où p est un facteur d'oubli, de valeur par exemple égale à 0,95 ;
- DAV est un indicateur d'activité vocale issu du module de détection d'activité vocale 36, DAV étant égal à 1 si une présence de voix est déterminée, et à 0 sinon, i.e. si une absence de voix est déterminée ;
-
-
- where p is a forgetting factor, with a value for example equal to 0.95;
- DAV is a voice activity indicator from the voice
activity detection module 36, DAV being equal to 1 if a presence of voice is determined, and to 0 otherwise, ie if an absence of voice is determined; -
-
Le module de réduction de bruit 34 est configuré pour calculer le signal corrigé en appliquant un algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé.The
Dans l'exemple de la
L'algorithme de soustraction spectrale généralisée vérifie par exemple l'équation suivante :
- |Ỹk [m] | représente le spectre du signal débruité pour le tronçon d'indice k ;
-
-
- αk représente un coefficient de surestimation du bruit pour le tronçon d'indice k ;
- δ représente un coefficient de correction ;
- β représente un coefficient de réintroduction du bruit ; et
- γ représente un coefficient de puissance, typiquement égal à 1
ou 2.
- | Ỹk [m] | represents the spectrum of the denoised signal for the section of index k;
-
-
- α k represents a noise overestimation coefficient for the section of index k;
- δ represents a correction coefficient;
- β represents a noise reintroduction coefficient; And
- γ represents a power coefficient, typically equal to 1 or 2.
L'algorithme de soustraction spectrale généralisée se calcule par exemple en amplitude, et le coefficient de puissance γ est alors égal à 1 ; ou encore en puissance, et le coefficient de puissance γ est alors égal à 2.The generalized spectral subtraction algorithm is calculated for example in amplitude, and the power coefficient γ is then equal to 1; or even in power, and the power coefficient γ is then equal to 2.
Dans le cas d'un calcul en amplitude de la soustraction spectrale généralisée, avec γ=1, peu de bruit musical sera produit, mais le signal de voix estimé pourra être plus ou moins distordu en fonction du rapport signal sur bruit. Le bruit musical est un ensemble d'artefacts produits lors de la soustraction spectrale, constitué de tonales courtes en temps et produisant un bruit relativement désagréable.In the case of an amplitude calculation of the generalized spectral subtraction, with γ=1, little musical noise will be produced, but the estimated voice signal may be more or less distorted depending on the signal-to-noise ratio. Musical noise is a set of artifacts produced during spectral subtraction, consisting of short tones in time and producing a relatively unpleasant noise.
Dans le cas d'un calcul en puissance de la soustraction spectrale généralisée, avec γ =2, peu de distorsion sera créée, mais une quantité non négligeable de bruit musical pourra être générée.In the case of a power calculation of the generalized spectral subtraction, with γ =2, little distortion will be created, but a significant amount of musical noise may be generated.
Le coefficient de surestimation de bruit α est de préférence recalculé à chaque tronçon d'indice k, et est alors noté αk. Ce coefficient permet d'éviter la génération d'une quantité trop importante de bruit musical. Pour maximiser son efficacité, son calcul s'effectue par bandes de fréquences et dépend du rapport signal sur bruit sur chacune de ces bandes.The noise overestimation coefficient α is preferably recalculated at each section of index k, and is then denoted α k . This coefficient helps prevent the generation of too much musical noise. To maximize its efficiency, its calculation is carried out by frequency bands and depends on the signal-to-noise ratio on each of these bands.
Les spectres
- où RSBk j représente le rapport signal sur bruit pour le tronçon d'indice k et la bande de fréquence d'indice j,
- Nj représente le nombre d'échantillons fréquentiels contenus dans la bande d'indice j ;
-
-
- where RSB k j represents the signal-to-noise ratio for the section of index k and the frequency band of index j,
- Nj represents the number of frequency samples contained in the band of index j;
-
-
Puis, pour chaque valeur de rapport signal sur bruit, le coefficient de surestimation du bruit αk vérifie par exemple l'équation suivante :
Globalement, ce calcul du coefficient de surestimation de bruit α permet de surestimer le bruit lorsque le rapport signal sur bruit est faible, et de réduire l'introduction d'artefacts de type bruit musical.Overall, this calculation of the noise overestimation coefficient α makes it possible to overestimate the noise when the signal-to-noise ratio is low, and to reduce the introduction of musical noise type artifacts.
Le coefficient de surestimation du bruit αk j est ensuite converti pour pouvoir être réintroduit dans l'équation (8), par exemple selon l'équation suivante :
Le coefficient de correction δ est un coefficient de correction fréquentiel calculé une seule fois, typiquement au début de l'algorithme, et n'évoluant pas au cours du temps.The correction coefficient δ is a frequency correction coefficient calculated only once, typically at the start of the algorithm, and does not change over time.
Ce coefficient est un simple pré-facteur dépendant de la fréquence, afin de maximiser certaines bandes de fréquences de manière adaptée à la captation de voix.This coefficient is a simple pre-factor depending on the frequency, in order to maximize certain frequency bands in a manner adapted to voice capture.
Le coefficient de correction δ est par exemple une fonction constante par morceaux, vérifiant l'équation suivante :
Compte tenu des calculs effectués avec les spectres en amplitude, il ne faut pas que l'estimation |Ỹk [m]| γ soit négative car cela n'aurait pas de sens mathématiquement. C'est pourquoi l'équation (8) comporte une condition pour éviter les valeurs négatives.Taking into account the calculations carried out with the amplitude spectra, it is not necessary that the estimation | Ỹk [ m ]| γ is negative because it would not make sense mathematically. This is why equation (8) includes a condition to avoid negative values.
Le coefficient de réintroduction du bruit β permet alors de choisir si l'on réintroduit du bruit ou non en cas de valeurs potentiellement négatives. Lorsque le coefficient de réintroduction du bruit β est choisi égal à 0, toute soustraction conduisant à une valeur négative est remplacée par la valeur nulle. En revanche pour toute valeur supérieure à 0, on réintroduit du bruit. Cela permet de conserver une partie du bruit qui peut être perçu comme un bruit de confort masquant une partie du bruit musical lorsqu'il y en a qui est créé.The noise reintroduction coefficient β then makes it possible to choose whether or not to reintroduce noise in the event of potentially negative values. When the noise reintroduction coefficient β is chosen equal to 0, any subtraction leading to a negative value is replaced by the zero value. On the other hand, for any value greater than 0, noise is reintroduced. This keeps some of the noise that may be perceived as comfort noise masking some of the musical noise when any is created.
Le coefficient de réintroduction du bruit β vaut généralement quelques pourcents. Le coefficient de réintroduction du bruit β est par exemple sensiblement égal à 0,05, soit une réintroduction de 5% du bruit de fond dans le signal de sortie. Cette valeur est un paramètre prédéfini.The noise reintroduction coefficient β is generally worth a few percent. The noise reintroduction coefficient β is for example substantially equal to 0.05, i.e. a reintroduction of 5% of the background noise into the output signal. This value is a predefined parameter.
Il est à noter que plus le rapport signal sur bruit est faible ou mauvais, moins l'estimation du signal débruité est efficace et plus la voix sera altérée. Il est donc intéressant de mettre une valeur du coefficient de réintroduction du bruit β plus élevée dans le cas d'un mauvais rapport signal sur bruit, afin de recapter quelques harmoniques de la voix dans le bruit de fond qui seraient perdues dans la soustraction spectrale autrement.It should be noted that the weaker or worse the signal-to-noise ratio, the less effective the estimation of the denoised signal is and the more the voice will be altered. It is therefore interesting to set a higher value for the noise reintroduction coefficient β in the case of a poor signal-to-noise ratio, in order to recapture some harmonics of the voice in the background noise which would otherwise be lost in the spectral subtraction. .
Dans l'exemple de la
Comme indiqué précédemment, les calculs dans le domaine fréquentiel ont été effectués avec l'amplitude du spectre du signal du tronçon. La phase de celui-ci, qui demeure non modifiée, est alors réintégrée au signal avant la transformée de Fourier inverse permettant de revenir dans le domaine temporel, par exemple selon l'équation suivante :
- où yk[n] représente le signal de sortie débruité pour le tronçon d'indice k ;
- IFFT représente l'opérateur numérique de transformée de Fourier inverse ;
- |Ỹk [m]| , et resp.
- where y k [n] represents the denoised output signal for the section of index k;
- IFFT represents the inverse Fourier transform digital operator;
- | Ỹk [ m ]| , and resp.
Dans l'exemple de la
Le module de détection d'activité vocale 36 est configuré pour déterminer une présence de voix ou une absence de voix dans chaque tronçon du signal hybride.The voice
Le module de détection d'activité vocale 36 est par exemple configuré pour déterminer la présence de voix ou l'absence de voix à partir du deuxième signal issu du transducteur à excitation mécanique osseuse ; et de préférence uniquement à partir dudit deuxième signal, sans prise en compte du premier signal.The voice
Le deuxième microphone 14, ostéophonique ou solidien, est apte à mesurer les vibrations de la peau et du visage liée à la sollicitation des cordes vocales, et permet de capter la partie voisée d'un signal vocal tout en étant très peu sensible au bruit de fond (qui a priori ne fait pas suffisamment vibrer la peau de l'utilisateur pour être captée).The
L'intérêt d'utiliser le deuxième microphone 14 ostéophonique réside dans son immunité au bruit de fond. Cette immunité est encore plus grande dans la partie basse fréquence du signal acquis.The advantage of using the
Avantageusement, la détection d'activité vocale est alors effectuée après un filtrage dans le domaine fréquentiel (fonctionnant également dans le domaine temporel) du signal solidien. Le module de détection d'activité vocale 36 est alors de préférence configuré pour déterminer la présence de voix ou l'absence de voix à partir du deuxième signal filtré issu du deuxième signal filtré
En complément facultatif, le module de détection d'activité vocale 36 est configuré pour calculer une valeur RMS pour chaque tronçon du deuxième signal, i.e. pour chaque deuxième tronçon ; puis pour déterminer la présence de voix ou l'absence de voix en fonction de valeurs RMS respectives.As an optional complement, the voice
Le traitement est basé sur le calcul de l'énergie du signal tronçon par tronçon. Cependant ici, grâce au caractère immune au bruit du signal du microphone solidien filtré, l'énergie de la voix émergera tout le temps de l'énergie plancher du bruit. Le calcul du niveau RMS permet alors de connaître l'énergie du signal.The processing is based on the calculation of the signal energy section by section. However here, thanks to the noise-immune nature of the filtered solid-state microphone signal, the energy of the voice will emerge all the time from the noise floor energy. Calculating the RMS level then allows us to know the energy of the signal.
Comme connu en soi, la valeur efficace, dite aussi valeur RMS (de l'anglais Root Mean Square, signifiant moyenne quadratique), d'un signal périodique est la racine carrée de la moyenne du carré de cette grandeur, sur un intervalle de temps donné ou la racine carrée du moment d'ordre deux (ou variance) du signal.As known per se, the effective value, also called RMS value (from the English Root Mean Square, meaning square mean), of a periodic signal is the square root of the average of the square of this quantity, over a time interval given or the square root of the moment of order two (or variance) of the signal.
Pour un tronçon temporel xk [n] de N échantillons, le calcul de la valeur RMS s'effectue alors typiquement via l'équation suivante :
- où RMSk représente la valeur RMS pour le tronçon d'indice k ;
- xk [n] représente le signal pour le tronçon d'indice k ;
- N représente le nombre d'échantillons dudit tronçon.
- where RMS k represents the RMS value for the section of index k;
- x k [ n ] represents the signal for the section of index k;
- N represents the number of samples of said section.
Or, dans le domaine fréquentiel, grâce à l'identité de Parseval selon laquelle l'énergie est égale dans les domaines fréquentiel et temporel, on obtient l'équation suivante :
- où RMSk représente la valeur RMS pour le tronçon d'indice k ;
-
- N représente le nombre d'échantillons dudit tronçon.
- where RMS k represents the RMS value for the section of index k;
-
- N represents the number of samples of said section.
Cette valeur du niveau RMS est optionnellement convertie en une valeur dBFS à partir de l'équation suivante :
Cette valeur dBFS est typiquement comprise entre -94 dBFS au minimum (dans le cas d'une résolution dynamique de 16 bits) et 0 dBFS au maximum (pour un signal constant qui vaudrait 1).This dBFS value is typically between -94 dBFS at least (in the case of a dynamic resolution of 16 bits) and 0 dBFS at maximum (for a constant signal which would be worth 1).
En complément facultatif encore, le module de détection d'activité vocale 36 est configuré pour déterminer la présence de voix ou l'absence de voix en fonction d'une valeur moyenne de M dernières valeurs RMS calculées, également appelée RMS lissé, et/ou d'une variation de valeur RMS entre une valeur RMS courante et une valeur RMS précédente, également appelée taux de variation du niveau RMS, avec M un nombre entier supérieur ou égal à 1.As an optional addition, the voice
Selon ce complément facultatif encore, le module de détection d'activité vocale 36 est par exemple configuré pour déterminer la présence de voix si ladite valeur moyenne est supérieure ou égale à un seuil prédéfini de moyenne A ou si ladite variation de valeur RMS est supérieure ou égale à un seuil prédéfini de variation B.According to this optional addition again, the voice
La valeur du niveau RMS est susceptible de varier dans le temps, et de subir des brusques variations lorsque le microphone concerné, en particulier le deuxième microphone 14, capte une vibration importante. Ce complément facultatif permet alors d'améliorer la précision et de réduire les erreurs de l'algorithme, avec un moyennage sur les M dernières valeurs calculées du niveau RMS (lors des M derniers tronçons). Ceci est par exemple mis en oeuvre via un buffer circulaire qui à chaque nouveau tronçon vient ajouter la nouvelle valeur RMS calculée, supprime la Mième dernière, puis moyenne l'ancienne. Le niveau RMS lissé au kième tronçon, noté
Le suivi de la valeur de
- où ΔRMSk dB représente le taux de variation du niveau RMS pour le tronçon d'indice k ;
-
- dt représente un delta de temps entre deux tronçons successifs.
- where ΔRMS k dB represents the rate of variation of the RMS level for the section of index k;
-
- dt represents a time delta between two successive sections.
La valeur dt peut correspondre exactement au delta de temps entre deux tronçons successifs, et la variation du niveau RMS sera alors exprimée en dB.s-1, mais celui-ci peut prendre des valeurs très importantes.The value dt can correspond exactly to the time delta between two successive sections, and the variation of the RMS level will then be expressed in dB.s -1 , but this can take very large values.
En variante, et par commodité, la valeur dt est choisie égale à 1. Le cas échéant, ΔRMSk dB est un taux de variation exprimé en dB.tronçon-1. Cette grandeur est pertinente car au moment où un interlocuteur se met à parler, le niveau RMS augmente brutalement, se traduisant par un ΔRMSk dB positif et supérieur à 1 dB.tronçon-1. Cette grandeur variant vite, elle permet de détecter la voix très rapidement, évitant ainsi de louper le début d'une phrase.Alternatively, and for convenience, the value dt is chosen equal to 1. Where appropriate, ΔRMS k dB is a rate of variation expressed in dB.section -1 . This quantity is relevant because the moment an interlocutor begins to speak, the RMS level increases suddenly, resulting in a positive ΔRMS k dB greater than 1 dB.section -1 . This size varies quickly, it makes it possible to detect the voice very quickly, thus avoiding missing the start of a sentence.
La prise de décision pour la détection d'activité vocale instantanée est alors définie par exemple par l'équation suivante :
- où
- ΔRMSk dB représente taux de variation du niveau RMS pour le tronçon d'indice k ;
- DAVk est un indicateur d'activité vocale pour le tronçon d'indice k, cet indicateur étant égal à 1 si une présence de voix est déterminée, et à 0 sinon ;
- A représente le seuil prédéfini de moyenne et B représente le seuil prédéfini de variation, correspondant respectivement aux seuils de niveau et du taux de variation à dépasser pour considérer que le tronçon est parlé.
- Or
- ΔRMS k dB represents rate of variation of the RMS level for the section of index k;
- DAV k is a voice activity indicator for the section of index k, this indicator being equal to 1 if the presence of voice is determined, and to 0 otherwise;
- A represents the predefined average threshold and B represents the predefined variation threshold, corresponding respectively to the level and rate of variation thresholds to be exceeded to consider that the section is spoken.
Ces valeurs de seuil A et B sont prédéfinies en fonction de la dynamique de l'appareil acoustique 10, par exemple en fonction du gain du microphone concerné, en particulier du deuxième microphone 14, etc.These threshold values A and B are predefined as a function of the dynamics of the
Le calcul de la détection d'activité vocale décrit ci-dessus donne une valeur instantanée pour chaque tronçon successif (qu'il soit chevauché ou non). Se baser uniquement sur une valeur instantanée peut conduire à des erreurs, par exemple un micro-silence dans la voix pourrait créer un passage à 0 non souhaité de l'indicateur d'activité vocale DAV. Au contraire, un bruit impulsionnel très court peut conduire à un indicateur d'activité vocale DAV égal à 1 pour un seul tronçon, avant de repasser à 0. En fonction de l'utilisation du module de détection d'activité vocale 36 (avec un mode où le canal n'est ouvert que si DAV = 1 par exemple), ce comportement peut provoquer des artefacts désagréables. C'est pourquoi le calcul de la détection d'activité vocale est avantageusement lissé afin d'éviter ces artefacts.The voice activity detection calculation described above gives an instantaneous value for each successive chunk (whether overlapped or not). Relying solely on an instantaneous value can lead to errors, for example a micro-silence in the voice could create an unwanted change to 0 in the DAV voice activity indicator. On the contrary, a very short impulse noise can lead to a DAV voice activity indicator equal to 1 for a single section, before returning to 0. Depending on the use of the voice activity detection module 36 (with a mode where the channel is only open if DAV = 1 for example), this behavior can cause unpleasant artifacts. This is why the calculation of voice activity detection is advantageously smoothed in order to avoid these artifacts.
Ce lissage est par exemple réalisé à partir de l'utilisation d'un temps d'attaque et d'un temps de relâche. Lorsqu'un indicateur d'activité vocale DAV instantané DAVinst k est égal à 1 au moins aussi longtemps que le temps d'attaque (ou le nombre de tronçon(s) équivalent), alors un indicateur d'activité vocale DAV lissé DAVlisse k devient égal à 1. Au contraire, lorsque l'indicateur d'activité vocale DAV instantané DAVinst k est égal à 0 au moins aussi longtemps que le temps de relâche, alors l'indicateur d'activité vocale DAV lissé DAVlisse k repasse à 0. Dans tous les autres cas, l'indicateur d'activité vocale DAV lissé DAVlisse k conserve la valeur qu'il avait au tronçon précédent. Pour la mise en oeuvre de ce lissage, un compteur Ck est par exemple utilisé. La modification de ce compteur Ck est typiquement régie par le tableau 1 ci-après pour chaque tronçon courant d'indice k, en fonction de l'indicateur d'activité vocale DAV instantané DAVinst k et de la valeur du compteur Ck-1 au tronçon précédent d'indice k-1 :
La prise de décision pour la détection d'activité vocale lissée est alors définie par exemple par l'équation suivante :
- où DAVlisse k est l'indicateur d'activité vocale lissé pour le tronçon d'indice k, cet indicateur étant égal à 1 si une présence de voix est déterminée, et à 0 sinon ;
- Ck est le compteur pour le tronçon d'indice k ;
- tatk représente le temps d'attaque ; et
- trel représente le temps de relâche.
- where smooth DAV k is the smoothed voice activity indicator for the section of index k, this indicator being equal to 1 if a presence of voice is determined, and to 0 otherwise;
- C k is the counter for the section with index k;
- t atk represents the attack time; And
- t rel represents the release time.
Le fonctionnement de l'appareil acoustique 10, et en particulier du dispositif de traitement 20, selon l'invention va être à présent décrit en regard de la
Le traitement appliqué au signal pour réduire le bruit est effectué de manière numérique et en temps réel. En effet, lorsque l'opérateur utilise l'appareil acoustique 10, le signal doit être débruité et envoyé à son interlocuteur le plus rapidement possible, en cherchant à diminuer au maximum la latence, avec une valeur souhaitée de 20 à 30 ms. Pour permettre un débruitage qualitatif, il faut disposer d'un minimum d'informations à analyser avant de pouvoir réduire le bruit efficacement. Le traitement effectué est alors un traitement par bloc, appliqué tronçon par tronçon au signal d'entrée. Comme indiqué précédemment, les tronçons sont typiquement chacun d'une durée d'environ 20 ms. En effet, sur cette durée, la voix a un comportement quasi stationnaire, alors que le bruit l'est sur des durées bien plus importantes.The processing applied to the signal to reduce noise is carried out digitally and in real time. Indeed, when the operator uses the
Afin d'optimiser la consommation électrique, la fréquence d'échantillonnage est de préférence inférieure à 22 050 Hz, permettant une bande passante comprise dans l'intervalle [0 ; 11 025 Hz]. En conséquence pour avoir des tronçons de signal d'environ 20 ms à cette fréquence d'échantillonnage, ceux-ci devront contenir typiquement 512 échantillons.In order to optimize power consumption, the sampling frequency is preferably less than 22,050 Hz, allowing a bandwidth in the interval [0; 11,025 Hz]. Consequently, to have signal sections of approximately 20 ms at this sampling frequency, these must typically contain 512 samples.
Le traitement appliqué au signal pour réduire le bruit est en grande partie effectué dans le domaine fréquentiel, qui est plus adapté au débruitage du fait que le but est de réduire le niveau dans les bandes de fréquences contenant le plus de bruit. Néanmoins, du fait de travailler par tronçons en fréquentiel, des problèmes de discontinuités et d'imprécisions peuvent apparaître d'un tronçon à un autre, et un chevauchement des tronçons, avec un taux de chevauchement de préférence supérieur à 50%, idéalement égal à 75%, tel que décrit ci-dessus, est alors avantageusement mis en oeuvre pour les atténuer.The processing applied to the signal to reduce noise is largely carried out in the frequency domain, which is more suitable for denoising because the aim is to reduce the level in the frequency bands containing the most noise. However, due to working in frequency sections, problems of discontinuities and inaccuracies can appear from one section to another, and an overlap of sections, with an overlap rate preferably greater than 50%, ideally equal to 75%, as described above, is then advantageously used to attenuate them.
Lors d'une étape initiale 100, le dispositif de traitement 20 calcule alors, via son module d'hybridation 30, le signal hybride à partir des premier et deuxième signaux analogiques, issus des premier et deuxième microphones 12, 14, de la manière décrite précédemment.During an
Lors d'une étape optionnelle suivante 110, le dispositif de traitement 20 détermine, via son module de détection d'activité vocale 36, une présence de voix ou une absence de voix dans chaque tronçon du signal hybride, de la manière décrite précédemment.During a following
Le dispositif de traitement 20 estime ensuite, lors de l'étape suivante 120 et via son module d'estimation 32, le bruit dans le signal hybride, obtenu précédemment lors de l'étape d'hybridation 100, de la manière décrite précédemment.The
Lorsqu'optionnellement une présence de voix ou une absence de voix dans chaque tronçon du signal hybride a été déterminée lors de l'étape de détection d'activité vocale 110, le bruit est alors, lors de l'étape d'estimation 120, estimé dans le signal hybride en fonction de chaque tronçon avec une absence déterminée de voix, de la manière décrite précédemment.When optionally a presence of voice or an absence of voice in each section of the hybrid signal has been determined during the voice
Enfin, lors de l'étape suivante 130, le dispositif de traitement 20 applique, via son module de réduction de bruit 34, l'algorithme de soustraction spectrale généralisée au signal hybride et en fonction du bruit estimé, afin de calculer le signal corrigé.Finally, during the
Comme indiqué précédemment, le procédé de traitement est en temps réel ou en quasi-temps réel, avec une latence d'environ 20 à 30 ms, et un traitement par bloc, appliqué tronçon par tronçon au signal d'entrée.As indicated previously, the processing method is in real time or near real time, with a latency of approximately 20 to 30 ms, and block processing, applied section by section to the input signal.
Aussi, à l'issue de l'étape 130, le procédé de traitement retourne à l'étape initiale 100, et plus généralement, chacune des étapes 100, optionnellement 110, 120 et 130 est réitérée régulièrement afin d'être mise en oeuvre pour chaque tronçon successif de signal.Also, at the end of
Sur la
La
Dans cet exemple de la
La
Sur la
Finalement, au travers de ces deux exemples des
La
La courbe 500 est la représentation temporelle de ce signal sur laquelle est superposée la décision prise par la détection d'activité vocale, où les zones grisées 510 correspondent à des zones pour lesquelles une présence de voix a été déterminée, i.e. DAV = 1 ; les autres zones, non grisées ou blanches, correspondant à des zones pour lesquelles une absence de voix a été déterminée, i.e. DAV = 0. Sur la
Avec le dispositif de traitement 20 selon l'invention, un premier élément marquant est que la forme d'onde associée à cet enregistrement ostéophonique filtré (filtre passe-bas) est beaucoup moins marquée par le bruit. Quel que soit le niveau de bruit, la voix émerge très facilement de celui-ci. Cet effet est encore plus visible sur la représentation du niveau RMS du signal filtré au cours du temps, il y a près de 40 dB de différence entre les pics liés à la voix et le bruit de fond. En conséquence, le choix de la valeur seuil devient plus aisé et offre une plus grande latitude qu'avec le dispositif de traitement de l'état de la technique. Ce seuil a par exemple été fixé arbitrairement ici à -35dBFS, tout en observant qu'une valeur de seuil à -25dBFS ou à -45dBFS aurait donné des résultats semblables. Grâce à cette émergence naturelle, l'algorithme de soustraction spectrale généralisée est particulièrement efficace et repère aussi bien la voix dans trois zones de bruits différents.With the
Enfin, grâce à ses performances, le dispositif de traitement 20 selon l'invention est capable de détecter précisément les périodes temporelles en présence de bruit uniquement. De cette façon, le moyennage du niveau RMS du microphone aérien uniquement aux moments où DAV = 0, permet d'obtenir une bonne estimation du niveau du bruit de fond, représenté par la courbe 540.Finally, thanks to its performance, the
Ces résultats montrent bien l'intérêt du dispositif de traitement 20 selon l'invention de par le gain important en performance et en coût de calcul, par rapport au dispositif de traitement de l'état de la technique.These results clearly show the interest of the
Ainsi, lorsque l'utilisateur se trouve dans un environnement bruité, et qu'il utilise l'appareil acoustique 10, par exemple avec une radio, pour communiquer avec un interlocuteur à distance, le signal envoyé à l'interlocuteur serait, sans mise en oeuvre de l'invention, altéré par la captation non souhaitée d'une portion de bruit de fond. Le dispositif électronique de traitement 20 selon l'invention permet de réduire la présence de ce bruit de fond dans le signal envoyé à l'interlocuteur, et en particulier de filtrer la voix de ce bruit, afin de viser à n'envoyer que le signal utile à l'interlocuteur via la radio.Thus, when the user is in a noisy environment, and he uses the
Les résultats obtenus avec le dispositif électronique de traitement 20 selon l'invention, notamment ceux présentés ci-dessus en regard des
On conçoit ainsi que le dispositif électronique de traitement 20, et le procédé de traitement associé, permettent d'améliorer encore la réduction du bruit dans le signal délivré en sortie de l'appareil acoustique 10.We can thus see that the
Claims (10)
le module de détection d'activité vocale (36) étant de préférence configuré pour déterminer la présence de voix ou l'absence de voix uniquement à partir du deuxième signal, sans prise en compte du premier signal.Device (20) according to claim 2, in which the voice activity detection module (36) is configured to determine the presence of voice or the absence of voice from the second signal from the bone mechanical excitation transducer;
the voice activity detection module (36) preferably being configured to determine the presence of voice or the absence of voice solely from the second signal, without taking into account the first signal.
le module de détection d'activité vocale (36) étant de préférence configuré pour déterminer la présence de voix si ladite valeur moyenne est supérieure ou égale à un seuil prédéfini de moyenne (A) ou si ladite variation de valeur RMS est supérieure ou égale à un seuil prédéfini de variation (B).Device (20) according to claim 4, wherein the voice activity detection module (36) is configured to determine the presence of voices or the absence of voices based on an average value of M last value(s) (s) calculated RMS and/or a variation in RMS value between a current RMS value and a previous RMS value, M being an integer greater than or equal to 1;
the voice activity detection module (36) preferably being configured to determine the presence of voices if said average value is greater than or equal to a predefined average threshold (A) or if said RMS value variation is greater than or equal to a predefined variation threshold (B).
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2205151A FR3136096A1 (en) | 2022-05-30 | 2022-05-30 | Electronic device and associated processing method, acoustic apparatus and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
EP4287648A1 true EP4287648A1 (en) | 2023-12-06 |
Family
ID=83188676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP23175647.9A Pending EP4287648A1 (en) | 2022-05-30 | 2023-05-26 | Electronic device and associated processing method, acoustic apparatus and computer program |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230388704A1 (en) |
EP (1) | EP4287648A1 (en) |
KR (1) | KR20230166920A (en) |
FR (1) | FR3136096A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140270231A1 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device |
FR3019422B1 (en) | 2014-03-25 | 2017-07-21 | Elno | ACOUSTICAL APPARATUS COMPRISING AT LEAST ONE ELECTROACOUSTIC MICROPHONE, A OSTEOPHONIC MICROPHONE AND MEANS FOR CALCULATING A CORRECTED SIGNAL, AND ASSOCIATED HEAD EQUIPMENT |
US20220150627A1 (en) * | 2019-09-12 | 2022-05-12 | Shenzhen Shokz Co., Ltd. | Systems and methods for audio signal generation |
-
2022
- 2022-05-30 FR FR2205151A patent/FR3136096A1/en active Pending
-
2023
- 2023-05-24 KR KR1020230066945A patent/KR20230166920A/en unknown
- 2023-05-25 US US18/202,240 patent/US20230388704A1/en active Pending
- 2023-05-26 EP EP23175647.9A patent/EP4287648A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140270231A1 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device |
FR3019422B1 (en) | 2014-03-25 | 2017-07-21 | Elno | ACOUSTICAL APPARATUS COMPRISING AT LEAST ONE ELECTROACOUSTIC MICROPHONE, A OSTEOPHONIC MICROPHONE AND MEANS FOR CALCULATING A CORRECTED SIGNAL, AND ASSOCIATED HEAD EQUIPMENT |
US20220150627A1 (en) * | 2019-09-12 | 2022-05-12 | Shenzhen Shokz Co., Ltd. | Systems and methods for audio signal generation |
Also Published As
Publication number | Publication date |
---|---|
US20230388704A1 (en) | 2023-11-30 |
FR3136096A1 (en) | 2023-12-01 |
KR20230166920A (en) | 2023-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1016072B1 (en) | Method and apparatus for suppressing noise in a digital speech signal | |
EP1356461B1 (en) | Noise reduction method and device | |
US8352257B2 (en) | Spectro-temporal varying approach for speech enhancement | |
EP1450354A1 (en) | System for suppressing wind noise | |
EP2772916B1 (en) | Method for suppressing noise in an audio signal by an algorithm with variable spectral gain with dynamically adaptive strength | |
EP2518724A1 (en) | Microphone/headphone audio headset comprising a means for suppressing noise in a speech signal, in particular for a hands-free telephone system | |
EP1849157B1 (en) | Method of measuring annoyance caused by noise in an audio signal | |
EP1016071B1 (en) | Method and apparatus for detecting speech activity | |
JP3960834B2 (en) | Speech enhancement device and speech enhancement method | |
EP3192073B1 (en) | Discrimination and attenuation of pre-echoes in a digital audio signal | |
FR2894707A1 (en) | METHOD FOR MEASURING THE PERCUSED QUALITY OF A DEGRADED AUDIO SIGNAL BY THE PRESENCE OF NOISE | |
EP1016073B1 (en) | Method and apparatus for suppressing noise in a digital speech signal | |
EP4287648A1 (en) | Electronic device and associated processing method, acoustic apparatus and computer program | |
EP1021805B1 (en) | Method and apparatus for conditioning a digital speech signal | |
EP2515300B1 (en) | Method and system for noise reduction | |
WO2017207286A1 (en) | Audio microphone/headset combination comprising multiple means for detecting vocal activity with supervised classifier | |
EP1792305A1 (en) | Method and device for evaluating the efficiency of a noise reducing function for audio signals | |
WO2020049263A1 (en) | Device for speech enhancement by implementation of a neural network in the time domain | |
FR3051958A1 (en) | METHOD AND DEVICE FOR ESTIMATING A DEREVERBERE SIGNAL | |
FR2751776A1 (en) | METHOD OF EXTRACTING THE BASIC FREQUENCY OF A SPEECH SIGNAL |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC ME MK MT NL NO PL PT RO RS SE SI SK SM TR |