EP4290514A1 - Speaker voice masking - Google Patents

Speaker voice masking Download PDF

Info

Publication number
EP4290514A1
EP4290514A1 EP23176415.0A EP23176415A EP4290514A1 EP 4290514 A1 EP4290514 A1 EP 4290514A1 EP 23176415 A EP23176415 A EP 23176415A EP 4290514 A1 EP4290514 A1 EP 4290514A1
Authority
EP
European Patent Office
Prior art keywords
audio
segment
alteration
signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP23176415.0A
Other languages
German (de)
French (fr)
Inventor
Christophe Henrotte
Frédéric Bimbot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Musiciens Artistes Interpretes Associes MAIA
Original Assignee
Musiciens Artistes Interpretes Associes MAIA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Musiciens Artistes Interpretes Associes MAIA filed Critical Musiciens Artistes Interpretes Associes MAIA
Publication of EP4290514A1 publication Critical patent/EP4290514A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used

Definitions

  • the present invention relates to masking the voice of a speaker, in particular to protect the identity of the speaker by restricting the possibility of identifying him by analysis of an original recording of his voice.
  • voice recognition software or more particularly speaker recognition software based on their voice signature
  • voice recognition software is sometimes used by the police to identify people making telephone or other threats. the origin of anonymous calls.
  • certain software of this type which makes it possible to identify a speaker with a level of reliability such that it can lead to a person being convicted by the courts.
  • malicious uses of such software can have consequences for individuals who are much less so, sometimes creating irremediable harm such as in the case of harm to life. private. This is why audio-phonic processing techniques can be used to protect speakers whose voice recording is likely to be broadcast or intercepted on communication networks.
  • Speech recognition is used to recognize what is being said. Therefore, it helps transform speech into text and that is why it is also known as speech to text conversion.
  • the voice is masked, making it possible to meet the requirement for protection of the speaker(s), since the process can easily be implemented in the very first equipment involved in the acquisition and processing chain. audio.
  • the process makes it possible to have a final rendering which remains intelligible, that is to say which is neither a voice of “Mickey Mouse” TM nor a voice of “Darth Vader” TM due to both alterations applied to each audio segment that produce changes in the frequency content that are in opposite directions to each other.
  • the frequency alterations are limited, one always being ascending while the other is always descending. Therefore, the software or device adapted to implement the solution cannot itself do the opposite operation.
  • two components of the spectrum of the audio signal are simultaneously altered compared to the original recording of the speaker's voice.
  • This is a first element favorable to the irreversibility of the method, because a malicious third party wishing to return to the speaker's voice origin will have to play on these two characteristics of the voice in combination, which complicates the task compared to masking by pitch shift alone.
  • the variability of alterations is not stationary. It varies over time. Thus there can be several variations over a second of processing.
  • the proposed implementation modes provide masking of the voice which is irreversible in audio, that is to say by inverse audio processing.
  • the voice masked by the proposed method is non-analyzable by known speaker recognition techniques, and does not expose the speaker to commercial practices violating his privacy using voice recognition techniques, given that the masked voice of the same speaker is never masked in the same way twice.
  • the division of the audio signal into a series of successive audio segments of determined duration can be carried out by temporal windowing independent of the content of the audio signal.
  • the division of the audio signal can be configured so that the duration of an audio segment is equal to a fraction of a second, so that successive changes in the parameters varying the first and second alterations occur several times per second.
  • the alteration of the pitch of the audio signal corresponds to a variation in the fundamental frequency of the audio signal of any of the following values: ⁇ 6.25%, ⁇ 12.5%, ⁇ 25%, ⁇ 50% and ⁇ 100%.
  • the first alteration and the second alteration are dependent on each other, fluctuating jointly so as to satisfy a determined criterion relative to their respective effects on the frequency content of the timbre of the audio segment and on the frequency content of the height of the audio segment, respectively.
  • this criterion may consist of maintaining a minimal gap between the respective effects of the two alterations, and thus avoiding temporarily returning to the original voice.
  • a second aspect of the invention relates to a computer program comprising instructions which, when the computer program is loaded into the memory of a computer and is executed by a processor of this computer, are adapted to implement implements all the steps of the process according to the first aspect of the invention above.
  • the computer program for implementing the method can be recorded in a non-transitory manner on a tangible recording medium, readable by a computer.
  • the computer program for implementing the method can advantageously be sold as a plugin, capable of being integrated into “host” software, for example audio-phonic or audio-production and/or processing software.
  • visual such as Pro Tools TM , Media Composer TM , kan Pro TM or Audition TM , among others.
  • This choice is particularly suited to the audiovisual world. In fact, this eliminates the need to transfer the original audio signal (unmasked, therefore in the clear), to a remote server or another computer. It is therefore the user's computer which alone holds the source file of the original voice, that is to say before execution of the masking process. This greatly reduces the risk of malicious interception of the original audio signal.
  • the method can be implemented by audio-phonic processing software which can very well be executed on independent hardware equipment and having standard processing capacity, for example a computer for general use. general, because its processing takes place in real time. It does not require the implementation, in particular, of any artificial intelligence, of any voice data bank, nor of any learning process, unlike a number of solutions of the prior art, in particular some of those which were presented in the introduction.
  • the computer program for implementing the method can advantageously be integrated, either ab initio or through a software update, into the internal software which is embedded in equipment dedicated to production and /or the processing of audio-phonic or audio-visual content (called “media” in the jargon of those skilled in the art), such as an audio and/or video mixing and/or editing console for example.
  • Such equipment is intended more for producers, mixers, and other media post-production professionals.
  • a third aspect of the invention relates to an audio-phonic or audio-visual processing device, comprising means for implementing the method.
  • This device can be produced in the form, for example, of a general-purpose computer capable of executing the computer program according to the second aspect above.
  • a fourth and final aspect of the invention relates to an audio-phonic or audio-visual processing device such as an editing and/or mixing console making it possible to produce media (namely audio, audiovisual content, or multimedia) corresponding to or incorporating a speech signal from a speaker, in particular from a speaker to be protected, the apparatus comprising a device according to the third aspect.
  • the human voice is the set of sounds produced by the friction of the air of the lungs on the folds of the larynx of the human being.
  • the pitch and resonance of the sounds made depend on the shape and size of not only their vocal cords, but also the rest of the person's body.
  • Vocal cord size is one source of the difference between male and female voices, but it is not the only one.
  • the trachea, mouth, pharynx, for example, define a cavity in which the sound waves emitted by the vocal cords resonate. Additionally, genetic factors cause the difference in vocal cord size within people of the same sex.
  • the method makes it possible to mask a speaker's voice in order to protect their identity and/or their privacy.
  • the protection of the identity and/or privacy of the speaker is achieved by an intentional alteration not only of the pitch but also of the timbre of the speaker's voice.
  • This alteration is carried out by digital signal processing techniques, on the basis of processing algorithms implemented by computer.
  • a complex sound of fixed pitch can be analyzed into a series of elementary vibrations, called natural harmonics, whose frequency is a multiple of that of the reference frequency, or fundamental frequency.
  • natural harmonics whose frequency is a multiple of that of the reference frequency, or fundamental frequency.
  • the fundamental frequency (from which the frequencies j ⁇ f of the harmonics arise) characterizes the perceived pitch of a note, for example an “A”.
  • the distribution of the intensities of the different harmonics according to their rank j characterized by their envelope, defines the timbre. The same goes for a speech signal as for musical notes, speech being only a succession of sounds produced by the vocal apparatus of a human being.
  • the timbre of a musical instrument or a voice designates the set of sound characteristics which allow an observer to identify by ear the sound produced, independently of the pitch and intensity of this sound. her.
  • the timbre makes it possible, for example, to distinguish the sound of a saxophone from that of a trumpet playing the same note with the same intensity, these two instruments having their own resonances, which distinguish sounds when listening: the sound of a saxophone contains more energy on the harmonics of relatively lower frequencies which gives a relatively more “dull” sound timbre, while the timbre of the sound of a trumpet has more energy on the harmonics of relatively higher frequencies in order to give a “clearer” sound, although having the same fundamental frequency.
  • we designate by vocal register the set of frequencies emitted with an identical resonance that is to say the part of the vocal range in which a singer, for example, emits sounds of respective pitches with a almost identical stamp.
  • the organization chart of the figure 1 schematically illustrates the main stages of the process of masking a speaker's voice.
  • the method can be implemented in an audio-phonic system 20 as represented very schematically in the figure 2 .
  • This system may include hardware means 201 and software means 202 allowing this implementation.
  • this signal can belong to an audiovisual program (mixing sound and images), such as a video of the interview. of a witness wishing and/or having to remain anonymous, filmed for example using a “hidden camera” or accompanied by blurring of the image of the witness to be protected.
  • the speech signal can correspond to all or part of the soundtrack of a video, and generally of any audio-phonic, radio, audiovisual or multimedia program.
  • the audio-phonic system 20 is for example audiovisual mixing equipment, used to edit video sequences in order to produce an audiovisual program from various video sequences and their respective “soundtracks”.
  • the hardware means 201 of the audio-phonic system 20 comprise at least one calculator, such as a microprocessor associated with random access memory (or RAM), and means for reading and recording of digital data on digital recording media (mass memory such as an internal hard disk), and data interfaces for exchanging data with external devices.
  • a calculator such as a microprocessor associated with random access memory (or RAM)
  • mass memory such as an internal hard disk
  • data interfaces for exchanging data with external devices.
  • an audio signal acquisition device 31 such as a microphone (or micro)
  • the system 20 can communicate in reading and/or writing with other external data carriers, in order to read thereon the data of an audio signal to be processed and/or to record the data of the audio signal thereon. audio signal after processing.
  • the system 20 may include means of communication such as a modem or an Ethernet, 4G, 5G network card, etc., or even a Wi-Fi or Bluetooth® communication interface.
  • the software means 201 of the audio-phonic system 20 comprise a computer program which, when loaded into the RAM and executed by the processor of the audio-phonic system 20, is adapted to execute the steps of the method of masking the signal from a speaker.
  • step 11 the sound of the speaker's voice is captured via the microphone 31 of the system 20, either for immediate processing in the system 20, or for deferred processing.
  • immediate processing we mean processing carried out during the acquisition of the audio signal, without an intermediate step of fixing this audio signal on any permanent recording medium.
  • the data from the original audio signal then only passes through the RAM (non-permanent memory) of the system 20.
  • deferred processing means processing which is carried out from a recording, made within or under the control of the audio-phonic system 20, of the speaker's speech signal acquired via the microphone 31.
  • This recording is fixed on a mass data storage medium, for example a hard disk internal to the system 20. It can also be a peripheral hard disk, that is to say external, coupled to this system. It may also be another peripheral data storage device with permanent memory capable of storing the audio data of the speech signal permanently, such as a USB key, a memory card (Flash type or other) or an optical or magnetic recording medium (audio CD, CD-Rom, DVD, Blu-Ray disc, etc.).
  • the mass data storage medium can also be a data server with which the audio-phonic system 20 can communicate to download (" upload " in English) the data of the audio signal so that they are stored there, and for later download them for subsequent processing.
  • This server can be local, that is to say part of a local network of the LAN type (from the English " Local Area Network ") to which the audio-phonic system 20 also belongs.
  • the data server can also be a remote server, such as a data server in the Cloud which is accessible via the open Internet.
  • the speech signal corresponding to the speaker's speech sequence may have been acquired via other equipment, distinct from the audio-phonic system 20 which implements the method of masking the speaker's voice.
  • an audio data file encoding the speaker's voice may have been recorded on a removable data medium, which can then, in step 11, be coupled to the audio-phonic system 20 for reading the audio data.
  • This audio data file may also have been downloaded to a data server in the Cloud, to which the audio-phonic system 20 can also access in order to download the audio data of the audio signal to be processed.
  • step 11 of the method then consists solely, for the audio-phonic system 20, of accessing the audio data of the speaker's speech signal.
  • step 11 of the method comprises a (temporal) division of the original speech signal, into a series of successive audio segments of determined duration, which is constant from one segment to another in the series of segments. thus produced.
  • the division of the audio signal into a series of successive audio segments of the same determined duration is carried out by temporal windowing which is independent of the content of the audio signal, and which can be done "on the fly”.
  • the windowing is independent of both the frequency content, that is to say the distribution of energy in the frequency spectrum of the audio signal , and the informational or linguistic content, that is to say the semantics and/or the grammatical structure of the speech contained in this audio signal, in the language spoken by the speaker.
  • the method is therefore very simple to implement, since no physical or linguistic analysis of the signal is necessary to generate signal segments to be processed.
  • a temporal windowing operation makes it possible to process a signal of length voluntarily limited to a duration ⁇ , knowing that any calculation can only be done on a finite number of values.
  • an observation window function also called a weighting window and denoted h(t).
  • the simplest, but not necessarily the most used or preferred, is the rectangular window (or door) of size m defined as follows: h t ⁇ 1 , if t ⁇ 0 m 0 , Otherwise
  • the duration D of an audio segment s k ( ⁇ ) is equal to a fraction of a second, for example between 10 milliseconds (ms) and 100 ms (in other words, D ⁇ [10 ms, 100 ms ]).
  • An audio segment then has a duration less than that of a word of the language spoken by the speaker, whatever the language in which he or she speaks. This duration is a fortiori less than the duration of a sentence or even a portion of a sentence in this language.
  • the duration of an audio segment s k ( ⁇ ) is then, at most, of the order of the duration of a phoneme, that is to say the duration of the smallest speech unit ( vowel or consonant).
  • An audio segment s k ( ⁇ ) therefore does not carry, in itself, any informational content with regard to spoken language, because its duration is far too short for that. This gives the masking process the advantage of simplicity, and in addition good robustness against the risk of reversion.
  • Step 11 also includes the formation of a series of pairs of audio segments each comprising a primate and a duplicate of an audio segment of the series of audio segments above.
  • these couples can more particularly be defined in the frequency domain, after Fourier transform (TF) applied to the segments s k ( ⁇ ) of the audio signal in the time domain.
  • TF Fourier transform
  • the series of primates and the series of duplicates of the audio segments of the speech signal undergo processing for each primate and each duplicate of the audio segment of a pair, to extract on the one hand, the envelope of the harmonics characterizing the timbre of the audio segment, and on the other hand, the signal characterizing the pitch of the audio segment.
  • the series of timbres and the series of pitches are designated indifferently by the letters A and B, or vice versa).
  • the signals characterizing the pitch and the timbre extracted from the primate and the duplicate undergo parallel processing, essentially independent of each other. These treatments are illustrated by steps 12a and 13a of the left branch and by steps 12b and 13b of the right branch, respectively, of the algorithm illustrated schematically by the flowchart of the figure 1 .
  • Step 12a is a first ascending alteration (denoted MODa, in the following and in the drawings), applied to each element of the series A of the audio segments.
  • This ascending alteration is not identical from one element to another in the A series. On the contrary, it evolves as a function of at least a first masking parameter.
  • this first ascending alteration always has the effect of raising a determined part of the frequency content of the primacy of the audio segment to which it is applied. By this we mean that all or part of the primacy frequencies of the segment considered are shifted towards high frequencies, compared to the corresponding audio segment of the original speech signal. Applying the first alteration generates an altered timbre (here towards the top) of the audio segment.
  • Step 12b is a second, descending alteration (denoted MOD B in the following and in the drawings), applied to each element of series B of audio segments.
  • this descending alteration MOD B is not identical from one element to another in series B. This means that it evolves, depending on at least one second masking parameter.
  • this downward alteration always has the effect of lowering a determined part of the frequency content of the element of the audio segment to which it is applied. By this we mean that all or part of the frequencies of the audio segment considered are shifted towards low frequencies, compared to the corresponding audio segment of the original speech signal. Applying the second alteration generates an altered pitch (here towards the bottom) of the audio segment.
  • each of the alterations MOD A and MOD B it is then advantageous for each of the alterations MOD A and MOD B to be restricted from the point of view of the evolution of the frequency content of the elements of the audio segment to which it is applied.
  • these alterations of the frequency spectrum are each only ascending or only descending, without any inflection in the direction of movement of the frequencies concerned in the spectrum considered. In fact, this prevents the audio-phonic system 20 from being able to be used itself by malicious people to whom it has been provided or made available, or who could have access to it by any other means, in order to reverse the alteration of the audio signal.
  • Such a reversion could in fact consist of applying to the masked audio signal (which the malicious third party would have copied or intercepted in any way), alterations with judiciously chosen masking parameters to return to the original speech signal, this is i.e. to the audio signal corresponding to the natural voice of the speaker. But thanks to the modes of implementation described above, such a maneuver is not possible with the audio-phonic system 20 according to the invention itself. Indeed, no change in the values of the masking parameters of the ascending alteration MOD A and the descending alteration MOD B that the malicious third party could attempt can have the effect of reversing the unidirectional movements of the pitch (height) and of the timbre, respectively, of the original speech signal.
  • the audio system 20 does not offer the possibility of reversibility of the alteration that it produces. This does not prohibit a malicious third party from attempting this fraud with other means, but at least the system used to mask the audio signal containing the natural voice of a speaker cannot be diverted from its function, in fact. “returned”, in order to remove the protection of the speaker that it provides.
  • the method then comprises a step 15 of combining the timbre of the audio segment, altered by the MOD A alteration and which was obtained in step 12a, on the one hand, and the pitch of the audio segment, altered by the alteration MOD B and which was obtained in step 12b, on the other hand, to form a single resulting altered audio segment.
  • a step 15 we mean here an operation having, from a physical point of view, the effect of recombining the respective altered spectra, that is to say of merging the respective frequency contents of the altered timbre of the audio segment and of the altered pitch. of said audio segment, possibly with averaging and/or smoothing.
  • this can be obtained by multiplication (“ ⁇ ” symbol) or by convolution (“ ⁇ ” symbol), either in the time domain or in the frequency domain after transformation of the audio signal(s). s) from the time domain into the frequency domain by a Fourier transform.
  • steps 12a and 12b on the one hand, and steps 13a and 13b on the other hand can be carried out in the reverse order to that presented in the figure 2 .
  • steps 13a and 13b can be executed after (as shown) or before steps 12a and 12b.
  • the alteration of the height of the audio signal can thus correspond to an “oriented” variation, namely a rise or fall, of the fundamental frequency of the audio signal, which can take any of the following determined values: ⁇ 6.25%, ⁇ 12.5%, ⁇ 25%, ⁇ 50% and ⁇ 100%.
  • These example values correspond approximately to variations of a semitone, tone, third, fifth, or octave, respectively, in pitch (i.e. of the fundamental frequency, or “pitch”) of the original speech signal.
  • step 14 The sequential repetition of step 14 for the successive pairs of primates and duplicates of the audio segments generated in step 11, generates a series of altered audio segments.
  • the method finally comprises, in step 15, the recomposition of the masked audio signal from the series of altered audio segments obtained by the repetition of the previous steps, 12a-12b, 13a-13b and 14.
  • This recomposition is carried out by superposition-addition, in the time domain, of the successive elements of the series of altered audio segments produced in step 14, as they are transformed.
  • the frequency content is doubly altered, compared to the spectrum of the considered segment of the original speech signal. This results from the accumulation of the respective effects of the MOD A and MOD B functions.
  • the successive changes of the first masking parameter and the second masking parameter which occur at each occurrence of steps 13a and 13b, respectively, induce random variations of said first parameter and second parameter, of a pair to the other in the series of pairs of audio segments generated in step 11.
  • MOD A and MOD B alterations relate to different components of the spectrum of the segment considered of the original speech signal, as in addition they use distinct masking parameters, and as finally their respective masking parameters evolve independently of one of the other randomly, the masking effect which is obtained is very difficult, if not impossible, to reverse.
  • the variations of the first and second masking parameters are themselves fluctuating randomly, from one pair of segments to another in the series of pairs of audio segments.
  • the variations denoted VAR A and VARs in steps 13a and 13b of the parameters of the modifications denoted MOD A and MOD B introduced in steps 12a and 12b fluctuate, as a function of time.
  • this fluctuation occurs from a segment to another of the original speech signal. Therefore, on the figure 1 , this fluctuation is symbolized by an operation denoted VAR A+B in step 14.
  • FIG. 3A and the Figure 3B illustrate a mode of implementation of the descending alteration and the ascending alteration, respectively, which can be applied to the timbre and the height (or pitch) of an audio signal segment, in step 12a and at step 12b, respectively, of the method illustrated by the flowchart of the figure 1 .
  • the ascending alteration MOD A is applied to the pitch of the voice, symbolized at the Figure 3A by a tuning fork.
  • a tuning fork is known as an object whose acoustic resonance produces a sound with a pure frequency, such as the fundamental frequency (or pitch) of a human voice.
  • the descending alteration MOD B is applied to the timbre of the voice, symbolized at the figure 4A by the envelope of the frequency spectrum of an audio signal.
  • the example represented by the figures 3A And 3B is not limiting.
  • the ascending alteration MOD A can conversely be applied to the fundamental frequency (pitch) while the descending alteration MOD B would be applied to all or part of the harmonic envelope (timbre).
  • the two alterations MOD A and MOD B each produce displacements of certain frequencies (namely, in the example considered here, the pitch for one, and the envelope of the harmonics for the other) following opposite directions in the frequency spectrum (i.e. an ascending direction towards the treble for one, and a descending direction towards the bass for the other).
  • these effects operating in two different directions allow good protection while preserving a certain intelligibility of the audio signal.
  • the “masculinizing” effect of a frequency shift towards the bass which results from the ascending alteration MOD A is partly counterbalanced by the “feminizing” effect of a frequency shift towards the treble which results from the descending alteration MOD A. This avoids generating a masked signal close to the voice of “Darth Vader” TM or close to the voice of “Mickey Mouse” TM .
  • the audio file obtained after implementing the process of figure 1 may be transmitted by electronic mail, posted online on social networks or on a website, broadcast on the airwaves, or distributed on any recording medium.
  • the process makes it possible to mask the voice a posteriori, on a recording of the speaker's voice, as can easily be done with audio editing software.
  • the method does not allow audio or video calls to be made with a masked voice.
  • the process is implemented on the audio-phonic or audio-visual platform with which the speaker's voice is acquired, the original voice does not circulate on any computer network, which avoids a risk of interception by a malicious third party of data corresponding to the unmasked voice.
  • the computer program which implements the masking method, by carrying out the calculations of the corresponding digital processing can be included in a host software, for example the operational software of an audio-phonic processing environment, such as a audio mixing or audio-visual editing console.
  • FIG. 4A is a frequency diagram of a recorded audio sequence, showing the distribution of energy as a function of time (on the abscissa) and frequency (on the ordinate).
  • FIG 4B is a frequency diagram of the audio sequence of the Figure 4A after the implementation of a voice masking process according to the prior art, by simple pitch shift. We sometimes speak of a “pitched” signal to designate the signal having undergone such an offset. We can clearly see by comparing these two frequency diagrams that there is a very strong analogy of the harmonics of the signal between the original signal and the pitched signal.
  • ⁇ s k ( ⁇ ) Such a segment is denoted s k ( ⁇ ) at the top of the Figure 6 .
  • the segment s k ( ⁇ ) is the subject in step 61 of a Fourier Transform (TF), for example a short-term Fourier transform known by the acronym TFCT (or STFT, from the English " Short Term Fourier Transform ”) in order to move into the time-frequency domain.
  • TFCT short-term Fourier transform
  • STFT short Term Fourier Transform
  • step 62 the segment S k ( t , f ) is decomposed into a module term denoted X k ( t, f) and a phase term denoted Q k (t, f).
  • X k t f X k t f ⁇ Q k t f
  • X k t f ⁇ S k t f ⁇
  • Q k t f exp i ⁇ Arg S k t f , where Ar g denotes the argument of a complex number.
  • the timbre component A k ( t , f ) can be obtained by the cepstrum method.
  • IFFT Inverse Fourier Transform
  • the cepstrum which is a dual temporal form of the logarithmic spectrum (the frequency domain spectrum becomes cepstrum in time domain).
  • the fundamental frequency can be calculated from the cepstral signal by determining the index of the main peak of the cepstrum and we obtain, by windowing the cepstrum, the envelope of the spectrum which corresponds to the timbre component A k ( t , f ) .
  • the height component (or pitch) B k ( t , f ), for its part, can then be obtained by dividing the signal X k ( t , f) point to point by the value of the timbre component A k ( t , f ) .
  • the height (or pitch) component B k ( t , f ) we can “subtract” (which is carried out by a division calculation in the time-frequency space) from the term of module _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ characterizing the height (or pitch) or more generally what is called the fine structure of the Spectral Power Density (PSD).
  • PSD Spectral Power Density
  • the frequency alteration functions ⁇ A ( f ) and ⁇ B ( f ) correspond to the alterations MOD A and MOD B , respectively, which were presented above with reference to the figure 1 .
  • the time variation functions ⁇ A ( t ) and ⁇ B ( t ) correspond to the variations VAR A and VARs, respectively, which were presented above with reference to the figure 1 .
  • step 64a comprises the application to the signal A k ( t , f) which corresponds to the timbre component, on the frequency scale f , of the temporal variation function ⁇ A ( t ), to generate a signal intermediate, denoted A' k ( t, f ), of the timbre component A k ( t , f ) .
  • the function ⁇ A ( t ) is a linear function. Preferably, and as has already been mentioned above, it fluctuates over time in a random manner, varying from one original audio signal segment to another in the series of segments S k ( t , f ) which are processed in sequence. In other words, it changes as a function of the value of the index k, according to a random process whose refreshing is governed by a parameter ⁇ , so that the alteration of the timbre is not stationary.
  • the function ⁇ B ( t ) is a linear function.
  • it fluctuates over time in a random manner, varying from one original audio signal segment to another in the series of segments S k ( t , f ) which are processed in sequence.
  • it changes according to the value of the index k according to a random process whose refreshing is governed by a parameter ⁇ so that the alteration of the height is not stationary.
  • the temporal variation function ⁇ A ( t ) can vary according to a random walk within a determined amplitude range [ ⁇ A min , ⁇ A max ] and with a temporal refresh rate corresponding to the parameter ⁇ mentioned above, where ⁇ A min , ⁇ A max and ⁇ are first masking parameters, associated with the temporal variation function ⁇ A ( t ) .
  • the temporal variation function ⁇ B ( t ) can for example vary according to a random walk within an amplitude range [ ⁇ B min , ⁇ B max ] and with a temporal refresh rate corresponding to the aforementioned parameter ⁇ , where ⁇ B min , ⁇ B max and ⁇ are second parameters, associated with the temporal variation function ⁇ B ( t ) .
  • the fluctuations of the two temporal variation functions ⁇ A ( t ) and ⁇ B ( t ) are preferably independent of each other, in order to reinforce the irreversibility of the alterations. In other words, the temporal variation functions ⁇ A ( t ) and ⁇ B ( t ) are uncorrelated.
  • the parameter ⁇ is the parameter of the fluctuation denoted VAR A+B at the figure 1 .
  • This parameter defines, for example, the number of random variations per second of alterations in the spectrum of an audio segment. For example, if ⁇ were equal to zero, the variations VAR A and VARs are stationary, so that the results of the alterations MOD A and MOD B would be fixed, which is not the case in practice.
  • has a value between 1 and 10. This value being homogeneous at a frequency, we can say that ⁇ is between 1 and 10 Hz. This value is lower than the frequency of the temporal division of the original speech signal into audio segments (by windowing) , which is more of the order of 100 Hz.
  • steps 65a and 65b frequency alteration functions ⁇ A ( f ) and ⁇ B ( f ) are applied, respectively, to the timbre component A k (t, f) and to the pitch component B k ( t , f ), respectively, to generate a timbre component of the masked audio segment, denoted A" k ( t , f), and a pitch component of the masked audio segment, denoted B" k ( t , f ), respectively.
  • These frequency alteration functions ⁇ A ( f ) and ⁇ B ( f ) correspond to the alterations noted MOD A and MOD B on the figure 1 .
  • the alteration functions ⁇ A ( f ) and ⁇ B ( f ) are monotonic, that is to say that the deformation that they introduce on the frequency axis is either ascending with the effect of raising a determined part of the frequency content of the audio segment s k ( ⁇ ), or descending with the effect of lowering a determined part of the frequency content of the audio segment s k ( ⁇ ). Furthermore, they are constrained in the opposite direction, in the sense that, if one is ascending monotonous, the other is descending monotonous, and vice versa. This prevents the software which implements the masking process from being used itself to attempt a reversion of the speaker's voice masking process, as has already been explained above with reference to steps 12a and 12b of the figure 1 .
  • the following two steps make it possible to keep the temporality of the original by resynthesizing the audio signal masked by the index k .
  • step 67 includes the reconstruction of each modified audio segment, denoted X " k ( t , f ), in the time-frequency domain, by recombination of the new envelope A " k ( t, f ) and the new fine structure of the frequency spectrum B " k ( t , f ) of the audio segment considered.
  • the term "new" used here in reference to the envelope and the fine structure means that it is the envelope and the fine structure after masking, that is to say after application of the frequency alteration functions ⁇ A ( f ) and ⁇ B ( f ) correspond to the alterations MOD A and MOD B , respectively, and the temporal variation functions ⁇ A ( t ) and ⁇ B ( t ), respectively.
  • Step 68 includes the recomposition of each masked audio segment denoted S" k ( t , f ), in the time-frequency domain.
  • the corrected phase component Q " k ( t , f ) of the masked audio segment S " k ( t , f ) is obtained, in the example shown in Figure 6 , in step 66 from the phase term Q k ( t , f ) of the audio segment considered S k ( t , f ), which phase term was generated in step 62.
  • Step 66 has for function of providing a correction of the phase term Q k ( t , f) of the audio segment S k ( t , f) as a function of the random variations ⁇ B ( t ) and the alteration function ⁇ B ( f ) which were applied to the pitch term B(t, f).
  • phase correction is known per se and is generally implemented in any signal transformation processing as soon as the power spectral density of a signal is modified.
  • it is generated in step 66 only as a function of the modifications made to the pitch component B " k ( t , f ) of the power spectral density of the audio segment masked S " k ( t , f ) with respect to the pitch component Bk ( t , f ) of the power spectral density of the original audio segment Sk ( t , f ) .
  • the modifications made to the height (pitch) which call for a phase adjustment of the frequency components of the spectrum.
  • step 66 could also take into account the modifications made to the timbre component A " k ( t , f ) of the frequency spectral density of the masked audio segment S " k ( t , f) with respect to the timbre component A k ( t , f ) of the frequency spectral density of the original audio segment S k ( t , f ) .
  • This is not shown on the organization chart of the Figure 6 in order not to overload it, which would harm its readability, but the person skilled in the art understands, on the basis of his usual knowledge and in view of the indications provided here, the way in which this can be implemented in practice.
  • step 69 consists of generating the masked signal s " k ( ⁇ ) in the time domain, from the signal S " k ( t , f ) in the time-frequency domain. For example, this can be obtained by an OLA method (from the English “OverLap-and-Add ”) on the successive inverse Fourier Transforms of s" k ( ⁇ ) .
  • the OLA method also called the superposition and addition method, is based on the linearity property of linear convolution, the principle of this method consisting of decomposing the linear convolution product into a sum of linear convolution products.
  • other methods can be considered by those skilled in the art to carry out this inverse Fourier transform, in order to generate s" k ( ⁇ ) in the time domain from S " k ( t , f ) in the time domain. time-frequency domain.
  • the method which has been presented in the preceding description can be implemented by a computer program, for example as a plugin which can be integrated into audio-phonic or audio-visual processing software.
  • the reference 60 collectively designates the parameters of masking the voice of a speaker, namely ⁇ A min , ⁇ A max , ⁇ B min , ⁇ B max , ⁇ , ⁇ A and ⁇ B which can be adjusted by a user, via a man-machine interface adapted from the device on which the speaker's voice masking software is executed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

L'invention concerne le masquage de la voix d'un locuteur par altération intentionnelle de la hauteur et du timbre de la voix. Un signal audio correspondant à un enregistrement original de la voix du locuteur est découpé (11) en une série de segments audios successifs de durée constante déterminée. Une altération de fréquence ascendante (12a) est appliquée à un timbre (A) extrait de chaque segment audio. Une altération de fréquence descendante (12b) est appliquée à une hauteur (B) extraite du segment audio. La hauteur altérée et le timbre altéré du segment audio sont combinés (14) pour former un unique segment audio altéré résultant. D'un segment audio à l'autre dans la série des segments audios on applique une variation (13a) de l'altération ascendante et une variation (13b) de l'altération descendante. Ces variations fluctuent aléatoirement d'un segment audio à l'autre dans la série des segments audios.The invention relates to masking a speaker's voice by intentionally altering the pitch and timbre of the voice. An audio signal corresponding to an original recording of the speaker's voice is divided (11) into a series of successive audio segments of determined constant duration. An ascending frequency alteration (12a) is applied to a timbre (A) extracted from each audio segment. A descending frequency alteration (12b) is applied to a pitch (B) extracted from the audio segment. The altered pitch and altered timbre of the audio segment are combined (14) to form a single resulting altered audio segment. From one audio segment to another in the series of audio segments, a variation (13a) of the ascending alteration and a variation (13b) of the descending alteration is applied. These variations fluctuate randomly from one audio segment to another in the series of audio segments.

Description

Domaine techniqueTechnical area

La présente invention concerne le masquage de la voix d'un locuteur, notamment pour protéger l'identité du locuteur en restreignant la possibilité de l'identifier par analyse d'un enregistrement original de sa voix.The present invention relates to masking the voice of a speaker, in particular to protect the identity of the speaker by restricting the possibility of identifying him by analysis of an original recording of his voice.

Elle trouve des applications, notamment, dans les systèmes de montage et/ou de mixage audio-phoniques ou audio-visuels dans lesquels elle peut être mise en oeuvre par un logiciel de traitement audio-phonique.It finds applications, in particular, in audio-phonic or audio-visual editing and/or mixing systems in which it can be implemented by audio-phonic processing software.

Arrière-plan technologiqueTechnology background

Dans certains domaines de l'industrie audiovisuelle, par exemple, il est utile de pouvoir diffuser des programmes (contenus audios, et/ou vidéos, et/ou multimédias), en dissimulant l'identité du locuteur afin de protéger ce dernier de tout type de conséquences de cette diffusion qui peuvent être dommageables pour lui. Par exemple, dans le journalisme d'investigation, il est courant d'anonymiser l'enregistrement de l'interview d'un témoin qui pourrait être utilisé contre les intérêts de celui-ci, soit par les auteurs de délits qu'il dénonce, soit par des justiciables ou par une institution judiciaire compétente si le témoin y reconnaît avoir enfreint une réglementation quelconque.In certain areas of the audiovisual industry, for example, it is useful to be able to broadcast programs (audio, and/or video, and/or multimedia content), while concealing the identity of the speaker in order to protect the latter from any type of consequences of this diffusion which may be damaging for him. For example, in investigative journalism, it is common to anonymize the recording of a witness's interview which could be used against the witness's interests, either by the perpetrators of crimes he or she denounces, either by litigants or by a competent judicial institution if the witness admits to having violated any regulation.

Des techniques visant à anonymiser la voix d'un locuteur dans un signal audio, c'est-à-dire à rendre difficile l'identification du locuteur à partir d'une analyse du signal audio, sont connues depuis longtemps. La plus ancienne et la plus répandue se contente de transformer la voix du locuteur par simple décalage d'harmoniques. Ce décalage peut être réalisé soit vers les hautes fréquences, c'est-à-dire vers les aigus, soit vers les basses fréquences, c'est-à-dire vers les graves. En référence à des personnages de programmes audiovisuels de fiction bien connus du grand public, on dit parfois que la voix ainsi transformée ressemble à la voix de « Mickey-Mouse » ou bien à la voix de « Dark Vador » , lesquelles sont générées par de telles techniques à partir de la voix d'une personne réelle. Cependant, la transformation de la voix ainsi obtenue est facilement réversible avec des moyens techniques aujourd'hui accessibles par beaucoup de personnes, sinon par tout-un-chacun.Techniques aimed at anonymizing the voice of a speaker in an audio signal, that is to say making it difficult to identify the speaker from an analysis of the audio signal, have been known for a long time. The oldest and most widespread simply transforms the speaker's voice by simply shifting harmonics. This shift can be achieved either towards high frequencies, that is to say towards the treble, or towards low frequencies, that is to say towards the bass. In reference to characters from fictional audiovisual programs well known to the general public, it is sometimes said that the voice thus transformed resembles the voice of “Mickey-Mouse” or the voice of “Darth Vader” , which are generated by such techniques from the voice of a real person. However, the transformation of the voice thus obtained is easily reversible with technical means. today accessible by many people, if not by everyone.

Par ailleurs, des logiciels de reconnaissance vocale, ou plus particulièrement de reconnaissance d'un locuteur (« speaker recognition », en anglais) sur la base de sa signature vocale sont parfois utilisés par la police pour identifier des personnes proférant des menaces téléphoniques ou à l'origine d'appels anonymes. Or, il existe aujourd'hui certains logiciels de ce type qui permettent d'identifier un locuteur avec un niveau de fiabilité tel qu'ils peuvent conduire à une condamnation d'une personne par la Justice. Même si une telle utilisation peut sembler louable du point de vue de la collectivité, des utilisations malveillantes de tels logiciels peuvent avoir des conséquences pour les individus qui le sont beaucoup moins, pouvant créer un préjudice parfois irrémédiable comme en matière d'atteinte à la vie privée. C'est pourquoi les techniques de traitement audio-phonique peuvent être utilisées pour protéger les locuteurs dont un enregistrement de la voix est susceptible d'être diffusé ou intercepté sur les réseaux de communication.Furthermore, voice recognition software, or more particularly speaker recognition software based on their voice signature, is sometimes used by the police to identify people making telephone or other threats. the origin of anonymous calls. However, there is today certain software of this type which makes it possible to identify a speaker with a level of reliability such that it can lead to a person being convicted by the courts. Even if such use may seem laudable from the point of view of the community, malicious uses of such software can have consequences for individuals who are much less so, sometimes creating irremediable harm such as in the case of harm to life. private. This is why audio-phonic processing techniques can be used to protect speakers whose voice recording is likely to be broadcast or intercepted on communication networks.

Enfin un autre cas où la protection des locuteurs est souhaitable est celui des applications de la saisie vocale utilisant la reconnaissance de la parole (« speech recognition », en anglais) pour permettre l'accès à des services par des utilisateurs. La reconnaissance de la parole est utilisée pour reconnaître ce qui est dit. Dès lors, elle permet de transformer le discours en texte et c'est pourquoi elle est également connue sous le nom de conversion de la parole en texte.Finally, another case where protection of speakers is desirable is that of voice input applications using speech recognition to allow access to services by users. Speech recognition is used to recognize what is being said. Therefore, it helps transform speech into text and that is why it is also known as speech to text conversion.

L'article « Voice Mask : Anonymize and Sanitize Voice Input on Mobile Devices » publié dans le revue scientifique COMPUTER SCIENCE, CRYPTOGRAPHY AND SECURITY, Cornell University, US, 30 novembre 2017, pages 1-10, Jianwei Qian et al., divulgue ainsi qu'avec la communication mains libres, la saisie vocale a largement remplacé l'utilisation de claviers à touches classiques (par exemple, les claviers virtuels Google®, Microsoft®, Sougou et iFlytek). Ces techniques sont utilisées quotidiennement par de nombreux utilisateurs pour la recherche vocale (avec, par exemple, des applications comme Microsoft Bing®, Google Search®) et les assistants personnels basés sur l'intelligence artificielle (par exemple Siri® d'Apple®, et Amazon Echo®), avec une gamme étendue d'appareils mobiles. Dans ces applications, en raison de la limitation des ressources sur les appareils mobiles, l'opération de reconnaissance de la parole est généralement déportée vers un serveur informatique en nuage (« cloud computing ») pour une plus grande précision et une efficacité accrue. Il s'ensuit que la vie privée (« privacy » en anglais) des utilisateurs peut être compromise. En effet, même si dans ces applications seulement le contenu de la parole a besoin d'être reconnu par la reconnaissance de la parole, il est devenu aisé de pratiquer une reconnaissance du locuteur afin de reconnaître les utilisateurs mobiles habituels par leur voix, via des techniques d'apprentissage tirant avantage de la récurrence des utilisations, d'analyser le contenu sensible de leurs entrées via la reconnaissance de la parole, et puis de dresser leur profil d'utilisateur sur la base de ces contenus dans le but d'apporter des réponses biaisées à leur requêtes et/ou de leur faire des propositions commerciales ciblées. Les auteurs de l'article proposent une application de neutralisation de la voix qui assure une bonne protection de l'identité de l'utilisateur et du contenu privé de la parole, au prix d'une dégradation minimale de la qualité de la reconnaissance vocale. Elle adopte un mécanisme de conversion vocale qui résiste à plusieurs attaques.The article “Voice Mask: Anonymize and Sanitize Voice Input on Mobile Devices” published in the scientific journal COMPUTER SCIENCE, CRYPTOGRAPHY AND SECURITY, Cornell University, US, November 30, 2017, pages 1-10, Jianwei Qian et al., thus disclose that with hands-free communication, voice input has largely replaced the use of traditional keypads (for example, Google ® , Microsoft ® , Sougou and iFlytek virtual keyboards). These techniques are used daily by many users for voice search (with, for example, applications like Microsoft Bing ® , Google Search ® ) and personal assistants based on artificial intelligence (e.g. Siri ® from Apple ® , and Amazon Echo ® ), with a wide range of mobile devices. In these applications, due to resource limitations on mobile devices, the speech recognition operation is generally offloaded to a cloud computing server for greater accuracy and efficiency. It follows that the privacy of users may be compromised. Indeed, even if in these applications only the speech content needs to be recognized by speech recognition, it has become easy to practice speaker recognition in order to recognize usual mobile users by their voice, via learning techniques taking advantage of the recurrence of uses, to analyze the sensitive content of their inputs via speech recognition, and then to draw up their user profile on the basis of this content in order to provide biased responses to their requests and/or making them targeted commercial proposals. The authors of the article propose a voice neutralization application that provides good protection of the user's identity and private speech content, at the cost of minimal degradation of the quality of voice recognition. It adopts a voice conversion mechanism that resists multiple attacks.

L'article « Speaker Anonymization for Personal Information Protection Using Voice conversion Techniques », Proceedings of Access 2020, Digital Object Identifier, Vol.8 2020, pages 198637-198645, IEEE, US, In-Chul Yoo et al., divulgue la conversion de la voix pour assurer l'anonymisation d'un locuteur avec pour objectif de conserver le contenu linguistique de la parole donnée tout en supprimant les données biométriques de la voix du locuteur original. La méthode proposée modifie les vecteurs d'identité conventionnels du locuteur en vecteurs d'identité du locuteur anonymisés en utilisant diverses méthodes.The article “Speaker Anonymization for Personal Information Protection Using Voice conversion Techniques”, Proceedings of Access 2020, Digital Object Identifier, Vol.8 2020, pages 198637-198645, IEEE, US, In-Chul Yoo et al., discloses voice conversion to ensure speaker anonymization with the objective of retaining the linguistic content of the given speech while removing biometric data from the original speaker's voice. The proposed method modifies conventional speaker identity vectors into anonymized speaker identity vectors using various methods.

L'article intitulé « Speaker Anonymization Using X-vector and Neural Waveform Models », Proceedings of 10th ISCA Speech Synthesis Workshop, 20-22 Septembre 2019, Vienne, Autriche, pages 155-160, Fuming Fan et al., propose une approche d'anonymisation de locuteur pour dissimuler l'identité du locuteur tout en maintenant une haute qualité de parole anonyme, qui est basée sur l'idée d'extraire les caractéristiques linguistiques et d'identité du locuteur d'un énoncé, puis de les utiliser avec des modèles neuronaux acoustiques et de forme d'onde pour synthétiser la parole anonyme. L'identité originale du locuteur, sous la forme du timbre, est supprimée et remplacée par celle d'une pseudo-identité anonyme. L'approche exploite les représentations de pointe des locuteurs sous forme de vecteurs X. Ces représentations sont utilisées pour dériver des discours anonymes. Celles-ci sont utilisées pour dériver des pseudo-identités de locuteurs anonymes par la combinaison de plusieurs vecteurs X de locuteurs aléatoires.The article titled “Speaker Anonymization Using X-vector and Neural Waveform Models”, Proceedings of 10th ISCA Speech Synthesis Workshop, September 20-22, 2019, Vienna, Austria, pages 155-160, Fuming Fan et al., propose a speaker anonymization approach to conceal the identity of the speaker while maintaining a high quality of anonymous speech, which is based on the idea of extracting linguistic and speaker identity features from an utterance and then using them with acoustic and waveform neural models to synthesize anonymous speech. The original identity of the speaker, in the form of the timbre, is removed and replaced with that of an anonymous pseudo-identity. The approach exploits speakers' state-of-the-art representations in the form of X-vectors. These representations are used to derive anonymous speeches. These are used to derive pseudo-identities of anonymous speakers by combining several vectors X of random speakers.

Les auteurs de l'article qui s'intitule « Exploring the Importance of FO Trajectories for Speaker Anonymization using x-vectors and Neural Waveform Models », International Audio Laboratories, Erlangen, 2021, Workshop on Machine Learning in Speech and Language Processing (MLSLP), 6 Septembre 2021, ISCA, DE, pages 1-6, UE Gaznepoglu et al., considérant la présence d'informations personnelles dans les différentes composantes de la fréquence fondamentale F0 de la voix d'un locuteur et la disponibilité de diverses approches pour modifier la composante F0, proposent une exploration de leur potentiel dans le contexte de l'anonymisation de la voix. Ils suggèrent que le fait de décomposer la composante F0, de modifier les caractéristiques liées au locuteur, de perturber éventuellement avec du bruit pendant le processus, puis de resynthétiser, pourrait augmenter la performance d'anonymisation et/ou améliorer l'intelligibilité. Il est mentionné que les approches proposées jusqu'à présent, comme le décalage et la mise à l'échelle, dépendent toutes de l'identité de la personne à protéger.The authors of the article entitled “Exploring the Importance of FO Trajectories for Speaker Anonymization using x-vectors and Neural Waveform Models”, International Audio Laboratories, Erlangen, 2021, Workshop on Machine Learning in Speech and Language Processing (MLSLP), September 6, 2021, ISCA, DE, pages 1-6, EU Gaznepoglu et al., considering the presence of personal information in the different components of the fundamental frequency F0 of a speaker's voice and the availability of various approaches to modify the F0 component, propose an exploration of their potential in the context of the voice anonymization. They suggest that decomposing the F0 component, modifying speaker-related features, possibly disrupting with noise during the process, and then resynthesizing, could increase anonymization performance and/or improve intelligibility. It is mentioned that the approaches proposed so far, such as shifting and scaling, all depend on the identity of the person to be protected.

L'article « Speaker anonymization using the McAdams coefficients » dans la revue COMPUTER SCIENCE, AUDIO AND SPEECH PROCESSING, Cornell University, US, September 2021, pages 1-5, Patino J et al., évoque la réversibilité de l'anonymisation. Les auteurs y présentent leur travail visant à explorer plus en profondeur le potentiel des techniques de traitement du signal bien connues comme solution au problème de l'anonymisation, par opposition à d'autres solutions plus complexes et plus exigeantes qui requièrent des données d'entraînement. Ils suggèrent d'optimiser une solution d'origine basée sur les coefficients de McAdams pour modifier l'enveloppe spectrale (i.e., le timbre) de signaux de parole. Ils ont cherché à confirmer que différentes valeurs du coefficient de McAdams α (alpha), qui modifient le timbre de la voix, peuvent produire différentes pseudo-voix pour un même locuteur. Il en résulte une approche stochastique de l'anonymisation dans laquelle le coefficient de McAdams est échantillonné dans une plage de distribution uniforme, c'est-à-dire α ∈ U(αmin,αmax). Cependant, dans les applications proposées, l'article se contente d'enseigner que le coefficient α peut être changé aléatoirement d'un locuteur (« speaker », en anglais) à l'autre, en indiquant qu'un tiers mal intentionné aurait alors besoin de connaître le coefficient exact de McAdams utilisé pour rendre anonyme la parole de n'importe quel locuteur en particulier, afin d'inverser la transformation.The article “Speaker anonymization using the McAdams coefficients” in the journal COMPUTER SCIENCE, AUDIO AND SPEECH PROCESSING, Cornell University, US, September 2021, pages 1-5, Patino J et al., discusses the reversibility of anonymization. The authors present their work to further explore the potential of well-known signal processing techniques as a solution to the anonymization problem, as opposed to other more complex and demanding solutions that require training data. . They suggest optimizing an original solution based on McAdams coefficients to modify the envelope spectral (ie, timbre) of speech signals. They sought to confirm that different values of the McAdams coefficient α (alpha), which modify the timbre of the voice, can produce different pseudo-voices for the same speaker. This results in a stochastic approach to anonymization in which the McAdams coefficient is sampled from a uniform distribution range, i.e. α ∈ U(αmin,αmax). However, in the proposed applications, the article is content to teach that the coefficient α can be changed randomly from one speaker to another, indicating that a malicious third party would then have need to know the exact McAdams coefficient used to anonymize the speech of any particular speaker, in order to reverse the transformation.

Il demeure donc le besoin d'une technique de masquage de la voix d'un locuteur qui ne puisse pas être facilement contournée.There remains therefore the need for a technique for masking a speaker's voice that cannot be easily circumvented.

Résumé de l'inventionSummary of the invention

Un premier aspect de l'invention proposée concerne un procédé de masquage de la voix d'un locuteur pour protéger son identité et/ou sa vie privée par altération intentionnelle de la hauteur et du timbre de la voix, comprenant :

  • un découpage d'un signal audio correspondant à un enregistrement original de la voix du locuteur en une série de segments audios successifs de durée constante déterminée, et la formation d'une série de couples de segments audios comprenant chacun un primat et un duplicata d'un segment audio de ladite série de segments audios ; ainsi que,
pour chaque couple de segments audios :
  • un traitement du primat du segment audio et un traitement du duplicata du segment audio pour en extraire d'une part, un signal caractérisant la hauteur du segment audio, et d'autre part, un signal caractérisant le timbre du segment audio ;
  • une première altération, appliquée au signal caractérisant le timbre extrait du segment audio, et ayant pour effet d'altérer tout ou partie de l'enveloppe des harmoniques dudit segment audio , de manière à générer un timbre altéré du segment audio ;
  • une deuxième altération appliquée au signal caractérisant la hauteur extrait du segment audio, et ayant pour effet d'altérer la valeur de la fréquence fondamentale, de manière à générer une hauteur altérée du segment audio ; l'une des altérations parmi la première altération et la deuxième altération étant une altération ascendante alors que l'autre altération est une altération descendante ; ainsi que,
  • une combinaison du timbre altéré du segment audio et de la hauteur altérée du segment audio, pour former un segment audio altéré résultant,
le procédé comprenant en outre, d'un couple de segments audios à l'autre dans la série des couples de segments audios :
  • une variation de la première altération et ;
  • une variation de la deuxième altération,
lesdites variations desdites première et deuxième altérations étant fluctuantes aléatoirement d'un couple de segments à l'autre dans la série des couples de segments audios,
et le procédé comprenant en outre :
  • la recomposition d'un signal audio masqué à partir de la série des segments audios altérés.
A first aspect of the proposed invention relates to a method of masking the voice of a speaker to protect their identity and/or their privacy by intentional alteration of the pitch and timbre of the voice, comprising:
  • a division of an audio signal corresponding to an original recording of the speaker's voice into a series of successive audio segments of determined constant duration, and the formation of a series of pairs of audio segments each comprising a primate and a duplicate of an audio segment of said series of audio segments; as well as,
for each pair of audio segments:
  • processing the primacy of the audio segment and processing the duplicate of the audio segment to extract, on the one hand, a signal characterizing the pitch of the audio segment, and on the other hand, a signal characterizing the timbre of the audio segment;
  • a first alteration, applied to the signal characterizing the timbre extracted from the audio segment, and having the effect of altering all or part of the envelope of the harmonics of said audio segment, so as to generate an altered timbre of the audio segment;
  • a second alteration applied to the signal characterizing the pitch extracted from the audio segment, and having the effect of altering the value of the fundamental frequency, so as to generate an altered pitch of the audio segment; one of the alterations among the first alteration and the second alteration being an ascending alteration while the other alteration is a descending alteration; as well as,
  • a combination of the altered timbre of the audio segment and the altered pitch of the audio segment, to form a resulting altered audio segment,
the method further comprising, from one pair of audio segments to another in the series of pairs of audio segments:
  • a variation of the first alteration and;
  • a variation of the second accidental,
said variations of said first and second alterations being fluctuating randomly from one pair of segments to another in the series of pairs of audio segments,
and the method further comprising:
  • the recomposition of a masked audio signal from the series of altered audio segments.

Grâce à ce procédé, la voix est masquée en permettant de répondre à l'exigence de protection du ou des locuteurs, puisque le procédé peut aisément être mis en oeuvre dans le tout premier équipement entrant en jeu dans la chaîne d'acquisition et de traitement audio. En même temps, le procédé permet d'avoir un rendu final qui reste intelligible, c'est-à-dire qui n'est ni une voix de « Mickey Mouse » ni une voix de « Dark Vador » du fait des deux altérations appliquées à chaque segment audio qui produisent des modifications dans le contenu fréquentiel qui sont en sens contraire l'une de l'autre. En effet, on applique un effet ascendant (vers les tonalités aigües) pour l'une et un effet descendant (vers les tonalités graves) pour l'autre des deux altérations, en sorte que ces deux effets se combinent du point de vue du contenu fréquentiel du segment audio considéré. Le segment audio masqué qui en résulte, possède un contenu fréquentiel qui reste globalement plus proche sur la dynamique spectrale, de celui du segment audio d'origine, en dépit du masquage de la voix qui est obtenu.Thanks to this process, the voice is masked, making it possible to meet the requirement for protection of the speaker(s), since the process can easily be implemented in the very first equipment involved in the acquisition and processing chain. audio. At the same time, the process makes it possible to have a final rendering which remains intelligible, that is to say which is neither a voice of “Mickey Mouse” nor a voice of “Darth Vader” due to both alterations applied to each audio segment that produce changes in the frequency content that are in opposite directions to each other. In fact, we apply an ascending effect (towards the high tones) for one and a descending effect (towards the low tones) for the other of the two alterations, so that these two effects are combined from the point of view of content frequency of the audio segment considered. The resulting masked audio segment has a frequency content which remains generally closer in spectral dynamics to that of the original audio segment, despite the masking of the voice which is obtained.

Avantageusement, les altérations de fréquence sont bridées, l'une étant toujours ascendante alors que l'autre est toujours descendante. Dès lors, le logiciel ou le dispositif adapté pour implémenter la solution ne peut pas lui-même faire l'opération inverse.Advantageously, the frequency alterations are limited, one always being ascending while the other is always descending. Therefore, the software or device adapted to implement the solution cannot itself do the opposite operation.

Selon le procédé, deux composantes du spectre du signal audio sont simultanément altérées par rapport à l'enregistrement original de la voix du locuteur Ceci est un premier élément favorable à l'irréversibilité du procédé, car un tiers malveillant souhaitant revenir à la voix d'origine devra jouer sur ces deux caractéristiques de la voix en combinaison, ce qui lui complique la tâche par rapport à un masquage par décalage de pitch seul.According to the method, two components of the spectrum of the audio signal are simultaneously altered compared to the original recording of the speaker's voice. This is a first element favorable to the irreversibility of the method, because a malicious third party wishing to return to the speaker's voice origin will have to play on these two characteristics of the voice in combination, which complicates the task compared to masking by pitch shift alone.

Selon un autre avantage, la variabilité des altérations n'est pas stationnaire. Elle varie dans le temps. Ainsi il peut y avoir plusieurs variations sur une seconde de traitement.According to another advantage, the variability of alterations is not stationary. It varies over time. Thus there can be several variations over a second of processing.

Finalement, les modes de mises en oeuvre proposés procurent un masquage de la voix qui est irréversible en audio, c'est-à-dire par un traitement audio inverse.Finally, the proposed implementation modes provide masking of the voice which is irreversible in audio, that is to say by inverse audio processing.

En outre, la voix masquée par le procédé proposé est non-analysable par les techniques connues de reconnaissance du locuteur, et n'expose par le locuteur aux pratiques commerciales portant atteinte à sa vie privée en utilisant des techniques de reconnaissance vocale, étant donné que la voix masquée d'un même locuteur n'est jamais masquée deux fois de la même façon.In addition, the voice masked by the proposed method is non-analyzable by known speaker recognition techniques, and does not expose the speaker to commercial practices violating his privacy using voice recognition techniques, given that the masked voice of the same speaker is never masked in the same way twice.

Dans des modes de mise en oeuvre avantageux, le découpage du signal audio en une série de segments audios successifs de durée déterminée peut être réalisé par fenêtrage temporel indépendant du contenu du signal audio.In advantageous implementation modes, the division of the audio signal into a series of successive audio segments of determined duration can be carried out by temporal windowing independent of the content of the audio signal.

Dans des modes de mise en oeuvre avantageux, le découpage du signal audio peut être configuré de manière que la durée d'un segment audio est égale à une fraction de seconde, en sorte que des changements successifs des paramètres faisant varier la première et la deuxième altérations interviennent plusieurs fois par seconde.In advantageous embodiments, the division of the audio signal can be configured so that the duration of an audio segment is equal to a fraction of a second, so that successive changes in the parameters varying the first and second alterations occur several times per second.

Dans des modes de mise en oeuvre avantageux, l'altération de la hauteur du signal audio correspond à une variation de la fréquence fondamentale du signal audio de l'une quelconque des valeurs suivantes : ± 6.25 %, ± 12.5 %, ± 25 %, ± 50 % et ± 100 %.In advantageous embodiments, the alteration of the pitch of the audio signal corresponds to a variation in the fundamental frequency of the audio signal of any of the following values: ± 6.25%, ± 12.5%, ± 25%, ± 50% and ± 100%.

Dans des modes de mise en oeuvre avantageux, la première altération et la deuxième altération sont dépendantes l'une de l'autre, en fluctuant conjointement de manière à satisfaire un critère déterminé relativement à leurs effets respectifs sur le contenu fréquentiel du timbre du segment audio et sur le contenu fréquentiel de la hauteur du segment audio, respectivement. Par exemple, ce critère peut consister à maintenir un écart minimal entre les effets respectifs des deux altérations, et d'éviter ainsi de revenir temporairement à la voix d'origine.In advantageous embodiments, the first alteration and the second alteration are dependent on each other, fluctuating jointly so as to satisfy a determined criterion relative to their respective effects on the frequency content of the timbre of the audio segment and on the frequency content of the height of the audio segment, respectively. For example, this criterion may consist of maintaining a minimal gap between the respective effects of the two alterations, and thus avoiding temporarily returning to the original voice.

Un deuxième aspect de l'invention se rapporte à un programme d'ordinateur comprenant des instructions qui, lorsque le programme d'ordinateur est chargé dans la mémoire d'un ordinateur et est exécuté par un processeur de cet ordinateur, sont adaptées pour mettre en oeuvre toutes les étapes du procédé selon le premier aspect de l'invention ci-dessus.A second aspect of the invention relates to a computer program comprising instructions which, when the computer program is loaded into the memory of a computer and is executed by a processor of this computer, are adapted to implement implements all the steps of the process according to the first aspect of the invention above.

Le programme d'ordinateur pour la mise en oeuvre du procédé peut être enregistré de manière non-transitoire sur un support d'enregistrement tangible, lisible par un ordinateur.The computer program for implementing the method can be recorded in a non-transitory manner on a tangible recording medium, readable by a computer.

Le programme d'ordinateur pour la mise en oeuvre du procédé peut avantageusement être vendu comme plugin, apte à être intégré au sein d'un logiciel « hôte », par exemple un logiciel de production et/ou de traitement audio-phonique ou audio-visuel tel que Pro Tools, Média Composer, Première Pro ou Audition, entre autres. Ce choix est particulièrement adapté au monde de l'audiovisuel. En effet, cela permet de ne pas avoir besoin de transférer le signal audio d'origine (non masqué, donc en clair), sur un serveur distant ou un autre ordinateur. C'est donc l'ordinateur de l'utilisateur qui, seul, détient le fichier source de la voix d'origine, c'est-à-dire avant exécution du procédé de masquage. On réduit ainsi fortement le risque d'interception malveillante du signal audio d'origine. Pour autant, le procédé peut être mis en oeuvre par un logiciel de traitement audio-phonique qui peut très bien être exécuté sur un équipement matériel indépendant et disposant de capacité de traitement standard, par exemple un ordinateur à usage général, car son traitement s'effectue en temps réel. Il ne nécessite la mise en oeuvre, notamment, d'aucune intelligence artificielle, d'aucune banque de données vocales, ni d'aucun procédé d'apprentissage, contrairement à nombre de solutions de l'art antérieur, notamment de certaines de celles qui ont été présentées en introduction.The computer program for implementing the method can advantageously be sold as a plugin, capable of being integrated into “host” software, for example audio-phonic or audio-production and/or processing software. visual such as Pro Tools , Media Composer , Première Pro or Audition , among others. This choice is particularly suited to the audiovisual world. In fact, this eliminates the need to transfer the original audio signal (unmasked, therefore in the clear), to a remote server or another computer. It is therefore the user's computer which alone holds the source file of the original voice, that is to say before execution of the masking process. This greatly reduces the risk of malicious interception of the original audio signal. However, the method can be implemented by audio-phonic processing software which can very well be executed on independent hardware equipment and having standard processing capacity, for example a computer for general use. general, because its processing takes place in real time. It does not require the implementation, in particular, of any artificial intelligence, of any voice data bank, nor of any learning process, unlike a number of solutions of the prior art, in particular some of those which were presented in the introduction.

En variante, le programme d'ordinateur pour la mise en oeuvre du procédé peut avantageusement être intégré, soit ab initio soit par le biais d'une mise à jour logicielle, dans le logiciel interne qui est embarqué dans un équipement dédié à la production et/ou au traitement de contenus audio-phonique ou audio-visuel (appelés « médias » dans le jargon de l'homme du métier), tel qu'une console de mixage et/ou de montage audio et/ou vidéo par exemple. De tels équipement sont plutôt destinés à des producteurs, mixeurs, et autres professionnels de la post-production de médias.Alternatively, the computer program for implementing the method can advantageously be integrated, either ab initio or through a software update, into the internal software which is embedded in equipment dedicated to production and /or the processing of audio-phonic or audio-visual content (called “media” in the jargon of those skilled in the art), such as an audio and/or video mixing and/or editing console for example. Such equipment is intended more for producers, mixers, and other media post-production professionals.

Un troisième aspect de l'invention concerne un dispositif de traitement audio-phonique ou audio-visuel, comprenant des moyens pour la mise en oeuvre du procédé. Ce dispositif peut être réalisé sous la forme, par exemple, d'un ordinateur à usage général apte à exécuter le programme d'ordinateur selon le deuxième aspect ci-dessus.A third aspect of the invention relates to an audio-phonic or audio-visual processing device, comprising means for implementing the method. This device can be produced in the form, for example, of a general-purpose computer capable of executing the computer program according to the second aspect above.

Enfin, un quatrième et dernier aspect de l'invention concerne un appareil de traitement audio-phonique ou audio-visuel tel qu'une console de montage et/ou de mixage permettant de produire des médias (à savoir des contenus audio, audiovisuels, ou multimédias) correspondant à ou incorporant un signal de parole d'un locuteur, notamment d'un locuteur à protéger, l'appareil comprenant un dispositif selon le troisième aspect.Finally, a fourth and final aspect of the invention relates to an audio-phonic or audio-visual processing device such as an editing and/or mixing console making it possible to produce media (namely audio, audiovisual content, or multimedia) corresponding to or incorporating a speech signal from a speaker, in particular from a speaker to be protected, the apparatus comprising a device according to the third aspect.

Brève description des figuresBrief description of the figures

La description qui va suivre en regard des dessins annexés, donnés à titre d'exemples non limitatifs, fera bien comprendre en quoi consiste l'invention et comment elle peut être réalisée. Dans les dessins, on a représenté :

  • Figure 1 : un organigramme illustrant les principales étapes du procédé selon des modes de mise en oeuvre ;
  • Figure 2 : une représentation schématique très simplifiée d'un système audio-phonique dans lequel le procédé peut être implémenté ;
  • Figure 3A et figure 3B : des schémas illustrant des modes de mise en oeuvre de l'altération descendante et de l'altération montante, respectivement, qui peuvent être appliquées au timbre et à la hauteur d'un segment de signal audio selon des modes de mise en oeuvre ;
  • Figure 4A et figure 4B : des diagrammes de fréquence d'une séquence audio enregistrée, montrant la répartition de l'énergie en fonction de la fréquence avant et après, respectivement, la mise en oeuvre d'un procédé de masquage de la voix selon l'art antérieur ;
  • Figure 5A et figure 5B : des diagrammes de fréquence de la même séquence audio qu'à la figure 4A, montrant la répartition de l'énergie en fonction de la fréquence avant et après, respectivement, la mise en oeuvre d'un procédé de masquage de la voix selon le procédé proposé ;
  • Figure 6 : un organigramme détaillé illustrant les étapes du procédé selon des modes de mise en oeuvre.
The description which follows with reference to the appended drawings, given as non-limiting examples, will make it clear what the invention consists of and how it can be carried out. In the drawings, we have shown:
  • Figure 1 : a flowchart illustrating the main stages of the process according to implementation modes;
  • Figure 2 : a very simplified schematic representation of an audio-phonic system in which the method can be implemented;
  • Figure 3A And Figure 3B : diagrams illustrating modes of implementation of the descending alteration and the ascending alteration, respectively, which can be applied to the timbre and the pitch of an audio signal segment according to modes of implementation;
  • Figure 4A and Figure 4B : frequency diagrams of a recorded audio sequence, showing the distribution of energy as a function of frequency before and after, respectively, the implementation of a voice masking method according to the prior art;
  • Figure 5A and Figure 5B : frequency diagrams of the same audio sequence as in the figure 4A , showing the distribution of energy as a function of frequency before and after, respectively, the implementation of a voice masking method according to the proposed method;
  • Figure 6 : a detailed flowchart illustrating the steps of the process according to implementation modes.

Description de mode(s) de réalisationDescription of embodiment(s)

Dans les figures, et à moins qu'il n'en soit disposé autrement, les éléments identiques porteront les mêmes signes de référence.In the figures, and unless arranged otherwise, identical elements will bear the same reference signs.

La voix humaine est l'ensemble des sons produits par le frottement de l'air des poumons sur les replis du larynx de l'être humain. La hauteur et la résonance des sons émis dépendent de la forme et de la taille non seulement de ses cordes vocales, mais aussi du reste du corps de la personne. La taille des cordes vocales est l'une des sources de la différence entre les voix des hommes et les voix des femmes, mais elle n'est pas la seule. La trachée, la bouche, le pharynx, par exemple, définissent une cavité dans laquelle les ondes sonores émises par les cordes vocales entrent en résonance. En outre, des facteurs génétiques sont à l'origine de la différence de taille des cordes vocales au sein des personnes de même sexe.The human voice is the set of sounds produced by the friction of the air of the lungs on the folds of the larynx of the human being. The pitch and resonance of the sounds made depend on the shape and size of not only their vocal cords, but also the rest of the person's body. Vocal cord size is one source of the difference between male and female voices, but it is not the only one. The trachea, mouth, pharynx, for example, define a cavity in which the sound waves emitted by the vocal cords resonate. Additionally, genetic factors cause the difference in vocal cord size within people of the same sex.

Compte tenu de toutes ces caractéristiques qui sont propres à chaque personne, la voix de chaque être humain est singulière.Given all these characteristics that are unique to each person, the voice of each human being is unique.

Le procédé permet de masquer la voix d'un locuteur dans le but de protéger son identité et/ou sa vie privée.The method makes it possible to mask a speaker's voice in order to protect their identity and/or their privacy.

Dans ce qui suit, on désigne par signal de parole original le signal audio correspondant à une séquence acquise de la voix du locuteur non déformée. On entend par signal audio masqué le résultat du traitement du signal de parole original obtenu par la mise en oeuvre du procédé.In what follows, we designate by original speech signal the audio signal corresponding to an acquired sequence of the undistorted speaker's voice. By masked audio signal we mean the result of the processing of the original speech signal obtained by implementing the method.

Selon les modes de mise en oeuvre tels que proposés, la protection de l'identité et/ou de la vie privée du locuteur est atteinte par une altération intentionnelle non seulement de la hauteur mais aussi du timbre de la voix du locuteur. Cette altération est réalisée par des techniques de traitement numérique du signal, sur la base d'algorithmes de traitement mis en oeuvre par ordinateur.According to the modes of implementation as proposed, the protection of the identity and/or privacy of the speaker is achieved by an intentional alteration not only of the pitch but also of the timbre of the speaker's voice. This alteration is carried out by digital signal processing techniques, on the basis of processing algorithms implemented by computer.

Un son complexe de hauteur fixe peut s'analyser en une série de vibrations élémentaires, appelées harmoniques naturelles, dont la fréquence est multiple de celle de la fréquence de référence, ou fréquence fondamentale. Par exemple, si l'on considère une fréquence fondamentale ayant une valeur f, les ondes ayant la fréquence 2f, 3f, 4f, ..., j × f, ... et ainsi de suite sont considérées comme des ondes harmoniques. La fréquence fondamentale (dont découlent les fréquences j × f des harmoniques) caractérise la hauteur perçue d'une note, par exemple un « la ». La répartition des intensités des différentes harmoniques selon leur rang j, caractérisée par leur enveloppe, définit le timbre. Il en va de même pour un signal de parole que pour des notes musicales, la parole n'étant qu'une succession de sons produits par l'appareil vocal d'un être humain.A complex sound of fixed pitch can be analyzed into a series of elementary vibrations, called natural harmonics, whose frequency is a multiple of that of the reference frequency, or fundamental frequency. For example, if we consider a fundamental frequency having a value f , waves having frequency 2 f , 3 f , 4 f , ..., j × f , ... and so on are considered waves harmonics. The fundamental frequency (from which the frequencies j × f of the harmonics arise) characterizes the perceived pitch of a note, for example an “A”. The distribution of the intensities of the different harmonics according to their rank j , characterized by their envelope, defines the timbre. The same goes for a speech signal as for musical notes, speech being only a succession of sounds produced by the vocal apparatus of a human being.

On notera que le timbre d'un instrument de musique ou d'une voix désigne l'ensemble des caractéristiques sonores qui permettent à un observateur d'identifier à l'oreille le son produit, indépendamment de la hauteur et de l'intensité de ce son. Le timbre permet par exemple de distinguer le son d'un saxophone de celui d'une trompette jouant la même note avec la même intensité, ces deux instruments ayant des résonances propres, qui distinguent les sons à l'écoute : le son d'un saxophone contient plus d'énergie sur les harmoniques de relativement plus basses fréquences ce qui donne un timbre de son relativement plus « sourd », alors que le timbre du son d'une trompette possède plus d'énergie sur les harmoniques de relativement plus hautes fréquences en sorte de donner un son plus « clair », bien qu'ayant la même fréquence fondamentale. Pour la voix, on désigne par registre vocal l'ensemble des fréquences émises avec une résonance identique, c'est-à-dire la partie de l'étendue vocale dans laquelle un chanteur, par exemple, émet des sons de hauteurs respectives avec un timbre à peu près identique.Note that the timbre of a musical instrument or a voice designates the set of sound characteristics which allow an observer to identify by ear the sound produced, independently of the pitch and intensity of this sound. her. The timbre makes it possible, for example, to distinguish the sound of a saxophone from that of a trumpet playing the same note with the same intensity, these two instruments having their own resonances, which distinguish sounds when listening: the sound of a saxophone contains more energy on the harmonics of relatively lower frequencies which gives a relatively more “dull” sound timbre, while the timbre of the sound of a trumpet has more energy on the harmonics of relatively higher frequencies in order to give a “clearer” sound, although having the same fundamental frequency. For the voice, we designate by vocal register the set of frequencies emitted with an identical resonance, that is to say the part of the vocal range in which a singer, for example, emits sounds of respective pitches with a almost identical stamp.

L'organigramme de la figure 1 illustre schématiquement les principales étapes du procédé de masquage de la voix d'un locuteur. Le procédé peut être mis en oeuvre dans un système audio-phonique 20 tel que représenté très schématiquement à la figure 2. Ce système peut comprendre des moyens matériel 201 et des moyens logiciels 202 permettant cette mise en oeuvre.The organization chart of the figure 1 schematically illustrates the main stages of the process of masking a speaker's voice. The method can be implemented in an audio-phonic system 20 as represented very schematically in the figure 2 . This system may include hardware means 201 and software means 202 allowing this implementation.

On notera que même si l'invention concerne le masquage d'un signal de parole, qui par nature est un signal audio, ce signal peut appartenir à un programme audiovisuel (mêlant du son et des images), comme une vidéo de l'interview d'un témoin souhaitant et/ou devant rester anonyme, tournée par exemple en « caméra cachée » ou assortie d'un floutage de l'image du témoin à protéger. Dit autrement, le signal de parole peut correspondre à tout ou partie de la bande son d'une vidéo, et d'une manière générale de tout programme audio-phonique, radiophonique, audiovisuel ou multimédia.It will be noted that even if the invention concerns the masking of a speech signal, which by nature is an audio signal, this signal can belong to an audiovisual program (mixing sound and images), such as a video of the interview. of a witness wishing and/or having to remain anonymous, filmed for example using a “hidden camera” or accompanied by blurring of the image of the witness to be protected. In other words, the speech signal can correspond to all or part of the soundtrack of a video, and generally of any audio-phonic, radio, audiovisual or multimedia program.

Le système audio-phonique 20 est par exemple un équipement de mixage audiovisuel, utilisé pour monter des séquences vidéo afin de produire un programme audiovisuel à partir de diverses séquences vidéo et de leurs « bandes son » respectives.The audio-phonic system 20 is for example audiovisual mixing equipment, used to edit video sequences in order to produce an audiovisual program from various video sequences and their respective “soundtracks”.

Les moyens matériel 201 du système audio-phonique 20 comprennent au moins un calculateur, tel qu'un microprocesseur associé à de la mémoire vive (ou RAM, de l'anglais « Random Access memory »), et des moyens de lecture et d'enregistrement de données numériques sur des supports d'enregistrement numérique (mémoire de masse telle qu'un disque dur interne), et des interfaces de données pour échanger des données avec des périphériques externes. A la figure 2, on a représenté de manière symbolique un périphérique d'acquisition de signal audio 31 tel qu'un microphone (ou micro), ainsi qu'un périphérique de stockage de données 22 tel qu'une clé USB. En variante ou en complément, le système 20 peut communiquer en lecture et/ou en écriture avec d'autres supports de données externes, afin de lire dessus les données d'un signal audio à traiter et/ou d'y enregistrer les données du signal audio après traitement. En variante ou en complément, en outre, le système 20 peut comprendre des moyens de communication tels qu'un Modem ou une carte de réseau Ethernet, 4G, 5G, etc., ou encore une interface de communication Wi-Fi ou Bluetooth®.The hardware means 201 of the audio-phonic system 20 comprise at least one calculator, such as a microprocessor associated with random access memory (or RAM), and means for reading and recording of digital data on digital recording media (mass memory such as an internal hard disk), and data interfaces for exchanging data with external devices. To the figure 2 , we have symbolically represented an audio signal acquisition device 31 such as a microphone (or micro), as well as a data storage device 22 such as a USB key. As a variant or in addition, the system 20 can communicate in reading and/or writing with other external data carriers, in order to read thereon the data of an audio signal to be processed and/or to record the data of the audio signal thereon. audio signal after processing. Alternatively or in addition, in addition, the system 20 may include means of communication such as a modem or an Ethernet, 4G, 5G network card, etc., or even a Wi-Fi or Bluetooth® communication interface.

Les moyens logiciels 201 du système audio-phonique 20 comprennent un programme d'ordinateur qui, lorsqu'il est chargé dans la mémoire vive et exécuté par le processeur du système audio-phonique 20, est adapté pour exécuter les étapes du procédé de masquage du signal d'un locuteur.The software means 201 of the audio-phonic system 20 comprise a computer program which, when loaded into the RAM and executed by the processor of the audio-phonic system 20, is adapted to execute the steps of the method of masking the signal from a speaker.

En référence à l'organigramme de la figure 1, à l'étape 11 on capte le son de la voix du locuteur par l'intermédiaire du microphone 31 du système 20, soit pour traitement immédiat dans le système 20, soit pour un traitement différé.With reference to the organization chart of the figure 1 , in step 11 the sound of the speaker's voice is captured via the microphone 31 of the system 20, either for immediate processing in the system 20, or for deferred processing.

On entend par traitement immédiat un traitement réalisé au fil de l'acquisition du signal audio, sans étape intermédiaire de fixation de ce signal audio sur un quelconque support d'enregistrement permanent. Les données du signal audio original ne font alors que transiter par la mémoire vive (mémoire non permanente) du système 20.By immediate processing we mean processing carried out during the acquisition of the audio signal, without an intermediate step of fixing this audio signal on any permanent recording medium. The data from the original audio signal then only passes through the RAM (non-permanent memory) of the system 20.

Inversement, on entend par traitement différé un traitement qui est effectué à partir d'un enregistrement, réalisé au sein ou sous la commande du système audio-phonique 20, du signal de parole du locuteur acquis via le microphone 31. Cet enregistrement est fixé sur un support de stockage de données de masse, par exemple un disque dur interne au système 20. Il peut aussi s'agir d'un disque dur périphérique, c'est-à-dire externe, couplé à ce système. Il peut aussi s'agir d'un autre dispositif périphérique de stockage de données avec de la mémoire permanente capable de stocker les données audios du signal de parole de manière permanente, comme une clé USB, une carte-mémoire (de type Flash ou autre) ou un support d'enregistrement optique ou magnétique (CD audio, CD-Rom, DVD, disque Blu-Ray, etc.).Conversely, deferred processing means processing which is carried out from a recording, made within or under the control of the audio-phonic system 20, of the speaker's speech signal acquired via the microphone 31. This recording is fixed on a mass data storage medium, for example a hard disk internal to the system 20. It can also be a peripheral hard disk, that is to say external, coupled to this system. It may also be another peripheral data storage device with permanent memory capable of storing the audio data of the speech signal permanently, such as a USB key, a memory card (Flash type or other) or an optical or magnetic recording medium (audio CD, CD-Rom, DVD, Blu-Ray disc, etc.).

Le support de stockage de données de masse peut aussi être un serveur de données avec lequel le système audio-phonique 20 peut communiquer pour télécharger (« upload » en anglais) les données du signal audio afin qu'elles y soient stockées, et pour ultérieurement les télédécharger (« download » en anglais) pour traitement subséquent. Ce serveur peut être local, c'est-à-dire faire partie d'un réseau local de type LAN (de l'anglais « Local Area Network ») auquel appartient aussi le système audio-phonique 20. Le serveur de données peut aussi être un serveur distant, comme par exemple un serveur de données dans le Cloud qui est accessible par le réseau Internet ouvert.The mass data storage medium can also be a data server with which the audio-phonic system 20 can communicate to download (" upload " in English) the data of the audio signal so that they are stored there, and for later download them for subsequent processing. This server can be local, that is to say part of a local network of the LAN type (from the English " Local Area Network ") to which the audio-phonic system 20 also belongs. The data server can also be a remote server, such as a data server in the Cloud which is accessible via the open Internet.

En variante, le signal de parole correspondant à la séquence de paroles du locuteur peut avoir été acquis via un autre équipement, distinct du système audio-phonique 20 qui implémente le procédé de masquage de la voix du locuteur. Dans ce cas, un fichier de données audios codant la voix du locuteur peut avoir été enregistré sur un support de données amovible, lequel peut alors, à l'étape 11, être couplé au système audio-phonique 20 pour lecture des données audios. Ce fichier de données audios peut aussi avoir été téléchargé sur un serveur de données dans le Cloud, auquel le système audio-phonique 20 peut aussi accéder afin de télédécharger les données audios du signal audio à traiter. Dans toutes ces situations, l'étape 11 du procédé consiste alors uniquement, pour le système audio-phonique 20, à accéder aux données audios du signal de parole du locuteur.Alternatively, the speech signal corresponding to the speaker's speech sequence may have been acquired via other equipment, distinct from the audio-phonic system 20 which implements the method of masking the speaker's voice. In this case, an audio data file encoding the speaker's voice may have been recorded on a removable data medium, which can then, in step 11, be coupled to the audio-phonic system 20 for reading the audio data. This audio data file may also have been downloaded to a data server in the Cloud, to which the audio-phonic system 20 can also access in order to download the audio data of the audio signal to be processed. In all these situations, step 11 of the method then consists solely, for the audio-phonic system 20, of accessing the audio data of the speaker's speech signal.

Dans tous les cas, l'étape 11 du procédé comprend un découpage (temporel) du signal de parole original, en une série de segments audios successifs de durée déterminée, qui est constante d'un segment à l'autre dans la série des segments ainsi produite. De préférence, le découpage du signal audio en une série de segments audios successifs de même durée déterminée est réalisé par un fenêtrage temporel qui est indépendant du contenu du signal audio, et qui peut se faire « à la volée ».In all cases, step 11 of the method comprises a (temporal) division of the original speech signal, into a series of successive audio segments of determined duration, which is constant from one segment to another in the series of segments. thus produced. Preferably, the division of the audio signal into a series of successive audio segments of the same determined duration is carried out by temporal windowing which is independent of the content of the audio signal, and which can be done "on the fly".

Par l'expression « indépendant du contenu du signal audio », on entend que le fenêtrage est indépendant tout à la fois du contenu fréquentiel, c'est-à-dire de la répartition de l'énergie dans le spectre de fréquences du signal audio, et du contenu informationnel ou linguistique c'est-à-dire de la sémantique et/ou de la structure grammaticale de la parole contenue dans ce signal audio, dans la langue parlée par le locuteur. Le procédé est donc très simple à mettre en oeuvre, puisqu'aucune analyse physique ou linguistique du signal n'est nécessaire pour générer des segments de signal à traiter.By the expression "independent of the content of the audio signal", we mean that the windowing is independent of both the frequency content, that is to say the distribution of energy in the frequency spectrum of the audio signal , and the informational or linguistic content, that is to say the semantics and/or the grammatical structure of the speech contained in this audio signal, in the language spoken by the speaker. The method is therefore very simple to implement, since no physical or linguistic analysis of the signal is necessary to generate signal segments to be processed.

En traitement du signal, une opération de fenêtrage temporel permet de traiter un signal de longueur volontairement limitée à une durée τ, sachant que tout calcul ne peut se faire que sur un nombre fini de valeurs. Pour observer ou traiter un signal sur une durée finie, on le multiplie par une fonction fenêtre d'observation aussi nommée fenêtre de pondération et notée h(t). La plus simple, mais pas forcément la plus utilisée ni celle préférée, est la fenêtre rectangulaire (ou porte) de taille m définie comme suit : h t = { 1 , si t 0 m 0 , sinon

Figure imgb0001
In signal processing, a temporal windowing operation makes it possible to process a signal of length voluntarily limited to a duration τ , knowing that any calculation can only be done on a finite number of values. To observe or process a signal over a finite duration, we multiply it by an observation window function also called a weighting window and denoted h(t). The simplest, but not necessarily the most used or preferred, is the rectangular window (or door) of size m defined as follows: h t = { 1 , if t 0 m 0 , Otherwise
Figure imgb0001

Par multiplication (par calcul numérique) du signal audio numérisé S(t) par la fonction porte h(t) ci-dessus, puis décalage, on obtient une série finie formée d'un nombre déterminé N de segments de signal audio sk (τ), chacun de la même durée fixe D, et indicée par la lettre k, notée : s k τ k = 1 , 2,3 , N

Figure imgb0002
τ désigne l'indice relatif du temps dans le segment.By multiplication (by digital calculation) of the digitized audio signal S(t) by the gate function h(t) above, then shifting, we obtain a finite series formed of a determined number N of audio signal segments s k ( τ ), each of the same fixed duration D, and indexed by the letter k , denoted: s k τ k = 1 , 2.3 , NOT
Figure imgb0002
where τ denotes the relative index of time in the segment.

Avantageusement, la durée D d'un segment audio sk (τ) est égale à une fraction de seconde, par exemple comprise entre 10 millisecondes (ms) et 100 ms (dit autrement, D ∈ [10 ms, 100 ms]). Un segment audio a alors une durée inférieure à celle d'un mot du langage parlé par le locuteur, quelle que soit la langue dans laquelle il s'exprime. Cette durée est a fortiori inférieure à la durée d'une phrase ou même d'une portion de phrase dans cette langue. La durée d'un segment audio sk (τ) est alors, au plus, de l'ordre de la durée d'un phonème, c'est-à-dire la durée de l'unité de parole de plus petite taille (voyelle ou consonne). Un segment audio sk (τ) ne porte donc, en soi, aucun contenu informationnel eu égard au langage parlé, car sa durée est bien trop courte pour cela. Ceci procure au procédé de masquage l'avantage de la simplicité, et en plus une bonne robustesse contre le risque de réversion.Advantageously, the duration D of an audio segment s k ( τ ) is equal to a fraction of a second, for example between 10 milliseconds (ms) and 100 ms (in other words, D ∈ [10 ms, 100 ms ]). An audio segment then has a duration less than that of a word of the language spoken by the speaker, whatever the language in which he or she speaks. This duration is a fortiori less than the duration of a sentence or even a portion of a sentence in this language. The duration of an audio segment s k ( τ ) is then, at most, of the order of the duration of a phoneme, that is to say the duration of the smallest speech unit ( vowel or consonant). An audio segment s k ( τ ) therefore does not carry, in itself, any informational content with regard to spoken language, because its duration is far too short for that. This gives the masking process the advantage of simplicity, and in addition good robustness against the risk of reversion.

On notera qu'une telle décomposition du signal audio S(t) en une série {sk (τ)} k=1,2,3,...N de segments aussi appelés trames élémentaires et indicée par la lettre k ci-après, obtenue par fenêtrage et décalage est classique en traitement du signal, car elle permet de traiter le signal par tranches temporelles successives.Note that such a decomposition of the audio signal S(t) into a series { s k (τ)} k =1,2,3,... N of segments also called elementary frames and indexed by the letter k below afterwards, obtained by windowing and shifting is classic in signal processing, because it allows the signal to be processed in successive time slices.

L'étape 11 comprend aussi la formation d'une série de couples de segments audios comprenant chacun un primat et un duplicata d'un segment audio de la série de segments audios ci-dessus. Comme on le verra plus en détails plus loin, en référence au diagramme d'étapes de la figure 6, ces couples peuvent plus particulièrement être définis dans le domaine fréquentiel, après transformée de Fourier (TF) appliquée aux segments sk (τ) du signal audio dans le domaine temporel. Dans chaque couple formé par un primat et un duplicata d'un segment du signal de parole original du locuteur, ces deux éléments sont identiques l'un à l'autre, et sont issus du même segment considéré du signal de parole original du locuteur. Dans ce qui suit et dans les figures des dessins annexés, la série de primats et la série de duplicata des segments audios du signal de parole qui sont ainsi produites, subissent des traitements pour chaque primat et chaque duplicata du segment audio d'un couple, pour en extraire d'une part, l'enveloppe des harmoniques caractérisant le timbre du segment audio, et d'autre part, le signal caractérisant I la hauteur du segment audio. Dans la figure 1, la série de timbres et la série de hauteurs sont désignées indifféremment par les lettres A et B, ou inversement).Step 11 also includes the formation of a series of pairs of audio segments each comprising a primate and a duplicate of an audio segment of the series of audio segments above. As will be seen in more detail later, with reference to the step diagram of the Figure 6 , these couples can more particularly be defined in the frequency domain, after Fourier transform (TF) applied to the segments s k ( τ ) of the audio signal in the time domain. In each pair formed by a primate and a duplicate of a segment of the original speech signal of the speaker, these two elements are identical to each other, and come from the same segment considered of the original speech signal of the speaker. In what follows and in the figures of the appended drawings, the series of primates and the series of duplicates of the audio segments of the speech signal which are thus produced, undergo processing for each primate and each duplicate of the audio segment of a pair, to extract on the one hand, the envelope of the harmonics characterizing the timbre of the audio segment, and on the other hand, the signal characterizing the pitch of the audio segment. In the figure 1 , the series of timbres and the series of pitches are designated indifferently by the letters A and B, or vice versa).

Pour chaque couple de segments, les signaux caractérisant I hauteur et le timbre extraits du primat et du duplicata subissent des traitements parallèles, pour l'essentiel indépendants l'un de l'autre. Ces traitements sont illustrés par les étapes 12a et 13a de la branche de gauche et par les étapes 12b et 13b de la branche de droite, respectivement, de l'algorithme illustré schématiquement par l'organigramme de la figure 1.For each pair of segments, the signals characterizing the pitch and the timbre extracted from the primate and the duplicate undergo parallel processing, essentially independent of each other. These treatments are illustrated by steps 12a and 13a of the left branch and by steps 12b and 13b of the right branch, respectively, of the algorithm illustrated schematically by the flowchart of the figure 1 .

L'étape 12a est une première altération ascendante (notée MODa, dans ce qui suit et dans les dessins), appliquée à chaque élément de la série A des segments audios. Cette altération ascendante n'est pas identique d'un élément à l'autre de la série A. Au contraire, elle évolue en fonction d'au moins un premier paramètre de masquage. Par contre, quelle que soit l'évolution du premier paramètre de masquage, cette première altération ascendante a toujours pour effet d'élever une partie déterminée du contenu fréquentiel du primat du segment audio auquel elle est appliquée. On entend par là que tout ou partie des fréquences du primat du segment considéré sont déplacées vers les hautes fréquences, par rapport au segment audio correspondant du signal de parole original. L'application de la première altération génère un timbre altéré (ici vers le haut) du segment audio.Step 12a is a first ascending alteration (denoted MODa, in the following and in the drawings), applied to each element of the series A of the audio segments. This ascending alteration is not identical from one element to another in the A series. On the contrary, it evolves as a function of at least a first masking parameter. On the other hand, whatever the evolution of the first masking parameter, this first ascending alteration always has the effect of raising a determined part of the frequency content of the primacy of the audio segment to which it is applied. By this we mean that all or part of the primacy frequencies of the segment considered are shifted towards high frequencies, compared to the corresponding audio segment of the original speech signal. Applying the first alteration generates an altered timbre (here towards the top) of the audio segment.

L'étape 12b est quant à elle une deuxième altération, descendante (notée MODB dans ce qui suit et dans les dessins), appliquée à chaque élément de la série B des segments audios. Tout comme l'altération ascendante MODA appliquée aux éléments de la série A, cette altération descendante MODB n'est pas identique d'un élément à l'autre de la série B. Cela signifie qu'elle évolue, et ce en fonction d'au moins un second paramètre de masquage. Par contre, quelle que soit l'évolution de ce second paramètre de masquage, cette altération descendante a toujours pour effet d'abaisser une partie déterminée du contenu fréquentiel de l'élément du segment audio auquel elle est appliquée. On entend par là que tout ou partie des fréquences du segment audio considéré est déplacée vers les basses fréquences, par rapport au segment audio correspondant du signal de parole original. L'application de la deuxième altération génère une hauteur altérée (ici vers le bas) du segment audio.Step 12b is a second, descending alteration (denoted MOD B in the following and in the drawings), applied to each element of series B of audio segments. Just like the ascending alteration MOD A applied to the elements of series A, this descending alteration MOD B is not identical from one element to another in series B. This means that it evolves, depending on at least one second masking parameter. On the other hand, whatever the evolution of this second masking parameter, this downward alteration always has the effect of lowering a determined part of the frequency content of the element of the audio segment to which it is applied. By this we mean that all or part of the frequencies of the audio segment considered are shifted towards low frequencies, compared to the corresponding audio segment of the original speech signal. Applying the second alteration generates an altered pitch (here towards the bottom) of the audio segment.

On notera qu'il est alors avantageux que chacune des altérations MODA et MODB soient bridées du point de vue de l'évolution du contenu fréquentiel des éléments du segment audio auquel elle est appliquée. On entend par là que ces altérations du spectre fréquentiel sont chacune uniquement ascendante ou uniquement descendante, sans aucune inflexion du sens de déplacement des fréquences concernées du spectre considéré. En effet, cela permet d'éviter que le système audio-phonique 20 ne puisse être utilisé lui-même par des personnes mal intentionnées auxquelles il aurait été fourni ou mis à disposition, ou qui pourraient y avoir un accès par tout autre moyen, afin de réaliser une réversion de l'altération du signal audio. Une telle réversion pourrait en effet consister à appliquer au signal audio masqué (que le tiers malveillant aurait copié ou intercepté de quelque manière que ce soit), des altérations avec des paramètres de masquage judicieusement choisis pour revenir au signal de parole original, c'est-à-dire au signal audio correspondant à la voix naturelle du locuteur. Mais grâce aux modes de mise en oeuvre décrits ci-dessus, une telle manoeuvre n'est pas possible avec le système audio-phonique 20 selon l'invention lui-même. En effet, aucun changement des valeurs des paramètres de masquage de l'altération ascendante MODA et de l'altération descendante MODB que le tiers malveillant pourrait tenter, ne peut avoir pour effet d'inverser les déplacements unidirectionnels du pitch (hauteur) et du timbre, respectivement, du signal de parole original. En d'autres termes, le système audio 20 n'offre pas la possibilité de la réversibilité de l'altération qu'il produit. Cela n'interdit pas à un tiers malveillant de tenter cette fraude avec d'autres moyens, mais au moins le système servant à masquer le signal audio contenant la voix naturelle d'un locuteur ne peut-il être détourné de sa fonction, en fait « retourné », afin de faire tomber la protection du locuteur qu'il permet de procurer.It will be noted that it is then advantageous for each of the alterations MOD A and MOD B to be restricted from the point of view of the evolution of the frequency content of the elements of the audio segment to which it is applied. By this we mean that these alterations of the frequency spectrum are each only ascending or only descending, without any inflection in the direction of movement of the frequencies concerned in the spectrum considered. In fact, this prevents the audio-phonic system 20 from being able to be used itself by malicious people to whom it has been provided or made available, or who could have access to it by any other means, in order to reverse the alteration of the audio signal. Such a reversion could in fact consist of applying to the masked audio signal (which the malicious third party would have copied or intercepted in any way), alterations with judiciously chosen masking parameters to return to the original speech signal, this is i.e. to the audio signal corresponding to the natural voice of the speaker. But thanks to the modes of implementation described above, such a maneuver is not possible with the audio-phonic system 20 according to the invention itself. Indeed, no change in the values of the masking parameters of the ascending alteration MOD A and the descending alteration MOD B that the malicious third party could attempt can have the effect of reversing the unidirectional movements of the pitch (height) and of the timbre, respectively, of the original speech signal. In other words, the audio system 20 does not offer the possibility of reversibility of the alteration that it produces. This does not prohibit a malicious third party from attempting this fraud with other means, but at least the system used to mask the audio signal containing the natural voice of a speaker cannot be diverted from its function, in fact. “returned”, in order to remove the protection of the speaker that it provides.

Le procédé comprend ensuite une étape 15 de combinaison du timbre du segment audio, altéré par l'altération MODA et qui a été obtenu à l'étape 12a, d'une part, et de la hauteur du segment audio, altérée par l'altération MODB et qui a été obtenue à l'étape 12b, d'autre part, pour former un unique segment audio altéré résultant. Par combinaison, on entend ici une opération ayant, du point de vue physique, l'effet de recombiner les spectres respectifs altérés, c'est-à-dire de fusionner les contenus fréquentiels respectifs du timbre altéré du segment audio et de la hauteur altérée dudit segment audio, éventuellement avec un moyennage et/ou un lissage. En traitement de signal, cela peut s'obtenir par multiplication (symbole « × ») ou par convolution (symbole « ∗ »), soit dans le domaine temporel soit dans le domaine fréquentiel après transformation du(des) signal(aux) audio(s) du domaine temporel dans le domaine fréquentiel par une transformée de Fourier.The method then comprises a step 15 of combining the timbre of the audio segment, altered by the MOD A alteration and which was obtained in step 12a, on the one hand, and the pitch of the audio segment, altered by the alteration MOD B and which was obtained in step 12b, on the other hand, to form a single resulting altered audio segment. By combination, we mean here an operation having, from a physical point of view, the effect of recombining the respective altered spectra, that is to say of merging the respective frequency contents of the altered timbre of the audio segment and of the altered pitch. of said audio segment, possibly with averaging and/or smoothing. In signal processing, this can be obtained by multiplication (“×” symbol) or by convolution (“∗” symbol), either in the time domain or in the frequency domain after transformation of the audio signal(s). s) from the time domain into the frequency domain by a Fourier transform.

Le procédé comprend en outre, d'un couple de segments audios à l'autre dans la série des couples de segments audios :

  • à l'étape 13a pour les éléments de la série A, une variation d'au moins un paramètre de l'altération MODA, par exemple une variation de cette altération dans un intervalle de largeur paramétrable, cette variation étant notée symboliquement VARA dans ce qui suit et aux figures, et ;
  • à l'étape 13b pour les éléments de la série B, une variation d'au moins un paramètre de l'altération MODB, par exemple une variation de cette altération dans un intervalle de largeur elle-même paramétrable, cette variation étant notée symboliquement VARs dans ce qui suit et aux figures,
lesdites variations des altérations étant variables d'un couple de segments à l'autre dans la série des couples de segments audios.The method further comprises, from one pair of audio segments to another in the series of pairs of audio segments:
  • in step 13a for the elements of series A, a variation of at least one parameter of the alteration MOD A , for example a variation of this alteration in a configurable width interval, this variation being symbolically denoted VAR A in what follows and in the figures, and;
  • in step 13b for the elements of series B, a variation of at least one parameter of the alteration MOD B , for example a variation of this alteration in a width interval itself configurable, this variation being noted symbolically VARs in the following and in the figures,
said variations of the alterations being variable from one pair of segments to another in the series of pairs of audio segments.

L'Homme du métier appréciera que, dans la pratique, les étapes 12a et 12b d'une part, et les étapes 13a et 13b d'autres part, peuvent être effectuées dans l'ordre inverse de celui présenté à la figure 2. Dit autrement, elles sont intervertibles : les étapes 13a et 13b peuvent être exécutées après (comme représenté) ou bien avant les étapes 12a et 12b.Those skilled in the art will appreciate that, in practice, steps 12a and 12b on the one hand, and steps 13a and 13b on the other hand, can be carried out in the reverse order to that presented in the figure 2 . In other words, they are interchangeable: steps 13a and 13b can be executed after (as shown) or before steps 12a and 12b.

De préférence, les étapes 13a et 13b causent une perturbation locale, autour de l'instant τ, des caractéristiques (spectrales) du timbre et du pitch (hauteur), ladite perturbation variant d'un segment à l'autre dans la série {sk (τ)} k=1,2,3,...N (donc en fonction de k) de façon aléatoire, non-stationnaire (par exemple, par marches aléatoires) et de manière indépendante sur chacune des deux composantes spectrales, à savoir la hauteur ou pitch et le timbre.Preferably, steps 13a and 13b cause a local disturbance, around the instant τ , of the (spectral) characteristics of the timbre and the pitch (pitch), said disturbance varying from one segment to another in the series { s k (τ)} k =1,2,3,... N (therefore as a function of k) in a random, non-stationary manner (for example, by random walks) and independently on each of the two spectral components, namely the height or pitch and the timbre.

Dans un exemple de mise en oeuvre qui n'est toutefois pas limitatif, l'altération de la hauteur du signal audio peut ainsi correspondre à une variation « orientée », à savoir une montée ou une descente, de la fréquence fondamentale du signal audio, qui peut prendre l'une quelconque des valeurs déterminées suivantes : ± 6.25 %, ± 12.5 %, ± 25 %, ± 50 % et ± 100 %. Ces exemples de valeurs correspondent approximativement à des variations d'un demi-ton, d'un ton, d'une tierce, d'une quinte, ou d'une octave, respectivement, de la hauteur (c'est-à-dire de la fréquence fondamentale, ou « pitch ») du signal de parole original.In an example of implementation which is however not limiting, the alteration of the height of the audio signal can thus correspond to an “oriented” variation, namely a rise or fall, of the fundamental frequency of the audio signal, which can take any of the following determined values: ± 6.25%, ± 12.5%, ± 25%, ± 50% and ± 100%. These example values correspond approximately to variations of a semitone, tone, third, fifth, or octave, respectively, in pitch (i.e. of the fundamental frequency, or “pitch”) of the original speech signal.

La répétition en séquence de l'étape 14 pour les couples successifs de primats et de duplicata des segments audios générés à l'étape 11, génère une série de segments audios altérés.The sequential repetition of step 14 for the successive pairs of primates and duplicates of the audio segments generated in step 11, generates a series of altered audio segments.

Le procédé comprend enfin, à l'étape 15, la recomposition du signal audio masqué à partir de la série des segments audios altérés obtenue par la répétition des étapes antérieures, 12a-12b, 13a-13b et 14. Cette recomposition s'effectue par superposition-addition, dans le domaine temporel, des éléments successifs de la série de segments audios altérés produite à l'étape 14, au fur et à mesure de leur transformation.The method finally comprises, in step 15, the recomposition of the masked audio signal from the series of altered audio segments obtained by the repetition of the previous steps, 12a-12b, 13a-13b and 14. This recomposition is carried out by superposition-addition, in the time domain, of the successive elements of the series of altered audio segments produced in step 14, as they are transformed.

On notera que, dans le segment audio altéré résultant, le contenu fréquentiel est doublement altéré, par rapport au spectre du segment considéré du signal de parole original. Ceci résulte du cumul des effets respectifs des fonctions MODA et MODB.Note that, in the resulting altered audio segment, the frequency content is doubly altered, compared to the spectrum of the considered segment of the original speech signal. This results from the accumulation of the respective effects of the MOD A and MOD B functions.

Dans des modes de mise en oeuvre, les changements successifs du premier paramètre de masquage et du second paramètre de masquage qui interviennent à chaque occurrence des étapes 13a et 13b, respectivement, induisent des variations aléatoires desdits premier paramètre et second paramètre, d'un couple à l'autre dans la série des couples des segments audios générée à l'étape 11.In embodiments, the successive changes of the first masking parameter and the second masking parameter which occur at each occurrence of steps 13a and 13b, respectively, induce random variations of said first parameter and second parameter, of a pair to the other in the series of pairs of audio segments generated in step 11.

Comme les altérations MODA et MODB portent sur des composantes différentes du spectre du segment considéré du signal de parole original, comme en outre elles utilisent des paramètres de masquage distincts, et comme enfin leurs paramètres de masquage respectifs évoluent indépendamment l'un de l'autre de manière aléatoire, l'effet de masquage qui est obtenu est très difficile pour ne pas dire impossible à inverser.As the MOD A and MOD B alterations relate to different components of the spectrum of the segment considered of the original speech signal, as in addition they use distinct masking parameters, and as finally their respective masking parameters evolve independently of one of the other randomly, the masking effect which is obtained is very difficult, if not impossible, to reverse.

Ainsi, les variations du premier et du second paramètres de masquage sont elles-mêmes fluctuantes aléatoirement, d'un couple de segments à l'autre dans la série des couples de segments audios. Dit autrement, les variations notées VARA et VARs aux étapes 13a et 13b des paramètres des modifications notées MODA et MODB introduites aux étapes 12a et 12b fluctuent, en fonction du temps. Notamment, cette fluctuation intervient d'un segment à l'autre du signal de parole original. De ce fait, sur la figure 1, cette fluctuation est symbolisée par une opération notée VARA+B à l'étape 14.Thus, the variations of the first and second masking parameters are themselves fluctuating randomly, from one pair of segments to another in the series of pairs of audio segments. In other words, the variations denoted VAR A and VARs in steps 13a and 13b of the parameters of the modifications denoted MOD A and MOD B introduced in steps 12a and 12b fluctuate, as a function of time. In particular, this fluctuation occurs from a segment to another of the original speech signal. Therefore, on the figure 1 , this fluctuation is symbolized by an operation denoted VAR A+B in step 14.

La figure 3A et la figure 3B illustrent un mode de mise en oeuvre de l'altération descendante et de l'altération montante, respectivement, qui peuvent être appliquées au timbre et à la hauteur (ou pitch) d'un segment de signal audio, à l'étape 12a et à l'étape 12b, respectivement, du procédé illustré par l'organigramme de la figure 1.There Figure 3A and the Figure 3B illustrate a mode of implementation of the descending alteration and the ascending alteration, respectively, which can be applied to the timbre and the height (or pitch) of an audio signal segment, in step 12a and at step 12b, respectively, of the method illustrated by the flowchart of the figure 1 .

Dans cet exemple, l'altération ascendante MODA est appliquée à la hauteur de la voix, symbolisée à la figure 3A par un diapason. Un diapason est connu comme étant un objet dont la résonance acoustique produit un son ayant une fréquence pure, comme l'est en principe la fréquence fondamentale (ou pitch) de la voix d'un être humain. En outre, l'altération descendante MODB est appliquée au timbre de la voix, symbolisé à la figure 4A par l'enveloppe du spectre fréquentiel d'un signal audio. Bien entendu, l'exemple représenté par les figures 3A et 3B n'est pas limitatif. L'altération ascendante MODA peut inversement être appliquée à la fréquence fondamentale (hauteur) alors que l'altération descendante MODB serait appliquée à tout ou partie de l'enveloppe des harmoniques (timbre).In this example, the ascending alteration MOD A is applied to the pitch of the voice, symbolized at the Figure 3A by a tuning fork. A tuning fork is known as an object whose acoustic resonance produces a sound with a pure frequency, such as the fundamental frequency (or pitch) of a human voice. In addition, the descending alteration MOD B is applied to the timbre of the voice, symbolized at the figure 4A by the envelope of the frequency spectrum of an audio signal. Of course, the example represented by the figures 3A And 3B is not limiting. The ascending alteration MOD A can conversely be applied to the fundamental frequency (pitch) while the descending alteration MOD B would be applied to all or part of the harmonic envelope (timbre).

Dans tous les cas, les deux altérations MODA et MODB produisent chacune des déplacements de certaines fréquences (à savoir, dans l'exemple considéré ici, la hauteur pour l'une, et l'enveloppe des harmoniques pour l'autre) suivant des directions opposées dans le spectre de fréquences (à savoir une direction ascendante vers les aigus pour l'une, et une direction descendante vers les graves pour l'autre). Dans le signal audio protégé qui est obtenu, ces effets opérant dans deux directions différentes permettent une bonne protection tout en préservant une certaine intelligibilité du signal audio. En effet, l'effet « masculinisant » d'un déplacement de fréquence vers les graves qui résulte de l'altération ascendante MODA est en partie contrebalancée par l'effet « féminisant » d'un déplacement de fréquence vers les aigus qui résulte de l'altération descendante MODA. On évite ainsi de générer un signal masqué proche de la voix de « Dark Vador » ou proche de la voix de « Mickey Mouse » .In all cases, the two alterations MOD A and MOD B each produce displacements of certain frequencies (namely, in the example considered here, the pitch for one, and the envelope of the harmonics for the other) following opposite directions in the frequency spectrum (i.e. an ascending direction towards the treble for one, and a descending direction towards the bass for the other). In the protected audio signal which is obtained, these effects operating in two different directions allow good protection while preserving a certain intelligibility of the audio signal. Indeed, the “masculinizing” effect of a frequency shift towards the bass which results from the ascending alteration MOD A is partly counterbalanced by the “feminizing” effect of a frequency shift towards the treble which results from the descending alteration MOD A. This avoids generating a masked signal close to the voice of “Darth Vader” or close to the voice of “Mickey Mouse” .

Le fichier audio obtenu après la mise en oeuvre du procédé de la figure 1 peut être transmis par messagerie électronique, mis en ligne sur les réseaux sociaux ou sur un site Web, diffusé sur les ondes, ou distribué sur un support d'enregistrement quelconque. Le procédé permet de masquer la voix a posteriori, sur un enregistrement de la voix du locuteur, comme on peut le faire facilement avec un logiciel d'édition audio. Tel qu'il est proposé sous la forme d'un programme d'ordinateur comme plugin à intégrer dans un logiciel de traitement audio-phonique ou audio-visuel, le procédé ne permet pas de passer des appels audio ou vidéo avec une voix masquée.The audio file obtained after implementing the process of figure 1 may be transmitted by electronic mail, posted online on social networks or on a website, broadcast on the airwaves, or distributed on any recording medium. The process makes it possible to mask the voice a posteriori, on a recording of the speaker's voice, as can easily be done with audio editing software. As it is offered in the form of a computer program as a plugin to be integrated into audio-phonic or audio-visual processing software, the method does not allow audio or video calls to be made with a masked voice.

Dès lors que le procédé est mis en oeuvre sur la plateforme audio-phonique ou audio-visuelle avec laquelle la voix du locuteur est acquise, la voix d'origine ne circule sur aucun réseau informatique, ce qui évite un risque d'interception par un tiers mal intentionné des données correspondant à la voix non masquée.Since the process is implemented on the audio-phonic or audio-visual platform with which the speaker's voice is acquired, the original voice does not circulate on any computer network, which avoids a risk of interception by a malicious third party of data corresponding to the unmasked voice.

Le programme d'ordinateur qui met en oeuvre le procédé de masquage, en effectuant les calculs du traitement numérique correspondant, peut être inclus dans un logiciel hôte, par exemple le logiciel opérationnel d'un environnement de traitement audio-phonique, telle qu'une console de mixage audio ou de montage audio-visuel.The computer program which implements the masking method, by carrying out the calculations of the corresponding digital processing, can be included in a host software, for example the operational software of an audio-phonic processing environment, such as a audio mixing or audio-visual editing console.

Le résultat obtenu par la mise en oeuvre du procédé, à savoir le signal audio masqué, peut être fixé, c'est-à-dire enregistré :

  • soit sur une piste distincte, ajoutée « en insert » dans le programme en cours de composition sur le système de traitement audio-phonique ou audio-visuel;
  • soit directement sur le fichier audio d'origine qui a été traité, par exemple en remplacement des données du signal de parole original afin de supprimer l'enregistrement d'origine de la voix du locuteur et garantir ainsi sa protection perpétuelle.
The result obtained by implementing the method, namely the masked audio signal, can be fixed, that is to say recorded:
  • either on a separate track, added “as an insert” in the program being composed on the audio-phonic or audio-visual processing system;
  • or directly on the original audio file which has been processed, for example to replace the data of the original speech signal in order to delete the original recording of the speaker's voice and thus guarantee its perpetual protection.

Ce résultat est irréversible en audio, et non analysable par reconnaissance vocale. Il est lisible immédiatement, c'est-à-dire qu'on peut jouer le fichier de données audios ou lire la piste audio correspondante, afin d'écouter le signal audio masqué, notamment pour vérifier à l'oreille ou par tout autre moyen technique disponible que la voix d'origine du locuteur n'est plus reconnaissable.This result is irreversible in audio, and cannot be analyzed by voice recognition. It is readable immediately, that is to say we can play the audio data file or read the corresponding audio track, in order to listen to the masked audio signal, in particular to check by ear or by any other means available technique that the original voice of the speaker is no longer recognizable.

La figure 4A est un diagramme de fréquence d'une séquence audio enregistrée, montrant la répartition de l'énergie en fonction du temps (en abscisses) et de la fréquence (en ordonnées). La figure 4B est un diagramme de fréquence de la séquence audio de la figure 4A après la mise en oeuvre d'un procédé de masquage de la voix selon l'art antérieur, par simple décalage du pitch. On parle parfois de signal « pitché » pour désigner le signal ayant subi un tel décalage. On voit nettement en comparant ces deux diagrammes de fréquence qu'il y a une très forte analogie des harmoniques du signal entre le signal original et le signal pitché.There Figure 4A is a frequency diagram of a recorded audio sequence, showing the distribution of energy as a function of time (on the abscissa) and frequency (on the ordinate). There figure 4B is a frequency diagram of the audio sequence of the Figure 4A after the implementation of a voice masking process according to the prior art, by simple pitch shift. We sometimes speak of a “pitched” signal to designate the signal having undergone such an offset. We can clearly see by comparing these two frequency diagrams that there is a very strong analogy of the harmonics of the signal between the original signal and the pitched signal.

La figure 5A et la figure 5B permettent de comparer les diagrammes de fréquence de la même séquence audio qu'à la figure 4A, en montrant la répartition de l'énergie en fonction de la fréquence avant et après, respectivement, la mise en oeuvre d'un procédé de masquage de la voix selon le procédé proposé. Cette comparaison montre que les harmoniques du signal ont subi des transformations significatives. On distingue nettement à la figure 5B que des harmoniques de la figure 5A ont subi des modifications importantes, masquant ainsi les harmoniques du signal d'origine. Ce masquage rend extrêmement difficile pour ne pas dire impossible la comparaison des spectrogrammes du signal de parole original et du signal de parole masqué.There figure 5A and the Figure 5B allow you to compare the frequency diagrams of the same audio sequence as in the figure 4A , by showing the distribution of energy as a function of frequency before and after, respectively, the implementation of a voice masking method according to the proposed method. This comparison shows that the harmonics of the signal have undergone significant transformations. We clearly distinguish at the Figure 5B that harmonics of the figure 5A have undergone significant modifications, thus masking the harmonics of the original signal. This masking makes it extremely difficult, if not impossible, to compare the spectrograms of the original speech signal and the masked speech signal.

Des modes de mise en oeuvre du procédé présenté ci-dessus de manière schématique et dans ses principales étapes seulement, vont maintenant être décrits plus en détail en référence à l'organigramme de la figure 6.Modes of implementation of the process presented above schematically and in its main stages only, will now be described in more detail with reference to the flowchart of the Figure 6 .

La mise en oeuvre du procédé consiste à appliquer un traitement numérique, ici par exemple dans le domaine temps-fréquence qui est mieux adapté à ce type de traitement par calculs, à la suite {sk (τ)} k=1,2,3,... des segments sk (τ) du signal de parole numérisé S(t). Un tel segment est noté sk (τ) en haut de la figure 6. L'Homme du métier appréciera qu'en pratique le traitement illustré par le diagramme d'étapes de cette figure est évidemment appliqué successivement à chaque segment sk (τ) indicé par la lettre k.The implementation of the method consists of applying digital processing, here for example in the time-frequency domain which is better suited to this type of processing by calculations, following { s k (τ)} k =1.2, 3,... segments s k ( τ ) of the digitized speech signal S(t). Such a segment is denoted s k ( τ ) at the top of the Figure 6 . Those skilled in the art will appreciate that in practice the treatment illustrated by the step diagram in this figure is obviously applied successively to each segment s k ( τ ) indexed by the letter k.

Le segment sk (τ) fait l'objet à l'étape 61 d'une Transformée de Fourier (TF), par exemple une transformée de Fourier à court terme connue sous l'acronyme TFCT (ou STFT, de l'anglais « Short Term Fourier Transform ») afin de passer dans le domaine temps-fréquence. Chaque segment sk (τ) de durée τ dans le domaine temporel, est ainsi converti pour donner un segment noté S k (t, f) qui prend des valeurs complexes dans le domaine temps-fréquence.The segment s k ( τ ) is the subject in step 61 of a Fourier Transform (TF), for example a short-term Fourier transform known by the acronym TFCT (or STFT, from the English " Short Term Fourier Transform ") in order to move into the time-frequency domain. Each segment s k ( τ ) of duration τ in the time domain is thus converted to give a segment denoted S k ( t , f ) which takes complex values in the time-frequency domain.

A l'étape 62, il est réalisé une décomposition du segment S k (t, f) en un terme de module noté Xk (t, f) et un terme de phase noté Qk (t, f). Ces termes, sont tels que : S k t f = X k t f × Q k t f

Figure imgb0003
où : X k t f = S k t f
Figure imgb0004
; et, Q k t f = exp i × Arg S k t f ,
Figure imgb0005
Ar g désigne l'argument d'un nombre complexe.In step 62, the segment S k ( t , f ) is decomposed into a module term denoted X k ( t, f) and a phase term denoted Q k (t, f). These terms are such as: S k t f = X k t f × Q k t f
Figure imgb0003
Or : X k t f = S k t f
Figure imgb0004
; And, Q k t f = exp i × Arg S k t f ,
Figure imgb0005
where Ar g denotes the argument of a complex number.

Le terme Xk (t, f) correspond à la Densité Spectrale de Puissance (DSP) du signal audio au voisinage de l'instant t. A partir de ce terme Xk (t, f), il est alors possible, d'une part de déterminer la fréquence fondamentale de la parole (ou « pitch ») de la parole, c'est-à-dire la hauteur, et d'autre part d'estimer l'enveloppe de la Densité Spectrale de Puissance c'est-à-dire le timbre. The term _ _ From this term and on the other hand to estimate the envelope of the Power Spectral Density, that is to say the timbre.

Plus particulièrement, à l'étape 63 on procède à la formation d'un couple de segments initialement égaux entre eux et égaux au terme de module Xk (t, f) du segment Sk (t, f), et qu'on appelle, pour les besoins du présent exposé, le primat et le duplicata du segment Sk (t, f). On parlera aussi parfois de série de couples formés chacun (c'est-à-dire pour chaque valeur de l'indice k) par ce primat et ce duplicata du segment Sk (t, f). Des traitements différenciés appliqués au primat et au duplicata, respectivement, du segment permettent de ainsi de séparer le terme de module Xk (t, f) en deux composantes Ak (t, f) et Bk (t, f) distinctes telles que, dans le domaine temps-fréquence, on ait : X k t f = A k t f × B k t f ,

Figure imgb0006
où :

  • Ak (t, f) correspond, pour le segment du signal d'indice k considéré, au signal caractérisant le timbre du signal audio ; et,
  • Bk (t, f) correspond, pour ce segment, au signal caractérisant la hauteur (ou pitch) du signal audio.
More particularly, in step 63 we proceed to the formation of a pair of segments initially equal to each other and equal to the module term X k ( t, f) of the segment S k ( t, f ), and that we calls, for the purposes of this presentation, the primacy and the duplicate of the segment S k ( t, f ) . We will also sometimes speak of a series of pairs each formed (that is to say for each value of the index k ) by this primate and this duplicate of the segment S k ( t , f ) . Differentiated treatments applied to the primacy and the duplicate, respectively, of the segment make it possible to separate the module term X k ( t, f) into two distinct components A k ( t , f ) and B k ( t , f ) such that, in the time-frequency domain, we have: X k t f = HAS k t f × B k t f ,
Figure imgb0006
Or :
  • A k ( t, f ) corresponds, for the segment of the signal of index k considered, to the signal characterizing the timbre of the audio signal; And,
  • B k ( t , f ) corresponds, for this segment, to the signal characterizing the height (or pitch) of the audio signal.

Par exemple, la composante de timbre Ak (t, f) peut être obtenue par la méthode du cepstre. A cet effet, on applique une transformée de Fourier Inverse (IFFT, mis pour « Inverse Fast Fourier Transform » en anglais), et on obtient alors le cepstre, qui est une forme duale temporelle du spectre logarithmique (le spectre en domaine fréquentiel devient cepstre en domaine temporel). Après cette transformation, la fréquence fondamentale peut être calculée à partir du signal cepstral par la détermination de l'index du pic principal du cepstre et on obtient, par fenêtrage du cepstre, l'enveloppe du spectre qui correspond à la composante de timbre Ak (t, f). For example, the timbre component A k ( t , f ) can be obtained by the cepstrum method. To this end, we apply an Inverse Fourier Transform (IFFT), and we then obtain the cepstrum, which is a dual temporal form of the logarithmic spectrum (the frequency domain spectrum becomes cepstrum in time domain). After this transformation, the fundamental frequency can be calculated from the cepstral signal by determining the index of the main peak of the cepstrum and we obtain, by windowing the cepstrum, the envelope of the spectrum which corresponds to the timbre component A k ( t , f ) .

La composante de hauteur (ou pitch) Bk (t, f), quant à elle, peut alors être obtenue, en divisant point à point le signal Xk (t, f) par la valeur de la composante de timbre Ak (t, f). En d'autres termes, pour obtenir la composante de hauteur (ou pitch) Bk (t, f), on peut « soustraire » (ce qui est réalisé par un calcul de division dans l'espace temps-fréquence) du terme de module Xk (t, f) du segment Sk (t, f) la contribution Ak (t, f) de l'enveloppe du spectre pour obtenir « ce qui reste » qu'on traite comme le (spectre du) signal caractérisant la hauteur (ou pitch) ou plus généralement ce qu'on appelle la structure fine de la Densité Spectrale de Puissance (DSP).The height component (or pitch) B k ( t , f ), for its part, can then be obtained by dividing the signal X k ( t , f) point to point by the value of the timbre component A k ( t , f ) . In other words, to obtain the height (or pitch) component B k ( t , f ), we can “subtract” (which is carried out by a division calculation in the time-frequency space) from the term of module _ _ _ _ _ _ _ _ characterizing the height (or pitch) or more generally what is called the fine structure of the Spectral Power Density (PSD).

Aux étapes 64a et 65a, d'une part, et aux étapes 64b et 65b, d'autre part, on applique alors des altérations, ascendante ou descendante, à l'enveloppe Ak (t, f) du spectre correspondant au timbre et à la structure fine Bk (t, f) du spectre correspondant à la hauteur, selon une transformation de préférence monotone le long de l'axe des fréquences, ces altérations étant distinctes l'une de l'autre quant à leurs modalités de mise en oeuvre, et étant par ailleurs variables chacune aléatoirement, d'un segment de signal audio à l'autre. Ces altérations permettent de modifier respectivement le timbre et la hauteur du signal de façon indépendante, et variable au cours du temps (non-stationnaire), plus particulièrement d'un segment de signal audio à l'autre c'est-à-dire en fonction de l'indice k. Pour chacun du timbre et de la hauteur, ce résultat est obtenu globalement par la multiplication dans le domaine temps-fréquence de la composante Ak (t, f) ou Bk (t, f), respectivement, de la densité spectrale de puissance Xk (t, f) :

  • d'une part, par une fonction d'altération de l'échelle fréquentielle ΓA (f) ou ΓB (f), à l'étape 65a pour la composante de timbre Ak (t, f) et à l'étape 65b pour la composante de hauteur Bk (t, f), respectivement, qui sont de préférence monotones et dont l'une est ascendante alors que l'autre est descendante relativement à ses effets sur le contenu fréquentiel du segment audio original Sk (t, f) ; et,
  • d'autre part, par une fonction de variation temporelle γA (t) ou γB (t) appliquées globalement à l'échelle des fréquences, à l'étape 64a pour la composante de timbre Ak (t, f) et à l'étape 64b pour la composante de hauteur, Bk (t, f) respectivement.
In steps 64a and 65a, on the one hand, and in steps 64b and 65b, on the other hand, alterations are then applied, ascending or descending, to the envelope A k ( t , f ) of the spectrum corresponding to the timbre and to the fine structure B k ( t , f ) of the spectrum corresponding to the height, according to a preferably monotonous transformation along the frequency axis, these alterations being distinct from each other as to their implementation modalities implemented, and being moreover each variable randomly, from one audio signal segment to another. These alterations make it possible to modify respectively the timbre and the pitch of the signal independently, and variable over time (non-stationary), more particularly from one audio signal segment to another. that is to say according to the index k . For each of the timbre and the pitch, this result is obtained globally by the multiplication in the time-frequency domain of the component A k ( t , f ) or B k ( t , f ), respectively, of the power spectral density Xk ( t , f ) :
  • on the one hand, by an alteration function of the frequency scale Γ A ( f ) or Γ B ( f ), in step 65a for the timbre component A k ( t , f ) and in step 65b for the pitch component B k ( t , f ), respectively, which are preferably monotonic and one of which is ascending while the other is descending relative to its effects on the frequency content of the original audio segment S k ( t , f ); And,
  • on the other hand, by a temporal variation function γ A ( t ) or γ B ( t ) applied globally to the frequency scale, in step 64a for the timbre component A k ( t , f ) and at step 64b for the height component, B k ( t , f ) respectively.

L'ordre dans lequel ces opérations sont effectuées dans le domaine temps-fréquence est indifférent. Dans la mise en oeuvre représentée à la figure 6, on effectue en premier les multiplications des composantes Ak (t, f) et Bk (t, f) par les fonctions de variation temporelle γA (t) et γB (t), respectivement, et on effectue ensuite les multiplications des résultats respectifs de ces premières multiplications par les fonctions d'altération de fréquence ΓA (f) et ΓB (f), à l'étape 65a et à l'étape 65b, respectivement. Mais ces deux groupes de multiplications pourraient aussi bien être effectuées dans l'ordre inverse. Dit autrement, les étapes 65a et 65b pourraient être effectuées avant les étapes 64a et 64b, respectivement.The order in which these operations are carried out in the time-frequency domain is immaterial. In the implementation shown in Figure 6 , we first carry out the multiplications of the components A k ( t, f) and B k ( t , f) by the time variation functions γ A ( t ) and γ B ( t ), respectively, and we then carry out the multiplications respective results of these first multiplications by the frequency alteration functions Γ A ( f ) and Γ B ( f ), in step 65a and in step 65b, respectively. But these two groups of multiplications could just as easily be carried out in reverse order. In other words, steps 65a and 65b could be carried out before steps 64a and 64b, respectively.

Comme on l'aura compris, et comme il est figuré sur la gauche des blocs illustrant les étapes 64a, 64b, 65a et 65b à la figure 6, dans ces modes de mise en oeuvre les fonctions d'altération de fréquence ΓA (f) et ΓB (f) correspondent aux altérations MODA et MODB, respectivement, qui ont été présentées plus haut en référence à la figure 1. De même, les fonctions de variation temporelle γA (t) et γB (t), correspondent aux variations VARA et VARs, respectivement, qui ont été présentées plus haut en référence à la figure 1. Afin d'éviter toute ambiguïté, on notera que, du point de vue du spectre de fréquence du segment audio original Sk (t, f), ce qui varie dans le temps par l'effet des fonctions de variation temporelle γA (t) et γB (t), c'est l'effet global sur ce spectre et plus particulièrement sur le timbre et sur la hauteur, respectivement, de la combinaison des fonctions d'altération de fréquence ΓA (f) et ΓB (f) et des fonctions de variation temporelle γA (t) et γB (t), respectivement, c'est-à-dire du cumul (ou de l'addition) de leurs effets respectifs. Ces effets respectifs de la combinaison des fonctions d'altération de fréquence ΓA (f) et ΓB (f) et des fonctions de variation temporelle γA (t) et γB (t) sur le spectre de fréquence du segment audio original est plus particulièrement lié aux fonctions d'altération de fréquence ΓA (f) et ΓB (f), respectivement, les fonctions de variation temporelle γA (t) et γB (t) ayant seulement pour effet de les faire varier, de préférence aléatoirement, afin de renforcer la robustesse du masquage face à des tentatives de réversion du fait d'une intention malveillante.As will be understood, and as it is shown on the left of the blocks illustrating steps 64a, 64b, 65a and 65b in the Figure 6 , in these modes of implementation the frequency alteration functions Γ A ( f ) and Γ B ( f ) correspond to the alterations MOD A and MOD B , respectively, which were presented above with reference to the figure 1 . Likewise, the time variation functions γ A ( t ) and γ B ( t ), correspond to the variations VAR A and VARs, respectively, which were presented above with reference to the figure 1 . To avoid any ambiguity, it should be noted that, from the point of view of the frequency spectrum of the original audio segment S k ( t , f), which varies in the time by the effect of the temporal variation functions γ A ( t ) and γ B ( t ), this is the overall effect on this spectrum and more particularly on the timbre and on the pitch, respectively, of the combination of functions of frequency alteration Γ A ( f ) and Γ B ( f ) and of the temporal variation functions γ A ( t ) and γ B ( t ), respectively, that is to say of the accumulation (or of the addition) of their respective effects. These respective effects of the combination of the frequency alteration functions Γ A ( f ) and Γ B ( f ) and the time variation functions γ A ( t ) and γ B ( t ) on the frequency spectrum of the original audio segment is more particularly linked to the frequency alteration functions Γ A ( f ) and Γ B ( f ), respectively, the temporal variation functions γ A ( t ) and γ B ( t ) only having the effect of making them vary, preferably randomly, in order to reinforce the robustness of the masking against attempts at reversion due to malicious intent.

Dans l'exemple représenté à la figure 6, l'étape 64a comprend l'application au signal Ak (t, f) qui correspond à la composante de timbre, sur l'échelle des fréquences f, de la fonction de variation temporelle γA (t), pour générer un signal intermédiaire, noté A'k (t, f), de la composante de timbre Ak (t, f). Cette opération peut s'écrire comme une multiplication dans le domaine temps-fréquence, de la manière suivante : A k t f = A k t , f × γ A t

Figure imgb0007
In the example shown in Figure 6 , step 64a comprises the application to the signal A k ( t , f) which corresponds to the timbre component, on the frequency scale f , of the temporal variation function γ A ( t ), to generate a signal intermediate, denoted A' k ( t, f ), of the timbre component A k ( t , f ) . This operation can be written as a multiplication in the time-frequency domain, as follows: HAS k t f = HAS k t , f × γ HAS t
Figure imgb0007

La fonction γA (t) est une fonction linéaire. De préférence, et ainsi qu'il a déjà été mentionné plus haut, elle fluctue au cours du temps de manière aléatoire, en variant d'un segment de signal audio original à l'autre dans la série des segments S k (t, f) qui sont traités en séquence. Dit autrement, elle change en fonction de la valeur de l'indice k, selon un processus aléatoire dont le rafraîchissement est gouverné par un paramètre θ, en sorte que l'altération du timbre n'est pas stationnaire.The function γA ( t ) is a linear function. Preferably, and as has already been mentioned above, it fluctuates over time in a random manner, varying from one original audio signal segment to another in the series of segments S k ( t , f ) which are processed in sequence. In other words, it changes as a function of the value of the index k, according to a random process whose refreshing is governed by a parameter θ , so that the alteration of the timbre is not stationary.

De la même manière, l'étape 64b comprend l'application au signal Bk (t, f), qui correspond à la composante de hauteur (ou pitch=, sur l'échelle des fréquences f, de la fonction de variation temporelle γB (t), pour générer un signal intermédiaire, noté B'k (t, f). Cette opération peut s'écrire comme une multiplication dans le domaine temps-fréquence, de la manière suivante : B k t f = B k t , f × γ B t

Figure imgb0008
La fonction γB (t) est une fonction linéaire. De préférence, et ainsi qu'il a déjà été mentionné plus haut, elle fluctue au cours du temps de manière aléatoire, en variant d'un segment de signal audio original à l'autre dans la série des segments S k (t, f) qui sont traités en séquence. Dit autrement, elle change en fonction de la valeur de l'indice k selon un processus aléatoire dont le rafraîchissement est gouverné par un paramètre θ en sorte que l'altération de la hauteur n'est pas stationnaire.In the same way, step 64b includes the application to the signal B k ( t , f ), which corresponds to the height component (or pitch=, on the frequency scale f , of the temporal variation function γ B ( t ), to generate an intermediate signal, denoted B' k ( t, f ). This operation can be written as a multiplication in the time-frequency domain, as follows: B k t f = B k t , f × γ B t
Figure imgb0008
The function γB ( t ) is a linear function. Preferably, and as has already been mentioned above, it fluctuates over time in a random manner, varying from one original audio signal segment to another in the series of segments S k ( t , f ) which are processed in sequence. In other words, it changes according to the value of the index k according to a random process whose refreshing is governed by a parameter θ so that the alteration of the height is not stationary.

Les fluctuations, en fonction du temps, de la fonction de variation temporelle γA (t) appliquée à la composante de timbre et/ou de la fonction de variation temporelle γB (t) appliquée à la composante de pitch (hauteur), et d'autant plus lorsque l'une et/ou l'autre de ces fluctuations sont aléatoires, permettent de renforcer l'irréversibilité du procédé de masquage de la voix.The fluctuations, as a function of time, of the temporal variation function γ A ( t ) applied to the timbre component and/or of the temporal variation function γ B ( t ) applied to the pitch component (height), and all the more so when one and/or the other of these fluctuations is random, makes it possible to reinforce the irreversibility of the voice masking process.

Par exemple, la fonction de variation temporelle γA (t) peut varier selon une marche aléatoire à l'intérieur d'une plage d'amplitude [δA min, δA max ] déterminée et avec un rythme de rafraîchissement temporel correspondant au paramètre θ précité, où δA min , δA max et θ sont des premiers paramètres de masquage, associés à la fonction de variation temporelle γA (t). For example, the temporal variation function γ A ( t ) can vary according to a random walk within a determined amplitude range [ δ A min , δ A max ] and with a temporal refresh rate corresponding to the parameter θ mentioned above, where δ A min , δ A max and θ are first masking parameters, associated with the temporal variation function γ A ( t ) .

De la même manière, la fonction de variation temporelle γB (t) peut par exemple varier selon une marche aléatoire à l'intérieur d'une plage d'amplitude [δB min, δB max ] et avec un rythme de rafraîchissement temporel correspondant au paramètre θ précité, où δB min , δB max et θ sont des seconds paramètres, associés à la fonction de variation temporelle γB (t). Les fluctuations des deux fonctions de variation temporelle γA (t) et γB (t) sont de préférence indépendantes l'une de l'autre, afin de renforcer l'irréversibilité des altérations. Dit autrement, les fonctions de variations temporelles γA (t) et γB (t) sont non-corrélées.In the same way, the temporal variation function γ B ( t ) can for example vary according to a random walk within an amplitude range [ δ B min , δ B max ] and with a temporal refresh rate corresponding to the aforementioned parameter θ , where δ B min , δ B max and θ are second parameters, associated with the temporal variation function γ B ( t ) . The fluctuations of the two temporal variation functions γ A ( t ) and γ B ( t ) are preferably independent of each other, in order to reinforce the irreversibility of the alterations. In other words, the temporal variation functions γ A ( t ) and γ B ( t ) are uncorrelated.

On appréciera que le paramètre θ est le paramètre de la fluctuation notée VARA+B à la figure 1. Ce paramètre définit par exemple le nombre de variations aléatoires par seconde des altérations du spectre d'un segment audio. Par exemple, si θ était égal à zéro, les variations VARA et VARs sont stationnaires, en sorte que les résultats des altérations MODA et MODB seraient fixes, ce qui n'est pas le cas en pratique. Dans un exemple θ a une valeur comprise en 1 et 10. Cette valeur étant homogène à une fréquence, on peut dire que θ est compris en 1 et 10 Hz. Cette valeur est inférieure à la fréquence du découpage temporel du signal de parole original en segments audio (par fenêtrage), qui est plutôt de l'ordre de 100 Hz.We will appreciate that the parameter θ is the parameter of the fluctuation denoted VAR A+B at the figure 1 . This parameter defines, for example, the number of random variations per second of alterations in the spectrum of an audio segment. For example, if θ were equal to zero, the variations VAR A and VARs are stationary, so that the results of the alterations MOD A and MOD B would be fixed, which is not the case in practice. In an example θ has a value between 1 and 10. This value being homogeneous at a frequency, we can say that θ is between 1 and 10 Hz. This value is lower than the frequency of the temporal division of the original speech signal into audio segments (by windowing) , which is more of the order of 100 Hz.

Ensuite, aux étapes 65a et 65b, on applique des fonctions d'altération de fréquence ΓA (f) et ΓB (f), respectivement, à la composante de timbre Ak(t, f) et à la composante de hauteur Bk (t, f), respectivement, pour générer une composante de timbre du segment audio masqué, notée A"k (t, f), et une composante de hauteur du segment audio masqué, notée B"k (t, f), respectivement. Ces fonctions d'altération de fréquence ΓA (f) et ΓB (f) correspondent aux altérations notées MODA et MODB sur la figure 1.Then, in steps 65a and 65b, frequency alteration functions Γ A ( f ) and Γ B ( f ) are applied, respectively, to the timbre component A k (t, f) and to the pitch component B k ( t , f ), respectively, to generate a timbre component of the masked audio segment, denoted A" k ( t , f), and a pitch component of the masked audio segment, denoted B" k ( t , f ), respectively. These frequency alteration functions Γ A ( f ) and Γ B ( f ) correspond to the alterations noted MOD A and MOD B on the figure 1 .

Ces opérations peuvent s'écrire chacune comme une multiplication dans le domaine temps-fréquence, de la manière suivante : A " k t f = A k t , Γ A f

Figure imgb0009
B " k t f = B k t , Γ B f
Figure imgb0010
These operations can each be written as a multiplication in the time-frequency domain, as follows: HAS " k t f = HAS k t , Γ HAS f
Figure imgb0009
B " k t f = B k t , Γ B f
Figure imgb0010

La fonction ΓA (f) et la fonction ΓB (f) peuvent être des fonctions de déformation linéaires ou non-linéaires de l'axe des fréquences. Dans le cas où l'une et/ou l'autre sont linéaires, il vient : Γ A f = f × Γ A

Figure imgb0011
et/ou, respectivement, Γ B f = f × Γ B
Figure imgb0012
The function Γ A ( f ) and the function Γ B ( f ) can be linear or non-linear deformation functions of the frequency axis. In the case where one and/or the other are linear, it comes: Γ HAS f = f × Γ HAS
Figure imgb0011
and/or, respectively, Γ B f = f × Γ B
Figure imgb0012

De préférence, les fonctions d'altération ΓA (f) et ΓB (f) sont monotones, c'est-à-dire que la déformation qu'elle introduisent sur l'axe des fréquences est soit ascendante avec pour effet d'élever une partie déterminée du contenu fréquentiel du segment audio sk (τ), soit descendante avec pour effet d'abaisser une partie déterminée du contenu fréquentiel du segment audio sk (τ). Par ailleurs, elles sont bridées dans un sens contraire, en ce sens que, si l'une est monotone ascendante, l'autre est monotone descendante, et vice versa. Ceci permet d'empêcher que le logiciel qui implémente le procédé de masquage puisse être utilisé lui-même pour tenter une réversion du procédé de masquage de la voix du locuteur, ainsi qu'il a déjà été exposé plus haut en référence aux étapes 12a et 12b de la figure 1.Preferably, the alteration functions Γ A ( f ) and Γ B ( f ) are monotonic, that is to say that the deformation that they introduce on the frequency axis is either ascending with the effect of raising a determined part of the frequency content of the audio segment s k ( τ ), or descending with the effect of lowering a determined part of the frequency content of the audio segment s k (τ). Furthermore, they are constrained in the opposite direction, in the sense that, if one is ascending monotonous, the other is descending monotonous, and vice versa. This prevents the software which implements the masking process from being used itself to attempt a reversion of the speaker's voice masking process, as has already been explained above with reference to steps 12a and 12b of the figure 1 .

En outre, le fait que parmi les fonctions d'altération ΓA (f) et ΓB (f) l'une est une fonction d'altération ascendante, alors que l'autre est une fonction d'altération descendante permet de préserver l'intelligibilité de la voix après masquage, puisque le(s) déplacement(s) de fréquence(s) vers les aigus, d'une part, et le(s) déplacement(s) de fréquence(s) vers les graves qu'elles produisent, d'autre part, se compensent en partie en évitant une distorsion trop forte de la voix, qui serait sinon prépondérante dans le signal audio masqué.Furthermore, the fact that among the alteration functions Γ A ( f ) and Γ B ( f ) one is an ascending alteration function, while the other is a descending alteration function makes it possible to preserve the 'intelligibility of the voice after masking, since the shift(s) of frequency(ies) towards the treble, on the one hand, and the shift(s) of frequency(ies) towards the bass that they produce, on the other hand, partly compensate each other by avoiding excessive distortion of the voice, which would otherwise be predominant in the masked audio signal.

L'un des avantages du procédé provient des mises en oeuvre dans lesquelles on fait varier ces modifications MODA et MODB pour les indices k successifs selon deux séquences aléatoires non-corrélées (l'une pour le timbre et l'autre pour la hauteur ou pitch), de sorte à modifier en permanence ces deux caractéristiques de la voix de façon indépendante, imprévisible et non-stationnaire. Contrairement à des méthodes où la modification serait constante, ceci rend impossible l'inversion du procédé une fois que les variations de fréquence sont réalisées. La protection est d'autant plus forte que les variations aléatoires VARA et VARs sont importantes.One of the advantages of the method comes from the implementations in which these modifications MOD A and MOD B are varied for the successive indices k according to two uncorrelated random sequences (one for the timbre and the other for the pitch or pitch), so as to permanently modify these two characteristics of the voice in an independent, unpredictable and non-stationary manner. Unlike methods where the modification would be constant, this makes it impossible to reverse the process once the frequency variations are made. The protection is all the stronger as the random variations VAR A and VARs are important.

Les deux étapes suivantes permettent de garder la temporalité de l'original en resynthétisant le signal audio masqué par l'indice k.The following two steps make it possible to keep the temporality of the original by resynthesizing the audio signal masked by the index k .

Ainsi, l'étape 67 comprend la reconstruction de chaque segment audio modifié, noté X" k (t, f), dans le domaine temps-fréquence, par recombinaison de la nouvelle enveloppe A" k (t, f) et de la nouvelle structure fine du spectre fréquentiel B" k (t, f) du segment audio considéré. Le terme « nouvelle » utilisé ici en référence à l'enveloppe et à la structure fine signifie qu'il s'agit de l'enveloppe et de la structure fine après masquage, c'est-à-dire après application des fonctions d'altération fréquentielle ΓA (f) et ΓB (f) correspondent aux altérations MODA et MODB, respectivement, et des fonctions de variation temporelle γA (t) et γB (t), respectivement. Cette reconstruction peut s'obtenir en multipliant dans le domaine temps-fréquence la nouvelle composante de timbre A" k (t, f) par la nouvelle composante de hauteur (pitch) B" k (t, f) de la densité spectrale de fréquence (DSP) du segment audio masqué, de la manière suivante : X " k t f = A " k t f × B " k t f

Figure imgb0013
Thus, step 67 includes the reconstruction of each modified audio segment, denoted X " k ( t , f ), in the time-frequency domain, by recombination of the new envelope A " k ( t, f ) and the new fine structure of the frequency spectrum B " k ( t , f ) of the audio segment considered. The term "new" used here in reference to the envelope and the fine structure means that it is the envelope and the fine structure after masking, that is to say after application of the frequency alteration functions Γ A ( f ) and Γ B ( f ) correspond to the alterations MOD A and MOD B , respectively, and the temporal variation functions γ A ( t ) and γ B ( t ), respectively. This reconstruction can be obtained by multiplying in the time-frequency domain the new timbre component A " k ( t , f ) by the new pitch component B " k ( t , f ) of the frequency spectral density (FSD) of the masked audio segment, as follows: X " k t f = HAS " k t f × B " k t f
Figure imgb0013

L'étape 68 comprend la recomposition de chaque segment audio masqué noté S"k (t, f), dans le domaine temps-fréquence. Cette recomposition peut s'obtenir en multipliant dans le domaine temps-fréquence la composante de module X"k (t, f) par la composante de phase corrigée Q"k (t, f) du segment audio masqué S"k (t, f), de la manière suivante : S " t f = X " t f × Q " t f

Figure imgb0014
Step 68 includes the recomposition of each masked audio segment denoted S" k ( t , f ), in the time-frequency domain. This recomposition can be obtained by multiplying in the time-frequency domain the module component X" k ( t , f) by the corrected phase component Q" k ( t , f) of the masked audio segment S" k ( t , f), as follows: S " t f = X " t f × Q " t f
Figure imgb0014

La composante de phase corrigée Q" k (t, f) du segment audio masqué S" k (t, f) est obtenue, dans l'exemple montré à la figure 6, à l'étape 66 à partir du terme de phase Qk (t, f) du segment audio considéré Sk (t, f), lequel terme de phase a été généré à l'étape 62. L'étape 66 a pour fonction d'apporter une correction du terme de phase Qk (t, f) du segment audio Sk (t, f) en fonction des variations aléatoires γB (t) et de la fonction d'altération ΓB (f) qui ont été appliquées au terme de hauteur (pitch) B(t, f). Ceci permet d'assurer la continuité temporelle de la phase Φ" k (t, f), du segment audio masqué S" k (t, f), c'est-à-dire la continuité de la phase Φ" k (t, f) de ce segment avec Φ" k (t - 1, f), où Φ" k (t, f) correspond à Arg S" k (t, f). The corrected phase component Q " k ( t , f ) of the masked audio segment S " k ( t , f ) is obtained, in the example shown in Figure 6 , in step 66 from the phase term Q k ( t , f ) of the audio segment considered S k ( t , f ), which phase term was generated in step 62. Step 66 has for function of providing a correction of the phase term Q k ( t , f) of the audio segment S k ( t , f) as a function of the random variations γ B ( t ) and the alteration function Γ B ( f ) which were applied to the pitch term B(t, f). This ensures the temporal continuity of the phase Φ " k ( t , f ), of the masked audio segment S " k ( t , f ), that is to say the continuity of the phase Φ " k ( t , f ) of this segment with Φ " k ( t - 1, f ), where Φ " k ( t , f) corresponds to Arg S " k ( t , f).

On notera qu'une telle correction de phase est connue en soi et est généralement mise en oeuvre dans tout traitement de transformation de signal dès lors que la densité spectrale de puissance d'un signal est modifiée. Dans les modes de mise en oeuvre proposés ici, elle n'est générée à l'étape 66 qu'en fonction uniquement des modifications apportées à la composante de pitch B" k (t, f) de la densité spectrale de puissance du segment audio masqué S" k (t, f) par rapport à la composante de pitch Bk (t, f) de la densité spectrale de puissance du segment audio original Sk (t, f). En effet, pour l'essentiel, ce sont les modifications apportées à la hauteur (pitch) qui appellent un recalage en phase des composantes fréquentielles du spectre. Néanmoins, l'Homme du métier appréciera que le recalage de phase de l'étape 66 pourrait aussi tenir compte des modifications apportées à la composante de timbre A" k (t, f) de la densité spectrale de fréquence du segment audio masqué S" k (t, f) par rapport à la composante de timbre Ak (t, f) de la densité spectrale de fréquence du segment audio original Sk (t, f). Ceci n'est pas figuré sur l'organigramme de la figure 6 afin de ne pas le surcharger, ce qui nuirait à sa lisibilité, mais l'Homme du métier comprend, sur la base de ses connaissances usuelles et au vu des indications ici fournies, la manière dont ceci peut être implémenté en pratique.It will be noted that such a phase correction is known per se and is generally implemented in any signal transformation processing as soon as the power spectral density of a signal is modified. In the implementation modes proposed here, it is generated in step 66 only as a function of the modifications made to the pitch component B " k ( t , f ) of the power spectral density of the audio segment masked S " k ( t , f ) with respect to the pitch component Bk ( t , f ) of the power spectral density of the original audio segment Sk ( t , f ) . Indeed, for the most part, it is the modifications made to the height (pitch) which call for a phase adjustment of the frequency components of the spectrum. However, those skilled in the art will appreciate that the phase adjustment of step 66 could also take into account the modifications made to the timbre component A " k ( t , f ) of the frequency spectral density of the masked audio segment S " k ( t , f) with respect to the timbre component A k ( t , f ) of the frequency spectral density of the original audio segment S k ( t , f ) . This is not shown on the organization chart of the Figure 6 in order not to overload it, which would harm its readability, but the person skilled in the art understands, on the basis of his usual knowledge and in view of the indications provided here, the way in which this can be implemented in practice.

Une fois que le segment audio masqué S" k (t, f) a été obtenu par calculs dans le domaine temps-fréquence comme exposé dans ce qui précède, il ne reste qu'à le ramener dans le domaine temporel, ce qui est réalisé à l'étape 69. Cette étape consiste à générer le signal masqué s" k (τ) dans le domaine temporel, à partir du signal S" k (t, f) dans le domaine temps-fréquence. Par exemple, ceci peut être obtenu par une méthode OLA (de l'anglais « OverLap-and-Add ») sur les Transformées de Fourier inverses successives de s"k (τ). La méthode OLA, aussi appelée méthode par superposition et addition, est basée sur la propriété de linéarité de la convolution linéaire, le principe de cette méthode consistant à décomposer le produit de convolution linéaire en une somme de produits de convolution linéaire. Bien entendu, d'autres méthodes peuvent être considérées par l'Homme du métier pour réaliser cette transformée de Fourier inverse, afin de générer s"k (τ) dans le domaine temporel à partir de S" k (t, f) dans le domaine temps-fréquence.Once the masked audio segment S " k ( t , f) has been obtained by calculations in the time-frequency domain as explained in the above, all that remains is to bring it back to the time domain, which is achieved in step 69. This step consists of generating the masked signal s " k (τ) in the time domain, from the signal S " k ( t , f ) in the time-frequency domain. For example, this can be obtained by an OLA method (from the English “OverLap-and-Add ”) on the successive inverse Fourier Transforms of s" k (τ) . The OLA method, also called the superposition and addition method, is based on the linearity property of linear convolution, the principle of this method consisting of decomposing the linear convolution product into a sum of linear convolution products. Of course, other methods can be considered by those skilled in the art to carry out this inverse Fourier transform, in order to generate s" k (τ) in the time domain from S " k ( t , f ) in the time domain. time-frequency domain.

Le procédé qui a été présenté dans la description qui précède peut être mis en oeuvre par un programme d'ordinateur, par exemple en tant que plugin qui peut être intégré à un logiciel de traitement audio-phonique ou audio-visuel.The method which has been presented in the preceding description can be implemented by a computer program, for example as a plugin which can be integrated into audio-phonic or audio-visual processing software.

A la figure 6, la référence 60 désigne de manière collective les paramètres du masquage de la voix d'un locuteur à savoir δA min , δA max , δB min , δB max , θ, ΓA et ΓB qui peuvent être ajustés par un utilisateur, via une interface homme-machine adaptée de l'appareil sur lequel le logiciel de masquage de la voix d'un locuteur est exécuté.To the Figure 6 , the reference 60 collectively designates the parameters of masking the voice of a speaker, namely δ A min , δ A max , δ B min , δ B max , θ , Γ A and Γ B which can be adjusted by a user, via a man-machine interface adapted from the device on which the speaker's voice masking software is executed.

Claims (7)

Procédé de masquage de la voix d'un locuteur pour protéger son identité et/ou sa vie privée par altération intentionnelle de la hauteur et du timbre de la voix, comprenant : - un découpage d'un signal audio correspondant à un enregistrement original de la voix du locuteur en une série de segments audios successifs de durée constante déterminée, et la formation d'une série de couples de segments audios comprenant chacun un primat et un duplicata d'un segment audio de ladite série de segments audios ; ainsi que, pour chaque couple de segments audios : - un traitement du primat du segment audio et un traitement du duplicata du segment audio pour en extraire d'une part, un signal caractérisant la hauteur du segment audio, et d'autre part, un signal caractérisant le timbre du segment audio ; - une première altération (12a ; 65a), appliquée au signal caractérisant le timbre extrait du segment audio et ayant pour effet d'altérer tout ou partie de l'enveloppe des harmoniques dudit segment audio, de manière à générer un timbre altéré du segment audio ; - une deuxième altération (12b ; 65b), appliquée au signal caractérisant la hauteur du segment audio, et ayant pour effet d'altérer la valeur de la fréquence fondamentale , de manière à générer une hauteur altérée du segment audio ; l'une des altérations parmi la première altération (12a ; 65a) et la deuxième altération (12b ; 65b) étant une altération ascendante alors que l'autre altération est une altération descendante,
ainsi que, - une combinaison (15 ; 67) du timbre altéré du segment audio et de la hauteur altérée du segment audio, pour former un segment audio altéré résultant, le procédé comprenant en outre, d'un couple de segments audios à l'autre dans la série des couples de segments audios : - une variation (13a ; 64a) de la première altération et ; - une variation (13b ; 64b)de la deuxième altération, lesdites variations desdites première et deuxième altérations étant fluctuantes aléatoirement d'un couple de segments à l'autre dans la série des couples de segments audios,
et le procédé comprenant en outre : - la recomposition (14) d'un signal audio masqué à partir de la série des segments audios altérés.
Method of masking a speaker's voice to protect their identity and/or privacy by intentionally altering the pitch and timbre of the voice, comprising: - a division of an audio signal corresponding to an original recording of the speaker's voice into a series of successive audio segments of determined constant duration, and the formation of a series of pairs of audio segments each comprising a primate and a duplicate of 'an audio segment of said series of audio segments; as well as, for each pair of audio segments: - processing the primacy of the audio segment and processing the duplicate of the audio segment to extract, on the one hand, a signal characterizing the pitch of the audio segment, and on the other hand, a signal characterizing the timbre of the audio segment; - a first alteration (12a; 65a), applied to the signal characterizing the timbre extracted from the audio segment and having the effect of altering all or part of the envelope of the harmonics of said audio segment, so as to generate an altered timbre of the audio segment ; - a second alteration (12b; 65b), applied to the signal characterizing the height of the audio segment, and having the effect of altering the value of the fundamental frequency, so as to generate an altered height of the audio segment; one of the alterations among the first alteration (12a; 65a) and the second alteration (12b; 65b) being an ascending alteration while the other alteration is a descending alteration,
as well as, - a combination (15; 67) of the altered timbre of the audio segment and the altered pitch of the audio segment, to form a resulting altered audio segment, the method further comprising, from one pair of audio segments to another in the series of pairs of audio segments: - a variation (13a; 64a) of the first alteration and; - a variation (13b; 64b) of the second alteration, said variations of said first and second alterations being fluctuating randomly from one pair of segments to another in the series of pairs of audio segments,
and the method further comprising: - the recomposition (14) of a masked audio signal from the series of altered audio segments.
Procédé selon la revendication 1, dans lequel, le découpage du signal audio en une série de segments audios successifs de durée déterminée est réalisé par fenêtrage temporel indépendant du contenu du signal audio.Method according to claim 1, in which the division of the audio signal into a series of successive audio segments of determined duration is carried out by temporal windowing independent of the content of the audio signal. Procédé selon la revendication 1 ou 2, dans lequel le découpage du signal audio est configuré de manière que la durée d'un segment audio est égale à une fraction de seconde, en sorte que des changements successifs du premier paramètre et du second paramètre interviennent plusieurs fois par seconde.Method according to claim 1 or 2, in which the division of the audio signal is configured so that the duration of an audio segment is equal to a fraction of a second, so that successive changes of the first parameter and the second parameter occur several times. times per second. Procédé selon l'une quelconque des revendications précédentes, dans lequel, la première altération correspond à une variation de la fréquence fondamentale du signal audio de l'une quelconque des valeurs suivantes : ± 6.25 %, ± 12.5 %, ± 25 %, ± 50 % et ± 100 %.Method according to any one of the preceding claims, in which the first alteration corresponds to a variation in the fundamental frequency of the audio signal of any of the following values: ± 6.25%, ± 12.5%, ± 25%, ± 50 % and ± 100%. Programme d'ordinateur comprenant des instructions qui, lorsque le programme d'ordinateur est chargé dans la mémoire d'un ordinateur et est exécuté par un processeur dudit ordinateur, causent la mise en oeuvre par l'ordinateur de toutes les étapes du procédé selon l'une quelconque des revendications 1 à 4.Computer program comprising instructions which, when the computer program is loaded into the memory of a computer and is executed by a processor of said computer, cause the computer to implement all the steps of the method according to the any of claims 1 to 4. Dispositif de traitement audio-phonique ou audio-visuel, comprenant des moyens pour la mise en oeuvre de toutes les étapes du procédé selon l'une quelconque des revendications 1 à 4.Audio-phonic or audio-visual processing device, comprising means for implementing all the steps of the method according to any one of claims 1 to 4. Appareil de traitement audio-phonique ou audio-visuel tel qu'une console de montage et/ou de mixage permettant de produire des contenus audios, audiovisuels, ou multimédias correspondant à ou incorporant un signal de parole d'un locuteur, notamment d'un locuteur à protéger, l'appareil comprenant un dispositif selon la revendication 6.Audio-phonic or audio-visual processing device such as an editing and/or mixing console making it possible to produce audio, audiovisual, or multimedia content corresponding to or incorporating a speech signal from a speaker, in particular from a speaker to be protected, the apparatus comprising a device according to claim 6.
EP23176415.0A 2022-06-08 2023-05-31 Speaker voice masking Pending EP4290514A1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR2205507A FR3136581B1 (en) 2022-06-08 2022-06-08 Masking a speaker's voice

Publications (1)

Publication Number Publication Date
EP4290514A1 true EP4290514A1 (en) 2023-12-13

Family

ID=84053089

Family Applications (1)

Application Number Title Priority Date Filing Date
EP23176415.0A Pending EP4290514A1 (en) 2022-06-08 2023-05-31 Speaker voice masking

Country Status (3)

Country Link
US (1) US20230410825A1 (en)
EP (1) EP4290514A1 (en)
FR (1) FR3136581B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10141008B1 (en) * 2016-01-19 2018-11-27 Interviewing.io, Inc. Real-time voice masking in a computer network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10141008B1 (en) * 2016-01-19 2018-11-27 Interviewing.io, Inc. Real-time voice masking in a computer network

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"Workshop on Machine Learning in Speech and Language Processing (MLSLP", 2021, INTERNATIONAL AUDIO LABORATORIES, article "Exploring the Importance of FO Trajectories for Speaker Anonymization using x-vectors and Neural Vllaveform Models", pages: 1 - 6
FUMING FAN ET AL.: "Speaker Anonymization Using X-vector and Neural Vllaveform Models", PROCEEDINGS OF 10TH ISCA SPEECH SYNTHESIS WORKSHOP, 20 September 2019 (2019-09-20), pages 155 - 160
IN-CHUL YOO ET AL.: "Proceedings of Access", vol. 8, 2020, IEEE, article "Speaker Anonymization for Personal Information Protection Using Voice conversion Techniques", pages: 198637 - 198645
JIANWEI QIAN: "COMPUTER SCIENCE, CRYPTOGRAPHY AND SECURITY", 30 November 2017, CORNELL UNIVERSITY, article "Voice Mask : Anonymize and Sanitize Voice Input on Mobile Devices", pages: 1 - 10
KI-SEUNG LEE: "Statistical Approach for Voice Personality Transformation", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, IEEE, US, vol. 15, no. 2, 1 February 2007 (2007-02-01), pages 641 - 651, XP011157512, ISSN: 1558-7916, DOI: 10.1109/TASL.2006.876760 *
PATINO J: "COMPUTER SCIENCE, AUDIO AND SPEECH PROCESSING", September 2021, CORNELL UNIVERSITY, article "Speaker anonymization using the McAdams coefficients", pages: 1 - 5

Also Published As

Publication number Publication date
FR3136581A1 (en) 2023-12-15
US20230410825A1 (en) 2023-12-21
FR3136581B1 (en) 2024-05-31

Similar Documents

Publication Publication Date Title
Qian et al. Hidebehind: Enjoy voice input with voiceprint unclonability and anonymity
EP2202723B1 (en) Method and system for speaker authentication
Nematollahi et al. An overview of digital speech watermarking
Peer et al. Phase-aware deep speech enhancement: It's all about the frame length
Saleem et al. Spectral phase estimation based on deep neural networks for single channel speech enhancement
Lattner et al. Stochastic restoration of heavily compressed musical audio using generative adversarial networks
Kadiri et al. Analysis of aperiodicity in artistic Noh singing voice using an impulse sequence representation of excitation source
Fan et al. Subband fusion of complex spectrogram for fake speech detection
EP3627510A1 (en) Filtering of an audio signal acquired by a voice recognition system
EP4290514A1 (en) Speaker voice masking
Singh et al. Modified group delay function using different spectral smoothing techniques for voice liveness detection
Gaultier Design and evaluation of sparse models and algorithms for audio inverse problems
Lan et al. Research on speech enhancement algorithm of multiresolution cochleagram based on skip connection deep neural network
Cao et al. Identification of electronic disguised voices in the noisy environment
Kai et al. Lightweight and irreversible speech pseudonymization based on data-driven optimization of cascaded voice modification modules
KR20060029663A (en) Music summarization apparatus and method using multi-level vector quantization
Xu et al. Channel and temporal-frequency attention UNet for monaural speech enhancement
Pilarczyk et al. Multi-objective noisy-based deep feature loss for speech enhancement
Liu et al. Speech enhancement with stacked frames and deep neural network for VoIP applications
Jassim et al. Estimation of a priori signal-to-noise ratio using neurograms for speech enhancement
Lyu DeepFake the menace: mitigating the negative impacts of AI-generated content
Su et al. Learning an adversarial network for speech enhancement under extremely low signal-to-noise ratio condition
Zong et al. Black-box audio adversarial example generation using variational autoencoder
Gao et al. Black-box adversarial attacks through speech distortion for speech emotion recognition
Ballesteros L et al. On the ability of adaptation of speech signals and data hiding

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC ME MK MT NL NO PL PT RO RS SE SI SK SM TR

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20240516

RBV Designated contracting states (corrected)

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC ME MK MT NL NO PL PT RO RS SE SI SK SM TR