EP1970894A1 - Procédé et dispositif de modification d'un signal audio - Google Patents

Procédé et dispositif de modification d'un signal audio Download PDF

Info

Publication number
EP1970894A1
EP1970894A1 EP08151708A EP08151708A EP1970894A1 EP 1970894 A1 EP1970894 A1 EP 1970894A1 EP 08151708 A EP08151708 A EP 08151708A EP 08151708 A EP08151708 A EP 08151708A EP 1970894 A1 EP1970894 A1 EP 1970894A1
Authority
EP
European Patent Office
Prior art keywords
signal
modification
fundamental frequency
initial
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP08151708A
Other languages
German (de)
English (en)
Inventor
Olivier Rosec
Didier Cadic
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1970894A1 publication Critical patent/EP1970894A1/fr
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Definitions

  • the present invention relates generally to the field of audio signal processing and more specifically to techniques for modifying the characteristic parameters of an audio signal.
  • the invention thus relates to a method and a device for modifying the acoustic characteristics of an audio signal as a function of modification instructions relating to at least the fundamental frequency and the spectral envelope of the signal.
  • the invention applies in particular to speech signals.
  • Digital speech modification techniques are very useful in many speech processing applications. In speech synthesis, they make it possible to make prosodic modifications (modification of the pitch of the voice and the rhythm of speech) often necessary to confer an acceptable intonation to the synthetic speech signal. In the field of voice conversion, the objective is to modify the speech signal from a source speaker so that it appears to have been spoken by a desired target speaker. For this purpose, adaptations of timbre and pitch are necessary. Also noteworthy are voice transformation applications aimed at modifying perceived speech from only a set of target descriptors (deep / low voice, male / female / child, robotic voice, etc.).
  • the resampling factor is not integer, but can be approximated by a rational number P / Q.
  • P / Q the resampling factor
  • Resampling is therefore an effective and relatively uncomplicated technique for modifying a speech signal, since it makes it possible to jointly modify the timbre and the pitch of the voice, without the appearance of an audible artifact, since the re-sampling sampling preserves the temporal coherence of the signal and thus does not distort the information conveyed.
  • the principle underlying the invention thus consists in modifying the characteristics of an audio signal according to predefined modification instructions concerning the spectral envelope and the fundamental frequency of the signal, by combining two successive and distinct modification operations whose effects are predetermined.
  • One of these operations intervenes mainly on the spectral envelope of the signal considered (and thus on the perceived timbre in the case of a signal of speech), with also an effect on the fundamental frequency, but which does not allow of apply the instruction predefined relative to the fundamental frequency.
  • the other modification operation intervenes essentially on the fundamental frequency of the signal considered (and thus on the pitch of voice perceived in the case of a speech signal).
  • this second modification operation is parameterized so as to modify the fundamental frequency of the audio signal obtained at the end of the first modification, so that the fundamental frequency of the final modified signal is in accordance with the instruction initial reference to the fundamental frequency.
  • a final modified signal is obtained whose characteristics relating to the spectral envelope and the fundamental frequency are in full compliance with the initial instructions.
  • the invention applied to a speech signal makes it possible, for example, to guarantee the naturalness of a modified voice, since the signal modification instructions which are predefined with respect to the tone and the pitch of the voice can actually be applied without a change of timbre (respectively of pitch of voice) does not degrade the pitch of voice (respectively the timbre), and does not produce a modified voice lacking naturalness and / or does not correspond to the desired target.
  • the instructions for modifying the initial audio signal comprise a stretching / contraction factor ⁇ of the spectral envelope of the initial signal according to the frequency axis, modification factors ⁇ and ⁇ , respectively. the fundamental frequency and the duration of the initial signal.
  • the first modification operation produces on the initial audio signal, in addition to the desired modification of the spectral envelope, a modification of the fundamental frequency and a modification of the duration, according to the second factors ⁇ 'and ⁇ , respectively.
  • the second modification operation is carried out before the first modification operation, the second factors ⁇ 'and ⁇ ' being determined beforehand as a function of the factor ⁇ .
  • the present invention also relates to an audio processing computer program, this program including instructions adapted to the implementation of a method according to the invention, when the program is loaded and executed in a computer system.
  • the Figure 1 represents a general flowchart illustrating a method, according to the invention, of modifying the acoustic characteristics of an audio signal.
  • the present invention is applicable to audio signals in general (e.g., musical signals), however it is particularly effective with respect to speech signals, therefore within the scope of the present invention.
  • description of embodiments of the invention the audio signal to be modified is a speech signal.
  • a method for modifying the acoustic characteristics of a speech signal, said "initial signal”, according to modification instructions relating to predefined parameters of the speech signal begins with an initial step E10 of determining the modification instructions to apply according to the desired speech signal, that is to say according to a "target" signal.
  • the instructions for modifying the initial speech signal comprise a stretching / contraction factor ⁇ of the spectral envelope of the initial signal according to the frequency axis, and modifying factors ⁇ and ⁇ respectively of the duration and fundamental frequency of the initial signal.
  • the factors ⁇ and ⁇ are chosen such that, if they are respectively greater than 1, they correspond to an increase respectively in the duration and the fundamental frequency of the signal, and if they are respectively between 0 and 1, they correspond to a decrease respectively in the duration and the fundamental frequency of the signal.
  • the setpoint modification factors ⁇ , ⁇ and ⁇ make it possible respectively to modify the following parameters relating to the sound reproduction characteristics of the speech signal: the speech speed, the pitch of perceived voice, and the perceived tone of voice.
  • the choice of the parameters ⁇ , ⁇ and ⁇ depends on the desired transformation.
  • the stretching / contraction factor ⁇ of the spectral envelope of the signal, and the factor ⁇ of the fundamental frequency can reach the values '1,2' and '3' respectively.
  • the factor ⁇ for modifying the duration of the signal depends, in turn, essentially on the desired speech rate. In many voice transformation applications, the change in the speech rate is considered as secondary and thus ignored, which corresponds to a factor ⁇ equal to 1. On the other hand, to obtain very specific effects, for example for a transformation to the voices of giants / dwarves characters, slowing or acceleration factors can be used. In such cases, typical values of the factor ⁇ may be between the values '0.5' and '2'.
  • step E11 consists in determining, on the one hand, the two successive modification operations to be applied, starting from the signal of initial speech, and secondly their respective parameters.
  • a first modification operation is applied to the initial signal S (n) in order to deliver an intermediate audio signal S1 (n), this first modification operation being intended to deform the spectral envelope of the initial signal S (n) according to the instruction ⁇ for modifying the spectral envelope.
  • the audio or voice signals considered here are in a digital sampled form (n denoting any sample).
  • the first modification operation (also called “primary") selected, designated 'MOD_OP1' is implemented by a re-sampling type of technique (resampling English) of ⁇ factor, with ⁇ greater than 1 corresponding to a stretching of the spectral envelope of the signal, and ⁇ between 0 and 1 corresponding to a contraction of the spectral envelope of the signal.
  • a resampling method is known and described for example in the document [Mou95] previously cited. In particular, see section 3.2.1 of this document, entitled “ Time domain and frequency domain resampling ".
  • the present invention uses the resampling technique to essentially modify the spectral envelope of the initial signal S (n ) according to the set point ⁇ for modifying the spectral envelope.
  • the second modification operation 'MOD_OP2' to be applied to the obtained signal (S1 (n)), called the "intermediate signal", following the application of the first transformation MOD_OP1, must be chosen so to take into account the effects of MOD_OP1 on the fundamental frequency, so that the fundamental frequency obtained for the final signal (S2 (n)) is in accordance with the reference ( ⁇ ) relative to the fundamental frequency.
  • the second transformation MOD_OP2 must also take into account the effects of the first transformation MOD_OP1 on the duration of the initial signal.
  • the second modification operation MOD_OP2 is implemented by a PSOLA technique ( Pitch-Synchronous Overlap and Add ), and in particular, a PSOLA technique applied in the time domain, that is TD-PSOLA ( time-domain PSOLA).
  • TD-PSOLA time-domain PSOLA
  • the second modification operation MOD_OP2 can also be carried out using techniques such as LP-PSOLA ( Linear Pediction PSOLA) or FD-PSOLA ( Frequency Domain PSOLA) or again using a technique of the HNM type ( Harmonic plus Noise Model ), or phase vocoder type.
  • LP-PSOLA Linear Pediction PSOLA
  • FD-PSOLA Frequency Domain PSOLA
  • HNM type Harmonic plus Noise Model
  • phase vocoder type phase vocoder type.
  • this technique must globally preserve the spectral envelope of the processed signal (in this case the intermediate signal S1 (n)), since the spectral envelope of the signal initial (S (n)) is modified essentially by the first modification operation MOD_OP1.
  • step E12 the initial signal S1 (n) is modified according to the transformation MOD_OP1, making it possible to obtain an intermediate signal S1 (n) whose spectral envelope is modified (stretched or contracted), with respect to the signal initial, according to the setpoint ⁇ of modification of the spectral envelope, and whose fundamental frequency and duration, are respectively modified according to the second factors ⁇ 'and ⁇ '.
  • step E13 the intermediate signal S1 (n) is processed according to the transformation MOD_OP2, making it possible to modify the fundamental frequency and the duration of the intermediate signal, in order to obtain the final signal S2 (n) whose duration, the fundamental frequency and the spectral envelope are in accordance with the respective modification instructions ⁇ , ⁇ , ⁇ .
  • the step of modifying the spectral envelope (MOS_OP1) precedes the step of modifying the prosodic parameters (voice height and elocution) related respectively to the fundamental frequency and the duration of the signal.
  • the order of these operations can be reversed, provided that the modifying factors of the first step take into account the effects of the second step on the fundamental frequency, and if necessary on the duration, of the signal processed, of in order to respect, overall, the instructions for modifying the initial signal.
  • the second factors ⁇ 'and ⁇ ' of the step MOD_OP2 executed this time first, would then be determined beforehand as a function of the factor ⁇ of the second step MOS_OP1 executed. .
  • the Figure 2 represents the main stages of processing a speech signal according to the TD-PSOLA algorithm.
  • the Fig. 2A represents the speech signal S (n) to be modified.
  • the signal S (n) is segmented into so-called pitch-synchronous frames , that is to say that each segment has a duration corresponding to the inverse of the fundamental frequency of the signal.
  • the glottal closure instants also called analysis instants, are located in the vicinity of the energy maxima of the speech signal and the TD-PSOLA treatment allows a good preservation of the characteristics of the speech signal in the vicinity of the extremities.
  • segments obtained by pitch-synchronous analysis.
  • Such pitch-synchronous segmentation is obtained, for example, by time delay techniques or from the method proposed by D. Vincent, O. Rosec, and T. Chonavel, in the publication "Glottal closure instant estimation using an appropriateness measure of the source and continuity constraints", IEEE ICASSP'06, vol. 1, pp. 381-384, Toulouse, France, May 2006 .
  • This pitch-synchronous marking step is preferably performed offline, that is to say not in real time, which reduces the calculation load for implementation in real time.
  • the signal obtained comprises an integer number of segments or frames, each of a duration corresponding to a period which is the inverse of the modified fundamental frequency, as represented on FIG. Fig. 2B .
  • the modification processing then comprises a windowing of the signal around the analysis instants, that is to say the moments separating the segments. This step of windowing is illustrated by the Fig. 2C .
  • short-term signal a portion of the windowed signal around this instant is selected for each analysis instant. This portion of the signal is called "short-term signal" and extends, in the example, over a period corresponding to twice the fundamental period modified as represented in FIG. Fig. 2C .
  • the modification processing finally comprises a summation of the short-term signals which are refocused on the synthesis instants and added as shown in FIG. Fig. 2D .
  • the modification coefficients have been chosen constant.
  • the general method according to the invention described above can be implemented to make changes to the audio signal according to non-constant coefficients ⁇ , ⁇ and ⁇ .
  • a method of modifying an audio signal according to the invention is in practice implemented by a device for processing audio signals, and more particularly speech signals.
  • a device for processing audio signals and more particularly speech signals.
  • Such a device therefore comprises material means including electronic and / or software adapted to implement a method according to the invention.
  • the steps of the method for modifying an audio signal are determined by the instructions of a computer program used in such a processing device, typically constituted by a computer system, by example a personal computer.
  • the method according to the invention is then implemented when the aforementioned program is loaded into computer means incorporated in the audio processing device, and whose operation is then controlled by the execution of the program.
  • computer program herein refers to one or more computer programs forming a set (software) whose purpose is the implementation of the invention when it is executed by an appropriate computer system.
  • the invention also relates to such a computer program, particularly in the form of software stored on an information carrier.
  • an information carrier may be constituted by any entity or device capable of storing a program according to the invention.
  • the medium in question may comprise a hardware storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a hard disk.
  • the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
  • the information medium can also be a transmissible immaterial medium, such as an electrical or optical signal that can be conveyed via an electrical or optical cable, by radio or by other means.
  • a program according to the invention can in particular be downloaded to an Internet type network.
  • a computer program according to the invention can use any programming language and be in the form of source code, object code, or intermediate code between source code and object code (for example eg, a partially compiled form), or in any other form desirable for implementing a method according to the invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Ce procédé de modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial, comprend :
- une première opération de modification (E12) appliquée au signal initial (S(n)) afin de délivrer un signal audio intermédiaire (S1 (n)), la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale, et
- une seconde opération de modification (E13) appliquée au signal intermédiaire (S1(n)) afin de délivrer un signal audio final (S2(n)), la seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à la consigne relative à la fréquence fondamentale.

Description

  • La présente invention a trait de manière générale au domaine du traitement des signaux audio et plus précisément selon des techniques visant à modifier les paramètres caractéristiques d'un signal audio. L'invention concerne ainsi un procédé et un dispositif de modification des caractéristiques acoustiques d'un signal audio en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal. L'invention s'applique en particulier aux signaux de parole.
  • Dans la suite de la description, la référence des documents cités qui est indiquée de manière abrégée entre crochets ([...]), est détaillée dans la liste de documents située en fin de description.
  • Les techniques de modification de la parole numérisée s'avèrent très utiles dans de nombreuses applications de traitement de la parole. En synthèse de la parole, elles permettent de procéder à des modifications prosodiques (modification de la hauteur de voix et du rythme d'élocution) souvent nécessaires pour conférer une intonation acceptable au signal de parole synthétique. Dans le domaine de la conversion de voix, l'objectif est de modifier le signal de parole issu d'un locuteur source de manière à ce qu'il semble avoir été prononcé par un locuteur cible désiré. Dans ce but, des adaptations du timbre et de la hauteur de voix sont nécessaires. Citons également les applications de transformation de voix visant à modifier la parole perçue à partir uniquement d'un ensemble de descripteurs cibles (voix grave/aiguë, masculine/féminine/enfantine, voix robotisée, etc.).
  • La plupart des techniques connues de modification de la parole visent essentiellement à modifier trois types de paramètres :
    • La hauteur de voix perçue (appelée pitch en anglais), mesurée par la fréquence fondamentale du signal de parole considéré, c'est-à-dire la fréquence de vibration des cordes vocales.
    • La vitesse d'élocution, directement reliée à la durée de prononciation des différents phonèmes compris dans le signal de parole considéré. La durée considérée peut être par exemple la durée totale d'une phrase courante.
    • Le timbre de la voix, qui peut être défini comme l'attribut perceptif qui caractérise la différence entre deux sons par ailleurs semblables en hauteur, intensité et durée. Le timbre contient à la fois une composante informative (liée aux phonèmes prononcés) et identitaire (liée au locuteur : par ex., voix rauque, claire, douce, ...). Le timbre est souvent décrit par l'enveloppe spectrale du signal de parole. On rappelle ici que l'enveloppe spectrale fait référence à une courbe englobant l'amplitude des pics spectraux observés sur le signal de parole.
      Les trois types de paramètres précités ne sont pas indépendants les uns des autres, dans le sens où une modification appliquée à l'un de ces paramètres doit affecter les autres. Cela implique de modifier ces paramètres de manière cohérente. En particulier, la modification conjointe de la hauteur de voix et du timbre est nécessaire pour préserver le naturel de la parole résultante. Il a par exemple été montré dans le document [Syr85] (voir liste de documents référencés en fin de description) que le premier formant et la fréquence fondamentale sont étroitement liés, de sorte que chaque changement de l'un de ces paramètres doit être accompagné d'une modification appropriée de l'autre. On rappelle ici qu'un formant correspond à une résonance du conduit vocal, et est caractérisé par sa fréquence centrale et sa largeur de bande. Cette fréquence centrale se traduit par un pic de l'enveloppe spectrale.
      On connaît des techniques de modification de signaux de parole, qui opèrent des modifications de la hauteur de voix perçue sans opérer conjointement de modification sur le timbre. De telles techniques sont, par exemple, des techniques de type TD-PSOLA ou de type HNM.
    • La technique connue sous l'acronyme TD-PSOLA (Time Domain Pitch Synchronous Overlap and Add, en anglais) et décrite par exemple dans le document de brevet EP0363233 ou bien dans le document [Mou95], repose sur une décomposition du signal de parole en signaux d'analyse court-terme et pitch-synchrones, qui sont ensuite repositionnés sur l'axe temporel et juxtaposés de manière progressive. La technique TD-PSOLA permet d'opérer des modifications prosodiques sur le signal de parole telles que l'allongement/rétrécissement de durée (time-stretching en anglais) ou le changement de la fréquence fondamentale (pitch) tout en conservant une bonne qualité sonore. On entend ici par "bonne qualité sonore" l'absence de coupures, bruit ou autres artefacts qui rendent le signal désagréable à l'écoute. On n'y inclut donc pas l'aspect naturel du timbre de la voix.
  • Cependant, avec la technique TD-PSOLA, si les facteurs de modification de durée utilisés peuvent atteindre la valeur 2 sans distorsion notable du signal, les possibilités de modification de la fréquence fondamentale restent relativement restreintes si l'on veut préserver le naturel du signal de parole résultant. En effet, dans TD-PSOLA, les modifications de la hauteur de voix ne sont accompagnées d'aucune modification de timbre. Or, comme mentionné précédemment, la modification conjointe de la hauteur de voix et du timbre est nécessaire pour préserver le naturel de la parole résultante.
    • La technique de modification de voix qui repose sur la mise en oeuvre du modèle HNM, est décrite par exemple dans le document [Sty96]. Le modèle harmonique plus bruit ou modèle HNM (Harmonic plus Noise Model, en anglais), a également été utilisé à des fins de modifications prosodiques voire spectrales. Il fait l'hypothèse qu'un segment (appelé aussi trame) voisé du signal de parole S(n) peut être décomposé en une partie harmonique représentant la composante quasi-périodique du signal constituée d'une somme de L sinusoïdes harmoniques d'amplitudes Al et de phases Φ l , et une partie bruitée représentant le bruit de friction et la variation de l'excitation glottale d'une période a l'autre, modélisée par un bruit blanc gaussien excitant un filtre AR (auto-régressif) obtenu par analyse LPC (Linear Predictive Coding). Pour une trame non-voisée, la partie harmonique est absente et le signal est simplement modélisé par un bruit blanc mis en forme par filtrage AR. A la synthèse, en fonction des consignes de pitch désirées, les amplitudes et les phases de la partie harmonique sont ré-estimées de façon à préserver au mieux le timbre (c'est-à-dire l'enveloppe spectrale) du signal original. Cette ré-estimation est valide pour l'information d'amplitude dès lors qu'une enveloppe spectrale suffisamment lisse est disponible. En revanche, la ré-estimation des phases est beaucoup plus complexe et doit être réalisée en tenant compte des spectres de phase de la source glottique et du filtre caractérisant le conduit vocal, ces deux informations étant difficiles à extraire. Cette difficulté fait que le modèle HNM ne parvient pas à préserver la cohérence des signaux modifiés et donc conduit à une dégradation de la qualité de la parole résultante.
  • D'autres techniques connues de modification de voix, permettent, contrairement aux techniques précédentes, d'opérer conjointement sur la hauteur de voix perçue et sur le timbre.
    • Ainsi, la technique de "ré-échantillonnage" (resampling en anglais) est une technique permettant d'adapter un signal (pas nécessairement de parole) à une modification de sa fréquence d'échantillonnage. Appliqué à un signal de parole, cette technique permet de modifier conjointement la hauteur de voix, le timbre et la vitesse d'élocution, tout en conservant une excellente qualité sonore. La technique de ré-échantillonnage est décrite par exemple dans le document [Mou95]. Selon ce document, pour obtenir une accélération de facteur P (P nombre entier) du signal, on applique d'abord un filtre passe-bas, puis on décime le signal en supprimant P-1 échantillons sur P échantillons. Pour obtenir un ralentissement de facteur Q (Q nombre entier) d'un signal audio ou de parole, on ajoute Q-1 zéros entre deux échantillons de signal puis on applique un filtre passe-bas de fréquence de coupure appropriée.
  • En règle générale, le facteur de ré-échantillonnage, noté γ, n'est pas entier, mais peut être approché par un nombre rationnel P/Q. Lorsque γ=P/Q, il suffit de combiner les deux traitements : un sur-échantillonnage de facteur Q suivi d'un sous-échantillonnage de facteur P.
  • De manière générale, lorsque le facteur de ré-échantillonnage γ appliqué est supérieur (respectivement inférieur) à 1, il se produit une dilatation (respectivement une contraction) du spectre d'amplitude du signal de parole, c'est-à-dire que la position des harmoniques et des formants du signal, représentée sur l'axe fréquentiel, se trouve multipliée (respectivement divisée) par γ. Une telle transformation spectrale affecte donc le timbre de la voix, et s'accompagnant également d'une multiplication (respectivement division) de la fréquence fondamentale par le même coefficient (γ), agit donc conjointement sur la hauteur de voix. Le ré-échantillonnage est par conséquent une technique efficace et relativement peu complexe pour modifier un signal de parole, puisqu'il permet de modifier conjointement le timbre et la hauteur de voix, et ce, sans apparition d'artefact audible, puisque le ré-échantillonnage préserve la cohérence temporelle du signal et de ce fait ne distord pas l'information véhiculée.
  • Cependant, le ré-échantillonnage ne permet pas à lui seul de réaliser des transformations pertinentes de la fréquence fondamentale et du timbre. En effet, le ré-échantillonnage du signal de parole provoque un déplacement homothétique des formants dans le même sens que celui de la fréquence fondamentale. Or, des observations sur des signaux de parole naturelle montrent que la plage de variation de la fréquence fondamentale est beaucoup plus importante que la plage de variation des fréquences formantiques. Ainsi, l'application d'un facteur de ré-échantillonnage égal au facteur de modification de la fréquence fondamentale souhaité se traduit par une dilatation/compression de l'enveloppe spectrale trop importante, et donc à une dégradation notable du naturel de la voix, provoquant par exemple des effets de "voix-tube" ou "voix-Donald".
    • Une autre technique connue permet d'opérer conjointement sur la hauteur de voix perçue et sur le timbre. Il s'agit de la technique exposée dans le document [Kai00] et qui repose sur une opération d'ajustement spectral basée sur l'utilisation d'un modèle de mélange de gaussiennes pour modéliser de manière conjointe l'enveloppe spectrale et la hauteur de voix. Ainsi, en fonction de la consigne de fréquence fondamentale souhaitée, une correction de l'enveloppe spectrale est opérée, ce qui permet de mieux préserver le naturel de la parole transformée, notamment lorsque d'importantes modifications de fréquence fondamentale sont effectuées. Ce type de technique permet d'effectuer des transformations du spectre d'amplitude relativement précises et bien maîtrisées. En revanche, l'information de phase des signaux transformés est mal contrôlée, ce qui conduit à une dégradation sensible de la qualité du signal résultant.
  • Il ressort de l'état de la technique brièvement exposé ci-dessus, qu'il existe un réel besoin de disposer d'une technique de modification d'un signal de parole, permettant de modifier conjointement au moins la hauteur de voix perçue et le timbre associés au signal de parole, et ce, afin de fournir un signal de parole de haute qualité en terme de naturel de la voix résultante perçue.
  • La présente invention concerne, selon un premier aspect, un procédé de modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial. Selon l'invention, ce procédé est remarquable en ce que :
    • une première opération de modification est appliquée au signal initial afin de délivrer un signal audio intermédiaire, la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale, et
    • une seconde opération de modification est appliquée au signal intermédiaire afin de délivrer un signal audio final, ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale.
  • Le principe à la base de l'invention consiste ainsi à modifier les caractéristiques d'un signal audio selon des consignes de modification prédéfinies concernant l'enveloppe spectrale et la fréquence fondamentale du signal, en combinant deux opérations de modification successives et distinctes dont les effets sont prédéterminés. L'une de ces opérations intervient principalement sur l'enveloppe spectrale du signal considéré (et donc sur le timbre perçu dans le cas d'un signal de parole), avec aussi un effet sur la fréquence fondamentale, mais qui ne permet pas d'appliquer la consigne prédéfinie relative à la fréquence fondamentale. L'autre opération de modification intervient essentiellement sur la fréquence fondamentale du signal considéré (et donc sur la hauteur de voix perçue dans le cas d'un signal de parole). Mais, avantageusement selon l'invention, cette seconde opération de modification est paramétrée de telle sorte à modifier la fréquence fondamentale du signal audio obtenu à l'issue de la première modification, afin que la fréquence fondamentale du signal modifié final soit conforme à la consigne initiale relative à la fréquence fondamentale.
  • Ainsi, grâce à la combinaison de ces deux étapes successives de modification de signal audio, on obtient un signal modifié final dont les caractéristiques relatives à l'enveloppe spectrale et à la fréquence fondamentale sont en totale conformité avec les consignes initiales. L'invention appliquée à un signal de parole permet par exemple de garantir le naturel d'une voix modifiée, puisque les consignes de modification du signal qui sont prédéfinies relativement au timbre et à la hauteur de voix, peuvent être réellement appliquées, sans qu'un changement de timbre (respectivement de hauteur de voix) ne dégrade la hauteur de voix (respectivement le timbre), et ne produise une voix modifiée manquant de naturel et/ou ne correspondant pas à la cible désirée.
  • Selon un mode de réalisation préféré de l'invention, les consignes de modification du signal audio initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, des facteurs β et α de modification respectivement de la fréquence fondamentale et de la durée du signal initial. Dans ce mode de réalisation, la première opération de modification produit sur le signal audio initial, outre la modification désirée de l'enveloppe spectrale, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs β' et α'. La seconde opération de modification est alors choisie de manière à modifier la fréquence fondamentale et la durée du signal audio intermédiaire, selon respectivement des troisièmes facteurs β" et α", tels que : α'·α"=α et β'·β"=β.
  • Ainsi, en choisissant, selon les formules ci-dessus, les paramètres α", β" de la seconde opération de modification, en fonction des facteurs de modification connus α' et β' résultant de l'application de la première opération de modification sur le signal audio initial, on obtient un signal audio modifié final dont les caractéristiques relatives à la durée, la fréquence fondamentale et l'enveloppe spectrale, sont conformes aux consignes de modifications initiales α, β, γ, et donc au signal cible désiré.
  • Selon des caractéristiques particulières de réalisation de l'invention :
    • La première opération de modification est mise en oeuvre par une technique de type ré-échantillonnage de facteur γ, avec γ supérieur à 1 correspondant à un étirement de l'enveloppe spectrale du signal, et γ compris entre 0 et 1 correspondant à une contraction de l'enveloppe spectrale du signal. Les seconds facteurs β' et α' sont respectivement définis en fonction du facteur γ de ré-échantillonnage selon les équations suivantes : β'=γ et αʹ = 1 γ ;
      Figure imgb0001
      et les troisièmes facteurs β" et α" sont obtenus selon les équations suivantes : β " = β γ
      Figure imgb0002
      et α" = α·γ.
    • La seconde opération de modification est mise en oeuvre par une technique de type PSOLA, par exemple TD-PSOLA.
  • Selon une variante de mise en oeuvre du procédé selon l'invention, la seconde opération de modification est mise en oeuvre avant la première opération de modification, les seconds facteurs β' et α' étant déterminés au préalable en fonction du facteur γ.
  • Selon un second aspect, l'invention concerne un dispositif de traitement audio adapté à la modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial. Conformément à l'invention, ce dispositif comporte :
    • des moyens de modification du signal audio initial selon une première opération de modification, afin de délivrer un signal audio intermédiaire, la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale du signal, et
    • des moyens de modification du signal intermédiaire selon une seconde opération de modification, afin de délivrer un signal audio final, ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale, la fréquence fondamentale dudit signal intermédiaire étant modifiée selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial.
  • La présente invention concerne aussi un programme d'ordinateur de traitement audio, ce programme comportant des instructions adaptées à la mise en oeuvre d'un procédé selon l'invention, lorsque le programme est chargé et exécuté dans un système informatique.
  • Les avantages de ce dispositif de traitement audio ou de ce programme d'ordinateur sont identiques à ceux mentionnés plus haut en relation avec le procédé de l'invention.
  • L'invention sera mieux comprise à la lecture de la description détaillée qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins sur lesquels :
    • la Figure 1 est un organigramme général illustrant un procédé de modification des caractéristiques acoustiques d'un signal audio, selon l'invention ;
    • la Figure 2 composée des figures 2A à 2D représente différents stades de traitement d'un signal de parole selon l'algorithme connu sous l'acronyme TD-PSOLA.
  • La Figure 1 représente un organigramme général illustrant un procédé, selon l'invention, de modification des caractéristiques acoustiques d'un signal audio. La présente invention est applicable aux signaux audio en général (par exemple des signaux musicaux), cependant elle est particulièrement efficace en ce qui concerne les signaux de parole, par conséquent dans le cadre de la présente description de modes de réalisations de l'invention, le signal audio considéré à modifier est un signal de parole.
  • En référence à la Figure 1, un procédé de modification des caractéristiques acoustiques d'un signal de parole, dit "signal initial", en fonction de consignes de modification relatives à des paramètres prédéfinis du signal de parole, commence par une étape initiale E10 de détermination des consignes de modification à appliquer en fonction du signal de parole désiré, c'est-à-dire en fonction d'un signal "cible".
  • Selon le mode de réalisation exposé, les consignes de modification du signal de parole initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, et des facteurs α et β de modification respectivement de la durée et de la fréquence fondamentale du signal initial. Les facteurs α et β sont choisis de sorte que, s'ils sont respectivement supérieurs à 1, ils correspondent à une augmentation respectivement de la durée et de la fréquence fondamentale du signal, et s'ils sont respectivement compris entre 0 et 1, ils correspondent à une diminution respectivement de la durée et de la fréquence fondamentale du signal.
  • Ainsi lorsque le signal audio à modifier est un signal de parole, les facteurs de modification de consigne α, β et γ permettent de modifier respectivement les paramètres suivants relatifs aux caractéristiques de rendu sonore du signal de parole : la vitesse d'élocution, la hauteur de voix perçue, et le timbre de voix perçu.
  • Le choix des paramètres α, β et γ dépend de la transformation souhaitée. A titre d'illustration, lorsque d'importantes modifications sont opérées, par exemple pour transformer une voix d'adulte en une voix d'enfant, le facteur γ d'étirement/contraction de l'enveloppe spectrale du signal, et le facteur β de modification de la fréquence fondamentale, peuvent atteindre respectivement les valeurs '1,2' et '3'.
  • Une étude statistique des variations de la fréquence fondamentale (pitch) et des fréquences formantiques est fournie dans le document [Hub99] (cf. en particulier, dans ce document, le tableau de l'Annexe A p. 1540). Cette étude peut être utilisée pour déterminer des valeurs "raisonnables" pour les paramètres γ et β. Ainsi, pour transformer une voix d'homme en une voix de femme, des facteurs d'étirement/contraction de l'enveloppe spectrale (γ) et de modification de fréquence fondamentale (β) de valeur respective '1,2' et '1,8', conviennent (il n'est pas nécessaire de modifier la durée dans ce cas particulier).
  • Le facteur α de modification de la durée du signal, dépend quant à lui, essentiellement du rythme d'élocution souhaité. Dans de nombreuses applications de transformation de voix, la modification du rythme d'élocution est considérée comme secondaire et donc ignorée, ce qui correspond à un facteur α égal à 1. En revanche, pour obtenir des effets très spécifiques, par exemple pour une transformation vers des voix de personnages de géants/nains, des facteurs de ralentissement ou d'accélération du rythme d'élocution peuvent être utilisés. Dans de tels cas, des valeurs typiques du facteur α peuvent être comprises entre les valeurs '0,5' et '2'.
  • De retour à la Figure 1, après l'étape E10 de détermination des consignes de modification en fonction de la transformation du signal désirée, l'étape suivante E11 consiste à déterminer en conséquence, d'une part, les deux opérations de modification successives à appliquer, en partant du signal de parole initial, et d'autre part leurs paramètres respectifs.
  • Ainsi, selon l'invention, une première opération de modification est appliquée au signal initial S(n) afin de délivrer un signal audio intermédiaire S1 (n), cette première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial S(n) selon la consigne γ de modification de l'enveloppe spectrale. On notera ici que les signaux audio ou vocaux considérés sont ici sous une forme échantillonnée numérique (n désignant un échantillon quelconque).
  • Selon le mode de réalisation choisi, la première opération de modification (encore appelée "première transformation") choisie, désignée par 'MOD_OP1', est mise en oeuvre par une technique de type ré-échantillonnage (resampling en anglais) de facteur γ, avec γ supérieur à 1 correspondant à un étirement de l'enveloppe spectrale du signal, et γ compris entre 0 et 1 correspondant à une contraction de l'enveloppe spectrale du signal. Une telle méthode de ré-échantillonnage est connue et décrite par exemple dans le document [Mou95] précédemment cité. On pourra en particulier se reporter au paragraphe 3.2.1 de ce document, intitulé : "Time-domain and frequency-domain resampling". Cependant, contrairement à la technique de resampling exposée dans le document [Mou95] qui utilise le resampling pour modifier la hauteur de voix (pitch), la présente invention utilise la technique de resampling pour modifier essentiellement l'enveloppe spectrale du signal initial S(n) selon la consigne γ de modification de l'enveloppe spectrale.
  • Cependant, il est connu qu'une telle technique de ré-échantillonnage, produit sur le signal de parole initial, outre la modification désirée de l'enveloppe spectrale conformément à l'invention, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs, ici désignés par β' et α'. Ces seconds facteurs β' et α' sont respectivement définis en fonction du facteur γ de ré-échantillonnage selon les équations suivantes : βʹ = γ et αʹ = 1 γ .
    Figure imgb0003
  • Ainsi, conformément à l'invention la seconde opération de modification 'MOD_OP2', à appliquer au signal obtenu (S1(n)), dit "signal intermédiaire", suite à l'application de la première transformation MOD_OP1, doit être choisie de façon à prendre en compte les effets de MOD_OP1 sur la fréquence fondamentale, de sorte que la fréquence fondamentale obtenue pour le signal final (S2(n)) soit conforme à la consigne (β) relative à la fréquence fondamentale. Bien entendu, s'il existe également une consigne concernant la durée (α), comme dans le cas du présent mode de réalisation, la seconde transformation MOD_OP2 doit aussi tenir compte des effets de la première transformation MOD_OP1 sur la durée du signal initial.
  • Ainsi, dans le mode de réalisation exposé, la seconde opération de modification est destinée à modifier la fréquence fondamentale et la durée du signal intermédiaire (S1(n)), selon respectivement des troisièmes facteurs β" et α", tels que : αʹ α " = α et βʹ β " = β .
    Figure imgb0004
  • De cette façon, la transformation globale effectuée entre le signal initial (S(n)) et le signal final (S2(n)), d'un point de vue de la fréquence fondamentale et de la durée, correspond à une transformation de facteurs respectifs β et α, selon les équations (2) ci-dessus.
  • Dans le mode de réalisation, choisi dans lequel la première opération de modification MOD-OP1 est une technique de ré-échantillonnage de facteur γ produisant des effets sur la fréquence fondamentale et la durée selon les équations (1) plus haut, les troisièmes facteurs β" et α" relatifs à la seconde transformation MOD_OP2 sont obtenus selon les équations suivantes : β " = β γ et α " = α γ .
    Figure imgb0005
  • En pratique, dans un mode de réalisation préféré, la seconde opération de modification MOD_OP2 est mise en oeuvre par une technique du type PSOLA (Pitch-Synchronous Overlap and Add), et en particulier, une technique PSOLA appliquée dans le domaine temporel, c'est-à-dire TD-PSOLA (time-domain PSOLA). La technique TD-PSOLA est décrite plus bas dans la description en liaison avec la Figure 2.
  • La seconde opération de modification MOD_OP2 peut être également réalisée à partir de techniques telles que LP-PSOLA (Linear Pediction PSOLA) ou FD-PSOLA (Frequency Domain PSOLA) ou en encore à partir d'une technique de type HNM (Harmonic plus Noise Model), ou de type vocoder de phase. On peut même envisager d'utiliser deux techniques indépendantes pour la modification de la fréquence fondamentale et de la durée.
  • En revanche, quelle que soit la technique utilisée pour la modification de la fréquence fondamentale, cette technique doit préserver globalement l'enveloppe spectrale du signal traité (en l'occurrence le signal intermédiaire S1(n)), puisque l'enveloppe spectrale du signal initial (S(n)) est modifiée essentiellement par la première opération de modification MOD_OP1.
  • De retour à la Figure 1, une fois l'étape E11 de choix des opérations de modification MOD_OP1 et MOD_OP2 et de leurs paramètres respectifs, effectuée, la modification proprement dite du signal de parole initial S(n) est réalisée avec les étapes suivantes E12 et E13.
  • Ainsi, à l'étape E12, le signal initial S1(n) est modifié selon la transformation MOD_OP1, permettant d'obtenir un signal intermédiaire S1(n) dont l'enveloppe spectrale est modifiée (étirée ou contractée), par rapport au signal initial, selon la consigne γ de modification de l'enveloppe spectrale, et dont la fréquence fondamentale et la durée, sont respectivement modifiées selon les seconds facteurs β' et α'.
  • Enfin, à l'étape E13, le signal intermédiaire S1(n) est traité selon la transformation MOD_OP2, permettant de modifier la fréquence fondamentale et la durée du signal intermédiaire, afin d'obtenir le signal final S2(n) dont la durée, la fréquence fondamentale et l'enveloppe spectrale sont conformes aux consignes de modifications respectives α, β, γ.
  • Dans le mode de réalisation choisi et présenté, l'étape de modification de l'enveloppe spectrale (MOS_OP1), c'est-à-dire du timbre du signal de parole, précède l'étape de modification des paramètres prosodiques (hauteur de voix et élocution) liés respectivement à la fréquence fondamentale et à la durée du signal. Cependant, l'ordre de ces opérations peut être inversé, à condition que les facteurs de modification de la première étape prennent en compte les effets de la seconde étape sur la fréquence fondamentale, et le cas échéant sur la durée, du signal traité, de manière à respecter, au global, les consignes de modification du signal initial. En particulier, dans la mise en oeuvre décrite plus haut, les seconds facteurs β' et α' de l'étape MOD_OP2, exécutée cette fois en premier, seraient alors déterminés au préalable en fonction du facteur γ de l'étape MOS_OP1 exécutée en second.
  • La Figure 2 représente les principaux stades de traitement d'un signal de parole selon l'algorithme TD-PSOLA. La Fig. 2A représente le signal de parole S(n) à modifier.
  • Au cours d'une première étape illustrée par la Fig. 2B , le signal S(n) est segmenté en trames de manière dite pitch-synchrone, c'est-à-dire que chaque segment a une durée correspondant à l'inverse de la fréquence fondamentale du signal.
  • En effet, les instants de fermeture de glotte, aussi appelés instants d'analyse, sont situés au voisinage des maxima d'énergie du signal de parole et le traitement TD-PSOLA permet une bonne préservation des caractéristiques du signal de parole au voisinage des extrémités des segments obtenus par analyse pitch-synchrone. Ainsi, lorsque ces instants sont repérés avec une précision satisfaisante, les performances de TD-PSOLA sont optimisées. Une telle segmentation pitch-synchrone est obtenue, par exemple, par des techniques à base de délais de groupe ou encore à partir de la méthode proposée par D. Vincent, O. Rosec, et T. Chonavel, dans la publication "Glottal closure instant estimation using an appropriateness measure of the source and continuity constraints", IEEE ICASSP'06, vol. 1, pp. 381-384, Toulouse, France, Mai 2006.
  • Cette étape de marquage pitch-synchrone est de préférence réalisée hors-ligne, c'est-à-dire non en temps réel, ce qui permet de réduire la charge de calcul pour une mise en oeuvre en temps réel.
  • En fonction des facteurs de modification souhaités pour la fréquence fondamentale et la durée, les instants séparant les segments sont modifiés selon les règles suivantes :
    • pour un allongement de durée, certains segments sont dupliqués afin d'augmenter artificiellement le nombre d'impulsions glottiques ;
    • pour une réduction de la durée, certains segments sont supprimés ;
    • pour une augmentation de la fréquence fondamentale, c'est-à-dire un rendu plus aigu, les instants d'analyse sont rapprochés, ce qui nécessite éventuellement la duplication de segments pour conserver la durée totale ; et
    • pour une diminution de la fréquence fondamentale, c'est-à-dire un rendu plus grave, les instants d'analyse sont écartés, ce qui nécessite éventuellement la suppression de segments pour conserver la durée totale.
  • Une description détaillée de ces règles se trouve dans le document [Mou95], en particulier aux paragraphes 4.2.1 à 4.2.3 dudit document.
  • A l'issue de cette étape, le signal obtenu comprend un nombre entier de segments ou trames, chacun d'une durée correspondant à une période qui est l'inverse de la fréquence fondamentale modifiée, comme cela est représenté sur la Fig. 2B.
  • Le traitement de modification comprend ensuite un fenêtrage du signal autour des instants d'analyse, c'est-à-dire des instants séparant les segments. Cette étape de fenêtrage est illustrée par la Fig. 2C .
  • Au cours de ce fenêtrage, on sélectionne, pour chaque instant d'analyse, une portion du signal fenêtrée autour de cet instant. Cette portion de signal est appelée "signal court-terme" et s'étend, dans l'exemple, sur une durée correspondant à deux fois la période fondamentale modifiée comme représentée à la Fig. 2C.
  • Le traitement de modification comprend enfin une sommation des signaux court-terme qui sont recentrés sur les instants de synthèse et ajoutés comme représenté à la Fig. 2D .
  • Dans les modes de réalisation de l'invention exposés ci-dessus à titre d'exemples, les coefficients de modification ont été choisis constants. Cependant, le procédé général selon l'invention décrit supra peut être mis en oeuvre pour opérer des modifications de signal audio selon des coefficients α, β et γ non constants. Dans un tel cas, on peut par exemple réaliser un découpage en trames (préférentiellement pitch-synchrones) et déterminer pour chacune d'entre elles des coefficients de modification constants. Les étapes E12 et E13 sont alors effectuées indépendamment sur chacune des trames. Puis les trames sont combinées par une technique classique d'addition-recouvrement de façon à reconstruire le signal transformé souhaité.
  • Un procédé de modification d'un signal audio selon l'invention, tel que décrit supra, est en pratique mis en oeuvre par un dispositif de traitement de signaux audio, et plus particulièrement de signaux de parole. Un tel dispositif comporte donc des moyens matériels notamment électroniques et/ou logiciels adaptés à mettre en oeuvre un procédé selon l'invention.
  • Selon une implémentation préférée, les étapes du procédé de modification d'un signal audio, selon l'invention, sont déterminées par les instructions d'un programme d'ordinateur utilisé dans un tel dispositif de traitement, constitué typiquement par un système informatique, par exemple un ordinateur personnel.
  • Le procédé selon l'invention est alors mis en oeuvre lorsque le programme précité est chargé dans des moyens informatiques incorporés dans le dispositif de traitement audio, et dont le fonctionnement est alors commandé par l'exécution du programme.
  • On entend ici par "programme d'ordinateur" un ou plusieurs programmes d'ordinateur formant un ensemble (logiciel) dont la finalité est la mise en oeuvre de l'invention lorsqu'il est exécuté par un système informatique approprié.
  • En conséquence, l'invention a également pour objet un tel programme d'ordinateur, en particulier sous la forme d'un logiciel stocké sur un support d'informations. Un tel support d'informations peut être constitué par n'importe quelle entité ou dispositif capable de stocker un programme selon l'invention.
  • Par exemple, le support en question peut comporter un moyen de stockage matériel, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. En variante, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.
  • D'autre part, le support d'informations peut être aussi un support immatériel transmissible, tel qu'un signal électrique ou optique pouvant être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
  • D'un point de vue conception, un programme d'ordinateur selon l'invention peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet (par ex., une forme partiellement compilée), ou dans n'importe quelle autre forme souhaitable pour implémenter un procédé selon l'invention.
  • Bien entendu, la présente invention n'est nullement limitée aux modes de réalisation décrits et représentés dans le cadre de cette description, mais englobe, bien au contraire, toute variante à la portée de l'homme du métier.
  • Références citées
  • [Syr85]
    A.K. Syrdal and S.A. Steele, "Vowel F1 as a function of speaker fundamental frequency", 110th Meeting of JASA, vol. 78, Fall 1985.
    [Mou95]
    E. Moulines and J. Laroche, "Non-parametric techniques for pitch-scale and time-scale modification of speech", Speech Communication, vol. 16, pp. 175-205, 1995.
    [Sty96]
    Y. Stylianou, "Harmonic plus Noise Model for speech, combined with statistical methods, for speech and speaker modification", PhD thesis, Ecole Nationale Supérieure des Télécommunications, France, 1996.
    [Kai00]
    A. Kain and Y. Stylianou, "Stochastic modeling of spectral adjustment for high quality pitch modification", in Proceedings of ICASSP'00, vol. 2, pp. 949-952, June 2000.
    [Hub99]
    J. E. Huber, E. T. Stathopoulos, G. M. Curione, T. A. Ash and K. Johnson, "Formants of children, women, and men: the effect of vocal intensity variation", Journal of the Acoustical Society of America, 106 (3), pp. 1532-1542, September 1999.

Claims (9)

  1. Procédé de modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial, caractérisé en ce que :
    - une première opération de modification (E12) est appliquée au signal initial (S(n)) afin de délivrer un signal audio intermédiaire (S1(n)), la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale, et
    - une seconde opération de modification (E13) est appliquée au signal intermédiaire (S1(n)) afin de délivrer un signal audio final (S2(n)), ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale.
  2. Procédé selon la revendication 1, dans lequel :
    - les consignes de modification du signal audio initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, des facteurs β et α de modification respectivement de la fréquence fondamentale et de la durée du signal initial ;
    - la première opération de modification produit sur le signal audio initial, outre la modification désirée de l'enveloppe spectrale, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs β' et α' ; et
    - la seconde opération de modification est destinée à modifier la fréquence fondamentale et la durée du signal audio intermédiaire, selon respectivement des troisièmes facteurs β" et α", tels que : α'·α"=α et β'·β"=β.
  3. Procédé selon la revendication 2, dans lequel :
    - la première opération de modification est mise en oeuvre par une technique de type ré-échantillonnage de facteur γ, avec γ supérieur à 1 correspondant à un étirement de l'enveloppe spectrale du signal, et γ compris entre 0 et 1 correspondant à une contraction de l'enveloppe spectrale du signal ;
    - les seconds facteurs β' et α' sont respectivement définis en fonction du facteur γ de ré-échantillonnage selon les équations suivantes : β'=γ et α = 1 γ ;
    Figure imgb0006
    et
    - les troisièmes facteurs β" et α" sont obtenus selon les équations suivantes : β " = β γ
    Figure imgb0007
    et α"=α·γ .
  4. Procédé selon l'une quelconque des revendications précédentes, dans lequel la seconde opération de modification est mise en oeuvre par une technique de type PSOLA.
  5. Procédé selon l'une quelconque des revendications 2 à 4, dans lequel la seconde opération de modification est mise en oeuvre avant la première opération de modification, les seconds facteurs β' et α' étant déterminés au préalable en fonction du facteur γ.
  6. Procédé selon l'une quelconque des revendications 2 à 5, dans lequel le signal audio à modifier est un signal de parole, les facteurs de modification de consigne α, β, γ permettant de modifier respectivement les paramètres suivants relatifs aux caractéristiques de rendu sonore du signal de parole : la vitesse d'élocution, la hauteur de voix perçue, et le timbre de voix perçu.
  7. Programme d'ordinateur de traitement audio caractérisé en ce qu'il comporte des instructions de programme adaptées à la mise en oeuvre d'un procédé selon l'une quelconque des revendications 1 à 6, lorsque ledit programme est exécuté par un système informatique.
  8. Dispositif de traitement audio adapté à la modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial, caractérisé en ce qu'il comporte :
    - des moyens de modification du signal audio initial selon une première opération de modification, afin de délivrer un signal audio intermédiaire, la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale du signal, et
    - des moyens de modification du signal intermédiaire selon une seconde opération de modification afin de délivrer un signal audio final, ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale.
  9. Dispositif selon la revendication 8, caractérisé en ce qu'il comporte des moyens adaptés à la mise en oeuvre d'un procédé de modification selon l'une quelconque des revendications 2 à 6.
EP08151708A 2007-03-12 2008-02-20 Procédé et dispositif de modification d'un signal audio Withdrawn EP1970894A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0753759 2007-03-12

Publications (1)

Publication Number Publication Date
EP1970894A1 true EP1970894A1 (fr) 2008-09-17

Family

ID=38573307

Family Applications (1)

Application Number Title Priority Date Filing Date
EP08151708A Withdrawn EP1970894A1 (fr) 2007-03-12 2008-02-20 Procédé et dispositif de modification d'un signal audio

Country Status (2)

Country Link
US (1) US8121834B2 (fr)
EP (1) EP1970894A1 (fr)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101551982B1 (ko) * 2009-06-19 2015-09-10 삼성전자주식회사 단일 반송파-주파수 분할 다중 통신 시스템에서 신호 송수신 장치 및 방법
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
US20120078625A1 (en) * 2010-09-23 2012-03-29 Waveform Communications, Llc Waveform analysis of speech
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US8847056B2 (en) 2012-10-19 2014-09-30 Sing Trix Llc Vocal processing with accompaniment music input
US9372925B2 (en) * 2013-09-19 2016-06-21 Microsoft Technology Licensing, Llc Combining audio samples by automatically adjusting sample characteristics
US9798974B2 (en) 2013-09-19 2017-10-24 Microsoft Technology Licensing, Llc Recommending audio sample combinations
US10176818B2 (en) * 2013-11-15 2019-01-08 Adobe Inc. Sound processing using a product-of-filters model
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10622002B2 (en) * 2017-05-24 2020-04-14 Modulate, Inc. System and method for creating timbres
CN112334981B (zh) 2018-05-31 2024-08-13 舒尔获得控股公司 用于自动混合的智能语音启动的系统及方法
WO2019231632A1 (fr) 2018-06-01 2019-12-05 Shure Acquisition Holdings, Inc. Réseau de microphones à formation de motifs
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
WO2020061353A1 (fr) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Forme de lobe réglable pour microphones en réseau
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN113841421A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置
EP3942842A1 (fr) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Boîtiers et caractéristiques de conception associées pour microphones matriciels de plafond
EP3973716A1 (fr) 2019-05-23 2022-03-30 Shure Acquisition Holdings, Inc. Réseau de haut-parleurs orientables, système et procédé associé
WO2020243471A1 (fr) 2019-05-31 2020-12-03 Shure Acquisition Holdings, Inc. Automélangeur à faible latence, à détection d'activité vocale et de bruit intégrée
CN114467312A (zh) 2019-08-23 2022-05-10 舒尔获得控股公司 具有改进方向性的二维麦克风阵列
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
CN111063364B (zh) * 2019-12-09 2024-05-10 广州酷狗计算机科技有限公司 生成音频的方法、装置、计算机设备和存储介质
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN116670754A (zh) 2020-10-08 2023-08-29 调节公司 用于内容审核的多阶段自适应系统
WO2022165007A1 (fr) 2021-01-28 2022-08-04 Shure Acquisition Holdings, Inc. Système de mise en forme hybride de faisceaux audio
CN113362837B (zh) * 2021-07-28 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法、设备及存储介质
CN114822580B (zh) * 2022-04-28 2024-06-18 北京奇音妙想科技有限公司 基于重采样加速计算的修正音频的音高及音色的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0363233A1 (fr) 1988-09-02 1990-04-11 France Telecom Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde
WO2006106466A1 (fr) * 2005-04-07 2006-10-12 Koninklijke Philips Electronics N.V. Procede et processeur de signaux permettant de modifier des signaux audio

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US6910007B2 (en) * 2000-05-31 2005-06-21 At&T Corp Stochastic modeling of spectral adjustment for high quality pitch modification
US20050065784A1 (en) * 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
FR2868587A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme de conversion rapides d'un signal vocal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0363233A1 (fr) 1988-09-02 1990-04-11 France Telecom Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde
WO2006106466A1 (fr) * 2005-04-07 2006-10-12 Koninklijke Philips Electronics N.V. Procede et processeur de signaux permettant de modifier des signaux audio

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
A. KAIN; Y. STYLIANOU: "Stochastic modeling of spectral adjustment for high quality pitch modification", PROCEEDINGS OF ICASSP'OO, vol. 2, June 2000 (2000-06-01), pages 949 - 952, XP010504881
A.K. SYRDAL; S.A. STEELE: "Vowel F1 as a function of speaker fundamental frequency", 110TH MEETING OF JASA, vol. 78, 1985
D. VINCENT; O. ROSEC; T. CHONAVEL: "Glottal closure instant estimation using an appropriateness measure of the source and continuity constraints", IEEE ICASSP'06, vol. 1, May 2006 (2006-05-01), pages 381 - 384
E. MOULINES; J. LAROCHE: "Non-parametric techniques for pitch- scale and time-scale modification of speech", SPEECH COMMUNICATION, vol. 16, 1995, pages 175 - 205, XP004024959, DOI: doi:10.1016/0167-6393(94)00054-E
J. E. HUBER ET AL.: "Formants of children, women, and men: the effect of vocal intensity variation", JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 106, no. 3, September 1999 (1999-09-01), pages 1532 - 1542, XP012001200, DOI: doi:10.1121/1.427150
MOULINES E ET AL: "Non-parametric techniques for pitch-scale and time-scale modification of speech", SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 16, no. 2, February 1995 (1995-02-01), pages 175 - 205, XP004024959, ISSN: 0167-6393 *
Y. STYLIANOU: "Harmonic plus Noise Model for speech, combined with statistical methods, for speech and speaker modification", ECOLE NATIONALE SUPÉRIEURE DES TÉLÉCOMMUNICATIONS, 1996

Also Published As

Publication number Publication date
US8121834B2 (en) 2012-02-21
US20080255830A1 (en) 2008-10-16

Similar Documents

Publication Publication Date Title
EP1970894A1 (fr) Procédé et dispositif de modification d'un signal audio
US8255222B2 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
JP3266819B2 (ja) 周期信号変換方法、音変換方法および信号分析方法
JP6496030B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
EP1944755B1 (fr) Modification d'un signal de parole
EP2881947A1 (fr) Système d'inférence d'enveloppe spectrale et de temps de propagation de groupe et système de synthèse de signaux vocaux pour analyse / synthèse vocale
EP1730729A1 (fr) Procede et systeme ameliores de conversion d'un signal vocal
FR2553555A1 (fr) Procede de codage de la parole et dispositif pour sa mise en oeuvre
LU88189A1 (fr) Procédés de codage de segments de parole et de controlôle de hauteur de son pour des synthèse de la parole
Türk et al. Subband based voice conversion.
JP4490507B2 (ja) 音声分析装置および音声分析方法
EP1730728A1 (fr) Procede et systeme de conversion rapides d'un signal vocal
Stylianou Concatenative speech synthesis using a harmonic plus noise model
Al-Radhi et al. Time-Domain Envelope Modulating the Noise Component of Excitation in a Continuous Residual-Based Vocoder for Statistical Parametric Speech Synthesis.
JP3960834B2 (ja) 音声強調装置及び音声強調方法
Muralishankar et al. Modification of pitch using DCT in the source domain
EP1606792A1 (fr) Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse
EP1846918B1 (fr) Procede d'estimation d'une fonction de conversion de voix
Dorran Audio time-scale modification
Kafentzis et al. Pitch modifications of speech based on an adaptive harmonic model
JP2904279B2 (ja) 音声合成方法および装置
Anil et al. Expressive speech synthesis using prosodic modification for Marathi language
Anil et al. Speech modification for prosody conversion in expressive Marathi text-to-speech synthesis
US11302300B2 (en) Method and apparatus for forced duration in neural speech synthesis

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MT NL NO PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA MK RS

17P Request for examination filed

Effective date: 20090213

AKX Designation fees paid

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MT NL NO PL PT RO SE SI SK TR

17Q First examination report despatched

Effective date: 20090316

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20120207