FR3106691A1

FR3106691A1 - SPEECH CONVERSION THROUGH STATISTICAL LEARNING WITH COMPLEX MODELING OF TEMPORAL CHANGES

Info

Publication number: FR3106691A1
Application number: FR2000753A
Authority: FR
Inventors: Enguerrand Gentet; Sebastien Denjean; Vincent Roussarie; Bertrand David; Gaël Richard
Original assignee: PSA Automobiles SA
Current assignee: PSA Automobiles SA
Priority date: 2020-01-27
Filing date: 2020-01-27
Publication date: 2021-07-30

Abstract

Un dispositif (DC) convertit des signaux de parole source en signaux de parole cible pour un auditeur, et comprend : - un analyseur (AN) analysant les signaux source pour déterminer des paramètres d’entrée et des paramètres inchangés, associés à des positions temporelles source, - un module de prétraitement (MP) produisant des caractéristiques d’entrée à partir des paramètres d’entrée, - un estimateur (ES) estimant des caractéristiques de sortie à partir d’un modèle d’apprentissage-machine utilisant les caractéristiques d’entrée, - un module d’intégration (MI) générant des paramètres de sortie estimés et une courbe de modification temporelle estimée à partir des caractéristiques de sortie estimées, - un module temporel (MT) modifiant les positions temporelles source en nouvelles positions temporelles source à partir de la courbe de modification temporelle estimée, et - un synthétiseur (SY) synthétisant les signaux convertis à partir des paramètres inchangés, nouvelles positions temporelles source et paramètres de sortie estimés. Figure à publier avec l’abrégé : Fig. 2A device (DC) converts source speech signals into target speech signals for a listener, and comprises: - an analyzer (AN) analyzing the source signals to determine input parameters and unchanged parameters, associated with time positions source, - a preprocessing module (MP) producing input characteristics from the input parameters, - an estimator (ES) estimating output characteristics from a machine learning model using the characteristics d 'input, - an integration module (MI) generating estimated output parameters and an estimated time modification curve from the estimated output characteristics, - a time module (MT) modifying the source time positions into new source time positions from the estimated temporal modification curve, and - a synthesizer (SY) synthesizing the signals converted from the unchanged parameters, new tempore positions lthe estimated source and output parameters. Figure to be published with the abstract: Fig. 2

Description

SPEECH CONVERSION BY STATISTICAL LEARNING WITH COMPLEX MODELING OF TEMPORAL CHANGES

Domaine technique de l’inventionTechnical field of the invention

L’invention concerne les dispositifs de conversion de la parole, par exemple destinés à améliorer l’intelligibilité de la parole diffusée par au moins un haut-parleur à destination d’au moins une personne située à proximité de ce dernier.The invention relates to speech conversion devices, for example intended to improve the intelligibility of the speech broadcast by at least one loudspeaker intended for at least one person located close to the latter.

Etat de la techniqueState of the art

Dans certains domaines techniques, on utilise des dispositifs de conversion pour convertir des signaux de parole d’un type de parole à un autre. Ces dispositifs de conversion de la parole utilisent une chaine de conversion permettant de convertir des signaux de parole dits source et provenant d’un locuteur (à priori inconnu) en signaux de parole dits convertis pour un auditeur (ou récepteur). Quelques exemples non exhaustifs de conversion de la parole sont la conversion de style (passer d’un style de parole à un autre: neutre, heureux, triste, interrogatif…) ou la conversion d’identité (passer de l’identité du locuteur à celle d’un autre).In some technical fields, conversion devices are used to convert speech signals from one type of speech to another. These speech conversion devices use a conversion chain making it possible to convert so-called source speech signals coming from a speaker (a priori unknown) into so-called converted speech signals for a listener (or receiver). Some non-exhaustive examples of speech conversion are style conversion (switching from one speech style to another: neutral, happy, sad, interrogative…) or identity conversion (switching from speaker identity to that of another).

Les traitements existants peuvent être directs, en utilisant des filtres, ou paramétriques, en modifiant certaines caractéristiques de la parole. La présente invention concerne les traitements paramétriques qui utilisent des modèles d’apprentissage-machine supervisé afin de réaliser de la conversion de voix.Existing processing can be direct, by using filters, or parametric, by modifying certain characteristics of the speech. The present invention relates to parametric processing that uses supervised machine learning models to perform voice conversion.

L’invention concerne plus particulièrement la conversion des signaux de parole avant que ces derniers ne soient diffusés par au moins un haut-parleur (éventuellement dans un environnement bruité dont les caractéristiques sont déterminées à partir de signaux sonores enregistrés par un microphone placé à proximité de l’auditeur). La conversion pour un environnement bruité vise à améliorer l’intelligibilité des signaux de parole pour l’auditeur et est connue sous l’expression anglaise «near-end listening enhancement». Elle est notamment utilisée dans des véhicules, éventuellement automobiles, ou dans des équipements électroniques communicants, comme par exemple des téléphones mobiles intelligents (ou «smartphones») ou des tablettes électroniques.The invention relates more particularly to the conversion of speech signals before the latter are broadcast by at least one loudspeaker (possibly in a noisy environment whose characteristics are determined from sound signals recorded by a microphone placed close to the listener). Conversion for a noisy environment aims to improve the intelligibility of speech signals for the listener and is known as “near-end listening enhancement”. It is used in particular in vehicles, possibly automobiles, or in communicating electronic equipment, such as for example intelligent mobile telephones (or “smartphones”) or electronic tablets.

L’homme de l’art sait que les humains adaptent naturellement leur style de parole dans le bruit pour mieux se faire comprendre. Ce style de parole est généralement appelé «effet Lombard», et il est possible d’utiliser un dispositif de conversion de voix pour reproduire cette adaptation afin de rendre la parole plus intelligible dans l’environnement bruité considéré.Those skilled in the art know that humans naturally adapt their speaking style in noise to be better understood. This style of speech is generally referred to as the "Lombard effect", and it is possible to use a voice conversion device to reproduce this adaptation in order to make speech more intelligible in the noisy environment under consideration.

Pour cela, il faut préalablement apprendre les modifications des différents paramètres de la voix, en particulier des paramètres prosodiques et spectraux, nécessaires pour passer d’une voix neutre à une voix Lombard durant une phase d'apprentissage. A cet effet, une ou plusieurs base(s) de données composée(s) de paires de signaux de paroles prononcées dans le silence (signaux source) et dans un environnement bruité (signaux cible) sont utilisées. Pour une paire de signaux, les signaux source et cible étantmajoritairement prononcés à des débits différents, un chemin d’alignement temporel est calculé pour chaque paire permettant d’associer à chaque instant du signal source un instant correspondant du signal cible. Afin d’apprendre les modifications non-temporelles un modèle d’apprentissage-machine supervisé est utilisé sur les paramètres alignés de chaque paire de signaux. Pour les modifications temporelles les signaux de parole sont actuellement segmentés en fonction de leurs propriétés (comme par exemple le voisement) ou des types de phonèmes, et pour chaque type de segment une valeur de modification temporelle (augmentation de X% ou diminution de Y%) est calculée à partir des exemples de paires de signaux.To do this, you must first learn the modifications of the various parameters of the voice, in particular the prosodic and spectral parameters, necessary to go from a neutral voice to a Lombard voice during a learning phase. For this purpose, one or more database(s) composed of pairs of speech signals uttered in silence (source signals) and in a noisy environment (target signals) are used. For a pair of signals, the source and target signals being mostly pronounced at different rates, a temporal alignment path is calculated for each pair allowing to associate each instant of the source signal with a corresponding instant of the target signal. In order to learn the non-temporal changes a supervised machine learning model is used on the aligned parameters of each pair of signals. For temporal modifications the speech signals are currently segmented according to their properties (such as voicing) or phoneme types, and for each type of segment a temporal modification value (increase of X% or decrease of Y% ) is calculated from the example signal pairs.

Le dispositif de conversion peut alors remplir sa fonction de conversion de voix lors d’une phase générative (ou de conversion) décrite ci-après. Un signal de parole source est analysé et ses paramètres de parole non-temporels servent à alimenter le modèle d’apprentissage-machine qui estime de nouveaux paramètres. Les valeurs de modification temporelle sont calculées en fonction du signal segmenté et on obtient une modélisation des modifications temporelles par une fonction étagée rigide et discontinue (typiquement en créneaux). Le signal converti est alors synthétisé avec les nouveaux paramètres tout en appliquant les modifications temporelles.The conversion device can then perform its voice conversion function during a generative (or conversion) phase described below. A source speech signal is analyzed and its non-temporal speech parameters are used to feed the machine learning model which estimates new parameters. The temporal modification values are calculated as a function of the segmented signal and one obtains a modeling of the temporal modifications by a rigid and discontinuous stepped function (typically in slots). The converted signal is then synthesized with the new parameters while applying the temporal modifications.

Plus précisément, un dispositif de conversion actuel comprendpour sa phase générative (ou de conversion) :More specifically, a current conversion device comprises for its generative (or conversion) phase:

- un analyseur agencé de manière à analyser les signaux source pour déterminer des paramètres d’entrée et des paramètres inchangés, associés à des positions temporelles source,- an analyzer arranged to analyze the source signals to determine input parameters and unchanged parameters, associated with source time positions,

- un module de prétraitement qui prépare les données pour le modèle d’apprentissage-machine en produisant des caractéristiques d’entrée (détaillées plus loin) à partir des paramètres d’entrée ainsi qu’éventuellement des paramètres extérieurs (éventuellement d’environnement),- a pre-processing module which prepares the data for the machine-learning model by producing input characteristics (detailed later) from the input parameters as well as possibly external parameters (possibly from the environment),

- un estimateur agencé de manière à estimer des caractéristiques de sortie estimées à partir du modèle d’apprentissage-machine prenant comme entrées les caractéristiques d’entrée,- an estimator arranged to estimate output characteristics estimated from the machine-learning model taking the input characteristics as inputs,

- un module d’intégration permettant de générer des paramètres de sortie estimés, exploitables par le synthétiseur, à partir des caractéristiques de sortie estimées,- an integration module allowing the generation of estimated output parameters, usable by the synthesizer, from the estimated output characteristics,

- un module temporel agencé de manière à calculer une courbe de modification temporelle estimée en fonction des paramètres d’entrée, et à modifier les positions temporelles source en nouvelles positions temporelles à partir de cette courbe de modification temporelle estimée, et- a temporal module arranged so as to calculate an estimated temporal modification curve as a function of the input parameters, and to modify the source temporal positions into new temporal positions from this estimated temporal modification curve, and

- un synthétiseur agencé de manière à synthétiser les signaux convertis, destinés à l’auditeur, à partir des paramètres de sortie estimés, des paramètres inchangés et des nouvelles positions temporelles source.- a synthesizer arranged in such a way as to synthesize the converted signals, intended for the listener, from the estimated output parameters, the unchanged parameters and the new source time positions.

Les paramètres d’entrée sont les paramètres de parole utilisés pour alimenter indirectement le modèle d’apprentissage-machine, et sont un sous-ensemble de l’ensemble des paramètres fournis par le synthétiseur.Input parameters are the speech parameters used to indirectly feed the machine learning model, and are a subset of the set of parameters provided by the synthesizer.

Les paramètres inchangés correspondent aux paramètres qui sont utilisés tels quels lors de la synthèse, et sont aussi un autre sous-ensemble de l’ensemble des paramètres fournis par le synthétiseur mais pas nécessairement distincts des paramètres d’entrée. On peut en effet utiliser certains paramètres pour alimenter le modèle d’apprentissage-machine sans chercher à les modifier. Par exemple, le voisement est une information importante à transmettre en entrée du modèle d’apprentissage-machine mais on ne cherche pas nécessairement à le modifier : le voisement est donc un paramètre qui pourra être à la fois dans les paramètres d’entrée et dans ceux inchangés.The unchanged parameters correspond to the parameters which are used as is during the synthesis, and are also another subset of the set of parameters provided by the synthesizer but not necessarily distinct from the input parameters. We can indeed use certain parameters to feed the machine learning model without trying to modify them. For example, voicing is important information to transmit as input to the machine-learning model, but we do not necessarily seek to modify it: voicing is therefore a parameter that can be both in the input parameters and in the those unchanged.

Les paramètres de sortie estimés sont des paramètres indirectement estimés par le modèle d’apprentissage-machine et qui sont utilisés par le synthétiseur. Ils ne correspondent pas forcément à tous les paramètres d’entrée transformés. Par exemple, le voisement peut faire partie des paramètres d’entrée mais pas des paramètres de sortie estimés.The estimated output parameters are parameters indirectly estimated by the machine learning model and which are used by the synthesizer. They do not necessarily correspond to all the transformed input parameters. For example, voicing may be part of the input parameters but not of the estimated output parameters.

On dit que les paramètres alimentent, et sont estimés, indirectement par le modèle d’apprentissage-machine car on utilise un module de prétraitement couplé à un module d’intégration. Le module de prétraitement, d’une part, prépare les paramètres pour le modèle d’apprentissage-machine considéré (cette étape s’appelle «data engineering» en anglais), et, d’autre part, il est commun, bien qu’optionnel, d’appliquer des opérations de prétraitement visant à rendre l’apprentissage du modèle plus performant (cette étape s’appelle «feature engineering» en anglais). Le module d’intégration permet alors de récupérer des paramètres exploitables par le synthétiseur à partir des caractéristiques de sortie estimées par le modèle d’apprentissage-machine.We say that the parameters feed, and are estimated, indirectly by the machine learning model because we use a preprocessing module coupled with an integration module. The preprocessing module, on the one hand, prepares the parameters for the considered machine learning model (this step is called “data engineering” in English), and, on the other hand, it is common, although optional, to apply pre-processing operations aimed at making the learning of the model more efficient (this step is called "feature engineering" in English). The integration module then makes it possible to recover parameters that can be used by the synthesizer from the output characteristics estimated by the machine learning model.

Les modifications temporelles sont actuellement calculées directement dans le module temporel avec de simples règles basées sur des calculs de moyennes portant sur quelques paramètres choisis et omet donc une multitude de facteurs inter-paramètres. Par conséquent, les modifications temporelles locales utilisées ne s’avèrent pas suffisamment fidèles à la réalité et donc les modifications de débit de parole résultantes ne sont ni suffisamment naturelles ni fidèles à la réalité.Temporal changes are currently calculated directly in the temporal module with simple rules based on averaging calculations over a few chosen parameters and therefore omitting a multitude of inter-parameter factors. Consequently, the local temporal modifications used do not turn out to be sufficiently faithful to reality and therefore the resulting speech rate modifications are neither sufficiently natural nor faithful to reality.

L’invention a donc notamment pour but d’améliorer la situation en intégrant les aspects temporels directement dans le modèle d’apprentissage-machine permettant au moins l’obtention d’une modélisation complexe des modifications temporelles afin que ces dernières soient similaires à celles observables dans la réalité.The aim of the invention is therefore in particular to improve the situation by integrating the temporal aspects directly into the machine learning model allowing at least the obtaining of a complex modeling of the temporal modifications so that the latter are similar to those observable. in reality.

Présentation de l’inventionPresentation of the invention

Elle propose notamment à cet effet un dispositif de conversion, d’une part, destiné à convertir des signaux de parole dits source en signaux de parole dits convertis pour un auditeur (éventuellement situé dans un environnement bruité défini par des paramètres d’environnement), et, d’autre part, comprenant:It proposes in particular for this purpose a conversion device, on the one hand, intended to convert so-called source speech signals into so-called converted speech signals for a listener (possibly located in a noisy environment defined by environmental parameters), and, on the other hand, comprising:

- un analyseur analysant les signaux source pour déterminer des paramètres d’entrée et des paramètres inchangés, associés à des positions temporelles source,- an analyzer analyzing the source signals to determine input parameters and unchanged parameters, associated with source time positions,

- un module de prétraitement produisant des caractéristiques d’entrée à partir d’au moins les paramètres d’entrée,- a pre-processing module producing input characteristics from at least the input parameters,

- un estimateur estimant des caractéristiques de sortie estimées à partir d’un modèle d’apprentissage-machine préalablement entrainé prenant comme entrées les caractéristiques d’entrée,- an estimator estimating output characteristics estimated from a previously trained machine-learning model taking the input characteristics as inputs,

- un module d’intégration générant des paramètres de sortie estimés à partir des caractéristiques de sortie estimées,- an integration module generating estimated output parameters from the estimated output characteristics,

- un module temporel modifiant les positions temporelles source en nouvelles positions temporelles source à partir d’une courbe de modification temporelle estimée, et- a temporal module modifying the source temporal positions into new source temporal positions from an estimated temporal modification curve, and

- un synthétiseur synthétisant les signaux convertis, destinés à l’auditeur, à partir des paramètres inchangés, des nouvelles positions temporelles source et de paramètres de sortie estimés.- a synthesizer synthesizing the converted signals, intended for the listener, from unchanged parameters, new source time positions and estimated output parameters.

Ce dispositif de conversion se caractérise par le fait que le module d’intégration génère (pour la phase générative (ou de conversion)), en plus des paramètres de sortie, la courbe de modification temporelle estimée à partir des caractéristiques de sortie estimées.This conversion device is characterized by the fact that the integration module generates (for the generative (or conversion) phase), in addition to the output parameters, the estimated temporal modification curve from the estimated output characteristics.

L’estimation de la courbe de modification temporelle estimée s’effectue non plus directement dans le module temporel à partir des paramètres d’entrée mais dans un module d’intégration à partir des caractéristiques de sortie estimées. Cette estimation de la courbe de modification temporelle indirectement par le modèle d’apprentissage-machine permet de prendre en compte des facteurs inter-paramètres complexes lors des transformations du débit de parole. On dispose alors d’une voix convertie ayant un rendu plus naturel et plus proche de la parole visée que ce que l’on obtient avec les modifications temporelles basées sur des moyennes portant sur quelques paramètres d’entrée choisis.The estimation of the estimated temporal modification curve is no longer carried out directly in the temporal module from the input parameters but in an integration module from the estimated output characteristics. This estimation of the temporal modification curve indirectly by the machine learning model makes it possible to take into account complex inter-parameter factors during speech rate transformations. We then have a converted voice with a more natural rendering and closer to the targeted speech than what is obtained with the temporal modifications based on averages relating to a few chosen input parameters.

Le dispositif de conversion selon l’invention peut comporter d’autres caractéristiques qui peuvent être prises séparément ou en combinaison, et notamment:The conversion device according to the invention may comprise other characteristics which may be taken separately or in combination, and in particular:

- son analyseur peut analyser, dans une phase d’apprentissage, des signaux de parole source préalablement enregistrés pour déterminer des paramètres d’entrée à des positions temporelles source, et parallèlement des signaux de parole cible correspondants préalablement enregistrés pour déterminer des paramètres cible à des positions temporelles cible;- its analyzer can analyze, in a learning phase, previously recorded source speech signals to determine input parameters at source time positions, and in parallel previously recorded corresponding target speech signals to determine target parameters at target time positions;

- il peut comprendre un module d’alignement temporel estimant, d’une part, un chemin d’alignement temporel en fonction des paramètres d’entrée et des paramètres cible, et, d’autre part, des paramètres de sortie cible projetés sur les positions temporelles source au moyen de ce chemin d’alignement temporel et des paramètres cible;- it can comprise a time alignment module estimating, on the one hand, a time alignment path according to the input parameters and the target parameters, and, on the other hand, target output parameters projected on the source time positions using this time alignment path and the target parameters;

- son module temporel peut calculer, dans la phase d'apprentissage, une courbe de modification temporelle cible en fonction d’au moins le chemin d’alignement temporel;- its temporal module can calculate, in the learning phase, a target temporal modification curve as a function of at least the temporal alignment path;

- son module de prétraitement peut produire, dans la phase d’apprentissage, des caractéristiques d’entrée à partir d’au moins les paramètres d’entrée, et des caractéristiques de sortie cible à partir des paramètres de sortie cible et de la courbe de modification temporelle cible;- its pre-processing module can produce, in the learning phase, input characteristics from at least the input parameters, and target output characteristics from the target output parameters and the target time modification;

- il peut comprendre un module d’entraînement déterminant, dans la phase d’apprentissage, les paramètres du modèle d’apprentissage-machine à partir des caractéristiques d’entrée de chacun des signaux de parole source et des caractéristiques de sortie cible des signaux de parole cible qui leurs correspondent respectivement.- it may comprise a training module determining, in the learning phase, the parameters of the machine-learning model from the input characteristics of each of the source speech signals and the target output characteristics of the target speech which correspond to them respectively.

L’invention propose également un véhicule comprenant un module de communication par voie d’ondes, un microphone, au moins un haut-parleur, et un dispositif de conversion du type de celui présenté ci-avant.The invention also proposes a vehicle comprising a wave communication module, a microphone, at least one loudspeaker, and a conversion device of the type presented above.

L’invention propose également un équipement communicant comprenant un module de communication par voie d’ondes, un microphone, au moins un haut-parleur, et un dispositif de conversion du type de celui présenté ci-avant.The invention also proposes communicating equipment comprising a wave communication module, a microphone, at least one loudspeaker, and a conversion device of the type presented above.

L’invention propose également un procédé de conversion, d’une part, destiné à permettre la conversion de signaux de parole dits source en signaux de parole dits convertis pour un auditeur (éventuellement situé dans un environnement bruité défini par des paramètres d’environnement), et, d’autre part, comprenant une étape dans laquelle:The invention also proposes a method of conversion, on the one hand, intended to allow the conversion of so-called source speech signals into so-called converted speech signals for a listener (possibly located in a noisy environment defined by environmental parameters) , and, on the other hand, comprising a step in which:

- on analyse les signaux source pour déterminer des paramètres d’entrée et des paramètres inchangés, associés à des positions temporelles source,- the source signals are analyzed to determine input parameters and unchanged parameters, associated with source time positions,

- on produit (dans un prétraitement) des caractéristiques d’entrée à partir d’au moins les paramètres d’entrée,- we produce (in a preprocessing) input characteristics from at least the input parameters,

- on estime des caractéristiques de sortie estimées à partir du modèle d’apprentissage-machine prenant comme entrées les caractéristiques d’entrée,- estimated output characteristics are estimated from the machine-learning model taking the input characteristics as inputs,

- on modifie les positions temporelles source en nouvelles positions temporelles source à partir d’une courbe de modification temporelle estimée,- the source time positions are modified into new source time positions based on an estimated time modification curve,

- on génère des paramètres de sortie estimés à partir des caractéristiques de sortie estimées, et- generating estimated output parameters from the estimated output characteristics, and

- on synthétise les signaux convertis, destinés à l’auditeur, à partir de paramètres de sortie estimés, des paramètres inchangés et des nouvelles positions temporelles source.- the converted signals, intended for the listener, are synthesized from estimated output parameters, unchanged parameters and new source time positions.

Ce procédé de conversion se caractérise par le fait que dans son étape, dans sa phase générative, on génère, en plus des paramètres de sortie estimés, la courbe de modification temporelle estimée à partir des caractéristiques de sortie estimées.This conversion method is characterized by the fact that in its step, in its generative phase, in addition to the estimated output parameters, the estimated temporal modification curve is generated from the estimated output characteristics.

L’invention propose également un produit programme d’ordinateur comprenant un jeu d’instructions qui, lorsqu’il est exécuté par des moyens de traitement, est propre à mettre en œuvre un procédé de conversion du type de celui présenté ci-avant pour convertir des signaux de parole dits source en signaux de parole dits convertis pour un auditeur (éventuellement situé dans un environnement bruité défini par des paramètres d’environnement).The invention also proposes a computer program product comprising a set of instructions which, when it is executed by processing means, is capable of implementing a conversion method of the type of that presented above for converting so-called source speech signals into so-called converted speech signals for a listener (possibly located in a noisy environment defined by environment parameters).

Brève description des figuresBrief description of figures

D’autres caractéristiques et avantages de l’invention apparaîtront à l’examen de la description détaillée ci-après, et des dessins annexés, sur lesquels:Other characteristics and advantages of the invention will appear on examination of the detailed description below, and of the appended drawings, in which:

illustre schématiquement et fonctionnellement un exemple de véhicule comprenant un module de communication par voie d’ondes, un microphone, un haut-parleur et un dispositif de conversion selon l’invention, schematically and functionally illustrates an example of a vehicle comprising a wave communication module, a microphone, a loudspeaker and a conversion device according to the invention,

illustre schématiquement et fonctionnellement un exemple de réalisation d’un dispositif de conversion selon l’invention, schematically and functionally illustrates an embodiment of a conversion device according to the invention,

illustre schématiquement un exemple de diagramme d’évolution temporelle (t) d’une modification temporelle (en facteur d’augmentation) dans le cas de l’art antérieur (c1) et dans le cas de l’invention (c2), et schematically illustrates an example of a temporal evolution diagram (t) of a temporal modification (in increase factor) in the case of the prior art (c1) and in the case of the invention (c2), and

illustre schématiquement un exemple d’algorithme mettant en œuvre un procédé de conversion selon l’invention. schematically illustrates an example of an algorithm implementing a conversion method according to the invention.

Description détaillée de l’inventionDetailed description of the invention

L’invention a notamment pour but de proposer un dispositif de conversion DC, et un procédé de conversion associé, destinés à convertir des signaux de parole dits source s1 en signaux de parole dits convertis s2 pour un auditeur.The object of the invention is in particular to propose a DC conversion device, and an associated conversion method, intended to convert so-called source speech signals s1 into so-called converted speech signals s2 for a listener.

Dans ce qui suit, on considère, à titre d’exemple non limitatif, que le dispositif de conversion DC est destiné à équiper un véhicule V, éventuellement de type automobile comme illustré non limitativement sur la figure 1. Mais l’invention n’est pas limitée à cette application. En effet, le dispositif de conversion DC peut équiper tous les véhicules (terrestres, maritimes (ou fluviaux) et aériens), les installations (éventuellement industrielles), les bâtiments, les équipements électroniques communicants comprenant un module de communication par voie d’ondes, un microphone et au moins un haut-parleur, comme par exemple les téléphones mobiles intelligents (ou «smartphones») et les tablettes électroniques, ainsi que les dispositifs d’affichage équipés d’un microphone et d’au moins un haut-parleur.In what follows, it is considered, by way of non-limiting example, that the DC conversion device is intended to equip a vehicle V, possibly of the automobile type as illustrated without limitation in FIG. 1. But the invention is not not limited to this application. Indeed, the DC conversion device can be fitted to all vehicles (land, sea (or river) and air), installations (possibly industrial), buildings, communicating electronic equipment comprising a wave communication module, a microphone and at least one loudspeaker, such as for example intelligent mobile telephones (or “smartphones”) and electronic tablets, as well as display devices equipped with a microphone and at least one loudspeaker.

On a schématiquement représenté sur la figure 1 un exemple de véhicule V, ici de type automobile, comprenant un module de communication par voie d’ondes MC, un microphone MI pouvant acquérir des sons dans son habitacle H, au moins un haut-parleur HP et un dispositif de conversion DC selon l’invention, agencé de manière à convertir des signaux de parole dits source s1 (issus d’un locuteur) en signaux de parole dits convertis s2 pour un auditeur. L’auditeur est ici assis sur l’un des sièges S1 et S2 présents dans l’habitacle H.There is schematically shown in Figure 1 an example of vehicle V, here of the automotive type, comprising a communication module by way of waves MC, a microphone MI able to acquire sounds in its passenger compartment H, at least one loudspeaker HP and a DC conversion device according to the invention, arranged so as to convert so-called source speech signals s1 (coming from a speaker) into so-called converted speech signals s2 for a listener. The listener is here seated on one of the seats S1 and S2 present in the passenger compartment H.

Comme illustré non limitativement sur la figure 2, un dispositif de conversion DC, selon l’invention, comprend au moins un analyseur AN, un module de prétraitement MP, un estimateur ES, un module d’intégration MI, un module temporel MT et un synthétiseur SY.As illustrated without limitation in FIG. 2, a DC conversion device, according to the invention, comprises at least one analyzer AN, one preprocessing module MP, one estimator ES, one integration module MI, one temporal module MT and one SY synthesizer.

L’analyseur AN est agencé de manière à analyser les signaux (de parole) source s1, reçus sur une interface d’entrée (non représentée) pour déterminer des paramètres d’entrée pe et des paramètres inchangés pi, associés à des positions temporelles source pts.The analyzer AN is arranged to analyze the source (speech) signals s1, received on an input interface (not shown) to determine input parameters pe and unchanged parameters pi, associated with source time positions pts.

Tout type de modèle d’analyse de la voix connu de l’homme de l’art peut être ici utilisé, et notamment un modèle sinusoïdal ou un modèle source-filtre.Any type of voice analysis model known to those skilled in the art can be used here, and in particular a sinusoidal model or a source-filter model.

Afin d’assurer ses fonctions, l’analyseur AN peut, par exemple, comprendre au moins un processeur et au moins une mémoire vive. Il peut donc être réalisé sous la forme d’une combinaison de circuits ou composants électriques ou électroniques (ou « hardware ») et de modules logiciels (ou « software »). Par exemple, ce processeur peut être un processeur de signal numérique (ou DSP (« Digital Signal Processor »)). Ce processeur peut comprendre des circuits intégrés (ou imprimés), ou bien plusieurs circuits intégrés (ou imprimés) reliés par des connections filaires ou non filaires. On entend par circuit intégré (ou imprimé) tout type de dispositif apte à effectuer au moins une opération électrique ou électronique. La mémoire vive stocke des instructions pour la mise en œuvre par le processeur d’un algorithme de traitement permettant la réalisation des fonctions précitées.In order to ensure its functions, the analyzer AN can, for example, comprise at least one processor and at least one random access memory. It can therefore be produced in the form of a combination of electrical or electronic circuits or components (or “hardware”) and software modules (or “software”). For example, this processor may be a digital signal processor (or DSP (“Digital Signal Processor”)). This processor may comprise integrated (or printed) circuits, or else several integrated (or printed) circuits connected by wired or wireless connections. By integrated (or printed) circuit is meant any type of device capable of performing at least one electrical or electronic operation. The RAM stores instructions for the implementation by the processor of a processing algorithm allowing the realization of the aforementioned functions.

Le module de prétraitement MP possède un sous-module SP1 agencé de manière à produire des caractéristiques d’entrée cen à partir des paramètres d’entrée pe, ainsi qu’éventuellement des paramètres extérieurs pext.The pre-processing module MP has a sub-module SP1 arranged in such a way as to produce input characteristics cen from input parameters pe, as well as possibly external parameters pext.

Les paramètres extérieurs pext permettent d’avoir un dispositif de conversion DC adaptatif à d’autres facteurs que la parole du locuteur. Ces paramètres extérieurs pext peuvent, par exemple, comporter des paramètres d’environnement qui caractérisent un environnement bruité (ici l’habitacle H). Ces éventuels paramètres d’environnement peuvent être, ici, déterminés à partir des sons enregistrés par le microphone MI (ici dans l’habitacle H), ou estimés à partir d’informations sur l’état du véhicule V (vitesse et régime moteur par exemple), par un module dédié (non représenté).The external parameters pext make it possible to have a DC conversion device adaptive to other factors than the speech of the speaker. These external parameters pext can, for example, comprise environmental parameters which characterize a noisy environment (here the passenger compartment H). These possible environmental parameters can be, here, determined from the sounds recorded by the microphone MI (here in the passenger compartment H), or estimated from information on the state of the vehicle V (speed and engine speed by example), by a dedicated module (not shown).

L’adaptation du dispositif de conversion DC au bruit ambiant est une option utile pour une application de «near end listening enhancement». On peut toutefois utiliser à la place, ou en complément, d’autres paramètres extérieurs pext en fonction de l’application. Ces paramètres extérieurs pext peuvent être dynamiques comme pour les exemples précédents, ou statiques avec, par exemple, des paramètres de déficience auditive liés à l’auditeur.Adapting the DC converter device to ambient noise is a useful option for a “near end listening enhancement” application. However, other external parameters pext can be used instead or in addition, depending on the application. These external parameters pext can be dynamic as for the previous examples, or static with, for example, hearing loss parameters related to the listener.

Le sous-module SP1 prépare les paramètres pour le modèle d’apprentissage-machine considéré (cette étape s’appelle data engineering en anglais), et, d’autre part, il est commun, bien qu’optionnel, qu’on applique des opérations de prétraitement visant à rendre l’apprentissage du modèle plus performant (cette étape s’appelle «feature engineering» en anglais). Ces deux étapes et leur ordre d’exécution dépendent du type de prétraitement choisi et du modèle d’apprentissage-machine utilisé.The SP1 sub-module prepares the parameters for the considered machine learning model (this step is called data engineering in English), and, on the other hand, it is common, although optional, that we apply pre-processing operations aimed at making the learning of the model more efficient (this step is called "feature engineering" in English). These two steps and their order of execution depend on the type of preprocessing chosen and the machine learning model used.

Tout type de «data engineering» requis par le modèle d’apprentissage-machine et connu de l’homme de l’art peut être ici utilisé, et notamment la collecte, l’assemblage et l’homogénéisation des données.Any type of “data engineering” required by the machine-learning model and known to those skilled in the art can be used here, and in particular the collection, assembly and homogenization of data.

Tout type de «feature engineering» connu de l’homme de l’art peut être ici utilisé, et notamment l’extraction de caractéristiques avec, par exemple, l’utilisation des MFCCs («Mel Frequency Cepstral Coefficients»), ou la construction de caractéristiques avec, par exemple, le calcul des «delta-features», ou encore, plus classiquement en apprentissage automatique, la standardisation des données.Any type of “feature engineering” known to those skilled in the art can be used here, and in particular the extraction of characteristics with, for example, the use of MFCCs (“Mel Frequency Cepstral Coefficients”), or the construction of characteristics with, for example, the calculation of “delta-features”, or even, more classically in automatic learning, the standardization of data.

Afin d’assurer sa fonction, le sous-module SP1 peut, par exemple, comprendre au moins un processeur et au moins une mémoire vive. Il peut donc être réalisé sous la forme d’une combinaison de circuits ou composants électriques ou électroniques et de modules logiciels. Par exemple, ce processeur peut être un processeur de signal numérique (ou DSP). Ce processeur peut comprendre des circuits intégrés (ou imprimés), ou bien plusieurs circuits intégrés (ou imprimés) reliés par des connections filaires ou non filaires. La mémoire vive stocke des instructions pour la mise en œuvre par ce processeur d’un algorithme de traitement permettant la réalisation de la fonction précitée.In order to ensure its function, the sub-module SP1 can, for example, comprise at least one processor and at least one random access memory. It can therefore be realized in the form of a combination of electrical or electronic circuits or components and software modules. For example, this processor may be a digital signal processor (or DSP). This processor may comprise integrated (or printed) circuits, or else several integrated (or printed) circuits connected by wired or wireless connections. The random access memory stores instructions for the implementation by this processor of a processing algorithm allowing the realization of the aforementioned function.

L’estimateur ES est agencé de manière à estimer des caractéristiques de sortie estimées cse à partir d’un modèle d’apprentissage-machine supervisé préalablement entrainé (pendant une phase d’apprentissage sur laquelle on reviendra plus loin) prenant comme entrées les caractéristiques d’entrée cen.The estimator ES is arranged in such a way as to estimate the estimated output characteristics cse from a previously trained supervised machine-learning model (during a learning phase to which we will return later) taking as inputs the characteristics of entrance cen.

Afin d’assurer ses fonctions, l’estimateur ES peut, par exemple, comprendre au moins un processeur et au moins une mémoire vive. Il peut donc être réalisé sous la forme d’une combinaison de circuits ou composants électriques ou électroniques et de modules logiciels. Par exemple, ce processeur peut être un processeur de signal numérique (ou DSP). Ce processeur peut comprendre des circuits intégrés (ou imprimés), ou bien plusieurs circuits intégrés (ou imprimés) reliés par des connections filaires ou non filaires. La mémoire vive stocke des instructions pour la mise en œuvre par ce processeur d’un algorithme de traitement permettant la réalisation des fonctions précitées.In order to ensure its functions, the estimator ES can, for example, comprise at least one processor and at least one random access memory. It can therefore be realized in the form of a combination of electrical or electronic circuits or components and software modules. For example, this processor may be a digital signal processor (or DSP). This processor may comprise integrated (or printed) circuits, or else several integrated (or printed) circuits connected by wired or wireless connections. The RAM stores instructions for the implementation by this processor of a processing algorithm allowing the realization of the aforementioned functions.

Tout type de modèle d’apprentissage-machine supervisé connu de l’homme de l’art peut être ici utilisé, et notamment un modèle de mélange gaussien ou un modèle de réseau de neurones artificiels (les réseaux récurrents sont particulièrement bien adaptés à l’analyse des séquences temporelles).Any type of supervised machine learning model known to those skilled in the art can be used here, and in particular a Gaussian mixture model or an artificial neural network model (recurrent networks are particularly well suited to time sequence analysis).

Le module d’intégration MI est agencé de manière à générer des paramètres de sortie estimés pse, exploitables par le synthétiseur SY, et une courbe de modification temporelle estimée cmte, à partir des caractéristiques de sortie cse estimées par le modèle d’apprentissage-machine. Les opérations à effectuer par le module d’intégration MI sont totalement conditionnées par la façon dont le modèle d’apprentissage-machine a été entraîné (pendant une phase d’apprentissage sur laquelle on reviendra plus loin).The integration module MI is arranged to generate estimated output parameters pse, usable by the synthesizer SY, and an estimated time modification curve cmte, from the output characteristics cse estimated by the machine learning model . The operations to be performed by the MI integration module are totally conditioned by the way the machine learning model was trained (during a learning phase to which we will return later).

Afin d’assurer ses fonctions, le module d’intégration MI peut, par exemple, comprendre au moins un processeur et au moins une mémoire vive. Il peut donc être réalisé sous la forme d’une combinaison de circuits ou composants électriques ou électroniques et de modules logiciels. Par exemple, ce processeur peut être un processeur de signal numérique (ou DSP). Ce processeur peut comprendre des circuits intégrés (ou imprimés), ou bien plusieurs circuits intégrés (ou imprimés) reliés par des connections filaires ou non filaires. La mémoire vive stocke des instructions pour la mise en œuvre par ce processeur d’un algorithme de traitement permettant la réalisation des fonctions précitées.In order to perform its functions, the integration module MI may, for example, comprise at least one processor and at least one random access memory. It can therefore be realized in the form of a combination of electrical or electronic circuits or components and software modules. For example, this processor may be a digital signal processor (or DSP). This processor may comprise integrated (or printed) circuits, or else several integrated (or printed) circuits connected by wired or wireless connections. The RAM stores instructions for the implementation by this processor of a processing algorithm allowing the realization of the aforementioned functions.

Le module temporel MT est agencé de manière à modifier les positions temporelles source pts en nouvelles positions temporelles source ptn en fonction de la courbe de modification temporelle estimée cmte.The temporal module MT is arranged so as to modify the source temporal positions pts into new source temporal positions ptn as a function of the estimated temporal modification curve cmte.

Afin d’assurer ses fonctions, le module temporel MT peut, par exemple, comprendre au moins un processeur et au moins une mémoire vive. Il peut donc être réalisé sous la forme d’une combinaison de circuits ou composants électriques ou électroniques et de modules logiciels. Par exemple, ce processeur peut être un processeur de signal numérique (ou DSP). Ce processeur peut comprendre des circuits intégrés (ou imprimés), ou bien plusieurs circuits intégrés (ou imprimés) reliés par des connections filaires ou non filaires. La mémoire vive stocke des instructions pour la mise en œuvre par ce processeur d’un algorithme de traitement permettant la réalisation des fonctions précitées. In order to ensure its functions, the temporal module MT can, for example, comprise at least one processor and at least one random access memory. It can therefore be produced in the form of a combination of electrical or electronic circuits or components and of software modules. For example, this processor may be a digital signal processor (or DSP). This processor may comprise integrated (or printed) circuits, or else several integrated (or printed) circuits connected by wired or wireless connections. The random access memory stores instructions for the implementation by this processor of a processing algorithm allowing the performance of the aforementioned functions.

Le synthétiseur SY est agencé de manière à synthétiser les signaux (de parole) convertis s2, destinés à l’auditeur, à partir des paramètres de sortie estimés pse, des paramètres inchangés pi et des nouvelles positions temporelles source ptn.The synthesizer SY is arranged in such a way as to synthesize the converted (speech) signals s2, intended for the listener, from the estimated output parameters pse, the unchanged parameters pi and the new source time positions ptn.

Les signaux convertis s2 synthétisés par le synthétiseur SY sont transmis à une interface de sortie (non représentée) du dispositif de conversion DC qui se charge de les transmettre en vue de leur diffusion via au moins un haut-parleur HP (ici du véhicule V).The converted signals s2 synthesized by the synthesizer SY are transmitted to an output interface (not shown) of the DC conversion device which is responsible for transmitting them with a view to their broadcasting via at least one loudspeaker HP (here of the vehicle V) .

Afin d’assurer ses fonctions, le synthétiseur SY peut, par exemple, comprendre au moins un processeur et au moins une mémoire vive. Il peut donc être réalisé sous la forme d’une combinaison de circuits ou composants électriques ou électroniques et de modules logiciels. Par exemple, ce processeur peut être un processeur de signal numérique (ou DSP). Ce processeur peut comprendre des circuits intégrés (ou imprimés), ou bien plusieurs circuits intégrés (ou imprimés) reliés par des connections filaires ou non filaires. La mémoire vive stocke des instructions pour la mise en œuvre par ce processeur d’un algorithme de traitement permettant la réalisation des fonctions précitées.In order to ensure its functions, the synthesizer SY can, for example, comprise at least one processor and at least one random access memory. It can therefore be realized in the form of a combination of electrical or electronic circuits or components and software modules. For example, this processor may be a digital signal processor (or DSP). This processor may comprise integrated (or printed) circuits, or else several integrated (or printed) circuits connected by wired or wireless connections. The RAM stores instructions for the implementation by this processor of a processing algorithm allowing the realization of the aforementioned functions.

Tout type de synthétiseur de voix connu de l’homme de l’art peut être ici utilisé. Si le synthétiseur SY utilisé n’accepte pas les mêmes paramètres de parole que ceux extraits par l’analyseur AN, une adaptation des paramètres de sortie doit toutefois être effectuée. Si le synthétiseur SY utilisé ne prend pas de positions temporelles personnalisées, une interpolation des paramètres de sortie aux positions temporelles imposées par le synthétiseur SY doit être effectuée.Any type of voice synthesizer known to those skilled in the art can be used here. If the SY synthesizer used does not accept the same speech parameters as those extracted by the AN analyzer, an adaptation of the output parameters must however be carried out. If the SY synthesizer used does not take custom time positions, an interpolation of the output parameters to the time positions imposed by the SY synthesizer must be performed.

On dispose ainsi d’un dispositif de conversion DC assurant une transformation paramétrique de la voix (s1) par apprentissage statistique prenant en compte les aspects temporels durant l’apprentissage et utilisant une courbe de modification temporelle estimée cmte (éventuellement lisse et continue) pour modifier les positions temporelles source pts déterminées dans la voix (s1) dans le but d’avoir au final des signaux convertis s2 ayant un rendu plus naturel et plus proche de la parole visée que ce que l’on obtient avec les modifications temporelles en créneaux discontinus de l’art antérieur.We thus have a DC conversion device ensuring a parametric transformation of the voice (s1) by statistical learning taking into account the temporal aspects during learning and using an estimated temporal modification curve cmte (possibly smooth and continuous) to modify the source time positions pts determined in the voice (s1) with the aim of ultimately having converted signals s2 having a more natural rendering and closer to the intended speech than what is obtained with the time modifications in discontinuous slots of the prior art.

On a schématiquement illustré sur la figure 3 un exemple de diagramme d’évolution temporelle (t) d’une modification temporelle (en facteur d’augmentation) appliquée par le module temporel MT aux positions temporelles source pts pour obtenir de nouvelles positions temporelles source ptn dans le cas de l’art antérieur (courbe c1) et dans le cas de l’invention (courbe c2).There is schematically illustrated in FIG. 3 an example of a temporal evolution diagram (t) of a temporal modification (in increase factor) applied by the temporal module MT to the source temporal positions pts to obtain new source temporal positions ptn in the case of the prior art (curve c1) and in the case of the invention (curve c2).

On notera également, comme illustré non limitativement sur la figure 2, que l’analyseur AN et le synthétiseur SY peuvent faire partie d’un équipement électronique VC de type vocodeur.It will also be noted, as illustrated without limitation in FIG. 2, that the analyzer AN and the synthesizer SY can be part of an electronic equipment VC of the vocoder type.

Comme évoqué plus haut, le dispositif de conversion DC peut aussi être agencé de manière à déterminer le modèle d’apprentissage-machine pendant une phase d’apprentissage (ou d’entraînement).As mentioned above, the DC converter device can also be arranged to determine the machine learning model during a learning (or training) phase.

A cet effet, l’analyseur AN est agencé de manière à analyser, pendant la phase d’apprentissage, des signaux de parole source s3 préalablement enregistrés toujours pour déterminer les paramètres d’entrée pe à des positions temporelles source pts, et parallèlement des signaux de parole cible s4 correspondants préalablement enregistrés pour déterminer des paramètres cible pc à des positions temporelles cible ptc.To this end, the analyzer AN is arranged in such a way as to analyze, during the learning phase, source speech signals s3 previously recorded, always to determine the input parameters pe at source time positions pts, and at the same time signals corresponding target speech s4 previously recorded to determine target parameters pc at target time positions ptc.

Les signaux de parole source s3 et les signaux de parole cible s4 sont préférentiellement des signaux d’entrainement (ou d’apprentissage) qui constituent des paires d’énoncés identiques prononcés d’une part par la parole source (s3) et d’autre part par la parole cible (s4).The source speech signals s3 and the target speech signals s4 are preferably training (or learning) signals which constitute pairs of identical statements pronounced on the one hand by the source speech (s3) and on the other starts with the target word (s4).

Les énoncés de chaque paire étant prononcés à des débits différents, le dispositif de conversion DC peut aussi comprendre un module d’alignement temporel MAT agencé de manière à estimer un chemin d’alignement temporel cat en fonction des paramètres d’entrée pe et des paramètres cible pc. Le chemin d’alignement temporel associe alors à chaque échantillon source un ou plusieurs échantillon(s) cible. Ce module d’alignement temporel MAT est également agencé de manière à estimer des paramètres de sortie cible psc correspondant aux paramètres cibles pc projetés sur les échantillons source tps au moyen du chemin d’alignement temporel cat. Si plusieurs échantillons cible sont associés à un seul échantillon source, un seul paramètre de sortie cible psc est estimé pour cet échantillon source à partir des multiples paramètres cible pc (par exemple en prenant la moyenne des paramètres cible associés ou seulement un des paramètres cible).The utterances of each pair being pronounced at different rates, the DC conversion device can also comprise a time alignment module MAT arranged so as to estimate a time alignment path cat as a function of the input parameters pe and of the parameters pc target. The time alignment path then associates with each source sample one or more target sample(s). This temporal alignment module MAT is also arranged so as to estimate target output parameters psc corresponding to the target parameters pc projected onto the source samples tps by means of the temporal alignment path cat. If several target samples are associated with a single source sample, only one target output parameter psc is estimated for this source sample from the multiple target parameters pc (for example by taking the average of the associated target parameters or only one of the target parameters) .

Tout type de module d’alignement temporel MAT, connu de l’homme de l’art et chargé d’estimer un chemin d’alignement temporel entre une séquence source et une séquence cible, peut être ici utilisé. Par exemple, l’alignement temporel peut se faire en utilisant la technique DTW («Dynamic Time Wraping»).Any type of temporal alignment module MAT, known to those skilled in the art and responsible for estimating a temporal alignment path between a source sequence and a target sequence, can be used here. For example, time alignment can be done using the DTW (“Dynamic Time Wrapping”) technique.

Afin d’assurer ses fonctions, le module d’alignement temporel MAT peut, par exemple, comprendre au moins un processeur et au moins une mémoire vive. Il peut donc être réalisé sous la forme d’une combinaison de circuits ou composants électriques ou électroniques et de modules logiciels. Par exemple, ce processeur peut être un processeur de signal numérique (ou DSP). Ce processeur peut comprendre des circuits intégrés (ou imprimés), ou bien plusieurs circuits intégrés (ou imprimés) reliés par des connections filaires ou non filaires. La mémoire vive stocke des instructions pour la mise en œuvre par ce processeur d’un algorithme de traitement permettant la réalisation des fonctions précitées.In order to ensure its functions, the time alignment module MAT can, for example, comprise at least one processor and at least one random access memory. It can therefore be realized in the form of a combination of electrical or electronic circuits or components and software modules. For example, this processor may be a digital signal processor (or DSP). This processor may comprise integrated (or printed) circuits, or else several integrated (or printed) circuits connected by wired or wireless connections. The RAM stores instructions for the implementation by this processor of a processing algorithm allowing the realization of the aforementioned functions.

Le module temporel MT est agencé de manière à estimer, pendant la phase d’apprentissage, une courbe de modification temporelle cible cmtc en fonction d’au moins le chemin d’alignement temporel cat. Lorsque les positions temporelles source pts et les positions temporelles cible ptc sont uniformes avec les mêmes écarts temporels, on approxime le chemin d’alignement temporel cat par une fonction de régression croissante puis on calcule sa dérivée. Dans le cas contraire, c’est sur le chemin faisant correspondre les valeurs des positions temporelles source pts à celles des positions temporelles cible ptc (obtenues à partir du chemin d’alignement temporel cat, des positions temporelles source pts et des positions temporelles cible ptc) qu’il faut appliquer ces opérations pour prendre en compte la désynchronisation des instants d’échantillonnages.The temporal module MT is arranged so as to estimate, during the learning phase, a target temporal modification curve cmtc as a function of at least the temporal alignment path cat. When the source time positions pts and the target time positions ptc are uniform with the same time differences, the time alignment path cat is approximated by an increasing regression function and then its derivative is calculated. Otherwise, it is on the path matching the values of the source time positions pts to those of the target time positions ptc (obtained from the time alignment path cat, the source time positions pts and the target time positions ptc ) that these operations must be applied to take into account the desynchronization of the sampling instants.

Toute fonction de régression croissante et toute méthode de dérivation numérique connues de l’homme de l’art peuvent être utilisées.Any increasing regression function and any numerical differentiation method known to those skilled in the art can be used.

La courbe de modification temporelle obtenue constitue une trajectoire dynamique qui reflète naturellement les fluctuations temporelles des signaux de parole cible s4 par rapport aux signaux source s3. Par exemple, un facteur supérieur à un, respectivement inférieur à un, indique que le débit est ralenti, respectivement accéléré, et une absence de modification temporelle correspond alors à une trajectoire constante égale à un. La courbe de modification temporelle obtenue peut alors être utilisée conjointement avec les paramètres de sortie cible comme une séquence temporelle supplémentaire que l’on cherche à estimer à travers le modèle d’apprentisage-machine.The temporal modification curve obtained constitutes a dynamic trajectory which naturally reflects the temporal fluctuations of the target speech signals s4 with respect to the source signals s3. For example, a factor greater than one, respectively less than one, indicates that the flow is slowed down, respectively accelerated, and an absence of temporal modification then corresponds to a constant trajectory equal to one. The obtained temporal modification curve can then be used together with the target output parameters as an additional temporal sequence that one seeks to estimate through the machine learning model.

Le sous-module SP1 du module de prétraitement MP est toujours agencé de manière à produire des caractéristiques d’entrée cen à partir des paramètres d’entrée pe ainsi qu’éventuellement des paramètresextérieurs pextpendant la phase d’apprentissage. Mais en complément le module de prétraitement MP comprend un sous-module SP2 agencé de manière à produire, pendant la phase d’apprentissage, des caractéristiques de sortie cible csc à partir des paramètres de sortie cible et de la courbe de modification temporelle cible cmtc estimée par le module de traitement MT. Les prétraitements appliqués par le sous-module SP2 sont de même nature que ceux appliqués par le sous-module SP1 bien qu’ils puissent être différents.The sub-module SP1 of the pre-processing module MP is always arranged so as to produce input characteristics cen from the input parameters pe as well as possibly from the external parameters pext during the learning phase. But in addition, the pre-processing module MP comprises a sub-module SP2 arranged so as to produce, during the learning phase, target output characteristics csc from the target output parameters and the estimated target time modification curve cmtc by the MT processing module. The preprocessings applied by the sub-module SP2 are of the same nature as those applied by the sub-module SP1 although they may be different.

Le sous-module SP2 peut, par exemple, comprendre au moins un processeur et au moins une mémoire vive. Il peut donc être réalisé sous la forme d’une combinaison de circuits ou composants électriques ou électroniques et de modules logiciels. Par exemple, ce processeur peut être un processeur de signal numérique (ou DSP). Ce processeur peut comprendre des circuits intégrés (ou imprimés), ou bien plusieurs circuits intégrés (ou imprimés) reliés par des connections filaires ou non filaires. La mémoire vive stocke des instructions pour la mise en œuvre par ce processeur d’un algorithme de traitement permettant la réalisation de la fonction précitée.The sub-module SP2 can, for example, comprise at least one processor and at least one RAM. It can therefore be realized in the form of a combination of electrical or electronic circuits or components and software modules. For example, this processor may be a digital signal processor (or DSP). This processor may comprise integrated (or printed) circuits, or else several integrated (or printed) circuits connected by wired or wireless connections. The random access memory stores instructions for the implementation by this processor of a processing algorithm allowing the realization of the aforementioned function.

On notera également que le dispositif de conversion DC peut aussi comprendre un module d’entraînement ME agencé de manière à déterminer, dans la phase d’apprentissage, les paramètres du modèle d’apprentissage-machine à partir des caractéristiques d’entrée cen de chacun des signaux de parole source s3 et des caractéristiques de sortie cible csc des signaux de parole cible s4 qui leurs correspondent respectivement.It will also be noted that the DC conversion device can also comprise a training module ME arranged so as to determine, in the learning phase, the parameters of the machine-learning model from the input characteristics cen of each source speech signals s3 and target output characteristics csc of the target speech signals s4 which correspond to them respectively.

Comme indiqué précédemment, les opérations que doit effectuer le module d’intégration MI durant la phase générative (ou de conversion) sont conditionnées par la façon dont le modèle d’apprentissage-machine a été entraîné et plus précisément par les prétraitements effectués par le sous-module SP2 durant la phase d’apprentissage. En fonction de transformations de «feature engineering» appliquées aux différents paramètres de sortie cible psc et à la courbe de modification temporelle cible cmtc estimée durant la phase d’apprentissage, cela conditionne le type des caractéristiques de sortie cse estimées par le modèle d’apprentissage-machine durant la phase générative. Le module d’intégration MI cherche donc à «inverser» ces transformations en extrayant les paramètres de sortie estimés pse et la courbe de modification temporelle estimée cmte à partir des caractéristiques de sortie estimées cse.As indicated above, the operations that the MI integration module must perform during the generative (or conversion) phase are conditioned by the way the machine learning model has been trained and more precisely by the pre-processing carried out by the sub - SP2 module during the learning phase. According to “feature engineering” transformations applied to the different target output parameters psc and to the target temporal modification curve cmtc estimated during the learning phase, this conditions the type of output characteristics cse estimated by the learning model. -machine during the generative phase. The integration module MI therefore seeks to “invert” these transformations by extracting the estimated output parameters pse and the estimated time modification curve cmte from the estimated output characteristics cse.

Tout type de transformation adapté aux prétraitements effectués par le sous-module SP2 et connu de l’homme de l’art peut être utilisé par le module d’intégration MI, et notamment la génération de paramètre(s) par maximum de vraisemblance (sigle MLPG en anglais pour «Maximum Likelihood Parameter Generation») si les «delta features» ont été utilisées, de la dé-normalisation si besoin ou encore l’utilisation de transformés inverses (Fourier ou ondelettes par exemple).Any type of transformation suitable for the pre-processing carried out by the sub-module SP2 and known to those skilled in the art can be used by the integration module MI, and in particular the generation of parameter(s) by maximum likelihood (abbreviation MLPG in English for “Maximum Likelihood Parameter Generation”) if “delta features” have been used, de-normalization if necessary or even the use of inverse transforms (Fourier or wavelets for example).

On notera également, comme illustré non limitativement sur la figure 2, que l’estimateur ES et le module d’entraînement ME peuvent faire partie d’un module d’apprentissage MA. Ce dernier (MA) comprend au moins une mémoire de masse pour le stockage des données liées au modèle d’apprentissage-machine.It will also be noted, as illustrated without limitation in FIG. 2, that the estimator ES and the training module ME can be part of a learning module MA. The latter (MA) comprises at least one mass memory for storing data related to the machine learning model.

Dans ce qui précède on a décrit une utilisation en temps différé où le signal source s1 est connu à l’avance. Mais le dispositif de conversion DC peut aussi être utilisé en temps réel en utilisant une mémoire tampon (ou «buffer» en anglais). Cette utilisation en temps réel conditionne cependant la méthode d’analyse, la méthode de synthèse et le modèle d’apprentissage-machine qui doivent être capables d’agir en temps réel (par exemple dans le cas d’un modèle de réseau de neurones récurrents on ne pourra pas utiliser d’architecture bidirectionnelle).In the foregoing we have described a use in deferred time where the source signal s1 is known in advance. But the DC conversion device can also be used in real time by using a buffer memory. This real-time use, however, conditions the analysis method, the synthesis method and the machine-learning model, which must be capable of acting in real time (for example in the case of a recurrent neural network model bidirectional architecture cannot be used).

L’invention permet notamment, comme décrit ci-avant, d’améliorer l’intelligibilité des signaux de parole dans les environnements bruités (comme par exemple les habitacles de véhicule ou les zones où se trouvent les usagers des téléphones mobiles intelligents (ou tablettes)). Mais elle permet aussi, et notamment, de convertir une première voix source en une seconde voix cible appartenant à deux personnes différentes, ou bien de convertir le style de voix d’une personne en un autre style de voix de cette même personne (par exemple d’une voix neutre vers une voix heureuse ou d’une voix triste vers une voix énervée).The invention makes it possible in particular, as described above, to improve the intelligibility of speech signals in noisy environments (such as, for example, vehicle interiors or areas where users of smart mobile telephones (or tablets) are located. ). But it also makes it possible, and in particular, to convert a first source voice into a second target voice belonging to two different people, or else to convert the style of voice of a person into another style of voice of this same person (for example from a neutral voice to a happy voice or from a sad voice to an angry voice).

L’invention peut aussi être considérée sous la forme d’un procédé de conversion destiné à permettre la conversion (après une phase d’apprentissage) des signaux de parole source s1 en signaux de parole convertis s2 pour un auditeur.The invention can also be considered in the form of a conversion method intended to allow the conversion (after a learning phase) of the source speech signals s1 into converted speech signals s2 for a listener.

Ce procédé de conversion comprend une étape 10-50 dans laquelle:This conversion process includes a 10-50 step in which:

- on analyse les signaux source s1 pour déterminer des paramètres d’entrée pe et des paramètres inchangés pi, associés à des positions temporelles source pts,- the source signals s1 are analyzed to determine input parameters pe and unchanged parameters pi, associated with source time positions pts,

- on prépare des données pour le modèle d’apprentissage-machine en produisant des caractéristiques d’entrée cen à partir d’au moins les paramètres d’entrée pe,- preparing data for the machine-learning model by producing input characteristics cen from at least the input parameters pe,

- on estime des caractéristiques de sortie estimées cse à partir d’un modèle d’apprentissage-machine prenant comme entrées les caractéristiques d’entrée cen,- estimated output characteristics cse are estimated from a machine-learning model taking as inputs the input characteristics cen,

- on génère des paramètres de sortie estimés pse, et une courbe de modification temporelle estimée cmte, à partir des caractéristiques de sortie estimées cse,- generating estimated output parameters pse, and an estimated temporal modification curve cmte, from the estimated output characteristics cse,

- on modifie les positions temporelles source pts en nouvelles positions temporelles source ptn à partir de cette courbe de modification temporelle estimée cmte, et- the source time positions pts are modified into new source time positions ptn from this estimated time modification curve cmte, and

- on synthétise les signaux convertis s2, destinés à l’auditeur, à partir des paramètres de sortie estimés pse, des paramètres inchangés pi et des nouvelles positions temporelles source ptn.- the converted signals s2, intended for the listener, are synthesized from the estimated output parameters pse, the unchanged parameters pi and the new source time positions ptn.

On a schématiquement illustré sur la figure 4 un exemple d’algorithme mettant en œuvre un procédé de conversion de données selon l’invention.Schematically illustrated in FIG. 4 is an example of an algorithm implementing a data conversion method according to the invention.

Cet algorithme comprend une sous-étape 10 qui débute une fois l’apprentissage du modèle entrainé effectué. Dans cette sous-étape 10 on reçoit des signaux source s1 devant être transformés en signaux convertis s2 pour un auditeur (éventuellement situé dans un environnement bruité défini par des paramètres extérieurs pext (par exemple d’environnement).This algorithm includes a sub-step 10 which begins once the training of the trained model has been carried out. In this sub-step 10, source signals s1 are received to be transformed into converted signals s2 for a listener (possibly located in a noisy environment defined by external parameters pext (for example of environment).

Puis, dans une sous-étape 20, on analyse les signaux source s1 pour déterminer des paramètres d’entrée pe et des paramètres inchangés pi, associés à des positions temporelles source pts.Then, in a sub-step 20, the source signals s1 are analyzed to determine input parameters pe and unchanged parameters pi, associated with source time positions pts.

Puis, dans une sous-étape 25, on prépare les données pour le modèle d’apprentissage-machine en produisant des caractéristiques d’entrée cen à partir d’au moins les paramètres d’entrée pe.Then, in a sub-step 25, the data is prepared for the machine-learning model by producing input characteristics cen from at least the input parameters pe.

Puis, dans une sous-étape 30, on estime des caractéristiques de sortie estimées cse à partir d’un modèle d’apprentissage-machine prenant comme entrées les caractéristiques d’entrée cen et les éventuels paramètres extérieurs pext.Then, in a sub-step 30, estimated output characteristics cse are estimated from a machine-learning model taking as inputs the input characteristics cen and any external parameters pext.

Puis, dans une sous-étape 35, on génère des paramètres de sortie estimés pse et une courbe de modification temporelle estimée cmte, à partir des caractéristiques de sortie estimées cse.Then, in a sub-step 35, estimated output parameters pse and an estimated temporal modification curve cmte are generated from the estimated output characteristics cse.

Puis, dans une sous-étape 40, on modifie les positions temporelles source pts en nouvelles positions temporelles source ptn à partir de cette courbe de modification temporelle estimée cmte.Then, in a sub-step 40, the source time positions pts are modified into new source time positions ptn from this estimated time modification curve cmte.

Puis, dans une sous-étape 50, on synthétise les signaux convertis s2, destinés à l’auditeur, à partir des paramètres de sortie estimés pse, des paramètres inchangés pi et des nouvelles positions temporelles source ptn.Then, in a sub-step 50, the converted signals s2, intended for the listener, are synthesized from the estimated output parameters pse, the unchanged parameters pi and the new source time positions ptn.

On notera qu’une ou plusieurs sous-étapes de l’étape du procédé de conversion peuvent être effectuées par des composants différents. Ainsi, le procédé de conversion de données peut être mis en œuvre par une pluralité de processeurs de signal numérique, mémoire vive, mémoire de masse, interface d’entrée, interface de sortie.It will be noted that one or more sub-steps of the step of the conversion process can be carried out by different components. Thus, the data conversion method can be implemented by a plurality of digital signal processors, random access memory, mass memory, input interface, output interface.

On notera également que l’invention propose aussi un produit programme d’ordinateur (ou programme informatique) comprenant un jeu d’instructions qui, lorsqu’il est exécuté par des moyens de traitement de type circuits électroniques (ou hardware), comme par exemple des processeurs, est propre à mettre en œuvre le procédé de conversion décrit ci-avant pour convertir des signaux de parole source s1 en signaux de parole convertis s2 pour un auditeur.It will also be noted that the invention also proposes a computer program product (or computer program) comprising a set of instructions which, when it is executed by processing means of the electronic circuit (or hardware) type, such as for example processors, is able to implement the conversion method described above to convert source speech signals s1 into converted speech signals s2 for a listener.

Claims

Conversion device (DC) for converting so-called source speech signals (s1) into so-called converted speech signals (s2) for a listener, said device (DC) comprising i) an analyzer (AN) analyzing said source signals (s1) to determine input parameters (pe) and unchanged parameters (pi), associated with source time positions (pts), ii) a pre-processing module (MP) producing input characteristics (cen) from at least said input parameters (pe), iii) an estimator (ES) estimating estimated output characteristics (cse) from a previously trained machine-learning model taking as inputs said input characteristics (cen ), iv) an integration module (MI) generating estimated output parameters from said estimated output characteristics (cse), v) a temporal module (MT) modifying said source time positions (pts) into new source time positions (ptn) from an estimated temporal modification curve (cmte), and vi) a synthesizer (SY) synthesizing said converted signals (s2), intended for said listener, from said unchanged parameters (pi), from said new temporal positions source (ptn), and estimated output parameters (pse), characterized in that said integration module (MI) generates said estimated temporal modification curve (cmte) from said estimated output characteristics (cse).

Device according to Claim 1, characterized in that the said analyzer (AN) analyses, in a learning phase, source speech signals (s3) previously recorded in order to determine input parameters (pe) at source time positions ( pts), and in parallel previously recorded corresponding target speech signals (s4), to determine target parameters (pc) at target time positions (ptc).

Device according to Claim 2, characterized in that it comprises a time alignment module (MAT) estimating, on the one hand, a time alignment path (cat) as a function of the said input parameters (pe) and of the said parameters target (pc), and, on the other hand, target output parameters (psc) projected onto said source time positions (pts) by means of said time alignment path (cat) and said target parameters (pc).

Device according to claim 3, characterized in that said temporal module (MT) calculates, in said learning phase, a target temporal modification curve (cmtc) as a function of at least said temporal alignment path (cat).

Device according to Claim 2 or 3 taken in combination with Claim 4, characterized in that the said pre-processing module (MP) produces, in the said learning phase, input characteristics (cen) from at least the said parameters input characteristics (pe), and target output characteristics (csc) from said target output parameters (psc) and said target time modification curve (cmtc).

Device according to claim 5, characterized in that it comprises a training module (ME) determining, in said learning phase, the parameters of said machine-learning model from said input characteristics (cen) of each of the source speech signals (s3) and said target output characteristics (csc) of the target speech signals (s4) corresponding to them respectively.

Vehicle (V) comprising a wave communication module (MC), a microphone (MI), and at least one loudspeaker (HP), characterized in that it further comprises a conversion device (DC ) according to one of the preceding claims.

Communicating equipment comprising a wave communication module, a microphone, and at least one loudspeaker, characterized in that it further comprises a conversion device (DC) according to one of Claims 1 to 6.

Conversion method for converting so-called source speech signals (s1) into so-called converted speech signals (s2) for a listener, said method comprising a step (10-50) in which i) said source signals (s1) are analyzed for determining input parameters (pe) and unchanged parameters (pi), associated with source time positions (pts), ii) producing input characteristics (cen) from at least said input parameters (pe), iii) estimating estimated output characteristics (cse) from said machine-learning model taking as inputs said input characteristics (cen), iv) generating estimated output parameters from said characteristics estimated output signals (cse), v) modifying said source time positions (pts) into new source time positions (ptn) from an estimated time modification curve (cmte), and vi) synthesizing said converted signals (s2 ), intended for said listener, from estimated output parameters (pse), said unchanged parameters (pi) and said new source time positions (ptn), characterized in that in said step (10-50) said curve of estimated temporal change (cmte) from said estimated output characteristics (cse).

Computer program product comprising a set of instructions which, when executed by processing means, is capable of implementing the conversion method according to claim 9 for converting so-called source speech signals (s1) into so-called converted speech signals (s2) for a listener.