FR3136884A1 - Ultra-low bit rate audio compression - Google Patents
Ultra-low bit rate audio compression Download PDFInfo
- Publication number
- FR3136884A1 FR3136884A1 FR2206478A FR2206478A FR3136884A1 FR 3136884 A1 FR3136884 A1 FR 3136884A1 FR 2206478 A FR2206478 A FR 2206478A FR 2206478 A FR2206478 A FR 2206478A FR 3136884 A1 FR3136884 A1 FR 3136884A1
- Authority
- FR
- France
- Prior art keywords
- vocal
- segment
- voice
- data
- textual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
Compression audio à très bas débit. L'invention concerne un procédé et un dispositif de génération de données textuelles représentatives d’un signal audio comprenant au moins un segment vocal. Il comporte, sur un terminal (DE), les étapes suivantes : - identifier dans le signal audio (S1) au moins un segment vocal contenant au moins une information vocale ;- extraire (S4) du segment vocal au moins une donnée de contexte vocal (LEM), représentative d’une émotion associée à ladite information vocale ;- préparer (S6) une description textuelle dudit segment vocal, comprenant au moins ladite information vocale et ladite donnée de contexte vocal. fig. 4 Very low bit rate audio compression. The invention relates to a method and a device for generating textual data representative of an audio signal comprising at least one voice segment. It comprises, on a terminal (DE), the following steps: - identify in the audio signal (S1) at least one voice segment containing at least one voice information; - extract (S4) from the voice segment at least one voice context data (LEM), representative of an emotion associated with said vocal information; - prepare (S6) a textual description of said vocal segment, comprising at least said vocal information and said vocal context data. fig. 4
Description
L'invention se rapporte de manière générale aux télécommunications, et plus précisément aux communications impliquant une transmission de flux audio comportant des informations vocales. Elle s’applique plus particulièrement à des terminaux équipés de ressources physiques et logicielles incluant un microprocesseur et un module de reconnaissance et synthèse de parole.The invention relates generally to telecommunications, and more specifically to communications involving the transmission of audio streams comprising voice information. It applies more particularly to terminals equipped with physical and software resources including a microprocessor and a speech recognition and synthesis module.
La compression de voix utilise généralement des techniques classiques de compression audio, par exemple MPEG3, AAC, etc. Ces techniques sont aptes à compresser les signaux audio, y compris de parole, avec efficacité. Cependant, elles tiennent peu compte du contenu du signal, notamment de la présence d’informations de parole et des émotions associées à une telle parole, qui permettent une reconstitution fidèle du signal de paroles.Voice compression generally uses traditional audio compression techniques, e.g. MPEG3, AAC, etc. These techniques are capable of compressing audio signals, including speech, effectively. However, they take little account of the content of the signal, in particular the presence of speech information and the emotions associated with such speech, which allow a faithful reconstruction of the speech signal.
Récemment dans ce domaine sont apparues de nouvelles techniques pour associer des émotions à un signal de parole. Elles sont connues sous le nom de « synthèse de voix émotionnelle » (en anglais,Emotional Speech Synthesis, abrégé par la suite en « ESS »). Par exemple, la demande de brevet US 2022/0122580 A1 décrit un système apte à associer une émotion à une voix humaine et à la synthétiser de manière à refléter cette émotion.Recently, new techniques have appeared in this field for associating emotions with a speech signal. They are known as “Emotional Speech Synthesis”, later abbreviated to “ESS”. For example, patent application US 2022/0122580 A1 describes a system capable of associating an emotion with a human voice and of synthesizing it so as to reflect this emotion.
Cependant, aucune de ces techniques ne s’intéresse au codage de telles informations de voix et d’émotion, et à la transmission de telles informations de manière très compacte afin de les transmettre sur un réseau à très bas débit entre un émetteur et un récepteur.However, none of these techniques address the coding of such voice and emotion information, and the transmission of such information in a very compact manner in order to transmit it over a very low bandwidth network between a transmitter and a receiver. .
Une difficulté supplémentaire apparaît lorsqu’un tel signal de parole est accompagné de signaux sonores comme de la musique, des bruits de fond, etc.An additional difficulty arises when such a speech signal is accompanied by sound signals such as music, background noise, etc.
Il existe donc des besoins pour coder et transmettre un signal audio contenant de la parole à très bas débit.There are therefore needs to encode and transmit an audio signal containing speech at very low bit rate.
L'invention vient améliorer l'état de la technique.The invention improves the state of the art.
Elle propose à cet effet un procédé de génération de données textuelles représentatives d’un signal audio comprenant au moins un segment vocal, le procédé étant caractérisé en ce qu’il comporte, sur un terminal dit terminal émetteur, les étapes suivantes :
- identifier dans le signal audio ledit au moins un segment vocal contenant au moins une information vocale ;
- extraire du segment vocal au moins une donnée de contexte vocal, représentative d’une émotion associée à l’information vocale ;
- préparer une description textuelle dudit segment vocal, comprenant au moins ladite information vocale et ladite donnée de contexte vocal ;To this end, it proposes a method for generating textual data representative of an audio signal comprising at least one voice segment, the method being characterized in that it comprises, on a terminal called a transmitter terminal, the following steps:
- identify in the audio signal said at least one voice segment containing at least one voice information;
- extract from the vocal segment at least one piece of vocal context data, representative of an emotion associated with the vocal information;
- prepare a textual description of said voice segment, comprising at least said voice information and said voice context data;
Avantageusement selon l’invention, une description textuelle du signal audio contenant de la parole est effectuée en prenant en compte une information d’émotion associée au contexte vocal. La parole et l’information d’émotion sont représentées et éventuellement encodées sous forme de texte. Il est ainsi possible de stocker ou transmettre cette description textuelle à très bas débit, puisque la représentation d’un texte, ou suite de caractères ASCII, occupe, de manière connue, très peu d’espace en comparaison de données audio, même compressées, sur un support de stockage ou sur un canal de transmission.Advantageously according to the invention, a textual description of the audio signal containing speech is carried out by taking into account emotion information associated with the vocal context. Speech and emotion information are represented and optionally encoded as text. It is thus possible to store or transmit this textual description at very low speed, since the representation of a text, or sequence of ASCII characters, occupies, in a known manner, very little space compared to audio data, even compressed, on a storage medium or on a transmission channel.
Par « signal audio », on entend la représentation d’un son quelconque, sous forme analogique ou numérique, pendant une certaine durée.By “audio signal” we mean the representation of any sound, in analog or digital form, for a certain duration.
Par « segment vocal », on entend une portion du signal audio qui contient une information de parole. Un tel segment peut par exemple correspondre à une durée fixe, ou à une plage de parole se terminant par du silence, etc. Il peut comporter une syllabe, un mot, une phrase ou un ensemble de phrases prononcées par un ou plusieurs locuteurs. Il peut aussi contenir, de surcroît, d’autres informations sonores qui ne sont pas considérées comme de la parole (musique, chanson, bruit d'ambiance, etc.)By “speech segment” we mean a portion of the audio signal which contains speech information. Such a segment can for example correspond to a fixed duration, or to a range of speech ending in silence, etc. It can include a syllable, a word, a sentence or a set of sentences pronounced by one or more speakers. It may also contain, in addition, other sound information which is not considered as speech (music, song, ambient noise, etc.)
Par « émotion », on entend un état du locuteur qui se traduit en variation des caractéristiques du signal audio qui porte sa voix, par exemple la colère, la joie, etc.By “emotion”, we mean a state of the speaker which translates into variation in the characteristics of the audio signal which carries his voice, for example anger, joy, etc.
Par « description textuelle », on entend une description du signal audio sous forme de texte, c’est-à-dire une suite de caractères (lettres, chiffres, caractères spéciaux, symboles, etc.) qui peuvent être représentés par exemple par des codes ASCII.By “textual description”, we mean a description of the audio signal in text form, that is to say a series of characters (letters, numbers, special characters, symbols, etc.) which can be represented for example by ASCII codes.
D’autres données de contexte non spécifiquement émotionnelles (comme l’intensité de la voix) peuvent également faire partie de la description textuelle.Other non-specifically emotional context data (such as voice intensity) may also be part of the textual description.
Selon un mode de mise en œuvre particulier de l'invention, le procédé tel que décrit ci-dessus comporte en outre les étapes d’extraire dudit au moins un segment vocal au moins une donnée de contexte sonore, représentative du contenu sonore du segment vocal, et dans lequel ladite description textuelle comporte en outre ladite donnée de contexte sonore.According to a particular mode of implementation of the invention, the method as described above further comprises the steps of extracting from said at least one vocal segment at least one piece of sound context data, representative of the sound content of the vocal segment , and in which said textual description further comprises said sound context data.
Avantageusement selon ce mode, le segment vocal comprend en outre un contexte sonore, auquel est associée une donnée de contexte sonore. Cette donnée de contexte sonore est également représentée sous forme textuelle. Il peut s’agir d’une description du contenu sonore (par exemple un titre de chanson, de musique) ou d’une adresse du contenu sonore, ladite adresse étant représentée sous forme de texte (par exemple une adresse http). Ainsi, avantageusement, le contenu sonore prend également très peu de place sur le canal de transmission.Advantageously according to this mode, the voice segment further comprises a sound context, with which sound context data is associated. This sound context data is also represented in textual form. It may be a description of the sound content (for example a song or music title) or an address of the sound content, said address being represented in text form (for example an http address). Thus, advantageously, the sound content also takes up very little space on the transmission channel.
Selon un mode de mise en œuvre particulier de l'invention, le signal audio comporte en outre au moins un segment non vocal, et le procédé tel que décrit ci-dessus comporte en outre les étapes suivantes :
- identifier ledit au moins un segment non vocal comportant au moins une donnée de contexte sonore, représentative du contenu non vocal ;
- préparer une description textuelle dudit segment non vocal, comprenant au moins ladite donnée de contexte sonore.According to a particular mode of implementation of the invention, the audio signal further comprises at least one non-vocal segment, and the method as described above further comprises the following steps:
- identify said at least one non-vocal segment comprising at least one sound context data, representative of the non-vocal content;
- prepare a textual description of said non-vocal segment, comprising at least said sound context data.
Avantageusement selon ce mode, le signal comprend des segments non vocaux en plus des segments vocaux. Par « segment non vocal», on entend une portion du signal audio qui ne contient pas une information de parole au sens de la présente description. Un tel segment peut par exemple correspondre à une durée fixe, ou à une plage de musique se terminant par du silence, etc. Il est également préparé avant la transmission sous la forme de données textuelles. Comme expliqué auparavant, il peut s’agir d’une description du contenu sonore (comme un titre de chanson) ou d’une adresse du contenu sonore, ladite adresse étant représentée sous forme de texte (par exemple une adresse http). Ainsi avantageusement le signal audio est représenté sous forme d’une succession de représentations textuelles de segments vocaux et non vocaux, qui prennent très peu de place sur le disque ou le canal de transmission.Advantageously, according to this mode, the signal includes non-vocal segments in addition to the vocal segments. By “non-voice segment” is meant a portion of the audio signal which does not contain speech information within the meaning of this description. Such a segment can for example correspond to a fixed duration, or to a range of music ending in silence, etc. It is also prepared before transmission in the form of textual data. As explained before, it can be a description of the sound content (such as a song title) or an address of the sound content, said address being represented in text form (for example an http address). Thus advantageously the audio signal is represented in the form of a succession of textual representations of vocal and non-vocal segments, which take up very little space on the disk or the transmission channel.
Selon un mode de mise en œuvre particulier de l'invention, la description textuelle est un ensemble de données au format XML ou JSON.According to a particular mode of implementation of the invention, the textual description is a set of data in XML or JSON format.
Avantageusement selon ce mode, un format de texte normalisé est utilisé pour décrire les segments vocaux et non vocaux.Advantageously, in this mode, a standardized text format is used to describe the vocal and non-vocal segments.
Le langage XML (de l'Anglais « eXtended Markup Language») comprend une liste de données sous forme de fragments classiquement décrits entre une balise ouvrante (< >) et une balise fermante </ >. Il présente de nombreux avantages, au nombre desquels il est facile à lire pour une personne comme pour une machine. XML est un standard, et il est structuré (la structure d'un document XML est définie et peut être validée par un schéma), hiérarchique, etc.The XML language (from the English “eXtended Markup Language”) includes a list of data in the form of fragments classically described between an opening tag (< >) and a closing tag </ >. It has many advantages, including being easy to read by both a person and a machine. XML is a standard, and it is structured (the structure of an XML document is defined and can be validated by a schema), hierarchical, etc.
Le langage JSON (JavaScript Objet Notation) est un langage léger d’échange de données textuelles. Il présente également de nombreux avantages. Il offre aussi une plus grande compacité que le XML.The JSON (JavaScript Object Notation) language is a lightweight language for exchanging textual data. It also has many advantages. It also offers greater compactness than XML.
Selon un mode de mise en œuvre particulier de l'invention, la donnée de contexte vocal est générée par un module de classification.According to a particular mode of implementation of the invention, the vocal context data is generated by a classification module.
Avantageusement selon ce mode, un module de classification comme par exemple un réseau de neurones peut être entraîné à reconnaître les émotions portées par la voix d’un locuteur, et à en effectuer par la suite une reconnaissance automatique. Ainsi lorsqu’on présente un segment vocal au classifieur, il en détecte automatiquement une donnée d’émotion associée.Advantageously according to this mode, a classification module such as for example a neural network can be trained to recognize the emotions conveyed by the voice of a speaker, and to subsequently carry out automatic recognition. So when a vocal segment is presented to the classifier, it automatically detects associated emotion data.
Selon un mode de mise en œuvre particulier de l'invention, la description textuelle est transmise sur un réseau.According to a particular mode of implementation of the invention, the textual description is transmitted over a network.
Avantageusement selon ce mode, la description textuelle comprenant uniquement du texte est très bien adaptée à un réseau de transmission puisque, occupant très peu d’espace, elle limite la charge du réseau. Ceci est particulièrement important dans le cas d’un réseau à très bas débit, par exemple un réseau de technologie LORA, permettant de structurer un réseau étendu à basse consommation et bas coût.Advantageously according to this mode, the textual description comprising only text is very well adapted to a transmission network since, occupying very little space, it limits the load of the network. This is particularly important in the case of a very low bandwidth network, for example a LORA technology network, making it possible to structure an extended network at low consumption and low cost.
Selon une variante, la transmission est effectuée sous forme de message SMS.According to one variant, the transmission is carried out in the form of an SMS message.
Avantageusement selon ce mode, les segments vocaux et non vocaux, autrement dit l’ensemble du flux textuel, peuvent être transmis directement sur un canal radio sous forme de SMS, qui sont des messages textuels. Ceci offre de nombreux avantages, dont celui de décharger un réseau mobile entre deux dispositifs, puisque la voix des interlocuteurs utilise le canal SMS avec un débit très faible et non plus le canal traditionnel de la voix.Advantageously, according to this mode, the vocal and non-vocal segments, in other words the entire text stream, can be transmitted directly on a radio channel in the form of SMS, which are text messages. This offers numerous advantages, including that of offloading a mobile network between two devices, since the voice of the interlocutors uses the SMS channel with a very low speed and no longer the traditional voice channel.
On entend par SMS (Short Message Service) un texte envoyé à partir d'un dispositif comme un téléphone mobile vers un autre dispositif. Les terminologies de minimessages ou textos sont aussi utilisées. Le service de messagerie SMS permet de transmettre de courts messages textuels. C'est l'un des services de la téléphonie mobile. Il a été introduit par la norme GSM.SMS (Short Message Service) means a text sent from a device such as a mobile phone to another device. The terminologies of small messages or text messages are also used. The SMS messaging service allows you to transmit short text messages. It is one of the mobile telephony services. It was introduced by the GSM standard.
Selon un mode de mise en œuvre particulier de l'invention, le procédé comporte en outre une phase d’apprentissage, comportant les étapes de :
- recevoir des segments audio d'entraînement comprenant au moins une information vocale ;
- recevoir des données d'étiquetage comprenant au moins une donnée de contexte vocal représentative d’une émotion associée à l’information vocale du segment ;
- adapter un système de détection de contexte vocal sur la base des segments audio d'entraînement et des données d'étiquetage reçus.According to a particular mode of implementation of the invention, the method further comprises a learning phase, comprising the steps of:
- receive training audio segments comprising at least one vocal information;
- receive labeling data comprising at least one vocal context data representative of an emotion associated with the vocal information of the segment;
- adapt a voice context detection system based on the received training audio segments and labeling data.
Avantageusement selon ce mode, un classifieur est entraîné préalablement à la demande d’extraction d’une émotion d’un segment audio. Le classifieur, qui peut être par exemple un réseau de neurones, est ainsi bien entraîné à la voix du locuteur.Advantageously, according to this mode, a classifier is trained prior to the request to extract an emotion from an audio segment. The classifier, which can be for example a neural network, is thus well trained on the voice of the speaker.
Corrélativement, l’invention propose aussi un procédé de génération d’un signal audio à partir d’une description textuelle comprenant au moins un segment vocal, comportant les étapes de :
- extraire de la description textuelle du segment vocal au moins une information vocale et une donnée de contexte vocal représentative d’une émotion associée à l’information vocale ;
- synthétiser le segment vocal à partir desdites information vocale et donnée de contexte vocal au moins.Correlatively, the invention also proposes a method for generating an audio signal from a textual description comprising at least one vocal segment, comprising the steps of:
- extract from the textual description of the vocal segment at least one vocal information and one vocal context data representative of an emotion associated with the vocal information;
- synthesize the voice segment from at least said voice information and voice context data.
Selon un mode de réalisation, le procédé de génération d’un signal audio comporte en outre une étape d’extraire de la description textuelle du segment vocal au moins une donnée de contexte sonore représentative du contenu sonore du segment vocal, et dans lequel synthétiser le segment vocal utilise en outre la donnée de contexte sonore.According to one embodiment, the method of generating an audio signal further comprises a step of extracting from the textual description of the vocal segment at least one sound context data representative of the sound content of the vocal segment, and in which synthesizing the voice segment also uses sound context data.
Selon un aspect matériel, l’invention concerne également un dispositif de génération de données textuelles représentatives d’un signal audio comprenant au moins un segment vocal, le dispositif comprenant une mémoire et un processeur configurés pour :
- identifier dans le signal audio au moins un segment vocal contenant au moins une information vocale ;
- extraire du segment vocal au moins une donnée de contexte vocal, représentative d’une émotion associée à l’information vocale ;
- préparer une description textuelle dudit segment vocal, comprenant au moins ladite information vocale et ladite donnée de contexte vocal.According to a hardware aspect, the invention also relates to a device for generating textual data representative of an audio signal comprising at least one vocal segment, the device comprising a memory and a processor configured to:
- identify in the audio signal at least one voice segment containing at least one voice information;
- extract from the vocal segment at least one piece of vocal context data, representative of an emotion associated with the vocal information;
- prepare a textual description of said voice segment, comprising at least said voice information and said voice context data.
Selon un aspect matériel, l’invention concerne encore un dispositif de génération d’un signal audio à partir d’une description textuelle comprenant au moins un segment vocal, comprenant une mémoire et un processeur configurés pour :
- extraire de la description textuelle du segment vocal au moins une information vocale et une donnée de contexte vocal représentative d’une émotion associée à l’information vocale ;
- synthétiser le segment vocal à partir desdites information vocale et donnée de contexte vocal au moins.According to a hardware aspect, the invention also relates to a device for generating an audio signal from a textual description comprising at least one vocal segment, comprising a memory and a processor configured to:
- extract from the textual description of the vocal segment at least one vocal information and one vocal context data representative of an emotion associated with the vocal information;
- synthesize the voice segment from at least said voice information and voice context data.
L'invention concerne également un système comportant un dispositif de génération de données textuelles représentatives d’un signal audio et un dispositif de génération d’un signal audio à partir d’une description textuelle tels que décrits précédemment, le système étant caractérisé en ce que les données textuelles représentatives du signal audio sont transmises sur un réseau entre le dispositif de génération de données textuelles et le dispositif de génération d’un signal audio.The invention also relates to a system comprising a device for generating textual data representative of an audio signal and a device for generating an audio signal from a textual description as described previously, the system being characterized in that the textual data representative of the audio signal is transmitted over a network between the device for generating textual data and the device for generating an audio signal.
L'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en œuvre de l’un des procédés ci-dessus selon l'un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur. Le procédé peut être mis en œuvre de diverses manières, notamment sous forme câblée ou sous forme logicielle. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.The invention also relates to a computer program comprising instructions for implementing one of the above methods according to any of the particular embodiments described above, when said program is executed by a processor. The method can be implemented in various ways, notably in hardwired form or in software form. This program may use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other desirable shape.
L'invention vise aussi un support d'enregistrement ou support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus. Les supports d'enregistrement mentionnés ci-devant peuvent être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD-ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. D'autre part, les supports d'enregistrement peuvent correspondre à un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Les programmes selon l'invention peuvent être en particulier téléchargés sur un réseau de type Internet.The invention also relates to a recording medium or information medium readable by a computer, and comprising instructions for a computer program as mentioned above. The recording media mentioned above can be any entity or device capable of storing the program. For example, the support may comprise a storage means, such as a ROM, for example a CD-ROM or a microelectronic circuit ROM, or even a magnetic recording means, for example a hard disk. On the other hand, the recording media may correspond to a transmissible medium such as an electrical or optical signal, which may be conveyed via an electrical or optical cable, by radio or by other means. The programs according to the invention can in particular be downloaded on an Internet type network.
Alternativement, les supports d'enregistrement peuvent correspondre à un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.Alternatively, the recording media may correspond to an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
Ces dispositifs et ces programmes d'ordinateur présentent des caractéristiques et avantages analogues à ceux décrits précédemment en relation avec les procédés correspondants.These devices and these computer programs have characteristics and advantages similar to those described above in relation to the corresponding methods.
D’autres caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description suivante de modes de réalisation particuliers, donnés à titre de simples exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :Other characteristics and advantages of the invention will appear more clearly on reading the following description of particular embodiments, given as simple illustrative and non-limiting examples, and the appended drawings, among which:
Description d'un mode de réalisation de l'inventionDescription of an embodiment of the invention
Le principe général de l’invention consiste à transmettre, en lieu et place d’une portion de flux audio comprenant un signal de parole, qui serait compressé par une technique classique, une représentation textuelle du contenu de ce signal, par exemple sous forme de caractères ASCII, comportant notamment la voix de l’utilisateur, ainsi que les émotions associées, et optionnellement des informations relatives à une portion de signal audio non vocal.The general principle of the invention consists of transmitting, instead of a portion of an audio stream comprising a speech signal, which would be compressed by a conventional technique, a textual representation of the content of this signal, for example in the form of ASCII characters, including in particular the user's voice, as well as associated emotions, and optionally information relating to a portion of non-voice audio signal.
La
Selon ce mode de réalisation, un dispositif émetteur, noté DE, capte, analyse et transmet la voix d’un utilisateur à un dispositif récepteur, noté DR, au travers d’un réseau RES. Optionnellement le flux vidéo transmis peut comporter, en plus de la voix de l’utilisateur, des données audio sonores, ou sons, comme un bruit de fond (circulation automobile, chants d’oiseaux, etc.) ou de la musique.According to this embodiment, a transmitter device, denoted DE, captures, analyzes and transmits the voice of a user to a receiver device, denoted DR, through a RES network. Optionally, the transmitted video stream may include, in addition to the user's voice, audio sound data, or sounds, such as background noise (vehicle traffic, birdsong, etc.) or music.
Selon le mode de réalisation présenté, le dispositif émetteur est un terminal mobile (smartphone). Selon d’autres modes de réalisation, il peut prendre la forme d’un autre terminal, par exemple un PC, une tablette, etc.According to the embodiment presented, the transmitter device is a mobile terminal (smartphone). According to other embodiments, it can take the form of another terminal, for example a PC, a tablet, etc.
Selon le mode de réalisation présenté, le dispositif récepteur est un ordinateur portable (PC). Selon d’autres modes de réalisation, il peut prendre la forme d’un autre terminal, par exemple un smartphone, une tablette, etc.According to the embodiment presented, the receiving device is a portable computer (PC). According to other embodiments, it can take the form of another terminal, for example a smartphone, a tablet, etc.
Le réseau RES peut être classiquement un réseau de type mobile (par exemple UMTS, 4G, 5G, etc.), Internet, ou autre. Il peut être de type local ou étendu.The RES network can conventionally be a mobile type network (for example UMTS, 4G, 5G, etc.), Internet, or other. It can be local or extended.
Au niveau du terminal émetteur, responsable de la génération du flux, une captation de la voix de l'utilisateur est réalisée. Il s’agit d’identifier la voix de l’utilisateur, mais aussi ses émotions, son timbre, etc. Le flux entrant est découpé en segments vocaux ou non vocaux. Un moteur de conversion de parole vers texte (en anglais, « Speech To Text », abrégé dans la suite en « STT ») est utilisé, ainsi qu’un moteur d’analyse des émotions. Puis le terminal transmet le flux audio, qui peut contenir uniquement de la parole, ou optionnellement un mélange de voix et d’audio traditionnelle. Les segments de voix sont encodés sous forme de texte. Les informations d’émotions associées sont encodées sous forme de données spécifiques, dites données de contexte vocal, reflétant les émotions associées au segment de parole. Ces données de contexte sont également représentées sous forme de texte. Optionnellement les données traditionnelles correspondant aux segments non vocaux (comme de la musique, des bruits ambiants, etc.), juxtaposés ou superposés à la parole, sont également codées sous forme de texte.At the transmitter terminal, responsible for generating the flow, the user's voice is captured. This involves identifying the user’s voice, but also their emotions, their tone, etc. The incoming stream is divided into voiced or non-voice segments. A speech to text conversion engine (in English, “Speech To Text”, subsequently abbreviated to “STT”) is used, as well as an emotion analysis engine. Then the terminal transmits the audio stream, which can contain only speech, or optionally a mixture of voice and traditional audio. Voice segments are encoded as text. The associated emotion information is encoded in the form of specific data, called voice context data, reflecting the emotions associated with the speech segment. This context data is also represented in text form. Optionally, traditional data corresponding to non-vocal segments (such as music, ambient noise, etc.), juxtaposed or superimposed on speech, are also encoded in text form.
Au niveau du terminal récepteur, le signal est reçu et analysé, puis un segment de voix est synthétisé à partir du texte reçu et d’un modèle apte à reconstruite la voix de l'interlocuteur avec les émotions du signal d'origine. De telles méthodes existent et sont connues sous le nom de « synthèse de voix émotionnelle » (en anglais,Emotional Speech Synthesis, abrégé par la suite en « ESS »). Des informations sonores non vocales peuvent être ajoutées au signal synthétiséAt the receiving terminal, the signal is received and analyzed, then a voice segment is synthesized from the received text and a model capable of reconstructing the voice of the interlocutor with the emotions of the original signal. Such methods exist and are known as " Emotional Speech Synthesis", later abbreviated to "ESS". Non-speech sound information can be added to the synthesized signal
La
Le dispositif DE possède l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM, une unité de traitement équipée par exemple d'un processeur PROC, et pilotée par le programme d'ordinateur PGM stocké en mémoire MEM. À l'initialisation, les instructions de code du programme d'ordinateur PGM sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROC. Le processeur PROC de l'unité de traitement met notamment en œuvre les étapes du procédé de génération de données textuelles selon l'un quelconque de modes particuliers de réalisation décrits en relation avec les figures 4 et 6-8, selon les instructions du programme d'ordinateur PGM.The device DE has the classic architecture of a computer and notably comprises a memory MEM, a processing unit equipped for example with a processor PROC, and controlled by the computer program PGM stored in memory MEM. At initialization, the code instructions of the PGM computer program are, for example, loaded into a memory before being executed by the PROC processor. The processor PROC of the processing unit implements in particular the steps of the method for generating textual data according to any one of the particular embodiments described in relation to Figures 4 and 6-8, according to the instructions of the program d PGM computer.
Le dispositif DE comporte aussi :
- Un module d’acquisition de signaux audio (AUDIO IN) apte à séparer une entrée audio en segments vocaux (contenant de la parole) et en segments non vocaux (son d’ambiance, musique, etc.).
- Un module de traitement de segments vocaux (VOICE) travaillant en association avec un module STT de conversion de parole en texte ;
- Un module EMOT de traitement des émotions de l’utilisateur sur un segment vocal, apte à générer un ou plusieurs labels d’émotion à partir du segment vocal ;
- Un module ENTR d’apprentissage des émotions, par exemple un réseau de neurones, apte à apprendre à associer une émotion à un segment vocal ; le module EMOT correspond à la mise en œuvre de ce module, une fois l’apprentissage terminé.
- Un module de sortie de signaux audio sous forme de texte (TEXT OUT) comportant des données de parole, des données de contexte vocal (représentatives d’une émotion), et optionnellement des données de contexte sonore.
- Un module SOUND de traitement des informations sonores ;
- Une base de données BD comportant par exemple un index, ou un label, associé à chaque émotion (par exemple, « 1 » pour joie, « 2 » pour colère, etc.) connue. Optionnellement, elle peut aussi comporter des caractéristiques prosodiques des signaux associés à une émotion particulière (variations de fréquence, d’intensité, de prononciation, etc. liées à cette émotion).
- An audio signal acquisition module (AUDIO IN) capable of separating an audio input into vocal segments (containing speech) and non-vocal segments (ambient sound, music, etc.).
- A voice segment processing module (VOICE) working in association with an STT speech-to-text conversion module;
- An EMOT module for processing the user's emotions on a vocal segment, capable of generating one or more emotion labels from the vocal segment;
- An ENTR module for learning emotions, for example a neural network, capable of learning to associate an emotion with a vocal segment; the EMOT module corresponds to the implementation of this module, once the learning is completed.
- An audio signal output module in text form (TEXT OUT) comprising speech data, vocal context data (representative of an emotion), and optionally sound context data.
- A SOUND module for processing sound information;
- A BD database comprising, for example, an index, or a label, associated with each known emotion (for example, “1” for joy, “2” for anger, etc.). Optionally, it can also include prosodic characteristics of the signals associated with a particular emotion (variations in frequency, intensity, pronunciation, etc. linked to this emotion).
La
Le dispositif DR possède l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM’, une unité de traitement UT’, équipée par exemple d'un processeur PROC’, et pilotée par le programme d'ordinateur PGM’ stocké en mémoire MEM’. À l'initialisation, les instructions de code du programme d'ordinateur PGM’ sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROC’. Le processeur PROC’ de l'unité de traitement UT’ met notamment en œuvre les étapes du procédé de génération d’un signal audio à partir d’une description textuelle selon l'un quelconque de modes particuliers de réalisation décrits en relation avec les figures 5 ou 8, selon les instructions du programme d'ordinateur PGM’.The device DR has the classic architecture of a computer and notably comprises a memory MEM', a processing unit UT', equipped for example with a processor PROC', and controlled by the computer program PGM' stored in memory SAME'. At initialization, the code instructions of the computer program PGM’ are for example loaded into a memory before being executed by the processor PROC’. The processor PROC' of the processing unit UT' notably implements the steps of the method for generating an audio signal from a textual description according to any one of the particular embodiments described in relation to the figures 5 or 8, according to the instructions of the PGM' computer program.
Le dispositif DR comporte aussi :
- Un module d’acquisition de signaux audio textuels (TEXT IN) apte à séparer une entrée audio textuelle en segments vocaux (comportant de la parole et optionnellement des informations non vocales) et en segments non vocaux (son d’ambiance, musique, etc.).
- Un module de traitement de segments vocaux (VOICE’) travaillant en association avec un module TTS de conversion de texte en parole ;
- Un module EMOT’ de traitement des émotions de l’utilisateur sur un segment vocal, apte à modifier la restitution audio d’un segment vocal par la prise en compte des labels d’émotion associés au segment vocal ;
- Une base de données d’émotions BD’, comprenant des données pour le module EMOT’, par exemple des paramètres prosodiques caractéristiques des signaux associés à une émotion particulière (variations de fréquence, d’intensité, de prononciation, etc.), ou un pointeur sur un réseau de neurones spécifique.
- Un module SOUND’ de traitement des informations sonores ;
- Un module de sortie de signaux audio sous forme audio (AUDIO OUT) apte à restituer des segments audio de parole associés à des émotions et optionnellement des segments audio non vocaux.
- A textual audio signal acquisition module (TEXT IN) capable of separating a textual audio input into vocal segments (comprising speech and optionally non-vocal information) and non-vocal segments (ambient sound, music, etc. ).
- A voice segment processing module (VOICE') working in association with a TTS text-to-speech conversion module;
- An EMOT' module for processing the user's emotions on a vocal segment, capable of modifying the audio restitution of a vocal segment by taking into account the emotion labels associated with the vocal segment;
- An emotion database BD', including data for the EMOT' module, for example prosodic parameters characteristic of signals associated with a particular emotion (variations in frequency, intensity, pronunciation, etc.), or a pointer to a specific neural network.
- A SOUND' module for processing sound information;
- An audio signal output module in audio form (AUDIO OUT) capable of restoring speech audio segments associated with emotions and optionally non-vocal audio segments.
La
Le procédé selon ce mode de réalisation reçoit une entrée vocale sous forme d’un flux audio ; il le sépare en segments audio vocaux et en segments audio non vocaux. Les segments vocaux sont traités de manière à en fournir une représentation textuelle composée de chaînes de caractères correspondant aux paroles de l’utilisateur et de données d’émotion associées. Il encode de cette manière une voix adaptée aux émotions de données d’étiquetage. Les segments vocaux peuvent en outre comporter des informations sonores (non vocales). Les informations non vocales (musique, bruit de fond, d’ambiance, etc.) peuvent également être associées à une description textuelle.The method according to this embodiment receives voice input in the form of an audio stream; it separates it into voice audio segments and non-voice audio segments. The voice segments are processed to provide a textual representation composed of character strings corresponding to the user's words and associated emotion data. In this way, it encodes a voice adapted to the emotions of labeling data. The speech segments may additionally include sound (non-speech) information. Non-vocal information (music, background noise, ambient noise, etc.) can also be associated with a textual description.
Lors d’une étape S0 initiale, il est procédé à l’initialisation de tous les modules nécessaires à la mise en œuvre du procédé, notamment l’entraînement du module EMOT si celui-ci est réalisé sous la forme d’un réseau de neurones, ou le peuplement approprié d’une base d’émotions associées à des enregistrements, etc.During an initial S0 step, all the modules necessary for implementing the method are initialized, in particular the training of the EMOT module if it is produced in the form of a neural network. , or the appropriate population of a base of emotions associated with recordings, etc.
Dans une étape S1, un flux audio est acquis par le module d’acquisition audio (AUDIO IN de la
De manière générale, un segment de parole correspond à des propriétés acoustiques liées au mécanisme de la production vocale du locuteur. Notamment, la parole se caractérise par une structure formantique et non stationnaire qui reflète la résonance du conduit vocal. L’alternance des sons voisés, non voisés et de silence lui permet aussi de se distinguer des propriétés des autres sons. Un segment non vocal inclut en revanche des sons possédant leurs propres caractéristiques, comme du silence, du bruit, de la musique, etc. La musique par exemple est caractérisée par une structure harmonique et stationnaire, un rythme répétitif, une absence de silence.Generally speaking, a speech segment corresponds to acoustic properties linked to the mechanism of the speaker's vocal production. In particular, speech is characterized by a formant and non-stationary structure which reflects the resonance of the vocal tract. The alternation of voiced, unvoiced and silence sounds also allows it to distinguish itself from the properties of other sounds. A non-vocal segment, on the other hand, includes sounds with their own characteristics, such as silence, noise, music, etc. Music, for example, is characterized by a harmonic and stationary structure, a repetitive rhythm, an absence of silence.
Ces notions peuvent naturellement être élargies ou réduites sans perte de généralité : on peut conserver ou non les segments non vocaux de silence, ou de musique, etc. De même un segment vocal peut contenir de la musique superposée à de la parole, ou un bruit ambiant (chants d’oiseaux, bruits de tondeuse, etc.), que l’on peut choisir de traiter (c’est-à-dire d’inclure dans la description textuelle) ou non.These notions can naturally be expanded or reduced without loss of generality: we can retain or not the non-vocal segments of silence, or music, etc. Likewise, a vocal segment may contain music superimposed on speech, or ambient noise (bird songs, mower noises, etc.), which we may choose to process (i.e. to include in the textual description) or not.
Lors d’une étape S2 optionnelle, des informations non vocales sont extraites d’un segment vocal ou non vocal. Selon un mode de réalisation, un segment peut en effet être considéré comme vocal (puisqu’il comporte de la parole) mais comporter aussi du son. Dans ce cas, l’étape S2 peut être appliquée à ce segment. Dans un mode de réalisation, un segment vocal n’a pas de son, l’étape S2 est ignorée. Dans un mode de réalisation, seuls les segments sonores non vocaux sont traités à l’étape S2. Dans un mode de réalisation, le son n’est pas traité, c’est-à-dire que l’étape S2 n’est pas implémentée. Lorsque l’étape S2 est implémentée, elle aboutit à l’extraction d’une information, ou donnée, de contexte sonore, associée au segment, par exemple la description d’un bruit de fond (chants d’oiseaux) ou l’adresse d’un enregistrement sonore. L’étape S3 traite sa représentation textuelle. Les étapes S4, S5 concernent en revanche les informations de parole (VOICE) des segments vocaux, avec ou sans son associé.During an optional step S2, non-voice information is extracted from a voice or non-voice segment. According to one embodiment, a segment can in fact be considered vocal (since it includes speech) but also include sound. In this case, step S2 can be applied to this segment. In one embodiment, a voice segment has no sound, step S2 is skipped. In one embodiment, only the non-vocal sound segments are processed in step S2. In one embodiment, the sound is not processed, that is to say step S2 is not implemented. When step S2 is implemented, it results in the extraction of information, or data, from sound context, associated with the segment, for example the description of a background noise (bird songs) or the address of a sound recording. Step S3 processes its textual representation. Steps S4, S5, however, concern the speech information (VOICE) of the vocal segments, with or without its associated sound.
Dans une étape S4, le codeur soumet le segment vocal à un module de détection des émotions (module EMOT de la
Selon un autre mode de réalisation, une technique simple d’analyse de signal, par exemple l’analyse de la fréquence fondamentale (pitch), de l’intensité, du débit, de l’articulation, etc. de la parole, autrement dit de la prosodie, peut être envisagée : un segment vocal donné est comparé aux caractéristiques qui sont enregistrées dans la base de données BD, et une décision est prise sur la nature de l’émotion convoyée.According to another embodiment, a simple signal analysis technique, for example the analysis of fundamental frequency (pitch), intensity, flow rate, articulation, etc. of speech, in other words prosody, can be considered: a given vocal segment is compared to the characteristics which are recorded in the BD database, and a decision is made on the nature of the emotion conveyed.
Selon un autre mode de réalisation, le segment vocal comporte un mot clé permettant de déduire le label d’émotion (le locuteur dit : « je suis triste et énervé » ; on en déduit deux labels d'émotion correspondant à "tristesse" et "énervement").According to another embodiment, the vocal segment includes a key word making it possible to deduce the emotion label (the speaker says: "I am sad and angry"; two emotion labels corresponding to "sadness" and "are deduced"). annoyance").
À la sortie de cette étape, un ou plusieurs labels d’émotion LEMi sont affectés au segment vocal, comme par exemple 1 pour « joie », N pour « colère », etc. Le label d’émotion correspond à une donnée de contexte vocal.At the end of this step, one or more LEMi emotion labels are assigned to the vocal segment, such as 1 for “joy”, N for “anger”, etc. The emotion label corresponds to vocal context data.
On notera que « émotion » est à prendre ici au sens large. Elle peut être caractéristique de l’intensité du segment de parole, de la rapidité d’élocution, etc. De manière plus générale, il s’agit d’une donnée de contexte représentative du contenu vocal.Note that “emotion” is to be taken here in the broad sense. It can be characteristic of the intensity of the speech segment, the speed of speech, etc. More generally, this is context data representative of the vocal content.
Dans une étape S5, le segment de parole est converti en texte en utilisant un module de conversion de parole en texte (module STT de la
Les étapes S4 et S5 peuvent être parallèles, comme représentées sur la
À l’issue des étapes S4 et S5, le segment de parole est préparé pour le codage, au cours d’une étapeS6. Selon un mode de réalisation, la préparation consiste à générer un texte sous forme de langage XML. Selon un exemple, on utilise un langage de balisage connu qui fournit un moyen standard d’annoter du texte pour la génération de discours synthétiques, proposé par l’organisme W3C, nommé SSML (Speech Synthesis Markup Language (SSML) Version 1.1 - W3C Recommendation 7 September 2010), accessible à l’adresse https://www.w3.org/TR/speech-synthesis11/.At the end of steps S4 and S5, the speech segment is prepared for coding, during a step S6 . According to one embodiment, the preparation consists of generating a text in XML language form. According to one example, a known markup language is used which provides a standard means of annotating text for the generation of synthetic speeches, proposed by the W3C organization, named SSML ( Speech Synthesis Markup Language (SSML) Version 1.1 - W3C Recommendation 7 September 2010 ), available at https://www.w3.org/TR/speech-synthesis11/.
Un exemple d’utilisation d’un tel langage, appliqué au synthétiseur vocal Alexa© de la société Amazon, est reproduit ci-dessous :An example of the use of such a language, applied to the Alexa© voice synthesizer from the Amazon company, is reproduced below:
<speak><speak>
<amazon:emotion name="tristesse" intensity="medium"><amazon:emotion name="sadness" intensity="medium">
Je veux te dire un secret .I want to tell you a secret.
</amazon:emotion></amazon:emotion>
<voice name="Kendra"> I am not a real human </voice><voice name="Kendra"> I am not a real human </voice>
<amazon:emotion name="colère" intensity="high"> Pas possible !</amazon:emotion><amazon:emotion name="anger" intensity="high"> No way!</amazon:emotion>
</speak></speak>
Dans l’exemple ci-dessus, le label d’émotion « tristesse », ou donnée de contexte vocal, est associé au texte qui le suit (« Je veux te dire un secret ») et permet de refléter cette émotion lors de la restitution sonore du segment par le décodeur. Le label « medium » est une autre donnée de contexte vocal, non spécifiquement associé à une émotion, qui permet d’ajuster le niveau sonore lors de la restitution sonore du segment.In the example above, the emotion label “sadness”, or vocal context data, is associated with the text that follows it (“I want to tell you a secret”) and allows this emotion to be reflected during restitution. sound of the segment by the decoder. The “medium” label is another piece of vocal context data, not specifically associated with an emotion, which makes it possible to adjust the sound level during the sound reproduction of the segment.
Lors d’une étape S3, optionnelle, une représentation textuelle d'un son (non vocal) est générée. Un exemple de représentation d’une information sonore est fourni ci-dessous. La balise « src » donne une adresse sous forme d’un URI (Uniform Ressource Identifier), au format http, d’un flux audio comprenant selon cet exemple un enregistrement musical sonore et un enregistrement de chants d’oiseaux. La balise « descr » fournit une description qui peut correspondre à un contenu alternatif dans le cas où la source ne pourrait être jouée (synthèse de chant d’oiseaux, ou énonciation de type « les oiseaux chantent »). La balise « clipBegin » indique le moment d’insertion dans le segment. Le son non vocal peut être inséré par-dessus la voix dès le début du segment, ou plus tard. Il peut aussi avoir un instant de fin d’insertion (clipEnd), un volume sonore pour jouer le son (soundLevel), etc. On pourra se référer à la spécification du W3C précitée qui propose un certain nombre de paramètres possibles. Naturellement, la liste spécifiée dans cette spécification n’est pas limitative.During an optional step S3, a textual representation of a sound (non-vocal) is generated. An example of representation of sound information is provided below. The “src” tag gives an address in the form of a URI (Uniform Resource Identifier), in http format, of an audio stream comprising, in this example, a musical sound recording and a recording of bird songs. The “descr” tag provides a description that can correspond to alternative content in the case where the source cannot be played (synthesis of birdsong, or “the birds are singing” type utterance). The “clipBegin” tag indicates the moment of insertion into the segment. Non-vocal sound can be inserted over the vocals from the beginning of the segment, or later. It can also have an insertion end time (clipEnd), a sound volume to play the sound (soundLevel), etc. We can refer to the aforementioned W3C specification which offers a certain number of possible parameters. Naturally, the list specified in this specification is not exhaustive.
<audio><audio>
<descr="Neuvième symphonie"><descr="Ninth Symphony">
<src="https://www.mybd.com/fr/9th" clipBegin="10s" clipEnd="20s" soundLevel="-6dB"<src="https://www.mybd.com/fr/9th" clipBegin="10s" clipEnd="20s" soundLevel="-6dB"
</ audio ></ audio >
< audio > < descr="oiseaux"> <src="https://www.mybd.com/birds7th"> </ audio >< audio > < descr="birds"> <src="https://www.mybd.com/birds7th"> </ audio >
Selon un autre exemple, l’adresse peut consister en un index pointant sur une base de données connue du côté de l’émetteur et du récepteur. Selon un exemple, il peut s’agir d’une bibliothèque musicale privée de l’utilisateur du dispositif d'émission, connue du dispositif de réception. Selon un exemple, l’adresse formulée peut être destinée à être reconnue par un outil de reconnaissance musicale (par exemple une entrée reconnaissable par Shazam©) :According to another example, the address can consist of an index pointing to a database known on the transmitter and receiver side. According to one example, it may be a private musical library of the user of the transmitting device, known to the receiving device. According to an example, the formulated address may be intended to be recognized by a musical recognition tool (for example an entry recognizable by Shazam©):
< audio > < src ="seven nation army" > </ audio >< audio > < src ="seven nation army" > </ audio >
< audio > < src ="4567345" > </ audio >< audio > < src ="4567345" > </ audio >
……
Naturellement, toute autre description textuelle à la portée de l’homme du métier peut être envisagée. Selon un autre mode de réalisation, on utilise un format de type Json.Naturally, any other textual description within the reach of those skilled in the art can be considered. According to another embodiment, a Json type format is used.
Lors d’une étape S7, les segments sont préparés pour le codage et éventuellement concaténés dans un fichier ou flux textuel unique. Si, lors de l’étape S3 optionnelle, des informations non vocales (sonores) ont été extraites d’un segment vocal ou non vocal, elles sont également insérées dans la représentation textuelle. On peut lors d’une étape S7 effectuer une concaténation des données de contexte vocales et non vocales (sonores) dans un même segment textuel. Plusieurs segments peuvent aussi être concaténés dans la même description (le même « fichier », destiné à être stocké ou transmis) XML. Par exemple, on aboutira à un fichier de balisage décrivant trois segments, comme représentés ci-dessous : le premier contient uniquement de la parole ; le second contient de la parole et du son (la neuvième symphonie, superposée à la parole ) ; le troisième contient uniquement du son (des chants d’oiseaux). Chaque segment est introduit par la balise « segment » selon cet exemple.During a step S7, the segments are prepared for coding and possibly concatenated into a single file or textual stream. If, during the optional step S3, non-voice (sound) information has been extracted from a voice or non-voice segment, it is also inserted into the textual representation. During a step S7, it is possible to carry out a concatenation of the vocal and non-vocal (sound) context data in the same textual segment. Multiple segments can also be concatenated into the same description (the same “file”, intended to be stored or transmitted) XML. For example, you will end up with a markup file describing three segments, as shown below: the first contains only speech; the second contains speech and sound (the ninth symphony, superimposed on speech); the third contains only sound (bird songs). Each segment is introduced by the “segment” tag according to this example.
<segment=1><segment=1>
<speak><speak>
<amazon:emotion name="triste" intensity="medium"><amazon:emotion name="sad" intensity="medium">
Je veux te dire un secret .I want to tell you a secret.
</amazon:emotion></amazon:emotion>
</speak></speak>
</segment></segment>
<segment=2><segment=2>
<voice name="Kendra"><voice name="Kendra">
<amazon:emotion name="colère" > I am not a real human. </amazon:emotion><amazon:emotion name="anger" > I am not a real human. </amazon:emotion>
</voice></voice>
<audio><audio>
<descr="Neuvième symphonie"><descr="Ninth Symphony">
<src="https://www.mybd.com/fr/9th" clipBegin="2s"><src="https://www.mybd.com/fr/9th" clipBegin="2s">
</ audio ></ audio >
</segment></segment>
<segment=3><segment=3>
< audio > < descr="oiseaux"> <src="https://www.mybd.com/birds7th"> </ audio >< audio > < descr="birds"> <src="https://www.mybd.com/birds7th"> </ audio >
</segment></segment>
Enfin, lors d’une étape S8, les données sont codées et transmises sur le canal de communication. Selon un mode de réalisation, les données sont au format XML et codées en ASCII. Selon un mode de réalisation, les données sont compressées en utilisant un outil standard adapté à la compression de telles données, comme par exemple le codage EXI (Efficient Extensible Interchange) du W3C.Finally, during a step S8, the data is coded and transmitted on the communication channel. According to one embodiment, the data is in XML format and encoded in ASCII. According to one embodiment, the data is compressed using a standard tool adapted to the compression of such data, such as for example W3C EXI (Efficient Extensible Interchange) coding.
Selon un mode de réalisation préférentiel, les données sont transmises sur un réseau mobile sous forme de messages de type SMS, adapté au format textuel.According to a preferred embodiment, the data is transmitted over a mobile network in the form of SMS type messages, adapted to text format.
Selon un mode de réalisation, les données sont transmises sur un réseau de type LORA, à très bas débit et longue portée.According to one embodiment, the data is transmitted over a LORA type network, at very low speed and long range.
Selon un mode de réalisation, les données sont stockées dans un fichier.According to one embodiment, the data is stored in a file.
La
Le procédé selon ce mode de réalisation reçoit une entrée sous forme de texte et de données d’étiquetage comprenant des informations émotionnelles associées à un segment vocal, ainsi qu’optionnellement des entrées textuelles associées à des sons non vocaux. Il génère sur cette base un flux audio comportant une voix adaptée aux émotions des données d’étiquetage et optionnellement des données sonores comme des bruits d’ambiance, de la musique, etc. D’autres données non spécifiquement émotionnelles (comme l’intensité de la voix) peuvent également faire partie de la description textuelle.The method according to this embodiment receives input in the form of text and labeling data including emotional information associated with a speech segment, as well as optionally textual inputs associated with non-speech sounds. On this basis, it generates an audio stream including a voice adapted to the emotions of the labeling data and optionally sound data such as ambient noises, music, etc. Other non-specifically emotional data (such as voice intensity) may also be part of the textual description.
Lors d’une étape S10 initiale, il est procédé à l’initialisation de tous les modules nécessaires à la mise en œuvre du procédé.During an initial step S10, all the modules necessary for implementing the process are initialized.
Dans une étape S11, un flux de données textuelles est acquis par le module d’acquisition textuelle (TEXT IN de la
Lors d’une étape S12 optionnelle, des informations non vocales sont extraites d’un segment vocal ou non vocal. Selon un mode de réalisation, un segment peut en effet être considéré comme vocal (puisqu’il comporte de la parole) mais comporter aussi du son. Dans ce cas, l’étape S12 peut être appliquée à ce segment. C’est le cas du segment numéro 2 de l’exemple. Dans un mode de réalisation, si un segment vocal n’a pas de son, l’étape S12 est ignorée. Dans un mode de réalisation, le son n’est pas traité, c’est-à-dire que l’étape S12 n’est pas implémentée. Lorsque l’étape S12 est implémentée, elle aboutit à l’extraction d’une information de contexte sonore associée au segment, par exemple la description d'un bruit de fond (chants d’oiseaux) ou la restitution sonore d’un enregistrement. L’étape S3 traite de sa synthèse audio. Les étapes S14, S15 concernent en revanche les informations de parole (VOICE) des segments vocaux.During an optional step S12, non-voice information is extracted from a voice or non-voice segment. According to one embodiment, a segment can in fact be considered vocal (since it includes speech) but also include sound. In this case, step S12 can be applied to this segment. This is the case for segment number 2 of the example. In one embodiment, if a voice segment has no sound, step S12 is skipped. In one embodiment, the sound is not processed, that is to say, step S12 is not implemented. When step S12 is implemented, it results in the extraction of sound context information associated with the segment, for example the description of background noise (bird songs) or the sound reproduction of a recording. Step S3 deals with its audio synthesis. Steps S14, S15, however, concern the speech information (VOICE) of the vocal segments.
Dans une étape S15, le segment de parole extrait (« Je veux te dire un secret ») est converti en son (ou synthétisé) en utilisant un module de conversion de texte en parole (module TTS de la
Dans une étape S14, s’il détecte un label d’émotion dans le segment, le décodeur soumet le segment vocal à un module de synthèse des émotions (module EMOT’ de la
Le décodeur utilise pour la prise en compte de l’émotion, selon un mode de réalisation, une technique de synthèse de signal basée sur la prosodie, comme présenté dans l’article de Shroeder : «Emotional Speech Synthesis: A Review, EUROSPEECH 2001 Scandinavia, 7th European Conference on Speech Communication and Technology, 2nd INTERSPEECH Event, Aalborg, Denmark, September 3-7, 2001». Une telle modélisation de l’émotion dans la parole repose sur un certain nombre de paramètres prosodiques comme la fréquence fondamentale (pitch), l’intensité, le débit, l’articulation, etc. de la parole : un segment vocal donné est modifié (ou synthétisé) par la prise en compte des paramètres caractéristiques de l’émotion qui sont enregistrés dans la base de données BD’ de la
Selon un autre mode de réalisation, le décodeur utilise un réseau de neurones artificiels, qui été préalablement entraîné à modifier un segment de parole en lui ajoutant une émotion. Dans ce cas, le label d’émotion ainsi que les données synthétisées de parole issues de l’étape S15 sont présentées à l’entrée du réseau de neurones préalablement entraîné selon un format attendu, par exemple un vecteur normalisé de données d’entrée du réseau de neurones. Ces données sont de la même nature que celles utilisées pour l’entrainement. Un exemple d’un tel réseau de neurones est détaillé dans l’article "Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 4784-4788", de H. Tachibana et al. Ce réseau peut être adapté pour prendre en compte en entrée le ou les labels d’émotion. La
Les étapes S14 et S15 peuvent être parallèles, comme représentées sur la
À l’issue des étapes S14 et S15, le segment de parole est préparé pour sa restitution sonore, au cours d’une étape S16. Selon un mode de réalisation, la préparation consiste à générer un segment audio de format normalisé (WAV, MP3, AAC, etc.)At the end of steps S14 and S15, the speech segment is prepared for its sound reproduction, during a step S16. According to one embodiment, the preparation consists of generating an audio segment of standardized format (WAV, MP3, AAC, etc.)
Lors d’une étape S13, optionnelle, les informations sonores non vocales (qui peuvent appartenir à un segment vocal ou non vocal) sont traitées. Dans l'exemple donné plus haut, la balise « audio » permet de détecter une telle information sonore dans les segments 2 et 3. Elle peut prendre, comme discuté auparavant, la valeur d’un URI d’un fichier sonore, ou d’un index pointant sur une base de données connue du côté de l’émetteur et du récepteur, base privée ou moteur de reconnaissance de musique, etc. Optionnellement, une balise (« descr ») fournit une description qui peut correspondre à un contenu alternatif dans le cas où la source ne pourrait être jouée ; il peut y avoir alors une synthèse de chant d’oiseaux, ou une énonciation de type « les oiseaux chantent ».During an optional step S13, the non-voice sound information (which may belong to a voice or non-voice segment) is processed. In the example given above, the “audio” tag makes it possible to detect such sound information in segments 2 and 3. It can take, as discussed previously, the value of a URI of a sound file, or of an index pointing to a database known on the transmitter and receiver side, private database or music recognition engine, etc. Optionally, a tag (“descr”) provides a description that can correspond to alternative content in the event that the source cannot be played; there can then be a synthesis of birdsong, or an utterance such as “the birds are singing”.
Lors d’une étape S17, les segments sont préparés pour la restitution sonore et éventuellement concaténés dans un fichier ou flux audio unique. Si, lors de l’étape S13 optionnelle, des informations non vocales (sonores) ont été extraites d’un segment vocal ou non vocal, elles sont également insérées dans le flux audio. On peut lors d’une étape S17 effectuer une superposition des données audio et vocales (comprenant éventuellement une émotion) dans un même segment audio. Selon l’exemple donné plus haut, on aboutira à un fichier audio comprenant trois segments : le premier contient uniquement de la parole ; le second contient de la parole et du son (la neuvième symphonie, superposée à la parole) ; le troisième contient uniquement du son (des chants d’oiseaux).During a step S17, the segments are prepared for sound reproduction and possibly concatenated into a single audio file or stream. If, during the optional step S13, non-voice (sound) information has been extracted from a voice or non-voice segment, it is also inserted into the audio stream. During a step S17, it is possible to superimpose the audio and vocal data (possibly including an emotion) in the same audio segment. According to the example given above, we will end up with an audio file comprising three segments: the first contains only speech; the second contains speech and sound (the ninth symphony, superimposed on speech); the third contains only sound (bird songs).
Enfin, lors d’une étape S18, les données sont restituées sur un dispositif sonore (AUDIO OUT sur la
La
Il comprend un réseau de neurones artificiels, par exemple de type convolutionnel.It includes an artificial neural network, for example of the convolutional type.
Le réseau de neurones artificiels représenté a été préalablement entraîné pour identifier un label d’émotion parmi un ensemble de labels d’émotions, selon un procédé détaillé à l’appui de la
Une fois le réseau entraîné, il est apte à délivrer en sortie un index, ou label, LEMi, ou donnée de contexte vocal, qui permet d’accéder à une émotion (par exemple : « joie »), ou un ensemble de labels d’émotions (par exemple : « joie » et « pressé »), dans la base de données qui contient les labels d’émotion. Si le réseau a été correctement entraîné, cet index correspond à celui de l’émotion (ou ensemble d’émotions) la plus « proche » de l’émotion véhiculée par la voix de l’utilisateur dans ce segment.Once the network has been trained, it is able to output an index, or label, LEMi, or vocal context data, which allows access to an emotion (for example: “joy”), or a set of labels of emotions (for example: “joy” and “hurried”), in the database which contains the emotion labels. If the network has been correctly trained, this index corresponds to that of the emotion (or set of emotions) closest to the emotion conveyed by the user's voice in this segment.
Selon l’exemple représenté :
- le réseau de neurones comprend une couche d’entrée à laquelle sont présentées les données d’entraînement DEi correspondant au segment vocal à classifier, une couche de sortie et un ou plusieurs couches cachées, chaque couche comprenant une pluralité de nœuds, aussi appelés neurones. Chaque couche cachée, ainsi que la couche de sortie, est associée à une opération mathématique, aussi appelée fonction d’activation, réalisée au niveau de chaque nœud de ladite couche. De plus, chaque nœud d’une couche cachée et de la couche de sortie est « relié » à chaque nœud de la couche précédente par un poids, chaque nœud prenant ainsi en entrée le résultat (ou la valeur, pour la couche d’entrée) de chaque nœud de la couche précédente multiplié par le poids associé, c.-à-d. le poids liant ledit nœud audit nœud de la couche précédente. Dans un tel cas, l’étape S0 de la
/ S20 de la permet de définir le nombre de couches, ainsi que les fonctions d’activation et le nombre de nœuds des couches cachées et de sortie. - Les données d’entraînement DEi (DE1, DE2… DEN) peuvent correspondre à des données audio brutes échantillonnées ou à un ensemble de paramètres du signal audio (paramètres de prosodie comme les variations de hauteur, d’intensité, de durée, etc. du signal de parole) ou encore à une image spectrale du signal (par exemple une image spectrale logarithmique, ou spectrogramme de type MEL, dont les fréquences sont adaptées à un auditeur humain).
- Le réseau de neurones délivre en chaque nœud de la couche de sortie un score de prédiction SCi (SC1, SC2… SCN) correspondant au score d’appartenance à l’émotion i, repérée par son index LEMi (LEM1, LEM2 … LEMN).
- Le réseau de neurones comprend aussi une couche notée « softmax » dont l’un des objectifs, de manière connue, est de normaliser les scores obtenus pour les faire correspondre à des probabilités Pi (P1, P2… PN) d’appartenance au label i, la somme des probabilités d’appartenance étant par exemple égale à 1.
- Lors de l’entraînement, l’index du nœud de sortie associé à l’émotion d’entraînement (qui est connue) doit être le plus proche possible de la probabilité la plus élevée. L’entraînement consiste à raffiner les différents poids associés aux différents neurones des différentes couches pour obtenir une telle probabilité en sortie ; une boucle de retour (aussi appelée rétropropagation) notée ici RETRO, connectée à une fonction de type « softmax », est utilisée à cet effet.
- Enfin le réseau de neurones selon cet exemple comprend un module OHE (pour One Hot Encoding ) qui permet de choisir un index LEMi unique en sortie (typiquement, celui dont la probabilité est la plus élevée).
- the neural network comprises an input layer to which the training data DEi corresponding to the speech segment to be classified are presented, an output layer and one or more hidden layers, each layer comprising a plurality of nodes, also called neurons. Each hidden layer, as well as the output layer, is associated with a mathematical operation, also called activation function, carried out at each node of said layer. In addition, each node of a hidden layer and the output layer is “connected” to each node of the previous layer by a weight, each node thus taking as input the result (or the value, for the input layer ) of each node of the previous layer multiplied by the associated weight, i.e. the weight linking said node to said node of the previous layer. In such a case, step S0 of the
/ S20 of the allows you to define the number of layers, as well as the activation functions and the number of nodes of the hidden and output layers. - The training data DEi (DE 1 , DE 2 … DE N ) can correspond to sampled raw audio data or to a set of parameters of the audio signal (prosody parameters such as variations in pitch, intensity, duration, etc. of the speech signal) or to a spectral image of the signal (for example a logarithmic spectral image, or MEL type spectrogram, whose frequencies are adapted to a human listener).
- The neural network delivers at each node of the output layer a prediction score SCi (SC 1 , SC 2 … SC N ) corresponding to the score of belonging to emotion i, identified by its index LEMi (LEM1, LEM2 … LEMN).
- The neural network also includes a layer denoted “softmax” one of whose objectives, in a known manner, is to normalize the scores obtained to make them correspond to probabilities Pi (P 1 , P 2 … P N ) of membership to label i, the sum of the membership probabilities being for example equal to 1.
- When training, the index of the output node associated with the training emotion (which is known) should be as close as possible to the highest probability. The training consists of refining the different weights associated with the different neurons of the different layers to obtain such a probability as output; a feedback loop (also called backpropagation) denoted here RETRO, connected to a “softmax” type function, is used for this purpose.
- Finally, the neural network according to this example includes an OHE module (for One Hot Encoding) which makes it possible to choose a unique LEMi index at the output (typically, the one with the highest probability).
La
Le réseau de neurones artificiels est entraîné pour identifier un label d’émotion (ou plusieurs) parmi un ensemble d’émotions possibles, plus particulièrement le label est un index d’émotion parmi un ensemble d’index d’émotion. Le label d’émotion correspond à une donnée de contexte vocal.The artificial neural network is trained to identify an emotion label (or several) from a set of possible emotions, more specifically the label is an emotion index from a set of emotion indexes. The emotion label corresponds to vocal context data.
Dans une étape S20, la structure du réseau de neurones RN artificiel est définie. Conformément à l’exemple donné en
Lors d’une étape S21, le procédé obtient des données d’entraînement DEj d’un segment audio, à partir d’un ensemble de segments audio d’entraînement SEGj. Par exemple, l’ensemble d’entraînements comporte N segments d’entraînement, où N prend la valeur 10000, numérotés de 1 à 10000, et correspondant aux émotions EMi de label LEMi avec l’index j compris entre 1 et 10000 et l’index i compris entre 1 et 10 (c'est-à-dire que l'on dispose de 10 labels d'émotion). Des segments audio peuvent être enregistrés ou non en association avec les labels LEMi. En effet, une fois que le réseau est entraîné, selon ce mode de réalisation, il n’est plus nécessaire de disposer des segments audio d’entraînement. Il peut cependant être utile de pouvoir y accéder pour calculer des distorsions, etc. Selon une variante, ils sont supprimés de la base. Selon une autre variante, ils sont supprimés après l’entraînement. Selon une autre variante, ils sont conservés en base. Ces segments audio d’entraînement peuvent être obtenus, sans perte de généralité, à partir d’une base de données, d’un disque dur, d’un accès réseau, de la sortie d’un décodeur, ou en direct à partir du micro d’un locuteur, etc. Selon un mode de réalisation, un terminal de type smartphone est capable d’entraîner à la volée le réseau sur la voix de son utilisateur et celle de ses interlocuteurs pour en dégager les émotions et les synthétiser en même temps que la voix. Comme mentionné préalablement, les segments d'entraînement peuvent correspondre à des séquences audio de durée variable comprenant de la parole. Ils comprennent chacun un ensemble d’échantillons audio.During a step S21, the method obtains training data DEj of an audio segment, from a set of training audio segments SEGj. For example, the training set includes N training segments, where N takes the value 10000, numbered from 1 to 10000, and corresponding to the emotions EMi of label LEMi with the index j between 1 and 10000 and the index i between 1 and 10 (i.e. we have 10 emotion labels). Audio segments may or may not be recorded in association with LEMi labels. Indeed, once the network is trained, according to this embodiment, it is no longer necessary to have the training audio segments. However, it can be useful to be able to access it to calculate distortions, etc. According to one variant, they are deleted from the base. According to another variation, they are removed after training. According to another variant, they are kept in base. These training audio segments can be obtained, without loss of generality, from a database, a hard disk, network access, the output of a decoder, or live from the microphone of a speaker, etc. According to one embodiment, a smartphone type terminal is capable of training the network on the fly on the voice of its user and that of their interlocutors to extract the emotions and synthesize them at the same time as the voice. As mentioned previously, the training segments can correspond to audio sequences of variable duration including speech. They each include a set of audio samples.
Par exemple, un segment audio SEGi comprend 20000 échantillons. Les segments audio d’entraînement peuvent comporter ou non le même nombre d’échantillons. Lors de cette étape S21 le segment audio SEGi est traité de manière à obtenir le premier ensemble de données d’entraînement DEi. Par exemple, le segment audio SEGi est converti en un vecteur donc chaque indice comprend une valeur d’échantillon audio codée sur un nombre de bits prédéfini. Selon un autre exemple, le segment audio SEGi est converti en un vecteur de valeurs caractéristiques (normalisées) comme ses caractéristiques prosodiques (pitch, hauteur de son, débit de parole, etc.). Selon un autre exemple, l’entrée est un spectogramme de type MEL.For example, a SEGi audio segment includes 20,000 samples. Training audio segments may or may not have the same number of samples. During this step S21 the audio segment SEGi is processed so as to obtain the first set of training data DEi. For example, the audio segment SEGi is converted into a vector so each index includes an audio sample value encoded on a predefined number of bits. According to another example, the audio segment SEGi is converted into a vector of (normalized) characteristic values such as its prosodic characteristics (pitch, pitch, speech rate, etc.). According to another example, the input is a MEL type spectogram.
Lors d’une étape S22, l’ensemble de données d’entraînement DEi est appliqué à la première couche du réseau de neurones. Selon le premier exemple précédent, une valeur d’échantillon audio est appliquée à chaque neurone de la couche d’entrée.During a step S22, the training data set DEi is applied to the first layer of the neural network. According to the first previous example, an audio sample value is applied to each neuron in the input layer.
Lors d’une étape S23, les différentes couches du réseau de neurones sont classiquement mises en œuvre (notamment par un enchaînement d’opérations mathématiques au niveau des différentes couches, etc.). Une telle mise en œuvre correspond aux connaissances générales de l’homme du métier, et ne sera pas détaillée ici.During a step S23, the different layers of the neural network are conventionally implemented (in particular by a sequence of mathematical operations at the different layers, etc.). Such an implementation corresponds to the general knowledge of those skilled in the art, and will not be detailed here.
Lors d’une étape S24, le réseau de neurones RN artificiels délivre en sortie un score de prédiction pour chaque neurone de sortie, correspondant à un label d’émotion LEM. Le nombre de nœuds en sortie peut être quelconque, et dans tous les cas inférieur au nombre de segments d’entraînement.During a step S24, the artificial RN neural network outputs a prediction score for each output neuron, corresponding to an LEM emotion label. The number of output nodes can be any, and in all cases less than the number of training segments.
Lors d’une étape S25, la fonction « softmax » (SM) est utilisée pour générer un ensemble de probabilités qui sont appliquées en entrée du module CE.During a step S25, the “softmax” (SM) function is used to generate a set of probabilities which are applied as input to the CE module.
Lors de l’étape S26 le module CE impose la modification d’au moins un poids du réseau de neurones, selon par exemple une méthode de rétropropagation du gradient, de manière à ce que la probabilité maximale corresponde à la valeur attendue, c’est-à-dire la valeur de l’index LEMi du segment audio utilisé pour l’entraînement.During step S26 the CE module imposes the modification of at least one weight of the neural network, for example according to a gradient backpropagation method, so that the maximum probability corresponds to the expected value, this is i.e. the value of the LEMi index of the audio segment used for training.
Ce cycle peut être répété avec d’autres segments audio d’entraînement, ou les mêmes, jusqu’à la fin de l’entraînement du réseau de neurones, par exemple lorsque la précision de la classification (association d’un segment audio à son index LEMi) n’augmente plus. Ce test peut être effectué lors d’une étape S27 optionnelle.This cycle can be repeated with other or the same training audio segments until the end of the training of the neural network, for example when the accuracy of the classification (association of an audio segment to its index LEMi) no longer increases. This test can be carried out during an optional step S27.
Le réseau de neurones RN artificiels entraîné suite à la mise en œuvre du procédé est typiquement stocké dans la mémoire d’un dispositif tel que le dispositif d’émission lui-même, mais peut alternativement être stocké à l’extérieur, par exemple sur une passerelle réseau (« gateway », en terminologie anglo-saxonne), un serveur ou un terminal fixe ou mobile comme un ordinateur personnel, une tablette, une télévision ou un smartphoneThe artificial RN neural network trained following the implementation of the method is typically stored in the memory of a device such as the transmitting device itself, but can alternatively be stored externally, for example on a network gateway (“gateway”, in Anglo-Saxon terminology), a server or a fixed or mobile terminal such as a personal computer, a tablet, a television or a smartphone
La
La base de données BD/BD’ est de préférence remplie par le codeur et exploitée par le décodeur. Selon un autre mode de réalisation, les deux bases peuvent être différentes.The BD/BD’ database is preferably populated by the encoder and used by the decoder. According to another embodiment, the two bases may be different.
La base de données schématisée comprend des émotions (EMi) accessibles par un index, ou clé, ou label, noté LEMi, obtenu au niveau du codeur via la sortie du module EMOT, et au niveau du décodeur via la lecture de la description textuelle reçue. Un label correspond à une donnée de contexte vocal. L’accès à la base de données peut être fait par exemple via une requête de type HTTP. Selon un autre exemple, la base de données correspond à un stockage sur un disque dur. Selon un autre exemple, elle se fait par un index numérique, qui peut prendre toute forme connue (adresse, clé chiffrée ou non, indice, etc.). De manière générale, on appelle index l’élément qui permet d’accéder à l’émotion, et si nécessaire à un jeu de paramètres associés à l’émotion. Deux modes de réalisation sont proposés sur la
Selon un premier mode de réalisation, une première base de données, BD_1, est destinée à être utilisée pour une synthèse vocale émotionnelle de type prosodique. Comme décrit à l’appui de la
- FREQ, qui peut représenter par exemple un écart à la fréquence moyenne, ou pitch, du locuteur sur le segment,
- TEMPO, qui peut représenter une variation de la vitesse d’élocution sur le segment,
- LOUDNESS qui correspond à une atténuation de la voix du locuteur sur le segment.
- FREQ, which can represent for example a deviation from the average frequency, or pitch, of the speaker on the segment,
- TEMPO, which can represent a variation in speaking speed over the segment,
- LOUDNESS which corresponds to an attenuation of the speaker's voice over the segment.
Ainsi, selon l’exemple, l’émotion « joie » est caractérisée par une augmentation de 50% de la fréquence, 30% du tempo et une variation nulle de l’atténuation.Thus, according to the example, the emotion “joy” is characterized by a 50% increase in frequency, 30% in tempo and zero variation in attenuation.
Naturellement, de nombreux autres paramètres sont envisageables et facilement accessibles à l’homme du métier pour caractériser une émotion.Naturally, many other parameters are possible and easily accessible to those skilled in the art to characterize an emotion.
Selon un autre mode de réalisation, on utilise une synthèse émotionnelle basée sur un réseau de neurones tel que décrit dans le papier précité de Tachibana et al. Le réseau de neurones est sélectionné parmi une pluralité de réseaux entraînés chacun par un corpus d’émotions différentes (colonne « RNi » du tableau 2). Par exemple, un réseau de neurones a été entraîné avec le label d’émotion « joie » et correspond à un réseau de neurones spécifique pointé par l’index LEM1 de l’émotion « joie ». Une référence du réseau de neurones RNi est stocké dans la base de données BD_2.According to another embodiment, an emotional synthesis is used based on a neural network as described in the aforementioned paper by Tachibana et al. The neural network is selected from a plurality of networks each trained by a corpus of different emotions (“RNi” column of Table 2). For example, a neural network was trained with the emotion label “joy” and corresponds to a specific neural network pointed to by the LEM1 index of the emotion “joy”. A reference of the RNi neural network is stored in the BD_2 database.
Selon un autre mode de réalisation, on utilise un réseau de neurones unique entrainé pour tous les types d’émotion, dans ce cas la base n’est plus utile.According to another embodiment, a single neural network trained for all types of emotion is used, in this case the base is no longer useful.
Au récepteur (DR), le dispositif d’émotions reçoit en entrée un segment vocal synthétisé et un label d’émotion (1), ou une émotion ( « joie »). Il recherche en base les paramètres (FREQ, TEMPO, etc.) ou le réseau de neurones (RNi) associés à l’émotion et génère en sortie un segment vocal corrigé par l’utilisation de ces paramètres.At the receiver (DR), the emotion device receives as input a synthesized voice segment and an emotion label (1), or an emotion (“joy”). It searches for the parameters (FREQ, TEMPO, etc.) or the neural network (RNi) associated with the emotion and generates as output a vocal segment corrected by the use of these parameters.
À l’émetteur (DE), la base peut être peuplée en utilisant n’importe quelle technique accessible à l’homme du métier : réseau de neurones, analyse statistique d’un corpus de séquences de test, entrée manuelle des caractéristiques à partir d’informations obtenues dans la littérature, etc.At the transmitter (DE), the base can be populated using any technique accessible to those skilled in the art: neural network, statistical analysis of a corpus of test sequences, manual entry of characteristics from information obtained from the literature, etc.
Naturellement, cette base peut être externe aux dispositifs, par exemple elle peut être située dans le réseau (cloud) ou sur un disque dur externe, elle peut être distribuée ou non, etc. du moment que le codeur-émetteur (DE) peut y accéder en écriture, et le décodeur-récepteur (DR) en lecture.Naturally, this base can be external to the devices, for example it can be located in the network (cloud) or on an external hard drive, it can be distributed or not, etc. as long as the encoder-transmitter (DE) can access it for writing, and the decoder-receiver (DR) for reading.
Il va de soi que le mode de réalisation qui a été décrit ci-dessus a été donné à titre purement indicatif et nullement limitatif, et que de nombreuses modifications peuvent être facilement apportées par l’homme de l’art sans pour autant sortir du cadre de l’invention.It goes without saying that the embodiment which has been described above has been given for purely indicative purposes and is in no way limiting, and that numerous modifications can easily be made by those skilled in the art without departing from the scope. of the invention.
Notamment, dans le cas d'une conversation bidirectionnelle, chacun des terminaux DE et DR peut comporter un module de génération de données textuelles et un module de génération d'un signal audio à partir de données textuelles.In particular, in the case of a two-way conversation, each of the terminals DE and DR may include a module for generating textual data and a module for generating an audio signal from textual data.
Claims (15)
- identifier dans le signal audio (S1) ledit au moins un segment vocal contenant au moins une information vocale ;
- extraire (S4) du segment vocal au moins une donnée de contexte vocal (LEMi), représentative d’une émotion associée à l’information vocale ;
- préparer (S6, S7) une description textuelle dudit segment vocal, comprenant au moins ladite information vocale et ladite donnée de contexte vocal.Method for generating textual data representative of an audio signal comprising at least one voice segment (SVC), the method being characterized in that it comprises, on a terminal (DE), the following steps:
- identify in the audio signal (S1) said at least one voice segment containing at least one voice information;
- extract (S4) from the vocal segment at least one vocal context data (LEMi), representative of an emotion associated with the vocal information;
- prepare (S6, S7) a textual description of said voice segment, comprising at least said voice information and said voice context data.
- identifier (S1) ledit au moins un segment non vocal comportant au moins une donnée de contexte sonore, représentative du contenu non vocal ;
- préparer (S2, S7) une description textuelle dudit segment non vocal, comprenant au moins ladite donnée de contexte sonore :Method for generating textual data according to claim 1, in which the audio signal further comprises at least one non-voice segment (SNVC) and the method further comprises:
- identify (S1) said at least one non-vocal segment comprising at least one sound context data, representative of the non-vocal content;
- prepare (S2, S7) a textual description of said non-vocal segment, comprising at least said sound context data:
- recevoir des segments audio d'entraînement (DEi) comprenant au moins une information vocale ;
- recevoir des données d'étiquetage comprenant au moins une donnée de contexte vocal (LEMi) représentative d’une émotion associée à l’information vocale du segment ;
- adapter un système de détection de contexte vocal sur la base des segments audio d'entraînement et des données d'étiquetage reçus.Method for generating textual data according to claim 1, further comprising a learning phase (S0) comprising the steps of:
- receive training audio segments (DEi) comprising at least one voice information;
- receive labeling data comprising at least one vocal context data (LEMi) representative of an emotion associated with the vocal information of the segment;
- adapt a voice context detection system based on the received training audio segments and labeling data.
- identifier dans le signal audio ledit au moins un segment vocal contenant au moins une information vocale ;
- extraire du segment vocal au moins une donnée de contexte vocal, représentative d’une émotion associée à ladite information vocale ;
- préparer une description textuelle dudit segment vocal, comprenant au moins ladite information vocale et ladite donnée de contexte vocal.Device for generating textual data representative of an audio signal comprising at least one vocal segment, the device comprising a memory (MEM) and a processor (PROC) configured to:
- identify in the audio signal said at least one voice segment containing at least one voice information;
- extract from the vocal segment at least one piece of vocal context data, representative of an emotion associated with said vocal information;
- prepare a textual description of said voice segment, comprising at least said voice information and said voice context data.
- extraire (S14) de la description textuelle du segment vocal au moins une information vocale et une donnée de contexte vocal représentative d’une émotion associée à l’information vocale ;
- synthétiser (S15, S16, S17) le segment vocal à partir desdites information vocale et donnée de contexte vocal au moins.Method for generating an audio signal from a textual description comprising at least one vocal segment, comprising the steps of:
- extract (S14) from the textual description of the vocal segment at least one vocal information and one vocal context data representative of an emotion associated with the vocal information;
- synthesize (S15, S16, S17) the voice segment from at least said voice information and voice context data.
- extraire de la description textuelle du segment vocal au moins une information vocale et une donnée de contexte vocal représentative d’une émotion associée à l’information vocale ;
- synthétiser le segment audio à partir desdites information vocale et donnée de contexte vocal au moins.Device for generating an audio signal from a textual description comprising at least one voice segment, comprising a memory (MEM') and a processor (PROC') configured to:
- extract from the textual description of the vocal segment at least one vocal information and one vocal context data representative of an emotion associated with the vocal information;
- synthesize the audio segment from at least said vocal information and vocal context data.
- un dispositif de génération de données textuelles représentatives d’un signal audio selon la revendication 9 ;
- un dispositif de génération d’un signal audio à partir d’une description textuelle d’un segment vocal selon la revendication 12 ;
caractérisé en ce que les données textuelles représentatives d’un segment audio sont transmises sur un réseau entre le dispositif de génération de données textuelles et le dispositif de génération d’un signal audio.System comprising:
- a device for generating textual data representative of an audio signal according to claim 9;
- a device for generating an audio signal from a textual description of a voice segment according to claim 12;
characterized in that the textual data representative of an audio segment are transmitted over a network between the device for generating textual data and the device for generating an audio signal.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR2206478A FR3136884B1 (en) | 2022-06-28 | 2022-06-28 | Very low bitrate audio compression |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR2206478 | 2022-06-28 | ||
| FR2206478A FR3136884B1 (en) | 2022-06-28 | 2022-06-28 | Very low bitrate audio compression |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| FR3136884A1 true FR3136884A1 (en) | 2023-12-22 |
| FR3136884B1 FR3136884B1 (en) | 2025-04-11 |
Family
ID=83690292
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| FR2206478A Active FR3136884B1 (en) | 2022-06-28 | 2022-06-28 | Very low bitrate audio compression |
Country Status (1)
| Country | Link |
|---|---|
| FR (1) | FR3136884B1 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP4679416A1 (en) * | 2024-07-11 | 2026-01-14 | Deutsche Telekom AG | A system and a method for providing voice communication with efficient bandwidth utilization |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001057851A1 (en) * | 2000-02-02 | 2001-08-09 | Famoice Technology Pty Ltd | Speech system |
| US20030002633A1 (en) * | 2001-07-02 | 2003-01-02 | Kredo Thomas J. | Instant messaging using a wireless interface |
| EP1703492A1 (en) * | 2005-03-16 | 2006-09-20 | Research In Motion Limited | System and method for personalised text-to-voice synthesis |
| US20070208569A1 (en) * | 2006-03-03 | 2007-09-06 | Balan Subramanian | Communicating across voice and text channels with emotion preservation |
| US20120327243A1 (en) * | 2010-12-22 | 2012-12-27 | Seyyer, Inc. | Video transmission and sharing over ultra-low bitrate wireless communication channel |
| GB2516942A (en) * | 2013-08-07 | 2015-02-11 | Samsung Electronics Co Ltd | Text to Speech Conversion |
| US20210225357A1 (en) * | 2016-06-13 | 2021-07-22 | Microsoft Technology Licensing, Llc | Intent recognition and emotional text-to-speech learning |
-
2022
- 2022-06-28 FR FR2206478A patent/FR3136884B1/en active Active
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001057851A1 (en) * | 2000-02-02 | 2001-08-09 | Famoice Technology Pty Ltd | Speech system |
| US20030002633A1 (en) * | 2001-07-02 | 2003-01-02 | Kredo Thomas J. | Instant messaging using a wireless interface |
| EP1703492A1 (en) * | 2005-03-16 | 2006-09-20 | Research In Motion Limited | System and method for personalised text-to-voice synthesis |
| US20070208569A1 (en) * | 2006-03-03 | 2007-09-06 | Balan Subramanian | Communicating across voice and text channels with emotion preservation |
| US20120327243A1 (en) * | 2010-12-22 | 2012-12-27 | Seyyer, Inc. | Video transmission and sharing over ultra-low bitrate wireless communication channel |
| GB2516942A (en) * | 2013-08-07 | 2015-02-11 | Samsung Electronics Co Ltd | Text to Speech Conversion |
| US20210225357A1 (en) * | 2016-06-13 | 2021-07-22 | Microsoft Technology Licensing, Llc | Intent recognition and emotional text-to-speech learning |
| US20220122580A1 (en) | 2016-06-13 | 2022-04-21 | Microsoft Technology Licensing, Llc | Intent recognition and emotional text-to-speech learning |
Non-Patent Citations (3)
| Title |
|---|
| H. TACHIBANA: "Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention", 2018 IEEE INTERNATIONAL CONFÉRENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2018, pages 4784 - 4788, XP033401153, DOI: 10.1109/ICASSP.2018.8461829 |
| SHROEDER: "Emotional Speech Synthesis: A Review, EUROSPEECH 2001 Scandinavia", 7TH EUROPEAN CONFÉRENCE ON SPEECH COMMUNICATION AND TECHNOLOGY, 2ND INTERSPEECH EVENT, AALBORG, DENMARK, 3 September 2001 (2001-09-03) |
| SPEECH SYNTHESIS MARKUP LANGUAGE (SSML) VERSION 1.1 - W3C RECOMMENDATION, 7 September 2010 (2010-09-07) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP4679416A1 (en) * | 2024-07-11 | 2026-01-14 | Deutsche Telekom AG | A system and a method for providing voice communication with efficient bandwidth utilization |
Also Published As
| Publication number | Publication date |
|---|---|
| FR3136884B1 (en) | 2025-04-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11361753B2 (en) | System and method for cross-speaker style transfer in text-to-speech and training data generation | |
| KR102514990B1 (en) | Synthesis of speech from text with the speech of the target speaker using neural networks | |
| US7788095B2 (en) | Method and apparatus for fast search in call-center monitoring | |
| US8027836B2 (en) | Phonetic decoding and concatentive speech synthesis | |
| US8386265B2 (en) | Language translation with emotion metadata | |
| US11600261B2 (en) | System and method for cross-speaker style transfer in text-to-speech and training data generation | |
| CN111899719A (en) | Method, apparatus, device and medium for generating audio | |
| WO2022046526A1 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
| TW201214413A (en) | Modification of speech quality in conversations over voice channels | |
| CN117597728A (en) | Personalized and dynamic text-to-speech sound cloning using incompletely trained text-to-speech models | |
| US9196241B2 (en) | Asynchronous communications using messages recorded on handheld devices | |
| KR102626618B1 (en) | Method and system for synthesizing emotional speech based on emotion prediction | |
| US20240304175A1 (en) | Speech modification using accent embeddings | |
| CN121014076A (en) | Systems and methods for neural codec language models for zero-shot text-to-speech synthesis | |
| WO2009071795A1 (en) | Automatic simultaneous interpretation system | |
| Cooper | Text-to-speech synthesis using found data for low-resource languages | |
| US20250006212A1 (en) | Method and apparatus for training speech conversion model, device, and medium | |
| CN114783408B (en) | Audio data processing method, device, computer equipment and medium | |
| Wani et al. | Navigating the soundscape of deception: a comprehensive survey on audio deepfake generation, detection, and future horizons | |
| FR3136884A1 (en) | Ultra-low bit rate audio compression | |
| US12518735B2 (en) | Streaming, lightweight and high-quality device neural TTS system | |
| US12400632B2 (en) | System and method for posthumous dynamic speech synthesis using neural networks and deep learning by generating pixel coordinates using portable network graphic | |
| CN114913866A (en) | Voice conversion method, device, equipment and storage medium | |
| Burke | Speech processing for ip networks: Media resource control protocol (MRCP) | |
| JP2004347732A (en) | Automatic language identification method and apparatus |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PLFP | Fee payment |
Year of fee payment: 2 |
|
| PLSC | Publication of the preliminary search report |
Effective date: 20231222 |
|
| PLFP | Fee payment |
Year of fee payment: 3 |
|
| PLFP | Fee payment |
Year of fee payment: 4 |