FR3100367A1

FR3100367A1 - IT agent with advanced response to a user message

Info

Publication number: FR3100367A1
Application number: FR1909635A
Authority: FR
Inventors: Arnaud Brun; Fabrice Boudin
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2021-03-05

Abstract

L’invention concerne le traitement d’un message (ENR) émis par un utilisateur (UT) par un agent informatique, comportant :- reconnaitre des mots-clés dans le message, - déterminer une réponse au message basée au moins sur les mots-clés reconnus,- détecter en outre au moins une émotion de l’utilisateur dans le message émis, et- adapter la réponse précitée au message de l’utilisateur sur la base en outre de l’émotion détectée Figure de l’abrégé : Figure 1The invention relates to the processing of a message (ENR) sent by a user (UT) by an IT agent, comprising: - recognizing key words in the message, - determining a response to the message based at least on the words - recognized keys, - additionally detecting at least one emotion of the user in the transmitted message, and - adapting the aforementioned response to the user's message on the basis also of the detected emotion Figure of the abstract: Figure 1

Description

Computer agent with advanced response to a user message

La présente divulgation concerne le domaine de l’interaction homme/machine et plus particulièrement un assistant vocal.This disclosure concerns the field of human/machine interaction and more particularly a voice assistant.

On entend par « assistant vocal » un agent informatique dialoguant avec un utilisateur humain (en communication audio ou écrite via un écran tactile ou autre). Grace à des techniques de reconnaissance vocale, l’agent reconnait les mots prononcés par l’utilisateur. En fonction de règles, les mots reconnus déclenchent des actions, telles que par exemple répondre à une question de l’utilisateur (« Quel temps fera-t-il demain ? »), allumer une lumière, etc.“Voice assistant” means a computer agent dialoguing with a human user (in audio or written communication via a touch screen or other). Thanks to voice recognition techniques, the agent recognizes the words spoken by the user. According to rules, the recognized words trigger actions, such as answering a user's question (" What will the weather be like tomorrow ? "), turning on a light, etc.

Les applications des agents conversationnels sont multiples (fourniture de conseils à un client lors d’un achat, d’un service après-vente, d’un guidage d’un voyageur, etc.).The applications of conversational agents are multiple (providing advice to a customer during a purchase, after-sales service, guiding a traveler, etc.).

Ces assistants vocaux (en mode audio) sont constitués d’une enceinte connectée située à portée de l’utilisateur. Cette enceinte contient un haut-parleur et un microphone, et est connecté à un réseau étendu tel qu’internet. Lorsque l’enceinte détecte, en local, un mot clé de démarrage pour commencer l’enregistrement d’une requête de l’utilisateur, l’enceinte active un mode d’enregistrement des phrases prononcées par l’utilisateur. Cet enregistrement est envoyé (par internet) à un serveur distant pour être traité et qu'une réponse soit produite en retour.These voice assistants (in audio mode) consist of a connected speaker located within reach of the user. This speaker contains a loudspeaker and a microphone, and is connected to a wide area network such as the Internet. When the speaker detects, locally, a start keyword to start recording a user request, the speaker activates a mode for recording the sentences spoken by the user. This record is sent (over the internet) to a remote server to be processed and a response produced in return.

Habituellement, un tel serveur ne reconnait que les mots prononcés et ne détecte pas alors une information (qui peut être très pertinente) sur l’humeur courante de l’utilisateur.Usually, such a server only recognizes spoken words and therefore does not detect information (which can be very relevant) about the current mood of the user.

En effet, les assistants vocaux disponibles actuellement ne sont pas capables de s’adapter aux émotions ressenties par leur utilisateur, notamment celles que l’assistant aurait lui-même provoquées.Indeed, the voice assistants currently available are not able to adapt to the emotions felt by their user, in particular those that the assistant himself would have provoked.

Par exemple, les assistants vocaux actuels ne sont pas capables de parler plus doucement à un utilisateur lorsque celui-ci ressent de la peur. Par exemple encore, les assistants vocaux actuels ne sont pas capables de prendre un ton plus enjoué lorsqu’ils s’adressent à un utilisateur joyeux, ou encore de faire de l’humour avec celui-ci (en lui disant une blague par exemple).For example, current voice assistants are not able to speak softer to a user when they feel fear. For example again, current voice assistants are not able to take on a more playful tone when addressing a happy user, or to make humor with it (by telling him a joke for example) .

RésuméSummary

La présente divulgation vient améliorer cette situation.This disclosure improves this situation.

Il est proposé un procédé mis en œuvre par un agent informatique, de traitement d’un message émis par un utilisateur, le procédé comportant :
- reconnaitre des mots-clés dans le message, et
- déterminer une réponse au message basée au moins sur les mots-clés reconnus,
le procédé comportant en outre :
- détecter au moins une émotion de l’utilisateur dans le message émis, et
- adapter ladite réponse au message sur la base de l’émotion détectée.A method implemented by a computer agent, for processing a message transmitted by a user, is proposed, the method comprising:
- recognize keywords in the message, and
- determining a response to the message based at least on the recognized keywords,
the method further comprising:
- detecting at least one emotion of the user in the transmitted message, and
- adapting said response to the message on the basis of the detected emotion.

Ainsi, la présente divulgation propose la mise en œuvre d’un agent informatique (tel qu’un assistant vocal par exemple), qui a la faculté d’être « empathique », et ainsi d’être capable de s’adapter, de façon continue et automatique, aux émotions ressenties par l’utilisateur (ces émotions pouvant changer à tout moment).Thus, the present disclosure proposes the implementation of a computer agent (such as a voice assistant for example), which has the ability to be "empathetic", and thus to be able to adapt, in a way continuous and automatic, to the emotions felt by the user (these emotions can change at any time).

L’émotion peut être détectée dans des mots caractéristiques du message de l’utilisateur. Par exemple, l’agent informatique peut reconnaitre certains mots d’agacement caractérisant une émotion de type colère et/ou peur, et adapter le contenu de la réponse du message à cette détection d’émotion.Emotion can be detected in characteristic words of the user's message. For example, the computer agent can recognize certain words of annoyance characterizing an emotion such as anger and/or fear, and adapt the content of the message response to this emotion detection.

Néanmoins, en complément ou en variante, dans une application notamment où le message est un message vocal, l’émotion peut être détectée en outre sur la base d’au moins un paramètre biométrique mesuré sur l’utilisateur pendant une prononciation du message par l’utilisateur.Nevertheless, in addition or as a variant, in an application in particular where the message is a voice message, the emotion can also be detected on the basis of at least one biometric parameter measured on the user during a pronunciation of the message by the 'user.

Ce paramètre biométrique peut être par exemple une intonation vocale dans le message prononcé par l’utilisateur, une expression faciale, une posture, un flux sanguin particulier de l’utilisateur, ou autre, relevé pendant la prononciation du message.This biometric parameter can be, for example, a voice intonation in the message spoken by the user, a facial expression, a posture, a particular blood flow of the user, or other, noted during the pronunciation of the message.

Par exemple, le message vocal est acquis par au moins un microphone et le paramètre biométrique est au moins une intonation vocale dans le message prononcé par l’utilisateur. Ainsi, un volume vocal plus fort dans le message de l’utilisateur avec par exemple un débit plus rapide peut caractériser de la colère et/ou de la peur. De même, une variation de ton (par exemple plus grave avec un débit plus faible) peut caractériser une émotion courante de tristesse, etc.For example, the voice message is acquired by at least one microphone and the biometric parameter is at least one voice intonation in the message spoken by the user. Thus, a louder voice volume in the user's message with, for example, a faster rate can characterize anger and/or fear. Similarly, a variation in tone (for example more serious with a lower rate) can characterize a common emotion of sadness, etc.

Alternativement ou en complément, le message vocal est acquis par au moins une caméra et le paramètre biométrique est au moins un élément parmi une expression faciale et une posture de l’utilisateur au moment de prononcer le message. Ainsi par exemple, l’analyse de l’expression faciale et/ou de la posture peut venir confirmer l’émotion détectée dans le contenu du message et éventuellement dans l’intonation du message de l’utilisateur.Alternatively or in addition, the voice message is acquired by at least one camera and the biometric parameter is at least one of a facial expression and a posture of the user when speaking the message. Thus, for example, the analysis of facial expression and/or posture can confirm the emotion detected in the content of the message and possibly in the intonation of the user's message.

A titre d’exemples, il est possible de détecter ainsi au moins une émotion parmi la joie, la colère, la tristesse et la peur.For example, it is possible to detect at least one emotion among joy, anger, sadness and fear.

Il est possible en outre d’affecter un score à chaque émotion détectée et l’adaptation de la réponse précitée peut alors être fonction de ce score. Un tel score peut être basé sur des critères choisis (comme présenté dans les tableaux de la description détaillée ci-après) et par évaluation de paramètres choisis comme les variations d’intonation dans la voix, ou dans le volume vocal, ou la rapidité de prononciation des mots par l’utilisateur.It is also possible to assign a score to each emotion detected and the adaptation of the aforementioned response can then be a function of this score. Such a score can be based on selected criteria (as presented in the tables of the detailed description below) and by evaluation of selected parameters such as variations in intonation in the voice, or in the vocal volume, or the speed of pronunciation of words by the user.

Ainsi, la réponse de l’agent informatique au message de l’utilisateur peut être adaptée avec finesse à l’émotion détectée dans le message. Cette adaptation peut être dans la forme de la réponse. Par exemple, si l’agent informatique est un assistant vocal, donc apte à générer un signal audio à diffuser en réponse au message émis, l’adaptation de la réponse sur la base de l’émotion détectée peut comporter par exemple au moins un élément parmi une modulation de volume du signal audio, un choix d’une voix de synthèse parmi plusieurs voix possibles, une intonation vocale particulière, ou encore un débit de phrasé approprié dans le signal audio.Thus, the response of the IT agent to the user's message can be finely adapted to the emotion detected in the message. This adaptation can be in the form of the response. For example, if the computer agent is a voice assistant, therefore capable of generating an audio signal to be broadcast in response to the message transmitted, the adaptation of the response on the basis of the emotion detected can comprise for example at least one element among a volume modulation of the audio signal, a choice of a synthetic voice among several possible voices, a particular voice intonation, or else an appropriate rate of phrasing in the audio signal.

L’adaptation à l’émotion détectée peut être aussi dans le fond-même de la réponse de l’agent informatique. Ainsi par exemple, la réponse sur la base de l’émotion détectée peut comporter au moins un groupe de mots préenregistrés, ajoutés ou non à la réponse en fonction de l’émotion détectée. Il peut s’agir par exemple d’une « blague » préenregistrée dans une base de données et qui peut être jouée si l’utilisateur est détecté comme étant de bonne humeur (la joie étant l’émotion prépondérante).Adaptation to the detected emotion can also be at the very bottom of the computer agent's response. Thus, for example, the response based on the detected emotion may comprise at least one group of pre-recorded words, added or not to the response depending on the detected emotion. It can be for example a "joke" pre-recorded in a database and which can be played if the user is detected to be in a good mood (joy being the predominant emotion).

En complément ou en variante, dans une réalisation où l’agent informatique est configuré pour répondre au message émis selon un choix parmi une pluralité de rubriques d’un menu conversationnel, ce choix peut être fonction à la fois :
- des mots-clés reconnus dans le message émis, et
- de l’émotion de l’utilisateur détectée dans le message émis.In addition or as a variant, in an embodiment where the IT agent is configured to respond to the message sent according to a choice among a plurality of items of a conversational menu, this choice can be a function of both:
- keywords recognized in the message sent, and
- the user's emotion detected in the transmitted message.

Par exemple, un assistant vocal d’un système de navigation n’insiste pas pour obtenir un numéro de rue de destination, s’il est constaté un agacement de l’utilisateur (l’émotion détectée étant la colère) pendant la répétition de la question relative au numéro de rue. Dans ce cas, l’assistant vocal détermine que la destination est « n’importe où » dans cette rue.For example, a voice assistant of a navigation system does not insist on obtaining a destination street number, if annoyance of the user is observed (the detected emotion being anger) during the repetition of the house number question. In this case, the voice assistant determines that the destination is "anywhere" on that street.

La présente divulgation vise aussi un dispositif comportant un circuit de traitement configuré pour la mise en œuvre d’un procédé selon la présente divulgation. Il peut s’agir par exemple d’un dispositif de type enceinte connectée, comportant un module informatique d’assistance vocale (ce module correspondant à l’agent informatique précité) et qui est configuré pour ne pas nécessiter un recours à un serveur distant. Dans ce cas, ce dispositif peut traiter seul en local à la fois le contenu du message de l’utilisateur et la détection de l’émotion présente.The present disclosure also relates to a device comprising a processing circuit configured for the implementation of a method according to the present disclosure. It may be for example a device of the connected speaker type, comprising a voice assistance computer module (this module corresponding to the aforementioned computer agent) and which is configured so as not to require recourse to a remote server. In this case, this device can locally process both the content of the user's message and the detection of the emotion present.

La présente divulgation vise aussi un système pour la mise en œuvre d’un tel procédé et comportant un agent informatique connecté via à un réseau à au moins un serveur, ce serveur comportant un circuit de traitement configuré pour détecter au moins une émotion de l’utilisateur dans le message émis, et adapter la réponse au message de l’utilisateur sur la base en outre de l’émotion détectée. Par exemple, il peut être prévu un premier serveur pour la reconnaissance de mots-clés dans le contenu-même du message et un deuxième serveur en particulier pour la détection des émotions dans le message et l’adaptation de la réponse aux émotions détectées. En outre, ces premier et deuxième serveurs peuvent être regroupés dans un même serveur global.The present disclosure also relates to a system for the implementation of such a method and comprising a computer agent connected via a network to at least one server, this server comprising a processing circuit configured to detect at least one emotion of the user in the transmitted message, and adapting the response to the user's message further based on the detected emotion. For example, a first server can be provided for the recognition of keywords in the content of the message itself and a second server in particular for the detection of emotions in the message and the adaptation of the response to the emotions detected. Furthermore, these first and second servers can be grouped together in the same global server.

Cet agent informatique peut être un assistant vocal (par exemple une enceinte connectée au réseau précité). Néanmoins en variante, il peut s’agir dans d’autres applications d’un agent conversationnel de type « chatbot » par exemple, ou encore d’un répondeur automatique contextuel (téléphonique ou SMS/MMS) qui adaptent leur réponse en fonction d’au moins un paramètres parmi les suivants : l’utilisateur (et ses émotions courantes), le contexte de réception par l’utilisateur (voiture, réunion) (et les émotions qui peuvent être suscitées par un tel contexte), ou autres.This computer agent can be a voice assistant (for example a speaker connected to the aforementioned network). Nevertheless, as a variant, it may be in other applications a conversational agent of the "chatbot" type for example, or even a contextual automatic responder (telephone or SMS/MMS) which adapts their response according to at least one of the following parameters: the user (and his current emotions), the context of reception by the user (car, meeting) (and the emotions which may be aroused by such a context), or others.

La présente divulgation vise aussi un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant, lorsque ces instructions sont exécutées par un processeur d’un circuit de traitement.The present disclosure also relates to a computer program comprising instructions for implementing the method above, when these instructions are executed by a processor of a processing circuit.

Elle vise aussi un support d’enregistrement non-transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé lorsque ce programme est exécuté par un processeur.It also relates to a non-transitory recording medium readable by a computer on which is recorded a program for the implementation of the method when this program is executed by a processor.

D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :Other characteristics, details and advantages will appear on reading the detailed description below, and on analyzing the attached drawings, on which:

Fig. 1Fig. 1

illustre schématiquement un mode de réalisation d’un dispositif agent informatique dans un système pour la mise en œuvre du procédé défini ci-avant. schematically illustrates an embodiment of a computer agent device in a system for implementing the method defined above.

Fig. 2Fig. 2

illustre des étapes du procédé selon un mode de réalisation. illustrates steps of the method according to one embodiment.

Les dessins et la description ci-après contiennent, pour l’essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente divulgation, mais aussi contribuer à sa définition, le cas échéant.The drawings and the description below contain, for the most part, certain elements. They may therefore not only serve to better understand this disclosure, but also contribute to its definition, where applicable.

On se réfère à la figure 1 sur laquelle l’utilisateur UT communique avec un assistant vocal, par exemple sous la forme d’une enceinte connectée EC (ici donc en mode audio). L’utilisateur peut prononcer au moins une phrase ENR alors saisie par un microphone MIC que comporte l’enceinte connectée EC. Cette dernière EC comporte en outre :
- une interface d’entrée IN pour recevoir un signal audio correspondant à la phrase prononcée ENR, cette interface IN étant reliée à
- un processeur PROC coopérant avec une mémoire de travail MEM (pouvant stocker des données d’un programme informatique au sens la présente divulgation) pour la mise en œuvre d’une partie au moins des étapes du procédé défini ci-avant,
- une interface de communication COM avec au moins un serveur SER (via par exemple un réseau étendu RES) afin de transmettre un signal correspondant à la phrase ENR au serveur SER et obtenir en retour une réponse à la phrase ENR qui est appropriée à la fois au contenu de cette phrase mais aussi, au sens de la présente divulgation, à l’émotion courante de l’utilisateur ayant prononcé cette phrase ENR.Reference is made to FIG. 1 in which the user UT communicates with a voice assistant, for example in the form of a connected speaker EC (here therefore in audio mode). The user can pronounce at least one ENR sentence then input by a microphone MIC that includes the connected speaker EC. This last EC also includes:
- an IN input interface for receiving an audio signal corresponding to the spoken sentence ENR, this IN interface being connected to
- a processor PROC cooperating with a working memory MEM (capable of storing data of a computer program within the meaning of the present disclosure) for the implementation of at least part of the steps of the method defined above,
- a communication interface COM with at least one server SER (via for example an extended network RES) in order to transmit a signal corresponding to the sentence ENR to the server SER and to obtain in return a response to the sentence ENR which is appropriate at the same time to the content of this sentence but also, within the meaning of the present disclosure, to the current emotion of the user having pronounced this ENR sentence.

A cet effet, le serveur SER peut mettre en œuvre une détection de cette émotion, ainsi qu’une interrogation d’une base de données BDD de règles appropriées pour répondre à l’émotion détectée.To this end, the server SER can implement a detection of this emotion, as well as an interrogation of a database BDD of appropriate rules to respond to the detected emotion.

Cette réponse appropriée est alors transmise en retour du serveur SER vers l’enceinte connectée et peut être jouée sous la forme d’un signal audio par un haut-parleur HP de l’enceinte, reliée au processeur PROC par une interface OUT de sortie de signal audio.This appropriate response is then transmitted back from the server SER to the connected speaker and can be played in the form of an audio signal by a loudspeaker HP of the speaker, connected to the processor PROC by an output interface OUT of audio signal.

De même le serveur SER peut comporter un circuit de traitement incluant un processeur coopérant avec une mémoire de travail (pouvant stocker des données d’un programme informatique au sens de la présente divulgation) et une interface de communication, via un réseau tel que le réseau étendu RES, avec notamment l’enceinte connectée EC et la base de données précitée BDD.Similarly, the server SER may comprise a processing circuit including a processor cooperating with a working memory (capable of storing data from a computer program within the meaning of the present disclosure) and a communication interface, via a network such as the network extended RES, with in particular the connected speaker EC and the aforementioned database BDD.

Plus généralement, le circuit de traitement (comportant le processeur PROC, la mémoire de travail MEM, etc.) de l’enceinte connectée EC peut être conformé :
- pour traiter le signal du message ENR dans un premier temps pour détecter les émotions présentes dans le message ENR, en local, déterminer les intonations adéquates d’une réponse au message en fonction des émotions détectées, et envoyer en parallèle le message ENR au serveur SER pour que ce dernier renvoie un contenu de réponse approprié au message ENR ;
- ou simplement pour envoyer le signal du message ENR au serveur SER pour que ce dernier traite à la fois le contenu du message ENR et les émotions détectées dans ce message ; dans ce cas, le contenu de la réponse, lui-même, peut tenir compte des émotions détectées dans le message ENR.More generally, the processing circuit (comprising the processor PROC, the working memory MEM, etc.) of the connected speaker EC can be shaped:
- to process the signal of the ENR message initially to detect the emotions present in the ENR message, locally, determine the appropriate intonations of a response to the message according to the emotions detected, and send the ENR message to the server in parallel SER so that the latter returns an appropriate response content to the ENR message;
or simply to send the signal of the message ENR to the server SER so that the latter processes both the content of the message ENR and the emotions detected in this message; in this case, the content of the response, itself, can take account of the emotions detected in the ENR message.

Bien entendu, d’autres réalisations sont encore possibles. Par exemple, si les capacités du circuit de traitement de l’enceinte connectée le permettent, il est possible de traiter en local au niveau de l’enceinte connectée EC à la fois le contenu du message ENR et les émotions présentes.Of course, other realizations are still possible. For example, if the capacities of the processing circuit of the connected speaker allow it, it is possible to process locally at the level of the connected speaker EC both the content of the ENR message and the emotions present.

Les émotions peuvent être détectées de diverses manières :
- par des intonations de voix présentes dans le message ENR,
- par le type-même d’expressions utilisées dans le contenu du message ENR,
- par des données issues d’un ou plusieurs capteurs de signaux autres que le signal audio du message ENR : il peut s’agir par exemple d’expressions faciales de l’utilisateur pendant qu’il prononce son message ENR et qui sont captées par une caméra CAM reliée au processeur PROC et reconnues ainsi par le circuit de traitement PROC, MEM.Emotions can be detected in various ways:
- by voice intonations present in the ENR message,
- by the very type of expressions used in the content of the ENR message,
- by data from one or more signal sensors other than the audio signal of the ENR message: it may be for example facial expressions of the user while he pronounces his ENR message and which are picked up by a camera CAM connected to the processor PROC and thus recognized by the processing circuit PROC, MEM.

En effet, les solutions capables de détecter et d’interpréter les émotions peuvent être de différentes natures, comme détaillé ci-après.Indeed, the solutions capable of detecting and interpreting emotions can be of different types, as detailed below.

Une émotion, telle que la joie, la peur, la colère, la tristesse, se définit comme un ressenti psychophysiologique complexe ayant un début relativement brutal et une durée relativement brève. Il existe aujourd’hui des solutions capables de détecter et d’interpréter les émotions d’un individu en utilisant différentes données, par exemple par analyse :
- des expressions faciales ; et/ou
- des expressions vocales ; et/ou
- de la posture du corps ; et/ou
- des expressions textuelles sans intonation de voix (textes écrits) ; et/ou
- du flux sanguin, de l’activité neuronal ou du cerveau via des méthodes non invasives (à l’aide de capteurs biométriques).An emotion, such as joy, fear, anger, sadness, is defined as a complex psychophysiological feeling having a relatively sudden onset and a relatively short duration. Today there are solutions capable of detecting and interpreting an individual's emotions using different data, for example by analysis:
- facial expressions; and or
- vocal expressions; and or
- body posture; and or
- textual expressions without voice intonation (written texts); and or
- blood flow, neural or brain activity via non-invasive methods (using biometric sensors).

Ces solutions reposent sur des modèles, plus ou moins complexes, cartographiant les émotions humaines. Les modèles les plus simples se contentent de cartographier les quatre émotions considérées comme principales généralement : la peur, la colère, la joie et la tristesse. D’autres modèles, plus complets, comprennent davantage d’émotions en répertoriant quatre émotions dites « primaires » (la peur, la colère, la joie, la tristesse) et en leur associant des mécanismes de mémoire et de réflexion pour ajouter quatre autres émotions dites « secondaires » (la confiance, liée à la joie ; le dégoût, lié à la tristesse ; l'anticipation, liée à la colère ; et la surprise, liée à la peur).These solutions are based on models, more or less complex, mapping human emotions. The simplest models simply map the four emotions generally considered to be primary: fear, anger, joy, and sadness. Other, more comprehensive models include more emotions by listing four so-called "primary" emotions (fear, anger, joy, sadness) and combining them with memory and thinking mechanisms to add four more emotions say "secondary" (confidence, related to joy; disgust, related to sadness; anticipation, related to anger; and surprise, related to fear).

On se réfère maintenant à la figure 2 sur laquelle, au cours d’une première étape S1, un message tel qu’une phrase prononcée ENR par l’utilisateur UT est acquise par le microphone MIC, en tant qu’enregistrement de signal audio destiné à être traité pour son contenu et les émotions présentes dans le message. Parallèlement, il est possible en outre d’acquérir des données biométriques de l’utilisateur pendant qu’il prononce la phrase, par exemple à l’aide d’une caméra CAM filmant les expressions faciales de l’utilisateur ou encore sa posture, ou autres, à l’étape S2. Avantageusement, ces signaux sont acquis à une horodate d’acquisition HR qui est conservée en mémoire, pour s’assurer d’une bonne correspondance entre le contenu du message à un instant donné et l’expression de l’émotion détectée à ce même instant.Reference is now made to FIG. 2 in which, during a first step S1, a message such as a sentence pronounced ENR by the user UT is acquired by the microphone MIC, as an audio signal recording intended to be treated for its content and the emotions present in the message. At the same time, it is also possible to acquire biometric data from the user while he pronounces the sentence, for example using a CAM camera filming the user's facial expressions or even his posture, or others, in step S2. Advantageously, these signals are acquired at an acquisition timestamp HR which is stored in memory, to ensure a good correspondence between the content of the message at a given instant and the expression of the emotion detected at this same instant. .

A l’étape S3, une ou plusieurs émotions sont détectées, avec une détermination possible de scores respectifs liés à des émotions de base comme présenté dans les tableaux ci-après, et ce à des horodates successives HR. Il est recherché ensuite, à l’étape S4, une manière dont l’assistant vocal peut répondre à cette émotion en modulant par exemple la tonalité vocale de la réponse à donner au message, et/ou le débit du phrasé de la réponse, ou autre. A cet effet, l’enceinte connectée EC peut se référer (éventuellement via un serveur associé) à la base de données BDD, précitée, des émotions et des règles de réponse à ces émotions. A titre d’exemples non limitatifs, le contenu de la base de données BDD peut lier les émotions détectées dans le message de l’utilisateur (lorsque celui-ci interagit avec l’assistant vocal), ainsi que les intensités respectives de celles-ci, à des paramètres de réglage du signal audio que produit l’assistant vocal pour mettre en œuvre des personnalisations correspondantes de l’assistant vocal en réponse aux émotions détectées, comme suit:At step S3, one or more emotions are detected, with a possible determination of respective scores linked to basic emotions as presented in the tables below, and this at successive timestamps HR. It is then sought, in step S4, a way in which the voice assistant can respond to this emotion by modulating for example the vocal tone of the response to be given to the message, and/or the rate of the phrasing of the response, or other. For this purpose, the connected speaker EC can refer (possibly via an associated server) to the aforementioned BDD database of emotions and response rules to these emotions. By way of non-limiting examples, the content of the BDD database can link the emotions detected in the user's message (when the latter interacts with the voice assistant), as well as the respective intensities of these , to tuning parameters of the audio signal that the voice assistant produces to implement corresponding personalizations of the voice assistant in response to the detected emotions, as follows:

Emotion détectée
(peur, colère, joie ou tristesse)Emotion detected
(fear, anger, joy or sadness) Intensité de l’émotion détectée
[1, 5]Intensity of the emotion detected
[1, 5] Règles de personnalisation de l’assistant vocalVoice assistant personalization rules PeurFear < ou = 3< or = 3 Tonalité : normale
Rapidité : normale
Volume : normalTone: normal
Speed: normal
Volume: standard PeurFear > 3> 3 Tonalité : enjouée
Rapidité : voix lente
Volume : normalTone: cheerful
Speed: slow voice
Volume: standard ColèreAnger < ou = 4< or = 4 Tonalité : normale
Rapidité : normale
Volume : faibleTone: normal
Speed: normal
Volume: low ColèreAnger > 4> 4 Tonalité : normale
Rapidité : voix lente
Volume : faibleTone: normal
Speed: slow voice
Volume: low JoieJoy …… …
Insertion d’un groupement prédéterminé de mots (type blague, etc.)…
Insertion of a predetermined grouping of words (joke type, etc.) TristesseSadness …… …… …… …… ……

Des règles de personnalisation de l’assistant vocal (disponibles sur la base de données BDD), pour une réponse appropriée à un message, peuvent en effet s’appuyer sur une tonalité adaptée du signal audio de réponse (par exemple voix féminine, plutôt que masculine), une rapidité du débit du phrasé dans la réponse, un volume adapté du signal audio de réponse, et/ou autres.Voice assistant personalization rules (available on the BDD database), for an appropriate response to a message, can indeed be based on an adapted tone of the audio response signal (for example female voice, rather than male), rapid rate of phrasing in the response, appropriate volume of the response audio signal, and/or others.

Des règles plus complexes définissant la personnalisation de l’assistant vocal selon les quatre émotions de base détectées (joie, colère, tristesse, peur) peuvent être prévues comme présenté dans l’exemple ci-après d’une détection simultanée de deux émotions de base dans la voix de l’utilisateur :More complex rules defining the personalization of the voice assistant according to the four basic emotions detected (joy, anger, sadness, fear) can be provided as presented in the example below of a simultaneous detection of two basic emotions in the voice of the user:

Emotion détectée #1
(peur, colère, joie ou tristesse)Emotion detected #1
(fear, anger, joy or sadness) Intensité de l’émotion #1
[1, 5]Intensity of emotion #1
[1, 5] Emotion détectée #2
(peur, colère, joie ou tristesse)Emotion detected #2
(fear, anger, joy or sadness) Intensité de l’émotion #2
[1, 5]Intensity of emotion #2
[1, 5] Personnalisation de l’assistant vocalVoice Assistant Customization PeurFear > 4> 4 ColèreAnger > 4> 4 Tonalité : enjouée
Rapidité : voix lente
Volume : faibleTone: cheerful
Speed: slow voice
Volume: low PeurFear > 4> 4 TristesseSadness > 3> 3 Tonalité : enjouée
Rapidité : voix rapide
Volume : normalTone: cheerful
Speed: fast voice
Volume: standard …… …… …… …… ……

En référence à nouveau à la figure 2, une fois que les règles de personnalisation de l’assistant vocal sont ainsi définies à l’étape S5 pour une réponse appropriée aux émotions présentes dans le message ENR, le message est joué à l’étape S6 par le haut-parleur HP de l’enceinte connectée EC, avec des modulations de signal audio choisies, personnalisant ainsi la réponse de l’assistant vocal aux émotions détectées dans le message ENR.Referring again to Figure 2, once the voice assistant personalization rules are thus defined in step S5 for an appropriate response to the emotions present in the ENR message, the message is played in step S6 by the loudspeaker HP of the connected speaker EC, with selected audio signal modulations, thus personalizing the voice assistant's response to the emotions detected in the REC message.

La présente divulgation permet ainsi de mettre en œuvre un assistant vocal « empathique », c’est-à-dire capable de s’adapter, de façon continue et automatique, aux émotions ressenties par l’utilisateur. Ainsi, au fur et à mesure de l’évolution des émotions ressenties par l’utilisateur, l’assistant vocal peut, par exemple, changer la tonalité de la voix de synthèse utilisée ou encore le volume de celle-ci. L’expérience de l’utilisateur est ainsi plus sensible et vraiment personnalisée. D’autres règles plus complexes peuvent être suggérées, comme un apprentissage et une adaptation à très court terme, si l’assistant constate que sa personnalisation renforce au contraire la première émotion détectée (par exemple la voix de synthèse utilisée par l’assistant vocal, en réponse à la première émotion détectée qui est la colère, amène à une augmentation de la colère : la personnalisation propose alors une personnalisation différente prédéfinie).The present disclosure thus makes it possible to implement an "empathetic" voice assistant, that is to say capable of adapting, in a continuous and automatic way, to the emotions felt by the user. Thus, as the emotions felt by the user evolve, the voice assistant can, for example, change the tone of the synthetic voice used or even the volume thereof. The user experience is thus more sensitive and truly personalized. Other more complex rules can be suggested, such as very short-term learning and adaptation, if the assistant notices that his personalization on the contrary reinforces the first emotion detected (for example the synthetic voice used by the voice assistant, in response to the first emotion detected which is anger, leads to an increase in anger: the personalization then offers a different predefined personalization).

Bien entendu, la présente divulgation ne se limite pas aux formes de réalisation décrites ci-avant à titre d’exemple ; elle s’étend à d’autres variantes.Of course, this disclosure is not limited to the embodiments described above by way of example; it extends to other variants.

Ainsi, on a décrit par exemple ci-avant en référence à la figure 1 un serveur unique mais bien entendu, il peut être prévu plusieurs serveurs :
- un serveur pour la reconnaissance de contenu du message d’une part (et la réponse factuelle à y donner) ;
- et un serveur distinct pour la reconnaissance des émotions présentes dans le message d’autre part (et l’intonation appropriée de la réponse à y donner).Thus, for example, a single server has been described above with reference to FIG. 1, but of course several servers can be provided:
- a server for recognizing the content of the message on the one hand (and the factual response to be given);
- and a separate server for the recognition of the emotions present in the message on the other hand (and the appropriate intonation of the response to be given).

Par ailleurs, dans l’exemple illustré précédemment, l’intensité des émotions est évaluée en affectant un score d’intensité correspondant à un entier compris entre 1 et 5 dans les tableaux ci-avant (la valeur « 1 » correspondant à l’intensité la plus faible et la valeur « 5 » correspondant à l’intensité la plus forte). Toutefois, une plus grande finesse de détection peut permettre d’avoir une échelle par exemple entre 1 et 7 (voire jusqu’à 10).Furthermore, in the example illustrated above, the intensity of the emotions is evaluated by assigning an intensity score corresponding to an integer between 1 and 5 in the tables above (the value "1" corresponding to the intensity the weakest and the value "5" corresponding to the strongest intensity). However, a greater fineness of detection can make it possible to have a scale for example between 1 and 7 (even up to 10).

Les règles de personnalisation de l’assistant vocal peuvent être prédéfinies par un opérateur de l’assistant vocal et/ou sont également modifiables par l’utilisateur par apprentissage de ses émotions et réactions.The voice assistant personalization rules can be predefined by a voice assistant operator and/or are also modifiable by the user by learning their emotions and reactions.

La personnalisation de l’assistant vocal peut consister, comme indiqué précédemment, en la modification de la voix de synthèse utilisée par l’assistant vocal dans son interaction avec l’utilisateur et en particulier :
- une utilisation d’une voix de synthèse masculine ou féminine ;
- une modification de la tonalité et/ou les harmonies de la voix de synthèse (par exemple en utilisant une tonalité normale, une tonalité enjouée, ou une tonalité triste, ou encore utiliser une voix chantée, mélodieuse ou à l’inverse dissonante) ;
- une modification de la rapidité de la voix de synthèse (par exemple : utiliser une voix normale, une voix lente, ou une voix rapide) ;
- une modulation du volume sonore de la voix de synthèse (par exemple : utiliser un volume normal, un volume élevé, ou un volume faible).The personalization of the voice assistant can consist, as indicated previously, in the modification of the synthetic voice used by the voice assistant in its interaction with the user and in particular:
- use of a male or female synthesized voice;
- a modification of the tone and/or the harmonies of the synthesized voice (for example by using a normal tone, a playful tone, or a sad tone, or even using a sung, melodious or conversely dissonant voice);
- a modification of the speed of the synthetic voice (for example: using a normal voice, a slow voice, or a fast voice);
- a modulation of the sound volume of the synthesized voice (for example: use a normal volume, a high volume, or a low volume).

Néanmoins, d’autres moyens de personnaliser l’assistant vocal sont possibles, comme par exemple :
- ordonner à l’assistant vocal de ne plus « parler » à l’utilisateur ou de cesser de présenter systématiquement les mêmes rubriques de son menu ;
- ordonner à l’assistant vocal de faire de l’humour avec l’utilisateur : par exemple jouer de manière aléatoire au cours de l’échange avec l’utilisateur une « blague » préenregistrée (un enregistrement sonore disponible sur le serveur SER ou sur la base de données connectée BDD ou dans la mémoire MEM) ;
- modifier une couleur de lampe de l’enceinte connectée (par exemple la couleur du halo lumineux émis par l’enceinte connectée) ;
- afficher des émoji (pictogrammes) sur un écran que comporte l’enceinte connectée ;
- ordonner à l’assistant vocal de recommander à l’utilisateur des contenus (de musiques, de films, etc.) spécifiques (par exemple recommander des contenus identifiés comme étant plus « joyeux » à un utilisateur dont la ressentant de la tristesse des contenus identifiés comme état « joyeux » ;
- ordonner à l’assistant vocal de suggérer à l’utilisateur des activités particulières (inviter un ami disponible ce soir, etc.) et une règle prédéfinie permet ainsi de suggérer à un utilisateur ressentant de la colère d’inviter un ami ou autre.However, other ways to customize the voice assistant are possible, such as:
- order the voice assistant to stop "talking" to the user or to stop systematically presenting the same items in its menu;
- order the voice assistant to play humor with the user: for example, play a pre-recorded "joke" randomly during the exchange with the user (a sound recording available on the SER server or on the connected database BDD or in the memory MEM);
- modify a lamp color of the connected speaker (for example the color of the luminous halo emitted by the connected speaker);
- display emoji (pictograms) on a screen on the connected speaker;
- order the voice assistant to recommend specific content (music, films, etc.) to the user (for example, recommend content identified as being more "joyful" to a user whose content is sad identified as a “joyful” state;
- order the voice assistant to suggest particular activities to the user (invite a friend who is available this evening, etc.) and a predefined rule thus makes it possible to suggest to a user feeling angry to invite a friend or other.

Claims

Method implemented by a computer agent, for processing a message transmitted by a user, the method comprising:
- recognize keywords in the message, and
- determining a response to the message based at least on the recognized keywords,
the method further comprising:
- detecting at least one emotion of the user in the transmitted message, and
- adapting said response to the message on the basis of the detected emotion.

A method according to claim 1, wherein the emotion is detected in characteristic words of the user's message.

Method according to one of Claims 1 and 2, in which the message is a voice message and the emotion is detected on the basis of at least one biometric parameter measured on the user during a pronunciation of the message by the user.

A method according to claim 3, wherein the biometric parameter is at least one of voice intonation in the message spoken by the user, facial expression, posture, and blood flow of the user, while speaking the message .

A method according to claim 4, wherein the voice message is acquired by at least one microphone and the biometric parameter is at least one voice intonation in the message spoken by the user.

Method according to one of Claims 4 and 5, in which the voice message is acquired by at least one camera and the biometric parameter is at least one of a facial expression and a posture of the user at the time of pronouncing the message.

Method according to claim 6, in which a score is assigned to each emotion detected and the adaptation of said response is a function of said score.

Method according to one of the preceding claims, in which the computer agent is a voice assistant capable of generating an audio signal to be broadcast in response to the message transmitted and the adaptation of the response on the basis of the detected emotion comprises at least one element among a volume modulation of the audio signal, a choice of a synthetic voice among several possible voices, a voice intonation, a rate of phrasing in the audio signal.

Method according to one of the preceding claims, in which the response based on the detected emotion comprises at least one group of pre-recorded words, added or not to the response depending on the detected emotion.

Method according to one of the preceding claims, in which, the IT agent being configured to respond to the message sent according to a choice from among a plurality of items of a conversational menu, said choice is a function of both:
- keywords recognized in the message sent, and
- the user's emotion detected in the transmitted message.

Device comprising a processing circuit configured for implementing the method according to one of the preceding claims.

System for implementing the method according to one of Claims 1 to 11 comprising a computer agent connected via a network to at least one server, the server comprising a processing circuit configured to detect at least one emotion of the user in the transmitted message, and tailoring said response to the message further based on the detected emotion.

System according to the preceding claim, in which the IT agent is a voice assistant.

Computer program comprising instructions for implementing the method according to one of Claims 1 to 11, when said instructions are executed by a processor of a processing circuit.

Non-transitory recording medium readable by a computer on which is recorded a program for implementing the method according to one of Claims 1 to 11 when this program is executed by a processor.