FR3099844A1

FR3099844A1 - Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio

Info

Publication number: FR3099844A1
Application number: FR1909119A
Authority: FR
Inventors: Jérôme VERITE
Original assignee: Do You Dream Up
Current assignee: Do You Dream Up
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2021-02-12
Anticipated expiration: 2039-08-09
Also published as: FR3099844B1

Abstract

Dispositif de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel entre ledit dispositif et un utilisateur, le dispositif prononçant des paroles avec un certain débit Dc, et l’utilisateur ayant également un certain débit de paroles, le procédé de traitement comportant les étapes suivantes : échantillonnage de plusieurs interactions verbales se succédant (I1, I2, I3,…, IN) entre l’utilisateur et le callbot ; pour chaque interaction, calcul d’un indicateur Yj (Y1, Y2, Y3, …) représentatif d’un niveau de débit de paroles pour ladite interaction, dit niveau de débit par interaction ; calcul pour l’échantillonnage d’un indicateur Dti, (Dt1, Dt2,…), représentatif du niveau de débit de paroles de l’utilisateur à un instant ti et dit niveau de débit de paroles de l’utilisateur, à partir de la pluralité de niveaux de débit par interaction Yj calculés pour l’échantillonnage ; comparaison en continu du niveau de débit de paroles d’un échantillonnage Dti avec le niveau de débit de paroles d’un échantillonnage précédent, de préférence avec l’échantillonnage précédent Dti-1 ; modification éventuelle du débit de paroles du dispositif Dc en fonction du résultat de la comparaison de deux niveaux de débit de paroles. Figure pour l’abrégé : figure 2

Description

Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio

L’invention concerne le domaine des conversations automatisées, et plus particulièrement des agents ou assistants conversationnels vocaux, nommés encore en anglais « callbot », qui sont des robots permettant de dialoguer oralement en langage naturel avec un utilisateur.

Un callbot est un dispositif conversationnel automatisé permettant de dialoguer avec un individu / un utilisateur qui en émettant une phrase en langage naturel au callbot, obtient une réponse automatisée vocale après reconnaissance automatisée de la phrase de l’utilisateur et synthèse vocale de la réponse à apporter.

Si les moyens informatiques et électroniques de traitement de ces dispositifs, en particulier les microprocesseurs actuels, permettent de répondre en temps réel/instantanément à l’utilisateur, ces dispositifs présentent encore quelques inconvénients. L’un des inconvénients est le manque de fiabilité de la compréhension de la phrase de l’utilisateur en raison de son rythme de voix qui est parfois bien trop rapide ou bien alors hachée ; en particulier lorsque l’utilisateur fait une pause dans sa phrase, le dispositif peut considérer que la phrase est terminée et ne prend pas en compte le reste de la phrase, ou alors le dispositif présente une difficulté de compréhension, ce qui engendrera une réponse totalement erronée, ou encore le dispositif prendra un temps de compréhension, qu’on nomme aussi temps d’affinage de la phrase prononcée par l’utilisateur, qui sera bien trop long par rapport au délai de réponse attendu par un utilisateur.

Enfin, les robots sont programmés pour répondre avec un débit donné de paroles, or cela peut être déroutant pour un individu qui par exemple s’exprime très lentement ; en effet, lorsque l’interlocuteur de l’individu est au contraire une personne physique, cet interlocuteur répondra au fur et à mesure de la conversation ou même dès le départ, instinctivement avec un débit plus lent qu’à son habitude, pour être sûr que ledit individu puisse comprendre ses paroles, ce que ne font pas du tout les robots qui gardent leur rythme de paroles tel que préprogrammé.

L’invention a donc pour but de pallier les inconvénients précités en fournissant à un dispositif conversationnel automatisé en langage naturel et vocal (callbot), un procédé de traitement automatisé du langage naturel dudit dispositif, qui permette de répondre vocalement avec un débit de paroles adapté à la compréhension de l’utilisateur, et cela en temps réel.

Selon l’invention, le procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel entre ledit dispositif et un utilisateur, le dispositif prononçant des paroles avec un certain débit Dc, et l’utilisateur ayant également un certain débit de paroles, comporte les étapes suivantes : échantillonnage de plusieurs interactions verbales se succédant entre l’utilisateur et le callbot ; pour chaque interaction, calcul d’un indicateur représentatif d’un niveau de débit de paroles Y_jpour ladite interaction, dit « niveau de débit par interaction » ; calcul pour l’échantillonnage d’un indicateur Dt_i, représentatif du niveau de débit de paroles de l’utilisateur à un instant t_iet dit niveau de débit de paroles de l’utilisateur, à partir de la pluralité de niveaux de débit par interaction Y_jcalculés pour l’échantillonnage ;comparaison en continu du niveau de débit de paroles d’un échantillonnage Dt_iavec le niveau de débit de paroles d’un échantillonnage précédent, de préférence avec l’échantillonnage précédent Dt_i-1; modification éventuelle (augmentation ou diminution) du débit de paroles du dispositif Dc en fonction du résultat de la comparaison de deux niveaux de débit de paroles. La modification du débit de paroles du dispositif Dc est faite en temps réel au cours de la conversation, la conversation étant une succession d’une multiplicité d’interactions.

Ainsi, le procédé de traitement de l’invention permet d’identifier le débit de paroles de l’utilisateur et d’adapter si besoin le débit de paroles du dispositif conversationnel, et cela de manière automatisée et en temps réel. Le dispositif conversationnel qui présente un débit Dc au début de la conversation pourra voir son débit augmenter ou diminuer en fonction du débit de paroles de l’utilisateur. Un tel procédé présente en particulier l’avantage, par exemple pour une personne parlant lentement de s’adapter à son rythme de parole (qui est plus lent que le débit initial du dispositif conversationnel) afin que l’utilisateur puisse bien comprendre ce qui lui est dit. Au cours de la conversation, le dispositif pourra si besoin ré-augmenter son débit. De même, dès le début d’une conversation (et donc du traitement), le débit du dispositif peut être augmenté si le procédé identifie un débit de paroles de l’utilisateur plus rapide que le débit initial du dispositif.

Selon une caractéristique, pour chaque interaction, le calcul du niveau de débit par interaction Y_jest réalisé à partir de la mesure d’au moins trois paramètres que sont : le temps de réaction qui est le temps mis par l’utilisateur à débuter son élocution suite à la fin de l’élocution du dispositif, le nombre de silences, et la durée de chaque silence.

A partir des trois paramètres ci-dessus calculés, le procédé de traitement calcule le niveau de débit Y_jpour une interaction. Ce calcul est élaboré à partir de coefficients de pondération a, b et c, attribués à chacun des paramètres et d’une formule mathématique qui est à titre d’exemple nullement limitatif pour une interaction Y_j:

La valeur des coefficients de pondération a, b et c sera en particulier adaptée en fonction de la nature des conversations liées au domaine d’activité du callbot. Par exemple, ces coefficients pour un callbot dans le domaine de l’assurance pour déclarer un sinistre automobile seront différents pour un callbot dans le domaine des retraites, domaine pour lequel les réponses faites par l’utilisateur seront de nature différentes, plus complexes, impliquant par exemple un nombre de silences plus important, un temps de réaction plus long. Ces coefficients a, b et c seront établis de manière empirique après l’étude de plusieurs conversations sur un même sujet ou dans un même domaine d’activité.

Le calcul du niveau de débit Y_jest réalisé en temps réel au cours de la conversation et pour chaque interaction.

Dans une variante, le calcul de la valeur de niveau de débit par interaction Y_jcomporte des paramètres supplémentaires que sont le nombre de moments parlés durant une interaction, et/ou la durée des moments parlés durant une interaction, et/ou le nombre de syllabes prononcées par moment parlé.

De préférence, le niveau de débit de paroles d’un échantillonnage Dt_iest égal à la moyenne des valeurs de niveau de débit par interaction Y_jcalculées pour ledit échantillonnage.

Dans une variante, le calcul du niveau de débit de paroles de l’utilisateur par échantillonnage Dt_iest effectué à partir d’une étape intermédiaire de calcul de la moyenne des temps de réaction sur l’échantillonnage.

De préférence, la modification du débit de paroles du dispositif Dc est bornée entre deux valeurs de débit basse et haute.

Selon une autre caractéristique, le procédé comporte une étape d’évaluation en continu du niveau sonore en dB sur chaque échantillonnage, et de comparaison par rapport à une valeur de seuil de sorte à déterminer les silences en particulier la fin de l’élocution de l’utilisateur pour une interaction étant identifiée par le niveau sonore situé en-dessous de la valeur de seuil et par la durée supérieure à une durée de référence pour ce niveau sonore situé en-dessous de la valeur de seuil, et/ou par la reconnaissance du format de paroles attendu par le dispositif. Quant aux moments parlés, ils sont identifiés par le niveau sonore situé au-dessus de la valeur de seuil et par la durée supérieure à une durée de référence pour ce niveau sonore situé au-dessus de la valeur de seuil, ce qui permet par ailleurs d’identifier des bruits ambiants forts que le dispositif pourrait entendre en particulier pendant des silences.

Avantageusement, le procédé comporte une étape d’évaluation du niveau sonore des moments parlés par l’utilisateur et/ou du niveau sonore du bruit ambiant (environnement de l’utilisateur), et en fonction du résultat, le procédé comporte une étape d’adaptation éventuelle du niveau sonore des paroles du dispositif conversationnel.

De préférence, l’échantillonnage du procédé de traitement est d’une dizaine ou de quelques dizaines de millisecondes.

Enfin, l’invention est relative à un produit programme d’ordinateur stocké sur un support lisible par ordinateur, tablette ou smartphone, et/ou exécutable par un microprocesseur, caractérisé en ce qu’il comprend des instructions de code de programme pour la mise en œuvre du procédé précité de l’invention de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel.

La présente invention est maintenant décrite à l’aide d’un exemple uniquement illustratif et nullement limitatif de la portée de l’invention, et des figures.

ou figure 1 illustre une interaction entre un dispositif conversationnel vocal et un utilisateur, qui schématise la décomposition des signaux vocaux sur l’interaction en une multiplicité de blocs de données.

ou figure 2 schématise les principales étapes du procédé de traitement de l’invention en vue d’adapter si besoin le débit de paroles du dispositif conversationnel vocal.

Un dispositif conversationnel automatisé en langage naturel et vocal, un callbot, comprend des moyens de traitement électroniques, associés à au moins une base de données comprenant des bibliothèques d’exemples de phrases et de réponses, et des moyens de traitement informatiques à partir d’algorithmes de reconnaissance vocale, de compréhension de phrases et de génération de réponses, ainsi que d’un algorithme de synthèse vocale pour émettre vocalement les réponses.

Le callbot est donc apte à recevoir des données vocales en langage naturel, des phrases prononcées par un utilisateur, à traiter de manière automatisée ces données, pour formuler une réponse vocale en langage naturel.

L’invention ne concerne pas en tant que tel le procédé de reconnaissance et de compréhension en langage naturel des phrases prononcées par l’utilisateur, ni le procédé de formulation des réponses après reconnaissance.

Le procédé de traitement de l’invention a pour but dans une conversation entre un callbot et un utilisateur, d’une part, d’identifier le débit de paroles de l’utilisateur, et d’autre part, en fonction du débit identifié de manière automatisée, d’adapter si besoin, de manière automatisée, le débit de paroles en réponse dudit callbot. Le procédé est mis en en œuvre par des moyens de traitement électroniques et informatiques, tels qu’au moins un microprocesseur et un ou plusieurs algorithmes, qui sont ajoutés aux moyens usuels de traitement et de fonctionnement d’un callbot.

Dans la suite de la description, on entend par « réponse » du callbot, la phrase/l’information vocale qui est prononcée par le callbot. Cette phrase/cette information vocale peut aussi bien être grammaticalement une question, qu’une réponse.

La conversation entre le callbot et l’utilisateur comprend plusieurs interactions.

On entend par « interaction », une réponse du callbot suivie d’une ou plusieurs phrases prononcées par l’utilisateur qui s’arrête de parler pour attendre la prochaine réponse du callbot. La prochaine réponse du callbot initie une nouvelle interaction.

Dans une interaction, l’utilisateur peut ne prononcer qu’une seule phrase d’une seule traite, ou bien plusieurs phrases, en s’arrêtant momentanément de parler entre deux phrases, en raison soit d’un fort bruit ambiant, nommé ci-après « Bruit fort », soit d’un silence de l’individu, nommé ci-après « Silence ».

Ci-après est donnée à titre d’exemple une conversation comprenant N interactions :
-Interaction 1:
- Callbot : « bonjour, comment puis-je vous aider ? » ;
- Utilisateur : « Comment ? » / Bruit fort, par exemple un bruit de klaxon / « Je ne comprends pas » / Silence / « Pouvez-vous répéter ? ».
-Interaction 2:
- Callbot : « bonjour, comment puis-je vous aider ? » ;
- Utilisateur : « Je viens d’avoir un accident » / Silence / « Je veux déclarer le sinistre ».
-Interaction 3:
- Callbot : « Quel est votre nom ? » ;
- Utilisateur : « Martin ».
-Interaction 4:
- Callbot : « Quel est le modèle de votre voiture? » ;
- Utilisateur : « Modèle A ».
-Interaction 5:
- Callbot : « pouvez-vous me confirmer le numéro de votre plaque d’immatriculation » ;
- Utilisateur : « C’est BB » / Silence/ « 123 » / Silence / « BB ».
-Interaction 6:
- Callbot : « pouvez-vous me préciser la nature de votre accident ? » ;
- Utilisateur : « Il s’agit d’une collision avec un véhicule ».

La conversation se poursuit jusqu’à la Nième interaction :
-Interaction N:
- Callbot : « Nous vous envoyons un taxi qui sera là dans trente minutes. »
- Utilisateur : « Merci ».

Le procédé de traitement de l’invention analyse au fur et à mesure de la conversation le débit de paroles de l’utilisateur. Le débit de paroles Dt_iest calculé par échantillonnage à l’instant t_ipour un nombre donné n d’interactions. L’échantillonnage se fait sur n interactions durant toute la conversation, c’est-à-dire sur les 1 à N interactions. Ce débit de paroles est calculé de manière glissante durant toute la conversation.

Le nombre n d’interactions pour l’échantillonnage, pris à titre d’exemple nullement limitatif, est de trois.

Par exemple, de l’interaction 1 à l’interaction 3, le débit de paroles Dt₁sera d’une certaine valeur, puis pourra être différent pour les trois prochaines interactions, et à nouveau différent pour trois autres interactions un peu plus loin dans la conversation. En fonction de la valeur de débit Dt₁calculé à l’instant t₁après les trois premières interactions, la réponse effectuée par le callbot à l’interaction 5 (« pouvez-vous me confirmer le numéro de votre plaque d’immatriculation »), sera effectuée avec un débit du callbot Dc qui pourra être différent du débit de la réponse des précédentes interactions ou du débit initial du callbot ; le nouveau débit Dc du callbot sera modifié pour par exemple être égal au débit Dt₂calculé de l’utilisateur après le deuxième échantillonnage. Puis, à un instant t_isupérieur à l’instant t₂si le débit de paroles de l’utilisateur est encore différent, par exemple a ralenti, le callbot répondra encore avec un autre débit, par exemple reprendra un débit qui était celui initial du callbot au début de la conversation, ou un autre débit, etc.

Si usuellement un débit de paroles est calculé en fonction du nombre de syllabes prononcées par seconde par un individu, le procédé de l’invention propose une autre méthode de calcul, en utilisant de nouveaux paramètres qui en combinaison seront représentatifs du débit de paroles de l’individu à un instant t. En outre, le procédé de l’invention d’identification du débit de paroles de l’utilisateur est appliqué à un callbot, ce qui jusque-là n’avait jamais été mis en œuvre, afin que le callbot à son tour adapte son débit de paroles.

A noter que dans une variante, le procédé n’exclut pas d’intégrer dans le calcul du débit, en particulier par interaction, le nombre de syllabes en sus des nouveaux paramètres qui sont décrits ci-après.

Le procédé de traitement de l’invention comporte en particulier les étapes suivantes :
- échantillonnage de plusieurs interactions (n interactions) se succédant entre l’utilisateur et le callbot,
- pour chaque interaction, mesure d’au moins trois paramètres que sont : le temps de réaction qui est le temps mis par l’utilisateur à prononcer la première phrase suite à la réponse du callbot, le nombre de silences, et la durée de chaque silence ;
- pour chaque interaction, calcul d’un nouveau paramètre/indicateur représentatif d’un niveau de débit de paroles pour ladite interaction, dit « niveau de débit par interaction », et référencé Y_j (avec j allant de 1 à n) à partir des trois paramètres précités que sont le temps de réaction, le nombre de silences, et la durée de chaque silence ; et
- calcul d’un niveau de débit de paroles pour l’échantillonnage, référencé Dt_i, et représentatif du débit de paroles de l’utilisateur à un instant t_iaprès n interactions, à partir de la pluralité de niveaux de débit Y_jpar interaction calculés pour l’échantillonnage.

L’échantillonnage est donc réalisé sur plusieurs interactions (n interactions). L’échantillonnage (nombre d’interactions considérées) dépendra notamment du type d’utilisation du callbot. L’échantillonnage sera relatif à au moins deux interactions, et de préférence inférieur à dix interactions.

A noter que le paramètre « temps de réaction » constitue un moment de silence de l’utilisateur. Toutefois, le paramètre « durée de silence » n’inclut pas le temps de réaction.

Avantageusement, le procédé de traitement pour calculer le niveau de débit pour un échantillonnage, est glissant, c’est-à-dire que le calcul du niveau de débit est réalisé de façon continue tout le temps de la conversation, en utilisant à chaque calcul un ensemble d’interactions dans lequel une nouvelle interaction remplace la plus ancienne interaction. Ainsi, pour les 1 à n interactions, le calcul du débit sera Dt_ià l’instant t_i; et à l’instant t_i+1, le débit Dt_i+1sera calculé pour les interactions de 2 à n+1.

De manière connue, un signal audio est une information composée d’une multiplicité d’échantillons ou de blocs de données, chaque bloc de données correspondant à un poids donné en octets et correspondant à une durée ; par exemple un bloc de données de 256 ko correspond à une durée de 16 ms.

Par conséquent, une interaction au sens de l’invention, est décomposée en une multiplicité d’échantillons de données sous la forme, comme illustré sur la figure 1 de barres de données. La figure 1 illustre pour l’interaction 1 de la conversation ci-dessus la décomposition des données en une multiplicité de barres de données. Chaque barre est de même poids ou durée. Chaque barre dure ici 16 ms. Chaque barre présente un certain niveau sonore représenté par la hauteur de la barre par rapport à une valeur seuil de niveau sonore. La valeur seuil de niveau sonore est par exemple 38 dB ou 40 dB. Cette valeur seuil est schématisée sur la figure 1 par le trait horizontal continu sur le diagramme de l’utilisateur.

Chaque interaction peut présenter un nombre total distinct de barres de données car de durée totale différente.

Afin de faciliter la compréhension du schéma de la figure 1, il a été représenté en dessous des barres de l’utilisateur, et au-dessus des barres du callbot, des carrés/des blocs de même largeur que celle des barres pour mieux visualiser les paramètres à mesurer, que sont le temps de réaction, les moments de silence et en contrepartie les temps de paroles (moments parlés), ainsi que le nombre de silences.

La détermination d’un silence et d’un temps de parole (moment parlé) est effectuée par la détection du niveau sonore, et par la comparaison du niveau sonore mesuré à la valeur seuil. Lorsque le niveau sonore d’une barre est inférieur à la valeur seuil, cela correspond à du silence et donc que l’utilisateur ne parle pas. Lorsque le niveau sonore d’un bloc est supérieur à la valeur seuil, cela correspond à de la parole.

Pour l’interaction 1 précitée entre le callbot et l’utilisateur, le callbot émet une réponse (« bonjour, comment puis-je vous aider »), tandis que l’utilisateur après un temps de réaction, émet une phrase 1 (« Comment ça ? ») et une deuxième phrase 2 (« Je ne comprends pas ») entrecoupées par un bruit fort de klaxon, et enfin l’utilisateur prononce une troisième phrase 3 (« Pouvez-vous répéter ? »), précédée et suivie d’un silence. Le temps de réaction, chaque silence, et chaque moment parlé (une phrase) comprend une pluralité de blocs de données (de barres), chacun des blocs d’une durée identique, ici de 16 ms.

Le calcul de la durée du temps de réaction et de la durée d’un silence, s’effectue en calculant le nombre de blocs pour respectivement, le temps de réaction, et chaque silence. De même, comme il sera vu plus loin dans une variante, le niveau de débit par interaction peut être calculé à partir d’un paramètre supplémentaire qui est le temps durant lequel l’utilisateur parle (qu’on nomme ci-après « temps de parole » ou « moment parlé »).

Sur la figure 1, les carrés/blocs blancs correspondent aux silences ou dits encore moments silencieux (les barres étant en-dessous du niveau sonore de seuil), les blocs en grisé correspondent à des moments parlés (les barres étant au-dessus du niveau sonore de seuil), et les blocs avec croix (uniquement pour l’utilisateur) correspondent au temps de réaction qui est certes un moment de silence mais constitue dans le calcul du niveau de débit par interaction, un paramètre distinct.

Le temps de réaction correspond au nombre de blocs séparant la fin de la réponse du callbot dans l’échantillon, du début de la première phrase 1 dudit échantillon prononcée par l’utilisateur.

Comme déjà exprimé, le temps de réaction est certes un moment de silence pour l’utilisateur mais est considéré distinctement par rapport à un moment de silence dans le calcul du niveau de débit de parole pour une interaction.

Par ailleurs, le procédé comporte avantageusement la détection de bruits forts ; les bruits forts présentent un débit sonore supérieur à la valeur de seuil mais ne sont pas considérés comme de la parole. Ils sont identifiés du fait que leur durée est très courte, en ne dépassant pas un nombre donné de blocs, par exemple trois blocs. Dans l’exemple de la figure 1, le bruit fort ambiant se distingue car il ne représente que trois blocs. Par conséquent, ces trois blocs, bien qu’au-dessus de la valeur seuil du niveau sonore, sont considérés comme du silence.

De plus, la fin d’une interaction, moment où l’utilisateur ne parle plus et qu’il attend la réponse du callbot (attente de l’interaction suivante) n’est pas prise en compte dans le calcul du niveau de débit de paroles bien que ce moment soit un moment de silence. Ainsi, après la phrase 3, l’utilisateur est silencieux mais la durée de silence s’écoulant en cette fin d’interaction n’est pas considérée en tant que durée de silence, car le callbot identifie que l’utilisateur a terminé de parler après la phrase 3. L’identification de fin d’élocution de l’utilisateur est effectuée lorsque le callbot détecte que l’utilisateur est silencieux durant une durée supérieure à une durée de référence Tref. Bien entendu, les durées de silence dans une interaction sont toujours inférieures à la durée de référence Tref de fin d’interaction. Par exemple, cette durée de référence peut être de 3 secondes. A noter que cette durée de référence de fin d’interaction peut être différente selon le type de phrase que doit reconnaître le callbot. En fonction du format attendu de paroles que l’utilisateur prononce, le callbot associe à un format donné une durée de référence de fin d’interaction. Le callbot peut également considérer la fin d’une interaction alors que la durée de référence n’est pas encore atteinte. Par exemple, si le callbot attend de reconnaître une série de chiffres, par exemple dix chiffres, dès qu’il aura enregistré le dixième chiffre, il saura que l’interaction est terminée sans avoir à attendre la durée de référence.

Les moyens de traitement comptent le nombre de blocs pour le temps de réaction et le nombre de blocs pour le temps des silences, ainsi que le nombre de silences. Ici pour la figure 1 :
- pour le temps de réaction, le nombre de blocs est de 25, ce qui correspond à une durée de temps de réaction de 25x16 ms, soit 500 ms ;
- le nombre de silences est de deux ;
- pour la durée des silences, le nombre de blocs est de 24 pour le premier silence et de 28 pour le second silence, ce qui correspond à respectivement 384 ms (24x16) et 448 ms (28x16).

La durée de fin d’interaction n’est pas prise en compte car elle n’est pas considérée comme un silence, cette durée étant reconnue en tant que fin d’interaction.

A partir de ces trois paramètres ci-dessus calculés, le procédé de traitement calcule le niveau de débit Y₁pour cette interaction 1. Ce calcul est élaboré à partir de coefficients de pondération a, b et c, attribués à chacun des paramètres et d’une formule mathématique qui est à titre d’exemple nullement limitatif pour une interaction Y_j:

La formule appliquée à l’exemple donne :

La valeur des coefficients de pondération a, b et c sera en particulier adaptée en fonction de la nature des conversations liées au domaine d’activité du callbot. Par exemple, ces coefficients pour un callbot dans le domaine de l’assurance pour déclarer un sinistre automobile, seront différents pour un callbot dans le domaine des retraites, domaine pour lequel les réponses faites par l’utilisateur seront de nature différentes, plus complexes, impliquant par exemple un nombre de silences plus important, un temps de réaction plus long. Ces coefficients sont établis de manière empirique à partir de l’étude de plusieurs conversations sur un même sujet ou dans un même domaine d’activité. Par exemple, pour l’exemple de l’interaction ci-dessus dans le cadre d’une conversation d’une déclaration de sinistre de véhicule, le calcul de Y_jdonne 210. Il s’agit d’un indicateur sans unité.

Le procédé de traitement considère n interactions pour l’échantillonnage et la valeur de niveau de débit par interaction Y_j, puis calcule une valeur représentative du débit de l’utilisateur Dt_i(valeur de l’échantillonnage pour les n interactions) à partir de ces n valeurs de Y_j, par exemple à partir de la moyenne des Y_j. Par conséquent, dans un exemple de réalisation :

D’autres formules statistiques que la moyenne peuvent être utilisées.

Enfin, le procédé de traitement comporte une étape de comparaison de la valeur calculée du débit Dt_ià l’instant t_ide l’échantillonnage à la valeur du débit à l’échantillonnage précédent, c’est-à-dire à la valeur de débit Dt_i _-1à l’instant t_i _-1, et en fonction du résultat, si celui-ci est différent (Dt_idifférent de Dt_i _-1), le callbot peut ou non modifier son débit Dc. Ainsi, si à l’instant t₂, la valeur de débit Dt₂est supérieure ou inférieure à la valeur de débit Dt₁à l’instant t₁, le callbot qui a un débit Dc de paroles pourra par exemple être modifié pour correspondre au débit Dt₂. Le traitement est effectué en continu, et chacune des valeurs Dt₃, Dt₄, etc., est comparée à la valeur précédente.

Le débit du callbot Dc présente une valeur initiale qui constitue un paramètre réglable, sans forcément d’unité, qui est défini, par exemple selon les mêmes critères que pour le débit de paroles d’un utilisateur, et dont la modification sera corrélée avec les valeurs calculées de débit de paroles de l’utilisateur.

La figure 2 schématise un exemple de traitement des interactions I1, I2, I3, I4, I5, I6, I7, etc. sur les N interactions totales de la conversation, entre l’utilisateur et le callbot, avec un échantillonnage sur trois interactions (n=3). Pour les interactions I1 à I3 est calculé le niveau respectif par interaction, Y₁à Y₃, puis est calculé le débit du premier échantillonnage Dt₁pour ces trois interactions en faisant la moyenne des Y₁à Y₃. Puis les mêmes calculs sont faits pour les interactions I2 à I4, afin d’en déduire le débit du deuxième échantillonnage Dt₂. Une comparaison est faite entre les débits Dt₁et Dt₂, de sorte à modifier si besoin le débit du callbot Dc. En continu, les calculs sont faits pour les interactions I3 à I5, afin d’en déduire le débit du troisième échantillonnage Dt₃, et de comparer ce débit Dt₃avec le précédent Dt₂, et ainsi de suite.

Le traitement étant réalisé en temps réel, le débit de réponse Dc du callbot n’est par conséquent pas figé et peut être adapté en temps réel par rapport au débit Dt_ide l’utilisateur à un instant donné. De préférence, le débit de réponse Dc du callbot est borné, avec au moins une valeur haute pour ne pas augmenter son débit au-delà de cette valeur même si la valeur de débit de l’utilisateur est supérieure à la valeur haute. Le débit de réponse Dc du callbot peut aussi être borné avec une valeur basse, afin de débiter des paroles selon un débit minimal.

Ainsi, lorsque le callbot détecte une augmentation de débit de l’utilisateur ou un débit supérieur à une valeur de référence, le débit du callbot sera également augmenté. Lorsque le callbot détecte une diminution du débit de l’utilisateur, le callbot diminuera son débit de paroles. Il est également possible malgré une augmentation détectée du débit de l’utilisateur, de ne pas augmenter le débit du callbot jusqu’à la valeur de débit de l’utilisateur : par exemple, si le débit Dt_icalculé au début d’une conversation avec un utilisateur est supérieur à une valeur de référence, l’utilisateur parlant très vite, le procédé de traitement n’augmentera pas le débit de réponse du callbot ou pourra l’augmenter sans dépasser la valeur haute, obligeant l’utilisateur à diminuer instinctivement son débit, ce qui favorisa au final la reconnaissance.

Le procédé peut comprendre des variantes au niveau des calculs et de l’ajout d’autres paramètres que les trois paramètres précités.

Par exemple, le calcul du débit Dt_ide paroles de l’utilisateur par échantillonnage peut être calculé à partir d’une étape intermédiaire de calcul de la moyenne des temps de réaction sur l’échantillonnage.

D’autres paramètres peuvent être utilisés dans le calcul de la valeur de niveau de débit par interaction Y_j, par exemple il s’agit du nombre de moments parlés durant une interaction (nombre de phrases prononcées par l’utilisateur dans une interaction), et/ou de la durée des moments parlés, et/ou du nombre de syllabes prononcées par moment parlé/phrase.

De plus, l’estimation du niveau sonore en dB de chaque échantillonnage peut également être utilisée pour modifier et adapter le niveau sonore de la réponse faite par le callbot.

Par conséquent, le procédé de l’invention constitue une amélioration dans les callbots actuels, en les rendant davantage interactifs. Un utilisateur peut parler vite au début, par exemple sous le coup d’une émotion, d’un comportement nerveux, ou agacé, puis parlera moins vite ensuite et retrouvera un débit habituel ; le callbot de l’invention permettra en dynamique d’augmenter ou de diminuer son débit de paroles.

Claims

Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel entre ledit dispositif et un utilisateur, le dispositif prononçant des paroles avec un certain débit Dc, et l’utilisateur ayant également un certain débit de paroles, le procédé de traitement comportant les étapes suivantes : échantillonnage de plusieurs interactions verbales se succédant entre l’utilisateur et le callbot ; pour chaque interaction, calcul d’un indicateur (Y_j) représentatif d’un niveau de débit de paroles pour ladite interaction, dit niveau de débit par interaction ; calcul pour l’échantillonnage d’un indicateur (Dt_i), représentatif du niveau de débit de paroles de l’utilisateur à un instant t_i et dit niveau de débit de paroles de l’utilisateur, à partir de la pluralité de niveaux de débit par interaction Y_jcalculés pour l’échantillonnage ; comparaison en continu du niveau de débit de paroles d’un échantillonnage Dt_iavec le niveau de débit de paroles d’un échantillonnage précédent, de préférence avec l’échantillonnage précédent Dt_i-1; modification éventuelle du débit de paroles du dispositif Dc en fonction du résultat de la comparaison de deux niveaux de débit de paroles
Procédé de traitement automatisé selon la revendication 1, caractérisé en ce que, pour chaque interaction, le calcul du niveau de débit par interaction (Y_j) est réalisé à partir de la mesure d’au moins trois paramètres que sont : le temps de réaction qui est le temps mis par l’utilisateur à débuter son élocution suite à la fin de l’élocution du dispositif, le nombre de silences, et la durée de chaque silence.
Procédé de traitement automatisé selon la revendication 2, caractérisé en ce que le niveau de débit par interaction (Y_j) est égal àavec a, b et c, des coefficients de pondération.
Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce que le calcul de la valeur de niveau de débit par interaction (Y_j) comporte des paramètres supplémentaires que sont le nombre de moments parlés durant une interaction, et/ou la durée des moments parlés durant une interaction, et/ou le nombre de syllabes prononcées par moment parlé.
Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce que le niveau de débit de paroles d’un échantillonnage Dt_iest égal à la moyenne des valeurs de niveau de débit par interaction (Y_j) calculées pour ledit échantillonnage.
Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce que le calcul du niveau de débit de paroles de l’utilisateur par échantillonnage (Dt_i) est effectué à partir d’une étape intermédiaire de calcul de la moyenne des temps de réaction sur l’échantillonnage.
Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce qu’il comporte une étape d’évaluation en continu du niveau sonore en dB sur chaque échantillonnage et de comparaison par rapport à une valeur de seuil de sorte à déterminer les silences, en particulier la fin de l’élocution de l’utilisateur pour une interaction étant identifiée par le niveau sonore situé en-dessous de la valeur de seuil et par la durée supérieure à une durée de référence pour ce niveau sonore, et/ou par la reconnaissance du format de paroles attendu par le dispositif.
Procédé de traitement automatisé selon la revendication précédente, caractérisé en ce qu’il comporte une étape d’évaluation du niveau sonore des moments parlés par l’utilisateur et/ou du niveau sonore du bruit ambiant, et en fonction du résultat, le procédé comporte une étape d’adaptation éventuelle du niveau sonore des paroles du dispositif conversationnel.
Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce que l’échantillonnage est d’une dizaine ou de quelques dizaines de millisecondes.
Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce que la modification du débit de paroles du dispositif Dc est bornée entre deux valeurs de débit basse et haute.
Produit programme d’ordinateur stocké sur un support lisible par ordinateur, tablette ou smartphone, et/ou exécutable par un microprocesseur, caractérisé en ce qu’il comprend des instructions de code de programme pour la mise en œuvre du procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, selon l’une quelconque des revendications précédentes.