FR3099844A1 - Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio - Google Patents

Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio Download PDF

Info

Publication number
FR3099844A1
FR3099844A1 FR1909119A FR1909119A FR3099844A1 FR 3099844 A1 FR3099844 A1 FR 3099844A1 FR 1909119 A FR1909119 A FR 1909119A FR 1909119 A FR1909119 A FR 1909119A FR 3099844 A1 FR3099844 A1 FR 3099844A1
Authority
FR
France
Prior art keywords
user
interaction
rate
level
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1909119A
Other languages
English (en)
Other versions
FR3099844B1 (fr
Inventor
Jérôme VERITE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Do You Dream Up
Original Assignee
Do You Dream Up
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Do You Dream Up filed Critical Do You Dream Up
Priority to FR1909119A priority Critical patent/FR3099844B1/fr
Publication of FR3099844A1 publication Critical patent/FR3099844A1/fr
Application granted granted Critical
Publication of FR3099844B1 publication Critical patent/FR3099844B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Dispositif de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel entre ledit dispositif et un utilisateur, le dispositif prononçant des paroles avec un certain débit Dc, et l’utilisateur ayant également un certain débit de paroles, le procédé de traitement comportant les étapes suivantes : échantillonnage de plusieurs interactions verbales se succédant (I1, I2, I3,…, IN) entre l’utilisateur et le callbot ; pour chaque interaction, calcul d’un indicateur Yj (Y1, Y2, Y3, …) représentatif d’un niveau de débit de paroles pour ladite interaction, dit niveau de débit par interaction ; calcul pour l’échantillonnage d’un indicateur Dti, (Dt1, Dt2,…), représentatif du niveau de débit de paroles de l’utilisateur à un instant ti et dit niveau de débit de paroles de l’utilisateur, à partir de la pluralité de niveaux de débit par interaction Yj calculés pour l’échantillonnage ; comparaison en continu du niveau de débit de paroles d’un échantillonnage Dti avec le niveau de débit de paroles d’un échantillonnage précédent, de préférence avec l’échantillonnage précédent Dti-1 ; modification éventuelle du débit de paroles du dispositif Dc en fonction du résultat de la comparaison de deux niveaux de débit de paroles. Figure pour l’abrégé : figure 2

Description

Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio
L’invention concerne le domaine des conversations automatisées, et plus particulièrement des agents ou assistants conversationnels vocaux, nommés encore en anglais « callbot », qui sont des robots permettant de dialoguer oralement en langage naturel avec un utilisateur.
Un callbot est un dispositif conversationnel automatisé permettant de dialoguer avec un individu / un utilisateur qui en émettant une phrase en langage naturel au callbot, obtient une réponse automatisée vocale après reconnaissance automatisée de la phrase de l’utilisateur et synthèse vocale de la réponse à apporter.
Si les moyens informatiques et électroniques de traitement de ces dispositifs, en particulier les microprocesseurs actuels, permettent de répondre en temps réel/instantanément à l’utilisateur, ces dispositifs présentent encore quelques inconvénients. L’un des inconvénients est le manque de fiabilité de la compréhension de la phrase de l’utilisateur en raison de son rythme de voix qui est parfois bien trop rapide ou bien alors hachée ; en particulier lorsque l’utilisateur fait une pause dans sa phrase, le dispositif peut considérer que la phrase est terminée et ne prend pas en compte le reste de la phrase, ou alors le dispositif présente une difficulté de compréhension, ce qui engendrera une réponse totalement erronée, ou encore le dispositif prendra un temps de compréhension, qu’on nomme aussi temps d’affinage de la phrase prononcée par l’utilisateur, qui sera bien trop long par rapport au délai de réponse attendu par un utilisateur.
Enfin, les robots sont programmés pour répondre avec un débit donné de paroles, or cela peut être déroutant pour un individu qui par exemple s’exprime très lentement ; en effet, lorsque l’interlocuteur de l’individu est au contraire une personne physique, cet interlocuteur répondra au fur et à mesure de la conversation ou même dès le départ, instinctivement avec un débit plus lent qu’à son habitude, pour être sûr que ledit individu puisse comprendre ses paroles, ce que ne font pas du tout les robots qui gardent leur rythme de paroles tel que préprogrammé.
L’invention a donc pour but de pallier les inconvénients précités en fournissant à un dispositif conversationnel automatisé en langage naturel et vocal (callbot), un procédé de traitement automatisé du langage naturel dudit dispositif, qui permette de répondre vocalement avec un débit de paroles adapté à la compréhension de l’utilisateur, et cela en temps réel.
Selon l’invention, le procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel entre ledit dispositif et un utilisateur, le dispositif prononçant des paroles avec un certain débit Dc, et l’utilisateur ayant également un certain débit de paroles, comporte les étapes suivantes : échantillonnage de plusieurs interactions verbales se succédant entre l’utilisateur et le callbot ; pour chaque interaction, calcul d’un indicateur représentatif d’un niveau de débit de paroles Yjpour ladite interaction, dit « niveau de débit par interaction » ; calcul pour l’échantillonnage d’un indicateur Dti, représentatif du niveau de débit de paroles de l’utilisateur à un instant tiet dit niveau de débit de paroles de l’utilisateur, à partir de la pluralité de niveaux de débit par interaction Yjcalculés pour l’échantillonnage ;comparaison en continu du niveau de débit de paroles d’un échantillonnage Dtiavec le niveau de débit de paroles d’un échantillonnage précédent, de préférence avec l’échantillonnage précédent Dti-1; modification éventuelle (augmentation ou diminution) du débit de paroles du dispositif Dc en fonction du résultat de la comparaison de deux niveaux de débit de paroles. La modification du débit de paroles du dispositif Dc est faite en temps réel au cours de la conversation, la conversation étant une succession d’une multiplicité d’interactions.
Ainsi, le procédé de traitement de l’invention permet d’identifier le débit de paroles de l’utilisateur et d’adapter si besoin le débit de paroles du dispositif conversationnel, et cela de manière automatisée et en temps réel. Le dispositif conversationnel qui présente un débit Dc au début de la conversation pourra voir son débit augmenter ou diminuer en fonction du débit de paroles de l’utilisateur. Un tel procédé présente en particulier l’avantage, par exemple pour une personne parlant lentement de s’adapter à son rythme de parole (qui est plus lent que le débit initial du dispositif conversationnel) afin que l’utilisateur puisse bien comprendre ce qui lui est dit. Au cours de la conversation, le dispositif pourra si besoin ré-augmenter son débit. De même, dès le début d’une conversation (et donc du traitement), le débit du dispositif peut être augmenté si le procédé identifie un débit de paroles de l’utilisateur plus rapide que le débit initial du dispositif.
Selon une caractéristique, pour chaque interaction, le calcul du niveau de débit par interaction Yjest réalisé à partir de la mesure d’au moins trois paramètres que sont : le temps de réaction qui est le temps mis par l’utilisateur à débuter son élocution suite à la fin de l’élocution du dispositif, le nombre de silences, et la durée de chaque silence.
A partir des trois paramètres ci-dessus calculés, le procédé de traitement calcule le niveau de débit Yjpour une interaction. Ce calcul est élaboré à partir de coefficients de pondération a, b et c, attribués à chacun des paramètres et d’une formule mathématique qui est à titre d’exemple nullement limitatif pour une interaction Yj:
La valeur des coefficients de pondération a, b et c sera en particulier adaptée en fonction de la nature des conversations liées au domaine d’activité du callbot. Par exemple, ces coefficients pour un callbot dans le domaine de l’assurance pour déclarer un sinistre automobile seront différents pour un callbot dans le domaine des retraites, domaine pour lequel les réponses faites par l’utilisateur seront de nature différentes, plus complexes, impliquant par exemple un nombre de silences plus important, un temps de réaction plus long. Ces coefficients a, b et c seront établis de manière empirique après l’étude de plusieurs conversations sur un même sujet ou dans un même domaine d’activité.
Le calcul du niveau de débit Yjest réalisé en temps réel au cours de la conversation et pour chaque interaction.
Dans une variante, le calcul de la valeur de niveau de débit par interaction Yjcomporte des paramètres supplémentaires que sont le nombre de moments parlés durant une interaction, et/ou la durée des moments parlés durant une interaction, et/ou le nombre de syllabes prononcées par moment parlé.
De préférence, le niveau de débit de paroles d’un échantillonnage Dtiest égal à la moyenne des valeurs de niveau de débit par interaction Yjcalculées pour ledit échantillonnage.
Dans une variante, le calcul du niveau de débit de paroles de l’utilisateur par échantillonnage Dtiest effectué à partir d’une étape intermédiaire de calcul de la moyenne des temps de réaction sur l’échantillonnage.
De préférence, la modification du débit de paroles du dispositif Dc est bornée entre deux valeurs de débit basse et haute.
Selon une autre caractéristique, le procédé comporte une étape d’évaluation en continu du niveau sonore en dB sur chaque échantillonnage, et de comparaison par rapport à une valeur de seuil de sorte à déterminer les silences en particulier la fin de l’élocution de l’utilisateur pour une interaction étant identifiée par le niveau sonore situé en-dessous de la valeur de seuil et par la durée supérieure à une durée de référence pour ce niveau sonore situé en-dessous de la valeur de seuil, et/ou par la reconnaissance du format de paroles attendu par le dispositif. Quant aux moments parlés, ils sont identifiés par le niveau sonore situé au-dessus de la valeur de seuil et par la durée supérieure à une durée de référence pour ce niveau sonore situé au-dessus de la valeur de seuil, ce qui permet par ailleurs d’identifier des bruits ambiants forts que le dispositif pourrait entendre en particulier pendant des silences.
Avantageusement, le procédé comporte une étape d’évaluation du niveau sonore des moments parlés par l’utilisateur et/ou du niveau sonore du bruit ambiant (environnement de l’utilisateur), et en fonction du résultat, le procédé comporte une étape d’adaptation éventuelle du niveau sonore des paroles du dispositif conversationnel.
De préférence, l’échantillonnage du procédé de traitement est d’une dizaine ou de quelques dizaines de millisecondes.
Enfin, l’invention est relative à un produit programme d’ordinateur stocké sur un support lisible par ordinateur, tablette ou smartphone, et/ou exécutable par un microprocesseur, caractérisé en ce qu’il comprend des instructions de code de programme pour la mise en œuvre du procédé précité de l’invention de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel.
La présente invention est maintenant décrite à l’aide d’un exemple uniquement illustratif et nullement limitatif de la portée de l’invention, et des figures.
ou figure 1 illustre une interaction entre un dispositif conversationnel vocal et un utilisateur, qui schématise la décomposition des signaux vocaux sur l’interaction en une multiplicité de blocs de données.
ou figure 2 schématise les principales étapes du procédé de traitement de l’invention en vue d’adapter si besoin le débit de paroles du dispositif conversationnel vocal.
Un dispositif conversationnel automatisé en langage naturel et vocal, un callbot, comprend des moyens de traitement électroniques, associés à au moins une base de données comprenant des bibliothèques d’exemples de phrases et de réponses, et des moyens de traitement informatiques à partir d’algorithmes de reconnaissance vocale, de compréhension de phrases et de génération de réponses, ainsi que d’un algorithme de synthèse vocale pour émettre vocalement les réponses.
Le callbot est donc apte à recevoir des données vocales en langage naturel, des phrases prononcées par un utilisateur, à traiter de manière automatisée ces données, pour formuler une réponse vocale en langage naturel.
L’invention ne concerne pas en tant que tel le procédé de reconnaissance et de compréhension en langage naturel des phrases prononcées par l’utilisateur, ni le procédé de formulation des réponses après reconnaissance.
Le procédé de traitement de l’invention a pour but dans une conversation entre un callbot et un utilisateur, d’une part, d’identifier le débit de paroles de l’utilisateur, et d’autre part, en fonction du débit identifié de manière automatisée, d’adapter si besoin, de manière automatisée, le débit de paroles en réponse dudit callbot. Le procédé est mis en en œuvre par des moyens de traitement électroniques et informatiques, tels qu’au moins un microprocesseur et un ou plusieurs algorithmes, qui sont ajoutés aux moyens usuels de traitement et de fonctionnement d’un callbot.
Dans la suite de la description, on entend par « réponse » du callbot, la phrase/l’information vocale qui est prononcée par le callbot. Cette phrase/cette information vocale peut aussi bien être grammaticalement une question, qu’une réponse.
La conversation entre le callbot et l’utilisateur comprend plusieurs interactions.
On entend par « interaction », une réponse du callbot suivie d’une ou plusieurs phrases prononcées par l’utilisateur qui s’arrête de parler pour attendre la prochaine réponse du callbot. La prochaine réponse du callbot initie une nouvelle interaction.
Dans une interaction, l’utilisateur peut ne prononcer qu’une seule phrase d’une seule traite, ou bien plusieurs phrases, en s’arrêtant momentanément de parler entre deux phrases, en raison soit d’un fort bruit ambiant, nommé ci-après « Bruit fort », soit d’un silence de l’individu, nommé ci-après « Silence ».
Ci-après est donnée à titre d’exemple une conversation comprenant N interactions :
-Interaction 1:
- Callbot : « bonjour, comment puis-je vous aider ? » ;
- Utilisateur : « Comment ? » / Bruit fort, par exemple un bruit de klaxon / « Je ne comprends pas » / Silence / « Pouvez-vous répéter ? ».
-Interaction 2:
- Callbot : « bonjour, comment puis-je vous aider ? » ;
- Utilisateur : « Je viens d’avoir un accident » / Silence / « Je veux déclarer le sinistre ».
-Interaction 3:
- Callbot : « Quel est votre nom ? » ;
- Utilisateur : « Martin ».
-Interaction 4:
- Callbot : « Quel est le modèle de votre voiture? » ;
- Utilisateur : « Modèle A ».
-Interaction 5:
- Callbot : « pouvez-vous me confirmer le numéro de votre plaque d’immatriculation » ;
- Utilisateur : « C’est BB » / Silence/ « 123 » / Silence / « BB ».
-Interaction 6:
- Callbot : « pouvez-vous me préciser la nature de votre accident ? » ;
- Utilisateur : « Il s’agit d’une collision avec un véhicule ».
La conversation se poursuit jusqu’à la Nième interaction :
-Interaction N:
- Callbot : « Nous vous envoyons un taxi qui sera là dans trente minutes. »
- Utilisateur : « Merci ».
Le procédé de traitement de l’invention analyse au fur et à mesure de la conversation le débit de paroles de l’utilisateur. Le débit de paroles Dtiest calculé par échantillonnage à l’instant tipour un nombre donné n d’interactions. L’échantillonnage se fait sur n interactions durant toute la conversation, c’est-à-dire sur les 1 à N interactions. Ce débit de paroles est calculé de manière glissante durant toute la conversation.
Le nombre n d’interactions pour l’échantillonnage, pris à titre d’exemple nullement limitatif, est de trois.
Par exemple, de l’interaction 1 à l’interaction 3, le débit de paroles Dt1sera d’une certaine valeur, puis pourra être différent pour les trois prochaines interactions, et à nouveau différent pour trois autres interactions un peu plus loin dans la conversation. En fonction de la valeur de débit Dt1calculé à l’instant t1après les trois premières interactions, la réponse effectuée par le callbot à l’interaction 5 (« pouvez-vous me confirmer le numéro de votre plaque d’immatriculation »), sera effectuée avec un débit du callbot Dc qui pourra être différent du débit de la réponse des précédentes interactions ou du débit initial du callbot ; le nouveau débit Dc du callbot sera modifié pour par exemple être égal au débit Dt2calculé de l’utilisateur après le deuxième échantillonnage. Puis, à un instant tisupérieur à l’instant t2si le débit de paroles de l’utilisateur est encore différent, par exemple a ralenti, le callbot répondra encore avec un autre débit, par exemple reprendra un débit qui était celui initial du callbot au début de la conversation, ou un autre débit, etc.
Si usuellement un débit de paroles est calculé en fonction du nombre de syllabes prononcées par seconde par un individu, le procédé de l’invention propose une autre méthode de calcul, en utilisant de nouveaux paramètres qui en combinaison seront représentatifs du débit de paroles de l’individu à un instant t. En outre, le procédé de l’invention d’identification du débit de paroles de l’utilisateur est appliqué à un callbot, ce qui jusque-là n’avait jamais été mis en œuvre, afin que le callbot à son tour adapte son débit de paroles.
A noter que dans une variante, le procédé n’exclut pas d’intégrer dans le calcul du débit, en particulier par interaction, le nombre de syllabes en sus des nouveaux paramètres qui sont décrits ci-après.
Le procédé de traitement de l’invention comporte en particulier les étapes suivantes :
- échantillonnage de plusieurs interactions (n interactions) se succédant entre l’utilisateur et le callbot,
- pour chaque interaction, mesure d’au moins trois paramètres que sont : le temps de réaction qui est le temps mis par l’utilisateur à prononcer la première phrase suite à la réponse du callbot, le nombre de silences, et la durée de chaque silence ;
- pour chaque interaction, calcul d’un nouveau paramètre/indicateur représentatif d’un niveau de débit de paroles pour ladite interaction, dit « niveau de débit par interaction », et référencé Yj (avec j allant de 1 à n) à partir des trois paramètres précités que sont le temps de réaction, le nombre de silences, et la durée de chaque silence ; et
- calcul d’un niveau de débit de paroles pour l’échantillonnage, référencé Dti, et représentatif du débit de paroles de l’utilisateur à un instant tiaprès n interactions, à partir de la pluralité de niveaux de débit Yjpar interaction calculés pour l’échantillonnage.
L’échantillonnage est donc réalisé sur plusieurs interactions (n interactions). L’échantillonnage (nombre d’interactions considérées) dépendra notamment du type d’utilisation du callbot. L’échantillonnage sera relatif à au moins deux interactions, et de préférence inférieur à dix interactions.
A noter que le paramètre « temps de réaction » constitue un moment de silence de l’utilisateur. Toutefois, le paramètre « durée de silence » n’inclut pas le temps de réaction.
Avantageusement, le procédé de traitement pour calculer le niveau de débit pour un échantillonnage, est glissant, c’est-à-dire que le calcul du niveau de débit est réalisé de façon continue tout le temps de la conversation, en utilisant à chaque calcul un ensemble d’interactions dans lequel une nouvelle interaction remplace la plus ancienne interaction. Ainsi, pour les 1 à n interactions, le calcul du débit sera Dtià l’instant ti; et à l’instant ti+1, le débit Dti+1sera calculé pour les interactions de 2 à n+1.
De manière connue, un signal audio est une information composée d’une multiplicité d’échantillons ou de blocs de données, chaque bloc de données correspondant à un poids donné en octets et correspondant à une durée ; par exemple un bloc de données de 256 ko correspond à une durée de 16 ms.
Par conséquent, une interaction au sens de l’invention, est décomposée en une multiplicité d’échantillons de données sous la forme, comme illustré sur la figure 1 de barres de données. La figure 1 illustre pour l’interaction 1 de la conversation ci-dessus la décomposition des données en une multiplicité de barres de données. Chaque barre est de même poids ou durée. Chaque barre dure ici 16 ms. Chaque barre présente un certain niveau sonore représenté par la hauteur de la barre par rapport à une valeur seuil de niveau sonore. La valeur seuil de niveau sonore est par exemple 38 dB ou 40 dB. Cette valeur seuil est schématisée sur la figure 1 par le trait horizontal continu sur le diagramme de l’utilisateur.
Chaque interaction peut présenter un nombre total distinct de barres de données car de durée totale différente.
Afin de faciliter la compréhension du schéma de la figure 1, il a été représenté en dessous des barres de l’utilisateur, et au-dessus des barres du callbot, des carrés/des blocs de même largeur que celle des barres pour mieux visualiser les paramètres à mesurer, que sont le temps de réaction, les moments de silence et en contrepartie les temps de paroles (moments parlés), ainsi que le nombre de silences.
La détermination d’un silence et d’un temps de parole (moment parlé) est effectuée par la détection du niveau sonore, et par la comparaison du niveau sonore mesuré à la valeur seuil. Lorsque le niveau sonore d’une barre est inférieur à la valeur seuil, cela correspond à du silence et donc que l’utilisateur ne parle pas. Lorsque le niveau sonore d’un bloc est supérieur à la valeur seuil, cela correspond à de la parole.
Pour l’interaction 1 précitée entre le callbot et l’utilisateur, le callbot émet une réponse (« bonjour, comment puis-je vous aider »), tandis que l’utilisateur après un temps de réaction, émet une phrase 1 (« Comment ça ? ») et une deuxième phrase 2 (« Je ne comprends pas ») entrecoupées par un bruit fort de klaxon, et enfin l’utilisateur prononce une troisième phrase 3 (« Pouvez-vous répéter ? »), précédée et suivie d’un silence. Le temps de réaction, chaque silence, et chaque moment parlé (une phrase) comprend une pluralité de blocs de données (de barres), chacun des blocs d’une durée identique, ici de 16 ms.
Le calcul de la durée du temps de réaction et de la durée d’un silence, s’effectue en calculant le nombre de blocs pour respectivement, le temps de réaction, et chaque silence. De même, comme il sera vu plus loin dans une variante, le niveau de débit par interaction peut être calculé à partir d’un paramètre supplémentaire qui est le temps durant lequel l’utilisateur parle (qu’on nomme ci-après « temps de parole » ou « moment parlé »).
Sur la figure 1, les carrés/blocs blancs correspondent aux silences ou dits encore moments silencieux (les barres étant en-dessous du niveau sonore de seuil), les blocs en grisé correspondent à des moments parlés (les barres étant au-dessus du niveau sonore de seuil), et les blocs avec croix (uniquement pour l’utilisateur) correspondent au temps de réaction qui est certes un moment de silence mais constitue dans le calcul du niveau de débit par interaction, un paramètre distinct.
Le temps de réaction correspond au nombre de blocs séparant la fin de la réponse du callbot dans l’échantillon, du début de la première phrase 1 dudit échantillon prononcée par l’utilisateur.
Comme déjà exprimé, le temps de réaction est certes un moment de silence pour l’utilisateur mais est considéré distinctement par rapport à un moment de silence dans le calcul du niveau de débit de parole pour une interaction.
Par ailleurs, le procédé comporte avantageusement la détection de bruits forts ; les bruits forts présentent un débit sonore supérieur à la valeur de seuil mais ne sont pas considérés comme de la parole. Ils sont identifiés du fait que leur durée est très courte, en ne dépassant pas un nombre donné de blocs, par exemple trois blocs. Dans l’exemple de la figure 1, le bruit fort ambiant se distingue car il ne représente que trois blocs. Par conséquent, ces trois blocs, bien qu’au-dessus de la valeur seuil du niveau sonore, sont considérés comme du silence.
De plus, la fin d’une interaction, moment où l’utilisateur ne parle plus et qu’il attend la réponse du callbot (attente de l’interaction suivante) n’est pas prise en compte dans le calcul du niveau de débit de paroles bien que ce moment soit un moment de silence. Ainsi, après la phrase 3, l’utilisateur est silencieux mais la durée de silence s’écoulant en cette fin d’interaction n’est pas considérée en tant que durée de silence, car le callbot identifie que l’utilisateur a terminé de parler après la phrase 3. L’identification de fin d’élocution de l’utilisateur est effectuée lorsque le callbot détecte que l’utilisateur est silencieux durant une durée supérieure à une durée de référence Tref. Bien entendu, les durées de silence dans une interaction sont toujours inférieures à la durée de référence Tref de fin d’interaction. Par exemple, cette durée de référence peut être de 3 secondes. A noter que cette durée de référence de fin d’interaction peut être différente selon le type de phrase que doit reconnaître le callbot. En fonction du format attendu de paroles que l’utilisateur prononce, le callbot associe à un format donné une durée de référence de fin d’interaction. Le callbot peut également considérer la fin d’une interaction alors que la durée de référence n’est pas encore atteinte. Par exemple, si le callbot attend de reconnaître une série de chiffres, par exemple dix chiffres, dès qu’il aura enregistré le dixième chiffre, il saura que l’interaction est terminée sans avoir à attendre la durée de référence.
Les moyens de traitement comptent le nombre de blocs pour le temps de réaction et le nombre de blocs pour le temps des silences, ainsi que le nombre de silences. Ici pour la figure 1 :
- pour le temps de réaction, le nombre de blocs est de 25, ce qui correspond à une durée de temps de réaction de 25x16 ms, soit 500 ms ;
- le nombre de silences est de deux ;
- pour la durée des silences, le nombre de blocs est de 24 pour le premier silence et de 28 pour le second silence, ce qui correspond à respectivement 384 ms (24x16) et 448 ms (28x16).
La durée de fin d’interaction n’est pas prise en compte car elle n’est pas considérée comme un silence, cette durée étant reconnue en tant que fin d’interaction.
A partir de ces trois paramètres ci-dessus calculés, le procédé de traitement calcule le niveau de débit Y1pour cette interaction 1. Ce calcul est élaboré à partir de coefficients de pondération a, b et c, attribués à chacun des paramètres et d’une formule mathématique qui est à titre d’exemple nullement limitatif pour une interaction Yj:
La formule appliquée à l’exemple donne :
La valeur des coefficients de pondération a, b et c sera en particulier adaptée en fonction de la nature des conversations liées au domaine d’activité du callbot. Par exemple, ces coefficients pour un callbot dans le domaine de l’assurance pour déclarer un sinistre automobile, seront différents pour un callbot dans le domaine des retraites, domaine pour lequel les réponses faites par l’utilisateur seront de nature différentes, plus complexes, impliquant par exemple un nombre de silences plus important, un temps de réaction plus long. Ces coefficients sont établis de manière empirique à partir de l’étude de plusieurs conversations sur un même sujet ou dans un même domaine d’activité. Par exemple, pour l’exemple de l’interaction ci-dessus dans le cadre d’une conversation d’une déclaration de sinistre de véhicule, le calcul de Yjdonne 210. Il s’agit d’un indicateur sans unité.
Le calcul du niveau de débit Yjest réalisé en temps réel au cours de la conversation et pour chaque interaction.
Le procédé de traitement considère n interactions pour l’échantillonnage et la valeur de niveau de débit par interaction Yj, puis calcule une valeur représentative du débit de l’utilisateur Dti(valeur de l’échantillonnage pour les n interactions) à partir de ces n valeurs de Yj, par exemple à partir de la moyenne des Yj. Par conséquent, dans un exemple de réalisation :
D’autres formules statistiques que la moyenne peuvent être utilisées.
Enfin, le procédé de traitement comporte une étape de comparaison de la valeur calculée du débit Dtià l’instant tide l’échantillonnage à la valeur du débit à l’échantillonnage précédent, c’est-à-dire à la valeur de débit Dti -1à l’instant ti -1, et en fonction du résultat, si celui-ci est différent (Dtidifférent de Dti -1), le callbot peut ou non modifier son débit Dc. Ainsi, si à l’instant t2, la valeur de débit Dt2est supérieure ou inférieure à la valeur de débit Dt1à l’instant t1, le callbot qui a un débit Dc de paroles pourra par exemple être modifié pour correspondre au débit Dt2. Le traitement est effectué en continu, et chacune des valeurs Dt3, Dt4, etc., est comparée à la valeur précédente.
Le débit du callbot Dc présente une valeur initiale qui constitue un paramètre réglable, sans forcément d’unité, qui est défini, par exemple selon les mêmes critères que pour le débit de paroles d’un utilisateur, et dont la modification sera corrélée avec les valeurs calculées de débit de paroles de l’utilisateur.
La figure 2 schématise un exemple de traitement des interactions I1, I2, I3, I4, I5, I6, I7, etc. sur les N interactions totales de la conversation, entre l’utilisateur et le callbot, avec un échantillonnage sur trois interactions (n=3). Pour les interactions I1 à I3 est calculé le niveau respectif par interaction, Y1à Y3, puis est calculé le débit du premier échantillonnage Dt1pour ces trois interactions en faisant la moyenne des Y1à Y3. Puis les mêmes calculs sont faits pour les interactions I2 à I4, afin d’en déduire le débit du deuxième échantillonnage Dt2. Une comparaison est faite entre les débits Dt1et Dt2, de sorte à modifier si besoin le débit du callbot Dc. En continu, les calculs sont faits pour les interactions I3 à I5, afin d’en déduire le débit du troisième échantillonnage Dt3, et de comparer ce débit Dt3avec le précédent Dt2, et ainsi de suite.
Le traitement étant réalisé en temps réel, le débit de réponse Dc du callbot n’est par conséquent pas figé et peut être adapté en temps réel par rapport au débit Dtide l’utilisateur à un instant donné. De préférence, le débit de réponse Dc du callbot est borné, avec au moins une valeur haute pour ne pas augmenter son débit au-delà de cette valeur même si la valeur de débit de l’utilisateur est supérieure à la valeur haute. Le débit de réponse Dc du callbot peut aussi être borné avec une valeur basse, afin de débiter des paroles selon un débit minimal.
Ainsi, lorsque le callbot détecte une augmentation de débit de l’utilisateur ou un débit supérieur à une valeur de référence, le débit du callbot sera également augmenté. Lorsque le callbot détecte une diminution du débit de l’utilisateur, le callbot diminuera son débit de paroles. Il est également possible malgré une augmentation détectée du débit de l’utilisateur, de ne pas augmenter le débit du callbot jusqu’à la valeur de débit de l’utilisateur : par exemple, si le débit Dticalculé au début d’une conversation avec un utilisateur est supérieur à une valeur de référence, l’utilisateur parlant très vite, le procédé de traitement n’augmentera pas le débit de réponse du callbot ou pourra l’augmenter sans dépasser la valeur haute, obligeant l’utilisateur à diminuer instinctivement son débit, ce qui favorisa au final la reconnaissance.
Le procédé peut comprendre des variantes au niveau des calculs et de l’ajout d’autres paramètres que les trois paramètres précités.
Par exemple, le calcul du débit Dtide paroles de l’utilisateur par échantillonnage peut être calculé à partir d’une étape intermédiaire de calcul de la moyenne des temps de réaction sur l’échantillonnage.
D’autres paramètres peuvent être utilisés dans le calcul de la valeur de niveau de débit par interaction Yj, par exemple il s’agit du nombre de moments parlés durant une interaction (nombre de phrases prononcées par l’utilisateur dans une interaction), et/ou de la durée des moments parlés, et/ou du nombre de syllabes prononcées par moment parlé/phrase.
De plus, l’estimation du niveau sonore en dB de chaque échantillonnage peut également être utilisée pour modifier et adapter le niveau sonore de la réponse faite par le callbot.
Par conséquent, le procédé de l’invention constitue une amélioration dans les callbots actuels, en les rendant davantage interactifs. Un utilisateur peut parler vite au début, par exemple sous le coup d’une émotion, d’un comportement nerveux, ou agacé, puis parlera moins vite ensuite et retrouvera un débit habituel ; le callbot de l’invention permettra en dynamique d’augmenter ou de diminuer son débit de paroles.

Claims (11)

  1. Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel entre ledit dispositif et un utilisateur, le dispositif prononçant des paroles avec un certain débit Dc, et l’utilisateur ayant également un certain débit de paroles, le procédé de traitement comportant les étapes suivantes : échantillonnage de plusieurs interactions verbales se succédant entre l’utilisateur et le callbot ; pour chaque interaction, calcul d’un indicateur (Yj) représentatif d’un niveau de débit de paroles pour ladite interaction, dit niveau de débit par interaction ; calcul pour l’échantillonnage d’un indicateur (Dti), représentatif du niveau de débit de paroles de l’utilisateur à un instant ti et dit niveau de débit de paroles de l’utilisateur, à partir de la pluralité de niveaux de débit par interaction Yjcalculés pour l’échantillonnage ; comparaison en continu du niveau de débit de paroles d’un échantillonnage Dtiavec le niveau de débit de paroles d’un échantillonnage précédent, de préférence avec l’échantillonnage précédent Dti-1; modification éventuelle du débit de paroles du dispositif Dc en fonction du résultat de la comparaison de deux niveaux de débit de paroles
  2. Procédé de traitement automatisé selon la revendication 1, caractérisé en ce que, pour chaque interaction, le calcul du niveau de débit par interaction (Yj) est réalisé à partir de la mesure d’au moins trois paramètres que sont : le temps de réaction qui est le temps mis par l’utilisateur à débuter son élocution suite à la fin de l’élocution du dispositif, le nombre de silences, et la durée de chaque silence.
  3. Procédé de traitement automatisé selon la revendication 2, caractérisé en ce que le niveau de débit par interaction (Yj) est égal àavec a, b et c, des coefficients de pondération.
  4. Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce que le calcul de la valeur de niveau de débit par interaction (Yj) comporte des paramètres supplémentaires que sont le nombre de moments parlés durant une interaction, et/ou la durée des moments parlés durant une interaction, et/ou le nombre de syllabes prononcées par moment parlé.
  5. Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce que le niveau de débit de paroles d’un échantillonnage Dtiest égal à la moyenne des valeurs de niveau de débit par interaction (Yj) calculées pour ledit échantillonnage.
  6. Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce que le calcul du niveau de débit de paroles de l’utilisateur par échantillonnage (Dti) est effectué à partir d’une étape intermédiaire de calcul de la moyenne des temps de réaction sur l’échantillonnage.
  7. Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce qu’il comporte une étape d’évaluation en continu du niveau sonore en dB sur chaque échantillonnage et de comparaison par rapport à une valeur de seuil de sorte à déterminer les silences, en particulier la fin de l’élocution de l’utilisateur pour une interaction étant identifiée par le niveau sonore situé en-dessous de la valeur de seuil et par la durée supérieure à une durée de référence pour ce niveau sonore, et/ou par la reconnaissance du format de paroles attendu par le dispositif.
  8. Procédé de traitement automatisé selon la revendication précédente, caractérisé en ce qu’il comporte une étape d’évaluation du niveau sonore des moments parlés par l’utilisateur et/ou du niveau sonore du bruit ambiant, et en fonction du résultat, le procédé comporte une étape d’adaptation éventuelle du niveau sonore des paroles du dispositif conversationnel.
  9. Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce que l’échantillonnage est d’une dizaine ou de quelques dizaines de millisecondes.
  10. Procédé de traitement automatisé selon l’une quelconque des revendications précédentes, caractérisé en ce que la modification du débit de paroles du dispositif Dc est bornée entre deux valeurs de débit basse et haute.
  11. Produit programme d’ordinateur stocké sur un support lisible par ordinateur, tablette ou smartphone, et/ou exécutable par un microprocesseur, caractérisé en ce qu’il comprend des instructions de code de programme pour la mise en œuvre du procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, selon l’une quelconque des revendications précédentes.
FR1909119A 2019-08-09 2019-08-09 Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio Active FR3099844B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1909119A FR3099844B1 (fr) 2019-08-09 2019-08-09 Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1909119 2019-08-09
FR1909119A FR3099844B1 (fr) 2019-08-09 2019-08-09 Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio

Publications (2)

Publication Number Publication Date
FR3099844A1 true FR3099844A1 (fr) 2021-02-12
FR3099844B1 FR3099844B1 (fr) 2021-07-16

Family

ID=68807071

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1909119A Active FR3099844B1 (fr) 2019-08-09 2019-08-09 Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio

Country Status (1)

Country Link
FR (1) FR3099844B1 (fr)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228672A1 (en) * 2004-04-01 2005-10-13 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
JP2008168375A (ja) * 2007-01-10 2008-07-24 Sky Kk ボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラム
US20150379985A1 (en) * 2014-06-30 2015-12-31 GM Global Technology Operations LLC Adaptation methods and systems for speech systems
US20170083281A1 (en) * 2015-09-18 2017-03-23 Samsung Electronics Co., Ltd. Method and electronic device for providing content
US20190198012A1 (en) * 2017-12-27 2019-06-27 Soundhound, Inc. Parse prefix-detection in a human-machine interface

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228672A1 (en) * 2004-04-01 2005-10-13 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
JP2008168375A (ja) * 2007-01-10 2008-07-24 Sky Kk ボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラム
US20150379985A1 (en) * 2014-06-30 2015-12-31 GM Global Technology Operations LLC Adaptation methods and systems for speech systems
US20170083281A1 (en) * 2015-09-18 2017-03-23 Samsung Electronics Co., Ltd. Method and electronic device for providing content
US20190198012A1 (en) * 2017-12-27 2019-06-27 Soundhound, Inc. Parse prefix-detection in a human-machine interface

Also Published As

Publication number Publication date
FR3099844B1 (fr) 2021-07-16

Similar Documents

Publication Publication Date Title
US11894014B2 (en) Audio-visual speech separation
US9911420B1 (en) Behavior adjustment using speech recognition system
KR20210114518A (ko) 종단간 음성 변환
JP2020004378A (ja) 情報プッシュ方法及び装置
FR2522179A1 (fr) Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle
JP2018072650A (ja) 音声対話装置及び音声対話方法
JP2004109323A (ja) 音声対話装置及びプログラム
EP3567586B1 (fr) Système d'interaction vocale, procédé d'interaction vocale et programme
US20230230575A1 (en) Initiating an action based on a detected intention to speak
FR2923928A1 (fr) Systeme d'interpretation simultanee automatique.
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
US20210118464A1 (en) Method and apparatus for emotion recognition from speech
CN112530400A (zh) 基于深度学习的文本生成语音的方法、系统、装置及介质
WO2023114064A1 (fr) Adaptation et apprentissage de la synthèse de la parole neuronale
FR3099844A1 (fr) Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio
EP0840290B1 (fr) Procédé de reconnaissance de parole à apprentissage
CN117836823A (zh) 对检测到的无声语音的破译
US11961510B2 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
WO1991000582A1 (fr) Systeme d'evaluation comparative pour l'amelioration de la prononciation
KR20210102620A (ko) 동영상 기반의 언어장애 분석 시스템, 방법 및 이를 수행하기 위한 프로그램을 기록한 기록매체
KR20210073461A (ko) 에이전트 관리 장치, 프로그램, 및 에이전트 관리 방법
WO2020100606A1 (fr) Dispositif de détection d'énoncé non verbal, procédé de détection d'énoncé non verbal, et programme
FR2627887A1 (fr) Systeme de reconnaissance de parole et procede de formation de modeles pouvant etre utilise dans ce systeme
Lamel et al. Speaker recognition with the switchboard corpus
EP1981021A1 (fr) Procede d'estimation de l'etat mental d'une personne

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210212

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5