FR3102603A1 - Method and device for evaluating a voice recognition system - Google Patents

Method and device for evaluating a voice recognition system Download PDF

Info

Publication number
FR3102603A1
FR3102603A1 FR1911911A FR1911911A FR3102603A1 FR 3102603 A1 FR3102603 A1 FR 3102603A1 FR 1911911 A FR1911911 A FR 1911911A FR 1911911 A FR1911911 A FR 1911911A FR 3102603 A1 FR3102603 A1 FR 3102603A1
Authority
FR
France
Prior art keywords
voice
recognition system
voice recognition
answer
voice commands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1911911A
Other languages
French (fr)
Inventor
Fatimazahra Barakat
Abbas Timdouine
Marie Celine Bezat
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PSA Automobiles SA
Original Assignee
PSA Automobiles SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PSA Automobiles SA filed Critical PSA Automobiles SA
Priority to FR1911911A priority Critical patent/FR3102603A1/en
Publication of FR3102603A1 publication Critical patent/FR3102603A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Abstract

L’invention concerne un procédé et un dispositif d’évaluation (10) d’un système de reconnaissance vocale (11). A cet effet, plusieurs commandes vocales sont rendues pour tester la fiabilité ou la performance du système de reconnaissance vocale (11). Chaque réponse du système de reconnaissance vocale (11) à une question est analysée pour déterminer une note représentant la fiabilité ou la performance du système de reconnaissance vocale (11). La note est avantageusement fonction du nombre de réponses correctes aux questions posées mais aussi du nombre de questions erronées aux questions posées, une réponse erronée correspondant à une réponse hors sujet, sans rapport avec la question posée. Figure pour l’abrégé : Figure 1The invention relates to a method and a device (10) for evaluating a voice recognition system (11). To this end, several voice commands are given to test the reliability or the performance of the voice recognition system (11). Each response of the speech recognition system (11) to a question is analyzed to determine a score representing the reliability or performance of the speech recognition system (11). The score is advantageously a function of the number of correct answers to the questions asked but also of the number of erroneous questions to the questions asked, an incorrect answer corresponding to an off-topic answer, unrelated to the question asked. Figure for the abstract: Figure 1

Description

Procédé et dispositif d’évaluation d’un système de reconnaissance vocaleMethod and device for evaluating a voice recognition system

L’invention concerne un procédé et un dispositif d’évaluation d’un système de reconnaissance vocale, notamment d’un système de reconnaissance vocale d’un véhicule, par exemple automobile.The invention relates to a method and a device for evaluating a voice recognition system, in particular a voice recognition system of a vehicle, for example an automobile.

Arrière-plan technologiqueTechnology background

Les véhicules contemporains, ou pour le moins certains d’entre eux, embarquent des équipements ou systèmes avec lesquels le conducteur et/ou les passagers peuvent interagir. L’interaction avec les systèmes embarqués prévus à cet effet nécessitent une ou plusieurs interfaces homme-machine, dites IHM. Ces IHM peuvent prendre plusieurs formes, notamment par le biais d’interfaces vocales. Une interface vocale nécessite que les commandes vocales prononcés par un utilisateur soient reçues, interprétées et comprises par l’IHM. A cet effet, certains véhicules embarquent aujourd’hui un système de reconnaissance automatique de la parole (aussi appelé système de reconnaissance vocale) qui permet d’analyser la voix humaine acquise par un microphone pour la transcrire sous une forme exploitable par une machine. Dans un véhicule, un tel système de reconnaissance vocale permet par exemple de contrôler le système multimédia du véhicule, le système de navigation et parfois même de contrôler le véhicule, notamment lorsque ce dernier est en mode autonome.Contemporary vehicles, or at least some of them, carry equipment or systems with which the driver and/or passengers can interact. Interaction with on-board systems provided for this purpose requires one or more human-machine interfaces, known as HMIs. These HMIs can take several forms, in particular through voice interfaces. A voice interface requires that voice commands spoken by a user are received, interpreted and understood by the HMI. To this end, some vehicles today carry an automatic speech recognition system (also called a voice recognition system) which makes it possible to analyze the human voice acquired by a microphone in order to transcribe it into a form that can be used by a machine. In a vehicle, such a voice recognition system makes it possible, for example, to control the multimedia system of the vehicle, the navigation system and sometimes even to control the vehicle, in particular when the latter is in autonomous mode.

Il est important pour la convivialité du système et la sécurité du véhicule et de ses passagers que le système de reconnaissance vocale soit fiable et efficace, c’est-à-dire qu’il comprenne et interprète correctement les commandes vocales reçues.It is important for the user-friendliness of the system and the safety of the vehicle and its passengers that the voice recognition system is reliable and efficient, that is to say that it understands and correctly interprets the voice commands received.

Il existe certaines méthodes pour tester la performance, l’efficacité et/ou la fiabilité des systèmes de reconnaissance vocale, telles que le taux d’erreur de mots par exemple, dit WER (de l’anglais « Word Error Rate »). Selon cette méthode, plus le taux est faible, plus la reconnaissance des mots est bonne. Cependant, cette méthode est basée sur la reconnaissance des mots mais ne garantit pas que la réponse apportée à une commande est correcte.There are certain methods to test the performance, efficiency and/or reliability of speech recognition systems, such as the word error rate for example, called WER (from the English "Word Error Rate"). According to this method, the lower the rate, the better the word recognition. However, this method is based on word recognition but does not guarantee that the response to a command is correct.

Un objet de la présente invention est d’améliorer l’évaluation d’un système de reconnaissance vocale.An object of the present invention is to improve the evaluation of a voice recognition system.

Selon un premier aspect, l’invention concerne un procédé d’évaluation d’un système de reconnaissance vocale d’un véhicule, le procédé étant mis en œuvre par un dispositif d’évaluation comprenant au moins un processeur, le procédé comprenant les étapes suivantes :According to a first aspect, the invention relates to a method for evaluating a voice recognition system of a vehicle, the method being implemented by an evaluation device comprising at least one processor, the method comprising the following steps :

- rendu d’une pluralité de commandes vocales ;- rendering of a plurality of voice commands;

- analyse de chaque réponse du système de reconnaissance vocale à chaque commande vocale de la pluralité de commandes vocales ;- analyzing each response from the voice recognition system to each voice command of the plurality of voice commands;

- détermination d’une note représentative d’une fiabilité du système de reconnaissance vocale, la note étant fonction d’un nombre de réponses correctes et d’un nombre de réponses erronées à la pluralité de commandes vocales.- determination of a score representative of a reliability of the voice recognition system, the score being a function of a number of correct responses and of a number of incorrect responses to the plurality of voice commands.

Selon une variante, la pluralité de commandes vocales comprend au moins une commande vocale relative à un domaine non appris par le système de reconnaissance vocale.According to a variant, the plurality of voice commands comprises at least one voice command relating to a domain not learned by the voice recognition system.

Selon une autre variante, une note positive est assignée à une réponse correcte et une note négative est assignée à une réponse erronée.According to another variant, a positive mark is assigned to a correct answer and a negative mark is assigned to an incorrect answer.

Selon une variante additionnelle, une note égale à 0 est assignée à une réponse représentative de non compréhension d’une question par le système de reconnaissance vocale.According to an additional variant, a mark equal to 0 is assigned to a representative response of non-understanding of a question by the voice recognition system.

Selon une variante supplémentaire, la pluralité de commandes vocales est rendue par synthèse vocale.According to an additional variant, the plurality of voice commands are rendered by voice synthesis.

Selon encore une variante, le procédé comprend en outre une étape de déverrouillage du véhicule à partir de l’objet connecté.According to yet another variant, the method further comprises a step of unlocking the vehicle from the connected object.

Selon une variante supplémentaire, l’analyse met en œuvre un apprentissage par machine.According to an additional variant, the analysis implements machine learning.

Selon encore une variante, chaque réponse est comparée à une liste de réponses dans une table de correspondance associant questions et réponses attenduesAccording to yet another variant, each answer is compared with a list of answers in a correspondence table associating questions and expected answers

Selon un deuxième aspect, l’invention concerne un dispositif d’évaluation d’un système de reconnaissance vocale d’un véhicule, le dispositif comprenant une mémoire associée à un processeur configuré pour la mise en œuvre des étapes du procédé selon le premier aspect de l’invention.According to a second aspect, the invention relates to a device for evaluating a voice recognition system of a vehicle, the device comprising a memory associated with a processor configured for the implementation of the steps of the method according to the first aspect of the invention.

Selon une variante, le dispositif comprend en outre des moyens de synthèse vocale, au moins un microphone et au moins un haut-parleur.According to a variant, the device also comprises voice synthesis means, at least one microphone and at least one loudspeaker.

Selon un troisième aspect, l’invention concerne un programme d’ordinateur qui comporte des instructions adaptées pour l’exécution des étapes du procédé selon le premier aspect de l’invention, ceci notamment lorsque le programme d’ordinateur est exécuté par au moins un processeur.According to a third aspect, the invention relates to a computer program which comprises instructions adapted for the execution of the steps of the method according to the first aspect of the invention, this in particular when the computer program is executed by at least one processor.

Un tel programme d’ordinateur peut utiliser n’importe quel langage de programmation, et être sous la forme d’un code source, d’un code objet, ou d’un code intermédiaire entre un code source et un code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.Such a computer program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other desirable form.

Selon un quatrième aspect, l’invention concerne un support d’enregistrement lisible par un ordinateur sur lequel est enregistré un programme d’ordinateur comprenant des instructions pour l’exécution des étapes du procédé selon le premier aspect de l’invention.According to a fourth aspect, the invention relates to a computer-readable recording medium on which is recorded a computer program comprising instructions for the execution of the steps of the method according to the first aspect of the invention.

D’une part, le support d’enregistrement peut être n'importe quel entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une mémoire ROM, un CD-ROM ou une mémoire ROM de type circuit microélectronique, ou encore un moyen d'enregistrement magnétique ou un disque dur.On the one hand, the recording medium can be any entity or device capable of storing the program. For example, the medium may comprise a storage means, such as a ROM memory, a CD-ROM or a ROM memory of the microelectronic circuit type, or even a magnetic recording means or a hard disk.

D'autre part, ce support d’enregistrement peut également être un support transmissible tel qu'un signal électrique ou optique, un tel signal pouvant être acheminé via un câble électrique ou optique, par radio classique ou hertzienne ou par faisceau laser autodirigé ou par d'autres moyens. Le programme d’ordinateur selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.On the other hand, this recording medium can also be a transmissible medium such as an electrical or optical signal, such a signal being able to be conveyed via an electrical or optical cable, by conventional or hertzian radio or by self-directed laser beam or by other ways. The computer program according to the invention can in particular be downloaded from an Internet-type network.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme d’ordinateur est incorporé, le circuit intégré étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.Alternatively, the recording medium may be an integrated circuit in which the computer program is incorporated, the integrated circuit being adapted to execute or to be used in the execution of the method in question.

Brève description des figuresBrief description of figures

D’autres caractéristiques et avantages de l’invention ressortiront de la description des modes de réalisation non limitatifs de l’invention ci-après, en référence aux figures 1 à 3 annexées, sur lesquelles :Other characteristics and advantages of the invention will emerge from the description of the non-limiting embodiments of the invention below, with reference to the appended figures 1 to 3, in which:

illustre de façon schématique un système de reconnaissance vocale en communication avec un dispositif d’évaluation de ce système de reconnaissance vocale, selon un exemple de réalisation particulier de la présente invention ; schematically illustrates a voice recognition system in communication with a device for evaluating this voice recognition system, according to a particular embodiment of the present invention;

illustre schématiquement le dispositif d’évaluation du système de reconnaissance vocale de la figure 1, selon un exemple de réalisation particulier de la présente invention ; schematically illustrates the device for evaluating the voice recognition system of FIG. 1, according to a particular embodiment of the present invention;

illustre un organigramme des différentes étapes d’un procédé d’évaluation d’un système de reconnaissance vocale d’un véhicule, selon un exemple de réalisation particulier de la présente invention. illustrates a flowchart of the different steps of a method for evaluating a voice recognition system of a vehicle, according to a particular embodiment of the present invention.

Un procédé et un dispositif d’évaluation d’un système de reconnaissance vocale, par exemple embarqué dans un véhicule, vont maintenant être décrits dans ce qui va suivre en référence conjointement aux figures 1 à 3. Des mêmes éléments sont identifiés avec des mêmes signes de référence tout au long de la description qui va suivre.A method and a device for evaluating a voice recognition system, for example on board a vehicle, will now be described in the following with reference in conjunction with FIGS. 1 to 3. The same elements are identified with the same signs reference throughout the following description.

Selon un exemple particulier et non limitatif de réalisation de l’invention, un procédé d’évaluation d’un système de reconnaissance vocale d’un véhicule comprend le rendu, par exemple par synthèse vocale, de plusieurs commandes vocales pour tester la fiabilité ou la performance du système de reconnaissance vocale. Chaque réponse du système de reconnaissance vocale à une question est analysée pour déterminer une note représentant la fiabilité ou la performance du système de reconnaissance vocale. La note est avantageusement fonction du nombre de réponses correctes aux questions posées mais aussi du nombre de questions erronées aux questions posées, une réponse erronée correspondant à une réponse hors sujet, sans rapport avec la question posée.According to a particular and non-limiting embodiment of the invention, a method for evaluating a voice recognition system of a vehicle comprises the rendering, for example by voice synthesis, of several voice commands to test the reliability or the performance of the voice recognition system. Each voice recognition system response to a question is analyzed to determine a score representing the reliability or performance of the voice recognition system. The score is advantageously a function of the number of correct answers to the questions asked but also of the number of erroneous questions to the questions asked, an erroneous answer corresponding to an off-topic answer, unrelated to the question asked.

La prise en compte des réponses erronées pour établir une note de fiabilité permet de juger de la réelle performance ou pertinence du système de reconnaissance vocale, et non pas de sa simple capacité à reconnaitre les mots prononcés dans les commandes vocales. L’évaluation du système est ainsi améliorée en ce qu’elle est plus complète en jugeant de la pertinence des réponses apportées aux commandes vocales.Taking erroneous answers into account to establish a reliability score makes it possible to judge the real performance or relevance of the voice recognition system, and not its simple ability to recognize the words spoken in voice commands. The evaluation of the system is thus improved in that it is more complete in judging the relevance of the responses given to voice commands.

illustre schématiquement un dispositif d’évaluation en communication avec un système de reconnaissance vocale 11, selon un exemple de réalisation particulier et non limitatif de la présente invention. schematically illustrates an evaluation device in communication with a voice recognition system 11, according to a particular and non-limiting embodiment of the present invention.

Le dispositif d’évaluation 10 et le système de reconnaissance vocale sont dits en communication en ce qu’il échange des questions et des réponses, le dispositif d’évaluation 10 posant par exemple un ensemble de commandes vocales de test, par exemple par synthèse vocale, et le système de reconnaissance vocale fournissant des réponses en retour, également par synthèse vocale par exemple.The evaluation device 10 and the voice recognition system are said to be in communication in that it exchanges questions and answers, the evaluation device 10 for example posing a set of test voice commands, for example by voice synthesis , and the voice recognition system providing answers in return, also by voice synthesis for example.

Le dispositif d’évaluation 10 correspond par exemple à un ordinateur équipé d’un ou plusieurs microphones et d’un ou plusieurs haut-parleurs pour le rendu de commandes vocales. Une description plus détaillée d’un tel dispositif est présente dans le texte ci-dessous en regard de la figure 2.The evaluation device 10 corresponds for example to a computer equipped with one or more microphones and one or more loudspeakers for rendering voice commands. A more detailed description of such a device is presented in the text below next to Figure 2.

Le système de reconnaissance vocale 11 correspond par exemple à un ordinateur équipé d’un ou plusieurs microphones pour capter les signaux électroacoustiques correspondant aux commandes vocales rendues par le dispositif 10. Le système de reconnaissance vocale comprend également un ou plusieurs haut-parleurs pour rendre des réponses aux commandes vocales reçues.The voice recognition system 11 corresponds for example to a computer equipped with one or more microphones to pick up the electroacoustic signals corresponding to the voice commands given by the device 10. The voice recognition system also comprises one or more loudspeakers to make responses to voice commands received.

Le système de reconnaissance vocale 11 met par exemple en œuvre un traitement acoustique pour extraire des signaux acoustiques reçus une ou plusieurs images acoustiques, le signal étant par exemple numérisé et paramétré par analyse fréquentielle, en utilisant par exemple la transformée de Fourier. Un apprentissage automatique associant segments élémentaires de la parole et éléments lexicaux est également mise en œuvre en s’appuyant par exemple sur une modélisation statistique et/ou sur des réseaux de neurones artificiels. Les modèles issus de la modélisation précédente sont ensuite par exemple décodés pour reconstituer la commande vocale la plus probable.The voice recognition system 11 for example implements acoustic processing to extract from the acoustic signals received one or more acoustic images, the signal being for example digitized and parameterized by frequency analysis, using for example the Fourier transform. Automatic learning associating elementary segments of speech and lexical elements is also implemented, for example based on statistical modeling and/or on artificial neural networks. The models resulting from the preceding modeling are then for example decoded to reconstitute the most probable voice command.

Le système 11 s’appuie par exemple sur des modèles de langage, de prononciation et acoustico-phonétique.System 11 is based, for example, on language, pronunciation and acoustico-phonetic models.

Le système de reconnaissance vocale 11 est par exemple configuré pour répondre à des commandes vocales relatives à un ou plusieurs domaines déterminés, par exemple des commandes vocales relatives à la navigation, des commandes vocales relatives au système multimédia, des commandes vocales relatives à la météorologie, etc. Le ou les domaines gérés par le système de reconnaissance vocale 11 ont ainsi fait l’objet d’un apprentissage. Un ou plusieurs domaines ne sont pas gérés par le système de reconnaissance vocale 11, telle que le domaine de la météorologie dans l’exemple qui va suivre, cet exemple étant bien entendu purement illustratif et non limitatif.The voice recognition system 11 is for example configured to respond to voice commands relating to one or more determined domains, for example voice commands relating to navigation, voice commands relating to the multimedia system, voice commands relating to meteorology, etc The domain or domains managed by the voice recognition system 11 have thus been the subject of learning. One or more domains are not managed by the voice recognition system 11, such as the domain of meteorology in the following example, this example being of course purely illustrative and not limiting.

C’est par le biais de ces échanges de commandes vocales et de réponses que le dispositif d’évaluation 10 teste et évalue le niveau de performance ou de fiabilité du système de reconnaissance vocale 11.It is through these exchanges of voice commands and responses that the evaluation device 10 tests and evaluates the level of performance or reliability of the voice recognition system 11.

Dans une première opération, plusieurs commandes vocales sont rendues par le dispositif d’évaluation, par exemple par synthèse vocale, ces commandes étant rendues par le biais d’un ou plusieurs haut-parleurs équipant le dispositif d’évaluation ou connectés à ce dernier, par exemple via une connexion filaire ou sans fil (par exemple une connexion Bluetooth®). Chaque commande vocale correspond par exemple à une question déterminée posée au système de reconnaissance vocale 11.In a first operation, several voice commands are given by the evaluation device, for example by voice synthesis, these commands being given through one or more loudspeakers fitted to the evaluation device or connected to the latter, for example via a wired or wireless connection (for example a Bluetooth® connection). Each voice command corresponds for example to a determined question posed to the voice recognition system 11.

L’ensemble de commandes vocales rendues comprend avantageusement une ou plusieurs questions relatives à un ou plusieurs domaines contrôlés et appris par le système de reconnaissance vocales, par exemple des questions relatives à la navigation. Cet ensemble de commandes vocales rendues comprend avantageusement une ou plusieurs questions relatives à un ou plusieurs domaines non contrôlés et non appris par le système de reconnaissance vocales, par exemple une ou plusieurs questions relatives à la météorologie et/ou au système multimédia (par exemple la radio).The set of rendered voice commands advantageously comprises one or more questions relating to one or more domains controlled and learned by the voice recognition system, for example questions relating to navigation. This set of rendered voice commands advantageously comprises one or more questions relating to one or more areas not controlled and not learned by the voice recognition system, for example one or more questions relating to the meteorology and/or to the multimedia system (for example the radio).

Le tableau ci-dessous présente quelques exemples de commandes vocales posées par le dispositif d’évaluation 10 et le domaine associé. Ce tableau présente 2 commandes relatives à un domaine géré et appris par le système 11 (à savoir le domaine de la navigation) et 2 commandes vocales relatives à 2 domaines non gérés et non appris par le système 11 (à savoir la musique/multimédia d’une part et la météorologie d’autre part).The table below shows some examples of voice commands asked by the evaluation device 10 and the associated domain. This table shows 2 commands relating to an area managed and learned by system 11 (i.e. the navigation area) and 2 voice commands relating to 2 areas not managed and not learned by system 11 (i.e. music/multimedia d on the one hand and meteorology on the other).

Commande vocaleVoice command DomaineDomain Naviguer vers ParisNavigate to Paris NavigationNavigation Naviguer vers Route de Gizy à VélizyNavigate to Route de Gizy à Vélizy NavigationNavigation Ecouter BeyoncePlay Beyonce Musique / MultimédiaMusic / Multimedia Quel temps fera-t-il à l’arrivée à ParisWhat will the weather be like on arrival in Paris MétéorologieMeteorology

Bien entendu, le nombre de commandes vocales n’est pas limité à 4 mais s’étend à tout nombre, par exemple 10, 20, 30, 50 ou 100 commandes vocales.Of course, the number of voice commands is not limited to 4 but extends to any number, for example 10, 20, 30, 50 or 100 voice commands.

Les commandes vocales rendues sont par exemple extraites d’une liste de commandes vocales enregistrées dans le dispositif de détection 10 et sorties au hasard, en fonction du nombre de commandes vocales voulues. Ce nombre et/ou les domaines d’interrogation correspondent par exemple à des paramètres déterminés et entrés par un utilisateur, par exemple au travers d’une IHM (par exemple une IHM graphique affiché sur un écran, par exemple tactile). Selon une variante, ce nombre et/ou les domaines sont choisis au hasard par le dispositif ou de manière déterministe selon une ou plusieurs règles déterminées.The rendered voice commands are for example extracted from a list of voice commands recorded in the detection device 10 and output at random, depending on the number of voice commands desired. This number and/or the question fields correspond for example to parameters determined and entered by a user, for example through an HMI (for example a graphic HMI displayed on a screen, for example touchscreen). According to a variant, this number and/or the domains are chosen randomly by the device or in a deterministic manner according to one or more determined rules.

Dans une deuxième opération, le dispositif 10 analyse les réponses fournies par le système 11 aux commandes vocales rendues à l’opération précédentes. Ces réponses sont par exemple fournies sous la forme de réponses vocales par le système 11 et capturés par un ou plusieurs microphones du dispositif 10. Ce ou ces microphones sont par exemple intégrés au dispositif 10 ou reliés au dispositif 10, par exemple via une liaison filaire ou sans file (par exemple une connexion Bluetooth®).In a second operation, the device 10 analyzes the responses provided by the system 11 to the voice commands given to the previous operation. These responses are for example provided in the form of voice responses by the system 11 and captured by one or more microphones of the device 10. This or these microphones are for example integrated into the device 10 or connected to the device 10, for example via a wired connection or wireless (for example a Bluetooth® connection).

Le tableau ci-dessous présente les réponses du système 11 aux commandes vocales du tableau 1.The table below shows the System 11 responses to the voice commands in Table 1.

Commande vocaleVoice command RéponseAnswer Naviguer vers ParisNavigate to Paris Navigation vers Paris lancéeNavigation to Paris launched Naviguer vers Route de Gizy à VélizyNavigate to Route de Gizy à Vélizy Navigation vers Vélizy Route de Gizy lancéeNavigation to Vélizy Route de Gizy launched Ecouter BeyoncePlay Beyonce Je n’ai pas compris la questionI did not understand the question Quel temps fera-t-il à l’arrivée à ParisWhat will the weather be like on arrival in Paris Il reste 10 minutes pour arriver à destination10 minutes left to reach destination

Une analyse de chacune des réponses aux commandes vocales est avantageusement mise en œuvre par le dispositif 10 pour déterminer. A cet effet, chaque réponse est par exemple classifiée dans une des catégories suivantes :An analysis of each of the responses to the voice commands is advantageously implemented by the device 10 to determine. For this purpose, each response is for example classified into one of the following categories:

- réponse correcte, c’est-à-dire que la réponse est en rapport avec le domaine de la commande vocale posée et correspond à la commande vocale posée ;- correct answer, i.e. the answer is related to the domain of the voice command asked and corresponds to the voice command asked;

- réponse erronée, c’est-à-dire que la réponse est sans rapport avec le domaine de la commande vocale posée (par exemple la réponse correspond à un domaine géré et appris par le système 11 mais ne correspond pas au domaine de la commande vocale) et ne correspond pas à la commande vocale posée ;- erroneous answer, that is to say that the answer is unrelated to the domain of the voice command asked (for example the answer corresponds to a domain managed and learned by the system 11 but does not correspond to the domain of the command voice) and does not match the spoken command;

- réponse à commande non comprise, c’est-à-dire que la réponse fait état du fait que le système n’a pas compris la commande vocale.- command response not understood, i.e. the response states that the system did not understand the voice command.

En reprenant l’exemple du tableau 2, le tableau ci-dessous associe chaque réponse à une catégorie.Returning to the example of Table 2, the table below associates each response with a category.

RéponseAnswer CatégorieCategory Navigation vers Paris lancéeNavigation to Paris launched Réponse correcteCorrect answer Navigation vers Vélizy Route de Gizy lancéeNavigation to Vélizy Route de Gizy launched Réponse correcteCorrect answer Je n’ai pas compris la questionI did not understand the question Réponse à commande non compriseResponse to command not included Il reste 10 minutes pour arriver à destination10 minutes left to reach destination Réponse erronéeWrong answer

L’analyse met par exemple une méthode d’apprentissage par machine (de l’anglais « machine learning ») pour classifier les réponses. Selon une variante de réalisation, chaque réponse est comparée à une liste de réponse dans une table de correspondance, dite LUT (de l’anglais « Look-Up Table ») associant questions et réponses attendues, permettant ainsi de classifier les réponses. Cette table de correspondance est par exemple enrichie via une méthode d’apprentissage par machine.The analysis uses, for example, a machine learning method to classify the responses. According to a variant embodiment, each answer is compared to a list of answers in a correspondence table, called LUT (from the English "Look-Up Table") associating questions and expected answers, thus making it possible to classify the answers. This correspondence table is for example enriched via a machine learning method.

Dans une troisième opération, le dispositif 10 détermine une note représentative de la fiabilité et/ou la performance du système de reconnaissance vocale 11 à partir des réponses aux commandes vocales, notamment à partir du nombre de réponses correctes et du nombre de réponses erronées. Ainsi, une note est par exemple attribuée à chaque réponse pour déterminer une note finale au système 11. Une note positive (par exemple + 1) est par exemple attribuée à chaque réponse correcte et une note négative (par exemple – 1) est par exemple attribuée à chaque réponse erronée. Une note neutre (par exemple 0) est par exemple attribuée à chaque réponse à commande non comprise. Une telle notation permet de prendre en compte les notes erronées qui sont plus gênantes pour un utilisateur (car fausses et pouvant induire l’utilisateur en erreur) qu’une réponse à commande non comprise et énoncée comme telle (une réponse annonçant que la commande n’a pas été comprise est généralement mieux acceptée qu’une réponse fausse ou erronée).In a third operation, the device 10 determines a score representing the reliability and/or the performance of the voice recognition system 11 from the responses to the voice commands, in particular from the number of correct responses and the number of incorrect responses. Thus, a score is for example assigned to each response to determine a final score in the system 11. A positive score (for example +1) is for example assigned to each correct response and a negative score (for example -1) is for example attributed to each incorrect answer. A neutral score (for example 0) is for example assigned to each command response not understood. Such a notation makes it possible to take into account erroneous notes which are more annoying for a user (because they are false and could mislead the user) than a response to a command not understood and stated as such (a response announcing that the command n was not understood is generally better accepted than a false or erroneous answer).

Le tableau ci-dessous associe une note à chaque réponse.The table below assigns a score to each response.

RéponseAnswer Note ou cotationRating or rating Navigation vers Paris lancéeNavigation to Paris launched +1+1 Navigation vers Vélizy Route de Gizy lancéeNavigation to Vélizy Route de Gizy launched +1+1 Je n’ai pas compris la questionI did not understand the question 00 Il reste 10 minutes pour arriver à destination10 minutes left to reach destination -1-1

La note finale attribuée au système 11 correspond à la moyenne des notes attribuées à chaque réponse, c’est-à-dire à la somme de chaque note divisée par le nombre de questions (ou de manière équivalente le nombre de réponses).The final mark assigned to System 11 corresponds to the average of the marks assigned to each answer, i.e. the sum of each mark divided by the number of questions (or equivalently the number of answers).

Selon l’exemple de la figure 1, la note attribuée au système 11 est de 0.25, soit 25 % de réponse correcte.According to the example in Figure 1, the score assigned to system 11 is 0.25, or 25% correct answer.

Bien entendu, une autre notation pourrait être adoptée, par exemple +2 pour chaque réponse correcte, +1 pour une réponse indiquant que la commande n’a pas été comprise et -2 ou -3 pour une réponse erronée.Of course, another notation could be adopted, for example +2 for each correct answer, +1 for an answer indicating that the command was not understood and -2 or -3 for an incorrect answer.

Par opposition à une évaluation selon laquelle seul le ou les domaines gérés ou appris par le système 11 sont testés (où une note ou cotation de 100 % aurait été obtenue), l’évaluation de la présente invention est plus représentative d’une utilisation réelle d’un système de navigation de véhicule où l’utilisateur peut poser toute question, même des questions relatives à des domaines non appris par le système 11. Selon le procédé d’évaluation de l’invention, les réponses erronées ou fausses sont sanctionnées en assignant une note négative, ce qui permet de rendre l’évaluation plus représentative d’une utilisation réelle et d’une satisfaction client vis-à-vis de l’utilisation du système de reconnaissance vocale 11.As opposed to an evaluation according to which only the domain or domains managed or learned by the system 11 are tested (where a score or rating of 100% would have been obtained), the evaluation of the present invention is more representative of an actual use. of a vehicle navigation system where the user can ask any question, even questions relating to areas not learned by the system 11. According to the evaluation method of the invention, the erroneous or false answers are sanctioned by assigning a negative rating, which makes the evaluation more representative of real use and customer satisfaction with the use of the voice recognition system 11.

illustre schématiquement un dispositif 10 configuré pour évaluer un système de reconnaissance vocale, par exemple pour un véhicule, , selon un exemple de réalisation particulier et non limitatif de la présente invention.. schematically illustrates a device 10 configured to evaluate a voice recognition system, for example for a vehicle, according to a particular and non-limiting embodiment of the present invention.

Le dispositif 10 est par exemple configuré pour la mise en œuvre des opérations décrites en regard de la figure 1 et/ou des étapes du procédé décrit en regard de la figure 3. Des exemples d’un tel dispositif 10 comprennent, sans y être limités, un ordinateur, un téléphone intelligent (de l’anglais « smartphone »), une tablette, un calculateur. Les éléments du dispositif 10, individuellement ou en combinaison, peuvent être intégrés dans un unique circuit intégré, dans plusieurs circuits intégrés, et/ou dans des composants discrets. Le dispositif 10 peut être réalisé sous la forme de circuits électroniques ou de modules logiciels (ou informatiques) ou encore d’une combinaison de circuits électroniques et de modules logiciels.The device 10 is for example configured for the implementation of the operations described with regard to FIG. 1 and/or the steps of the method described with regard to FIG. 3. Examples of such a device 10 comprise, without being limited thereto , computer, smart phone, tablet, calculator. The elements of device 10, individually or in combination, can be integrated in a single integrated circuit, in several integrated circuits, and/or in discrete components. The device 10 can be made in the form of electronic circuits or software (or computer) modules or else a combination of electronic circuits and software modules.

Le dispositif 10 comprend un (ou plusieurs) processeur(s) 20 configurés pour exécuter des instructions pour la réalisation des étapes du procédé et/ou pour l’exécution des instructions du ou des logiciels embarqués dans le dispositif 10. Le processeur 20 peut inclure de la mémoire intégrée, une interface d’entrée/sortie, et différents circuits connus de l’homme du métier. Le dispositif 10 comprend en outre au moins une mémoire 21 correspondant par exemple une mémoire volatile et/ou non volatile et/ou comprend un dispositif de stockage mémoire qui peut comprendre de la mémoire volatile et/ou non volatile, telle que EEPROM, ROM, PROM, RAM, DRAM, SRAM, flash, disque magnétique ou optique.The device 10 comprises one (or more) processor(s) 20 configured to execute instructions for carrying out the steps of the method and/or for executing the instructions of the software or software embedded in the device 10. The processor 20 can include integrated memory, an input/output interface, and various circuits known to those skilled in the art. The device 10 further comprises at least one memory 21 corresponding for example to a volatile and/or non-volatile memory and/or comprises a memory storage device which can comprise volatile and/or non-volatile memory, such as EEPROM, ROM, PROM, RAM, DRAM, SRAM, flash, magnetic or optical disk.

Le code informatique du ou des logiciels embarqués comprenant les instructions à charger et exécuter par le processeur est par exemple stocké sur la première mémoire 21.The computer code of the on-board software or software comprising the instructions to be loaded and executed by the processor is for example stored on the first memory 21.

Selon un mode de réalisation particulier et non limitatif, le dispositif 10 comprend un bloc 22 d’éléments d’interface pour communiquer avec des dispositifs externes, par exemple un serveur distant ou le « cloud ». Les éléments d’interface du bloc 22 comprennent une ou plusieurs des interfaces suivantes :According to a particular and non-limiting embodiment, the device 10 comprises a block 22 of interface elements for communicating with external devices, for example a remote server or the "cloud". Block 22 interface elements include one or more of the following interfaces:

- interface radiofréquence RF, par exemple de type Bluetooth® ou Wi-Fi®, LTE (de l’anglais « Long-Term Evolution » ou en français « Evolution à long terme »), LTE-Advanced (ou en français LTE-avancé) ;- RF radiofrequency interface, for example of the Bluetooth® or Wi-Fi® type, LTE (from English "Long-Term Evolution" or in French "Evolution à long terme"), LTE-Advanced (or in French LTE-avanced );

- interface USB (de l’anglais « Universal Serial Bus » ou « Bus Universel en Série » en français) ;- USB interface (from English "Universal Serial Bus" or "Bus Universel en Série" in French);

- interface HDMI (de l’anglais « High Definition Multimedia Interface », ou « Interface Multimedia Haute Definition » en français).- HDMI interface (from the English "High Definition Multimedia Interface", or "Interface Multimedia Haute Definition" in French).

Selon un autre mode de réalisation particulier, le dispositif 10 comprend une interface de communication 23 qui permet d’établir une communication avec d’autres dispositifs via un canal de communication 230. L’interface de communication 23 correspond par exemple à un transmetteur configuré pour transmettre et recevoir des informations et/ou des données via le canal de communication 230.According to another particular embodiment, the device 10 comprises a communication interface 23 which makes it possible to establish communication with other devices via a communication channel 230. The communication interface 23 corresponds for example to a transmitter configured to transmit and receive information and/or data via the communication channel 230.

Selon un mode de réalisation particulier supplémentaire, le dispositif 10 peut fournir et/ou recevoir des signaux de sortie à un ou plusieurs dispositifs externes, tels qu’un ou plusieurs microphones 240, un ou des haut-parleurs 250 et/ou un écran 260 via respectivement des interfaces d’entrée/sortie 24, 25 et 26. Selon une variante, l’un ou l’autre des dispositifs externes est intégré au dispositif 10. L’écran d’affichage 240 correspond par exemple à l’écran, tactile ou non.According to an additional particular embodiment, the device 10 can supply and/or receive output signals to one or more external devices, such as one or more microphones 240, one or more loudspeakers 250 and/or a screen 260 respectively via input/output interfaces 24, 25 and 26. According to a variant, one or the other of the external devices is integrated into the device 10. The display screen 240 corresponds for example to the screen, touch or not.

illustre un organigramme des différentes étapes d’un procédé d’évaluation d’un système de reconnaissance vocale, selon un exemple de réalisation particulier et non limitatif de la présente invention. Le procédé est avantageusement mis en œuvre dans le dispositif 10. illustrates a flowchart of the different steps of a method for evaluating a voice recognition system, according to a particular and non-limiting embodiment of the present invention. The method is advantageously implemented in the device 10.

Dans une première étape 31, plusieurs commandes vocales sont rendues.In a first step 31, several voice commands are rendered.

Dans une deuxième étape 32, chaque réponse du système de reconnaissance vocale à chaque commande vocale est analysée.In a second step 32, each response from the voice recognition system to each voice command is analyzed.

Dans une troisième étape 33, une note représentative d’une fiabilité du système de reconnaissance vocale est déterminée. Cette note est avantageusement fonction d’un nombre de réponses correctes et d’un nombre de réponses erronées aux commandes vocales rendues à la première étape.In a third step 33, a score representative of a reliability of the voice recognition system is determined. This score is advantageously a function of a number of correct responses and a number of incorrect responses to the voice commands given in the first step.

Les étapes 31 à 33 sont par exemple réitérées lors d’une mise à jour du système de reconnaissance vocale, par exemple lorsqu’un nouveau domaine est appris par le système de reconnaissance vocale.Steps 31 to 33 are for example reiterated during an update of the voice recognition system, for example when a new domain is learned by the voice recognition system.

Claims (10)

Procédé d’évaluation d’un système de reconnaissance vocale (11), ledit procédé étant mis en œuvre par un dispositif d’évaluation (10) comprenant au moins un processeur, ledit procédé comprenant les étapes suivantes :
- rendu (31) d’une pluralité de commandes vocales ;
- analyse (32) de chaque réponse dudit système de reconnaissance vocale (11) à chaque commande vocale de ladite pluralité de commandes vocales ;
- détermination (33) d’une note représentative d’une fiabilité dudit système de reconnaissance vocale (11), ladite note étant fonction d’un nombre de réponses correctes et d’un nombre de réponses erronées à ladite pluralité de commandes vocales.
Method for evaluating a speech recognition system (11), said method being implemented by an evaluation device (10) comprising at least one processor, said method comprising the following steps:
- rendering (31) of a plurality of voice commands;
- analysis (32) of each response of said voice recognition system (11) to each voice command of said plurality of voice commands;
- determination (33) of a score representative of a reliability of said voice recognition system (11), said score being a function of a number of correct responses and of a number of incorrect responses to said plurality of voice commands.
Procédé selon la revendication 1, pour lequel ladite pluralité de commandes vocales comprend au moins une commande vocale relative à un domaine non appris par ledit système de reconnaissance vocale (11).A method according to claim 1, wherein said plurality of voice commands includes at least one voice command relating to a domain not learned by said voice recognition system (11). Procédé selon la revendication 1 ou 2, pour lequel une note positive est assignée à une réponse correcte et une note négative est assignée à une réponse erronée.A method according to claim 1 or 2, wherein a positive mark is assigned to a correct answer and a negative mark is assigned to an incorrect answer. Procédé selon l’une des revendications 1 à 3, pour lequel une note égale à 0 est assignée à une réponse représentative de non compréhension d’une question par ledit système de reconnaissance vocale (11).Method according to one of Claims 1 to 3, for which a mark equal to 0 is assigned to an answer representative of non-understanding of a question by said voice recognition system (11). Procédé selon l’une des revendications 1 à 4, pour lequel ladite pluralité de commandes vocales est rendue par synthèse vocale.Method according to one of Claims 1 to 4, for which the said plurality of voice commands is rendered by voice synthesis. Procédé selon l’une des revendications 1 à 5, pour lequel ladite analyse (32) met en œuvre un apprentissage par machine.Method according to one of claims 1 to 5, for which said analysis (32) implements machine learning. Procédé selon l’une quelconque des revendications 1 à 6, pour lequel chaque réponse est comparée à une liste de réponse dans une table de correspondance associant questions et réponses attendues.Method according to any one of Claims 1 to 6, for which each answer is compared with a list of answers in a correspondence table associating questions and expected answers. Dispositif (10) d’évaluation d’un système de reconnaissance vocale d’un véhicule, ledit dispositif (10) comprenant une mémoire (21) associée à au moins un processeur (20) configuré pour la mise en œuvre des étapes du procédé selon l’une quelconque des revendications 1 à 7.Device (10) for evaluating a voice recognition system of a vehicle, said device (10) comprising a memory (21) associated with at least one processor (20) configured for the implementation of the steps of the method according to any of claims 1 to 7. Dispositif (10) selon la revendication 8, comprenant en outre des moyens de synthèse vocale, au moins un microphone (240) et au moins un haut-parleur (250).Device (10) according to claim 8, further comprising voice synthesis means, at least one microphone (240) and at least one loudspeaker (250). Produit programme d’ordinateur comportant des instructions adaptées pour l’exécution des étapes du procédé selon l’une des revendications 1 à 7, lorsque le programme d’ordinateur est exécuté par au moins un processeur.Computer program product comprising instructions adapted for the execution of the steps of the method according to one of Claims 1 to 7, when the computer program is executed by at least one processor.
FR1911911A 2019-10-24 2019-10-24 Method and device for evaluating a voice recognition system Withdrawn FR3102603A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1911911A FR3102603A1 (en) 2019-10-24 2019-10-24 Method and device for evaluating a voice recognition system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1911911A FR3102603A1 (en) 2019-10-24 2019-10-24 Method and device for evaluating a voice recognition system
FR1911911 2019-10-24

Publications (1)

Publication Number Publication Date
FR3102603A1 true FR3102603A1 (en) 2021-04-30

Family

ID=69903267

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1911911A Withdrawn FR3102603A1 (en) 2019-10-24 2019-10-24 Method and device for evaluating a voice recognition system

Country Status (1)

Country Link
FR (1) FR3102603A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040015350A1 (en) * 2002-07-16 2004-01-22 International Business Machines Corporation Determining speech recognition accuracy
US20050086055A1 (en) * 2003-09-04 2005-04-21 Masaru Sakai Voice recognition estimating apparatus, method and program
US9349365B2 (en) * 2013-03-14 2016-05-24 Accenture Global Services Limited Voice based automation testing for hands free module

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040015350A1 (en) * 2002-07-16 2004-01-22 International Business Machines Corporation Determining speech recognition accuracy
US20050086055A1 (en) * 2003-09-04 2005-04-21 Masaru Sakai Voice recognition estimating apparatus, method and program
US9349365B2 (en) * 2013-03-14 2016-05-24 Accenture Global Services Limited Voice based automation testing for hands free module

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEAN BOISEN ET AL: "A practical methodology for the evaluation of spoken language systems", APPLIED NATURAL LANGUAGE PROCESSING, ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, N. EIGHT STREET, STROUDSBURG, PA, 18360 07960-1961 USA, 31 March 1992 (1992-03-31), pages 162 - 169, XP058366432, DOI: 10.3115/974499.974529 *

Similar Documents

Publication Publication Date Title
US20230335116A1 (en) Multi-user authentication on a device
CN109514586B (en) Method and system for realizing intelligent customer service robot
CN109960723B (en) Interaction system and method for psychological robot
CN108682420B (en) Audio and video call dialect recognition method and terminal equipment
CN107818798A (en) Customer service quality evaluating method, device, equipment and storage medium
US10997965B2 (en) Automated voice processing testing system and method
CN111460111A (en) Evaluating retraining recommendations for automatic conversation services
WO2020029608A1 (en) Method and apparatus for detecting burr of electrode sheet
CN109710949B (en) Translation method and translator
CN111885375A (en) Method, device, server and system for testing double-recorded video
CN108428175A (en) A kind of big data analysis method and system based on consumer record
CN111462726B (en) Method, device, equipment and medium for answering out call
KR102171658B1 (en) Crowd transcription apparatus, and control method thereof
EP3588387A1 (en) Method for testing an electronic air traffic control system, associated electronic device and platform
CN105869631B (en) The method and apparatus of voice prediction
FR3102603A1 (en) Method and device for evaluating a voice recognition system
US11308510B2 (en) Methods and apparatus to collect and analyze rating information
CN108039081B (en) Robot teaching evaluation method and device
CN114840421A (en) Log data processing method and device
CN114639390A (en) Voice noise analysis method and system
CN113223496A (en) Voice skill testing method, device and equipment
CN112185186A (en) Pronunciation correction method and device, electronic equipment and storage medium
CN113705186B (en) Automatic reply method and device under message semantic analysis
CN112383593B (en) Intelligent content pushing method and device based on offline accompanying visit and computer equipment
FR2892846A1 (en) Audio segment representations similarity measurement calculating method for speaker tracking, involves attributing weighting factor, representing intraclass similarity measurement between representations, to basic similarity measurement

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210430

ST Notification of lapse

Effective date: 20220605