FR3135890A1

FR3135890A1 - Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé

Info

Publication number: FR3135890A1
Application number: FR2205043A
Authority: FR
Inventors: Nicolas WALLAERT; Hadrien JEAN
Original assignee: My Medical Assistant
Current assignee: My Medical Assistant
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-12-01
Also published as: WO2023228103A1

Abstract

Procédé de test d’audiométrie vocale d’un premier patient (200) comprenant les étapes suivantes : Première émission acoustique de l’enregistrement d’une expression linguistique comprenant au moins un phonème d’émission,Première réception acoustique d’une première réponse vocale du premier patient à la première émission acoustique comprenant un moins un phonème de réponse,Détermination, par un réseau de neurones artificiel comprenant une entrée et une sortie à partir d’une donnée en entrée obtenue à partir de la première réponse, d’une première chaine de caractères en sortie représentative du au moins un phonème de réponse,Comparaison de la première chaine de caractères avec une deuxième chaine de caractère, représentative dudit au moins phonème d’entrée, Figure pour l’abrégé : figure 1

Description

Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé

L’invention concerne un procédé d’audiométrie vocale.

Les procédés de test d’audiométrie vocale menés par un audiologiste permettent de déterminer la perception audio par un patient d’expressions linguistiques notamment de mots.

Ces procédés comprennent :

L’émission acoustique d’un enregistrement d’une expression linguistique,
La réception acoustique et la reconnaissance de la réponse d’un premier patient, et
La comparaison de l’expression +linguistique avec la réponse du patient.

La reconnaissance de la réponse est mise en œuvre par l’audiologiste ou plus généralement une personne (autrement dit : humain), ce qui nécessite la mobilisation d’une personne pendant toute la durée du test.

Pour remédier à cet inconvénient, l’invention concerne un procédé de test d’audiométrie vocale d’un premier patient comprenant les étapes suivantes :

Première émission acoustique d’un enregistrement d’une expression linguistique comprenant au moins un phonème d’émission (Le premier patient reproduit ensuite par la parole ce qu’il a entendu. Autrement dit il émet une réponse vocale) ,
Première réception acoustique d’une première réponse vocale du premier patient à la première émission acoustique comprenant un moins un phonème de réponse,
Détermination, par un réseau de neurones artificiel comprenant une entrée et une sortie, à partir d’une donnée en entrée obtenue à partir de la première réponse, d’une première chaine de caractères en sortie représentative du au moins un phonème de réponse,
Comparaison de la première chaine de caractères avec une deuxième chaine de caractère, représentative dudit au moins phonème d’entrée,

Le réseau de neurones artificiel étant entrainé, préalablement à l’étape de détermination, par la mise en œuvre (ou la répétition) des étapes d’entrainement suivantes (et le procédé de test peut comprendre ces étapes) :

Deuxième émission acoustique de l’expression (Le deuxième patient mentionné ci-dessous reproduit ensuite par la parole ce qu’il a entendu. Autrement dit il émet une réponse vocale),
Deuxième réception acoustique d’une deuxième réponse vocale d’un deuxième patient à la deuxième émission acoustique, la deuxième réponse comprenant au moins un phonème d’entrainement (la deuxième réponse est alors par exemple enregistrée en mémoire, par exemple, dans un fichier audio),
Ecoute de la deuxième réponse par un humain (donc par exemple du fichier audio),
Réception d’une troisième chaine de caractères représentative du au moins phonème d’entrainement,
Entrainement supervisé du réseau de neurones artificiel à partir de la deuxième réponse en entrée étiquetée par la troisième chaine de caractère (i.e. : l’entrainement du réseau de neurones tend à ce que le réseau de neurones produise en sortie la troisième chaine de caractère lorsque la deuxième réponse est reçue en entrée).

Ainsi, le réseau de neurones permet d’automatiser l’acquisition de la réponse du patient. L’entrainement du réseau de neurones à partir de l’expression permet :

D’éviter une surinterprétation comme dans les réseaux de neurones de reconnaissance vocale classiques (i.e. : les réseaux de neurones classiques recherchent le mot de la langue le plus proche, même si le patient n’a pas répondu ce mot)
Le réseau est entrainé pour reconnaitre la réponse d’un patient, même lorsque le mot répondu par le patient n’est pas un mot de la langue. Puisque le réseau est entrainé durant des test audiométriques vocaux, il reçoit des mots qui ne sont pas des mots de la langue (parce que les mots émis sont sans signification, ou parce que le patient répond avec une erreur).

Les étapes du procédé ci-dessus peuvent être répétées de manière à évaluer l’audition du premier patient, par exemple pour des mots différents en entrée (dans l’expression) pour lequel le réseau de neurones a été entrainée. L’intensité de l’émission acoustique peut varier durant cette répétition pour estimer les seuils d’intelligibilité vocale du patient.

Selon un mode de réalisation, l’expression est constituée d’un mot (ou plusieurs mots isolés) ou d’un mot (ou plusieurs mots) précédés d’un article isolé. En variante, l’expression est constituée de plus d’un mot (ou de plus de deux mots) ou d’une ou plusieurs phrases.

L’étape d’entrainement est préférentiellement répétée avec plusieurs deuxièmes patients différents au moins. Selon un mode de réalisation, l’étape d’entrainement est répétée (par exemple, au moins 10000 fois) pour, en entrée, moins de 300 expressions différentes (et par exemple, plus de 50 mots) constituant des listes, pour différents deuxièmes patients. Par exemple, ces listes sont les listes cochléaires de Lafon ou les listes dissyllabiques de Fournier ;

En variante, l’étape d’entrainement peut être répétée pour un nombre supérieur de mots.

L’entrée du réseau de neurones peut être constitué de plusieurs expressions. Il est effet plus efficace de permettre au réseau de neurones de travailler sur plusieurs expressions en même temps.

Par exemple, le réseau de neurones comprend une première partie, comprenant une première série de couches du réseau de neurones, apte à produire un vecteur encodant la donnée en entrée, et une deuxième partie, comprenant au moins une couche du réseau de neurones, apte à produire la première chaine de caractères en sortie à partir du vecteur, la première partie étant pré-entrainé (et le procédé peut comprendre cette étape de pré-entrainement), préalablement aux étapes d’entrainement, à partir de plus de 10000 , au moins, expressions (ou mots) différentes (et d’au plus 10000000 d’expressions différentes ou mots différents) en entrée.

Selon un mode de réalisation, au moins une portion de la première partie (par exemple, connexe avec l’entrée) est à poids (i.e. : des connexions entre les couches) fixes durant l’étape d’entrainement. Le reste du réseau de neurones, en dehors de la portion, est modifié durant l’entrainement.

En variante toute la première partie peut être entrainée.

La première partie est par exemple le réseau de neurones décrit dans l’article :

Alexei Baevski, Yuhao Zhou, Abdelrahman-Mohamed, Michael Auli : «wav2vec 2.0 : A Framework for Self-Supervised Learning of Speech Représentations » NeurIPS 2020.

Selon un mode de réalisation, dans cette première partie, les poids, de l’encodeur convolutionnel (noté f) de l’article qui produit une représentation latente de l’entrée sont fixes durant l’étape d’entrainement. Le reste de la première partie, en particulier le transformeur (note g) est modifié lors de l’entrainement.

D’autres réseaux de neurones que celui présenté dans cet article sont bien entendu envisageables.

La donnée est par exemple un fichier audio (ou une partie d’un fichier audio) comprenant l’enregistrement audio de la première réponse (par exemple selon un format dit « wav », en Anglais pour «Waveform Audio File Format » traduit en français par l’expression format audio de forme d’onde).

Selon un mode de réalisation, la première partie est pré-entrainée à partir d’une entrée tronquée (par exemple, on a supprimé certaines partie de l’enregistrement audio ).

En variante, la première partie est entrainée à partir de données labélisées.

Ainsi, à la suite du pré-entrainement, la première partie est apte à encoder un fichier audio (ou des données audio) en entrée en un vecteur comportant une représentation de contexte.

En variante, la donnée est un fichier image, par exemple un spectrogramme obtenu à partir de la première réponse vocale. Une telle approche est par exemple présentée pour une reconnaissance vocale générale dans l’article suivant :

Zhang, Wei, et al. « Towards end-to-end speech recognition with deep multipath convolutional neural networks. » International Conference on Intelligent Robotics and Applications. Springer, Cham, 2019.

Par exemple, les étapes d’entrainement comportent l’étape suivante :

Saisie, par un clavier, de la troisième chaine de caractères par l’humain, suite à l’étape d’écoute.

La saisie peut être réalisée par un clavier ou tout autre type d’interface homme-machine.

Le dispositif électronique mémorise par exemple l’enregistrement de l’expression sonore en mémoire.

La première émission acoustique de l’enregistrement d’une expression linguistique peut par exemple être réalisée par un casque audio ou un haut-parleur.

La deuxième émission acoustique de l’enregistrement d’une expression linguistique peut par exemple être également réalisée par un casque audio ou un haut parleur.

La première réception d’une première réponse et/ou la deuxième réception de la deuxième réponse est par exemple réalisée par un microphone.

Le réseau de neurones artificiel est par exemple un réseau convolutionnel. La première partie peut comporter un transformer. Dans le cas où la première partie est le réseau de neurones présentée dans l’article Alexei Baevski et al. ci-dessus, la deuxième partie peut être constituée d’une seule couche de sortie comprenant tous les phonèmes contenus dans les listes (le vecteur de sortie indique quels phonèmes étaient en entrée).

Le réseau de neurones artificiels peut être mis en œuvre par l’unité centrale qui peut avoir l’architecture d’un ordinateur, d’un microprocesseur et d’un microcontrôleur.

Suite à la comparaison de la première chaine de caractères avec la deuxième chaine de caractère, les capacités auditives du premier patient peuvent être déterminées de manière conventionnelle.

L’écoute de la deuxième réponse peut être réalisée par un casque audio.

Chacun des casques audios ci-dessus peut être remplacé par un haut-parleur.

Le procédé est mis en œuvre par exemple par un dispositif électronique.

L’invention concerne donc aussi un dispositif électronique de test audiométrique configuré pour mettre en œuvre les étapes du procédé selon l’invention.

L’invention concerne en outre un programme d’ordinateur comprenant des instructions, exécutables par un microprocesseur ou un microcontrôleur, pour la mise en œuvre du procédé selon l’invention, lorsque le programme d’ordinateur est exécuté par un microprocesseur ou un microcontrôleur.

Les caractéristiques et avantages du dispositif électronique et du programme d’ordinateur sont identiques à ceux du procédé, c’est pourquoi, ils ne sont pas repris ici.

On entend qu’un élément tel que le dispositif électronique, l’unité centrale, ou un autre élément est « configuré pour » réaliser une étape ou une opération, par le fait que l’élément comporte des moyens pour (autrement dit « est conformé pour » ou « est adapté pour ») réaliser l’étape ou l’opération. Il s’agit préférentiellement de moyens électroniques, par exemple un programme d’ordinateur, des données en mémoire et/ou des circuits électroniques spécialisés.

Lorsqu’une étape ou une opération est réalisée ou mis en œuvre par un tel élément, cela implique généralement que l’élément comporte des moyens pour (autrement dit « est conformé pour » ou « est adapté pour ») réaliser l’étape ou l’opération. Il s’agit également par exemple de moyens électroniques, par exemple un programme d’ordinateur, des données en mémoire et/ou des circuits électroniques spécialisés.

D’autres caractéristiques et avantages de la présente invention apparaitront plus clairement à la lecture de la description détaillée qui suit comprenant des modes de réalisation de l’invention donnés à titre d’exemples nullement limitatifs et illustrés par les dessins annexés, dans lesquels :

représente un dispositif électronique selon un mode de réalisation de l’invention.

représente un réseau de neurones artificiel selon l’invention

représente le procédé selon l’invention, dans un exemple de réalisation, mis en œuvre par le dispositif électronique de la .

Description détaillée d’un exemple de réalisation de l’invention

En référence à la , le réseau de neurones 400 comprend un première partie 430, comprenant une première série de couches du réseau de neurones, apte à produire un vecteur 450 encodant une donnée en entrée 410, et une deuxième partie 440, comprenant au moins une couche de neurones, apte à produire la première chaine de caractères en sortie 420 à partir du vecteur 450.

La donnée en entrée est par exemple un fichier audio comprenant l’expression (par exemple selon un format dit « wav », en Anglais pour «Waveform Audio File Format » traduit en français par l’expression format audio de forme d’onde).

Par exemple, le réseau de neurones 400 est mis en œuvre par l’unité centrale 110.

En référence aux figures 1, 2 et 3, à l’étape S10, la première partie 430 est pré-entrainé, préalablement aux étapes d’entrainement ci-dessous, à partir de centaines d’heures de fichiers audio en entrée 410, comprenant plus de 10000 expressions linguistiques différentes (et d’au plus 10000000 de moins premiers mots différents).

Préférentiellement, il s’agit d’expressions quelconques d’un langage naturel.

Il s’agit d’un entrainement auto-supervisé.

L’entrée 410 est par exemple tronquées (par exemple, on a supprimé certaines parties du fichier audio).

La première partie 430 est par exemple tel que celui décrit dans l’article :

Durant le pré-entrainement, par exemple, cette première partie 430 tente de prédire les parties tronquées de l’entrée 410 et/ou utilise un coût contractif (en anglais « constrative loss ») pour évaluer la performance et modifier les poids du réseau de neurones (Une fonction de coût quantifie l’erreur du réseau de neurones en comparaison de l’étiquette et représente le coût en fonction des combinaisons de paramètres du réseau de neurones).

Ainsi, à la suite du pré-entrainement, la première partie 430 est apte à encoder un fichier audio (ou des données audio) en entrée 410 en un vecteur 450 comportant une représentation les expressions linguistiques contenues dans le fichier audio.

Selon un mode de réalisation, dans cette première partie 430, les poids, de l’encodeur convolutionnel 431 (noté f) dans l’article Alexei Baevski et al. ci-dessus qui produit une représentation latente de l’entrée, sont fixes durant l’étape d’entrainement. Le reste 432 de la première partie 430, en particulier dans le transformeur (note g), dans l’article Alexei Baevski et al. ci-dessus, est modifié lors de l’entrainement.

La deuxième partie 440 peut être une seule couche de sortie comprenant tous les phonèmes contenus dans les listes (le vecteur de sortie indique quels phonèmes sont connnus). Un « softmax » et un « log » peuvent être appliqués à la sortie. Cette couche peut être linéaire, c’est-à-dire comportant une fonction d’activation linéaire.

A l’étape S20, le dispositif électronique 100 commande l’émission d’une expression linguistique par un casque 170.

L’expression linguistique est par exemple le mot « cru».

L’expression peut être constituée d’un seul mot ou d’un seul mot et d’un article précédent ce mot (comme par exemple « le rondin ») ou d’une phrase.

L’expression peut comprendre un logatome ( c’est-à-dire, un mot sans signification) ou être constitué de logatomes.

A l’étape S30, le patient 210 répond en reproduisant par la parole ce qu’il a entendu.

A l’étape S40, l’unité centrale 110 (qui a par exemple l’architecteur d’un ordinateur, d’un microprocesseur ou d’un microcontrôleur) reçoit la réponse vocale du patient, par l’intermédiaire du microphone 130 et l’enregistre en mémoire 111 sous la forme d’un fichier audio.

Par exemple, le patient 210 peut répondre « dru» en prononçant ce mot.

A l’étape S50, la réponse enregistrée est ensuite écoutée par l’opérateur humain 220 à l’aide du casque 180.

A l’étape S60, l’opérateur humain 220 saisi « dru » par le clavier 160 une chaine de caractères par l’opérateur 220.

A l’étape S70, la chaine de caractères « dru » est reçue du clavier 160 par l’unité centrale 110.

A l’étape S80, le réseau de neurone est entrainé à partir de la réponse enregistrée (sous la forme d’un fichier audio) en entrée 410 étiquetée par la chaine de caractère « dru ».

Les étapes d’entrainement S20, S30, S40, S50, S60, S70 et S80 sont répétées, pour des patients différents (par exemple, au moins dix mil fois), pour moins de 300 expressions différentes (et plus de 50 mots) en entrée 410.

Pour l’entrainement, la fonction de coût utilisée est par exemple de type classification temporelle connexionniste.

A l’étape S90, un test audiométrique sur un patient 200 est initié par le dispositif électronique 100. Pour simplifier la description de ce mode de réalisation, le pré-entrainement, l’entrainement sur le patient 210, et le test audiométrique sur le patient 200 sont réalisés par le même dispositif électronique 100, mais de manière générale, le plus souvent, ces trois étapes sont réalisées par des dispositifs différents.

A l’étape S90, l’expression « cru » est émise par l’unité centrale 110 à l’aide du casque 120. L’expression peut être mémorisé en mémoire 111.

Le patient 200 peut répondre par exemple « dru» en prononçant ce mot.

A l’étape S100, l’unité centrale 110 reçoit la réponse vocale « dru » du patient par l’intermédiaire du microphone 130 et l’enregistre sur la forme d’un fichier audio.

A l’étape S110, le réseau de neurones 400, mis en œuvre par l’unité centrale 110, détermine en sortie 420 la chaine de caractère « dru » à partir de la réponse du patient 200 sous forme de fichier audio en entrée 410 du réseau de neurones 400.

A l’étape S120, « cru » est comparé avec « dru » pour évaluer l’audition du patient 200.

Les étapes S90, S100, S110 et S120 peuvent être répétées pour des expressions différentes pour lequel le réseau de neurones 400 a été entrainée. Ainsi, l’audition du patient 200 est évaluée.

Le réseau de neurones artificiel 400 est par exemple un réseau convolutionnel. La première partie 430 peut comporter un transformer.

Claims

Procédé de test d’audiométrie vocale d’un premier patient (200) comprenant les étapes suivantes :
Première émission acoustique (S90) d’un enregistrement d’une expression linguistique comprenant au moins un phonème d’émission,

Première réception acoustique (S100) d’une première réponse vocale du premier patient à la première émission acoustique comprenant un moins un phonème de réponse,

Détermination (S110), par un réseau de neurones artificiel (400) comprenant une entrée (410) et une sortie (420), à partir d’une donnée en entrée (410) obtenue à partir de la première réponse, d’une première chaine de caractères en sortie (420) représentative du au moins un phonème de réponse,

Comparaison (120) de la première chaine de caractères avec une deuxième chaine de caractère, représentative dudit au moins phonème d’entrée,
Le réseau de neurones artificiel (400) étant entrainé, préalablement à l’étape de détermination, par la mise en œuvre des étapes d’entrainement suivantes :
Deuxième émission acoustique (S20) de l’expression,

Deuxième réception acoustique (S30) d’une deuxième réponse vocale d’un deuxième patient (210) à la deuxième émission acoustique, la deuxième réponse comprenant au moins un phonème d’entrainement,

Réception d’une troisième chaine de caractères (S70) représentative du au moins phonème d’entrainement,
Entrainement supervisé (S80) du réseau de neurones artificiel (400) à partir de la deuxième réponse en entrée (410) étiquetée par la troisième chaine de caractère.
Procédé de test d’audiométrie vocale selon la revendication 1 dans lequel l’expression est constituée d’un seul mot ou d’un seul mot et d’un article précédent ce mot.
Procédé de test d’audiométrie vocale selon la revendication 1 dans lequel l’expression est constituée de plus d’un mot.
Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel l’étape d’entrainement est répétée pour moins de 300 expressions différentes pour différents deuxièmes patients.
Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel le réseau de neurones (400) comprend une première partie (430), comprenant une première série de couches du réseau de neurones, apte à produire un vecteur (450) encodant la donnée en entrée (410), et une deuxième partie (440), comprenant au moins une couche de neurones, apte à produire la première chaine de caractères en sortie (420) à partir du vecteur (450).
Procédé de test d’audiométrie vocale selon la revendication précédente dans lequel la première partie (430) est pré-entrainée, préalablement aux étapes d’entrainement, à partir de plus de 10000, mots différents.
Procédé de test d’audiométrie vocale selon l’une quelconque la revendication précédente dans lequel la première partie (430) est pré-entrainée à partir d’une entrée (410) tronquée.
Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel la donnée est un fichier audio comprenant l’expression.
Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel les étapes d’entrainement comportent l’étape suivante :
Saisie, par un clavier, de la troisième chaine de caractères par un humain.
Dispositif électronique (100) de test audiométrique configuré pour mettre en œuvre les étapes du procédé selon l’une quelconque des revendications 1 à 9.
Programme d’ordinateur comprenant des instructions, exécutables par un microprocesseur ou un microcontrôleur, pour la mise en œuvre du procédé selon l’une quelconque des revendications 1 à 9, lorsque le programme d’ordinateur est exécuté par le microprocesseur ou le microcontrôleur.