FR3135890A1 - Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé - Google Patents

Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé Download PDF

Info

Publication number
FR3135890A1
FR3135890A1 FR2205043A FR2205043A FR3135890A1 FR 3135890 A1 FR3135890 A1 FR 3135890A1 FR 2205043 A FR2205043 A FR 2205043A FR 2205043 A FR2205043 A FR 2205043A FR 3135890 A1 FR3135890 A1 FR 3135890A1
Authority
FR
France
Prior art keywords
response
character string
training
neural network
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR2205043A
Other languages
English (en)
Inventor
Nicolas WALLAERT
Hadrien JEAN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
My Medical Assistant
Original Assignee
My Medical Assistant
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by My Medical Assistant filed Critical My Medical Assistant
Priority to FR2205043A priority Critical patent/FR3135890A1/fr
Priority to PCT/IB2023/055334 priority patent/WO2023228103A1/fr
Publication of FR3135890A1 publication Critical patent/FR3135890A1/fr
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/12Audiometering
    • A61B5/121Audiometering evaluating hearing capacity
    • A61B5/123Audiometering evaluating hearing capacity subjective methods
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

Procédé de test d’audiométrie vocale d’un premier patient (200) comprenant les étapes suivantes : Première émission acoustique de l’enregistrement d’une expression linguistique comprenant au moins un phonème d’émission,Première réception acoustique d’une première réponse vocale du premier patient à la première émission acoustique comprenant un moins un phonème de réponse,Détermination, par un réseau de neurones artificiel comprenant une entrée et une sortie à partir d’une donnée en entrée obtenue à partir de la première réponse, d’une première chaine de caractères en sortie représentative du au moins un phonème de réponse,Comparaison de la première chaine de caractères avec une deuxième chaine de caractère, représentative dudit au moins phonème d’entrée, Figure pour l’abrégé : figure 1

Description

Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé
L’invention concerne un procédé d’audiométrie vocale.
Les procédés de test d’audiométrie vocale menés par un audiologiste permettent de déterminer la perception audio par un patient d’expressions linguistiques notamment de mots.
Ces procédés comprennent :
  • L’émission acoustique d’un enregistrement d’une expression linguistique,
  • La réception acoustique et la reconnaissance de la réponse d’un premier patient, et
  • La comparaison de l’expression +linguistique avec la réponse du patient.
La reconnaissance de la réponse est mise en œuvre par l’audiologiste ou plus généralement une personne (autrement dit : humain), ce qui nécessite la mobilisation d’une personne pendant toute la durée du test.
Pour remédier à cet inconvénient, l’invention concerne un procédé de test d’audiométrie vocale d’un premier patient comprenant les étapes suivantes :
  • Première émission acoustique d’un enregistrement d’une expression linguistique comprenant au moins un phonème d’émission (Le premier patient reproduit ensuite par la parole ce qu’il a entendu. Autrement dit il émet une réponse vocale) ,
  • Première réception acoustique d’une première réponse vocale du premier patient à la première émission acoustique comprenant un moins un phonème de réponse,
  • Détermination, par un réseau de neurones artificiel comprenant une entrée et une sortie, à partir d’une donnée en entrée obtenue à partir de la première réponse, d’une première chaine de caractères en sortie représentative du au moins un phonème de réponse,
  • Comparaison de la première chaine de caractères avec une deuxième chaine de caractère, représentative dudit au moins phonème d’entrée,
Le réseau de neurones artificiel étant entrainé, préalablement à l’étape de détermination, par la mise en œuvre (ou la répétition) des étapes d’entrainement suivantes (et le procédé de test peut comprendre ces étapes) :
  • Deuxième émission acoustique de l’expression (Le deuxième patient mentionné ci-dessous reproduit ensuite par la parole ce qu’il a entendu. Autrement dit il émet une réponse vocale),
  • Deuxième réception acoustique d’une deuxième réponse vocale d’un deuxième patient à la deuxième émission acoustique, la deuxième réponse comprenant au moins un phonème d’entrainement (la deuxième réponse est alors par exemple enregistrée en mémoire, par exemple, dans un fichier audio),
  • Ecoute de la deuxième réponse par un humain (donc par exemple du fichier audio),
  • Réception d’une troisième chaine de caractères représentative du au moins phonème d’entrainement,
  • Entrainement supervisé du réseau de neurones artificiel à partir de la deuxième réponse en entrée étiquetée par la troisième chaine de caractère (i.e. : l’entrainement du réseau de neurones tend à ce que le réseau de neurones produise en sortie la troisième chaine de caractère lorsque la deuxième réponse est reçue en entrée).
Ainsi, le réseau de neurones permet d’automatiser l’acquisition de la réponse du patient. L’entrainement du réseau de neurones à partir de l’expression permet :
  • D’éviter une surinterprétation comme dans les réseaux de neurones de reconnaissance vocale classiques (i.e. : les réseaux de neurones classiques recherchent le mot de la langue le plus proche, même si le patient n’a pas répondu ce mot)
  • Le réseau est entrainé pour reconnaitre la réponse d’un patient, même lorsque le mot répondu par le patient n’est pas un mot de la langue. Puisque le réseau est entrainé durant des test audiométriques vocaux, il reçoit des mots qui ne sont pas des mots de la langue (parce que les mots émis sont sans signification, ou parce que le patient répond avec une erreur).
Les étapes du procédé ci-dessus peuvent être répétées de manière à évaluer l’audition du premier patient, par exemple pour des mots différents en entrée (dans l’expression) pour lequel le réseau de neurones a été entrainée. L’intensité de l’émission acoustique peut varier durant cette répétition pour estimer les seuils d’intelligibilité vocale du patient.
Selon un mode de réalisation, l’expression est constituée d’un mot (ou plusieurs mots isolés) ou d’un mot (ou plusieurs mots) précédés d’un article isolé. En variante, l’expression est constituée de plus d’un mot (ou de plus de deux mots) ou d’une ou plusieurs phrases.
L’étape d’entrainement est préférentiellement répétée avec plusieurs deuxièmes patients différents au moins. Selon un mode de réalisation, l’étape d’entrainement est répétée (par exemple, au moins 10000 fois) pour, en entrée, moins de 300 expressions différentes (et par exemple, plus de 50 mots) constituant des listes, pour différents deuxièmes patients. Par exemple, ces listes sont les listes cochléaires de Lafon ou les listes dissyllabiques de Fournier ;
En variante, l’étape d’entrainement peut être répétée pour un nombre supérieur de mots.
L’entrée du réseau de neurones peut être constitué de plusieurs expressions. Il est effet plus efficace de permettre au réseau de neurones de travailler sur plusieurs expressions en même temps.
Par exemple, le réseau de neurones comprend une première partie, comprenant une première série de couches du réseau de neurones, apte à produire un vecteur encodant la donnée en entrée, et une deuxième partie, comprenant au moins une couche du réseau de neurones, apte à produire la première chaine de caractères en sortie à partir du vecteur, la première partie étant pré-entrainé (et le procédé peut comprendre cette étape de pré-entrainement), préalablement aux étapes d’entrainement, à partir de plus de 10000 , au moins, expressions (ou mots) différentes (et d’au plus 10000000 d’expressions différentes ou mots différents) en entrée.
Selon un mode de réalisation, au moins une portion de la première partie (par exemple, connexe avec l’entrée) est à poids (i.e. : des connexions entre les couches) fixes durant l’étape d’entrainement. Le reste du réseau de neurones, en dehors de la portion, est modifié durant l’entrainement.
En variante toute la première partie peut être entrainée.
La première partie est par exemple le réseau de neurones décrit dans l’article :
Alexei Baevski, Yuhao Zhou, Abdelrahman-Mohamed, Michael Auli : «wav2vec 2.0 : A Framework for Self-Supervised Learning of Speech Représentations » NeurIPS 2020.
Selon un mode de réalisation, dans cette première partie, les poids, de l’encodeur convolutionnel (noté f) de l’article qui produit une représentation latente de l’entrée sont fixes durant l’étape d’entrainement. Le reste de la première partie, en particulier le transformeur (note g) est modifié lors de l’entrainement.
D’autres réseaux de neurones que celui présenté dans cet article sont bien entendu envisageables.
La donnée est par exemple un fichier audio (ou une partie d’un fichier audio) comprenant l’enregistrement audio de la première réponse (par exemple selon un format dit « wav », en Anglais pour «Waveform Audio File Format » traduit en français par l’expression format audio de forme d’onde).
Selon un mode de réalisation, la première partie est pré-entrainée à partir d’une entrée tronquée (par exemple, on a supprimé certaines partie de l’enregistrement audio ).
En variante, la première partie est entrainée à partir de données labélisées.
Ainsi, à la suite du pré-entrainement, la première partie est apte à encoder un fichier audio (ou des données audio) en entrée en un vecteur comportant une représentation de contexte.
En variante, la donnée est un fichier image, par exemple un spectrogramme obtenu à partir de la première réponse vocale. Une telle approche est par exemple présentée pour une reconnaissance vocale générale dans l’article suivant :
Zhang, Wei, et al. « Towards end-to-end speech recognition with deep multipath convolutional neural networks. » International Conference on Intelligent Robotics and Applications. Springer, Cham, 2019.
Par exemple, les étapes d’entrainement comportent l’étape suivante :
  • Saisie, par un clavier, de la troisième chaine de caractères par l’humain, suite à l’étape d’écoute.
La saisie peut être réalisée par un clavier ou tout autre type d’interface homme-machine.
Le dispositif électronique mémorise par exemple l’enregistrement de l’expression sonore en mémoire.
La première émission acoustique de l’enregistrement d’une expression linguistique peut par exemple être réalisée par un casque audio ou un haut-parleur.
La deuxième émission acoustique de l’enregistrement d’une expression linguistique peut par exemple être également réalisée par un casque audio ou un haut parleur.
La première réception d’une première réponse et/ou la deuxième réception de la deuxième réponse est par exemple réalisée par un microphone.
Le réseau de neurones artificiel est par exemple un réseau convolutionnel. La première partie peut comporter un transformer. Dans le cas où la première partie est le réseau de neurones présentée dans l’article Alexei Baevski et al. ci-dessus, la deuxième partie peut être constituée d’une seule couche de sortie comprenant tous les phonèmes contenus dans les listes (le vecteur de sortie indique quels phonèmes étaient en entrée).
Le réseau de neurones artificiels peut être mis en œuvre par l’unité centrale qui peut avoir l’architecture d’un ordinateur, d’un microprocesseur et d’un microcontrôleur.
Suite à la comparaison de la première chaine de caractères avec la deuxième chaine de caractère, les capacités auditives du premier patient peuvent être déterminées de manière conventionnelle.
L’écoute de la deuxième réponse peut être réalisée par un casque audio.
Chacun des casques audios ci-dessus peut être remplacé par un haut-parleur.
Le procédé est mis en œuvre par exemple par un dispositif électronique.
L’invention concerne donc aussi un dispositif électronique de test audiométrique configuré pour mettre en œuvre les étapes du procédé selon l’invention.
L’invention concerne en outre un programme d’ordinateur comprenant des instructions, exécutables par un microprocesseur ou un microcontrôleur, pour la mise en œuvre du procédé selon l’invention, lorsque le programme d’ordinateur est exécuté par un microprocesseur ou un microcontrôleur.
Les caractéristiques et avantages du dispositif électronique et du programme d’ordinateur sont identiques à ceux du procédé, c’est pourquoi, ils ne sont pas repris ici.
On entend qu’un élément tel que le dispositif électronique, l’unité centrale, ou un autre élément est « configuré pour » réaliser une étape ou une opération, par le fait que l’élément comporte des moyens pour (autrement dit « est conformé pour » ou « est adapté pour ») réaliser l’étape ou l’opération. Il s’agit préférentiellement de moyens électroniques, par exemple un programme d’ordinateur, des données en mémoire et/ou des circuits électroniques spécialisés.
Lorsqu’une étape ou une opération est réalisée ou mis en œuvre par un tel élément, cela implique généralement que l’élément comporte des moyens pour (autrement dit « est conformé pour » ou « est adapté pour ») réaliser l’étape ou l’opération. Il s’agit également par exemple de moyens électroniques, par exemple un programme d’ordinateur, des données en mémoire et/ou des circuits électroniques spécialisés.
D’autres caractéristiques et avantages de la présente invention apparaitront plus clairement à la lecture de la description détaillée qui suit comprenant des modes de réalisation de l’invention donnés à titre d’exemples nullement limitatifs et illustrés par les dessins annexés, dans lesquels :
représente un dispositif électronique selon un mode de réalisation de l’invention.
représente un réseau de neurones artificiel selon l’invention
représente le procédé selon l’invention, dans un exemple de réalisation, mis en œuvre par le dispositif électronique de la .
Description détaillée d’un exemple de réalisation de l’invention
En référence à la , le réseau de neurones 400 comprend un première partie 430, comprenant une première série de couches du réseau de neurones, apte à produire un vecteur 450 encodant une donnée en entrée 410, et une deuxième partie 440, comprenant au moins une couche de neurones, apte à produire la première chaine de caractères en sortie 420 à partir du vecteur 450.
La donnée en entrée est par exemple un fichier audio comprenant l’expression (par exemple selon un format dit « wav », en Anglais pour «Waveform Audio File Format » traduit en français par l’expression format audio de forme d’onde).
Par exemple, le réseau de neurones 400 est mis en œuvre par l’unité centrale 110.
En référence aux figures 1, 2 et 3, à l’étape S10, la première partie 430 est pré-entrainé, préalablement aux étapes d’entrainement ci-dessous, à partir de centaines d’heures de fichiers audio en entrée 410, comprenant plus de 10000 expressions linguistiques différentes (et d’au plus 10000000 de moins premiers mots différents).
Préférentiellement, il s’agit d’expressions quelconques d’un langage naturel.
Il s’agit d’un entrainement auto-supervisé.
L’entrée 410 est par exemple tronquées (par exemple, on a supprimé certaines parties du fichier audio).
La première partie 430 est par exemple tel que celui décrit dans l’article :
Alexei Baevski, Yuhao Zhou, Abdelrahman-Mohamed, Michael Auli : «wav2vec 2.0 : A Framework for Self-Supervised Learning of Speech Représentations » NeurIPS 2020.
Durant le pré-entrainement, par exemple, cette première partie 430 tente de prédire les parties tronquées de l’entrée 410 et/ou utilise un coût contractif (en anglais « constrative loss ») pour évaluer la performance et modifier les poids du réseau de neurones (Une fonction de coût quantifie l’erreur du réseau de neurones en comparaison de l’étiquette et représente le coût en fonction des combinaisons de paramètres du réseau de neurones).
Ainsi, à la suite du pré-entrainement, la première partie 430 est apte à encoder un fichier audio (ou des données audio) en entrée 410 en un vecteur 450 comportant une représentation les expressions linguistiques contenues dans le fichier audio.
Selon un mode de réalisation, dans cette première partie 430, les poids, de l’encodeur convolutionnel 431 (noté f) dans l’article Alexei Baevski et al. ci-dessus qui produit une représentation latente de l’entrée, sont fixes durant l’étape d’entrainement. Le reste 432 de la première partie 430, en particulier dans le transformeur (note g), dans l’article Alexei Baevski et al. ci-dessus, est modifié lors de l’entrainement.
La deuxième partie 440 peut être une seule couche de sortie comprenant tous les phonèmes contenus dans les listes (le vecteur de sortie indique quels phonèmes sont connnus). Un « softmax » et un « log » peuvent être appliqués à la sortie. Cette couche peut être linéaire, c’est-à-dire comportant une fonction d’activation linéaire.
A l’étape S20, le dispositif électronique 100 commande l’émission d’une expression linguistique par un casque 170.
L’expression linguistique est par exemple le mot « cru».
L’expression peut être constituée d’un seul mot ou d’un seul mot et d’un article précédent ce mot (comme par exemple « le rondin ») ou d’une phrase.
L’expression peut comprendre un logatome ( c’est-à-dire, un mot sans signification) ou être constitué de logatomes.
A l’étape S30, le patient 210 répond en reproduisant par la parole ce qu’il a entendu.
A l’étape S40, l’unité centrale 110 (qui a par exemple l’architecteur d’un ordinateur, d’un microprocesseur ou d’un microcontrôleur) reçoit la réponse vocale du patient, par l’intermédiaire du microphone 130 et l’enregistre en mémoire 111 sous la forme d’un fichier audio.
Par exemple, le patient 210 peut répondre « dru» en prononçant ce mot.
A l’étape S50, la réponse enregistrée est ensuite écoutée par l’opérateur humain 220 à l’aide du casque 180.
A l’étape S60, l’opérateur humain 220 saisi « dru » par le clavier 160 une chaine de caractères par l’opérateur 220.
A l’étape S70, la chaine de caractères « dru » est reçue du clavier 160 par l’unité centrale 110.
A l’étape S80, le réseau de neurone est entrainé à partir de la réponse enregistrée (sous la forme d’un fichier audio) en entrée 410 étiquetée par la chaine de caractère « dru ».
Les étapes d’entrainement S20, S30, S40, S50, S60, S70 et S80 sont répétées, pour des patients différents (par exemple, au moins dix mil fois), pour moins de 300 expressions différentes (et plus de 50 mots) en entrée 410.
Pour l’entrainement, la fonction de coût utilisée est par exemple de type classification temporelle connexionniste.
A l’étape S90, un test audiométrique sur un patient 200 est initié par le dispositif électronique 100. Pour simplifier la description de ce mode de réalisation, le pré-entrainement, l’entrainement sur le patient 210, et le test audiométrique sur le patient 200 sont réalisés par le même dispositif électronique 100, mais de manière générale, le plus souvent, ces trois étapes sont réalisées par des dispositifs différents.
A l’étape S90, l’expression « cru » est émise par l’unité centrale 110 à l’aide du casque 120. L’expression peut être mémorisé en mémoire 111.
Le patient 200 peut répondre par exemple « dru» en prononçant ce mot.
A l’étape S100, l’unité centrale 110 reçoit la réponse vocale « dru » du patient par l’intermédiaire du microphone 130 et l’enregistre sur la forme d’un fichier audio.
A l’étape S110, le réseau de neurones 400, mis en œuvre par l’unité centrale 110, détermine en sortie 420 la chaine de caractère « dru » à partir de la réponse du patient 200 sous forme de fichier audio en entrée 410 du réseau de neurones 400.
A l’étape S120, « cru » est comparé avec « dru » pour évaluer l’audition du patient 200.
Les étapes S90, S100, S110 et S120 peuvent être répétées pour des expressions différentes pour lequel le réseau de neurones 400 a été entrainée. Ainsi, l’audition du patient 200 est évaluée.
Le réseau de neurones artificiel 400 est par exemple un réseau convolutionnel. La première partie 430 peut comporter un transformer.

Claims (11)

  1. Procédé de test d’audiométrie vocale d’un premier patient (200) comprenant les étapes suivantes :
    • Première émission acoustique (S90) d’un enregistrement d’une expression linguistique comprenant au moins un phonème d’émission,
    • Première réception acoustique (S100) d’une première réponse vocale du premier patient à la première émission acoustique comprenant un moins un phonème de réponse,
    • Détermination (S110), par un réseau de neurones artificiel (400) comprenant une entrée (410) et une sortie (420), à partir d’une donnée en entrée (410) obtenue à partir de la première réponse, d’une première chaine de caractères en sortie (420) représentative du au moins un phonème de réponse,
    • Comparaison (120) de la première chaine de caractères avec une deuxième chaine de caractère, représentative dudit au moins phonème d’entrée,
    Le réseau de neurones artificiel (400) étant entrainé, préalablement à l’étape de détermination, par la mise en œuvre des étapes d’entrainement suivantes :
    • Deuxième émission acoustique (S20) de l’expression,
    • Deuxième réception acoustique (S30) d’une deuxième réponse vocale d’un deuxième patient (210) à la deuxième émission acoustique, la deuxième réponse comprenant au moins un phonème d’entrainement,
    • Réception d’une troisième chaine de caractères (S70) représentative du au moins phonème d’entrainement,
    • Entrainement supervisé (S80) du réseau de neurones artificiel (400) à partir de la deuxième réponse en entrée (410) étiquetée par la troisième chaine de caractère.
  2. Procédé de test d’audiométrie vocale selon la revendication 1 dans lequel l’expression est constituée d’un seul mot ou d’un seul mot et d’un article précédent ce mot.
  3. Procédé de test d’audiométrie vocale selon la revendication 1 dans lequel l’expression est constituée de plus d’un mot.
  4. Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel l’étape d’entrainement est répétée pour moins de 300 expressions différentes pour différents deuxièmes patients.
  5. Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel le réseau de neurones (400) comprend une première partie (430), comprenant une première série de couches du réseau de neurones, apte à produire un vecteur (450) encodant la donnée en entrée (410), et une deuxième partie (440), comprenant au moins une couche de neurones, apte à produire la première chaine de caractères en sortie (420) à partir du vecteur (450).
  6. Procédé de test d’audiométrie vocale selon la revendication précédente dans lequel la première partie (430) est pré-entrainée, préalablement aux étapes d’entrainement, à partir de plus de 10000, mots différents.
  7. Procédé de test d’audiométrie vocale selon l’une quelconque la revendication précédente dans lequel la première partie (430) est pré-entrainée à partir d’une entrée (410) tronquée.
  8. Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel la donnée est un fichier audio comprenant l’expression.
  9. Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel les étapes d’entrainement comportent l’étape suivante :
    • Saisie, par un clavier, de la troisième chaine de caractères par un humain.
  10. Dispositif électronique (100) de test audiométrique configuré pour mettre en œuvre les étapes du procédé selon l’une quelconque des revendications 1 à 9.
  11. Programme d’ordinateur comprenant des instructions, exécutables par un microprocesseur ou un microcontrôleur, pour la mise en œuvre du procédé selon l’une quelconque des revendications 1 à 9, lorsque le programme d’ordinateur est exécuté par le microprocesseur ou le microcontrôleur.
FR2205043A 2022-05-25 2022-05-25 Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé Pending FR3135890A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR2205043A FR3135890A1 (fr) 2022-05-25 2022-05-25 Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé
PCT/IB2023/055334 WO2023228103A1 (fr) 2022-05-25 2023-05-24 Procédé de test d'audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2205043A FR3135890A1 (fr) 2022-05-25 2022-05-25 Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé
FR2205043 2022-05-25

Publications (1)

Publication Number Publication Date
FR3135890A1 true FR3135890A1 (fr) 2023-12-01

Family

ID=84053202

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2205043A Pending FR3135890A1 (fr) 2022-05-25 2022-05-25 Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé

Country Status (2)

Country Link
FR (1) FR3135890A1 (fr)
WO (1) WO2023228103A1 (fr)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015128411A1 (fr) * 2014-02-27 2015-09-03 Widex A/S Procédé de réglage d'un système de prothèse auditive et système de réglage de prothèse auditive
WO2017165551A1 (fr) * 2016-03-22 2017-09-28 Sri International Systèmes et procédés de reconnaissance vocale dans des conditions de canal invisible et bruyante
US20210183392A1 (en) * 2019-12-12 2021-06-17 Lg Electronics Inc. Phoneme-based natural language processing
WO2022050877A1 (fr) * 2020-09-07 2022-03-10 Общество с ограниченной ответственностью "Центр коррекции слуха и речи "МЕЛФОН" Estimation avant consultation médicale de la qualité de reconnaissance vocale et audimétrie par balayage

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015128411A1 (fr) * 2014-02-27 2015-09-03 Widex A/S Procédé de réglage d'un système de prothèse auditive et système de réglage de prothèse auditive
WO2017165551A1 (fr) * 2016-03-22 2017-09-28 Sri International Systèmes et procédés de reconnaissance vocale dans des conditions de canal invisible et bruyante
US20210183392A1 (en) * 2019-12-12 2021-06-17 Lg Electronics Inc. Phoneme-based natural language processing
WO2022050877A1 (fr) * 2020-09-07 2022-03-10 Общество с ограниченной ответственностью "Центр коррекции слуха и речи "МЕЛФОН" Estimation avant consultation médicale de la qualité de reconnaissance vocale et audimétrie par balayage

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MU YANG ET AL: "Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 29 March 2022 (2022-03-29), XP091186884 *
ZHANG WEI ET AL: "Towards End-to-End Speech Recognition with Deep Multipath Convolutional Neural Networks", 6 August 2019, ADVANCES IN DATABASES AND INFORMATION SYSTEMS; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], SPRINGER INTERNATIONAL PUBLISHING, CHAM, PAGE(S) 332 - 341, ISBN: 978-3-319-10403-4, XP047516111 *
ZHANG, WEI ET AL.: "International Conférence on Intelligent Robotics and Applications", 2019, SPRINGER, article "Towards end-to-end speech récognition with deep multipath convolutional neural networks"

Also Published As

Publication number Publication date
WO2023228103A1 (fr) 2023-11-30

Similar Documents

Publication Publication Date Title
Delić et al. Speech technology progress based on new machine learning paradigm
US10997970B1 (en) Methods and systems implementing language-trainable computer-assisted hearing aids
Magnuson et al. Lexical effects on compensation for coarticulation: The ghost of Christmash past
Petrushin Emotion recognition in speech signal: experimental study, development, and application
Wesker et al. Oldenburg logatome speech corpus (OLLO) for speech recognition experiments with humans and machines.
US7490042B2 (en) Methods and apparatus for adapting output speech in accordance with context of communication
Shechtman et al. Sequence to sequence neural speech synthesis with prosody modification capabilities
Mengistu et al. Comparing humans and automatic speech recognition systems in recognizing dysarthric speech
US20120016674A1 (en) Modification of Speech Quality in Conversations Over Voice Channels
JP5507260B2 (ja) 発話音声プロンプトを作成するシステム及び技法
US6243677B1 (en) Method of out of vocabulary word rejection
EP1769489B1 (fr) Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs
CA2404441C (fr) Parametres robustes pour la reconnaissance de parole bruitee
JP2023548157A (ja) 通話およびオーディオメッセージからのその他の話者の音声フィルタリング
CN112530400A (zh) 基于深度学习的文本生成语音的方法、系统、装置及介质
EP4032027A1 (fr) Mécanisme d'attention préservant la structure dans des modèles neuronaux séquence à séquence
Weerts et al. The psychometrics of automatic speech recognition
Kons et al. Neural TTS voice conversion
FR3135890A1 (fr) Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé
EP3499500B1 (fr) Dispositif comprenant un assistant numérique pour lecture vocale personnalisée et son procédé d'utilisation
Ebel et al. Human speech recognition performance on the 1994 CSR spoke 10 corpus
Shekar et al. Development of CNN-based cochlear implant and normal hearing sound recognition models using natural and auralized environmental audio
CN112435669B (zh) 一种机器人多轮对话语音交互方法、系统和终端设备
US20030167169A1 (en) Method of nonvisual enrollment for speech recognition
Edraki et al. Modeling the effect of linguistic predictability on speech intelligibility prediction

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20231201

PLFP Fee payment

Year of fee payment: 3