FR3135890A1 - Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé - Google Patents
Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé Download PDFInfo
- Publication number
- FR3135890A1 FR3135890A1 FR2205043A FR2205043A FR3135890A1 FR 3135890 A1 FR3135890 A1 FR 3135890A1 FR 2205043 A FR2205043 A FR 2205043A FR 2205043 A FR2205043 A FR 2205043A FR 3135890 A1 FR3135890 A1 FR 3135890A1
- Authority
- FR
- France
- Prior art keywords
- response
- character string
- training
- neural network
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012076 audiometry Methods 0.000 title claims abstract description 14
- 238000010998 test method Methods 0.000 title claims description 6
- 230000014509 gene expression Effects 0.000 claims abstract description 41
- 230000004044 response Effects 0.000 claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 230000001755 vocal effect Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 30
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 235000021183 entrée Nutrition 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012956 testing procedure Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/12—Audiometering
- A61B5/121—Audiometering evaluating hearing capacity
- A61B5/123—Audiometering evaluating hearing capacity subjective methods
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Veterinary Medicine (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Otolaryngology (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
Procédé de test d’audiométrie vocale d’un premier patient (200) comprenant les étapes suivantes : Première émission acoustique de l’enregistrement d’une expression linguistique comprenant au moins un phonème d’émission,Première réception acoustique d’une première réponse vocale du premier patient à la première émission acoustique comprenant un moins un phonème de réponse,Détermination, par un réseau de neurones artificiel comprenant une entrée et une sortie à partir d’une donnée en entrée obtenue à partir de la première réponse, d’une première chaine de caractères en sortie représentative du au moins un phonème de réponse,Comparaison de la première chaine de caractères avec une deuxième chaine de caractère, représentative dudit au moins phonème d’entrée, Figure pour l’abrégé : figure 1
Description
L’invention concerne un procédé d’audiométrie vocale.
Les procédés de test d’audiométrie vocale menés par un audiologiste permettent de déterminer la perception audio par un patient d’expressions linguistiques notamment de mots.
Ces procédés comprennent :
- L’émission acoustique d’un enregistrement d’une expression linguistique,
- La réception acoustique et la reconnaissance de la réponse d’un premier patient, et
- La comparaison de l’expression +linguistique avec la réponse du patient.
La reconnaissance de la réponse est mise en œuvre par l’audiologiste ou plus généralement une personne (autrement dit : humain), ce qui nécessite la mobilisation d’une personne pendant toute la durée du test.
Pour remédier à cet inconvénient, l’invention concerne un procédé de test d’audiométrie vocale d’un premier patient comprenant les étapes suivantes :
- Première émission acoustique d’un enregistrement d’une expression linguistique comprenant au moins un phonème d’émission (Le premier patient reproduit ensuite par la parole ce qu’il a entendu. Autrement dit il émet une réponse vocale) ,
- Première réception acoustique d’une première réponse vocale du premier patient à la première émission acoustique comprenant un moins un phonème de réponse,
- Détermination, par un réseau de neurones artificiel comprenant une entrée et une sortie, à partir d’une donnée en entrée obtenue à partir de la première réponse, d’une première chaine de caractères en sortie représentative du au moins un phonème de réponse,
- Comparaison de la première chaine de caractères avec une deuxième chaine de caractère, représentative dudit au moins phonème d’entrée,
Le réseau de neurones artificiel étant entrainé, préalablement à l’étape de détermination, par la mise en œuvre (ou la répétition) des étapes d’entrainement suivantes (et le procédé de test peut comprendre ces étapes) :
- Deuxième émission acoustique de l’expression (Le deuxième patient mentionné ci-dessous reproduit ensuite par la parole ce qu’il a entendu. Autrement dit il émet une réponse vocale),
- Deuxième réception acoustique d’une deuxième réponse vocale d’un deuxième patient à la deuxième émission acoustique, la deuxième réponse comprenant au moins un phonème d’entrainement (la deuxième réponse est alors par exemple enregistrée en mémoire, par exemple, dans un fichier audio),
- Ecoute de la deuxième réponse par un humain (donc par exemple du fichier audio),
- Réception d’une troisième chaine de caractères représentative du au moins phonème d’entrainement,
- Entrainement supervisé du réseau de neurones artificiel à partir de la deuxième réponse en entrée étiquetée par la troisième chaine de caractère (i.e. : l’entrainement du réseau de neurones tend à ce que le réseau de neurones produise en sortie la troisième chaine de caractère lorsque la deuxième réponse est reçue en entrée).
Ainsi, le réseau de neurones permet d’automatiser l’acquisition de la réponse du patient. L’entrainement du réseau de neurones à partir de l’expression permet :
- D’éviter une surinterprétation comme dans les réseaux de neurones de reconnaissance vocale classiques (i.e. : les réseaux de neurones classiques recherchent le mot de la langue le plus proche, même si le patient n’a pas répondu ce mot)
- Le réseau est entrainé pour reconnaitre la réponse d’un patient, même lorsque le mot répondu par le patient n’est pas un mot de la langue. Puisque le réseau est entrainé durant des test audiométriques vocaux, il reçoit des mots qui ne sont pas des mots de la langue (parce que les mots émis sont sans signification, ou parce que le patient répond avec une erreur).
Les étapes du procédé ci-dessus peuvent être répétées de manière à évaluer l’audition du premier patient, par exemple pour des mots différents en entrée (dans l’expression) pour lequel le réseau de neurones a été entrainée. L’intensité de l’émission acoustique peut varier durant cette répétition pour estimer les seuils d’intelligibilité vocale du patient.
Selon un mode de réalisation, l’expression est constituée d’un mot (ou plusieurs mots isolés) ou d’un mot (ou plusieurs mots) précédés d’un article isolé. En variante, l’expression est constituée de plus d’un mot (ou de plus de deux mots) ou d’une ou plusieurs phrases.
L’étape d’entrainement est préférentiellement répétée avec plusieurs deuxièmes patients différents au moins. Selon un mode de réalisation, l’étape d’entrainement est répétée (par exemple, au moins 10000 fois) pour, en entrée, moins de 300 expressions différentes (et par exemple, plus de 50 mots) constituant des listes, pour différents deuxièmes patients. Par exemple, ces listes sont les listes cochléaires de Lafon ou les listes dissyllabiques de Fournier ;
En variante, l’étape d’entrainement peut être répétée pour un nombre supérieur de mots.
L’entrée du réseau de neurones peut être constitué de plusieurs expressions. Il est effet plus efficace de permettre au réseau de neurones de travailler sur plusieurs expressions en même temps.
Par exemple, le réseau de neurones comprend une première partie, comprenant une première série de couches du réseau de neurones, apte à produire un vecteur encodant la donnée en entrée, et une deuxième partie, comprenant au moins une couche du réseau de neurones, apte à produire la première chaine de caractères en sortie à partir du vecteur, la première partie étant pré-entrainé (et le procédé peut comprendre cette étape de pré-entrainement), préalablement aux étapes d’entrainement, à partir de plus de 10000 , au moins, expressions (ou mots) différentes (et d’au plus 10000000 d’expressions différentes ou mots différents) en entrée.
Selon un mode de réalisation, au moins une portion de la première partie (par exemple, connexe avec l’entrée) est à poids (i.e. : des connexions entre les couches) fixes durant l’étape d’entrainement. Le reste du réseau de neurones, en dehors de la portion, est modifié durant l’entrainement.
En variante toute la première partie peut être entrainée.
La première partie est par exemple le réseau de neurones décrit dans l’article :
Alexei Baevski, Yuhao Zhou, Abdelrahman-Mohamed, Michael Auli : «wav2vec 2.0 : A Framework for Self-Supervised Learning of Speech Représentations » NeurIPS 2020.
Selon un mode de réalisation, dans cette première partie, les poids, de l’encodeur convolutionnel (noté f) de l’article qui produit une représentation latente de l’entrée sont fixes durant l’étape d’entrainement. Le reste de la première partie, en particulier le transformeur (note g) est modifié lors de l’entrainement.
D’autres réseaux de neurones que celui présenté dans cet article sont bien entendu envisageables.
La donnée est par exemple un fichier audio (ou une partie d’un fichier audio) comprenant l’enregistrement audio de la première réponse (par exemple selon un format dit « wav », en Anglais pour «Waveform Audio File Format » traduit en français par l’expression format audio de forme d’onde).
Selon un mode de réalisation, la première partie est pré-entrainée à partir d’une entrée tronquée (par exemple, on a supprimé certaines partie de l’enregistrement audio ).
En variante, la première partie est entrainée à partir de données labélisées.
Ainsi, à la suite du pré-entrainement, la première partie est apte à encoder un fichier audio (ou des données audio) en entrée en un vecteur comportant une représentation de contexte.
En variante, la donnée est un fichier image, par exemple un spectrogramme obtenu à partir de la première réponse vocale. Une telle approche est par exemple présentée pour une reconnaissance vocale générale dans l’article suivant :
Zhang, Wei, et al. « Towards end-to-end speech recognition with deep multipath convolutional neural networks. » International Conference on Intelligent Robotics and Applications. Springer, Cham, 2019.
Par exemple, les étapes d’entrainement comportent l’étape suivante :
- Saisie, par un clavier, de la troisième chaine de caractères par l’humain, suite à l’étape d’écoute.
La saisie peut être réalisée par un clavier ou tout autre type d’interface homme-machine.
Le dispositif électronique mémorise par exemple l’enregistrement de l’expression sonore en mémoire.
La première émission acoustique de l’enregistrement d’une expression linguistique peut par exemple être réalisée par un casque audio ou un haut-parleur.
La deuxième émission acoustique de l’enregistrement d’une expression linguistique peut par exemple être également réalisée par un casque audio ou un haut parleur.
La première réception d’une première réponse et/ou la deuxième réception de la deuxième réponse est par exemple réalisée par un microphone.
Le réseau de neurones artificiel est par exemple un réseau convolutionnel. La première partie peut comporter un transformer. Dans le cas où la première partie est le réseau de neurones présentée dans l’article Alexei Baevski et al. ci-dessus, la deuxième partie peut être constituée d’une seule couche de sortie comprenant tous les phonèmes contenus dans les listes (le vecteur de sortie indique quels phonèmes étaient en entrée).
Le réseau de neurones artificiels peut être mis en œuvre par l’unité centrale qui peut avoir l’architecture d’un ordinateur, d’un microprocesseur et d’un microcontrôleur.
Suite à la comparaison de la première chaine de caractères avec la deuxième chaine de caractère, les capacités auditives du premier patient peuvent être déterminées de manière conventionnelle.
L’écoute de la deuxième réponse peut être réalisée par un casque audio.
Chacun des casques audios ci-dessus peut être remplacé par un haut-parleur.
Le procédé est mis en œuvre par exemple par un dispositif électronique.
L’invention concerne donc aussi un dispositif électronique de test audiométrique configuré pour mettre en œuvre les étapes du procédé selon l’invention.
L’invention concerne en outre un programme d’ordinateur comprenant des instructions, exécutables par un microprocesseur ou un microcontrôleur, pour la mise en œuvre du procédé selon l’invention, lorsque le programme d’ordinateur est exécuté par un microprocesseur ou un microcontrôleur.
Les caractéristiques et avantages du dispositif électronique et du programme d’ordinateur sont identiques à ceux du procédé, c’est pourquoi, ils ne sont pas repris ici.
On entend qu’un élément tel que le dispositif électronique, l’unité centrale, ou un autre élément est « configuré pour » réaliser une étape ou une opération, par le fait que l’élément comporte des moyens pour (autrement dit « est conformé pour » ou « est adapté pour ») réaliser l’étape ou l’opération. Il s’agit préférentiellement de moyens électroniques, par exemple un programme d’ordinateur, des données en mémoire et/ou des circuits électroniques spécialisés.
Lorsqu’une étape ou une opération est réalisée ou mis en œuvre par un tel élément, cela implique généralement que l’élément comporte des moyens pour (autrement dit « est conformé pour » ou « est adapté pour ») réaliser l’étape ou l’opération. Il s’agit également par exemple de moyens électroniques, par exemple un programme d’ordinateur, des données en mémoire et/ou des circuits électroniques spécialisés.
D’autres caractéristiques et avantages de la présente invention apparaitront plus clairement à la lecture de la description détaillée qui suit comprenant des modes de réalisation de l’invention donnés à titre d’exemples nullement limitatifs et illustrés par les dessins annexés, dans lesquels :
Description détaillée d’un exemple de réalisation de l’invention
En référence à la , le réseau de neurones 400 comprend un première partie 430, comprenant une première série de couches du réseau de neurones, apte à produire un vecteur 450 encodant une donnée en entrée 410, et une deuxième partie 440, comprenant au moins une couche de neurones, apte à produire la première chaine de caractères en sortie 420 à partir du vecteur 450.
La donnée en entrée est par exemple un fichier audio comprenant l’expression (par exemple selon un format dit « wav », en Anglais pour «Waveform Audio File Format » traduit en français par l’expression format audio de forme d’onde).
Par exemple, le réseau de neurones 400 est mis en œuvre par l’unité centrale 110.
En référence aux figures 1, 2 et 3, à l’étape S10, la première partie 430 est pré-entrainé, préalablement aux étapes d’entrainement ci-dessous, à partir de centaines d’heures de fichiers audio en entrée 410, comprenant plus de 10000 expressions linguistiques différentes (et d’au plus 10000000 de moins premiers mots différents).
Préférentiellement, il s’agit d’expressions quelconques d’un langage naturel.
Il s’agit d’un entrainement auto-supervisé.
L’entrée 410 est par exemple tronquées (par exemple, on a supprimé certaines parties du fichier audio).
La première partie 430 est par exemple tel que celui décrit dans l’article :
Alexei Baevski, Yuhao Zhou, Abdelrahman-Mohamed, Michael Auli : «wav2vec 2.0 : A Framework for Self-Supervised Learning of Speech Représentations » NeurIPS 2020.
Durant le pré-entrainement, par exemple, cette première partie 430 tente de prédire les parties tronquées de l’entrée 410 et/ou utilise un coût contractif (en anglais « constrative loss ») pour évaluer la performance et modifier les poids du réseau de neurones (Une fonction de coût quantifie l’erreur du réseau de neurones en comparaison de l’étiquette et représente le coût en fonction des combinaisons de paramètres du réseau de neurones).
Ainsi, à la suite du pré-entrainement, la première partie 430 est apte à encoder un fichier audio (ou des données audio) en entrée 410 en un vecteur 450 comportant une représentation les expressions linguistiques contenues dans le fichier audio.
Selon un mode de réalisation, dans cette première partie 430, les poids, de l’encodeur convolutionnel 431 (noté f) dans l’article Alexei Baevski et al. ci-dessus qui produit une représentation latente de l’entrée, sont fixes durant l’étape d’entrainement. Le reste 432 de la première partie 430, en particulier dans le transformeur (note g), dans l’article Alexei Baevski et al. ci-dessus, est modifié lors de l’entrainement.
La deuxième partie 440 peut être une seule couche de sortie comprenant tous les phonèmes contenus dans les listes (le vecteur de sortie indique quels phonèmes sont connnus). Un « softmax » et un « log » peuvent être appliqués à la sortie. Cette couche peut être linéaire, c’est-à-dire comportant une fonction d’activation linéaire.
A l’étape S20, le dispositif électronique 100 commande l’émission d’une expression linguistique par un casque 170.
L’expression linguistique est par exemple le mot « cru».
L’expression peut être constituée d’un seul mot ou d’un seul mot et d’un article précédent ce mot (comme par exemple « le rondin ») ou d’une phrase.
L’expression peut comprendre un logatome ( c’est-à-dire, un mot sans signification) ou être constitué de logatomes.
A l’étape S30, le patient 210 répond en reproduisant par la parole ce qu’il a entendu.
A l’étape S40, l’unité centrale 110 (qui a par exemple l’architecteur d’un ordinateur, d’un microprocesseur ou d’un microcontrôleur) reçoit la réponse vocale du patient, par l’intermédiaire du microphone 130 et l’enregistre en mémoire 111 sous la forme d’un fichier audio.
Par exemple, le patient 210 peut répondre « dru» en prononçant ce mot.
A l’étape S50, la réponse enregistrée est ensuite écoutée par l’opérateur humain 220 à l’aide du casque 180.
A l’étape S60, l’opérateur humain 220 saisi « dru » par le clavier 160 une chaine de caractères par l’opérateur 220.
A l’étape S70, la chaine de caractères « dru » est reçue du clavier 160 par l’unité centrale 110.
A l’étape S80, le réseau de neurone est entrainé à partir de la réponse enregistrée (sous la forme d’un fichier audio) en entrée 410 étiquetée par la chaine de caractère « dru ».
Les étapes d’entrainement S20, S30, S40, S50, S60, S70 et S80 sont répétées, pour des patients différents (par exemple, au moins dix mil fois), pour moins de 300 expressions différentes (et plus de 50 mots) en entrée 410.
Pour l’entrainement, la fonction de coût utilisée est par exemple de type classification temporelle connexionniste.
A l’étape S90, un test audiométrique sur un patient 200 est initié par le dispositif électronique 100. Pour simplifier la description de ce mode de réalisation, le pré-entrainement, l’entrainement sur le patient 210, et le test audiométrique sur le patient 200 sont réalisés par le même dispositif électronique 100, mais de manière générale, le plus souvent, ces trois étapes sont réalisées par des dispositifs différents.
A l’étape S90, l’expression « cru » est émise par l’unité centrale 110 à l’aide du casque 120. L’expression peut être mémorisé en mémoire 111.
Le patient 200 peut répondre par exemple « dru» en prononçant ce mot.
A l’étape S100, l’unité centrale 110 reçoit la réponse vocale « dru » du patient par l’intermédiaire du microphone 130 et l’enregistre sur la forme d’un fichier audio.
A l’étape S110, le réseau de neurones 400, mis en œuvre par l’unité centrale 110, détermine en sortie 420 la chaine de caractère « dru » à partir de la réponse du patient 200 sous forme de fichier audio en entrée 410 du réseau de neurones 400.
A l’étape S120, « cru » est comparé avec « dru » pour évaluer l’audition du patient 200.
Les étapes S90, S100, S110 et S120 peuvent être répétées pour des expressions différentes pour lequel le réseau de neurones 400 a été entrainée. Ainsi, l’audition du patient 200 est évaluée.
Le réseau de neurones artificiel 400 est par exemple un réseau convolutionnel. La première partie 430 peut comporter un transformer.
Claims (11)
- Procédé de test d’audiométrie vocale d’un premier patient (200) comprenant les étapes suivantes :
- Première émission acoustique (S90) d’un enregistrement d’une expression linguistique comprenant au moins un phonème d’émission,
- Première réception acoustique (S100) d’une première réponse vocale du premier patient à la première émission acoustique comprenant un moins un phonème de réponse,
- Détermination (S110), par un réseau de neurones artificiel (400) comprenant une entrée (410) et une sortie (420), à partir d’une donnée en entrée (410) obtenue à partir de la première réponse, d’une première chaine de caractères en sortie (420) représentative du au moins un phonème de réponse,
- Comparaison (120) de la première chaine de caractères avec une deuxième chaine de caractère, représentative dudit au moins phonème d’entrée,
- Deuxième émission acoustique (S20) de l’expression,
- Deuxième réception acoustique (S30) d’une deuxième réponse vocale d’un deuxième patient (210) à la deuxième émission acoustique, la deuxième réponse comprenant au moins un phonème d’entrainement,
- Réception d’une troisième chaine de caractères (S70) représentative du au moins phonème d’entrainement,
- Entrainement supervisé (S80) du réseau de neurones artificiel (400) à partir de la deuxième réponse en entrée (410) étiquetée par la troisième chaine de caractère.
- Procédé de test d’audiométrie vocale selon la revendication 1 dans lequel l’expression est constituée d’un seul mot ou d’un seul mot et d’un article précédent ce mot.
- Procédé de test d’audiométrie vocale selon la revendication 1 dans lequel l’expression est constituée de plus d’un mot.
- Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel l’étape d’entrainement est répétée pour moins de 300 expressions différentes pour différents deuxièmes patients.
- Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel le réseau de neurones (400) comprend une première partie (430), comprenant une première série de couches du réseau de neurones, apte à produire un vecteur (450) encodant la donnée en entrée (410), et une deuxième partie (440), comprenant au moins une couche de neurones, apte à produire la première chaine de caractères en sortie (420) à partir du vecteur (450).
- Procédé de test d’audiométrie vocale selon la revendication précédente dans lequel la première partie (430) est pré-entrainée, préalablement aux étapes d’entrainement, à partir de plus de 10000, mots différents.
- Procédé de test d’audiométrie vocale selon l’une quelconque la revendication précédente dans lequel la première partie (430) est pré-entrainée à partir d’une entrée (410) tronquée.
- Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel la donnée est un fichier audio comprenant l’expression.
- Procédé de test d’audiométrie vocale selon l’une quelconque des revendications précédentes dans lequel les étapes d’entrainement comportent l’étape suivante :
- Saisie, par un clavier, de la troisième chaine de caractères par un humain.
- Dispositif électronique (100) de test audiométrique configuré pour mettre en œuvre les étapes du procédé selon l’une quelconque des revendications 1 à 9.
- Programme d’ordinateur comprenant des instructions, exécutables par un microprocesseur ou un microcontrôleur, pour la mise en œuvre du procédé selon l’une quelconque des revendications 1 à 9, lorsque le programme d’ordinateur est exécuté par le microprocesseur ou le microcontrôleur.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2205043A FR3135890A1 (fr) | 2022-05-25 | 2022-05-25 | Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé |
PCT/IB2023/055334 WO2023228103A1 (fr) | 2022-05-25 | 2023-05-24 | Procédé de test d'audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2205043A FR3135890A1 (fr) | 2022-05-25 | 2022-05-25 | Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé |
FR2205043 | 2022-05-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
FR3135890A1 true FR3135890A1 (fr) | 2023-12-01 |
Family
ID=84053202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR2205043A Pending FR3135890A1 (fr) | 2022-05-25 | 2022-05-25 | Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé |
Country Status (2)
Country | Link |
---|---|
FR (1) | FR3135890A1 (fr) |
WO (1) | WO2023228103A1 (fr) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015128411A1 (fr) * | 2014-02-27 | 2015-09-03 | Widex A/S | Procédé de réglage d'un système de prothèse auditive et système de réglage de prothèse auditive |
WO2017165551A1 (fr) * | 2016-03-22 | 2017-09-28 | Sri International | Systèmes et procédés de reconnaissance vocale dans des conditions de canal invisible et bruyante |
US20210183392A1 (en) * | 2019-12-12 | 2021-06-17 | Lg Electronics Inc. | Phoneme-based natural language processing |
WO2022050877A1 (fr) * | 2020-09-07 | 2022-03-10 | Общество с ограниченной ответственностью "Центр коррекции слуха и речи "МЕЛФОН" | Estimation avant consultation médicale de la qualité de reconnaissance vocale et audimétrie par balayage |
-
2022
- 2022-05-25 FR FR2205043A patent/FR3135890A1/fr active Pending
-
2023
- 2023-05-24 WO PCT/IB2023/055334 patent/WO2023228103A1/fr unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015128411A1 (fr) * | 2014-02-27 | 2015-09-03 | Widex A/S | Procédé de réglage d'un système de prothèse auditive et système de réglage de prothèse auditive |
WO2017165551A1 (fr) * | 2016-03-22 | 2017-09-28 | Sri International | Systèmes et procédés de reconnaissance vocale dans des conditions de canal invisible et bruyante |
US20210183392A1 (en) * | 2019-12-12 | 2021-06-17 | Lg Electronics Inc. | Phoneme-based natural language processing |
WO2022050877A1 (fr) * | 2020-09-07 | 2022-03-10 | Общество с ограниченной ответственностью "Центр коррекции слуха и речи "МЕЛФОН" | Estimation avant consultation médicale de la qualité de reconnaissance vocale et audimétrie par balayage |
Non-Patent Citations (3)
Title |
---|
MU YANG ET AL: "Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 29 March 2022 (2022-03-29), XP091186884 * |
ZHANG WEI ET AL: "Towards End-to-End Speech Recognition with Deep Multipath Convolutional Neural Networks", 6 August 2019, ADVANCES IN DATABASES AND INFORMATION SYSTEMS; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], SPRINGER INTERNATIONAL PUBLISHING, CHAM, PAGE(S) 332 - 341, ISBN: 978-3-319-10403-4, XP047516111 * |
ZHANG, WEI ET AL.: "International Conférence on Intelligent Robotics and Applications", 2019, SPRINGER, article "Towards end-to-end speech récognition with deep multipath convolutional neural networks" |
Also Published As
Publication number | Publication date |
---|---|
WO2023228103A1 (fr) | 2023-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Delić et al. | Speech technology progress based on new machine learning paradigm | |
US10997970B1 (en) | Methods and systems implementing language-trainable computer-assisted hearing aids | |
Magnuson et al. | Lexical effects on compensation for coarticulation: The ghost of Christmash past | |
Petrushin | Emotion recognition in speech signal: experimental study, development, and application | |
Wesker et al. | Oldenburg logatome speech corpus (OLLO) for speech recognition experiments with humans and machines. | |
US7490042B2 (en) | Methods and apparatus for adapting output speech in accordance with context of communication | |
Shechtman et al. | Sequence to sequence neural speech synthesis with prosody modification capabilities | |
Mengistu et al. | Comparing humans and automatic speech recognition systems in recognizing dysarthric speech | |
US20120016674A1 (en) | Modification of Speech Quality in Conversations Over Voice Channels | |
JP5507260B2 (ja) | 発話音声プロンプトを作成するシステム及び技法 | |
US6243677B1 (en) | Method of out of vocabulary word rejection | |
EP1769489B1 (fr) | Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs | |
CA2404441C (fr) | Parametres robustes pour la reconnaissance de parole bruitee | |
JP2023548157A (ja) | 通話およびオーディオメッセージからのその他の話者の音声フィルタリング | |
CN112530400A (zh) | 基于深度学习的文本生成语音的方法、系统、装置及介质 | |
EP4032027A1 (fr) | Mécanisme d'attention préservant la structure dans des modèles neuronaux séquence à séquence | |
Weerts et al. | The psychometrics of automatic speech recognition | |
Kons et al. | Neural TTS voice conversion | |
FR3135890A1 (fr) | Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé | |
EP3499500B1 (fr) | Dispositif comprenant un assistant numérique pour lecture vocale personnalisée et son procédé d'utilisation | |
Ebel et al. | Human speech recognition performance on the 1994 CSR spoke 10 corpus | |
Shekar et al. | Development of CNN-based cochlear implant and normal hearing sound recognition models using natural and auralized environmental audio | |
CN112435669B (zh) | 一种机器人多轮对话语音交互方法、系统和终端设备 | |
US20030167169A1 (en) | Method of nonvisual enrollment for speech recognition | |
Edraki et al. | Modeling the effect of linguistic predictability on speech intelligibility prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 2 |
|
PLSC | Publication of the preliminary search report |
Effective date: 20231201 |
|
PLFP | Fee payment |
Year of fee payment: 3 |