FR3054362A1 - Circuit et procede de reconnaissance de parole - Google Patents

Circuit et procede de reconnaissance de parole Download PDF

Info

Publication number
FR3054362A1
FR3054362A1 FR1657034A FR1657034A FR3054362A1 FR 3054362 A1 FR3054362 A1 FR 3054362A1 FR 1657034 A FR1657034 A FR 1657034A FR 1657034 A FR1657034 A FR 1657034A FR 3054362 A1 FR3054362 A1 FR 3054362A1
Authority
FR
France
Prior art keywords
circuit
speech recognition
detection
signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1657034A
Other languages
English (en)
Other versions
FR3054362B1 (fr
Inventor
Paul Giletti
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolphin Design Fr
Original Assignee
Dolphin Integration SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolphin Integration SA filed Critical Dolphin Integration SA
Priority to FR1657034A priority Critical patent/FR3054362B1/fr
Priority to US15/654,153 priority patent/US10236000B2/en
Priority to KR1020170092189A priority patent/KR20180011015A/ko
Priority to CN201710605515.8A priority patent/CN107644651B/zh
Publication of FR3054362A1 publication Critical patent/FR3054362A1/fr
Application granted granted Critical
Publication of FR3054362B1 publication Critical patent/FR3054362B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

L'invention concerne un circuit de reconnaissance de parole comprenant : un circuit de détection de voix (304) agencé pour détecter, sur la base d'au moins un paramètre d'entrée, la présence d'un signal vocal dans un signal audio d'entrée (AUDIO) et pour générer un signal d'activation (WAKE-UP) sur chaque événement de détection de voix ; un circuit de reconnaissance de parole (310) agencé pour être activé par le signal d'activation et pour réaliser une reconnaissance de parole sur le signal audio d'entrée, le circuit de reconnaissance de parole étant en outre agencé pour générer un signal de sortie (TRUE/FALSE) indiquant, sur la base de la reconnaissance de parole, si chaque événement de détection de voix est vrai ou faux ; et un circuit d'analyse (320) agencé pour générer, sur la base du signal de sortie du circuit de reconnaissance de parole (310), un signal de commande pour modifier un ou plusieurs des paramètres d'entrée.

Description

Domaine de 1'invention
La présente description concerne le domaine des dispositifs audio utilisant une détection d'activité vocale, et en particulier un circuit et un procédé de reconnaissance vocale. Exposé de l'art antérieur
En réduisant la consommation d'énergie des dispositifs électroniques portables, il est possible d'augmenter la durée de fonctionnement de leur batterie. Dans le cas de dispositifs audio agencés pour capturer et traiter un signal vocal, une technique qui a été proposée pour réduire la consommation d'énergie est d'utiliser une détection d'activité vocale, de sorte que certains circuits de traitement sont activés seulement lorsque.le signal vocal est présent. Le reste du temps, l'alimentation de ces circuits de traitement peut être coupée, économisant ainsi de 1'énergie.
Il est important de faire la distinction entre la détection de voix et la reconnaissance de parole. La détection de voix a pour but de générer un signal booléen indiquant si un
B15051 signal vocal est présent ou pas. La reconnaissance de parole consiste à reconnaître un ou plusieurs mots dans un signal vocal.
La reconnaissance de parole est nettement plus complexe que la détection de voix, et a ainsi tendance à consommer notablement plus d'énergie. Par conséquent, on a proposé d'activer la reconnaissance de parole seulement lorsqu'un signal vocal est détecté. Toutefois, une difficulté dans les solutions existantes est que la réduction de consommation d'énergie est relativement faible. D'un côté, si l'algorithme de détection de voix est suffisamment précis pour activer seulement la reconnaissance de parole dans le cas où de la voix est réellement présente, cela signifie en général que l'algorithme de détection de voix va être complexe et va ainsi avoir une consommation d'énergie relativement élevée. D'un autre côté, si l'algorithme de détection de voix a une faible consommation d'énergie, cela signifie en général qu'il va présenter un taux relativement élevé de fausses détections positives afin de maintenir une valeur prédictive positive adéquate, ce qui signifie que la reconnaissance de parole va être activée plus souvent que nécessaire, conduisant aussi à une consommation d'énergie relativement élevée.
Résumé
Un objet de modes de réalisation de la présente description est de résoudre au moins partiellement un ou plusieurs problèmes de l'art antérieur.
Selon un aspect, on prévoit un circuit de reconnaissance de parole comprenant : un circuit de détection de voix agencé pour détecter, sur la base d'au moins un paramètre d'entrée, la présence d'un signal vocal dans un signal audio d'entrée et pour générer un signal d'activation sur chaque événement de détection de voix ; un circuit de reconnaissance de parole agencé pour être activé par le signal d'activation et pour réaliser une reconnaissance de parole sur le signal audio d'entrée, le circuit de reconnaissance de parole étant en outre agencé pour générer un signal de sortie indiquant, sur la base de la reconnaissance de parole, si chaque événement de détection de voix est vrai ou
B15051 faux ; et un circuit d'analyse agencé pour générer, sur la base du signal de sortie du circuit de reconnaissance de parole, un signal de commande pour modifier un ou plusieurs des paramètres d'entrée.
Selon un mode de réalisation, le circuit d'analyse est adapté à déterminer un ou plusieurs des éléments suivants : une première valeur représentant un taux de détection vraie indiquant le taux d'événements de détection vrais parmi le nombre total d'événements de détection générés par le circuit de détection de voix.
Selon un mode de réalisation, le circuit d'analyse est agencé pour générer le signal de commande sur la base d'une comparaison de la première valeur à un premier seuil et/ou selon que la première valeur augmente ou diminue.
Selon un mode de réalisation, le circuit d'analyse est en outre agencé pour : générer une deuxième valeur représentant le nombre total d'événements de détection générés par le circuit de détection de voix ; et comparer la deuxième valeur à un deuxième seuil et/ou déterminer si la deuxième valeur augmente ou diminue.
Selon un mode de réalisation, le circuit d'analyse est agencé pour modifier le signal de commande pour rendre le circuit de détection de voix plus sensible si le premier seuil et/ou le deuxième seuil ne sont pas dépassés et/ou si la première valeur et/ou la deuxième valeur diminuent.
Selon un mode de réalisation, le circuit d'analyse est agencé pour : générer une troisième.valeur représentant un taux de détection fausse indiquant le taux d'événements de détection faux parmi le nombre total d'événements de détection générés par le circuit de détection de voix ; et comparer la troisième valeur à un troisième seuil et/ou déterminer si la troisième valeur augmente ou diminue.
Selon un mode de réalisation, le circuit d'analyse est en outre agencé pour modifier le signal de commande pour rendre le circuit de détection de voix moins sensible si le deuxième
B15051 et/ou le troisième seuil sont dépassés et/ou si la troisième valeur augmente.
Selon un mode de réalisation, chacun desdits au moins un paramètre d'entrée est l'un des paramètres suivants : un paramètre réglant une ou plusieurs fréquences de coupure d'un ou plusieurs filtres du circuit de détection de voix ; un paramètre réglant un ou plusieurs seuils de détection du circuit de détection de voix ; un paramètre réglant une ou plusieurs périodes de calcul d'énergie ; un paramètre réglant un seuil de nombre de passages par zéro du signal audio ; un paramètre réglant un ou plusieurs temps d'anti-rebond ; et un seuil réglant une pondération à appliquer au signal de sortie d'un ou plusieurs sous-circuits du circuit de détection de voix.
Selon un mode de réalisation, le circuit de reconnaissance de parole est adapté à générer un autre signal d'activation pour activer un ou plusieurs autres circuits en réponse à un événement de reconnaissance de parole.
Selon un mode de réalisation, le circuit de reconnaissance de parole est adapté à réaliser une reconnaissance de mots-clés.
Selon un autre aspect, on prévoit un procédé de reconnaissance de parole comprenant : détecter, par un circuit de détection de voix sur la base d'au moins un paramètre d'entrée, la présence d'un signal vocal dans un signal audio d'entrée ; générer, par le circuit de détection de voix, un signal d'activation sur chaque événement de détection de voix ; activer un circuit de reconnaissance de parole par le signal d'activation ; réaliser, par le circuit de reconnaissance de parole, une reconnaissance de parole sur le signal audio d'entrée ; générer, par le circuit de reconnaissance de parole, un signal de sortie indiquant, sur la base de la reconnaissance de parole, si chaque événement de détection de voix est vrai ou faux ; et générer, par un circuit d'analyse sur la base du signal de sortie du circuit de reconnaissance de parole, un signal de commande pour modifier un ou plusieurs des paramètres d'entrée.
B15051
Selon un mode de réalisation, le procédé comprend en outre : générer, par le circuit d'analyse, une première valeur représentant un taux de détection vraie indiquant le taux d'événements de détection vrais parmi le nombre total d'événements de détection générés par le circuit de détection de voix et/ou un taux de détection fausse indiquant le taux d'événements de détection faux parmi le nombre total d'événements de détection générés par le circuit de détection de voix ; et générer, par le circuit d'analyse, le signal de commande sur la base d'une comparaison de la première valeur à une première valeur de seuil et/ou selon que la première valeur augmente ou diminue.
Brève description des dessins
Les caractéristiques et avantages susmentionnés et d'autres apparaîtront clairement à la lecture de la description détaillée suivante de modes de réalisation, donnée à titre d'illustration et non de limitation, en faisant référence aux dessins joints dans lesquels :
la figure 1 illustre schématiquement un système de reconnaissance de parole selon un exemple de réalisation ;
la figure 2 illustre schématiquement un système de reconnaissance de parole selon encore un autre exemple de réalisation ;
la figure 3 illustre schématiquement un système de reconnaissance de parole selon un exemple de réalisation de la présente description ;
la figure 4 illustre schématiquement le système de reconnaissance de parole de la figure 3 plus en détail selon un exemple de réalisation ;
la figure 5 est un organigramme illustrant des étapes dans un procédé de reconnaissance de parole selon un exemple de réalisation de la présente description ; et la figure 6 illustre schématiquement un circuit de détection de voix selon un exemple de réalisation.
B15051
Description détaillée
La figure 1 illustre schématiquement un système de reconnaissance de parole 100. Le système 100 comprend un système d'écoute active en continu (CONTINOUS LISTENING SYSTEM) 102, qui comprend un circuit de reconnaissance de parole (SPEECH RECOGNITION) 104 utilisant un algorithme de reconnaissance de parole à base de mots-clés. Le circuit 104 reçoit un flux audio (AUDIO) 106, et envoie un ou plusieurs signaux de commande (CMD) sur une ligne 108 lorsqu'un ou plusieurs mots-clés sont reconnus, lesdits un ou plusieurs signaux de commande activant un ou plusieurs autres systèmes (SYSTEM) 110.
Un inconvénient de la solution de la figure 1 est que le circuit de reconnaissance de parole à base de mots-clés 104 est relativement complexe et consommateur d'énergie, et comme il est continuellement actif, la consommation d'énergie est susceptible d'être relativement élevée.
La figure 2 illustre schématiquement un système de reconnaissance de parole 200 selon une solution alternative par rapport à celle de la figure 1. Le système 200 comprend un système d'écoute active en continu (CONTINOUS LISTENING SYSTEM) 202, qui comprend un circuit de détection de voix (VOICE DETECTION) 204. Le circuit 204 reçoit un flux audio (AUDIO) 206, et génère un signal de réveil (WAKE-UP) sur une ligne 208 lorsqu'un signal vocal est détecté. Le signal de réveil active un circuit de reconnaissance de parole (SPEECH RECOGNITION) 210, qui est basé sur une reconnaissance de mots-clés. Le circuit 210 reçoit aussi le flux audio (AUDIO) et génère un ou plusieurs signaux de commande (CMD) sur une ligne 212 lorsqu'un mot-clé est reconnu, lesdits un ou plusieurs signaux de commande activant un ou plusieurs autres systèmes (SYSTEM) 214.
Bien que la solution de la figure 2 présente l'avantage que le circuit de reconnaissance de parole 210 est activé seulement lorsqu'un signal vocal est détecté, la consommation d'énergie peut rester relativement élevée. En effet, comme cela a été expliqué dans la section d'art antérieur précédemment, si le
B15051 circuit de détection de voix 204 est suffisamment précis pour activer le circuit de reconnaissance de parole 210 seulement dans le cas où de la voix est réellement présente, le circuit de détection de voix 204 et susceptible d'être complexe et d'avoir ainsi une consommation d'énergie relativement élevée. Toutefois, si le circuit de détection de voix 204 a une faible consommation d'énergie, cela signifie en général qu'il va présenter un taux relativement élevé de fausses détections positives afin de maintenir une valeur prédictive positive adéquate, ce qui signifie que le circuit de reconnaissance de parole va être activé plus souvent que nécessaire, conduisant aussi à une consommation d'énergie relativement élevée.
La figure 3 illustre schématiquement un système de reconnaissance de parole 300 selon un exemple de réalisation de la présente description. Par exemple, le système de reconnaissance de parole 300 fait partie d'un dispositif électronique comme un dispositif de communication mobile, un ordinateur portable ou une tablette informatique, etc., capable de recevoir des commandes vocales, et le système de reconnaissance de parole 300 est agencé pour distinguer dans un signal audio une pluralité de commandes vocales.
Le système 300 comprend par exemple un système d'écoute active en continu (CONTINOUS LISTENING SYSTEM) 302, qui comprend un circuit de détection de voix (VOICE DETECTION) 304. Le circuit
304 reçoit un signal audio (AUDIO) 306, qui est par exemple généré par au moins un transducteur (non illustré dans les figures) , qui est par exemple un système MEMS (système micro-électromécanique) . Dans certains modes de réalisation, le signal audio est un signal numérique, la sortie du transducteur étant par exemple convertie en un signal numérique par un convertisseur analogique-numérique. En variante, le signal audio pourrait être un signal analogique.
Le circuit 304 génère par exemple un signal de réveil (WAKE-UP) sur une ligne 308 lorsqu'un signal vocal est détecté. Le signal de réveil active un circuit de reconnaissance de parole
B15051 (SPEECH RECOGNITION) 31Q, qui comprend par exemple une reconnaissance par mots-clés. Une reconnaissance de parole implique la reconnaissance dans un signal vocal d'un ou plusieurs mots prononcés dans une langue donnée. La reconnaissance par mots-clés implique par exemple la reconnaissance d'un ou plusieurs motsclés parmi un ensemble de mots relativement réduit par rapport aux dictionnaires utilisés pendant une reconnaissance de parole en général. Par exemple, une reconnaissance de mots-clés basée sur la reconnaissance de parole peut être mise en œuvre en utilisant des modèles de Markov cachés et des réseaux de neurones. Cela est par exemple décrit plus en détail dans la publication de A. Waibel intitulée Phoneme récognition using time-delay neural networks, et dans la publication de Geoffrey Hinton intitulée Deep Neural Networks for Acoustic Modeling in Speech Récognition: the Shared Views of Four Research groups.
Par exemple, l'algorithme de reconnaissance par motsclés est adapté à détecter dans le signal audio un ou plusieurs mots-clés prononcés, qui correspondent par exemple à des commandes vocales. Le circuit 310 reçoit aussi le signal audio (AUDIO) 306, et génère un signal de requête d'interruption (CMD) sur une ligne 312 lorsque de la voix est reconnue, le signal de requête d'interruption activant un ou plusieurs autres systèmes (SYSTEM) 314.
Le système d'écoute en continu 302 comprend en outre un circuit de correction de paramètres (PARAMETER CORRECTION) 316 agencé pour fournir un ou plusieurs paramètres modifiés (PARAMETERS) au circuit de détection de voix 304. L'algorithme de détection de voix qui est appliqué par le circuit 304 est par exemple basé au moins partiellement sur un ou plusieurs des paramètres suivants :
- un ou plusieurs paramètres indiquant une ou plusieurs fréquences de coupure d'un filtre passe-bas ou passe-bande, la fréquence de coupure étant par exemple la fréquence à laquelle l'amplitude du signal descend à moins de 20 % de sa valeur crête ;
B15051
- un ou plusieurs paramètres indiquant un ou plusieurs seuils de détection ;
- un ou plusieurs paramètres indiquant un seuil de nombres de passages par zéro du signal audio. Par exemple, une détection de voix basée sur les passages par zéro est décrite plus en détail dans la publication de Madiha Jalil-et al. intitulée Short-time energy, zéro Crossing rate and autocorrélation measurement for discriminating voiced and unvoiced segments of speech signal, 2013 International Conférence on Technological Advances in Electrical, Electronics and Computer Engineering (TAEECE), et dans la publication de B. Atal intitulée A pattern récognition approach to voiced-unvoiced-silence classification with applications to speech récognition, IEEE Transactions on Acoustics Speech and Signal Processing, 24(3):201-212, juin 1976 ;
- un ou plusieurs paramètres indiquant un ou plusieurs temps d'anti-rebond. Comme cela est connu de l'homme de l'art, une fonction anti-rebond empêche un autre déclenchement d'un événement pendant un certain temps d'anti-rebond d'un premier événement ; et
- un ou plusieurs paramètres indiquant une pondération appliquée au signal de sortie d'un ou plusieurs sous-circuits lors de la génération du résultat de la décision de détection.
Des algorithmes de détection de voix basés sur au moins l'un des paramètres susmentionnés sont connus dans la technique et sont par exemple décrits plus en détail dans les demandes de brevet des États-Unis d'Amérique publiées sous les numéros US20090055173, US20110125497 et US20020116186.
Dans un exemple simple, le circuit de détection de voix 304 comprend par exemple un filtre passe-bas adapté à filtrer le signal audio d'entrée, le filtre passe-bas ayant par exemple une
B15051 fréquence de coupure comprise entre 15 et -20 kHz. En plus, le circuit de détection de voix 304 comprend par exemple un comparateur adapté à appliquer un seuil de détection au signal audio filtré, de sorte que seul un signal audio dépassant un certain seuil déclenche un événement de détection. Dans certains modes de réalisation, la fréquence de coupure du filtre passe-bas et/ou le seuil de détection sont les paramètres du circuit de détection.
Le circuit de correction de paramètres 316 détermine par exemple une modification à appliquer aux paramètres sur la base d'un signal de commande fourni sur une ligne 318 à partir d'un circuit d'analyse de détection (DETECTION ANALYSIS) 320. Le circuit 320 reçoit par exemple à son tour le signal de réveil généré par le circuit de détection de voix 304 sur la ligne 308, et une indication sur une ligne 322 de l'état vrai ou faux (TRÜE/FALSE) de chaque événement de détection de voix fourni par le circuit de reconnaissance de mots-clés 310.
Le circuit d'analyse 320 est par exemple capable de déterminer, pour chaque événement de détection indiqué par le signal de réveil sur la ligne 308, si le circuit de reconnaissance de parole 310 a détecté de la parole, ce qui à son tour indique si l'événement de détection était vrai ou faux. Dans certains modes de réalisation, le circuit d'analyse 320 génère et fournit au circuit de correction de paramètres 316 un plusieurs des éléments suivants :
- le taux de détection vraie, calculé par exemple comme étant une valeur moyenne sur une fenêtre temporelle glissante, ou sur la base du nombre d'événements de détection vrais par rapport au nombre total d'événements de détection sur une période de temps donnée ;
- le taux de détection fausse, calculé par exemple comme étant une valeur moyenne sur une fenêtre temporelle glissante, ou sur la base du nombre d'événements de détection faux par rapport au nombre total d'événements de détection sur une période de temps donnée ; et
B15051
- le nombre total d'événements de détection sur une période donnée, par exemple un nombre moyen d'événements de détection ou la dérivée de cette moyenne.
Dans certains modes de réalisation, le circuit de correction de paramètres est agencé pour mettre à jour un ou plusieurs des paramètres sur la base d'une comparaison entre le taux de détection vraie, fausse et/ou total, à une valeur de seuil, et/ou sur la base du fait que le taux de détection vraie, fausse et/ou total augmentent ou diminuent.
La figure 4 illustre schématiquement une partie du système de reconnaissance de parole 320 de la figure 3 plus en détail, et en particulier illustre le circuit d'analyse de détection 320 plus en détail. Le circuit d'analyse de détection 320 comprend par exemple un circuit d'analyse de détections totales (TOTAL DETECTIONS ANALYSIS) 402, qui par exemple compte les événements de détection sur la base du signal de réveil sur la ligne 308, et fournit par exemple un taux d'événements détectés sur une ligne de sortie 404. Le circuit d'analyse 320 comprend aussi par exemple un circuit d'analyse de détections vraies/fausses (TRUE/FALSE DETECTIONS ANALYSIS) 406, qui compte par exemple les événements de détection vrais et/ou faux sur la base de la ligne de sortie 322 du circuit de reconnaissance de parole 310, et fournit par exemple un taux de détection vraie et/ou fausse sur une ligne de sortie 408.
Le taux de détection total et le taux de détection vraie et/ou fausse sont par exemple fournis à un circuit de mise à jour de paramètres (PARAMETER UPDATE) 410, qui par exemple génère le signal de commande de paramètres sur la ligne 318 vers le système d'écoute en continu 302.
On va maintenant décrire plus en détail le fonctionnement du circuit de la figure 4 en faisant référence à la figure 5.
La figure 5 est un organigramme illustrant des étapes dans un procédé de reconnaissance de parole selon un exemple de réalisation de la présente description.
B15051
Le procédé commence à une étape 501 dans laquelle on détermine si un événement de détection de voix a eu lieu, en d'autres termes si le signal audio détecté est interprété comme étant un. signal vocal. Dans la négative, l'étape 501 est répétée de sorte qu'il y a une écoute continue du signal audio d'entrée. Si un événement de détection de voix survient, l'étape suivante est l'étape 502.
Dans l'étape 502, des statistiques concernant les événements détectés sont par exemple mises à jour. Par exemple, un taux total d'événements de détection et/ou un taux de détection vraie et/ou fausse sont mis à jour sur la base de l'événement de détection et du signal de sortie vrai/faux du circuit de reconnaissance de parole 310 en réponse à l'événement de détection.
Dans une étape 503, on détermine ensuite si l'événement détecté était vrai ou faux, en d'autres termes s'il correspond à de la parole, vraiment ou faussement. Par exemple, dans certains modes de réalisation, la détection par le circuit de reconnaissance de parole 310 d'un mot reconnaissable dans le signal audio indique un événement de détection vrai, alors que la détection par le circuit de reconnaissance de parole 310 d'aucun mot reconnaissable dans une fenêtre temporelle donnée indique un événement de détection faux.
Dans le cas d'un événement de détection vrai dans l'étape 503, l'étape suivante est par exemple l'étape 504, dans laquelle le taux de détection vraie est par exemple mis à jour. Dans une étape 505, au moins un paramètre utilisé pour la détection de voix est par exemple mis à jour sur la base des statistiques mises à jour.
Dans le cas d'un événement de détection faux dans l'étape 503, l'étape suivante est par exemple l'étape 506, dans laquelle le taux de détection fausse est par exemple mis à jour, puis dans une étape 507, l'algorithme de détection de mots-clés est par exemple arrêté, par exemple en coupant l'alimentation du circuit de reconnaissance de parole 310. Le procédé passe ensuite
B15051 par exemple à l'étape 505 dans laquelle de nouveau au moins un paramètre utilisé pour la détection vocale est par exemple mis à jour sur la base des statistiques mises à jour.
L'étape 505 implique par exemple, pour un paramètre de détection donné, l'application de l'algorithme suivant :
- SI le taux de détection vraie est en dessous d'un premier seuil défini OU SI le taux de détection total est en dessous d'un deuxième seuil défini, ALORS le paramètre de seuil de détection est modifié afin d'augmenter la sensibilité de détection du système d'écoute en continu ;
- SINON SI le taux de détection fausse est au-dessus du premier seuil défini ou d'un autre seuil ET SI il augmente ET SI le taux de détection total est au-dessus du deuxième seuil défini ou d'un autre seuil, ALORS le paramètre de seuil de détection est modifié afin de réduire la sensibilité du système d'écoute en continu.
Les commandes de diminution/augmentation peuvent être proportionnelles à la variation des taux de détection ou à la différence entre les taux de détection et les seuils définis.
Dans le cas d'un paramètre de détection définissant le seuil de nombre de passages par zéro, l'algorithme susmentionné peut être appliqué, excepté qu'on utilise par exemple un seuil relatif, de sorte que la décision de détection est prise sur la base de la variation du taux de passages par zéro.
Dans certains modes de réalisation, les différents seuils sont pondérés, et les commandes d'augmentation ou de diminution des paramètres sont appliquées à tous les paramètres ou suivent un ordre de priorité spécifique.
Après l'étape 505, le procédé revient par exemple à l'étape 501.
La figure 6 illustre schématiquement le circuit de détection de voix 304 du système d'écoute en continu selon un exemple de réalisatioh.
Le signal audip..AUDIO sur la ligne 306 est par exemple fourni en parallèle à des filtres (FILTER 1) 602 et (FILTER 2)
B15051
604 contrôlés respectivement par des paramètres Fqq]_, Fqq2, contrôlant au moins une fréquence de coupure du filtre. La fréquence de coupure est par exemple la fréquence pour laquelle le signal de sortie du filtre descend ou monte à au moins 50 % de sa valeur crête. Dans certains modes de réalisation, chacun des filtres 602, 604 a une fréquence de coupure haute d'environ 4 kHz. En variante, le filtre 602 a une fréquence de coupure haute Fqqi d'environ 20 kHz, et le filtre 604 a des fréquences de coupure basse et haute de 200 Hz et 4 kHz respectivement, définissant une bande passante.
La sortie du filtre 602 est par exemple couplée à un circuit de calcul d'énergie à long terme (LONG-TERM ENERGY COMPUTATION) 606 et la sortie du filtre 604 est par exemple couplée à un circuit de calcul d'énergie à court terme (SHORT-TERM ENERGY COMPUTATION) 608. Les circuits 606 et 608 sont respectivement contrôlés par des paramètres Tjq, T^g définissant la durée des périodes de calcul d'énergie. Le circuit de calcul à long terme 606 génère un signal représentatif du niveau d'énergie total du signal audio, comprenant le bruit de fond. Le circuit de calcul à court tenue 608 génère un signal représentatif de fluctuations d'énergie résultant par exemple d'un signal vocal. Les sorties des circuits 606 et 608 sont par exemple couplées à un comparateur (COMPARATOR) 610, qui compare la différence entre les signaux à un paramètre de seuil THRESHOLD. Si la différence est supérieure au seuil, un événement est déclenché à la sortie du comparateur, et ce signal est par exemple couplé à un filtre anti-rebond (DEBOUNCE FILTER) 612, qui empêche par exemple la répétition d'événements pendant un certain temps d'anti-rebond défini par un autre paramètre TDB. La sortie du filtre anti-rebond 612 fournit par exemple le signal de réveil sur la ligne 308.
Un ou plusieurs des paramètres Fcoiz Fqo2z TaI, ta2< THRESHOLD et Tqb sont par exemple générés par le circuit de correction de paramètres 316.de la figure 3 afin de modifier la sensibilité du circuit de détection de voix.
B15051
Bien sûr, le circuit de la figure 6 n'est qu'un exemple, et dans des variantes de réalisation on pourrait utiliser d'autres circuits comprenant par exemple des circuits additionnels et/ou des circuits en moins par rapport au mode de réalisation de la figure ξ>.
Un avantage des modes de réalisation décrits ici est que la précision d'un algorithme de détection de voix relativement simple peut être améliorée en modifiant un ou plusieurs paramètres de l'algorithme de détection de voix en fonction du résultat de la reconnaissance de parole.
Un autre avantage des modes de réalisation décrits ldi est qu'un système de détection de voix relativement simple peut être étalonné automatiquement pour différentes conditions d'utilisation.
De cette manière, on peut obtenir un circuit de détection de voix à consommation d'énergie relativement faible qui a un taux relativement faible de fausses détections positives, empêchant ainsi une forte consommation du circuit de reconnaissance de parole.
Avec la description ainsi faite d'au moins un mode de réalisation illustratif, diverses altérations, modifications et améliorations apparaîtront facilement à l'homme de l'art. Par exemple, il apparaîtra clairement à l'homme de l'art que bien qu' on ait donné des exemples particuliers des paramètres appliqués au circuit de détection de voix, il y a d'autres paramètres qui pourraient être appliqués en plus ou à la place.
B15051

Claims (12)

  1. REVENDICATIONS
    1. Circuit de reconnaissance de parole comprenant , :
    un circuit de détection de voix (304) agencé pour détecter, sur la base d'au moins un paramètre d'entrée, la présence d'un signal vocal dans un signal audio d'entrée (AUDIO) et pour générer un signal d'activation (WAKÈ-UP) sur chaque événement de détection de voix ;
    un circuit de reconnaissance de parole (310) agencé pour être activé par le signal d'activation et pour réaliser une reconnaissance de parole sur le signal audio d'entrée, le circuit de reconnaissance de parole étant en outre agencé pour générer un signal de sortie (TRUE/FALSE) indiquant, sur la base de la reconnaissance de parole, si chaque événement de détection de voix est vrai ou faux ; et un circuit d'analyse (320) agencé pour générer, sur la base du signal de sortie du circuit de reconnaissance de parole (310) , un signal de commande pour modifier un ou plusieurs des paramètres d'entrée.
  2. 2. Circuit selon la revendication 1, dans lequel le circuit d'analyse (320) est adapté à déterminer un ou plusieurs des éléments suivants :
    une première valeur représentant un taux de détection vraie indiquant le taux d'événements de détection vrais parmi le nombre total d'événements de détection générés par le circuit de détection de voix (304).
  3. 3. Circuit selon la revendication 2, dans lequel le circuit d'analyse (320) est agencé pour générer le signal de commande sur la base d'une comparaison de la première valeur à un premier seuil et/ou selon que la première valeur augmente ou diminue.
  4. 4. Circuit selon la revendication 3, dans lequel le circuit d'analyse est en outre agencé pour :
    générer une deuxième valeur représentant le nombre total d'événements de détection générés par le circuit de détection de voix (304) ; et
    B15051 comparer la deuxième valeur à un deuxième seuil et/ou déterminer si la deuxième valeur augmente ou diminue.
  5. 5. Circuit selon la revendication 4, dans lequel le circuit d'analyse (320) est agencé pour modifier le signal de commande pour rendre le circuit de détection de voix plus sensible si le premier seuil et/ou le deuxième seuil ne sont pas dépassés et/ou si la première valeur et/ou la deuxième valeur diminuent.
  6. 6. Circuit selon l'une quelconque des revendications 2 à 5, dans lequel le circuit d'analyse (320) est agencé pour :
    générer une troisième valeur représentant un taux de détection fausse indiquant le taux d'événements de détection faux parmi le nombre total d'événements de détection générés par le circuit de détection de voix (304) ; et comparer la troisième valeur à un troisième seuil et/ou déterminer si la troisième valeur augmente ou diminue.
  7. 7. Circuit selon la revendication 6, dans lequel le circuit d'analyse est en outre agencé pour modifier le signal de commande pour rendre le circuit de détection de voix moins sensible si le deuxième et/ou le troisième seuil sont dépassés et/ou si la troisième valeur augmente.
  8. 8. Circuit selon l'une quelconque des revendications 1 à 7, dans lequel chacun desdits au moins un paramètre d'entrée est l'un des paramètres suivants :
    - un paramètre réglant une ou plusieurs fréquences de coupure d'un ou plusieurs filtres du circuit de détection de voix (304) ;
    un paramètre réglant un ou plusieurs seuils de détection du circuit de détection de voix (304) ;
    - un paramètre réglant une ou plusieurs périodes de calcul d'énergie ;
    - un paramètre réglant un seuil de nombre de passages par zéro du signal audio ;
    - un paramètre réglant un ou plusieurs temps d'antirebond ; et
    B15051
    - un seuil réglant une pondération à appliquer au signal de sortie d'un ou plusieurs sous-circuits du circuit de détection de voix (304).
  9. 9. Circuit selon l'une quelconque des revendications 1 à 8, dans lequel le circuit de reconnaissance de parole (310) est adapté à générer un autre signal d'activation (CMD) pour activer un ou plusieurs autres circuits en réponse à un événement de reconnaissance de parole.
  10. 10. Circuit selon la revendication 9, dans lequel le circuit de reconnaissance de parole est adapté à réaliser une reconnaissance de mots-clés.
  11. 11. Procédé de reconnaissance de parole comprenant : détecter, par un circuit de détection de voix (304) sur la base d'au moins un paramètre d'entrée, la présence d'un signal vocal dans un signal audio d'entrée (AUDIO) ;
    générer, par le circuit de détection de voix (304), un signal d'activation (WAKE-UP) sur chaque événement de détection de voix ;
    activer un circuit de reconnaissance de parole (310) par le signal d'activation ;
    réaliser, par le circuit de reconnaissance de parole, une reconnaissance de parole sur le signal audio d'entrée ;
    générer, par le circuit de reconnaissance de parole, un signal de sortie (TRUE/FALSE) indiquant, sur la base de la reconnaissance de parole, si chaque événement de détection de voix est vrai ou faux ; et générer, par un circuit d'analyse (320) sur la base du signal de sortie du circuit de reconnaissance de parole (310), un signal de commande pour modifier un ou plusieurs des paramètres d'entrée.
  12. 12. Procédé selon la revendication 11, comprenant en outre :
    générer, par le circuit d'analyse, une première valeur représentant un taux de détection vraie indiquant le taux d'événements de détection vrais parmi le nombre total d'événements
    B15051 de détection générés par le circuit de détection de voix et/ou un taux de détection fausse indiquant le taux d'événements de détection faux parmi le nombre total d'événements de détection générés par le circuit de détection de voix ; et
    5 générer, par le circuit d'analyse, le signal de commande sur la base d'une comparaison de la première valeur à une première valeur de seuil et/ou selon que la première valeur augmente ou diminue.
    B15051
    1/3
    200
FR1657034A 2016-07-22 2016-07-22 Circuit et procede de reconnaissance de parole Active FR3054362B1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR1657034A FR3054362B1 (fr) 2016-07-22 2016-07-22 Circuit et procede de reconnaissance de parole
US15/654,153 US10236000B2 (en) 2016-07-22 2017-07-19 Circuit and method for speech recognition
KR1020170092189A KR20180011015A (ko) 2016-07-22 2017-07-20 음성 인식을 위한 회로 및 방법
CN201710605515.8A CN107644651B (zh) 2016-07-22 2017-07-24 用于语音识别的电路和方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1657034A FR3054362B1 (fr) 2016-07-22 2016-07-22 Circuit et procede de reconnaissance de parole
FR1657034 2016-07-22

Publications (2)

Publication Number Publication Date
FR3054362A1 true FR3054362A1 (fr) 2018-01-26
FR3054362B1 FR3054362B1 (fr) 2022-02-04

Family

ID=57233619

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1657034A Active FR3054362B1 (fr) 2016-07-22 2016-07-22 Circuit et procede de reconnaissance de parole

Country Status (4)

Country Link
US (1) US10236000B2 (fr)
KR (1) KR20180011015A (fr)
CN (1) CN107644651B (fr)
FR (1) FR3054362B1 (fr)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3327756B1 (fr) * 2016-11-24 2019-11-06 Melexis Technologies NV Système de surveillance de l'intégrité du bord d'une puce et procédé correspondant
US10504539B2 (en) * 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods
JP2020115206A (ja) 2019-01-07 2020-07-30 シナプティクス インコーポレイテッド システム及び方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120221330A1 (en) * 2011-02-25 2012-08-30 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
US20120239394A1 (en) * 2011-03-18 2012-09-20 Fujitsu Limited Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
US20130185068A1 (en) * 2010-09-17 2013-07-18 Nec Corporation Speech recognition device, speech recognition method and program
US20140163978A1 (en) * 2012-12-11 2014-06-12 Amazon Technologies, Inc. Speech recognition power management
GB2515526A (en) * 2013-06-26 2014-12-31 Wolfson Microelectronics Plc Speech Recognition

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10015960C2 (de) * 2000-03-30 2003-01-16 Micronas Munich Gmbh Spracherkennungsverfahren und Spracherkennungsvorrichtung
US20020116186A1 (en) 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
US8204754B2 (en) 2006-02-10 2012-06-19 Telefonaktiebolaget L M Ericsson (Publ) System and method for an improved voice detector
US20110125497A1 (en) 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
US9026443B2 (en) * 2010-03-26 2015-05-05 Nuance Communications, Inc. Context based voice activity detection sensitivity
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
US9412373B2 (en) * 2013-08-28 2016-08-09 Texas Instruments Incorporated Adaptive environmental context sample and update for comparing speech recognition
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
US9589560B1 (en) * 2013-12-19 2017-03-07 Amazon Technologies, Inc. Estimating false rejection rate in a detection system
US9899021B1 (en) * 2013-12-20 2018-02-20 Amazon Technologies, Inc. Stochastic modeling of user interactions with a detection system
US9373393B2 (en) * 2014-06-05 2016-06-21 Integrated Silicon Solution, Inc. Resistive memory device implementing selective memory cell refresh
US9959887B2 (en) * 2016-03-08 2018-05-01 International Business Machines Corporation Multi-pass speech activity detection strategy to improve automatic speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185068A1 (en) * 2010-09-17 2013-07-18 Nec Corporation Speech recognition device, speech recognition method and program
US20120221330A1 (en) * 2011-02-25 2012-08-30 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
US20120239394A1 (en) * 2011-03-18 2012-09-20 Fujitsu Limited Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
US20140163978A1 (en) * 2012-12-11 2014-06-12 Amazon Technologies, Inc. Speech recognition power management
GB2515526A (en) * 2013-06-26 2014-12-31 Wolfson Microelectronics Plc Speech Recognition

Also Published As

Publication number Publication date
FR3054362B1 (fr) 2022-02-04
US20180025730A1 (en) 2018-01-25
US10236000B2 (en) 2019-03-19
CN107644651B (zh) 2023-06-27
KR20180011015A (ko) 2018-01-31
CN107644651A (zh) 2018-01-30

Similar Documents

Publication Publication Date Title
US11676581B2 (en) Method and apparatus for evaluating trigger phrase enrollment
US10535365B2 (en) Analog voice activity detection
US10403266B2 (en) Detecting keywords in audio using a spiking neural network
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
US20140278389A1 (en) Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
CN110634507A (zh) 用于语音唤醒的音频的语音分类
CN108810280B (zh) 语音采集频率的处理方法、装置、存储介质及电子设备
CN104867495A (zh) 上下文感知的声音标志检测
WO2016039751A1 (fr) Procédé de notation dans un système de reconnaissance vocale automatique
FR3054362A1 (fr) Circuit et procede de reconnaissance de parole
JP2017062349A (ja) 検知装置及びその制御方法、コンピュータプログラム
WO2020056329A1 (fr) Circuits d&#39;apprentissage profond personnalisé à faible consommation d&#39;énergie pour des applications intégrées toujours actives
CN111524513A (zh) 一种可穿戴设备及其语音传输的控制方法、装置及介质
CN112669822A (zh) 音频处理方法、装置、电子设备和存储介质
CN111192588B (zh) 一种系统唤醒方法及装置
US10276180B2 (en) Audio command adaptive processing system and method
JP5960272B2 (ja) モバイルデバイスにおける意図されない発信通信の抑止
Cheng et al. Spectrogram-based classification on vehicles with modified loud exhausts via convolutional neural networks
GB2516075A (en) Sensor input recognition
WO2018060584A1 (fr) Circuit audio et procede de detection d&#39;activite sonore
CN112015261A (zh) 一种智能终端驾驶模式识别方法
CN115335903A (zh) 用于目标声音检测的方法及装备
WO2011110897A1 (fr) Dispositif et procédé de reconnaissance de contexte
CN106409312B (zh) 音频分类器
GB2578335A (en) Video camera

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20180126

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

CA Change of address

Effective date: 20210223

TP Transmission of property

Owner name: DOLPHIN DESIGN, FR

Effective date: 20210223

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8