FR2936086A1 - Keywords or expressions vocal identification method for incident audio stream, involves searching presence of strings of phonemes previously obtained by transformation in sequences of phonemes - Google Patents

Keywords or expressions vocal identification method for incident audio stream, involves searching presence of strings of phonemes previously obtained by transformation in sequences of phonemes Download PDF

Info

Publication number
FR2936086A1
FR2936086A1 FR0805070A FR0805070A FR2936086A1 FR 2936086 A1 FR2936086 A1 FR 2936086A1 FR 0805070 A FR0805070 A FR 0805070A FR 0805070 A FR0805070 A FR 0805070A FR 2936086 A1 FR2936086 A1 FR 2936086A1
Authority
FR
France
Prior art keywords
phonemes
expressions
words
phoneme
audio stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0805070A
Other languages
French (fr)
Inventor
Thibaut Ehrette
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA filed Critical Thales SA
Priority to FR0805070A priority Critical patent/FR2936086A1/en
Publication of FR2936086A1 publication Critical patent/FR2936086A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The method involves listing of keywords or expressions to be identified in an incident audio stream, and transforming the keywords or expressions into a set of multiple strings (9) of plasuible phonemes (5). The phonemes are extracted from an incident audio stream (F) using a phoneme identification system (2). Sequences of the extracted phonemes are established. Presence of the strings of the phonemes previously obtained by transformation is searched in the sequences of the phonemes. An independent claim is also included for a system for rapid vocal identification of keywords or expressions in an incident audio stream.

Description

PROCEDE DE RECONNAISSANCE RAPIDE DE MOTS OU EXPRESSIONS DANS UN FLUX AUDIO INCIDENT ET DISPOSITIF DE MISE EN OEUVRE La présente invention se rapporte à un procédé de reconnaissance rapide de mots ou expressions dans un flux audio incident, ainsi qu'à un système de mise en oeuvre d'un tel procédé. L'invention vise en particulier la détection de mots clés dans un flux audio permettant ainsi de détecter des passages relatifs à un thème, ce thème étant défini 10 par une liste prédéfinie de mots représentatifs à repérer. Le problème du temps de calcul n'a jamais été le centre des préoccupations des systèmes de détection de mots clés. C'est plus souvent la précision qui prime (les résultats sont synthétisés dans une courbe donnant les bonnes détections en fonction des fausses alarmes). 15 Les systèmes actuels de détection sont de deux types : ceux du premier transcrivent intégralement le flux sonore en texte, la recherche s'effectuant dans ce texte. La première étape est longue (cinq à dix fois le temps réel), nécessite des ressources importantes et ne permet pas la reconnaissance des mots hors vocabulaire, tandis que ceux du second type se basent sur une recherche phonétique, cette 20 recherche étant plus rapide, mais le temps d'adaptation à de nouveaux mots reste long car un modèle est à reconstruire pour chaque mot. La présente invention a pour objet un procédé de reconnaissance rapide de mots ou expressions dans un flux audio incident pouvant résoudre simultanément les problèmes techniques suivants : 25 Le premier problème technique est le temps de repérage qui s'avère critique dans un système d'écoute où la quantité d'information incidente est très supérieure à la ressource de traitement. Le deuxième problème est l'adaptabilité aux mots hors vocabulaire : le filtre thématique doit pouvoir être constitué de noms propres ou de mots nouveaux 30 inconnus du système de reconnaissance. Le troisième problème est le temps d'adaptation à un nouveau filtre : il doit prendre effet immédiatement. The present invention relates to a method for rapid recognition of words or expressions in an incident audio stream, as well as to a system for implementing a method for rapid recognition of words or expressions in an incident audio stream. of such a method. The invention aims in particular the detection of key words in an audio stream thus making it possible to detect passages relating to a theme, this theme being defined by a predefined list of representative words to be identified. The problem of computing time has never been the focus of keyword detection systems. It is more often the precision which takes precedence (the results are synthesized in a curve giving the good detections according to the false alarms). Current detection systems are of two types: those of the first fully transcribe the sound stream into text, the search taking place in this text. The first step is long (five to ten times the real time), requires significant resources and does not allow the recognition of words out of vocabulary, while those of the second type are based on a phonetic search, this search is faster, but the time of adaptation to new words remains long because a model is to be reconstructed for each word. The present invention relates to a method for rapid recognition of words or expressions in an incident audio stream that can simultaneously solve the following technical problems: The first technical problem is the tracking time which is critical in a listening system where the amount of incident information is much greater than the processing resource. The second problem is adaptability to words outside the vocabulary: the thematic filter must be able to consist of proper nouns or new words unknown to the recognition system. The third problem is the time to adapt to a new filter: it must take effect immediately.

Enfin, le quatrième problème est de prendre en compte les trois premiers tout en gardant un très haut niveau de détection. La présente invention a également pour objet un dispositif de mise en oeuvre d'un procédé de reconnaissance rapide de mots ou expressions dans un flux audio 5 incident, dispositif pouvant être réalisé avec des moyens couramment disponibles et qui soit le moins onéreux possible. Le procédé conforme à l'invention est caractérisé en ce qu'il consiste à établir une liste de mots ou expressions à reconnaitre, et, à l'aide d'un phonétiseur, à transformer ces mots ou expressions en un ensemble de plusieurs chaînes de 10 phonèmes vraisemblables, puis, à l'aide d'un système de reconnaissance de phonèmes, à extraire des phonèmes d'un flux audio incident, à établir des enchaînements possibles des phonèmes ainsi extraits, et à rechercher dans ces enchainements la présence de l'une des chaînes de phonèmes vraisemblables précédemment obtenues par le phonétiseur. 15 Le système conforme à l'invention comporte d'une part un fichier texte rempli par l'utilisateur et comportant des mots ou expressions à rechercher, suivi d'un phonétiseur multiple, et d'un système de recherche de chaînes dans un graphe, et d'autre part un système de reconnaissance de phonèmes relié à des modèles acoustiques et à des modèles de langages, ce système de reconnaissance étant relié 20 audit système de recherche de chaînes. La solution de l'invention est multiple et répond aux quatre problèmes précédemment cités de la façon suivante : - Le temps de calcul : Un système de reconnaissance vocale large vocabulaire est utilisé en le 25 limitant au premier étage de reconnaissance : la reconnaissance des phonèmes. La seule ressource nécessaire est alors un modèle acoustique de la langue. Pour l'anglais par exemple, un tel modèle convertit les échantillons du signal de parole en phonèmes en choisissant parmi les 27 de la langue. A l'issue de cette étape on dispose d'un treillis de phonèmes proposant les combinaisons les plus probables 30 d'enchaînement entre phonèmes, dans lequel il faut rechercher les chaînes représentant les mots du filtre thématique. - L'adaptation aux mots nouveaux et hors vocabulaire : La technique proposée ne possède pas d'autre dictionnaire que celui des phonèmes, on peut ainsi proposer n'importe quel mot, nom commun, nom propre ou un néologisme à partir du moment où l'on sait le transformer en chaîne de phonèmes (il existe des phonétiseurs à base de règles). - Le temps de prise en compte des nouveaux mots : Lorsqu'un mot ou un groupe de mots vient compléter le filtre de recherche, il suffit de le convertir en chaîne de phonèmes (ce qui représente une étape de calcul de durée négligeable) et de l'insérer dans la liste des formes recherchées. Aucun apprentissage n'est nécessaire, il ne s'agit que d'un ajout dans un fichier texte. L'adaptation peut se faire en cours d'opération (au runtime). - La précision de détection Deux solutions viennent se compléter pour pallier le manque de précision dû à l'allègement des ressources. La première consiste à dégrader le filtre thématique pour prendre en compte les imperfections de prononciation des locuteurs ainsi que les imprécisions du modèle acoustique. On obtient ainsi non plus une seule chaîne de phonèmes par mot mais plusieurs (phonétisation multiple), les modifications étant basées sur des règles phonétiques et sur un apprentissage à partir d'une base de données audio. Finally, the fourth problem is to take into account the first three while keeping a very high level of detection. The present invention also relates to a device for implementing a method for rapidly recognizing words or expressions in an incident audio stream, a device that can be implemented with means that are currently available and that is as inexpensive as possible. The method according to the invention is characterized in that it consists in establishing a list of words or expressions to be recognized, and, using a phonetizer, to transform these words or expressions into a set of several strings of 10 possible phonemes, then, using a phoneme recognition system, to extract phonemes from an incident audio stream, to establish possible sequences of phonemes thus extracted, and to search in these sequences for the presence of the phonemes. one of the probable phoneme strings previously obtained by the phonetizer. The system according to the invention comprises on the one hand a text file filled in by the user and comprising search words or expressions, followed by a multiple phonetizer, and a system for searching strings in a graph, and on the other hand a phoneme recognition system connected to acoustic models and language models, this recognition system being connected to said channel search system. The solution of the invention is multiple and responds to the four problems mentioned above in the following way: Calculation time: A wide vocabulary speech recognition system is used by limiting it to the first recognition stage: phoneme recognition. The only resource needed is then an acoustic model of the language. For English for example, such a model converts the samples of the speech signal into phonemes by choosing among the 27 of the language. At the end of this step we have a trellis of phonemes proposing the most probable combinations of phoneme sequencing, in which we must find the strings representing the words of the thematic filter. - Adaptation to new and out-of-vocabulary words: The proposed technique has no other dictionary than that of phonemes, we can thus propose any word, common name, proper name or a neologism from the moment when the we know how to transform it into a string of phonemes (there are rules-based phonetizers). - The time taken to take new words into account: When a word or a group of words completes the search filter, it suffices to convert it into a string of phonemes (which represents a step of calculation of negligible duration) and of insert it into the list of desired forms. No learning is necessary, it is only an addition to a text file. The adaptation can be done during operation (runtime). - The accuracy of detection Two solutions complement each other to compensate for the lack of precision due to the lightening of resources. The first is to degrade the thematic filter to take into account the pronunciation imperfections of the speakers as well as the inaccuracies of the acoustic model. This results in no more than one string of phonemes per word but several (multiple phonetization), the modifications being based on phonetic rules and learning from an audio database.

La présente invention sera mieux comprise à la lecture de la description détaillée d'un mode de réalisation, pris à titre d'exemple non limitatif et illustré par le dessin annexé, sur lequel : - la figure 1 est un bloc-diagramme simplifié d'un dispositif de mise en oeuvre du procédé de l'invention, - la figure 2 est un exemple simplifié d'un treillis de phonèmes utilisé par le procédé conforme à la présente invention, et - la figure 3 est un tableau montrant, dans sa partie de gauche, un exemple simplifié d'un format de treillis de phonèmes pouvant être utilisé par l'invention, et dans sa partie de gauche un exemple de représentation du treillis de la figure 2. 30 Le système 1 représenté en figure 1 comporte essentiellement : un module 2 de reconnaissance de phonèmes recevant un flux audio F (qui peut être de provenances diverses : produit directement par un microphone, provenant d'un enregistrement,...) et communiquant avec un modèle acoustique 3 et un modèle de langage 4. Le module 2 présente à sa sortie un treillis de phonèmes 5 dont la sortie est reliée à un module 6 de recherche de chaînes de phonèmes dans un graphe, le treillis en l'occurrence. D'autre part, le système 1 comporte une bibliothèque 7 de mots ou d'expressions à rechercher (cette bibliothèque se présente avantageusement sous forme d'une liste en format texte de tels mots ou expressions) qui communique avec un phonétiseur multiple 8 produisant des chaînes de phonèmes 9 avec les mots recherchés, ces chaînes étant utilisées par le module 6. Dans le système de la figure 1, les trois modules principaux 2, 6 et 8 (évidents à réaliser pour l'homme de l'art à la lecture de la présente description) fonctionnent de la manière suivante. Le module 2 de reconnaissance vocale (reconnaissance de phonèmes) transforme un signal de parole (flux audio entrant F) en treillis de phonèmes. Un modèle acoustique de la langue visée (3) est nécessaire. En revanche, le modèle de langage (4) est considérablement réduit puisqu'il ne consiste qu'en une liste des phonèmes de la langue (par exemple 27 pour l'anglais). Ceci permet de limiter les informations produites à la sortie du module 2 à un treillis de phonèmes (5) et non de mots, et donc de diminuer le temps de calcul par rapport à un système de reconnaissance classique. The present invention will be better understood on reading the detailed description of an embodiment, taken by way of nonlimiting example and illustrated by the appended drawing, in which: FIG. 1 is a simplified block diagram of FIG. a device for implementing the method of the invention; FIG. 2 is a simplified example of a phoneme trellis used by the method according to the present invention, and FIG. 3 is a table showing, in its part on the left, a simplified example of a phonemic trellis format that can be used by the invention, and in its left part an example of representation of the trellis of FIG. 2. The system 1 represented in FIG. 1 essentially comprises: a phoneme recognition module 2 receiving an audio stream F (which may be of various origins: produced directly by a microphone, originating from a recording, etc.) and communicating with an acoustic model 3 and a mod The module 2 has at its output a trellis of phonemes 5 whose output is connected to a module 6 search phoneme strings in a graph, the lattice in this case. On the other hand, the system 1 comprises a library 7 of words or expressions to be searched for (this library is advantageously in the form of a list in text format of such words or expressions) which communicates with a multiple phoneter 8 producing phonemes 9 with the searched words, these strings being used by the module 6. In the system of Figure 1, the three main modules 2, 6 and 8 (obvious to realize for the skilled reader of the present description) operate in the following manner. The speech recognition module 2 (phoneme recognition) transforms a speech signal (incoming audio stream F) into phonemic lattices. An acoustic model of the target language (3) is required. On the other hand, the language model (4) is considerably reduced since it consists only of a list of phonemes of the language (for example 27 for English). This makes it possible to limit the information produced at the output of module 2 to a trellis of phonemes (5) and not of words, and thus to reduce the computation time with respect to a conventional recognition system.

Le phonétiseur multiple 8, transforme la liste des mots recherchés (7) en une représentation similaire à celle délivrée la sortie du système de reconnaissance, c'est-à-dire des chaînes de phonèmes (9). Selon une caractéristique de l'invention, pour tenir compte des imprécisions à la fois de prononciation du locuteur et de la reconnaissance vocale, on détermine plusieurs représentations pour chaque mot (phonétisations multiples 9). The multiple phonetizer 8 transforms the list of searched words (7) into a representation similar to that delivered by the output of the recognition system, that is to say phoneme chains (9). According to one characteristic of the invention, to take account of the inaccuracies in both the speaker's pronunciation and the speech recognition, several representations for each word are determined (multiple phonetizations 9).

Le module de recherche 6 reçoit d'un côté le treillis de phonèmes 5 représentant la portion de signal à analyser et de l'autre les chaînes des phonèmes 9 représentant les mots à retrouver dans le treillis. Ce module répond en indiquant pour chaque mot s'il est présent ou non dans le treillis analysé. Ses réponses sont avantageusement de deux types, comme indiqué sur la figure 1 : présence et non présence . Enfin, le système 1 comporte avantageusement un module supplémentaire (non représenté sur le dessin et évident à réaliser pour l'homme de l'art à la lecture de la présente description), branché en amont du module 2 et chargé d'acquérir le flux audio d'entrée, de le découper en petites portions et de transmettre ces petites portions au système avec un recouvrement suffisant pour ne pas tronquer un mot ou une expression. A titre d'exemple, le système traite des portions dont la durée est avantageusement comprise entre 10 et 100 secondes environ avec un recouvrement mutuel des portions de deux secondes environ. The search module 6 receives on one side the phonemic trellis 5 representing the signal portion to be analyzed and on the other the phoneme 9 strings representing the words to be found in the trellis. This module responds by indicating for each word whether it is present or not in the lattice analyzed. Its responses are advantageously of two types, as indicated in FIG. 1: presence and non-presence. Finally, the system 1 advantageously comprises an additional module (not shown in the drawing and obvious to perform for those skilled in the art on reading this description), connected upstream of the module 2 and responsible for acquiring the flow input audio, cut it into small portions and pass these small portions to the system with sufficient coverage to not truncate a word or phrase. By way of example, the system processes portions whose duration is advantageously between about 10 and 100 seconds with a mutual overlap of the portions of about two seconds.

Plus généralement, le procédé de l'invention comprend un processus actif (système d'acquisition du flux audio, de transformation en treillis de phonèmes et de recherche) et un processus amont de préparation (transformation des mots recherchés en chaînes de phonèmes). Il n'en demeure pas moins qu'il s'agit de deux processus en temps réel, le processus amont pouvant être mis à jour et pris en considération par le processus actif à tout moment. Le module de reconnaissance des phonèmes 2 est basé sur le même principe qu'un système de reconnaissance vocale classique: à l'exécution, le signal vocal incident (F) est transformé en vecteurs acoustiques que le système tente de faire correspondre avec des modèles de phonèmes appris préalablement sur une grande base de données vocales (par exemple une base de données comportant au moins 100 heures de parole). Pour chaque vecteur, le système attribue plusieurs phonèmes possibles. Ensuite les phonèmes s'enchaînent et différents chemins possibles apparaissent avec, pour chacun d'eux, une probabilité d'apparition : une fois que le processus de reconnaissance est achevé (fin de la portion de signal), on dispose d'un treillis de phonèmes tel que celui de l'exemple simplifié de la figure 2. Pour cet exemple, on a représenté quelques phonèmes (E, B, T, U,...) et sur les lignes les joignant les probabilités d'enchaînement, comprises entre 0 et 1. Selon une variante de l'invention, on utilise un système de reconnaissance vocale classique existant en le bridant pour qu'il se limite à la reconnaissance des phonèmes : il suffit pour cela de remplacer le modèle de langage par la simple liste des phonèmes de la langue. Ainsi, on remplace la partie la plus lourde et nécessitant le plus de ressources (documents textuels de plusieurs millions de mots) par une simple liste d'une trentaine de phonèmes. Le format du treillis de phonèmes à la sortie du module 2 présente la forme définie dans la partie gauche du tableau de la figure 3. Dans une première section ( SECTION 1 ), on fait correspondre à chaque phonème reconnu (<phonème_#>) un noeud numéroté de 1 au nombre total de noeuds (<noeud_#>) et deux balises temporelles (<début> et <fin>) indiquant la place du phonème dans la portion de signal, en milliseconde à partir du début de la portion. Dans une seconde section ( SECTION 2 ), on indique les probabilités d'enchaînement entre les noeuds. Tous les arcs sont représentés. La partie de droite du tableau de la figure 3 donne un exemple de représentation du treillis de la figure 2. Le rôle du phonétiseur 8 est de convertir des mots en suites de phonèmes qui pourront être recherchées dans le treillis fourni par le module 2 de reconnaissance vocale. Afin de prendre en compte les imprécisions de prononciation du locuteur (intervenant au niveau du flux sonore F) ainsi que les imperfections de reconnaissance du modèle acoustique, il convient de fournir non pas une seule phonétisation par mot clé mais plusieurs. More generally, the method of the invention comprises an active process (acquisition system of the audio stream, phonemic trellis transformation and search) and an upstream preparation process (transformation of the searched words into phoneme strings). Nevertheless, these are two real-time processes, the upstream process can be updated and taken into account by the active process at any time. The phoneme recognition module 2 is based on the same principle as a conventional voice recognition system: at runtime, the incident speech signal (F) is transformed into acoustic vectors that the system attempts to match with speech patterns. previously learned phonemes on a large vocal database (eg a database with at least 100 hours of speech). For each vector, the system assigns several possible phonemes. Then the phonemes are linked together and different possible paths appear with, for each of them, a probability of appearance: once the recognition process is completed (end of the signal portion), we have a lattice of phonemes such as that of the simplified example of Figure 2. For this example, we have represented some phonemes (E, B, T, U, ...) and on the lines joining them the probabilities of linking, between 0 and 1. According to a variant of the invention, an existing conventional speech recognition system is used by bridling it so that it is limited to the recognition of phonemes: it suffices for this to replace the language model by the simple list phonemes of the language. Thus, we replace the heaviest part and requiring the most resources (textual documents of several million words) by a simple list of about thirty phonemes. The format of the phoneme trellis at the output of module 2 has the form defined in the left part of the table of FIG. 3. In a first section (SECTION 1), each recognized phoneme (<phoneme _ #>) is matched with node numbered from 1 to the total number of nodes (<node _ #>) and two time tags (<start> and <end>) indicating the position of the phoneme in the signal portion, in millisecond from the beginning of the portion. In a second section (SECTION 2), the probabilities of concatenation between the nodes are indicated. All the arches are represented. The right-hand part of the table of FIG. 3 gives an example of representation of the trellis of FIG. 2. The role of the phonetizer 8 is to convert words into sequences of phonemes that can be searched in the lattice provided by the recognition module 2 voice. In order to take into account the speaker's pronunciation inaccuracies (intervening at the level of the sound flux F) as well as the imperfections of recognition of the acoustic model, it is necessary to provide not a single keyword phonesis but several.

Deux techniques sont proposées par l'invention. La première permet d'intervertir deux phonèmes en fonction de leur proximité acoustique, la seconde permet cet échange mais à un niveau plus large et en fonction de règles observées sur des données. 1- Inversion selon la proximité acoustique : En partant du principe que des phonèmes proches phonétiquement peuvent facilement être intervertis au niveau de la production et de la reconnaissance, on souhaite proposer plusieurs chaînes de phonèmes pour chaque mot clé recherché en tenant compte de ces proximités. Two techniques are proposed by the invention. The first one makes it possible to invert two phonemes according to their acoustic proximity, the second allows this exchange but on a larger level and according to rules observed on data. 1- Inversion according to the acoustic proximity: Starting from the principle that phonetically near phonemes can easily be inverted at the level of production and recognition, it is desirable to propose several phoneme strings for each searched key word taking into account these proximities.

Pour définir une proximité, il s'agit de définir une distance, c'est-à-dire une application vérifiant les propriétés de symétrie, de séparation et d'inégalité triangulaire. La difficulté réside dans le fait que la différence entre deux phonèmes est moins une distance mesurable objectivement qu'une différence physiologique et perceptive. Pour la contourner, on utilise ce qui est à notre disposition en linguistique et en traitement du signal. La linguistique classe les phonèmes en fonction de leur appartenance à deux grandes familles (voyelles et consonnes) puis à des sous-familles définies par le mode d'articulation (occlusives, nasales, ...) et le lieu d'articulation (labiales, dentales, ...). Une première estimation de distance peut alors être obtenue en fonction de l'appartenance à telle ou telle famille. Une mesure à 3 points est utilisée pour différencier deux phonèmes, elle permet de respecter le niveau de précision imposé par ce classement très général : 1 t=> très similaires 2 a proches 3 t=> éloignés Le traitement de signal offre une mesure plus objective au sein de chacun de ces trois points. En ajoutant à chacun trois niveaux ainsi qu'un dernier point signifiant aucune ressemblance , on obtient une échelle de 10 points. La distance entre deux phonèmes est mesurée en utilisant les 12 premiers coefficients MFCC ( Mel Frequency Cepstrum Coefficient , qui sont relatifs à une échelle de fréquences physiologiques) comme vecteurs acoustiques, la distance calculée étant une distance euclidienne. Il est nécessaire de mesurer toutes les combinaisons de phonèmes (sauf le symétrique). Pour obtenir une phonétisation multiple, on remplace chaque phonème par celui qui est à une distance inférieure à celle définie. Celle-ci joue le rôle de paramètre de précision : plus la distance minimum est petite, plus la recherche sera précise, mais les chances de détection seront plus faibles. On prend pour exemple le mot bed . La phonétisation canonique est B E D. Sachant que le son E est proche du son A, on obtient aussi B A D. Il en va de même pour B qui est proche de P. Ainsi, on obtient la phonétisation multiple du mot bed -BED/ BAD/PED/PAD To define a proximity, it is a question of defining a distance, that is to say an application satisfying the properties of symmetry, separation and triangular inequality. The difficulty lies in the fact that the difference between two phonemes is less an objectively measurable distance than a physiological and perceptual difference. To circumvent it, we use what is available to us in linguistics and signal processing. Linguistics classifies phonemes according to their belonging to two large families (vowels and consonants) then to sub-families defined by the mode of articulation (occlusive, nasal, ...) and the place of articulation (labial, dental, ...). A first estimation of distance can then be obtained according to the belonging to this or that family. A 3-point measurement is used to differentiate two phonemes, it allows to respect the level of precision imposed by this very general classification: 1 t => very similar 2 to close 3 t => distant Signal processing offers a more objective measure within each of these three points. By adding three levels to each one, and a last point signifying no resemblance, we obtain a scale of 10 points. The distance between two phonemes is measured using the first 12 MFCC coefficients (Mel Frequency Cepstrum Coefficient, which relate to a physiological frequency scale) as acoustic vectors, the calculated distance being a Euclidean distance. It is necessary to measure all combinations of phonemes (except symmetric). To obtain a multiple phonation, replace each phoneme by one that is at a distance less than that defined. This plays the role of precision parameter: the smaller the minimum distance, the more precise the search will be, but the chances of detection will be lower. We take for example the word bed. The canonical phonetization is BE D. Knowing that the sound E is close to the sound A, we also obtain BA D. The same goes for B which is close to P. Thus, we obtain the multiple phonetization of the word bed-BED / ADB / PED / PAD

2. Inversion par apprentissage : En disposant d'une base de données de documents audio, on simule le processus de reconnaissance, à l'issue duquel on dispose d'une chaîne appelée chaîne reconnue . Celle-ci est issue du treillis 5 et choisie comme la plus probable. En parallèle, les documents audio sont transcrits en phonèmes par l'outil utilisé pour la phonétisation canonique (celle se référant à la théorie classique), on obtient une seconde chaîne appelée chaîne canonique . 2. Inversion by learning: By having a database of audio documents, one simulates the process of recognition, at the end of which one has a chain called recognized chain. This one comes from the lattice 5 and chosen as the most probable. In parallel, the audio documents are transcribed into phonemes by the tool used for canonical phonetization (the one referring to the classical theory), one obtains a second chain called canonical chain.

Les deux chaînes sont alors alignées sur les points de similitude et comparées. Pour faciliter le travail et la précision, la taille des fichiers audio n'excède pas trois minutes. La taille des fenêtres d'analyse est variable et peut aller de trois à sept phonèmes, c'est-à-dire un phonème central avec un, deux ou trois voisins de chaque côté. Pour chaque fenêtre, on a donc un bloc canonique (tel qu'il sera recherché) et un bloc reconnu (tel qu'il se retrouve dans le treillis), ceux-ci sont regroupés et constituent une base de règles permettant la phonétisation multiple : pour chaque mot clé on remplace les blocs identifiés dans la base, chaque nouvelle phonétistion est ajoutée à la liste de recherche. Le paramètre de précision permettant, à la manière de la distance phonétique, d'ajuster le compromis entre précision de la recherche et chance de détection, est la fréquence d'apparition d'une règle dans la base. En effet, il est probable que l'on observe plusieurs fois la même règle de conversion, en particulier sur une grande base d'apprentissage (10 heures environ). Le module de recherche 6 permet de détecter si la chaîne ou les chaînes recherchées sont présentes dans le treillis de phonèmes 5 issu du module de reconnaissance vocale 2. Afin de répondre aux contraintes de temps de calcul, on limite la recherche à une sous-partie du treillis. En effet, la taille de ce dernier peut présenter plusieurs milliers de combinaisons de phonèmes par minute. Il est alors possible de diminuer le nombre de ces combinaisons par un procédé simple selon lequel on supprime les chemins les moins probables. Comme on connaît la probabilité d'enchaînement entre deux phonèmes (voir figure 3, partie de gauche), il est possible d'ajouter un seuil au-dessous duquel la liaison n'est pas parcourue. En particulier, on peut supprimer les liaisons impossibles entre deux phonèmes, en se référant aux règles phonétiques de la langue. Cette action ne sera pas appliquée dans le cas où l'un des mots à rechercher (en particulier un nom propre) comporte une prononciation supposée improbable selon ces règles. On expose ci-dessous les principales étapes d'un algorithme de recherche pouvant être mis en oeuvre par le module de recherche (6). Pour chaque chaîne recherchée, soit Pr[] le tableau contenant les phonèmes de la chaîne recherchée. Pr[1] est le premier élément, Pr[length(Pr)] le dernier. Ces étapes sont alors : The two strings are then aligned on the points of similarity and compared. For ease of operation and accuracy, the size of audio files does not exceed three minutes. The size of the analysis windows is variable and can range from three to seven phonemes, that is to say a central phoneme with one, two or three neighbors on each side. For each window, we thus have a canonical block (as it will be searched for) and a recognized block (such as it is found in the lattice), these are regrouped and constitute a base of rules allowing multiple phonetization: for each keyword we replace the blocks identified in the database, each new phonetization is added to the search list. The precision parameter allowing, in the manner of the phonetic distance, to adjust the compromise between search precision and chance of detection, is the frequency of occurrence of a rule in the database. Indeed, it is likely that we observe several times the same conversion rule, especially on a large learning base (about 10 hours). The search module 6 makes it possible to detect whether the searched string or strings are present in the phonemic trellis 5 issuing from the speech recognition module 2. In order to meet the computation time constraints, the search is limited to a sub-part trellis. Indeed, the size of the latter may have several thousand combinations of phonemes per minute. It is then possible to reduce the number of these combinations by a simple method according to which the least probable paths are suppressed. As we know the probability of chaining between two phonemes (see Figure 3, left part), it is possible to add a threshold below which the link is not traveled. In particular, the impossible links between two phonemes can be removed by referring to the phonetic rules of the language. This action will not be applied in the case where one of the words to be searched for (in particular a proper name) contains a pronunciation that is supposed to be improbable according to these rules. The following are the main steps of a search algorithm that can be implemented by the search module (6). For each searched string, let Pr [] be the array containing the phonemes of the searched string. Pr [1] is the first element, Pr [length (Pr)] the last. These steps are then:

- Initialisation d'un compteur i à 1. - On cherche Pr[i] dans la section 1 (voir partie de gauche de la figure 3) et on note les numéros de ligne : nlPr[i][]. - On cherche Pr[i+l ] dans la section 1 et on note les numéros de ligne : nlPr[i+1][]. - On cherche dans la section 2 s'il existe un lien entre Pr[i] et Pr[i+l] grâce aux numéros de lignes précédemment sauvés. Si oui, alors on continue : i passe à i+l et on revient à l'étape 2 tant que i<length(Pr). - Initialization of a counter i to 1. - We seek Pr [i] in section 1 (see left part of Figure 3) and we note the line numbers: nlPr [i] []. - We look for Pr [i + l] in section 1 and we write the line numbers: nlPr [i + 1] []. - We search in section 2 if there is a link between Pr [i] and Pr [i + l] thanks to the previously saved line numbers. If yes, then continue: i goes to i + 1 and returns to step 2 as long as i <length (Pr).

Si non, la chaîne n'est pas contenue dans le treillis et on passe à la recherche de la chaîne suivante. If not, the string is not contained in the trellis and one goes in search of the next string.

En résumé, les trois points majeurs sur lesquels est fondée l'invention et grâce auxquels on peut respecter le temps de calcul, l'adaptation aux mots hors vocabulaire et la précision : - la restriction au niveau phonème d'un système de reconnaissance large vocabulaire ; la transformation d'un mot en plusieurs représentations phonémiques ; - la recherche rapide dans le treillis de phonèmes. In summary, the three major points on which the invention is based and thanks to which one can respect the calculation time, the adaptation to the words out of vocabulary and the precision: - the restriction at the phoneme level of a system of recognition broad vocabulary ; the transformation of a word into several phonemic representations; - the fast search in the trellis of phonemes.

Claims (7)

REVENDICATIONS1. Procédé de reconnaissance rapide de mots ou expressions dans un flux audio incident, caractérisé en ce qu'il consiste à établir une liste de mots ou expressions à reconnaitre, et, à l'aide d'un phonétiseur (8), à transformer ces mots ou expressions en un ensemble de plusieurs chaînes de phonèmes vraisemblables, puis, à l'aide d'un système de reconnaissance de phonèmes (2), à extraire des phonèmes d'un flux audio incident (F), à établir des enchaînements possibles des phonèmes ainsi extraits (5), et à rechercher dans ces enchainements la présence de l'une des chaînes de phonèmes vraisemblables précédemment obtenues par transformation. REVENDICATIONS1. Method for rapid recognition of words or expressions in an incident audio stream, characterized in that it consists in establishing a list of words or expressions to be recognized, and, using a phonetizer (8), to transform these words or expressions into a set of plural likeable phoneme strings, and then, using a phoneme recognition system (2), to extract phonemes from an incident audio stream (F), to establish possible sequences of phonemes thus extracted (5), and to search in these sequences for the presence of one of the probable phoneme strings previously obtained by transformation. 2. Procédé selon la revendication 1, caractérisé en ce qu'en amont de la reconnaissance vocale de flux audio, on découpe ces flux en portions présentant un recouvrement mutuel. 2. Method according to claim 1, characterized in that upstream of the speech recognition of audio stream, these streams are cut into portions having a mutual overlap. 3. Procédé selon la revendication 2, caractérisé en ce que la durée des portions de flux audio est comprise entre 10 et 100 secondes environ et que leur recouvrement mutuel est d'environ deux secondes. 3. Method according to claim 2, characterized in that the duration of the audio stream portions is between 10 and 100 seconds and that their mutual overlap is about two seconds. 4. Procédé selon l'une des revendications précédentes, caractérisé en ce que le phonétiseur utilise une liste de mots ou expressions (7) et qu'il les convertit en plusieurs phonétisations pour chaque mot ou expression. 4. Method according to one of the preceding claims, characterized in that the phonetizer uses a list of words or expressions (7) and converts them into several phonetizations for each word or expression. 5. Procédé selon la revendication 4, caractérisé en ce que la phonétisation multiple, afin de prendre en compte les imprécisions de prononciation du locuteur et les imperfections de reconnaissance du modèle acoustique, produit des chaînes de phonèmes par inversion de phonèmes selon leur proximité acoustique. 5. Method according to claim 4, characterized in that the multiple phonétisation, in order to take into account the speaker pronunciation inaccuracies and the acoustic model recognition imperfections, produces phoneme chains by inverting phonemes according to their acoustic proximity. 6. Procédé selon la revendication 4, caractérisé en ce que la 30 phonétisation multiple, afin de prendre en compte les imprécisions de prononciation du locuteur et les imperfections de reconnaissance du10 12 modèle acoustique, produit des chaînes de phonèmes par inversion de phonèmes à la suite d'un apprentissage. 6. A method according to claim 4, characterized in that the multiple phononization, in order to take into account the speaker's pronunciation inaccuracies and the acoustic model recognition imperfections, produces phoneme inversion phoneme chains as a result. of an apprenticeship. 7. Système de reconnaissance rapide de mots ou expressions dans un flux audio incident (F), caractérisé en ce qu'il comporte d'une part un fichier texte (7) rempli par l'utilisateur et comportant des mots ou expressions à rechercher, suivi d'un phonétiseur multiple (8), et d'un système de recherche de chaînes dans un graphe (6), et d'autre part un système de reconnaissance de phonèmes (2) relié à des modèles acoustiques (3) et à des modèles de langages (4), ce système de reconnaissance étant relié audit système de recherche de chaînes. 7. Rapid recognition system words or expressions in an incident audio stream (F), characterized in that it comprises firstly a text file (7) filled by the user and including words or expressions to search, followed by a multiple phonetizer (8), and a system for searching strings in a graph (6), and on the other hand a phoneme recognition system (2) connected to acoustic models (3) and language models (4), this recognition system being connected to said channel search system.
FR0805070A 2008-09-16 2008-09-16 Keywords or expressions vocal identification method for incident audio stream, involves searching presence of strings of phonemes previously obtained by transformation in sequences of phonemes Withdrawn FR2936086A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR0805070A FR2936086A1 (en) 2008-09-16 2008-09-16 Keywords or expressions vocal identification method for incident audio stream, involves searching presence of strings of phonemes previously obtained by transformation in sequences of phonemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0805070A FR2936086A1 (en) 2008-09-16 2008-09-16 Keywords or expressions vocal identification method for incident audio stream, involves searching presence of strings of phonemes previously obtained by transformation in sequences of phonemes

Publications (1)

Publication Number Publication Date
FR2936086A1 true FR2936086A1 (en) 2010-03-19

Family

ID=40512220

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0805070A Withdrawn FR2936086A1 (en) 2008-09-16 2008-09-16 Keywords or expressions vocal identification method for incident audio stream, involves searching presence of strings of phonemes previously obtained by transformation in sequences of phonemes

Country Status (1)

Country Link
FR (1) FR2936086A1 (en)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CINCAREK T ET AL: "Automatic pronunciation scoring of words and sentences independent from the non-native's first language", COMPUTER SPEECH AND LANGUAGE, ELSEVIER, LONDON, GB, vol. 23, no. 1, 12 March 2008 (2008-03-12), pages 65 - 88, XP022941622, ISSN: 0885-2308, [retrieved on 20080312] *
J. PIQUOT, C. PLANCQ, J. LARD AND T. EHRETTE: "Détection de thème par modèle de language filtrant", RENCONTRE DES JEUNES CHERCHEURS, 27 September 2005 (2005-09-27) - 28 September 2005 (2005-09-28), Toulouse, France, XP002522971 *
THIERRY HAMON: "Définition d'un modèle de langage filtrant par phonétisation multiple", THALES RESEARCH & TECHNOLOGY, 15 December 2006 (2006-12-15), France, XP002522970, Retrieved from the Internet <URL:http://listserv.linguistlist.org/cgi-bin/wa?A2=ind0612&L=ln&P=4532> [retrieved on 20090401] *
WAKITA Y ET AL: "Multiple pronunciation dictionary using HMM-state confusion characteristics", COMPUTER SPEECH AND LANGUAGE, ELSEVIER, LONDON, GB, vol. 13, no. 2, 1 April 1999 (1999-04-01), pages 143 - 153, XP004418817, ISSN: 0885-2308 *

Similar Documents

Publication Publication Date Title
Bu et al. Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline
Morgan et al. The meeting project at ICSI
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
US20120232899A1 (en) System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization
EP1769489B1 (en) Voice recognition method and system adapted to non-native speakers&#39; characteristics
CA2491036A1 (en) Method and apparatus for classifying sound signals
CN112233680B (en) Speaker character recognition method, speaker character recognition device, electronic equipment and storage medium
FR2833103A1 (en) SPEECH DETECTION SYSTEM IN NOISE
EP1642264B1 (en) Voice recognition for large dynamic vocabularies
GB2451938A (en) Methods and apparatus for searching of spoken audio data
McInnes et al. Unsupervised extraction of recurring words from infant-directed speech
EP1803116B1 (en) Voice recognition method comprising a temporal marker insertion step and corresponding system
FR2936086A1 (en) Keywords or expressions vocal identification method for incident audio stream, involves searching presence of strings of phonemes previously obtained by transformation in sequences of phonemes
Gupta et al. Emotion recognition from speech using wavelet packet transform and prosodic features
Wang et al. ExKaldi-RT: A real-time automatic speech recognition extension toolkit of Kaldi
Mirheidari Detecting early signs of dementia in conversation
Raji et al. Robat-e-Beheshti: a Persian wake word detection dataset for robotic purposes
Zeidan et al. Feature selection using CNN for elderly speech recognition
EP1741092B1 (en) Voice recognition based on the contextual modelling of voice units
Chen et al. A proof-of-concept study for automatic speech recognition to transcribe AAC speakers’ speech from high-technology AAC systems
Oladipo et al. Accent identification of ethnically diverse Nigerian English speakers
EP0595950B1 (en) Real-time speech recognition device and method
Oladipo et al. Automatic Speech Recognition and Accent Identification of Ethnically Diverse Nigerian English Speakers
Kruthika et al. Forensic Voice Comparison Approaches for Low‐Resource Languages
EP1665231B1 (en) Method for unsupervised doping and rejection of words not in a vocabulary in vocal recognition

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20140530