FR2927461A1 - METHOD, DEVICE AND COMPUTER PROGRAM FOR SEARCHING FOR KEYWORDS IN A SPEECH SIGNAL - Google Patents

METHOD, DEVICE AND COMPUTER PROGRAM FOR SEARCHING FOR KEYWORDS IN A SPEECH SIGNAL Download PDF

Info

Publication number
FR2927461A1
FR2927461A1 FR0850810A FR0850810A FR2927461A1 FR 2927461 A1 FR2927461 A1 FR 2927461A1 FR 0850810 A FR0850810 A FR 0850810A FR 0850810 A FR0850810 A FR 0850810A FR 2927461 A1 FR2927461 A1 FR 2927461A1
Authority
FR
France
Prior art keywords
sub
speech signal
search
sequence
lexical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0850810A
Other languages
French (fr)
Inventor
Corentin Dubois
Delphine Charlet
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0850810A priority Critical patent/FR2927461A1/en
Priority to PCT/FR2009/050159 priority patent/WO2009101319A1/en
Publication of FR2927461A1 publication Critical patent/FR2927461A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

Un procédé d'identification d'au moins un mot-clé dans un signal de parole, comportant les étapes consistant à:a/ effectuer une recherche d'une suite d'unités sous-lexicales obtenue par conversion du mot-clé, dans une séquence d'unités sous-lexicales obtenue par conversion du signal de parole,b/ détecter des marques de segmentation dans le signal de parole, etc/ utiliser les marques de segmentation détectées à l'étape b/ pour valider ou infirmer les résultats de la recherche de l'étape a/.A method of identifying at least one keyword in a speech signal, comprising the steps of: a / performing a search for a sequence of sub-lexical units obtained by conversion of the keyword, in a sequence of sub-lexical units obtained by conversion of the speech signal, b / detect segmentation marks in the speech signal, etc. / use the segmentation marks detected in step b / to validate or invalidate the results of the search for step a /.

Description

Procédé, dispositif et programme d'ordinateur pour la recherche de mots-clés dans un signal de parole L'invention se rapporte au domaine de l'identification de mots-clés dans un signal de parole. Lorsqu'une personne prononce une phrase, elle génère un signal acoustique. Ce signal acoustique peut être transformé en signal électrique pour être traité. Néanmoins, dans la suite de la description, on utilisera le terme signal acoustique , signal de parole ou phrase prononcée pour désigner tout signal représentatif du signal acoustique. On peut chercher à reconnaître les mots prononcés en procédant par recherche de mots-clés dans le signal de parole, par exemple selon un procédé STD (de l'anglais Spoken Term Detection ). Par exemple, on peut chercher à détecter et localiser toutes les occurrences de prononciation d'un mot-clé dans le signal de parole émis par un présentateur de journal télévisé. Le mot-clé peut être saisi de façon textuelle par un utilisateur. Une approche connue consiste à utiliser un procédé de reconnaissance automatique de la parole à grand vocabulaire ou LVCSR (de l'anglais Large Vocabulary Continuous Speech Recognizer ), pour transcrire le signal de parole en un texte. Une recherche textuelle classique est ensuite effectuée pour identifier le ou les mot(s)-clé(s) recherché(s) dans le texte. The invention relates to the field of the identification of keywords in a speech signal. When a person utters a sentence, it generates an acoustic signal. This acoustic signal can be converted into an electrical signal to be processed. Nevertheless, in the remainder of the description, the term acoustic signal, speech signal or pronounced sentence will be used to designate any signal representative of the acoustic signal. One can seek to recognize the words spoken by proceeding by searching for keywords in the speech signal, for example by an STD (Spoken Term Detection). For example, one can seek to detect and locate all occurrences of pronunciation of a keyword in the speech signal emitted by a newscaster. The keyword can be entered verbatim by a user. One known approach is to use a method of automatic speech recognition with large vocabulary or LVCSR (English Large Vocabulary Continuous Speech Recognizer), to transcribe the speech signal into a text. A classic textual search is then performed to identify the keyword (s) searched for in the text.

Toutefois, les procédés LVCSR conduisent à un taux d'erreurs non négligeable, par exemple de 15 à 20%. En outre, les procédés LVCSR utilisent des dictionnaires fermés, ce qui constitue une limite, même si certains dictionnaires peuvent présenter un nombre d'entrées relativement élevé, de l'ordre de 70000 actuellement. En effet, une requête formulée par un utilisateur peut contenir un ou plusieurs mot(s)-clé(s) n'appartenant pas au dictionnaire. Ces mots-clés sont dits hors vocabulaire ou 00V (de l'anglais Out Of Vocabulary ). Un mot-clé 00V contenu dans un signal de parole est donc absent de la transcription de ce signal de parole. De plus, ces mots 00V, qui peuvent comprendre par exemple des noms propres, sont en général porteurs d'informations et peuvent être prioritairement recherchés en tant que mots-clés. Le traitement des mots- clés 00V représente donc un réel défi dans le domaine de la STD. Une autre approche, basée sur une recherche phonétique, permet de prendre en considération les mots-clés 00V. Cette approche utilise une représentation du signal de parole en unités sous-lexicales, par exemple en phonèmes. Ces unités sous-lexicales sont plus courtes que la plupart des mots et peuvent être combinées de façon à représenter n'importe quel mot-clé. La représentation en unités sous-lexicales peut être obtenue par exemple par décodage du signal de parole en séquence de phonèmes ou en treillis de phonèmes, ou bien encore en phonétisant une transcription textuelle du signal de parole obtenue par LVCSR. However, LVCSR processes lead to a significant error rate, for example 15 to 20%. In addition, the LVCSR methods use closed dictionaries, which is a limit, although some dictionaries may have a relatively high number of entries, of the order of 70000 currently. Indeed, a request formulated by a user can contain one or more keyword (s) not belonging to the dictionary. These keywords are said to be out of vocabulary or 00V (from the English Out Of Vocabulary). A keyword 00V contained in a speech signal is therefore absent from the transcription of this speech signal. In addition, these words 00V, which may include, for example, proper names, are generally information carriers and may be primarily searched for as keywords. The processing of the 00V keywords is therefore a real challenge in the field of STD. Another approach, based on a phonetic search, allows to take into account the keywords 00V. This approach uses a representation of the speech signal in sub-lexical units, for example in phonemes. These sub-lexical units are shorter than most words and can be combined to represent any keyword. The representation in sub-lexical units can be obtained for example by decoding the speech signal in phoneme sequence or phonemic lattice, or by phonétisant a textual transcription of the speech signal obtained by LVCSR.

La recherche d'un mot-clé est alors effectuée en utilisant une représentation en unités sous-lexicales de ce mot-clé d'une part, et la représentation du signal de parole en unités sous-lexicales d'autre part. Cependant, une telle recherche basée sur des représentations en unités sous-lexicales est susceptible de générer des fausses alarmes, en particulier pour des mots-clés relativement courts. Il existe donc un besoin d'amélioration de la fiabilité des recherches basées sur des représentations en unités sous-lexicales. Selon un premier aspect, l'invention a pour objet un procédé d'identification d'au moins un mot- clé dans un signal de parole, comportant, 25 pour chaque mot-clé, une étape consistant à: a/ effectuer une recherche d'une suite d'unités sous-lexicales, dite requête, obtenue par conversion du mot-clé, dans une séquence d'unités sous-lexicales obtenue par conversion du signal de parole. Le procédé comporte en outre les étapes consistant à : 30 b/ détecter des marques de segmentation, dites frontières, dans le signal de parole, et c/ utiliser les frontières détectées à l'étape b/ pour valider ou infirmer les résultats de la recherche de l'étape a/. Cette prise en compte des frontières du signal de parole permet de rejeter au moins une partie des résultats de la recherche qui correspondraient à de fausses alarmes. On contraint ainsi les résultats de la recherche basée sur des représentations en unités sous-lexicales à rester cohérents avec les résultats de la détection de frontières. La recherche de l'étape a/ peut permettre d'identifier une (ou plusieurs) sous-séquence d'unités sous-lexicales de la séquence correspondant au signal de parole, cette sous-séquence identifiée, dite sous- séquence candidate ou détection, concordant avec la requête. Par exemple, les frontières détectées peuvent comprendre des frontières de mots. Si une détection est exactement encadrée par deux frontières de mots consécutives, on peut penser que cette détection correspond effectivement à un mot et la détection est retenue. En revanche, si par exemple les frontières de mots qui encadrent une détection sont relativement éloignées de cette détection, la détection correspond probablement à une partie seulement d'un mot prononcé, et la détection est rejetée. The search for a keyword is then performed using a representation in sub-lexical units of this keyword on the one hand, and the representation of the speech signal in sub-lexical units on the other hand. However, such research based on representations in sub-lexical units is likely to generate false alarms, especially for relatively short keywords. There is therefore a need to improve the reliability of searches based on representations in sub-lexical units. According to a first aspect, the subject of the invention is a method of identifying at least one keyword in a speech signal, comprising, for each keyword, a step consisting in: a / performing a search for a sequence of sub-lexical units, called request, obtained by conversion of the keyword, in a sequence of sub-lexical units obtained by conversion of the speech signal. The method further comprises the steps of: b) detecting segmentation marks, called boundaries, in the speech signal, and c / using the boundaries detected in step b / to validate or invalidate the search results from step a /. Taking into account the boundaries of the speech signal makes it possible to reject at least part of the search results that correspond to false alarms. The results of the research based on representations in sub-lexical units are thus constrained to remain consistent with the results of the detection of borders. Searching for step a / may make it possible to identify one (or more) sub-sequence of sub-lexical units of the sequence corresponding to the speech signal, this identified subsequence, called candidate subsequence or detection, concordant with the request. For example, the detected boundaries may include word boundaries. If a detection is exactly framed by two consecutive word boundaries, we can think that this detection actually corresponds to a word and the detection is retained. On the other hand, if, for example, the boundaries of words that surround a detection are relatively far from this detection, the detection probably corresponds to only a part of a spoken word, and the detection is rejected.

Les unités sous-lexicales peuvent par exemple comprendre des phones, des phonèmes, des diphones, des syllabes, ou autre. Les segments détectés peuvent être des mots, des groupes de souffle, des phrases ou autre. Les marques de segmentation, ou frontières, peuvent comprendre des frontières de mots, de phrase ou autre. The sub-lexical units may for example include phones, phonemes, diphones, syllables, or other. The detected segments can be words, breath groups, phrases or other. Segmentation marks, or borders, may include word, sentence or other boundaries.

Avantageusement, le procédé peut comprendre une étape de transcription du signal de parole à l'aide d'un dictionnaire. La transcription peut être effectuée suivant un procédé LVCSR, en utilisant par exemple un logiciel LVCSR existant. La transcription ainsi obtenue peut être utilisée pour l'étape b/ de détection de frontières. Cette étape b/ est ainsi mise en oeuvre relativement simplement. Advantageously, the method may comprise a step of transcription of the speech signal using a dictionary. The transcription can be performed according to an LVCSR method, for example using an existing LVCSR software. The resulting transcription can be used for step b / border detection. This step b / is thus implemented relatively simply.

L'invention n'est bien entendu pas limitée par l'utilisation d'une transcription du signal de parole pour détecter les frontières. Avantageusement, la transcription obtenue peut être utilisée pour la conversion du signal de parole. Par exemple, le signal de parole est d'abord transcrit et la transcription textuelle du signal de parole ainsi obtenue, par exemple par LVCSR, est ensuite transformée en une séquence d'unités sous-lexicales. La conversion du signal de parole est ainsi effectuée de façon relativement fiable, la transcription pouvant être mise en oeuvre par le biais d'un logiciel connu, et avec un taux d'erreur relativement faible. Bien entendu, l'invention n'est en rien limitée par cette étape de transcription pour réaliser la conversion du signal de parole. Par exemple, on peut prévoir d'effectuer des conversions du signal de parole directement en phonèmes. The invention is of course not limited by the use of a transcription of the speech signal to detect the boundaries. Advantageously, the resulting transcription can be used for the conversion of the speech signal. For example, the speech signal is first transcribed and the textual transcription of the speech signal thus obtained, for example by LVCSR, is then transformed into a sequence of sub-lexical units. The conversion of the speech signal is thus performed relatively reliably, the transcription can be implemented by means of known software, and with a relatively low error rate. Of course, the invention is in no way limited by this transcription step to achieve the conversion of the speech signal. For example, it may be provided to perform conversions of the speech signal directly into phonemes.

On peut prévoir de rechercher un ou plusieurs mot(s)-clé(s). Le nombre de mots-clés peut être relativement élevé. Les termes mot et mot-clé désignent à la fois des mots au sens habituel du terme et des locutions, c'est à dire des suites de mots formant des unités de sens. It can be expected to search for one or more keyword (s). The number of keywords can be relatively high. The terms word and keyword refer to both words in the usual sense of the term and phrases, ie sequences of words forming units of meaning.

Avantageusement, le procédé comporte une étape de recherche textuelle dans la transcription du signal de parole. La recherche peut porter sur le même mot-clé que pour la recherche à base d'unités sous-lexicales, ou pour un autre mot-clé. Les résultats de la recherche textuelle peuvent être combinés aux résultats de la recherche de l'étape a/. On peut ainsi bénéficier à la fois de la relativement bonne précision de la recherche textuelle et de la capacité à traiter les mots-clés 00V de la recherche basée sur les unités sous-lexicales. Le procédé peut ainsi comprendre une étape de transcription du signal de parole, dont les résultats peuvent être utilisés pour l'étape b/ de détection de frontière, pour la conversion du signal de parole, et/ou pour une recherche textuelle. Néanmoins, le procédé selon un aspect de l'invention peut tout à fait être mis en oeuvre sans aucune transcription du signal de parole. Avantageusement, pour chaque détection ou sous-séquence candidate obtenue à l'étape a/ de recherche, on estime un score. L'estimation d'un score peut permettre de nuancer la prise en compte des frontières de mots. On peut décider de conserver ou de rejeter une sous-séquence candidate selon la valeur du score correspondant. Par exemple, on peut ne conserver que les détections dont le score dépasse un certain seuil ou est en dessous d'un certain seuil. Par exemple, si plusieurs mots-clés sont recherchés, les différentes étapes de recherche peuvent conduire à associer à des mots-clés différents une même sous-séquence ou des sous-séquences se recouvrant au moins en partie. On peut alors prévoir de calculer un score pour chaque sous-séquence et pour chacun de ces mots-clés, et de choisir l'association sousséquence/mot-clé correspondant au score le plus faible. L'invention n'est en rien limitée par cette étape d'estimation d'un score. On peut par exemple prévoir de conserver une détection seulement si la première unité sous-lexicale de cette détection vient immédiatement après une frontière de mot et si la dernière unité sous-lexicale de cette détection est immédiatement suivie par une frontière de mot. Avantageusement, pour chaque détection, le score est estimé à partir d'au moins une distance correspondant à cette détection. Ce paramètre de distance peut être obtenu à l'étape a/ de recherche et caractérise l'alignement entre la sous-séquence candidate et la suite d'unités sous-lexicales correspondant au mot-clé. Ainsi, l'alignement est pris en compte pour décider de conserver ou de rejeter telle ou telle détection. Alternativement, le score peut ne pas tenir compte de l'alignement entre la détection et le mot-clé recherché. Advantageously, the method includes a text search step in the transcription of the speech signal. The search can be on the same keyword as for the search based on sub-lexical units, or for another keyword. The results of the text search can be combined with the search results of step a /. One can thus benefit from both the relatively good accuracy of the text search and the ability to process the keywords 00V of the research based on the lexical units. The method can thus comprise a transcription step of the speech signal, the results of which can be used for step b / of border detection, for the conversion of the speech signal, and / or for a textual search. Nevertheless, the method according to one aspect of the invention can quite be implemented without any transcription of the speech signal. Advantageously, for each candidate detection or sub-sequence obtained in step a / of research, a score is estimated. The estimation of a score can be used to qualify the consideration of word boundaries. One can decide to keep or reject a candidate sub-sequence according to the value of the corresponding score. For example, only those detections whose score exceeds a certain threshold or is below a certain threshold may be retained. For example, if several keywords are searched, the different search steps may lead to associating different keywords with the same sub-sequence or sub-sequences overlapping at least in part. One can then plan to calculate a score for each subsequence and for each of these keywords, and choose the sub-sequence / keyword association corresponding to the lowest score. The invention is in no way limited by this step of estimating a score. For example, it may be possible to retain a detection only if the first sub-lexical unit of this detection comes immediately after a word boundary and if the last sub-lexical unit of this detection is immediately followed by a word boundary. Advantageously, for each detection, the score is estimated from at least one distance corresponding to this detection. This distance parameter can be obtained in step a / search and characterizes the alignment between the candidate sub-sequence and the suite of sub-lexical units corresponding to the keyword. Thus, alignment is taken into account in deciding whether to keep or reject a particular detection. Alternatively, the score may not take into account the alignment between the detection and the searched keyword.

Avantageusement et de façon non limitative, le score est estimé à partir d'un nombre d'unités sous-lexicales obtenu par la soustraction du nombre d'unités sous-lexicales de la détection, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la détection et la frontière suivant immédiatement la détection. Si la première unité sous-lexicale de la détection vient immédiatement après une frontière de mot et la dernière unité sous-lexicale de cette détection est immédiatement suivie par une frontière de mot, ce nombre est nul. En revanche, si par exemple la détection fait partie d'un mot plus long, ce nombre peut avoir une valeur relativement élevée. On prend ainsi en compte le fait que la détection coïncide plus ou moins bien avec un mot prononcé, dans le cas de frontières de mots. Advantageously and in a nonlimiting manner, the score is estimated from a number of sub-lexical units obtained by subtracting the number of sub-lexical units of the detection, from the number of lexical units between the previous border immediately the detection and the border immediately following the detection. If the first sub-lexical unit of the detection comes immediately after a word boundary and the last sub-lexical unit of this detection is immediately followed by a word boundary, this number is zero. On the other hand, if, for example, detection is part of a longer word, this number may have a relatively high value. This takes into account the fact that the detection coincides more or less with a pronounced word, in the case of word boundaries.

Avantageusement et de façon non limitative, le score est estimé à partir d'un résultat d'une comparaison entre le nombre de frontières, par exemple des frontières de mots, à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières de la détection. Si ces nombres de frontières sont différents, la détection risque d'être rejetée. Par exemple, si la détection recouvre (au moins partiellement) plus d'un mot, alors que le mot-clé correspond à un seul mot, la détection risque d'être rejetée. La détection risque également d'être rejetée si la détection, correspondant par exemple au mot prononcé jambon , recouvre un seul mot, alors que le mot-clé, par exemple Jean Bon correspond à deux mots. Il est rappelé que dans la présente description, le terme mot désigne à la fois un mot isolé et une locution. Avantageusement et de façon non limitative, le score est estimé à partir du nombre d'unités sous-lexicales de la détection. En effet, plus ce nombre est faible, plus le risque de fausse alarme est élevé. En revanche, si la détection est relativement longue, les résultats de la recherche ont de bonnes chances d'être corrects. On notera que l'invention n'est limitée par l'ordre des étapes que dans la mesure où cet ordre est nécessaire à la mise en oeuvre du procédé. Par exemple, l'étape b/ peut être effectuée avant l'étape a/. Advantageously and in a nonlimiting manner, the score is estimated from a result of a comparison between the number of boundaries, for example word boundaries, within the desired lexical unit sequence and the number of boundaries of the detection. If these numbers of borders are different, the detection may be rejected. For example, if the detection covers (at least partially) more than one word, while the keyword corresponds to a single word, the detection may be rejected. The detection may also be rejected if the detection, corresponding for example to the word pronounced ham, covers a single word, while the keyword, for example Jean Bon is two words. It is recalled that in the present description, the word term designates both an isolated word and a phrase. Advantageously and in a nonlimiting manner, the score is estimated from the number of sub-lexical units of the detection. Indeed, the lower the number, the higher the risk of false alarm. On the other hand, if the detection is relatively long, the results of the research are likely to be correct. It should be noted that the invention is limited by the order of the steps only insofar as this order is necessary for the implementation of the method. For example, step b / may be performed before step a /.

Selon un autre aspect, l'invention a pour objet un programme d'ordinateur, le programme d'ordinateur étant destiné à être stocké dans une mémoire d'un dispositif d'identification de mots-clés dans un signal de parole, et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur de l'unité centrale de ce dispositif et/ou téléchargé via un réseau de télécommunication, caractérisé en ce qu'il comprend des instructions pour la mise en oeuvre du procédé selon un aspect de l'invention, lorsque les instructions sont exécutées par un processeur de ce dispositif. Selon encore un autre aspect, l'invention a pour objet un dispositif d'identification d'au moins un mot-clé dans un signal de parole, comprenant: - des moyens de recherche automatique pour effectuer une recherche d'au moins une suite d'unités sous-lexicales respectivement obtenue par conversion du au moins un mot-clé, dans une séquence d'unités sous-lexicales obtenue par conversion du signal de parole, - des moyens de détection pour détecter des marques de segmentation du signal de parole, -des moyens de traitement reliés aux moyens de détection et aux moyens de recherche automatique, pour valider ou infirmer les résultats de la recherche en utilisant les marques de segmentation obtenues des moyens de détection. Les moyens de recherche automatique, les moyens de détection et les moyens de traitement peuvent être intégrés dans une même puce électronique, par exemple un processeur, un microprocesseur, un DSP (de l'anglais Digital Signal Processor ) ou autre. Le dispositif peut en outre comporter tout autre moyen pour la mise en oeuvre du procédé selon l'un des modes de réalisation de l'invention. According to another aspect, the subject of the invention is a computer program, the computer program being intended to be stored in a memory of a device for identifying keywords in a speech signal, and / or stored on a memory medium intended to cooperate with a reader of the central unit of this device and / or downloaded via a telecommunication network, characterized in that it comprises instructions for the implementation of the method according to an aspect of the invention, when the instructions are executed by a processor of this device. According to yet another aspect, the subject of the invention is a device for identifying at least one keyword in a speech signal, comprising: automatic search means for searching for at least one sequence of words; sub-lexical units respectively obtained by conversion of the at least one keyword, in a sequence of sub-lexical units obtained by conversion of the speech signal, - detection means for detecting speech segmentation marks, processing means connected to the detection means and the automatic search means, for validating or invalidating the search results by using the segmentation marks obtained from the detection means. The automatic search means, the detection means and the processing means may be integrated in the same electronic chip, for example a processor, a microprocessor, a DSP (English Digital Signal Processor) or other. The device may further comprise any other means for implementing the method according to one of the embodiments of the invention.

Le dispositif d'identification d'au moins un mot-clé dans un signal de parole peut comprendre un ordinateur, un terminal, un serveur éventuellement distant, une puce ou autre. Le signal de parole peut par exemple être mémorisé sous différents supports, comme un CD (de l'anglais Compact Disc ) ou autre. The device for identifying at least one keyword in a speech signal may include a computer, a terminal, a possibly remote server, a chip or other. The speech signal may for example be stored in different media, such as a CD (English Compact Disc) or other.

L'invention trouve une application particulièrement avantageuse dans le domaine de la reconnaissance de parole spontanée, dans lequel l'utilisateur bénéficie d'une totale liberté de parole, mais n'est bien entendu pas limitée à ce domaine. D'autres particularités et avantages de la présente invention apparaîtront dans la description détaillée ci-après, faite en référence aux dessins annexés sur lesquels : - La figure 1 montre un exemple de dispositif d'identification de mots-clés dans un signal de parole selon une réalisation de la présente invention. - La figure 2 montre un exemple d'architecture d'un dispositif d'identification de mots-clés selon un mode de réalisation de la présente invention. - La figure 3 est un organigramme d'un exemple de procédé de d'identification de mots-clés dans un signal de parole, mis en oeuvre dans un dispositif selon le mode de réalisation de la figure 2. - La figure 4 montre un exemple de portion de séquence d'unités sous-lexicales incluant une détection, selon un mode de réalisation de l'invention. - La figure 5 est un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole, selon un mode de réalisation de la présente invention. - La figure 6 est un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole selon un autre mode réalisation de la présente invention. Des références identiques désignent des objets identiques ou similaires d'une figure à l'autre. The invention finds a particularly advantageous application in the field of spontaneous speech recognition, in which the user enjoys total freedom of speech, but is of course not limited to this field. Other features and advantages of the present invention will appear in the following detailed description, made with reference to the accompanying drawings in which: - Figure 1 shows an example of a keyword identification device in a speech signal according to an embodiment of the present invention. FIG. 2 shows an exemplary architecture of a keyword identification device according to an embodiment of the present invention. FIG. 3 is a flowchart of an exemplary method of identifying key words in a speech signal, implemented in a device according to the embodiment of FIG. 2. FIG. 4 shows an example portion of a sequence of sub-lexical units including a detection, according to an embodiment of the invention. FIG. 5 is a flowchart of an exemplary method of identifying key words in a speech signal, according to an embodiment of the present invention. FIG. 6 is a flowchart of an exemplary method of identifying key words in a speech signal according to another embodiment of the present invention. Identical references designate identical or similar objects from one figure to another.

On se réfère tout d'abord à la figure 1, sur laquelle un dispositif d'identification de mots-clés dans un signal de parole 1 comprend une unité centrale 2. Des moyens d'enregistrement d'un signal acoustique, par exemple un microphone 13, communiquent avec des moyens de traitement des signaux acoustiques, par exemple une carte son 7. La carte son 7 permet d'obtenir un signal présentant un format adapté pour un traitement par un microprocesseur 8. Reference is first made to FIG. 1, in which a device for identifying keywords in a speech signal 1 comprises a central unit 2. Means for recording an acoustic signal, for example a microphone 13, communicate with acoustic signal processing means, for example a sound card 7. The sound card 7 provides a signal having a format suitable for processing by a microprocessor 8.

Un programme d'ordinateur d'identification de mots-clés dans un signal de parole peut être stocké dans une mémoire, par exemple un disque dur 6. Lors de l'exécution de ce programme d'ordinateur par le microprocesseur 8, le programme d'ordinateur ainsi que le signal représentatif du signal acoustique peuvent être momentanément stockés dans une mémoire vive 9 communiquant avec le microprocesseur 8. Le programme d'ordinateur peut également être stocké sur un support mémoire, par exemple une disquette ou un CD-ROM, destiné à coopérer avec un lecteur, par exemple un lecteur de disquettes 10a ou un lecteur de CD-ROM 10b. Le programme d'ordinateur peut également être téléchargé via un réseau de télécommunication, par exemple Internet, représenté sur la figure 1 par la référence 12. Un modem 11 peut être utilisé à cet effet. Le dispositif 1 peut également comprendre des périphériques. On peut citer à titre d'exemple un écran 3, un clavier 4 et une souris 5. La figure 2 montre un exemple d'architecture d'un dispositif d'identification de mots-clés dans un signal de parole selon un mode de réalisation de l'invention. Des premiers moyens de conversion 21 permettent de convertir un signal de parole S(t), dit également document, en une séquence d'unités sous-lexicales P, par exemple une séquence de phonèmes. Les premiers moyens de conversion 21 peuvent comprendre des moyens de transcription LVCSR 22 ainsi que des moyens de phonétisation 23. Les moyens de transcription LVCSR 22 sont agencés pour effectuer une transcription du signal de parole S(t) à l'aide d'un dictionnaire de par exemple 65000 entrées. La transcription T du signal de parole S(t) comprend des mots Wj correspondant au signal de parole S(t), et des indicateurs temporels tn, t(I)j. Par exemple, les indicateurs temporels peuvent comprendre, pour chaque mot de la transcription, un instant de début et une durée, ou bien un instant de début t(°)j et un instant de fin t(l)j. La variable j sert à indicer les mots de la transcription T. A computer program for identifying keywords in a speech signal may be stored in a memory, for example a hard disk 6. When executing this computer program by the microprocessor 8, the program of computer as well as the signal representative of the acoustic signal can be momentarily stored in a random access memory 9 communicating with the microprocessor 8. The computer program can also be stored on a memory medium, for example a diskette or a CD-ROM, for to cooperate with a reader, for example a floppy disk drive 10a or a CD-ROM drive 10b. The computer program can also be downloaded via a telecommunication network, for example the Internet, represented in FIG. 1 by the reference 12. A modem 11 can be used for this purpose. Device 1 may also include peripherals. For example, a screen 3, a keyboard 4 and a mouse 5 can be mentioned. FIG. 2 shows an example of architecture of a device for identifying key words in a speech signal according to one embodiment. of the invention. First conversion means 21 make it possible to convert a speech signal S (t), also referred to as a document, into a sequence of sub-lexical units P, for example a sequence of phonemes. The first conversion means 21 may comprise LVCSR transcription means 22 as well as phonetic means 23. The LVCSR transcription means 22 are arranged to perform a transcription of the speech signal S (t) using a dictionary. for example 65000 entries. The transcription T of the speech signal S (t) comprises words Wj corresponding to the speech signal S (t), and temporal indicators tn, t (I) j. For example, the time indicators may comprise, for each word of the transcription, a start time and a duration, or a start time t (°) j and an end time t (l) j. The variable j serves to index the words of the transcription T.

Les moyens de phonétisation 23 permettent d'obtenir une séquence de phonèmes P à partir de la transcription T en sortie des moyens de transcription LVCSR 22. Chaque mot Wi de la transcription T peut être phonétisé séparément, c'est-à-dire qu'aucun phonème de raccord n'est rajouté entre deux mots de la transcription T. On facilite ainsi la reconnaissance de mots-clés convertis en phonèmes parmi la séquence de phonèmes, dans la mesure où les mots-clés sont convertis de façon isolée, sans contexte particulier, par des deuxièmes moyens de conversion 24 décrits ci-dessous. Chaque mot Wi de la transcription T est phonétisé en ayant recours à la prononciation la plus probable de ce mot. La séquence de phonèmes P comporte, outre les phonèmes eux-mêmes p;, des indicateurs temporels t;. Chaque phonème peut ainsi être localisé dans le temps. Ces indicateurs temporels t; sont obtenus à partir de la transcription T. Cette transcription T comportant des indicateurs temporels tn, t(')j pour les mots seulement, on déduit les indicateurs temporels t; de séquence de phonèmes P par interpolation linéaire par exemple. On peut prendre en compte les périodes de silence si elles excèdent une certaine durée, par exemple 0,2 secondes. La variable i sert à indicer les phonèmes de la séquence P. The phonation means 23 make it possible to obtain a sequence of P phonemes from the T transcription at the output of the LVCSR transcription means 22. Each word Wi of the transcription T can be phonetized separately, that is to say that no connecting phoneme is added between two words of the transcription T. It thus facilitates the recognition of keywords converted into phonemes among the phoneme sequence, insofar as the keywords are converted in isolation, without context particularly, by second conversion means 24 described below. Each word Wi of the transcription T is phonetized by resorting to the most probable pronunciation of this word. The phoneme sequence P comprises, in addition to the phonemes themselves p;, temporal indicators t ;. Each phoneme can thus be localized in time. These temporal indicators t; are obtained from the transcription T. This transcription T having temporal indicators tn, t (') j for the words only, we deduce the temporal indicators t; of phoneme sequence P by linear interpolation for example. We can take into account the periods of silence if they exceed a certain duration, for example 0.2 seconds. The variable i is used to index the phonemes of the P sequence.

Les premiers moyens de conversion 21 permettent ainsi d'obtenir une transcription T et une séquence de phonèmes P à partir du signal de parole S(t). Les deuxièmes moyens de conversion 24 permettent de convertir les mots-clés WQ en suite Wp de phonèmes p,. La variable I sert à indicer les 25 phonèmes de la suite Wp. Dans un mode de réalisation alternatif et non représenté, les deuxièmes moyens de conversion peuvent être confondus avec les moyens de phonétisation. Des moyens de recherche automatique 25, par exemple un DSP, 30 permettent d'effectuer une recherche de la suite Wp dans la séquence de phonèmes P. The first conversion means 21 thus make it possible to obtain a transcription T and a phoneme sequence P from the speech signal S (t). The second conversion means 24 make it possible to convert the keywords WQ into a sequence Wp of phonemes p1. The variable I serves to index the phonemes of the sequence Wp. In an alternative embodiment and not shown, the second conversion means can be confused with the phonation means. Automatic search means 25, for example a DSP, make it possible to search for the sequence Wp in the phoneme sequence P.

La recherche peut être effectuée en tenant compte ou en ne tenant pas compte des variantes de prononciations. Dans le premier cas, on peut se limiter aux prononciations les plus probables, dans la mesure où les moyens de phonétisation 23 ne prennent en compte que la prononciation la plus probable. Si un mot-clé est reconnu avec plusieurs prononciations possibles, dans une même sous-séquence de la séquence P, on ne conserve que la prononciation pour laquelle une mesure de distance caractérisant l'alignement est la plus faible. La recherche peut être effectuée en faisant des alignements entre la suite Wp et la séquence P, chaque alignement étant caractérisé par une distance. La distance peut être estimée comme une somme des coûts d'opérations, comme la substitution, l'insertion, la suppression, à effectuer pour faire concorder une partie de la séquence P et la suite Wp. Ces coûts peuvent être tirés de matrices préprogrammées, mémorisées par exemple dans des tables LUT (de l'anglais Look-Up Table ). La recherche effectuée par les moyens 25 peut être une recherche phonétique, de type connu de l'homme du métier. La recherche conduit à obtenir au moins une sous-séquence Ck de la séquence P. Les moyens de recherche 25 peuvent être configurés pour ne conserver que les sous-séquences Ck correspondant à une distance au-dessous d'un certain seuil THR1. La variable k sert à indicer les sous-séquences obtenues par les moyens de recherche 25. Des moyens de détection 26 permettent de détecter des frontières de mots dans le signal de parole S(t). Dans cet exemple, les moyens de détection reçoivent la transcription T des moyens de transcription LVCSR 22, de sorte que la détection des indicateurs temporels de début tn et de fin t(')j de mot est triviale. Ces frontières de mots sont utilisées par des moyens de traitement 27 pour valider ou infirmer les résultats obtenus des moyens de recherche 25, comme détaillé plus loin. Seules les sous-séquences validées C*,,, sont conservées, la variable m servant à indicer ces sous-séquences conservées. On notera que les différents moyens 21, 24, 25, 26 et 27 peuvent être intégrés en un seul composant, par exemple un microprocesseur. The search can be carried out taking into account or not taking into account the variants of pronunciations. In the first case, we can limit ourselves to the most probable pronunciations, insofar as the phonation means 23 take into account only the most probable pronunciation. If a keyword is recognized with several possible pronunciations, in the same subsequence of the sequence P, only the pronunciation for which a distance measurement characterizing the alignment is kept is the lowest. The search can be performed by aligning the sequence Wp with the sequence P, each alignment being characterized by a distance. The distance can be estimated as a sum of the operation costs, such as substitution, insertion, deletion, to be made to match part of the sequence P and the sequence Wp. These costs can be derived from preprogrammed matrices, stored for example in Look-Up Table (LUT) tables. The search performed by the means 25 may be a phonetic search of a type known to those skilled in the art. The search leads to obtaining at least one subsequence Ck of the P sequence. The search means 25 can be configured to keep only the subsequences Ck corresponding to a distance below a certain threshold THR1. The variable k serves to index the subsequences obtained by the search means 25. Detection means 26 make it possible to detect word boundaries in the speech signal S (t). In this example, the detection means receive the transcription T of the LVCSR transcription means 22, so that the detection of the start time indicators tn and end t (') j word is trivial. These word boundaries are used by processing means 27 to validate or invalidate the results obtained from the search means 25, as detailed below. Only the validated sub-sequences C * ,,, are preserved, the variable m serving to index these conserved subsequences. It should be noted that the various means 21, 24, 25, 26 and 27 can be integrated into a single component, for example a microprocessor.

La figure 3 représente un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole mis en oeuvre dans un dispositif conforme au mode de réalisation de la figure 2. Dans ce mode de réalisation, la conversion du signal de parole en phonèmes est effectuée via une transcription en mots, cette transcription étant également utilisée pour la détection de frontières. Après une étape 30 de réception d'un signal de parole S(t), une transcription LVSCR est effectuée lors d'une étape 31, puis la transcription T ainsi obtenue est phonétisée lors d'une étape 32. Pour un mot-clé WQ donné, après une étape 33 de réception de ce mot-clé, une étape de phonétisation 34 est mise en oeuvre pour convertir le mot-clé en suite de phonèmes Wp, ou requête. Lors d'une étape 35 de recherche phonétique, des sous-séquences Ck (ou détections) de la séquence T sont identifiées comme relativement proches de la requête Wp. L'algorithme mis en oeuvre attribue à chaque détection Ck une distance Dk indicatrice de l'alignement entre cette détection Ck et la requête Wp. Cette distance Dk est dite distance d'alignement. Seules sont conservées les détections Ck pour lesquelles la distance Dk est en dessous d'un certain seuil THR1. Une étape 36 de détection de frontières de mots permet de repérer les instants de début tn et de fin t(')j de chaque mot transcrit lors de l'étape de recherche LVSCR 31. Ces instants de début tn et de fin t(') constituent les frontières de mots détectées dans le signal de parole. Pour chaque détection Ck obtenue de la recherche phonétique, on teste si cette détection est cohérente avec des frontières de mots détectées dans le signal de parole. FIG. 3 represents a flowchart of an exemplary method for identifying key words in a speech signal implemented in a device according to the embodiment of FIG. 2. In this embodiment, the conversion of the signal phonemic speech is performed via a transcription into words, this transcription is also used for the detection of boundaries. After a step 30 of receiving a speech signal S (t), a LVSCR transcription is performed during a step 31, then the transcription T thus obtained is phonetized in a step 32. For a keyword WQ given, after a step 33 of receiving this keyword, a phonation step 34 is implemented to convert the keyword following phonemes Wp, or query. In a phonetic search step, subsequences Ck (or detections) of the sequence T are identified as relatively close to the request Wp. The algorithm implemented assigns each detection Ck a distance Dk indicating the alignment between this detection Ck and the request Wp. This distance Dk is called alignment distance. Only the detections Ck for which the distance Dk is below a certain threshold THR1 are preserved. A step 36 of detecting word boundaries makes it possible to locate the start times tn and end t (') j of each word transcribed during the search step LVSCR 31. These start times tn and end t (' ) constitute the boundaries of words detected in the speech signal. For each detection Ck obtained from the phonetic search, it is tested whether this detection is consistent with word boundaries detected in the speech signal.

Une boucle 37 est mise en oeuvre pour parcourir les différentes détections Ck, avec des étapes classiques d'initialisation, de test et d'incrémentation. Pour chaque détection Ck, on estime lors d'une étape 38 un nombre Nb(k) d'unités sous-lexicales précédent la première unité sous-lexicale de la détection et situées entre les mêmes frontières que ladite première unité sous-lexicale. Pour mieux comprendre ce qu'on entend par ce nombre Ne), on peut se reporter par exemple à la portion de séquence de phonèmes de la figure 4. Sur cette figure, une seule sous-séquence candidate 49 est représentée, et le nombre Nb(k) est dit Nb pour plus de simplicité. La portion de la figure 4 correspond à la transcription d'un signal de parole correspondant au texte grandir ensemble . Les phonèmes sont référencés 48. A loop 37 is implemented to traverse the different detections Ck, with conventional steps of initialization, testing and incrementation. For each detection Ck, it is estimated in a step 38 a number Nb (k) of sub-lexical units preceding the first sub-lexical unit of the detection and located between the same boundaries as said first sub-lexical unit. To better understand what is meant by this number Ne), reference may be made, for example, to the phoneme sequence portion of FIG. 4. In this figure, only one candidate sub-sequence 49 is represented, and the number Nb (k) says Nb for simplicity. The portion of Figure 4 corresponds to the transcription of a speech signal corresponding to the text grow together. The phonemes are referenced 48.

On a superposé à cette portion de séquence de phonèmes les frontières de mots détectées, représentées par des doubles barres verticales. Pour un mot-clé Iran , l'étape de recherche phonétique conduit à sélectionner la sous-séquence encadrée 49. Le nombre Nb correspond au nombre de phonèmes entre la frontière 20 de mot précédent la détection 49 et le premier phonème I de la détection 49, soit Nb = 4. Egalement, lors de cette étape 38, on estime un nombre Na(k) d'unités sous-lexicales suivant la dernière unité sous-lexicale de la sous- séquence candidate 49 et situées entre les mêmes frontières que cette 25 dernière unité sous-lexicale. Ce nombre, dit Na sur la figure 4, correspond au nombre de phonèmes entre le dernier phonème AN de la détection et la frontière de mot suivant la détection, soit Na = 4. Le résultat de la soustraction du nombre d'unités sous-lexicales de la détection au nombre d'unités sous-lexicales entre la frontière précédent 30 immédiatement la détection 49 et la frontière suivant immédiatement la détection 49, est donc Na,b = Na + Nb = 8. Cette somme indique dans quelle mesure la détection correspond à une partie seulement d'un ou plusieurs mot(s) plus grand(s). En outre, lors de cette étape 38, on estime un nombre Nsd de frontières de mots à l'intérieur de la détection 49, soit ici Nsd=1, car la détection 49 recouvre en partie deux mots. On estime également nombre Nsd de frontières de mots à l'intérieur de la suite de phonèmes recherchée I R AN , dite requête. Soit Nsd=O, car la requête correspond à un seul mot Iran . On calcule une différence entre ces deux derniers nombres : NS = Na û Nq Dans l'exemple de la figure 4, on a donc Ns=1. Cette différence est dite Ns(k) dans le cadre de la boucle 37 de la figure 3. Enfin, lors de l'étape 38, on mémorise un nombre L(k) d'unités sous-lexicales de la détection, soit dans l'exemple de la figure 4, L=3. En effet, une détection relativement courte risque davantage de correspondre à une fausse alerte qu'une détection relativement longue. Par exemple, la distance caractérisant l'alignement entre une requête relativement courte et une portion d'un mot plus long peut être relativement faible. Une détection relativement courte peut aussi empiéter sur deux mots, comme dans l'exemple de la figure 4. Aussi ce nombre L(k), ou L dans le contexte de la figure 4, est-il pris en considération. Les nombres Na(k), Ne), Ns(k), L(k) sont ainsi estimés à partir des résultats de la recherche (la détection, référencée 49 sur la figure 4, Ck sur la figure 2) et à partir des résultats de la détection de frontières (les frontières de mots, représentées sur la figure 4 par des doubles barres verticales). Ces nombres Na(k), Ne), Ns(k), L(k) permettent ainsi de décrire la configuration textuelle de la détection Ck. L'étape 38 d'estimation des paramètres Na(k), Ne), Ns(k) et L(k) est suivie d'une étape 39 de calcul d'un score D'k, suivant la formule : c3 + N(k)a+ N(k)b+ N'Y') D?k=et *Dk+c2 L(k) Où cl, c2 et c3 désignent des constantes positives ou nulles. Le triplet {cl, c2, c3} peut être optimisé de façon à obtenir une mesure de performance la plus élevée possible. Pour une détection relativement longue, le nombre Ut() risque d'être 5 relativement élevé, de sorte que le poids de la somme c3+NNk) +M +Ns( est relativement faible. En effet, la recherche phonétique (étape 35) fournit en général des résultats relativement corrects pour les détections relativement longues, et les frontières de mots peuvent être moins prises en considération dans ce cas. 10 Ainsi, pour un mot-clé relativement court, comme Iran , une détection du type de la détection 49 sur la figure 4 correspondra à un score D'k relativement élevé. Une étape de test 40 au cours de laquelle on compare le score D'k à un deuxième seuil permet ainsi de rejeter les détections pour lesquelles le score correspondant est trop élevé. 15 Seules les détections C*,,, correspondant à des scores D'k suffisamment faibles sont conservées (étape 41). La figure 5 montre un exemple de mode de réalisation dans lequel une recherche phonétique améliorée, comme par exemple la recherche décrite en référence aux figures 2 et 3, est combinée à une recherche 20 textuelle. Dans l'exemple de la figure 5, une étape 50 de réception d'un mot-clé à rechercher est suivie d'une étape 51 de test pour déterminer si ce mot-clé appartient à un dictionnaire fixé. Si ce mot-clé appartient effectivement au dictionnaire, on procède à 25 une recherche textuelle (étape 52), en recourant à un procédé connu de l'art antérieur, et en utilisant ce dictionnaire. Dans le cas contraire, on procède à une recherche phonétique améliorée (étape 53), en recourant par exemple au procédé du mode de réalisation décrit en référence aux figures 2 et 3. The boundaries of detected words, represented by double vertical bars, have been superimposed on this phoneme sequence portion. For a keyword Iran, the phonetic search step leads to selecting the framed subsequence 49. The number Nb corresponds to the number of phonemes between the word boundary preceding the detection 49 and the first phoneme I of the detection 49 , or Nb = 4. Also, during this step 38, an Na (k) number of sub-lexical units is estimated according to the last sub-lexical unit of the candidate subsequence 49 and situated between the same boundaries as this 25 last sub-lexical unit. This number, called Na in FIG. 4, corresponds to the number of phonemes between the last phoneme AN of the detection and the word boundary following the detection, ie Na = 4. The result of the subtraction of the number of sub-lexical units from the detection to the number of sub-lexical units between the border immediately preceding the detection 49 and the boundary immediately following the detection 49, is therefore Na, b = Na + Nb = 8. This sum indicates to what extent the detection corresponds only part of one or more larger word (s). Furthermore, during this step 38, an Nsd number of word boundaries within the detection 49 is estimated, here Nsd = 1, since the detection 49 partially covers two words. It is also estimated that many Nsd of word boundaries within the sequence of phonemes sought I R AN, called query. Let Nsd = O, because the query corresponds to a single word Iran. A difference between these last two numbers is calculated: NS = Na - Nq In the example of FIG. 4, we therefore have Ns = 1. This difference is called Ns (k) in the context of the loop 37 of FIG. 3. Finally, during step 38, a number L (k) of sub-lexical units of the detection is memorized, either in the example of Figure 4, L = 3. In fact, a relatively short detection is more likely to correspond to a false alarm than a relatively long detection. For example, the distance characterizing the alignment between a relatively short query and a portion of a longer word may be relatively small. A relatively short detection may also impinge on two words, as in the example of Figure 4. Also this number L (k), or L in the context of Figure 4, is taken into consideration. The numbers Na (k), Ne), Ns (k), L (k) are thus estimated from the results of the search (the detection, referenced 49 in FIG. 4, Ck in FIG. 2) and from the results of the detection of boundaries (the word boundaries, shown in Figure 4 by double vertical bars). These numbers Na (k), Ne), Ns (k), L (k) thus make it possible to describe the textual configuration of the detection Ck. The step 38 of estimating the parameters Na (k), Ne), Ns (k) and L (k) is followed by a step 39 of calculating a score D'k, according to the formula: c3 + N (k) a + N (k) b + N'Y ') Dk = and * Dk + c2 L (k) Where c1, c2 and c3 denote positive or zero constants. The triplet {cl, c2, c3} can be optimized to obtain the highest possible measure of performance. For a relatively long detection, the number Ut () may be relatively high, so that the weight of the sum c3 + NNk) + M + Ns (is relatively small, since the phonetic search (step 35) generally provides relatively good results for relatively long detections, and the word boundaries may be less relevant in this case, Thus for a relatively short keyword, such as Iran, a detection of the type of detection 4 will correspond to a relatively high score K. A test step 40 during which the score k is compared with a second threshold thus makes it possible to reject the detections for which the corresponding score is too high. Only detections C * ,,, corresponding to sufficiently low scores K are preserved (step 41) Figure 5 shows an exemplary embodiment in which an improved phonetic search, as for example The search described with reference to FIGS. 2 and 3 is combined with a text search. In the example of FIG. 5, a step 50 for receiving a search keyword is followed by a test step 51 to determine whether this keyword belongs to a fixed dictionary. If this keyword does indeed belong to the dictionary, a text search (step 52) is carried out, using a method known from the prior art, and using this dictionary. In the opposite case, an improved phonetic search is carried out (step 53), for example using the method of the embodiment described with reference to FIGS. 2 and 3.

Un mot-clé donné est ainsi recherché selon l'un ou l'autre d'une recherche textuelle et d'une recherche phonétique améliorée. Les résultats de ces deux recherches sont recueillis (étape 54). La figure 6 est un algorithme correspondant à un autre mode de réalisation, dans lequel une recherche textuelle classique est combinée à une recherche phonétique améliorée. Dans cet exemple, après une étape 60 de réception d'un mot-clé, une étape de recherche textuelle 61 est effectuée. Suit une étape de test 62 : si la recherche textuelle a conduit à ne sélectionner aucune détection, alors on procède à une recherche phonétique améliorée (étape 63). On recueille lors d'une étape 64 les résultats de la recherche textuelle de l'étape 61 et/ou les résultats de la recherche phonétique améliorée de l'étape 63. Les tableaux 1 et 2 ci-dessous montrent les résultats d'un exemple d'application de l'invention. Les expérimentations portent sur la recherche de deux listes de mots-clés. La première liste est composée de tous les noms propres prononcés dans le signal de parole. La deuxième liste est composée de noms propres non prononcés dans le signal de parole. Le signal de parole provient de huit journaux télévisés français, 20 diffusés en 2002 et 2003, et a une durée de 2h30 environ. Le "rappel" est le rapport du nombre de détections correctes sur le nombre de détections à effectuer. La "précision" est le rapport du nombre de détections correctes sur le nombre de détections effectuées. La mesure Fmax est une moyenne harmonique de la précision et du rappel. Cette mesure de 25 performance Fmax peut servir de critère d'optimisation du triplet {cl, c2, c3} dans le mode de réalisation de la figure 3. Les termes recherche textuelle et recherche phonétique classique désignent respectivement une recherche textuelle classique et une recherche phonétique classique, telle que décrites plus haut en référence à 30 l'art antérieur. Le terme recherche phonétique améliorée désigne une recherche selon le mode de réalisation des figures 2 et 3. A given keyword is thus searched according to one or the other of a textual search and an improved phonetic search. The results of these two searches are collected (step 54). Fig. 6 is an algorithm corresponding to another embodiment, wherein a conventional text search is combined with an improved phonetic search. In this example, after a step 60 of receiving a keyword, a text search step 61 is performed. Following a test step 62: if the text search has led to select no detection, then we proceed to an improved phonetic search (step 63). At step 64, the results of the text search of step 61 and / or the results of the improved phonetic search of step 63 are collected. Tables 1 and 2 below show the results of an example. application of the invention. Experiments focus on finding two lists of keywords. The first list is composed of all the proper names pronounced in the speech signal. The second list is composed of undefined proper names in the speech signal. The speech signal comes from eight French television newscasts, 20 broadcast in 2002 and 2003, and has a duration of approximately 2:30. The "recall" is the ratio of the number of correct detections to the number of detections to be made. "Precision" is the ratio of the number of correct detections to the number of detections made. Fmax is a harmonic mean of accuracy and recall. This performance measure Fmax can be used as an optimization criterion of the triplet {cl, c2, c3} in the embodiment of FIG. 3. The terms text search and classical phonetic search respectively denote a conventional text search and a phonetic search. conventional, as described above with reference to the prior art. The term improved phonetic search refers to a search according to the embodiment of Figures 2 and 3.

Lorsque le critère de combinaison est le dictionnaire du LVCSR, le procédé mis en oeuvre est du type du procédé décrit en référence à la figure 5. Lorsque le critère de combinaison est le résultat de la recherche textuelle, le procédé mis en oeuvre est du type du procédé décrit en référence à la figure 6. When the combination criterion is the dictionary of the LVCSR, the method implemented is of the type of the method described with reference to FIG. 5. When the combination criterion is the result of the textual search, the method implemented is of the type of the method described with reference to FIG.

La recherche des mots-clés de la première liste permet d'évaluer les performances du procédé selon un aspect de l'invention, en termes de rappel et de précision. La recherche des mots-clés des première et deuxième listes conjointement permet de tester plus spécifiquement la robustesse du procédé, dans la mesure où la recherche de mots de la deuxième liste tend à diminuer la précision sans modifier le rappel. The search of the keywords of the first list makes it possible to evaluate the performances of the method according to one aspect of the invention, in terms of recall and precision. The search of the keywords of the first and second lists together makes it possible to more specifically test the robustness of the method, insofar as the search for words of the second list tends to reduce the accuracy without modifying the recall.

Le tableau 1 ci-dessous montre les résultats de la recherche des mots-clés de la première liste. Recherche Critère de combinaison Fmax Précision Rappel Textuelle seule - 84,2 97,0 74,4 Phonétique classique seule - 40,8 26,9 84,1 Phonétique améliorée seule - 88,2 92,7 84,1 Combinaison d'une recherche Dictionnaire du LVCSR 57,0 44,3 79,7 textuelle avec une recherche - phonétique classique - phonétique améliorée Dictionnaire du LVCSR 86,8 96,9 78,7 - phonétique classique Résultat recherche textuelle 56,8 43,2 82,9 - phonétique améliorée Résultat recherche textuelle 89,5 96,4 83,5 Tableau 1 Table 1 below shows the search results for the keywords in the first list. Research Combination criterion Fmax Precision Textual recall alone - 84.2 97.0 74.4 Conventional phonetics only - 40.8 26.9 84.1 Improved phonetic alone - 88.2 92.7 84.1 Combination of a search LVCSR Dictionary 57.0 44.3 79.7 textual with classical phonetic - phonetic - enhanced search LVCSR Dictionary 86.8 96.9 78.7 - classical phonetics Textual search result 56.8 43.2 82.9 - improved phonetic Text search result 89.5 96.4 83.5 Table 1

Le tableau 2 ci-dessous montre les résultats de la recherche des mots-clés de l'union des première et deuxième listes. 20 Recherche Critère de combinaison Fmax Précision Rappel Textuelle seule - 83,1 94,0 74,4 Phonétique classique seule - 20,8 11,9 84,1 Phonétique améliorée seule -78,4 80,0 76,9 Combinaison recherche Dictionnaire du LVCSR 49,7 36,4 78, 7 textuelle avec recherche - phonétique classique - phonétique améliorée Dictionnaire du LVCSR 85,1 94,2 77,6 - phonétique classique Résultat recherche textuelle 25,2 14,9 81,5 - phonétique améliorée Résultat recherche textuelle 86,8 94,1 80,5 Tableau 2 Table 2 below shows the search results of the union keywords of the first and second lists. 20 Research Combination criterion Fmax Precision Textual recall only - 83.1 94.0 74.4 Classical phonetics only - 20.8 11.9 84.1 Improved phonetic alone -78.4 80.0 76.9 Combination research Dictionary of LVCSR 49.7 36.4 78, 7 textual with search - phonetic classical - phonetic improved Dictionary of LVCSR 85.1 94.2 77.6 - classical phonetics Result textual search 25.2 14.9 81.5 - improved phonetic Result textual search 86.8 94.1 80.5 Table 2

Ces résultats montrent la capacité de la recherche phonétique améliorée à éliminer une bonne partie des fausses alarmes. Même dans le cas où seulement une recherche phonétique est effectuée, le rappel est bien entendu augmenté par rapport à la recherche textuelle, du fait de la prise en compte de mots-clés 00V, mais la précision est aussi améliorée par rapport à la recherche phonétique classique, pour atteindre un niveau comparable à celui de la recherche textuelle. Dans le cas de combinaison de deux types de recherches, ce gain en précision est d'autant plus marqué, car la recherche de mots-clés relativement courts, c'est à dire risquant de générer de fausses alarmes, est souvent prise en charge par la recherche textuelle. These results show the ability of improved phonetic search to eliminate many of the false alarms. Even if only a phonetic search is performed, the recall is of course increased compared to the textual search, due to the fact of taking into account keywords 00V, but the accuracy is also improved compared to the phonetic search to a level comparable to that of textual research. In the case of a combination of two types of searches, this gain in precision is all the more marked, since the search for relatively short keywords, that is to say, generating false alarms, is often supported by textual research.

Des deux modes de réalisation envisagés pour combiner les recherches, c'est le mode de réalisation utilisant comme critère de combinaison le résultat de la recherche textuelle qui permet d'obtenir les meilleurs résultats. En effet, ce mode de réalisation permet, en plus de la gestion des mots-clés 00V, une certaine correction des erreurs de transcription faites par le procédé LVCSR, en ayant recours à la recherche phonétique. Of the two embodiments envisaged for combining the searches, it is the embodiment using as a combination criterion the result of the textual search which makes it possible to obtain the best results. Indeed, this embodiment makes it possible, in addition to the management of the keywords 00V, a certain correction of the transcription errors made by the LVCSR method, by resorting to the phonetic search.

Claims (10)

Revendicationsclaims 1. Procédé d'identification d'au moins un mot-clé dans un signal de parole, le procédé comportant pour chaque mot-clé une étape consistant à: a/ effectuer une recherche (35) d'une suite d'unités sous-lexicales obtenue par conversion (34) du mot-clé, dans une séquence d'unités sous-lexicales obtenue par conversion (31, 32) du signal de parole, caractérisé en ce qu'il comporte en outre les étapes consistant à b/ détecter (36) des marques de segmentation, dites frontières, dans le signal de parole, et c/ utiliser (37) les marques de segmentation détectées à l'étape b/ pour valider ou infirmer les résultats de la recherche de l'étape a/. A method of identifying at least one keyword in a speech signal, the method comprising for each keyword a step of: a / performing a search (35) of a series of sub-units; lexical obtained by conversion (34) of the keyword, in a sequence of sub-lexical units obtained by conversion (31, 32) of the speech signal, characterized in that it further comprises the steps of b / detect (36) segmentation marks, called boundaries, in the speech signal, and c / using (37) the segmentation marks detected in step b / to validate or invalidate the search results of step a / . 2. Procédé selon la revendication 1, comprenant en outre des étapes consistant à transcrire le signal de parole à l'aide d'un dictionnaire, effectuer une recherche textuelle (52 ; 61) dans la transcription du signal de parole ainsi obtenue, et combiner (54 ; 64) les résultats de la recherche textuelle aux résultats validés à l'étape c/. The method of claim 1, further comprising the steps of transcribing the speech signal with the aid of a dictionary, performing a text search (52; 61) in the transcription of the speech signal thus obtained, and combining (54; 64) the results of the text search with the results validated in step c /. 3. Procédé selon l'une des revendications 1 ou 2, comprenant une étape consistant à transcrire (31) le signal de parole à l'aide d'un dictionnaire, la transcription ainsi obtenue étant utilisée pour la conversion (32) du signal de parole. 3. Method according to one of claims 1 or 2, comprising a step of transcribing (31) the speech signal using a dictionary, the resulting transcription being used for the conversion (32) of the signal of word. 4. Procédé selon l'une des revendications 1 à 3, comprenant une étape consistant à transcrire (31) le signal de parole à l'aide d'un dictionnaire,la transcription ainsi obtenue étant utilisée pour l'étape b/ de détection de frontières (36). 4. Method according to one of claims 1 to 3, comprising a step of transcribing (31) the speech signal with the aid of a dictionary, the transcription thus obtained being used for step b / detection of borders (36). 5. Procédé selon l'une des revendications 1 à 4, dans lequel, à l'étape a/ de recherche, on obtient, pour la suite de sous-unités lexicales recherchée (Wp), au moins une sous-séquence de sous-unités lexicales candidate (Ck; 49) de la séquence de sous-unités lexicales (P), et à l'étape c/ on estime un score (D'k) pour chaque sous-séquence candidate obtenue à l'étape a/ de recherche. 5. Method according to one of claims 1 to 4, wherein, in step a / of research, one obtains, for the sequence of desired lexical subunits (Wp), at least one sub-sequence of sub-sequences. candidate lexical units (Ck; 49) of the lexical subunit sequence (P), and in step c / a score (D'k) is estimated for each candidate subsequence obtained in step a / of research. 6. Procédé selon la revendication 5, dans lequel, pour chaque sous-séquence candidate (Ck; 49), le score est estimé à partir d'au moins un paramètre parmi : - une distance (Dk) correspondant à ladite sous-séquence candidate, 15 ladite distance étant obtenue à l'étape a/ de recherche, - un nombre d'unités sous-lexicales (Na,b) obtenu par la soustraction du nombre d'unités sous-lexicales de la sous-séquence candidate, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la sous-séquence candidate et la frontière suivant immédiatement la sous- 20 séquence candidate, - un résultat (Ns) d'une comparaison entre le nombre de frontières à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières à l'intérieur de la sous-séquence candidate, et - le nombre d'unités sous-lexicales (L) de la sous-séquence candidate. 25 The method according to claim 5, wherein, for each candidate subsequence (Ck; 49), the score is estimated from at least one of: a distance (Dk) corresponding to said candidate subsequence , Said distance being obtained in step a / research, - a number of sub-lexical units (Na, b) obtained by subtraction of the number of sub-lexical units of the candidate sub-sequence, to the number of lexical units between the immediately preceding boundary of the candidate subsequence and the boundary immediately following the candidate subsequence; - a result (Ns) of a comparison between the number of boundaries within the sequence of lexical units sought and the number of boundaries within the candidate subsequence, and - the number of sub-lexical units (L) of the candidate subsequence. 25 7. Procédé selon la revendication 6, dans lequel pour chaque sous-séquence candidate (Ck; 49), le score est estimé en utilisant la formule : T1 c3+N +N D' = et * D +c2 a,b s où D' désigne le score, 30 D la distance, LNa,b le nombre d'unités sous-lexicales obtenu par la soustraction du nombre d'unités sous-lexicales de la sous-séquence candidate, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la sous-séquence candidate et la frontière suivant immédiatement la sous-séquence candidate, NS la valeur absolue de la différence entre le nombre de frontières à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières à l'intérieur de la sous-séquence candidate, L le nombre d'unités sous-lexicales de la sous-séquence candidate, et cl, c2, c3 trois valeurs constantes, ces valeurs étant positives ou nulles. The method according to claim 6, wherein for each candidate subsequence (Ck; 49), the score is estimated using the formula: T1 c3 + N + ND '= and * D + c2 a, bs where D' denotes the score, 30 D the distance, LNa, b the number of sub-lexical units obtained by subtracting the number of sub-lexical units from the candidate subsequence, from the number of lexical units between the previous border immediately the candidate subsequence and the boundary immediately following the candidate subsequence, NS the absolute value of the difference between the number of boundaries within the desired lexical unit sequence and the number of boundaries at the left. within the candidate sub-sequence, L the number of sub-lexical units of the candidate subsequence, and cl, c2, c3 three constant values, these values being positive or zero. 8. Programme d'ordinateur destiné à être stocké dans une mémoire d'un dispositif (2) d'identification de mots-clés dans un signal de parole, et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur (10a, 10b) dudit dispositif et/ou téléchargé via un réseau de télécommunication (12), caractérisé en ce qu'il comporte des instructions pour la mise en oeuvre du procédé selon l'une des revendications précédentes, lorsque lesdites instructions sont exécutées par un processeur dudit dispositif d'identification de mots-clés dans un signal de parole. 8. Computer program intended to be stored in a memory of a device (2) for identifying keywords in a speech signal, and / or stored on a memory medium intended to cooperate with a reader (10a, 10b) of said device and / or downloaded via a telecommunication network (12), characterized in that it comprises instructions for implementing the method according to one of the preceding claims, when said instructions are executed by a processor of said device for identifying keywords in a speech signal. 9. Dispositif d'identification d'au moins un mot-clé (WQ) dans un signal de parole (S(t)), ledit dispositif comportant - des moyens de recherche automatique (25) pour effectuer une recherche d'au moins une suite d'unités sous-lexicales (Wp) respectivement obtenue par conversion dudit au moins un mot-clé, dans une séquence d'unités sous-lexicales (T) obtenue par conversion du signal de parole, caractérisé en ce qu'il comporte en outre - des moyens de détection (26) pour détecter des marques de segmentation du signal de parole, et - des moyens de traitement (27) reliés aux moyens de détection et aux moyens de recherche automatique, pour valider ou infirmer les résultats de larecherche en utilisant les marques de segmentation obtenues des moyens de détection. 9. Device for identifying at least one keyword (WQ) in a speech signal (S (t)), said device comprising - automatic search means (25) for searching for at least one sub-lexical units (Wp) respectively obtained by conversion of said at least one keyword, in a sequence of sub-lexical units (T) obtained by conversion of the speech signal, characterized in that it comprises in in addition to detection means (26) for detecting segmentation marks of the speech signal, and processing means (27) connected to the detection means and to the automatic search means, for validating or invalidating the results of the search in using the segmentation marks obtained from the detection means. 10. Dispositif selon la revendication 9, caractérisé en ce qu'il comporte 5 des moyens pour la mise en oeuvre du procédé selon l'une quelconque des revendications 2 à 7. 10. Device according to claim 9, characterized in that it comprises means for carrying out the method according to any one of claims 2 to 7.
FR0850810A 2008-02-08 2008-02-08 METHOD, DEVICE AND COMPUTER PROGRAM FOR SEARCHING FOR KEYWORDS IN A SPEECH SIGNAL Withdrawn FR2927461A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR0850810A FR2927461A1 (en) 2008-02-08 2008-02-08 METHOD, DEVICE AND COMPUTER PROGRAM FOR SEARCHING FOR KEYWORDS IN A SPEECH SIGNAL
PCT/FR2009/050159 WO2009101319A1 (en) 2008-02-08 2009-02-03 Method, device and computer program for searching for keywords in a speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0850810A FR2927461A1 (en) 2008-02-08 2008-02-08 METHOD, DEVICE AND COMPUTER PROGRAM FOR SEARCHING FOR KEYWORDS IN A SPEECH SIGNAL

Publications (1)

Publication Number Publication Date
FR2927461A1 true FR2927461A1 (en) 2009-08-14

Family

ID=39333045

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0850810A Withdrawn FR2927461A1 (en) 2008-02-08 2008-02-08 METHOD, DEVICE AND COMPUTER PROGRAM FOR SEARCHING FOR KEYWORDS IN A SPEECH SIGNAL

Country Status (2)

Country Link
FR (1) FR2927461A1 (en)
WO (1) WO2009101319A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11076219B2 (en) 2019-04-12 2021-07-27 Bose Corporation Automated control of noise reduction or noise masking

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0800158A1 (en) * 1996-04-01 1997-10-08 Hewlett-Packard Company Word spotting
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
EP0800158A1 (en) * 1996-04-01 1997-10-08 Hewlett-Packard Company Word spotting

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
THAMBIRATNAM K ET AL: "Dynamic Match Phone-Lattice Searches For Very Fast And Accurate Unrestricted Vocabulary Keyword Spotting", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. (ICASSP ' 05). IEEE INTERNATIONAL CONFERENCE ON PHILADELPHIA, PENNSYLVANIA, USA MARCH 18-23, 2005, PISCATAWAY, NJ, USA,IEEE, vol. 1, 18 March 2005 (2005-03-18), pages 465 - 468, XP010792075, ISBN: 978-0-7803-8874-1 *

Also Published As

Publication number Publication date
WO2009101319A1 (en) 2009-08-20

Similar Documents

Publication Publication Date Title
EP1886304B1 (en) Method, device and computer programme for speech recognition
US8831947B2 (en) Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US7788095B2 (en) Method and apparatus for fast search in call-center monitoring
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
US9245523B2 (en) Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts
Tür et al. Integrating prosodic and lexical cues for automatic topic segmentation
Wright et al. Uncovering spoken phrases in encrypted voice over IP conversations
US20110004473A1 (en) Apparatus and method for enhanced speech recognition
US9311914B2 (en) Method and apparatus for enhanced phonetic indexing and search
US8285542B2 (en) Adapting a language model to accommodate inputs not found in a directory assistance listing
WO2003048711A2 (en) Speech detection system in an audio signal in noisy surrounding
Tejedor et al. Comparison of methods for language-dependent and language-independent query-by-example spoken term detection
EP2795618B1 (en) Method of detecting a predetermined frequency band in an audio data signal, detection device and computer program corresponding thereto
GB2451938A (en) Methods and apparatus for searching of spoken audio data
Weinstein et al. Music identification with weighted finite-state transducers
Barakat et al. Detecting offensive user video blogs: An adaptive keyword spotting approach
FR2927461A1 (en) METHOD, DEVICE AND COMPUTER PROGRAM FOR SEARCHING FOR KEYWORDS IN A SPEECH SIGNAL
Wang Mandarin spoken document retrieval based on syllable lattice matching
CN108364654B (en) Voice processing method, medium, device and computing equipment
US11632345B1 (en) Message management for communal account
WO2014155652A1 (en) Speaker retrieval system and program
EP1981020A1 (en) Method and system for automatic speech recognition adapted for detecting utterances out of context
Tucker et al. Speech-as-data technologies for personal information devices
Van Heerden et al. The semi-automated creation of stratified speech corpora
Dhananjaya et al. Speaker change detection in casual conversations using excitation source features

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20091030