EP1269462B1

EP1269462B1 - Appareil et procede de detection d'activite vocale

Info

Publication number: EP1269462B1
Application number: EP01958309A
Authority: EP
Inventors: Mark Shahaf; Yishay Ben-Shimol; Moti Shor-Haham
Original assignee: Motorola Israel Ltd
Current assignee: Motorola Solutions Israel Ltd
Priority date: 2000-03-15
Filing date: 2001-03-14
Publication date: 2008-05-14
Anticipated expiration: 2021-03-14
Also published as: GB2360428B; DE60133998D1; WO2001080220A3; WO2001080220A2; ATE395683T1; GB2360428A; AU2001280027A1; EP1269462A2; GB0006312D0

Claims

Appareil de détection d'activité vocale (100) comprenant :
un générateur de paramètres audio (120) pour produire des paramètres audio à partir de trames audio reçues ;

une unité de retard multi-étages (102) connectée au générateur de paramètres audio pour produire une série des paramètres audio retardés de quantités différentes ;

des moyens de mesure de distance (1 06A, 106B) pour mesurer la distance entre des groupes prédéterminés de paramètres audio ayant des retards différents ;

une pluralité d'unité de détermination (106A, 106B) pour déterminer une valeur caractéristique pour chaque groupe des paramètres audio dont les distances ont été mesurées ;

et, connectée aux unités de détermination, une unité de calcul de moyenne (108) pour déterminer une valeur moyenne de toutes les valeurs caractéristiques.
Appareil de détection d'activité vocale (100) selon la revendication 1, dans lequel l'unité de retard multi-étages comprend une pluralité d'unités de retard de paramètres audio (104A, 104B) pour retarder les paramètres audio, les unités de retard de paramètres audio étant connectées en série les unes aux autres, de telle sorte que chaque unité de retard de paramètres audio qui suit une unité de retard de paramètres audio précédente ajoute un retard supplémentaire au retard ajouté par la précédente, la première desdites unités de retard de paramètres audio étant connectée au générateur de paramètres audio (120) ;
dans lequel les moyens de mesure de distance comprennent une pluralité d'unités de mesure de distance (106A, 106B) qui sont chacune connectées à au moins deux desdites unités de retard de paramètres audio, pour regrouper les valeurs audio retardées produites par les unités de retard de paramètres audio en fonction du modèle de retard prédéterminé, et les unités de mesure de distance sont également les unités de détermination.
Appareil de détection d'activité vocale selon la revendication 2, dans lequel ladite première unité de retard de paramètres audio (104A) fonctionne de façon à recevoir une pluralité de valeurs de paramètres audio, concernant une période de parole prédéterminée, en provenance dudit générateur de paramètres audio, chacune desdites unités de retard de paramètres audio restantes (104A, 104B, 104C) peut fonctionner de façon à recevoir lesdites valeurs de paramètres audio en provenance d'une précédente desdites unités de retard de paramètres audio (104A, 104B, 104C), chacune desdites unités de mesure de distance peut fonctionner de façon à traiter les valeurs de paramètres audio reçues en provenance de certaines sélectionnées desdites unités de retard de paramètres audio qui lui sont connectées, pour ainsi produire des valeurs différentielles, l'unité de calcul de moyenne pouvant fonctionner de façon à produire une valeur moyenne à partir desdites valeurs différentielles.
Appareil de détection d'activité vocale selon la revendication 1, la revendication 2 ou la revendication 3, et comprenant, en outre :
une pluralité d'unités de retard de valeurs moyennes (112A, 112B) connectées en série les unes aux autres, la première desdites unités de retard de valeurs moyennes (112A) étant, en outre, connectée à la sortie de ladite unité de calcul de moyenne (108) ; et

une unité logique numérique (116) connectée auxdites unités de retard de valeurs moyennes.
Appareil de détection d'activité vocale selon la revendication 4, dans lequel ladite première unité de retard de valeurs moyennes (112A) peut fonctionner de façon à recevoir une pluralité de valeurs moyennes de paramètres audio traités en provenance de ladite unité de calcul de moyenne (108), chacune desdites unités de retard pouvant fonctionner de façon à retarder chacune desdites valeurs moyennes de paramètres audio traités, ladite unité logique numérique pouvant fonctionner de façon à recevoir une pluralité de valeurs moyennes de paramètres audio traités successives, la dernière desdites valeurs moyennes de paramètres audio traités successives étant reçue en provenance de ladite unité de calcul de moyenne et le restant desdites valeurs moyennes de paramètres audio traités successives étant reçu en provenance de ladite unité de retard de valeurs moyennes, ladite unité logique numérique pouvant fonctionner de façon à traiter lesdites valeurs moyennes de paramètres audio traités successives de façon à produire une indication de présence de parole.
Appareil de détection d'activité vocale selon la revendication 4 ou la revendication 5, dans lequel ladite première unité de retard de paramètres audio (104A) peut fonctionner de façon à recevoir une pluralité de valeurs de paramètres audio en provenance dudit générateur de paramètres audio (120), chacune desdites unités de retard de paramètres audio restantes (104B, 104C, 104D) peut fonctionner de façon à recevoir lesdites valeurs de paramètres audio en provenance d'une précédente desdites unités de retard de paramètres audio (104A, 104B, 104C), et chacune desdites unités de mesure de distance (106A, 106B) peut fonctionner de façon à traiter ensemble les valeurs de paramètres audio reçues en provenance de certaines sélectionnées desdites unités de retard de paramètres audio, qui lui sont connectées, pour ainsi produire des valeurs différentielles, ladite unité de calcul de moyenne pouvant fonctionner de façon à produire une valeur moyenne de paramètres audio traités à partir de chaque ensemble desdites valeurs différentielles, et
dans lequel ladite première unité de retard de valeurs moyennes peut fonctionner de façon à recevoir lesdites valeurs moyennes de paramètres audio traités en provenance de ladite unité de calcul de moyenne, chacun des unités de retard pouvant fonctionner de façon à retarder chacune des valeurs moyennes de paramètres audio traités, ladite unité logique numérique reçoit une pluralité de valeurs moyennes de paramètres audio traités successives, l'unité logique numérique pouvant fonctionner de façon à recevoir une pluralité de valeurs moyennes de paramètres audio traités successives, la dernière desdites valeurs moyennes de paramètres audio traités successives étant reçue en provenance de ladite unité de calcul de moyenne et le restant desdites valeurs moyennes de paramètres audio traités successives étant reçu en provenance de ladite unité de retard de valeurs moyennes, ladite unité logique numérique pouvant fonctionner de façon à traiter lesdites valeurs moyennes de paramètres audio traités successives de façon à produire une indication de présence de parole.
Appareil de détection d'activité vocale selon la revendication 1, la revendication 4 ou la revendication 5, dans lequel chacune des unités de détermination (218A, 218B) peut fonctionner de façon à envoyer une sortie de mesure de distance préalablement retardée à l'unité de calcul de moyenne (208), la première (218A) desdites unités de détermination étant connectée au générateur de paramètres audio (120) par l'intermédiaire d'une unité de mesure de distance (206) qui peut fonctionner de façon à mesurer une distance entre chacun d'une série de paramètres audio différemment retardés produite par l'unité de retard multi-étages (206) et une sortie non retardée du générateur de paramètres audio (120).
Appareil de détection d'activité vocale selon l'une quelconque des revendications précédentes, dans lequel ledit paramètre audio comprend des fréquences de raies spectrales.
Appareil de détection d'activité vocale selon la revendication 8, dans lequel ledit générateur de paramètres audio comprend un générateur de fréquences de raies spectrales.
Appareil de détection d'activité vocale selon l'une quelconque des revendications 4 à 9, et comprenant, en outre, une unité de soustraction (114) connectée entre l'entrée et la sortie de ladite première unité de retard de valeurs moyennes et en plus de ladite unité logique numérique,
dans lequel ladite unité de soustraction peut fonctionner de façon à produire des valeurs de différence à partir des valeurs moyennes de paramètres audio traités reçues en provenance de ladite unité de calcul de moyenne et à partir des valeurs moyennes de paramètres audio traités retardées par la première unité de retard de valeurs moyennes, et
dans lequel ladite unité logique numérique peut fonctionner de façon à traiter lesdites valeurs de différence en même temps que lesdites valeurs moyennes de paramètres audio traités successives, pour produire une indication de présence de parole.
Procédé d'utilisation de l'appareil selon l'une quelconque des revendications précédentes pour la détection d'une activité de parole, comprenant les étapes consistant à :
regrouper des paramètres audio, qui sont associés à une combinaison prédéterminée de trames audio, pour ainsi produire une pluralité de groupes ;

déterminer une valeur caractéristique pour chacun desdits groupes ;

déterminer une valeur moyenne pour chacune d'une pluralité de sélections d'une pluralité desdites valeurs caractéristiques ; et

déterminer la présence d'une activité de parole à partir de certaines sélectionnées desdites valeurs moyennes.
Procédé selon la revendication 11, comprenant, en outre, l'étape consistant à détecter l'énergie d'échantillons audio associés auxdits paramètres audio, avant ladite étape de détermination de la présence d'une activité de parole.
Procédé selon la revendication 11 ou la revendication 12, et comprenant, en outre, l'étape préliminaire consistant à recevoir lesdits paramètres audio en provenance d'un générateur audio.
Procédé selon la revendication 11, la revendication 12 ou la revendication 13, et comprenant, en outre, l'étape préliminaire consistant à produire lesdits paramètres audio à partir d'une pluralité d'échantillons audio.