EP0714088B1

EP0714088B1 - Détection d'activité vocale

Info

Publication number: EP0714088B1
Application number: EP95402589A
Authority: EP
Inventors: Jamil Chaqui; Ivan Bourmeyster; François Robbe
Original assignee: Alcatel CIT SA; Alcatel SA
Current assignee: Alcatel Lucent SAS
Priority date: 1994-11-22
Filing date: 1995-11-17
Publication date: 1999-08-18
Anticipated expiration: 2015-11-17
Also published as: FI955584A0; FR2727236B1; DE69511508D1; AU3793795A; AU698712B2; FI955584A; JPH08221097A; CA2163295A1; FR2727236A1; ATE183598T1; DE69511508T2; US5732141A; EP0714088A1; ES2136815T3

Description

Le domaine de l'invention est celui de la détection d'activité vocale dans un signal audio.

En présence d'un signal audio qui est souvent issu d'un microphone, il est parfois nécessaire de savoir si ce signal contient de la parole ou bien s'il ne comporte que du bruit.

En effet, la détection d'activité vocale va souvent conditionner certains traitements que le signal audio est susceptible de subir. Au nombre des applications typiques qu'il convient d'activer en présence d'un signal de parole, on peut identifier la reconnaissance de la parole, l'annulation d'écho ou encore la fonction d'enregistrement.

Au contraire, si l'on considère un signal de téléphonie où seule la parole représente l'information utile, il est maintenant courant dans le domaine des radiocommunications de ne pas transmettre ce signal si celui-ci ne comprend que du bruit, c'est que l'on appelle couramment la transmission discontinue.

Ainsi, des solutions ont déjà été proposées pour tenter de détecter l'activité vocale dans un signal audio.

Une première solution consiste à suivre l'évolution de l'énergie du signal. Si celle-ci augmente rapidement, cela peut correspondre à l'apparition d'une activité vocale mais cela peut aussi correspondre à une variation du bruit ambiant. Il s'ensuit que cette méthode, bien que très simple à mettre en oeuvre ne se présente pas comme très fiable dans les milieux relativement bruités comme c'est le cas par exemple dans un véhicule automobile.

On connaít également de nombreuses autres solutions qui ont été développées pour pallier le défaut de fiabilité de la précédente. C'est le cas notamment de celles qui mettent en oeuvre une transformée de Fourier du signal audio pour mesurer la distance spectrale le séparant d'un signal de bruit moyenné qui est mis à jour en l'absence de toute activité vocale. C'est également le cas des méthodes utilisant une analyse du signal en sous-bandes, méthodes qui sont proches de celles faisant appel à une transformée de Fourier. C'est encore le cas des méthodes faisant appel à l'analyse cepstrale.

Il s'agit là de techniques beaucoup plus complexes qui, si elles apportent bien un gain au niveau de la fiabilité, ne donnent cependant pas complète satisfaction sur ce point.

On connaít aussi des solutions qui mettent à profit une certaine périodicité de la parole au nombre desquelles figure celle décrite dans la demande de brevet EP 0 123 349. En effet, les sons voisés présentent tous une périodicité déterminée alors que le bruit est normalement apériodique ou bien présente une périodicité distincte de celle de la parole.

On peut donc rechercher la valeur de cette périodicité déterminée (ou "pitch" en anglais) pour reconnaítre la présence de sons voisés.

Pour ce faire, on calcule généralement les coefficients d'autocorrélation du signal audio pour rechercher le second maximum de ces coefficients, le premier maximum représentant l'énergie. Il s'agit là encore d'une technique relativement complexe qui ne donne pas complète satisfaction sur le plan de la fiabilité.

La demande de brevet EP 0 335 521 decrit un dispositif de détection d'activité vocale qui utilise de coefficients d'autocorrélation d'un signal, pondérés et combinés, pour obtenir une quantité qui dépend de l'énergie dans la partie du spectre qui ne contient pas de bruit, cette quantité étant comparée avec un seuil variable pour donner une indication d'activité vocale.

La présente invention propose donc une solution pour détecter l'activité vocale qui procure une fiabilité acceptable pour une complexité réduite.

Selon l'invention, un dispositif de détection d'activité vocale dans un signal audio comprend :

des moyens pour calculer les coefficients d'autocorrélation de ce signal,
des moyens pour identifier un premier vecteur d'autocorrélation ayant pour composantes une première série de coefficients d'autocorrélation,
des moyens pour identifier un second vecteur d'autocorrélation ayant pour composantes une deuxième série de coefficients d'autocorrélation décalée par rapport à la première série d'une valeur de décalage prédéterminée,
des moyens pour soustraire le premier vecteur d'autocorrélation du second vecteur d'autocorrélation afin d'obtenir un vecteur de différentiation,
des moyens pour calculer une norme de ce vecteur de différentiation, cette norme représentant un premier indicateur d'activité vocale.

De plus, le dispositif comprend des moyens de réduction pour établir une norme réduite en divisant la norme du vecteur de différentiation par une valeur de réduction, cette norme réduite représentant un deuxième indicateur d'activité vocale.

A titre d'exemple, la valeur de réduction est égale à l'énergie du signal ou bien elle est égale à la somme de l'énergie du signal et d'une constante de compression.

Selon une caractéristique additionnnelle du dispositif, celui-ci comprend des moyens de lissage de l'un de ces indicateurs d'activité vocale pour produire une combinaison linéaire de la valeur présente de cet indicateur et de sa valeur antérieure, cette combinaison linéaire représentant un troisième indicateur d'activité vocale.

Par ailleurs, le dispositif comprend des moyens de décision pour produire un signal d'activité vocale si l'un de ces indicateurs excède un seuil de détection.

On peut trouver un intérêt à établir ce seuil de détection à partir de l'énergie du signal audio en l'absence de signal d'activité vocale.

En outre, une solution avantageuse consiste à choisir la somme des valeurs absolues des composantes du vecteur de différentiation comme norme de ce vecteur.

L'invention concerne également une méthode de détection d'activité vocale dans un signal audio comprenant les opérations suivantes :

calcul des coefficients d'autocorrélation de ce signal,
identification d'un premier vecteur d'autocorrélation ayant pour composantes une première série de coefficients d'autocorrélation,
identification d'un second vecteur d'autocorrélation ayant pour composantes une deuxième série de coefficients d'autocorrélation décalée par rapport à la première série d'une valeur de décalage prédéterminée,
soustraction du premier vecteur d'autocorrélation du second vecteur d'autocorrélation afin d'obtenir un vecteur de différentiation,
calcul d'une norme du vecteur de différentiation, cette norme représentant un premier indicateur d'activité vocale.

La présente invention appraítra maintenant de manière plus claire dans le cadre d'un exemple de réalisation donné à titre illustratif en se référant à la figure annexée qui représente le déroulement des opérations effectuées par le dispositif de détection d'activité vocale.

On se place dans le cas où un signal audio est de nature numérique, c'est-à-dire qu'il se présente sous la forme d'une suite d'échantillons qui correspondent à la valeur du signal à des instants successifs qui se répètent au rythme d'une fréquence d'échantillonnage.

Lorsque le signal à analyser est de nature analogique, s'il est issu d'un microphone par exemple, il est d'abord soumis à un convertisseur analogique-numérique qui fonctionne à la cadence de cette fréquence d'échantillonnage pour produire le signal audio.

Le signal audio étant numérique, il apparaít naturel de réaliser le dispositif de détection d'activité vocale au moyen d'un processeur de signal numérique. Ce processeur pourra bien entendu être utilisé à d'autres fins.

On comprend donc que ce dispositif de détection ne sera pas décrit dans sa structure car il met en oeuvre des opérations élémentaires bien connues de l'homme du métier telles que additions, multiplications, comparaisons. C'est donc une description fonctionnelle qui a été retenue, car elle semble de loin préférable pour expliciter la mise en oeuvre de l'invention avec la plus grande clarté.

En référence à la figure unique, le dispositif reçoit donc le signal audio et on considère une série d'échantillons S(i) où i varie de 0 à N.

La première opération qu'effectue le dispositif est le calcul des coefficients d'autocorrélation R(k) du signal pour toutes les valeurs de k comprises entre O et N :

A partir de ces coefficients d'autocorrélation R(k) on peut définir un premier R₀ et un second R_q vecteurs d'autocorrélation en considérant de plus une valeur de décalage q qui est un entier strictement positif. Le premier vecteur d'autocorrélation R₀ a pour composants les (N-q+1) premiers coefficients d'autocorrélation R(k) : R0 = (R(O), R(1), ..., R(N-q))

Le second vecteur d'autocorrélation R_q a pour composants les (N-q+1) derniers coefficients d'autocorrélation R(k) : Rq = (R(q), R(q+1), ..., R(N))

Le dispositif de détection calcule alors un vecteur de différentiation ΔR en soustrayant le premier vecteur d'autocorrélation R₀ du second vecteur d'autocorrélation R_q : ΔR = Rq - R0

Si l'on note ΔR(k) la (k+1)ième composante de ce vecteur de différenciation, celle-ci vaut alors pour tout k compris entre 0 et N-q : ΔR(k) = R(k+q) - R(k)

On s'aperçoit que les premiers R₀ et deuxième R_q vecteurs d'autocorrélation n'ont pas d'utilité en eux-mêmes. Ils ont été introduits dans le simple but de clarifier la présentation. Le point important est le calcul du vecteur de différenciation. Ainsi, ce vecteur se définit par la valeur de ces composantes telle que définie ci-dessus.

Dès lors, le dispositif de détection calcule une norme ∥ΔR∥ du vecteur de différentiation ΔR. De manière avantageuse, cette norme est égale à la somme des valeurs absolues des composantes du vecteur :

Il va sans dire que l'invention s'applique également si l'on choisit de retenir une autre norme telle que, notamment, la norme euclidienne ou la valeur maximale des valeurs absolues de chacune des composantes.

Cette norme, quelle qu'elle soit, constitue un premier indicateur d'activité vocale.

Une première option consiste à comparer cet indicateur à un seuil pour établir qu'il y a présence d'activité vocale dans le signal audio si l'indicateur est supérieur au seuil.

Selon une seconde option, le dispositif de détection calcule une norme réduite P en divisant la norme ∥ΔR∥ du vecteur de différentiation par une valeur de réduction. A titre d'exemple, cette valeur de réduction peut être choisie égale à l'énergie R(0) du signal audio, ce qui va tendre à comprimer la dynamique de la norme ∥ΔR∥. Une autre solution qui procure ses avantages propres consiste à affecter à cette valeur de réduction la somme de l'énergie R(0) du signal audio et d'une constante que l'on nommera valeur plancher C.

Cette norme réduite P, en tout état de cause constitue un deuxième indicateur d'activité vocale que l'on peut également comparer à un seuil pour établir l'absence ou la présence d'activité vocale dans ce signal.

Selon une troisième option, le dispositif de détection procède à un lissage de cette norme réduite. Ainsi, si l'on considère plusieurs séries successives de N échantillons du signal audio, une norme réduite P_i correspond à la iième série. La valeur lissée P _i de cette norme réduite sera une combinaison linéaire de la valeur lissée P _i-1 de la norme réduite P_i-1 associée à la série précédente et de cette norme réduite P_i : P i = α P i-1+ βPi

On peut choisir α et β de sorte que leur somme soit égale à l'unité.

De plus, il convient d'initialiser P ₀ à l'aide d'une constante quelconque, 0 par exemple.

Cette valeur lissée P _i constitue un troisième indicateur d'activité vocale que l'on peut aussi comparer à un seuil pour établir si le signal audio présente ou non une activité vocale.

Quel que soit l'indicateur d'activité vocale retenu, le dispositif de détection le compare donc à un seuil de détection T. La solution la plus simple consiste à affecter une valeur constante à ce seuil de détection.

Cependant, une solution avantageuse consiste à adapter ce seuil au niveau de la norme réduite P lorsque le signal audio est dépourvu d'activité vocale.

On peut donc calculer la valeur moyenne de la norme réduite sur plusieurs séries successives d'échantillons du signal audio pour lesquelles aucune activité vocale n'a été détectée et multiplier cette valeur moyenne par un coefficient constant pour obtenir le seuil de détection T. Il s'agit là d'une technique analogue à celle du lissage bien connue de l'homme du métier et elle ne sera donc pas plus détaillée.

Outre le dispositif de détection proprement dit, l'invention concerne naturellement la méthode de détection d'activité vocale qui est mise en oeuvre par ce dispositif.

A titre d'application numérique et pour présenter un cas concret d'utilisation de l'invention, on prendra pour illustration le système paneuropéen de radiocommunication cellulaire numérique dit système GSM. Dans ce système le signal analogique à traiter est échantillonné à la fréquence de 8 kHz. Les échantillons ainsi obtenus sont regroupés en séries de 160 qui correspondent donc chacune à 20 ms.

Ainsi, N, le nombre d'échantillons, vaut 160 et l'on choisira de manière avantageuse de fixer la valeur de décalage q égale à l'unité.

Les composantes du vecteur de différentiation s'écrivent alors pour tout k compris entre 1 et 160 : ΔR(k) = R(k+1) - R(k)

La norme de ce vecteur peut donc s'écrire :

Claims

Dispositif de détection d'activité vocale dans un signal audio comprenant :

des moyens pour calculer les coefficients d'autocorrélation (R(k)) de ce signal,

des moyens pour identifier un premier vecteur d'autocorrélation (R₀) ayant pour composantes une première série (k=0,...,N-q) de coefficients d'autocorrélation (R(k)),

des moyens pour identifier un second vecteur d'autocorrélation (R_q) ayant pour composantes une deuxième série (k=q,...,N) de coefficients d'autocorrélation (R(k)) décalée par rapport à ladite première série d'une valeur de décalage (q) prédéterminée,

des moyens pour soustraire ledit premier vecteur d'autocorrélation (R₀) dudit second vecteur d'autocorrélation (R_q) afin d'obtenir un vecteur de différentiation (ΔR),

des moyens pour calculer une norme (∥ΔR∥) dudit vecteur de différentiation, cette norme représentant un premier indicateur d'activité vocale.
Dispositif selon la revendication 1, caractérisé en ce qu'il comprend de plus des moyens de réduction pour établir une norme réduite en divisant ladite norme (∥ΔR∥) du vecteur de différentiation par une valeur de réduction, cette norme réduite représentant un deuxième indicateur d'activité vocale.
Dispositif selon la revendication 2 caractérisé en ce que ladite valeur de réduction est égale à l'énergie du signal audio.
Dispositif selon la revendication 2 caractérisé en ce que ladite valeur de réduction est égale à la somme de l'énergie du signal audio et d'une valeur plancher (C).
Dispositif selon l'une quelconque des revendications 1 à 4, caractérisé en ce qu'il comprend des moyens de lissage de l'un desdits indicateurs d'activité vocale pour produire une combinaison linéaire de la valeur présente de cet indicateur et de sa valeur antérieure, ladite combinaison linéaire représentant un troisième indicateur d'activité vocale.
Dispositif selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comprend des moyens de décision pour produire un signal d'activité vocale si l'un desdits indicateurs excède un seuil de détection.
Dispositif selon la revendication 6, caractérisé en ce que ledit seuil de détection est établi à partir de la valeur de la norme réduite dudit signal audio en l'absence dudit signal d'activité vocale.
Dispositif selon l'une quelconque des revendications 1 à 7, caractérisé en ce que ladite norme (∥ΔR∥) du vecteur de différentiation est égale à la somme des valeurs absolues des composantes de ce vecteur.
Méthode de détection d'activité vocale dans un signal audio comprenant les opérations suivantes :

calcul des coefficients d'autocorrélation (R(k)) de ce signal,

identification d'un premier vecteur d'autocorrélation (R₀) ayant pour composantes une première série (k=0,...,N-q) de coefficients d'autocorrélation (R(k)),

identification d'un second vecteur d'autocorrélation (R_q) ayant pour composantes une deuxième série (k=q,...,N) de coefficients d'autocorrélation (R(k)) décalée par rapport à ladite première série d'une valeur de décalage (q) prédéterminée,

soustraction dudit premier vecteur d'autocorrélation (R₀) dudit second vecteur d'autocorrélation (R_q) afin d'obtenir un vecteur de différentiation (ΔR),

calcul d'une norme (∥ΔR∥) dudit vecteur de différentiation, cette norme représentant un premier indicateur d'activité vocale.