DE69511508T2

DE69511508T2 - Sprachaktivitätsdetektion

Info

Publication number: DE69511508T2
Application number: DE69511508T
Authority: DE
Inventors: Ivan Bourmeyster; Jamil Chaqui; Francois Robbe
Original assignee: Alcatel SA
Current assignee: Alcatel Lucent SAS
Priority date: 1994-11-22
Filing date: 1995-11-17
Publication date: 2000-07-06
Anticipated expiration: 2015-11-18
Also published as: FR2727236A1; DE69511508D1; AU3793795A; JPH08221097A; AU698712B2; FI955584A0; ATE183598T1; FR2727236B1; CA2163295A1; US5732141A; EP0714088A1; FI955584A; EP0714088B1; ES2136815T3

Description

Das Gebiet der Erfindung ist das der Erfassung der Stimmaktivität in einem Tonsignal.
Bei Vorhandensein eines Tonsignals, das oft von einem Mikrophon stammt, ist es manchmal nötig zu wissen, ob dieses Signal Sprache enthält oder auch ob es nur Rauschen umfaßt.
Tatsächlich beeinflußt die Erfassung einer Stimmaktivität einige Verarbeitungen, die das Tonsignal erfahren kann. In der Menge der typischen Anwendungen, die bei Vorhandensein eines Sprachsignals zu aktivieren angebracht sind, können die Erkennung der Sprache, die Aufhebung des Echos oder auch die Aufzeichnungs- bzw. Registrierungsfunktion identifiziert werden.
Wenn dagegen ein Telefoniesignal betrachtet wird, bei dem nur die Sprache nützliche Information darstellt, ist es auf dem Gebiet der Funkkommunikationen gegenwärtig üblich, dieses Signal nicht zu übertragen, wenn jenes nur Rauschen umfaßt, dies ist das, was gewöhnlich diskontinuierliche Übertragung genannt wird.
So wurden für den Versuch, die Stimmaktivität in einem Audiosignal zu erfassen, bereits Lösungen vorgeschlagen.
Eine erste Lösung besteht darin, die Entwicklung der Energie des Signals zu verfolgen. Wenn sich diese schnell erhöht, kann dies dem Auftreten einer Stimmaktivität entsprechen, aber es kann auch einer Veränderung des Umgebungsrauschens entsprechen. Es ergibt sich, daß dieses Verfahren, obwohl es sehr einfach durchzuführen ist, sich in relativ geräuschvollen Umgebungen nicht als sehr zuverlässig zeigt, wie es beispielsweise in einem Kraftfahrzeug der Fall ist.
Es sind ebenfalls zahlreiche weitere Lösungen bekannt, die entwickelt wurden, um den Mangel an Zuverlässigkeit der vor hergehenden zu lindern. Dies ist insbesondere für diejenigen der Fall, die eine Fourier-Transformierte des Tonsignals einsetzen, um den spektralen Abstand zu messen, der es von einem mittleren Rauschsignal trennt, das bei Nichtvorhandensein jeglicher Stimmaktivität aktualisiert wird. Dies ist ebenfalls für Verfahren der Fall, die eine Analyse des Signals in Unterbändern verwenden, Verfahren, die nahe bei denjenigen liegen, die auf eine Fourier-Transformierte zurückgreifen. Dies ist noch für Verfahren der Fall, die auf eine Cepstralanalyse zurückgreifen.
Es handelt sich dort um viel komplexere Techniken, die jedoch, wenn sie schon einen Gewinn in der Höhe der Zuverlässigkeit bringen, keine vollständige Zufriedenheit in diesem Punkt geben.
Es sind auch Lösungen bekannt, die sich eine gewisse Periodizität der Sprache zunutze machen, in deren Zahl auch diejenige vorkommt, die in der Patentanmeldung EP 0 123 349 beschrieben ist. Tatsächlich weisen die mit der Stimme hervorgerufenen Laute alle eine bestimmte Periodizität auf, während das Rauschen normalerweise aperiodisch ist oder aber eine von derjenigen der Sprache unterschiedliche Periodizität aufweist.
Es kann somit der Wert dieser bestimmten Periodizität (oder in Englisch "pitch") ermittelt werden, um das Vorhandensein von mit der Stimme hervorgerufenen Lauten zu erkennen. Um dies auszuführen, werden im allgemeinen die Autokorrelationskoeffizienten des Tonsignals berechnet, um das zweite Maximum dieser Koeffizienten zu ermitteln, wobei das erste Maximum die Energie darstellt. Es handelt sich dort noch um eine relativ komplexe Technik, die keine völlige Zufriedenheit über die Ebene der Zuverlässigkeit gibt.
Die Patentanmeldung EP 0 335 521 beschreibt eine Vorrichtung zur Erfassung der Stimmaktivität, die Autokorrelationskoeffizienten eines Signals verwendet, die gewichtet und kombiniert sind, um eine Größe zu erhalten, die von der Energie in dem Teil des Spektrums abhängt, der kein Rauschen enthält, wobei diese Größe mit einer variablen Schwelle verglichen wird, um einen Hinweis auf eine Stimmaktivität zu geben.
Die vorliegende Erfindung schlägt somit eine Lösung zur Erfassung der Stimmaktivität vor, die für eine verringerte Komplexität eine annehmbare Zuverlässigkeit gewährt.
Erfindungsgemäß umfaßt eine Vorrichtung zur Erfassung der Stimmaktivität in einem Tonsignal:
- Mittel zum Berechnen der Autokorrelationskoeffizienten dieses Signals,
- Mittel zum Identifizieren eines ersten Autokorrelationsvektors mit einer ersten Folge von Autokorrelationskoeffizienten als Komponenten,
- Mittel zum Identifizieren eines zweiten Autokorrelationsvektors mit einer zweiten Folge von Autokorrelationskoeffizienten als Komponenten, die in bezug auf die erste Folge um einen vorbestimmten Verschiebungswert verschoben ist,
- Mittel zum Subtrahieren des ersten Autokorrelationsvektors vom zweiten Autokorrelationsvektor, um einen Differentiationsvektor zu erhalten,
- Mittel zum Berechnen einer Norm des Differentiationsvektors, wobei diese Norm einen ersten Indikator für die Stimmaktivität darstellt.
Außerdem umfaßt die Vorrichtung Reduktionsmittel, um eine reduzierte Norm aufzustellen, indem die Norm des Differentiationsvektors durch einen Reduktionswert dividiert wird, wobei diese reduzierte Norm einen zweiten Indikator für die Stimmaktivität darstellt.
Als Beispiel ist der Reduktionswert gleich der Energie des Signals oder aber er ist gleich der Summe der Energie des Signals und einer Kompressionskonstanten.
Nach einem zusätzlichen Merkmal der Vorrichtung umfaßt diese Glättungsmittel für den einen der Indikatoren für die Stimmaktivität, um eine Linearkombination des gegenwärtigen Wertes dieses Indikators und seines vorhergehenden Wertes zu erzeugen, wobei diese Linearkombination einen dritten Indikator für die Stimmaktivität darstellt.
Außerdem umfaßt die Vorrichtung Entscheidungsmittel, um ein Signal der Stimmaktivität zu erzeugen, wenn einer dieser Indikatoren eine Erfassungsschwelle übersteigt.
Es ist ein Nutzen darin zu finden, diese Erfassungsschwelle ausgehend von der Energie des Tonsignals bei Nichtvorhandensein eines Signals der Stimmaktivität aufzustellen.
Außerdem besteht eine vorteilhafte Lösung darin, die Summe der Absolutwerte der Komponenten des Differentiationsvektors als Norm dieses Vektors zu wählen.
Die Erfindung betrifft auch ein Verfahren zur Erfassung einer Stimmaktivität in einem Tonsignal, das die folgenden Vorgänge umfaßt:
- Berechnung der Autokorrelationskoeffizienten dieses Signals,
- Identifizierung eines erstes Autokorrelationsvektors mit einer ersten Folge von Autokorrelationskoeffizienten als Komponenten,
- Identifizierung eines zweiten Autokorrelationsvektors mit einer zweiten Folge von Autokorrelationskoeffizienten als Komponenten, die in bezug auf die erste Folge um einen vorbestimmten Verschiebungswert verschoben ist,
- Subtraktion des ersten Autokorrelationsvektors vom zweiten Autokorrelationsvektor, um einen Differentiationsvektor zu erhalten,
- Berechnung einer Norm des Differentiationsvektors, wobei diese Norm einen ersten Indikator für die Stimmaktivität darstellt.
Die vorliegende Erfindung zeigt sich nun deutlicher im Rahmen eines Ausführungsbeispiels, das als Veranschaulichung gegeben ist, indem auf die beigefügte Figur Bezug genommen wird, die den Ablauf der von der Vorrichtung zur Erfassung der Stimmaktivität ausgeführten Vorgänge darstellt.
Man versetzt sich nun in den Fall, in dem ein Tonsignal eine digitale Beschaffenheit hat, das heißt, daß es sich in Form einer Folge von Abtastwerten zeigt, die dem Wert des Signals zu aufeinander folgenden Zeitpunkten entsprechen, die sich im Takt einer Abtastfrequenz wiederholen.
Wenn das zu analysierende Signal eine analoge Beschaffenheit hat, beispielsweise wenn es von einem Mikrophon stammt, wird es zuerst einem Analog/Digital-Wandler vorgelegt, der beim Takt dieser Abtastfrequenz arbeitet, um das Tonsignal zu erzeugen.
Wenn das Tonsignal digital ist, erscheint es natürlich, die Vorrichtung zur Erfassung der Stimmaktivität mittels eines Digitalsignalprozessors auszuführen. Dieser Prozessor kann selbstverständlich für weiter Zwecke verwendet werden.
Es wird somit verstanden, daß diese Erfassungsvorrichtung in ihrer Struktur nicht beschrieben wird, weil sie dem Fachmann wohlbekannte, elementare Vorgänge ausführt, wie Additionen, Multiplikationen, Vergleiche. Es wird somit eine Funktionsbeschreibung beibehalten, weil sie bei weitem vorzuziehen zu sein scheint, um die Ausführung der Erfindung mit der größten Deutlichkeit zu erläutern.
Unter Bezugnahme auf die einzige Figur empfängt somit die Vorrichtung das Tonsignal und es wird eine Folge 5(i) von Abtastwerten betrachtet, wobei i von 0 bis N variiert.
Der erste Vorgang, den die Vorrichtung ausführt, ist die Berechnung der Autokorrelationskoeffizienten R(k) des Signals für alle Werte von k, die zwischen 0 und N liegen:
Ausgehend von diesen Autokorrelationskoeffizienten R(k) kann ein erster R&sub0; und ein zweiter Rq Autokorrelationsvektor definiert werden, wobei darüber hinaus ein Verschiebungswert q betrachtet wird, der eine streng positive ganze Zahl ist. Der erste Autokorrelationsvektor R&sub0; hat als Komponenten die (N-q+1) ersten Autokorrelationskoeffizienten R(k):
R0 = (R(0), R(1), ..., R(N - q))
Der zweite Autokorrelationsvektor Rq hat als Komponenten die (N-q+1) letzten Autokorrelationskoeffizienten R(k):
Rq = (R (q), R (q + 1), ..., R (N))
Die Erfassungsvorrichtung berechnet dann einen Differentiationsvektor ΔR indem sie den ersten Autokorrelationsvektor R0 vom zweiten Autokorrelationsvektor Rq subtrahiert:
ΔR = Rq - R&sub0;
Wenn mit ΔR(k) die (k+1)-te dieses Differentiationsvektors bezeichnet wird, hat diese dann für jedes zwischen 0 und N-q liegende k den Wert:
ΔR(k) = R (k + q) - R (k)
Es wird bemerkt, daß die ersten R&sub0; und zweiten Rq Autokorrelationsvektoren selbst keinen Nutzen haben. Sie wurden in der einfachen Absicht eingeführt, die Darlegung zu verdeut lichen. Der wichtige Punkt ist die Berechnung des Differentiationsvektors. So wird dieser Vektor durch den Wert dieser Komponenten wie oben beschrieben definiert.
Von da aus berechnet die Erfassungsvorrichtung eine Norm ΔR des Differentiationsvektors ΔR. Vorteilhafterweise ist diese Norm gleich der Summe der Absolutwerte der Komponenten des Vektors:
Es versteht sich, daß sich die Erfindung auch anwenden läßt, wenn die Beibehaltung einer anderen Norm, wie insbesondere die euklidische Norm oder der Höchstwert der Absolutwerte jeder der Komponenten, gewählt wird.
Diese Norm, welche sie auch immer sein mag, bildet einen ersten Indikator für die Stimmaktivität.
Eine erste Option besteht im Vergleichen dieses Indikators mit einer Schwelle, um festzulegen, daß es ein Vorhandensein einer Stimmaktivität im Tonsignal gibt, wenn der Indikator höher als die Schwelle ist.
Gemäß einer zweiten Option berechnet die Erfassungsvorrichtung eine reduzierte Norm P, indem sie die Norm ΔR des Differentiationsvektors durch einen Reduktionswert teilt. Als Beispiel kann dieser Reduktionswert gleich der Energie R(0) des Tonsignals gewählt werden, was darauf abzielt die Dynamik der Norm ΔR zu komprimieren. Eine weitere Lösung, die ihre eigenen Vorteile bewirkt, besteht darin, diesem Reduktionswert die Summe der Energie R(0) des Tonsignals und einer Konstante zuzuweisen, die Deckwert C genannt wird.
Diese reduzierte Norm P bildet in jedem Fall einen zweiten Indikator für die Stimmaktivität, der ebenfalls mit einer Schwelle verglichen werden kann, um das Nichtvorhandensein oder das Vorhandensein einer Stimmaktivität in diesem Signal festzulegen.
Gemäß einer dritten Option nimmt die Erfassungsvorrichtung eine Glättung dieser reduzierten Norm vor. So entspricht, wenn mehrere aufeinanderfolgende Folgen von N Abtastwerten des Audiosignals betrachtet werden, eine reduzierte Pi der i-ten Folge. Der geglättete Wert Pi dieser reduzierten Norm ist eine Linearkombination des geglätteten Wertes Pi-1 der zu vorhergehenden Folge gehörigen reduzierten Norm Pi-1 und dieser reduzierten Pi:
Pi = αPi-1 + βPi
α und β können derart gewählt werden, daß ihre Summe gleich Eins ist.
Es ist außerdem ratsam, P&sub0; mit Hilfe irgendeiner Konstanten, beispielsweise 0, zu initialisieren.
Dieser geglättete Wert Pi bildet einen dritten Indikator für die Stimmaktivität, der auch mit einer Schwelle verglichen werden kann, um festzulegen, ob das Audiosignal eine Stimmaktivität aufweist oder nicht.
Welches auch immer der festgelegte Indikator für die Stimmaktivität ist, die Erfassungsvorrichtung vergleicht ihn somit mit einer Erfassungsschwelle T. Die einfachste Lösung besteht darin, dieser Erfassungsschwelle einen konstanten Wert zuzuweisen.
Eine vorteilhafte Lösung besteht jedoch darin, diese Schwelle der Höhe der reduzierten Norm P anzupassen, wenn das Audiosignal von Stimmaktivität frei ist.
Es kann somit der Mittelwert der reduzierten Norm über mehrere aufeinanderfolgende Folgen von. Abtastwerten des Tonsignals, für welche keine Stimmaktivität erfaßt wurde, berech net und dieser Mittelwert mit einem konstanten Koeffizienten multipliziert werden, um die Erfassungsschwelle T zu erhalten. Es handelt sich da um eine Technik die zu derjenigen der Glättung analog ist, die den Fachmann wohlbekannt ist, und sie wird somit nicht ausführlicher dargelegt.
Außer der eigentlichen Erfassungsvorrichtung betrifft die Erfindung natürlich das Verfahren zur Erfassung der Stimmaktivität, das von dieser Vorrichtung durchgeführt wird.
Als digitale Anwendung und um einen konkreten Fall der Erfindung darzustellen, wird zur Veranschaulichung das paneuropäische, digitale, zellulare Funkkommunikationssystem gewählt, das GSM-System genannt wird. Bei diesem System wird das zu verarbeitende analoge Signal mit der Frequenz von 8 kHz abgetastet. Die so erhaltenen Abtastwerte werden zu Folgen von 160 neu gruppiert, die somit jeweils 20 ms entsprechen.
So beträgt N die Anzahl von Abtastwerten, 160, und es wird vorteilhafterweise der Verschiebungswert q gleich Eins gewählt.
Die Komponenten des Differentiationsvektors werden dann für jedes k zwischen 1 und 160 geschrieben als:
ΔR(k) = R (k + 1) - R (k)
Die Norm dieses Vektors kann somit geschrieben werden als:

Claims

1. Vorrichtung zur Erfassung der Stimmaktivität in einem Tonsignal, welche umfasst:

- Mittel zum Berechnen der Autokorrelationskoeffizienten (R(k)) dieses Signals,

- Mittel zum Identifizieren eines ersten Autokorrelationsvektors (R&sub0;) mit einer ersten Folge (k = 0, ...,N - q) von Autokorrelationskoeffizienten (R(k)) als Komponenten,

- Mittel zum Identifizieren eines zweiten Autokorrelationsvektors (Rq) mit einer zweiten Folge (k = q, ...,N) von Autokorrelationskoeffizienten (R(k)) als Komponenten, die in bezug auf die erste Folge um einen vorbestimmten Verschiebungswert (q) verschoben ist,

- Mittel zum Subtrahieren des ersten Autokorrelationsvektors (R&sub0;) vom zweiten Autokorrelationsvektor (Rq), um einen Differentiationsvektor (ΔR) zu erhalten,

- Mittel zum Berechnen einer Norm ( ΔR ) des Differentiationsvektors, wobei diese Norm einen ersten Indikator für die Stimmaktivität darstellt.

2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass sie außerdem Reduktionsmittel umfasst, um eine reduzierte Norm aufzustellen, indem die Norm ( ΔR ) des Differentiationsvektors durch einen Reduktionswert dividiert wird, wobei diese reduzierte Norm einen zweiten Indikator für die Stimmaktiviät darstellt.

3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass der Reduktionswert gleich der Energie des Tonsignals ist.

4. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass der Reduktionswert gleich der Summe der Energie des Tonsignals und eines Deckwertes (C) ist.

5. Vorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass sie Glättungsmittel für den einen der Indikatoren für die Stimmaktivität aufweist, um eine Linearkombination des gegenwärtigen Wertes des Indikators und seines vorhergehenden Wertes zu erzeugen, wobei die Linearkombination einen dritten Indikator für die Stimmaktivität darstellt.

6. Vorrichtung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass sie Entscheidungsmittel umfasst, um ein Signal der Stimmaktivität zu erzeugen, wenn einer der Indikatoren eine Erfassungsschwelle übersteigt.

7. Vorrichtung nach Anspruch 6, dadurch gekennzeichnet, dass die Erfassungsschwelle ausgehend vom Wert der reduzierten Norm des Tonsignals in Abwesenheit des Signals der Stimmaktivität aufgestellt wird.

8. Vorrichtung nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Norm ( ΔR ) des Differentiationsvektors gleich der Summe der Absolutwerte der Komponenten dieses Vektors ist.

9. Verfahren zur Erfassung einer Stimmaktivität in einem Tonsignal, das die folgenden Vorgänge umfasst:

- Berechnung der Autokorrelationskoeffizienten (R(k)) dieses Signals,

- Identifizierung eines erstes Autokorrelationsvektors (R&sub0;) mit einer ersten Folge (k = 0, ...,N - q) von Autokorrelationskoeffizienten (R(k)) als Komponenten,

- Identifizierung eines zweiten Autokorrelationsvektors (Rq) mit einer zweiten Folge (k = q, ..., N) von Autokorrelationskoeffizienten (R(k)) als Komponenten, die in bezug auf die erste Folge um einen vorbestimmten Verschiebungswert (q) verschoben ist,

- Subtraktion des ersten Autokorrelationsvektors (R&sub0;) vom zweiten Autokorrelationsvektor (Rq), um einen Differentiationsvektor (ΔR) zu erhalten,

- Berechnung einer Norm ( ΔR ) des Differentiationsvektors, wobei diese Norm einen ersten Indikator für die Stimmaktivität darstellt.