EP1269462B1

EP1269462B1 - Verfahren und vorrichtung zur sprachaktivitätsdetektion

Info

Publication number: EP1269462B1
Application number: EP01958309A
Authority: EP
Inventors: Mark Shahaf; Yishay Ben-Shimol; Moti Shor-Haham
Original assignee: Motorola Israel Ltd
Current assignee: Motorola Solutions Israel Ltd
Priority date: 2000-03-15
Filing date: 2001-03-14
Publication date: 2008-05-14
Anticipated expiration: 2021-03-14
Also published as: ATE395683T1; GB2360428B; GB2360428A; EP1269462A2; WO2001080220A2; WO2001080220A3; DE60133998D1; AU2001280027A1; GB0006312D0

Claims

Vorrichtung (100) zur Erfassung einer Sprachaktivität, die umfasst:
einen Audioparametergenerator (120) zum Erzeugen von Audioparametern von empfangenen Funkrahmen;

eine mehrstufige Verzögerungseinheit (102), die an den Audioparametergenerator angeschlossen ist, zum Erzeugen einer Reihe von Audioparametern, die um verschiedene Beträge verzögert sind;

ein Abstandserfassungsmittel (106A, 106B) zum Messen des Abstandes zwischen vorbestimmten Gruppen der Audioparameter, die über verschiedene Verzögerungen verfügen;

eine Mehrzahl von Bestimmungseinheiten (106A, 106B) zum Bestimmen eines charakteristischen Wertes für jede Gruppe der Audioparameter, deren Abstände gemessen worden sind;

und eine an die Bestimmungseinheiten angeschlossene Mittelungseinheit (108) zum Bestimmen eines Mittelwertes für alle die charakteristischen Werte.
Vorrichtung (100) zur Erfassung einer Sprachaktivität gemäß Anspruch 1, wobei die mehrstufige Verzögerungseinheit eine Mehrzahl von Audioparameterverzögerungseinheiten (104A, 104B) zum Verzögern der Audioparameter umfasst,
wobei die Audioparameterverzögerungseinheiten in Reihe zusammengeschaltet sind, so dass jede Audioparameterverzögerungseinheit, die einer vorherigen Audioparameterverzögerungseinheit folgt, eine weitere Verzögerung zu der durch die vorherige addierten Verzögerung addiert, wobei die erste der Audioparameterverzögerungseinheiten an den Audioparametergenerator (120) angeschlossen ist;
wobei die Abstandserfassungsmittel eine Mehrzahl von Abstanderfassungseinheiten (106A, 106B) umfassen, wobei jede an mindestens zwei der Audioparameterverzögerungseinheiten zum Gruppieren der verzögerten Audiowerte angeschlossen ist, die durch die Audioparameterverzögerungseinheiten gemäß dem vorbestimmten Verzögerungsmuster erzeugt werden, und die Abstandserfassungseinheiten außerdem die Bestimmungseinheiten sind.
Vorrichtung zur Erfassung einer Sprachaktivität gemäß Anspruch 2, wobei die erste Audioparameterverzögerungseinheit (104A) arbeitet, um eine Mehrzahl von Audioparameterwerten bezüglich einer vorbestimmten Sprachperiode von dem Audioparametergenerator zu empfangen, jede von dem Rest der Audioparameterverzögerungseinheiten (104A, 104B, 104C) betreibbar ist, um die Audioparameterwerte von einer vorangehenden der Audioparameterverzögerungseinheiten (104A, 104B, 104C) zu empfangen, und jede der Abstandserfassungseinheiten betreibbar ist, um die Audioparameterwerte, die von ausgewählten der an sie angeschlossenen Audioparameterverzögerungseinheiten empfangen werden, zu verarbeiten, wodurch unterschiedliche Werte erzeugt werden, wobei die Mittelungseinheit betreibbar ist, um aus diesen unterschiedlichen Werten einen Mittelwert zu erzeugen.
Vorrichtung zur Erfassung einer Sprachaktivität gemäß Anspruch 1, Anspruch 2 oder Anspruch 3, die weiterhin umfasst:
eine Mehrzahl von Mittelungsverzögerungseinheiten (112A, 112B), die in Reihe geschaltet sind, wobei die erste der Mittelungsverzögerungseinheiten (112A) weiterhin an den Ausgang der Mittelungseinheit (108) angeschlossen ist; und

eine digitale Logikeinheit (116), die an die Mittelungsverzögerungseinheiten angeschlossen ist.
Vorrichtung zur Erfassung einer Sprachaktivität gemäß Anspruch 4, wobei die erste Mittelungsverzögerungseinheit (112A) betreibbar ist, um eine Mehrzahl von verarbeiteten Audioparametermittelwerten von der Mittelungseinheit (108) zu empfangen, wobei jede der Verzögerungseinheiten betreibbar ist, um jeden verarbeiteten Audioparametermittelwert zu verzögern, wobei die digitale Logikeinheit betreibbar ist, um eine Mehrzahl aufeinanderfolgende verarbeitete Audioparametermittelwerte zu empfangen, wobei der neueste der aufeinanderfolgenden verarbeiteten Audioparametermittelwerte von der Mittelungseinheit empfangen wird und der Rest der aufeinanderfolgenden verarbeiteten Audioparametermittelwerte von der Mittelungsverzögerungseinheit empfangen wird, wobei die digitale Logikverarbeitung betreibbar ist, damit die aufeinanderfolgenden verarbeiteten Audioparametermittelwerte dadurch eine Sprachanwesenheitsanzeige erzeugen.
Vorrichtung zur Erfassung einer Sprachaktivität gemäß Anspruch 4 oder Anspruch 5, wobei die erste Audioparameterverzögerungseinheit (104A) betreibbar ist, um eine Mehrzahl von Audioparameterwerten von dem Audioparametergenerator (120) zu empfangen, jede von dem Rest der Audioparameterverzögerungseinheiten (104B, 104C, 104D) betreibbar ist, um die Audioparameterwerte von einer vorangehenden der Audioparameterverzögerungseinheiten (104A, 104B, 104C) zu empfangen, und jede der Abstandserfassungseinheiten (106A, 106B) betreibbar ist, um Audioparameterwerte, die von ausgewählten an sie angeschlossene der Audioparameterverzögerungseinheiten empfangen werden, zusammen zu verarbeiten, wodurch verschiedene Werte erzeugt werden, wobei die Mittelungseinheit betreibbar ist, um von jedem Satz der verschiedenen Werte einen verarbeiteten Audioparametermittelwert zu erzeugen, und
wobei die erste Mittelungsverzögerungseinheit betreibbar ist, um die verarbeiteten Audioparametermittelwerte von der Mittelungseinheit zu empfangen, wobei jede der Verzögerungseinheiten betreibbar ist, um jeden der verarbeiteten Audioparametermittelwerte zu verzögern, die digitale Logikeinheit eine Mehrzahl von aufeinanderfolgenden verarbeiteten Audioparametermittelwerten empfängt, wobei die digitale Logikeinheit betreibbar ist, um eine Mehrzahl von aufeinanderfolgenden verarbeiteten Audioparametermittelwerten zu empfangen, wobei der neueste der aufeinanderfolgenden verarbeiteten Audioparametermittelwerte von der Mittelungseinheit empfangen wird und der Rest der aufeinanderfolgenden verarbeiteten Audioparametermittelwerte von der Mittelungsverzögerungseinheit empfangen wird, wobei die digitale Logikeinheit betreibbar ist, um die aufeinanderfolgenden verarbeiteten Audioparametermittelwerte zu verarbeiten, wodurch eine Sprachanwesenheitsanzeige erzeugt wird.
Vorrichtung zur Erfassung einer Sprachaktivität gemäß Anspruch 1, Anspruch 4 oder Anspruch 5, wobei jede der Bestimmungseinheiten (218A, 218B) betreibbar ist, um der Mittelungseinheit (208) eine zuvor verzögerte Abstandsmaßausgabe zur Verfügung zu stellen, wobei die erste (218A) der Bestimmungseinheiten durch eine Abstandserfassungseinheit (206), die betreibbar ist, um einen Abstand zwischen jedem einer Reihe von durch die mehrstufige Verzögerungseinheit (206) erzeugten unterschiedlich verzögerten Audioparametern und einer unverzögerten Ausgabe des Audioparametergenerators (120) zu messen, an den Audioparametergenerator (120) angeschlossen ist.
Vorrichtung zur Erfassung einer Sprachaktivität gemäß einem der vorangehenden Ansprüche, wobei der Audioparameter Linienspektralfrequenzen umfasst.
Vorrichtung zur Erfassung einer Sprachaktivität gemäß Anspruch 8, wobei der Audioparametergenerator einen Linienspektralfrequenzgenerator umfasst.
Vorrichtung zur Erfassung einer Sprachaktivität gemäß einem der Ansprüche 4 bis 9, die weiterhin umfasst: eine Subtraktionseinheit (114), die zwischen dem Eingang und dem Ausgang der ersten Mittelungsverzögerungseinheit geschaltet ist und weiterhin an die digitale Logikeinheit angeschlossen ist,
wobei die Subtraktionseinheit betreibbar ist, um Differenzwerte von verarbeiteten Audioparametermittelwerten, die von der Mittelungseinheit empfangen werden, und von verarbeiteten Audioparametermittelwerten, die durch die erste Mittelungsverzögerungseinheit verzögert werden, zu erzeugen, und
wobei die digitale Logikeinheit betreibbar ist, um die Differenzwerte zusammen mit den aufeinanderfolgenden verarbeiteten Audioparametermittelwerten zu verarbeiten, wodurch eine Sprachanwesenheitsanzeige erzeugt wird.
Verfahren zur Verwendung der Vorrichtung gemäß einem der vorangehenden Ansprüche zur Erfassung einer Sprachaktivität, das die folgenden Schritte umfasst:
Gruppieren von Audioparametern, die mit einer vorbestimmten Kombination von Audiorahmen verknüpft sind, wodurch eine Mehrzahl von Gruppen erzeugt wird;

Bestimmen eines charakteristischen Wertes für jede der Gruppen;

Bestimmen eines Mittelwertes für jede einer Mehrzahl von Auswahlen einer Mehrzahl der charakteristischen Werte; und

Bestimmen der Anwesenheit einer Sprachaktivität aus ausgewählten der Mittelwerte.
Verfahren gemäß Anspruch 11, das weiterhin umfasst:
den Schritt eines Erfassens der Energie von Audioabtastwerten, die mit den Audioparametern verknüpft sind, vor dem Schritt eines Bestimmens der Anwesenheit einer Sprachaktivität.
Verfahren gemäß Anspruch 11 oder Anspruch 12, das weiterhin umfasst: den vorläufigen Schritt eines Empfangens der Audioparameter von einem Audiogenerator.
Verfahren gemäß Anspruch 11, Anspruch 12 oder Anspruch 13, das weiterhin umfasst: den vorläufigen Schritt eines Erzeugens der Audioparameter aus einer Mehrzahl von Audioabtastwerten.