-
Die
vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung
zur Aufnahme eines Sprachsignals.
-
Spracherkennungssysteme
liefern in geräuschbehafteten
Umgebungen oft niedrige Erkennungsraten. Grund hierfür ist, dass
durch Neben- und Hintergrundgeräusche
das aufgenommene Sprachsignal überlagert
wird und infolgedessen für
eine Spracherkennung nicht geeignet ist. Die besten Sprachsignalaufnahmen
werden in diesen Umgebungen erzielt, wenn sich das Mikrofon möglichst
nah am Sprecher befindet. Bewegt sich der Sprecher nun frei in dem
Raum und entfernt sich dabei von dem Mikrofon, sinkt die Qualität des aufgenommenen Sprachsignals
und somit auch die Spracherkennungsleistung überproportional stark mit dem
Abstand zum Mikrofon.
-
Durch
den Einsatz von Nahmikrofonen, so genannten Headsets, kann dieses
Problem gelöst werden.
Hierbei kann das Mikrofon über
einen Bügel in
der Nähe
des Mundes positioniert und das aufgenommene Sprachsignal kabelgebunden
oder drahtlos an eine Vorrichtung zur weiteren Verarbeitung des Sprachsignals übertragen
werden.
-
Ein
weiterer Lösungsansatz
besteht darin, mechanische oder elektronische Richtmikrofone oder
Mikrofonarrays zu verwenden. Hierzu werden die direktiven Mikrofone
auf den Sprecher fokussiert, so dass die Neben- oder Hintergrundgeräusche weitgehend
ausgeblendet werden können.
In einer statischen Variante werden die direktiven Mikrofone auf eine
feste Position fokussiert, während
bei der dynamischen Variante die Position des Sprechers mitverfolgt
wird und die direktiven Mikrofone entsprechend ausgerichtet werden.
-
Nachteilig
bei der Verwendung von personengebundenen Nahfeldmikrofonen ist,
dass sie häufig
als lästig
empfunden werden. Weiterhin ist der Einsatz von Nahfeldmikrofonen
mit verschiedenen Einschränkungen
verbunden, wie beispielsweise einer eingeschränkten Bewegungsfreiheit bei
kabelgebundener Verbindung oder einer begrenzten Batterielaufzeit
und Sendereichweite bei drahtloser Übertragung.
-
Statische
direktive Mikrofone haben den Nachteil, dass zur genauen Fokussierung
sich der Sprecher jederzeit an derselben Position aufhalten muss.
Dies ist beispielsweise in Fahrzeugumgebungen gegeben, in anderen
Umgebungen hingegen, wie beispielsweise im medizinischen Umfeld,
arbeiten die Mitglieder eines Operationsteams an unterschiedlichen
Positionen und verändern
daher auch ihre Positionen während
der Operation. Auch im industriellen Umfeld bewegt sich das Kommando
gebende Bedienpersonal laufend. Dynamische direktive Mikrofone hingegen
haben den Nachteil, dass sie teuer sind und zudem auch bei diesen
Mikrofonen mit zunehmendem Abstand zwischen Sprecher und Mikrofon
die Qualität
der aufgenommenen Sprachsignale merklich sinkt.
-
Der
vorliegenden Erfindung stellt sich somit die Aufgabe ein Verfahren
zur Aufnahme eines Sprachsignals anzugeben, bei dem sich die Sprecher in
einem vorgegebenen Umfeld frei bewegen können und die oben genannten
Nachteile hierbei vermieden werden.
-
Erfindungsgemäß wird diese
Aufgabe durch die Verfahren und die Vorrichtungen mit den in den Ansprüchen 1,
2, 8 und 9 angegebenen Merkmalen gelöst. Vorteilhafte Weiterbildungen
der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.
-
Entsprechend
der vorliegenden Erfindung ist in einem Verfahren zur Aufnahme eines
Sprachsignals ein räumlicher
Bereich vorgegeben, innerhalb dessen das Sprachsignal aufgezeichnet
wird. In dem Bereich sind zumindest zwei Mikrofone an unterschiedlichen
Orten angebracht. Anhand von akustischen Messwerten wird dasjenige
Mikrofon ermittelt, welches das Sprachsignal mit der höchsten Qualität aufnehmen
kann. Das ermittelte Mikrofon wird dann zur Aufnahme des Sprachsignals
verwendet. In vorteilhafter Weise wird somit dasjenige Mikrofon
für die Aufnahme
des Sprachsignals verwendet, welches als Sprachsignal unter den
gegebenen Umständen mit
der höchsten
Qualität
aufzeichnen kann. Je nach Dichte der installierten Mikrofone und
der eingenommenen Position des Sprechers kann die zu erzielende
Sprachsignalqualität
bei der Aufnahme flexibel gesteuert werden.
-
Gemäß einem
weiteren Verfahren zur Aufnahme eines Sprachsignals ist ein räumlicher
Bereich vorgegeben, innerhalb dessen das Sprachsignal aufgezeichnet
wird. In dem Bereich sind zumindest zwei Mikrofone an unterschiedlichen
Orten angebracht. Anhand von optischen, elektromagnetischen oder
akustischen Messwerten wird das Mikrofon ermittelt, welches am nächsten zur
Quelle des Sprachsignals positioniert ist. Das ermittelte Mikrofon wird
anschließend
zur Aufzeichnung des Sprachsignals herangezogen. In diesem Verfahren
wird in vorteilhafter Weise das Mikrofon mit der geringsten Entfernung
zum Sprecher ausgewählt,
so dass eine möglichst
hohe Qualität
der Sprachsignalaufnahme zu erwarten ist.
-
Selbstverständlich liegt
es im Ermessen eines Fachmanns anstatt eines Mikrofons auch eine Gruppe
von Mikrofonen zu ermitteln, die für die Sprachsignalaufnahme
verwendet werden. Des Weiteren liegt es im Rahmen dieser Erfindung,
Mikrofone mit einer für
den jeweiligen Anwendungsfall geeigneten mechanischen oder akustischen
Richtcharakteristik einzusetzen.
-
In
einer bevorzugten Weiterbildung der vorliegenden Erfindung wird
für die
Mikrofone jeweils ein Signal zu Hintergrundgeräuschabstand (SNR: Signal to
Noise Ratio) für das
Sprachsignal ermittelt. Das Mikrofon mit dem besten Signal zu Hintergrundgeräuschabstand
(SNR) wird zur Aufnahme des Sprachsignals verwendet. Dies ist unter
Kostengesichtspunkten eine besonders vorteilhafte Lösung, da
hier kein weiterer Sensor pro Mikrofon notwendig ist.
-
Weitere
Möglichkeiten
das geeignete Mikrofon anhand von akustischen Messwerten zu ermitteln sind
die Laufzeitunterschiede der einzelnen Mikrofonsignale auszuwerten
oder für
jedes Mikrofonsignal eine separate Spracherkennung durchzuführen.
-
Hierzu
wird mit den Signalen jedes Mikrofons getrennt eine Spracherkennungen
mit einem gegebenen Vokabular durchgeführt. Das verwendete Spracherkennungssystem
ist dabei so ausgebildet, dass es Werte für die Erkennungssicherheit
ausgibt. Durch eine geeignete Auswertelogik wird danach das Erkennungsergebnis
ausgewählt,
bei dem die Erkennungssicherheit am höchsten ist und gleichzeitig oberhalb
einer Mindestschwelle liegt.
-
In
einer weiteren vorteilhaften Ausgestaltung der vorliegenden Erfindung
werden Bilder von in dem vorgegebenen Bereich befindlichen Sprechern
aufgenommen. Mit Hilfe eines Bildanalysealgorithmus wird ermittelt,
welches Mikrofon am nächsten
zum Sprecher des Sprachsignals positioniert ist.
-
Bildanalyseverfahren
sind beispielsweise ohne Beschränkung
der Allgemeinheit dieses Begriffs Verfahren zur Mustererkennung
beziehungsweise zur Detektion von Objekten in einem Bild. Üblicherweise
wird bei diesen Verfahren in einem ersten Schritt eine Sequenzierung
vorgenommen, bei dem eine Zuordnung von Bildpunkten zu einem Bildobjekt erfolgt.
In einem zweiten Schritt werden anhand morphologischer Verfahren
die Gestalt und/oder die Form der Objekte identifiziert. Letztlich
werden in einem dritten Schritt zur Klassifizierung die identifizierten
Objekte bestimmten Klassen zugewiesen. Typische Beispiele hierfür sind unter
anderem die Handschriftenerkennung, aber auch Gesichtslokalisationsverfahren.
-
Die
erfindungsgemäße Vorrichtung
zur Aufnahme eines Sprachsignals ist in einem räumlichen Bereich angeordnet,
innerhalb dessen das Sprachsignal aufgezeichnet wird, wobei in dem
Bereich zumindest zwei Mikrofone an unterschiedlichen Orten angebracht
sind. Die Vorrichtung weist ein Mittel zur Messung von akustischen
Werten auf, anhand derer das Mikrofon ermittelt wird, welches das
Sprachsignal mit der höchsten
Qualität
aufnehmen kann.
-
Eine
weitere erfindungsgemäße Vorrichtung zur
Aufnahme eines Sprachsignals ist in einem räumlichen Bereich angeordnet,
innerhalb dessen das Sprachsignal aufgezeichnet wird, wobei in dem
Bereich zumindest zwei Mikrofone an unterschiedlichen Orten angebracht
sind. Die Vorrichtung weist ein Mittel zur Messung von optischen
Werten auf, anhand derer das Mikrofon ermittelt wird, welches am
nächsten
zur Quelle des Sprachsignals positioniert ist.
-
Die
vorliegende Erfindung wird nachfolgend an Ausführungsbeispielen anhand der
Zeichnungen näher
erläutert.
-
Es
zeigen
-
1 eine
beispielhafte Anwendung des erfindungsgemäßen Verfahrens in einer Wohnraumumgebung,
-
2 eine
beispielhafte Anwendung des erfindungsgemäßen Verfahrens in einem Operationssaal.
-
Die 1 zeigt
eine Wohnraumumgebung mit einer Eingangshalle 101, einem
Wohnzimmer 102, einem Schlafzimmer 103 und einer
Küche 104. Die
Mikrofone zur Aufzeichnung der Sprachsignale wurden an Stellen mit
der höchsten
Aufenthaltswahrscheinlichkeit für
die potentiellen Sprecher angebracht. Ein Mikrofon 105 befindet
sich in der Eingangshalle 101 in der Nähe der Haustür. Zwei
weitere Mikrofone 106 und 107 sind im Wohnzimmer 102 in
der Nähe
der Wohnzimmercouch und in der Nähe des
Esstisches angebracht. Zwei weitere Mikrofone 108 und 109 befinden
sich jeweils auf einer Seite des Bettes im Schlafzimmer 103.
Ein weiteres Mikrofon 110 wurde in der Küche 104 in
Nähe der
Kochplatte installiert. Die einzelnen Mikrofone 105 bis 110 sind jeweils
mit einer Spracherkennungseinheit verbunden. Es wird nun jeweils
das aufgezeichnete Sprachsignal von dem Mikrofon an die Spracherkennungseinheit
weitergeleitet, welches das Sprachsignal mit der höchsten Qualität aufgezeichnet
hat.
-
In
diesem Ausführungsbeispiel
wird die Qualität
des aufgezeichneten Sprachsignals anhand von akustischen Messdaten
ermittelt. Hierzu wird in einem rein hardwarebasierten Ansatz für jedes
Mikrofon das gleichgerichtete elektrische Mikrofonsignal über zwei
Tiefpässe
mit unterschiedlichen Zeitkonstanten gefiltert. Ein erster Tiefpass
mit großer
Integrationswirkung hat eine Zeitkonstante von beispielsweise ein
bis zehn Sekunden und liefert eine Schätzung über das Raum- beziehungsweise
Umgebungsgeräusch.
Der zweite Tiefpass mit kleiner Integrationswirkung hat eine Zeitkonstante
von beispielsweise 0,2 bis 0,5 Sekunden und liefert eine Schätzung für das aktuelle
akustische Signal. Auf diese Weise erhält man in einem rein hardwarebasierten
Ansatz durch Division des gefilterten Signals aus dem zweiten Tiefpass
durch das gefilterte Signal aus dem ersten Tiefpass eine gute Abschätzung für das Signal
zu Hintergrundgeräuschverhältnis (SNR)
des jeweiligen Mikrofons. Selbstverständlich kann die Ermittlung des
Signals des Hintergrundgeräuschverhältnisses auch
softwarebasiert vorgenommen werden. Ausgewählt wird nun dasjenige Mikrofon,
bei dem das Signal zu Hintergrundgeräuschverhältnis für eine vorgebbare Zeit einen
Mindestwert übersteigt
und welches im Vergleich zu dem Signal zu Hintergrundgeräuschverhältnissen
der übrigen
Mikrofone am größten ist.
-
Somit
wird eine kostengünstige
Lösung
geschaffen, mit der immer das Mikrofon mit der aktuell größtmöglichen
Sprachsignalqualität
für die
Spracherkennung verwendet wird.
-
Weitere
Lösungen
wären beispielsweise
die Verwendung von Distanzsensoren, anhand derer das Mikrofon mit
dem geringsten Abstand zum Sprecher ermittelt wird. Hierzu zählen beispielsweise
auch die Ultraschallsensoren. Auch geeignete Marker oder RFID-Tags
an den Personen können
zur Identifizierung des am besten positionierten Mikrofons für die Aufnahme
des Sprachsignals herangezogen werden.
-
Die 2 zeigt
einen Operationssaal 201, in dem jeweils drei Mikrofone 202 bis 204 und 205 bis 207 an
gegenüberliegenden
Wänden
gleichmäßig angeordnet
sind. An einer Stirnseite des Operationssaales 201 sind
zwei Kameras 208 und 209 installiert, die winkelversetzt
zueinander den Operationssaal aufnehmen. Schließlich sind in dem Operationssaal 201 zwei
Personen dargestellt, die sich in Reichweite der beiden Kameras 208 und 209,
sowie der sechs Mikrofone 202 bis 207 aufhalten.
-
Durch
die zwei räumlich
voneinander getrennt angeordneten Kameras, beispielsweise CCD-Zeilenkameras,
die gleichzeitig Bilder der in der Reichweite der sechs Mikrofone 202 bis 207 befindlichen
Personen 210 und 211 aufzeichnen und deren relative
Lage zueinander bekannt ist, können
die räumlichen
Positionen der beiden Personen 210 und 211 rekonstruiert
werden.
-
In
diesem Ausführungsbeispiel
werden durch ein Bildanalyseverfahren, welches auf die Kamerasignale
angewandt wird, die Positionen der beiden potentiellen Sprecher 210 und 211 festgestellt. Infolgedessen
wird das Mikrofon 202 zur Aufnahme der Sprachsignale des
Sprechers 201 und das Mikrofon 205 zur Aufnahme
der Sprachsignale des Sprechers 211 aktiviert. Die Positionsbestimmung
anhand der Kameras 208 und 209 der beiden Personen
wird laufend aktualisiert, so dass auch bei einer Positionsveränderung
von zumindest einer der beiden Personen ein besser positioniertes
Mikrofon aktiviert wird.
-
In
diesem Ausführungsbeispiel
wird durch eine kamerabasierte Positionsermittlung der Sprecher
dasjenige Mikrofon gefunden und aktiviert, welches mit dem geringsten
Abstand zum jeweiligen Sprecher positioniert ist.
-
Die
Anwendung der vorliegenden Erfindung ist nicht auf die beschriebenen
Ausführungsbeispiele beschränkt.