DE102007002905A1

DE102007002905A1 - Verfahren und Vorrichtung zur Aufnahme eines Sprachsignals

Info

Publication number: DE102007002905A1
Application number: DE200710002905
Authority: DE
Inventors: Bernhard Dr. Kämmerer
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2007-01-19
Filing date: 2007-01-19
Publication date: 2008-07-24
Also published as: EP1947905A2

Abstract

In einem Verfahren zur Aufnahme eines Sprachsignals ist ein räumlicher Bereich vorgegeben, innerhalb dessen sich die Sprecher frei bewegen können und das Sprachsignal aufgezeichnet wird. In dem Bereich sind zumindest zwei Mikrofone an unterschiedlichen Orten angebracht. Anhand von akustischen oder optischen Messwerten wird dasjenige Mikrofon ermittelt, welches das Sprachsignal mit der höchsten Qualität aufnehmen kann. Das ermittelte Mikrofon wird dann zur Aufnahme des Sprachsignals verwendet. Je nach Dichte der installierten Mikrofone und der eingenommenen Position des Sprechers kann die zu erzielende Sprachsignalqualität bei der Aufnahme flexibel gesteuert werden.

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Aufnahme eines Sprachsignals.
Spracherkennungssysteme liefern in geräuschbehafteten Umgebungen oft niedrige Erkennungsraten. Grund hierfür ist, dass durch Neben- und Hintergrundgeräusche das aufgenommene Sprachsignal überlagert wird und infolgedessen für eine Spracherkennung nicht geeignet ist. Die besten Sprachsignalaufnahmen werden in diesen Umgebungen erzielt, wenn sich das Mikrofon möglichst nah am Sprecher befindet. Bewegt sich der Sprecher nun frei in dem Raum und entfernt sich dabei von dem Mikrofon, sinkt die Qualität des aufgenommenen Sprachsignals und somit auch die Spracherkennungsleistung überproportional stark mit dem Abstand zum Mikrofon.
Durch den Einsatz von Nahmikrofonen, so genannten Headsets, kann dieses Problem gelöst werden. Hierbei kann das Mikrofon über einen Bügel in der Nähe des Mundes positioniert und das aufgenommene Sprachsignal kabelgebunden oder drahtlos an eine Vorrichtung zur weiteren Verarbeitung des Sprachsignals übertragen werden.
Ein weiterer Lösungsansatz besteht darin, mechanische oder elektronische Richtmikrofone oder Mikrofonarrays zu verwenden. Hierzu werden die direktiven Mikrofone auf den Sprecher fokussiert, so dass die Neben- oder Hintergrundgeräusche weitgehend ausgeblendet werden können. In einer statischen Variante werden die direktiven Mikrofone auf eine feste Position fokussiert, während bei der dynamischen Variante die Position des Sprechers mitverfolgt wird und die direktiven Mikrofone entsprechend ausgerichtet werden.
Nachteilig bei der Verwendung von personengebundenen Nahfeldmikrofonen ist, dass sie häufig als lästig empfunden werden. Weiterhin ist der Einsatz von Nahfeldmikrofonen mit verschiedenen Einschränkungen verbunden, wie beispielsweise einer eingeschränkten Bewegungsfreiheit bei kabelgebundener Verbindung oder einer begrenzten Batterielaufzeit und Sendereichweite bei drahtloser Übertragung.
Statische direktive Mikrofone haben den Nachteil, dass zur genauen Fokussierung sich der Sprecher jederzeit an derselben Position aufhalten muss. Dies ist beispielsweise in Fahrzeugumgebungen gegeben, in anderen Umgebungen hingegen, wie beispielsweise im medizinischen Umfeld, arbeiten die Mitglieder eines Operationsteams an unterschiedlichen Positionen und verändern daher auch ihre Positionen während der Operation. Auch im industriellen Umfeld bewegt sich das Kommando gebende Bedienpersonal laufend. Dynamische direktive Mikrofone hingegen haben den Nachteil, dass sie teuer sind und zudem auch bei diesen Mikrofonen mit zunehmendem Abstand zwischen Sprecher und Mikrofon die Qualität der aufgenommenen Sprachsignale merklich sinkt.
Der vorliegenden Erfindung stellt sich somit die Aufgabe ein Verfahren zur Aufnahme eines Sprachsignals anzugeben, bei dem sich die Sprecher in einem vorgegebenen Umfeld frei bewegen können und die oben genannten Nachteile hierbei vermieden werden.
Erfindungsgemäß wird diese Aufgabe durch die Verfahren und die Vorrichtungen mit den in den Ansprüchen 1, 2, 8 und 9 angegebenen Merkmalen gelöst. Vorteilhafte Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.
Entsprechend der vorliegenden Erfindung ist in einem Verfahren zur Aufnahme eines Sprachsignals ein räumlicher Bereich vorgegeben, innerhalb dessen das Sprachsignal aufgezeichnet wird. In dem Bereich sind zumindest zwei Mikrofone an unterschiedlichen Orten angebracht. Anhand von akustischen Messwerten wird dasjenige Mikrofon ermittelt, welches das Sprachsignal mit der höchsten Qualität aufnehmen kann. Das ermittelte Mikrofon wird dann zur Aufnahme des Sprachsignals verwendet. In vorteilhafter Weise wird somit dasjenige Mikrofon für die Aufnahme des Sprachsignals verwendet, welches als Sprachsignal unter den gegebenen Umständen mit der höchsten Qualität aufzeichnen kann. Je nach Dichte der installierten Mikrofone und der eingenommenen Position des Sprechers kann die zu erzielende Sprachsignalqualität bei der Aufnahme flexibel gesteuert werden.
Gemäß einem weiteren Verfahren zur Aufnahme eines Sprachsignals ist ein räumlicher Bereich vorgegeben, innerhalb dessen das Sprachsignal aufgezeichnet wird. In dem Bereich sind zumindest zwei Mikrofone an unterschiedlichen Orten angebracht. Anhand von optischen, elektromagnetischen oder akustischen Messwerten wird das Mikrofon ermittelt, welches am nächsten zur Quelle des Sprachsignals positioniert ist. Das ermittelte Mikrofon wird anschließend zur Aufzeichnung des Sprachsignals herangezogen. In diesem Verfahren wird in vorteilhafter Weise das Mikrofon mit der geringsten Entfernung zum Sprecher ausgewählt, so dass eine möglichst hohe Qualität der Sprachsignalaufnahme zu erwarten ist.
Selbstverständlich liegt es im Ermessen eines Fachmanns anstatt eines Mikrofons auch eine Gruppe von Mikrofonen zu ermitteln, die für die Sprachsignalaufnahme verwendet werden. Des Weiteren liegt es im Rahmen dieser Erfindung, Mikrofone mit einer für den jeweiligen Anwendungsfall geeigneten mechanischen oder akustischen Richtcharakteristik einzusetzen.
In einer bevorzugten Weiterbildung der vorliegenden Erfindung wird für die Mikrofone jeweils ein Signal zu Hintergrundgeräuschabstand (SNR: Signal to Noise Ratio) für das Sprachsignal ermittelt. Das Mikrofon mit dem besten Signal zu Hintergrundgeräuschabstand (SNR) wird zur Aufnahme des Sprachsignals verwendet. Dies ist unter Kostengesichtspunkten eine besonders vorteilhafte Lösung, da hier kein weiterer Sensor pro Mikrofon notwendig ist.
Weitere Möglichkeiten das geeignete Mikrofon anhand von akustischen Messwerten zu ermitteln sind die Laufzeitunterschiede der einzelnen Mikrofonsignale auszuwerten oder für jedes Mikrofonsignal eine separate Spracherkennung durchzuführen.
Hierzu wird mit den Signalen jedes Mikrofons getrennt eine Spracherkennungen mit einem gegebenen Vokabular durchgeführt. Das verwendete Spracherkennungssystem ist dabei so ausgebildet, dass es Werte für die Erkennungssicherheit ausgibt. Durch eine geeignete Auswertelogik wird danach das Erkennungsergebnis ausgewählt, bei dem die Erkennungssicherheit am höchsten ist und gleichzeitig oberhalb einer Mindestschwelle liegt.
In einer weiteren vorteilhaften Ausgestaltung der vorliegenden Erfindung werden Bilder von in dem vorgegebenen Bereich befindlichen Sprechern aufgenommen. Mit Hilfe eines Bildanalysealgorithmus wird ermittelt, welches Mikrofon am nächsten zum Sprecher des Sprachsignals positioniert ist.
Bildanalyseverfahren sind beispielsweise ohne Beschränkung der Allgemeinheit dieses Begriffs Verfahren zur Mustererkennung beziehungsweise zur Detektion von Objekten in einem Bild. Üblicherweise wird bei diesen Verfahren in einem ersten Schritt eine Sequenzierung vorgenommen, bei dem eine Zuordnung von Bildpunkten zu einem Bildobjekt erfolgt. In einem zweiten Schritt werden anhand morphologischer Verfahren die Gestalt und/oder die Form der Objekte identifiziert. Letztlich werden in einem dritten Schritt zur Klassifizierung die identifizierten Objekte bestimmten Klassen zugewiesen. Typische Beispiele hierfür sind unter anderem die Handschriftenerkennung, aber auch Gesichtslokalisationsverfahren.
Die erfindungsgemäße Vorrichtung zur Aufnahme eines Sprachsignals ist in einem räumlichen Bereich angeordnet, innerhalb dessen das Sprachsignal aufgezeichnet wird, wobei in dem Bereich zumindest zwei Mikrofone an unterschiedlichen Orten angebracht sind. Die Vorrichtung weist ein Mittel zur Messung von akustischen Werten auf, anhand derer das Mikrofon ermittelt wird, welches das Sprachsignal mit der höchsten Qualität aufnehmen kann.
Eine weitere erfindungsgemäße Vorrichtung zur Aufnahme eines Sprachsignals ist in einem räumlichen Bereich angeordnet, innerhalb dessen das Sprachsignal aufgezeichnet wird, wobei in dem Bereich zumindest zwei Mikrofone an unterschiedlichen Orten angebracht sind. Die Vorrichtung weist ein Mittel zur Messung von optischen Werten auf, anhand derer das Mikrofon ermittelt wird, welches am nächsten zur Quelle des Sprachsignals positioniert ist.
Die vorliegende Erfindung wird nachfolgend an Ausführungsbeispielen anhand der Zeichnungen näher erläutert.
Es zeigen
1 eine beispielhafte Anwendung des erfindungsgemäßen Verfahrens in einer Wohnraumumgebung,
2 eine beispielhafte Anwendung des erfindungsgemäßen Verfahrens in einem Operationssaal.
Die 1 zeigt eine Wohnraumumgebung mit einer Eingangshalle 101, einem Wohnzimmer 102, einem Schlafzimmer 103 und einer Küche 104. Die Mikrofone zur Aufzeichnung der Sprachsignale wurden an Stellen mit der höchsten Aufenthaltswahrscheinlichkeit für die potentiellen Sprecher angebracht. Ein Mikrofon 105 befindet sich in der Eingangshalle 101 in der Nähe der Haustür. Zwei weitere Mikrofone 106 und 107 sind im Wohnzimmer 102 in der Nähe der Wohnzimmercouch und in der Nähe des Esstisches angebracht. Zwei weitere Mikrofone 108 und 109 befinden sich jeweils auf einer Seite des Bettes im Schlafzimmer 103. Ein weiteres Mikrofon 110 wurde in der Küche 104 in Nähe der Kochplatte installiert. Die einzelnen Mikrofone 105 bis 110 sind jeweils mit einer Spracherkennungseinheit verbunden. Es wird nun jeweils das aufgezeichnete Sprachsignal von dem Mikrofon an die Spracherkennungseinheit weitergeleitet, welches das Sprachsignal mit der höchsten Qualität aufgezeichnet hat.
In diesem Ausführungsbeispiel wird die Qualität des aufgezeichneten Sprachsignals anhand von akustischen Messdaten ermittelt. Hierzu wird in einem rein hardwarebasierten Ansatz für jedes Mikrofon das gleichgerichtete elektrische Mikrofonsignal über zwei Tiefpässe mit unterschiedlichen Zeitkonstanten gefiltert. Ein erster Tiefpass mit großer Integrationswirkung hat eine Zeitkonstante von beispielsweise ein bis zehn Sekunden und liefert eine Schätzung über das Raum- beziehungsweise Umgebungsgeräusch. Der zweite Tiefpass mit kleiner Integrationswirkung hat eine Zeitkonstante von beispielsweise 0,2 bis 0,5 Sekunden und liefert eine Schätzung für das aktuelle akustische Signal. Auf diese Weise erhält man in einem rein hardwarebasierten Ansatz durch Division des gefilterten Signals aus dem zweiten Tiefpass durch das gefilterte Signal aus dem ersten Tiefpass eine gute Abschätzung für das Signal zu Hintergrundgeräuschverhältnis (SNR) des jeweiligen Mikrofons. Selbstverständlich kann die Ermittlung des Signals des Hintergrundgeräuschverhältnisses auch softwarebasiert vorgenommen werden. Ausgewählt wird nun dasjenige Mikrofon, bei dem das Signal zu Hintergrundgeräuschverhältnis für eine vorgebbare Zeit einen Mindestwert übersteigt und welches im Vergleich zu dem Signal zu Hintergrundgeräuschverhältnissen der übrigen Mikrofone am größten ist.
Somit wird eine kostengünstige Lösung geschaffen, mit der immer das Mikrofon mit der aktuell größtmöglichen Sprachsignalqualität für die Spracherkennung verwendet wird.
Weitere Lösungen wären beispielsweise die Verwendung von Distanzsensoren, anhand derer das Mikrofon mit dem geringsten Abstand zum Sprecher ermittelt wird. Hierzu zählen beispielsweise auch die Ultraschallsensoren. Auch geeignete Marker oder RFID-Tags an den Personen können zur Identifizierung des am besten positionierten Mikrofons für die Aufnahme des Sprachsignals herangezogen werden.
Die 2 zeigt einen Operationssaal 201, in dem jeweils drei Mikrofone 202 bis 204 und 205 bis 207 an gegenüberliegenden Wänden gleichmäßig angeordnet sind. An einer Stirnseite des Operationssaales 201 sind zwei Kameras 208 und 209 installiert, die winkelversetzt zueinander den Operationssaal aufnehmen. Schließlich sind in dem Operationssaal 201 zwei Personen dargestellt, die sich in Reichweite der beiden Kameras 208 und 209, sowie der sechs Mikrofone 202 bis 207 aufhalten.
Durch die zwei räumlich voneinander getrennt angeordneten Kameras, beispielsweise CCD-Zeilenkameras, die gleichzeitig Bilder der in der Reichweite der sechs Mikrofone 202 bis 207 befindlichen Personen 210 und 211 aufzeichnen und deren relative Lage zueinander bekannt ist, können die räumlichen Positionen der beiden Personen 210 und 211 rekonstruiert werden.
In diesem Ausführungsbeispiel werden durch ein Bildanalyseverfahren, welches auf die Kamerasignale angewandt wird, die Positionen der beiden potentiellen Sprecher 210 und 211 festgestellt. Infolgedessen wird das Mikrofon 202 zur Aufnahme der Sprachsignale des Sprechers 201 und das Mikrofon 205 zur Aufnahme der Sprachsignale des Sprechers 211 aktiviert. Die Positionsbestimmung anhand der Kameras 208 und 209 der beiden Personen wird laufend aktualisiert, so dass auch bei einer Positionsveränderung von zumindest einer der beiden Personen ein besser positioniertes Mikrofon aktiviert wird.
In diesem Ausführungsbeispiel wird durch eine kamerabasierte Positionsermittlung der Sprecher dasjenige Mikrofon gefunden und aktiviert, welches mit dem geringsten Abstand zum jeweiligen Sprecher positioniert ist.
Die Anwendung der vorliegenden Erfindung ist nicht auf die beschriebenen Ausführungsbeispiele beschränkt.

Claims

Verfahren zur Aufnahme eines Sprachsignals, wobei – ein räumlicher Bereich vorgegeben ist, innerhalb dessen das Sprachsignal aufgezeichnet wird, – in dem Bereich zumindest zwei Mikrophone an unterschiedlichen Orten angebracht sind, dadurch gekennzeichnet, dass – anhand von akustischen Messwerten das Mikrophon ermittelt wird, welches das Sprachsignal mit der höchsten Qualität aufnehmen kann, – das ermittelte Mikrophon das Sprachsignal aufnimmt.
Verfahren zur Aufnahme eines Sprachsignals, wobei – ein räumlicher Bereich vorgegeben ist, innerhalb dessen das Sprachsignal aufgezeichnet wird, – in dem Bereich zumindest zwei Mikrophone an unterschiedlichen Orten angebracht sind, dadurch gekennzeichnet, dass – anhand von optischen, elektromagnetichen oder akustischen Messwerten das Mikrophon ermittelt wird, welches am nächsten zur Quelle des Sprachsignals positioniert ist, – das ermittelte Mikrophon das Sprachsignal aufnimmt.
Verfahren nach Anspruch 1, wobei – für die Mikrophone jeweils ein Signal-zu-Hintergrundgeräuschabstand (SNR) für das Sprachsignal ermittelt wird, – das Mikrophon mit dem besten Signal-zu-Hintergrundgeräuschabstand (SNR) das Sprachsignal aufnimmt.
Verfahren nach Anspruch 1, wobei – für die Mikrofone jeweils eine Spracherkennungsgüte für das Sprachsignal ermittelt wird – das Mikrophon mit der besten Spracherkennungsgüte das Sprachsignal aufnimmt.
Verfahren nach Anspruch 2, wobei – mit Hilfe von Näherungs- oder Distanzsensoren ermittelt wird, welches Mikrophon am nächsten zur Quelle des Sprachsignals positioniert ist.
Verfahren nach Anspruch 2, wobei – Bilder von in dem vorgegebenen Bereich befindlichen Sprechern aufgenommen werden, – mit Hilfe eines Bildanalysealgorithmus ermittelt wird, welches Mikrophon am nächsten zum Sprecher des Sprachsignals positioniert ist.
Verfahren nach Anspruch 2, wobei Mit Hilfe von RFID (Radio Frequency Identification) Markern ermittelt wird, welches Mikrophon am nächsten zur Quelle des Sprachsignals positioniert ist.
Vorrichtung zur Aufnahme eines Sprachsignals, welche in einem räumlichen Bereich angeordnet ist, innerhalb dessen das Sprachsignal aufgezeichnet wird, wobei in dem Bereich zumindest zwei Mikrophone an unterschiedlichen Orten angebracht sind, dadurch gekennzeichnet, dass – ein Mittel zur Messung von akustischen Werten vorgesehen ist anhand derer das Mikrophon ermittelt wird, welches das Sprachsignal mit der höchsten Qualität aufnehmen kann.
Vorrichtung zur Aufnahme eines Sprachsignals, welche in einem räumlichen Bereich angeordnet ist, innerhalb dessen das Sprachsignal aufgezeichnet wird, wobei in dem Bereich zumindest zwei Mikrophone an unterschiedlichen Orten angebracht sind, dadurch gekennzeichnet, dass – ein Mittel zur Messung von optischen Werten vorgesehen ist anhand derer das Mikrophon ermittelt wird, welches am nächsten zur Quelle des Sprachsignals positioniert ist.