-
Technisches
Gebiet
-
Die
vorliegende Erfindung bezieht sich auf Tonsignalverarbeitung. Insbesondere
bezieht sich die Erfindung auf das Verbessern einer Tonsignalqualität zur Verwendung
in einem Tonverarbeitungsgerät.
-
Hintergrund
-
In
bekannten Verfahren zum Verbessern einer Tonsignalqualität kann eine
Aufnahme von Rauschen und Echo durch Verwendung eines Arrays von entfernten
Mikrofonen verringert werden. Die entfernten Mikrofonausgangssignale
werden verarbeitet und dann in einem einzigen Signal kombiniert,
das eine verbesserte Signalqualität hat.
-
Die
besten Verarbeitungsparameter zur Verwendung in Mikrofon-Arrays
hängen
von dem Standort der gewünschten
Tonquel le relativ zu den Mikrofonen ab. Viele Arrays weisen Rauschen
ab, indem sie eine höhere
Empfindlichkeit gegenüber
Tönen haben,
die von der Richtung (oder der Region) der gewünschten Quelle kommen, als
gegenüber
Tönen von
anderer Stelle, bei der Rauschquellen angeordnet sind. Jedoch ist
der relative Standort der Quelle anfänglich oftmals unbekannt und
kann über
die Zeit wechseln. Zum Beispiel bewegen Leute oftmals ihre Köpfe während dem
Sprechen und es ist, wenn ein Array in einem in einer Hand gehaltenen
Gerät ist, wahrscheinlich,
dass es sich etwas während
des Gebrauchs bewegt.
-
Der
Standort einer Tonquelle relativ zu einem Mikrofon-Array gemäß in dem
Stand der Technik bekannten Verfahren kann durch Messen gewisser Charakteristiken
des Signals geschätzt
werden, das von dieser Quelle durch das Array von Mikrofonen empfangen
wird. Ein Beispiel von solch einer Charakteristik ist die Cross-Power-Spectral-Phase.
-
Das
andere Verfahren zur Lokalisierung einer Tonquelle relativ zu einem
Mikrofon-Array ist das Abschätzen
durch visuelles Abbilden der Quelle mit einer Kamera, die an der
gleichen Basis wie das Array befestigt ist. Das Kameraabbild wird
verarbeitet, um die Quelle innerhalb dieser unter Verwendung bekannter
visueller Charakteristiken der Quelle zu lokalisieren. Zum Beispiel
kann ein Mund eins Sprechers durch Suchen seines/ihres Gesichts
in dem Abbild lokalisiert werden.
-
Das
erteilte US-Patent mit der Nummer A-4984087 zeigt eine dem Stand
der Technik angehörende
Mikrofonvorrichtung für
eine Videokamera.
-
Zusammenfassung
der Erfindung
-
Es
ist eine Aufgabe der vorliegenden Erfindung, neue Verfahren und
ein System zum Verbessern einer Tonsignalqualität zur Verfügung zu stellen, welche die
Nachteile des Standes der Technik bewältigen. Die Verfahren und das
System der Erfindung sind zur Verwendung in portablen Tonverarbeitungsgeräten.
-
Die
Verfahren und das System gemäß der vorliegenden
Erfindung lassen die Verarbeitung von Tonsignalen zu, die zu einer
erhöhten
Qualität
führt. Das
Ausgangssignal hat einen verringerten Inhalt von akustischem Rauschen
und Echo, die durch die Umgebung verursacht werden. Das Ausgangssignal ist
weniger empfindlich gegenüber Änderungen
des Standorts einer Tonquelle relativ zu den Mikrofonen. Diese Änderungen
des Standorts werden sowohl durch Bewegung der Tonquelle als auch
durch Bewegung des Geräts,
das mit diesem Mikrofonen ausgestattet ist, verursacht. In einem
herkömmlichen
Beispiel wäre
die Tonquelle eine entsprechende Person und das Gerät könnte in
ihrer/seiner Hand gehalten werden.
-
In Übereinstimmung
mit der vorliegenden Erfindung ist daher ein Verfahren zum Verbessern
einer Tonsignalqualität
wie in Anspruch 1 definiert zur Verfügung gestellt. Das Verfahren
weist die Schritte des Empfangens eines Tons von einer Tonquelle
durch ein Mikrofon-Array und des Detektierens einer Bewegung von
diesem Mikrofon-Array auf. Die Bewegung wird durch einen Plattformbewegungssensor
erfasst. Der derzeitige Standort der Tonquelle relativ zu dem Mikrofon-Array
wird auf der Grundlage des Tonsignals von dem Mikrofon-Array und Signalen
von dem Plattformbewegungssensor geschätzt. Ergebnisse von dieser
Abschätzung
werden zum Verbessern der Ausgangstonsignalqualität verwendet.
-
Ein
Vorteil der vorliegenden Erfindung besteht darin, dass der Bewegungssensor
kontinuierlich die Bewegung des Mikrofon-Arrays verfolgen und dies
zum Einstellen der derzeitigen Abschätzung des relativen Standorts
der gewünschten
Tonquelle verwenden kann. Die Änderungen
des relativen Standorts der Tonquelle und des Mikrofon-Arrays können verfolgt
werden, selbst wenn kein Tonsignal besteht. Demgegenüber kann
die tonbasierte Quellenstandortschätzung lediglich Änderungen
des Quellenstandorts verfolgen, wenn ein Ton vorliegt.
-
Es
bestehen häufig
Geräuschlosigkeiten während einem
normalen Gespräch,
nicht lediglich zwischen Worten oder Sätzen, sondern ebenso innerhalb
von Worten. Wenn das Mikrofon-Array
während
solch einer Geräuschlosigkeit
bewegt wurde und ein Gespräch
dann erneut beginnt, wird es eine relativ lange Zeit für eine tonbasierte
Quellenstandortschätzeinrichtung
für sich
allein in Anspruch nehmen, um eine präzise Schätzung des geänderten Standorts
zu erhalten. Das Ergebnis wäre
eine anfängliche
Verringerung der Ausgangstonqualität. Die vorliegende Erfindung
würde andererseits
Informationen von dem Bewegungssensor verwenden, um kontinuierlich
die Quellenstandortschätzung
einzustellen. Folglich besteht keine anfängliche Verringerung der Ausgangstonqualität, wenn
das Gespräch nach
einer Geräuschlosigkeit
erneut beginnt. Dies setzt voraus, dass sich lediglich das Mikrofon-Array erheblich
bewegt und nicht die Sprachquelle.
-
In Übereinstimmung
mit einem anderen Aspekt der vorliegenden Erfindung wird ein System
zum Verbessern einer Tonsignalqualität wie in Anspruch 5 definiert
zur Verfügung
gestellt. Das System weist ein Mikrofon-Array und einen Plattformbewegungssensor
auf, die mit einer Quellenstandortschätzeinrichtung verbunden sind.
Zusätzlich
ist das Mikrofon-Array mit einem Tonverbesserungsprozessor verbunden.
Der Tonverbesserungsprozessor ist mit einer Quellenstandortschätzeinrichtung
verbunden.
-
Kurze Beschreibung
der Zeichnungen
-
Die
vorliegende Erfindung wird vollständiger aus der folgenden ausführlichen
Beschreibung in Zusammenschau mit den Zeichnungen verstanden und gewürdigt, wovon:
-
1 ein
Flussdiagramm ist, das ein Verfahren zum Vorbereiten von Eingangsignalen
zur Verwendung in portablen Tonverarbeitungsgeräten in Übereinstimmung mit einem Beispiel
veranschaulicht, das hilfreich zum Verständnis der vorliegenden Erfindung
ist;
-
2 ein
Flussdiagramm ist, das ein Verfahren zum Verbessern einer Qualität von Ausgangstonsignalen
zur Verwendung in portablen Tonverarbeitungsgeräten in Überein stimmung mit einem Beispiel veranschaulicht,
das hilf reich zum Verständnis
der vorliegenden Erfindung ist;
-
3 ein
Flussdiagramm ist, das ein Verfahren zum Verbessern einer Qualität von Ausgangstonsignalen
zur Verwendung in portablen Tonverarbeitungsgeräten in Übereinstimmung mit einem Ausführungsbeispiel
der vorliegenden Erfindung veranschaulicht;
-
4 eine
schematische Veranschaulichung eines Systems zum Verbessern einer
Qualität von
Ausgangstonsignalen ist, das in Übereinstimmung
mit der vorliegenden Erfindung betriebsfähig ist.
-
Ausführliche
Beschreibung der bevorzugten Ausführungsbeispiele
-
Der
Ausdruck "Bewegungssignal" hierin bezeichnet
untenstehend ein Signal, das durch einen Plattformbewegungssensor
erzeugt und zur Verfügung
gestellt wird. Ein "Mikrofon-Array", das untenstehend
hierin erwähnt
wird, bezeichnet einen Satz von Mikrofonen, die ein Teil eines portablen
Geräts sind.
Solch ein portables Gerät
ist herkömmlicherweise
in einer Hand eines Benutzers während
der Verwendung und kann verschiedenen rotatorischen und translatorischen
Bewegungen ausgesetzt werden.
-
Bezug
nehmend auf die 1 und 4 wird in
Schritt 100 ein Ton von einer Tonquelle 412, welche
sich bewegen kann, durch ein Mikrofon-Array 402 empfangen.
Bei Schritt 102 erfasst ein Plattformbewegungssensor 400 eine
Bewegung des Mikrofon-Arrays 402. Danach wird ein Tonsignal
einem Tonverbesserungsprozessor 408 und einer Quellenstandorteinscheinrichtung 406 zur
Verfügung
gestellt. Zur gleichen Zeit wird das Bewegungssignal der Quellenstandorteinschätzeinrichtung 406 zur Verfügung gestellt.
-
Bei
Schritt 112 verbessert der Tonverbesserungsprozessor 408 die
Qualität
des Tonsignals. Die Verbesserung kann gemäß den Verfahren, die in dem Stand
der Technik bekannt sind, ausgeführt
werden und wird hier nicht weiter beschrieben.
-
Bei
Schritt 104 wird eine Schätzung eines Standorts der Tonquelle 412 relativ
zu dem Mikrofon-Array 402 auf der Grundlage dieses Tonsignals abgeschätzt. Zum
Zwecke dieser Schätzung
werden Langzeitintervalle des Tonsignals analysiert. Gleichzeitig
wird in Schritt 106 auf der Grundlage des Bewegungssignals
eine Schätzung
einer Änderung
einer Position des Mikrofon-Arrays 402 ausgeführt. Zum
Zwecke dieser Schätzung
werden Kurzzeitintervalle des Bewegungssignals analysiert.
-
In
Schritt 108 wird auf der Grundlage der Ergebnisse der Schätzungen,
die in den Schritten 104 bis 106 ausgeführt werden,
eine derzeitige Änderung des
relativen Standorts der Quelle geschätzt.
-
Schließlich wird
bei Schritt 110 der geschätzte derzeitige Standort der
Tonquelle 412 relativ zu dem Mikrofon-Array 402 erhalten,
indem die derzeitige Änderung
des relativen Standorts der Quelle von Schritt 108 mit
dem Standort der Tonquelle 412 relativ zu dem Mikrofon-Array 402 kombiniert
wird.
-
Die
Ergebnisse der Schätzung,
die in Schritt 110 erhalten werden, und das verbesserte
Signal, das in Schritt 112 empfangen wird, können zur
weiteren Verarbeitung in anderen Geräten, beispielsweise Spracherkennungsgeräten, verwendet
werden.
-
In 2 wird
in Schritt 200 ein Ton von einer Tonquelle 412,
welche sich bewegen kann, durch ein Mikrofon-Array 402 empfangen.
In Schritt 202 detektiert ein Plattformbewegungssensor 400 eine
Bewegung des Mikrofon-Arrays 402. Danach wird ein Tonsignal
einem Tonverbesserungsprozessor 408 und einer Quellenstandortsschätzeinrichtung 406 zur Verfügung gestellt.
Gleichzeitig wird das Bewegungssignal der Quellenstandortschätzeinrichtung 406 zur Verfügung gestellt.
-
In
Schritt 204 wird auf der Grundlage dieses Tonsignals eine
Schätzung
eines Standorts der Tonquelle 412 relativ zu dem Mikrofon-Array 402 durchgeführt. Zum
Zwecke dieser Schätzung
werden Langzeitintervalle des Tonsignals analysiert. Die Ergebnisse
dieser Schätzung
werden dem Tonverbesserungsprozessor 408 zur Verfügung gestellt.
-
In
Schritt 212 verbessert der Tonverbesserungsprozessor 408 die
Qualität
des Tonsignals unter Verwendung der Ergebnisse der Schätzung, die
in Schritt 204 ausgeführt
wurde.
-
Gleichzeitig
wird in Schritt 206 auf der Grundlage des Bewegungssignals
eine Schätzung einer Änderung
einer Position des Mikrofon-Arrays 402 ausgeführt. Zum
Zwecke dieser Einschätzung werden
Kurzzeitintervalle des Bewegungssignals analysiert.
-
In
Schritt 208 wird auf der Grundlage der Ergebnisse der Schätzungen,
die in den Schritten 204 bis 206 ausgeführt wurden,
eine derzeitige Änderung des
relativen Standorts der Quelle geschätzt.
-
Schließlich wird
in Schritt 210 eine Schätzung
des derzeitigen Standorts der Tonquelle 412 relativ zu
dem Mikrofon-Array 402 ausgeführt, indem die
derzeitige Änderung
des relativen Standorts der Quelle von Schritt 208 mit
dem Standort der Tonquelle 412 relativ zu dem Mikrofon-Array 402 kombiniert wird.
-
Die
Ergebnisse der Schätzung,
die in Schritt 210 erhalten werden, und das verbesserte
Signal, das in Schritt 212 empfangen wird, kann für eine weitere
Verarbeitung in anderen Geräten,
beispielsweise Spracherkennungsgeräten, verwendet werden.
-
In 3 wird
in Schritt 300 ein Ton von einer Tonquelle 412,
welche sich bewegen kann, durch ein Mikrofon-Array 402 empfangen.
In Schritt 302 erfasst der Plattformbewegungssensor 400 eine
Bewegung des Mikrofon-Arrays 402. Danach wird ein Tonsignal einem
Tonverbesserungsprozessor 408 und einer Quellenstandortschätzeinrichtung 406 zur
Verfügung gestellt.
Gleichzeitig wird das Bewegungssignal der Quellenstandortschätzeinrichtung 406 zur
Verfügung gestellt.
-
In
Schritt 304 wird auf der Grundlage dieses Tonsignals eine
Schätzung
eines Standorts der Tonquelle 412 relativ zu dem Mikrofon-Array 402 durchgeführt. Zum
Zwecke dieser Schätzung
werden Langzeitintervalle des Tonsignals analysiert. Gleichzeitig
wird in Schritt 306 auf der Grundlage des Bewegungssignals
eine Schätzung
einer Änderung
einer Position des Mikrofon-Arrays 102 ausgeführt. Zum
Zwecke dieser Schätzung
werden Kurzzeitintervalle des Bewegungssignals analysiert.
-
In
Schritt 308 wird auf der Grundlage der Ergebnisse der Schätzungen,
die in den Schritten 304 und 306 ausgeführt werden,
eine derzeitige Änderung
des relativen Standorts der Quelle geschätzt.
-
Schließlich wird
in Schritt 310 durch Kombinieren der derzeitigen Änderung
des relativen Standorts der Quelle von Schritt 308 mit
dem Standort der Tonquelle 412 relativ zu dem Mikrofon-Array 402 der geschätzte derzeitige
Standort der Tonquelle 412 relativ zu dem Mikrofon-Array 402 erhalten.
-
In
Schritt 312 verbessert der Tonverbesserungsprozessor 408 die
Qualität
des Tonsignals unter Verwendung der Ergebnisse der Schätzung, die
in Schritt 310 aufgeführt
wurde.
-
Das
Tonsignal von verbesserter Qualität, das in Schritt 312 erhalten
wird, kann für
eine weitere Verarbeitung in ande ren Geräten, beispielsweise Spracherkennungsgeräten, verwendet
werden.
-
Das
Langzeitintervall, auf das in den Schritten 104, 204 und 304 Bezug
genommen wird, ist herkömmlicherweise
im Bereich von 10 ms bis zu 1 s.
-
Das
Kurzzeitintervall, auf das in den Schritten 106, 206 und 306 Bezug
genommen wird, ist herkömmlicherweise
im Bereich von 0,1 μs
bis zu 10 μs.
-
Nun
wird auf 4 Bezug genommen, welche ein
System zum Verbessern einer Qualität eines Ausgangstonsignals
beschreibt, das in Übereinstimmung
mit dem Ausführungsbeispiel
der vorliegenden Erfindung wie in 3 veranschaulicht
betriebsfähig ist.
-
Ein
System zum Verbessern einer Tonsignalqualität gemäß der vorliegenden Erfindung
weist ein Mikrofon-Array 402, das mit einem Tonverbesserungsprozessor 408 und
einer Quellestandortschätzeinrichtung 406 verbunden
ist, auf. Das System weist ebenso einen Plattformbewegungssensor 400 auf, der
mit der Quellenstandortsschätzeinrichtung 406 verbunden
ist.
-
In Übereinstimmung
mit einem Ausführungsbeispiel
der vorliegenden Erfindung ist die Quellenstandortschätzeinrichtung 406 mit
dem Tonverbesserungsprozessor 408 verbunden.
-
Das
Mikrofon-Array 402 besteht aus zwei oder mehreren Mikrofonen 404.
Ein Array von zumindest zwei Mikrofonen kann Ausgangssignale zur
Verfügung
stellen, die zum Schätzen
von sowohl der Dichtung als auch der Distanz einer Tonquelle verwendet
werden können.
-
Der
Plattformbewegungssensor 400 weist zumindest ein Element
aus einem Gyroskop und/oder einem Beschleunigungsmesser auf. Der Plattformbewegungssensor 400 ist
an das Mikrofon-Array 402 oder an irgendein anderes Teil
des portablen Tonverbesserungsgeräts 410 fixiert, das
eine Einheit mit dem Mikrofon-Array 402 ausbildet.
-
Die
Quellenstandortschätzeinrichtung 406 und
der Tonverbesserungsprozessor 408 haben jeweils eine erste
Signalausgangsverbindung und eine zweite Signalausgangsverbindung.
-
Die
Erfindung verwendet das Signal von dem Blattformbewegungssensor 400,
um eine Anzeige der Bewegungen des Mikrofon-Arrays 402 zur
Verfügung
zu stellen. Deshalb ist es notwendig, dass der Sensor 400 und
das Mikrofon-Array 402 derart verknüpft sind, dass das Signal von
dem Sensor 400 sich auf die Bewegung des Mikrofon-Arrays 402 bezieht.
Solch eine Verknüpfung
kann einfach einen Sensor 400 umfassen, der an dem Array 402 angebracht
ist, oder beide sind an dem gleichen Gehäuse angebracht. Deshalb können die
Elemente 406 und 408 in der Tat irgendwo angeordnet
sein, obwohl 4 die Elemente 400, 402, 406 und 408 alle
in einer Einheit zeigt.
-
Ein
System in Übereinstimmung
mit der Erfindung oder die Verfahren der Erfindung können in verschiedenen
portablen Geräten
verwendet werden. Insbesondere ist die Erfindung in portablen Funkkommunikationsgeräten einsetzbar.
Deshalb kann das System in einem mobilen Telefon oder einem portablen
oder mobilen PMR-Funkgerät
verwendet werden. Die Erfindung kann ebenso in einem Handcomputer
(PDA = Personal Digital Assistent) oder einem Laptopcomputer verwendet
werden, die beispielsweise durch eine Funk- oder Infrarotkommunikationsverbindung
mit einem zellularen Netzwerk verbunden sind. Solch ein Netzwerk
kann in einem Gebäude
oder in einem zellularen Telefon- oder UMTS/3G-Netzwerk sein.
-
Die
Erfindung kann einen Teil eines DSR-Systems (DSR = Distributed Speech
Recognition/verteilte Spracherkennung) sein. In solch einem System
würden
einige Sprachverarbeitungen entfernt ausgeführt werden, das heißt, die
Verarbeitung würde
bei zumindest zwei unterschiedlichen Standorten ausgeführt werden.