DE602005006412T2 - Verfahren und Vorrichtung zur Grundfrequenzbestimmung - Google Patents

Verfahren und Vorrichtung zur Grundfrequenzbestimmung Download PDF

Info

Publication number
DE602005006412T2
DE602005006412T2 DE602005006412T DE602005006412T DE602005006412T2 DE 602005006412 T2 DE602005006412 T2 DE 602005006412T2 DE 602005006412 T DE602005006412 T DE 602005006412T DE 602005006412 T DE602005006412 T DE 602005006412T DE 602005006412 T2 DE602005006412 T2 DE 602005006412T2
Authority
DE
Germany
Prior art keywords
pitch
sound
signal
sound source
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005006412T
Other languages
English (en)
Other versions
DE602005006412D1 (de
Inventor
Tetsujiro Kondo
Akihiko Arimitsu
Hiroshi Ichiki
Junichi Shima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of DE602005006412D1 publication Critical patent/DE602005006412D1/de
Application granted granted Critical
Publication of DE602005006412T2 publication Critical patent/DE602005006412T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Stereophonic Arrangements (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

  • Hintergrund der Erfindung
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Ermitteln der Tonhöhe eines Schallquellensignals. Ausführungsformen der vorliegenden Erfindung beziehen sich insbesondere auf ein Verfahren und eine Vorrichtung zum Ermitteln der Tonhöhe eines Audiosignals.
  • 2. Beschreibung der verwandten Technik
  • Verfahren zum Trennen eines Ziel-Schallquellensignals aus einem Audiosignal, welches ein Gemisch aus einer Mehrzahl von Schallquellensignalen ist, sind bekannt. So werden beispielsweise, wie dies in 26 veranschaulicht ist, von drei Personen SPA, SPB und SPC abgegebene Stimmen durch Umsetzeinrichtungen zur Umsetzung von akustischen Signalen in elektrische Signale, wie mittels linker und rechter Stereo-Mikrofone MCL und MCR als Audiosignal aufgenommen, und ein Audiosignal von einer Zielperson wird aus dem aufgenommenen Audiosignal abgetrennt.
  • In JP-A-2001222289 sind beispielsweise für eines der bekannten Schallquellensignal-Trennverfahren eine Audiosignal-Trennschaltung und ein Mikrofon angegeben, welches die Audiosignal-Trennschaltung nutzt. Bei dem angegebenen Verfahren wird eine Mehrzahl von Mischsignalen, deren jedes eine lineare Summe aus einer Mehrzahl von gegenseitig unabhängigen linearen Schallquellensignalen enthält, rahmenmäßig aufgeteilt und die inversen Größen von Mischungsmatrizen, welche eine Korrelation aus einer Mehrzahl von durch die Trennschaltung getrennten Signalen in Verbindung mit einer Null-Verzögerung minimieren, werden auf einer Rahmenbasis multipliziert. Ein Original-Sprachsignal wird so aus dem Gemischsignal getrennt.
  • In JP-A-7028492 ist eine Schallquellensignal-Schätzvorrichtung zum Abschätzen einer Zielschallquelle angegeben. Die Schallquellensignal-Schätzeinrichtung dient zur Verwendung beim Extrahieren eines Ziel-Audiosignals unter einer geräuschvollen Umgebung.
  • Eine Tonhöhe eines Zielschalls wird bestimmt, um ein Schallquellensignal zu trennen. Als Verfahren zum Ermitteln einer Tonhöhe sind in JP-A-2000181499 ein Audiosignal-Analyseverfahren, eine Audiosignal-Analysevorrichtung, ein Audiosignal-Verarbeitungsverfahren und eine Audiosignal-Verarbeitungsvorrichtung angegeben worden. Entsprechend der Offenbarung wird ein Eingangssignal, welches jeweils eine bestimmte zeitliche Dauer aufweist, je Rahmen einer Doppelbegrenzung unterzogen, ferner wird eine Frequenzanalyse je Rahmen vorgenommen und auf der Grundlage des Frequenzanalyseergebnisses im jeweiligen Rahmen wird eine Oberwellenkomponentenwertung vorgenommen. Eine Oberwellenkomponentenwertung wird auf eine Zwischenrahmendifferenz in der Amplitude des Frequenzanalyseergebnisses im jeweiligen Rahmen vorgenommen. Die Tonhöhe des Eingangssignals wird somit unter Heranziehung des Ergebnisses der Oberwellenkomponentenwertung ermittelt.
  • Mikrofone in einer größeren Anzahl als Schallquellen sind erforderlich, um eine Vielzahl von Schallquellen zu trennen. Die Verwendung einer Vielzahl von Mikrofonen wird tatsächlich untersucht. So ist beispielsweise in JP-A20001222289 angegeben, dass die Trennung eines Schallquellensignals von mehr als drei oder mehr Schallquellen unter Verwendung von zwei Mikrofonen schwierig ist. In JP-A-7028492 ist ein Verfahren zum Extrahieren eines Audiosignals von einer Ziel-Schallquelle unter Verwendung einer Vielzahl von Mikrofonen (einer Mikrofonreihe) angegeben. Entsprechend diesen angegebenen Verfahren ist eine Vielzahl von Mikrofonen erforderlich, deren Anzahl größer ist als die der Schallquellen, um ein Ziel-Schallquellensignal aus einem Gemischsignal zu trennen, bestehend aus einer Vielzahl von Schallquellensignalen.
  • Entsprechend den bekannten Verfahren weisen Stereo-Mikrofone, die in einem mobilen audiovisuellen-AV-Gerät, wie in einer Videokamera verwendet werden, die Schwierigkeit auf, drei oder mehr Schallquellensignale zu trennen.
  • Wenn eine Tonhöhe eines Zielschalls vor der Trennung der Schallquellensignale bestimmt wird, ist die Tonhöhendetektierung vorzugsweise dienlich für die Trennung der Schallquellensignale.
  • Der Artikel von Liu C und anderen "A targeting-and-extracting technique to enhance hearing in the presence of competing speech"- "Ein Ziel- und Extrahierverfahren zur Verbesserung des Hörens bei Vorhandensein von konkurrierender Sprache"-Journal of the Acoustical Society of America, American Institute of Physics, New York, US, Vol. 101, Nr. 5, Teil 1, Mai 1997 (1997-05), Seiten 2877–2891, XP000658823: ISSN 0001-4966 bezieht sich auf Zielerfassungs- und Extrahierverfahren für eine Sprachverbesserung in Hörhilfen bei Vorhandensein von Hintergrundgeräusch. Dabei wird eine Zweistufenlösung angegeben, die eine Zielerfassung durch eine festliegende Strahlbildungsanordnung gefolgt von einem Nach-Zielerfassungs-Extrahierschritt umfasst. Eine Anhebung wird bei dem Extrahierschritt vorgenommen, der auf der Grundlage der akustischen Differenz zwischen der gewünschten Sprache und der Störsprache eine Geräuschaufhebung ausführt. Eine Konus- bzw. Kegelfilterung oder -dämpfung wird bei dem Signal auf der Grundlage der Grund-Tonhöhenfrequenz der gewünschten Sprache angewandt.
  • Zusammenfassung der Erfindung
  • Gemäß der Erfindung werden ein Tonhöhen-Detektor, wie er im Anspruch 1 angegeben ist, und ein und Tonhöhen-Detektierverfahren bereitgestellt, wie es im Anspruch 3 angegeben ist. Eine bevorzugte Ausführungsform ist im Anspruch 2 angegeben.
  • Kurze Beschreibung der Zeichnungen
  • Die vorliegende Erfindung wird unter Bezugnahme auf bevorzugte Ausführungsformen, die in den beigefügten Zeichnungen veranschaulicht sind, lediglich beispielhaft beschrieben. In den Zeichnungen zeigen:
  • 1 ein Blockdiagramm einer Schallquellensignal-Trennvorrichtung gemäß einem Beispiel,
  • 2 ein Blockdiagramm eines Tonhöhen-Detektors bei einer Ausführungsform der vorliegenden Erfindung.
  • 3 ein Blockdiagramm einer Verzögerungs-Korrektur- und Summiereinheit bei einer Ausführungsform der vorliegenden Erfindung,
  • 4 einen Audiosignalverlauf, der eine Operation der Verzögerungs-Korrektur- und Summiereinheit bei der Ausführungsform der vorliegenden Erfindung veranschaulicht,
  • 5 ein Wellenform-Diagramm des Audiosignals längs der Zeitachse entsprechend einer Ausführungsform der vorliegenden Erfindung,
  • 6 ein Spektrum des Audiosignals gemäß 5 längs einer Frequenzachse,
  • 7 eine Wellenform des Audiosignals längs der Zeitachse bei einer Tonhöhenfrequenz von etwa 650 Hz,
  • 8 ein Spektrum des Audiosignals gemäß 7 längs einer Frequenzachse,
  • 9 eine Wellenform des Audiosignals längs der Zeitachse bei einer Tonhöhenfrequenz von etwa 580 Hz,
  • 10 ein Spektrum des Audiosignals gemäß 9 längs der Frequenzachse,
  • 11A bis 11D eine Audiosignal-Wellenform, die den Grund dafür veranschaulicht, warum die Tonhöhen-Detektierung mit zwei Wellenlängen ausgeführt wird, die als eine Detektiereinheit dienen,
  • 12 ein Ablaufdiagramm, in welchem ein Tonhöhen-Detektierprozess gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht ist,
  • 13 ein Wellenformdiagramm, welches einen maximalen Spitzenwert und einen minimalen Spitzenwert der Audiosignal-Wellenform veranschaulicht,
  • 14 eine Auflistung von Informationen, die je Tonhöhen-Detektiereinheit erhalten werden, wobei die Tonhöhen-Detektiereinheit zwei Wellenlängen beträgt,
  • 15 Frequenzcharakteristiken eines Trennfilters mit einem Filterkoeffizienten, der unter Heranziehung eines Trenn-Filterkoeffizientengenerators erzeugt ist,
  • 16 einen Filterkoeffizienten, der durch den Trenn-Koeffizientengenerator erzeugt ist,
  • 17 ein Blockdiagramm, in welchem eine Tonquellensignal-Trennvorrichtung gemäß einem Beispiel veranschaulicht ist,
  • 18 einen statischen Bereich eines Filterkoeffizienten, der in einem erweiterten Bereich längs der Zeitachse angewandt wird,
  • 19 eine spezifische Signal-Wellenform längs der Zeitachse,
  • 20 ein Blockdiagramm, in welchem eine weitere Schallquellensignal-Trennvorrichtung gemäß einem Beispiel veranschaulicht ist,
  • 21A bis 21C eine Beziehung zwischen einem Stetigkeits-Bestimmungsbereich und einer Sprecherbestimmung,
  • 22 ein Blockdiagramm, in welchem die Schallquellensignal-Trennvorrichtung veranschaulicht ist,
  • 23 ein Signal- bzw. Wellenformdiagramm, in welchem eine Grundwellenform veranschaulicht ist, die durch einen Grundwellenform-Generator erzeugt wird,
  • 24 ein Wellenformdiagramm, in welchem eine Wiederholung der Grundwellenform veranschaulicht ist, die für einen Ersatz mittels einer Grundwellenform-Ersatzeinheit dient,
  • 25 ein Ablaufdiagramm, in welchem ein Schallquellensignal-Trennverfahren gemäß einem Beispiel veranschaulicht ist, und
  • 26 ein spezifisches Beispiel von Stereo-Mikrofonen mit drei Personen, die als Schallquellen dienen.
  • Beschreibung der bevorzugten Ausführungsformen
  • Nachstehend werden die Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen beschrieben.
  • 1 veranschaulicht den Aufbau einer Schallquellensignal-Trennvorrichtung gemäß einem Beispiel.
  • Wie in 1 veranschaulicht, wird an einem Eingangsanschluss 11 ein Eingangs- bzw. Audiosignal empfangen, welches durch Mikrofone aufgefangen ist, nämlich ein durch Stereo-Mikrofone aufgefangenes stereophones Audiosignal. Das Audiosignal wird zu einem Tonhöhen-Detektor 12 und einem Verzögerungs-Korrektur-Addierer 13 hin geleitet, die als Schallquellensignal-Verbesserungseinheit zur Verbesserung eines Ziel-Schallquellensignals dienen. Ein Ausgangssignal von dem Tonhöhen-Detektor 12 wird einem Trenn-Koeffizientengenerator 14 in einer Schallquellensignal-Trennvorrichtung 19 zugeführt, während ein Ausgangssignal von dem Verzögerungs-Korrektur-Addierer 13 erforderlichenfalls einer Filter-Berechnungseinheit 15 in der Schallquellensignal-Trennvorrichtung 19 über ein (Tiefpass)-Filter 20A zugeführt wird, welches eine Frequenzkomponente im mittleren bis unteren Frequenzband abgibt. Die Filter-Berechnungsschaltung 15 trennt einen gewünschten Zielschall ab. Jedes Mal, wenn eine durch den Tonhöhen-Detektor 12 ermittelte Tonhöhe aktualisiert wird, erzeugt der Trenn-Filterkoeffizientengenerator 14, der als Trenn-Filterkoeffizienten-Abgabeeinrichtung dient, einen Filterkoeffizienten auf die ermittelte Tonhöhe hin, und gibt den erzeugten Filterkoeffizienten an die Filter-Berechnungsschaltung 15 ab. Das Ausgangssignal von dem Verzögerungs-Korrektur-Addierer 13 wird erforderlichenfalls ebenfalls einem Prozessor 17 für einen Bereich hoher Frequenz über ein (Hochpass)-Filter 20B zugeführt, welches bewirkt, dass eine Komponente hoher Frequenz dadurch hindurchgelangt. Der Prozessor 17 für den Bereich hoher Frequenz verarbeitet nicht dauerhafte Wellenformsignale, wie Konsonanten. Ein Ausgangssignal von der Filter-Berechnungsschaltung 15 und ein Ausgangssignal von dem Prozessor 17 für den Bereich hoher Frequenz werden durch einen Addierer 16 summiert, und die resultierende Summe wird dann von einem Ausgangsanschluss 18 als abgetrenntes Wellenform-Ausgangssignal abgegeben.
  • In einer solchen Schallquellensignal-Trennvorrichtung detektiert der Tonhöhen-Detektor 12 die Tonhöhe (den Grad der Höhe) eines Dauer- bzw. Stetigkeitsbereichs des Audioschalls, in welchem dieselbe oder etwa dieselbe Tonhöhe, wie als Vokal fortgesetzt auftritt. Der Tonhöhen-Detektor 12 gibt erforderlichenfalls die ermittelte Tonhöhe und außerdem eine Information ab, welche den Dauer- bzw. Stetigkeitsbereich (beispielsweise eine Koordinateninformation längs der Zeitachse, welche eine fortgesetzte Dauer des Dauer- bzw. Stetigkeitsbereichs repräsentiert) ab. Der Verzögerungs-Korrektur-Addierer 13 dient als Schallquellensignal-Verbesserungseinrichtung zur Verbesserung eines Ziel-Schallquellensignals. Der Verzögerungs-Korrektur-Addierer 13 fügt eine Zeitverzögerung einem Signal von jedem der Mikrofone entsprechend einer Differenz in einer Ausbreitungs-Verzögerungszeit von jeder der Schallquellen zu jedem der Vielzahl von Mikrofonen (2 Mikrofone im Falle eines stereofonen Systems) hinzu und summiert die hinsichtlich der Verzögerung korrigierten Signale. Das Signal von einer Ziel-Schallquelle wird somit verstärkt, und das Signal von der anderen Schallquelle wird gedämpft. Dieser Prozess wird später detaillierter erörtert. Der Trenn-Filterkoeffizientengenerator 14 erzeugt den Filterkoeffizienten, um das Signal von der Ziel-Schallquelle entsprechend der durch den Tonhöhen-Detektor 12 ermittelten Tonhöhe zu trennen. Der Trenn-Filterkoeffizientengenerator 14 wird ebenfalls später detaillierter erörtert. Die Filter-Berechnungsschaltung 15 führt einen Filterungsprozess bezüglich eines Signals aus, welches von dem Verzögerungs-Korrektur-Addierer 13 (erforderlichenfalls über das Filter 20A) abgegeben ist, und zwar unter Heranziehung des Filterkoeffizienten von dem Trenn-Filterkoeffizientengenerator 14, um das Schallquellensignal von der Ziel-Schallquelle zu trennen. Der Prozessor 17 für den Bereich hoher Frequenz führt einen bestimmten Prozess bezüglich des Ausgangssignals, wie bezüglich eines nicht ständigen Signalverlaufs, der einen Konsonanten enthält, von dem Verzögerungs-Korrektur-Addierer 13 (erforderlichenfalls über das Hochpass-Filter 20B) aus. Das Ausgangssignal des Prozessors 17 für den Bereich hoher Frequenz wird an den Addierer 16 abgegeben. Der Addierer 16 addiert ein Ausgangssignal von der Filter-Berechnungsschaltung 15 zu einem Ausgangssignal von dem Prozessor 17 für den Bereich hoher Frequenz, um dadurch ein abgetrenntes Ausgangssignal des Zielschalls an einem Ausgangsanschluss 18 abzugeben.
  • 2 veranschaulicht den Aufbau des Tonhöhen-Detektors 12. An einem Eingangsanschluss 21, der dem stereophonen Audioeingang 11 gemäß 1 entspricht, wird ein stereophones Audio-Eingangssignal empfangen, welches durch die Stereo-Mikrofone aufgenommen ist. Das Audiosignal wird einem Verzögerungs-Korrektur-Addierer 23 über ein Tiefpassfilter (TPF) 22 zugeführt, welches einen Durchlass eines Vokalbandes ermöglicht, bei dem eine Tonhöhe dauerhaft wiederholt ist. Wie später erörtert, führt der Verzögerungs-Korrektur-Addierer 23 auf das Audiosignal hin einen Richtungs-Steuerungsprozess zur Verbesserung des Signals von der Ziel-Schallquelle aus. Ein Ausgangssignal von dem Verzögerungs-Korrektur-Addierer 23 wird einem Maximalwert-zu-Maximalwert-Tonhöhen-Detektor 26 über einen Spitzenwert-Detektor 24 und einen Maximalwert-Detektor 25 zur Ermittlung des Maximalwertes der Spitzenwerte zwischen Nulldurchgangspunkten zugeführt. Ein Ausgangssignal von Maximalwert-zu-Maximalwert-Tonhöhen-Detektor 26 wird einer Stetigkeits-Bestimmungseinrichtung 27 zugeführt. Von einem Anschluss 28 wird ein repräsentatives Tonhöhen-Ausgangssignal abgegeben, und von einem Anschluss 29 wird ein Koordinaten-(Zeit)-Ausgangssignal abgegeben, welches kennzeichnend ist für eine Dauer eines stetigen Bereiches.
  • Der Grundaufbau des Verzögerungs-Korrektur-Addierers 13 gemäß 1 und des Verzögerungs-Korrektur-Addierers 23 gemäß 2 wird unten jeweils unter Bezugnahme auf 3 beschrieben. Wie in 3 veranschaulicht, werden Signale von einem linken Mikrofon MCL und einem rechten Mikrofon MCR den Verzögerungsschaltungen 32L bzw. 32R zugeführt, die aus Pufferspeichern bestehen und linke bzw. rechte stereophone Audiosignale verzögern. In dem Verzögerungs-Korrektur-Addierer 23 gemäß 2 werden die linken und rechten stereophonen Audiosignale durch das Tiefpassfilter 22 für die Hindurchleitung des Vokalbandes hindurchgeleitet, bevor sie den Verzögerungsschaltungen 32L und 32R zugeführt werden. Die verzögerten Signale von den Verzögerungsschaltungen 32R und 32L werden mittels eines Addierers 34 summiert, und die Summe wird dann von einem Ausgangsanschluss 35 als hinsichtlich der Verzögerung korrigiertes Summensignal abgegeben. Erforderlichenfalls werden die durch die Verzögerungsschaltungen 32R und 32L verzögerten Signale einem Subtraktionsprozess mittels eines Subtrahierers 36 unterzogen, und die resultierende Differenz wird von einem Ausgangsanschluss 37 als ein hinsichtlich der Verzögerung korrigiertes Differenzsignal abgegeben.
  • Durch den Verzögerungs-Korrektur-Addierer mit dem in 3 gezeigten Aufbau wird das Audiosignal von der Zielquelle verbessert, um das Audiosignal zu extrahieren, während die anderen Signalkomponenten gedämpft werden. Wie in 3 veranschaulicht, sind eine linke Schallquelle SL, eine mittlere Schallquelle SC und eine rechte Schallquelle SR in Bezug auf die Stereo-Mikrofone MCL und MCR angeordnet. Die rechte Schallquelle SR ist als eine Ziel-Schallquelle festgelegt. Wenn von der rechten Schallquelle SR ein Schall abgegeben wird, nimmt das Mikrofon MCL, welches von der rechten Schallquelle SR weiter weg vorgesehen ist, den Schall mit einer Verzögerungszeit τ auf, und zwar wegen einer Schallausbreitungsverzögerung in der Luft im Vergleich zu dem Mikrofon MCR, welches näher bei der rechten Schallquelle SR vorgesehen ist. Ein Betrag der Verzögerung in der Verzögerungsschaltung 32L ist bzw. wird so festgelegt, dass er um eine Zeitspanne τ größer bzw. die Verzögerung länger ist als der Verzögerungsbetrag bzw. die Verzögerung in der Verzögerungsschaltung 32R. Wie in 4 veranschaulicht, führen die hinsichtlich der Verzögerung korrigierten Ausgangssignale von den Verzögerungsschaltungen 32L und 32R zu einem höheren Korrelationsfaktor in Verbindung mit dem Zielschall von der rechten Schallquelle SR (um mehr in der Phase zu sein). Bezüglich der anderen Schallsignale ist der Korrelationsfaktor niedriger bzw. abgesenkt (die Phase liegt weiter auseinander). Falls die mittlere Schallquelle SC als Zielquelle festgelegt ist, wird ein von der mittleren Schallquelle SC abgegebener Schall gleichzeitig von den Mikrofonen MCL und MCR (ohne irgendeine einbezogene Verzögerungszeit) aufgenommen. Die Verzögerungszeiten der Verzögerungsschaltung 32L und der Verzögerungsschaltung 32R sind einander gleich festgelegt, und der Korrelationsfaktor des Zielschalls der mittleren Schallquelle SC ist somit erhöht, während der Korrelationsfaktor der anderen bzw. übrigen Signale verringert ist. Durch Einstellen der Beträge der Verzögerung in jeder der Verzögerungsschaltungen 32L und 32R wird der Korrelationsfaktor des Schalls lediglich der Ziel-Schallquelle erhöht.
  • Der Addierer 34 summiert die Verzögerungs-Ausgangssignale von der Verzögerungsschaltung 32L und der Verzögerungsschaltung 32R, wodurch lediglich das Audiosignal mit einem höheren Korrelationsfaktor verbessert wird. In dem Vokalteil mit einem wiederholten Signal- bzw. Wellenformverlauf werden in der Phase ausgerichtete Segmente für die Verbesserung summiert, während in der Phase nicht ausgerichtete Segmente bedämpft werden. Das Signal allein mit dem intensivierten oder verbesserten Zielschall wird somit von dem Ausgangsanschluss 35 abgegeben. Wenn die Subtrahiereinrichtung 36 eine Subtraktionsoperation bezüglich der verzögerten Ausgangssignale von den Verzögerungsschaltungen 32L und 32R ausführt, werden die in der Phase ausgerichteten Segmente voneinander subtrahiert, und lediglich der Schall von der Ziel-Schallquelle wird bedämpft. Damit wird von dem Ausgangsanschluss 37 ein Signal abgegeben, in welchem lediglich der Zielschall bedämpft ist.
  • Nunmehr wird der Korrelationsfaktor beschrieben. Der hinsichtlich der Verzögerung korrigierte Signalverlauf bringt, wie oben beschrieben, einen höheren Grad an Signalverlaufsübereinstimmung mit sich, während der andere Signalverlauf, dessen Phase sich außerhalb einer Ausrichtung befindet, einen niedrigen Grad an Signalverlaufsübereinstimmung mit sich bringt. Der Korrelationsfaktor "cor", der den Grad bzw. das Maß einer Signalverlaufsübereinstimmung darstellt, wird unter Heranziehung von Gleichung (1) bestimmt:
    Figure 00090001
    m1 und m2 stellen Mittelwerte dar.
  • Hierin geben m1 und m2 Zeit-Abtastproben der Mikrofone MCL und MCR an, und S1 und S2 sind Standard-Abweichungen. Die Gleichung (1) bestimmt einen Korrelationsfaktor cor von n Paaren von Abtastproben (m11, m21), (m12, m22) ... (m1n, m2n).
  • Nachstehend wird eine Tonhöhen-Detektieroperation des Tonhöhen-Detektors 12 beschrieben. In 2 ist der Aufbau des Tonhöhen-Detektors 12 veranschaulicht. Das Signal von den Mikrofonen MCL und MCR ist ein Gemisch aus dem Ziel-Audiosignal und anderen Audiosignalen, wie dies in 5 veranschaulicht ist. Wie in 5 dargestellt, repräsentiert ein voll ausgezogener Signalverlauf einen tatsächlich erhaltenen Signalverlauf, während ein gestrichelt dargestellter Signalverlauf den Signalverlauf des Zielschalls repräsentiert. Sogar dann, wenn der Richtwirkungs-Steuerungsprozess durch die Verzögerungskorrektur und den Summierprozess durchgeführt wird, um den Zielschall zu verbessern, ist der andere Schall dennoch vorhanden. Der Zielschall und die anderen Schallsignale treten somit gemeinsam auf. Wie in 5 veranschaulicht, ist der Signalverlauf des durch die gestrichelte Linie dargestellten Zielschalls regelmäßig mit wenigen Änderungen in der Amplitudenrichtung (Pegelrichtung), während der durch die voll ausgezogene Linie dargestellte Gemisch-Signalverlauf in der Pegelrichtung variiert. Der Vergleich des Gemisch-Signalverlaufs mit dem Zielschall-Signalverlauf zeigt keine Korrelation in der Pegelrichtung; das Gemischsignal und der Zielschall stimmen jedoch im Spitzenintervall in der Zeitrichtung überein.
  • Falls der Signalverlauf gemäß 5 im Spektrum aufgetragen wird, führt dies zu einem Kurvenbild, wie es in 6 dargestellt ist. Das Audiosignal enthält Oberwellen einer Grundfrequenz Fx. Das Grundsignal Fx entspricht einer Tonhöhe, welche die Höhe eines Schalls darstellt und die außerdem als Tonhöhenfrequenz bezeichnet wird. Falls die Dauer zwischen zwei benachbarten Spitzen in dem in 5 dargestellten Signal- bzw. Wellenformdiagramm als eine Periode Tx (eine Wellenlänge λx) bezeichnet wird, ist das Grundsignal Fx gleich dem Reziprokwert der Periode Tx, nämlich Fx = 1/Tx. Wie in 6 veranschaulicht, tritt ein Spitzenwert an einer Stelle einer Frequenz von 2Fx, dem Zweifachen der Tonhöhenfrequenz Fx auf, und Spitzenwerte treten in typischer Weise an Stellen eines ganzzahligen Vielfachen der Frequenz Fx auf.
  • Der tatsächliche Signalverlauf enthält eine Welle mit einer Wellenlänge, die größer ist als die Tonhöhenperiode Tx (Tonhöhen-Wellenlänge λx), und zwar entsprechend der Dauer zwischen den benachbarten Spitzenwert-Intervallen. Insbesondere ist eine Komponente, die eine Tonhöhenperiode Ty (= 2Tx) vom Zweifachen der Tonhöhenperiode Tx aufweist, nämlich eine Komponente mit einer Frequenz Fy (= Fx/2), der halben Tonhöhenfrequenz Fx, relativ stark, wie dies in dem Spektraldiagramm gemäß 6 veranschaulicht ist. Die Komponente mit der 1/2 Tonhöhenfrequenz Fy (= Fx/2) ist in gewöhnlichen Audiosignalen ebenfalls relativ stark. Die Komponente mit der halben Frequenz Fy wird offensichtlich in dem Audiosignal einer Tonhöhenfrequenz Fx von etwa 650 Hz erkannt, wie dies in 7 und 8 veranschaulicht ist, und in dem Audiosignal mit einer Tonhöhenfrequenz Fx von etwa 580 Hz, wie dies in 9 und 10 veranschaulicht ist. In 7 und 9 sind die Audiosignale längs der Zeitachse dargestellt, und in 8 und 10 ist das Spektrum der Audiosignale längs der Frequenzachse dargestellt.
  • 11A bis 11D zeigen, wie eine Komponente mit der Tonhöhenfrequenz Fx mit einer Komponente synthetisiert wird, welche die Tonhöhenfrequenz Fy aufweist, welche halb so groß ist wie die Tonhöhenfrequenz Fx. 11A veranschaulicht einen Grund-Signalverlauf bzw. eine Grundwellenform (wie eine sinusförmige Welle) mit der Tonhöhenfrequenz Fx, und 11B zeigt einen Grund-Signalverlauf Fy mit der halben Tonhöhenfrequenz Fx. Wenn die beiden Komponenten synthetisiert werden, wie dies in 11C veranschaulicht ist, tritt eine Änderung alle zwei Wellenlängen auf. Wie in 11D veranschaulicht, wird beispielsweise ein ähnlicher Signalverlauf alle zwei Wellenlängen wiederholt. Falls das Intervall zwischen zwei benachbarten Spitzen als Periode festgelegt ist, treten die Änderungen abwechselnd auf, was eine stabile Tonhöhendetektierung schwierig macht.
  • Gemäß einer Ausführungsform der vorliegenden Erfindung wird eine Periode Ty, die zwei Mal so lang ist wie die Periode Tx, zwischen Spitzenwerten (Tonhöhen-Wellenlänge λx) als Einheit bei der Tonhöhen-Detektierung verwendet. Falls der Spitzenwert alle zwei Wellenlängen ermittelt wird, wird die Tonhöhen-Detektierung bei jedem Spitzenwert vorgenommen, der eine entsprechende bzw. ähnliche Form aufweist, und ein Fehler neigt dazu, kleiner zu werden. Sogar dann, wenn die Zeit des Beginns der Tonhöhen-Detektierung um eine Wellenlänge verschoben wird bzw. ist, sind die Ergebnisse statistisch dieselben. Andere ganzzahlige Vielfache von Wellenlängen, wie vier Wellenlängen, sechs Wellenlängen, acht Wellenlängen, ... können als Spitzenwert-Detektierintervall genutzt werden. Falls beispielsweise der Spitzenwert alle vier Wellenlängen ermittelt wird, ist jedoch der Fehlerpegel verringert. Ein Nachteil mit den vier Wellenlängen besteht in der erhöhten Anzahl von Abtastproben.
  • Nachstehend wird unter Bezugnahme auf 12 die Tonhöhen-Detektieroperation beschrieben. Wie in 12 dargestellt, wird beim Schritt S41 ein stereophones Audiosignal eingegeben. Beim Schritt S42 wird das Eingangssignal einer Tiefpassfilterung unterzogen. Beim Schritt S43 wird ein Richtwirkungs-Prozess in einer Verzögerungs-Korrektur- und Summieroperation ausgeführt. Diese Schritte entsprechen der Eingabe von dem Eingangsanschluss 21 (Eingangsanschluss 11), dem Prozess des Tiefpassfilters 22 und dem Prozess des Verzögerungs-Korrektur-Addierers 23, wie in 2 veranschaulicht.
  • Beim Schritt S44 ermittelt der Spitzenwert-Detektor 24 einen Maximal-Spitzenwert. Bei diesem Schritt werden lokale Spitzenwerte, die durch den Buchstaben X in einem in 13 dargestellten Signalverlaufsdiagramm angegeben sind, bestimmt. Positive Spitzen (maximale Spitzenwerte) und negative Spitzen (minimale Spitzenwerte) sind dargestellt. Bei dieser Ausführungsform werden die positiven Spitzen bzw. Spitzenwerte (maximale Spitzenwerte) genutzt. Die positiven Spitzen bzw. Spitzenwerte werden dadurch bestimmt, dass ein Punkt ermittelt wird, an dem die Änderungsrate in dem Abtastwert des Signalverlaufs sich von einer Zunahme zu einer Abnahme längs der Zeitachse ändert. Koordinaten (Lagen) des jeweiligen Abtastpunktes des Signalverlaufs sind beispielsweise durch Abtastprobenzahlen dargestellt. So sei beispielsweise mit d(n) ein Abtastwert an einem Abtastpunkt "n" (mit einer Abtastanzahl "n") bezeichnet, und mit "th" sei ein Schwellwert in der Differenz zwischen aufeinanderfolgenden Abtastwerten längs der Zeitachse bezeichnet, womit die folgende Gleichung (2) gilt: d(n) – d(n – 1) > th und d(n + 1) – d(n) < –th (2)
  • Hierin stellt der Punkt "n" einen maximalen Spitzen- bzw. Spitzenwertpunkt dar, und der Abtastwert beim Punkt "n" ist der maximale Spitzenwert.
  • Beim Schritt S45 ermittelt der Maximalwert-Detektor 25 gemäß 2 den Maximalwert der beim Schritt S44 bestimmten maximalen Spitzenwerte zwischen Nulldurchgangspunkten mit einem positiven Wert. Genauer gesagt bestimmt der Maximalwert-Detektor 25 den maximalen einen Wert der maximalen Spitzenwerte, die innerhalb eines Bereiches von einem Nulldurchgangspunkt, bei dem der Abtastwert des Signalverlaufs sich von einem negativen zu einem positiven Wert ändert, bis zum nächsten Nulldurchgangspunkt, bei dem sich der Abtastwert des Signalverlaufs vom positiven zum negativen Wert ändert, vorhanden sind. Die Koordinate des Maximalwertes der maximalen Spitzenwerte (der Lage des Abtastpunktes und der Abtastprobenanzahl) zwischen Nulldurchgangspunkten wird aufgezeichnet.
  • Beim Schritt S46 ermittelt der Maximalwert-Maximalwert-Tonhöhen-Detektor 26 ein Intervall zwischen einem ersten Maximalwert und einem zweiten Maximalwert der maximalen Spitzenwerte, die beim Schritt S45 ermittelt sind, nämlich eine Tonhöhe alle zwei Maximalwerte (gleich zwei Wellenlängen). Mit anderen Worten ausgedrückt heißt dies, dass die Tonhöhen-Detektierung alle zwei Wellenlängen ausgeführt wird. Die Tonhöhen-Detektierung bedeutet eine Ermittlung der Periode Ty (= 2Tx). Die ermittelte Periode Ty (oder die Frequenz Fy = 1/Ty) wird anstelle der ursprünglichen Tonhöhen-Periode Tx oder der ursprünglichen Tonhöhenfrequenz Fx genutzt. Wenn die Koordinate des Abtastpunktes des Signalverlaufs durch die Abtastprobenanzahl ausgedrückt wird, wird die in der Tonhöhen-Detektierung bestimmte Periode Ty durch die Anzahl von Abtastproben (einer Differenz zwischen Abtastnummern bzw. -zahlen) ausgedrückt. Werden mit max1 die Koordinate (Abtastprobennummer) des ersten Maximalwertes und mit max3 die Koordinate des dritten Maximalwertes angegeben, so gilt die folgende Gleichung (3): Ty = max3 – max1 (3)
  • Der Schritt S47 und nachfolgende Schritte entsprechen dem Prozess, der durch die Stetigkeits-Bestimmungseinrichtung 27 ausgeführt wird. Beim Schritt S47 werden Tonhöhen vor und nach der Tonhöhen-Detektierintervalleinheit miteinander verglichen. In diesem Fall kann die Tonhöhenperiode Tx aus Ty/2 bestimmt werden. Alternativ kann die bei dem Tonhöhen-Detektierprozess ermittelte Periode Ty so genutzt werden, wie sie ist. Das Verhältnis "r" der Tonhöhe (oder der Periode Ty) einer Tonhöhen-Detektiereinheit zu jener einer nächsten Tonhöhen-Detektiereinheit wird bestimmt. So wird beispielsweise die Periode Ty der beiden Wellenlängen herangezogen, und Ty(n) möge die Zwei-Wellenlängen-Periode der gegenwärtigen Tonhöhen-Detektiereinheit "n" darstellen; das Tonhöhenverhältnis r (hier das Verhältnis der Periode Ty) wird durch folgende Gleichung (4) ausgedrückt: r(n) = Ty(n)/Ty(n – 1) (4)
  • 14 zeigt eine Tabelle, in der die Ergebnisse des Tonhöhen-Detektierprozesses aufgelistet sind, der bezüglich des in 5 dargestellten Signalverlaufs durchgeführt ist. Wie in 14 veranschaulicht, wird die Zwei-Wellenlängen-Periode aufeinanderfolgend von einer ersten Tonhöhen-Detektiereinheit detektiert. Die ermittelten Perioden sind mit Ty(1), Ty(2), Ty(3), ... bezeichnet. In der Tabelle ist die Periode Ty aufgelistet, die die beiden Wellenlängen besitzt, welche in jeder Tonhöhen-Detektiereinheit ermittelt werden, die durch die Anzahl von Abtastproben, das Verhältnis "r" und einem Stetigkeits-Bestimmungskennzeichen bzw. -Flags dargestellt ist, was später erörtert wird.
  • Beim Schritt S48 wird ein stetiger Bereich mit stabilen Tonhöhen-Verhältnissen "r" (dem Verhältnis der Periode Ty) aus jenen bestimmt, die beim Schritt S47 bestimmt sind. Beim Schritt S48 wird bestimmt, ob der Absolutwert |Δr| (= |1 – r|) einer Änderungsrate des Verhältnisses "r" kleiner ist als ein bestimmter Schwellwert th_r. Falls bestimmt wird, dass der Absolutwert |Δr| kleiner ist als der Schwellwert th_r (das heißt JA vorliegt), geht die Verarbeitung weiter zum Schritt S49. Das Stetigkeits-Bestimmungskennzeichen bzw. -Flag wird (auf 1) festgelegt, oder ein Zähler zum Zählen der stetigen Bereiche mit den stabilen Tonhöhen zählt hoch. Falls beim Schritt S48 bestimmt wird, dass der Absolutwert |Δr| der Änderungsrate des Verhältnisses "r" größer als der Schwellwert th_r oder gleich diesem ist (das heißt NEIN vorliegt), geht die Verarbeitung weiter zum Schritt S50. Das Stetigkeits-Bestimmungskennzeichen bzw. -Flag wird zurückgesetzt (auf 0). Der bestimmte Schwellwert th_r ist beispielsweise gegeben mit 0,05. Wie in 14 veranschaulicht, beträgt in der Detektiereinheit, bei der Ty(2) ermittelt wird, das Verhältnis "r" 1,00, und der Absolutwert |Δr| beträgt 0. Das Kennzeichen bzw. Flag ist somit 1. Bei der Detektiereinheit, bei der Ty(3) ermittelt wird, ist das Verhältnis "r" gegeben mit 0,97, und der Absolutwert |Δr| beträgt 0,03. Damit ist das Flag gegeben mit 1. Bei der Detektiereinheit, bei der Ty(n) ermittelt wird, ist das Verhältnis "r" gegeben mit 0,7, und der Absolutwert |Δr| ist gegeben mit 0,3. Damit ist das Flag gegeben mit 0.
  • Beim Schritt S51 wird bestimmt, ob die ermittelten Tonhöhen (oder die ermittelten Perioden Ty) eine Kontinuität bzw. Stetigkeit zeigen. Falls das Stetigkeits-Bestimmungskennzeichen bzw. -Flag, das beim Schritt S49 gesetzt wird, fünf Mal oder öfter aufeinanderfolgend gezählt wird, wird bestimmt, dass eine Stetigkeit vorliegt. Die ermittelte Tonhöhe (oder die Periode Ty) wird somit als wirksam bestimmt. So verbleibt beispielsweise, wie in 14 veranschaulicht, das Flag aufeinanderfolgend bei 1 von der Periode Ty(2) bis zur Periode Ty(6), wobei die ermittelten Tonhöhen wirksam sind. Eine repräsentative Tonhöhe, wie ein Mittelwert der Tonhöhen bei den Perioden Ty(2) bis Ty(6) wird somit abgegeben.
  • Falls beim Schritt S51 bestimmt wird, dass eine Stetigkeit vorliegt (das heißt JA vorliegt), geht die Verarbeitung weiter zum Schritt S52. Die Koordinate (Zeit) des Stetigkeitsbereiches, über den dieselbe oder etwa dieselbe Tonhöhe längs der Zeitachse wiederholt wird, wird abgegeben. Beim Schritt S53 wird die repräsentative Tonhöhe (der Mittelwert der Periode Ty innerhalb der Stetigkeitsdauer) abgegeben, und die Verarbeitung wird somit beendet. Falls beim Schritt S51 bestimmt wird, dass keine Kontinuität bzw. Stetigkeit beobachtet wird (das heißt NEIN vorliegt), wird die Verarbeitung beendet. Durch Wiederholen des in 12 dargestellten Prozesses wird die Tonhöhen-Detektierung bezüglich des eingangsseitigen Signalverlaufs aufeinanderfolgend ausgeführt.
  • Zusammenfassend werden zumindest zwei Schallquellen in Bezug auf die Stereo-Mikrofone verarbeitet. Um den von einer Zielperson abgegebenen Schall abzutrennen, wird die Tonhöhe des stetigen Bereiches des Gemisch-Signalverlaufs, wie der Vokal, ermittelt. In diesem Fall sind die Höhe des Schalls und das Geschlecht der Person nicht wichtig. Falls der Signalverlauf nicht ein Gemisch ist, wird die Änderung in dessen Pegelrichtung beibehalten, und die Periode des Signalverlaufs bzw. der Wellenform ändert sich mit der Autokorrelation. Im Falle des Gemischsignals wird die Änderung in der Pegelrichtung nicht beibehalten. Die Tonhöhe längs der Zeitachse wird jedoch beibehalten. Gemäß der Ausführungsform der vorliegenden Erfindung wird die Tonhöhe entsprechend der Zwei-Wellenlängen-Periode ermittelt anstatt durch Detektieren der Spitzenwert-Spitzenwert-Periode. Auf diese Weise wird die Tonhöhen-Ermittlung zuverlässig und genau ausgeführt. Ein Schall-Trennprozess wird später leicht ausgeführt.
  • Nachstehend wird die Arbeitsweise der Schallquellensignal-Trennvorrichtung gemäß 1 beschrieben.
  • Der Tonhöhen-Detektor 12 gemäß 1 kann der eine Tonhöhen-Detektor sein, der die Tonhöhe entsprechend der Zwei-Wellenlängen-Periode ermittelt. Das vorliegende Beispiel ist indessen nicht auf einen solchen Tonhöhen-Detektor beschränkt. Der Tonhöhen-Detektor 12 kann die Tonhöhe entsprechend einer Wellenlängen-Periode, entsprechend vier Wellenlängen-Perioden oder entsprechend einer längeren Wellenlängen-Periode ermitteln.
  • Der Tonhöhen-Detektor 12 bestimmt die Tonhöhe entsprechend der Tonhöhen-Detektiereinheit, und er bestimmt die Koordinate (Abtastprobennummer bzw. Abtastprobenanzahl) innerhalb jeder Stetigkeitsdauer oder in jedem stetigen Bereich, innerhalb der bzw. dessen dieselbe oder etwa dieselbe Tonhöhe wiederholt auftritt. Die Schallsignal-Trenneinrichtung trennt unter Heranziehung der Stereo-Mikrofone gemäß 1 den Signalverlauf von zumindest zwei Schallquellen auf der Grundlage dieser Informationsteile.
  • Die durch den Tonhöhen-Detektor 12 ermittelte Tonhöhe wird zu dem Trenn-Filterkoeffizientengenerator 14 übertragen. Der Trenn-Filterkoeffizientengenerator 14 erzeugt einen Filterkoeffizienten (einen Trenn-Filterkoeffizienten) für die Filter-Berechnungsschaltung 15, die einen Zielschall abtrennt. Der Trenn-Filterkoeffizientengenerator 14 erzeugt den Filterkoeffizienten entsprechend einem Bandpassfilterkoeffizienten, der gemäß einer Gleichung (5) erzeugt wird, wobei die repräsentative Tonhöhe, die durch den Tonhöhen-Detektor 12 erhalten wird, eine Grundfrequenz ist:
    Figure 00150001
  • Hierin bedeutet h[i] einen Filterkoeffizienten einer Abgriffposition "i"; FIRLEN ist die Anzahl der Filterabgriff, HLFLEN ist (FIRLEN-1)/2; π stellt die Kreiskonstante dar, m stellt die Anzahl der Oberwellen dar, und FS gibt eine Abtastfrequenz an. Die Abtastfrequenz FS beträgt 4800 für 48 kHz. Ferner geben LO[n] und Hi[n] Bandbreiten in Frequenzen der Oberwellen an, wobei LO[n] für eine höhere Frequenz steht und wobei Hi[n] für eine niedrigere Frequenz steht. Jegliche Bandbreite ist akzeptabel; sie wird jedoch in typischer Weise unter Berücksichtigung der Trennleistung bestimmt. Die ganze Zahl an Oberwellen "m" kann max_freq/f[1] sein, falls die maximale Frequenz gegeben ist max_freq und die Grundfrequenz gegeben ist f[1]. Falls m = 0 vorliegt, gilt f[0] = f[1]/2. Die Grundfrequenz kann f[0] sein.
  • 15 veranschaulicht Frequenzkennlinien der Filter-Berechnungsschaltung 15, die den durch den Trenn-Koeffizientengenerator 14 erzeugten Filterkoeffizienten verwendet. Das Filter mit der Frequenzkennlinie bzw. mit dem Frequenzgang gemäß 15 ist ein so genanntes kammartiges Bandpassfilter. Bei einem solchen Bandpassfilter werden die Täler und die Spitzen umso tiefer, je mehr Abgriffe vorhanden sind. Je schmaler die Bandbreite ist, umso weiter dehnt sich der Bereich jedes Tals aus, und umso höher wird die Wahrscheinlichkeit einer Trennung. Der entsprechend der Gleichung (5) erzeugte Bandpassfilterkoeffizient ist in der Abgriffsposition längs der Abgriffsachse in 16 veranschaulicht. Um die Trennleistung zu erhöhen, muss eine Fensterfunktion ausgewählt werden.
  • Die Filter-Berechnungsschaltung 15 verarbeitet einen mittleren Frequenzbereich und untere Frequenzbereiche. Unter Heranziehung des durch den Trenn-Filterkoeffizientengenerator 14 erzeugten Filterkoeffizienten trennt die Filter-Berechnungsschaltung 15 wie ein FIR-Filter mit einer Multiplikation- und Summierfunktion den Zielschall, der in der ermittelten Tonhöhe und in dessen unterer Frequenzkomponente enthalten ist.
  • Ein nicht stetiger Signalverlauf, wie ein Konsonant, wird dem Prozessor 17 für den Bereich hoher Frequenz eingangsseitig zugeführt. Das Audiosignal wird in einen Bereich hoher Frequenz und in Bereiche mittlerer und niedriger Frequenz aufgeteilt, da der Vokal und der Konsonant hinsichtlich der Stimmhaftigkeitsmechanismen unterschiedlich sind. Die Stetigkeit ist leichter zu bestimmen, falls der Vokal, der in dem mittleren und unteren Frequenzbereichen verteilt ist, und der Konsonant, der in einem Bereich hoher Frequenz verteilt ist, in unterschiedlichen Bändern verarbeitet werden. Der Vokal, der durch periodisches Schwingen der Stimmbänder erzeugt wird, wird ein stetiges Signal. Der Konsonant ist ein Reibelaut oder ein Verschlusslaut, wobei die Stimmbänder nicht schwingen. Der Signalverlauf des Konsonanten neigt dazu, im Verlauf zufällig zu werden. Falls ein zufälliger Signalverlauf bzw. eine zufällige Wellenform im Vokalteil enthalten ist, ist die zufällige Komponente ein Rauschen bzw. eine Störung, was die Tonhöhen-Detektierung nachteilig beeinflusst. Bei gleicher Anzahl von Abtastproben wird das Signal höherer Frequenz einer Zerstörung des Signalverlaufs ausgesetzt, da dessen Wiederholbarkeit schlechter ist als jene eines Signals niedriger Frequenz. Die Tonhöhen-Detektierung wird unberechenbar. Aus diesem Grund wird das Audiosignal bei der Bestimmung der Stetigkeit in den Bereich hoher Frequenz und in die Bereiche mittlerer bis niedriger Frequenz aufgeteilt, um die Bestimmungsgenauigkeit zu verbessern.
  • Der Prozessor 17 für den Bereich hoher Frequenz entfernt einen zufälligen Teil bei einer hohen Frequenz infolge eines Konsonanten, wie einen Reibelaut oder einen Verschlusslaut, der normalerweise in dem stetigen Bereich des Zielschalls, nämlich des Vokalteiles nicht auftritt.
  • In Stimmen sind Konsonanten hohen Pegels selten im Vokalbereich vorhanden. Sogar dann, wenn ein Zielschall aus einem Vokalbereich des Schalls von einer Mehrzahl von Schallquellen getrennt wird, hört sich der abgetrennte Schall anders an als der ursprüngliche Zielschall, wenn in dem Vokalanteil eine beliebige Welle hoher Frequenz enthalten ist. Der Prozessor 17 für den Bereich hoher Frequenz senkt die Verstärkung für die Welle hoher Frequenz in dem stetigen Vokalteil, so dass die Welle hoher Frequenz nicht an den Addierer 16 abgegeben werden kann. Ein resultierendes Ausgangssignal gelangt somit nahe an den ursprünglichen Zielschall heran.
  • Das Ausgangssignal von der Filter-Berechnungsschaltung 15 und das Ausgangssignal von dem Prozessor 17 für den Bereich hoher Frequenz werden mittels des Addieren 16 summiert. Das abgetrennte Wellenform- bzw. Signalverlaufs-Ausgangssignal des Zielschalls wird von dem Ausgangsanschluss 18 abgegeben.
  • Nachstehend wird die Beziehung zwischen den Stereo-Mikrofonen und der Schallquelle (Menschen) beschrieben. Obwohl der Abstand zwischen den Stereo-Mikrofonen nicht besonders spezifiziert ist, fällt er jedoch in typischer Weise in einen Bereich von mehreren Zentimetern bis mehreren 10 Zentimetern, falls das System tragbar bzw. transportabel ist. Die Stereo-Mikrofone, die an einer mobilen Vorrichtung angebracht sind, wie an einem mit einer Kamera ausgerüsteten integrierten VCR-Gerät (einer so genannten Videokamera), werden beispielsweise zur Schallaufnahme verwendet. Personen als Schallquellen sind in drei Sektoren positioniert (in der Mitte, links und rechts), wobei jede Position mehrere zehn Grad abdeckt. Bei dieser Anordnung ist die Zielschalltrennung unabhängig davon möglich, in welchem Sektor die jeweilige Person positioniert ist. Je weiter der Abstand zwischen den Stereo-Mikrofonen ist, in umso mehr Sektoren ist der Bereich segmentiert, wobei die Ausbreitung der Schallsignale zu den Stereo-Mikrofonen berücksichtigt wird. Das Vorhandensein von mehr Sektoren bedeutet eine Schwierigkeit bei der Ausführung der Vorrichtung. Umgekehrt bedeutet dies, dass je enger der Abstand der Stereo-Mikrofone ist, umso geringer ist die Anzahl der Sektoren (beispielsweise drei Sektoren), wobei die Vorrichtung jedoch einfach auszuführen ist.
  • Das Tiefpassfilter (TPF) 22 in dem Tonhöhen-Detektor 12 gemäß 1 und die Filter 20A sowie 20B gemäß 1 können in einer einzigen Filterbank integriert sein. Bei einer solchen Anordnung wird der Verzögerungs-Korrektur-Addierer 23 gemäß 2 von dem Verzögerungs-Korrektur-Addierer 13 gemäß 1 gemeinsam genutzt, und das Ausgangssignal des Verzögerungs-Korrektur-Addierers 13 wird an die Filterbank abgegeben, um in einen Bereich niedriger Frequenz für die Tonhöhen-Detektierung, in Bereiche mittlerer bis niedriger Frequenz für das Trennfilter und in einen Bereich hoher Frequenz für die Verarbeitung des Bereiches hoher Frequenz aufgeteilt zu werden.
  • 17 veranschaulicht in einem Blockdiagramm die Schallquellensignal-Trennvorrichtung unter Verwendung einer derartigen Filterbank 73.
  • Wie in 17 veranschaulicht, wird an einem Eingangsanschluss 71 ein stereophones Audiosignal empfangen, welches durch die Stereo-Mikrofone aufgefangen ist; das betreffende Audiosignal wird an einen Verzögerungs-Korrektur-Addierer 72 abgegeben, der als Schallquellensignal-Verbesserungseinrichtung zur Verbesserung eines Ziel-Schallquellensignals dient. Der Verzögerungs-Korrektur-Addierer 72 kann den Aufbau besitzen, wie er zuvor unter Bezugnahme auf 3 erörtert worden ist. Ein Ausgangssignal von dem Verzögerungs-Korrektur-Addierer 72 wird an die Filterbank 73 abgegeben. Die Filterbank 73 enthält zur Aufteilung eines Frequenzbandes ein Hochpassfilter für die Abgabe einer Komponente hoher Frequenz, ein Tiefpassfilter für die Abgabe einer Komponente mittlerer Frequenz und ein Tiefpassfilter für die Abgabe einer Komponente niedriger Frequenz. Die Komponente hoher Frequenz bezieht sich auf ein Konsonantenband, und die Komponenten mittlerer bis niedriger Frequenz beziehen sich auf ein anderes Band als das Konsonantenband. Die Komponente niedriger Frequenz bezieht sich auf ein Frequenzband, welches niedriger ist als das Band mittlerer Frequenz. Das Signal niedriger Frequenz aus den durch die Filterbank 73 in die Bänder aufgeteilten Signalen wird zu einem Tonhöhen-Detektor 75 über eine Stetigkeits-Bestimmungseinrichtung 74 übertragen. Das Signal im mittleren bis niedrigen Band wird zu einer Filter-Berechnungsschaltung 77 übertragen, und das Signal hoher Frequenz wird zu dem Prozessor 79 für den hohen Frequenzbereich übertragen.
  • Der unter Bezugnahme auf 2 erörterte Tonhöhen-Detektor 12 enthält das Tiefpassfilter zur Abgabe einer Komponente niedriger Frequenz in dem Verzögerungs-Korrektur-Addierer 72, die Stetigkeits-Bestimmungseinrichtung 74 und den Tonhöhen-Detektor 75 gemäß 17. Der Verzögerungs-Korrektur-Addierer 23 gemäß 2 ist in eine Stufe vor dem Tiefpassfilter 22 verschoben; er entspricht dem Verzögerungs-Korrektur-Addierer 72 gemäß 17. Wie zuvor erörtert, bestimmt die Stetigkeits-Bestimmungseinrichtung 74 gemäß 17 eine Stetigkeitsdauer innerhalb der dieselbe oder etwa dieselbe Tonhöhe aufeinanderfolgend wiederholt innerhalb eines Fehlerbereiches von mehreren Prozent oder darunter auftritt. Falls die Stetigkeitsdauer über eine bestimmte Zeitspanne andauert (beispielsweise dann, wenn das Stetigkeits-Bestimmungsflag für jede Zwei-Wellenlängen-Detektiereinheit fünf Mal oder öfter wiederholt wird), werden die Tonhöhen als wirksam bestimmt, und die repräsentative Tonhöhe der Tonhöhen wird von dem Tonhöhen-Detektor 75 abgegeben.
  • Ein Trenn-Koeffizientengenerator 76 in der Schallquellensignal-Trenneinrichtung 191 erzeugt einen Filterkoeffizienten (einen Trenn-Filterkoeffizienten) einer Filter-Berechnungsschaltung 77 entsprechend der Gleichung (5). Der Trenn-Koeffizientengenerator 76 ist im Wesentlichen identisch mit dem Trenn-Koeffizientengenerator 14 gemäß 1. Der erzeugte Filterkoeffizient wird dann zu der Filter-Berechnungsschaltung 77 in der Schallquellensignal-Trenneinrichtung 191 übertragen. Die Filter-Berechnungsschaltung 77 erhält von der Filterbank 73 Komponenten mittlerer bis niedriger Frequenz. Wie die Filter-Berechnungsschaltung 15 gemäß 1 trennt die Filter-Berechnungsschaltung 77 das Audiosignal von der Zielschallquelle ab. Ein Prozessor 79 für den Bereich hoher Frequenz – dieser Prozessor ist identisch mit dem Prozessor 17 für den Bereich hoher Frequenz gemäß 1 – führt einen Prozess bezüglich einer nicht stetigen Welle, wie bezüglich eines Konsonanten aus. Ein Ausgangssignal von der Filter-Berechnungsschaltung 77 und ein Ausgangssignal von dem Prozessor 79 für den Bereich hoher Frequenz werden mittels eines Addierers 78 summiert, und die resultierende Summe wird dann von einem Ausgangsanschluss 80 als das abgetrennte Wellenform- bzw. Signalfolgen-Ausgangssignal abgegeben.
  • Bei dieser Ausführungsform wird die Tonhöhe in dem stetigen Anteil ermittelt. Eine Stimme einer allein sprechenden Person weitet sich in typischer Weise über den Stetigkeits-Bestimmungsbereich des Gemisch-Signalverlaufs längs der Zeitachse aus. Der Trenn-Filterkoeffizient wird jedes Mal erzeugt, wenn die Tonhöhe ermittelt wird. Die Anwendung des Filters allein auf den Stetigkeits-Bestimmungsbereich wird nicht als effizienter Prozess betrachtet. Die Heranziehung des Filterkoeffizienten in der Nähe des Stetigkeits-Bestimmungsbereichs wird bevorzugt, um die Trennleistung in der Zeitrichtung zu verbessern.
  • 18 veranschaulicht zwei Stetigkeits-Bestimmungsbereiche, die in der Vokalstimme ermittelt sind. Mit RA sei ein erster Stetigkeits-Bestimmungsbereich bezeichnet und mit RB sei ein zweiter Stetigkeits-Bestimmungsbereich bezeichnet. Die Filterkoeffizienten der beiden Stetigkeits-Bestimmungsbereiche sind voneinander verschieden. Der Filterkoeffizient des Stetigkeits-Bestimmungsbereichs RA wird auf Bereiche vor und nach dem Stetigkeits-Bestimmungsbereich RA längs der Zeitachse angewandt, und der Filterkoeffizient des Stetigkeits-Bestimmungsbereichs RB wird auf Bereiche vor und nach dem Stetigkeits-Bestimmungsbereich RB in der Zeit angewandt. Die Bereiche vor und nach dem Stetigkeits-Bestimmungsbereich können zuvor statistisch bestimmt werden. Falls beispielsweise eine Tonhöhe hoher Frequenz ermittelt wird, kann eine Zeitdauer des Bereichs länger oder kürzer festgelegt werden. Falls eine Tonhöhe niedriger Frequenz ermittelt wird, kann eine Zeitdauer des Bereichs länger oder kürzer festgelegt sein.
  • 19 veranschaulicht tatsächliche Signalverläufe längs der Zeitachse. Ein oberer Bereich (A) von 19 veranschaulicht einen Signalverlauf bzw. eine Wellenform vor einer Filterung. Eine Grundfrequenz, nämlich ein Stetigkeits-Bestimmungsbereich und eine repräsentative Tonhöhe werden in einem Bereich Rp ermittelt, der durch eine mit einer Pfeilspitze versehene Linie dargestellt ist. Ein unterer Bereich (B) von 19 veranschaulicht durch einen Bandpassfilter gefilterten Signalverlauf, der in Bezug auf die Tonhöhe erzeugt wird. Derselbe Koeffizient wird in einem erweiterten Bereich Rq verwendet, der durch eine mit einem Pfeil versehene Linie dargestellt ist.
  • Wenn sämtliche Oberwellenkomponenten der Tonhöhenfrequenz der Filterung unterzogen sind, um die Trennleistung beim Trennung des Zielschalls zu verbessern, können von dem Zielschall verschiedene Schallsignale nicht bedämpft werden. Unter Heranziehung von statistischen Daten können einige Oberwellenbänder aus der Summieroperation ausgeschlossen werden.
  • Ein weiteres Beispiel der vorliegenden Erfindung wird nachstehend unter Bezugnahme auf 20 beschrieben. Die Schallquellensignal-Trennvorrichtung gemäß 20 enthält eine Sprecher-Bestimmungseinrichtung 82 und eine Bereichs-Bestimmungseinrichtung 83 zusätzlich zu der Schallquellensignal-Trennvorrichtung gemäß 17. Wie die Trenn-Koeffizienten-Abgabeeinrichtung enthält die Schallquellensignal-Trennvorrichtung einen Koeffizientenspeicher und eine Koeffizienten-Auswahleinheit 86 in der Schallquellensignal-Trenneinrichtung 192 anstelle des Trenn-Koeffizientengenerators 76 in der Schallquellensignal-Trenneinrichtung 191 gemäß 17.
  • Der Koeffizientenspeicher und die Koeffizienten-Auswahleinheit 86 gemäß 20 als Trenn-Koeffizientenabgabeeinrichtung speichern in einem Speicher Trenn-Filterkoeffizienten, die zuvor auf verschiedene Tonhöhen hin erzeugt sind, und liest auf eine ermittelte Tonhöhe hin einen Trenn-Filterkoeffizienten aus. Die Tonhöhenwerte werden beispielsweise in eine Mehrzahl von Zonen aufgeteilt, und ein Trenn-Filterkoeffizient wird zuvor für einen repräsentativen Wert der jeweiligen Zone erzeugt. Die Trenn-Filterkoeffizienten für die Zonen werden in dem Speicher gespeichert und der Trenn-Filterkoeffizient, welcher der Zone entspricht, in die die bei der Tonhöhen-Detektierung ermittelte Tonhöhe hineinfällt, wird aus dem Speicher gelesen. Auf diese Weise wird die Schallquellensignal-Trennvorrichtung von der Erzeugung des Trenn-Filterkoeffizienten für jede ermittelte Tonhöhe durch Berechnung befreit. Stattdessen kann die Schallquellensignal-Trennvorrichtung durch Zugreifen auf den Speicher den Trenn- Filterkoeffizient schnell erlangen. Der Prozess wird somit beschleunigt.
  • Bei der Sprecherbestimmung wird eine Stimme einer Zielperson aus einer Mehrzahl von Personen (Schallquellen) identifiziert. Die Sprecher-Bestimmungseinrichtung 82 verwendet einen Signalverlauf, der durch das Tiefpassfilter 81 erhalten wird. Das Signal niedriger Frequenz, welches durch das Tiefpassfilter 81 erhalten wird, ist ein Signal, welches in dasselbe niedrige Band hineinfällt, das durch die Filterbank 73 bei der Tonhöhen-Ermittlung bereitgestellt wird. Bei der Sprecherbestimmung wird eine Korrelation auf der Grundlage des Ausgangssignals von dem Verzögerungs-Korrektur-Addierer 13 gemäß 1 und 3 und eines Korrelationsfaktors cor bestimmt, wie er unter Bezugnahme auf Gleichung (1) erörtert worden ist, um zu bestimmen, ob die Zielperson spricht. Genauer gesagt, kann, wie dies in 21A veranschaulicht ist, die Sprecherbestimmung auf der Grundlage des Schwellwerts des Korrelationswertes des gesamten Stetigkeits-Bestimmungsbereichs als Stetigkeitsdauer ausgeführt werden. Wie in 21B veranschaulicht, kann die Sprecherbestimmung durch Segmentieren des Stetigkeits-Bestimmungsbereichs in kleine Segmente und durch Bestimmen der Wahrscheinlichkeit des Auftretens des jeweiligen Korrelationswertes oberhalb eines bestimmten Schwellwertes ausgeführt werden. Wie in 21C veranschaulicht, kann die Sprecherbestimmung durch Segmentieren des Stetigkeits-Bestimmungsbereichs in eine Mehrzahl von Segmenten in einer überlappenden Weise und durch Bestimmen der Wahrscheinlichkeit des Auftretens des jeweiligen Korrelationswertes oberhalb eines bestimmten Schwellwertes ausgeführt werden. Eine Korrelation kann dadurch bestimmt werden, dass für die Korrelation von Daten die Charakteristik des Signalverlaufs berücksichtigt wird. Durch Einstellen eines Verzögerungsbetrages bei dem Verzögerungs-Korrektur-Additionsprozess wird die Sprecherbestimmung auf jede Richtung einer Mehrzahl von Schallquellen (Personen) angewandt, und der Sprecher wird so identifiziert.
  • Ein Ausgangssignal von der Sprecher-Bestimmungseinrichtung 82 wird zu der Stetigkeits-Bestimmungseinrichtung 74 und der Bereichs-Bestimmungseinrichtung 83 übertragen. Auf eine Bestimmung eines stetigen Bereiches hin ergeben sich von der Stetigkeits-Bestimmungseinrichtung 74 in der Zeitachse Koordinaten, und die Koordinatendaten werden zu der Bereichs-Bestimmungseinrichtung 83 übertragen. Auf eine Bestimmung des Sprechers hin führt die Bereichs-Bestimmungseinrichtung 83 einen Prozess zur Ausweitung des Stetigkeits-Bestimmungsbereichs um eine gewisse Zeitdauer aus und meldet Puffer 84 und 85 die Zeitpunkte des erweiterten Stetigkeits-Bestimmungsbereichs für eine Bereichseinstellung. Der Puffer 84 ist zwischen der Filterbank 73 und der Filter-Berechnungsschaltung 77 in der Schallquellensignal-Trenneinrichtung 192 eingefügt, und der Puffer 85 ist zwischen die Filterbank 73 und dem Prozessor 79 für den Bereich hoher Frequenz eingefügt. Während einer Zeitdauer (Bereich), die durch die Bereichs-Bestimmungseinrichtung 83 als außerhalb des Stetigkeits-Bestimmungsbereichs liegend bestimmt ist, wird die Verstärkung einfach abgesenkt. Um die Verstärkung einzustellen, werden dieselben Abgriffe wie jene bei der Filter-Berechnungsschaltung 77 bereitgestellt und andere Abgriffe als der Mittenabgriff sind auf Null festgelegt; der Mittenabgriff ist so festgelegt, dass ein von 1 verschiedener Koeffizient gegeben ist. Um 1/10 festzulegen, wird lediglich der Mittenabgriff so festgelegt, dass ein Koeffizient von 0,1 gegeben ist.
  • Der übrige Teil der Schallquellensignal-Trennvorrichtung gemäß 20 verbleibt im Aufbau identisch mit der Schallquellensignal-Trennvorrichtung gemäß 17. Entsprechende Elemente sind mit entsprechenden Bezugszeichen bezeichnet, und ihre Erörterung wird hier weggelassen.
  • Zusammenfassend ist anzumerken, dass zumindest zwei Schallquellen in Bezug auf die Stereo-Mikrofone verarbeitet werden. Um den von einer Zielperson abgegebenen Schall abzutrennen, wird die Tonhöhe der stetigen Dauer des Gemisch-Signalverlaufs, wie des Vokals, ermittelt. In diesem Fall sind die Stärke des Schalls bzw. Tones und das Geschlecht der Person nicht wichtig. Der Bandpass-Koeffizient (Trenn-Filterkoeffizient) wird bestimmt, um eine Übertragungscharakteristik des Zielschalls in Bezug auf die Tonhöhe zu erhalten. Die Schallsignale in dem anderen Band als einem Spitzensignal längs der Frequenzachse in Bezug auf den Zielschall werden somit bedämpft. Die Verwendung des Koeffizientenspeichers eliminiert die Forderung nach Berechnung der Koeffizienten.
  • 22 veranschaulicht eine weitere Schallquellensignal-Trennvorrichtung gemäß einem Beispiel.
  • Wie in 22 veranschaulicht, wird an einem Eingangsanschluss 110 ein Audiosignal empfangen, welches mittels Mikrofonen aufgenommen ist; bei diesem Audiosignal handelt es sich nämlich um stereophone Audiosignale, die durch Stereo-Mikrofone aufgenommen sind. Das Audiosignal wird dann zu einem Tonhöhen-Detektor 12 und einem Verzögerungs-Korrektur-Addierer 13 übertragen, um ein Ziel-Schallquellensignal zu verbessern. Ein Ausgangssignal des Verzögerungs-Korrektur-Addierers 13 wird zu einem Grundwellenform-Generator 140 und einer Grundwellenform-Ersatzeinheit 150 übertragen; beide Einrichtungen befinden sich in einer Schallquellensignal-Trenneinrichtung 190. Der Grundwellenform-Generator 140 erzeugt eine Grundwelle auf der Grundlage einer durch den Tonhöhen-Detektor 12 ermittelten Tonhöhe. Die Grundwelle bzw. Grundwellenform wird von dem Grundwellenform-Generator 140 zu der Grundwellen-Ersatzeinheit 150 übertragen, in der die Grundwelle für zumindest einen Teil des Audiosignals von dem Verzögerungs-Korrektur-Addierer 13 (beispielsweise für einen stetigen Bereich, was später erörtert wird) substituiert bzw. ersetzt wird. Das resultierende Signal wird von einem Ausgangsanschluss 160 als abgetrenntes Wellenform- bzw. Signalverlaufs-Ausgangssignal abgegeben.
  • In der Schallquellensignal-Trennvorrichtung bleiben der Tonhöhen-Detektor 12 und der Verzögerungs-Korrektur-Addierer 13 von den entsprechenden Gegenstücken gemäß 1 unverändert. Entsprechende Elemente der betreffenden Vorrichtung sind daher mit entsprechenden Bezugszeichen bezeichnet und ihre Erörterung wird hier weggelassen.
  • Der Tonhöhen-Detektor 12 gemäß 22 kann die Tonhöhe entsprechend der Zwei-Wellenlängen-Tonhöhe ermitteln. Das vorliegende Beispiel ist indessen nicht auf einen solchen Tonhöhen-Detektor beschränkt. So kann beispielsweise ein Tonhöhen-Detektor verwendet werden, der eine Ein-Wellenlänge-Periode oder eine Periode mit einer geradzahligen Wellenlänge, wie eine Vier-Wellenlänge-Periode ermittelt. Je größer die Anzahl an Wellenlängen ist, die bei der Tonhöhen-Ermittlung verwendet werden, umso höher steigt die Anzahl der zu verarbeitenden Abtastproben und umso geringer wird das Auftreten eines Fehlers. Ein derartiger Tonhöhen-Detektor kann nicht nur in der Schallquellensignal-Trennvorrichtung gemäß 22 angewandt werden, sondern auch in einer Vielzahl von Schallquellensignal-Trennvorrichtungen, die ein Schallquellensignal durch Detektieren von Tonhöhen abtrennen.
  • Der Grundwellenform-Generator 140 erzeugt eine Grundwelle auf der Grundlage der Tonhöhe des durch den Tonhöhen-Detektor 12 ermittelten stetigen Bereichs. Eine Wellenform bzw. ein Signalverlauf mit einer Wellenlänge, die gleich einem ganzzahligen Vielfachen der Tonhöhen-Wellenlänge ist, wird als Grundwelle verwendet. Bei dieser Ausführungsform wird eine Wellenlänge vom Zweifachen der Tonhöhen-Wellenlänge benutzt. Die Grundwellenform-Ersatzeinheit 150 setzt eine wiederholte Wellenform bzw. einen wiederholten Signalverlauf der durch den Grundwellen-Generator 140 erzeugten Grundwelle an die Stelle des stetigen Bereichs des Audiosignals von dem Verzögerungs-Korrektur-Addierer 13 (oder von dem stereophonen Audioeingang 11). Die Grundwellenform-Ersatzeinheit 150 gibt somit an einem Ausgangsanschluss 160 ein abgetrenntes Wellenform-Ausgangssignal ab, wobei lediglich das Audiosignal von der Zielschallquelle verbessert ist.
  • Nachstehend wird die Arbeitsweise der Schallquellensignal-Trennvorrichtung gemäß 22 beschrieben.
  • Der Tonhöhen-Detektor 12 ermittelt eine Tonhöhe auf der Grundlage einer Tonhöhen-Detektiereinheit, und er bestimmt eine kontinuierliche bzw. stetige Dauer, während der dieselbe oder etwas dieselbe Tonhöhe wiederholt auftritt, oder er koordiniert (Abtastprobenzahlen) den stetigen Bereich des Audiosignals. Die Schallquellensignal-Trennvorrichtung gemäß 1 trennt unter Heranziehung der Stereo-Mikrofone die Signalverläufe bzw. Signalwellenformen von zumindest zwei Schallquellen auf der Grundlage dieser Informationsteile.
  • Wie zuvor erörtert, wird eine Phasenanpassung dadurch vorgenommen, dass der Verzögerungs-Korrekturprozess bezüglich des Zielschalls in jedem Mikrofon vorgenommen wird, und die in der Phase korrigierten Signale werden summiert, um den Zielschall zu verbessern. Die übrigen Schallsignale werden bedämpft. Die Signalwellenformen in den stetigen Bereichen werden mit einer Periode summiert, die gleich der Tonhöhen-Detektiereinheit ist. Die Grundwellenform des stetigen Bereichs wird somit erzeugt.
  • Wie zuvor unter Bezugnahme auf 3 erörtert, führt der Verzögerungs-Korrektur-Addierer 13 gemäß 22 den Verzögerungs-Korrekturprozess durch, um eine Differenz zwischen den Ausbreitungs-Zeitverzögerungen von der Zielschallquelle zu den Mikrofonen zu beseitigen, und er nimmt eine Summierung und Abgabe der resultierenden Signale vor. Der Grundwellenform-Generator 140 verarbeitet eine Ausgangssignalfolge bzw. -wellenform von dem Verzögerungs-Korrektur-Addierer 13 entsprechend der Information von dem Tonhöhen-Detektor 12, um die Grundwelle bzw. Grundwellenform zu erzeugen. Genauer gesagt summiert der Grundwellenform-Generator 140 den Signalverlauf innerhalb der Tonhöhendauer oder des stetigen Bereiches mit der Periode, die gleich der Tonhöhen-Detektiereinheit ist, um die Grundwelle zu erzeugen. Eine Wellenform bzw. ein Signalverlauf "a", die bzw. der in 23 durch eine voll ausgezogene Linie dargestellt ist, zeigt ein Beispiel der so erzeugten Grundwelle. Sechs Wellenformen (Perioden Ty(1)–Ty(6)), deren jede gleich zwei Wellenlängen ist, wie dies in 5 veranschaulicht ist, werden summiert und gemittelt. Eine Wellenform bzw. ein Signalverlauf "b", die bzw. der in 23 durch eine gestrichelte Linie dargestellt ist, veranschaulicht einen ursprünglichen Zielschall. Wie in 23 veranschaulicht, wird die Grundwelleform "a" durch Summieren der Signalwellenformen während der Tonhöhendauer oder des stetigen Bereiches mit der Periode, die gleich zwei Wellenlängen ist, erzeugt. Die Grundwellenform "a" ist eine nahe Approximation an die Wellenform "b" des ursprünglichen Zielschalls. Der Zielschall wird erhalten oder verbessert, da der Zielschall ohne eine Phasenverschiebung summiert ist. Die anderen Schallsignale, die phasenverschoben summiert sind, werden einer Bedämpfung unterzogen. Vorzugsweise wird die Tonhöhen-Ermittlung entsprechend einer Einheit von zwei Wellenlängen durchgeführt, und die Grundwellenform wird ebenfalls entsprechend einer Einheit von zwei Wellenlängen erzeugt. Der Grund hierfür liegt darin, dass die Komponente mit der Periode Ty, die länger ist als die Tonhöhen-Periode Tx, in der erzeugten Grundwellenform erhalten ist.
  • Die Grundwellenform-Ersatzeinheit 150 setzt die Wiederholung der Grundwellenform, welche durch den Grundwellenform-Generator 140 erzeugt worden ist, während der Tonhöhendauer oder des stetigen Bereiches innerhalb des Ausgangssignalverlaufs von dem Verzögerungs-Korrektur-Addierer 13 ein. Ein Signalverlauf bzw. eine Wellenform "a", die in 24 durch eine voll ausgezogene Linie dargestellt ist, veranschaulicht die Wiederholung der durch die Grundwellenform-Ersatzeinheit 150 einsetzten Grundwellenform. Eine Wellenform "b", die in 24 durch eine gestrichelte Linie dargestellt ist, zeigt für eine Bezugnahme die Wellenform des ursprünglichen Zielschalls.
  • Das Wellenformsignal von der Grundwellen-Ersatzeinheit 150 mit der Tonhöhendauer oder dem stetigen Bereich, welches durch die Grundwellenform ersetzt ist, wird von dem Ausgangsanschluss 160 als abgetrenntes Ausgangs-Wellenformsignal des Zielschalls abgegeben.
  • 25 veranschaulicht in einem Ablaufdiagramm schematisch die Arbeitsweise einer derartigen Schallquellensignal-Trennvorrichtung. Wie in 25 dargestellt, wird die Tonhöhen-Ermittlung mit den zwei Wellenlängen als Einheit der Ermittlung beim Schritt S61 ausgeführt. Beim Schritt S62 wird bestimmt, ob eine Kontinuität bzw. Stetigkeit erkannt wird. Falls beim Schritt S62 bestimmt wird, dass keine Kontinuität bzw. Stetigkeit vorliegt (das heißt die Antwort NEIN lautet), kehrt der Prozess zum Schritt S61 zurück. Falls beim Schritt S62 bestimmt wird, dass eine Kontinuität bzw. Stetigkeit vorliegt (das heißt die Antwort JA lautet), geht die Verarbeitung weiter zum Schritt S63. Beim Schritt S63 werden Koordinaten eines Startpunktes und eines Endpunktes der jeweiligen Tonhöhen-Detektiereinheit, die bei der Tonhöhen-Detektierung erhalten wird, eingegeben. Beim Schritt S64 werden die Signalverläufe bzw. Signalwellenformen bezüglich jeder Tonhöhen-Detektiereinheit summiert und gemittelt, um die Grundwellenform zu erzeugen. Beim Schritt S65 erfolgt ein Ersetzen durch die Grundwelle bzw. Grundwellenform.
  • Die Beziehung zwischen dem Stereo-Mikrofon und der Schallquelle (Person) bleiben aus der vorangehenden Ausführungsform unverändert, und deren Erörterung wird hier weggelassen.
  • Zusammenfassend ist anzumerken, dass zumindest zwei Schallquellen in Bezug auf die Stereo-Mikrofone verarbeitet werden. Um den von einer Zielperson abgegebenen Schall abzutrennen, wird die Tonhöhe der Dauer bzw. des Stetigkeitsbereiches des Gemisch-Signalverlaufs, wie des Vokals ermittelt. In diesem Fall sind die Stärke des Schalls bzw. Tones und das Geschlecht der Person nicht wichtig. Eine Kontinuität bzw. Stetigkeit wird als vorhanden bestimmt, falls ein Fehler zwischen einer früheren Tonhöhe und einer nachfolgenden Tonhöhe gering ist. Die stetigen Bereiche werden summiert und gemittelt. Die resultierende Wellenform wird als Grundwellenform betrachtet. Die Grundwellenform ersetzt die ursprüngliche Wellenform. Wenn die substituierte Wellenform weiter summiert wird, wird eine Gemisch-Wellenform bedämpft. Lediglich der Zielschall wird verbessert und dann abgetrennt.
  • Die Tonhöhen-Ermittlung kann nicht nur bei einer Periode von zwei Wellenlängen ausgeführt werden, sondern sie kann auch bei einer Periode von vier Wellenlängen ausgeführt werden. Falls die Tonhöhen-Detektierperiode auf vier Wellenlängen oder noch mehr Wellenlängen festgelegt ist, nimmt jedoch die Anzahl der zu verarbeitenden Abtastproben zu. Die Tonhöhen-Detektierperiode wird somit in Anbetracht dieser Faktoren in geeigneter Weise festgelegt. Die Anordnung bzw. der Aufbau des Tonhöhen-Detektors ist nicht nur bei der oben angegebenen Schallquellensignal-Trennvorrichtung anwendbar, sondern auch bei einer Vielzahl von Schallquellensignal-Trennvorrichtungen zum Trennen des Schallquellensignals durch Detektieren der Tonhöhe. Eine Vielzahl von Modifikationen ist bei den oben angegebenen Ausführungsformen ohne Abweichung vom Schutzumfang der vorliegenden Erfindung möglich, wie sie in den Ansprüchen festgelegt ist.
  • Ausführungsformen stellen ein Schallquellensignal-Trennverfahren bereit, welches Schritte zur Verbesserung eines Ziel-Schallquellensignals in einem eingangsseitige Audiosignal enthält, wobei das eingangsseitige Audiosignal aus einem Gemisch von Akustiksignalen von einer Mehrzahl von Schallquellen besteht und mittels einer Mehrzahl von Schallaufnahmevorrichtungen aufgenommen wird. Die Tonhöhe des Ziel-Schallquellensignals in dem eingangsseitigen Audiosignal wird dabei ermittelt, und das Ziel-Schallsignal wird aus dem eingangsseitigen Audiosignal auf der Grundlage der ermittelten Tonhöhe abgetrennt; das Schallquellensignal ist bei dem Schallquellensignal-Verbesserungsschritt verbessert.
  • Insoweit, als die oben beschriebenen Ausführungsformen der Erfindung realisiert werden, und zwar zumindest teilweise unter Heranziehung einer Software-gesteuerten Datenverarbeitungsvorrichtung, dürfte einzusehen sein, dass ein Computerprogramm, welches eine derartige Software-Steuerung bereitstellt, sowie eine Übertragung, Speicherung und ein anderes Medium, durch das ein derartiges Computerprogramm bereitgestellt wird, als Aspekte der vorliegenden Erfindung in Betracht gezogen werden.
  • Obwohl besondere Ausführungsformen hier beschrieben worden sind, dürfte einzusehen sein, dass die Erfindung darauf nicht beschränkt wird und dass viele Modifikationen und Hinzufügungen dazu innerhalb des Schutzumfangs der Erfindung vorgenommen werden können. So können beispielsweise verschiedene Kombinationen der Merkmale der folgenden abhängigen Ansprüche mit den Merkmalen der unabhängigen Ansprüche ohne Abweichung vom Schutzumfang der vorliegenden Erfindung vorgenommen werden.

Claims (3)

  1. Tonhöhen-Detektor, umfassend: eine Schallquellensignal-Verbesserungseinrichtung zum Verbessern eines Ziel-Schallquellensignals in einem eingangsseitigen Audiosignal, welches ein Gemisch aus akustischen Signalen von einer Vielzahl von Schallquellen ist und welches durch eine Vielzahl von Schallaufnahmevorrichtungen aufgenommen ist, eine Perioden-Detektoreinrichtung (26) zum Ermitteln einer Zwei-Wellenlängen-Periode des Ausgangssignals von der Schallquellensignal-Verbesserungseinrichtung entsprechend den zwei Wellenlängen der Tonhöhe des Ausgangssignals als Detektiereinheit und eine Stetigkeits-Bestimmungseinrichtung (27), die auf eine Änderung in der durch die Perioden-Detektoreinrichung (26) ermittelten Zwei-Wellenlängen-Periode hin bestimmt, ob zumindest etwa dieselbe Tonhöhe aufeinanderfolgend wiederholt wird, und die als Ergebnisse der Bestimmung eine Tonhöheninformation abgibt, wobei die Schallquellensignal-Verbesserungseinrichtung die Audiosignale von der Vielzahl der Schallaufnahmevorrichtungen mit einer Zeitdifferenz zwischen Schallausbreitungsverzögerungen korrigiert, indem jede Schallausbreitungsverzögerung von einer Ziel-Schallquelle zu jeder der Vielzahl von Schallaufnahmevorrichtungen hin korrigiert wird, und die korrigierten Audiosignale von der Vielzahl der Schallaufnahmevorrichtungen addiert, um das Audiosignal lediglich von der Ziel-Schallquelle zu verbessern.
  2. Tonhöhen-Detektor nach Anspruch 1, wobei die Vielzahl der Schallaufnahmevorrichtungen ein linkes Stereomikrofon und ein rechtes Stereomikrofon umfasst.
  3. Tonhöhen-Detektierverfahren, umfassend die Schritte: Verbessern eines Ziel-Schallquellensignals in einem eingangsseitigen Audiosignal, welches ein Gemisch aus akustischen Signalen von einer Vielzahl von Schallquellen ist und welches durch eine Vielzahl von Schallaufnahmevorrichtungen aufgenommen ist, Detektieren (S46) einer Zwei-Wellenlängen-Periode des bei dem Schallquellensignal-Verbesserungsschritt erhaltenen Ausgangssignals entsprechend den zwei Wellenlängen der Tonhöhen des Ausgangssignals als eine Detektiereinheit und Bestimmen (S47, S48 S49, S50) auf eine Änderung in der bei dem Perioden-Detektierschritt (S46) ermittelten Zwei-Wellenlängen-Periode hin, ob zumindest etwa dieselbe Tonhöhe aufeinanderfolgend wiederholt wird, um als Ergebnisse der Bestimmung eine Tonhöheninformation abzugeben, wobei durch die Verbesserung die Audiosignale von der Vielzahl der Schallaufnahmevorrichtungen mit einer Zeitdifferenz zwischen Schallausbreitungsverzögerungen korrigiert werden, indem jede Schallausbreitungsverzögerung von einer Ziel-Schallquelle zu jeder der Vielzahl von Schallaufnahmevorrichtungen korrigiert wird, und korrigierte Audiosignale von der Vielzahl von Schallaufnahmevorrichtungen addiert werden, um das Audiosignal lediglich von der Ziel-Schallquelle zu verbessern.
DE602005006412T 2004-02-20 2005-02-08 Verfahren und Vorrichtung zur Grundfrequenzbestimmung Active DE602005006412T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004045238 2004-02-20
JP2004045238 2004-02-20
JP2004045237 2004-02-20
JP2004045237 2004-02-20

Publications (2)

Publication Number Publication Date
DE602005006412D1 DE602005006412D1 (de) 2008-06-12
DE602005006412T2 true DE602005006412T2 (de) 2009-06-10

Family

ID=34914428

Family Applications (3)

Application Number Title Priority Date Filing Date
DE602005006331T Active DE602005006331T2 (de) 2004-02-20 2005-02-08 Schallquellensignal-Trennvorrichtung und-Trennverfahren
DE602005006412T Active DE602005006412T2 (de) 2004-02-20 2005-02-08 Verfahren und Vorrichtung zur Grundfrequenzbestimmung
DE602005007219T Active DE602005007219D1 (de) 2004-02-20 2005-02-08 Verfahren und Vorrichtung zur Trennung von Schallquellensignalen

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE602005006331T Active DE602005006331T2 (de) 2004-02-20 2005-02-08 Schallquellensignal-Trennvorrichtung und-Trennverfahren

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE602005007219T Active DE602005007219D1 (de) 2004-02-20 2005-02-08 Verfahren und Vorrichtung zur Trennung von Schallquellensignalen

Country Status (5)

Country Link
US (1) US8073145B2 (de)
EP (3) EP1755111B1 (de)
KR (1) KR101122838B1 (de)
CN (1) CN100356445C (de)
DE (3) DE602005006331T2 (de)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
JP4821131B2 (ja) * 2005-02-22 2011-11-24 沖電気工業株式会社 音声帯域拡張装置
JP4407538B2 (ja) 2005-03-03 2010-02-03 ヤマハ株式会社 マイクロフォンアレー用信号処理装置およびマイクロフォンアレーシステム
US8014536B2 (en) * 2005-12-02 2011-09-06 Golden Metallic, Inc. Audio source separation based on flexible pre-trained probabilistic source models
US8286493B2 (en) * 2006-09-01 2012-10-16 Audiozoom Ltd. Sound sources separation and monitoring using directional coherent electromagnetic waves
JP2009008823A (ja) * 2007-06-27 2009-01-15 Fujitsu Ltd 音響認識装置、音響認識方法、及び、音響認識プログラム
KR101238362B1 (ko) 2007-12-03 2013-02-28 삼성전자주식회사 음원 거리에 따라 음원 신호를 여과하는 방법 및 장치
RU2423015C2 (ru) * 2007-12-18 2011-06-27 Сони Корпорейшн Устройство обработки данных, способ обработки данных и носитель информации
US8340333B2 (en) 2008-02-29 2012-12-25 Sonic Innovations, Inc. Hearing aid noise reduction method, system, and apparatus
KR100989651B1 (ko) * 2008-07-04 2010-10-26 주식회사 코리아리즘 리듬액션 게임에 사용되는 불특정 음원에 대한 리듬데이터생성장치 및 방법
JP5157837B2 (ja) * 2008-11-12 2013-03-06 ヤマハ株式会社 ピッチ検出装置およびプログラム
US8666734B2 (en) * 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
JP5672770B2 (ja) 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
US8805697B2 (en) 2010-10-25 2014-08-12 Qualcomm Incorporated Decomposition of music signals using basis functions with time-evolution information
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) * 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
CN102103200B (zh) * 2010-11-29 2012-12-05 清华大学 一种分布式非同步声传感器的声源空间定位方法
WO2013150341A1 (en) 2012-04-05 2013-10-10 Nokia Corporation Flexible spatial audio capture apparatus
WO2014162171A1 (en) 2013-04-04 2014-10-09 Nokia Corporation Visual audio processing apparatus
US9706324B2 (en) 2013-05-17 2017-07-11 Nokia Technologies Oy Spatial object oriented audio apparatus
CN104244142B (zh) * 2013-06-21 2018-06-01 联想(北京)有限公司 一种麦克风阵列、实现方法及电子设备
GB2519379B (en) * 2013-10-21 2020-08-26 Nokia Technologies Oy Noise reduction in multi-microphone systems
CA2928698C (en) 2013-10-28 2022-08-30 3M Innovative Properties Company Adaptive frequency response, adaptive automatic level control and handling radio communications for a hearing protector
CN104200813B (zh) * 2014-07-01 2017-05-10 东北大学 基于声源方向实时预测跟踪的动态盲信号分离方法
JP6018141B2 (ja) 2014-08-14 2016-11-02 株式会社ピー・ソフトハウス オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム
CN106128472A (zh) * 2016-07-12 2016-11-16 乐视控股(北京)有限公司 演唱者声音的处理方法及装置
TWI588819B (zh) * 2016-11-25 2017-06-21 元鼎音訊股份有限公司 語音處理之方法、語音通訊裝置及其電腦程式產品
WO2018155164A1 (ja) * 2017-02-24 2018-08-30 株式会社Jvcケンウッド フィルタ生成装置、フィルタ生成方法、及びプログラム
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
CN108769874B (zh) * 2018-06-13 2020-10-20 广州国音科技有限公司 一种实时分离音频的方法和装置
CN109246550B (zh) * 2018-10-31 2024-06-11 北京小米移动软件有限公司 远场拾音方法、远场拾音装置及电子设备
CN113348508A (zh) * 2019-01-23 2021-09-03 索尼集团公司 电子设备、方法和计算机程序
CN110097874A (zh) * 2019-05-16 2019-08-06 上海流利说信息技术有限公司 一种发音纠正方法、装置、设备以及存储介质
CN112261528B (zh) * 2020-10-23 2022-08-26 汪洲华 一种多路定向拾音的音频输出方法及系统
CN112712819B (zh) * 2020-12-23 2022-07-26 电子科技大学 视觉辅助跨模态音频信号分离方法
CN113241091B (zh) * 2021-05-28 2022-07-12 思必驰科技股份有限公司 声音分离的增强方法及系统
CN113739728A (zh) * 2021-08-31 2021-12-03 华中科技大学 一种电磁超声回波声时计算方法及其应用
US11869478B2 (en) * 2022-03-18 2024-01-09 Qualcomm Incorporated Audio processing using sound source representations
CN116559778B (zh) * 2023-07-11 2023-09-29 海纳科德(湖北)科技有限公司 一种基于深度学习的车辆鸣笛定位方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3644674A (en) * 1969-06-30 1972-02-22 Bell Telephone Labor Inc Ambient noise suppressor
US4044204A (en) * 1976-02-02 1977-08-23 Lockheed Missiles & Space Company, Inc. Device for separating the voiced and unvoiced portions of speech
JP3424761B2 (ja) 1993-07-09 2003-07-07 ソニー株式会社 音源信号推定装置および方法
US5694474A (en) 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
JPH10191290A (ja) 1996-12-27 1998-07-21 Kyocera Corp マイクロホン内蔵型ビデオカメラ
JP4641620B2 (ja) 1998-05-11 2011-03-02 エヌエックスピー ビー ヴィ ピッチ検出の精密化
JP2000181499A (ja) 1998-12-10 2000-06-30 Nippon Hoso Kyokai <Nhk> 音源信号分離回路およびそれを用いたマイクロホン装置
AU3651200A (en) * 1999-08-17 2001-03-13 Glenayre Electronics, Inc Pitch and voicing estimation for low bit rate speech coders
AU1621201A (en) 1999-11-19 2001-05-30 Gentex Corporation Vehicle accessory microphone
JP2001166025A (ja) * 1999-12-14 2001-06-22 Matsushita Electric Ind Co Ltd 音源の方向推定方法および収音方法およびその装置
JP4419249B2 (ja) 2000-02-08 2010-02-24 ヤマハ株式会社 音響信号分析方法及び装置並びに音響信号処理方法及び装置
JP3955967B2 (ja) 2001-09-27 2007-08-08 株式会社ケンウッド 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
JP3960834B2 (ja) 2002-03-19 2007-08-15 松下電器産業株式会社 音声強調装置及び音声強調方法

Also Published As

Publication number Publication date
EP1566796B1 (de) 2008-04-30
DE602005006331D1 (de) 2008-06-12
EP1755112A1 (de) 2007-02-21
EP1566796A9 (de) 2006-12-13
DE602005007219D1 (de) 2008-07-10
EP1566796A8 (de) 2006-10-11
DE602005006331T2 (de) 2009-07-16
EP1566796A2 (de) 2005-08-24
US8073145B2 (en) 2011-12-06
DE602005006412D1 (de) 2008-06-12
EP1755111A1 (de) 2007-02-21
EP1566796A3 (de) 2005-10-26
EP1755112B1 (de) 2008-05-28
US20050195990A1 (en) 2005-09-08
CN1658283A (zh) 2005-08-24
KR101122838B1 (ko) 2012-03-22
EP1755111B1 (de) 2008-04-30
KR20060042966A (ko) 2006-05-15
CN100356445C (zh) 2007-12-19

Similar Documents

Publication Publication Date Title
DE602005006412T2 (de) Verfahren und Vorrichtung zur Grundfrequenzbestimmung
DE69732329T2 (de) Verfahren und Vorrichtung zur Trennung einer Schallquelle, Medium mit aufgezeichnetem Programm dafür, Verfahren und Vorrichtung einer Schallquellenzone und Medium mit aufgezeichnetem Programm dafür
DE602004001241T2 (de) Vorrichtung zur Unterdrückung von impulsartigen Windgeräuschen
EP2206113B1 (de) Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung
DE69816610T2 (de) Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
DE112009000805B4 (de) Rauschreduktion
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
EP1977626B1 (de) Verfahren zur aufnahme einer tonquelle mit zeitlich variabler richtcharakteristik und zur wiedergabe
DE2818204C2 (de) Signalverarbeitungsanlage zur Ableitung eines störverringerten Ausgangssignals
DE602005005186T2 (de) Verfahren und system zur schallquellen-trennung
EP1489884B1 (de) Verfahren zum Betrieb eines Hörhilfegerätes sowie Hörhilfegerät mit einem Mikrofonsystem, bei dem unterschiedliche Richtcharakteristiken einstellbar sind
DE102007030209A1 (de) Glättungsverfahren
EP2919652B1 (de) Bearbeiten von audiosignalen für eine tinnitustherapie
DE102010026884B4 (de) Verfahren zum Betreiben einer Hörvorrichtung mit zweistufiger Transformation
DE112014000945B4 (de) Sprachbetonungsgerät
EP1388145A1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
DE60304147T2 (de) Virtuelle Mikrophonanordnung
DE102018117558A1 (de) Adaptives nachfiltern
DE4335739A1 (de) Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen
EP0777326A2 (de) Verfahren und Vorrichtung zur Filterung eines Audiosignals
DE10025655B4 (de) Verfahren zum Entfernen einer unerwünschten Komponente aus einem Signal und System zum Unterscheiden zwischen unerwünschten und erwünschten Signalkomponenten
EP3349481A1 (de) Verfahren zur frequenzverzerrung eines audiosignals
Muhsina et al. Signal enhancement of source separation techniques
DE2826818A1 (de) Verfahren und vorrichtung zum erzeugen eines kuenstlichen sprechsignals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)