DE102022210839A1 - Wiener-Filter-basierte Signalwiederherstellung mit gelernter Signal-zu-Rausch-Verhältnis-Abschätzung - Google Patents

Wiener-Filter-basierte Signalwiederherstellung mit gelernter Signal-zu-Rausch-Verhältnis-Abschätzung Download PDF

Info

Publication number
DE102022210839A1
DE102022210839A1 DE102022210839.6A DE102022210839A DE102022210839A1 DE 102022210839 A1 DE102022210839 A1 DE 102022210839A1 DE 102022210839 A DE102022210839 A DE 102022210839A DE 102022210839 A1 DE102022210839 A1 DE 102022210839A1
Authority
DE
Germany
Prior art keywords
signal
training
wiener filter
noise ratio
training signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022210839.6A
Other languages
English (en)
Inventor
Johannes Meyer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to DE102022210839.6A priority Critical patent/DE102022210839A1/de
Priority to PCT/EP2023/078344 priority patent/WO2024079264A1/de
Publication of DE102022210839A1 publication Critical patent/DE102022210839A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Processing (AREA)

Abstract

Die Offenbarung betrifft ein Verfahren zur Wiener-Filter-basierten Signalwiederherstellung, mit den Verfahrensschritten: Empfangen eines Signals (g); Abschätzen eines Signal-zu-Rausch-Verhältnisses für einen Wiener-Filter-basierten Wiederherstellungsalgorithmus (v) durch einen mittels eines maschinellen Lernverfahrens gewonnenen Verarbeitungsalgorithmus (ϕ), in Abhängigkeit einer für das empfangene Signal berechneten spektralen Leistungsdichte; und Erzeugen eines wiederhergestellten Signals (ŝ) aus dem empfangenen Signal (g) und dem für den Wiener-Filter-basierten Wiederherstellungsalgorithmus (v) abgeschätzten Signal-zu-Rausch-Verhältnis mittels des Wiener-Filter-basierten Wiederherstellungsalgorithmus' (v) um die filterbasierte Signalwiederherstellung, insbesondere das Ergebnis einer Wiener-Filter-basierten-Signalwiederherstellung zu verbessern.

Description

  • Die vorliegende Offenbarung bezieht sich auf Verfahren und Vorrichtung zur Wiener-Filter-basierten Signalwiederherstellung, bei welchem ein Signal empfangen wird, ein Signal-zu-Rausch-Verhältnis des Signals für die Verwendung in einem Wiener-Filter-basierten Wiederherstellungsalgorithmus abgeschätzt wird und sodann mittels des Wiener-Filter-basierten Wiederherstellungsalgorithmus aus dem empfangenen Signal unter Berücksichtigung des abgeschätzten Signal-zu-Rausch-Verhältnisses ein ursprüngliches Signal wiederhergestellt wird, d.h. ein dem ursprünglichen Signal möglichst ähnliches (wiederhergestelltes) Signal.
  • Allgemein werden auf Signal- oder Empfangswegen übertragene Signale verschlechtert, d. h. ein ursprüngliches oder originales Signal verfälscht einerseits durch nicht-ideale Übertragung auf einen entsprechenden Empfangssensor, mathematisch dargestellt durch eine nicht-ideale Abbildungsfunktion, und andererseits durch externe Störungen, mathematisch dargestellt durch ein Störsignal. Dadurch weicht das beobachtete oder empfangene Signal stets von dem originalen Signal ab. Üblicherweise wird daher eine Wiederherstellungsfilterfunktion auf das beobachtete Signal angewandt und ein wiederhergestelltes Signal erzeugt. Das wiederhergestellte Signal ist eine Schätzung des originalen Signals, da bei der Wahl der Wiederherstellungsfunktion verschiedene Annahmen getroffen werden müssen und somit eine perfekte Wiederherstellung nicht erreicht wird, und wird als wiederhergestelltes Signal dem originalen Signal in der weiteren Verwendung gleichgestellt.
  • Werden also beispielsweise mit einem Kamerasystem Bilder erfasst, kommt es dabei je nach Situation zu physikalisch bedingten Bildverschlechterungen. Einige Bildverschlechterungen lassen sich als lineare, verschiebungsinvariante Systeme formulieren und damit anhand ihrer Impulsantwort vollständig beschreiben. Beispiele hierfür sind unscharfe Aufnahmen, Bildfehler durch suboptimale Optiken, Bewegungsunschärfe und dergleichen. Das aufgenommene Bild als beobachtetes Signal entspricht dann systemtheoretisch betrachtet einer Faltung des ungestörten Bildes, des originalen Signals, mit der Impuls-antwort der vorliegenden Bildverschlechterung, der nicht-idealen Abbildungsfunktion. In solchen Fällen ist es, je nach Schwere der Bildverschlechterung und des vorliegenden Bildrauschens als zusätzliches Störsignal in gewissem Maße möglich mittels Bildwiederherstellungs- oder Restaurationsverfahren ein Bild als wiederhergestelltes Signal zu errechnen, das dem originalen Bild sehr nahekommt. In der Theorie ist diese Aufgabe durch das sog. Wiener-Filter optimal lösbar. In der Praxis hat das Wiener-Filter jedoch den entscheidenden Nachteil, dass das für die Filterung mit dem Wiener-Filter notwendige Signal-zu-Rausch-Verhältnis nicht bekannt ist und grundsätzlich nur geschätzt werden kann. Als Folge ist das Filterergebnis des Wiener-Filters in der Regel nicht zufriedenstellend und wird entsprechend im Allgemeinen nachbearbeitet, um ein besseres Ergebnis zu erhalten.
  • In dem Artikel „A Data Driven Approach to A Priori SNR Estimation" von Suhadi S. et al., erschienen 2011 in den IEEE Transactions on Audio, Speech, and Language Processing 19, auf den Seiten 186 bis 195, wird das Wiener-Filter zur Signalverbesserung in der Sprachverarbeitung genutzt. Dabei werden zwei Faltungsnetze, sog. „convolutional neural networks“ trainiert, die im Zeitsignal Bereiche mit und ohne Sprache detektieren können. Unter der Annahme, dass das Rauschen in beiden Bereichen ähnlich ist, kann durch Verrechnen der entsprechenden Signalanteile das Signal-zu-Rausch-Verhältnis, kurz SNR, geschätzt werden. Beispielsweise für Bildsignale ist dieser Ansatz jedoch nicht anwendbar, da hier das Wiener-Filter im Ortsfrequenzbereich beschrieben ist und nicht bezüglich einzelner Pixel oder Bildregionen.
  • In dem Artikel „An Iterative SNR Estimation Algorithm for Wiener Deconvolution of Self-Similar Images Distorted by Camera Shake Blurring" von Marcelo A. P. et al., erschienen 2008 in den Proceedings of the 8th Conference on Signal, Speech and Image Processing auf den Seiten 97 bis 100 wird zuerst eine initiale Schätzung des SNR verwendet, um mit dem Wiener-Filter das Eingabebild zu restaurieren. Das Ergebnisbild wird als wiederhergestelltes Bild mit dem Eingabebild im Sinne der Ähnlichkeit der Gradienten in x- und y-Richtung verglichen, um dann das SNR entsprechend anzupassen. Daraufhin folgt die nächste Iteration.
  • In dem Artikel „SNR-Aware Convolutional Neural Network Modelling for Speech Enhancement" von Fu S.-W. et al., erschienen 2016 in Interspeech auf den Seiten 3268 bis 3772, wird ein Sprachsignal von einem Faltungsnetzwerk verarbeitet, um damit insbesondere für jeden betrachteten Zeitabschnitt das SNR zu schätzen. Allerdings wird hier nur ein mittlerer Wert für das SNR geschätzt und nicht separate SNR-Werte für alle zur Verfügung stehenden Frequenzen, wie es für das Wiener-Filter erforderlich ist.
  • Es stellt sich somit die Aufgabe, die filterbasierte Signalwiederherstellung, insbesondere das Ergebnis einer Wiener-Filter-basierten-Signalwieder-herstellung zu verbessern.
  • Diese Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Ausführungsformen ergeben sich aus den abhängigen Patentansprüchen, der Beschreibung und den Figuren.
  • Der im Folgenden vorgestellte Ansatz setzt dabei auf dem üblichen Signalmodell für Signalwiederherstellung auf wie es beispielsweise aus der Bildrestauration bekannt ist. Ein originales Signal wird durch eine nicht-ideale Abbildungsfunktion h transformiert, zusätzlich wird das transformierte Signal durch eine Störung n verfälscht und ergibt so das beobachtete bzw. empfangene Signal g. Das Anwenden einer Wiederherstellungsfunktion v auf das beobachtete bzw. empfangene Signal liefert ein wiederhergestelltes Signal ŝ. Die Signale s, g, ŝ sowie Funktionen h und v und die Störung n können dabei, wie typischerweise bei Bildsignalen der Fall, eine Abhängigkeit von einem Ort x aufweisen, in anderen Anwendungsbereichen beispielsweise auch eine Abhängigkeit von einer Frequenz f und dergleichen. Mit der vorgestellten Nomenklatur ergibt sich das Wiener-Filter für den Fall eines Bildsignals im Frequenzbereich entsprechend zu V ( f ) = 1 H ( f ) | H ( f ) | 2 | H ( f ) | 2 + 1 S N R ( f ) ,
    Figure DE102022210839A1_0001
    Dabei beschreibt H ( f ) = F { h ( x ) }
    Figure DE102022210839A1_0002
    die Übertragungsfunktion der Bildverschlechterung, also die Fouriertransformierte der Impulsantwort als nicht-ideale Abbildungsfunktion h(x). Um das Wiener-Filter nutzen zu können, muss wie bekannt, der Ausdruck SNR(f) = Sss(f)/Snn(f) möglichst korrekt bestimmt bzw. abgeschätzt werden. Dabei bezeichnet Sss(f) die nicht bekannte und damit abzuschätzende spektrale Leistungsdichte des ungestörten ursprünglichen Signals s und Snn(f) die nicht bekannte und damit abzuschätzende spektrale Leistungsdichte beispielsweise eines Rauschens als Störung n.
  • Ein Aspekt des vorgestellten Ansatzes betrifft entsprechend ein Verfahren zur Wiener-Filter-basierten Signalwiederherstellung, auch als Daten-Signalwiederherstellung bezeichenbar, mit den Verfahrensschritten des Empfangens eines Signals, dem beobachteten Signal g, einem Abschätzen des Signal-zu-Rausch-Verhältnisses für das Wiederherstellen des dem empfangenen Signal g zugrundeliegenden ursprünglichen Signals s in Form eines wiederhergestellten Signals ŝ, und dem Erzeugen des wiederhergestellten Signals ŝ aus dem empfangenen Signal g und dem abgeschätzten SNR. Die Verfahrensschritte werden dabei durch eine Signalverarbeitungseinheit, welche beispielsweise einen Mikroprozessor und entsprechende weitere elektronische Elemente enthalten kann, durchgeführt. Das Signal gehört dabei einem jeweiligen Signaltyp an, es kann sich also beispielsweise um ein Bildsignal, insbesondere ein ein- oder mehrkanaliges Bildsignal, und/oder ein Audiosignal, und/oder ein digitales Datenübertragungssignal handeln, bzw. das Signal kann jeweils ein oder mehrere Signale des entsprechenden Signaltyps „Bildsignal“ und/oder „Audiosignal“ und/oder „Datenübertragungssignal“ umfassen. Entsprechend kann das empfangene Signal durch eine Bildsensoreinheit und/oder Audiosensoreinheit und/oder eine Datenübertragungseinheit erzeugt und/oder empfangen werden oder sein. Das Signal wird auf einem jeweiligen Empfangsweg empfangen, wobei das empfangene bzw. beobachtete Signal durch ein Verfälschen des ursprünglichen Signals durch bzw. auf dem Empfangsweg geformt ist. Das Verfälschen kann dabei durch die Natur des Empfangsweges selber erfolgen, welche dann durch die nicht-ideale Abbildungsfunktion h beschrieben ist, oder durch zusätzliche Störungen die durch den Störfaktor n beschrieben sind.
  • Das Abschätzen des Signal-zu-Rausch-Verhältnisses erfolgt für einen Wiener-Filter-basierten-Wiederherstellungsalgorithmus durch einen mittels eines maschinellen Lernverfahrens gewonnenen Verarbeitungsalgorithmus. Der mittels des maschinellen Lernverfahrens gewonnene Verarbeitungsalgorithmus kann ein neuronales Netzwerk sein oder umfassen, insbesondere ein tiefes neuronales Netzwerk mit zwei oder mehr, bevorzugt drei oder mehr versteckten Schichten. Es können aber auch andere maschinelle Lernverfahren wie beispielsweise eine pixelweise Supportvektorregression genutzt werden. Das Abschätzen erfolgt in Abhängigkeit, d. h. als Funktion einer für das empfangene Signal berechneten spektralen Leistungsdichte Ŝgg.
  • Das Erzeugen des wiederhergestellten Signals ŝ erfolgt aus dem empfangenen, d. h. beobachteten Signal g und dem für den Wiener-Filter-basierten Wiederherstellungsalgorithmus v abgeschätzten Signal-zu-Rausch-Verhältnis S N R ^
    Figure DE102022210839A1_0003
    mittels des Wiener-Filter-basierten Wiederherstellungsalgorithmus v. Dabei liegt das durch den in maschinellen Lernverfahren gewonnenen Verarbeitungsalgorithmus abgeschätzte Signal-zu-Rausch-Verhältnis S N R ^
    Figure DE102022210839A1_0004
    dem Wiener-Filter des Wiener-Filter-basierten Wiederherstellungsalgorithmus v zugrunde.
  • Im Gegensatz zu bekannten Verfahren, bei welchen ein Ergebnis eines Wiener-Filter-basierten Wiederherstellungsalgorithmus nachträglich optimiert wird, setzt das hier vorgestellte Verfahren direkt an der Schwäche des Wiener-Filters an, nämlich an dem in der Praxis oft schwer korrekt zu schätzenden Signal-zu-Rausch-Verhältniss. Als Folge kommt die theoretische Optimalität des Wiener-Filters auch in praxisnahen Anwendungen voll zum Tragen - So haben verschiedene Experimente gezeigt, dass der hier vorgestellte Ansatz typischerweise das Wiederherstellen von Signalen in einer Qualität erreicht, welche die Leistungen bekannter Ansätze in gängigen Qualitätsmetriken um 10 %, d.h. 10 Prozentpunkte, übertrifft.
  • Entsprechend umfasst das Verfahren in einer vorteilhaften Ausführungsform auch ein Trainieren des mittels des maschinellen Lernverfahrens gewonnenen Verarbeitungsalgorithmus mit einer Vielzahl von Trainings-Signal-Daten-Paaren. Diese Trainings-Signal-Daten-Paare umfassen oder enthalten jeweils eine für ein Empfangs-Trainings-Signal des gleichen Signaltyps wie das später in der Anwendung empfangene Signal s berechnete spektrale Leistungsdichte und ein in Abhängigkeit eines Original-Trainings-Signals und eines vorgegebenen Rausch-Trainings-Signals berechnetes Trainings-Signal-zu-Rausch-Verhältnis. Das hier und im Folgenden beschriebene Trainieren kann dabei auch unabhängig von der Signalwiederherstellung selber, d. h. räumlich und/oder zeitlich getrennt von der eigentlichen Wiener-Filter-basierten-Signalwiederherstellung vorgenommen werden. Das hat den Vorteil, dass der mittels des maschinellen Lernverfahrens gewonnene Verarbeitungsalgorithmus in der Praxis schnell ein SNR schätzen kann, da einzig das beobachtete Signal zum Schätzen des jeweiligen SNR erforderlich ist. Da für das Trainieren auf sehr große bestehende Datenbanken von Signalen wie Bildern, Audiosignalen, und sonstigen Signalen und entsprechende nicht-ideale Abbildungsfunktionen wie Impulsantworten von Empfangswegen zurückgegriffen werden kann, ist ein solches Training auch praxistauglich.
  • In einer vorteilhaften Ausführungsform ist dabei vorgesehen, dass die bei dem Abschätzen für das empfangene Signal berechnete spektrale Leistungsdichte eine logarithmische Leistungsdichte ist, d. h. die berechnete spektrale Leistungsdichte nach dem Berechnen und vor dem weiteren Verarbeiten logarithmiert wird, und die bei dem Trainieren für das Empfangs-Trainings-Signal berechnete spektrale Leistungsdichte entsprechend eine logarithmische Leistungsdichte ist, so wie das in Abhängigkeit des Original-Trainings-Signals und des vorgegebenen Rausch-Trainings-Signals berechnete Trainings-Signal-zu-Rausch-Verhältnis ein logarithmisches Trainings-Signal-zu-Rausch-Verhältnis ist, das SNR also ebenfalls nach dem Berechnen vor einem weiteren Verarbeiten logarithmisiert wird. Es wird dann vor dem Wiederherstellen des ursprünglichen Signals das für den Wiener-Filter-basierten-Wiederherstellungs-algorithmus abgeschätzte Signal-zu-Rausch-Verhältnis exponenziert, um durch das Logarithmisieren der Eingangsgröße induzierte Verfälschungen wieder zu kompensieren. Das hat den Vorteil, dass das maschinelle Lernverfahren, gerade, wenn es sich um ein neuronales Netz, insbesondere ein tiefes neuronales Netz, handelt, besser konvergiert, da gerade bei Bilddaten bei einem Schätzen der spektralen Leistungsdichte über das vorteilhafte Betragsquadrat der diskreten Fouriertransformation ein Konvergenzverhalten der genannten maschinellen Lernverfahren beeinträchtigt wird.
  • In einer weiteren vorteilhaften Ausführungsform ist vorgesehen, dass das jeweilige Empfangs-Trainings-Signal in Abhängigkeit des jeweils zugehörigen Original-Trainings-Signals, d. h. des Original-Trainings-Signals desselben Paares, und eines jeweiligen Impulsantwort-Trainings-Signals berechnet wird. Dadurch kann mit Zugriff auf die unterschiedlichen Datenbanken die Menge der Trainingsdaten nochmals in relevanter Weise gesteigert werden und somit die Leistungsfähigkeit des Verarbeitungsalgorithmus erhöht werden. Zusätzlich kann das jeweilige Empfangs-Trainings-Signal auch von dem vorgegebenen Rausch-Trainings-Signal abhängen.
  • In einer anderen vorteilhaften Ausführungsform ist vorgesehen, dass das in Abhängigkeit des Original-Trainings-Signals und des vorgegebenen Rausch-Trainings-Signals berechnete (nichtlogarithmische) Trainings-Signal-zu-Rausch-Verhältnis den Quotienten der für das Original-Trainings-Signal berechneten spektralen Leistungsdichte mit der für das vorgegebene Rausch-Trainings-Signal berechneten spektralen Leistungsdichte umfasst, insbesondere zu diesem Quotienten proportional ist oder der Quotient ist. Das SNR wird also mit dem Quotienten oder als der Quotient der jeweiligen spektralen Leistungsdichten abgeschätzt bzw. berechnet. Dies führt gerade in Kombination mit der im letzten Absatz geschilderten Berechnungsweise des Empfangs-Trainings-Signals mit der zugehörigen spektralen Leistungsdichte zu guten Wiederherstellungsergebnissen.
  • Ein weitere Aspekt betrifft eine Signalverarbeitungseinheit zur Wiener-Filter-basierten-Signalwiederherstellung, welche ausgebildet ist, ein Verfahren nach einer der geschilderten Ausführungsformen durchzuführen, also die Wiener-Filter-basierte Signalwiederherstellung und/oder das hierfür beschriebene Trainieren des mittels maschinellen Lernverfahrens gewonnenen Verarbeitungsalgorithmus.
  • Vorteile und vorteilhafte Ausführungsformen der Signalverarbeitungseinheit entsprechend dabei Vorteilen und vorteilhaften Ausführungsformen der jeweiligen Verfahren.
  • Die vorstehend in der Beschreibung, auch im einleitenden Teil, genannten Merkmale und Merkmalskombinationen, sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen verwendbar, ohne den Rahmen der Erfindung zu verlassen. Es sind somit auch Ausführungen von der Erfindung als umfasst und offenbart anzusehen, die in den Figuren nicht explizit gezeigt und erläutert sind, jedoch durch separierte Merkmalskombinationen aus den erläuterten Ausführungen hervorgehen und erzeugbar sind. Es sind auch Ausführungen und Merkmalskombinationen als offenbart anzusehen, die somit nicht alle Merkmale eines ursprünglich formulierten unabhängigen Anspruchs aufweisen. Es sind darüber hinaus Ausführungen und Merkmalskombinationen, insbesondere durch die oben dargelegten Ausführungen, als offenbart anzusehen, die über die in den Rückbezügen der Ansprüche dargelegten Merkmalskombinationen hinausgehen oder von diesen abweichen.
  • Dabei zeigen:
    • 1 einen Signalweg für einen Empfangsweg mit anschließender Wiederherstellung gemäß einem bekannten Signalmodell; und
    • 2 einen schematischen Überblick über ein beispielhaftes Trainingsverfahren für einen mittels maschinellem Lernverfahren gewonnenen Verarbeitungsalgorithmus.
  • In den Figuren sind dabei gleiche oder funktionsgleiche Elemente mit den gleichen Bezugszeichen versehen.
  • In 1 ist ein allgemein bekanntes Signalmodell für eine Signalwiederherstellung dargestellt. Ein originales Signal s wird dabei auf dem Empfangsweg durch dessen spezifische Eigenschaften geformt, was durch eine nicht-ideale Abbildungsfunktion h modelliert wird, welche auf das originale Signal s beispielsweise durch eine Faltung angewandt wird. Das Signal wird zusätzlich durch eine externe Störung n additiv verfälscht, woraus sich insgesamt ein Signal g ergibt, welches dann beobachtet oder empfangen wird. Dieses beobachtete oder empfangene Signal g wird durch eine Wiederherstellungsfilterfunktion v, welche auch als Wiederherstellungsalgorithmus v bezeichnet werden kann, transformiert, so dass als Wiederherstellungsergebnis ein wiederhergestelltes Signal ŝ, eine Schätzung des ursprünglichen oder originalen Signals s vorliegt. Mit Bildsignalen als beispielhafte Signale, und somit von einem Ort x abhängigen Signale bzw. Funktionen s, h, n, g, v, ŝ ergibt sich das Wiener-Filter im Frequenzbereich zu der bereits vorgestellten Formel: V ( f ) = 1 H ( f ) | H ( f ) | 2 | H ( f ) | 2 + 1 S N R ( f )
    Figure DE102022210839A1_0005
    Entscheidend für die Qualität des Wiederherstellungsergebnisses ist die möglichst genaue Bestimmung des Signal-zu-Rausch-Verhältnisses SNR = Sss/Snn, wobei im vorliegenden Beispiel die jeweiligen Termini SNR, Sss und Snn über eine Fouriertransformation durch den Vektor x mit der Frequenz f verknüpft sind.
  • In 2 ist eine beispielhafte Ausführungsform eines Verfahrens zum Trainieren eines mittels maschinellem Lernverfahren gewonnenen Verarbeitungsalgorithmus, hier eines neuronalen Netzes ϕ, schematisch dargestellt. Das neuronale Netz ϕ wird dahingehend trainiert, dass, basierend auf einer Schätzung der spektralen Leistungsdichte Ŝgg des empfangenen Signals g, beispielsweise eines beobachteten Bildes g(x) das gesuchte SNR, im Fall eines ortsabhängigen Bildes g(x) das gesuchte SNR als S N R ^ ( f ) ,
    Figure DE102022210839A1_0006
    abschätzt. Es gilt somit ϕ ( S ^ g g ) = S N R ^ .
    Figure DE102022210839A1_0007
    Dabei gilt S ^ g g ( f ) = | F ( g ( x ) ) | 2
    Figure DE102022210839A1_0008
    mit der Fouriertransformation F { . }
    Figure DE102022210839A1_0009
    und der Schätzung des Signal-zu-Rausch-Verhältnisses S N R ^ .
    Figure DE102022210839A1_0010
    In 2 ist die Fouriertransformation F { . }
    Figure DE102022210839A1_0011
    beispielshaft als diskrete Fouriertransformation DFT {.} gewählt.
  • Im gezeigten Beispiel wird für das Trainieren des neuronalen Netzes ϕ aus einer ersten Datenbank D1 ein originales Signal s, vorliegend ein Bild s(x) ausgewählt. Aus einer zweiten Datenbank D2, welche eine beliebige Signalverschlechterungsdatenbank sein kann, wird eine entsprechende Impulsantwort als nicht lineare Abbildungsfunktion h, hier h(x), ausgewählt. Das originale Signal s wird mit der Impulsantwort als nicht-idealer Abbildungsfunktion h gefaltet, um im Training die Signalverschlechterung zu simulieren. Für Bilddaten können beispielsweise die Bildverschlechterungsdatenbanken aus dem Artikel "Understanding and Evaluating Blind Deconvolution Algorithms" von Levin A. et al., erschienen 2009 in der IEEE Conference on Computervision and Pattern Recognition auf den Seiten 1964 bis 1971 oder aus dem Artikel "Edge-Based Blur Kernel Estimation using Patch Priors" von Libin Sun et al., erschienen 2013 in der IEEE International Conference on Computational Photography auf Seiten 1 bis 8, genutzt werden. Zu dem Faltungsergebnis wird die Störung n, beispielsweise als normal verteiltes Rauschen n(x) simuliert, addiert. Das Ergebnis ist ein simuliertes empfangenes Signal g, hier g(x). Von diesem simulierten empfangenen Signal g wird der Logarithmus des Betragsquadrates der diskreten Fouriertransformation DFT {.} berechnet, was das Eingangssignal log Ŝgg für das neuronale Netz ϕ darstellt.
  • Zudem wird anhand des logarithmierten Quotienten log | DFT { s ( x ) } | 2 | DFT { n ( x ) } | 2
    Figure DE102022210839A1_0012
    das später bei der Signalwiederherstellung von dem Verarbeitungsalgorithmus, hier dem neuronalen Netz ϕ, geschätzte logarithmisierte Signal-zu-Rausch-Verhältnis log S N R ^
    Figure DE102022210839A1_0013
    berechnet, welches eine Referenzeingabe für das Training des neuronalen Netzwerks ϕ bestimmt oder bildet.
  • Das Verwenden der Logarithmen log Ŝgg und log S N R ^
    Figure DE102022210839A1_0014
    zum Training des neuronalen Netzes statt Ŝgg und S N R ^
    Figure DE102022210839A1_0015
    dient der Reduktion der Dynamik der sich ergebenden Werte. Entsprechend muss nach der Auswertung von ϕ der von dem neuronalen Netz ϕ ausgegebene Wert exponenziert werden, und das Gesuchte, durch den Verarbeitungsalgorithmus gewonnene Signal-zu-Rausch-Verhältnis S N R ^
    Figure DE102022210839A1_0016
    ist dann gegeben durch S N R ^ ( f ) = exp ϕ ( log S ^ g g ( f ) ) .
    Figure DE102022210839A1_0017
  • Die zur Rekonstruktion notwendige Übertragungsfunktion h bzw. deren Fouriertransformierte H der Signalverschlechterung kann mit anderen existierenden Verfahren berechnet werden. Handelt es sich bei den Signalen um Bilddaten, so kann beispielsweise bei Bewegungsunschärfe anhand der Daten eines Beschleunigungssensors oder eines Gyroskops des Aufnahmegerätes, beispielsweise eines Smartphones, geschätzt werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • „A Data Driven Approach to A Priori SNR Estimation" von Suhadi S. et al., erschienen 2011 in den IEEE Transactions on Audio, Speech, and Language Processing 19, auf den Seiten 186 bis 195 [0004]
    • „An Iterative SNR Estimation Algorithm for Wiener Deconvolution of Self-Similar Images Distorted by Camera Shake Blurring" von Marcelo A. P. et al., erschienen 2008 in den Proceedings of the 8th Conference on Signal, Speech and Image Processing auf den Seiten 97 bis 100 [0005]
    • „SNR-Aware Convolutional Neural Network Modelling for Speech Enhancement" von Fu S.-W. et al., erschienen 2016 in Interspeech auf den Seiten 3268 bis 3772 [0006]
    • "Understanding and Evaluating Blind Deconvolution Algorithms" von Levin A. et al., erschienen 2009 in der IEEE Conference on Computervision and Pattern Recognition auf den Seiten 1964 bis 1971 [0025]
    • "Edge-Based Blur Kernel Estimation using Patch Priors" von Libin Sun et al., erschienen 2013 in der IEEE International Conference on Computational Photography auf Seiten 1 bis 8 [0025]

Claims (10)

  1. Verfahren zur Wiener-Filter-basierten Signalwiederherstellung, mit den Verfahrensschritten: - Empfangen eines Signals (g); - Abschätzen eines Signal-zu-Rausch-Verhältnisses für einen Wiener-Filter-basierten Wiederherstellungsalgorithmus (v) durch einen mittels eines maschinellen Lernverfahrens gewonnenen Verarbeitungsalgorithmus (ϕ), in Abhängigkeit einer für das empfangene Signal berechneten spektralen Leistungsdichte; - Erzeugen eines wiederhergestellten Signals (ŝ) aus dem empfangenen Signal (g) und dem für den Wiener-Filter-basierten Wiederherstellungsalgorithmus (v) abgeschätzten Signal-zu-Rausch-Verhältnis mittels des Wiener-Filter-basierten Wiederherstellungsalgorithmus' (v).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Signal ein Bildsignal und/oder ein Audiosignal und/oder ein digitales Datenübertragungssignal ist oder umfasst.
  3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Signal durch eine Bildsensoreinheit und/oder durch eine Audiosensoreinheit und/oder eine Datenübertragungseinheit erzeugt.
  4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der mittels des maschinellen Lernverfahrens gewonnenen Verarbeitungsalgorithmus (ϕ) ein neurales Netzwerk, insbesondere ein tiefes neurales Netzwerk, umfasst.
  5. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch ein - Trainieren des mittels des maschinellen Lernverfahrens gewonnenen Verarbeitungsalgorithmus (ϕ) mit einer Vielzahl von Trainings-Signal-Daten-Paaren, welche jeweils eine für ein Empfangs-Trainings-Signal (g) berechnete spektrale Leistungsdichte und ein in Abhängigkeit eines Original-Trainings-Signals (s) und eines vorgegebenen Rausch-Trainings-Signals (n) berechnetes Trainings-Signal-zu-Rausch-Verhältnis umfassen.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass - die bei dem Abschätzen für das empfangene Signal (g) berechnete spektrale Leistungsdichte eine logarithmische Leistungsdichte ist, und - die bei dem Trainieren für das Empfangs-Trainings-Signal (g) berechnete spektrale Leistungsdichte eine logarithmische Leistungsdichte und das in Abhängigkeit des Original-Trainings-Signals (s) und des vorgegebenen Rausch-Trainings-Signals (s) berechnete Trainings-Signal-zu-Rausch-Verhältnis ein logarithmisches Trainings-Signal-zu-Rausch-Verhältnis ist, wobei - vor dem Erzeugen des wiederhergestellten Signals (ŝ) das für den Wiener-Filter-basierten Wiederherstellungsalgorithmus (v) abgeschätzte Signal-zu-Rausch-Verhältnis exponenziert wird.
  7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass das jeweilige Empfangs-Trainings-Signal (g) in Abhängigkeit des jeweils zugehörigen Original-Trainings-Signals (s) und eines jeweiligen Impulsantwort-Trainings-Signals (h) berechnet wird.
  8. Verfahren nach Anspruch 5 oder 6 oder 7, dadurch gekennzeichnet, dass das in Abhängigkeit des Original-Trainings-Signals (s) und des vorgegebenen Rausch-Trainings-Signals (n) berechnete Trainings-Signal-zu-Rausch-Verhältnis den Quotienten der für das Original-Trainings-Signal (s) berechneten spektralen Leistungsdichte mit der für das vorgegebene Rausch-Trainings-Signal (n) berechneten spektralen Leistungsdichte umfasst, insbesondere zu diesem proportional ist oder der Quotient ist.
  9. Verfahren zum Trainieren des per maschinellen Lernverfahrens für einen Wiener-Filter-basierten Wiederherstellungsalgorithmus (v) gewonnenen Verarbeitungsalgorithmus (ϕ) nach einem der vorhergehenden Ansprüche.
  10. Signalverarbeitungseinheit zur Wiener-Filter-basierten Signalwiederherstellung, welche ausgebildet ist, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.
DE102022210839.6A 2022-10-14 2022-10-14 Wiener-Filter-basierte Signalwiederherstellung mit gelernter Signal-zu-Rausch-Verhältnis-Abschätzung Pending DE102022210839A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102022210839.6A DE102022210839A1 (de) 2022-10-14 2022-10-14 Wiener-Filter-basierte Signalwiederherstellung mit gelernter Signal-zu-Rausch-Verhältnis-Abschätzung
PCT/EP2023/078344 WO2024079264A1 (de) 2022-10-14 2023-10-12 Wiener-filter-basierte signalwiederherstellung mit gelernter signal-zu-rausch-verhältnis-abschätzung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022210839.6A DE102022210839A1 (de) 2022-10-14 2022-10-14 Wiener-Filter-basierte Signalwiederherstellung mit gelernter Signal-zu-Rausch-Verhältnis-Abschätzung

Publications (1)

Publication Number Publication Date
DE102022210839A1 true DE102022210839A1 (de) 2024-04-25

Family

ID=88413602

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022210839.6A Pending DE102022210839A1 (de) 2022-10-14 2022-10-14 Wiener-Filter-basierte Signalwiederherstellung mit gelernter Signal-zu-Rausch-Verhältnis-Abschätzung

Country Status (2)

Country Link
DE (1) DE102022210839A1 (de)
WO (1) WO2024079264A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022026948A1 (en) 2020-07-31 2022-02-03 Dolby Laboratories Licensing Corporation Noise reduction using machine learning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022026948A1 (en) 2020-07-31 2022-02-03 Dolby Laboratories Licensing Corporation Noise reduction using machine learning

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
"Edge-Based Blur Kernel Estimation using Patch Priors" von Libin Sun et al., erschienen 2013 in der IEEE International Conference on Computational Photography auf Seiten 1 bis 8
"Understanding and Evaluating Blind Deconvolution Algorithms" von Levin A. et al., erschienen 2009 in der IEEE Conference on Computervision and Pattern Recognition auf den Seiten 1964 bis 1971
„A Data Driven Approach to A Priori SNR Estimation" von Suhadi S. et al., erschienen 2011 in den IEEE Transactions on Audio, Speech, and Language Processing 19, auf den Seiten 186 bis 195
„An Iterative SNR Estimation Algorithm for Wiener Deconvolution of Self-Similar Images Distorted by Camera Shake Blurring" von Marcelo A. P. et al., erschienen 2008 in den Proceedings of the 8th Conference on Signal, Speech and Image Processing auf den Seiten 97 bis 100
„SNR-Aware Convolutional Neural Network Modelling for Speech Enhancement" von Fu S.-W. et al., erschienen 2016 in Interspeech auf den Seiten 3268 bis 3772
FU, Szu-Wei; TSAO, Yu; LU, Xugang: SNR-aware convolutional neural network modeling for speech enhancement. In: 17th Annual Conference of the International Speech Communication Association (INTERSPEECH 2016), Understanding Speech Processing in Humans and Machines, 8-12 September 2016, San Francisco, California, USA. Vol. 5, 2016, S. 3768-3772. ISBN 978-1-5108-3313-5.
LEVIN, Anat [u.a.]: Understanding and evaluating blind deconvolution algorithms. In: 2009 IEEE Conference on Computer Vision and Pattern Recognition, 20-25 June 2009, Miami, Florida, USA. 2009, S. 1964-1971. ISBN 978-1-4244-3992-8. DOI: 10.1109/CVPR.2009.5206815. URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5206815 [abgerufen am 25.10.2022].
PEREYRA, Marcelo, A.; JACOBY, Daniel: An iterative SNR estimation algorithm for wiener deconvolution of self-similar images distorted by camera shake blurring. In: Proceedings of the 8th Conference on Signal, Speech and Image Processing, 23-25 September 2008, Santander Cantabria, Spain. 2008, S. 1-4. ISBN 978-960-6474-008-6.
RIBAS, D. [et. al.]: Wiener Filter and Deep Neural Networks: A Well-Balanced Pair for Speech Enhancement. In: Applied Sciences, 12(18), 2022, S. 1 – 14. - ISSN: 2076-3417
SUHADI, Suhadi; LAST, Carsten; FINGSCHEIDT, Tim: A data-driven approach to A priori SNR estimation. In: IEEE Transactions on Audio, Speech, and Language Processing, Vol. 19, 2011, No. 1, S. 186-195. ISSN 1558-7924 (E); 1558-7916 (P). DOI: 10.1109/TASL.2010.2045799. URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5430903 [abgerufen am 25.10.2022].
SUN, Libin [u.a.]: Edge-based blur kernel estimation using patch priors. In: IEEE International Conference on Computational Photography (ICCP), 19-21 April 2013, Cambridge, Massachusetts, USA. 2013, S. 1-8. ISBN 978-1-4673-6463-8. DOI: 10.1109/ICCPhot.2013.6528301. URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6528301 [abgerufen am 25.10.2022].
TAN, H. [et. al.]: Pixelwise Estimation of Signal-Dependent Image Noise Using Deep Residual Learning. In: Comput Intell Neurosci. 2019, - ISSN: 1687-5273

Also Published As

Publication number Publication date
WO2024079264A1 (de) 2024-04-18

Similar Documents

Publication Publication Date Title
DE60030456T2 (de) Verfahren und system zur verbesserung von digitalbildern
DE602005004694T2 (de) Verfahren und Vorrichtung für lokal adaptive Bildverarbeitungsfilter
DE69812800T2 (de) Verfahren und Gerät zur Bildverbesserung
DE60300462T2 (de) Verfahren zur schärfung eines digitalbildes mit signal-rausch-bewertung
DE112009004059T5 (de) Verfahren zum Entfernen von Unschärfe von einem Bild und Aufzeichnungsmedium, auf dem das Verfahren aufgezeichnet ist
DE60020795T2 (de) Echtzeitmodellierung des Verhaltens menschlicher Sehvermögenssysteme
DE102019112383A1 (de) Neuronalnetzwerk zur Sprachentrauschung, das mit tiefen Merkmalsverlusten trainiert wird
DE60115546T2 (de) Verfahren und Vorrichtung zur Verbesserung des Signal-Rauschabstandes unter Verwendung von Wellenstückchen und Schwellenwertverarbeitung von Frequenzen
DE60300097T2 (de) Verfahren zur Schärfung eines Digitalbildes ohne Verstärkungsrauschen
DE102021103293A1 (de) Ein Bayes'sches Bildentrauschungsverfahren, das auf Verteilungsbeschränkungen von rauschhaltigen Bildern basiert
DE102004007637A1 (de) Verfahren zum Erzeugen eines Bildes mit erhöhter Auflösung unter Verwendung einer Mehrzahl von Bildern mit niedriger Auflösung
DE602004001366T2 (de) Gewichtete, überbestimmte Rauschunterdrückung
DE19827034A1 (de) Iteratives Filtersystem für medizinische Bilder
DE2658676A1 (de) Verfahren und vorrichtung zur unterdrueckung des geraeusches eines eingangs- bzw. bas-signals
DE112020000448T5 (de) Kameraselbstkalibrierungsnetz
DE10114732A1 (de) Verfahren zur aktiven Rauschunterdrückung unter Verwendung der Analyse unabhängiger Komponenten
DE102008023915A1 (de) Verfahren zur Einstellung von wenigstens einer Stellgröße eines Entrauschungsfilters in medizinischen Bildern
Chierchia et al. An epigraphical convex optimization approach for multicomponent image restoration using non-local structure tensor
DE102020134755A1 (de) Verarbeiten von videoframes über neuronales faltungsnetzwerk durch verwenden von statistiken vorhergehender frames
DE112020005792T5 (de) Systeme und verfahren zum entrauschen von radardaten
DE102022210839A1 (de) Wiener-Filter-basierte Signalwiederherstellung mit gelernter Signal-zu-Rausch-Verhältnis-Abschätzung
DE102015120967A1 (de) Verfahren und Vorrichtung zur Bildkorrektur
WO2018224444A1 (de) Verfahren und vorrichtung zur bildkorrektur
DE4123983C2 (de) Iteratives Verfahren zur hochauflösenden Spektralanalyse und Extrapolation von Signalen
DE102017212339A1 (de) Verfahren und Vorrichtung zur Bewertung von Bildausschnitten für eine Korrespondenzbildung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication