DE60315522T2

DE60315522T2 - Klickgeräusch-erkennung in einem digitalen audiosignal

Info

Publication number: DE60315522T2
Application number: DE60315522T
Authority: DE
Inventors: Zsolt Saffer
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 2003-08-18
Filing date: 2003-08-18
Publication date: 2008-04-30
Anticipated expiration: 2023-08-19
Also published as: EP1661125A1; JP2007516450A; EP1661125B1; US20060287857A1; ATE369602T1; DE60315522D1; AU2003249441A1; CN100559470C; US7729906B2; WO2005017878A1; JP4739023B2; CN1860528A

Description

Die Erfindung bezieht sich auf ein Verfahren zum Erkennen eines Rauschsignals in einem digitalen Audiosignal.
Die Erfindung bezieht sich ferner auf eine Vorrichtung zum Verarbeiten eines digitalen Audiosignals, wobei die Vorrichtung mit Rauschsignal-Erkennungsmitteln ausgestattet ist, die so ausgelegt sind, dass sie ein Rauschsignal in dem Audiosignal erkennen.
Die Erfindung bezieht sich ferner auf ein Computerprogrammprodukt, das für das Erkennen eines Rauschsignals in einem digitalen Audiosignal geeignet ist.
Die Erfindung bezieht sich ferner auf einen Computer, der das Computerprogrammprodukt gemäß dem vorherigen Abschnitt ausführt.
Ein Verfahren dieser Art des oben im ersten Abschnitt erwähnten allgemeinen Typs und eine Vorrichtung dieser Art des oben im zweiten Abschnitt erwähnten allgemeinen Typs und ein Computerprogrammprodukt dieser Art des oben im dritten Abschnitt erwähnten allgemeinen Typs und ein Computer dieser Art des oben im vierten Abschnitt erwähnten allgemeinen Typs werden von der Anmelderin in Verbindung mit einem Spracherkennungssystem vertrieben und sind daher bekannt.
In dem bekannten Spracherkennungssystem wird dem Spracherkennungssystem über ein Mikrofon gesprochene Sprache in Form eines Audiosignals zugeführt und digitalisiert. Das dadurch erhaltene digitale Audiosignal umfasst die Stimme darstellende Sprachsignale und Hintergrundrauschen darstellende Hintergrundsignale und weitere Rauschsignale, wobei die Rauschsignale unter bestimmten Umständen den Sprachsignalen ähnlich sein können und auch in großer Nähe zu ihnen auftreten könnten. Dieses digitale Audiosignal wird einer Spektralanalyse und weiterer Verarbeitung unterzogen, woraus sich eine Darstellung des digitalen Audiosignals in einer so genannten Cepstral-Darstellung ergibt. Die Rauschsignale können fälschlicherweise als Worte erkannt werden, die überhaupt nicht gesprochen wurden. Rauschsignale in einem digitalen Audiosignal haben ferner die unvorteilhafte Auswirkung, dass sie den Zuhörer bei der Wiedergabe eines derartigen Audiosignals irritieren können. Aus diesem Grund ist das Spracherkennungssystem mit Rauschsignal-Erkennungsmitteln ausgestattet, die so ausgelegt sind, dass sie Rauschsignale zum Zweck der weiteren Behandlung dieser erkannten Rauschsignale erkennen.
In dem bekannten Spracherkennungssystem besteht das Problem, dass Rauschsignale und insbesondere Klickgeräuschsignale, die während einer relativ kurzen Zeitspanne auftreten, nur in relativ langen stillen Pausen erkannt werden können, in denen das Audiosignal kein Sprachsignal sondern lediglich ein Hintergrundsignal darstellt, weshalb Rauschsignale, die in unmittelbarer Nähe oder Nachbarschaft von Sprachsignalen auftreten, überhaupt nicht erkannt werden können.
Das Dokument US 5.586.192 A bezieht sich auf ein Verfahren und eine Vorrichtung zum Erkennen von pulsierenden Störsignalen in einem Tonsignal, insbesondere in einem Stereo-Multiplex-FM-Signal. Dieses Verfahren ist durch den Empfang von abgetasteten Signalwerten des Audiosignals, die Speicherung von in einem Zeitfenster um einen gegebenen abgetasteten Signalwert liegenden abgetasteten Signalwerten, den Vergleich des Pegels des gegebenen abgetasteten Signalwertes mit demjenigen von vorausgehenden und nachfolgenden abgetasteten Signalwerten in dem Zeitfenster und die Identifizierung des gegebenen abgetasteten Signalwertes als ein pulsierendes Störsignal auf der Grundlage des Vergleichs des Pegels des gegebenen abgetasteten Signalwertes mit den Pegeln der genannten vorausgehenden und nachfolgenden Signalabtastwerte gekennzeichnet. Dieses Dokument bezieht sich nicht auf die speziellen Probleme, die wie oben erwähnt in Spracherkennungssystemen auftreten.
Der Erfindung liegt die Aufgabe zugrunde, das oben dargelegte Problem in einem Verfahren des oben im ersten Abschnitt erwähnten allgemeinen Typs und in einer Vorrichtung des oben im zweiten Abschnitt erwähnten allgemeinen Typs und einem Computerprogrammprodukt des oben im dritten Abschnitt erwähnten allgemeinen Typs und einem Computer des oben im vierten Abschnitt erwähnten allgemeinen Typs zu beseitigen und ein verbessertes Verfahren und eine verbesserte Vorrichtung und ein verbessertes Computerprogrammprodukt und einen verbesserten Computer zu schaffen.
Zur Lösung der oben erwähnten Aufgabe kann ein erfindungsgemäßes Verfahren, wie es in Anspruch 1 definiert ist, wie unten beschrieben gekennzeichnet sein, nämlich: Ein Verfahren zum Erkennen eines Rauschsignals in einem digitalen Audiosignal, wobei das digitale Audiosignal in aufeinander folgendes Signalabschnitte unterteilt wird und wobei der Energiegehalt von aufeinander folgenden Signalabschnitten ermittelt wird und wobei der Energiegehalt eines Signalabschnitts in Bezug auf einen Energieschwellenwert ausgewertet wird und wobei das Auftreten von mindestens einem Signalabschnitt mit hoher Energie, dessen Energiegehalt über dem Energieschwellenwert liegt, und das Auftreten von mindestens einem Signalabschnitt, der dem mindestens einen Signalabschnitt mit hoher Energie vorausgeht und dessen Energiegehalt unterhalb des Energieschwellenwertes liegt, und das Auftreten von mindestens einem Signalabschnitt, der dem mindestens einen Signalabschnitt mit hoher Energie folgt und dessen Energiegehalt unterhalb des Energieschwellenwertes liegt, erkannt werden, und wobei eine Anzahl von Signalabschnitten, die dem mindestens einen Signalabschnitt mit hoher Energie vorausgehen und eine Anzahl von Signalabschnitten mit hoher Energie und eine Anzahl von Signalabschnitten, die dem Signalabschnitt mit hoher Energie folgen, gezählt werden und festgestellt wird, ob der Energiegehalt von 1 aufeinander folgenden Signalabschnitten mit hoher Energie den Energieschwellenwert übersteigt, und festgestellt wird, ob der Energiegehalt von m aufeinander folgenden Signalabschnitten, die den Signalabschnitten mit hoher Energie vorausgehen, unterhalb des Energieschwellenwertes liegen, und ferner festgestellt wird, ob der Energiegehalt von n aufeinander folgenden Signalabschnitten, die den Signalabschnitten mit hoher Energie folgen, unterhalb des Energieschwellenwertes liegen.
Ferner werden erfindungsgemäß eine Vorrichtung, wie sie in Anspruch 8 definiert ist, ein Computerprogrammprodukt, wie es in Anspruch 10 definiert ist, und ein Computer, wie er in Anspruch 12 definiert ist, geschaffen.
Kraft der Schaffung der erfindungsgemäßen Maßnahmen wird der Vorteil erzielt, dass Klickgeräuschsignale mit der höchstmöglichen Zuverlässigkeit erkannt werden, und dass diese Erkennung auf der Grundlage einer Darstellung des Audiosignals hinsichtlich der Zeit stattfindet, wobei ein in dieser Darstellung hinsichtlich der Zeit erstelltes Energiemuster verwendet und die Existenz dieses Energiemusters hinsichtlich der Zeit berücksichtigt wird, woraufhin komplizierte Transformationsverfahren zum Transformieren der Darstellung des Audiosignals hinsichtlich der Zeit in eine andere Darstellung als diejenige hinsichtlich der Zeit vollständig entfallen und die Erfindung daher lediglich eine relativ geringe Rechenleistung erfordert und eine schnelle und einfache Erkennung dieser Rauschsignale unterstützt wird. Das vorliegende Verfahren bietet den Vorteil, dass eine eindeutige Erkennung eines Klickgeräuschsignals in dem Audiosignal sichergestellt wird, wobei eine falsche Erkennung von Nutzsignalen vermieden wird, die ihm ähnlich sind, da in einem Nutzsignal, das Sprache darstellt, eine Pause, die n Signalabschnitte enthält, praktisch nicht innerhalb eines Wort auftritt, und da ein Energiemuster mit m und 1 Signalabschnitten das Ende eines gesprochenen Worte, bekannt als Halbsilbe, ausschließt.
Bei einer erfindungsgemäßen Lösung hat es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch 2 zu schaffen. Daraus entsteht der Vorteil, dass eine Auswertung des Energiegehalts von Signalabschnitten in einer standardisierten Darstellung mit Dezibel als Einheit relativ einfach durchzuführen ist.
Bei einer erfindungsgemäßen Lösung hat es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch 3 zu schaffen. Daraus entsteht der Vorteil, dass der Energieschwellenwert quasi kontinuierlich und daher immer im richtigen Verhältnis zum aktuellen Signalpegel des Audiosignals in jedem Fall ermittelt wird, so dass eine fehlerhafte Erkennung oder überhaupt keine Erkennung von Klickgeräuschsignalen aufgrund einer falschen Definition oder Annäherung des aktuellen Energieschwellenwertes praktisch ausgeschlossen wird.
Bei einer erfindungsgemäßen Lösung kann beispielsweise vorgesehen werden, dass die Dauer der Signalabschnitte so ausgewählt wird, dass sie zwischen 1 ms und 40 ms liegt. Es hat sich jedoch als besonders vorteilhaft erwiesen, die Merkmale nach Anspruch 4 zu schaffen, da infolgedessen auf verschiedene Eigenschaften des Audiosignals in einem bevorzugten Wertebereich mit der höchstmöglichen Dynamik reagiert werden kann, d. h. durch Signalabschnitte unterschiedlicher Länge.
Bei einer erfindungsgemäßen Lösung hat es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch 5 zu schaffen. Daraus entsteht der Vorteil, dass diese gleichmäßige zeitliche Auflösung des Audiosignals eine genaue Erkennung eines Klickgeräuschsignals unterstützt.
Bei einer erfindungsgemäßen Lösung hat es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch 6 zu schaffen. Bei einer erfindungsgemäßen Lösung können auch Vorkehrungen getroffen werden, um festzustellen, ob 1 im Bereich zwischen 1 und 9 liegt, und um festzustellen, ob m gleich oder größer als ein Wert aus dem Bereich zwischen 6 und 11 ist, und um festzustellen, ob n gleich oder größer als ein Wert aus dem Bereich zwischen 27 und 38 ist.
Bei einer erfindungsgemäßen Lösung hat es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch 7 zu schaffen. Daraus entsteht der Vorteil, dass sogar Klickgeräuschsignale, die wiederholt auftreten, auf einfache und zuverlässige Art von Nutzsignalen im Audiosignal unterschieden werden können und daher zuverlässig zu erkennen sind.
Bei einer erfindungsgemäßen Lösung hat es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch 9 zu schaffen. Daraus entsteht der Vorteil, dass Rauschsignale praktisch in Echtzeit aus dem Audiosignal entfernt werden können und dadurch ein Audiosignal zur Verfügung gestellt werden kann, das frei von Rauschsignalen ist.
Die oben genannten und weitere Aspekte der Erfindung werden nachfolgend erläutert.
Die Erfindung wird im Folgenden unter Bezugnahme auf Beispiele von Ausführungsformen beschrieben, die in den Zeichnungen dargestellt sind, auf die die Erfindung jedoch nicht beschränkt ist. Es zeigen:
1 als schematisches Blockschaltbild eine Vorrichtung gemäß einem ersten Ausführungsbeispiel der Erfindung;
2 in gleicher Weise wie in 1 ein für die Erfindung relevantes Detail der Vorrichtung gemäß 1;
3 in Form von zwei Diagrammen ein Audiosignal, das ein Klickgeräuschsignal aufweist, wobei das Audiosignal mit Hilfe der erfindungsgemäßen Vorrichtung verarbeitet werden kann, und eine Sequenz mit Energiegehalten des Audiosignals, die Signalabschnitten des Audiosignals entsprechen;
4 analog zu 3 ein Audiosignal, das mehrere Klickgeräuschsignale aufweist und eine Sequenz mit Energiegehalten;
5 in Form eines Diagramms ein Histogramm der Energiegehalte des Audiosignals gemäß 3;
6 in Form eines Blockschaltbildes ein Datenverarbeitungssystem, das mit einem erfindungsgemäßen Computer ausgerüstet ist, mit dem Klickgeräuschsignale in einem digitalen Audiosignale mit Hilfe eines erfindungsgemäßen Computerprogrammprodukts erkannt werden können;
7 in Form eines Ablaufplans ein erfindungsgemäßes Verfahren zum Erkennen von Klickgeräuschsignalen in einem digitalen Audiosignal.
1 zeigt eine Vorrichtung 1 zum Verarbeiten eines digitalen Audiosignals DASI, wobei die Vorrichtung 1 als mobiles Diktiergerät ausgeführt ist.
Das digitale Audiosignal DASI kann aus einem akustischen Eingangsaudiosignal ASI erzeugt werden, das in dem oberen Diagramm in 3 während eines ersten Zeitbereichs dargestellt ist, wobei die Amplitude A des Audiosignals ASI als Funktion der Zeit t dargestellt ist. Das Audiosignal ASI besteht aus einem Sprachsignal SP und einem Hintergrundsignal BG, das während einer Pause innerhalb des Sprachsignals SP auftritt, und einem einzigen Rauschsignal PS, das während einer relativ kurzen Zeitspanne während der Pause auftritt. Der Beginn der Pause ist gekennzeichnet durch eine Zeitmarke PB. Das Ende der Pause ist gekennzeichnet durch eine Zeitmarke PE. Der Beginn des Rauschsignals PS1 ist gekennzeichnet durch eine Zeitmarke SB1. Das Ende des Rauschsignals PS1 ist gekennzeichnet durch eine Zeitmarke SE1. In dem oberen Diagramm in 4 ist das Eingangsaudiosignal ASI in gleicher Weise wie das obere Diagramm in 3 während eines zweiten Zeitbereichs dargestellt. Im Gegensatz zum ersten Zeitbereich treten im zweiten Zeitbereich nach dem Rauschsignal PS1 zwei weitere Rauschsignale PS2 und PS3 auf, deren Struktur derjenigen des Rauschsignals PS1 entspricht. Das Rauschsignal PS2 ist begrenzt durch die Zeitmarken SB2 und SE2. Das Rauschsignal PS3 ist begrenzt durch die Zeitmarken SB3 und SE3. Die Rauschsignale PS1 oder PS2 und PS3 wurden jeweils beim Betrieb des mobilen Diktiergerätes erzeugt. Es ist jedoch anzumerken, dass Rauschsignale PS1, PS2 und PS3 dieser Art auch durch Ereignisse in der Nähe des Diktiergerätes erzeugt werden können. Aufgrund des Maßstabs ist das Audiosignal ASI in den 3 und 4 nicht für mehrere Zeitbereiche I dargestellt.
Die Vorrichtung 1 ist mit Empfangsmitteln 2 ausgestattet, die so ausgelegt sind, dass sie das Eingangsaudiosignal ASI empfangen. Die Empfangsmittel 2 sind mit einem in 1 nicht dargestellten Mikrofon und mit einem in 1 nicht dargestellten Empfangsverstärker mit einer automatischen Verstärkungsregelung und mit einem in 1 nicht dargestellten A-D-Umsetzer ausgestattet. Die Empfangsmittel 2 sind so ausgelegt, dass sie ein digitales Audiosignal DASI erzeugen und liefern, das das Eingangsaudiosignal ASI darstellt, wobei das digitale Audiosignal DASI in einem 16-Bit-Format mit Pulscode-Modulation, kurz PCM, vorliegt.
Die Vorrichtung 1 ist ferner mit Kompressionsmitteln 3 ausgestattet, die so ausgelegt sind, dass sie das digitale Audiosignal DASI empfangen und ein komprimiertes Audiosignal CAS erzeugen und liefern, wobei das komprimierte Audiosignal CAS ein Datenvolumen aufweist, das durch Vergleich mit dem digitalen Audiosignal DASI reduziert wird. In dem vorliegenden Fall sind die Kompressionsmittel 3 so ausgelegt, dass sie ein komprimiertes Audiosignal CAS erzeugen, wobei das Audiosignal CAS in dem vorliegenden Fall gemäß dem Kompressionsstandard CELP (Code Excited Linear Prediction) komprimiert wurde. Es ist jedoch an dieser Stelle anzumerken, dass jegliches andere Kompressionsverfahren ebenfalls verwendet oder dass das digitale Audiosignal DASI ohne Kompression weiterverarbeitet werden kann.
Die Kompressionsmittel 3 sind ferner für den Schreibzugriff auf erste Speichermittel 4 ausgelegt, wobei die ersten Speichermittel 4 vorgesehen sind, um das komprimierte Audiosignal CAS zu speichern, so dass das komprimierte Audiosignal CAS in den ersten Speichermitteln 4 gespeichert werden kann.
Die Vorrichtung 1 ist ferner mit Dekompressionsmitteln 5 ausgestattet, die für den Lesezugriff auf die ersten Speichermittel 4 ausgelegt sind und während des Zugriffs auf die ersten Speichermittel 4 das in den ersten Speichermitteln 4 gespeicherte komprimierte Audiosignal CAS lesen können. Die Dekompressionsmittel 5 sind ferner so ausgelegt, dass sie das komprimierte Audiosignal CAS dekomprimieren und ein dekomprimiertes Audiosignal EAS erzeugen und liefern.
Die Vorrichtung 1 ist ferner mit Rauschsignal-Erkennungsmitteln 6 ausgestattet, die so ausgelegt sind, dass sie das digitale dekomprimierte Audiosignal EAS empfangen und in Echtzeit das Rauschsignal PS1 oder die Rauschsignalfolge PS1, PS2 und PS3 in dem Audiosignal EAS erkennen.
Zu diesem Zweck sind die Rauschsignal-Erkennungsmittel 6 mit Audiosignal-Unterteilungsmitteln 7 ausgestattet, die so ausgelegt sind, dass sie das Audiosignal EAS in aufeinander folgende Signalabschnitte SAS unterteilen, wobei die Signalabschnitte SAS in jedem einzelnen Fall das Audiosignal ASI für eine Zeitspanne P darstellen. Eine Vielzahl von Zeitspannen P ist in den 3 und 4 auf der Zeitachse t gezeichnet. In dem vorliegenden Fall wird die Zeitspanne so ausgewählt, dass sie 5 ms beträgt. Es ist jedoch anzumerken, dass auch andere Werte, wie zwischen 2 und 10 ms, für P ausgewählt werden können, was jedoch, wie es dem Fachkundigen ersichtlich ist, eine Auswirkung auf die Qualität der Erkennung der Rauschsignale und/oder eine Auswirkung auf andere Parameter haben könnte, die die Erkennung der Rauschsignale PS1 und PS2 bzw. PS3 beeinflussen und auf die nachfolgend genauer eingegangen wird.
Die Rauschsignal-Erkennungsmittel 6 sind ferner mit Energiegehalt-Ermittlungsmitteln 8 ausgestattet, die so ausgelegt sind, dass sie den Energiegehalt von aufeinander folgenden Signalabschnitten SAS ermitteln, wobei der Energiegehalt der Signalabschnitte SAS gemäß folgender Formel ermittelt wird:
in der Einheit Dezibel (dB), wobei S_k die Signalamplitude des k-ten Signalabschnitts SAS und N die Gesamtanzahl von Signalamplituden S_k innerhalb eines Signalabschnitts SAS darstellt. Die Energiegehalt-Ermittlungsmittel 8 sind ferner so ausgelegt, dass sie Energiegehaltdaten EVD erzeugen und liefern, die den ermittelten Energiegehalt darstellen. Der ermittelte Energiegehalt der Signalabschnitte SAS ist in den unteren Diagrammen in 3 bzw. 4 in jedem einzelnen Fall in Form eines Säulendiagramms dargestellt.
Die Rauschsignal-Erkennungsmittel 6 sind ferner mit Energieschwellenwert-Ermittlungsmitteln 9 ausgestattet, die so ausgelegt sind, dass sie einen Energieschwellenwert ET ermitteln, wobei der Energieschwellenwert ET kontinuierlich auf der Grundlage der Energiegehaltdaten EVD ermittelt wird. Im Einzelnen basiert die Ermittlung des Energieschwellenwertes ET auf einem grundlegenden Verfahren und einem verfeinerten Verfahren, die beide nachfolgend ausführlicher beschrieben werden.
Bei dem grundlegenden Verfahren wird innerhalb eines normalen Zeitschlitzes von 6 s, durch den metaphorisch gesprochen die Energiegehaltdaten EVD geschoben werden, als erstes ein Histogramm H des Energiegehalts aller innerhalb des normalen Zeitschlitzes auftretenden Signalabschnitte SAS erstellt, wie es in 5 dargestellt ist. Es ist jedoch an dieser Stelle anzumerken, dass auch andere Werte als die 6 s für den normalen Zeitschlitz vorgesehen werden können. In dem Histogramm H ist der Energiegehalt auf der Abszisse aufgetragen, wobei gemäß dem ausgewählten 16-Bit-PCM-Format die obere Grenze UB des Energiegehalts bei 90 dB liegt. Eine so für den Histogrammbereich G erzielte stufenförmige Kennlinie der Flankenkurve wird durch eine kontinuierlich weitergehende Hüllkurve EV approximiert. Unterhalb der Hüllkurve sind ein Bereich mit niedriger Energie LEA und ein Bereich mit hoher Energie HEA so definiert, dass jeder der Bereiche zehn Prozent des Bereichs unterhalb der Hüllkurve einnimmt, wobei wiederum an dieser Stelle anzumerken ist, dass anstelle von zehn Prozent andere Werte wie Werte zwischen fünf und fünfzehn Prozent ebenfalls gewählt werden können. Die Positionen der entsprechenden Grenzlinien der beiden Bereiche LEA und HEA geben den Rauschsignalpegel NL und den Nutzsignalpegel SL an. Das Verhältnis zwischen Nutzsignalpegel SL und Rauschsignalpegel NL, das nachfolgend mit Bezug auf den Fachausdruck Rauschabstand (engl. signal-to-noise ratio) als SNR bezeichnet wird, wird als Differenz zwischen dem Nutzsignalpegel SL und dem Rauschsignalpegel NL berechnet. Ein weiterer verwendeter Parameter trägt die Bezeichnung „Rauschversatz" (engl. noise Offset) und berücksichtigt eine erwartete minimale Energiebandbreite des Rauschens und beträgt im vorliegenden Fall 4 dB. Ein weiterer Parameter, bezeichnet mit „Energiefaktor", stellt eine erwartete Rauschkomponente des gesamten SNR-Bereichs dar und beträgt im vorliegenden Fall 0,34. Mit Hilfe der oben genannten Parameter kann der Energieschwellenwert folgendermaßen als Funktion der in jedem einzelnen Fall anzuwendenden Bedingung berechnet werden:
Wenn (SNR > Rauschversatz) ET = NL + Energiefaktor·SNR
Sonst ET = NL + Rauschversatz
Es ist an dieser Stelle anzumerken, dass zu Beginn einer Ermittlung des Energieschwellenwertes ET, d.h. zu einem Zeitpunkt, an dem eine zur Ermittlung des Energieschwellenwertes ET ausreichende Anzahl an Energiegehalten innerhalb des normalen Zeitschlitzes noch nicht ermittelt wurde, ein Mindestzeitschlitz von 1 s anstelle des normalen Zeitschlitzes verwendet wird, um eine daraus resultierende erhebliche Verzögerung bei der Ermittlung des Energieschwellenwertes ET mit Hilfe des normalen Zeitschlitzes zu verhindern.
Bei einem verfeinerten Verfahren wird mit der Annahme, dass die Dauer des normalen Zeitschlitzes bei dem grundlegenden Verfahren zu lang ist, um auf schnelle Veränderungen des Rauschsignalpegels NL zu reagieren, der Rauschsignalpegel NL aus den innerhalb eines kurzen Zeitschlitzes von 100 ms als letztes ermittelten Energiegehalten ermittelt, wobei ein Mittelwert der Energiegehalte gemäß folgender Formel berechnet wird:
wobei die Energiegehaltdaten EVD, den Energiegehalt innerhalb des kurzen Zeitschlitzes darstellen und wobei M die Menge von Energiegehaltdaten EVD; innerhalb des kurzen Zeitschlitzes angibt. Gemäß der verfeinerten Ermittlung des Rauschsignalpegels NL erfolgt die Ermittlung des Energieschwellenwertes ET wie bei dem grundlegenden Verfahren, wobei die in dem grundlegenden Verfahren spezifizierten Formeln eingesetzt werden und wobei der Rauschabstand SNR gemäß dem grundlegenden Verfahren ermittelt wird. Die Energieschwellenwert-Ermittlungsmittel 9 sind ferner so ausgelegt, dass sie den gemäß dem grundlegenden Verfahren oder gemäß dem verfeinerten Verfahren ermitteltem Energieschwellenwert ET in Form von Energieschwellenwertdaten ETD liefern. Der durch das spezielle Verfahren ermittelt Energieschwellenwert ET wird in die unteren Diagramme in 3 bzw. 4 eingetragen, wobei über die Zeit auftretende Veränderungen des Energieschwellenwertes ET nicht explizit gezeigt sind.
Bei der Ermittlung des Energieschwellenwertes ET wird immer das verfeinerte Verfahren eingesetzt, und das grundlegende Verfahren wird zur Stabilisierung des verfeinerten Verfahrens eingesetzt beginnend bei der Zeitmarke SE1 in Richtung des Pfeils T2 und, falls anwendbar, auch beginnend bei der Zeitmarke SE2 in Richtung des Pfeils T3 und beginnend bei der Zeitmarke SE3 in Richtung des Pfeils T4, für in jedem einzelnen Fall höchstens dreißig Signalabschnitte SAS, die ein Hintergrundsignal BG darstellen.
Die Rauschsignal-Erkennungsmittel 6 sind ferner mit Zählmitteln 11 ausgestattet. Die Zählmittel 11 sind so ausgelegt, dass sie eine Anzahl von benachbarten aufeinander folgenden Signalabschnitten mit hoher Energie zählen, die einen Energiegehalt oberhalb des Energieschwellenwertes ET aufweisen, und diese Anzahl darstellende Zählerstanddaten für hohe Energie NCH erzeugen und liefern. Bei den in 3 und 4 gezeigten Audiosignalen ASI besteht diese Situation zwischen den Zeitmarken SB1 und SE1, SB2 und SE2 bzw. SB3 und SE3.
Die Zählmittel 11 sind ferner so ausgelegt, dass sie die Anzahl von Signalabschnitten SAS zählen, die dem mindestens einen Signalabschnitt mit hoher Energie vorausgehen und einen Energiegehalt unterhalb des Energieschwellenwertes ET aufweisen. Bei den in 3 und 4 gezeigten Audiosignalen ASI besteht diese Situation beginnend links von der Zeitmarke SB1 und in Richtung des Pfeils T1. Die Zählmittel 11 sind ferner so ausgelegt, dass sie die Anzahl von Signalabschnitten zählen, die dem mindestens einen Signalabschnitt mit hoher Energie folgen und einen Energiegehalt unterhalb des Energieschwellenwertes aufweisen. Bei den in 2 und 4 gezeigten Audiosignalen ASI besteht diese Situation beginnend bei der Zeitmarke SE1 und in Richtung des Pfeils T2. Bei dem in 4 gezeigten Audiosignal ASI besteht diese Situation auch beginnend bei der Zeitmarke SE2 und in Richtung des Pfeils T3 und beginnend bei der Zeitmarke SE3 und in Richtung eines Pfeils T4. In beiden Fällen, d. h. im Fall der Signalabschnitte SAS, die einem Signalabschnitt mit hoher Energie vorausgehen, oder im Fall der Signalabschnitte SAS, die einem Signalabschnitt mit hoher Energie folgen, wird die entsprechende Anzahl von Signalabschnitten SAS physikalisch durch die Zählerstanddaten für niedrige Energie NCL dargestellt, die jedoch logisch, d. h. hinsichtlich ihres Auftretens hinsichtlich der Zeit, in die Zählerstanddaten NCL_PRE und NCL_POST unterteilt werden können.
Dementsprechend werden die Zählmittel 11 vorteilhaft durch lediglich zwei Zähler realisiert, die in 2 nicht dargestellt sind, wobei ein erster Zähler zum Erzeugen der Zählerstanddaten für niedrige Energie NCL und ein zweiter Zähler zum Erzeugen der Zählerstanddaten für hohe Energie NCH geschaffen werden, und wobei die Zählmittel 11 so ausgelegt sind, dass sie ein Zählersignal NE empfangen und verarbeiten, das dazu dient, den Zählmitteln 11 mitzuteilen, welcher der beiden Zähler um Eins zu erhöhen ist. Die in den entsprechenden Zählern vorliegenden Zählerstanddaten NCH oder NCL stehen permanent zur Verfügung. Die Zählmittel 11 sind ferner so ausgelegt, dass sie ein Zählerrückstellsignal NR empfangen, das das Löschen des durch die Zählerstanddaten NCH und NCL dargestellten Zählerstatus bewirkt.
Die Rauschsignal-Erkennungsmittel 6 sind ferner mit Energiegehalt-Auswertungsmitteln 12 ausgestattet, die so ausgelegt sind, dass sie die in jedem einzelnen Fall ermittelten Energiegehaltdaten EVD und Energieschwellenwertdaten ETD empfangen und in jedem einzelnen Fall den Energiegehalt eines dem anwendbaren Energieschwellenwert ET zugeordneten Signalabschnitts SAS auswerten. Die Energiegehalt-Auswertungsmittel 12 werden für die Interaktion mit Auftretenserkennungsmitteln 13 vorgesehen. Die Auftretenserkennungsmittel 13 sind so ausgelegt, dass sie das Zählersignal NE und das Zählerrückstellsignal NR erzeugen und liefern. Die Auftretenserkennungsmittel 13 sind ferner so ausgelegt, dass sie mit Hilfe eines Auswertungsergebnisses von den Energiegehalt-Auswertungsmitteln 12 Folgendes erkennen: das Auftreten von mindestens einem Signalabschnitt mit hoher Energie wie zwischen den Zeitmarken SB1 und SE1, das Auftreten von mindestens einem Signalabschnitt SAS, der dem mindestens einen Signalabschnitt mit hoher Energie vorausgeht und einen Energiegehalt unterhalb des Energieschwellenwertes ET aufweist wie links von der Zeitmarke SB1, und das Auftreten von mindestens einem Signalabschnitt SAS, der dem mindestens einen Signalabschnitt mit hoher Energie folgt und einen Energiegehalt unterhalb des Energieschwellenwertes ET aufweist wie rechts von der Zeitmarke SE1.
Die Auftretenserkennungsmittel 13 sind ferner so ausgelegt, dass sie Auftretenserkennungsdaten RD erzeugen und liefern, falls das Auftreten des in dem vorhergehenden Abschnitt beschriebenen Energiemusters in den Signalabschnitten SAS erkannt wurde und die Anzahl von Gruppen mit Signalabschnitten SAS, die das Energiemuster bilden, in jedem einzelnen Fall einer Hypothese entspricht, also ein Klickgeräuschsignal vorliegt. Hier wird während der Überprüfung der Hypothese ermittelt, ob der Energiegehalt von m aufeinander folgenden Signalabschnitten SAS, die durch die Zählerstanddaten für niedrige Energie NCL_PRE dargestellt werden und den Signalabschnitten mit hoher Energie vorausgehen, unterhalb des Energieschwellenwertes ET liegt, wobei m gleich oder größer als Neun ist. Es wird ferner ermittelt, ob der Energiegehalt von 1 aufeinander folgenden Signalabschnitten mit hoher Energie, die durch die Zählerstanddaten für hohe Energie NCH dargestellt werden, über dem Energieschwellenwert ET liegt, wobei 1 zwischen Drei und Sieben liegt. Es wird ferner ermittelt, ob der Energiegehalt von n aufeinander folgenden Signalabschnitten, die durch die Zählerstanddaten für niedrige Energie NCL_POST dargestellt werden und den Signalabschnitten mit hoher Energie folgen, unterhalb des Energieschwellenwertes ET liegt, wobei n gleich oder größer als Dreißig ist. Diese Hypothese, die auf die in 3 und 4 gezeigten Audiosignale ASI angewendet werden kann, kann mathematisch gemäß der nachfolgend spezifizierten Bedingung formuliert werden:
(NCL_PRE>=9) UND
(3<=NCH<=7) UND
(NCL_POST>=30).
Bei der in 4 gezeigten Situation sind die Rauschsignal-Erkennungsmittel 6 so ausgelegt, dass sie die wiederholt auftretenden Rauschsignale PS1, PS2 bzw. PS3 erkennen. Hier wird die Hypothese dahingehend erweitert, dass ermittelt wird, ob nach Signalabschnitten mit hoher Energie, beispielsweise nach den Signalabschnitten SAS des Rauschsignals SP1 oder des Rauschsignals SP2, während dreißig auf diese Signalabschnitte mit hoher Energie folgenden Signalabschnitten, die einen Energiegehalt unterhalb des Energieschwellenwertes aufweisen, der Energiegehalt von weiteren Signalabschnitten mit hoher Energie, wie im Fall während beispielsweise der Rauschsignale PS2 uns PS3, über dem Energieschwellenwert ET liegt. Diese somit erweiterte Hypothese, die auf die in 3 und 4 gezeigten Audiosignale ASI angewendet werden kann, kann mathematisch gemäß der nachfolgend spezifizierten Bedingung formuliert werden:
(NCL_PRE >= 9) UND
(NCH_i <= 7, ∀i, 1 <= i <= 3) UND
(NCL_POST,i < 30, ∀i, 1 <= i <= 2) UND
(NCL_POST,3 >= 30).
Zur Verdeutlichung ist an dieser Stelle anzumerken, dass NCH₁ die Anzahl von Signalabschnitten mit hoher Energie während des Rauschsignals PS1 darstellt, dass NCH₂ die Anzahl von Signalabschnitten mit hoher Energie während des Rauschsignals PS2 darstellt und dass NCH₃ die Anzahl von Signalabschnitten mit hoher Energie während des Rauschsignals PS3 darstellt. Es sollte ferner klargestellt werden, dass NCL_PRE die Anzahl von Signalabschnitten SAS darstellt, die den NCH₁ Signalabschnitten mit hoher Energie vorausgehen. Es sollte ferner klargestellt werden, dass NCL_POST,1 die Anzahl von Signalabschnitten SAS darstellt, die zwischen den Rauschsignalen PS1 und PS2 auftreten, und dass NCL_POST,2 die Anzahl von Signalabschnitten SAS darstellt, die zwischen den Rauschsignalen PS2 und PS3 auftreten, und dass NCL_POST,3 die Anzahl von Signalabschnitten SAS darstellt, die nach dem Rauschsignal PS3 auftreten, die einen Energiegehalt unterhalb des Energieschwellenwertes ET aufweisen. Es sollte auch klargestellt werden, dass i die Anzahl von Rauschsignalen PS1, PS2 und PS3 innerhalb der Pause darstellt und dass die Anzahl weiterer Rauschsignale PS2 und PS3 usw., die nach dem ersten Rauschsignal PS1 auftreten, auf fünfundzwanzig begrenzt ist. Es ist jedoch anzumerken, dass i in Abhängigkeit von der speziellen Anwendung auch einem anderen Maximalwert zugeordnet werden kann.
Zu diesem Zweck sind die Energiegehalt-Auswertungsmittel 12 und die Auftretenserkennungsmittel 13 als so genannte „Zustandsmaschine" ausgeführt, die so ausgelegt ist, dass sie kontinuierlich auf der Grundlage der Energiegehaltdaten EVD, der Energieschwellenwertdaten ETD und der beiden Zählerstanddaten NCL und NCH die oben erwähnten Bedingungen überprüft und in Abhängigkeit von den Ergebnissen dieser Überprüfung in einem ihrer Zustände bleibt oder ihren Zustand ändert. Die Zustande stellen hierdurch im Wesentlichen die Tatsache dar, dass die oben beschriebene Hypothese Geltung hat oder dass diese Hypothese keine Geltung hat. Falls die Hypothese Geltung hat, wird zwischen drei weiteren Zuständen unterschieden, wobei ein Zustand ein durch das Hintergrundsignal BG vor dem ersten Rauschsignal PS1 gebildetes „Vor-der-Pause" darstellt, wobei ein weiterer Zustand die Signalabschnitte mit hoher Energie während eines der Rauschsignale PS1, PS2, PS3 darstellt und wobei ein weiterer Zustand durch das Hintergrundsignal BG gebildete Zwischenpausen zwischen den Zeitmarken SE1 und SB2 oder SE2 und SB3 oder ein „Nach-der-Pause" zwischen den Zeitmarken SE3 und PE darstellt. Die Zustandsmaschine ist so ausgelegt, dass sie in dem Fall, dass sie in einem Zustand bleibt, das Zählersignal NE erzeugt und liefert. Die Zustandsmaschine ist ferner so ausgelegt, dass sie die Auftretenserkennungsdaten RD infolge einer Zustandsänderung erzeugt und liefert, wenn die oben genannten Bedingungen für die Erkennung eines Klickgeräuschsignals PS oder einer Sequenz mit Klickgeräuschsignalen PS1, PS2, PS3 vollständig erfüllt sind, und dass sie falls kein Klickgeräuschsignal gemäß der Hypothese zu erkennen ist, das Zählerrückstellsignal NR erzeugt und liefert.
Gemäß der obigen Informationen kann ein Verfahren zum Erkennen eines Rauschsignals PS1 gemäß 3 oder einer Sequenz mit Rauschsignalen PS1, PS2, PS3 gemäß 4 in einem digitalen Audiosignal EAS mit Hilfe der Vorrichtung 1 ausgeführt werden, wobei das digitale Audiosignal EAS in aufeinander folgende Signalabschnitte SAS unterteilt wird und wobei die Energiegehalte der aufeinander folgenden Signalabschnitte SAS ermittelt werden und wobei der Energiegehalt eines einem Energieschwellenwert ET zugeordneten Signalabschnitts SAS ausgewertet wird und wobei das Auftreten von mindestens einem Signalabschnitt mit hoher Energie, der einen Energiegehalt oberhalb des Energieschwellenwertes ET aufweist, und das Auftreten mindestens eines Signalabschnitts SAS, der dem mindestens einen Signalabschnitt mit hoher Energie vorausgeht und einen Energiegehalt unterhalb des Energieschwellenwertes ET aufweist, und das Auftreten mindestens eines Signalabschnitts SAS, der dem mindestens einen Signalabschnitt mit hoher Energie folgt und einen Energiegehalt unterhalb des Energieschwellenwertes ET aufweist, erkannt wird und eine Anzahl von Signalabschnitten SAS, die dem mindestens einen Signalabschnitt mit hoher Energie vorausgehen, und eine Anzahl von Signalabschnitten mit hoher Energie und eine Anzahl von Signalabschnitten SAS, die dem Signalabschnitt mit hoher Energie folgen, gezählt werden.
Nachfolgend wird das Verfahren M zum Erkennen des Rauschsignals PS1 oder der Rauschsignale PS1, PS2, PS3, das mit Hilfe der Vorrichtung 1 ausgeführt werden kann, ausführlich unter Bezugnahme auf den in 7 gezeigten Ablaufplan erläutert.
Zu diesem Zweck werden als erstes die nachfolgend spezifizierten Variablen eingeführt, die zum Erkennen der Rauschsignale PS1 oder PS1, PS2 und PS3 erforderlich sind, wobei ihre Werte während der Ausführung des Verfahrens M verbessert werden. Eine erste Variable E stellt den Energiegehalt des speziellen Signalabschnitts SAS dar. Eine zweite Variable CL stellt die Anzahl von Signalabschnitten mit hoher Energie dar, wobei diese Anzahl den Zählerstanddaten für hohe Energie NCH entspricht. Die dritte Variable SL stellt die Anzahl von Signalabschnitten SAS dar, deren Energiewert unterhalb des Energieschwellenwertes ET liegt, wobei diese Anzahl den Zählerstanddaten für niedrige Energie NCL entspricht. Eine vierte Variable CLACCU stellt eine angesammelte Anzahl von Signalabschnitten mit hoher Energie in dem Fall dar, dass während einer Pause einzelne Signalabschnitte mit hoher Energie oder Gruppen dieser Signalabschnitte mit hoher Energie wiederholt auftreten. Eine fünfte Variable RC stellt einen Wiederholungszählerwert zum Zählen der Anzahl wiederholt auftretender Rauschsignale PS2 oder PS3 dar. Eine sechste Variable SLMAYBERESET stellt einen logischen Wert zum Erzielen einer Entscheidung dar. Zu Beginn des Verfahrens M wird den numerischen Variablen CL, SL CLACCU und RC ein Wert von Null zugewiesen. Der logischen Variablen SLMAYBERESET wird der logische Wert Falsch zugewiesen.
Die nachfolgend spezifizierten Parameter, die in dem Verfahren zur Sequenzsteuerung eingesetzt werden, werden ebenfalls eingeführt. Ein erster Parameter SBEGIN stellt die Mindestanzahl von Signalabschnitten SAS dar, die das Hintergrundsignal BG vor dem Auftreten des ersten Signalabschnitts mit hoher Energie darstellen, wobei im vorliegenden Fall der Wert Neun vorgesehen wird. Ein zweiter Parameter SEND stellt die Mindestanzahl von Signalabschnitten SAS dar, die das Hintergrundsignal BG darstellen und nach dem letzten zu einem Rauschsignal PS1 oder einer Sequenz der Rauschsignale PS1, PS2 oder PS3 gehörenden Signalabschnitt mit hoher Energie auftreten, wobei im vorliegenden Fall der Wert Dreißig vorgesehen wird. Ein dritter Parameter CMIN stellt die Mindestanzahl von Signalabschnitten mit hoher Energie dar, die zur Erkennung eines Rauschsignals PS1, PS2 oder PS3 erforderlich ist, wobei im vorliegenden Fall der Wert Drei vorgesehen wird. Ein vierter Parameter CMAX stellt die maximale Anzahl von Signalabschnitten mit hoher Energie dar, die zur Erkennung eines Rauschsignals PS1, PS2 oder PS3 erforderlich ist, wobei im vorliegenden Fall der Wert Sieben vorgesehen wird. Ein fünfter Parameter MAXREP stellt die maximal zulässige Anzahl von wiederholt auftretenden Signalabschnitten mit hoher Energie dar, wobei im vorliegenden Fall der Wert Fünfundzwanzig vorgesehen wird.
Die Ausführung des Verfahrens M für jeden Signalabschnitt SAS beginnt bei Block M1, sobald das digitale Audiosignal EAS in aufeinander folgende Signalabschnitte SAS unterteilt wurde und der Energiegehalt für den speziellen Signalabschnitt SAS ermittelt wurde und durch die Variable E dargestellt wird und der in dem speziellen Fall anwendbare Energieschwellenwert ET zur Verfügung steht.
Bei Block M2 erfolgt die Auswertung des Energiegehaltes des speziellen Signalabschnitts SAS mit Bezug auf den Energieschwellenwert ET. Falls bei Block M2 festgestellt wird, dass E unterhalb des Energieschwellenwertes ET liegt, geht es weiter zu Block M3, was bedeutet, dass ein das Hintergrundsignal BG in den Pausen zwischen den Zeitmarken PB und PE darstellender Signalabschnitt SAS vorliegt.
Bei Block M3 erfolgt eine Überprüfung, ob CL größer als Null ist.
Falls CL nicht größer als Null ist, bedeutet dies, dass eine Pause initiiert wurde. Es geht in diesem Fall weiter zu Block M5, wo SL um den Wert Eins erhöht wird.
Das Verfahren endet dann bei Block M6.
Falls CL größer als Null ist, bedeutet dies, dass eine Pause nach einem gemäß der Hypothese erkennbaren Rauschsignal auftritt, wobei für das Rauschsignal mindestens eine der Bedingungen der Hypothese vorliegt. In diesem Fall geht es weiter zu Block M7, bei dem überprüft wird, ob SLMAYBERESET gleich Falsch ist.
Falls SLMAYBERESET gleich Wahr ist, bedeutet dies, dass der erste Signalabschnitt SAS nach einem gemäß der Hypothese erkennbaren Rauschsignal PS1, PS2 oder PS3 zwischen den Zeitmarken SEI und SB2, SE2 und SB3 oder SB3 und PE vorliegen kann. Es geht weiter zu Block M9, bei dem SL der Wert Null zugewiesen wird, um das erneute Zählen der Signalabschnitte SAS in der nächsten Pause zu ermöglichen. Anschließend wird das Verfahren bei Block M10 fortgesetzt, bei dem SLMAYBERESET Falsch zugewiesen wird. Anschließend wird das Verfahren M bei Block M8 fortgesetzt.
Falls SLMAYBERESET gleich Falsch ist, was bedeutet, dass ein anderer Signalabschnitt SAS als der erste der Pause zwischen den Zeitmarken SE1 und SB2, SE2 und SB3 oder SE3 und PE auftritt, geht es weiter zu Block M8, bei dem SL um den Wert Eins erhöht wird.
Nach Block M8 wird das Verfahren M bei Block M11 fortgesetzt, bei dem überprüft wird, ob SL gleich SEND ist. Falls diese Unterbrechungsbedingung nicht erfüllt ist, geht es weiter zu Block M6. Falls SL gleich SEND ist, geht es weiter zu Block M12, bei dem CLACCU um den Wert von CL erhöht wird. Nach Block M12 wird das Verfahren bei Block M13 fortgesetzt.
Bei Block M13 wird überprüft, ob CLACCU geringer als CLMIN ist.
Falls CLACCU nicht geringer als CLMIN ist, bedeutet dies, dass ein Rauschsignal PS1 oder eine Rauschsignalsequenz PS1, PS2 und PS3 erkannt wurde, und es geht weiter zu Block M14. Bei Block M14 werden die Auftretenserkennungsdaten RD erzeugt und geliefert. Anschließend wird das Verfahren M bei Block M15 fortgesetzt, bei dem CL, CLACCU und RC der Wert Null zugewiesen wird und bei dem SLMAYBERESET der Wert Falsch zugewiesen wird. Das Verfahren endet bei Block M6.
Falls CLACCU geringer als CMIN ist, wird das Verfahren M bei Block M15 fortgesetzt.
Falls bei Block M2 E nicht geringer als ET ist, bedeutet dies, dass ein Signalabschnitt SAS vorliegt, der entweder ein Sprachsignal SP oder ein Rauschsignal PS1, PS2 oder PS3 darstellt. In diesem Fall geht es weiter zu Block M4.
Bei Block M4 wird überprüft, ob CL einen Wert Null hat und ob SL geringer als SBEGIN ist.
Falls die Prüfbedingung bei Block M4 erfüllt wird, bedeutet dies, dass die Pause, während der das Hintergrundsignal BG vorlag, nicht lang genug war und dass der Signalabschnitt SAS nicht ein gemäß der Hypothese erkennbares Rauschsignal PS1, PS2 oder PS3 ist. In diesem Fall geht es weiter zu Block M16, bei dem SL der Wert Null zugewiesen wird. Das Verfahren M wird dann bei Block M16 fortgesetzt. Die Fortsetzung des Verfahrens M in Übereinstimmung mit den Blöcken 15 und 16 entspricht der Erzeugung des Zählerrückstellsignals NR.
Falls die Prüfbedingung bei Block M4 nicht erfüllt wird, bedeutet dies, dass ein gemäß der Hypothese erkennbares Rauschsignal PS1, PS2 oder PS3 vorliegen kann. Infolgedessen geht es weiter zu Block M17.
Bei Block M17 wird überprüft, ob CL größer als Null ist und ob SLMAYBERESET gleich Falsch ist.
Falls die Prüfbedingung bei Block M17 erfüllt wird, bedeutet dies, dass hinsichtlich des Signalabschnitts SAS dies der Beginn eines der Rauschsignale PS2 oder PS3 sein kann, und es geht weiter zu Block M18.
Bei Block M18 wird überprüft, ob RC geringer als MAXREP ist.
Falls RC nicht geringer als MAXREP ist, bedeutet dies, dass ein gültiges Rauschsignal PS2 oder PS3, d. h. eines, dass gemäß der Hypothese erkannt werden kann, nicht vorliegt, und es geht weiter zu Block M16.
Falls RC geringer als MAXREP ist, bedeutet dies, dass eines der dem ersten Rauschsignal PS1 folgenden Rauschsignale PS2 oder PS3 vorliegen kann, und es geht weiter zu Block M19. Bei Block M19 wird RC um den Wert Eins erhöht und das Verfahren M bei Block M20 fortgesetzt. Bei Block M20 wird CLACCU um den Wert von CL erhöht, und das Verfahren M wird bei Block M21 fortgesetzt. Bei Block M21 wird CL der Wert Eins zugewiesen und das Verfahren bei Block M22 fortgesetzt. Bei Block M22 wird SLMAYBERESET der logische Wert Wahr zugewiesen, und das Verfahren endet bei M6.
Falls die Prüfbedingung bei Block M17 nicht erfüllt wird, bedeutet dies, dass hinsichtlich des Signalabschnitts SAS dies der Beginn des ersten Rauschsignals PS1 sein kann oder ein Signalabschnitt SAS innerhalb eines der Rauschsignale PS1 oder PS2 oder PS3 vorliegen kann, wobei dies nicht der erste Signalabschnitt SAS eines der Rauschsignale PS1 oder PS2 oder PS3 ist. In diesem Fall geht es weiter zu Block M23. Bei Block M23 wird CL um den Wert Eins erhöht und das Verfahren bei Block M24 fortgesetzt. Bei Block M24 wird SLMAYBEESET der logische Wert Wahr zugewiesen und das Verfahren M bei Block M25 fortgesetzt.
Bei Block M25 wird überprüft, ob CL größer als CMAX ist. Falls CL größer als CMAX ist, bedeutet dies, dass die Dauer der Signalabschnitte mit hoher Energie zu lang war und daher kein Rauschsignal PS1 oder PS2 oder PS3 vorliegen kann, und es geht weiter zu Block M16. Falls CL nicht größer als CMAX ist, geht es weiter zu Block M6, und das Verfahren M endet bei Block M6.
Zusammenfassend ist im Zusammenhang mit dem Verfahren M anzumerken, dass, wenn die Bedingung bei Block M3 erfüllt wird, die Dauer des „Vor-der-Pause" vor einem Rauschsignal lang genug war, und dass die Anzahl von Signalabschnitten mit hoher Energie nicht größer als CMAX war und die Anzahl wiederholt auftretender Rauschsignale innerhalb des zulässigen Bereichs liegt.
Die in 1 dargestellte Vorrichtung 1 ist ferner mit Versorgungsmitteln 14 ausgestattet, die so ausgelegt sind, dass sie ein rauschsignalfreies Audiosignal DASO liefern, wobei sie ein einzelnes erkanntes Rauschsignal PS1 oder eine Sequenz mit mehreren erkannten Rauschsignalen PS1, PS2 und PS3 berücksichtigen. Zu diesem Zweck sind die Versorgungsmittel 14 mit zweiten Speichermitteln 15 ausgestattet, die für eine temporäre Speicherung einer Vielzahl von Signalabschnitten SAS ausgelegt sind, die mit Hilfe der Audiosignal-Unterteilungsmittel 7 erzeugt werden können. Die Versorgungsmittel 14 sind ferner mit Rückstellmitteln 16 ausgestattet, die so ausgelegt sind, dass sie die Auftretenserkennungsdaten RD empfangen. Die Rückstellmittel 16 sind ferner dafür ausgelegt, die temporär gespeicherten Signalabschnitte SAS für den Lesezugriff auf die zweiten Speichermittel 15 zu lesen. Die Rückstellmittel 16 sind ferner so ausgelegt, dass sie die Signalabschnitte SAS mit den Rauschsignalen PS1 oder PS1, PS2 und/oder PS3, welche mit Hilfe der Auftretenserkennungsdaten RD identifiziert werden können, zurücksetzen können und ohne Auslassung die restlichen Signalabschnitte SAS in einer Reihe anordnen, woraufhin ein digitales rauschsignalfreies Audiosignal DASO gebildet wird. Es sollte in diesem Zusammenhang angemerkt werden, dass die Versorgungsmittel 14 auch so ausgelegt werden können, dass sie die Signalabschnitte SAS ersetzen, die die Rauschsignale PS1 und/oder PS2 und PS3 enthalten. Es kann beispielsweise vorgesehen werden, dass diese Signalabschnitte SAS durch Signalabschnitte SAS ersetzt werden, die ein Nullsignal darstellen, also den Signalpegel, der Stille darstellt. Es kann ferner beispielsweise vorgesehen werden, dass diese Signalabschnitte SAS durch Signalabschnitte ersetzt werden, die ein künstlich erzeugtes Hintergrundsignal aufweisen.
Die Vorrichtung 1 ist ferner mit Zuführungsmitteln 17 ausgestattet, die so ausgelegt sind, dass sie das rauschsignalfreie Audiosignal DASO empfangen und anhand des rauschsignalfreien Signals DASO ein akustisches Audiosignal ASO erzeugen und liefern.
Die Vorrichtung 1 ist ferner mit Schnittstellenmitteln 18 ausgestattet, die so ausgelegt sind, dass sie das dekomprimierte Audiosignal EAS empfangen und das dekomprimierte Audiosignal EAS in Form eines elektrischen Signals zu einem in 1 nicht dargestellten Gerät liefern, das an die Schnittstellenmittel 18 angeschlossen werden kann.
Die Vorrichtung 1 ist ferner mit Steuermitteln 19 ausgestattet, die so ausgelegt sind, dass sie die Empfangsmittel 2, die Kompressionsmittel 3, die Dekompressionsmittel 5, die Rauschsignal-Erkennungsmittel 6, die Versorgungsmittel 14, die Zuführungsmittel 17 und die Schnittstellenmittel 18 steuern. Zu diesem Zweck sind die Steuermittel 19 mit den Mitteln 2, 3, 5, 6, 14, 17 und 18 verbunden. Die Steuermittel 19 sind ferner so ausgelegt, das sie ein Steuersignal CS erzeugen und dieses Steuersignal CS den Mitteln 2, 3, 5, 6, 14, 17 und 18 zuführen. In dem vorliegenden Fall sind die Steuermittel 19 so ausgelegt, dass sie Steuerinformationen empfangen, die ihnen manuell durch einen Benutzervorgang zugeführt werden können. Es ist jedoch anzumerken, dass die Steuermittel 19 auch so ausgelegt sein können, dass sie Steuerinformationen empfangen, die durch ein Infrarotsignal oder ein Funksignal zugeführt werden können.
Dadurch entsteht der Vorteil, dass im Fall der Vorrichtung 1 eine Erkennung und Beseitigung der für einen Benutzer der Vorrichtung 1 störenden Klickgeräuschsignale PS1 oder PS2 und PS3 zuverlässig vorgenommen werden kann.
6 zeigt ein Datenverarbeitungssystem 18, das mit einem Computer 19 und einem mit dem Computer 19 verbundenen Bildschirm 20, der als visuelle Benutzerschnittstelle dient, und mit einer mit dem Computer 19 verbundenen Maus 21 und mit einer mit dem Computer 19 verbundenen Tastatur 22 ausgestattet ist, wobei die Maus 21 und die Tastatur 22 als manuelle Benutzerschnittstelle dienen. Der Computer 19 kann mit Hilfe der Benutzerschnittstellen durch einen in 6 nicht dargestellten Benutzer bedient werden. Der Computer 19 ist ferner mit einem internen Speicher 23 ausgestattet, der für die Speicherung von Verarbeitungsdaten und/oder Programmdaten vorgesehen ist. Der Computer 19 ist ferner mit einer Prozessoreinheit 24 ausgestattet, die so ausgelegt ist, dass sie mit dem Speicher 23 interagiert und mit deren Hilfe unter Verwendung der Programmdaten, die mit Hilfe der Prozessoreinheit ausgeführt werden können, die Programmdaten verarbeitet werden können. Zur Steuerung des Computers 19 ist die Prozessoreinheit 24 ferner so ausgelegt, dass sie mit den Benutzerschnittstellen 20, 21 und 22 interagiert. Der Computer 19 ist ferner mit einer Programmdaten-/Verarbeitungsdatenschnittstelle 25 ausgestattet, mit deren Hilfe Zugriff auf ein computerlesbares Medium 26 möglich ist, das im vorliegenden Fall als CD ausgeführt ist.
Der Computer 19 ist ferner mit einem mobilen Diktiergerät 28 verbunden, das der in 1 dargestellten Vorrichtung ähnelt, wobei das mobile Diktiergerät 28 nicht mit den Versorgungsmitteln 14 und den Rauschsignal-Erkennungsmitteln 6 der Vorrichtung 1 ausgestattet ist, und wobei das digitale dekomprimierte Audiosignal EAS direkt den Zuführungsmitteln 17 zugeführt werden kann. Es ist ferner vorgesehen, dass das digitale Audiosignal EAS mit Hilfe einer in 6 nicht dargestellten Audiosignalschnittstelle des Computers 19 dem Computer 19 zugeführt und im Speicher 23 gespeichert werden kann, so dass eine weitere Verarbeitung durch die Prozessoreinheit 24 ermöglicht wird.
Zu diesem Zweck kann in den Computer 19 mit Hilfe des Mediums 26 über die Programmdaten-/Verarbeitungsdatenschnittstelle 25 ein Computerprogrammprodukt 27 eingespeist werden. Das Computerprogrammprodukt 27 kann direkt in den Speicher 23 des Computers 19 geladen werden und umfasst Softwarecodeabschnitte, die zumindest Teile der Programmdaten bilden, wobei das Verfahren M mit dem Computer 19 ausgeführt werden kann, um das Rauschsignal PS1 gemäß 3 oder die Rauschsignale PS1, PS2 und PS3 gemäß 4 in dem digitalen Audiosignal EAS zu erkennen, wenn das Computerprogramm 27 in dem Computer 19 mit Hilfe der Prozessoreinheit 24 ausgeführt wird.
Dadurch entsteht der Vorteil, dass sowohl in dem Fall, dass das digitale Audiosignal EAS im Computer 19 mit Hilfe von Spracherkennungssoftware weiterverarbeitet wird, als auch in dem Fall, dass das Audiosignal EAS mit Hilfe des Computers 19 wiederzugeben ist, eine zuverlässige Erkennung eines Rauschsignals PS1 oder, falls anwendbar, PS2 oder PS3 in der digitalen Zeitdarstellung des Audiosignals ASI sichergestellt wird.
Es ist ferner anzumerken, dass die Rauschsignal-Erkennungsmittel 6 und, falls anwendbar, die Versorgungsmittel 14 im Fall der Vorrichtung 1 zwischen den Empfangsmitteln 2 und den Kompressionsmitteln 3 vorgesehen werden können.
Es ist ferner anzumerken, dass die Mittel 6 und 14 im Fall der Vorrichtung 1 zwischen den Mitteln 5 und 18 vorgesehen werden können, so dass Daten, die ein rauschsignalfreies dekomprimiertes Audiosignal EAS darstellen, von der Vorrichtung 1 geliefert werden können.
Es ist ferner anzumerken, dass das Medium 26 aus einer DVD oder einer Wechselfestplatte oder Diskette bestehen kann.
Es ist ferner anzumerken, dass im Fall der Vorrichtung 1 zumindest Bauteile der Mittel 2, 17, 19 und 18 und der Mittel 3, 4, 5, 6 und 14 vorzugsweise als integrierte Schaltung ausgeführt werden.
Es ist ferner anzumerken, dass im Fall der Rauschsignal-Erkennungsmittel 6 eine Verarbeitung der Signalabschnitte SAS, die direkt benachbart sind, oder der Signalabschnitte, die nicht direkt benachbart sind, stattfinden kann.
Es ist ferner anzumerken, dass die Rauschsignal-Erkennungsmittel 6 mit dritten Speichermitteln 10 ausgestattet werden können, die in 2 mit gestrichelten Linien dargestellt sind und für die temporäre Speicherung der Daten EVD und ETD vorgesehen sind, und dass die Energiegehalt-Auswertungsmittel 12 und die Auftretenserkennungsmittel 13 für den Zugriff auf die gespeicherten Daten EVD und ETD und für die Verarbeitung dieser Daten EVD und ETD ausgelegt werden können, woraufhin eine Erkennung von Rauschsignalen in Nicht-Echtzeit ermöglicht wird.
Es ist ferner anzumerken, dass die Rauschsignal-Erkennungsmittel 6 auch für die dynamische Unterteilung des Audiosignals EAS in die Signalabschnitte SAS mit verschiedener Dauer in einem Bereich zwischen 2 ms und 10 ms als Funktion der Eigenschaften des Audiosignals EAS ausgelegt werden können.
7

Start Start
Y Ja
N Nein
End Ende

Claims

Verfahren (M) zum Erkennen eines Rauschsignals (PS1, PS2, PS3) in einem digitalen Audiosignal (EAS), wobei: – das digitale Audiosignal (EAS) in aufeinander folgende Signalabschnitte (SAS) unterteilt wird; – der Energiegehalt der aufeinander folgenden Signalabschnitte (SAS) ermittelt wird; – der Energiegehalt eines Signalabschnitts (SAS) in Bezug auf einen Energieschwellenwert (ET) ausgewertet wird; – das Auftreten von mindestens einem Signalabschnitt mit hoher Energie mit einem Energiegehalt oberhalb des Energieschwellenwertes (ET) und das Auftreten von mindestens einem Signalabschnitt (SAS), der dem mindestens einen Signalabschnitt mit hoher Energie vorausgeht und einen Energiegehalt unterhalb des Energieschwellenwertes (ET) aufweist, und das Auftreten von mindestens einem Signalabschnitt (SAS), der dem mindestens einen Signalabschnitt mit hoher Energie folgt und einen Energiegehalt unterhalb des Energieschwellenwertes (ET) aufweist, erkannt werden; und – eine Anzahl von Signalabschnitten (SAS), die dem mindestens einen Signalabschnitt (SAS) mit hoher Energie vorausgehen, und eine Anzahl von Signalabschnitten mit hoher Energie und eine Anzahl von Signalabschnitten (SAS), die dem Signalabschnitt mit hoher Energie folgen, gezählt werden; und – festgestellt wird, ob der Energiegehalt von 1 aufeinander folgenden Signalabschnitten mit hoher Energie den Energieschwellenwert (ET) überschreitet; – festgestellt wird, ob der Energiegehalt von m aufeinander folgenden Signalabschnitten (SAS), die den Signalabschnitten mit hoher Energie vorausgehen, unterhalb des Energieschwellenwertes (ET) liegt; und – festgestellt wird, ob der Energiegehalt von n aufeinander folgenden Signalabschnitten (SAS), die den Signalabschnitten mit hoher Energie folgen, unterhalb des Energieschwellenwertes (ET) liegt.
Verfahren (M) nach Anspruch 1, wobei: – der Energiegehalt eines Signalabschnitts (SAS) gemäß der Formel
ermittelt wird, – S_k die Signalamplituden innerhalb des Signalabschnitts (SAS) darstellt und N die Gesamtanzahl von Signalamplituden innerhalb des Signalabschnitts (SAS) darstellt.
Verfahren (M) nach Anspruch 1, wobei der Energieschwellenwert (ET) kontinuierlich aus dem digitalen Audiosignal (EAS) auf der Grundlage eines Histogrammverfahrens ermittelt wird, das auf die Energiegehalte der Signalabschnitte (SAS) angewendet wird, wobei ein sich schnell verändernder Hintergrundpegel berücksichtigt wird und ein Verhältnis zwischen einem Nutzsignalpegel und einem Rauschpegel des Audiosignals (EAS) zu Hilfe genommen wird.
Verfahren (M) nach Anspruch 1, wobei die Signalabschnitte (SAS) eine Signalabschnittdauer (P) von zwischen 2 ms und 10 ms haben.
Verfahren (M) nach Anspruch 1, wobei jeder der Signalabschnitte (SAS) eine Signalabschnittdauer (P) von 5 ms hat.
Verfahren (M) nach Anspruch 1, wobei – 1 zwischen 3 und 7 liegt, – m gleich oder größer als 9 ist und – n gleich oder größer als 30 ist.
Verfahren (M) nach Anspruch 1, wobei – festgestellt wird, ob nach Signalabschnitten mit hoher Energie während Signalabschnitten (SAS), die auf diese Signalabschnitte mit hoher Energie folgen und einen Energiegehalt unterhalb des Energieschwellenwertes (ET) aufweisen, weitere Signalabschnitte mit hoher Energie folgen und – die Anzahl von Signalabschnitten mit hoher Energie und die Anzahl von Signalabschnitten (SAS), die den weiteren Signalabschnitten mit hoher Energie folgen, gezählt werden.
Vorrichtung (1) zum Verarbeiten eines digitalen Audiosignals (EAS), die mit Rauschsignal-Erkennungsmitteln (6) ausgestattet ist, die so ausgelegt sind, dass sie ein Rauschsignal (PS1, PS2, PS3) in dem Audiosignal (EAS) erkennen, wobei derartige Rauschsignal-Erkennungsmittel (6) Folgendes umfassen: – Audiosignal-Unterteilungsmittel (7), die so ausgelegt sind, dass sie das Audiosignal (EAS) in aufeinander folgende Signalabschnitte (SAS) unterteilen; – Energiegehalt-Ermittlungsmittel (8), die so ausgelegt sind, dass sie den Energiegehalt von aufeinander folgenden Signalabschnitten (SAS) ermitteln; – Energiegehalt-Auswertungsmittel (12), die so ausgelegt sind, dass sie den Energiegehalt eines Signalabschnitts (SAS) in Bezug auf einen Energieschwellenwert (ET) auswerten; und – Auftretenserkennungsmittel (13), die so ausgelegt sind, dass sie das Auftreten von mindestens einem Signalabschnitt mit hoher Energie mit einem Energiegehalt oberhalb des Energieschwellenwertes (ET) erkennen und das Auftreten von mindestens einem Signalabschnitt (SAS) erkennen, der dem mindestens einen Signalabschnitt mit hoher Energie vorausgeht und einen Energiegehalt unterhalb des Energieschwellenwertes (ET) aufweist, und das Auftreten von mindestens einem Signalabschnitt (SAS) erkennen, der dem mindestens einen Signalabschnitt mit hoher Energie folgt und einen Energiegehalt unterhalb des Schwellenwertes (ET) aufweist; und – Zählmittel (11), die so ausgelegt sind, dass sie die Anzahl der Signalabschnitte (SAS) zählen, die dem mindestens einen Signalabschnitt mit hoher Energie vorausgehen, und die Anzahl der Signalabschnitte mit hoher Energie zählen und die Anzahl der Signalabschnitte (SAS) zählen, die dem mindestens einen Signalabschnitt mit hoher Energie folgen; wobei – die Auftretenserkennungsmittel (13) ferner so ausgelegt sind, dass sie feststellen, ob der Energiegehalt von 1 aufeinander folgenden Signalabschnitten mit hoher Energie den Energieschwellenwert (ET) überschreitet, ob der Energiegehalt von m aufeinander folgenden Signalabschnitten (SAS), die den Signalabschnitten mit hoher Energie vorausgehen, unterhalb des Energieschwellenwertes (ET) liegt und ob der Energiegehalt von n aufeinander folgenden Signalabschnitten (SAS), die den Signalabschnitten mit hoher Energie folgen, unterhalb des Energieschwellenwertes (ET) liegt.
Vorrichtung (1) nach Anspruch 8, wobei Versorgungsmittel (14) geschaffen werden, die so ausgelegt sind, dass sie unter Berücksichtigung des erkannten Rauschsignals (PS1, PS2, PS3) ein rauschsignalfreies Audiosignal (DASO) liefern.
Computerprogrammprodukt (27), das direkt in einen Speicher (23) eines Computers (19) geladen werden kann und Softwarecodeabschnitte umfasst, wobei das Verfahren (M) nach Anspruch 1 von dem Computer (19) durchgeführt werden kann, wenn das Computerprogrammprodukt (27) in dem Computer (19) ausgeführt wird.
Computerprogrammprodukt (27) nach Anspruch 10, wobei das Computerprogrammprodukt (27) auf einem computerlesbaren Medium (26) gespeichert ist.
Computer (19) mit einer Prozessoreinheit (24) und einem internen Speicher (23), wobei ein derartiger Computer so konfiguriert ist, dass er das Computerprogrammprodukt (27) nach Anspruch 10 ausführt.