-
Die
Erfindung bezieht sich auf ein Verfahren zum Erkennen eines Rauschsignals
in einem digitalen Audiosignal.
-
Die
Erfindung bezieht sich ferner auf eine Vorrichtung zum Verarbeiten
eines digitalen Audiosignals, wobei die Vorrichtung mit Rauschsignal-Erkennungsmitteln
ausgestattet ist, die so ausgelegt sind, dass sie ein Rauschsignal
in dem Audiosignal erkennen.
-
Die
Erfindung bezieht sich ferner auf ein Computerprogrammprodukt, das
für das
Erkennen eines Rauschsignals in einem digitalen Audiosignal geeignet
ist.
-
Die
Erfindung bezieht sich ferner auf einen Computer, der das Computerprogrammprodukt
gemäß dem vorherigen
Abschnitt ausführt.
-
Ein
Verfahren dieser Art des oben im ersten Abschnitt erwähnten allgemeinen
Typs und eine Vorrichtung dieser Art des oben im zweiten Abschnitt
erwähnten
allgemeinen Typs und ein Computerprogrammprodukt dieser Art des
oben im dritten Abschnitt erwähnten
allgemeinen Typs und ein Computer dieser Art des oben im vierten
Abschnitt erwähnten
allgemeinen Typs werden von der Anmelderin in Verbindung mit einem
Spracherkennungssystem vertrieben und sind daher bekannt.
-
In
dem bekannten Spracherkennungssystem wird dem Spracherkennungssystem über ein
Mikrofon gesprochene Sprache in Form eines Audiosignals zugeführt und
digitalisiert. Das dadurch erhaltene digitale Audiosignal umfasst
die Stimme darstellende Sprachsignale und Hintergrundrauschen darstellende
Hintergrundsignale und weitere Rauschsignale, wobei die Rauschsignale
unter bestimmten Umständen
den Sprachsignalen ähnlich
sein können und
auch in großer
Nähe zu
ihnen auftreten könnten. Dieses
digitale Audiosignal wird einer Spektralanalyse und weiterer Verarbeitung
unterzogen, woraus sich eine Darstellung des digitalen Audiosignals
in einer so genannten Cepstral-Darstellung ergibt. Die Rauschsignale
können
fälschlicherweise
als Worte erkannt werden, die überhaupt
nicht gesprochen wurden. Rauschsignale in einem digitalen Audiosignal
haben ferner die unvorteilhafte Auswirkung, dass sie den Zuhörer bei der
Wiedergabe eines derartigen Audiosignals irritieren können. Aus
diesem Grund ist das Spracherkennungssystem mit Rauschsignal-Erkennungsmitteln
ausgestattet, die so ausgelegt sind, dass sie Rauschsignale zum
Zweck der weiteren Behandlung dieser erkannten Rauschsignale erkennen.
-
In
dem bekannten Spracherkennungssystem besteht das Problem, dass Rauschsignale
und insbesondere Klickgeräuschsignale,
die während
einer relativ kurzen Zeitspanne auftreten, nur in relativ langen
stillen Pausen erkannt werden können,
in denen das Audiosignal kein Sprachsignal sondern lediglich ein
Hintergrundsignal darstellt, weshalb Rauschsignale, die in unmittelbarer
Nähe oder
Nachbarschaft von Sprachsignalen auftreten, überhaupt nicht erkannt werden
können.
-
Das
Dokument
US 5.586.192
A bezieht sich auf ein Verfahren und eine Vorrichtung zum
Erkennen von pulsierenden Störsignalen
in einem Tonsignal, insbesondere in einem Stereo-Multiplex-FM-Signal.
Dieses Verfahren ist durch den Empfang von abgetasteten Signalwerten
des Audiosignals, die Speicherung von in einem Zeitfenster um einen
gegebenen abgetasteten Signalwert liegenden abgetasteten Signalwerten,
den Vergleich des Pegels des gegebenen abgetasteten Signalwertes
mit demjenigen von vorausgehenden und nachfolgenden abgetasteten Signalwerten
in dem Zeitfenster und die Identifizierung des gegebenen abgetasteten
Signalwertes als ein pulsierendes Störsignal auf der Grundlage des Vergleichs
des Pegels des gegebenen abgetasteten Signalwertes mit den Pegeln
der genannten vorausgehenden und nachfolgenden Signalabtastwerte
gekennzeichnet. Dieses Dokument bezieht sich nicht auf die speziellen
Probleme, die wie oben erwähnt
in Spracherkennungssystemen auftreten.
-
Der
Erfindung liegt die Aufgabe zugrunde, das oben dargelegte Problem
in einem Verfahren des oben im ersten Abschnitt erwähnten allgemeinen Typs
und in einer Vorrichtung des oben im zweiten Abschnitt erwähnten allgemeinen
Typs und einem Computerprogrammprodukt des oben im dritten Abschnitt
erwähnten
allgemeinen Typs und einem Computer des oben im vierten Abschnitt
erwähnten
allgemeinen Typs zu beseitigen und ein verbessertes Verfahren und
eine verbesserte Vorrichtung und ein verbessertes Computerprogrammprodukt
und einen verbesserten Computer zu schaffen.
-
Zur
Lösung
der oben erwähnten
Aufgabe kann ein erfindungsgemäßes Verfahren,
wie es in Anspruch 1 definiert ist, wie unten beschrieben gekennzeichnet
sein, nämlich:
Ein Verfahren zum Erkennen eines Rauschsignals in einem digitalen
Audiosignal, wobei das digitale Audiosignal in aufeinander folgendes
Signalabschnitte unterteilt wird und wobei der Energiegehalt von
aufeinander folgenden Signalabschnitten ermittelt wird und wobei
der Energiegehalt eines Signalabschnitts in Bezug auf einen Energieschwellenwert
ausgewertet wird und wobei das Auftreten von mindestens einem Signalabschnitt mit
hoher Energie, dessen Energiegehalt über dem Energieschwellenwert
liegt, und das Auftreten von mindestens einem Signalabschnitt, der
dem mindestens einen Signalabschnitt mit hoher Energie vorausgeht
und dessen Energiegehalt unterhalb des Energieschwellenwertes liegt,
und das Auftreten von mindestens einem Signalabschnitt, der dem
mindestens einen Signalabschnitt mit hoher Energie folgt und dessen
Energiegehalt unterhalb des Energieschwellenwertes liegt, erkannt
werden, und wobei eine Anzahl von Signalabschnitten, die dem mindestens
einen Signalabschnitt mit hoher Energie vorausgehen und eine Anzahl
von Signalabschnitten mit hoher Energie und eine Anzahl von Signalabschnitten,
die dem Signalabschnitt mit hoher Energie folgen, gezählt werden
und festgestellt wird, ob der Energiegehalt von 1 aufeinander folgenden
Signalabschnitten mit hoher Energie den Energieschwellenwert übersteigt,
und festgestellt wird, ob der Energiegehalt von m aufeinander folgenden
Signalabschnitten, die den Signalabschnitten mit hoher Energie vorausgehen, unterhalb
des Energieschwellenwertes liegen, und ferner festgestellt wird,
ob der Energiegehalt von n aufeinander folgenden Signalabschnitten,
die den Signalabschnitten mit hoher Energie folgen, unterhalb des
Energieschwellenwertes liegen.
-
Ferner
werden erfindungsgemäß eine Vorrichtung,
wie sie in Anspruch 8 definiert ist, ein Computerprogrammprodukt,
wie es in Anspruch 10 definiert ist, und ein Computer, wie er in
Anspruch 12 definiert ist, geschaffen.
-
Kraft
der Schaffung der erfindungsgemäßen Maßnahmen
wird der Vorteil erzielt, dass Klickgeräuschsignale mit der höchstmöglichen
Zuverlässigkeit
erkannt werden, und dass diese Erkennung auf der Grundlage einer
Darstellung des Audiosignals hinsichtlich der Zeit stattfindet,
wobei ein in dieser Darstellung hinsichtlich der Zeit erstelltes
Energiemuster verwendet und die Existenz dieses Energiemusters hinsichtlich
der Zeit berücksichtigt
wird, woraufhin komplizierte Transformationsverfahren zum Transformieren
der Darstellung des Audiosignals hinsichtlich der Zeit in eine andere
Darstellung als diejenige hinsichtlich der Zeit vollständig entfallen
und die Erfindung daher lediglich eine relativ geringe Rechenleistung
erfordert und eine schnelle und einfache Erkennung dieser Rauschsignale
unterstützt wird.
Das vorliegende Verfahren bietet den Vorteil, dass eine eindeutige
Erkennung eines Klickgeräuschsignals
in dem Audiosignal sichergestellt wird, wobei eine falsche Erkennung
von Nutzsignalen vermieden wird, die ihm ähnlich sind, da in einem Nutzsignal,
das Sprache darstellt, eine Pause, die n Signalabschnitte enthält, praktisch
nicht innerhalb eines Wort auftritt, und da ein Energiemuster mit
m und 1 Signalabschnitten das Ende eines gesprochenen Worte, bekannt
als Halbsilbe, ausschließt.
-
Bei
einer erfindungsgemäßen Lösung hat
es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch
2 zu schaffen. Daraus entsteht der Vorteil, dass eine Auswertung
des Energiegehalts von Signalabschnitten in einer standardisierten
Darstellung mit Dezibel als Einheit relativ einfach durchzuführen ist.
-
Bei
einer erfindungsgemäßen Lösung hat
es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch
3 zu schaffen. Daraus entsteht der Vorteil, dass der Energieschwellenwert
quasi kontinuierlich und daher immer im richtigen Verhältnis zum
aktuellen Signalpegel des Audiosignals in jedem Fall ermittelt wird,
so dass eine fehlerhafte Erkennung oder überhaupt keine Erkennung von
Klickgeräuschsignalen
aufgrund einer falschen Definition oder Annäherung des aktuellen Energieschwellenwertes
praktisch ausgeschlossen wird.
-
Bei
einer erfindungsgemäßen Lösung kann beispielsweise
vorgesehen werden, dass die Dauer der Signalabschnitte so ausgewählt wird,
dass sie zwischen 1 ms und 40 ms liegt. Es hat sich jedoch als besonders
vorteilhaft erwiesen, die Merkmale nach Anspruch 4 zu schaffen,
da infolgedessen auf verschiedene Eigenschaften des Audiosignals
in einem bevorzugten Wertebereich mit der höchstmöglichen Dynamik reagiert werden
kann, d. h. durch Signalabschnitte unterschiedlicher Länge.
-
Bei
einer erfindungsgemäßen Lösung hat
es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch
5 zu schaffen. Daraus entsteht der Vorteil, dass diese gleichmäßige zeitliche
Auflösung des
Audiosignals eine genaue Erkennung eines Klickgeräuschsignals
unterstützt.
-
Bei
einer erfindungsgemäßen Lösung hat
es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch
6 zu schaffen. Bei einer erfindungsgemäßen Lösung können auch Vorkehrungen getroffen
werden, um festzustellen, ob 1 im Bereich zwischen 1 und 9 liegt,
und um festzustellen, ob m gleich oder größer als ein Wert aus dem Bereich
zwischen 6 und 11 ist, und um festzustellen, ob n gleich oder größer als
ein Wert aus dem Bereich zwischen 27 und 38 ist.
-
Bei
einer erfindungsgemäßen Lösung hat
es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch
7 zu schaffen. Daraus entsteht der Vorteil, dass sogar Klickgeräuschsignale,
die wiederholt auftreten, auf einfache und zuverlässige Art
von Nutzsignalen im Audiosignal unterschieden werden können und
daher zuverlässig
zu erkennen sind.
-
Bei
einer erfindungsgemäßen Lösung hat
es sich ferner als vorteilhaft erwiesen, die Merkmale nach Anspruch
9 zu schaffen. Daraus entsteht der Vorteil, dass Rauschsignale praktisch
in Echtzeit aus dem Audiosignal entfernt werden können und
dadurch ein Audiosignal zur Verfügung
gestellt werden kann, das frei von Rauschsignalen ist.
-
Die
oben genannten und weitere Aspekte der Erfindung werden nachfolgend
erläutert.
-
Die
Erfindung wird im Folgenden unter Bezugnahme auf Beispiele von Ausführungsformen
beschrieben, die in den Zeichnungen dargestellt sind, auf die die
Erfindung jedoch nicht beschränkt
ist. Es zeigen:
-
1 als
schematisches Blockschaltbild eine Vorrichtung gemäß einem
ersten Ausführungsbeispiel
der Erfindung;
-
2 in
gleicher Weise wie in 1 ein für die Erfindung relevantes
Detail der Vorrichtung gemäß 1;
-
3 in
Form von zwei Diagrammen ein Audiosignal, das ein Klickgeräuschsignal
aufweist, wobei das Audiosignal mit Hilfe der erfindungsgemäßen Vorrichtung
verarbeitet werden kann, und eine Sequenz mit Energiegehalten des
Audiosignals, die Signalabschnitten des Audiosignals entsprechen;
-
4 analog
zu 3 ein Audiosignal, das mehrere Klickgeräuschsignale
aufweist und eine Sequenz mit Energiegehalten;
-
5 in
Form eines Diagramms ein Histogramm der Energiegehalte des Audiosignals
gemäß 3;
-
6 in
Form eines Blockschaltbildes ein Datenverarbeitungssystem, das mit
einem erfindungsgemäßen Computer
ausgerüstet
ist, mit dem Klickgeräuschsignale
in einem digitalen Audiosignale mit Hilfe eines erfindungsgemäßen Computerprogrammprodukts
erkannt werden können;
-
7 in
Form eines Ablaufplans ein erfindungsgemäßes Verfahren zum Erkennen
von Klickgeräuschsignalen
in einem digitalen Audiosignal.
-
1 zeigt
eine Vorrichtung 1 zum Verarbeiten eines digitalen Audiosignals
DASI, wobei die Vorrichtung 1 als mobiles Diktiergerät ausgeführt ist.
-
Das
digitale Audiosignal DASI kann aus einem akustischen Eingangsaudiosignal
ASI erzeugt werden, das in dem oberen Diagramm in 3 während eines
ersten Zeitbereichs dargestellt ist, wobei die Amplitude A des Audiosignals
ASI als Funktion der Zeit t dargestellt ist. Das Audiosignal ASI
besteht aus einem Sprachsignal SP und einem Hintergrundsignal BG,
das während
einer Pause innerhalb des Sprachsignals SP auftritt, und einem einzigen Rauschsignal
PS, das während
einer relativ kurzen Zeitspanne während der Pause auftritt. Der
Beginn der Pause ist gekennzeichnet durch eine Zeitmarke PB. Das
Ende der Pause ist gekennzeichnet durch eine Zeitmarke PE. Der Beginn
des Rauschsignals PS1 ist gekennzeichnet durch eine Zeitmarke SB1. Das
Ende des Rauschsignals PS1 ist gekennzeichnet durch eine Zeitmarke
SE1. In dem oberen Diagramm in 4 ist das
Eingangsaudiosignal ASI in gleicher Weise wie das obere Diagramm
in 3 während
eines zweiten Zeitbereichs dargestellt. Im Gegensatz zum ersten
Zeitbereich treten im zweiten Zeitbereich nach dem Rauschsignal
PS1 zwei weitere Rauschsignale PS2 und PS3 auf, deren Struktur derjenigen
des Rauschsignals PS1 entspricht. Das Rauschsignal PS2 ist begrenzt
durch die Zeitmarken SB2 und SE2. Das Rauschsignal PS3 ist begrenzt durch
die Zeitmarken SB3 und SE3. Die Rauschsignale PS1 oder PS2 und PS3
wurden jeweils beim Betrieb des mobilen Diktiergerätes erzeugt.
Es ist jedoch anzumerken, dass Rauschsignale PS1, PS2 und PS3 dieser
Art auch durch Ereignisse in der Nähe des Diktiergerätes erzeugt
werden können. Aufgrund
des Maßstabs
ist das Audiosignal ASI in den 3 und 4 nicht
für mehrere
Zeitbereiche I dargestellt.
-
Die
Vorrichtung 1 ist mit Empfangsmitteln 2 ausgestattet,
die so ausgelegt sind, dass sie das Eingangsaudiosignal ASI empfangen.
Die Empfangsmittel 2 sind mit einem in 1 nicht
dargestellten Mikrofon und mit einem in 1 nicht
dargestellten Empfangsverstärker
mit einer automatischen Verstärkungsregelung
und mit einem in 1 nicht dargestellten A-D-Umsetzer
ausgestattet. Die Empfangsmittel 2 sind so ausgelegt, dass
sie ein digitales Audiosignal DASI erzeugen und liefern, das das
Eingangsaudiosignal ASI darstellt, wobei das digitale Audiosignal
DASI in einem 16-Bit-Format mit Pulscode-Modulation, kurz PCM, vorliegt.
-
Die
Vorrichtung 1 ist ferner mit Kompressionsmitteln 3 ausgestattet,
die so ausgelegt sind, dass sie das digitale Audiosignal DASI empfangen
und ein komprimiertes Audiosignal CAS erzeugen und liefern, wobei
das komprimierte Audiosignal CAS ein Datenvolumen aufweist, das
durch Vergleich mit dem digitalen Audiosignal DASI reduziert wird.
In dem vorliegenden Fall sind die Kompressionsmittel 3 so
ausgelegt, dass sie ein komprimiertes Audiosignal CAS erzeugen,
wobei das Audiosignal CAS in dem vorliegenden Fall gemäß dem Kompressionsstandard CELP
(Code Excited Linear Prediction) komprimiert wurde. Es ist jedoch
an dieser Stelle anzumerken, dass jegliches andere Kompressionsverfahren
ebenfalls verwendet oder dass das digitale Audiosignal DASI ohne
Kompression weiterverarbeitet werden kann.
-
Die
Kompressionsmittel 3 sind ferner für den Schreibzugriff auf erste
Speichermittel 4 ausgelegt, wobei die ersten Speichermittel 4 vorgesehen
sind, um das komprimierte Audiosignal CAS zu speichern, so dass
das komprimierte Audiosignal CAS in den ersten Speichermitteln 4 gespeichert
werden kann.
-
Die
Vorrichtung 1 ist ferner mit Dekompressionsmitteln 5 ausgestattet,
die für
den Lesezugriff auf die ersten Speichermittel 4 ausgelegt
sind und während
des Zugriffs auf die ersten Speichermittel 4 das in den
ersten Speichermitteln 4 gespeicherte komprimierte Audiosignal
CAS lesen können.
Die Dekompressionsmittel 5 sind ferner so ausgelegt, dass
sie das komprimierte Audiosignal CAS dekomprimieren und ein dekomprimiertes
Audiosignal EAS erzeugen und liefern.
-
Die
Vorrichtung 1 ist ferner mit Rauschsignal-Erkennungsmitteln 6 ausgestattet,
die so ausgelegt sind, dass sie das digitale dekomprimierte Audiosignal
EAS empfangen und in Echtzeit das Rauschsignal PS1 oder die Rauschsignalfolge
PS1, PS2 und PS3 in dem Audiosignal EAS erkennen.
-
Zu
diesem Zweck sind die Rauschsignal-Erkennungsmittel 6 mit
Audiosignal-Unterteilungsmitteln 7 ausgestattet, die so
ausgelegt sind, dass sie das Audiosignal EAS in aufeinander folgende
Signalabschnitte SAS unterteilen, wobei die Signalabschnitte SAS
in jedem einzelnen Fall das Audiosignal ASI für eine Zeitspanne P darstellen.
Eine Vielzahl von Zeitspannen P ist in den 3 und 4 auf
der Zeitachse t gezeichnet. In dem vorliegenden Fall wird die Zeitspanne
so ausgewählt,
dass sie 5 ms beträgt. Es
ist jedoch anzumerken, dass auch andere Werte, wie zwischen 2 und
10 ms, für
P ausgewählt
werden können,
was jedoch, wie es dem Fachkundigen ersichtlich ist, eine Auswirkung
auf die Qualität
der Erkennung der Rauschsignale und/oder eine Auswirkung auf andere
Parameter haben könnte,
die die Erkennung der Rauschsignale PS1 und PS2 bzw. PS3 beeinflussen
und auf die nachfolgend genauer eingegangen wird.
-
Die
Rauschsignal-Erkennungsmittel
6 sind ferner mit Energiegehalt-Ermittlungsmitteln
8 ausgestattet,
die so ausgelegt sind, dass sie den Energiegehalt von aufeinander
folgenden Signalabschnitten SAS ermitteln, wobei der Energiegehalt
der Signalabschnitte SAS gemäß folgender
Formel ermittelt wird:
in der Einheit Dezibel (dB),
wobei S
k die Signalamplitude des k-ten Signalabschnitts
SAS und N die Gesamtanzahl von Signalamplituden S
k innerhalb
eines Signalabschnitts SAS darstellt. Die Energiegehalt-Ermittlungsmittel
8 sind
ferner so ausgelegt, dass sie Energiegehaltdaten EVD erzeugen und
liefern, die den ermittelten Energiegehalt darstellen. Der ermittelte
Energiegehalt der Signalabschnitte SAS ist in den unteren Diagrammen
in
3 bzw.
4 in jedem einzelnen Fall in
Form eines Säulendiagramms dargestellt.
-
Die
Rauschsignal-Erkennungsmittel 6 sind ferner mit Energieschwellenwert-Ermittlungsmitteln 9 ausgestattet,
die so ausgelegt sind, dass sie einen Energieschwellenwert ET ermitteln,
wobei der Energieschwellenwert ET kontinuierlich auf der Grundlage
der Energiegehaltdaten EVD ermittelt wird. Im Einzelnen basiert
die Ermittlung des Energieschwellenwertes ET auf einem grundlegenden
Verfahren und einem verfeinerten Verfahren, die beide nachfolgend
ausführlicher
beschrieben werden.
-
Bei
dem grundlegenden Verfahren wird innerhalb eines normalen Zeitschlitzes
von 6 s, durch den metaphorisch gesprochen die Energiegehaltdaten
EVD geschoben werden, als erstes ein Histogramm H des Energiegehalts
aller innerhalb des normalen Zeitschlitzes auftretenden Signalabschnitte SAS
erstellt, wie es in 5 dargestellt ist. Es ist jedoch
an dieser Stelle anzumerken, dass auch andere Werte als die 6 s
für den
normalen Zeitschlitz vorgesehen werden können. In dem Histogramm H ist
der Energiegehalt auf der Abszisse aufgetragen, wobei gemäß dem ausgewählten 16-Bit-PCM-Format die obere
Grenze UB des Energiegehalts bei 90 dB liegt. Eine so für den Histogrammbereich
G erzielte stufenförmige
Kennlinie der Flankenkurve wird durch eine kontinuierlich weitergehende
Hüllkurve
EV approximiert. Unterhalb der Hüllkurve
sind ein Bereich mit niedriger Energie LEA und ein Bereich mit hoher
Energie HEA so definiert, dass jeder der Bereiche zehn Prozent des
Bereichs unterhalb der Hüllkurve
einnimmt, wobei wiederum an dieser Stelle anzumerken ist, dass anstelle
von zehn Prozent andere Werte wie Werte zwischen fünf und fünfzehn Prozent
ebenfalls gewählt
werden können.
Die Positionen der entsprechenden Grenzlinien der beiden Bereiche
LEA und HEA geben den Rauschsignalpegel NL und den Nutzsignalpegel
SL an. Das Verhältnis
zwischen Nutzsignalpegel SL und Rauschsignalpegel NL, das nachfolgend
mit Bezug auf den Fachausdruck Rauschabstand (engl. signal-to-noise
ratio) als SNR bezeichnet wird, wird als Differenz zwischen dem
Nutzsignalpegel SL und dem Rauschsignalpegel NL berechnet. Ein weiterer
verwendeter Parameter trägt die
Bezeichnung „Rauschversatz" (engl. noise Offset)
und berücksichtigt
eine erwartete minimale Energiebandbreite des Rauschens und beträgt im vorliegenden
Fall 4 dB. Ein weiterer Parameter, bezeichnet mit „Energiefaktor", stellt eine erwartete
Rauschkomponente des gesamten SNR-Bereichs dar und beträgt im vorliegenden
Fall 0,34. Mit Hilfe der oben genannten Parameter kann der Energieschwellenwert folgendermaßen als
Funktion der in jedem einzelnen Fall anzuwendenden Bedingung berechnet
werden:
Wenn (SNR > Rauschversatz)
ET = NL + Energiefaktor·SNR
Sonst
ET = NL + Rauschversatz
-
Es
ist an dieser Stelle anzumerken, dass zu Beginn einer Ermittlung
des Energieschwellenwertes ET, d.h. zu einem Zeitpunkt, an dem eine
zur Ermittlung des Energieschwellenwertes ET ausreichende Anzahl
an Energiegehalten innerhalb des normalen Zeitschlitzes noch nicht
ermittelt wurde, ein Mindestzeitschlitz von 1 s anstelle des normalen
Zeitschlitzes verwendet wird, um eine daraus resultierende erhebliche
Verzögerung
bei der Ermittlung des Energieschwellenwertes ET mit Hilfe des normalen
Zeitschlitzes zu verhindern.
-
Bei
einem verfeinerten Verfahren wird mit der Annahme, dass die Dauer
des normalen Zeitschlitzes bei dem grundlegenden Verfahren zu lang
ist, um auf schnelle Veränderungen
des Rauschsignalpegels NL zu reagieren, der Rauschsignalpegel NL
aus den innerhalb eines kurzen Zeitschlitzes von 100 ms als letztes
ermittelten Energiegehalten ermittelt, wobei ein Mittelwert der
Energiegehalte gemäß folgender
Formel berechnet wird:
wobei die Energiegehaltdaten
EVD, den Energiegehalt innerhalb des kurzen Zeitschlitzes darstellen
und wobei M die Menge von Energiegehaltdaten EVD; innerhalb des
kurzen Zeitschlitzes angibt. Gemäß der verfeinerten
Ermittlung des Rauschsignalpegels NL erfolgt die Ermittlung des
Energieschwellenwertes ET wie bei dem grundlegenden Verfahren, wobei
die in dem grundlegenden Verfahren spezifizierten Formeln eingesetzt
werden und wobei der Rauschabstand SNR gemäß dem grundlegenden Verfahren
ermittelt wird. Die Energieschwellenwert-Ermittlungsmittel
9 sind
ferner so ausgelegt, dass sie den gemäß dem grundlegenden Verfahren
oder gemäß dem verfeinerten
Verfahren ermitteltem Energieschwellenwert ET in Form von Energieschwellenwertdaten ETD
liefern. Der durch das spezielle Verfahren ermittelt Energieschwellenwert
ET wird in die unteren Diagramme in
3 bzw.
4 eingetragen,
wobei über
die Zeit auftretende Veränderungen
des Energieschwellenwertes ET nicht explizit gezeigt sind.
-
Bei
der Ermittlung des Energieschwellenwertes ET wird immer das verfeinerte
Verfahren eingesetzt, und das grundlegende Verfahren wird zur Stabilisierung
des verfeinerten Verfahrens eingesetzt beginnend bei der Zeitmarke
SE1 in Richtung des Pfeils T2 und, falls anwendbar, auch beginnend
bei der Zeitmarke SE2 in Richtung des Pfeils T3 und beginnend bei
der Zeitmarke SE3 in Richtung des Pfeils T4, für in jedem einzelnen Fall höchstens
dreißig
Signalabschnitte SAS, die ein Hintergrundsignal BG darstellen.
-
Die
Rauschsignal-Erkennungsmittel 6 sind ferner mit Zählmitteln 11 ausgestattet.
Die Zählmittel 11 sind
so ausgelegt, dass sie eine Anzahl von benachbarten aufeinander
folgenden Signalabschnitten mit hoher Energie zählen, die einen Energiegehalt oberhalb
des Energieschwellenwertes ET aufweisen, und diese Anzahl darstellende
Zählerstanddaten
für hohe
Energie NCH erzeugen und liefern. Bei den in 3 und 4 gezeigten
Audiosignalen ASI besteht diese Situation zwischen den Zeitmarken
SB1 und SE1, SB2 und SE2 bzw. SB3 und SE3.
-
Die
Zählmittel 11 sind
ferner so ausgelegt, dass sie die Anzahl von Signalabschnitten SAS
zählen,
die dem mindestens einen Signalabschnitt mit hoher Energie vorausgehen
und einen Energiegehalt unterhalb des Energieschwellenwertes ET
aufweisen. Bei den in 3 und 4 gezeigten
Audiosignalen ASI besteht diese Situation beginnend links von der
Zeitmarke SB1 und in Richtung des Pfeils T1. Die Zählmittel 11 sind
ferner so ausgelegt, dass sie die Anzahl von Signalabschnitten zählen, die
dem mindestens einen Signalabschnitt mit hoher Energie folgen und
einen Energiegehalt unterhalb des Energieschwellenwertes aufweisen.
Bei den in 2 und 4 gezeigten
Audiosignalen ASI besteht diese Situation beginnend bei der Zeitmarke
SE1 und in Richtung des Pfeils T2. Bei dem in 4 gezeigten
Audiosignal ASI besteht diese Situation auch beginnend bei der Zeitmarke
SE2 und in Richtung des Pfeils T3 und beginnend bei der Zeitmarke
SE3 und in Richtung eines Pfeils T4. In beiden Fällen, d. h. im Fall der Signalabschnitte
SAS, die einem Signalabschnitt mit hoher Energie vorausgehen, oder
im Fall der Signalabschnitte SAS, die einem Signalabschnitt mit
hoher Energie folgen, wird die entsprechende Anzahl von Signalabschnitten
SAS physikalisch durch die Zählerstanddaten
für niedrige
Energie NCL dargestellt, die jedoch logisch, d. h. hinsichtlich
ihres Auftretens hinsichtlich der Zeit, in die Zählerstanddaten NCLPRE und
NCLPOST unterteilt werden können.
-
Dementsprechend
werden die Zählmittel 11 vorteilhaft
durch lediglich zwei Zähler
realisiert, die in 2 nicht dargestellt sind, wobei
ein erster Zähler zum
Erzeugen der Zählerstanddaten
für niedrige
Energie NCL und ein zweiter Zähler
zum Erzeugen der Zählerstanddaten
für hohe
Energie NCH geschaffen werden, und wobei die Zählmittel 11 so ausgelegt sind,
dass sie ein Zählersignal
NE empfangen und verarbeiten, das dazu dient, den Zählmitteln 11 mitzuteilen,
welcher der beiden Zähler
um Eins zu erhöhen
ist. Die in den entsprechenden Zählern
vorliegenden Zählerstanddaten
NCH oder NCL stehen permanent zur Verfügung. Die Zählmittel 11 sind ferner
so ausgelegt, dass sie ein Zählerrückstellsignal NR
empfangen, das das Löschen
des durch die Zählerstanddaten
NCH und NCL dargestellten Zählerstatus
bewirkt.
-
Die
Rauschsignal-Erkennungsmittel 6 sind ferner mit Energiegehalt-Auswertungsmitteln 12 ausgestattet,
die so ausgelegt sind, dass sie die in jedem einzelnen Fall ermittelten
Energiegehaltdaten EVD und Energieschwellenwertdaten ETD empfangen und
in jedem einzelnen Fall den Energiegehalt eines dem anwendbaren
Energieschwellenwert ET zugeordneten Signalabschnitts SAS auswerten.
Die Energiegehalt-Auswertungsmittel 12 werden für die Interaktion
mit Auftretenserkennungsmitteln 13 vorgesehen. Die Auftretenserkennungsmittel 13 sind
so ausgelegt, dass sie das Zählersignal
NE und das Zählerrückstellsignal
NR erzeugen und liefern. Die Auftretenserkennungsmittel 13 sind
ferner so ausgelegt, dass sie mit Hilfe eines Auswertungsergebnisses
von den Energiegehalt-Auswertungsmitteln 12 Folgendes erkennen:
das Auftreten von mindestens einem Signalabschnitt mit hoher Energie
wie zwischen den Zeitmarken SB1 und SE1, das Auftreten von mindestens
einem Signalabschnitt SAS, der dem mindestens einen Signalabschnitt
mit hoher Energie vorausgeht und einen Energiegehalt unterhalb des
Energieschwellenwertes ET aufweist wie links von der Zeitmarke SB1,
und das Auftreten von mindestens einem Signalabschnitt SAS, der
dem mindestens einen Signalabschnitt mit hoher Energie folgt und
einen Energiegehalt unterhalb des Energieschwellenwertes ET aufweist
wie rechts von der Zeitmarke SE1.
-
Die
Auftretenserkennungsmittel 13 sind ferner so ausgelegt,
dass sie Auftretenserkennungsdaten RD erzeugen und liefern, falls
das Auftreten des in dem vorhergehenden Abschnitt beschriebenen Energiemusters
in den Signalabschnitten SAS erkannt wurde und die Anzahl von Gruppen
mit Signalabschnitten SAS, die das Energiemuster bilden, in jedem
einzelnen Fall einer Hypothese entspricht, also ein Klickgeräuschsignal
vorliegt. Hier wird während der Überprüfung der
Hypothese ermittelt, ob der Energiegehalt von m aufeinander folgenden
Signalabschnitten SAS, die durch die Zählerstanddaten für niedrige
Energie NCLPRE dargestellt werden und den Signalabschnitten
mit hoher Energie vorausgehen, unterhalb des Energieschwellenwertes
ET liegt, wobei m gleich oder größer als
Neun ist. Es wird ferner ermittelt, ob der Energiegehalt von 1 aufeinander
folgenden Signalabschnitten mit hoher Energie, die durch die Zählerstanddaten
für hohe
Energie NCH dargestellt werden, über
dem Energieschwellenwert ET liegt, wobei 1 zwischen Drei und Sieben
liegt. Es wird ferner ermittelt, ob der Energiegehalt von n aufeinander
folgenden Signalabschnitten, die durch die Zählerstanddaten für niedrige
Energie NCLPOST dargestellt werden und den
Signalabschnitten mit hoher Energie folgen, unterhalb des Energieschwellenwertes
ET liegt, wobei n gleich oder größer als
Dreißig ist.
Diese Hypothese, die auf die in 3 und 4 gezeigten
Audiosignale ASI angewendet werden kann, kann mathematisch gemäß der nachfolgend spezifizierten
Bedingung formuliert werden:
(NCLPRE>=9) UND
(3<=NCH<=7) UND
(NCLPOST>=30).
-
Bei
der in
4 gezeigten Situation sind die Rauschsignal-Erkennungsmittel
6 so
ausgelegt, dass sie die wiederholt auftretenden Rauschsignale PS1, PS2
bzw. PS3 erkennen. Hier wird die Hypothese dahingehend erweitert,
dass ermittelt wird, ob nach Signalabschnitten mit hoher Energie,
beispielsweise nach den Signalabschnitten SAS des Rauschsignals SP1
oder des Rauschsignals SP2, während
dreißig auf
diese Signalabschnitte mit hoher Energie folgenden Signalabschnitten,
die einen Energiegehalt unterhalb des Energieschwellenwertes aufweisen,
der Energiegehalt von weiteren Signalabschnitten mit hoher Energie,
wie im Fall während
beispielsweise der Rauschsignale PS2 uns PS3, über dem Energieschwellenwert
ET liegt. Diese somit erweiterte Hypothese, die auf die in
3 und
4 gezeigten
Audiosignale ASI angewendet werden kann, kann mathematisch gemäß der nachfolgend
spezifizierten Bedingung formuliert werden:
(NCL
PRE >= 9) UND
(NCH
i <= 7, ∀i, 1 <= i <= 3) UND
(NCL
POST,i < 30, ∀i, 1 <= i <= 2) UND
(NCL
POST,3 >=
30).
-
Zur
Verdeutlichung ist an dieser Stelle anzumerken, dass NCH1 die Anzahl von Signalabschnitten mit hoher
Energie während
des Rauschsignals PS1 darstellt, dass NCH2 die
Anzahl von Signalabschnitten mit hoher Energie während des Rauschsignals PS2
darstellt und dass NCH3 die Anzahl von Signalabschnitten
mit hoher Energie während
des Rauschsignals PS3 darstellt. Es sollte ferner klargestellt werden,
dass NCLPRE die Anzahl von Signalabschnitten
SAS darstellt, die den NCH1 Signalabschnitten
mit hoher Energie vorausgehen. Es sollte ferner klargestellt werden,
dass NCLPOST,1 die Anzahl von Signalabschnitten
SAS darstellt, die zwischen den Rauschsignalen PS1 und PS2 auftreten,
und dass NCLPOST,2 die Anzahl von Signalabschnitten SAS
darstellt, die zwischen den Rauschsignalen PS2 und PS3 auftreten,
und dass NCLPOST,3 die Anzahl von Signalabschnitten
SAS darstellt, die nach dem Rauschsignal PS3 auftreten, die einen
Energiegehalt unterhalb des Energieschwellenwertes ET aufweisen.
Es sollte auch klargestellt werden, dass i die Anzahl von Rauschsignalen
PS1, PS2 und PS3 innerhalb der Pause darstellt und dass die Anzahl
weiterer Rauschsignale PS2 und PS3 usw., die nach dem ersten Rauschsignal
PS1 auftreten, auf fünfundzwanzig begrenzt
ist. Es ist jedoch anzumerken, dass i in Abhängigkeit von der speziellen
Anwendung auch einem anderen Maximalwert zugeordnet werden kann.
-
Zu
diesem Zweck sind die Energiegehalt-Auswertungsmittel 12 und
die Auftretenserkennungsmittel 13 als so genannte „Zustandsmaschine" ausgeführt, die
so ausgelegt ist, dass sie kontinuierlich auf der Grundlage der
Energiegehaltdaten EVD, der Energieschwellenwertdaten ETD und der
beiden Zählerstanddaten
NCL und NCH die oben erwähnten Bedingungen überprüft und in
Abhängigkeit
von den Ergebnissen dieser Überprüfung in
einem ihrer Zustände
bleibt oder ihren Zustand ändert.
Die Zustande stellen hierdurch im Wesentlichen die Tatsache dar,
dass die oben beschriebene Hypothese Geltung hat oder dass diese
Hypothese keine Geltung hat. Falls die Hypothese Geltung hat, wird
zwischen drei weiteren Zuständen
unterschieden, wobei ein Zustand ein durch das Hintergrundsignal
BG vor dem ersten Rauschsignal PS1 gebildetes „Vor-der-Pause" darstellt, wobei
ein weiterer Zustand die Signalabschnitte mit hoher Energie während eines
der Rauschsignale PS1, PS2, PS3 darstellt und wobei ein weiterer
Zustand durch das Hintergrundsignal BG gebildete Zwischenpausen
zwischen den Zeitmarken SE1 und SB2 oder SE2 und SB3 oder ein „Nach-der-Pause" zwischen den Zeitmarken
SE3 und PE darstellt. Die Zustandsmaschine ist so ausgelegt, dass
sie in dem Fall, dass sie in einem Zustand bleibt, das Zählersignal
NE erzeugt und liefert. Die Zustandsmaschine ist ferner so ausgelegt,
dass sie die Auftretenserkennungsdaten RD infolge einer Zustandsänderung
erzeugt und liefert, wenn die oben genannten Bedingungen für die Erkennung
eines Klickgeräuschsignals
PS oder einer Sequenz mit Klickgeräuschsignalen PS1, PS2, PS3
vollständig
erfüllt
sind, und dass sie falls kein Klickgeräuschsignal gemäß der Hypothese
zu erkennen ist, das Zählerrückstellsignal
NR erzeugt und liefert.
-
Gemäß der obigen
Informationen kann ein Verfahren zum Erkennen eines Rauschsignals
PS1 gemäß 3 oder
einer Sequenz mit Rauschsignalen PS1, PS2, PS3 gemäß 4 in
einem digitalen Audiosignal EAS mit Hilfe der Vorrichtung 1 ausgeführt werden,
wobei das digitale Audiosignal EAS in aufeinander folgende Signalabschnitte
SAS unterteilt wird und wobei die Energiegehalte der aufeinander folgenden
Signalabschnitte SAS ermittelt werden und wobei der Energiegehalt
eines einem Energieschwellenwert ET zugeordneten Signalabschnitts SAS
ausgewertet wird und wobei das Auftreten von mindestens einem Signalabschnitt
mit hoher Energie, der einen Energiegehalt oberhalb des Energieschwellenwertes
ET aufweist, und das Auftreten mindestens eines Signalabschnitts
SAS, der dem mindestens einen Signalabschnitt mit hoher Energie
vorausgeht und einen Energiegehalt unterhalb des Energieschwellenwertes
ET aufweist, und das Auftreten mindestens eines Signalabschnitts
SAS, der dem mindestens einen Signalabschnitt mit hoher Energie folgt
und einen Energiegehalt unterhalb des Energieschwellenwertes ET
aufweist, erkannt wird und eine Anzahl von Signalabschnitten SAS,
die dem mindestens einen Signalabschnitt mit hoher Energie vorausgehen,
und eine Anzahl von Signalabschnitten mit hoher Energie und eine
Anzahl von Signalabschnitten SAS, die dem Signalabschnitt mit hoher
Energie folgen, gezählt
werden.
-
Nachfolgend
wird das Verfahren M zum Erkennen des Rauschsignals PS1 oder der
Rauschsignale PS1, PS2, PS3, das mit Hilfe der Vorrichtung 1 ausgeführt werden
kann, ausführlich
unter Bezugnahme auf den in 7 gezeigten
Ablaufplan erläutert.
-
Zu
diesem Zweck werden als erstes die nachfolgend spezifizierten Variablen
eingeführt,
die zum Erkennen der Rauschsignale PS1 oder PS1, PS2 und PS3 erforderlich
sind, wobei ihre Werte während
der Ausführung
des Verfahrens M verbessert werden. Eine erste Variable E stellt
den Energiegehalt des speziellen Signalabschnitts SAS dar. Eine zweite
Variable CL stellt die Anzahl von Signalabschnitten mit hoher Energie
dar, wobei diese Anzahl den Zählerstanddaten
für hohe
Energie NCH entspricht. Die dritte Variable SL stellt die Anzahl
von Signalabschnitten SAS dar, deren Energiewert unterhalb des Energieschwellenwertes
ET liegt, wobei diese Anzahl den Zählerstanddaten für niedrige
Energie NCL entspricht. Eine vierte Variable CLACCU stellt eine
angesammelte Anzahl von Signalabschnitten mit hoher Energie in dem
Fall dar, dass während
einer Pause einzelne Signalabschnitte mit hoher Energie oder Gruppen
dieser Signalabschnitte mit hoher Energie wiederholt auftreten.
Eine fünfte
Variable RC stellt einen Wiederholungszählerwert zum Zählen der Anzahl
wiederholt auftretender Rauschsignale PS2 oder PS3 dar. Eine sechste
Variable SLMAYBERESET stellt einen logischen Wert zum Erzielen einer Entscheidung
dar. Zu Beginn des Verfahrens M wird den numerischen Variablen CL,
SL CLACCU und RC ein Wert von Null zugewiesen. Der logischen Variablen
SLMAYBERESET wird der logische Wert Falsch zugewiesen.
-
Die
nachfolgend spezifizierten Parameter, die in dem Verfahren zur Sequenzsteuerung
eingesetzt werden, werden ebenfalls eingeführt. Ein erster Parameter SBEGIN
stellt die Mindestanzahl von Signalabschnitten SAS dar, die das
Hintergrundsignal BG vor dem Auftreten des ersten Signalabschnitts mit
hoher Energie darstellen, wobei im vorliegenden Fall der Wert Neun
vorgesehen wird. Ein zweiter Parameter SEND stellt die Mindestanzahl
von Signalabschnitten SAS dar, die das Hintergrundsignal BG darstellen
und nach dem letzten zu einem Rauschsignal PS1 oder einer Sequenz
der Rauschsignale PS1, PS2 oder PS3 gehörenden Signalabschnitt mit
hoher Energie auftreten, wobei im vorliegenden Fall der Wert Dreißig vorgesehen
wird. Ein dritter Parameter CMIN stellt die Mindestanzahl von Signalabschnitten mit
hoher Energie dar, die zur Erkennung eines Rauschsignals PS1, PS2
oder PS3 erforderlich ist, wobei im vorliegenden Fall der Wert Drei
vorgesehen wird. Ein vierter Parameter CMAX stellt die maximale Anzahl
von Signalabschnitten mit hoher Energie dar, die zur Erkennung eines
Rauschsignals PS1, PS2 oder PS3 erforderlich ist, wobei im vorliegenden
Fall der Wert Sieben vorgesehen wird. Ein fünfter Parameter MAXREP stellt
die maximal zulässige Anzahl von
wiederholt auftretenden Signalabschnitten mit hoher Energie dar,
wobei im vorliegenden Fall der Wert Fünfundzwanzig vorgesehen wird.
-
Die
Ausführung
des Verfahrens M für
jeden Signalabschnitt SAS beginnt bei Block M1, sobald das digitale
Audiosignal EAS in aufeinander folgende Signalabschnitte SAS unterteilt
wurde und der Energiegehalt für
den speziellen Signalabschnitt SAS ermittelt wurde und durch die
Variable E dargestellt wird und der in dem speziellen Fall anwendbare
Energieschwellenwert ET zur Verfügung
steht.
-
Bei
Block M2 erfolgt die Auswertung des Energiegehaltes des speziellen
Signalabschnitts SAS mit Bezug auf den Energieschwellenwert ET.
Falls bei Block M2 festgestellt wird, dass E unterhalb des Energieschwellenwertes
ET liegt, geht es weiter zu Block M3, was bedeutet, dass ein das
Hintergrundsignal BG in den Pausen zwischen den Zeitmarken PB und
PE darstellender Signalabschnitt SAS vorliegt.
-
Bei
Block M3 erfolgt eine Überprüfung, ob
CL größer als
Null ist.
-
Falls
CL nicht größer als
Null ist, bedeutet dies, dass eine Pause initiiert wurde. Es geht
in diesem Fall weiter zu Block M5, wo SL um den Wert Eins erhöht wird.
-
Das
Verfahren endet dann bei Block M6.
-
Falls
CL größer als
Null ist, bedeutet dies, dass eine Pause nach einem gemäß der Hypothese erkennbaren
Rauschsignal auftritt, wobei für
das Rauschsignal mindestens eine der Bedingungen der Hypothese vorliegt.
In diesem Fall geht es weiter zu Block M7, bei dem überprüft wird,
ob SLMAYBERESET gleich Falsch ist.
-
Falls
SLMAYBERESET gleich Wahr ist, bedeutet dies, dass der erste Signalabschnitt
SAS nach einem gemäß der Hypothese
erkennbaren Rauschsignal PS1, PS2 oder PS3 zwischen den Zeitmarken SEI
und SB2, SE2 und SB3 oder SB3 und PE vorliegen kann. Es geht weiter
zu Block M9, bei dem SL der Wert Null zugewiesen wird, um das erneute
Zählen
der Signalabschnitte SAS in der nächsten Pause zu ermöglichen.
Anschließend
wird das Verfahren bei Block M10 fortgesetzt, bei dem SLMAYBERESET Falsch
zugewiesen wird. Anschließend
wird das Verfahren M bei Block M8 fortgesetzt.
-
Falls
SLMAYBERESET gleich Falsch ist, was bedeutet, dass ein anderer Signalabschnitt
SAS als der erste der Pause zwischen den Zeitmarken SE1 und SB2,
SE2 und SB3 oder SE3 und PE auftritt, geht es weiter zu Block M8,
bei dem SL um den Wert Eins erhöht
wird.
-
Nach
Block M8 wird das Verfahren M bei Block M11 fortgesetzt, bei dem überprüft wird,
ob SL gleich SEND ist. Falls diese Unterbrechungsbedingung nicht
erfüllt ist,
geht es weiter zu Block M6. Falls SL gleich SEND ist, geht es weiter
zu Block M12, bei dem CLACCU um den Wert von CL erhöht wird.
Nach Block M12 wird das Verfahren bei Block M13 fortgesetzt.
-
Bei
Block M13 wird überprüft, ob CLACCU geringer
als CLMIN ist.
-
Falls
CLACCU nicht geringer als CLMIN ist, bedeutet dies, dass ein Rauschsignal
PS1 oder eine Rauschsignalsequenz PS1, PS2 und PS3 erkannt wurde,
und es geht weiter zu Block M14. Bei Block M14 werden die Auftretenserkennungsdaten
RD erzeugt und geliefert. Anschließend wird das Verfahren M bei
Block M15 fortgesetzt, bei dem CL, CLACCU und RC der Wert Null zugewiesen
wird und bei dem SLMAYBERESET der Wert Falsch zugewiesen wird. Das
Verfahren endet bei Block M6.
-
Falls
CLACCU geringer als CMIN ist, wird das Verfahren M bei Block M15
fortgesetzt.
-
Falls
bei Block M2 E nicht geringer als ET ist, bedeutet dies, dass ein
Signalabschnitt SAS vorliegt, der entweder ein Sprachsignal SP oder
ein Rauschsignal PS1, PS2 oder PS3 darstellt. In diesem Fall geht
es weiter zu Block M4.
-
Bei
Block M4 wird überprüft, ob CL
einen Wert Null hat und ob SL geringer als SBEGIN ist.
-
Falls
die Prüfbedingung
bei Block M4 erfüllt wird,
bedeutet dies, dass die Pause, während
der das Hintergrundsignal BG vorlag, nicht lang genug war und dass
der Signalabschnitt SAS nicht ein gemäß der Hypothese erkennbares
Rauschsignal PS1, PS2 oder PS3 ist. In diesem Fall geht es weiter
zu Block M16, bei dem SL der Wert Null zugewiesen wird. Das Verfahren
M wird dann bei Block M16 fortgesetzt. Die Fortsetzung des Verfahrens
M in Übereinstimmung mit
den Blöcken
15 und 16 entspricht der Erzeugung des Zählerrückstellsignals NR.
-
Falls
die Prüfbedingung
bei Block M4 nicht erfüllt
wird, bedeutet dies, dass ein gemäß der Hypothese erkennbares
Rauschsignal PS1, PS2 oder PS3 vorliegen kann. Infolgedessen geht
es weiter zu Block M17.
-
Bei
Block M17 wird überprüft, ob CL
größer als
Null ist und ob SLMAYBERESET gleich Falsch ist.
-
Falls
die Prüfbedingung
bei Block M17 erfüllt wird,
bedeutet dies, dass hinsichtlich des Signalabschnitts SAS dies der
Beginn eines der Rauschsignale PS2 oder PS3 sein kann, und es geht
weiter zu Block M18.
-
Bei
Block M18 wird überprüft, ob RC
geringer als MAXREP ist.
-
Falls
RC nicht geringer als MAXREP ist, bedeutet dies, dass ein gültiges Rauschsignal
PS2 oder PS3, d. h. eines, dass gemäß der Hypothese erkannt werden
kann, nicht vorliegt, und es geht weiter zu Block M16.
-
Falls
RC geringer als MAXREP ist, bedeutet dies, dass eines der dem ersten
Rauschsignal PS1 folgenden Rauschsignale PS2 oder PS3 vorliegen kann,
und es geht weiter zu Block M19. Bei Block M19 wird RC um den Wert
Eins erhöht
und das Verfahren M bei Block M20 fortgesetzt. Bei Block M20 wird
CLACCU um den Wert von CL erhöht,
und das Verfahren M wird bei Block M21 fortgesetzt. Bei Block M21
wird CL der Wert Eins zugewiesen und das Verfahren bei Block M22
fortgesetzt. Bei Block M22 wird SLMAYBERESET der logische Wert Wahr
zugewiesen, und das Verfahren endet bei M6.
-
Falls
die Prüfbedingung
bei Block M17 nicht erfüllt
wird, bedeutet dies, dass hinsichtlich des Signalabschnitts SAS
dies der Beginn des ersten Rauschsignals PS1 sein kann oder ein
Signalabschnitt SAS innerhalb eines der Rauschsignale PS1 oder PS2
oder PS3 vorliegen kann, wobei dies nicht der erste Signalabschnitt
SAS eines der Rauschsignale PS1 oder PS2 oder PS3 ist. In diesem
Fall geht es weiter zu Block M23. Bei Block M23 wird CL um den Wert
Eins erhöht
und das Verfahren bei Block M24 fortgesetzt. Bei Block M24 wird
SLMAYBEESET der logische Wert Wahr zugewiesen und das Verfahren
M bei Block M25 fortgesetzt.
-
Bei
Block M25 wird überprüft, ob CL
größer als
CMAX ist. Falls CL größer als
CMAX ist, bedeutet dies, dass die Dauer der Signalabschnitte mit
hoher Energie zu lang war und daher kein Rauschsignal PS1 oder PS2
oder PS3 vorliegen kann, und es geht weiter zu Block M16. Falls
CL nicht größer als
CMAX ist, geht es weiter zu Block M6, und das Verfahren M endet
bei Block M6.
-
Zusammenfassend
ist im Zusammenhang mit dem Verfahren M anzumerken, dass, wenn die Bedingung
bei Block M3 erfüllt
wird, die Dauer des „Vor-der-Pause" vor einem Rauschsignal
lang genug war, und dass die Anzahl von Signalabschnitten mit hoher
Energie nicht größer als
CMAX war und die Anzahl wiederholt auftretender Rauschsignale innerhalb
des zulässigen
Bereichs liegt.
-
Die
in 1 dargestellte Vorrichtung 1 ist ferner
mit Versorgungsmitteln 14 ausgestattet, die so ausgelegt
sind, dass sie ein rauschsignalfreies Audiosignal DASO liefern,
wobei sie ein einzelnes erkanntes Rauschsignal PS1 oder eine Sequenz
mit mehreren erkannten Rauschsignalen PS1, PS2 und PS3 berücksichtigen.
Zu diesem Zweck sind die Versorgungsmittel 14 mit zweiten
Speichermitteln 15 ausgestattet, die für eine temporäre Speicherung
einer Vielzahl von Signalabschnitten SAS ausgelegt sind, die mit
Hilfe der Audiosignal-Unterteilungsmittel 7 erzeugt werden
können.
Die Versorgungsmittel 14 sind ferner mit Rückstellmitteln 16 ausgestattet,
die so ausgelegt sind, dass sie die Auftretenserkennungsdaten RD
empfangen. Die Rückstellmittel 16 sind
ferner dafür
ausgelegt, die temporär
gespeicherten Signalabschnitte SAS für den Lesezugriff auf die zweiten
Speichermittel 15 zu lesen. Die Rückstellmittel 16 sind
ferner so ausgelegt, dass sie die Signalabschnitte SAS mit den Rauschsignalen
PS1 oder PS1, PS2 und/oder PS3, welche mit Hilfe der Auftretenserkennungsdaten
RD identifiziert werden können,
zurücksetzen
können
und ohne Auslassung die restlichen Signalabschnitte SAS in einer
Reihe anordnen, woraufhin ein digitales rauschsignalfreies Audiosignal
DASO gebildet wird. Es sollte in diesem Zusammenhang angemerkt werden,
dass die Versorgungsmittel 14 auch so ausgelegt werden
können,
dass sie die Signalabschnitte SAS ersetzen, die die Rauschsignale
PS1 und/oder PS2 und PS3 enthalten. Es kann beispielsweise vorgesehen
werden, dass diese Signalabschnitte SAS durch Signalabschnitte SAS
ersetzt werden, die ein Nullsignal darstellen, also den Signalpegel,
der Stille darstellt. Es kann ferner beispielsweise vorgesehen werden,
dass diese Signalabschnitte SAS durch Signalabschnitte ersetzt werden,
die ein künstlich
erzeugtes Hintergrundsignal aufweisen.
-
Die
Vorrichtung 1 ist ferner mit Zuführungsmitteln 17 ausgestattet,
die so ausgelegt sind, dass sie das rauschsignalfreie Audiosignal
DASO empfangen und anhand des rauschsignalfreien Signals DASO ein
akustisches Audiosignal ASO erzeugen und liefern.
-
Die
Vorrichtung 1 ist ferner mit Schnittstellenmitteln 18 ausgestattet,
die so ausgelegt sind, dass sie das dekomprimierte Audiosignal EAS
empfangen und das dekomprimierte Audiosignal EAS in Form eines elektrischen
Signals zu einem in 1 nicht dargestellten Gerät liefern,
das an die Schnittstellenmittel 18 angeschlossen werden
kann.
-
Die
Vorrichtung 1 ist ferner mit Steuermitteln 19 ausgestattet,
die so ausgelegt sind, dass sie die Empfangsmittel 2, die
Kompressionsmittel 3, die Dekompressionsmittel 5,
die Rauschsignal-Erkennungsmittel 6, die Versorgungsmittel 14,
die Zuführungsmittel 17 und
die Schnittstellenmittel 18 steuern. Zu diesem Zweck sind
die Steuermittel 19 mit den Mitteln 2, 3, 5, 6, 14, 17 und 18 verbunden.
Die Steuermittel 19 sind ferner so ausgelegt, das sie ein Steuersignal
CS erzeugen und dieses Steuersignal CS den Mitteln 2, 3, 5, 6, 14, 17 und 18 zuführen. In dem
vorliegenden Fall sind die Steuermittel 19 so ausgelegt,
dass sie Steuerinformationen empfangen, die ihnen manuell durch
einen Benutzervorgang zugeführt
werden können.
Es ist jedoch anzumerken, dass die Steuermittel 19 auch
so ausgelegt sein können,
dass sie Steuerinformationen empfangen, die durch ein Infrarotsignal
oder ein Funksignal zugeführt werden
können.
-
Dadurch
entsteht der Vorteil, dass im Fall der Vorrichtung 1 eine
Erkennung und Beseitigung der für
einen Benutzer der Vorrichtung 1 störenden Klickgeräuschsignale
PS1 oder PS2 und PS3 zuverlässig vorgenommen
werden kann.
-
6 zeigt
ein Datenverarbeitungssystem 18, das mit einem Computer 19 und
einem mit dem Computer 19 verbundenen Bildschirm 20,
der als visuelle Benutzerschnittstelle dient, und mit einer mit dem
Computer 19 verbundenen Maus 21 und mit einer
mit dem Computer 19 verbundenen Tastatur 22 ausgestattet
ist, wobei die Maus 21 und die Tastatur 22 als
manuelle Benutzerschnittstelle dienen. Der Computer 19 kann
mit Hilfe der Benutzerschnittstellen durch einen in 6 nicht
dargestellten Benutzer bedient werden. Der Computer 19 ist
ferner mit einem internen Speicher 23 ausgestattet, der
für die Speicherung
von Verarbeitungsdaten und/oder Programmdaten vorgesehen ist. Der
Computer 19 ist ferner mit einer Prozessoreinheit 24 ausgestattet,
die so ausgelegt ist, dass sie mit dem Speicher 23 interagiert
und mit deren Hilfe unter Verwendung der Programmdaten, die mit
Hilfe der Prozessoreinheit ausgeführt werden können, die
Programmdaten verarbeitet werden können. Zur Steuerung des Computers 19 ist
die Prozessoreinheit 24 ferner so ausgelegt, dass sie mit
den Benutzerschnittstellen 20, 21 und 22 interagiert.
Der Computer 19 ist ferner mit einer Programmdaten-/Verarbeitungsdatenschnittstelle 25 ausgestattet,
mit deren Hilfe Zugriff auf ein computerlesbares Medium 26 möglich ist,
das im vorliegenden Fall als CD ausgeführt ist.
-
Der
Computer 19 ist ferner mit einem mobilen Diktiergerät 28 verbunden,
das der in 1 dargestellten Vorrichtung ähnelt, wobei
das mobile Diktiergerät 28 nicht
mit den Versorgungsmitteln 14 und den Rauschsignal-Erkennungsmitteln 6 der
Vorrichtung 1 ausgestattet ist, und wobei das digitale
dekomprimierte Audiosignal EAS direkt den Zuführungsmitteln 17 zugeführt werden
kann. Es ist ferner vorgesehen, dass das digitale Audiosignal EAS
mit Hilfe einer in 6 nicht dargestellten Audiosignalschnittstelle
des Computers 19 dem Computer 19 zugeführt und
im Speicher 23 gespeichert werden kann, so dass eine weitere
Verarbeitung durch die Prozessoreinheit 24 ermöglicht wird.
-
Zu
diesem Zweck kann in den Computer 19 mit Hilfe des Mediums 26 über die
Programmdaten-/Verarbeitungsdatenschnittstelle 25 ein Computerprogrammprodukt 27 eingespeist
werden. Das Computerprogrammprodukt 27 kann direkt in den Speicher 23 des
Computers 19 geladen werden und umfasst Softwarecodeabschnitte,
die zumindest Teile der Programmdaten bilden, wobei das Verfahren
M mit dem Computer 19 ausgeführt werden kann, um das Rauschsignal
PS1 gemäß 3 oder
die Rauschsignale PS1, PS2 und PS3 gemäß 4 in dem
digitalen Audiosignal EAS zu erkennen, wenn das Computerprogramm 27 in
dem Computer 19 mit Hilfe der Prozessoreinheit 24 ausgeführt wird.
-
Dadurch
entsteht der Vorteil, dass sowohl in dem Fall, dass das digitale
Audiosignal EAS im Computer 19 mit Hilfe von Spracherkennungssoftware weiterverarbeitet
wird, als auch in dem Fall, dass das Audiosignal EAS mit Hilfe des
Computers 19 wiederzugeben ist, eine zuverlässige Erkennung
eines Rauschsignals PS1 oder, falls anwendbar, PS2 oder PS3 in der
digitalen Zeitdarstellung des Audiosignals ASI sichergestellt wird.
-
Es
ist ferner anzumerken, dass die Rauschsignal-Erkennungsmittel 6 und,
falls anwendbar, die Versorgungsmittel 14 im Fall der Vorrichtung 1 zwischen
den Empfangsmitteln 2 und den Kompressionsmitteln 3 vorgesehen
werden können.
-
Es
ist ferner anzumerken, dass die Mittel 6 und 14 im
Fall der Vorrichtung 1 zwischen den Mitteln 5 und 18 vorgesehen
werden können,
so dass Daten, die ein rauschsignalfreies dekomprimiertes Audiosignal
EAS darstellen, von der Vorrichtung 1 geliefert werden
können.
-
Es
ist ferner anzumerken, dass das Medium 26 aus einer DVD
oder einer Wechselfestplatte oder Diskette bestehen kann.
-
Es
ist ferner anzumerken, dass im Fall der Vorrichtung 1 zumindest
Bauteile der Mittel 2, 17, 19 und 18 und
der Mittel 3, 4, 5, 6 und 14 vorzugsweise als
integrierte Schaltung ausgeführt
werden.
-
Es
ist ferner anzumerken, dass im Fall der Rauschsignal-Erkennungsmittel 6 eine
Verarbeitung der Signalabschnitte SAS, die direkt benachbart sind, oder
der Signalabschnitte, die nicht direkt benachbart sind, stattfinden
kann.
-
Es
ist ferner anzumerken, dass die Rauschsignal-Erkennungsmittel 6 mit
dritten Speichermitteln 10 ausgestattet werden können, die
in 2 mit gestrichelten Linien dargestellt sind und
für die
temporäre
Speicherung der Daten EVD und ETD vorgesehen sind, und dass die
Energiegehalt-Auswertungsmittel 12 und die Auftretenserkennungsmittel 13 für den Zugriff
auf die gespeicherten Daten EVD und ETD und für die Verarbeitung dieser Daten
EVD und ETD ausgelegt werden können,
woraufhin eine Erkennung von Rauschsignalen in Nicht-Echtzeit ermöglicht wird.
-
Es
ist ferner anzumerken, dass die Rauschsignal-Erkennungsmittel 6 auch
für die
dynamische Unterteilung des Audiosignals EAS in die Signalabschnitte
SAS mit verschiedener Dauer in einem Bereich zwischen 2 ms und 10
ms als Funktion der Eigenschaften des Audiosignals EAS ausgelegt
werden können.
-
7
-
- Start Start
- Y Ja
- N Nein
- End Ende