AT18043U2 - Verfahren und Vorrichtung zur automatischen Überwachung eines Verkehrsweges - Google Patents

Verfahren und Vorrichtung zur automatischen Überwachung eines Verkehrsweges Download PDF

Info

Publication number
AT18043U2
AT18043U2 ATGM50016/2023U AT500162023U AT18043U2 AT 18043 U2 AT18043 U2 AT 18043U2 AT 500162023 U AT500162023 U AT 500162023U AT 18043 U2 AT18043 U2 AT 18043U2
Authority
AT
Austria
Prior art keywords
features
determining
acoustic signal
spectrum
cepstrum
Prior art date
Application number
ATGM50016/2023U
Other languages
English (en)
Inventor
Graf Dr Franz
Rettenbacher Bernhard
Leitner Dr Christina
Original Assignee
Joanneum Res Forschungsgmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Joanneum Res Forschungsgmbh filed Critical Joanneum Res Forschungsgmbh
Priority to ATGM50016/2023U priority Critical patent/AT18043U2/de
Publication of AT18043U2 publication Critical patent/AT18043U2/de

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/04Systems determining presence of a target
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/52001Auxiliary means for detecting or identifying sonar signals or the like, e.g. sonar jamming signals
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/04Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Erfindungsgemäß ist ein Verfahren geschaffen zur automatischen Überwachung eines Verkehrsweges, insbesondere ein einem Tunnel, wobei ein akustisches Signal durch zumindest eine, entlang des zu überwachenden Verkehrsweges angeordneten Schallsensor detektiert wird und wobei eine Analysevorrichtung aus dem akustischen Signal eine Anzahl Merkmale extrahiert, wobei aus der Anzahl Merkmale bestimmt wird, ob das akustische Signal zumindest eine Stimme umfasst.

Description

Beschreibung
[0001] Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur automatischen Überwachung eines Verkehrsweges, insbesondere in einem Tunnel.
[0002] Die Gewährleistung der Sicherheit auf Verkehrswegen gewinnt durch immer weiter steigendes Verkehrsaufkommen stark an Bedeutung. Beispielhaft seien Straßen- und Schienenverkehrswege genannt, die durch die wachsende Anzahl an privaten und gewerblichen Verkehrsteilnehmern einer hohen Beanspruchung ausgesetzt sind. Mit der steigenden Anzahl an Verkehrsteilnehmern steigt das Risiko durch auftretende Verkehrsstörungen. Gleichzeitig ist die schnelle und zuverlässige Erkennung von Verkehrsstörungen besonders wichtig. Verkehrsstörungen können beispielsweise Unfälle mit einem oder mehreren involvierten Verkehrsteilnehmern sein. Derartige Verkehrsstörungen zeichnen sich durch Anomalien, wie beispielsweise Aufprallgeräusche, Reifenquietschen oder dergleichen, im Verkehrsgeräusch aus.
[0003] Aus AT 500 235 B1 ist ein System zur Überwachung eines Verkehrsweges bekannt, das über eine Vielzahl entlang des Verkehrsweges angeordneten Schallsensoren Anomalien im Verkehrsgeräusch erkennt.
[0004] Durch das in AT 500 235 B1 beschriebene Überwachsungssystem werden demnach Verkehrsstörungen erkannt, die mit signifikanten, in der Regel kurzen Unfallgeräuschen, wie Aufpralloder Quietschgeräuschen, in Verbindung stehen.
[0005] Allerdings können die im Stand der Technik beschriebenen Geräuschanomalien häufig vorliegen, ohne dass eine Verkehrsstörung vorliegt. Umgekehrt können Verkehrsstörungen auch ohne die beschriebenen Geräuschanomalien auftreten. Hierzu zählen beispielsweise unbewegte Verkehrsteilnehmer. Eine solche Verkehrsstörung kann eine weitere, möglicherweise folgenschwerere Verkehrsstörung verursachen. So kann beispielsweise ein weiterer Verkehrsteilnehmer mit dem unbewegten Verkehrsteilnehmer zusammenstoßen. Eine solche Situation liegt beispielsweise durch ein anhaltendes Auto im Straßenverkehrsweg oder durch einen auf einem Schienenverkehrsweg stehenden Wagon oder durch ein sich auf einem Schienenverkehrsweg befindendes Kraftfahrzeug vor.
[0006] In Tunneln besteht ein weiteres Problem darin, dass es bei Verkehrsstörungen zu Rauchentwicklung kommen kann, wodurch eine visuelle Überwachung des Verkehrsweges erschwert oder unmöglich wird. Darüber hinaus stellt die Evakuierung von Personen im Tunnel durch den erschwerten Zugang des Verkehrsweges eine besondere Herausforderung dar, die umso größer ist, wenn die Anzahl und der Aufenthaltsort von Personen auf dem Verkehrsweg unbekannt sind.
[0007] Verkehrsstörungen, die sich nicht durch Geräuschanomalien, wie beispielsweise Aufpralloder Quietschgeräusche, auszeichnen, werden durch die aus dem Stand der Technik bekannten Uberwachungssysteme nicht erkannt. Die Nichterkennung dieser Verkehrsstörungen schränkt die Sicherheit auf Verkehrswegen jedoch stark ein.
[0008] Die vorliegende Erfindung hat zur Aufgabe die Überwachung eines Verkehrsweges weiter zu verbessern und insbesondere auch Situationen erkennbar zu machen, die eine potentielle Gefahr für Verkehrsteilnehmer darstellen können.
[0009] Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebene Erfindung gelöst. Vorteilhafte Ausgestaltungen sind den Unteransprüchen zu entnehmen.
[0010] Erfindungsgemäß ist ein Verfahren geschaffen zur automatischen Überwachung eines Verkehrsweges, insbesondere in einem Tunnel, wobei ein akustisches Signal durch zumindest einen, entlang des zu überwachenden Verkehrsweges angeordneten Schallsensor detektiert wird und wobei eine Analysevorrichtung aus dem akustischen Signal eine Anzahl Merkmale extrahiert, wobei aus der Anzahl Merkmale bestimmt wird, ob das akustische Signal zumindest eine Stimme umfasst.
[0011] Die vorliegende Erfindung beruht auf der Erkenntnis, dass eine potentiell gefährliche Verkehrsstörung insbesondere dann vorliegt, wenn sich Personen auf dem Verkehrsweg befinden.
So sind Personen beispielsweise im Straßen- oder Schienenverkehr durch die Anwesenheit weiterer Verkehrsteilnehmer einem besonders großen Risiko ausgesetzt.
[0012] Personen können freiwillig oder unfreiwillig, wie beispielsweise durch eine Panne des genutzten Fahrzeugs, auf den Verkehrsweg gelangen. Gerade auf unübersichtlichen Verkehrswegen, wie beispielsweise in Kurven, oder schwierig zugänglichen Verkehrswegen, wie beispielsweise in Tunneln, ist das Risiko für Personen besonders hoch. Hier sind eine schnelle Erkennung der Verkehrsstörung und ihre schnelle Beseitigung von besonderer Bedeutung.
[0013] Mit Hilfe der vorliegenden Erfindung kann erkannt werden, ob eine Verkehrsstörung mit Personen vorliegt, die sich möglicherweise in Gefahr befinden. Dies wird anhand der Erkennung von Stimmen ermöglicht, die in der überwachten Verkehrssituation, beispielsweise in einem Tunnel, unter normalen Umständen nicht zu erwarten sind. Stimmen können beispielsweise durch mit normaler oder erhöhter Emotion gesprochene Sprache, Schreie oder Ahnliches sein.
[0014] Durch die Unterscheidung von Verkehrsgeräuschen einerseits und Stimmen andererseits kann erreicht werden, dass auf dem Verkehrsweg befindliche Personen erkannt werden. Durch das Erkennen von Personen kann eine Verkehrsstörung u.U. bereits behoben werden, bevor sie zu einer Gefährdung weiterer Verkehrsteilnehmer führt.
[0015] Ferner kann ein eine Stimme enthaltendes akustisches Signal einem oder mehreren Schallsensoren zugeordnet werden. Dadurch kann der Aufenthaltsort der sich auf dem Verkehrsweg befindlichen Personen bestimmt werden.
[0016] In einer Ausgestaltung des erfindungsgemäßen Verfahrens wird aus der Anzahl Merkmale bestimmt, ob das akustische Signal mehrere Stimmen umfasst. Diese Ausgestaltung beruht auf der Erkenntnis, dass gefährliche Verkehrssituationen oft mit der Anwesenheit mehrerer Personen einhergehen. Beispielsweise kann es bei einem Unfall mit zwei oder mehr Fahrzeugen dazu kommen, dass die Fahrer und Mitfahrer der beteiligten Fahrzeuge ihre Fahrzeuge verlassen und miteinander sprechen.
[0017] In einer weiteren Ausgestaltung wird aus der Anzahl Merkmale eine Anzahl von Stimmen bestimmt. Eine Anzahl, insbesondere mehrere unterschiedliche Stimmen können dabei einer Anzahl Personen, insbesondere mehreren Personen zuordenbar sein. Aus der Anzahl der Stimmen lassen sich weitere Rückschlüsse auf die Verkehrssituation schließen. Gerade bei einer notwendigen Bergung der Personen ist das Wissen über die Anzahl der Personen und deren Positionen essentiell.
[0018] In einer Ausgestaltung wird aus der Anzahl Merkmale eine erste Wahrscheinlichkeit bestimmt, mit der das akustische Signal zumindest eine Stimme umfasst und/oder mehreren Stimmen umfasst und/oder eine bestimmte Anzahl von Stimmen umfasst. Zusätzlich kann aus der Anzahl Merkmale eine zweite Wahrscheinlichkeit bestimmt werden, mit der das akustische Signal keine Stimme umfasst und/oder nicht mehrere Stimmen umfasst und/oder nicht die bestimmte Anzahl Stimmen umfasst, wobei die erste und die zweite Wahrscheinlichkeit kombiniert, insbesondere addiert, und/oder mit zumindest einem Vergleichswert verglichen werden können. Auf diese Weise lassen sich unterschiedliche Verkehrssituationen, insbesondere Verkehrssituationen mit unterschiedlicher potentieller Gefährdung genauer voneinander unterscheiden. Je nach Verkehrssituation können unterschiedliche passende Maßnahmen eingeleitet werden, z.B. die Aktivierung einer Anzeige in einer Leitzentrale, die Sperrung eines Tunnels, etc.
[0019] Die folgenden Ausgestaltungen und Maßnahmen ermöglichen eine noch zuverlässigere Einschätzung oder Erkennung von bestimmten gefährdenden Verkehrssituationen:
* Es wird das akustische Signal in eine Anzahl Signalblöcke segmentiert und/oder die Anzahl Merkmale zumindest teilweise aus verschiedenen Signalblöcken extrahiert und/oder es wird zumindest ein Teil der Anzahl Merkmale, insbesondere gleiche Merkmale, über zumindest einen Teil der Signalblöcke, insbesondere zeitlich aufeinanderfolgende Signalblöcke, gemittelt.
* Es werden die erste und/oder zweite Wahrscheinlichkeit jeweils für zumindest einen Teil
der Anzahl Signalblöcke bestimmt und/oder jeweils kombiniert, insbesondere addiert, und/oder jeweils mit zumindest einem Vergleichswert verglichen und/oder das Ergebnis des Vergleichs wird über mehrere der Anzahl Signalblöcke gemittelt.
* Die Anzahl Merkmale des akustischen Signals umfassen das Spektrum und/oder aus dem Spektrum abgeleitete Merkmale und/oder das Zeitsignal und/oder aus dem Zeitsignal abgeleitete Merkmale.
* Die aus dem Spektrum und/oder aus dem Zeitsignal abgeleiteten Merkmale umfassen das Cepstrum und/oder aus dem Cepstrum abgeleitete Merkmale und/oder die Flatness des Spektrums und/oder Mel-Frequenz-Cepstrum-Koeffizienten und/oder die Peak-Valley-Differenz und/oder aus der Peak-Valley-Differenz abgeleitete Merkmale und/oder die Kurzzeitenergie und/oder das Amplitudenmodulationsspektrum und/oder den Cepstral-Peak und/oder das Cepstral-Peak-Verhältnis und/oder das Cepstral-Peak-Summenverhältnis und/oder die Cepstral-Peak-Position.
[0020] Erfindungsgemäß ist weiterhin ein System geschaffen zur automatischen Überwachung eines Verkehrsweges, insbesondere in einem Tunnel, das zumindest einen, entlang des zu überwachenden Verkehrsweges angeordneten Schallsensor zur Aufnahme von akustischen Signalen und eine Analysevorrichtung umfasst, wobei die Analysevorrichtung dazu ausgebildet ist, eine Anzahl Merkmale der akustischen Signale zu extrahieren, wobei das System eine Spracherkennungsvorrichtung umfasst, die dazu ausgebildet ist, aus der Anzahl Merkmale zu bestimmen, ob das akustische Signal zumindest eine Stimme umfasst.
[0021] In einer Ausgestaltung ist Spracherkennungsvorrichtung dazu ausgebildet, aus der Anzahl Merkmale zu bestimmen, ob das akustische Signal mehrere Stimmen umfasst, und/oder aus der Anzahl Merkmale eine Anzahl Stimmen zu bestimmen.
[0022] In einer Ausgestaltung ist die Analysevorrichtung dazu ausgebildet, aus der Anzahl Merkmale eine erste Wahrscheinlichkeit zu bestimmen, mit der das akustische Signal zumindest eine Stimme umfasst und/oder mehreren Stimmen umfasst und/oder eine bestimmte Anzahl Stimmen umfasst.
[0023] In einer Ausgestaltung ist die Analysevorrichtung dazu ausgebildet, aus der Anzahl Merkmale eine zweite Wahrscheinlichkeit zu bestimmen, mit der das akustische Signal keine Stimme umfasst und/oder nicht mehrere Stimmen umfasst und/oder nicht die bestimmte Anzahl Stimmen umfasst, wobei die Analysevorrichtung dazu ausgebildet ist, die erste Wahrscheinlichkeit und die zweite Wahrscheinlichkeit zu kombinieren, insbesondere zu addieren, und/oder mit zumindest einem Vergleichswert zu vergleichen.
[0024] In einer Ausgestaltung umfasst die Analyseeinheit eine Segmentierungsvorrichtung, die dazu ausgebildet ist das akustische Signal in eine Anzahl Signalblöcke zu segmentieren und/oder wobei die Analyseeinheit dazu ausgebildet ist, zumindest einen Teil der Anzahl Merkmale, insbesondere gleiche Merkmale, über zumindest einen Teil der Anzahl Signalblöcke, insbesondere zeitlich aufeinanderfolgende Signalblöcke, zu mitteln.
[0025] In einer Ausgestaltung ist die Analysevorrichtung dazu ausgebildet, die erste Wahrscheinlichkeit und die zweite Wahrscheinlichkeit jeweils für zumindest einen Teil der Anzahl Signalblöcke zu bestimmen und/oder jeweils zu kombinieren, insbesondere zu addieren, und/oder jeweils mit zumindest einem Vergleichswert zu vergleichen und/oder das Ergebnis des Vergleichs über mehrere der Anzahl Signalblöcke zu mitteln.
[0026] Nachfolgend sind anhand der beigefügten Figuren beispielhafte Ausführungsformen der Erfindung näher beschrieben. Es zeigen:
[0027] Die Figur 1 ein Flussdiagramm eines Prozesses, in dem ein erster Basismerkmalvektor, bestehend aus Merkmalen eines akustischen Signals, bestimmt wird;
[0028] die Figur 22 ein Flussdiagramm eines Prozesses, in dem ein zweiter Basismerkmalvektor, bestehend aus weiteren Merkmalen eines akustischen Signals, bestimmt wird;
[0029] die Figur 3 ein Flussdiagramm eines Prozesses, in dem ein dritter Basismerkmalvektor, bestehend aus weiteren Merkmalen eines akustischen Signals, bestimmt wird;
[0030] die Figur 4 ein Flussdiagramm eines Prozesses, in dem ein Merkmalsvektor auf Basis der Basismerkmalvektoren bestimmt wird;
[0031] die Figur 5 ein Flussdiagramm eines Prozesses, in dem ein akustisches Signal anhand des Merkmalvektors klassifiziert wird;
[0032] die Figur6 ein Flussdiagramm eines Verfahrens zur Unterscheidung verschiedener Stimmen;
[0033] die Figur 7 ein Flussdiagramm eines Verfahrens zur automatischen Überwachung eines Verkehrsweges.
[0034] In Figur 1 ist ein Prozess 100 gezeigt, in dem ein erster Basismerkmalvektor bestimmt wird. In Prozessschritt 110 wird ein digitales akustisches Signal erzeugt. Das digitale akustische Signal kann dabei typischerweise eine Abtastrate von 4 kHz bis 48 kHz haben, wobei sich 16 kHz für Signale, die Sprache enthalten, besonders gut eignen.
[0035] Das digitale akustische Signal wird in Prozessschritt 120 in zeitliche Signalblöcke einer Signalblocklänge segmentiert und jeder Signalblock wird mit einer Fensterfunktion multipliziert. Werte für die Signalblocklängen liegen beispielsweise zwischen 4 ms und 1000 ms. Dabei können sich die Signalblöcke überlappen. Zum Beispiel können sich die Signalblöcke um 25 % oder um 75 % oder um einen Wert zwischen 25 % und 75 % überlappen. Als Fensterfunktion können beispielsweise Hamming-, Hann, Blackman-, Kaiser-, Dreiecks-, Rechtecks- oder Trapezfensterfunktionen eingesetzt werden.
[0036] Ausgehend von den mit einer Fensterfunktion multiplizierten Signalblöcken können einzelne Merkmale des digitalen akustischen Signals bestimmt werden.
[0037] In dem Prozessschritt 130 wird von jedem Signalblock (x[n]) durch Anwendung der diskreten Fourier-Transformation (DFT) ein Spektrum (X[k]) bestimmt. Hierzu kann die mathematische Beschreibung
X[k] = XNZi x In]e Gen, k=0,1,...,N-1 (Formel 1) verwendet werden.
[0038] Von dem in Prozessschritt 130 bestimmten Spektrum können einzelne Punkte direkt als Merkmal in Prozessschritt 190 in den ersten Basismerkmalsvektor aufgenommen werden. Des Weiteren können weitere Merkmale anhand des Spektrums bestimmt und in den ersten Basismerkmalvektor aufgenommen werden. Ein solches Merkmal ist beispielsweise die Flatness des Spektrums, die im Allgemeinen angibt, wie spitz die spektrale Verteilung ist. Die spektrale Flatness (SF[X]) kann aus dem Verhältnis des geometrischen zum arithmetischen Mittelwert des Spektrums bestimmt werden. Hierzu kann der mathematische Zusammenhang
N [NNz3 x[k) SFIX] =" F— (Formel 2)
© (ENZE XIK N
verwendet werden.
[0039] Aus dem in Prozessschritt 130 bestimmten Spektrum wird in Prozessschritt 140 ein erstes Cepstrum (c[t]) bestimmt. Dazu kann das Spektrum logarithmiert und auf das Ergebnis wiederum eine DFT angewandt werden. Hierfür kann der mathematische Zusammenhang
c[t] = DFT{log|X[k]|} (Formel 3) verwendet werden.
[0040] Anschließend können alle Werte verworfen werden, die nicht in einem vorgegebenen
Wertebereich liegen. Der vorgegebene Wertebereich wird beispielsweise durch die Werte 1 ms und 50 ms begrenzt.
[0041] Zur Bestimmung eines zweiten Cepstrum in Prozessschritt 150 wird ein Wertebereich verwendet, der von dem in Prozessschritt 140 verwendeten Wertebereich abweicht.
[0042] Aus dem in dem Prozessschritt 140 bestimmten Cepstrum werden in Prozessschritt 160 Cepstrum-Merkmale bestimmt. Zu den bestimmten Merkmalen gehören
* der Cepstral-Peak, also der Wert des Maximums im Cepstrum;
* das Cepstral-Peak-Verhältnis, also das Verhältnis des Wertes des Maximums des Cepstrums zu allen anderen Werten des Cepstrums bestimmt;
* das Cepstral-Peak-Summenverhältnis, also das Verhältnis der Summe der Werte aller Maxima des Cepstrums zur Summe aller anderen Werte des Cepstrums;
* die Cepstral-Peak-Position, also die Position des Maximums im Cepstrum.
[0043] In Prozessschritt 170 werden analog zum Prozessschritt 160 Cepstrum-Merkmale für das in Prozessschritt 150 berechnete Cepstrum bestimmt.
[0044] Die einzelnen, in den Prozessschritten 130, 140, 150, 160 und 170 bestimmten Merkmale des digitalen akustischen Signals werden in Prozessschritt 180 in einen ersten BasismerkmalVektor zusammengeführt.
[0045] In Figur 2 ist ein Prozess 200 gezeigt, in dem ein zweiter Basismerkmalvektor bestimmt wird. Im Prozess 200 entsprechen die Prozessschritte 210, 220 und 230 den in Figur 1 beschriebenen Prozessschritten 110, 120 und 130.
[0046] Im Prozessschritt 240 werden Mel-Frequenz-Cepstral-Koeffizienten bestimmt. Dazu werden die Punkte des in Prozessschritt 230 bestimmten Spektrums in einer Filterbank, beispielsweise in einer Dreiecks-Filterbank, zusammengefasst. Die Filterbank kann sich dadurch auszeichnen, dass die Frequenzbänder gemäß der Mel-Skala unterteilt sind.
[0047] Das Ergebnis wird logarithmiert Und danach die diskrete Kosinus-Transformation darauf angewandt. Aus der Kosinus-Transformation ergeben sich die Mel-Frequenz-Cepstral-Koeffizienten.
[0048] In Prozessschritt 250 werden mehrere Werte für eine Peak-Valley-Differenz (PVD) bestimmt. Die Bestimmung der PVD kann mittels eines Peak-Signatur-Vektors (S[k]) erfolgen, der eine Peak-Signatur enthält. Der Peak-Signatur-Vektor kann ein binärer Vektor sein, also die Werte 0 und 1 enthalten. Dabei kann der Wert eins die Position eines Peaks im Spektrum kennzeichnen. Der Peak-Signatur-Vektor kann aus Spektren von akustischen Signalen bestimmt werden. Die Bestimmung des Peak-Signatur-Vektors kann mit Trainingsdaten erfolgen. Zur Bestimmung der PVD kann die mathematische Beschreibung
_ ZkzoXIkl-SIK)) _ Ekze(XIk1-CL-S[K))) PVD(S, X) = SN=IS[K] SN=1G SIE) (Formel 4)
verwendet werden.
[0049] Für ein in Prozessschritt 230 bestimmtes Spektrum (X[k]) werden in Prozessschritt 250 aus Formel 4 mit verschiedenen Peak-Signatur-Vektoren verschiedene Werte für die PVD bestimmt.
[0050] In Prozessschritt 260 werden aus den mehreren Werten für die PVD PDV-Merkmale bestimmt. Zur Bestimmung der PVD-Merkmale wird
* das Maximum der mehreren Werte für die PVD bestimmt;
* der Mittelwert der mehreren Werte für die PVD bestimmt;
* die Standardabweichung der mehreren Werte für die PVD bestimmt;
* der Mittelwert der fünf größten Werte für die PVD bestimmt; und
* die Standardabweichung für die fünf größten Werte für die PVD bestimmt.
[0051] In Prozessschritt 270 werden die in den Prozessschritten 240 und 260 bestimmten Merk
male des akustischen Signals in einem zweiten Basismerkmalsvektor zusammengeführt.
[0052] In Figur 3 ist ein Prozess 300 gezeigt, in dem ein dritter Basismerkmalvektor bestimmt wird.
[0053] Die Prozessschritte 310 und 320 entsprechen den Prozessschritten 110 und 120 in Figur 1. In Prozessschritt 330 wird das Merkmal der Kurzzeitenergie (STE) von einem Signalblock bestimmt. Die STE von einem Signalblock kann über den mathematischen Zusammenhang
STE = >32 x" [n] (Formel 5)
bestimmt werden.
[0054] In Prozessschritt 340 wird das Amplitudenmodulationsspektrum (AMS) des akustischen Signals bestimmt. Schritt 340 umfasst die folgende Schritte:
* Die zeitliche Komponente des akustischen Signals wird mit einer Abtastrate von 8 kHz unterabgetastet und in einer Filterbank gefiltert. Die Filterbank kann dabei beispielsweise Dreiecks- oder Trapezfilter enthalten, die gemäß der Bark-Skala aufgeteilt sein können. Die Filterbank kann mehrere Bandpass-Filter enthalten, beispielsweise kann die Filterbank 14 bis 20 Bandpass-Filter enthalten;
* von dem entstehenden Signal wird der Betrag gebildet;
* die Signale werden tiefpassgefiltert und unterabgetastet. Durch das Unterabtasten des akustischen Signals kann das Signal dezimiert werden. Die Grenzfrequenz für den Tiefpass liegt beispielsweise zwischen 25 Hz und 40 Hz. Der Dezimationsfaktor hat beispielsweise einen Wert zwischen 80 und 160, insbesondere den Wert 100;
* anschließend werden die Signale jedes Filterbanksignals auf den Langzeitdurchschnitt der Signale normalisiert, in Signalblöcke segmentiert und mit einem Fenster (Hamming -, Hann-, Blackman- oder Kaiserfenster) multipliziert;
* auf jeden Signalblock wird die Fouriertransformation angewandt, wobei sich die Anzahl der DFT-Punkte aus der Länge des Signalblocks ergibt;
* zuletzt wird das Betragsspektrum gebildet, dieses kann optional quadriert werden.
[0055] In Prozessschritt 350 werden die in den Prozessschritten 330 und 340 bestimmten Merkmale des akustischen Signals in einem dritten Basismerkmalsvektor zusammengefasst.
[0056] Figur 4 zeigt einen Prozess 400 zur Bestimmung eines Merkmalsvektors auf Basis der in den Prozessen 100, 200 und 300 bestimmten Basismerkmalvektoren.
[0057] In Prozessschritt 410 werden die in den Prozessschritten 100, 200 und 300 bestimmten und die in den Prozessschritten 190, 290 und 390 in dem ersten, zweiten und dritten Basismerkmalvektoren zusammengefassten Merkmale verknüpft.
[0058] In dem Prozessschritt 420 werden von allen bestimmten Merkmalen Meta-Merkmale bestimmt. Dazu wird jeweils der Mittelwert der mehreren Merkmale über mehrere zeitlich aufeinanderfolgende Signalblöcke bestimmt und/oder jeweils die Standardabweichung der mehreren Merkmale über mehrere zeitlich aufeinanderfolgende Signalblöcke bestimmt. Die Anzahl der zur Berechnung der Meta-Merkmale verwendeten Signalblöcke liegt beispielsweise zwischen 3 und 15.
[0059] Die Merkmale aus den bestimmten Basismerkmalvektoren und die in Prozessschritt 420 bestimmten Meta-Merkmale werden in Prozessschritt 430 zusammengeführt.
[0060] Aus den in Prozessschritt 430 zusammengeführten Merkmalen (y[t]) werden in Prozessschritt 440 jeweils Delta-Merkmale (d[t]) bestimmt. Die Bestimmung der Delta-Merkmale kann über den mathematischen Zusammenhang
M . —_yIt-
2:XM_ m?
erfolgen. Werte für m liegen beispielsweise zwischen 1 und 8.
[0061] Aus den in Prozessschritt 440 bestimmten Delta-Merkmalen werden in Prozessschritt 450 jeweils Delta-Delta-Merkmale bestimmt. Die Bestimmung der Delta-Delta-Merkmale kann durch nochmalige Anwendung der Formel 6 erfolgen, wenn die in Prozessschritt 440 bestimmten DeltaMerkmale (df[t]) als Merkmale (y[t]) verwendet werden.
[0062] In Prozessschritt 460 werden die in den Prozessschritten 420, 440 und 450 bestimmten Merkmale mit den in Prozessschritt 410 verknüpften Merkmalen in einem Merkmalsvektor zusammengeführt.
[0063] Figur 5 zeigt ein Prozess 500 zur Klassifizierung eines akustischen Signals mit den Merkmalen eines in Prozess 400 bestimmten Merkmalvektors in die Klassen Sprache und Nicht-Sprache.
[0064] In Prozessschritt 511 wird eine Teilmenge aller in dem Merkmalsvektor enthaltenen Merkmale ausgewählt, wobei die Teilmenge nur Nicht-Energiemerkmale enthält. Nicht-Energiemerkmale sind unabhängig von der Energie des akustischen Signals, sie stellen also spektrale, bzw. cepstrale Merkmale dar.
[0065] In Prozessschritt 521 wird bestimmt, mit welcher Wahrscheinlichkeit die in Prozessschritt 511 ausgewählten Merkmale des akustischen Signals Merkmale zumindest einer Stimme sind.
[0066] In Prozessschritt 531 wird bestimmt, mit welcher Wahrscheinlichkeit die in Prozessschritt 511 ausgewählten Merkmale des akustischen Signals nicht Merkmale zumindest einer Stimme sind.
[0067] In Prozessschritt 541 werden die Ergebnisse der Prozessschritte 521 und 531 kombiniert. Die Kombination der Ergebnisse der Prozessschritte 521 und 531 kann insbesondere die Subtraktion der in den Prozessschritten 521 und 531 bestimmten Wahrscheinlichkeiten umfassen.
[0068] In Prozessschritt 551 wird das Ergebnis aus Prozessschritt 541 mit einem Vergleichswert verglichen.
[0069] In einem zum Prozessschritt 511 analogen Prozessschritt 512 (nicht dargestellt) wird eine Teilmenge aller in dem Merkmalsvektor enthaltenen Merkmale ausgewählt, wobei die Teilmenge nur Energiemerkmale enthält. Energiemerkmale sind abhängig von der Energie des akustischen Signals.
[0070] Weitere, darauffolgende Prozessschritte 522, 532, 542 und 552 (nicht dargestellt) sind zu den Prozessschritten 521, 531, 541 und 551 analog.
[0071] In Prozessschritt 560 werden die Ergebnisse der Prozessschritte 551 und 552 kombiniert.
[0072] In Prozessschritt 570 werden die in Prozessschritt kombinierten Ergebnisse über mehrere Signalblöcke geglättet. Die Anzahl der mehreren Signalblöcke liegt beispielsweise zwischen 3 und 35.
[0073] Die Auswahl der Teilmenge der in dem Merkmalsvektor enthaltenen Merkmale in den Prozessschritten 511 und 512 sowie die Bestimmung der Wahrscheinlichkeiten in den Prozessschritten 521, 522, 531 und 532 kann automatisch und/oder manuell erfolgen und/oder auf einer Trainingsphase basieren. In der Trainingsphase können anhand eines Algorithmus zur Merkmalsselektion eine Teilmenge aller Merkmale ausgewählt werden. Die Auswahl kann automatisiert auf Basis der Trainingsdaten und/oder halbautomatisch durch eine manuelle Vorauswahl erfolgen. Im Fall einer manuellen Vorauswahl können verschiedene Merkmalstypen getrennt voneinander für das Training von jeweils eigenen statistischen Modellen für die Klassen Sprache und NichtSprache eingesetzt werden.
[0074] Für jede Merkmalsuntergruppe können, um relevante Merkmale zu selektieren, verschiedene Kombinationen von einzelnen Merkmalen gebildet und statistische Modelle für die Klassen Sprache und Nicht-Sprache trainiert werden. Diese können auf einem Evaluationsdatensatz evaluiert werden, um die Merkmalskombination, die die besten Ergebnisse liefert, zur Klassifikation einzusetzen.
[0075] Figur 6 zeigt ein Flussdiagramm 600 eines Verfahrens zur Unterscheidung verschiedener Stimmen. Durch Unterschiede in der Anatomie der Stimmlippen und des Rachenraums von verschiedenen Sprechern sind die von verschiedenen Sprechern stammenden Stimmen unterscheidbar. In einem ersten Schritt 610 erfolgt das Empfangen eines Sprachsignals. In einem zweiten Schritt 620 erfolgt wie oben beschrieben die Bestimmung von Merkmalen bzw. MerkmalsVektoren aus den Sprachsignalen, die eine Unterscheidung ermöglichen. Dazu gehören folgende Merkmale:
* Mel Frequency Cepstral Coefficients (MFCCs) * Linear Predictive Cepstral Coefficients (LPCCs) * Line spectral frequencies (LSFs)
* Perceptual Linear Prediction (PLP)
* Fundamental Frequency (FO)
[0076] Nach der Merkmalsberechnung erfolgt in einem dritten Schritt 630 der Ähnlichkeitsvergleich der Stimmen anhand der berechneten Merkmals-Vektoren. Zum Ahnlichkeitsvergleich werden bekannte Klassifikatoren wie:
* Gaussian Mixture Models (GMMs) * Neural Networks (NN) * Support Vector Machines (SVM)
verwendet.
[0077] Nach dem Ähnlichkeitsvergleich erfolgt im Schritt 640 die Entscheidung, ob unterschiedliche Sprecher vorliegen, wobei das Maß der Ahnlichkeit, ab wann mehrere Sprecher detektiert werden, mittels eines Schwellwertes bestimmt werden kann. In einem abschließenden Schritt 650 wird die Anzahl der Stimmen als Ergebnis des Verfahrens 600 ausgegeben.
[0078] Figur 7 zeigt ein Flussdiagramm eines Verfahrens 700 zur automatischen Überwachung eines Verkehrsweges. In einem ersten Schritt 710 wird ein akustisches Signal durch einen Schallsensor detektiert. Durch die Detektion wird ein Audiosignal erzeugt. Schritt 710 wird damit beispielsweise von Schritt 110 in Figur 1 umfasst.
[0079] Aus dem detektierten Signal werden in Schritt 710 Merkmale extrahiert. Die Merkmalsextraktion erfolgt analog zum oben in Bezug auf Figuren 1 bis 4 beschriebenen Verfahren. Die Merkmalextraktion erfolgt mittels einer Analysevorrichtung eines Systems zur automatischen Uberwachung eines Verkehrsweges.
[0080] Im Schritt 730 wird anhand der extrahierten Merkmale bestimmt, ob das akustische Signal eine Stimme erfasst. Dies ist oben in Bezug auf Figur 5 näher beschrieben. Die Bestimmung erfolgt mittels einer Spracherkennungsvorrichtung.
[0081] Ob das akustische Signal mehrere Stimmen enthält, wird in Schritt 740 bestimmt. Die Bestimmung der Anzahl der im akustischen Signal enthaltenden Stimmen erfolgt in Schritt 750. Schritte 740 und 750 werden analog zum in Bezug auf Figur 6 näher beschrieben Verfahren von der Analysevorrichtung durchgeführt.

Claims (4)

Ansprüche
1. Verfahren zur automatischen Überwachung eines Verkehrsweges, insbesondere in einem Tunnel, das Verfahren umfassend: Detektieren (710) eines akustischen Signals durch zumindest einen von mehreren entlang des zu überwachenden Verkehrsweges angeordneten Schallsensoren; Extrahieren (720), durch eine Analysevorrichtung, von Merkmalen aus dem akustischen Signal, wobei die Merkmale des akustischen Signals das Spektrum des akustischen Signals und aus dem Spektrum abgeleitete Merkmale umfasst, und wobei die aus dem Spektrum abgeleiteten Merkmale Mel-Frequenz-Cepstrum- Koeffizienten umfassen; Bestimmen (730, 740, 750) aus den Merkmalen, durch eine Spracherkennungsvorrichtung, ob das akustische Signal eine oder mehrere von einer bzw. mehreren Personen auf dem Verkehrsweg erzeugte Stimmen umfasst, und welche Anzahl von Stimmen das akustische Signal umfasst, wobei die Stimmen auf Grundlage des Mel-Frequenz-Cepstrum-Koeffizienten voneinander unterschieden werden; und Bestimmen des Aufenthaltsortes der einen oder mehreren Personen auf dem Verkehrsweg durch Zuordnen des akustischen Signals zu einem oder mehreren der Schallsensoren.
2. Verfahren nach Anspruch 1, das Extrahieren von Merkmalen umfassend: Bestimmen eines ersten, zweiten und eines dritten Basismerkmalvektors umfassend:
Erzeugen eines digitalen akustischen Signals, und
Segmentieren des digitalen akustischen Signals in zeitliche Signalblöcke einer Signalblocklänge und Multiplizieren eines jeden Signalblocks mit einer Fensterfunktion, Bestimmen eines Merkmalsvektors auf Basis des ersten, zweiten und dritten Basismerkmalvektors, wobei das Bestimmen des ersten Basismerkmalvektors weiter umfasst:
Bestimmen des Spektrums von jedem Signalblock durch Anwendung der diskreten Fourier-Transformation,
Bestimmen eines ersten Cepstrum, wobei alle Werte verworfen werden, die nicht in einem vorgegebenen Wertebereich liegen,
Bestimmen eines zweiten Cepstrums, wobei ein Wertebereich verwendet wird, der von dem bei der Bestimmung des ersten Cepstrums verwendeten Wertebereich abweicht,
Bestimmen von Cepstrum-Merkmalen für das erste Cepstrum und das zweite Cepstrum, und
Zusammenführen der bestimmten Cepstrum Merkmale in den ersten Basismerkmalvektor, wobei das Bestimmen des zweiten Basismerkmalvektors weiter umfasst:
Bestimmen eines Spektrums von jedem Signalblock durch Anwendung der diskreten Fourier- Transformation,
Bestimmen von Mel-Frequenz-Cepstral-Koeffizienten des Spektrums durch Zusammenfassung der Punkte des Spektrums in einer Filterbank, wobei Frequenzbänder gemäß einer Mel-Skala unterteilt sind, anschließendem Logarithmieren und Anwenden einer diskreten Kosinus-Transformation,
Bestimmen mehrere Werte einer Peak-Valley-Differenz, PVD,
Bestimmen von PVD-Merkmalen aus den mehreren Werten der Peak-Valley-Differenz, und
Zusammenführen der Mel-Frequenz-Cepstral-Koeffizienten und der PVD-Merkmale in den zweiten Basismerkmalvektor, und wobei das Bestimmen des dritten Basismerkmalvektors weiter umfasst:
Bestimmen einer Kurzzeitenergie als Merkmal für einen jeden Signalblock,
Bestimmen eines Amplitudenmodulationsspektrums des digitalen akustischen Signals, und
Zusammenführen der Merkmale der Kurzzeitenergie und des Amplitudenmodulationsspektrums in den dritten Basismerkmalvektor.
3. Verfahren nach Anspruch 1, wobei die Merkmale das Zeitsignal des akustischen Signals und/oder aus dem Zeitsignal abgeleitete Merkmale umfassen.
4. Verfahren nach Anspruch 3, wobei die aus dem Spektrum und/oder aus dem Zeitsignal abgeleiteten Merkmale das Cepstrum und/oder aus dem Cepstrum abgeleitete Merkmale und/oder die Flatness des Spektrums und/oder die Peak-Valley-Differenz und/oder aus der Peak-Valley-Differenz abgeleitete Merkmale und/oder die Kurzzeitenergie und/oder das Amplitudenmodulationsspektrum und/oder den Cepstral-Peak und/oder das Cepstral-PeakVerhältnis und/oder das Cepstral-Peak-Summenverhältnis und/oder die Cepstral-Peak-Position umfassen.
Hierzu 7 Blatt Zeichnungen
ATGM50016/2023U 2018-05-07 2018-05-07 Verfahren und Vorrichtung zur automatischen Überwachung eines Verkehrsweges AT18043U2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
ATGM50016/2023U AT18043U2 (de) 2018-05-07 2018-05-07 Verfahren und Vorrichtung zur automatischen Überwachung eines Verkehrsweges

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ATGM50016/2023U AT18043U2 (de) 2018-05-07 2018-05-07 Verfahren und Vorrichtung zur automatischen Überwachung eines Verkehrsweges

Publications (1)

Publication Number Publication Date
AT18043U2 true AT18043U2 (de) 2023-11-15

Family

ID=88697922

Family Applications (1)

Application Number Title Priority Date Filing Date
ATGM50016/2023U AT18043U2 (de) 2018-05-07 2018-05-07 Verfahren und Vorrichtung zur automatischen Überwachung eines Verkehrsweges

Country Status (1)

Country Link
AT (1) AT18043U2 (de)

Similar Documents

Publication Publication Date Title
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE69132645T2 (de) Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE60023517T2 (de) Klassifizierung von schallquellen
DE102007001255B4 (de) Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
DE69716266T2 (de) Sprachaktivitätsdetektor
DE69806557T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69229816T2 (de) Einrichtung und Verfahren für Sprachmusteridentifizierung
DE112010003461B4 (de) Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE10134471A1 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE69105154T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE69112855T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE102010028845A1 (de) Verfahren und Vorrichtung zur Aufpralldetektion in Fahrzeugen
DE69128990T2 (de) Sprecherkennungsvorrichtung
AT18043U2 (de) Verfahren und Vorrichtung zur automatischen Überwachung eines Verkehrsweges
WO2019215086A1 (de) Verfahren und vorrichtung zur automatischen überwachung eines verkehrsweges
DE102016115018B4 (de) Audiosignatur für Sprachbefehlbeobachtung
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
DE19705471C2 (de) Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction
DE112013000942T5 (de) Rauschminderungsverfahren, Programmprodukt und Vorrichtung