DE102018126056B4

DE102018126056B4 - Verfahren und Computerprogramm zum Transkribieren einer aufgezeichneten Sprachkommunikation

Info

Publication number: DE102018126056B4
Application number: DE102018126056.3A
Authority: DE
Inventors: Jürgen Rataj; Hartmut Helmke
Original assignee: Deutsches Zentrum fuer Luft und Raumfahrt eV
Current assignee: Deutsches Zentrum fuer Luft und Raumfahrt eV
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2020-10-15
Anticipated expiration: 2038-10-20
Also published as: DE102018126056A1

Abstract

Verfahren zum Transkribieren einer aufgezeichneten Sprachkommunikation (10) zwischen wenigstens einem Operateur und wenigstens einem Fahrzeugführer mindestens eines Fahrzeuges eines Verkehrsraumes, wobei die aufgezeichnete Sprachkommunikation (10) von einer auditiv wahrnehmbaren Sprachform in eine visuell wahrnehmbare Schriftform (40) transformiert wird, dadurch gekennzeichnet, dass das Verfahren die durch eine elektronische Recheneinheit (30) ausführbaren Schritte umfasst:- Bereitstellen von digitalen Zustandsdaten (20) eines Verkehrsraumes über den Zeitraum der zu transkribierenden, aufgezeichneten Sprachkommunikation (10);- Ermitteln von einem oder mehreren potentiellen Sprachkommandos zwischen Operateur und Fahrzeugführer in Abhängigkeit von zumindest einem Teil der digitalen Zustandsdaten (20) des Verkehrsraumes für einen bestimmten Zeitpunkt innerhalb der zu transkribierenden, aufgezeichneten Sprachkommunikation (10);- Festlegen eines Sprachraumes basierend auf den zuvor ermittelten potentiellen Sprachkommandos; und- Transformieren des in der aufgezeichneten Sprachkommunikation (10) enthaltenen Sprachkommandos an dem bestimmten Zeitpunkt von der auditiv wahrnehmbaren Sprachform in die visuell wahrnehmbare Schriftform (40) mittels Spracherkennung unter Berücksichtigung des zuvor festgelegten Sprachraumes.

Description

Die Erfindung betrifft ein Verfahren zum Transkribieren einer aufgezeichneten Sprachkommunikation zwischen wenigstens einem Operateur und wenigstens einem Fahrzeugführer mindestens eines Fahrzeuges eines Verkehrsraums, wobei die aufgezeichnete Sprachkommunikation von einer auditiv wahrnehmbaren Sprachform in eine visuell wahrnehmbare Schriftform transformiert werden soll. Die Erfindung betrifft ebenso ein Computerprogramm hierzu.
Die Kommunikation zwischen einem Operateur und einem Fahrzeugführer eines Fahrzeuges (bspw. zwischen Fluglotse und Pilot bzw. Lotse und Schiffskapitän) erfolgt auch heute noch oftmals mittels Sprache. Gerade in der Luftfahrt wurde hierfür eine sehr formalistische Syntax eingeführt, um bei der Übermittlung von Führungsanweisungen von dem Operateur am Boden (bspw. im Tower oder ACC) hin zum Fahrzeugführer des Fahrzeuges (bspw. Luftfahrzeug) mögliche Verständnisprobleme hinsichtlich der übertragenen Führungsanweisung zu reduzieren oder gänzlich zu vermeiden. So werden bspw. Führungsanweisungen für Piloten von Lotsen zunächst in ein Mikrophon gesprochen, drahtlos an das Fahrzeug übertragen und dann auditiv von dem Fahrzeugführer wahrgenommen sodass dann der Fahrzeugführer basierend auf dem Inhalt der Führungsanweisungen entsprechende Maßnahmen zur Steuerung seines Fahrzeuges ergreifen kann. Der Operateur (Lotse) wiederum erkennt dann zu einem späteren Zeitpunkt durch eine Veränderung des Zustands des Fahrzeuges, ob der Fahrzeugführer seinen entsprechenden Anweisungen gefolgt ist oder hiervon abwich.
Dies gilt letztendlich für fast jede Art von operateurgeführten bzw. lotsengeführten Verkehrsräumen, innerhalb dessen die betreffenden Fahrzeuge (Akteure) sich basierend auf entsprechenden Operator- bzw. Lotsenanweisungen bewegen, um insbesondere Unfälle zu vermeiden. Ein solcher lotsengeführter Verkehrsraum ist bspw. der Luftverkehrsraum, bei dem Fluglotsen entsprechende Kommandos bzw. Flugführungsanweisungen an die Piloten der Luftfahrzeuge per Sprachkommunikation übertragen. Andere lotsengeführte Verkehrsräume sind bspw. Hafengebiete und Küstenbereiche in der Schifffahrt.
Zur Archivierung der zwischen den Akteuren ausgetauschten Kommandos wird die Kommunikation in einer Sprachdatei abgelegt und archiviert. In dieser Sprachdatei wird das akustische Signal, welches von dem Operateur an den Fahrzeugführer oder von dem Fahrzeugführer an den Operateur zurück eingesprochen wurde, direkt gespeichert. Für verschiedene Zwecke, wie der Unfall- oder Zwischenfalluntersuchung oder zur Effizienzermittlung wird das akustische Signal verschriftet, d.h. es findet eine Transkription des in der Sprachdatei gespeicherten Sprachsignals von der auditiv wahrnehmbaren Sprachform in eine visuell wahrnehmbare Schriftform statt. Dieser Vorgang wird als Transkription bezeichnet, bei dem der Inhalt des Sprachsignals zumindest teilweise von der Sprachform in die Schrift- bzw. Textform transformiert wird.
In der Praxis findet die Transkription durch einen geschulten Operator statt, der sich das akustische Signal der Sprachdatei anhört und die gesprochenen Worte mit Hilfe einer kognitiven Leistung in die Schriftform überführt.
Aus dem Stand der Technik sind Spracherkenner bekannt, die als Computerprogramm auf einer Recheneinheit ausgeführt werden und dabei das akustische Signal in Schriftform transkribieren. Diese softwarebasieren Spracherkenner müssen in der Regel jedoch trainiert werden, damit sie in die Lage versetzt werden, die gesprochenen Worte auch zu verstehen und entsprechend zu erkennen. Oftmals wird hierbei versucht, den Kontext des Gesprochenen zu erkennen, um so die Bedeutung und vor allem die Wahrscheinlichkeit eines erkannten Wortes entsprechend identifizieren zu können.
Die Sprachkommunikation zwischen Lotse und Fahrzeugführer ist jedoch nicht nur durch eine Vielzahl verschiedenster Personen, Dialekte und Sprachformen gekennzeichnet, sondern auch durch eine mehr oder weniger schlechte Sprachqualität. Die schlechte Sprachqualität ist meistens bedingt durch den verwendeten Übertragungskanal, was die Verwendung herkömmlicher Spracherkenner für eine zuverlässige Verschriftung erschwert. Des Weiteren haben gängige Spracherkenner bei Lotsenkommandos, auch wenn sie mit verschiedenen Verfahren trainiert werden, eine relativ hohe Fehlerquote, was an der Art des Gesagten liegt.
Aus der DE 10 2011 107 934 A1 ist bspw. ein Assistenzsystem bekannt, bei dem die Sprachkommunikation zwischen Lotse und Fahrzeugführer unentwegt mitgehört wird. Der Spracherkenner soll dabei die gesprochenen Anweisungen erkennen und diese dann dazu nutzen, den Zustand des Verkehrsraumes insbesondere hinsichtlich des angesprochenen Fahrzeuges besser in die Zukunft prognostizieren zu können. Hierdurch kann insbesondere der Planungshorizont für den Lotsen verbessert werden, da er nunmehr sehr frühzeitig erkennen kann, wie sich die Anweisungen innerhalb des Verkehrsraumes auf deren Zustand auswirken.
Allerdings werden die dabei erkannten Sprachkommandos des Lotsen sowie die Rückantwort der Piloten nicht in Schriftform festgehalten, da für eine automatisierte Verschriftung die Erkennungsrate noch nicht ausreicht.
Aus der US 2016 / 0 155 435 A1 ist ein Verfahren und eine Vorrichtung zum Erkennen und Reduzieren von „read-back“ und „hear-back“ Fehlern bekannt. Die Anweisungen des Lotsen sowie das Nachsprechen dieser Anweisungen durch den Piloten werden dabei aufgezeichnet, transkribiert und miteinander verglichen. Bei einer Abweichung zwischen dem Gesprochenen und dem Nachgesprochenen können Fehlerquellen identifiziert werden. Dabei können Echtzeitdaten der Flugzeuge zur Validierung der gesprochenen Inhalte verwendet werden.
Aus der EP 2 902 991 B1 ist ein Verfahren zum Verwenden von Audiobefehlen, die einem Flugzeug zugeordnet sind, bekannt, wobei basierend auf dem aktuelle Betriebszustand des Flugzeuges und erlaubten Operationen die Audiobefehle validiert werden.
Vor diesem Hintergrund ist es Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren zum Transkribieren einer aufgezeichneten Sprachkommunikation zwischen wenigstens einem Lotsen und wenigstens einem Fahrzeug eines Verkehrsraumes anzugeben, das weitestgehend automatisch die Sprachdatei verschriftet und dabei eine hinreichend hohe Erkennungswahrscheinlichkeit hat.
Die Aufgabe wird mit dem Verfahren gemäß Anspruch 1 erfindungsgemäß gelöst.
Gemäß Anspruch 1 wird ein Verfahren zum Transkribieren einer aufgezeichneten Sprachkommunikation zwischen wenigstens einem Operateur (Lotsen) und wenigstens einem Fahrzeugführer zumindest eines Fahrzeuges eines Verkehrsraumes vorgeschlagen, wobei die aufgezeichnete Sprachkommunikation von einer auditiv wahrnehmbaren Sprachform in eine visuell wahrnehmbare Schriftform transformiert wird. Die aufgenommene Sprachkommunikation umfasst dabei die Sprachkommunikation, die innerhalb eines vorgegebenen Aufzeichnungszeitraumes zwischen Operateur und den Fahrzeugführern der Fahrzeuge des Verkehrsraumes aufgezeichnet wurde. In dem Verkehrsraum befinden sich demzufolge zum vorgegebenen Aufzeichnungszeitraum in der Regel mehrere Fahrzeuge, mit denen der oder die Operateure entsprechend kommunizieren müssen.
Jedes Fahrzeug des Verkehrsraumes innerhalb des Aufzeichnungszeitraumes kann dabei einen oder mehrere Fahrzeugführer aufweisen, wie dies bspw. bei Verkehrsflugzeugen mit dem Piloten (Captain) und dem Co-Piloten der Fall ist. Unter dem Begriff Fahrzeugführer wird im Sinne der vorliegenden Erfindung demzufolge einheitlich der oder die Personen verstanden, die maßgeblich für die Fahrzeugführung eines betreffenden Fahrzeuges verantwortlich sind. Demzufolge kann unter dem Begriff Fahrzeugführer auch eine Gruppe von Personen verstanden werden.
Der Verkehrsraum kann dabei sowohl räumlich als auch zeitlich definiert sein. Er umfasst den zwei- oder dreidimensionalen Bereich, innerhalb dessen die Fahrzeuge sich bewegen können und innerhalb dessen sie von den oder dem Lotsen durch entsprechende Sprachkommandos und den darin enthaltenen Führungsanweisungen geführt werden. Ein Verkehrsraum im Sinne der vorliegenden Erfindung ist demzufolge ein Bereich, innerhalb dessen sich ein oder mehrere Fahrzeuge lotsengeführt bewegen. Dies kann ein zweidimensionaler oder ein dreidimensionaler Verkehrsraum sein.
Unter einem Operateur bzw. Lotsen im Sinne der vorliegenden Erfindung werden eine oder mehrere Personen, die sich vorzugsweise an einem zentralen Punkt befinden, verstanden, die den betreffenden Verkehrsraum in der Regel überwachen und basierend auf dem aktuellen Zustand des Verkehrsraumes und den darin enthaltenen Fahrzeugen entsprechende Sprachkommandos an einzelne Fahrzeuge übertragen, um diese innerhalb des Verkehrsraumes entsprechend zu führen. Ein Operateur im Sinne der vorliegenden Erfindung überwacht demzufolge nicht nur einen Verkehrsraum, sondern er führt die darin enthaltenen Fahrzeuge entsprechend, um so bspw. Unfälle zu vermeiden und den reibungslosen Verkehrsablauf zu gewährleisten.
Die innerhalb des Aufzeichnungszeitraumes aufgezeichnete Sprachkommunikation zwischen Operateur und den Fahrzeugführern der Fahrzeuge innerhalb des Verkehrsraumes, die sich zum Zeitpunkt des Aufzeichnungszeitraumes in demselben befunden haben, soll nun von der auditiv wahrnehmbaren Sprachform in die visuell wahrnehmbare Schriftform umgewandelt werden. Schriftform meint hierbei insbesondere, dass die in der aufgezeichneten Sprachkommunikation enthaltene Sprache in eine digitale, visuell wahrnehmbare Symbolik umgewandelt wird. Dies bedeutet, dass die in der aufgezeichneten Sprachkommunikation enthaltenen Sprachkommandos des Operateurs und/oder des Fahrzeugführers mit Hilfe des gattungsgemäßen Verfahrens verschriftet werden, d.h. die Sprachkommandos werden in eine digitale Textform umgewandelt und dann ggf. in einer digitalen Textdatei hinterlegt.
Erfindungsgemäß ist nun vorgesehen, dass zunächst digitale Zustandsdaten des Verkehrsraumes, zumindest über den Aufzeichnungszeitraum, d.h. dem Zeitraum der zu transkribierenden aufgezeichneten Sprachkommunikation, einer Recheneinheit bereitgestellt werden. Diese die Vergangenheit betreffenden digitalen Zustandsdaten enthalten dabei die zum Aufzeichnungszeitraum meist sensorisch erfassten Daten und Informationen des Verkehrsraumes einschließlich der darin befindlichen Fahrzeuge, mit denen sich der jeweilige Zustand des Verkehrsraumes beschreiben lässt. Dies können beispielsweise entsprechende Daten der einzelnen Fahrzeuge des Verkehrsraumes sein, wie beispielsweise Position, Geschwindigkeit, Höhe, Bewegungsrichtung, Art des Fahrzeuges, Ziel, Trajektorie und dergleichen sein. Neben diesen fahrzeugabhängigen Zustandsdaten können die Zustandsdaten des Verkehrsraumes aber auch fahrzeugunabhängige Zustandsdaten enthalten, wie beispielsweise Geländetopologie, Wetterinformationen, geografische Besonderheiten und/oder andere den Verkehrsraum beschreitende charakteristische Eigenschaften.
Im nächsten Schritt werden nun eine oder mehrere potenzielle Sprachkommandos zwischen Operateur und Fahrzeugführer mindestens eines Fahrzeuges des Verkehrsraumes in Abhängigkeit von zumindest einem Teil der digitalen Zustandsdaten des Verkehrsraumes für einen bestimmten Zeitpunkt innerhalb der transkribieren, aufgezeichneten Sprachkommunikation ermittelt. Dabei werden insbesondere jene digitale Zustandsdaten des Verkehrsraumes herangezogen, die sich auf das betreffende Fahrzeug, dessen konkrete Sprachkommunikation zwischen Operateur und Fahrzeugführer an dem bestimmten Zeitpunkt verschriftet werden soll, beziehen. Denn unter Kenntnis des aktuellen Zustandes des Fahrzeuges (abgeleitet aus den aktuellen Zustandsdaten des Verkehrsraumes) und basierend auf der Tatsache, dass eine Verschriftung im Nachhinein erfolgt und somit sämtliche Daten des Verkehrsraumes bereits vorliegen, sind die wirklichen Folgezustände des Fahrzeuges aufgrund der zur Verfügung stehenden Daten des Verkehrsraumes genau bekannt, wodurch sich die Anzahl der möglichen Kommandos, um das Fahrzeug vom aktuellen Zustand in einen Folgezustand zu überführen, erheblich reduziert.
Diese potenziellen Sprachkommandos müssen dabei hinsichtlich ihres Inhaltes zumindest nicht vollständig sein, sodass bestimmte inhaltliche Äußerungen auch variabel verbleiben können, da sie sich beispielsweise nicht vollständig bzw. nicht eindeutig aus den Zustandsdaten des Verkehrsraumes ableiten lassen.
Diese so ermittelten potenziellen Sprachkommandos für den gewissen Zeitpunkt innerhalb des Aufzeichnungszeitraumes der aufgezeichneten Sprachkommunikation bilden somit den zur Verfügung stehenden Sprachkontext für das zu transkribierenden Sprachkommando zu dem entsprechenden Zeitpunkt, sodass ein entsprechender Sprachraum, basierend auf den zuvor ermittelten potenziellen Sprachkommandos festgelegt werden kann. Dieser so ermittelte Sprachraum wird nun als Grundlage für einen Spracherkenner verwendet, um das in den aufgezeichneten Sprachkommandos an dem entsprechenden Zeitpunkt gesprochene Sprachkommando zu erkennen und so von der auditiv wahrnehmbaren Sprachform in die visuell wahrnehmbare Schriftform zu transformieren.
Die Erfinder haben dabei erkannt, dass sich unter Kenntnis der zur Verfügung stehenden Zustandsdaten des Verkehrsraumes der Sprachkontext zu einem bestimmten Zeitpunkt innerhalb des Aufzeichnungszeitraumes soweit auf potenzielle Sprachkommandos einschränken lässt, dass hierdurch die Spracherkennung soweit verbessert wird, dass eine automatische Spracherkennung mit einer hohen Spracherkennungsrate trotz ggf. schlechter auditiver Qualität sicher möglich ist.
In einer vorteilhaften Ausführungsform werden ein oder mehrere potenzielle Sprachkommandos zwischen Operateur und Fahrzeugführer mindestens eines Fahrzeuges in Abhängigkeit von einem aus den digitalen Zustandsdaten des Verkehrsraumes abgeleiteten ersten Fahrzeugzustandes des betreffenden Fahrzeuges zu dem bestimmten Zeitpunkt als einen ersten Zeitpunkt und einem aus den digitalen Zustandsdaten des Verkehrsraumes abgeleiteten zweiten Fahrzeugzustand des betreffenden Fahrzeuges zu einem auf den ersten Zeitpunkt folgenden zweiten Zeitpunkt ermittelt. Der zweite Fahrzeugzustand des betreffenden Fahrzeuges zu einem auf den ersten Zeitpunkt folgenden zweiten Zeitpunkt stellt demzufolge einen Folgezustand basierend auf den ersten Fahrzeugzustand dar, wenn zum ersten Zeitpunkt, indem das Fahrzeug den ersten Fahrzeugzustand hat, ein entsprechendes Sprachkommando mit einer Führungsanweisung an das Fahrzeug übertragen wurde. Basierend auf der Führungsanweisung wird nun der Fahrzeugführer des Fahrzeuges das Fahrzeug entsprechend so steuern, dass es den Folgezustand, d.h. den zweiten Zustand zum zweiten Zeitpunkt einnimmt. Unter Kenntnis dieses Folgezustandes und der Veränderung kann dabei ermittelt werden, welche potenziellen Sprachkommandos überhaupt möglich sind, die ein Überführen des Fahrzeuges von dem ersten Zustand zu dem zweiten Zustand ermöglichen, sofern sich der Fahrzeugführer an das zum ersten Zeitpunkt übertragene Sprachkommando hält.
Der Sprachkontext und demzufolge auch der für den Spracherkenner relevante Sprachraum kann demzufolge auf die potenziellen Sprachkommandos eingeschränkt werden, die eine Überführung des Fahrzeuges von dem ersten Zustand zu dem zweiten Zustand (Folgezustand) ermöglichen. Dies bedeutet im Umkehrschluss auch, dass all jene Sprachkommandos aus dem Sprachraum entfernt werden können, die inhaltlich nicht geeignet sind, das Fahrzeug von dem ersten Zustand zu dem zweiten Zustand zu überführen. Der Sprachraum kann demzufolge sehr stark auf potenzielle Kandidaten eingeschränkt werden, wodurch die Spracherkennung deutlich verbessert wird.
In einer weiteren vorteilhaften Ausführungsform werden aus den bereitgestellten Zustandsdaten des Verkehrsraumes für ein oder mehrere in dem Verkehrsraum befindlichen Fahrzeuge jeweils eine Trajektorie ermittelt, wobei der oder die wahrscheinlichen Sprachkommandos zwischen Operateur und Fahrzeugführer mindestens eines Fahrzeuges weiter in Abhängigkeit von einem Verlauf der zukünftige Trajektorie des jeweiligen Fahrzeuges, ausgehend von dem bestimmten Zeitpunkt, ermittelt werden. Unter Erkenntnis der Trajektorie lassen sich dann konkret diejenigen potenziellen Sprachkommandos ermitteln, die überhaupt geeignet sind, das Fahrzeug entsprechend der Trajektorie zu führen. Demzufolge können alles Sprachkommandos aus dem Kontext und dem Sprachraum entfernt werden bzw. unberücksichtigt bleiben, die dazu führen würden, dass das Fahrzeug seine im Nachhinein bekannte Trajektorie verlassen würde.
In einer weiteren vorteilhaften Ausführungsform werden der oder die potenziellen Sprachkommandos zwischen Operateur und Fahrzeugführer mindestens eines Fahrzeuges weiter in Abhängigkeit von prozeduralen Vorschriften zur Führung des Fahrzeuges ermittelt. Derartige prozedurale Vorschriften können beispielsweise der Syntax eines Sprachkommandos sein, sodass hier insbesondere die Reihenfolge bestimmter Anweisungsteile festgelegt ist. Aber auch andere prozedurale Vorschriften, wie beispielsweise das Eingreifen eines Lotsen in bestimmte verkehrsgefährdende Situationen, oder Einflugfreigaben an Sektorgrenzen können zur Ermittlung der potenziellen Sprachkommandos herangezogen werden, um den Sprachraum entsprechend einzuschränken.
In einer weiteren vorteilhaften Ausführungsform werden ein oder mehrere potenzielle Sprachkommandos zwischen Operateur und Fahrzeugführer eines Fahrzeuges weiterhin in Abhängigkeit von einem Verhaltensmodell von Lotsen ermittelt, umso die Spracherkennung weiter zu verbessern.
In einer weiteren vorteilhaften Ausführungsform werden aus der zu transkribierenden, aufgezeichneten Sprachkommunikation mehrere Sprachkommandos mittels der Spracherkennung erkannt und anschließend für jedes erkannte Sprachkommando ein Plausibilitätsmaß bestimmt. In Abhängigkeit von dem Plausibilitätsmaß eines jeden erkannten Sprachkommandos wird nun ein Sprachkommando ausgewählt und in die visuell wahrnehmbare Schriftform transformiert. Das Plausibilitätsmaß ist demzufolge ein Gütemaß für den Spracherkenner und kann dabei unter anderem auch die aus dem Stand der Technik bekannten Gütemaßstäbe bei der Spracherkennung beinhalten. Basierend auf diesem Gütemaß bzw. diesem Plausibilitätsmaß kann dann entschieden werden, welches Sprachkommando letztlich verschriftet wird und für den gewissen Zeitpunkt dann als das jeweilige Sprachkommando angenommen wird. Im einfachsten Fall wird dabei jenes erkannte Sprachkommando verschriftet, d.h. in Schriftform abgelegt, das das höchste Plausibilitätsmaß hat.
So ist es diesbezüglich denkbar, dass bei einem ermittelten Plausibilitätsmaß unterhalb eines vorgegebenen notwendigen Schwellwertes das erkannte Sprachkommando zur manuellen Korrektur zwischengespeichert oder ausgegeben wird, sodass hier ein Operator nachträglich entsprechend korrigierend eingreifen kann.
In einer Ausführungsform hierzu wird zunächst festgestellt, ob jedes Plausibilitätsmaß der erkannten Sprachkommandos unterhalb eines notwendigen Schwellwertes liegt. Ist das der Fall, so werden die zuvor ermittelten potentiellen Sprachkommandos dahingehend überprüft, ob das jeweilige potentielle Sprachkommando geeignet ist, den Zustand des Verkehrsraumes in einen Folgezustand, der aus den digitalen Zustandsdaten des Verkehrsraumes zu einem auf den bestimmten Zeitpunkt als ersten Zeitpunkt folgenden zweiten Zeitpunkt abgeleitet wird, zu überführen. Potentielle Sprachkommandos, die ganz offensichtlich nicht sinnhaft in den Verlauf der gespeicherten Zustände des Verkehrsraumes und die resultierenden Folgezustände eingebaut werden können, werden sodann verworfen und als nicht sinnvoll erachtet. D.h. die aus einer Sprachhypothese resultierenden Kommandos werden dahingehend überprüft, ob sie in den Verlauf der gespeicherten Situation eingebaut werden können und somit als sinnvoll erachtet werden können. Anschließend wird der Sprachraum basierend auf den übrigen potentiellen Sprachkommandos neu festgelegt und das Verfahren an dieser Stelle dann wiederholt, bis eine Transkription erfolgt ist oder eine andere Abbruchbedingung erreicht wurde.
In einer weiteren vorteilhaften Ausführungsform hierzu werden aus der zu transkribierenden, aufgezeichneten Sprachkommunikation mehrere Sprachkommandos mittels der Spracherkennung erkannt und jedes erkannte Sprachkommando dahingehend überprüft, ob es hinsichtlich eines Folgezustandes des Verkehrsraumes plausibel ist. Der Folgezustand des Verkehrsraumes ergibt sich dabei aus den digitalen Zustandsdaten des Verkehrsraumes basierend auf dem bestimmten Zeitpunkt als ersten Zeitpunkt einerseits sowie einen auf den ersten Zeitpunkt folgenden zweiten Zeitpunkt andererseits und den insbesondere dazwischenliegenden, d.h. zwischen dem ersten und dem zweiten Zeitpunkt liegenden digitalen Zustandsdaten des Verkehrsraumes.
Es kann somit im Nachhinein überprüft werden, ob das von dem Spracherkenner erkannte Sprachkommando überhaupt plausibel hinsichtlich der Folgezustände, ermittelt ab dem Zeitpunkt, wo das Sprachkommando in dem Aufzeichnungszeitraum erkannt wurde, überhaupt möglich ist und überhaupt zu dem gewünschten Folgezustand führen würde. Das heißt, es wird überprüft, ob das erkannte Sprachkommando basierend auf dem Zustand zum ersten Zeitpunkt überhaupt zu dem Folgezustand zum zweiten Zeitpunkt führen würde.
Der für den bestimmten Zeitpunkt, d.h. der erste Zeitpunkt, festgelegte Sprachraum wird dann in Abhängigkeit dieser Überprüfung der Sprachkommandos angepasst, so dass der Sprachraum weiterhin auf jene Sprachkommandos eingeschränkt werden kann, die überhaupt zu dem ermittelten Folgezustand führen können. Alle anderen Sprachkommandos sind bezogen auf den Folgezustand schlicht nicht plausibel.
Die Erfindung wird anhand der beigefügten Figuren beispielhaft erläutert. Es zeigen:

1 - schematische Darstellung des grundsätzlichen Verfahrensablaufes;
2 - schematische Darstellung einer detaillierten Ausführungsform.

1 zeigt schematisch das erfindungsgemäße Verfahren zum Transkribieren einer aufgezeichneten Sprachkommunikation zwischen wenigstens einem Lotsen und wenigstens einem Fahrzeug eines Verkehrsraumes. Die aufgezeichnete Sprachkommunikation 10 ist dabei in einem ersten digitalen Datenspeicher 11 hinterlegt. Die aufgezeichnete Sprachkommunikation umfasst dabei einen gewissen Aufzeichnungszeitraum 12, der durch einen Anfangszeitpunkt to und einen Endzeitpunkt t₁ definiert ist.
Des Weiteren werden digitale Zustandsdaten 20 des betreffenden Verkehrsraumes in einem zweiten digitalen Datenspeicher 21 bereitgestellt, wobei selbstverständlich der erste und der zweite digitale Datenspeicher auch ein und dasselbe Gerät bzw. ein und derselbe Datenspeicher sein können. Lediglich zu Anschauungszwecken wurden im Beispiel der 1 zwei getrennte Datenspeicher gezeigt.
Die digitalen Zustandsdaten 20 treffen dabei jene Daten, die den Zustand zu einem beliebigen Zeitpunkt t_x innerhalb des Aufzeichnungszeitraums 12 des Verkehrsraumes beschreiben. Die digitalen Zustandsdaten 20 des Verkehrsraumes umfassen dabei insbesondere den Aufzeichnungszeitraum 12, so dass der Aufzeichnungszeitraum 12 mindestens eine Teilmenge hinsichtlich des Zeitraumes der digitalen Zustandsdaten 20 umfasst. Mithilfe der digitalen Zustandsdaten 20, wie beispielsweise Radardaten, kann somit zu einem beliebigen Zeitpunkt t_x innerhalb des Aufzeichnungszeitraumes 12 im Nachhinein festgestellt werden, welchen Zustand der Verkehrsraum zum Zeitpunkt t_x hat, insbesondere welchen Zustand die einzelnen Fahrzeuge innerhalb des Verkehrsraumes hatten. Solche Zustandsdaten umfassen insbesondere die Geschwindigkeit, die Position, die Höhe, die Ausrichtung, die Trajektorie, den Fahrzeugtyp, aber auch ggf. die Wegpunkte, entlang dessen sich das Fahrzeug bewegen soll sowie Umgebungsdaten wie Wetter, Topologie und dergleichen.
Sowohl die aufgezeichnete Sprachkommunikation 10 als auch die digitalen Zustandsdaten 20 werden nun in eine elektronische Recheneinheit 30 eingespeist, um die aufgezeichnete Sprachkommunikation 10 von einer auditiv wahrnehmbaren Sprachform in eine visuell wahrnehmbare Sprachform zu transformieren. Hierfür wird zunächst aus den digitalen Zustandsdaten 20 zu einem gewissen Zeitpunkt t_x mithilfe eines Kommando- und Sprachraummoduls 31 der elektronischen Recheneinheit 30 zunächst ein oder mehrere potentielle Sprachkommandos zwischen Lotse und Fahrzeugführer ermittelt. Unter Zugrundelegung der digitalen Zustandsdaten 20 lässt sich dabei ggf. auch unter Hinzuziehung von prozeduralen Vorschriften zur Bildung von Sprachkommandos sowie ggf. ein Verhaltensmodell von Lotsen diejenigen Sprachkommandos ermitteln, die am wahrscheinlichsten in Bezug auf den aktuellen Zustand zum Zeitpunkt t_x des Verkehrsraumes sind. Dies kann insbesondere auch mit Blick auf die Folgezustände, die sich zu einem Zeitpunkt t_x + 1 aus dem Sprachkommando ergeben, erfolgen. Nach dem Ermitteln der potentiellen Sprachkommandos zum Zeitpunkt t_x werden sodann mithilfe des Kommando- und Sprachraummoduls 31 der entsprechende Sprachraum für den Spracherkenner 32 festgelegt und dann der entsprechend so festgelegte Sprachraum an den Spracherkenner 32 übertragen. Der Spracherkenner 32 ist ebenfalls Bestandteil der elektronischen Recheneinheit 30 und ist insbesondere in Form einer Spracherkennungssoftware ausgebildet. Denkbar ist selbstverständlich auch, dass Kommando- und Sprachraummodul 31 sowie Spracherkenner 32 auf zwei verschiedenen physischen Recheneinheiten vorgesehen sind. Demzufolge wird unter einer elektronischen Recheneinheit 30 im Sinne der vorliegenden Erfindung eine logische Recheneinheit verstanden, die aus mehreren Hardwaresystemen (verteilte Systeme) bestehen kann.
Der Spracherkenner 32 transformiert nun das in der aufgezeichneten Sprachkommunikation 10 enthaltene Sprachkommando zu dem Zeitpunkt t_x von der auditiv wahrnehmbaren Sprachform in die visuell wahrnehmbare Schriftform unter Berücksichtigung des zuvor festgelegten Sprachraumes, so dass zum Zeitpunkt t_x dann das verschriftete Sprachkommando 40 in einen dritten digitalen Datenspeicher 41 abgelegt werden kann.
Auf diese Art und Weise durchläuft der Spracherkenner 32 durch sämtliche Zeitpunkte der aufgezeichneten Sprachkommunikation 10 innerhalb des Aufzeichnungszeitraumes 12 und ermittelt so die entsprechenden Sprachkommandos und verschriftet sie dann in die entsprechende Schriftform 40.
2 zeigt ein ausführliches Ausführungsbeispiel zur Transkription einer aufgezeichneten Sprachkommunikation 10. Zunächst werden digitale Zustandsdaten 20 in Form von Radardaten 22 sowie Umgebungsdaten 23 dem Kommando- und Sprachmodul 31 zugeführt. Außerdem erhält das Kommando- und Sprachmodul 31 Informationen über die prozeduralen Vorschriften 24 des lotsengeführten Verkehrsraumes sowie ein Lotsenverhaltensmodell 25, wodurch die Ermittlung der potentiellen Sprachkommandos durch das Modul 31 deutlich verbessert werden kann. Anschließend wird der Sprachraum basierend auf den ermittelten Kommandos moduliert und dann dem Spracherkenner 32 zugeführt. Dieser erhält ebenso die aufgezeichnete Sprachkommunikation 10 und kann so an dem entsprechenden variablen Zeitpunkt t_x dann basierend auf dem modulierten Sprachraum entsprechend die Spracherkennung durchführen.
Anschließend erfolgt die Bestimmung eines Plausibilitätsmaßes in Schritt 33, um so die erkannten Sprachkommandos hinsichtlich ihrer Plausibilität zu bewerten. Dabei kann der Spracherkenner so eingestellt sein, dass er mehrere Sprachkommandos aus der aufgezeichneten Sprachkommunikation erkennt, die dann mithilfe eines Plausibilitätsmaßes verwertet werden. Im Schritt 34 kann dann überprüft werden, ob insgesamt ein hohes Plausibilitätsmaß vorliegt, wobei bei einer Bejahung dieser Frage dann das plausibelste erkannte Sprachkommando ausgewählt und dann in visuell wahrnehmbare Schriftform abgespeichert wird.
Liegt keine hinreichende Plausibilität vor, so wird überprüft, ob das Plausibilitätsmaß unterhalb eines entsprechenden Schwellwertes liegt. Dies erfolgt im Schritt 35. Ist dies der Fall, so werden die erkannten Sprachkommandos an einen Operator 36 ausgegeben, um so eine weiterhin manuelle Verschriftung dieser nicht erkennbaren Sprachkommandos durchzuführen. Liegt indes jedoch ein Plausibilitätsmaß überhalb eines entsprechenden Schwellwertes vor, das jedoch nicht ausreicht, in einem ersten Schritt eine automatische Spracherkennung zu realisieren, so können die erkannten Sprachkommandos in das erkannte Kommando- und Sprachmodul 31 eingelesen werden, wodurch nunmehr überprüft wird, inwieweit jedes erkannte Sprachkommando hinsichtlich möglicher Folgezustände, die sich aus den digitalen Zustandsdaten des Verkehrsraumes ableiten lassen, plausibel sind. Es können dann diejenigen erkannten Sprachkommandos, die nicht mit den Folgezuständen t_x + 1 korrelieren, aussortiert werden, wodurch in einer nächsten Schleife die Spracherkennung wiederum deutlich verbessert werden kann. Denn die erkannten Sprachkommandos können somit als weitere potentielle konkrete Sprachkommandos die Modellierung des Sprachraumes und somit den Sprachraum selber weiter deutlich einschränken und somit den Spracherkenner deutlich verbessern.
Bezugszeichenliste

10 -: aufgezeichnete Sprachkommunikation
11 -: erster digitaler Datenspeicher
12 -: Aufzeichnungszeitraum
20 -: digitale Zustandsdaten
21 -: zweiter digitale Datenspeicher
22 -: Radardaten
23 -: Umgebungsdaten
24 -: prozedurale Vorschriften
25 -: Lotsenverhaltensmodell
30 -: elektronische Recheneinheit
31 -: Kommando- und Sprachraummodul
32 -: Spracherkenner
33 -: Plausibilitätsermittlung
34,35 -: Plausibilitätsüberprüfung
36 -: manuelle Verschriftung
40 -: Schriftform
41 -: dritter digitaler Datenspeicher

Claims

Verfahren zum Transkribieren einer aufgezeichneten Sprachkommunikation (10) zwischen wenigstens einem Operateur und wenigstens einem Fahrzeugführer mindestens eines Fahrzeuges eines Verkehrsraumes, wobei die aufgezeichnete Sprachkommunikation (10) von einer auditiv wahrnehmbaren Sprachform in eine visuell wahrnehmbare Schriftform (40) transformiert wird, dadurch gekennzeichnet, dass das Verfahren die durch eine elektronische Recheneinheit (30) ausführbaren Schritte umfasst: - Bereitstellen von digitalen Zustandsdaten (20) eines Verkehrsraumes über den Zeitraum der zu transkribierenden, aufgezeichneten Sprachkommunikation (10); - Ermitteln von einem oder mehreren potentiellen Sprachkommandos zwischen Operateur und Fahrzeugführer in Abhängigkeit von zumindest einem Teil der digitalen Zustandsdaten (20) des Verkehrsraumes für einen bestimmten Zeitpunkt innerhalb der zu transkribierenden, aufgezeichneten Sprachkommunikation (10); - Festlegen eines Sprachraumes basierend auf den zuvor ermittelten potentiellen Sprachkommandos; und - Transformieren des in der aufgezeichneten Sprachkommunikation (10) enthaltenen Sprachkommandos an dem bestimmten Zeitpunkt von der auditiv wahrnehmbaren Sprachform in die visuell wahrnehmbare Schriftform (40) mittels Spracherkennung unter Berücksichtigung des zuvor festgelegten Sprachraumes.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein oder mehrere potentielle Sprachkommandos zwischen dem Operateur und dem Fahrzeugführer in Abhängigkeit von einem aus den digitalen Zustandsdaten des Verkehrsraumes abgeleiteten ersten Fahrzeugzustand des betreffenden Fahrzeuges zu dem bestimmten Zeitpunkt als einem ersten Zeitpunkt und einem aus den digitalen Zustandsdaten (20) des Verkehrsraumes abgeleiteten zweiten Fahrzeugzustand des betreffenden Fahrzeuges zu einem auf den ersten Zeitpunkt folgenden zweiten Zeitpunkt ermittelt werden.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass aus den bereitgestellten Zustandsdaten des Verkehrsraumes für ein oder mehrere in dem Verkehrsraum befindliche Fahrzeuge jeweils eine Trajektorie ermittelt wird, wobei ein oder mehrere potentielle Sprachkommandos zwischen Operateur und Fahrzeugführer des entsprechenden Fahrzeuges weiterhin in Abhängigkeit von einem Verlauf der zukünftigen Trajektorie des jeweiligen Fahrzeuges, ausgehend von dem bestimmten Zeitpunkt, ermittelt werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der oder die potentiellen Sprachkommandos zwischen Operateur und Fahrzeugführer weiterhin in Abhängigkeit von prozeduralen Vorschriften (24) zur Führung des Fahrzeuges ermittelt werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der oder die potentiellen Sprachkommandos zwischen Operateur und Fahrzeugführer weiterhin in Abhängigkeit von einem Verhaltensmodell (25) von Lotsen ermittelt werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass aus der zu transkribierenden, aufgezeichneten Sprachkommunikation (10) mehrere Sprachkommandos mittels der Spracherkennung erkannt werden und anschließend für jedes erkannte Sprachkommando ein Plausibilitätsmaß bestimmt wird, wobei in Abhängigkeit von dem Plausibilitätsmaß ein erkanntes Sprachkommando ausgewählt und in die visuell wahrnehmbare Schriftform (40) transformiert wird.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass bei einem ermittelten Plausibilitätsmaß unterhalb eines vorgegebenen notwendigen Schwellenwertes tes mindestens ein erkanntes Sprachkommando zur manuellen Korrektur zwischengespeichert oder ausgegeben wird.
Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, dass bei Feststellung, dass jedes Plausibilitätsmaß der erkannten Sprachkommandos unterhalb eines notwendigen Schwellenwertes liegt, zunächst jedes zuvor ermittelte potentielle Sprachkommando dahingehend überprüft wird, ob das jeweilige potentielle Sprachkommando geeignet ist, den Zustand des Verkehrsraumes in einen Folgezustand, der aus den digitalen Zustandsdaten des Verkehrsraumes zu einem auf den bestimmten Zeitpunkt als ersten Zeitpunkt folgenden zweiten Zeitpunkt abgeleitet wird, zu überführen, wobei alle nicht geeigneten potentiellen Sprachkommandos verworfen werden und das Verfahren mit den übrigen potentiellen Sprachkommandos mit der Festlegung des Sprachraumes weitergeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass aus der zu transkribierenden, aufgezeichneten Sprachkommunikation (10) mehrere potentielle Sprachkommandos mittels der Spracherkennung erkannt und jedes erkannte Sprachkommando überprüft wird, ob es hinsichtlich eines Folgezustandes des Verkehrsraumes, der aus den digitalen Zustandsdaten des Verkehrsraumes zu einem auf den bestimmten Zeitpunkt als ersten Zeitpunkt folgenden zweiten Zeitpunkt abgeleitet wird, plausibel ist, wobei der für den bestimmten Zeitpunkt festgelegte Sprachraum in Abhängigkeit von den bereits erkannten und als plausibel überprüften Sprachkommandos angepasst wird und die Transformation dann mittels der Spracherkennung unter Berücksichtigung des angepassten Sprachraumes durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Operateur ein Verkehrsraum lotse ist.
Computerprogramm mit Programmcodemitteln, eingerichtet zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Computerprogramm auf einer elektronischen Datenverarbeitungsanlage ausgeführt wird.
Computerprogramm nach Anspruch 11, dadurch gekennzeichnet, dass die Programmcodemittel auf einem computerlesbaren Datenträger gespeichert sind.