-
Die Erfindung betrifft ein Verfahren zur Sprachkommunikation zwischen wenigstens zwei Benutzern eines Gesprächs unter Verwendung computergestützter Übersetzungen. Des Weiteren betrifft die Erfindung ein Sprachkommunikationssystem zur Sprachkommunikation zwischen wenigstens zwei Benutzern eines Gesprächs unter Verwendung computergestützter Übersetzungen.
-
Es gibt einen zunehmenden Bedarf an Möglichkeiten zur Sprachkommunikation in gesprochener Sprache zwischen Menschen unterschiedlicher sprachlicher Herkunft, da Kommunikation und gegenseitiges Verstehen in der Regel eine gemeinsame Sprache voraussetzt. Traditionell sorgen Übersetzer oder Dolmetscher für Übersetzungsdienste zwischen verschiedenen Sprachen beziehungsweise Idiomen. Eine wichtige Anwendung ist dabei die Simultan-Übersetzung, also die praktisch sofortige Übersetzung des gesprochenen Wortes durch einen Übersetzer. Schon aufgrund der nicht unerheblichen Kosten eignen sich geeignete menschliche Übersetzer nur für spezielle Anwendungsfälle. Gerade in der Alltagskommunikation sind jedoch andere Lösungen wünschenswert.
-
Aus diesem Grund gibt es erste Ansätze für computergestützte Verfahren zur Übersetzung von Sprache. Bereits digital und damit computerlesbar erfasste Sprache in Textform lässt sich schon seit längerer Zeit auf relativ einfache Weise übersetzen. Erheblich schwieriger ist dies bei gesprochener Sprache, die in Form von Audiosignalen eingelesen werden kann. Diese muss zunächst in ein computerlesbares Textformat gebracht werden. Hierzu lassen sich die Audiosignalen mittels Spracherkennung in Textform bringen. Diese Textform kann übersetzt und dann wieder als Textform ausgegeben werden, beispielsweise auf einem Bildschirm.
-
Nachteilig an den bekannten Verfahren ist insbesondere, dass mit den Audiodaten große Datenmengen zu zentralen Servern übertragen werden müssen und damit die Antwortzeiten lang wie auch die Ausgabe der Übersetzung in Textform sehr unkomfortabel sind. Außerdem besteht ein Medienbruch von gesprochener Sprache zur Ausgabe in Textform.
-
Die beanspruchte Erfindung löst diese Aufgabe. Diese besteht in einem Verfahren zur Sprachkommunikation zwischen wenigstens zwei Benutzern eines Gesprächs unter Verwendung computergestützter Übersetzungen, vorzugsweise mittels Mobilgeräten, wie vorzugsweise Mobiltelefonen, Smartphones, Tablets oder ähnlichem. Es wird jedem Benutzer, insbesondere jedem Mobilgerät, des Gesprächs eine Applikationsinstanz einer Übersetzungssoftware zugeordnet. Ein sprachliches Audiosignal, insbesondere eines ersten Benutzers, wird dazu in einer ersten Sprache beziehungsweise der Quellsprache computergestützt in Textform umgewandelt. Diese Textform wird computergestützt in eine Textform der zweiten Sprache beziehungsweise der Zielsprache übersetzt. Die Textform der zweiten Sprache wird dann ausgegeben, insbesondere an einen zweiten Benutzer. Das Verfahren zeichnet sich erfindungsgemäß dadurch aus, dass eine der Applikationsinstanzen als Masterapplikation und eine oder mehrere weitere Applikationsinstanzen als Clientapplikationen ausgewählt werden, wobei die Übersetzungen von einer der Textformen einer Sprache in die Textform einer anderen Sprache durch die Masterapplikation besorgt werden. Damit wird ein einfach zu bedienendes Verfahren zum für computergestützte Simultan-Übersetzungen bereitgestellt.
-
Vorzugsweise besorgt die Masterapplikation die Übersetzungen für alle Applikationsinstanzen eines Gesprächs. Dies bedeutet, dass lediglich die Masterapplikation die Daten für die Übersetzung bereitstellen, gegebenenfalls aufbereiten und übertragen muss. Die Masterapplikation sorgt damit für den reibungslosen Ablauf der Übersetzung.
-
Insbesondere werden die Übersetzungen durch die Masterapplikation mittels wenigstens eines speziellen externen Übersetzungsrechners, vorzugsweise eines Rechnersystems und/oder Servers, besorgt. Damit wird die eigentliche und sehr rechenintensive Übersetzungstätigkeit an externe Rechnersysteme ausgelagert. Diese können mit hinreichender Leistung für schnelle Antwortzeiten ausgestattet werden.
-
Die Textform wird an den Übersetzungsrechner übertragen wird, woraufhin vom Übersetzungsrechner eine Übersetzung in der angeforderten anderen Sprache als Textform zurückgeliefert. Der Übersetzungsrechner sorgt damit für einfach zu übertragende Daten. Als Übersetzungssoftware kann beispielsweise die Software „DeepL“ von der DeepL GmbH eingesetzt werden. Diese bietet die Leistung für die hier vorgesehenen Simultan-Übersetzungen.
-
Vorzugsweise wird mit dem Übersetzungsrechner über ein Netzwerk, insbesondere per Internet, kommuniziert. Hierzu können Kabelverbindungen und/oder Funkverbindungen dienen. Bei einem Mobilgerät wird in der Regel eine Funkschnittstelle zum Einsatz kommen, vorzugsweise ein Mobilfunknetz. Somit kann praktisch ein ortsunabhängiger Einsatz des Verfahrens sichergestellt werden.
-
Die Übersetzung wird bevorzugt mit Unterstützung von Methoden der künstlichen Intelligenz (KI) vorgenommen. Dazu dient vorzugsweise der wenigstens einen Übersetzungsrechner. Gegebenenfalls kann ein spezielles lernendes System verwendet werden. Mit KI kann eine hohe Qualität der Übersetzung erreicht werden.
-
Jede der Applikationsinstanzen kann zur Einrichtung als Masterapplikation oder als Clientapplikation vorgesehen werden. Damit besteht eine Auswahlmöglichkeit bei den Benutzern. Dies kann insbesondere vom Vorhandensein und/oder von der Qualität der Verbindung zum Übersetzungsserver abhängig gemacht werden. Gegebenenfalls kann ein Wechsel der Masterapplikation erfolgen.
-
Die wenigstens eine Clientapplikation ist mit der Masterapplikation vorzugsweise per direkte Verbindung verbunden. Hierzudient weiter vorzugsweise eine Funkschnittstelle, insbesondere eine kurzreichweitige Funkschnittstelle. Verwendet werden können weiter vorzugsweise Bluetooth, Near Field Communications (NFC) oder ähnliche. Diese und andere kurzreichweitige Verbindungen dienen zum direkten und einfachen Datenaustausch zwischen den Applikationsinstanzen beziehungsweise Mobilgeräten. Grundsätzlich kann eine Kommunikation zwischen den Applikationsinstanzen natürlich auch per Internet erfolgen. In jedem Fall können die Applikationsinstanzen miteinander Daten austauschen.
-
Nur eine der Applikationsinstanzen eines Gesprächs kann und sollte als Masterapplikation eingerichtet werden. Vorzugsweise wird bei Wegfall der als Masterapplikation eingerichteten Applikationsinstanz eine der anderen Applikationsinstanzen als neue Masterapplikation des Gesprächs eingerichtet. Dies kann eine zwingende Voraussetzung für den Betrieb sein, da die Masterapplikation für die Übersetzungen sorgt. Gegebenenfalls kann eine Auswahl einer Clientapplikation als neue Masterapplikation automatisch erfolgen. Auf diese Weise kann ein sicherer Betrieb sichergestellt werden. Dies ist insbesondere zur Sicherstellung einer unterbrechungsfreien Fortsetzung eines Gesprächs mit mehr als zwei Teilnehmern erforderlich.
-
Die Sprache, insbesondere die Quellsprache und/oder die Zielsprache, wird bevorzugt automatisch erkannt. Dies kann insbesondere nur bei einem oder einigen oder vorzugsweise sowohl bei jedem der Benutzer beziehungsweise Gesprächspartner des Gesprächs erfolgen. Damit wird eine Funktion des Verfahrens ohne die Notwendigkeit von Benutzereingriffen erreicht.
-
Alternativ oder insbesondere wird die Sprache, insbesondere die Quellsprache und/oder die Zielsprache, manuell vom Benutzer beziehungsweise Gesprächspartner manuell eingestellt. Auf diese Weise können Vorgaben gemacht werden, aber auch Fehlerkennungen der Sprache korrigiert werden.
-
In einer bevorzugten Ausführung wird die Textform der Zielsprache mittels Sprachausgabe als Audiosignal ausgegeben. Damit wird eine Anwendung ohne Medienbruch für die Benutzer von der gesprochenen Sprache der Quellsprache zu gesprochener Zielsprache erreicht. Eine direkte Kommunikation unter Zwischenschaltung des computergestützten Verfahrens wird ermöglicht.
-
Weiter vorzugsweise wird jede der Applikationsinstanzen mit Funktionen zur Umwandlung eines Audiosignals gesprochener Sprache in Textform, vorzugsweise mittels Spracherkennung, und/oder zur Umwandlung von Textform in ein Audiosignal gesprochener Sprache, vorzugsweise mittels Sprachausgabe, ausgestattet. Diese Funktionen zur Spracherkennung beziehungsweise Sprachausgabe lassen sich auf aktuellen Mobilgeräten ausführen, da diese leistungsfähig genug sind. Im Ergebnis wird damit erreicht, dass nur reine Texte übertragen werden müssen, da die Audiodaten lokal verarbeitet werden. Die Übersetzungen können auf diese Weise extern bereitgestellt werden, da lediglich in Textform umgewandelte Sprache übertragen wird. So können schnelle Übersetzungen sichergestellt werden.
-
Die eingangs geschilderte Aufgabe wird außerdem gelöst durch ein Sprachkommunikationssystem zur Sprachkommunikation zwischen wenigstens zwei Benutzern eines Gesprächs unter Verwendung computergestützter Übersetzungen. Hierbei werden vorzugsweise Mobilgeräte, wie vorzugsweise Mobiltelefonen, Tablets oder ähnliches, verwendet. Dabei ist insbesondere jedem Benutzer oder Teilnehmer des Gesprächs ein Mobilgerät zugeordnet. Das Sprachkommunikationssystem funktioniert unter Anwendung eines Verfahrens gemäß obigen Beschreibungen.
-
Es wird insbesondere auch ein Computerprogrammprodukt zur Ausführung des oben beschriebenen Verfahrens beansprucht.
-
Schließlich wird auch ein wenigstens ein Rechnersystem beinhaltend einen oder mehrere Rechner, gegebenenfalls auch ein verteiltes Rechnersystem, wie insbesondere als Cloudlösung, vorgeschlagen. Dieses dient zur insbesondere zur Ausführung des Verfahrens und/oder des entsprechenden Computerprogrammprodukts, insbesondere gemäß den jeweiligen obigen Beschreibungen.
-
Auch lassen sich weitere Kopplungen und Kombinationen denken. Beispielsweise kommt der Einsatz von Smartwatches, InEar-Geräte oder ähnlicher Peripherie in Betracht. Diese können beispielsweise als Ausgabemodule, d.h. Module, die übersetzte Texte z.B. als Audioformat ausgeben, verwendet werden. Die Mobilgeräte weisen selbst ebenfalls ein oder mehrere Ausgabemodule auf, z.B. Lautsprecher oder Klinken-Buchsen. Damit lassen sich dann in vereinfachter Weise Gespräche mit computergestützter Simultan-Übersetzung führen. Es können natürlich auch spezielle Geräte zur Umsetzung des Verfahrens entwickelt werden. Die Verwendung bekannter und weit verbreiteter Mobilgeräte, wie Smartphones oder Tablets vereinfacht lediglich die Markteinführung und reduziert die Kosten.
-
Vorzugsweise entscheidet die Masterapplikation als Weiche, auf welchem Ausgabemodul die übersetzten Texte ausgegeben werden sollen. So kann z.B. eine erste Sprache auf einem Bluetooth-Lautsprecher ausgegeben werden, welcher mit einem ersten Mobilgerät verbunden ist, und eine zweite Sprache auf einem eingebauten Lautsprecher auf einem zweiten Mobilgerät. Diese Eigenschaft der Masterapplikation wird als Weichenfunktion bezeichnet. Bei herkömmlichen Applikationen auf Mobilgeräten wird jeweils ein aktives Ausgabemodul gewählt. Typischerweise werden die Systemeinstellungen des Mobilgerätes übernommen. Ein Nutzer entscheidet, auf welchem Ausgabemodul er ein Audioausgabe ausgegeben haben möchte, z.B. über eingebaute Lautsprecher des Mobiltelefons oder über Kopfhörer. Gleichzeitige Ansteuerung mehrerer Ausgabemodule, welche zeitgleiche oder ohne Nutzerinteraktion abwechselnde Audioausgaben ermöglichen, sind so nicht möglich.
-
Durch die Weichen-Funktion der Masterapplikation kann dem Mobilgerät vorgegeben werden, welches Ausgabemodul für welche Sprache genutzt werden soll. Somit kann die Masterapplikation zumindest zwei oder mehrere Ausgabemodule ansteuern. Die Ausgabemodule können über mehrere, auch unterschiedliche Schnittstellen ,z.B. über Bluetooth oder über WLAN mit dem Mobilgerät, verbunden sein. Die Verbindung zwischen den Mobilgeräten mit der Masterapplikation und mit der Clientapplikation können über die gleiche Verbindung laufen.
-
Auch sind verschiedene andere Betriebsmodi des Verfahrens wie auch der Software denkbar. So kann die Software beziehungsweise Applikation in einem einseitigen oder zweiseitigen Übersetzungsmodus arbeiten. Im einseitigen Modus wird gesprochene Sprache in eine Zielsprache übersetzt. Es kann sich dabei beispielsweise um ein Gespräch anderer Personen in einer Quellsprache handeln, um eine Rundfunksendung, eine Ton- oder Videoaufzeichnung oder ähnliches. Im zweiseitigen Modus wird ein Dialog oder auch ein Gespräch mit mehr als zwei Teilnehmern in verschiedenen Sprachen ermöglicht, indem jeweils Übersetzungen beigesteuert werden. Die beteiligten Personen können sich in jedem Fall direkt beieinander befinden oder auch über kurze oder auch weite Distanzen hinweg kommunizieren. Hier müssen dann lediglich die Übertragungswege entsprechend angepasst werden.
-
In den Figuren der Zeichnung wird ein bevorzugtes Ausführungsbeispiel der Erfindung näher beschrieben. In dieser zeigen:
- 1 Eine Skizze der prinzipiellen Funktionsweise eines erfindungsgemäßen Verfahrens,
- 2 Teil 1 eines Ablaufdiagramms eines erfindungsgemäßen Verfahrens,
- 3 Teil 2 eines Ablaufdiagramms des erfindungsgemäßen Verfahrens der 2, und
- 4 Teil 3 eines Ablaufdiagramms des erfindungsgemäßen Verfahrens der 2 und 3.
-
In der 1 ist eine prinzipielle Funktionsweise des Verfahrens im Rahmen eines entsprechenden Sprachkommunikationssystems 10 skizziert.
-
Hier sind zwei Benutzer 11 und 12 gezeigt, die miteinander kommunizieren möchten. Die beiden Benutzer 11 und 12 haben jeweils ein Mobilgerät 13 und 14 in Form je eines Smartphones.
-
Auf diesen Mobilgeräten 13 und 14 läuft jeweils eine Instanz der Übersetzungsapplikation. Auf dem Mobilgerät 13 ist diese als Masterapplikation 15 und auf dem Mobilgerät 14 als Clientapplikation 16 eingerichtet.
-
In dieses Mobilgerät 13 spricht der Benutzer 11 in seiner Sprache. Das aufgenommene Audiosignal 17 wird dann des Smartphones 13 in eine digitale Textform 18 umgesetzt. Dazu dient eine auf dem Mobilgerät 13 ablaufende Spracherkennung.
-
Die digitale Textform 18 wird dann über eine Netzwerkverbindung 19, wie hier über das Internet, an einen Übersetzungsrechner beziehungsweise Übersetzungsserver 20 übertragen. Dieser Server 20 übersetzt die als digitale Textform 18 vorliegende Sprache aus der Quellsprache in eine Textform 21 in der Zielsprache.
-
Die digitale Textform 21 wird dann wieder zurück an das Mobilgerät 13 mit der Masterapplikation 15 übertragen. Hierzu dient wieder die Netzwerkverbindung 19.
-
Diese digitale Textform 21 wird dann in diesem Fall über eine kurzreichweitige Nahfunkverbindung 22, wie hier über Bluetooth, an das zweite Mobilgerät 14 übertragen. Die dort ablaufende Clientapplikation 16 nimmt den Text 21 entgegen. Schließlich wird die Textform 21 per Sprachausgabe in ein Audiosignal 23 umgesetzt und ausgegeben.
-
Bei der Netzwerkverbindung 19 sollte sich zugunsten geringer Latenz beziehungsweise kurzer Antwortzeiten um Netzwerke mit hoher Bandbreite handeln. Latenzen von rund einer Millisekunde oder darunter werden bevorzugt. Beispielsweise kommen Bandbreiten von wenigstens hundert Mbit/s bis hin zu Gbit/s in Betracht, vorzugsweise in etwa wenigstens ein Gbit/s. Funknetze, wie insbesondere Mobilfunknetze des 5G Standards werden ebenfalls bevorzugt, da hier diese Parameter verwirklicht werden können.
-
Als Mobilgeräte 13 und 14 sollten aktuelle Geräte mit einem Herstellungsjahr jünger als 2011, also insbesondere Smartphones oder Tablets, eingesetzt werden. Diese verfügen in der Regel bereits über integrierte Spracherkennungssysteme und entsprechende Rechenleistung und sind somit für die Umsetzung von Sprache in Textform geeignet. Des Weiteren sind Mikrophone und Lautsprecher integriert beziehungsweise können auf einfache Weise per Funk oder Kabel verbunden werden. Auch sind in der Regel bereits entsprechende Funkschnittstellen für den Datenaustausch vorhanden, beispielsweise per Bluetooth oder NFC.
-
In den 2 bis 4 ist ein beispielhaftes Ablaufdiagramm für ein erfindungsgemäßes Verfahren aufgeteilt in drei Teile gezeigt. Der Ablauf ist dabei dem Ablaufdiagramm im Detail zu entnehmen.
-
In der 2 ist der erste Teil des Ablaufdiagramms eines erfindungsgemäßen Verfahrens gezeigt.
-
Zunächst startet der erste Benutzer 11 die Applikation als Instanz „BAI“ als Masterapplikation 15 auf dem Mobilgerät 13 per Sprachsteuerung durch den eingebauten Sprachassistenten. Als nächstes erfolgt eine automatische Erkennung der Zielsprache oder eine manuelle Einstellung derselben.
-
Im nächsten Schritt initiiert der Benutzer 11 eine Verbindung per Bluetooth (BT) als Nahfunkverbindung 22 mit dem zweiten Benutzer 12. Sobald der Benutzer 12 die Bluetooth-Verbindung akzeptiert, startet die Applikation als Instanz „BA2“ auf dem zweiten Mobilgerät 14. Ein Tonsignal („Beep“) kann von BA2 ausgegeben werden, um mitzuteilen, dass nun gesprochen werden kann. Auch BA1 kann ein solches Tonsignal („Beep“) ausgegeben.
-
Benutzer 11 kann nun in das erste Mobilgerät 13 sprechen. Dies kann per Headset oder direkt in das Mikrophon des Geräts 13 erfolgen. BA1 verwendet die in das Mobilgerät 13 eingebaute Spracherkennung (Speech-to-Text). Das Audiosignal 17 wird so in digitalen Text 18 umgewandelt. Es kann auf dem Display des Mobilgeräts 13 ausgegeben werden.
-
Solange das Audiosignal eine Pause von weniger als beispielsweise 300 ms aufweist, kann die Spracherkennung fortgesetzt werden.
-
In der 3 geht es nun mit dem zweiten Teil des Ablaufdiagramms weiter.
-
Ist die Pause im Audiosignal größer als beispielsweise 300 ms, wird die digitale Textform 18 an den Übersetzungsrechner 20 geschickt. Dabei kann es sich beispielsweise um die Software „DeepL“ von der DeepL GmbH handeln, einen Internetdienst für Sprachübersetzungen auf Basis von künstlicher Intelligenz (KI). Der Übersetzungsrechner 20 erledigt die Übersetzung in die Zielsprache und schickt dann den Text als digitale Textform 21 zurück an das Mobilgerät 13 mit BA1.
-
Die Software BA1 sendet Informationen zur Quellsprache und den übersetzten Text als Textform 21 an BA2 auf dem zweiten Mobilgerät 14. Es kann auf dem Display des Mobilgeräts 13 ausgegeben werden.
-
BA2 verwendet nun die in das Mobilgerät 14 eingebaute Sprachausgabe (Text-to-Speech), um ein Audiosignal 23 zu erhalten. Dieses Audiosignal 23 wird dann ausgegeben, beispielsweise per Kopfhörer oder auch durch einen eingebauten Lautsprecher des Mobilgeräts 14.
-
Sofern es sich um das Ende der Konversation handelt, kann nun der jeder der Benutzer 11, 12 die App beenden. Die beiden Instanzen BA1 und BA2 können jeweils automatisch oder manuell beendet werden.
-
Falls die Konversation fortgesetzt wird, kann zum Beispiel Benutzer 12 in das Mikrophone sprechen. Nun verwendet BA2 die Spracherkennungsfunktion (Speech-to-Text) des Mobiltelefons 14. Das Ergebnis ist wieder eine digitale Textform des Audiosignals, diesmal aber auf Mobilgerät 14. Hier kann der Text wieder auf dem Display angezeigt werden.
-
In der 4 geht es nun mit dem dritten Teil des Ablaufdiagramms weiter.
-
BA2 überträgt diese Textform nun auf das erste Mobilgerät 13 zur Instanz BA1. Diese ist in einer bevorzugten Ausführungsform der Erfindung nämlich für jeglichen Versand zum Übersetzungsrechner 20 zuständig. Sofern auch hier keine größeren Pausen von typischerweise mehr als 300 ms vorliegen, wird die Spracherkennung fortgesetzt. Falls eine Sprechpause von beispielsweise mehr als 300 ms vorliegt, erfolgt nach kompletter Spracherkennung wieder ein Versand an den Übersetzungsrechner 20 („DeepL“), allerdings immer über den Instanz BA1 in digitaler Textform.
-
Die BA1 nimmt die Übersetzung wieder entgegen und sorgt nun für eine Umsetzung in ein Audiosignal durch Sprachausgabe. Dieses Signal kann dann hörbar ausgegeben werden. zusätzlich kann noch der digitale Text auf einem Display des Mobilgeräts 13 mit BA1 ausgegeben werden.
-
Sofern nun ein Ende der Konversation erreicht ist, können wie oben beschrieben die jeweiligen Instanzen der App beendet werden. Dies kann automatisch, beispielsweise getriggert durch die jeweils andere App, oder auch manuell erfolgen. Auch kann das Beenden beispielsweise jeweils durch Sprachkommandos erfolgen.
-
Schließlich kann auf beiden Seiten jeweils die Bluetooth-Verbindung beendet werden.
-
Bezugszeichenliste
-
- 10
- Sprachkommunikationssystem
- 11
- Benutzer
- 12
- Benutzer
- 13
- Mobilgerät
- 14
- Mobilgerät
- 15
- Masterapplikation
- 16
- Clientapplikation
- 17
- Audiosignal
- 18
- digitale Textform
- 19
- Netzwerkverbindung
- 20
- Übersetzungsrechner
- 21
- digitale Textform
- 22
- Nahfunkverbindung
- 23
- Audiosignal