DE102019127983A1 - Verfahren zur Sprachkommunikation und Sprachkommunikationssystem - Google Patents

Verfahren zur Sprachkommunikation und Sprachkommunikationssystem Download PDF

Info

Publication number
DE102019127983A1
DE102019127983A1 DE102019127983.6A DE102019127983A DE102019127983A1 DE 102019127983 A1 DE102019127983 A1 DE 102019127983A1 DE 102019127983 A DE102019127983 A DE 102019127983A DE 102019127983 A1 DE102019127983 A1 DE 102019127983A1
Authority
DE
Germany
Prior art keywords
language
application
text form
computer
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102019127983.6A
Other languages
English (en)
Inventor
Jürgen Thurner
Robert Suadicani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thurner Suadicani GbR Vertretungsberechtigte Ges Juergen Thurner 71263 Weil Der Stadt Robert Suadica
Thurner Suadicani GbR Vertretungsberechtigte Gesellschafter Juergen Thurner 71263 Weil Der Stadt Robert Suadicani 85716 Unterschleissheim
Original Assignee
Thurner Suadicani GbR Vertretungsberechtigte Ges Juergen Thurner 71263 Weil Der Stadt Robert Suadica
Thurner Suadicani GbR Vertretungsberechtigte Gesellschafter Juergen Thurner 71263 Weil Der Stadt Robert Suadicani 85716 Unterschleissheim
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thurner Suadicani GbR Vertretungsberechtigte Ges Juergen Thurner 71263 Weil Der Stadt Robert Suadica, Thurner Suadicani GbR Vertretungsberechtigte Gesellschafter Juergen Thurner 71263 Weil Der Stadt Robert Suadicani 85716 Unterschleissheim filed Critical Thurner Suadicani GbR Vertretungsberechtigte Ges Juergen Thurner 71263 Weil Der Stadt Robert Suadica
Priority to DE102019127983.6A priority Critical patent/DE102019127983A1/de
Publication of DE102019127983A1 publication Critical patent/DE102019127983A1/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

Die Erfindung betrifft ein Verfahren zur Sprachkommunikation zwischen wenigstens zwei Benutzern (11, 12) eines Gesprächs unter Verwendung computergestützter Übersetzungen, vorzugsweise mittels Mobilgeräten (13, 14), wie vorzugsweise Mobiltelefonen, Tablets oder ähnlichem. Dabei wird jedem Benutzer, insbesondere jedem Mobilgerät (13, 14), des Gesprächs eine Applikationsinstanz einer Übersetzungssoftware zugeordnet, wobei ein sprachliches Audiosignal (17), insbesondere eines ersten Benutzers (11), in einer ersten Sprache beziehungsweise Quellsprache, computergestützt in Textform (18) umgewandelt wird, wobei die Textform (18) computergestützt in eine Textform (21) der zweiten Sprache beziehungsweise Zielsprache übersetzt wird, und wobei die Textform (21) der zweiten Sprache ausgegeben wird, insbesondere an einen zweiten Benutzer (12). Das Verfahren zeichnet sich dadurch aus, dass eine der Applikationsinstanzen als Masterapplikation (15) und eine oder mehrere weitere Applikationsinstanzen als Clientapplikationen (16) ausgewählt werden, wobei die Übersetzungen von einer der Textformen (18) einer Sprache in die Textform (21) einer anderen Sprache durch die Masterapplikation (15) besorgt werden. Außerdem ist ein Sprachkommunikationssystem (10) zur Sprachkommunikation zwischen wenigstens zwei Benutzern (11, 12) eines Gesprächs unter Verwendung computergestützter Übersetzungen, vorzugsweise mittels Mobilgeräten (13, 14), wie vorzugsweise Mobiltelefonen, Tablets oder ähnlichem, unter Anwendung des genannten Verfahrens beschrieben.

Description

  • Die Erfindung betrifft ein Verfahren zur Sprachkommunikation zwischen wenigstens zwei Benutzern eines Gesprächs unter Verwendung computergestützter Übersetzungen. Des Weiteren betrifft die Erfindung ein Sprachkommunikationssystem zur Sprachkommunikation zwischen wenigstens zwei Benutzern eines Gesprächs unter Verwendung computergestützter Übersetzungen.
  • Es gibt einen zunehmenden Bedarf an Möglichkeiten zur Sprachkommunikation in gesprochener Sprache zwischen Menschen unterschiedlicher sprachlicher Herkunft, da Kommunikation und gegenseitiges Verstehen in der Regel eine gemeinsame Sprache voraussetzt. Traditionell sorgen Übersetzer oder Dolmetscher für Übersetzungsdienste zwischen verschiedenen Sprachen beziehungsweise Idiomen. Eine wichtige Anwendung ist dabei die Simultan-Übersetzung, also die praktisch sofortige Übersetzung des gesprochenen Wortes durch einen Übersetzer. Schon aufgrund der nicht unerheblichen Kosten eignen sich geeignete menschliche Übersetzer nur für spezielle Anwendungsfälle. Gerade in der Alltagskommunikation sind jedoch andere Lösungen wünschenswert.
  • Aus diesem Grund gibt es erste Ansätze für computergestützte Verfahren zur Übersetzung von Sprache. Bereits digital und damit computerlesbar erfasste Sprache in Textform lässt sich schon seit längerer Zeit auf relativ einfache Weise übersetzen. Erheblich schwieriger ist dies bei gesprochener Sprache, die in Form von Audiosignalen eingelesen werden kann. Diese muss zunächst in ein computerlesbares Textformat gebracht werden. Hierzu lassen sich die Audiosignalen mittels Spracherkennung in Textform bringen. Diese Textform kann übersetzt und dann wieder als Textform ausgegeben werden, beispielsweise auf einem Bildschirm.
  • Nachteilig an den bekannten Verfahren ist insbesondere, dass mit den Audiodaten große Datenmengen zu zentralen Servern übertragen werden müssen und damit die Antwortzeiten lang wie auch die Ausgabe der Übersetzung in Textform sehr unkomfortabel sind. Außerdem besteht ein Medienbruch von gesprochener Sprache zur Ausgabe in Textform.
  • Die beanspruchte Erfindung löst diese Aufgabe. Diese besteht in einem Verfahren zur Sprachkommunikation zwischen wenigstens zwei Benutzern eines Gesprächs unter Verwendung computergestützter Übersetzungen, vorzugsweise mittels Mobilgeräten, wie vorzugsweise Mobiltelefonen, Smartphones, Tablets oder ähnlichem. Es wird jedem Benutzer, insbesondere jedem Mobilgerät, des Gesprächs eine Applikationsinstanz einer Übersetzungssoftware zugeordnet. Ein sprachliches Audiosignal, insbesondere eines ersten Benutzers, wird dazu in einer ersten Sprache beziehungsweise der Quellsprache computergestützt in Textform umgewandelt. Diese Textform wird computergestützt in eine Textform der zweiten Sprache beziehungsweise der Zielsprache übersetzt. Die Textform der zweiten Sprache wird dann ausgegeben, insbesondere an einen zweiten Benutzer. Das Verfahren zeichnet sich erfindungsgemäß dadurch aus, dass eine der Applikationsinstanzen als Masterapplikation und eine oder mehrere weitere Applikationsinstanzen als Clientapplikationen ausgewählt werden, wobei die Übersetzungen von einer der Textformen einer Sprache in die Textform einer anderen Sprache durch die Masterapplikation besorgt werden. Damit wird ein einfach zu bedienendes Verfahren zum für computergestützte Simultan-Übersetzungen bereitgestellt.
  • Vorzugsweise besorgt die Masterapplikation die Übersetzungen für alle Applikationsinstanzen eines Gesprächs. Dies bedeutet, dass lediglich die Masterapplikation die Daten für die Übersetzung bereitstellen, gegebenenfalls aufbereiten und übertragen muss. Die Masterapplikation sorgt damit für den reibungslosen Ablauf der Übersetzung.
  • Insbesondere werden die Übersetzungen durch die Masterapplikation mittels wenigstens eines speziellen externen Übersetzungsrechners, vorzugsweise eines Rechnersystems und/oder Servers, besorgt. Damit wird die eigentliche und sehr rechenintensive Übersetzungstätigkeit an externe Rechnersysteme ausgelagert. Diese können mit hinreichender Leistung für schnelle Antwortzeiten ausgestattet werden.
  • Die Textform wird an den Übersetzungsrechner übertragen wird, woraufhin vom Übersetzungsrechner eine Übersetzung in der angeforderten anderen Sprache als Textform zurückgeliefert. Der Übersetzungsrechner sorgt damit für einfach zu übertragende Daten. Als Übersetzungssoftware kann beispielsweise die Software „DeepL“ von der DeepL GmbH eingesetzt werden. Diese bietet die Leistung für die hier vorgesehenen Simultan-Übersetzungen.
  • Vorzugsweise wird mit dem Übersetzungsrechner über ein Netzwerk, insbesondere per Internet, kommuniziert. Hierzu können Kabelverbindungen und/oder Funkverbindungen dienen. Bei einem Mobilgerät wird in der Regel eine Funkschnittstelle zum Einsatz kommen, vorzugsweise ein Mobilfunknetz. Somit kann praktisch ein ortsunabhängiger Einsatz des Verfahrens sichergestellt werden.
  • Die Übersetzung wird bevorzugt mit Unterstützung von Methoden der künstlichen Intelligenz (KI) vorgenommen. Dazu dient vorzugsweise der wenigstens einen Übersetzungsrechner. Gegebenenfalls kann ein spezielles lernendes System verwendet werden. Mit KI kann eine hohe Qualität der Übersetzung erreicht werden.
  • Jede der Applikationsinstanzen kann zur Einrichtung als Masterapplikation oder als Clientapplikation vorgesehen werden. Damit besteht eine Auswahlmöglichkeit bei den Benutzern. Dies kann insbesondere vom Vorhandensein und/oder von der Qualität der Verbindung zum Übersetzungsserver abhängig gemacht werden. Gegebenenfalls kann ein Wechsel der Masterapplikation erfolgen.
  • Die wenigstens eine Clientapplikation ist mit der Masterapplikation vorzugsweise per direkte Verbindung verbunden. Hierzudient weiter vorzugsweise eine Funkschnittstelle, insbesondere eine kurzreichweitige Funkschnittstelle. Verwendet werden können weiter vorzugsweise Bluetooth, Near Field Communications (NFC) oder ähnliche. Diese und andere kurzreichweitige Verbindungen dienen zum direkten und einfachen Datenaustausch zwischen den Applikationsinstanzen beziehungsweise Mobilgeräten. Grundsätzlich kann eine Kommunikation zwischen den Applikationsinstanzen natürlich auch per Internet erfolgen. In jedem Fall können die Applikationsinstanzen miteinander Daten austauschen.
  • Nur eine der Applikationsinstanzen eines Gesprächs kann und sollte als Masterapplikation eingerichtet werden. Vorzugsweise wird bei Wegfall der als Masterapplikation eingerichteten Applikationsinstanz eine der anderen Applikationsinstanzen als neue Masterapplikation des Gesprächs eingerichtet. Dies kann eine zwingende Voraussetzung für den Betrieb sein, da die Masterapplikation für die Übersetzungen sorgt. Gegebenenfalls kann eine Auswahl einer Clientapplikation als neue Masterapplikation automatisch erfolgen. Auf diese Weise kann ein sicherer Betrieb sichergestellt werden. Dies ist insbesondere zur Sicherstellung einer unterbrechungsfreien Fortsetzung eines Gesprächs mit mehr als zwei Teilnehmern erforderlich.
  • Die Sprache, insbesondere die Quellsprache und/oder die Zielsprache, wird bevorzugt automatisch erkannt. Dies kann insbesondere nur bei einem oder einigen oder vorzugsweise sowohl bei jedem der Benutzer beziehungsweise Gesprächspartner des Gesprächs erfolgen. Damit wird eine Funktion des Verfahrens ohne die Notwendigkeit von Benutzereingriffen erreicht.
  • Alternativ oder insbesondere wird die Sprache, insbesondere die Quellsprache und/oder die Zielsprache, manuell vom Benutzer beziehungsweise Gesprächspartner manuell eingestellt. Auf diese Weise können Vorgaben gemacht werden, aber auch Fehlerkennungen der Sprache korrigiert werden.
  • In einer bevorzugten Ausführung wird die Textform der Zielsprache mittels Sprachausgabe als Audiosignal ausgegeben. Damit wird eine Anwendung ohne Medienbruch für die Benutzer von der gesprochenen Sprache der Quellsprache zu gesprochener Zielsprache erreicht. Eine direkte Kommunikation unter Zwischenschaltung des computergestützten Verfahrens wird ermöglicht.
  • Weiter vorzugsweise wird jede der Applikationsinstanzen mit Funktionen zur Umwandlung eines Audiosignals gesprochener Sprache in Textform, vorzugsweise mittels Spracherkennung, und/oder zur Umwandlung von Textform in ein Audiosignal gesprochener Sprache, vorzugsweise mittels Sprachausgabe, ausgestattet. Diese Funktionen zur Spracherkennung beziehungsweise Sprachausgabe lassen sich auf aktuellen Mobilgeräten ausführen, da diese leistungsfähig genug sind. Im Ergebnis wird damit erreicht, dass nur reine Texte übertragen werden müssen, da die Audiodaten lokal verarbeitet werden. Die Übersetzungen können auf diese Weise extern bereitgestellt werden, da lediglich in Textform umgewandelte Sprache übertragen wird. So können schnelle Übersetzungen sichergestellt werden.
  • Die eingangs geschilderte Aufgabe wird außerdem gelöst durch ein Sprachkommunikationssystem zur Sprachkommunikation zwischen wenigstens zwei Benutzern eines Gesprächs unter Verwendung computergestützter Übersetzungen. Hierbei werden vorzugsweise Mobilgeräte, wie vorzugsweise Mobiltelefonen, Tablets oder ähnliches, verwendet. Dabei ist insbesondere jedem Benutzer oder Teilnehmer des Gesprächs ein Mobilgerät zugeordnet. Das Sprachkommunikationssystem funktioniert unter Anwendung eines Verfahrens gemäß obigen Beschreibungen.
  • Es wird insbesondere auch ein Computerprogrammprodukt zur Ausführung des oben beschriebenen Verfahrens beansprucht.
  • Schließlich wird auch ein wenigstens ein Rechnersystem beinhaltend einen oder mehrere Rechner, gegebenenfalls auch ein verteiltes Rechnersystem, wie insbesondere als Cloudlösung, vorgeschlagen. Dieses dient zur insbesondere zur Ausführung des Verfahrens und/oder des entsprechenden Computerprogrammprodukts, insbesondere gemäß den jeweiligen obigen Beschreibungen.
  • Auch lassen sich weitere Kopplungen und Kombinationen denken. Beispielsweise kommt der Einsatz von Smartwatches, InEar-Geräte oder ähnlicher Peripherie in Betracht. Diese können beispielsweise als Ausgabemodule, d.h. Module, die übersetzte Texte z.B. als Audioformat ausgeben, verwendet werden. Die Mobilgeräte weisen selbst ebenfalls ein oder mehrere Ausgabemodule auf, z.B. Lautsprecher oder Klinken-Buchsen. Damit lassen sich dann in vereinfachter Weise Gespräche mit computergestützter Simultan-Übersetzung führen. Es können natürlich auch spezielle Geräte zur Umsetzung des Verfahrens entwickelt werden. Die Verwendung bekannter und weit verbreiteter Mobilgeräte, wie Smartphones oder Tablets vereinfacht lediglich die Markteinführung und reduziert die Kosten.
  • Vorzugsweise entscheidet die Masterapplikation als Weiche, auf welchem Ausgabemodul die übersetzten Texte ausgegeben werden sollen. So kann z.B. eine erste Sprache auf einem Bluetooth-Lautsprecher ausgegeben werden, welcher mit einem ersten Mobilgerät verbunden ist, und eine zweite Sprache auf einem eingebauten Lautsprecher auf einem zweiten Mobilgerät. Diese Eigenschaft der Masterapplikation wird als Weichenfunktion bezeichnet. Bei herkömmlichen Applikationen auf Mobilgeräten wird jeweils ein aktives Ausgabemodul gewählt. Typischerweise werden die Systemeinstellungen des Mobilgerätes übernommen. Ein Nutzer entscheidet, auf welchem Ausgabemodul er ein Audioausgabe ausgegeben haben möchte, z.B. über eingebaute Lautsprecher des Mobiltelefons oder über Kopfhörer. Gleichzeitige Ansteuerung mehrerer Ausgabemodule, welche zeitgleiche oder ohne Nutzerinteraktion abwechselnde Audioausgaben ermöglichen, sind so nicht möglich.
  • Durch die Weichen-Funktion der Masterapplikation kann dem Mobilgerät vorgegeben werden, welches Ausgabemodul für welche Sprache genutzt werden soll. Somit kann die Masterapplikation zumindest zwei oder mehrere Ausgabemodule ansteuern. Die Ausgabemodule können über mehrere, auch unterschiedliche Schnittstellen ,z.B. über Bluetooth oder über WLAN mit dem Mobilgerät, verbunden sein. Die Verbindung zwischen den Mobilgeräten mit der Masterapplikation und mit der Clientapplikation können über die gleiche Verbindung laufen.
  • Auch sind verschiedene andere Betriebsmodi des Verfahrens wie auch der Software denkbar. So kann die Software beziehungsweise Applikation in einem einseitigen oder zweiseitigen Übersetzungsmodus arbeiten. Im einseitigen Modus wird gesprochene Sprache in eine Zielsprache übersetzt. Es kann sich dabei beispielsweise um ein Gespräch anderer Personen in einer Quellsprache handeln, um eine Rundfunksendung, eine Ton- oder Videoaufzeichnung oder ähnliches. Im zweiseitigen Modus wird ein Dialog oder auch ein Gespräch mit mehr als zwei Teilnehmern in verschiedenen Sprachen ermöglicht, indem jeweils Übersetzungen beigesteuert werden. Die beteiligten Personen können sich in jedem Fall direkt beieinander befinden oder auch über kurze oder auch weite Distanzen hinweg kommunizieren. Hier müssen dann lediglich die Übertragungswege entsprechend angepasst werden.
  • In den Figuren der Zeichnung wird ein bevorzugtes Ausführungsbeispiel der Erfindung näher beschrieben. In dieser zeigen:
    • 1 Eine Skizze der prinzipiellen Funktionsweise eines erfindungsgemäßen Verfahrens,
    • 2 Teil 1 eines Ablaufdiagramms eines erfindungsgemäßen Verfahrens,
    • 3 Teil 2 eines Ablaufdiagramms des erfindungsgemäßen Verfahrens der 2, und
    • 4 Teil 3 eines Ablaufdiagramms des erfindungsgemäßen Verfahrens der 2 und 3.
  • In der 1 ist eine prinzipielle Funktionsweise des Verfahrens im Rahmen eines entsprechenden Sprachkommunikationssystems 10 skizziert.
  • Hier sind zwei Benutzer 11 und 12 gezeigt, die miteinander kommunizieren möchten. Die beiden Benutzer 11 und 12 haben jeweils ein Mobilgerät 13 und 14 in Form je eines Smartphones.
  • Auf diesen Mobilgeräten 13 und 14 läuft jeweils eine Instanz der Übersetzungsapplikation. Auf dem Mobilgerät 13 ist diese als Masterapplikation 15 und auf dem Mobilgerät 14 als Clientapplikation 16 eingerichtet.
  • In dieses Mobilgerät 13 spricht der Benutzer 11 in seiner Sprache. Das aufgenommene Audiosignal 17 wird dann des Smartphones 13 in eine digitale Textform 18 umgesetzt. Dazu dient eine auf dem Mobilgerät 13 ablaufende Spracherkennung.
  • Die digitale Textform 18 wird dann über eine Netzwerkverbindung 19, wie hier über das Internet, an einen Übersetzungsrechner beziehungsweise Übersetzungsserver 20 übertragen. Dieser Server 20 übersetzt die als digitale Textform 18 vorliegende Sprache aus der Quellsprache in eine Textform 21 in der Zielsprache.
  • Die digitale Textform 21 wird dann wieder zurück an das Mobilgerät 13 mit der Masterapplikation 15 übertragen. Hierzu dient wieder die Netzwerkverbindung 19.
  • Diese digitale Textform 21 wird dann in diesem Fall über eine kurzreichweitige Nahfunkverbindung 22, wie hier über Bluetooth, an das zweite Mobilgerät 14 übertragen. Die dort ablaufende Clientapplikation 16 nimmt den Text 21 entgegen. Schließlich wird die Textform 21 per Sprachausgabe in ein Audiosignal 23 umgesetzt und ausgegeben.
  • Bei der Netzwerkverbindung 19 sollte sich zugunsten geringer Latenz beziehungsweise kurzer Antwortzeiten um Netzwerke mit hoher Bandbreite handeln. Latenzen von rund einer Millisekunde oder darunter werden bevorzugt. Beispielsweise kommen Bandbreiten von wenigstens hundert Mbit/s bis hin zu Gbit/s in Betracht, vorzugsweise in etwa wenigstens ein Gbit/s. Funknetze, wie insbesondere Mobilfunknetze des 5G Standards werden ebenfalls bevorzugt, da hier diese Parameter verwirklicht werden können.
  • Als Mobilgeräte 13 und 14 sollten aktuelle Geräte mit einem Herstellungsjahr jünger als 2011, also insbesondere Smartphones oder Tablets, eingesetzt werden. Diese verfügen in der Regel bereits über integrierte Spracherkennungssysteme und entsprechende Rechenleistung und sind somit für die Umsetzung von Sprache in Textform geeignet. Des Weiteren sind Mikrophone und Lautsprecher integriert beziehungsweise können auf einfache Weise per Funk oder Kabel verbunden werden. Auch sind in der Regel bereits entsprechende Funkschnittstellen für den Datenaustausch vorhanden, beispielsweise per Bluetooth oder NFC.
  • In den 2 bis 4 ist ein beispielhaftes Ablaufdiagramm für ein erfindungsgemäßes Verfahren aufgeteilt in drei Teile gezeigt. Der Ablauf ist dabei dem Ablaufdiagramm im Detail zu entnehmen.
  • In der 2 ist der erste Teil des Ablaufdiagramms eines erfindungsgemäßen Verfahrens gezeigt.
  • Zunächst startet der erste Benutzer 11 die Applikation als Instanz „BAI“ als Masterapplikation 15 auf dem Mobilgerät 13 per Sprachsteuerung durch den eingebauten Sprachassistenten. Als nächstes erfolgt eine automatische Erkennung der Zielsprache oder eine manuelle Einstellung derselben.
  • Im nächsten Schritt initiiert der Benutzer 11 eine Verbindung per Bluetooth (BT) als Nahfunkverbindung 22 mit dem zweiten Benutzer 12. Sobald der Benutzer 12 die Bluetooth-Verbindung akzeptiert, startet die Applikation als Instanz „BA2“ auf dem zweiten Mobilgerät 14. Ein Tonsignal („Beep“) kann von BA2 ausgegeben werden, um mitzuteilen, dass nun gesprochen werden kann. Auch BA1 kann ein solches Tonsignal („Beep“) ausgegeben.
  • Benutzer 11 kann nun in das erste Mobilgerät 13 sprechen. Dies kann per Headset oder direkt in das Mikrophon des Geräts 13 erfolgen. BA1 verwendet die in das Mobilgerät 13 eingebaute Spracherkennung (Speech-to-Text). Das Audiosignal 17 wird so in digitalen Text 18 umgewandelt. Es kann auf dem Display des Mobilgeräts 13 ausgegeben werden.
  • Solange das Audiosignal eine Pause von weniger als beispielsweise 300 ms aufweist, kann die Spracherkennung fortgesetzt werden.
  • In der 3 geht es nun mit dem zweiten Teil des Ablaufdiagramms weiter.
  • Ist die Pause im Audiosignal größer als beispielsweise 300 ms, wird die digitale Textform 18 an den Übersetzungsrechner 20 geschickt. Dabei kann es sich beispielsweise um die Software „DeepL“ von der DeepL GmbH handeln, einen Internetdienst für Sprachübersetzungen auf Basis von künstlicher Intelligenz (KI). Der Übersetzungsrechner 20 erledigt die Übersetzung in die Zielsprache und schickt dann den Text als digitale Textform 21 zurück an das Mobilgerät 13 mit BA1.
  • Die Software BA1 sendet Informationen zur Quellsprache und den übersetzten Text als Textform 21 an BA2 auf dem zweiten Mobilgerät 14. Es kann auf dem Display des Mobilgeräts 13 ausgegeben werden.
  • BA2 verwendet nun die in das Mobilgerät 14 eingebaute Sprachausgabe (Text-to-Speech), um ein Audiosignal 23 zu erhalten. Dieses Audiosignal 23 wird dann ausgegeben, beispielsweise per Kopfhörer oder auch durch einen eingebauten Lautsprecher des Mobilgeräts 14.
  • Sofern es sich um das Ende der Konversation handelt, kann nun der jeder der Benutzer 11, 12 die App beenden. Die beiden Instanzen BA1 und BA2 können jeweils automatisch oder manuell beendet werden.
  • Falls die Konversation fortgesetzt wird, kann zum Beispiel Benutzer 12 in das Mikrophone sprechen. Nun verwendet BA2 die Spracherkennungsfunktion (Speech-to-Text) des Mobiltelefons 14. Das Ergebnis ist wieder eine digitale Textform des Audiosignals, diesmal aber auf Mobilgerät 14. Hier kann der Text wieder auf dem Display angezeigt werden.
  • In der 4 geht es nun mit dem dritten Teil des Ablaufdiagramms weiter.
  • BA2 überträgt diese Textform nun auf das erste Mobilgerät 13 zur Instanz BA1. Diese ist in einer bevorzugten Ausführungsform der Erfindung nämlich für jeglichen Versand zum Übersetzungsrechner 20 zuständig. Sofern auch hier keine größeren Pausen von typischerweise mehr als 300 ms vorliegen, wird die Spracherkennung fortgesetzt. Falls eine Sprechpause von beispielsweise mehr als 300 ms vorliegt, erfolgt nach kompletter Spracherkennung wieder ein Versand an den Übersetzungsrechner 20 („DeepL“), allerdings immer über den Instanz BA1 in digitaler Textform.
  • Die BA1 nimmt die Übersetzung wieder entgegen und sorgt nun für eine Umsetzung in ein Audiosignal durch Sprachausgabe. Dieses Signal kann dann hörbar ausgegeben werden. zusätzlich kann noch der digitale Text auf einem Display des Mobilgeräts 13 mit BA1 ausgegeben werden.
  • Sofern nun ein Ende der Konversation erreicht ist, können wie oben beschrieben die jeweiligen Instanzen der App beendet werden. Dies kann automatisch, beispielsweise getriggert durch die jeweils andere App, oder auch manuell erfolgen. Auch kann das Beenden beispielsweise jeweils durch Sprachkommandos erfolgen.
  • Schließlich kann auf beiden Seiten jeweils die Bluetooth-Verbindung beendet werden.
  • Bezugszeichenliste
  • 10
    Sprachkommunikationssystem
    11
    Benutzer
    12
    Benutzer
    13
    Mobilgerät
    14
    Mobilgerät
    15
    Masterapplikation
    16
    Clientapplikation
    17
    Audiosignal
    18
    digitale Textform
    19
    Netzwerkverbindung
    20
    Übersetzungsrechner
    21
    digitale Textform
    22
    Nahfunkverbindung
    23
    Audiosignal

Claims (14)

  1. Verfahren zur Sprachkommunikation zwischen wenigstens zwei Benutzern (11, 12) eines Gesprächs unter Verwendung computergestützter Übersetzungen, vorzugsweise mittels Mobilgeräten (13, 14), wie vorzugsweise Mobiltelefonen, Tablets oder ähnlichem, wobei jedem Benutzer, insbesondere jedem Mobilgerät (13, 14), des Gesprächs eine Applikationsinstanz einer Übersetzungssoftware zugeordnet wird, wobei ein sprachliches Audiosignal (17), insbesondere eines ersten Benutzers (11), in einer ersten Sprache beziehungsweise Quellsprache, computergestützt in Textform (18) umgewandelt wird, wobei die Textform (18) computergestützt in eine Textform (21) der zweiten Sprache beziehungsweise Zielsprache übersetzt wird, und wobei die Textform (21) der zweiten Sprache ausgegeben wird, insbesondere an einen zweiten Benutzer (12), dadurch gekennzeichnet, dass eine der Applikationsinstanzen als Masterapplikation (15) und eine oder mehrere weitere Applikationsinstanzen als Clientapplikationen (16) ausgewählt werden, wobei die Übersetzungen von einer der Textformen (18) einer Sprache in die Textform (21) einer anderen Sprache durch die Masterapplikation (15) besorgt werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Masterapplikation (15) die Übersetzungen für alle Applikationsinstanzen eines Gesprächs besorgt.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Übersetzungen durch die Masterapplikation (15) mittels wenigstens eines speziellen externen Übersetzungsrechners (20), vorzugsweise eines Rechnersystems und/oder Servers, besorgt werden.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Textform an den Übersetzungsrechner (20) übertragen wird, woraufhin vom Übersetzungsrechner (20) eine Übersetzung in der angeforderten anderen Sprache als Textform (21) zurückgeliefert wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Übersetzung mit Unterstützung von Methoden der künstlichen Intelligenz (KI) vorgenommen wird, vorzugsweise mittels des Übersetzungsrechners (20).
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mit dem Übersetzungsrechner (20) über ein Netzwerk (19), insbesondere per Internet, kommuniziert wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass jede der Applikationsinstanzen zur Einrichtung als Masterapplikation (15) oder als Clientapplikation (16) vorgesehen beziehungsweise eingerichtet werden kann.
  8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die wenigstens eine Clientapplikation (16) mit der Masterapplikation (15) per direkter Verbindung, vorzugsweise per Funkschnittstelle verbunden ist, insbesondere per kurzreichweitiger Funkschnittstelle (22), weiter vorzugsweise per Bluetooth, Near Field Communications (NFC) oder ähnlichem.
  9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass nur eine der Applikationsinstanzen eines Gesprächs als Masterapplikation (15) eingerichtet werden kann, wobei vorzugsweise bei Wegfall der als Masterapplikation (15) eingerichteten Applikationsinstanz eine der anderen Applikationsinstanzen als neue Masterapplikation (15) des Gesprächs eingerichtet wird.
  10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Sprache, insbesondere die Quellsprache und/oder die Zielsprache, automatisch erkannt wird, vorzugsweise bei jedem der Benutzer (11, 12) beziehungsweise Gesprächspartner des Gesprächs.
  11. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass die Sprache, insbesondere die Quellsprache und/oder die Zielsprache, manuell vom Benutzer (11, 12) beziehungsweise Gesprächspartner manuell eingestellt wird.
  12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Textform (21) der Zielsprache mittels Sprachausgabe als Audiosignal (23) ausgegeben wird.
  13. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass jede der Applikationsinstanzen mit Funktionen zur Umwandlung eines Audiosignals (17) gesprochener Sprache in Textform (18) mittels Spracherkennung und/oder zur Umwandlung von Textform (21) in ein Audiosignal (23) gesprochener Sprache mittels Sprachausgabe ausgestattet wird.
  14. Sprachkommunikationssystem zur Sprachkommunikation zwischen wenigstens zwei Benutzern (11, 12) eines Gesprächs unter Verwendung computergestützter Übersetzungen, vorzugsweise mittels Mobilgeräten (13, 14), wie vorzugsweise Mobiltelefonen, Tablets oder ähnlichem, unter Anwendung eines Verfahrens nach einem der vorhergehenden Ansprüche.
DE102019127983.6A 2019-10-16 2019-10-16 Verfahren zur Sprachkommunikation und Sprachkommunikationssystem Ceased DE102019127983A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102019127983.6A DE102019127983A1 (de) 2019-10-16 2019-10-16 Verfahren zur Sprachkommunikation und Sprachkommunikationssystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019127983.6A DE102019127983A1 (de) 2019-10-16 2019-10-16 Verfahren zur Sprachkommunikation und Sprachkommunikationssystem

Publications (1)

Publication Number Publication Date
DE102019127983A1 true DE102019127983A1 (de) 2021-04-22

Family

ID=75269061

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019127983.6A Ceased DE102019127983A1 (de) 2019-10-16 2019-10-16 Verfahren zur Sprachkommunikation und Sprachkommunikationssystem

Country Status (1)

Country Link
DE (1) DE102019127983A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185434A1 (en) * 2009-01-16 2010-07-22 Sony Ericsson Mobile Communications Ab Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185434A1 (en) * 2009-01-16 2010-07-22 Sony Ericsson Mobile Communications Ab Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANSARI, MD Faizullah, et al. Multilingual speech to speech translation system in bluetooth environment. In: 2014 International Conference on Control, Instrumentation, Communication and Computational Technologies (ICCICCT). IEEE, S. 1055-1058. - DOI: 10.1109/ICCICCT.2014.6993116 *
YUN, Seung; LEE, Young-Jik; KIM, Sang-Hun. Multilingual speech-to-speech translation system for mobile consumer devices. IEEE Transactions on Consumer Electronics, 2014, 60. Jg., Nr. 3, S. 508-516. - DOI: 10.1109/TCE.2014.6937337 *

Similar Documents

Publication Publication Date Title
DE69937962T2 (de) Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten
DE102016102341B4 (de) System und Verfahren zum themenbezogenen Trennen bei Instant Messaging
DE102021204829A1 (de) Automatische korrektur fehlerhafter audioeinstellungen
DE10251113A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE112015006800T5 (de) Verfahren und Kopfhörersatz zur Verbesserung einer Tonqualität
EP2047668B1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
DE10013387A1 (de) Vorrichtung und Verfahren zum Zuführen von Klingel- und Sprachanrufen über eine Arbeitsstation
EP1248251A2 (de) Verfahren und System zur automatischen Umsetzung von Textnachrichten in Sprachnachrichten
DE102019208742B4 (de) Sprachübersetzungssystem zum Bereitstellen einer Übersetzung eines Spracheingabesignals eines Sprechers in ein anderssprachiges Sprachausgabesignal für einen Hörer sowie Übersetzungsverfahren für ein derartiges Sprachübersetzungssystem
EP2047632B1 (de) Verfahren zum durchführen einer sprachkonferenz und sprachkonferenzsystem
DE102019127983A1 (de) Verfahren zur Sprachkommunikation und Sprachkommunikationssystem
EP2345245B1 (de) Verfahren und anordnung zum anbinden zumindest einer mensch-maschine-schnittstelle zur manipulation von zumindest einer im rahmen von videokonferenzen mit einem videokonferenzsystem verbundenen datenquelle
DE10118125A1 (de) Automatisches Auskunftssystem
EP2156654B1 (de) Mobile telekommunikationseinrichtung zum übertragen und übersetzen von informationen
EP4013043A1 (de) Videokonferenzsystem, verfahren zum übertragen von informationen und computerprogrammprodukt
DE102008046431A1 (de) Sprachdialogsystem mit Reject-Vermeidungsverfahren
DE602004004824T2 (de) Automatische Behandlung von Konversationsgruppen
EP3384689B1 (de) System zur ausgabe von audio-signalen sowie zugehöriges verfahren und einstellvorrichtung
EP0856976A2 (de) Kommunikationssystem für Hörbehinderte, Telefon und Verfahren zum Telefonieren mit einem derartigen Kommunikationssystem
WO2014023308A1 (de) Verfahren und system zum bereitstellen einer übersetzung eines sprachinhalts aus einem ersten audiosignal
DE10340104B4 (de) Verfahren und System zur effizienten Übertragung der Leistung bei der Beschallung von Räumen
DE10348149B4 (de) Verfahren zur Durchführung einer Telefonkonferenz
DE102017108017A1 (de) Verfahren zum Führen einer Audio- und/oder Videokonferenz
DE102019135799A1 (de) Verfahren zum Verbessern von Sprachverständlichkeit einer elektronischen Sprechverbindung und Headset zur Durchführung des Verfahrens
DE102021130318A1 (de) System, Benutzerendgerät und Verfahren zum Bereitstellen eines automatischen Interpretationsdienstes auf der Grundlage einer Sprechertrennung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: HGF EUROPE LLP, DE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017280000

Ipc: G06F0040400000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0040400000

Ipc: G06F0040580000

R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final