DE102019135799A1

DE102019135799A1 - Verfahren zum Verbessern von Sprachverständlichkeit einer elektronischen Sprechverbindung und Headset zur Durchführung des Verfahrens

Info

Publication number: DE102019135799A1
Application number: DE102019135799.3A
Authority: DE
Inventors: André Michaelis
Original assignee: Sennheiser Electronic GmbH and Co KG
Current assignee: Sennheiser Electronic GmbH and Co KG
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2021-07-01

Abstract

Wenn ein Telefongespräch in einer lauten Umgebung geführt wird, wäre es wünschenswert, Umgebungsgeräusche aus dem Sprechsignal zu entfernen. Ein Verfahren zum Verbessern der Sprachverständlichkeit einer elektronischen Sprechverbindung umfasst das Melden (110) unzureichender Sprachverständlichkeit eines ersten Teilnehmers (S1), daraufhin automatische Extraktion (130) von gesprochenem Text (ET1) aus dem Sprechsignal (A1) des ersten Teilnehmers, Synthetisieren (140) von synthetischem gesprochenen Text (ST1) aus dem extrahierten Text mittels Sprachsynthese, und Ausgabe (150) des synthetischen gesprochenen Textes (ST1) an einen zweiten Teilnehmer (S2). Dazu kann der erste Teilnehmer ein Headset (H) verwenden, das ein erstes Mikrofon (M1) zur Aufnahme von Sprache über Luftschall sowie ein Ohrpassstück (OP) oder eine Ohrmuschel (OM) mit einem Lautsprecher (L1) und einem zweiten Mikrofon (M2) enthält. Das Signal (SA1) des zweiten Mikrofons (M2) kann gut zur Extraktion von Text und zur Synthese genutzt werden, weil es beim Tragen des Headsets vor Umgebungsschall geschützt und mit einem Gehörgang des Nutzers verbundenen ist.

Description

Die Erfindung betrifft ein Verfahren zum Verbessern von Sprachverständlichkeit einer elektronischen Sprechverbindung und ein Headset zum Verbessern von Sprachverständlichkeit einer elektronischen Sprechverbindung.
Hintergrund
Hör-/Sprechgarnituren (Headsets) enthalten üblicherweise mindestens einen Wandler zur Schallwiedergabe sowie mindestens ein Mikrofon, um die Stimme eines Nutzers aufzunehmen. Sie sind vorteilhaft für Sprechverbindungen wie etwa Telefonate einsetzbar, weil der Nutzer die Hände frei hat und die Stimme des Gesprächspartners gut hören kann, während in der Nähe befindliche andere Personen diese nicht hören können. Der Wiedergabewandler befindet sich in der Nähe eines Ohres und das Mikrofon ist oft an einem Mikrofonarm angebracht, damit es in die Nähe des Mundes des Nutzers geschwenkt werden kann. Ein Problem ist jedoch, dass das Mikrofon immer auch Störschall wie etwa Umgebungsgeräusche aufnimmt. Verschiedene Ansätze zur Lösung dieses Problems sind bekannt, z.B. Filterung des Signals oder die Nutzung von Kehlkopf- oder Knochenschallmikrofonen, die den Schall direkt am Körper des Sprechers aufnehmen. Deren Signal enthält dadurch deutlich weniger Umgebungsschall. Wenn sich der Sprecher jedoch in einer sehr lauten Umgebung befindet, kann auch dieses Signal gestört sein. Es wäre vorteilhaft, wenn die Umgebungsgeräusche möglichst vollständig aus dem Sprechsignal entfernt werden könnten. Dazu ist jedoch bisher keine Lösung bekannt.
Zusammenfassung der Erfindung
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren gemäß Anspruch 1 gelöst. Der Anspruch 9 betrifft ein Headset, das für die Durchführung des Verfahrens benutzt werden kann.
Gemäß der vorliegenden Erfindung wird die Stimme des Nutzers, d.h. das Sprechsignal, automatisch aus dem Mikrofonsignal oder den Mikrofonsignalen extrahiert, um dann einer Sprachsynthese zugeführt zu werden. Das synthetisierte Sprechsignal wird dann an den Gesprächspartner übertragen. Da dieses Signal keine direkten Anteile mehr aus dem ursprünglichen Mikrofonsignal zu enthalten braucht, kann es frei von Umgebungsgeräuschen sein. Es ist in einer Ausführungsform auch möglich, das synthetisierte Sprechsignal mit dem ursprünglich aufgenommenen Mikrofonsignal zu mischen, z.B. wenn Umgebungsgeräusche im Hintergrund erwünscht sind. Das Mischungsverhältnis kann einstellbar sein. So kann trotz Hintergrundgeräuschen die Verständlichkeit der Sprache verbessert werden.
Gemäß einem Aspekt der Erfindung kann der Nutzer dazu besonders vorteilhaft ein Headset verwenden, das mindestens zwei Mikrofone enthält, nämlich ein erstes Mikrofon zur Aufnahme von Luftschall und ein zweites Mikrofon, das die durch Knochenschall übertragene Stimme des Nutzers aufnehmen kann. Das zweite Mikrofon kann den Körper des Nutzers direkt berühren, z.B. am Schädelknochen oder am Kehlkopf, oder es kann auf andere Weise vor Umgebungsgeräuschen geschützt sein, z.B. indem es sich im Innern einer Ohrmuschel eines Kopfhörers oder an der Innenseite eines Ohrhörers befindet. Es kann auch im Gehörgang angeordnet sein und diesen berühren, um dort Knochenschall aufzunehmen. Da das vom zweiten Mikrofon aufgenommene Signal weniger Umgebungsgeräusche enthält, kann aus diesem dann der gesprochene Text besser extrahiert und einer Sprachsynthese zugeführt werden. Je nach Art der Umgebungsgeräusche kann es auch vorteilhaft sein, wenn die Sprachsynthese zusätzlich auch Signale des ersten Mikrofons nutzen kann, weil dieses üblicherweise mehr höherfrequente Anteile des Sprechsignals enthält als das Signal des zweiten Mikrofons, sodass die höheren Frequenzen aus dem Signal des ersten Mikrofons zusammen mit dem weniger gestörten, aber bei höheren Frequenzen beschränkten Signal des zweiten Mikrofons eine bessere Erkennbarkeit des gesprochenen Textes ermöglichen.
Die Extraktion und die Sprachsynthese können im Headset, in einem damit verbundenen externen elektronischen Kommunikationsgerät oder an einer anderen Stelle zwischen den beiden Gesprächsteilnehmern erfolgen. Daher ist es vorteilhaft, wenn das Headset verschiedene Betriebsarten aufweist, in denen es die verschiedenen Signale ausgeben kann.
Z.B. können die Signale der beiden Mikrofone separat in jeweils einer Betriebsart ausgegeben werden, oder es kann in einer Betriebsart ein Original-Mikrofonsignal und in einer anderen Betriebsart ein verarbeitetes Mikrofonsignal bzw. ein synthetisches Sprechsignal ausgegeben werden. In einer Ausführungsform kann die jeweilige Betriebsart durch den Nutzerdirekt am Headset oder an einem damit verbundenen externen elektronischen Kommunikationsgerät, z.B. einem Smartphone, gewählt werden. In einer Ausführungsform kann ein Wechsel der Betriebsart auch von der Gegenseite, z.B. einem Gesprächspartner oder einem virtuellen Assistenten, oder von einer zwischen den Gesprächsteilnehmern befindlichen Zwischenstation angefordert, veranlasst oder gesteuert werden.
Der Anspruch 8 betrifft einen computer-lesbaren Datenträger mit darauf gespeicherten Instruktionen, die geeignet sind, einen Computer oder Prozessor zur Ausführung der Schritte des Verfahrens zu programmieren. Weitere vorteilhafte Ausführungsformen werden in den Ansprüchen 2-7 und 10-15 beschrieben.
Figurenliste
Weitere Einzelheiten und vorteilhafte Ausführungsformen sind in den Zeichnungen dargestellt. Darin zeigt

1 einen Überblick über eine Sprechverbindung mit verbesserter Sprachverständlichkeit in einem Kommunikationssystem;
2 ein Flussdiagram eines erfindungsgemäßen Verfahrens;
3 ein Blockschaltbild eines erfindungsgemäßen Headsets;
4 ein erfindungsgemäßes Headset in einer Ausführungsform und ein damit verbundenes externes Kommunikationsgerät; und
5 ein erfindungsgemäßes Headset in einer anderen Ausführungsform.

Detaillierte Beschreibung der Erfindung
Ein wichtiger Aspekt der Erfindung beruht auf der Erkenntnis, dass eine automatisierte Auswertung eines gestörten Sprachsignals häufig mehr verstandene Anteile aus dem Signal herausziehen kann als ein Mensch, der das gestörte Sprachsignal abhört. Durch anschließende Erzeugung eines synthetischen Sprachsignals aus dem verstandenen Text lässt sich ein vollkommen ungestörtes Sprachsignal gewinnen. Durch Auswertung von Signalen von Luftschall und von am Körper des Sprechers erfasstem Körperschall kann die Menge der verstandenen Anteile bei der automatisierten Auswertung noch weiter erhöht werden.
1 zeigt einen Überblick über eine elektronische Sprechverbindung mit verbesserter Sprachverständlichkeit in einem Kommunikationssystem K. Dabei besteht die Sprechverbindung zwischen einem ersten Teilnehmer an einer ersten Sprechstelle S1 und einem zweiten Teilnehmer an einer zweiten Sprechstelle S2. Die Sprechstellen S1,S2 können z.B. (Mobil-)Telefone sein. Wenn z.B. ein Sprechsignal A1 des ersten Teilnehmers durch Störgeräusche gestört ist, stellt der zweite Teilnehmer dies fest und meldet die Störung z.B. über sein Telefon an eine Kontrolleinheit 1160. Die Kontrolleinheit 1160 schaltet einen Umschalter SW1,SW2 so um, dass das Sprechsignal A1 des ersten Teilnehmers nun durch eine Extraktionseinheit 1130 läuft, wobei es analysiert und der gesprochene Text automatisch extrahiert wird. Die Analyse kann im Wesentlichen eine Unterscheidung des Sprachsignals von Hintergrundgeräuschen umfassen. Der extrahierte Text ET1 wird einer Sprachsyntheseeinheit 1140 zugeführt, die daraus synthetischen gesprochenen Text ST1 erzeugt. Dieser ist frei von Umgebungsgeräuschen und daher sehr gut verständlich. Der synthetische gesprochene Text ST1 wird nun an den zweiten Teilnehmer übertragen.
Ein Vorteil der Nutzung der automatischen Extraktionseinheit 1130 besteht darin, dass sie auf den jeweiligen Nutzer an der ersten Sprechstelle S1 trainiert bzw. optimiert sein kann und so in der Regel das Sprechsignal besser verstehen kann als es der zweite Teilnehmer könnte. Die anschließende Sprachsynthese erleichtert es dem zweiten Teilnehmer, das Sprechsignal zu verstehen. Ein weiterer Vorteil der automatischen Extraktionseinheit 1130 besteht darin, dass sie auch ein Sprechsignal verarbeiten kann, das zwar gut verständlich ist, aber ungewohnt klingt. Dies trifft z.B. auf ein alternatives Sprechsignal SA1 zu, das von einem anderen Mikrofon, z.B. einem Knochenschallmikrofon, beim ersten Teilnehmer aufgenommen wurde. Allgemein kann das Sprechsignal A1, das alternative Sprechsignal SA1 oder beide gemeinsam zur Extraktion des gesprochenen Texts genutzt werden.
Ein besonderes Merkmal der Extraktion und der anschließenden Sprachsynthese besteht darin, dass der Sinngehalt des Sprechsignals nicht analysiert werden muss und daher keine grammatische Verarbeitung notwendig ist. Anders als etwa bei einer automatischen Übersetzung ist es nicht nötig, Sätze im Sprechsignal zu erkennen. Daher reicht es aus, einzelne Worte, Silben oder Phoneme bzw. Laute zu extrahieren und diese zu synthetisieren, bevor das Satzende erreicht ist. Für eine automatische Übersetzung ist es dagegen erforderlich, das Ende des Satzes abzuwarten, um den Sinngehalt zu erkennen. Auch für Text-to-Speech (TTS) muss der Satz analysiert werden, um eine natürlich klingende Satzmelodie zu erhalten. Die erfindungsgemäße Sprachsynthese kann jedoch wesentlich schneller erfolgen als bei einer automatischen Übersetzung oder TTS, z.B. schon nach Bruchteilen einer Sekunde. Dies hat den Vorteil, dass praktisch keine Verzögerung entsteht, so dass im Prinzip eine nahtlose Umschaltung zwischen der natürlichen Stimme und der synthetischen Stimme im Gespräch möglich ist. Ein weiterer Vorteil ist, dass die Extraktion und Sprachsynthese im Prinzip unabhängig von der Sprache des Sprechers sind. Dazu müssen die extrahierten Worte, Silben oder Phoneme von der Extraktionseinheit 1130 hinreichend genau im extrahierten Text ET1 wiedergegeben werden, so dass sie entsprechend von der Sprachsyntheseeinheit 1140 in Sprachlaute umgesetzt werden können.
Die synthetische Sprache kann entweder neutral klingen oder sich im Klang an das originale Sprechsignal anlehnen. Im zweiten Fall kann die Sprachmelodie, d.h. Intonation, und/oder die Satzmelodie, d.h. der Tonhöhenverlauf innerhalb des gesprochenen Satzes, analysiert und für die synthetische Sprache einfach beibehalten werden. Dabei können sprachliche Besonderheiten des Sprechers erhalten bleiben, was das synthetische Sprechsignal natürlicher klingen lassen und dessen Akzeptanz erhöhen kann. Optional kann ein entsprechendes Signal SM1 zur Sprachmelodie oder Tonhöhe von einer Sprachmelodieeinheit, die z.B. Teil der automatischen Extraktionseinheit 1130 sein kann, detektiert und an die Sprachsyntheseeinheit 1140 übergeben werden. Auch in diesem Fall sind die Extraktion und die Sprachsynthese im Prinzip unabhängig von der verwendeten Sprache und eine grammatische Analyse ist nicht unbedingt nötig.
Trotzdem kann es vorteilhaft sein, eine einfache grammatische Analyse durchzuführen, z.B. Wort- oder Satzanalyse, um Zweifelsfälle zu klären. Diese braucht jedoch nicht so vollständig und tiefgreifend zu sein wie bei einer automatischen Übersetzung. In einer Ausführungsform kann die Extraktionseinheit eine Rückmeldung an den Sprecher geben, z.B. eine Rückfrage stellen, um Zweifelsfälle zu klären. Wenn z.B. ein undeutliches Wort im Sprechsignal A1,SA1 erkannt wird, kann diese zunächst nach dem Prinzip der höchsten Wahrscheinlichkeit, d.h. so ähnlich wie möglich, von der Extraktionseinheit 1130 in Text umgesetzt und von der Sprachsyntheseeinheit 1140 artikuliert werden, während optional der Sprecher per Rückmeldung automatisch aufgefordert wird, das Wort zu wiederholen.
2 zeigt ein Flussdiagram eines erfindungsgemäßen Verfahrens in einer Ausführungsform. Es ist ein automatisch ausgeführtes Verfahren 100 zum Verbessern von Sprachverständlichkeit einer elektronischen Sprechverbindung zwischen einem ersten Teilnehmer an einer ersten Sprechstelle S1 und einem zweiten Teilnehmer an einer zweiten Sprechstelle S2, wobei ein Sprechsignal A1 des ersten Teilnehmers durch Störgeräusche gestört ist. Das Verfahren 100 wird während der bestehenden Sprechverbindung in Echtzeit oder Quasi-Echtzeit durchgeführt und umfasst die folgenden Schritte. Zuerst wird vom zweiten Teilnehmer eine unzureichende Sprachverständlichkeit des ersten Teilnehmers gemeldet 110. Auf die Meldung hin wird automatisch in eine Betriebsart geschaltet, in der eine Extraktionseinheit 1130 automatisch gesprochenen Text ET1 aus dem Sprechsignal A1 des ersten Teilnehmers extrahiert 130. Aus dem gesprochenen Text ET1 des ersten Teilnehmers wird in einer Sprachsyntheseeinheit 1140 mit einer synthetischen Stimme Sprache synthetisiert 140, um synthetischen gesprochenen Text ST1 zu erhalten. Für die Synthese kann optional die Sprachmelodie des Sprechsignals A1,SA1 analysiert und übernommen werden, wie oben beschrieben. Außerdem kann die Synthese mit der Stimme des ersten Teilnehmers erfolgen, wenn die Sprachsyntheseeinheit 1140 vorher entsprechend trainiert oder programmiert wurde (z.B. auf entsprechende Datensätze zugreifen kann). Der synthetische gesprochene Text ST1 wird an den zweiten Teilnehmer ausgegeben 150. Dieser kann ein menschlicher Teilnehmer sein, aber auch ein Computer, wie z.B. ein automatisches Bestellsystem.
Der extrahierte gesprochene Text ET1 kann aus Worten, Lauten oder Phonemen bestehen. Phoneme sind die einzelnen Laute einer gesprochenen Sprache, die sich zwar bei verschiedenen Sprechern leicht voneinander unterscheiden können, aber trotzdem innerhalb der Sprache als identisch oder äquivalent angesehen werden können. Daher werden Phoneme auch als Klassen von Lauten bezeichnet. Der extrahierte gesprochene Text ET1 ist ein elektronisches Signal und enthält Symbole der extrahierten Worte, Laute oder Phoneme. Dies können zumindest teilweise die klassischen Buchstaben sein, aber auch weitere Symbole, die geeignet sind, die Sprachsyntheseeinheit 1140 zu steuern.
Vorteilhafterweise kann ein Wort, ein Laut oder ein Phonem des extrahierten gesprochenen Textes ET1 unmittelbar nach dessen Extraktion 130 synthetisiert werden, ohne ein Satzende abzuwarten. Dieses braucht daher auch nicht detektiert zu werden.
Die automatische Extraktion 130 und/oder die Synthese 140 des synthetischen gesprochenen Textes ST1 kann in einer Variante an einer Zwischenstation N zwischen der ersten und der zweiten Sprechstelle durchgeführt werden, z.B. innerhalb des benutzten Kommunikationsnetzwerks. Dies hat den Vorteil, dass z.B. ein Dienstleister eine qualitativ hochwertige automatische Extraktion und/oder Synthese zur Verfügung stellen kann. In einer anderen Variante kann die automatische Extraktion 130 und/oder die Synthese 140 des synthetischen gesprochenen Textes ST1 an der ersten Sprechstelle S1 durchgeführt werden. Dies kann besonders sinnvoll sein, wenn bekannt oder zu erwarten ist, dass das Problem der schlechten Sprachverständlichkeit an der ersten Sprechstelle S1 oft auftritt.
Die erste Sprechstelle S1 kann besonders dazu ausgebildet sein, eine verbesserte Sprachverständlichkeit zu ermöglichen, z.B. indem sie ein erstes Mikrofon M1 und ein zweites Mikrofon M2 aufweist. Das erste Mikrofon M1 liefert ein erstes Sprechsignal A1, und das zweite Mikrofon M2 kann ein alternatives Sprechsignal SA1 liefern. Das zweite Mikrofon M2 unterscheidet sich von dem ersten Mikrofon M1 mindestens dadurch, dass es weniger Umgebungsschall aufnimmt und damit weniger empfindlich für Störgeräusche aus der Umgebung ist. Das kann z.B. dadurch erreicht werden, dass sich das zweite Mikrofon M2 auf der Innenseite eines Ohrhörers oder einer Ohrmuschel eines Kopfhörers befindet und dadurch vor Umgebungsgeräuschen geschützt ist. In störungsfreier Umgebung wird normalerweise das erste Mikrofon M1 verwendet. Wenn aber dessen Signal A1 durch Umgebungs- oder Störgeräusche gestört wird und der zweite Teilnehmer dies meldet 110, wie oben beschrieben, kann auf das alternative Sprechsignal SA1 des zweiten Mikrofons M2 umgeschaltet werden, oder dieses wird zugeschaltet. Dabei kann insbesondere, in einer Ausführungsform, eine Anfrage nach Nutzung des zweiten Mikrofons M2 an der ersten Sprechstelle S1 detektiert werden 115. Optional kann die Anfrage beantwortet werden. Die Anfrage kann von dem zweiten Teilnehmer, der zweiten Sprechstelle S2 oder einer automatischen Einheit N innerhalb des Kommunikationsnetzwerks kommen.
Wenn die erste Sprechstelle S1 nicht über ein zweites Mikrofon M2 verfügt, wird die Anfrage entsprechend beantwortet oder bleibt unbeantwortet. Wenn die erste Sprechstelle S1 aber ein zweites Mikrofon M2 aufweist, schaltet 120 die Kontrolleinheit 1160 mittels des Schalters SW1 dessen Signal SA1 auf die Extraktionseinheit 1130, die weiter verfährt wie oben beschrieben. Dabei kann die Extraktionseinheit 1130 in dieser Ausführungsform das alternative Sprechsignal SA1 entweder allein oder zusammen mit dem Sprechsignal A1 verwenden, separat oder als Mischung. Die automatische Extraktion 130 von gesprochenem Text und die Synthese 140 des extrahierten gesprochenen Textes ET1 basiert somit zumindest teilweise auf dem alternativen Sprechsignal SA1. Wenn das zweite Mikrofon M2 Knochenschall aufnimmt und das Sprechsignal A1 mit dem alternativen Sprechsignal SA1 gemischt wird, kann eine Verzögerung des letzteren nötig sein, um beide zeitlich zu synchronisieren. Das Sprechsignal A1 wird per Luftschall übertragen und triff daher später ein. Wenn jedoch nur das alternative Sprechsignal SA1 zur Extraktion und Synthese genutzt wird, kann die Verarbeitung früher erfolgen. Außerdem kann eine Filterung der Signale durchgeführt werden. Insbesondere kann das Sprechsignal A1 mit einem Hochpass gefiltert werden, um tieffrequente Störsignale zu reduzieren, jedoch einen höherfrequenten Anteil zu gewinnen, der in dem alternativen Sprechsignal SA1 nur reduziert enthalten ist.Optional kann auch in diesem Fall eine Antwort zur zweiten Sprechstelle S2 gesendet werden, um die Verwendung synthetischer Sprache anzuzeigen.
In einer Ausführungsform kann der Nutzer an der ersten Sprechstelle S1 ein Headset mit zwei Mikrofonen M1,M2 verwenden, das an ein Smartphone angeschlossen ist und die Signale beider Mikrofone M1,M2 an das Smartphone ausgibt. Das Smartphone kann mittels eines Prozessors und entsprechender Software zu dessen Konfiguration die Schalter SW1,SW2, die Extraktionseinheit 1130, die Syntheseeinheit 1140 und die Kontrolleinheit 1160 implementieren.
In einer anderen Ausführungsform kann der Nutzer mindestens an der ersten Sprechstelle S1 ein Headset mit zwei Mikrofonen M1,M2 verwenden, das selbst mittels eines Prozessors und entsprechender Software zu dessen Konfiguration die Schalter SW1,SW2, die Extraktionseinheit 1130, die Syntheseeinheit 1140 und die Kontrolleinheit 1160 implementiert. Das Headset kann dann das synthetische Sprachsignal an das Smartphone ausgeben.
Sofern die gesamte Verarbeitung des an der ersten Sprechstelle S1 gesprochenen Textes bis hin zur der Synthese 140 des synthetischen gesprochenen Textes ST1 in einem Gerät an der ersten Sprechstelle S1, also z.B. in einem Headset oder in einem Smartphone des ersten Nutzers durchgeführt wird, kann das erfindungsgemäße Gerät zum Telefonieren über eine Fernverbindung verwendet werden, die nicht über spezielle Vorkehrungen zur Nutzung der Erfindung verfügt, In diesem Fall wird lediglich das an den zweiten Nutzer zu übertragende Sprachsignal durch den synthetisch gesprochenen Text ST1 ersetzt. Der erste Nutzer kann hierfür an seinem Gerät selbst auswählen, ob er sein Sprachsignal durch den synthetisch gesprochenen Text ST1 ersetzen will. Die Meldung einer unzureichenden Sprachverständlichkeit 110 seitens des zweiten Teilnehmers ist dann nicht erforderlich.
3 zeigt in einer Ausführungsform ein Blockschaltbild eines Headsets. Eine erste elektronische Schaltung E1 wählt eine von mindestens zwei möglichen Betriebsarten aus, wobei in einer ersten Betriebsart das Ausgabesignal HA des Headsets das erste Mikrofonsignal A1 darstellt. In einer zweiten Betriebsart enthält das Ausgabesignal HA des Headsets ein mindestens teilweise auf dem zweiten Mikrofonsignal SA1 basierendes Signal. Die erste elektronische Schaltung E1 wird über eine Schnittstelle IF gesteuert, über die entweder ein an das Headset angeschlossenes externes elektronisches Kommunikationsgerät bzw. ein damit verbundenes zweites externes Gerät oder der Nutzer die Betriebsart einstellen kann. Optional kann eine zweite elektronische Schaltung E2 vorhanden sein, um gesprochenen Text ET1 zumindest teilweise aus dem zweiten Mikrofonsignal SA1 zu extrahieren und daraus synthetischen gesprochenen Text ST1 zu synthetisieren, wie oben beschrieben. Das Headset kann einen Speicher Mem aufweisen, der die zur Extraktion von Text und zur Sprachsynthese nötigen Daten enthalten kann. Es können z.B. Daten über charakteristische Sprachmerkmale eines Nutzers sein, die durch Training erhalten werden können und die benutzt werden, um synthetische Sprache zu erzeugen, die der Stimme des Nutzers entspricht. Auf diese Art kann die synthetische Stimme der natürlichen Stimme des Nutzers sehr ähnlich werden. Gleichzeitig können die charakteristischen Sprachmerkmale auch die Extraktion 130 verbessern. In der zweiten Betriebsart wird das Ausgangssignal der zweiten elektronischen Schaltung E2 oder, wenn diese nicht vorhanden ist, das zweite Mikrofonsignal SA1 als Ausgabesignal HA des Headsets ausgegeben.
4 zeigt ein erfindungsgemäßes Headset H in einer Ausführungsform, sowie ein damit verbundenes externes Kommunikationsgerät TEL. Dieses kann z.B. ein Smartphone, ein Mobiltelefon, ein Tablet-PC oder ein digitaler Assistent (z.B. ein sogenannter „smart speaker“ wie der Amazon Echo) sein. Das externe Kommunikationsgerät TEL steht über ein Kommunikationsnetzwerk mit einem menschlichen Gesprächspartner GP oder einem externen Gerät EG in Verbindung, das auf Spracheingaben reagiert. Das externe Gerät EG kann z.B. ein Computer in einem Service Center oder Online-Shop sein. Das Headset H enthält in diesem Beispiel zwei Ohrmuscheln OM und an einem Boomarm ein erstes Mikrofon M1, das Sprache über Luftschall aufnehmen kann und das normalerweise für Telefonie genutzt wird. In jeder Ohrmuschel OM befindet sich ein Wiedergabewandler bzw. Lautsprecher L1. Außerdem befindet sich in mindestens einer Ohrmuschel OM ein zweites Mikrofon M2. Durch seine Lage ist das zweite Mikrofon M2 vor Umgebungsschall geschützt, wenn das Headset getragen wird. Es befindet sich dann in einem abgeschirmten Raum, der mit dem Gehörgang des Nutzers verbunden ist, und in dem sich die per Knochenschall übertragene Stimme des Nutzers ausbreitet. Da das zweite Mikrofon M2 auch das vom Lautsprecher L1 wiedergegebene Signal aufnimmt, muss dieses Signal wieder aus dem zweiten Mikrofonsignal SA1 entfernt werden. Das kann auf bekannte Weise im Hörer passieren, bevor das Signal ausgegeben wird, oder es kann im Smartphone erfolgen. Das Signal SA1 des zweiten Mikrofons M2 kann erfindungsgemäß herangezogen werden, um den vom Nutzer gesprochenen Text ET1 zu extrahieren und daraus ein synthetisches Sprachsignal ST1 zu erzeugen.
5 zeigt ein erfindungsgemäßes drahtloses Headset in einer anderen Ausführungsform. Dabei umfasst das Headset H einen Ohrhörer mit einem Ohrpassstück OP, das auf einer Befestigung R steckt. Im Innern des Ohrhörers befindet sich ein Lautsprecher L1. Ein erstes Mikrofon M1 ist für Luftschall zugänglich angebracht, während ein zweites Mikrofon M2 so angeordnet ist, dass es sich beim Tragen des Headsets in einem vor Umgebungsschall geschützten, mit einem Gehörgang des Nutzers verbundenen Raum befindet. In diesem Beispiel befindet sich das zweite Mikrofon M2 im Ohrpassstück OP oder im Innern der Befestigung R. Im ersten Fall berührt das zweite Mikrofon M2 den Gehörgang und kann Knochenschall direkt vom Gehörgang aufnehmen, während es im zweiten Fall Luftschall aus dem Gehörgang des Nutzers aufnimmt, der dort wiederum durch Knochenschall erzeugt wurde. Auch in diesem Beispiel muss das Signal des Schallgebers L1 aus dem Signal des Innenmikrofons M2 entfernt werden. Außerdem kann in einer Ausführungsform das zweite Mikrofon M2 eines sein, das auch zur aktiven Geräuschkompensation (ANC) genutzt wird.
Während in den beschriebenen Beispielen die automatische Extraktion 130 und/oder die Synthese 140 des synthetischen gesprochenen Textes ST1 an der ersten Sprechstelle S1 durchgeführt wird, kann dies im Prinzip auch an der zweiten Sprechstelle S2 geschehen. Dafür kann es vorteilhaft sein, wenn das elektronische Kommunikationsgerät TEL oder das Headset H der ersten Sprechstelle S1 eine Rückmeldung zur zweiten Sprechstelle liefern kann, um das Vorhandensein eines zweiten Mikrofons M2 anzuzeigen. Dies ist aber nicht zwingend nötig. Um selbst eine Meldung über unzureichende Sprachverständlichkeit des Gesprächspartners GP erzeugen zu können, kann das Headset weiterhin eine entsprechende zusätzliche Funktion enthalten, z.B. einen Bedienknopf.
Ein Vorteil der Erfindung besteht darin, dass die Sprachverständlichkeit in Echtzeit verbessert werden kann, d.h. während des Gesprächs über die bestehende Sprechverbindung.
In den oben beschriebenen Ausführungsformen wird die erfindungsgemäße Verbesserung des Sprechsignals erst genutzt, wenn der zweite Teilnehmer dies anfordert bzw. eine schlechte Sprachverständlichkeit meldet 110. Es sind jedoch im Prinzip auch andere Ausführungsformen denkbar. Z.B. kann es sinnvoll sein, dass der Nutzer selbst an seinem Headset oder Smartphone umschalten kann, ob die automatische Extraktion 130 und Synthese 140 genutzt wird, und/oder ob das zweite Mikrofon M2 dazu eingesetzt wird.
Selbstverständlich können verschiedene oben beschriebene Ausführungsbeispiele oder Teile davon miteinander kombiniert werden, sofern dies technisch möglich und sinnvoll ist. Z.B. können auch weitere Betriebsarten vorhanden sein, mehrere verschiedene Signale ausgegeben werden etc.
Die Erfindung kann mit einem konfigurierbaren Computer oder Prozessor implementiert werden. Die Konfiguration erfolgt durch einen Computer-lesbaren Datenträger mit darauf gespeicherten Instruktionen, die geeignet sind, den Computer oder Prozessor derart zu programmieren, dass dieser Schritte des oben beschriebenen Verfahrens ausführen kann.
Optional kann die Auswertung des gestörten Sprachsignals durch die Extraktionseinheit 1130 sowie die Erzeugung des synthetischen gesprochenen Textes ST1 durch die Sprachsyntheseeinheit 1140 als zusätzliche Dienstleistung von einem Fernsprech-Service durchgeführt werden, welcher auch die Verbindung zwischen den Sprechstellen S1 und S2 umsetzt. In diesem Fall kann folgender Anwendungsfall realisiert werden:

Zunächst wird die Fernsprechverbindung aufgebaut. Der Nutzer an der zweiten Sprechstelle S2 kann bei störendem Umgebungslärm in dem von der ersten Sprechstelle S1 empfangenen Signal durch Eingabe an seinem Gerät bei dem Fernsprech-Service eine Funktion zur Sprachsynthetisierung aktivieren. Von dem Fernsprech-Service kann dann optional eine Abfrage an das Gerät an der ersten Sprechstelle S1 ausgehen, ob das verwendete Gerät ein alternatives Sprechsignal SA1 zur Verfügung stellen kann. Wenn das der Fall ist, kann das alternative Sprechsignal SA1 entweder anstelle des Sprechsignals A1 oder sowohl das alternative Sprechsignal SA1 als auch das Sprechsignal A1 an den Fernsprech-Service übertragen werden. Der Fernsprech-Service führt dann entweder nur anhand des Sprechsignals A1 oder nur anhand des alternativen Sprechsignals SA1 oder anhand beider Signale die Erzeugung des extrahierten Textes ET1 und daraus die Erzeugung des synthetischen gesprochenen Textes ST1 durch und gibt diesen an das Gerät an der zweiten Sprechstelle S2 aus.

Mit einem Headset, das ein zweites Mikrofon M2 zur Erfassung des alternative Sprechsignals SA1 wie oben beschrieben aufweist, lässt sich außerdem ein anderer Anwendungsfall realisieren:

Wenn dieses Headset verwendet werden soll, um ein Gerät durch Sprachbefehle zu steuern, kann das alternative Sprechsignal SA1 zum Empfangen der Sprachbefehle herangezogen werden. In einer lärmerfüllten Umgebung kann der Nutzer seine Sprachbefehle dann relativ leise abgeben und trotzdem werden die Sprachbefehle korrekt erkannt. Bei diesem Anwendungsfall können zusätzlich „Akustische Gesten“ definiert werden, welche als Steuerbefehl interpretiert werden. Dies kann z.B. Schnalz- oder Klick-Geräusche einschließen, die sich im Mundraum erzeugen lassen und die über Körperschall besonders gut erfasst werden können. Dieser Anwendungsfall lässt sich auch vorteilhaft umsetzen, wenn die Umgebung nicht lärmerfüllt ist, der Nutzer selbst jedoch eine Störung seiner Umgebung durch laut ausgesprochene Befehle vermeiden möchte. Er kann dann durch sehr leises Sprechen, optional in Kombination mit akustischen Gesten eine Steuerung seines Geräts durchführen.

Claims

Verfahren (100) zum Verbessern von Sprachverständlichkeit einer elektronischen Sprechverbindung zwischen einem ersten Teilnehmer an einer ersten Sprechstelle (S1) und einem zweiten Teilnehmer an einer zweiten Sprechstelle (S2), wobei ein Sprechsignal (A1) des ersten Teilnehmers durch Störgeräusche gestört ist, und wobei das Verfahren die während der Sprechverbindung durchgeführten Schritte aufweist: - Meldung (110) einer unzureichenden Sprachverständlichkeit des ersten Teilnehmers durch den zweiten Teilnehmer; - auf die Meldung hin, automatische Extraktion (130) von gesprochenem Text (ET1) aus dem Sprechsignal (A1) des ersten Teilnehmers; - Synthetisieren (140) von synthetischem gesprochenen Text (ST1) aus dem extrahierten gesprochenen Text (ET1) des ersten Teilnehmers mittels Sprachsynthese, wobei der extrahierte gesprochene Text (ET1) des ersten Teilnehmers mit einer synthetischen Stimme nachgebildet wird; und - Ausgabe (150) des synthetischen gesprochenen Textes (ST1) an den zweiten Teilnehmer.
Verfahren nach Anspruch 1, wobei ein Wort, ein Laut oder ein Phonem des extrahierten gesprochenen Textes (ET1) unmittelbar nach dessen Extraktion (130) synthetisiert wird, ohne ein Satzende abzuwarten.
Verfahren nach Anspruch 2, wobei auch ein Tonhöhenverlauf (SM1) aus dem Sprechsignal (A1) extrahiert wird und auf den synthetischen gesprochenen Text (ST1) angewendet wird.
Verfahren nach einem der Ansprüche 1-3, wobei die automatische Extraktion (130) und/oder die Synthese (140) des synthetischen gesprochenen Textes (ST1) an einer Zwischenstation (N) zwischen der ersten Sprechstelle (S1) und der zweiten Sprechstelle (S2) durchgeführt wird.
Verfahren nach einem der Ansprüche 1-3, wobei die automatische Extraktion (130) und/oder die Synthese (140) des synthetischen gesprochenen Textes (ST1) an der ersten Sprechstelle (S1) durchgeführt wird.
Verfahren nach einem der Ansprüche 1-5, wobei die erste Sprechstelle (S1) ein erstes Mikrofon (M1) und ein zweites Mikrofon (M2) aufweist, und wobei das durch Störgeräusche gestörte und von der ersten Sprechstelle (S1) ausgegebene Sprechsignal (A1) des ersten Teilnehmers vom ersten Mikrofon (M1) aufgenommen wurde, mit den weiteren Schritten: - auf die Meldung (110) hin, Detektieren (115) einer Anfrage nach Nutzung des zweiten Mikrofons an der ersten Sprechstelle (S1); - auf die Detektion der Anfrage hin, Umschalten (120) auf ein alternatives Sprechsignal (SA1), das zumindest einen vom zweiten Mikrofon (M2) aufgenommenen Anteil enthält, oder Zuschalten (120) des alternativen Sprechsignals (SA1) an der ersten Sprechstelle (S1), wobei die automatische Extraktion (130) von gesprochenem Text und die Synthese (140) des extrahierten gesprochenen Textes (ET1) dann auf dem alternativen Sprechsignal (SA1) basiert.
Verfahren nach Anspruch 6, wobei sich das zweite Mikrofon (M2) auf der Innenseite eines Ohrhörers (OH) oder einer Ohrmuschel eines Kopfhörers (KH) des ersten Teilnehmers befindet und dadurch vor Umgebungsgeräuschen geschützt ist.
Computer-lesbarer Datenträger mit darauf gespeicherten Instruktionen, die geeignet sind, einen Computer oder Prozessor derart zu programmieren, dass dieser die Schritte des Verfahrens nach einem der Ansprüche 1-7 ausführt.
Verfahren nach einem der Ansprüche 1 bis 6, wobei die erste Sprechstelle als Headset ausgebildet ist, das aufweist. - ein erstes Mikrofon (M1), das ein erstes Mikrofonsignal (A1) erzeugt, zur Aufnahme von Sprache über Luftschall; - ein Ohrpassstück (OP) oder einer Ohrmuschel (OM) mit einem Lautsprecher (L1) zur Schallwiedergabe und mit einem zweiten Mikrofon (M2) zur Aufnahme von Sprache eines Nutzers, wobei das zweite Mikrofon (M2) ein zweites Mikrofonsignal (SA1) erzeugt, und wobei das zweite Mikrofon (M2) beim Tragen des Headsets in einem vor Umgebungsschall geschützten, mit einem Gehörgang des Nutzers verbundenen Raum angeordnet ist; - mindestens eine erste elektronische Schaltung (E1) zur Auswahl einer von mindestens zwei möglichen Betriebsarten, wobei in einer ersten Betriebsart ein Ausgabesignal (HA) des Headsets das erste Mikrofonsignal (A1) darstellt und in einer zweiten Betriebsart das Ausgabesignal (HA) des Headsets ein mindestens teilweise auf dem zweiten Mikrofonsignal (SA1) basierendes Signal enthält; und - eine Schnittstelle (IF) zur Steuerung der ersten elektronischen Schaltung (E1).
Verfahren nach Anspruch 9, wobei die Schnittstelle (IF) mit einem ersten externen elektronischen Kommunikationsgerät (TEL) verbunden werden kann, um eine Steuerung der ersten elektronischen Schaltung (E1) durch das erste externe elektronische Kommunikationsgerät zu ermöglichen.
Verfahren nach Anspruch 9 oder 10, wobei die Schnittstelle (IF) von einem Nutzer des Headsets bedienbar ist.
Verfahren nach einem der Ansprüche 9-11, weiterhin mit einer zweiten elektronischen Schaltung (E2) zur Synthese von synthetisch gesprochenem Text (ST1) auf Basis des zweiten Mikrofonsignals (SA1), wobei in der zweiten Betriebsart der von der zweiten elektronischen Schaltung (E2) erzeugte synthetisch gesprochene Text (ST1) ausgegeben wird.
Verfahren nach Anspruch 12, wobei die zweite elektronische Schaltung (E2) einen Speicher (Mem) zur Speicherung charakteristischer Daten der Stimme eines Nutzers enthält und mittels der darin gespeicherten charakteristischen Daten synthetische Sprache erzeugt, die der Stimme des Nutzers entspricht.
Verfahren nach einem der Ansprüche 9-13, wobei das zweite Mikrofon (M2) geeignet ist zur Aufnahme von Knochenschall und beim Tragen des Ohrhörers den Gehörgang des Nutzers berührt.
Verfahren nach einem der Ansprüche 9-13, wobei das zweite Mikrofon (M2) beim Tragen des Ohrhörers Luftschall aus dem Gehörgang des Nutzers aufnimmt, der durch Knochenschall erzeugt wurde.