DE102019100403A1

DE102019100403A1 - Verfahren zur Sprachverarbeitung und Sprachverarbeitungsvorrichtung

Info

Publication number: DE102019100403A1
Application number: DE102019100403.9A
Authority: DE
Inventors: Marios Athineos; Michael Lee
Original assignee: Sennheiser Electronic GmbH and Co KG
Current assignee: Sennheiser Electronic GmbH and Co KG
Priority date: 2018-01-09
Filing date: 2019-01-09
Publication date: 2019-07-11
Also published as: US10861463B2; US20190214018A1

Abstract

Bei Telefonaten in der Öffentlichkeit zögern Nutzer wegen des Abhörrisikos möglicherweise, private oder geheime Informationen bereitzustellen. Eine Freisprechlösung, um geheime Informationen in elektronische Sprachkommunikationsgeräte einzugeben, basiert auf Sprachverarbeitung. Ein Verfahren zur Sprachverarbeitung eines Spracheingabedatenstroms umfasst die Schritte Durchsuchen des Spracheingabedatenstroms und Detektieren eines gesprochenen Delimiters darin, Bestimmen einer vordefinierten Audiosequenz entsprechend dem detektierten gesprochenen Delimiter, Einfügen der bestimmten vordefinierten Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom, wobei ein substituierter Sprachdatenstrom erhalten wird und wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben, und Bereitstellen des substituierten Sprachdatenstroms an einem Audioausgang an einen Empfänger.

Description

Die Erfindung betrifft ein Verfahren zur Sprachverarbeitung und eine Sprachverarbeitungsvorrichtung.
Hintergrund
Viele Informationen werden per Sprachkommunikation über Telefone oder andere elektronische Sprachkommunikationsdienste wie Sprachnachrichten ausgetauscht. Auch die Sprachsteuerung wird für verschiedene Arten von Geräten oder Diensten immer wichtiger. In solchen Fällen umfasst Sprache häufig private oder geheime Informationen. Zum Beispiel kann es erforderlich sein, dass ein Benutzer eines Telefonbanking-Dienstes seine Bankkontonummer oder ein Passwort mitteilt, was von Lauschern in der Nähe mitgehört werden kann. Daher können Benutzer in einem öffentlichen Raum Datenschutzbedenken haben, wenn sie über Sprachkommunikation private oder geheime Informationen bereitstellen. Bekannte Alternativlösungen für verschiedene Geräte nutzen eine Kombination von Spracheingabe und anderen Eingabe-/Ausgabemodi. Einige Systeme halten bestimmte mitzuteilende Daten geheim, indem sie nicht-verbale Modi wie Text- oder Bildschirmeingabe erfordern. Zum Beispiel kann eine Bank von einem Nutzer fordern, dass er eine Sozialversicherungsnummer (SSN) über die Zahlentastatur des Telefons statt durch Sprache eingibt. Das macht es jedoch für den Nutzer notwendig, auf einer Tastatur zu tippen. Eine Freisprechlösung („hands-free“) zur Eingabe geheimer Information wäre wünschenswert.
Zusammenfassung der Erfindung
Daher besteht ein zu lösendes Problem darin, Nutzern elektronischer Sprachkommunikationsgeräte, insbesondere in einem öffentlichen Raum, eine Freisprechlösung bereitzustellen, um geheime Informationen in ihr elektronisches Sprachkommunikationsgerät einzugeben.
Zumindest dieses Problem wird durch ein Verfahren zur Sprachverarbeitung gemäß Anspruch 1 gelöst. Weiterhin wird das Problem durch eine Sprachverarbeitungsvorrichtung gemäß Anspruch 9 gelöst.
Erfindungsgemäß wird eine Kombination aus Schlüsselworterkennung, einer Audiodatenbank und einer Audiosignalverarbeitung für „Audio-Splicing“ oder Audiosynthese benutzt. Das Schlüsselwort oder der Delimiter (Abgrenzer, Trennzeichen) löst das Einfügen geheimer Audioinformation in den Datenstrom aus, ohne dass der Nutzer die geheime Information aussprechen muss.
In einer Ausführungsform betrifft die Erfindung ein Verfahren zur automatischen Sprachverarbeitung eines Spracheingabedatenstroms, der von einem während einer elektronischen Unterhaltung sprechenden Nutzer stammt und an einen Empfänger übertragen wird, wobei das Verfahren umfasst: Durchsuchen des Spracheingabedatenstroms und Detektieren eines gesprochenen Delimiters darin durch eine Audioüberwachungs- und Detektionseinheit, Bestimmen einer vordefinierten Audiosequenz entsprechend dem detektierten gesprochenen Delimiter durch eine Audio-Substitutionsbestimmungseinheit, Einfügen der bestimmten vordefinierten Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom durch eine Audio-Einfügeeinheit, wobei ein substituierter Sprachdatenstrom erhalten wird, und wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben, und Bereitstellen des substituierten Sprachdatenstroms zur Ausgabe an den Empfänger.
In einer anderen Ausführungsform betrifft die Erfindung eine Sprachverarbeitungsvorrichtung, die angepasst ist zum Verarbeiten eines Spracheingabedatenstroms, der von einem während einer elektronischen Unterhaltung sprechenden Nutzer stammt, wobei die Sprachverarbeitungsvorrichtung umfasst: eine Audioüberwachungs- und Detektionseinheit, die angepasst ist zum Durchsuchen des Spracheingabedatenstroms und zum Detektieren eines gesprochenen Delimiters darin, eine Audio-Substitutionsbestimmungseinheit, die angepasst ist zum Bestimmen einer vorher aufgenommenen Audiosequenz entsprechend dem detektierten gesprochenen Delimiter, eine Audio-Einfügeeinheit, die angepasst ist zum Einfügen der bestimmten vorher aufgenommenen Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom, wobei ein substituierter Sprachdatenstrom entsteht, und wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor und nach dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben, und eine Audioausgabe zum Bereitstellen des substituierten Sprachdatenstroms an einen Empfänger.
Vorteilhafterweise stellt die Erfindung eine bequeme und nutzerfreundliche Freisprechlösung für das oben genannte Problem dar, und ermöglicht einen natürlichen Gesprächsablauf ohne strukturierte Dialog-Einfügepunkte. Auch ist es für den Nutzer nicht notwendig, während der Interaktion Betriebsarten umzuschalten. Weiter kann die vorliegende Erfindung Datenschutzbedenken des Nutzers reduzieren.
Weitere vorteilhafte Ausführungsbeispiele werden in den Zeichnungen und in der detaillierten Beschreibung offenbart.
Figurenliste

1 ein Blockdiagramm einer Vorrichtung zur Sprachverarbeitung;
2 ein Flussdiagramm eines Verfahrens zur automatischen Sprachverarbeitung;
3 ein zeitlicher Ablauf der Sprachverarbeitung in einer ersten Ausführungsform;
4 ein zeitlicher Ablauf der Sprachverarbeitung in einer zweiten Ausführungsform; und
5 ein zeitlicher Ablauf der Sprachverarbeitung mit einer Fehlerkorrektur in einer dritten Ausführungsform.

Detaillierte Beschreibung
Die vorliegende Beschreibung ermöglicht einen Service, der Datenschutzbedenken von Nutzern reduzieren kann, die Sprachkommunikationsgeräte benutzen, während sie sich in einem öffentlichen Raum befinden. Der Ansatz beinhaltet die Bereitstellung einer Komponente, die in der Lage ist, spezifische gesprochene Delimiter und Schlüsselwörter in einem Eingangsdatenstrom zu detektieren und eine entsprechende Audiosequenz in den Audiostrom einzufügen, bevor das Audio zu seinem endgültigen Ziel geleitet wird. Die Audiosequenz kann auch teilweise oder vollständig den gesprochenen Delimiter ersetzen. In jedem Fall wird die eingefügte oder ersetzende Audiosequenz nahtlos in das Audiosignal integriert. Das heißt, dass Sprache, die sich vor dem gesprochenen Delimiter im Datenstrom befindet, nicht modifiziert wird. Auch Sprache, die sich nach dem gesprochenen Delimiter im Datenstrom befindet, wird nicht modifiziert. Der resultierende Audiodatenstrom wird hier als substituierter Audiodatenstrom bezeichnet.
In einigen Ausführungsformen ist die oben erwähnte Komponente eine Inline-Softwarekomponente. In einigen Ausführungsformen wird diese Komponente in einem Telefon eingesetzt, wo sie Zugang zum Eingangsaudiostrom hat und dann ersetztes Audio in den Ausgabestrom einfügt, der anschließend an das Mobilnetzwerk weitergegeben wird. In anderen Ausführungsformen ist diese Komponente eine als Cloud-/Internet-Service implementierte Funktionalität, wobei das Eingangs-Audio vom Ursprungsgerät an den Service gesendet wird. Die Analyse (parsing) und die Audioeinfügung/-ersetzung finden statt, bevor der substituierte Audiodatenstrom zu seinem endgültigen Ziel geleitet wird. In jedem Fall ist die Quelle des Audiostroms ein menschlicher Nutzer, während das endgültige Ziel ein anderer menschlicher Nutzer oder ein maschinelles System sein kann, das eine Audioeingabe akzeptiert.
1 zeigt beispielhaft ein Blockdiagramm einer Sprachverarbeitungsvorrichtung 100, die zum Verarbeiten eines Spracheingabedatenstroms A_in ausgelegt ist, der von einem sprechenden Nutzer stammt, der ein elektronisches Gerät in einer Unterhaltung verwendet. Im Prinzip enthält die Vorrichtung 100 mindestens eine Audioüberwachungs- und Detektionseinheit 120, eine Audio-Substitutionsbestimmungseinheit 130 und eine Audio-Einfügeeinheit 150.
Die Audioüberwachungs- und Detektionseinheit 120 durchsucht den Spracheingabedatenstrom A_in und detektiert einen gesprochenen Delimiter darin. Der gesprochene Delimiter kann mit einer spezifischen vordefinierten Äußerung oder Anfangsmarke <init_tag> beginnen, so wie „hashtag“ oder „Doktor Fritz“ , gefolgt von einer vom Nutzer angegebenen Marke <user_tag>, so wie z. B. „Kontonummer“. Die Anfangsmarke kann den Aufmerksamkeitsgrad des Detektors festlegen oder erhöhen, um die vom Nutzer angegebene Marke zu analysieren. In einer Ausführungsform ist die Anfangsmarke generisch für alle Nutzer (außer zur Stimmenverifikation in einigen Ausführungsformen, siehe unten), während die vom Nutzer angegebene Marke vorzugsweise nutzerspezifisch ist. In einer anderen Ausführungsform, die zu einer besseren Erkennungsrate führen kann, ist auch die Anfangsmarke nutzerspezifisch. In jedem Fall wird die vom Nutzer angegebene Marke nur in Kombination mit der Anfangsmarke detektiert; ohne die Anfangsmarke ist die vom Nutzer angegebene Marke kein Delimiter, sondern nur gesprochene Unterhaltung. Die Audioüberwachungs- und Detektionseinheit 120 kann auch den detektierten gesprochenen Delimiter einem korrespondierenden Bezeichner 115 zuordnen. Der Bezeichner, der dem gesprochenen Delimiter entspricht, oder der gesprochene Delimiter selbst, wird der Audio-Substitutionsbestimmungseinheit 130 zugeführt.
Die Audio-Substitutionsbestimmungseinheit 130 bestimmt 220 eine vorher aufgenommene Audiosequenz entsprechend dem detektierten gesprochenen Delimiter und stellt sie der Audio-Einfügeeinheit 150 zur Verfügung. Die vorher aufgenommene Audiosequenz kann vorher von dem Nutzer aufgezeichnet worden sein, so dass der Nutzer weiß, welcher gesprochene Delimiter zum Bestimmen einer gerade benötigten, spezifischen aufgenommenen Audiosequenz führt. Zum Beispiel weiß der Nutzer, dass eine Audiosequenz mit seiner vorher aufgezeichneten Kontonummer bestimmt wird, wenn der vom Nutzer angegebene gesprochene Delimiter „Kontonummer“ lautet. Jedoch kann die aufgenommene Audiosequenz vor anderen Personen, die sich in der Nähe des Nutzers befinden, geheim gehalten werden, da der Nutzer sie während eines Telefonanrufs nicht laut sagen muss.
Die Audio-Einfügeeinheit 150 fügt die bestimmte, vorher aufgenommenen Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom ein, so dass ein substituierter Sprachdatenstrom Aout erhalten wird. Vorteilhafterweise können Sprachabschnitte des Spracheingabedatenstroms vor und nach dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben, so dass ein natürlicher Gesprächsfluss ohne strukturierte Dialog-Einfügepunkte erhalten werden kann. In einigen Ausführungsformen kann der Spracheingabedatenstrom vor dem Einfügen oder Ersetzen durch eine Verzögerungseinheit 160 verzögert werden. Schließlich wird der substituierte Sprachdatenstrom Aout an einem Audioausgang 190 zur weiteren Verarbeitung oder zur Übertragung an den Empfänger bereitgestellt. Obwohl der Nutzer bei einem Telefongespräch öffentlich nur den gesprochenen Delimiter äußert, hört der Empfänger somit die eingefügte vorher aufgenommene Audiosequenz und erhält die zusätzlichen geheimen Informationen.
In unterschiedlichen Ausführungsformen kann der gesprochene Delimiter an den Empfänger übertragen werden oder nicht. In einer Ausführungsform wird die Audiosequenz mit der natürlichen Stimme des Nutzers aufgenommen. In einer anderen Ausführungsform wird die Audiosequenz durch Sprachsynthese erhalten, z. B. aus parametrisierten Daten, die in der Audio-Einfügebestimmungseinheit 130 gespeichert werden können.
In einer Ausführungsform enthält die Audio-Einfügebestimmungseinheit 130 eine Substitutionsdatenbank 131, die angepasst ist, mindestens ein Paar aus einem gesprochenen Delimiter oder einer entsprechenden Kennung und Tondaten einer zugehörigen Substitutions-Audiosequenz zu speichern. In einer Ausführungsform enthält die Audio-Einfügebestimmungseinheit 130 eine Aufnahmekontrolleinheit 135, die zum Aufnehmen der Tondaten mindestens der Substitutions-Audiosequenz in der Substitutionsdatenbank 131 angepasst ist. In einer Ausführungsform können auch Tondaten des gesprochenen Delimiters (oder zumindest der Nutzermarke user_tag) aufgenommen werden. In einer anderen Ausführungsform wird eine jeweilige Kennung des gesprochenen Delimiters zusammen mit der Substitutions-Audiosequenz in der Substitutionsdatenbank 131 gespeichert. Zum Beispiel kann eine Tabelle 1315, die zwei oder mehr gesprochene Delimiter (oder Markierungsphrasen) und ihre jeweiligen Substitutions-Audiosequenzen enthält, in der Substitutionsdatenbank 131 gespeichert werden. In einer Ausführungsform enthält die Tabelle 1315 nur die Nutzermarken- (user_tag)-Anteile der gesprochenen Delimiter und ihre entsprechenden Substitutions-Audiosequenzen.
In einer Ausführungsform enthält die Sprachverarbeitungsvorrichtung 100 außerdem eine Spracherzeugungseinheit oder einen Sprachsynthetisierer 140, der zum Erzeugen (rendern) der Substitutions-Audiosequenz aus den von der Substitutionsdatenbank 131 abgerufenen Tondaten angepasst ist. Die erzeugte Substitutions-Audiosequenz 145 wird mindestens der Audio-Einfügeeinheit 150 zur Verfügung gestellt. Sie kann auch dem Nutzer zum Abhören bereitgestellt werden. In einer Ausführungsform enthält die Sprachverarbeitungsvorrichtung 100 außerdem eine Wiedergabeeinheit, z. B. als Teil einer Bestätigungskontrolleinheit 180, die eine Wiedergabe der bestimmten und erzeugten Audiosequenz für den Nutzer ermöglicht, während sie in den Audiostrom eingefügt wird. Dies gibt dem Nutzer eine zusätzliche Rückmeldung. Zusätzlich kann in einer Ausführungsform der Nutzer im Fall eines Fehlers eingreifen, z. B. indem er „Stopp“ sagt oder während der Wiedergabe einen Befehl äußert. Die Bestätigungskontrolleinheit 180 kann den Nutzereingriff detektieren und daraufhin zumindest das Einfügen beenden. Der Eingriffsbefehl kann an den Empfänger übermittelt werden oder nicht.
In einer Ausführungsform enthält die Vorrichtung 100 ferner eine Wiedergabekontrolleinheit 185, die eine Wiedergabe der Einfügung über Lautsprecher auf der Nutzerseite verhindert. Dies bietet eine zusätzliche Sicherheit gegen das Abhören.
In einer Ausführungsform enthält die Vorrichtung 100 ferner eine Stimmenverifikationseinheit 170, die angepasst ist, zu überprüfen, dass der Spracheingabedatenstrom An der Stimme eines vordefinierten Nutzers entspricht. Die Stimmenverifikationseinheit 170 kann den Nutzer auch durch andere Mittel identifizieren, z. B. einen Fingerabdruck. Abhängig vom Überprüfungsergebnis können andere Module, wie die Audio-Einfügeeinheit 150, die Audio-Substitutionsbestimmungseinheit 130 oder die Spracherzeugungseinheit 140 aktiviert oder deaktiviert werden. Zum Beispiel kann die Audio-Einfügeeinheit 150 aktiviert werden, wenn die Überprüfung erfolgreich ist, und anderenfalls deaktiviert, so dass die Audiosequenz nicht in den Ausgangs-Sprachdatenstrom eingefügt wird. Dies verhindert einen Missbrauch durch andere Personen, die gelauscht und den gesprochenen Delimiter des Nutzers gehört haben können, und bietet daher eine zusätzliche Sicherheitsstufe für den Nutzer.
2 a) zeigt ein Flussdiagramm eines Verfahrens 200 zur automatischen Sprachverarbeitung eines Spracheingabedatenstroms A_in in verschiedenen Ausführungsformen. Der Spracheingabedatenstrom A_in kann von einem sprechenden Nutzer stammen, der in einem Gespräch ein elektronisches Gerät benutzt, und übertragen werden an einen Empfänger, der ein Mensch oder eine Maschine sein kann. Das Verfahren umfasst die Schritte Überwachen (Scannen) 210 des Spracheingabedatenstroms und Detektieren 215 eines gesprochenen Delimiters darin, was durch die Audioüberwachungs- und Detektionseinheit 120 ausgeführt werden kann. Das Verfahren umfasst ferner die Schritte Bestimmen 220 einer vordefinierten Audiosequenz gemäß dem detektierten gesprochenen Delimiter, was durch die Audio-Substitutionsbestimmungseinheit 130 ausgeführt werden kann, und Einfügen 230 der bestimmten vordefinierten Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom. Dies kann durch die Audio-Einfügeeinheit 150 ausgeführt werden. Als Ergebnis wird ein substituierter Sprachdatenstrom erhalten, wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor und nach dem gesprochenen Delimiter im substituierten Sprachdatenstrom verbleiben. Der gesprochene Delimiter selbst kann darin erhalten bleiben oder nicht. Schließlich wird der substituierte Sprachdatenstrom Aout zur Ausgabe an den Empfänger bereitgestellt 290.
In einer Ausführungsform enthält das Verfahren 200 außerdem einen Schritt zum Verifizieren 270, dass der Spracheingabedatenstrom von einem bestimmten Nutzer stammt, wobei Spracheigenheiten des Spracheingabedatenstroms A_in verglichen werden mit Spracheigenheiten des bestimmten Nutzers, die vorher gespeichert oder analysiert wurden. Dies kann durch eine Stimmenverifikationseinheit 170 ausgeführt werden. Einer oder mehr der Schritte 215,220,230, vorzugsweise mindestens der Schritt zum Einfügen 230 der bestimmten vordefinierten Audiosequenz, wird deaktiviert, falls das Verifizieren fehlschlägt. Alternativ kann in diesem Fall das Verfahren beendet werden. Anderenfalls, wenn die Verifikation erfolgreich ist, werden diese Schritte aktiviert.
In einer Ausführungsform enthält das Verfahren 200 außerdem einen Schritt zum Wiedergeben 240 der bestimmten und eingefügten Audiosequenz an den Nutzer, während sie an den Empfänger übertragen wird. Das hat den Vorteil, dass der Nutzer die eingefügte Audiosequenz hören, sie überprüfen und danach nahtlos weitersprechen kann. Die eingefügte Audiosequenz kann auch als separate Ausgabe A'_out für den Nutzer bereitgestellt werden, z. B. in Fällen, in denen die Stimme des Nutzers normalerweise nicht für ihn selbst zurückgemeldet wird. In einer Ausführungsform wird der gesprochene Delimiter aus dem substituierten Sprachdatenstrom A_out entfernt. Das kann den gesprochenen Delimiter vor dem Empfänger geheim halten und kann auch angenehmer für den Empfänger sein, aber kann eine Verzögerung des Datenstroms zumindest für die Dauer der Detektion des gesprochenen Delimiters erforderlich machen. In einer anderen Ausführungsform verbleibt der gesprochene Delimiter mindestens teilweise im substituierten Sprachdatenstrom, und die bestimmte vordefinierte Audiosequenz wird direkt nach dem gesprochenen Delimiter eingefügt. Auf Grund der festen vordefinierten Anfangsmarke können maschinelle Empfänger so angelernt werden, dass sie den gesprochenen Delimiter ignorieren.
Ein weiterer Vorteil der Tatsache, dass der Nutzer die eingefügte Audiosequenz überprüfen kann, besteht darin, dass der Nutzer im Fehlerfall eingreifen kann. Wenn z. B. der Nutzer fälschlicherweise eine unbeabsichtigte Markierungsphrase benutzt, kann er oder sie den Fehler beim Abhören der eingefügten Audiosequenz bemerken und das System unterbrechen. In einer Ausführungsform enthält das Verfahren außerdem eine Bestätigungskontrolle mit den Schritten Erkennen 245 eines Nutzereingriffs während der Wiedergabe und des Einfügens der Audiosequenz, wie oben beschrieben, und auf das Erkennen hin Beenden 248 der Wiedergabe 240 und/oder des Einfügens 230.
In einer Ausführungsform kann eine Wiedergabekontrolleinheit 185 detektieren 246, dass das elektronische Gespräch über einen Lautsprecher auf der Nutzerseite wiedergegeben wird, und daraufhin die Wiedergabe der Audiosequenz verhindern, z. B. den Lautsprecher zumindest während der Wiedergabe abschalten 249.
Wie in 2 b) dargestellt, kann der Schritt des Bestimmens 220 der vordefinierten Audiosequenz in einer Ausführungsform das Vergleichen 221 des gesprochenen Delimiters mit einem oder mehreren aus einer Substitutionsdatenbank 131 abgerufenen Markierungsphrasen, das Detektieren 223 einer zum gesprochenen Delimiter passenden Markierungsphrase, und das Abrufen 225 mindestens einer Substitutions-Audiosequenz, die der detektierten passenden Markierungsphrase entspricht, aus der Substitutionsdatenbank umfassen. Die Markierungsphrasen und/oder die Substitutions-Audiosequenzen können Sprachaufnahmen des Nutzers enthalten. Alternativ können die aus der Substitutionsdatenbank abgerufenen Substitutions-Audiosequenzen in einer Ausführungsform Daten enthalten, die als Eingangsdaten für den Sprachsynthetisierer formatiert sind, einschließlich z.B. parametrischer Daten. In diesem Fall kann das Verfahren ein Umsetzen (Rendern) 227 der Sprachsynthetisierer-Eingangsdaten durch einen Sprachsynthetisierer 140 umfassen, um Audiodaten für die Substitutions-Audiosequenz zu erhalten.
3 zeigt in einer ersten Ausführungsform einen zeitlichen Ablauf einer Sprachverarbeitung. Die obere, mit U_in bezeichnete Linie bezieht sich auf Spracheingaben vom Nutzer, während die untere, mit Rcp bezeichnete Linie Ausgaben an den Empfänger (und potentiell auch zurück an den Nutzer, z.B. wenn das Telefon dem Nutzer seine oder ihre eigene Stimme wiedergibt) repräsentiert. Während der Nutzer spricht, wird ein erster Sprachabschnitt Sp1 mit einer unvermeidlichen kleinen Verzögerung an den Empfänger übertragen, wie gewöhnlich. Wenn der Nutzer den gesprochenen Delimiter oder die Marke T ausspricht, wird dies detektiert, wie oben beschrieben. In diesem Beispiel wird auch die Marke T an den Empfänger übertragen. Unmittelbar nach der Detektion wird eine Substitutions-Audiosequenz R bestimmt, wiedergegeben und in den Sprachdatenstrom eingefügt, um den substituierten Sprachdatenstrom zu erhalten. Letzterer wird an den Empfänger übertragen, wie in der unteren Zeitleiste Rcp gezeigt.
In diesem Beispiel wird die eingefügte Audiosequenz nicht für den Nutzer wiedergegeben, so dass der Nutzer möglicherweise abschätzen muss, wann sie vorbei ist, und während dieser Zeit W₁ warten muss. Der Nutzer kann eine Rückmeldung bekommen, z.B. ein hörbares Rückmeldungssignal Fb₁ wie einen Piepton, wenn die Wiedergabe der Substitutions-Audiosequenz vorüber oder fast vorüber ist. Er oder sie kann daher weitersprechen, möglicherweise nach einer kurzen Reaktionszeit (nicht dargestellt), und nachfolgende Sprachabschnitte Sp2 werden wieder wie üblich ohne Modifikation an den Empfänger übertragen. Es kann auch vorteilhaft sein, dem Nutzer immer eine Rückmeldung zu geben, wenn ein gesprochener Delimiter detektiert wurde, z.B. ein hörbares Rückmeldungssignal wie ein Piepen.
4 zeigt in einer zweiten Ausführungsform einen zeitlichen Ablauf einer Sprachverarbeitung. Zusätzlich ist eine dritte Linie U_out zwischen der oberen und der unten Linie dargestellt, die Tonausgaben zurück an den Nutzer repräsentiert. In diesem Beispiel wird die Substitutions-Audiosequenz R auch für den Nutzer wiedergegeben, so dass der Nutzer während des Zuhörens warten W₁ und bemerken kann, wenn die Einfügung beendet ist. Nach einer kurzen Reaktionszeit, die beim Empfänger zu einer kurzen Zeit der Stille Qr nach der Substitutions-Audiosequenz R führen kann, kann der Nutzer weitersprechen. Die nachfolgenden Sprachabschnitte Sp2 werden wieder ohne Modifikation an den Empfänger übertragen. Der Nutzer kann auch weitersprechen kurz bevor die Wiedergabe der Substitutions-Audiosequenz vorüber ist, so dass die kurze Zeit der Stille Qr nach der Substitutions-Audiosequenz R vermieden wird und das Gespräch für den Empfänger noch natürlicher klingt. Der Nutzer sollte jedoch nicht zu früh weitersprechen, da in einer Ausführungsform das System dann die nachfolgende Sprache Sp2 als Nutzereingriff interpretieren und die Einfügung beenden könnte.
In einem Beispiel, in dem die Anfangsmarke (hashtag) „Dr. Fritz“ und die Nutzermarke (user tag) „Bankkonto“ lautet, kann der Nutzer während eines Telefongesprächs sagen: „Ich werde Ihnen nun mein Dr. Fritz Bankkonto - - - geben und einhundert Euro überweisen.“ Das Sprachverarbeitungssystem übersetzt den gesprochenen Delimiter, der die Anfangsmarke und die Nutzermarke umfasst, in die tatsächliche Kontonummer und fügt sie sofort ein, so dass der Empfänger am anderen Ende hören kann (mit der eingefügten Substitutions-Audiosequenz in eckigen Klammern) „Ich werde Ihnen nun mein Dr. Fritz Bankkonto <235408282> geben und einhundert Euro überweisen.“ In einigen Ausführungsformen kann, wie oben beschrieben, mindestens die Substitutions-Audiosequenz „<235408282>“ auch für den Nutzer wiedergegeben werden.
In einem anderen Beispiel kann die Übertragung verzögert sein, so dass der gesprochene Delimiter beseitigt werden kann. Der Nutzer kann während des Telefongesprächs sagen: „Ich werde Ihnen nun meine Kontonummer geben: Dr. Fritz Bankkonto und einhundert Euro überweisen“, und das Sprachverarbeitungssystem übersetzt den gesprochenen Delimiter durch die tatsächliche Kontonummer. In diesem Fall kann der Empfänger am anderen Ende hören (mit der eingefügten Substitutions-Audiosequenz in eckigen Klammern) „Ich werde Ihnen nun meine Kontonummer geben: <235408282> und einhundert Euro überweisen.“ Wieder kann es vorteilhaft sein, wenigstens die Substitutions-Audiosequenz „<235408282>“ für den Nutzer wiederzugeben.
5 zeigt in einer dritten Ausführungsform einen zeitlichen Ablauf einer Sprachverarbeitung mit einer Fehlerkorrektur. Nachdem der Nutzer eine falsche Marke T_e (d.h. eine existierende, aber unbeabsichtigte Marke) geäußert hat, wird die entsprechende falsche Substitutions-Audiosequenz Re bestimmt, eingefügt und wiedergegeben. Da aber die Substitutions-Audiosequenz R_e für den Nutzer wiedergegeben wird, kann er oder sie die Wiedergabe und Einfügung zum Zeitpunkt t_ed unterbrechen, indem er oder sie etwas wie z.B. „Stopp“ sagt. In einer Ausführungsform kann der Nutzer irgendetwas sagen und das System wird sofort reagieren. In einer anderen Ausführungsform reagiert das System nur auf bestimmte, vordefinierte Stoppworte, so dass es einige Zeit T_s benötigt, um ein Stoppwort zu detektieren. Folglich kann auch der Empfänger mindestens einen Teil der wiedergegebenen falschen Substitutions-Audiosequenz R_e hören. Allerdings können gewöhnlich sowohl menschliche Empfänger wie auch maschinelle Empfänger bemerken, dass die Substitutions-Audiosequenz Re nicht korrekt ist. Nach dem Unterbrechungs-Sprachabschnitt T_s kann der Nutzer in diesem Beispiel sofort die korrekte, beabsichtigte Marke T sagen, und die zugehörige beabsichtigte Substitutions-Audiosequenz R wird bestimmt, eingefügt und wiedergegeben. Der Nutzer kann auch eine kurze Zeit t_p vor dem Ende der Wiedergabe der Substitutions-Audiosequenz R weitersprechen, wie oben erwähnt.
Allgemein kann es vorteilhaft sein, zu detektieren, ob das Telefongespräch über eine Freisprecheinrichtung mit Lautsprecher auf der Nutzerseite stattfindet, und den Lautsprecher abschalten, wenn der gesprochene Delimiter detektiert wurde oder während die Substitutions-Audiosequenz eingefügt wird. Anderenfalls kann die geheime Substitutions-Audiosequenz von Lauschern in der Nähe abgehört werden.
Zu beachten ist, dass die 3-5 die Zeitabläufe nur prinzipiell zeigen. Die Längen der Marken, Substitutions-Audiosequenzen und Verzögerungen relativ zueinander können unterschiedlich sein.
In einer Ausführungsform kann der Nutzer eine Anlernphase (training) durchführen, um einen Satz von Delimitern, Audiomarken und einzufügenden Audioelementen zu konfigurieren und zu verwalten. Diese können in der Substitutionsdatenbank gespeichert werden. Der Nutzer kann z.B. seine eigene Delimiter-Äußerung aufnehmen, so dass das System die gesprochenen Delimiter besser erkennt.
Der Sprachprozessor 100 kann in Ausführungsformen auf einer beliebigen Anzahl von Technologien aufgebaut sein, die von konventionellen Signalverarbeitungstechniken zur Spracherkennung bis zu Ansätzen, die auf lernenden Maschinen (machine learning) basieren, reichen können. In einigen Ausführungsformen können eine oder mehrere der oben beschriebenen Einheiten, so wie die Audioüberwachungs- und Detektionseinheit 120, die Audio-Substitutionsbestimmungseinheit 130, die Aufnahmekontrolleinheit 135, die Spracherzeugungseinheit oder der Sprachsynthetisierer 140, die Audio-Einfügeeinheit 150, die Verzögerungseinheit 160, die Stimmenverifikationseinheit 170, die Bestätigungskontrolleinheit 180 und die Wiedergabekontrolleinheit 185, durch einen oder mehrere Prozessoren implementiert werden, z.B. Signalprozessoren und/oder Sprachprozessoren, die durch Software konfiguriert werden können.
In einer Ausführungsform betrifft die Erfindung ein nichtflüchtiges, computerlesbares Speichermedium mit darauf gespeicherten Anweisungen, die bei Ausführung auf einem Computer den Computer dazu veranlassen, ein Verfahren zur Sprachverarbeitung wie oben beschrieben durchzuführen.
Die Erfindung ist vorteilhaft für Sprachkommunikationssysteme, die allgemein ein gewisses Maß an Privatsphäre verlangen, und insbesondere für Dienste, die Sprachsteuerung nutzen, weil ausgewählte sensible Wörter und/oder Sätze eines Gesprächs verschleiert werden. Somit kann die Bedeutung einer Unterhaltung für einen lauschenden Dritten in zufriedenstellender Weise verringert werden. Zu den weiteren Vorteilen der Erfindung gehört, dass die Hände frei bleiben und eine fließende sprachliche Konversation in einem einzigen Modus ermöglicht wird. Ein weiterer Vorteil ist, dass die Spracherkennungsleistung, wenn der Nutzer die Marken zur Verfügung stellt, besser sein kann und höhere Erkennungsraten aufweisen kann als mit Standardmarken. Darüber hinaus erzeugt die Erfindung nur minimale Störung des sprachlichen Interaktionsflusses beim Nutzer.
Es ist klar, dass verschiedene oben beschriebene Ausführungsformen vollständig oder teilweise kombiniert werden können. Selbst wenn eine solche Kombination hier nicht im Detail erwähnt ist, soll sie als Ausführungsform der vorliegenden Erfindung angesehen werden.

Claims

Ein Verfahren zur automatischen Sprachverarbeitung eines Spracheingabedatenstroms, der von einem während einer elektronischen Unterhaltung sprechenden Nutzer stammt, wobei das Verfahren umfasst: Durchsuchen des Spracheingabedatenstroms und Detektieren eines gesprochenen Delimiters darin durch eine Audioüberwachungs- und Detektionseinheit; Bestimmen einer vordefinierten Audiosequenz entsprechend dem detektierten gesprochenen Delimiter durch eine Audio-Substitutionsbestimmungseinheit; Einfügen der bestimmten vordefinierten Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom durch eine Audio-Einfügeeinheit, wobei ein substituierter Sprachdatenstrom erhalten wird, und wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor und nach dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben; und Bereitstellen des substituierten Sprachdatenstroms an einem Audioausgang zur Ausgabe an den Empfänger.
Das Verfahren nach Anspruch 1, ferner umfassend: Verifizieren durch eine Stimmenverifikationseinheit, dass der Spracheingabedatenstrom von einem vordefinierten Nutzer stammt, wobei Spracheigenheiten des Spracheingabedatenstroms verglichen werden mit Spracheigenheiten des bestimmten Nutzers, und wobei mindestens der Schritt des Einfügens der bestimmten vordefinierten Audiosequenz deaktiviert wird, falls das Verifizieren fehlschlägt, und anderenfalls aktiviert wird.
Das Verfahren nach Anspruch 1, wobei die bestimmte vordefinierte Audiosequenz direkt nach dem gesprochenen Delimiter in den Spracheingabedatenstrom eingefügt wird, und wobei das Verfahren ferner umfasst: Wiedergeben der bestimmten vordefinierten Audiosequenz für den sprechenden Nutzer und für den Empfänger während des Einfügens.
Das Verfahren nach Anspruch 3, ferner umfassend: Detektieren eines Nutzereingriffs während des Wiedergebens und Einfügens durch eine Bestätigungskontrolleinheit; und auf das Detektieren eines Nutzereingriffs hin, Beenden der Wiedergabe und des Einfügens.
Das Verfahren nach Anspruch 3, weiterhin umfassend Detektieren, dass das elektronische Gespräch über einen Lautsprecher auf der Nutzerseite wiedergegeben wird, durch eine Wiedergabekontrolleinheit; und auf das Detektieren hin, Abschalten des Lautsprechers mindestens während der Wiedergabe der bestimmten vordefinierten Audiosequenz.
Das Verfahren nach Anspruch 1, wobei die bestimmte vordefinierte Audiosequenz direkt nach dem gesprochenen Delimiter in den Spracheingabedatenstrom eingefügt wird, und wobei das Verfahren ferner umfasst: Anzeigen mindestens des Beginns oder des Abschlusses des Einfügens der bestimmten vordefinierten Audiosequenz durch ein hörbares Rückmeldungssignal an den Nutzer.
Das Verfahren nach Anspruch 1, wobei das Bestimmen einer vordefinierten Audiosequenz umfasst: Vergleichen des gesprochenen Delimiters mit einer oder mehr aus einer Substitutionsdatenbank abgerufenen Markierungsphrasen durch die Audio-Substitutionsbestimmungseinheit, wobei die Markierungsphrasen Sprachaufnahmen des Nutzers enthalten können; Detektieren einer Markierungsphrase, die zu dem gesprochenen Delimiter passt; und Abrufen mindestens einer Substitutions-Audiosequenz, die der detektierten passenden Markierungsphrase entspricht, aus der Substitutionsdatenbank, bevor die bestimmte vordefinierte Audiosequenz in den Spracheingabedatenstrom eingefügt wird.
Das Verfahren nach Anspruch 1, wobei die aus der Substitutionsdatenbank abgerufene Substitutions-Audiosequenz Eingangsdaten für einen Sprachsynthetisierer enthält, wobei das Verfahren ferner umfasst: Umsetzen der Eingangsdaten für den Sprachsynthetisierer, um Audiodaten für die Substitutions-Audiosequenz zu erhalten, durch einen Sprachsynthetisierer.
Eine Sprachverarbeitungsvorrichtung, die angepasst ist zur Verarbeitung eines Spracheingabedatenstroms, der von einem während einer elektronischen Unterhaltung sprechenden Nutzer stammt, wobei die Sprachverarbeitungsvorrichtung umfasst: eine Audioüberwachungs- und Detektionseinheit, die angepasst ist zum Durchsuchen des Spracheingabedatenstroms und zum Detektieren eines gesprochenen Delimiters darin; eine Audio-Substitutionsbestimmungseinheit, die angepasst ist zum Bestimmen einer vorher aufgenommenen Audiosequenz, die dem detektierten gesprochenen Delimiter entspricht; eine Audio-Einfügeeinheit, die angepasst ist zum Einfügen der bestimmten vorher aufgenommenen Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom, wobei ein substituierter Sprachdatenstrom entsteht, und wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor und nach dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben; und eine Audioausgabe zum Bereitstellen des substituierten Sprachdatenstroms.
Die Sprachverarbeitungsvorrichtung nach Anspruch 9, ferner umfassend: eine Stimmenverifikationseinheit, die angepasst ist zum Verifizieren, dass der Spracheingabedatenstrom der Stimme eines vordefinierten Nutzers entspricht, und zum Aktivieren mindestens der Audio-Einfügeeinheit, wenn diese Verifikation erfolgreich ist, und zum Deaktivieren mindestens der Audio-Einfügeeinheit anderenfalls.
Die Sprachverarbeitungsvorrichtung nach Anspruch 9, wobei die Audio-Einfügebestimmungseinheit umfasst: eine Aufnahmekontrolleinheit, die angepasst ist zum Aufnehmen der Tondaten des gesprochenen Delimiters und der Substitutions-Audiosequenz; und eine Substitutionsdatenbank, die angepasst ist, Tondaten für mindestens ein Paar aus einem gesprochenen Delimiter und einer zugehörigen Substitutions-Audiosequenz zu speichern.
Die Sprachverarbeitungsvorrichtung nach Anspruch 11, ferner umfassend: eine Spracherzeugungseinheit oder einen Sprachsynthetisierer, der angepasst ist zum Erzeugen der Substitutions-Audiosequenz aus den Tondaten, wobei die erzeugte Substitutions-Audiosequenz mindestens an die Audio-Einfügeeinheit ausgegeben wird.
Die Sprachverarbeitungsvorrichtung nach Anspruch 9, wobei der gesprochene Delimiter aus dem substituierten Sprachdatenstrom entfernt wird, und wobei die Audio-Einfügeeinheit umfasst: eine Verzögerungseinheit, die angepasst ist, den Spracheingabedatenstrom zumindest für die Dauer der Detektion des gesprochenen Delimiters zu verzögern.
Die Sprachverarbeitungsvorrichtung nach Anspruch 9, ferner umfassend: eine Bestätigungskontrolleinheit, wobei die Bestätigungskontrolleinheit angepasst ist, die Sprachverarbeitungsvorrichtung zu steuern, um die bestimmte vorher aufgenommene Audiosequenz für den Nutzer während des Einfügens wiederzugeben.
Die Sprachverarbeitungsvorrichtung nach Anspruch 14, wobei die Bestätigungskontrolleinheit angepasst ist, die Sprachverarbeitungsvorrichtung zu steuern, um einen Nutzereingriff zu detektieren; und auf den Nutzereingriff hin die Wiedergabe der bestimmten vorher aufgenommenen Audiosequenz für den Nutzer und für die Audiosubstitutionseinheit zu beenden.
Die Sprachverarbeitungsvorrichtung nach Anspruch 14, ferner umfassend eine Wiedergabekontrolleinheit, die angepasst ist zum Detektieren, dass das elektronische Gespräch über einen Lautsprecher auf der Nutzerseite wiedergegeben wird; und auf das Detektieren hin, Abschalten des Lautsprechers mindestens während der Wiedergabe der bestimmten vordefinierten Audiosequenz.
Ein mobiles Kommunikationsgerät mit einer Sprachverarbeitungsvorrichtung nach Anspruch 9.
Ein nichtflüchtiges, computerlesbares Speichermedium mit darauf gespeicherten Instruktionen, die bei Ausführung auf einem Computer den Computer veranlassen, ein Verfahren zur Sprachverarbeitung nach Anspruch 1 auszuführen.