DE102019100403A1 - Verfahren zur Sprachverarbeitung und Sprachverarbeitungsvorrichtung - Google Patents

Verfahren zur Sprachverarbeitung und Sprachverarbeitungsvorrichtung Download PDF

Info

Publication number
DE102019100403A1
DE102019100403A1 DE102019100403.9A DE102019100403A DE102019100403A1 DE 102019100403 A1 DE102019100403 A1 DE 102019100403A1 DE 102019100403 A DE102019100403 A DE 102019100403A DE 102019100403 A1 DE102019100403 A1 DE 102019100403A1
Authority
DE
Germany
Prior art keywords
speech
audio
data stream
delimiter
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102019100403.9A
Other languages
English (en)
Inventor
Marios Athineos
Michael Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sennheiser Electronic GmbH and Co KG
Original Assignee
Sennheiser Electronic GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sennheiser Electronic GmbH and Co KG filed Critical Sennheiser Electronic GmbH and Co KG
Publication of DE102019100403A1 publication Critical patent/DE102019100403A1/de
Granted legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/30Aspects of automatic or semi-automatic exchanges related to audio recordings in general
    • H04M2203/306Prerecordings to be used during a voice call
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5166Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends

Abstract

Bei Telefonaten in der Öffentlichkeit zögern Nutzer wegen des Abhörrisikos möglicherweise, private oder geheime Informationen bereitzustellen. Eine Freisprechlösung, um geheime Informationen in elektronische Sprachkommunikationsgeräte einzugeben, basiert auf Sprachverarbeitung. Ein Verfahren zur Sprachverarbeitung eines Spracheingabedatenstroms umfasst die Schritte Durchsuchen des Spracheingabedatenstroms und Detektieren eines gesprochenen Delimiters darin, Bestimmen einer vordefinierten Audiosequenz entsprechend dem detektierten gesprochenen Delimiter, Einfügen der bestimmten vordefinierten Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom, wobei ein substituierter Sprachdatenstrom erhalten wird und wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben, und Bereitstellen des substituierten Sprachdatenstroms an einem Audioausgang an einen Empfänger.

Description

  • Die Erfindung betrifft ein Verfahren zur Sprachverarbeitung und eine Sprachverarbeitungsvorrichtung.
  • Hintergrund
  • Viele Informationen werden per Sprachkommunikation über Telefone oder andere elektronische Sprachkommunikationsdienste wie Sprachnachrichten ausgetauscht. Auch die Sprachsteuerung wird für verschiedene Arten von Geräten oder Diensten immer wichtiger. In solchen Fällen umfasst Sprache häufig private oder geheime Informationen. Zum Beispiel kann es erforderlich sein, dass ein Benutzer eines Telefonbanking-Dienstes seine Bankkontonummer oder ein Passwort mitteilt, was von Lauschern in der Nähe mitgehört werden kann. Daher können Benutzer in einem öffentlichen Raum Datenschutzbedenken haben, wenn sie über Sprachkommunikation private oder geheime Informationen bereitstellen. Bekannte Alternativlösungen für verschiedene Geräte nutzen eine Kombination von Spracheingabe und anderen Eingabe-/Ausgabemodi. Einige Systeme halten bestimmte mitzuteilende Daten geheim, indem sie nicht-verbale Modi wie Text- oder Bildschirmeingabe erfordern. Zum Beispiel kann eine Bank von einem Nutzer fordern, dass er eine Sozialversicherungsnummer (SSN) über die Zahlentastatur des Telefons statt durch Sprache eingibt. Das macht es jedoch für den Nutzer notwendig, auf einer Tastatur zu tippen. Eine Freisprechlösung („hands-free“) zur Eingabe geheimer Information wäre wünschenswert.
  • Zusammenfassung der Erfindung
  • Daher besteht ein zu lösendes Problem darin, Nutzern elektronischer Sprachkommunikationsgeräte, insbesondere in einem öffentlichen Raum, eine Freisprechlösung bereitzustellen, um geheime Informationen in ihr elektronisches Sprachkommunikationsgerät einzugeben.
  • Zumindest dieses Problem wird durch ein Verfahren zur Sprachverarbeitung gemäß Anspruch 1 gelöst. Weiterhin wird das Problem durch eine Sprachverarbeitungsvorrichtung gemäß Anspruch 9 gelöst.
  • Erfindungsgemäß wird eine Kombination aus Schlüsselworterkennung, einer Audiodatenbank und einer Audiosignalverarbeitung für „Audio-Splicing“ oder Audiosynthese benutzt. Das Schlüsselwort oder der Delimiter (Abgrenzer, Trennzeichen) löst das Einfügen geheimer Audioinformation in den Datenstrom aus, ohne dass der Nutzer die geheime Information aussprechen muss.
  • In einer Ausführungsform betrifft die Erfindung ein Verfahren zur automatischen Sprachverarbeitung eines Spracheingabedatenstroms, der von einem während einer elektronischen Unterhaltung sprechenden Nutzer stammt und an einen Empfänger übertragen wird, wobei das Verfahren umfasst: Durchsuchen des Spracheingabedatenstroms und Detektieren eines gesprochenen Delimiters darin durch eine Audioüberwachungs- und Detektionseinheit, Bestimmen einer vordefinierten Audiosequenz entsprechend dem detektierten gesprochenen Delimiter durch eine Audio-Substitutionsbestimmungseinheit, Einfügen der bestimmten vordefinierten Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom durch eine Audio-Einfügeeinheit, wobei ein substituierter Sprachdatenstrom erhalten wird, und wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben, und Bereitstellen des substituierten Sprachdatenstroms zur Ausgabe an den Empfänger.
  • In einer anderen Ausführungsform betrifft die Erfindung eine Sprachverarbeitungsvorrichtung, die angepasst ist zum Verarbeiten eines Spracheingabedatenstroms, der von einem während einer elektronischen Unterhaltung sprechenden Nutzer stammt, wobei die Sprachverarbeitungsvorrichtung umfasst: eine Audioüberwachungs- und Detektionseinheit, die angepasst ist zum Durchsuchen des Spracheingabedatenstroms und zum Detektieren eines gesprochenen Delimiters darin, eine Audio-Substitutionsbestimmungseinheit, die angepasst ist zum Bestimmen einer vorher aufgenommenen Audiosequenz entsprechend dem detektierten gesprochenen Delimiter, eine Audio-Einfügeeinheit, die angepasst ist zum Einfügen der bestimmten vorher aufgenommenen Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom, wobei ein substituierter Sprachdatenstrom entsteht, und wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor und nach dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben, und eine Audioausgabe zum Bereitstellen des substituierten Sprachdatenstroms an einen Empfänger.
  • Vorteilhafterweise stellt die Erfindung eine bequeme und nutzerfreundliche Freisprechlösung für das oben genannte Problem dar, und ermöglicht einen natürlichen Gesprächsablauf ohne strukturierte Dialog-Einfügepunkte. Auch ist es für den Nutzer nicht notwendig, während der Interaktion Betriebsarten umzuschalten. Weiter kann die vorliegende Erfindung Datenschutzbedenken des Nutzers reduzieren.
  • Weitere vorteilhafte Ausführungsbeispiele werden in den Zeichnungen und in der detaillierten Beschreibung offenbart.
  • Figurenliste
    • 1 ein Blockdiagramm einer Vorrichtung zur Sprachverarbeitung;
    • 2 ein Flussdiagramm eines Verfahrens zur automatischen Sprachverarbeitung;
    • 3 ein zeitlicher Ablauf der Sprachverarbeitung in einer ersten Ausführungsform;
    • 4 ein zeitlicher Ablauf der Sprachverarbeitung in einer zweiten Ausführungsform; und
    • 5 ein zeitlicher Ablauf der Sprachverarbeitung mit einer Fehlerkorrektur in einer dritten Ausführungsform.
  • Detaillierte Beschreibung
  • Die vorliegende Beschreibung ermöglicht einen Service, der Datenschutzbedenken von Nutzern reduzieren kann, die Sprachkommunikationsgeräte benutzen, während sie sich in einem öffentlichen Raum befinden. Der Ansatz beinhaltet die Bereitstellung einer Komponente, die in der Lage ist, spezifische gesprochene Delimiter und Schlüsselwörter in einem Eingangsdatenstrom zu detektieren und eine entsprechende Audiosequenz in den Audiostrom einzufügen, bevor das Audio zu seinem endgültigen Ziel geleitet wird. Die Audiosequenz kann auch teilweise oder vollständig den gesprochenen Delimiter ersetzen. In jedem Fall wird die eingefügte oder ersetzende Audiosequenz nahtlos in das Audiosignal integriert. Das heißt, dass Sprache, die sich vor dem gesprochenen Delimiter im Datenstrom befindet, nicht modifiziert wird. Auch Sprache, die sich nach dem gesprochenen Delimiter im Datenstrom befindet, wird nicht modifiziert. Der resultierende Audiodatenstrom wird hier als substituierter Audiodatenstrom bezeichnet.
  • In einigen Ausführungsformen ist die oben erwähnte Komponente eine Inline-Softwarekomponente. In einigen Ausführungsformen wird diese Komponente in einem Telefon eingesetzt, wo sie Zugang zum Eingangsaudiostrom hat und dann ersetztes Audio in den Ausgabestrom einfügt, der anschließend an das Mobilnetzwerk weitergegeben wird. In anderen Ausführungsformen ist diese Komponente eine als Cloud-/Internet-Service implementierte Funktionalität, wobei das Eingangs-Audio vom Ursprungsgerät an den Service gesendet wird. Die Analyse (parsing) und die Audioeinfügung/-ersetzung finden statt, bevor der substituierte Audiodatenstrom zu seinem endgültigen Ziel geleitet wird. In jedem Fall ist die Quelle des Audiostroms ein menschlicher Nutzer, während das endgültige Ziel ein anderer menschlicher Nutzer oder ein maschinelles System sein kann, das eine Audioeingabe akzeptiert.
  • 1 zeigt beispielhaft ein Blockdiagramm einer Sprachverarbeitungsvorrichtung 100, die zum Verarbeiten eines Spracheingabedatenstroms Ain ausgelegt ist, der von einem sprechenden Nutzer stammt, der ein elektronisches Gerät in einer Unterhaltung verwendet. Im Prinzip enthält die Vorrichtung 100 mindestens eine Audioüberwachungs- und Detektionseinheit 120, eine Audio-Substitutionsbestimmungseinheit 130 und eine Audio-Einfügeeinheit 150.
  • Die Audioüberwachungs- und Detektionseinheit 120 durchsucht den Spracheingabedatenstrom Ain und detektiert einen gesprochenen Delimiter darin. Der gesprochene Delimiter kann mit einer spezifischen vordefinierten Äußerung oder Anfangsmarke <init_tag> beginnen, so wie „hashtag“ oder „Doktor Fritz“ , gefolgt von einer vom Nutzer angegebenen Marke <user_tag>, so wie z. B. „Kontonummer“. Die Anfangsmarke kann den Aufmerksamkeitsgrad des Detektors festlegen oder erhöhen, um die vom Nutzer angegebene Marke zu analysieren. In einer Ausführungsform ist die Anfangsmarke generisch für alle Nutzer (außer zur Stimmenverifikation in einigen Ausführungsformen, siehe unten), während die vom Nutzer angegebene Marke vorzugsweise nutzerspezifisch ist. In einer anderen Ausführungsform, die zu einer besseren Erkennungsrate führen kann, ist auch die Anfangsmarke nutzerspezifisch. In jedem Fall wird die vom Nutzer angegebene Marke nur in Kombination mit der Anfangsmarke detektiert; ohne die Anfangsmarke ist die vom Nutzer angegebene Marke kein Delimiter, sondern nur gesprochene Unterhaltung. Die Audioüberwachungs- und Detektionseinheit 120 kann auch den detektierten gesprochenen Delimiter einem korrespondierenden Bezeichner 115 zuordnen. Der Bezeichner, der dem gesprochenen Delimiter entspricht, oder der gesprochene Delimiter selbst, wird der Audio-Substitutionsbestimmungseinheit 130 zugeführt.
  • Die Audio-Substitutionsbestimmungseinheit 130 bestimmt 220 eine vorher aufgenommene Audiosequenz entsprechend dem detektierten gesprochenen Delimiter und stellt sie der Audio-Einfügeeinheit 150 zur Verfügung. Die vorher aufgenommene Audiosequenz kann vorher von dem Nutzer aufgezeichnet worden sein, so dass der Nutzer weiß, welcher gesprochene Delimiter zum Bestimmen einer gerade benötigten, spezifischen aufgenommenen Audiosequenz führt. Zum Beispiel weiß der Nutzer, dass eine Audiosequenz mit seiner vorher aufgezeichneten Kontonummer bestimmt wird, wenn der vom Nutzer angegebene gesprochene Delimiter „Kontonummer“ lautet. Jedoch kann die aufgenommene Audiosequenz vor anderen Personen, die sich in der Nähe des Nutzers befinden, geheim gehalten werden, da der Nutzer sie während eines Telefonanrufs nicht laut sagen muss.
  • Die Audio-Einfügeeinheit 150 fügt die bestimmte, vorher aufgenommenen Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom ein, so dass ein substituierter Sprachdatenstrom Aout erhalten wird. Vorteilhafterweise können Sprachabschnitte des Spracheingabedatenstroms vor und nach dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben, so dass ein natürlicher Gesprächsfluss ohne strukturierte Dialog-Einfügepunkte erhalten werden kann. In einigen Ausführungsformen kann der Spracheingabedatenstrom vor dem Einfügen oder Ersetzen durch eine Verzögerungseinheit 160 verzögert werden. Schließlich wird der substituierte Sprachdatenstrom Aout an einem Audioausgang 190 zur weiteren Verarbeitung oder zur Übertragung an den Empfänger bereitgestellt. Obwohl der Nutzer bei einem Telefongespräch öffentlich nur den gesprochenen Delimiter äußert, hört der Empfänger somit die eingefügte vorher aufgenommene Audiosequenz und erhält die zusätzlichen geheimen Informationen.
  • In unterschiedlichen Ausführungsformen kann der gesprochene Delimiter an den Empfänger übertragen werden oder nicht. In einer Ausführungsform wird die Audiosequenz mit der natürlichen Stimme des Nutzers aufgenommen. In einer anderen Ausführungsform wird die Audiosequenz durch Sprachsynthese erhalten, z. B. aus parametrisierten Daten, die in der Audio-Einfügebestimmungseinheit 130 gespeichert werden können.
  • In einer Ausführungsform enthält die Audio-Einfügebestimmungseinheit 130 eine Substitutionsdatenbank 131, die angepasst ist, mindestens ein Paar aus einem gesprochenen Delimiter oder einer entsprechenden Kennung und Tondaten einer zugehörigen Substitutions-Audiosequenz zu speichern. In einer Ausführungsform enthält die Audio-Einfügebestimmungseinheit 130 eine Aufnahmekontrolleinheit 135, die zum Aufnehmen der Tondaten mindestens der Substitutions-Audiosequenz in der Substitutionsdatenbank 131 angepasst ist. In einer Ausführungsform können auch Tondaten des gesprochenen Delimiters (oder zumindest der Nutzermarke user_tag) aufgenommen werden. In einer anderen Ausführungsform wird eine jeweilige Kennung des gesprochenen Delimiters zusammen mit der Substitutions-Audiosequenz in der Substitutionsdatenbank 131 gespeichert. Zum Beispiel kann eine Tabelle 1315, die zwei oder mehr gesprochene Delimiter (oder Markierungsphrasen) und ihre jeweiligen Substitutions-Audiosequenzen enthält, in der Substitutionsdatenbank 131 gespeichert werden. In einer Ausführungsform enthält die Tabelle 1315 nur die Nutzermarken- (user_tag)-Anteile der gesprochenen Delimiter und ihre entsprechenden Substitutions-Audiosequenzen.
  • In einer Ausführungsform enthält die Sprachverarbeitungsvorrichtung 100 außerdem eine Spracherzeugungseinheit oder einen Sprachsynthetisierer 140, der zum Erzeugen (rendern) der Substitutions-Audiosequenz aus den von der Substitutionsdatenbank 131 abgerufenen Tondaten angepasst ist. Die erzeugte Substitutions-Audiosequenz 145 wird mindestens der Audio-Einfügeeinheit 150 zur Verfügung gestellt. Sie kann auch dem Nutzer zum Abhören bereitgestellt werden. In einer Ausführungsform enthält die Sprachverarbeitungsvorrichtung 100 außerdem eine Wiedergabeeinheit, z. B. als Teil einer Bestätigungskontrolleinheit 180, die eine Wiedergabe der bestimmten und erzeugten Audiosequenz für den Nutzer ermöglicht, während sie in den Audiostrom eingefügt wird. Dies gibt dem Nutzer eine zusätzliche Rückmeldung. Zusätzlich kann in einer Ausführungsform der Nutzer im Fall eines Fehlers eingreifen, z. B. indem er „Stopp“ sagt oder während der Wiedergabe einen Befehl äußert. Die Bestätigungskontrolleinheit 180 kann den Nutzereingriff detektieren und daraufhin zumindest das Einfügen beenden. Der Eingriffsbefehl kann an den Empfänger übermittelt werden oder nicht.
  • In einer Ausführungsform enthält die Vorrichtung 100 ferner eine Wiedergabekontrolleinheit 185, die eine Wiedergabe der Einfügung über Lautsprecher auf der Nutzerseite verhindert. Dies bietet eine zusätzliche Sicherheit gegen das Abhören.
  • In einer Ausführungsform enthält die Vorrichtung 100 ferner eine Stimmenverifikationseinheit 170, die angepasst ist, zu überprüfen, dass der Spracheingabedatenstrom An der Stimme eines vordefinierten Nutzers entspricht. Die Stimmenverifikationseinheit 170 kann den Nutzer auch durch andere Mittel identifizieren, z. B. einen Fingerabdruck. Abhängig vom Überprüfungsergebnis können andere Module, wie die Audio-Einfügeeinheit 150, die Audio-Substitutionsbestimmungseinheit 130 oder die Spracherzeugungseinheit 140 aktiviert oder deaktiviert werden. Zum Beispiel kann die Audio-Einfügeeinheit 150 aktiviert werden, wenn die Überprüfung erfolgreich ist, und anderenfalls deaktiviert, so dass die Audiosequenz nicht in den Ausgangs-Sprachdatenstrom eingefügt wird. Dies verhindert einen Missbrauch durch andere Personen, die gelauscht und den gesprochenen Delimiter des Nutzers gehört haben können, und bietet daher eine zusätzliche Sicherheitsstufe für den Nutzer.
  • 2 a) zeigt ein Flussdiagramm eines Verfahrens 200 zur automatischen Sprachverarbeitung eines Spracheingabedatenstroms Ain in verschiedenen Ausführungsformen. Der Spracheingabedatenstrom Ain kann von einem sprechenden Nutzer stammen, der in einem Gespräch ein elektronisches Gerät benutzt, und übertragen werden an einen Empfänger, der ein Mensch oder eine Maschine sein kann. Das Verfahren umfasst die Schritte Überwachen (Scannen) 210 des Spracheingabedatenstroms und Detektieren 215 eines gesprochenen Delimiters darin, was durch die Audioüberwachungs- und Detektionseinheit 120 ausgeführt werden kann. Das Verfahren umfasst ferner die Schritte Bestimmen 220 einer vordefinierten Audiosequenz gemäß dem detektierten gesprochenen Delimiter, was durch die Audio-Substitutionsbestimmungseinheit 130 ausgeführt werden kann, und Einfügen 230 der bestimmten vordefinierten Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom. Dies kann durch die Audio-Einfügeeinheit 150 ausgeführt werden. Als Ergebnis wird ein substituierter Sprachdatenstrom erhalten, wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor und nach dem gesprochenen Delimiter im substituierten Sprachdatenstrom verbleiben. Der gesprochene Delimiter selbst kann darin erhalten bleiben oder nicht. Schließlich wird der substituierte Sprachdatenstrom Aout zur Ausgabe an den Empfänger bereitgestellt 290.
  • In einer Ausführungsform enthält das Verfahren 200 außerdem einen Schritt zum Verifizieren 270, dass der Spracheingabedatenstrom von einem bestimmten Nutzer stammt, wobei Spracheigenheiten des Spracheingabedatenstroms Ain verglichen werden mit Spracheigenheiten des bestimmten Nutzers, die vorher gespeichert oder analysiert wurden. Dies kann durch eine Stimmenverifikationseinheit 170 ausgeführt werden. Einer oder mehr der Schritte 215,220,230, vorzugsweise mindestens der Schritt zum Einfügen 230 der bestimmten vordefinierten Audiosequenz, wird deaktiviert, falls das Verifizieren fehlschlägt. Alternativ kann in diesem Fall das Verfahren beendet werden. Anderenfalls, wenn die Verifikation erfolgreich ist, werden diese Schritte aktiviert.
  • In einer Ausführungsform enthält das Verfahren 200 außerdem einen Schritt zum Wiedergeben 240 der bestimmten und eingefügten Audiosequenz an den Nutzer, während sie an den Empfänger übertragen wird. Das hat den Vorteil, dass der Nutzer die eingefügte Audiosequenz hören, sie überprüfen und danach nahtlos weitersprechen kann. Die eingefügte Audiosequenz kann auch als separate Ausgabe A'out für den Nutzer bereitgestellt werden, z. B. in Fällen, in denen die Stimme des Nutzers normalerweise nicht für ihn selbst zurückgemeldet wird. In einer Ausführungsform wird der gesprochene Delimiter aus dem substituierten Sprachdatenstrom Aout entfernt. Das kann den gesprochenen Delimiter vor dem Empfänger geheim halten und kann auch angenehmer für den Empfänger sein, aber kann eine Verzögerung des Datenstroms zumindest für die Dauer der Detektion des gesprochenen Delimiters erforderlich machen. In einer anderen Ausführungsform verbleibt der gesprochene Delimiter mindestens teilweise im substituierten Sprachdatenstrom, und die bestimmte vordefinierte Audiosequenz wird direkt nach dem gesprochenen Delimiter eingefügt. Auf Grund der festen vordefinierten Anfangsmarke können maschinelle Empfänger so angelernt werden, dass sie den gesprochenen Delimiter ignorieren.
  • Ein weiterer Vorteil der Tatsache, dass der Nutzer die eingefügte Audiosequenz überprüfen kann, besteht darin, dass der Nutzer im Fehlerfall eingreifen kann. Wenn z. B. der Nutzer fälschlicherweise eine unbeabsichtigte Markierungsphrase benutzt, kann er oder sie den Fehler beim Abhören der eingefügten Audiosequenz bemerken und das System unterbrechen. In einer Ausführungsform enthält das Verfahren außerdem eine Bestätigungskontrolle mit den Schritten Erkennen 245 eines Nutzereingriffs während der Wiedergabe und des Einfügens der Audiosequenz, wie oben beschrieben, und auf das Erkennen hin Beenden 248 der Wiedergabe 240 und/oder des Einfügens 230.
  • In einer Ausführungsform kann eine Wiedergabekontrolleinheit 185 detektieren 246, dass das elektronische Gespräch über einen Lautsprecher auf der Nutzerseite wiedergegeben wird, und daraufhin die Wiedergabe der Audiosequenz verhindern, z. B. den Lautsprecher zumindest während der Wiedergabe abschalten 249.
  • Wie in 2 b) dargestellt, kann der Schritt des Bestimmens 220 der vordefinierten Audiosequenz in einer Ausführungsform das Vergleichen 221 des gesprochenen Delimiters mit einem oder mehreren aus einer Substitutionsdatenbank 131 abgerufenen Markierungsphrasen, das Detektieren 223 einer zum gesprochenen Delimiter passenden Markierungsphrase, und das Abrufen 225 mindestens einer Substitutions-Audiosequenz, die der detektierten passenden Markierungsphrase entspricht, aus der Substitutionsdatenbank umfassen. Die Markierungsphrasen und/oder die Substitutions-Audiosequenzen können Sprachaufnahmen des Nutzers enthalten. Alternativ können die aus der Substitutionsdatenbank abgerufenen Substitutions-Audiosequenzen in einer Ausführungsform Daten enthalten, die als Eingangsdaten für den Sprachsynthetisierer formatiert sind, einschließlich z.B. parametrischer Daten. In diesem Fall kann das Verfahren ein Umsetzen (Rendern) 227 der Sprachsynthetisierer-Eingangsdaten durch einen Sprachsynthetisierer 140 umfassen, um Audiodaten für die Substitutions-Audiosequenz zu erhalten.
  • 3 zeigt in einer ersten Ausführungsform einen zeitlichen Ablauf einer Sprachverarbeitung. Die obere, mit Uin bezeichnete Linie bezieht sich auf Spracheingaben vom Nutzer, während die untere, mit Rcp bezeichnete Linie Ausgaben an den Empfänger (und potentiell auch zurück an den Nutzer, z.B. wenn das Telefon dem Nutzer seine oder ihre eigene Stimme wiedergibt) repräsentiert. Während der Nutzer spricht, wird ein erster Sprachabschnitt Sp1 mit einer unvermeidlichen kleinen Verzögerung an den Empfänger übertragen, wie gewöhnlich. Wenn der Nutzer den gesprochenen Delimiter oder die Marke T ausspricht, wird dies detektiert, wie oben beschrieben. In diesem Beispiel wird auch die Marke T an den Empfänger übertragen. Unmittelbar nach der Detektion wird eine Substitutions-Audiosequenz R bestimmt, wiedergegeben und in den Sprachdatenstrom eingefügt, um den substituierten Sprachdatenstrom zu erhalten. Letzterer wird an den Empfänger übertragen, wie in der unteren Zeitleiste Rcp gezeigt.
  • In diesem Beispiel wird die eingefügte Audiosequenz nicht für den Nutzer wiedergegeben, so dass der Nutzer möglicherweise abschätzen muss, wann sie vorbei ist, und während dieser Zeit W1 warten muss. Der Nutzer kann eine Rückmeldung bekommen, z.B. ein hörbares Rückmeldungssignal Fb1 wie einen Piepton, wenn die Wiedergabe der Substitutions-Audiosequenz vorüber oder fast vorüber ist. Er oder sie kann daher weitersprechen, möglicherweise nach einer kurzen Reaktionszeit (nicht dargestellt), und nachfolgende Sprachabschnitte Sp2 werden wieder wie üblich ohne Modifikation an den Empfänger übertragen. Es kann auch vorteilhaft sein, dem Nutzer immer eine Rückmeldung zu geben, wenn ein gesprochener Delimiter detektiert wurde, z.B. ein hörbares Rückmeldungssignal wie ein Piepen.
  • 4 zeigt in einer zweiten Ausführungsform einen zeitlichen Ablauf einer Sprachverarbeitung. Zusätzlich ist eine dritte Linie Uout zwischen der oberen und der unten Linie dargestellt, die Tonausgaben zurück an den Nutzer repräsentiert. In diesem Beispiel wird die Substitutions-Audiosequenz R auch für den Nutzer wiedergegeben, so dass der Nutzer während des Zuhörens warten W1 und bemerken kann, wenn die Einfügung beendet ist. Nach einer kurzen Reaktionszeit, die beim Empfänger zu einer kurzen Zeit der Stille Qr nach der Substitutions-Audiosequenz R führen kann, kann der Nutzer weitersprechen. Die nachfolgenden Sprachabschnitte Sp2 werden wieder ohne Modifikation an den Empfänger übertragen. Der Nutzer kann auch weitersprechen kurz bevor die Wiedergabe der Substitutions-Audiosequenz vorüber ist, so dass die kurze Zeit der Stille Qr nach der Substitutions-Audiosequenz R vermieden wird und das Gespräch für den Empfänger noch natürlicher klingt. Der Nutzer sollte jedoch nicht zu früh weitersprechen, da in einer Ausführungsform das System dann die nachfolgende Sprache Sp2 als Nutzereingriff interpretieren und die Einfügung beenden könnte.
  • In einem Beispiel, in dem die Anfangsmarke (hashtag) „Dr. Fritz“ und die Nutzermarke (user tag) „Bankkonto“ lautet, kann der Nutzer während eines Telefongesprächs sagen: „Ich werde Ihnen nun mein Dr. Fritz Bankkonto - - - geben und einhundert Euro überweisen.“ Das Sprachverarbeitungssystem übersetzt den gesprochenen Delimiter, der die Anfangsmarke und die Nutzermarke umfasst, in die tatsächliche Kontonummer und fügt sie sofort ein, so dass der Empfänger am anderen Ende hören kann (mit der eingefügten Substitutions-Audiosequenz in eckigen Klammern) „Ich werde Ihnen nun mein Dr. Fritz Bankkonto <235408282> geben und einhundert Euro überweisen.“ In einigen Ausführungsformen kann, wie oben beschrieben, mindestens die Substitutions-Audiosequenz „<235408282>“ auch für den Nutzer wiedergegeben werden.
  • In einem anderen Beispiel kann die Übertragung verzögert sein, so dass der gesprochene Delimiter beseitigt werden kann. Der Nutzer kann während des Telefongesprächs sagen: „Ich werde Ihnen nun meine Kontonummer geben: Dr. Fritz Bankkonto und einhundert Euro überweisen“, und das Sprachverarbeitungssystem übersetzt den gesprochenen Delimiter durch die tatsächliche Kontonummer. In diesem Fall kann der Empfänger am anderen Ende hören (mit der eingefügten Substitutions-Audiosequenz in eckigen Klammern) „Ich werde Ihnen nun meine Kontonummer geben: <235408282> und einhundert Euro überweisen.“ Wieder kann es vorteilhaft sein, wenigstens die Substitutions-Audiosequenz „<235408282>“ für den Nutzer wiederzugeben.
  • 5 zeigt in einer dritten Ausführungsform einen zeitlichen Ablauf einer Sprachverarbeitung mit einer Fehlerkorrektur. Nachdem der Nutzer eine falsche Marke Te (d.h. eine existierende, aber unbeabsichtigte Marke) geäußert hat, wird die entsprechende falsche Substitutions-Audiosequenz Re bestimmt, eingefügt und wiedergegeben. Da aber die Substitutions-Audiosequenz Re für den Nutzer wiedergegeben wird, kann er oder sie die Wiedergabe und Einfügung zum Zeitpunkt ted unterbrechen, indem er oder sie etwas wie z.B. „Stopp“ sagt. In einer Ausführungsform kann der Nutzer irgendetwas sagen und das System wird sofort reagieren. In einer anderen Ausführungsform reagiert das System nur auf bestimmte, vordefinierte Stoppworte, so dass es einige Zeit Ts benötigt, um ein Stoppwort zu detektieren. Folglich kann auch der Empfänger mindestens einen Teil der wiedergegebenen falschen Substitutions-Audiosequenz Re hören. Allerdings können gewöhnlich sowohl menschliche Empfänger wie auch maschinelle Empfänger bemerken, dass die Substitutions-Audiosequenz Re nicht korrekt ist. Nach dem Unterbrechungs-Sprachabschnitt Ts kann der Nutzer in diesem Beispiel sofort die korrekte, beabsichtigte Marke T sagen, und die zugehörige beabsichtigte Substitutions-Audiosequenz R wird bestimmt, eingefügt und wiedergegeben. Der Nutzer kann auch eine kurze Zeit tp vor dem Ende der Wiedergabe der Substitutions-Audiosequenz R weitersprechen, wie oben erwähnt.
  • Allgemein kann es vorteilhaft sein, zu detektieren, ob das Telefongespräch über eine Freisprecheinrichtung mit Lautsprecher auf der Nutzerseite stattfindet, und den Lautsprecher abschalten, wenn der gesprochene Delimiter detektiert wurde oder während die Substitutions-Audiosequenz eingefügt wird. Anderenfalls kann die geheime Substitutions-Audiosequenz von Lauschern in der Nähe abgehört werden.
  • Zu beachten ist, dass die 3-5 die Zeitabläufe nur prinzipiell zeigen. Die Längen der Marken, Substitutions-Audiosequenzen und Verzögerungen relativ zueinander können unterschiedlich sein.
  • In einer Ausführungsform kann der Nutzer eine Anlernphase (training) durchführen, um einen Satz von Delimitern, Audiomarken und einzufügenden Audioelementen zu konfigurieren und zu verwalten. Diese können in der Substitutionsdatenbank gespeichert werden. Der Nutzer kann z.B. seine eigene Delimiter-Äußerung aufnehmen, so dass das System die gesprochenen Delimiter besser erkennt.
  • Der Sprachprozessor 100 kann in Ausführungsformen auf einer beliebigen Anzahl von Technologien aufgebaut sein, die von konventionellen Signalverarbeitungstechniken zur Spracherkennung bis zu Ansätzen, die auf lernenden Maschinen (machine learning) basieren, reichen können. In einigen Ausführungsformen können eine oder mehrere der oben beschriebenen Einheiten, so wie die Audioüberwachungs- und Detektionseinheit 120, die Audio-Substitutionsbestimmungseinheit 130, die Aufnahmekontrolleinheit 135, die Spracherzeugungseinheit oder der Sprachsynthetisierer 140, die Audio-Einfügeeinheit 150, die Verzögerungseinheit 160, die Stimmenverifikationseinheit 170, die Bestätigungskontrolleinheit 180 und die Wiedergabekontrolleinheit 185, durch einen oder mehrere Prozessoren implementiert werden, z.B. Signalprozessoren und/oder Sprachprozessoren, die durch Software konfiguriert werden können.
  • In einer Ausführungsform betrifft die Erfindung ein nichtflüchtiges, computerlesbares Speichermedium mit darauf gespeicherten Anweisungen, die bei Ausführung auf einem Computer den Computer dazu veranlassen, ein Verfahren zur Sprachverarbeitung wie oben beschrieben durchzuführen.
  • Die Erfindung ist vorteilhaft für Sprachkommunikationssysteme, die allgemein ein gewisses Maß an Privatsphäre verlangen, und insbesondere für Dienste, die Sprachsteuerung nutzen, weil ausgewählte sensible Wörter und/oder Sätze eines Gesprächs verschleiert werden. Somit kann die Bedeutung einer Unterhaltung für einen lauschenden Dritten in zufriedenstellender Weise verringert werden. Zu den weiteren Vorteilen der Erfindung gehört, dass die Hände frei bleiben und eine fließende sprachliche Konversation in einem einzigen Modus ermöglicht wird. Ein weiterer Vorteil ist, dass die Spracherkennungsleistung, wenn der Nutzer die Marken zur Verfügung stellt, besser sein kann und höhere Erkennungsraten aufweisen kann als mit Standardmarken. Darüber hinaus erzeugt die Erfindung nur minimale Störung des sprachlichen Interaktionsflusses beim Nutzer.
  • Es ist klar, dass verschiedene oben beschriebene Ausführungsformen vollständig oder teilweise kombiniert werden können. Selbst wenn eine solche Kombination hier nicht im Detail erwähnt ist, soll sie als Ausführungsform der vorliegenden Erfindung angesehen werden.

Claims (18)

  1. Ein Verfahren zur automatischen Sprachverarbeitung eines Spracheingabedatenstroms, der von einem während einer elektronischen Unterhaltung sprechenden Nutzer stammt, wobei das Verfahren umfasst: Durchsuchen des Spracheingabedatenstroms und Detektieren eines gesprochenen Delimiters darin durch eine Audioüberwachungs- und Detektionseinheit; Bestimmen einer vordefinierten Audiosequenz entsprechend dem detektierten gesprochenen Delimiter durch eine Audio-Substitutionsbestimmungseinheit; Einfügen der bestimmten vordefinierten Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom durch eine Audio-Einfügeeinheit, wobei ein substituierter Sprachdatenstrom erhalten wird, und wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor und nach dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben; und Bereitstellen des substituierten Sprachdatenstroms an einem Audioausgang zur Ausgabe an den Empfänger.
  2. Das Verfahren nach Anspruch 1, ferner umfassend: Verifizieren durch eine Stimmenverifikationseinheit, dass der Spracheingabedatenstrom von einem vordefinierten Nutzer stammt, wobei Spracheigenheiten des Spracheingabedatenstroms verglichen werden mit Spracheigenheiten des bestimmten Nutzers, und wobei mindestens der Schritt des Einfügens der bestimmten vordefinierten Audiosequenz deaktiviert wird, falls das Verifizieren fehlschlägt, und anderenfalls aktiviert wird.
  3. Das Verfahren nach Anspruch 1, wobei die bestimmte vordefinierte Audiosequenz direkt nach dem gesprochenen Delimiter in den Spracheingabedatenstrom eingefügt wird, und wobei das Verfahren ferner umfasst: Wiedergeben der bestimmten vordefinierten Audiosequenz für den sprechenden Nutzer und für den Empfänger während des Einfügens.
  4. Das Verfahren nach Anspruch 3, ferner umfassend: Detektieren eines Nutzereingriffs während des Wiedergebens und Einfügens durch eine Bestätigungskontrolleinheit; und auf das Detektieren eines Nutzereingriffs hin, Beenden der Wiedergabe und des Einfügens.
  5. Das Verfahren nach Anspruch 3, weiterhin umfassend Detektieren, dass das elektronische Gespräch über einen Lautsprecher auf der Nutzerseite wiedergegeben wird, durch eine Wiedergabekontrolleinheit; und auf das Detektieren hin, Abschalten des Lautsprechers mindestens während der Wiedergabe der bestimmten vordefinierten Audiosequenz.
  6. Das Verfahren nach Anspruch 1, wobei die bestimmte vordefinierte Audiosequenz direkt nach dem gesprochenen Delimiter in den Spracheingabedatenstrom eingefügt wird, und wobei das Verfahren ferner umfasst: Anzeigen mindestens des Beginns oder des Abschlusses des Einfügens der bestimmten vordefinierten Audiosequenz durch ein hörbares Rückmeldungssignal an den Nutzer.
  7. Das Verfahren nach Anspruch 1, wobei das Bestimmen einer vordefinierten Audiosequenz umfasst: Vergleichen des gesprochenen Delimiters mit einer oder mehr aus einer Substitutionsdatenbank abgerufenen Markierungsphrasen durch die Audio-Substitutionsbestimmungseinheit, wobei die Markierungsphrasen Sprachaufnahmen des Nutzers enthalten können; Detektieren einer Markierungsphrase, die zu dem gesprochenen Delimiter passt; und Abrufen mindestens einer Substitutions-Audiosequenz, die der detektierten passenden Markierungsphrase entspricht, aus der Substitutionsdatenbank, bevor die bestimmte vordefinierte Audiosequenz in den Spracheingabedatenstrom eingefügt wird.
  8. Das Verfahren nach Anspruch 1, wobei die aus der Substitutionsdatenbank abgerufene Substitutions-Audiosequenz Eingangsdaten für einen Sprachsynthetisierer enthält, wobei das Verfahren ferner umfasst: Umsetzen der Eingangsdaten für den Sprachsynthetisierer, um Audiodaten für die Substitutions-Audiosequenz zu erhalten, durch einen Sprachsynthetisierer.
  9. Eine Sprachverarbeitungsvorrichtung, die angepasst ist zur Verarbeitung eines Spracheingabedatenstroms, der von einem während einer elektronischen Unterhaltung sprechenden Nutzer stammt, wobei die Sprachverarbeitungsvorrichtung umfasst: eine Audioüberwachungs- und Detektionseinheit, die angepasst ist zum Durchsuchen des Spracheingabedatenstroms und zum Detektieren eines gesprochenen Delimiters darin; eine Audio-Substitutionsbestimmungseinheit, die angepasst ist zum Bestimmen einer vorher aufgenommenen Audiosequenz, die dem detektierten gesprochenen Delimiter entspricht; eine Audio-Einfügeeinheit, die angepasst ist zum Einfügen der bestimmten vorher aufgenommenen Audiosequenz bei dem gesprochenen Delimiter in den Spracheingabedatenstrom, wobei ein substituierter Sprachdatenstrom entsteht, und wobei Sprachabschnitte des Spracheingabedatenstroms mindestens vor und nach dem gesprochenen Delimiter in dem substituierten Sprachdatenstrom verbleiben; und eine Audioausgabe zum Bereitstellen des substituierten Sprachdatenstroms.
  10. Die Sprachverarbeitungsvorrichtung nach Anspruch 9, ferner umfassend: eine Stimmenverifikationseinheit, die angepasst ist zum Verifizieren, dass der Spracheingabedatenstrom der Stimme eines vordefinierten Nutzers entspricht, und zum Aktivieren mindestens der Audio-Einfügeeinheit, wenn diese Verifikation erfolgreich ist, und zum Deaktivieren mindestens der Audio-Einfügeeinheit anderenfalls.
  11. Die Sprachverarbeitungsvorrichtung nach Anspruch 9, wobei die Audio-Einfügebestimmungseinheit umfasst: eine Aufnahmekontrolleinheit, die angepasst ist zum Aufnehmen der Tondaten des gesprochenen Delimiters und der Substitutions-Audiosequenz; und eine Substitutionsdatenbank, die angepasst ist, Tondaten für mindestens ein Paar aus einem gesprochenen Delimiter und einer zugehörigen Substitutions-Audiosequenz zu speichern.
  12. Die Sprachverarbeitungsvorrichtung nach Anspruch 11, ferner umfassend: eine Spracherzeugungseinheit oder einen Sprachsynthetisierer, der angepasst ist zum Erzeugen der Substitutions-Audiosequenz aus den Tondaten, wobei die erzeugte Substitutions-Audiosequenz mindestens an die Audio-Einfügeeinheit ausgegeben wird.
  13. Die Sprachverarbeitungsvorrichtung nach Anspruch 9, wobei der gesprochene Delimiter aus dem substituierten Sprachdatenstrom entfernt wird, und wobei die Audio-Einfügeeinheit umfasst: eine Verzögerungseinheit, die angepasst ist, den Spracheingabedatenstrom zumindest für die Dauer der Detektion des gesprochenen Delimiters zu verzögern.
  14. Die Sprachverarbeitungsvorrichtung nach Anspruch 9, ferner umfassend: eine Bestätigungskontrolleinheit, wobei die Bestätigungskontrolleinheit angepasst ist, die Sprachverarbeitungsvorrichtung zu steuern, um die bestimmte vorher aufgenommene Audiosequenz für den Nutzer während des Einfügens wiederzugeben.
  15. Die Sprachverarbeitungsvorrichtung nach Anspruch 14, wobei die Bestätigungskontrolleinheit angepasst ist, die Sprachverarbeitungsvorrichtung zu steuern, um einen Nutzereingriff zu detektieren; und auf den Nutzereingriff hin die Wiedergabe der bestimmten vorher aufgenommenen Audiosequenz für den Nutzer und für die Audiosubstitutionseinheit zu beenden.
  16. Die Sprachverarbeitungsvorrichtung nach Anspruch 14, ferner umfassend eine Wiedergabekontrolleinheit, die angepasst ist zum Detektieren, dass das elektronische Gespräch über einen Lautsprecher auf der Nutzerseite wiedergegeben wird; und auf das Detektieren hin, Abschalten des Lautsprechers mindestens während der Wiedergabe der bestimmten vordefinierten Audiosequenz.
  17. Ein mobiles Kommunikationsgerät mit einer Sprachverarbeitungsvorrichtung nach Anspruch 9.
  18. Ein nichtflüchtiges, computerlesbares Speichermedium mit darauf gespeicherten Instruktionen, die bei Ausführung auf einem Computer den Computer veranlassen, ein Verfahren zur Sprachverarbeitung nach Anspruch 1 auszuführen.
DE102019100403.9A 2018-01-09 2019-01-09 Verfahren zur Sprachverarbeitung und Sprachverarbeitungsvorrichtung Granted DE102019100403A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/865,375 2018-01-09
US15/865,375 US10861463B2 (en) 2018-01-09 2018-01-09 Method for speech processing and speech processing device

Publications (1)

Publication Number Publication Date
DE102019100403A1 true DE102019100403A1 (de) 2019-07-11

Family

ID=66995602

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019100403.9A Granted DE102019100403A1 (de) 2018-01-09 2019-01-09 Verfahren zur Sprachverarbeitung und Sprachverarbeitungsvorrichtung

Country Status (2)

Country Link
US (1) US10861463B2 (de)
DE (1) DE102019100403A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11328085B2 (en) * 2020-05-13 2022-05-10 Capital One Services, Llc Securing confidential information during a telecommunication session

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0634042B1 (de) * 1992-03-06 2001-07-11 Dragon Systems Inc. Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
US6862713B1 (en) * 1999-08-31 2005-03-01 International Business Machines Corporation Interactive process for recognition and evaluation of a partial search query and display of interactive results
US8856236B2 (en) * 2002-04-02 2014-10-07 Verizon Patent And Licensing Inc. Messaging response system
DE60326217D1 (de) * 2002-04-02 2009-04-02 Verizon Business Global Llc Nachrichtenantwortsystem
KR20050118733A (ko) * 2003-04-14 2005-12-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법
JP4167533B2 (ja) * 2003-04-16 2008-10-15 Necインフロンティア株式会社 通話システム
US7478044B2 (en) * 2004-03-04 2009-01-13 International Business Machines Corporation Facilitating navigation of voice data
US7650628B2 (en) * 2004-10-21 2010-01-19 Escription, Inc. Transcription data security
US20060200350A1 (en) * 2004-12-22 2006-09-07 David Attwater Multi dimensional confidence
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US20080167879A1 (en) * 2006-10-16 2008-07-10 Du Bois Denis D Speech delimiting processing system and method
US8099287B2 (en) * 2006-12-05 2012-01-17 Nuance Communications, Inc. Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands
JP4958120B2 (ja) * 2009-02-24 2012-06-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 支援装置、支援プログラム、および支援方法
US8381107B2 (en) * 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US20110218798A1 (en) * 2010-03-05 2011-09-08 Nexdia Inc. Obfuscating sensitive content in audio sources
WO2012075175A1 (en) * 2010-11-30 2012-06-07 Towson University Audio based human-interaction proof
US9253304B2 (en) * 2010-12-07 2016-02-02 International Business Machines Corporation Voice communication management
JP2013080015A (ja) * 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
US20130266127A1 (en) * 2012-04-10 2013-10-10 Raytheon Bbn Technologies Corp System and method for removing sensitive data from a recording
GB2503878A (en) * 2012-07-09 2014-01-15 Nds Ltd Generating interstitial scripts for video content, based on metadata related to the video content
WO2014112110A1 (ja) * 2013-01-18 2014-07-24 株式会社東芝 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム
US9307084B1 (en) * 2013-04-11 2016-04-05 Noble Systems Corporation Protecting sensitive information provided by a party to a contact center
US9263038B2 (en) * 2013-10-03 2016-02-16 Marchex, Inc. System and method for analyzing and classifying calls without transcription via keyword spotting
US20150127340A1 (en) * 2013-11-07 2015-05-07 Alexander Epshteyn Capture
US9177174B1 (en) * 2014-02-06 2015-11-03 Google Inc. Systems and methods for protecting sensitive data in communications
JP2016181018A (ja) * 2015-03-23 2016-10-13 ソニー株式会社 情報処理システムおよび情報処理方法
US10387548B2 (en) * 2015-04-16 2019-08-20 Nasdaq, Inc. Systems and methods for transcript processing
US9544438B1 (en) * 2015-06-18 2017-01-10 Noble Systems Corporation Compliance management of recorded audio using speech analytics
US9881613B2 (en) * 2015-06-29 2018-01-30 Google Llc Privacy-preserving training corpus selection
CN106326303B (zh) * 2015-06-30 2019-09-13 芋头科技(杭州)有限公司 一种口语语义解析系统及方法
CN106487514A (zh) * 2015-09-01 2017-03-08 北京三星通信技术研究有限公司 语音通信加密方法、解密方法及其装置
US10002639B1 (en) * 2016-06-20 2018-06-19 United Services Automobile Association (Usaa) Sanitization of voice records
US9984689B1 (en) * 2016-11-10 2018-05-29 Linearhub Apparatus and method for correcting pronunciation by contextual recognition
JP6812843B2 (ja) * 2017-02-23 2021-01-13 富士通株式会社 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
WO2019010250A1 (en) * 2017-07-05 2019-01-10 Interactions Llc REAL-TIME CONFIDENTIALITY FILTER
US20190042645A1 (en) * 2017-08-04 2019-02-07 Speechpad, Inc. Audio summary
US10311874B2 (en) * 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10529336B1 (en) * 2017-09-13 2020-01-07 Amazon Technologies, Inc. Filtering sensitive information
US10453447B2 (en) * 2017-11-28 2019-10-22 International Business Machines Corporation Filtering data in an audio stream
US10395649B2 (en) * 2017-12-15 2019-08-27 International Business Machines Corporation Pronunciation analysis and correction feedback
US10834365B2 (en) * 2018-02-08 2020-11-10 Nortek Security & Control Llc Audio-visual monitoring using a virtual assistant

Also Published As

Publication number Publication date
US10861463B2 (en) 2020-12-08
US20190214018A1 (en) 2019-07-11

Similar Documents

Publication Publication Date Title
EP3607547B1 (de) Audiovisuelle sprachtrennung
US11210461B2 (en) Real-time privacy filter
DE69839068T2 (de) System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung
US8909538B2 (en) Enhanced interface for use with speech recognition
US7995732B2 (en) Managing audio in a multi-source audio environment
DE60124985T2 (de) Sprachsynthese
DE60214391T2 (de) Erkennung von Ereignissen bei der Kommunikation mit mehreren Sprachkanälen
US20040064322A1 (en) Automatic consolidation of voice enabled multi-user meeting minutes
JP2017534905A (ja) 声紋情報管理方法および声紋情報管理装置、ならびに本人認証方法および本人認証システム
DE10163213A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
US11562731B2 (en) Word replacement in transcriptions
DE112013000760B4 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
DE102021204829A1 (de) Automatische korrektur fehlerhafter audioeinstellungen
DE102017115383A1 (de) Audio-slicer
EP2047668B1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
DE60127550T2 (de) Verfahren und system für adaptive verteilte spracherkennung
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE102018001572A1 (de) Automatische verzögerung der wiedergabe einer nachricht bei einer vorrichtung
DE102017120698A1 (de) Sprachliche Ausgabe von schriftlichen Kommunikationen in einer Stimme eines Senders
DE60018349T2 (de) Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung
CN107886940B (zh) 语音翻译处理方法及装置
DE102019100403A1 (de) Verfahren zur Sprachverarbeitung und Sprachverarbeitungsvorrichtung
US11488604B2 (en) Transcription of audio
US20200184973A1 (en) Transcription of communications
CN114462376A (zh) 基于rpa和ai的庭审笔录生成方法、装置、设备及介质

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015220000

Ipc: G10L0025480000

R016 Response to examination communication
R018 Grant decision by examination section/examining division