DE112013000760B4 - Automatisches korrigieren von Sprechfehlern in Echtzeit - Google Patents

Automatisches korrigieren von Sprechfehlern in Echtzeit Download PDF

Info

Publication number
DE112013000760B4
DE112013000760B4 DE112013000760.6T DE112013000760T DE112013000760B4 DE 112013000760 B4 DE112013000760 B4 DE 112013000760B4 DE 112013000760 T DE112013000760 T DE 112013000760T DE 112013000760 B4 DE112013000760 B4 DE 112013000760B4
Authority
DE
Germany
Prior art keywords
audio signal
user
speech
artifacts
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112013000760.6T
Other languages
English (en)
Other versions
DE112013000760T5 (de
Inventor
Peter K. Malkin
Sharon M. Trewin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112013000760T5 publication Critical patent/DE112013000760T5/de
Application granted granted Critical
Publication of DE112013000760B4 publication Critical patent/DE112013000760B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • G10L2021/0575Aids for the handicapped in speaking

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Circuits Of Receivers In General (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Verfahren zum Korrigieren von Auswirkungen von Sprechstörungen eines Benutzers, aufweisend:Erfassen (106) eines Tonsignals eines Sprechens;Analysieren (108) des Tonsignals durch einen Prozessor (12) zum Erkennen von durch die Sprechstörung des Benutzers verursachten Tonsignalartefakten;Abändern (110) des Tonsignals durch den Prozessor (12) durch Beseitigen der erkannten Tonsignalartefakte aus dem Tonsignal; undBereitstellen (112) des abgeänderten Tonsignals, wobei das Verfahren ferner beinhaltet:Empfangen einer Einarbeitung, welche Tonsignale durch die Sprechstörung des Benutzers verursachte Artefakte sind, wobei das Empfangen einer Einarbeitung beinhaltet:Empfangen von Tonsignalen des Lesens eines Textes durch einen Benutzer;Vergleichen der Tonsignale des Lesens des Textes durch den Benutzer mit einem vorher festgelegten, dem Text zugeordneten Tonsignal; undErkennen der der Sprechstörung des Benutzers zugeordneten Tonsignalartefakte durch Erkennen von Unterschieden zwischen den Tonsignalen des Lesens des Textes durch den Benutzer und einem vorher festgelegten, dem Text zugeordneten Tonsignal.

Description

  • ANWENDUNGSGEBIET
  • Die vorliegende Anmeldung betrifft allgemein Computer und Computeranwendungen und konkret das automatische Korrigieren von Tonsignalen aus Sprechen.
  • HINTERGRUND
  • Es gibt Tonverarbeitungssysteme, die versuchen, die Tonhöhe und die Geschwindigkeit eines Sängers zu korrigieren, indem falsch oder aus dem Takt esungene Noten abgeändert werden. Andere bestehende Tonverarbeitungssysteme steuern die Lautstärke eines gegebenen Tonsignals automatisch so, dass sie innerhalb eines bestimmten Bereichs bleibt (nicht zu laut oder zu leise). Wieder andere ändern Sprechsignale für eine verbesserte Telefonverständlichkeit für ältere Erwachsene ab. Diese Systeme versuchen jedoch nicht, Sprechstörungen zugehörige Artefakte beim Sprechen zu beseitigen, wie zum Beispiel Stottern während des Sprechens, Lispeln und stimmliche Ticks, die unfreiwillig auftreten könnten.
  • Es wurden Techniken zum automatischen Erkennen von Stottern in Sprechsignalen erforscht, wobei aber kein automatisches Korrekturverfahren beschrieben wurde.
  • Honal und Schultz beschreiben in „Automatic Disfluency Removal On Recognized Spontaneous Speech -Rapid Adaptation To Speaker-Dependent Disfluencies“, IEEE ICASSP 2005, ein Verfahren zum Entfernen von nicht fließenden Wörtern und Ausdrücken in einer Äußerung, wobei dieses Verfahren aber angewendet wird, nachdem das Sprechsignal in Text umgeschrieben wurde, und Sprechstörungen nicht auf der Ebene des Sprechsignals bearbeitet werden.
  • Die US 2008 / 0201141 A1 offenbart ein Verfahren und ein Berechnungssystem zum Analysieren von Äußerungen eines Sprechers. Die gesprochenen Wörter werden erkannt und auf ihre jeweiligen Analoga indiziert, die verwendet werden, um die Sprachsequenz so anzupassen, dass sie einem vorbestimmten Standard von Sprachmerkmalen entspricht, der für eine bestimmte Sprache festgelegt oder basierend auf den regionalen Merkmalen eines gemeinsamen Sprachziels für eine Kommunikationssitzung ausgewählt werden kann. Auf diese Weise ausgewählte Audiosequenzen werden dann in die normierten Merkmale eingepasst oder synthetisiert und in den ausgehenden Sprachstrom eingefügt, so dass die resultierende Audiosequenz als unerwünscht empfundene Spracheigenschaften in reduziertem Umfang aufweist.
  • Die US 2007 / 0038455 A1 offenbart ein Konzept, ein Verfahren und eine Vorrichtung zum Erfassen und Korrigieren eines Akzents mittels Klangumwandlung. Das Eingangsaudiosignal wird analysiert, um vordefinierte unerwünschte Sprachmuster zu finden, d.h. Phoneme oder Gruppen von Phonemen, die korrigiert werden sollen, z.B. weil sie einen fremden Akzent darstellen. Diese unerwünschten Klänge werden dann durch die vorab gespeicherten Ersatzaudiomuster modifiziert oder vollständig ersetzt, angepasst an die aktuelle Tonhöhe und Stimmklangfarbe des Benutzers. Der Grad der Sprachmodifikation, d.h. die Menge der zu modifizierenden Phoneme, kann auf einen gewünschten Pegel eingestellt werden. Das System arbeitet in zwei Modi: Erstens Lernen, d.h. Speichern des unerwünschten und des Ersatz-Phonem-Musters, und zweitens ein Korrekturmodus, der die Phonem-Modifikation basierend auf den gespeicherten Informationen durchführt. Die Implementierung erfolgt sowohl in Software als auch in Hardware. Die Hardware-Vorrichtung basiert auf einer parallelen Signalverarbeitung und ermöglicht daher eine Echtzeit-Akzentkorrektur variabler Komplexität, bis hin zu superkomplexen Systemen mit mehreren Benutzern und mehreren Akzenten, die auf einer Mesh-Architektur mehrerer Chips und Boards basieren, möglicherweise als Teil eines Telefonie- oder anderen Netzwerksystems.
  • KURZDARSTELLUNG
  • Ein Verfahren zum Korrigieren von Auswirkungen von Sprechstörungen eines Benutzers kann in einem Aspekt das Erfassen eines Tonsignals eines Sprechens beinhalten. Das Verfahren kann auch das Analysieren des Tonsignals beinhalten, um durch die Sprechstörung des Benutzers verursachte Tonsignalartefakte zu erkennen. Das Verfahren kann ferner das Abändern des Tonsignals durch Beseitigen der erkannten Tonsignalartefakte aus dem Tonsignal beinhalten. Das Verfahren kann auch das Bereitstellen des abgeänderten Tonsignals beinhalten.
  • Ein System zum Korrigieren von Auswirkungen von Sprechstörungen eines Benutzers kann in einem Aspekt ein Empfangsmodul beinhalten, das in der Lage ist, ein Tonsignal eines Sprechens zu erfassen. Ein Analysemodul kann in der Lage sein, auf dem Prozessor ausgeführt zu werden, und ferner in der Lage sein, das Tonsignal zu analysieren, um durch die Sprechstörung des Benutzers verursachte Tonsignalartefakte zu erkennen. Ein Abänderungsmodul kann in der Lage sein, das Tonsignal durch Beseitigen der erkannten Tonsignalartefakte aus dem Tonsignal abzuändern. Ein Abspielmodul kann in der Lage sein, das abgeänderte Tonsignal bereitzustellen.
  • Es kann auch ein durch einen Computer lesbares Speichermedium bereitgestellt werden, auf dem ein durch eine Maschine ausführbares Programm mit Anweisungen zum Durchführen einer oder mehrerer hierin beschriebener Verfahren gespeichert ist.
  • Andere Merkmale sowie die Struktur und der Betrieb von verschiedenen Ausführungsformen werden nachfolgend unter Bezugnahme auf die beigefügten Zeichnungen ausführlicher beschrieben. In den Zeichnungen bezeichnen gleichartige Bezugszahlen identische oder funktional gleichartige Elemente.
  • Figurenliste
    • 1 ist ein Ablaufplan, der ein Verfahren zum Korrigieren des Sprechens in einer Ausführungsform der vorliegenden Offenbarung veranschaulicht.
    • 2 ist ein Blockschaubild, das Komponenten und die Pipeline der vorliegenden Offenbarung in einer Ausführungsform veranschaulicht.
    • 3 veranschaulicht ein beispielhaftes Nutzungsszenario für ein Verfahren der vorliegenden Offenbarung in einer Ausführungsform der vorliegenden Offenbarung.
    • 4 veranschaulicht eine schematische Darstellung eines beispielhaften Computers oder Verarbeitungssystems, der das Echtzeit-Sprechstörungssystem in einer Ausführungsform der vorliegenden Offenbarung umsetzen kann.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Das Korrigieren des Sprechens kann es in einer Ausführungsform der vorliegenden Offenbarung einem Benutzer ermöglichen, mit einer Sprechstörung fertig zu werden, indem sein Sprechen abgefangen wird, die Artefakte der Störung erkannt werden, diese Artefakte beseitigt werden und das korrigierte Sprechen z.B. zum Rundsenden bereitgestellt wird. In einem Aspekt kann das Tonsignal des Sprechens eines Benutzers erfasst werden. Das Tonsignal wird analysiert, um Störungsartefakte zu erkennen, das Tonsignal wird abgeändert, um die erkannten Störungsartefakte zu beseitigen, und das abgeänderte Tonsignal wird als abzuspielende Ausgabe bereitgestellt. Das Korrigieren des Sprechens kann in einer Ausführungsform der vorliegenden Offenbarung in Echtzeit oder nahezu in Echtzeit durchgeführt werden, so dass das korrigierte Sprechen rundgesendet werden kann, während der Benutzer spricht.
  • 1 ist ein Ablaufplan, der ein Verfahren zum Korrigieren des Sprechens in einer Ausführungsform der vorliegenden Offenbarung veranschaulicht. Bei 102 wird eine Spezifikation der Sprechstörung des Benutzers erfasst. Es werden zum Beispiel Stottern, Lispeln, unfreiwillige Vokalisierung oder andere Typen, die nicht als Teil des Sprechens beabsichtigt sind, erkannt, wenn ein Benutzer spricht.
  • Bei 104 werden ein oder mehrere der erfassten Sprechstörung des Benutzers zugeordnete Tonartefaktmuster abgerufen. Bei den Tonartefaktmustern handelt es sich zum Beispiel um Tonsignale oder eine Beschreibung oder Spezifikation derartiger Signale, die zum Beispiel einem oder mehreren erfassten Sprechstörungen des Benutzers entsprechen.
  • Bei 106 wird das Tonsignal des Sprechens des Benutzers aufgezeichnet. In einer Ausführungsform der vorliegenden Offenbarung kann das Erfassen inkrementell durchgeführt werden, zum Beispiel durch Erfassen von Segmenten des Tonsignals einer festgelegten Dauer oder Länge, während der Benutzer spricht. Während der Benutzer spricht, kann das Sprechen des Benutzers zum Beispiel in zusammenhängenden Segmenten von Tonsignalen mit einer Dauer von einer Minute zum Verarbeiten aufgezeichnet werden.
  • Bei 108 kann ein aufgezeichnetes Segment analysiert werden, und ein oder mehrere Artefakte in dem aufgezeichneten Segment werden zum Beispiel beruhend auf dem/den bei 104 empfangenen Tonartefaktmuster(n) erkannt. Nach dem der erfassten Sprechstörung entsprechenden Tonartefaktmuster wird zum Beispiel in den Tonsignalen des aufgezeichneten Segments gesucht, zum Beispiel durch Vergleichen des Tonsignals oder der Spezifikation des erfassten Musters mit den Tonsignalen in dem aufgezeichneten Segment. Die übereinstimmenden Signale bilden die erkannten Artefakte.
  • Bei 110 werden die erkannten Artefakte aus dem aufgezeichneten Tonsegment gelöscht.
  • Bei 112 kann das abgeänderte aufgezeichnete Segment z.B. zum Übertragen, Abspielen oder Rundsenden, wie jeweils zutreffend, bereitgestellt werden. Wenn das Verfahren zum Beispiel in einer Datenübertragungseinheit wie zum Beispiel einem Telefon, einem Mobiltelefon, einem Smartphone oder einer anderen Datenübertragungseinheit verwendet wird, kann das abgeänderte aufgezeichnete Segment bereitgestellt werden, um an die empfangende Einheit oder dergleichen zum Beispiel über ein geeignetes Netzwerk übertragen zu werden.
  • Bei 114 wird ermittelt, ob das Sprechen beendet wurde. Wenn dem so ist, endet die Logik, andernfalls kehrt die Logik zu 106 zurück, wo mehr Tonsegmente aufgezeichnet und/oder analysiert werden.
  • Die oben angeführten Schritte können in Echtzeit oder nahezu in Echtzeit durchgeführt werden, wenn ein Benutzer spricht. In einem Aspekt können ein oder mehrere der gezeigten Verarbeitungsschritte asynchron durchgeführt werden, zum Beispiel unabhängig voneinander. Das Aufzeichnen bei 106 kann zum Beispiel asynchron in Bezug auf die Schritte des Analysierens 108, des Abänderns 110 und des Rundsendens 112 durchgeführt werden. Somit können zum Beispiel bei 106 Segmente des Sprechens des Benutzers mit einer festgelegten Dauer aufgezeichnet und zum Beispiel in einer Warteschlange (z.B. einer FIFO-Datenstruktur oder anderen Strukturen) in dem Arbeitsspeicher gespeichert werden. Die Schritte des Analysierens 108 und des Abänderns 110 können sogar während des Aufzeichnens weiterer Segmente bei 106 auf die von einer derartigen Warteschlange abgerufenen Segmente angewendet werden.
  • Gleichermaßen kann der Verarbeitungsschritt bei 110 das abgeänderte Tonsignalsegment als Ausgabe in einer Warteschlange oder dergleichen speichern und mit dem Abändern des nächsten aufgezeichneten Segments fortfahren, ohne auf das entsprechende Bereitstellen des abgeänderten Tonsignalsegments bei 112 zu warten. Das Verarbeiten bei 112 kann abgeänderte Segmente aus einer derartigen Warteschlange abrufen und das abgeänderte Tonsignal bereitstellen. Des Weiteren kann das Verarbeiten bei 112 die abgeänderten Segmente in einer solchen Weise bereitstellen, dass die Segmente, aus der das Sprechen besteht, in relativ gleichen Zeitintervallen rundgesendet oder abgespielt werden, um zum Beispiel unnatürliche Zeitabstände zwischen den Segmenten des rundgesendeten Sprechens zu vermeiden.
  • In einem anderen Aspekt können die oben angeführten Schritte beruhend auf einem bereits aufgezeichneten vollständigen Sprechen eines Benutzers durchgeführt werden.
  • 2 ist ein Blockschaubild, das Komponenten und die Pipeline der vorliegenden Offenbarung in einer Ausführungsform veranschaulicht. Ein Tonsignalempfangs- oder Erfassungsmodul 202 kann Segmente von Tonsignalen erfassen. Das Tonsignalempfangsmodul 202 kann zum Beispiel Signale aufzeichnen, die über ein Mikrofon 204 oder gleichartige Einheiten übertragen werden, während ein Benutzer 206 in das Mikrofon 204 oder die gleichartige Einheit spricht. Das Tonsignalempfangsmodul 202 kann zum Beispiel das Sprechen des Benutzers für die Dauer einer Minute oder eines anderen Zeitintervalls aufzeichnen und dieses Sprechsegment zum Beispiel in einer Warteschlange oder dergleichen 210 platzieren. Das Tonsignalempfangsmodul 202 kann das aufgezeichnete Segment auch direkt an das Analysemodul 212 übertragen. Das Tonsignalempfangsmodul 202 fährt mit dem Aufzeichnen des Sprechens des Benutzers für die nächste einminütige (oder andere) Dauer fort, fügt das aufgezeichnete Segment zu der Warteschlange oder dergleichen 210 hinzu oder überträgt direkt an das Analysemodul 212. Dieser die Segmente aufzeichnende Prozess kann fortgeführt werden, während der Benutzer 206 spricht und bis das Sprechen des Benutzers beendet ist.
  • In einem anderen Aspekt kann das Tonsignalempfangsmodul 202 die Tonsignalsegmente aus einer die aufgezeichneten Daten 208 enthaltenden Datei aufzeichnen.
  • Das Analysemodul 212 kann das aufgezeichnete Tonsignalsegment empfangen und analysieren. Das Analysemodul 212 sucht nach Tonsignalartefakten, die den Teilen des Sprechens entsprechen, die zum Beispiel durch die Sprechstörung des Benutzers verursacht werden. In diesem Hinblick kann das Analysemodul 212 die Zuordnung der Tonsignalartefakte zu der Sprechstörung des Benutzers zum Beispiel aus einer Datenbank oder dergleichen erfassen, die derartige Zuordnungen 214 enthält. Dieser bestimmte Benutzer 206 stottert zum Beispiel möglicherweise beim Sprechen. Ein Tonsignalartefakt, welches das Stottern des Benutzers darstellt oder diesem entspricht, kann von der Datenbank 214 abgerufen und mit dem aufgezeichneten Tonsignalsegment verglichen werden. In einer Ausführungsform der vorliegenden Offenbarung können die Zuordnungen 214 spezifische Tonsignalartefakte beinhalten, die einer Sprechstörung eines bestimmten Benutzers zugeordnet sind. Zu den Zuordnungen 214 können auch Tonsignalartefakte gehören, die bestimmten Sprechstörungen allgemein zugeordnet sind und nicht konkret einem bestimmten Benutzer zugeordnet sind. Wenn also der Benutzer bei 206 stottert, die Zuordnung des Stotterns dieses konkreten Benutzers und des Tonsignalartefakts aber nicht in der Datenbank 214 gefunden wird, kann das Analysemodul 212 ein allgemeinen Stottereigenschaften zugeordnetes Tonsignalartefakt verwenden. Wenn das aufgezeichnete Tonsignalsegment ein oder mehrere durch die Sprechstörung des Benutzers oder dergleichen verursachte Artefakte enthält, kann das aufgezeichnete Tonsignalsegment durch Entfernen der erkannten Artefakte aus dem aufgezeichneten Segment abgeändert werden. Das Analysemodul 212 kann zum Beispiel die in dem aufgezeichneten Tonsignalsegment erkannten Artefakte an ein Abänderungsmodul 216 übertragen, welches das Löschen der Artefakte aus dem aufgezeichneten Tonsignal durchführen kann.
  • Das Abänderungsmodul 216 kann die in dem aufgezeichneten Tonsignalsegment erkannten Artefakte löschen. Das Erkennen kann zum Beispiel in Form von Verschiebungen geschehen; Tonsignaldaten in dem aufgezeichneten Segment, die sich zwischen den erkannten Zeitintervallen befinden, können z.B. entfernt werden. Das abgeänderte Tonsignalsegment kann dann bereitgestellt werden, um zum Hören abgespielt wie zum Beispiel rundgesendet zu werden. In einem Aspekt kann das Abänderungsmodul 216 die abgeänderten Daten in einer Warteschlange 218 in dem Arbeitsspeicher oder dergleichen zum Abrufen durch ein Abspielmodul 220 für das Übertragen und/oder Abspielen speichern oder dort platzieren.
  • Das Abspielmodul 220 stellt das abgeänderte Tonsignalsegment zum Beispiel zum Rundsenden oder Abspielen bereit. In einem Aspekt kann das Abspielmodul 220 ein aus einer Warteschlange bereitzustellendes Segment abrufen und es bereitstellen, während es mit dem Abrufen und Bereitstellen des nächsten verfügbaren Segments in der Warteschlange fortfährt. Auf diese Weise muss kein Modul in einer Ausführungsform der vorliegenden Offenbarung auf Daten von einem anderen Modul in der Verarbeitungs-Pipeline warten. Außerdem können die Segmente in einer Weise bereitgestellt werden, dass das Rundsenden oder Abspielen des gesamten Sprechens ununterbrochen sein kann und es zum Beispiel keine langen oder lückenhaften Pausen durch Schweigen zwischen dem Abspielen der Segmente gibt, wenn zum Beispiel ein Empfänger des Sprechens dieses anhört.
  • Ein oder mehrere der in 2 gezeigten Module können auf einem oder mehreren Prozessoren oder Verarbeitungselementen ausgeführt, im Arbeitsspeicher gespeichert und auf den einen oder die mehreren Prozessoren zur Ausführung geladen werden. In einem anderen Aspekt können ein oder mehrere der Module in eine integrierte Schaltung programmiert werden, um die oben beschriebenen Funktionalitäten durchzuführen.
  • Die Datenbank mit Zuordnungen 214 kann vorgegebene Störungen und zugeordnete Tonsignalartefakte beinhalten. Das Stottern eines Benutzers kann zum Beispiel einem Tonsignalmuster zugeordnet sein, das auch als Tonsignalartefakt bezeichnet wird. Ein Beispiel einer Zuordnung von Störungen und Tonsignalartefakten kann beim Stottern ein wiederholtes Vorkommen von bestimmten, mit Stottern verbundenen Lauten sein. Ein weiteres Beispiel kann bei Tourette-Syndrom in das Sprechen eingefügtes Schreien (oder unangebrachte Sprache) sein. Noch ein weiteres Beispiel der Zuordnung kann beim Lispeln eine undeutliche Aussprache sein. Somit kann das Analysemodul 212, wenn ein Benutzer stottert, zum Beispiel nach einem wiederholten Vorkommen eines bestimmten Lauts beim Sprechen des Benutzers suchen. Die Datenbank 214 kann derartige Zuordnungen zwischen Störungen und Tonsignalartefakten beinhalten. Die Datenbank 214 kann auch eine Wissensdatenbank über Benutzer beinhalten, zum Beispiel, welcher Benutzer welche Störungen aufweist. In einer Ausführungsform der vorliegenden Offenbarung können ein oder mehrere einer Störung zugeordnete Tonsignalartefakte als Beschreibung oder Spezifikation dessen festgelegt werden, nach was gesucht werden soll, um die zugeordnete Störung bei einem Sprechen (z.B. wiederholtes Vorkommen eines bestimmten Lauts) oder ein Beispiel von tatsächlichen Signalmustern (z.B. eine Voraufzeichnung des Signalmusters oder dergleichen) oder Kombinationen daraus zu erkennen.
  • Die Zuordnungen der Sprechstörung des Benutzers zu entsprechenden Tonsignalartefakten werden durch Einarbeitung erzeugt. Erfindungsgemäß wird ein automatisiertes System so eingearbeitet, dass es einem Benutzer zugeordnete Tonsignalartefakte beruhend auf dem Vergleichen von dem Sprechen des Benutzers zugeordneten Tonsignalen mit einem beispielhaften Tonsignal desselben Sprechens vergleicht. Es können zum Beispiel Tonsignale einer bekannten Textstelle erzeugt und mit dem Tonsignal des Lesens derselben Textstelle durch den Benutzer verglichen werden.
  • Zu der Sprechstörung, auf den die vorliegende Offenbarung Bezug nimmt, können Stottern, diejenigen durch Tourette-Syndrom, ein unfreiwillige Vokalklänge verursachender Zustand, verursachten, Lispeln und andere gehören, sie sind aber nicht darauf beschränkt.
  • Die Methodiken der vorliegenden Offenbarung können das Korrigieren von durch bekannte Störungen (z.B. Stottern) verursachte Sprechstörungsartefakte in Echtzeit oder nahezu in Echtzeit bereitstellen, zum Beispiel durch Aufzeichnen, Analysieren und Löschen dieser Tonsignale. Das Verarbeiten der Tonsignale kann bekannte Signalverarbeitungstechniken verwenden.
  • 3 veranschaulicht ein beispielhaftes Nutzungsszenario der Sprechkorrekturmethodik der vorliegenden Offenbarung in einer Ausführungsform. Die Sprechkorrekturmethodik der vorliegenden Offenbarung kann als Anwendung oder dergleichen 302 auf einer Einheit 304 wie zum Beispiel einem Smartphone, einem Mobiltelefon oder einer anderen Datenübertragungseinheit umgesetzt werden. Wenn ein erster Benutzer 306 einen zweiten Benutzer 310 anruft und an der Einheit spricht, kann die auf der Einheit 304 laufende Anwendung oder dergleichen 302 die Sprech- oder Tonsignale des ersten Benutzers abfangen, bevor sie an die Einheit 308 des zweiten Benutzers übertragen werden, und zum Beispiel, durch die Sprechstörung des ersten Benutzers verursachte Artefakte aus dem Sprechen nahezu in Echtzeit beseitigen, wie hierin beschrieben ist. Die Einheit 302 kann dann das korrigierte Tonsignal an die Einheit 308 des zweiten Benutzers übertragen oder rundsenden. Der zweite Benutzer 310 würde dann den ersten Benutzer ohne die Sprechstörungen sprechen hören. Die Spezifikation der Sprechstörung des Benutzers und/oder die Zuordnung der Störung zu Artefaktdaten, die zum Vergleichen verwendet werden, können lokal auf der Einheit 302 gespeichert sein oder aus einem fernen Datenbankspeicher oder dergleichen erfasst oder abgerufen werden.
  • 4 veranschaulicht eine schematische Darstellung eines beispielhaften Computers oder Verarbeitungssystems, der das Echtzeit-Sprechstörungssystem in einer Ausführungsform der vorliegenden Offenbarung umsetzen kann. Das Computersystem ist lediglich ein Beispiel eines geeigneten Verarbeitungssystems und soll keinerlei Einschränkungen für den Umfang der Verwendung oder Funktionalität von Ausführungsformen der hierin beschriebenen Methodik andeuten. Das gezeigte Verarbeitungssystem kann mit zahlreichen anderen Universal- bzw. Spezial-Datenverarbeitungssystem-Umgebungen bzw. Konfigurationen betriebsfähig sein. Zu Beispielen für allgemein bekannte Datenverarbeitungssysteme, Umgebungen und/oder Konfigurationen, die zur Verwendung mit dem in 4 gezeigten Verarbeitungssystem geeignet sein können, gehören Smartphones (z.B. das iPhone oder Android), Personal-Computer-Systeme, Server-Computersysteme, Thin Clients, Thick Clients, Handheld- bzw. Laptop-Geräte, Multiprozessorsysteme, auf Mikroprozessoren beruhende Systeme, Set-Top-Boxen, programmierbare Verbraucherelektronik, Netzwerk-PCs, Minicomputersysteme, Mainframe-Computersysteme sowie verteilte Cloud-Computing-Umgebungen, die irgendeine(s) der obigen Systeme bzw. Einheiten und dergleichen beinhalten, aber nicht darauf beschränkt.
  • Das Computersystem kann in dem allgemeinen Kontext von durch Computersysteme ausführbaren Anweisungen, zum Beispiel durch Programmmodule, beschrieben werden, die von einem Computersystem ausgeführt werden. Allgemein können zu Programmmodulen Routinen, Programme, Objekte, Komponenten, Logik, Datenstrukturen und so weiter gehören, die bestimmte Aufgaben durchführen bzw. bestimmte abstrakte Datentypen umsetzen. Das Computersystem kann in verteilten Cloud-Computing-Umgebungen ausgeführt werden, wo Aufgaben durch ferne Verarbeitungseinheiten durchgeführt werden, die über ein Datenübertragungsnetzwerk verbunden sind. In einer verteilten Cloud-Computing-Umgebung können sich Programmmodule sowohl in lokalen als auch in fernen Computersystem-Speichermedien befinden, darunter Hauptspeichereinheiten.
  • Die Komponenten des Computersystems können eine(n) oder mehrere Prozessoren oder Verarbeitungseinheiten 12, einen Systemspeicher 16 und einen Bus 14 aufweisen, der verschiedene Systemkomponenten, darunter den Systemspeicher 16, mit dem Prozessor 12 verbindet, sind aber nicht darauf beschränkt. Der Prozessor 12 kann ein Sprechkorrekturmodul 10 beinhalten, das die hierin beschriebenen Verfahren durchführt. Das Modul 10 kann in die integrierten Schaltungen des Prozessors 12 programmiert sein oder aus dem Arbeitsspeicher 16, Speichereinheiten 18 oder einem Netzwerk 24 oder Kombinationen daraus geladen werden.
  • Der Bus 14 kann eine oder mehrere einer beliebigen von mehreren Arten von Busstrukturen darstellen, darunter einen Speicherbus oder eine Speichersteuereinheit, einen Peripheriebus, einen beschleunigten Grafikanschluss und einen Prozessor- oder lokalen Bus, die eine beliebige aus einer Vielfalt von Busarchitekturen verwenden. Zu derartigen Architekturen gehören als Beispiel und nicht als Einschränkung ein ISA-Bus (Industry Standard Architecture), ein MCA-Bus (Micro Channel Architecture), ein EISA-Bus (Enhanced ISA), ein VESA-Lokalbus (Video Electronics Standards Association) sowie ein PCI-Bus (Peripheral Component Interconnects).
  • Das Computersystem kann eine Vielfalt von durch ein Computersystem lesbaren Medien beinhalten. Bei derartigen Medien kann es sich um jedes beliebige Medium handeln, auf welches das Computersystem zugreifen kann, und es kann sowohl flüchtige als auch nichtflüchtige Medien, austauschbare und nicht austauschbare Medien beinhalten.
  • Der Systemspeicher 16 kann durch ein Computersystem lesbare Medien in Form eines flüchtigen Speichers wie zum Beispiel einen Direktzugriffsspeicher (RAM) und/oder Cachespeicher oder andere enthalten. Das Computersystem kann ferner andere austauschbare/nicht austauschbare, flüchtige/nichtflüchtige Computersystem-Speichermedien enthalten. Als Beispiel kann das Speichersystem 18 zum Lesen von und zum Schreiben auf ein nicht austauschbares, nichtflüchtiges magnetisches Medium bereitgestellt werden (z.B. ein „Festplattenlaufwerk“). Es können auch ein Magnetplattenlaufwerk zum Lesen von und Schreiben auf eine austauschbare, nichtflüchtige Magnetplatte (z.B. eine „Floppy-Diskette“) und ein optisches Plattenlaufwerk zum Lesen von oder Schreiben auf eine austauschbare, nichtflüchtige optische Platte wie eine CD-ROM, DVD-ROM oder ein anderes optisches Medium bereitgestellt werden, auch wenn diese nicht gezeigt sind. In derartigen Fällen können sie jeweils über ein oder mehrere Datenmedienschnittstellen mit dem Bus 14 verbunden sein.
  • Das Computersystem kann auch mit einer oder mehreren externen Einheiten 26 wie einer Tastatur, einer Zeigeeinheit, einer Anzeige 28 usw., einer oder mehreren Einheiten, die es einem Benutzer ermöglichen, mit dem Computersystem Daten auszutauschen, und/oder beliebigen Einheiten (z.B. Netzwerkkarten, Modems usw.) Daten austauschen, die es dem Computersystem ermöglichen, mit einer oder mehreren anderen Datenverarbeitungseinheiten Daten auszutauschen. Ein derartiger Datenaustausch kann über die Eingabe/Ausgabe- (E/A-) Schnittstellen 20 erfolgen.
  • Außerdem kann das Computersystem über den Netzwerkadapter 22 mit einem oder mehreren Netzwerken 24 Daten austauschen, wie zum Beispiel einem lokalen Netzwerk (LAN), einem allgemeinen Weitverkehrsnetz (WAN) und/oder einem öffentlichen Netzwerk (z.B. dem Internet). Wie abgebildet ist, tauscht der Netzwerkadapter 22 mit den anderen Komponenten des Computersystems über den Bus 14 Daten aus. Es sollte klar sein, dass andere Hardware- und/oder Software-Komponenten in Verbindung mit dem Computersystem verwendet werden könnten, auch wenn diese nicht gezeigt sind. Zu Beispielen gehören folgende, ohne auf diese beschränkt zu sein: Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, externe Festplattenlaufwerk-Arrays, RAID-Systeme, Bandlaufwerke und Speichersysteme zur Datenarchivierung usw.
  • Der Fachmann wird verstehen, dass Aspekte der vorliegenden Erfindung als System, Verfahren oder Computerprogrammprodukt ausgeführt werden können. Entsprechend können Aspekte der vorliegenden Erfindung die Form einer vollständigen Hardware-Ausführungsform, einer vollständigen Software-Ausführungsform (darunter Firmware, im Speicher befindliche Software, Mikrocode, usw.) oder einer Software- und Hardware-Aspekte kombinierenden Ausführungsform annehmen, die hierin alle allgemein als „Schaltkreis“, „Modul“ oder „System“ bezeichnet sein können. Des Weiteren können Aspekte der vorliegenden Erfindung die Form eines auf einem oder mehreren durch einen Computer lesbaren Medien enthaltenen Computerprogrammprodukts annehmen, die durch einen Computer lesbaren Programmcode enthalten.
  • Es kann jede Kombination aus einem oder mehreren durch einen Computer lesbaren Medien verwendet werden. Bei dem durch einen Computer lesbaren Medium kann es sich um ein durch einen Computer lesbares Signalmedium oder ein durch einen Computer lesbares Speichermedium handeln. Bei einem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, eine derartige Vorrichtung oder Einheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu konkreteren Beispielen (eine nicht erschöpfende Liste) des durch einen Computer lesbaren Speichermediums gehören die folgenden: eine elektrische Verbindung mit einer oder mehreren Leitungen, eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein Lichtwellenleiter, ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine optische Speichereinheit, eine magnetische Speichereinheit oder jede geeignete Kombination daraus. In dem Kontext dieses Dokuments kann es sich bei einem durch einen Computer lesbaren Speichermedium um jedes beliebige physische Medium handeln, das ein Programm enthalten bzw. speichern kann, das von oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Ausführung von Anweisungen verwendet wird.
  • Ein durch einen Computer lesbares Signalmedium kann ein weitergeleitetes Datensignal mit darin enthaltenem durch einen Computer lesbarem Programmcode beinhalten, zum Beispiel im Basisband oder als Teil einer Trägerwelle. Ein derartiges weitergeleitetes Signal kann eine beliebige Form aus einer Vielfalt an Formen annehmen, darunter elektromagnetische, optische bzw. jede geeignete Kombination daraus, jedoch nicht darauf beschränkt. Bei einem durch einen Computer lesbaren Signalmedium kann es sich um ein beliebiges durch einen Computer lesbares Medium handeln, das kein durch einen Computer lesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder Einheit zum Ausführen von Anweisungen übertragen, weiterleiten bzw. transportieren kann.
  • Auf einem durch einen Computer lesbaren Medium enthaltener Programmcode kann unter Verwendung eines beliebigen geeigneten Mediums übertragen werden, darunter drahtlos, drahtgebunden, Lichtwellenleiter-Kabel, HF usw. oder jede geeignete Kombination daraus, jedoch nicht auf diese beschränkt.
  • Computerprogrammcode für das Ausführen von Arbeitsschritten für Aspekte der vorliegenden Erfindung kann in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie zum Beispiel Java, Smalltalk, C++ und dergleichen sowie herkömmliche prozedurale Programmiersprachen wie zum Beispiel die Programmiersprache „C“ oder ähnliche Programmiersprachen, eine Script-Sprache wie zum Beispiel Perl, VBS oder ähnliche Sprachen und/oder funktionelle Sprachen wie zum Beispiel Lisp und ML sowie logikorientierte Sprachen wie zum Beispiel Prolog. Der Programmcode kann vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters).
  • Aspekte der vorliegenden Erfindung werden unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern durch Computerprogrammanweisungen ausgeführt werden können. Diese Computerprogrammanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen.
  • Diese Computerprogrammanweisungen können auch auf einem durch einen Computer lesbaren Medium gespeichert sein, das einen Computer oder eine andere programmierbare Datenverarbeitungsvorrichtung bzw. andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass die auf dem durch einen Computer lesbaren Medium gespeicherten Anweisungen ein Herstellungsprodukt herstellen, darunter Anweisungen, welche die/den in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebene(n) Funktion/Schritt umsetzen.
  • Die Computerprogrammanweisungen können auch auf einen Computer oder eine andere programmierbare Datenverarbeitungsvorrichtung bzw. andere Einheiten geladen werden, um das Ausführen einer Folge von Prozessschritten auf dem Computer, der anderen programmierbaren Vorrichtung bzw. den anderen Einheiten zu veranlassen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer oder einer anderen programmierbaren Vorrichtung ausgeführten Anweisungen Verfahren zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktionen/Schritte erzeugen.
  • Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil eines Codes darstellen, der eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweist. Es sei auch angemerkt, dass in einigen alternativen Ausführungen die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden können. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder durch Kombinationen aus Spezial-Hardware und Computeranweisungen.
  • Das Computerprogrammprodukt kann alle der entsprechenden Merkmale aufweisen, welche die Umsetzung der hierin beschriebenen Methodik ermöglichen und die in der Lage sind, die Verfahren auszuführen, wenn sie in ein Computersystem geladen werden. Computerprogramm, Software-Programm, Programm oder Software bedeutet im vorliegenden Kontext jeden beliebigen Ausdruck in jeder beliebigen Sprache, jedem beliebigen Code bzw. jeder beliebigen Schreibweise einer Reihe von Anweisungen, die ein eine Informationsverarbeitungsfähigkeit aufweisendes System zur Durchführung einer bestimmten Funktion veranlassen, entweder direkt oder nach (a) Umwandlung in eine andere Sprache, einen anderen Code oder eine andere Schreibweise und/oder (b) Reproduktion in einer anderen Materialform.
  • Die hierin verwendete Terminologie dient lediglich dem Zweck des Beschreibens bestimmter Ausführungsformen und soll die Erfindung nicht einschränken. Die Verwendung der Singularform „ein“, „eine“ bzw. „der“, „die“, „das“ hierin soll ebenfalls die Pluralformen einschließen, es sei denn, etwas anderes ergibt sich deutlich aus dem Zusammenhang. Es wird ferner darauf hingewiesen, dass die Begriffe „aufweisen“ und/oder „aufweisend“, wenn sie in dieser Beschreibung verwendet werden, das Vorhandensein von aufgeführten Eigenschaften, ganzen Zahlen, Schritten, Operationen, Elementen und/oder Komponenten angeben, jedoch nicht das Vorhandensein oder das Hinzufügen einer oder mehrerer anderer Eigenschaften, ganzer Zahlen, Schritte, Operationen, Elemente, Komponenten und/oder Gruppen hiervon ausschließen.
  • Die in den nachfolgenden Ansprüchen etwa vorhandenen, entsprechenden Strukturen, Materialien, Schritte und Entsprechungen aller Mittel oder Step-plusfunction-Elemente, falls zutreffend, verstehen sich dahingehend, dass sie jede beliebige Struktur, jedes beliebige Material bzw. jeden beliebigen Schritt zur Durchführung der Funktion in Kombination mit anderen beanspruchten Elementen nach Maßgabe der konkreten Beanspruchung aufweisen. Die Beschreibung der vorliegenden Erfindung wurde zum Zwecke der Veranschaulichung und Beschreibung aufgeführt, soll jedoch nicht gesamthaft stehen für bzw. begrenzt sein auf die Erfindung in der beschriebenen Form. Für Fachleute werden viele Abänderungen und Abweichungen ersichtlich sein, ohne von dem Umfang und dem Gedanken der Erfindung abzuweichen. Die Ausführungsform wurde gewählt und beschrieben, um die Grundgedanken der Erfindung und die praktische Anwendung bestmöglich zu erläutern und um es anderen Fachleuten zu ermöglichen, die Erfindung für verschiedene Ausführungsformen mit verschiedenen Abänderungen, die für eine bestimmte in Betracht gezogene Verwendung geeignet sind, zu verstehen.
  • Verschiedene Aspekte der vorliegenden Offenbarung können als Programm, Software oder Computeranweisungen umgesetzt werden, die in einem durch einen Computer oder eine Maschine verwendbaren oder lesbaren Medium enthalten sind, das den Computer bzw. die Maschine dazu veranlasst, die Schritte des Verfahrens durchzuführen, wenn sie auf dem Computer, dem Prozessor und/oder der Maschine ausgeführt werden. Es wird auch eine durch eine Maschine lesbare Programmspeichereinheit, auf der ein Programm mit Anweisungen physisch enthalten ist, die durch die Maschine ausgeführt werden können, um verschiedene in der vorliegenden Offenbarung beschriebene Funktionalitäten und Verfahren durchzuführen.
  • Das System und Verfahren der vorliegenden Offenbarung kann auf einem Universalcomputer oder einem Spezialcomputersystem umgesetzt und darauf ausgeführt werden. Die Begriffe „Computersystem“ und „Computernetzwerk“, die möglicherweise in der vorliegenden Anmeldung verwendet werden, können eine Vielfalt von Kombinationen aus fester/festen und/oder tragbarer/tragbaren Computer-Hardware, Software, Peripheriegeräten und Speichereinheiten beinhalten. Das Computersystem kann eine Vielfalt von einzelnen Komponenten beinhalten, die zur gemeinsamen Durchführung vernetzt oder anderweitig verknüpft sind, oder es kann eine oder mehrere eigenständige Komponenten beinhalten. Die Hardware- und Software-Komponenten des Computersystems der vorliegenden Anmeldung können feste und tragbare Einheiten wie zum Beispiel Desktops, Laptops und/oder Server beinhalten oder in diesen beinhaltet sein. Ein Modul kann eine Komponente einer Einheit, einer Software, eines Programms oder eines eine gewisse „Funktionalität“ umsetzenden Systems sein, die als Software, Hardware, Firmware, elektronische Schaltung usw. ausgeführt sein können.
  • Die oben beschriebenen Ausführungsformen sind veranschaulichende Beispiele und es darf nicht abgeleitet werden, dass die vorliegende Erfindung auf diese bestimmten Ausführungsformen beschränkt ist. Folglich kann ein Fachmann verschiedene Änderungen und Abänderungen vornehmen, ohne von dem Gedanken oder dem Umfang der wie in den beigefügten Ansprüchen festgelegten Erfindung abzuweichen.

Claims (19)

  1. Verfahren zum Korrigieren von Auswirkungen von Sprechstörungen eines Benutzers, aufweisend: Erfassen (106) eines Tonsignals eines Sprechens; Analysieren (108) des Tonsignals durch einen Prozessor (12) zum Erkennen von durch die Sprechstörung des Benutzers verursachten Tonsignalartefakten; Abändern (110) des Tonsignals durch den Prozessor (12) durch Beseitigen der erkannten Tonsignalartefakte aus dem Tonsignal; und Bereitstellen (112) des abgeänderten Tonsignals, wobei das Verfahren ferner beinhaltet: Empfangen einer Einarbeitung, welche Tonsignale durch die Sprechstörung des Benutzers verursachte Artefakte sind, wobei das Empfangen einer Einarbeitung beinhaltet: Empfangen von Tonsignalen des Lesens eines Textes durch einen Benutzer; Vergleichen der Tonsignale des Lesens des Textes durch den Benutzer mit einem vorher festgelegten, dem Text zugeordneten Tonsignal; und Erkennen der der Sprechstörung des Benutzers zugeordneten Tonsignalartefakte durch Erkennen von Unterschieden zwischen den Tonsignalen des Lesens des Textes durch den Benutzer und einem vorher festgelegten, dem Text zugeordneten Tonsignal.
  2. Verfahren nach Anspruch 1, wobei die Schritte des Erfassens (106), des Analysierens (108), des Abänderns (110) und des Bereitstellens (112) in Echtzeit oder nahezu in Echtzeit während des Sprechens durchgeführt werden.
  3. Verfahren nach 1, wobei das Bereitstellen (112) das Übertragen des abgeänderten Signals oder das Abspielen des abgeänderten Tonsignals oder Kombinationen daraus beinhaltet.
  4. Verfahren nach Anspruch 3, ferner beinhaltend das Abrufen (104) einer oder mehrerer Zuordnungen zwischen Störungen und Artefakten, welche die Sprechstörung des Benutzers und ein oder mehrere Tonsignalartefakte verknüpfen.
  5. Verfahren nach Anspruch 4, wobei die Zuordnungen zwischen Störungen und Artefakten ein wiederholtes Vorkommen von dem Stottern zugeordneten Lauten, ein wiederholtes Vorkommen eines bestimmten dem Stottern zugeordneten Lauts, in das Sprechen eingefügte, dem Tourette-Syndrom zugeordnete unangebrachte Sprache oder eine dem Lispeln zugeordnete undeutliche Aussprache oder Kombinationen daraus beinhalten.
  6. Verfahren nach Anspruch 1, wobei die Schritte des Erfassens (106), des Analysierens (108), des Abänderns (110) und des Bereitstellens (112) in Echtzeit durchgeführt werden, während das Sprechen durchgeführt wird, und das Erfassen (106) und Bereitstellen (112) ununterbrochen geschehen, wobei ein nächster Sprechton erfasst (106) wird, während ein vorher abgeändertes Tonsignal bereitgestellt (112) wird.
  7. Verfahren nach Anspruch 1, wobei die Sprechstörung Stottern, Tourette-Syndrom oder Lispeln oder Kombinationen daraus beinhaltet.
  8. System zum Korrigieren von Auswirkungen von Sprechstörungen eines Benutzers, aufweisend: einen Prozessor (12); ein Empfangsmodul (202), das in der Lage ist, ein Tonsignal eines Sprechens zu erfassen; ein Analysemodul (212), das in der Lage ist, auf dem Prozessor ausgeführt zu werden, und ferner in der Lage ist, das Tonsignal zu analysieren, um durch die Sprechstörung des Benutzers verursachte Tonsignalartefakte zu erkennen. ein Abänderungsmodul (216), das in der Lage ist, das Tonsignal durch Beseitigen der erkannten Tonsignalartefakte aus dem Tonsignal abzuändern; und ein Abspielmodul 220 das in der Lage ist, das abgeänderte Tonsignal bereitzustellen, wobei das System ferner beinhaltet: ein Modul zum Empfangen einer Einarbeitung, welche Tonsignale durch die Sprechstörung des Benutzers verursachte Artefakte sind, wobei das Empfangen einer Einarbeitung beinhaltet: Empfangen von Tonsignalen des Lesens eines Textes durch einen Benutzer; Vergleichen der Tonsignale des Lesens des Textes durch den Benutzer mit einem vorher festgelegten, dem Text zugeordneten Tonsignal; und Erkennen der der Sprechstörung des Benutzers zugeordneten Tonsignalartefakte durch Erkennen von Unterschieden zwischen den Tonsignalen des Lesens des Textes durch den Benutzer und einem vorher festgelegten, dem Text zugeordneten Tonsignal.
  9. System nach Anspruch 8, wobei das System die Sprechstörungen des Benutzers in Echtzeit oder nahezu in Echtzeit während des Sprechens korrigiert.
  10. System nach Anspruch 8, ferner beinhaltend: Erfassen der Sprechstörungen des Benutzers zum Korrigieren.
  11. System nach Anspruch 10, ferner beinhaltend: eine Datenbank (214) mit einer oder mehreren Zuordnungen zwischen Störungen und Artefakten, welche die erfasste Sprechstörung und ein oder mehrere Tonsignalartefakte verknüpfen.
  12. System nach Anspruch 11, wobei die Zuordnungen zwischen Störungen und Artefakten ein wiederholtes Vorkommen von dem Stottern zugeordneten Lauten, ein wiederholtes Vorkommen eines bestimmten dem Stottern zugeordneten Lauts, in das Sprechen eingefügte, dem Tourette-Syndrom zugeordnete unangebrachte Sprache oder eine dem Lispeln zugeordnete undeutliche Aussprache oder Kombinationen daraus beinhalten.
  13. Durch einen Computer lesbares Speichermedium, auf dem ein durch eine Maschine ausführbares Programm (302) mit Anweisungen zum Durchführen eines Verfahrens zum Korrigieren von Auswirkungen von Sprechstörungen eines Benutzers gespeichert ist, aufweisend: Erfassen (106) eines Tonsignals eines Sprechens; Analysieren (108) des Tonsignals durch einen Prozessor zum Erkennen von durch die Sprechstörung des Benutzers verursachten Tonsignalartefakten; Abändern (110) des Tonsignals durch den Prozessor durch Beseitigen der erkannten Tonsignalartefakte aus dem Tonsignal; und Bereitstellen (112) des abgeänderten Tonsignals, ferner beinhaltend: Empfangen einer Einarbeitung, welche Tonsignale durch die Sprechstörung des Benutzers verursachte Artefakte sind, , wobei das Empfangen einer Einarbeitung beinhaltet: Empfangen von Tonsignalen des Lesens eines Textes durch einen Benutzer; Vergleichen der Tonsignale des Lesens des Textes durch den Benutzer mit einem vorher festgelegten, dem Text zugeordneten Tonsignal; und Erkennen der der Sprechstörung des Benutzers zugeordneten Tonsignalartefakte durch Erkennen von Unterschieden zwischen den Tonsignalen des Lesens des Textes durch den Benutzer und einem vorher festgelegten, dem Text zugeordneten Tonsignal.
  14. Durch einen Computer lesbares Speichermedium nach Anspruch 13, wobei die Schritte des Erfassens (106), des Analysierens (108), des Abänderns (110) und des Bereitstellens (112) in Echtzeit oder nahezu in Echtzeit während des Sprechens durchgeführt werden.
  15. Durch einen Computer lesbares Speichermedium nach Anspruch 13, ferner beinhaltend: Erfassen der Sprechstörungen des Benutzers zum Korrigieren.
  16. Durch einen Computer lesbares Speichermedium nach Anspruch 15, ferner beinhaltend das Abrufen (104) einer oder mehrerer Zuordnungen zwischen Störungen und Artefakten, welche die abgerufene Sprechstörung und ein oder mehrere Tonsignalartefakte verknüpfen.
  17. Durch einen Computer lesbares Speichermedium nach Anspruch 16, wobei die Zuordnungen zwischen Störungen und Artefakten ein wiederholtes Vorkommen von dem Stottern zugeordneten Lauten, ein wiederholtes Vorkommen eines bestimmten dem Stottern zugeordneten Lauts, in das Sprechen eingefügte, dem Tourette-Syndrom zugeordnete unangebrachte Sprache oder eine dem Lispeln zugeordnete undeutliche Aussprache oder Kombinationen daraus beinhalten.
  18. Durch einen Computer lesbares Speichermedium nach Anspruch 13, wobei die Schritte des Erfassens (106), des Analysierens (108), des Abänderns (110) und des Bereitstellens (112) in Echtzeit durchgeführt werden, während das Sprechen durchgeführt wird, und das Erfassen (106) und Bereitstellen (112) ununterbrochen geschehen, wobei ein nächster Sprechton erfasst (106) wird, während ein vorher abgeändertes Tonsignal bereitgestellt (112) wird.
  19. Durch einen Computer lesbares Speichermedium nach Anspruch 13, wobei die Sprechstörung Stottern, Tourette-Syndrom oder Lispeln oder Kombinationen daraus beinhaltet.
DE112013000760.6T 2012-03-14 2013-03-06 Automatisches korrigieren von Sprechfehlern in Echtzeit Active DE112013000760B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/420,088 US8682678B2 (en) 2012-03-14 2012-03-14 Automatic realtime speech impairment correction
US13/420,088 2012-03-14
PCT/US2013/029242 WO2013138122A2 (en) 2012-03-14 2013-03-06 Automatic realtime speech impairment correction

Publications (2)

Publication Number Publication Date
DE112013000760T5 DE112013000760T5 (de) 2014-12-11
DE112013000760B4 true DE112013000760B4 (de) 2020-06-18

Family

ID=49158469

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112013000760.6T Active DE112013000760B4 (de) 2012-03-14 2013-03-06 Automatisches korrigieren von Sprechfehlern in Echtzeit

Country Status (5)

Country Link
US (2) US8682678B2 (de)
CN (1) CN104205215B (de)
DE (1) DE112013000760B4 (de)
GB (1) GB2516179B (de)
WO (1) WO2013138122A2 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043204B2 (en) * 2012-09-12 2015-05-26 International Business Machines Corporation Thought recollection and speech assistance device
US20150310853A1 (en) * 2014-04-25 2015-10-29 GM Global Technology Operations LLC Systems and methods for speech artifact compensation in speech recognition systems
CN107111961A (zh) 2014-12-31 2017-08-29 诺瓦交谈有限责任公司 用于在线和远程言语障碍治疗的方法和系统
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
US20180174577A1 (en) * 2016-12-19 2018-06-21 Microsoft Technology Licensing, Llc Linguistic modeling using sets of base phonetics
US10395649B2 (en) 2017-12-15 2019-08-27 International Business Machines Corporation Pronunciation analysis and correction feedback
BR102018000306A2 (pt) * 2018-01-05 2019-07-16 Tácito Mistrorigo de Almeida Sistema e método de monitoramento digital da apneia do sono
EP3618061B1 (de) * 2018-08-30 2022-04-27 Tata Consultancy Services Limited Verfahren und system zur verbesserten erkennung von ungeordneter sprache
CN116092475B (zh) * 2023-04-07 2023-07-07 杭州东上智能科技有限公司 一种基于上下文感知扩散模型的口吃语音编辑方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
US20080201141A1 (en) * 2007-02-15 2008-08-21 Igor Abramov Speech filters

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6231500B1 (en) * 1994-03-22 2001-05-15 Thomas David Kehoe Electronic anti-stuttering device providing auditory feedback and disfluency-detecting biofeedback
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
US5647834A (en) * 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
US5920838A (en) * 1997-06-02 1999-07-06 Carnegie Mellon University Reading and pronunciation tutor
US5973252A (en) 1997-10-27 1999-10-26 Auburn Audio Technologies, Inc. Pitch detection and intonation correction apparatus and method
US5940798A (en) * 1997-12-31 1999-08-17 Scientific Learning Corporation Feedback modification for reducing stuttering
US7016835B2 (en) 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US6754632B1 (en) * 2000-09-18 2004-06-22 East Carolina University Methods and devices for delivering exogenously generated speech signals to enhance fluency in persons who stutter
US7031922B1 (en) * 2000-11-20 2006-04-18 East Carolina University Methods and devices for enhancing fluency in persons who stutter employing visual speech gestures
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7158933B2 (en) 2001-05-11 2007-01-02 Siemens Corporate Research, Inc. Multi-channel speech enhancement system and method based on psychoacoustic masking effects
WO2004075168A1 (ja) * 2003-02-19 2004-09-02 Matsushita Electric Industrial Co., Ltd. 音声認識装置及び音声認識方法
DK1509065T3 (da) 2003-08-21 2006-08-07 Bernafon Ag Fremgangsmåde til behandling af audiosignaler
US7271329B2 (en) * 2004-05-28 2007-09-18 Electronic Learning Products, Inc. Computer-aided learning system employing a pitch tracking line
US20050288923A1 (en) 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
US8109765B2 (en) * 2004-09-10 2012-02-07 Scientific Learning Corporation Intelligent tutoring feedback
US7508948B2 (en) * 2004-10-05 2009-03-24 Audience, Inc. Reverberation removal
US7292985B2 (en) * 2004-12-02 2007-11-06 Janus Development Group Device and method for reducing stuttering
JP3999812B2 (ja) 2005-01-25 2007-10-31 松下電器産業株式会社 音復元装置および音復元方法
US20090220926A1 (en) * 2005-09-20 2009-09-03 Gadi Rechlis System and Method for Correcting Speech
US7930168B2 (en) * 2005-10-04 2011-04-19 Robert Bosch Gmbh Natural language processing of disfluent sentences
GB0601988D0 (en) 2006-02-01 2006-03-15 Univ Dundee Speech generation
US7860719B2 (en) * 2006-08-19 2010-12-28 International Business Machines Corporation Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
US8195453B2 (en) 2007-09-13 2012-06-05 Qnx Software Systems Limited Distributed intelligibility testing system
US8290596B2 (en) 2007-09-26 2012-10-16 Medtronic, Inc. Therapy program selection based on patient state
US8494857B2 (en) * 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
EP2363852B1 (de) 2010-03-04 2012-05-16 Deutsche Telekom AG Computerbasiertes Verfahren und System zur Beurteilung der Verständlichkeit von Sprache
US20120116772A1 (en) 2010-11-10 2012-05-10 AventuSoft, LLC Method and System for Providing Speech Therapy Outside of Clinic
US8571873B2 (en) * 2011-04-18 2013-10-29 Nuance Communications, Inc. Systems and methods for reconstruction of a smooth speech signal from a stuttered speech signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
US20080201141A1 (en) * 2007-02-15 2008-08-21 Igor Abramov Speech filters

Also Published As

Publication number Publication date
GB2516179B (en) 2015-09-02
GB201416793D0 (en) 2014-11-05
CN104205215A (zh) 2014-12-10
WO2013138122A2 (en) 2013-09-19
US8620670B2 (en) 2013-12-31
GB2516179A (en) 2015-01-14
US20130246061A1 (en) 2013-09-19
WO2013138122A3 (en) 2015-06-18
DE112013000760T5 (de) 2014-12-11
US20130246058A1 (en) 2013-09-19
US8682678B2 (en) 2014-03-25
CN104205215B (zh) 2017-10-13

Similar Documents

Publication Publication Date Title
DE112013000760B4 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
CN110503976B (zh) 音频分离方法、装置、电子设备及存储介质
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE112010005168B4 (de) Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE102019001775A1 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
DE102014118075B4 (de) Audio und Video synchronisierendes Wahrnehmungsmodell
DE102013212215A1 (de) System und Verfahren zum Feststellen von Fachkenntnissen durch Sprachanalyse
DE112018006101T5 (de) Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem
CN106548785A (zh) 一种语音处理方法及装置、终端设备
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE102017129484A1 (de) Spracherkennung ohne unterbrechen der audiowiedergabe
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE212016000292U1 (de) System zur Text-zu-Sprache-Leistungsbewertung
DE112021005577T5 (de) Sprecherspezifisches verstärken von stimmen
CN107886940B (zh) 语音翻译处理方法及装置
Harrison Variability of formant measurements
DE102021116409A1 (de) Gemeinsame automatische spracherkennung und text-zu-sprache-umwandlung unter verwendung gegnerischer neuronaler netzwerke
CN110808075A (zh) 智能录播方法
CN115333879B (zh) 一种远程会议方法及系统
JP2010183372A (ja) 音声自動応答装置、音声自動応答方法および音声自動応答プログラム
DE102006045719B4 (de) Medizinisches System mit einer Spracheingabevorrichtung
DE102021123866A1 (de) Audioschnittstelle für tragbare datenverarbeitungseinheiten
DE112021004829T5 (de) Durchgängiges verstehen gesprochener sprache ohne vollständige abschriften
Conkie et al. Building Text-To-Speech Voices in the Cloud.

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R084 Declaration of willingness to licence
R020 Patent grant now final