DE102015213720A1

DE102015213720A1 - Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem und Spracherkennungssystem

Info

Publication number: DE102015213720A1
Application number: DE102015213720.1A
Authority: DE
Inventors: Daniel Lüddecke; Marius Spika; Eva BERNER; Jens Schneider; Marek Jez
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2015-07-21
Filing date: 2015-07-21
Publication date: 2017-01-26
Anticipated expiration: 2035-07-22
Also published as: DE102015213720B4

Abstract

Die Erfindung betrifft ein Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem, insbesondere in einem Fahrzeug (6), bei dem eine Original-Spracheingabe und eine Korrigier-Spracheingabe eines Nutzers erfasst werden. Anhand der Original-Spracheingabe wird ein Originaltext (OT) erzeugt und anhand der Korrigier-Spracheingabe wird ein Korrigiertext (KT) erzeugt, wobei der Originaltext (OT) und der Korrigiertext (KT) jeweils ein oder mehrere Textfragmente mit jeweils einem oder mehreren Wörtern umfassen. Anhand des Originaltextes (OT) und des Korrigiertextes (KT) wird ein korrigierter Text (ET) erzeugt und in Abhängigkeit von dem korrigierten Text (ET) wird ein Steuersignal ausgegeben. Die Erfindung betrifft ferner ein Spracherkennungssystem zum Ausführen des erfindungsgemäßen Verfahrens.

Description

Die Erfindung betrifft ein Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem, insbesondere in einem Fahrzeug, bei dem eine Original-Spracheingabe und eine Korrigier-Spracheingabe eines Nutzers erfasst werden. Anhand der Original-Spracheingabe wird ein Originaltext erzeugt und anhand der Korrigier-Spracheingabe wird ein Korrigiertext erzeugt, wobei der Originaltext und der Korrigiertext jeweils ein oder mehrere Textfragmente mit jeweils einem oder mehreren Wörtern umfassen. Anhand des Originaltextes und des Korrigiertextes wird ein korrigierter Text erzeugt und in Abhängigkeit von dem korrigierten Text wird ein Steuersignal ausgegeben. Die Erfindung betrifft ferner ein Spracherkennungssystem, insbesondere in einem Fahrzeug, mit einer Spracherfassungseinheit, durch die eine Original-Spracheingabe und eine Korrigier-Spracheingabe eines Nutzers erfassbar sind. Es umfasst zudem eine Spracherkennungseinheit, durch die anhand der Original-Spracheingabe ein Originaltext erzeugbar ist und anhand der Korrigier-Spracheingabe ein Korrigiertext erzeugbar ist, wobei der Originaltext und der Korrigiertext jeweils ein oder mehrere Textfragmente mit jeweils einem oder mehreren Wörtern umfassen. Es umfasst ferner eine Korrektureinheit, durch die anhand des Originaltextes und des Korrigiertextes ein korrigierter Text erzeugbar ist, und eine Steuereinheit, durch die in Abhängigkeit von dem korrigierten Text ein Steuersignal ausgebbar ist.
Spracherkennungssysteme finden ein breites Anwendungsspektrum für Bediensysteme. Dies betrifft gleichermaßen die Bedienung von Geräten sowie die Erledigung fernmündlicher Aufgaben mittels Sprachcomputer, beispielsweise Telefon-Banking. Auch hat sich die Bedienung von Einrichtungen eines Fahrzeugs über Spracheingaben als wesentliches Merkmal aktueller Benutzerschnittstellen im Fahrzeug etabliert. Beispielsweise werden zur Eingabe komplexer Sachverhalte entsprechende Informationen durch ein Sprachdialogsystem sequentiell vom Nutzer abgefragt, längere Texte können diktiert werden.
Es ist dabei von entscheidender Bedeutung, dass die Erkennung und Interpretation einer Spracheingabe des Nutzers möglichst fehlerfrei und schnell erfolgt. Ein weiterer Aspekt bei der Erfassung von Spracheingaben ist, dass das System auch mit fehlerhaften Eingaben des Nutzers umgehen können bzw. dem Nutzer erlauben muss, seine Eingaben nötigenfalls zu korrigieren. Dies ist insbesondere, aber nicht nur bei der Eingabe von längerem Text von Bedeutung, etwa beim Diktieren einer Email. Dem Nutzer muss hier eine Möglichkeit geboten werden, den eingegebenen Wortlaut von sich aus zu korrigieren. Gleichzeitig soll die Bedienung die Aufmerksamkeit des Nutzers nicht zu sehr in Anspruch nehmen. Dies ist insbesondere bei Systemen in Fahrzeugen von Bedeutung.
Die US 2007/0073540 A1 beschreibt eine Spracherkennung, bei der eine Korrektur durch Wiederholen eines Satzes oder Satzteils vorgenommen werden kann. Bei der Eingabe zweier Äußerungen wird erkannt, ob die zweite Äußerung zur ganzen oder zu einem Teil der ersten Äußerung passt und dieser erkannte Teil wird korrigiert. Bei diesem Verfahren wird anhand der Audiodaten analysiert, mit welcher Wahrscheinlichkeit Teile der beiden Äußerungen zusammengehören, etwa mittels einer Fourier-Transformation, und die Korrektur wird vorgenommen.
Es ist daher die Aufgabe der vorliegenden Erfindung, ein Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem und ein Spracherkennungssystem bereitzustellen, mit denen der Nutzer Spracheingaben schnell und zuverlässig korrigieren kann.
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren der oben genannten Art mit den Merkmalen des Anspruchs 1 und durch ein Spracherkennungssystem der oben genannten Art mit den Merkmalen des Anspruchs 7 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den abhängigen Ansprüchen.
Das erfindungsgemäße Verfahren ist dadurch gekennzeichnet, dass anhand eines Vergleichs des Originaltextes mit dem Korrigiertext zumindest ein gemeinsames Textfragment bestimmt wird, das sowohl von dem Originaltext als auch von dem Korrigiertext umfasst ist. Anhand der Position des gemeinsamen Textfragments im Originaltext wird zumindest ein Original-Textfragment des Originaltextes bestimmt wird und anhand der Position des gemeinsamen Textfragments im Korrigiertext wird zumindest ein Korrigier-Textfragment des Korrigiertextes bestimmt wird. Beim Erzeugen des korrigierten Textes wird das Original-Textfragment durch das Korrigier-Textfragment ersetzt.
Die Erfassung der beiden Spracheingaben erfolgt dabei durch an sich bekannte Verfahren, etwa mittels eines Mikrofons und einer dazugehörigen Einrichtung zur Speicherung und Verarbeitung des erfassten Signals. Der Nutzer kann dem System beispielsweise den Beginn einer Spracheingabe durch Drücken einer „Push-To-Talk“-Taste (PTT) signalisieren.
Ferner kann automatisch erkannt werden, dass eine Spracheingabe folgt, beispielsweise nach dem Aufruf einer Funktion, die eine Sprachsteuerung erlaubt. Die erfassten Audiodaten der Spracheingabe können flüchtig oder nichtflüchtig gespeichert werden und so zu einem späteren Zeitpunkt zur Verfügung stehen. Der Nutzer des Spracherfassungssystems kann dabei insbesondere der Fahrer eines Fahrzeugs sein.
Nach der Erfassung der Spracheingaben wird eine Texterkennung durchgeführt und es werden ein Originaltext und ein Korrigiertext erzeugt. Der Originaltext enthält dabei die fehlerhafte Eingabe, die korrigiert werden soll, und der Korrigiertext enthält den neu gesprochenen Teil der Eingabe, der zur Korrektur verwendet werden soll. Bei der Texterkennung wird anhand eines Sprachmodells aus dem erfassten Audiosignal der jeweiligen Spracheingabe ein erkannter Text bestimmt. Dieser wird insbesondere maschinenlesbar erzeugt und kann für die weitere Analyse verwendet werden. Das verwendete Sprachmodell kann beispielsweise ein Wörterbuch umfassen. Es kann ferner die Frequenz von Wörtern einzeln oder in Kombination abbilden.
Das Spracherkennungssystem kann mehrere Sprachmodelle umfassen, die beispielsweise einen verschieden großen Wortschatz abbilden. Zur Auswahl des passenden Sprachmodells und damit zur Verbesserung der Texterkennung können Daten zum Kontext der Spracheingabe erfasst werden. Der „Kontext der Spracheingabe“ stellt dabei die Gesamtheit der Informationen dar, welche die Fahrsituation betreffen, in der die Spracheingabe erfolgt. Die Daten zum Kontext der Spracheingabe können insbesondere Informationen umfassen, die den Kontext zum Zeitpunkt der Spracheingabe betreffen; ferner können Daten zum Kontext in der Vergangenheit umfasst sein. Neben dem zeitlichen Bezug kann auch ein räumlicher Bezug zum Kontext der Spracheingabe bestehen, etwa bei Informationen über die nähere Umgebung des Fahrzeugs.
Die Daten zu dem Kontext der Spracheingabe können Eigenschaften des Fahrzeugs, des Nutzers und/oder der Umgebung des Fahrzeugs umfassen und dadurch Zusatzinformationen bereitstellen, durch die die Texterkennung verbessert werden kann.
Die Daten zum Kontext können beispielsweise durch die Sensorik des Fahrzeugs zur Verfügung gestellt werden. Ferner können sie beispielsweise durch den Hersteller vorgegeben werden und durch eine Einrichtung des Fahrzeugs, beispielsweise eine Speicher- und Recheneinheit des Fahrzeugs bereitgestellt werden. Sie können ferner von einem Rechner erfasst werden, der beispielsweise durch eine Internetverbindung mit anderen Rechnen verbunden ist oder durch ein lokales Netz beispielsweise mit einem mobilen Nutzergerät des Nutzers Daten austauschen kann. Ferner können Eingaben von dem Benutzer erfasst werden, beispielsweise durch Eingabevorrichtungen des Fahrzeugs.
Die Daten über das Fahrzeug können beispielsweise die Geschwindigkeit und die Position des Fahrzeugs betreffen. Ferner können Daten zu konstruktiv bedingten Eigenschaften des Fahrzeugs umfasst sein, etwa der Fahrzeugtyp, die Abmessungen, der benötigte Kraftstofftyp oder die Wartungsintervalle. Auch Informationen über die Nutzung des Fahrzeugs, etwa die innerhalb eines Zeitintervalls gefahrene Strecke, können umfasst sein.
Der Nutzer des Spracherfassungssystems kann insbesondere der Fahrer des Fahrzeugs sein. Die Daten über den Nutzer können beispielsweise eine Identifikation des Nutzers oder frühere Interaktionen des Nutzers umfassen. Dies ermöglicht nutzerspezifische Anpassungen. Neben dem Nutzer können in einem Fahrzeug auch Daten über weitere Fahrzeuginsassen erfasst werden, beispielsweise deren Identität und Anzahl sowie ihre Interaktionen mit dem Spracherkennungssystem. Die Daten zum Kontext können von verschiedenen Einrichtungen erfasst werden, sie können aber auch von dem Spracherkennungssystem selbst bereitgestellt werden, beispielsweise im Rahmen einer Lernfunktion, bei der vergangene Interaktionen mit dem Nutzer vom Spracherkennungssystem gespeichert werden.
Die Daten über die Umgebung des Fahrzeugs können beispielsweise Informationen über andere Fahrzeuge in der Umgebung des Fahrzeugs umfassen, etwa deren Position und Geschwindigkeit. Auch die Verkehrssituation kann erfasst werden, beispielsweise kann eine Stausituation erkannt werden. Ferner können Informationen über die befahrene Straße erfasst werden, beispielsweise der Straßentyp, die zulässige Höchstgeschwindigkeit, der Zustand des Straßenbelags oder die Dichte des Verkehrs.
Die Daten zum Kontext der Spracheingabe können auch Daten umfassen, die durch Einrichtungen erzeugt oder auf ihnen gespeichert sind. Dadurch kann der Kontext durch zusätzliche Informationen angereichert werden. Die Einrichtungen, durch die Daten erzeugt werden oder gespeichert werden können, sind insbesondere Einrichtungen des Fahrzeugs oder mobile Nutzergeräte. Beispielsweise kann erfasst werden, welche Einrichtungen im Moment der Spracheingabe aktiv sind und worauf sich die Spracheingabe bezieht. Daten können beispielsweise von einem elektronischen Kalender, einer Navigationsfunktion, einem Medienabspielgerät oder einer Telefoneinrichtung erfasst werden. Insbesondere können auch Bedieneinrichtungen Daten zum Kontext liefern, beispielsweise kann erfasst werden, ob der Nutzer die Bedienung einer bestimmten Einrichtung aktiviert hat und ob er gerade eine Bedienung vornimmt. Ist beispielsweise eine Navigationseinrichtung aktiviert, so kann das System daraus folgern, dass eine Spracheingabe im Zusammenhang mit dieser Einrichtung erfolgt.
Nach dem Durchführen der Texterkennung liegen die beiden Spracheingaben als maschinenlesbarer Original- und Korrigiertext vor, die jeweils ein oder mehrere Textfragmente umfassen. Die Textfragmente wiederum umfassen ein oder mehrere Wörter als kleinste Einheiten des Textes. Bei der Gliederung eines Textes in Textfragmente werden dabei aufeinanderfolgende Wörter gruppiert. Erfindungsgemäß kann ein Textfragment auch weitere Textfragmente umfassen, es handelt sich im Allgemeinen nicht um statische Einheiten des Textes.
Im nächsten Schritt werden der Original- und der Korrigiertext miteinander verglichen und es wird zumindest ein Textfragment identifiziert, das beiden Texten gemeinsam ist. Um häufige Wörter, etwa bestimmte und unbestimmte Artikel oder Hilfsverben, auszuschließen und nur relevante Gemeinsamkeiten zu bestimmen, können an sich bekannte Verfahren der Textverarbeitung angewandt werden. Insbesondere können gemeinsame Textfragmente identifiziert werden, die aus mehreren Wörtern bestehen, deren Kombination nur mit geringer Wahrscheinlichkeit zufällig erwartet wird.
Anhand der Position des gemeinsamen Textfragments im Original- und Korrigiertext werden nun ein Original-Textfragment bzw. ein Korrigier-Textfragment bestimmt. Zum Erzeugen des korrigierten Textes wird das Original-Textfragment durch das Korrigier-Textfragment ersetzt. Original- und Korrigier-Textfragment müssen dabei nicht die gleiche Länge haben. Die Anzahl der Wörter im Text kann sich also durch das Ersetzen verändern.
In einem weiteren Schritt wird in Abhängigkeit von dem korrigierten Text ein Steuersignal ausgegeben. Der korrigierte Text kann etwa an eine Ausgabeeinheit übertragen werden, die den Text anzeigt, oder es kann eine andere Einrichtung gesteuert werden, etwa ein Navigationsgerät, ein Infotainment-System, ein Webbrowser oder ein Email-Programm.
Bei einer Ausbildung wird, wenn sowohl im Originaltext als auch im Korrigiertext ein erstes gemeinsames Textfragment vor einem zweiten gemeinsamen Textfragment angeordnet ist, der im Korrigiertext zwischen dem ersten und dem zweiten gemeinsamen Textfragment befindliche Text als Korrigier-Textfragment bestimmt wird und der im Originaltext zwischen dem ersten und dem zweiten gemeinsamen Textfragment befindliche Text als Original-Textfragment bestimmt. Dadurch kann der Nutzer vorteilhafterweise einfach die zu korrigierende Textstelle vorgeben.
Es werden dabei insbesondere „Rahmenwörter“ verwendet, wobei das erste gemeinsame Textfragment ein „Rahmenvorwort“ und das zweite gemeinsame Textfragment ein „Rahmennachwort“ ist. Die Bereiche im Originaltext und im Korrigiertext zwischen Rahmenvor- und -nachwort entsprechen in diesem Fall dem Original- bzw. dem Korrigiertextfragment.
Erfindungsgemäß ist das Wort „zwischen“ so zu verstehen, dass die beiden oder eines der Rahmenwörter ein- oder ausgeschlossen sein können. Das heißt, der Bereich „zwischen“ einem ersten und einem dritten Textfragment kann das erste, zweite und dritte, oder das erste und zweite, oder das zweite und dritte, oder nur das zweite Textfragment umfassen. Die verwendete Definition ist von der jeweiligen Implementierung des Verfahrens abhängig, während das Ergebnis gleich ist.
Der Nutzer spricht also in der Korrigier-Spracheingabe zunächst das erste gemeinsame Textfragment (Rahmenvorwort) und dann den einzufügenden oder zu verbessernden Teil; anschließend wird die Korrigier-Spracheingabe durch das zweite gemeinsame Textfragment (Rahmennachwort) abgeschlossen.
Dies ermöglicht eine Korrektur innerhalb des Originaltextes, allerdings nicht ganz am Anfang oder ganz am Ende des Originaltextes. Für diese beiden Fälle sind Weiterbildungen vorgesehen, die mit jeweils einem Rahmenwort auskommen.
Das System kann dabei verschiedene Modi aufweisen, die das Verhalten beim Erzeugen des korrigierten Textes bestimmen. Original- und Korrigier-Textfragment können insbesondere anhand zweier Rahmenwörter oder anhand nur eines Rahmenwortes am Anfang oder am Ende der zu korrigierenden Textbereiche verwendet werden. Diese Rahmenwörter sind gemeinsame Textfragmente des Originaltextes und des Korrigiertextes. Zur Bestimmung des Original-Textfragments können bei einzelnen Rahmenwörtern ferner „Ersetzen“- und „Abschneiden“-Modi vorgesehen sein. Je nachdem, welche Modus aktiviert ist, werden nur einzelne Wörter der Spracheingabe bei der Korrektur ersetzt oder es wird das Ende des Originaltextes abgeschnitten, also gelöscht. Diese Modi können unterschiedlich festgelegt sein, je nachdem, ob sich das Rahmenwort am Anfang oder am Ende des Korrigiertextes befindet. Es könne beide oder lediglich einer dieser zwei Modi implementiert sein, wodurch der jeweilige implementierte Modus als ständig aktiviert betrachtet wird.
In einer Ausbildung wird, wenn sowohl der Originaltext als auch der Korrigiertext genau ein gemeinsames Textfragment umfassen, wobei das gemeinsame Textfragment das erste Textfragment des Korrigiertextes ist, das Korrigier-Textfragment bestimmt als die geordnete Folge der Textfragmente im Korrigiertext zwischen dem gemeinsamen Textfragment und dem Ende des Korrigiertextes. Wenn ein „Ersetzen“-Modus des Spracherkennungssystems aktiviert ist, wird das Original-Textfragment bestimmt als die geordnete Folge der Textfragmente im Originaltext zwischen dem gemeinsamen Textfragment und einem darauf folgenden Textfragment. Dabei umfassen das Korrigier-Textfragment und das Original-Textfragment genau die gleiche Anzahl Wörter. Alternativ dazu wird, wenn ein „Abschneiden“-Modus des Spracherkennungssystems aktiviert ist, das Original-Textfragment bestimmt als die geordnete Folge der Textfragmente im Originaltext zwischen dem gemeinsamen Textfragment und dem Ende des Originaltextes.
Es reicht so vorteilhafterweise aus, ein Rahmenvorwort anzugeben, um den Bereich der Korrektur zu definieren. Insbesondere kann auf diese Weise ein Textfragment am Ende des Originaltextes korrigiert werden. Es wird also automatisch das Ende des zu ersetzenden Textfragments im Originaltext bestimmt.
Bei dem „Ersetzen“-Modus werden, ausgehend von dem gemeinsamen Textfragment (Rahmenvorwort) so viele Wörter im Originaltext ersetzt, wie das Korrigier-Textfragment Wörter umfasst. Bei dem „Abschneiden“-Modus wird der gesamte Teil des Originaltextes, der auf das Rahmenvorwort folgt, durch das Korrigier-Textfragment ersetzt, unabhängig von der Anzahl der Wörter.
Bei einer weiteren Ausbildung wird, wenn sowohl der Originaltext als auch der Korrigiertext genau ein gemeinsames Textfragment umfassen, wobei das gemeinsame Textfragment das letzte Textfragment des Korrigiertextes ist, das Korrigier-Textfragment bestimmt als die geordnete Folge der Textfragmente im Korrigiertext zwischen dem Anfang des Korrigiertextes und dem gemeinsamen Textfragment. Wenn ein „Ersetzen“-Modus des Spracherkennungssystems aktiviert ist, wird das Original-Textfragment bestimmt als die geordnete Folge der Textfragmente im Originaltext zwischen dem gemeinsamen Textfragment und einem davor angeordneten Textfragment. Dabei umfassen das Korrigier-Textfragment und das Original-Textfragment genau die gleiche Anzahl Wörter. Alternativ dazu wird, wenn ein „Abschneiden“-Modus des Spracherkennungssystems aktiviert ist, das Original-Textfragment bestimmt als die geordnete Folge der Textfragmente im Originaltext zwischen dem Ende des Originaltextes und einem weiteren Textfragment, das um genau die Anzahl der Wörter des Korrigier-Textfragments vor dem gemeinsamen Textfragment angeordnet ist.
Der Bereich der Korrektur wird also vorteilhafterweise anhand eines Rahmennachvorworts definiert. Insbesondere kann auf diese Weise ein Textfragment am Anfang des Originaltextes korrigiert werden. Es wird also automatisch der Anfang des zu ersetzenden Textfragments im Originaltext bestimmt.
Bei dem „Ersetzen“-Modus werden, ausgehend von dem gemeinsamen Textfragment (Rahmennachwort) so viele Wörter im Originaltext ersetzt, wie das Korrigier-Textfragment Wörter umfasst. Bei dem „Abschneiden“-Modus wird der gesamte Teil des Originaltextes, der auf das Rahmennachwort folgt, gelöscht.
Insbesondere können verschiedene Modi aktiviert sein für die Korrektur mithilfe eines Rahmenvorworts und die Korrektur mithilfe eines Rahmennachworts. Beispielsweise kann der „Ersetzen“-Modus aktiviert sein für den Fall, dass lediglich ein Rahmenvorwort vorliegt, und der „Abschneiden“-Modus kann aktiviert sein für den Fall, dass lediglich ein Rahmennachwort vorliegt. Dadurch kann das Verhalten des Systems so angepasst werden, dass dem Nutzer ein intuitives und schnelles Korrigieren der Texteingabe ermöglicht wird.
Bei einer Ausgestaltung umfassen die Textfragmente jeweils genau ein Wort. In diesem Fall sind die Begriffe „Textfragment“ und „Wort“ äquivalent. Dies kann etwa die Implementierung vereinfachen.
Bei einer Ausbildung der Erfindung wird ferner unmittelbar vor der Korrigier-Spracheingabe eine Signal-Spracheingabe erfasst. Der Nutzer kann dadurch vorteilhafterweise signalisieren, dass die Korrigier-Spracheingabe unmittelbar folgt.
Die Signal-Spracheingabe kann beispielsweise ein Signalwort oder eine Kombination von Wörtern umfassen, die dem System signalisieren, dass die darauf folgende Spracheingabe als Korrigier-Spracheingabe zu interpretieren ist. Insbesondere kann dadurch auch signalisiert werden, dass die direkt zuvor gesprochene Spracheingabe als Original-Spracheingabe zu interpretieren ist. Beispielsweise kann der Nutzer sagen „Ich korrigiere“ oder „Achtung nochmal“. Dabei kann die Signal-Spracheingabe insbesondere so definiert sein, dass die Wahrscheinlichkeit von Verwechslungen mit anderem Text minimiert wird.
In einer Ausbildung wird ferner unmittelbar vor der Korrigier-Spracheingabe die Betätigung eines Bedienelements erfasst. Der Nutzer kann dadurch vorteilhafterweise signalisieren, dass die Korrigier-Spracheingabe unmittelbar folgt.
Das Bedienelement kann beispielsweise ein Taster sein oder eine Schaltfläche auf einem Touchscreen. Die Betätigung des Bedienelements signalisiert dem System, dass die darauf folgende Spracheingabe als Korrigier-Spracheingabe zu interpretieren ist. Insbesondere kann dabei auch signalisiert werden, dass die direkt zuvor gesprochene Spracheingabe als Original-Spracheingabe zu interpretieren ist.
Das erfindungsgemäße Spracherkennungssystem ist dadurch gekennzeichnet, dass durch die Korrektureinheit anhand eines Vergleichs des Originaltextes mit dem Korrigiertext zumindest ein gemeinsames Textfragment bestimmbar ist, das sowohl von dem Originaltext als auch von dem Korrigiertext umfasst ist. Ferner ist durch die Korrektureinheit anhand der Position des gemeinsamen Textfragments im Originaltext zumindest ein Original-Textfragment des Originaltextes bestimmbar. Anhand der Position des gemeinsamen Textfragments im Korrigiertext ist zumindest ein Korrigier-Textfragment des Korrigiertextes bestimmbar. Ferner ist beim Erzeugen des korrigierten Textes das Original-Textfragment durch das Korrigier-Textfragment ersetzbar.
Das erfindungsgemäße Spracherkennungssystem ist insbesondere ausgebildet, das vorstehend beschriebene erfindungsgemäße Verfahren auszuführen. Es weist somit die gleichen Vorteile auf wie das erfindungsgemäße Verfahren.
Bei einer Weiterbildung umfasst das Spracherkennungssystem ferner ein Bedienelement und eine Betätigung des Bedienelements unmittelbar vor der Korrigier-Spracheingabe ist erfassbar. Dies erlaubt dem Nutzer vorteilhafterweise, durch Betätigen eines Bedienelements den Beginn der Korrigier-Spracheingabe zu signalisieren.
Die Erfindung wird nun anhand eines Ausführungsbeispiels mit Bezug zu den Zeichnungen erläutert.
1 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Spracherkennungssystems in einem Fahrzeug,
2 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens mit zwei Rahmenwörtern,
3, 3A und 3B zeigen Ausführungsbeispiele des erfindungsgemäßen Verfahrens mit einem Rahmenvorwort und
4, 4A und 4B zeigen Ausführungsbeispiele des erfindungsgemäßen Verfahrens mit einem Rahmennachwort.
Mit Bezug zu 1 wird ein Ausführungsbeispiel des erfindungsgemäßen Spracherkennungssystems in einem Fahrzeug erläutert.
Das Spracherkennungssystem ist in einem Fahrzeug 6 angeordnet. Es umfasst eine Spracherfassungseinheit 1 mit einem Mikrofon 1a. Durch die Spracherfassungseinheit sind Spracheingaben eines Nutzers erfassbar, wobei die vom Nutzer gesprochenen Audiodaten aufgezeichnet und zwischengespeichert werden, sodass die Audiodaten für eine weitere Verwendung zur Verfügung stehen. Im gezeigten Ausführungsbeispiel signalisiert der Nutzer den Beginn der Spracheingabe durch Drücken eines PTT-Tasters des Fahrzeugs 6. Der Beginn einer Spracheingabe kann auch auf andere Weise erfasst werden, beispielsweise sobald eine Funktion aktiviert wird, die eine Sprachsteuerung zulässt.
Die Spracherfassungseinheit 1 ist ferner mit einem Bedienelement 5 gekoppelt. Betätigt der Nutzer das Bedienelement 5, so wird ein Signal erzeugt, das den Beginn einer Korrektureingabe für die direkt zuvor gesprochene Spracheingabe markiert. Der vor dem Signal gesprochene Text soll als Original-Spracheingabe, der danach gesprochene Text als Korrigier-Spracheingabe behandelt werden. Dieses Signal wird beispielsweise zusätzlich zu den aufgenommenen Audiodaten gespeichert oder in die Aufnahmedaten integriert. Ferner kann der Nutzer einen vordefinierten Signaltext, in diesem Fall „Ich korrigiere“ sprechen und damit den Beginn der Korrektureingabe markieren.
Mit der Spracherfassungseinheit 1 ist eine Spracherkennungseinheit 2 gekoppelt, die eine Korrektureinheit 3 umfasst. Die von der Spracherfassungseinheit 1 erfassten Daten zur Spracheingabe des Nutzers werden an die Spracherkennungseinheit 2 übertragen und dort verarbeitet. Nach an sich bekannten Verfahren wird anhand der erfassten Audiodaten ein maschinenlesbarer Text der Spracheingabe des Nutzers erzeugt. Dieser umfasst Textfragmente, die im gezeigten Beispiel einzelne Wörter sind. Es ist daher im Folgenden von „Wörtern“ die Rede, was in diesem Fall mit „Textfragmenten“ identisch ist.
In dem Ausführungsbeispiel verwendet die Spracherkennungseinheit 2 ein allgemeines Sprachmodell zur Erzeugung des erkannten Textes.
Dieses allgemeine Sprachmodell umfasst ein Wörterbuch mit häufig gebrauchten Wörtern sowie Daten zur Beziehung zwischen den Wörtern, etwa häufige Satzkonstruktionen. Das System kann auch über mehrere oder spezifischere Sprachmodelle verfügen, insbesondere kann eine flexible Wahl des jeweils am besten geeigneten Sprachmodells vorgegeben werden, etwa anhand des Kontextes der Spracheingabe.
Anhand eines Abgleichs dieser beiden Teile der Spracheingabe wird ein korrigierter Text durch die Korrektureinheit 3 erzeugt. Dazu wird ein zu korrigierender Textbereich bestimmt und durch eine Korrektur ersetzt. Die Korrektureinheit 3 weist dabei verschiedene Modi auf, die das Verhalten beim Erzeugen des korrigierten Textes bestimmen. Insbesondere wird unterschieden, ob der zu korrigierende Textbereich anhand zweier Rahmenworte bestimmt wird oder ob nur ein Rahmenwort vor oder nach dem zu korrigierenden Textbereich verwendet wird. Werden einzelne Rahmenwörter verwendet, so sind ferner Ersetzen- und Abschneiden-Modi vorgesehen. Je nachdem, welche Modus aktiviert ist, werden nur einzelne Wörter der Spracheingabe bei der Korrektur ersetze oder es wird das Ende des Originaltextes abgeschnitten, also gelöscht.
Dieser wird an die Steuereinheit 4 übertragen und es wird in Abhängigkeit von dem korrigierten Text ein Steuersignal ausgegeben. Dieses Steuersignal kann an eine Semantikerkennung zur Interpretation der Eingabe oder an weitere Einrichtungen des Fahrzeugs 6 übertragen werden, insbesondere an solche Einrichtungen, die eine Sprachsteuerung oder Eingaben durch gesprochene Sprache erlauben. Beispielsweise können die für eine Navigation notwendigen Eingaben auf diese Weise erfasst werden. Ferner kann der Text angezeigt werden oder beispielsweise eine E-Mail oder Kurzmitteilung durch die Spracheingabe erfasst werden.
Mit Bezug zu 2 wird ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens mit zwei Rahmenwörtern erläutert.
Das gezeigte Ausführungsbeispiel wird durch das in 1 dargestellte System ausgeführt. In einem ersten Schritt werden die Audiodaten einer Spracheingabe des Nutzers erfasst, die aus drei Teilen besteht. Dabei spricht der Nutzer zunächst den Originaltext OT: „Mein kleiner Sohn ist krank. Ich bin auf dem Weg.“ Danach spricht der Nutzer den Signaltext ST: „Ich korrigiere:“ und den Korrigiertext KT: „kleiner Tom ist krank.“ Die Spracherkennungseinheit 2 erzeugt anhand der Spracheingabe des Nutzers maschinenlesbare Textdaten. Dabei umfasst der Originaltext OT die Wörter OW1 bis OW10, der Signaltext ST umfasst die beiden Wörter SW1 und SW2 und der Korrigiertext umfasst die Wörter KW1 bis KW4.
Dabei wird anhand des Signaltextes ST erkannt, wo der Originaltext OT endet und wo der Korrigiertext KT beginnt. Anstelle des Signaltextes ST kann der Nutzer auch das Bedienelement 5 betätigen und damit den Übergang vom Originaltext OT zum Korrigiertext KT markieren. Im gezeigten Beispiel sind beide Alternativen gleichberechtigt, es kann aber auch lediglich eine Option vorgesehen sein. Der Beginn des Originaltextes OT ist im gezeigten Beispiel der Anfang des zuletzt gesprochenen Satzes. Wurden bereits Sätze vorher gesprochen, so kann das System auch beispielsweise anhand der letzten größeren Sprechpause oder anhand anderer Kriterien den Beginn des Originaltextes OT bestimmen.
Im nächsten Schritt werden der Originaltext OT und der Korrigiertext KT verglichen und es werden Wörter bzw. Wortgruppen identifiziert, die in beiden Texten vorkommen. Die gemeinsamen Wörter sind in 2 fettgedruckt dargestellt. Es handelt sich um das Wort „kleiner“ und die Wortgruppe „ist krank“. Damit wird als Rahmenvorwort das Wort „kleiner“ bestimmt und als Rahmennachwort der Ausdruck „ist krank“.
Bei dem Abgleich des Originaltextes OT und des Korrigiertextes KT wird berücksichtigt, dass bestimmte Wörter so häufig vorkommen, dass sie mit hoher Wahrscheinlichkeit gleichzeitig in beiden Texten erscheinen. Beispielsweise ist zu erwarten, dass das Wort „ist“ häufig vorkommt, etwa an mehreren Stellen in einem Text. Für solche Wörter kann es zur fehlerhaften Bestimmung der Rahmenwörter kommen oder die Rahmenwörter können nicht eindeutig bestimmt werden. Für diese Fälle sind Auswahlkriterien so definiert, dass etwa bei mehrfach vorkommenden Wörtern eine zusammenhängende Wortfolge notwendig ist, um das entsprechende Rahmenwort zu identifizieren.
Durch die beiden Rahmenwörter sind der zu ersetzende Teil im Originaltext OT und der Ersetzungsteil im Korrigiertext KT definiert. Im dargestellten Fall ist dies das Wort „Sohn“ OW3 im Originaltext OT bzw. das Wort „Tom“ KW2 im Korrigiertext KT. Zur Erzeugung des korrigierten Textes ET wird also das Wort „Sohn“ OW3 durch das Wort „Tom“ KW2 ersetzt. Als Ergebnis lautet der korrigierte Text ET: „Mein kleiner Tom ist krank. Ich bin auf dem Weg.“
Dieser Ergebnistext ET wird nun an eine Einrichtung des Fahrzeugs 6 übertragen, die etwa eine Kurzmitteilung verfasst.
Mit Bezug zu den 3, 3A und 3B werden Ausführungsbeispiele des erfindungsgemäßen Verfahrens mit einem Rahmenvorwort erläutert.
Wie bei dem oben mit Bezug zur 2 erläuterten Ausführungsbeispiel lautet auch hier der Originaltext OT: „Mein kleiner Sohn ist krank. Ich bin auf dem Weg.“ Der Korrigiertext KT lautet nun aber: „kleiner Tom hat Fieber.“ Originaltext OT und Korrigiertext KT haben also nur das Wort „kleiner“ KW1 gemeinsam. Der restliche Wortlaut des Korrigiertextes KT „Tom hat Fieber“ enthält kein mit dem Originaltext OT gemeinsames Wort.
Bei der Erzeugung des korrigierten Textes ET wird nun berücksichtigt, ob das Spracherkennungssystem im Ersetzen- oder Abschneiden-Modus betrieben wird. Im Ersetzen-Modus wird der korrigierte Text ET so erzeugt, wie er in 3A dargestellt ist. Im Originaltext OT wird zunächst die Position des gemeinsamen Wortes „kleiner“ KW1 gesucht. Nun werden die darauffolgenden Wörter ersetzt durch die Wörter des Korrigiertextes KT. Dabei werden genau drei Wörter ersetzt, da im Korrigiertext KT drei Wörter auf das gemeinsame Wort „kleiner“ folgen. Der Ergebnistext ET lautet also: „Mein kleiner Tom hat Fieber. Ich bin auf dem Weg.“ Ist dagegen der Abschneiden-Modus aktiviert, so werden alle Wörter, die im Originaltext OT auf das gemeinsame Wort folgen, durch die im Korrigiertext KT auf das gemeinsame Wort folgenden Wörter ersetzt. Der gegenüber dem Originaltext OT kürzere Ergebnistext ET lautet daher wie in 3B dargestellt: „Mein kleiner Tom hat Fieber.“
Wenn im Originaltext OT nicht so viele Wörter ersetzt werden können, wie der Korrigiertext KT umfasst, etwa wenn das Rahmenvorwort am Ende des Originaltextes OT angeordnet ist, so wird der Originaltext OT entsprechend der Zahl der aus dem Korrigiertext KT zu ersetzenden Wörter verlängert.
Mit Bezug zu den 4, 4A und 4B werden Ausführungsbeispiele des erfindungsgemäßen Verfahrens mit einem Rahmennachwort erläutert.
Wie bereits oben mit Bezug zu 2 dargestellt, lautet auch hier der Originaltext OT: „Mein kleiner Sohn ist krank. Ich bin auf dem Weg.“ Der Korrigiertext KT lautet hier allerdings: „lieber Tom ist krank.“ Dem Originaltext OT und dem Korrigiertext KT ist also das Rahmennachwort „ist krank“ gemeinsam. Der restliche Wortlaut des Korrigiertextes KT „lieber Tom“ enthält kein mit dem Originaltext OT gemeinsames Wort.
Bei der Erzeugung des korrigierten Textes ET wird berücksichtigt, ob das System im Einfügen- oder im Abschneiden-Modus betrieben wird. Ist der Einfügen-Modus aktiviert, so wird das Rahmennachwort im Originaltext OT identifiziert und es werden vor dem Rahmennachwort befindliche Wörter ersetzt durch die im Korrigiertext KT vor dem Rahmennachwort angeordneten Wörter. Der Ergebnistext ET lautet demzufolge: „Mein lieber Tom ist krank. Ich bin auf dem Weg.“ Ist dagegen der Abschneiden-Modus aktiviert, so wird der im Originaltext auf das Rahmennachwort folgende Text entfernt. Der Ergebnistext ist für diesen Fall in 4B dargestellt und lautet: „Mein lieber Tom ist krank.“
Die beiden Modi „Ersetzen“ und „Abschneiden“ sind für die Verwendung mit einem Rahmenvorwort und einem Rahmennachwort getrennt definiert. Das heißt, das System kann so konfiguriert sein, dass bei der Verwendung eines Rahmenvorworts etwa der Ersetzen-Modus aktiviert ist, während gleichzeitig bei der Verwendung eines Rahmennachworts der Abschneiden-Modus aktiviert ist.
Bezugszeichenliste

1: Spracherfassungseinheit
1a: Mikrofon
2: Spracherkennungseinheit
3: Korrektureinheit
4: Steuereinheit
5: Bedienelement
6: Fahrzeug
OT: Originaltext
OW1 bis OW10: Wörter des Originaltextes
KT: Korrigiertext
KW1 bis KW4: Wörter des Korrigiertextes
ST: Signaltext
SW1; SW2: Wörter des Signaltextes
ET: Korrigierter Text, Ergebnistext

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 2007/0073540 A1 [0004]

Claims

Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem, insbesondere in einem Fahrzeug, bei dem eine Original-Spracheingabe und eine Korrigier-Spracheingabe eines Nutzers erfasst werden, anhand der Original-Spracheingabe ein Originaltext (OT) erzeugt wird und anhand der Korrigier-Spracheingabe ein Korrigiertext (KT) erzeugt wird, wobei der Originaltext (OT) und der Korrigiertext (KT) jeweils ein oder mehrere Textfragmente mit jeweils einem oder mehreren Wörtern umfassen, anhand des Originaltextes (OT) und des Korrigiertextes (KT) ein korrigierter Text (ET) erzeugt wird und in Abhängigkeit von dem korrigierten Text (ET) ein Steuersignal ausgegeben wird, dadurch gekennzeichnet, dass anhand eines Vergleichs des Originaltextes (OT) mit dem Korrigiertext (KT) zumindest ein gemeinsames Textfragment bestimmt wird, das sowohl von dem Originaltext (OT) als auch von dem Korrigiertext (KT) umfasst ist, und anhand der Position des gemeinsamen Textfragments im Originaltext (OT) zumindest ein Original-Textfragment des Originaltextes bestimmt wird und anhand der Position des gemeinsamen Textfragments im Korrigiertext (KT) zumindest ein Korrigier-Textfragment des Korrigiertextes (KT) bestimmt wird und beim Erzeugen des korrigierten Textes das Original-Textfragment durch das Korrigier-Textfragment ersetzt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass, wenn sowohl im Originaltext (OT) als auch im Korrigiertext (KT) ein erstes gemeinsames Textfragment vor einem zweiten gemeinsamen Textfragment angeordnet ist, der im Korrigiertext (KT) zwischen dem ersten und dem zweiten gemeinsamen Textfragment befindliche Text als Korrigier-Textfragment bestimmt wird und der im Originaltext (OT) zwischen dem ersten und dem zweiten gemeinsamen Textfragment befindliche Text als Original-Textfragment bestimmt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass, wenn sowohl der Originaltext (OT) als auch der Korrigiertext (KT) genau ein gemeinsames Textfragment umfassen, wobei das gemeinsame Textfragment das erste Textfragment des Korrigiertextes (KT) ist, das Korrigier-Textfragment bestimmt wird als die geordnete Folge der Textfragmente im Korrigiertext (KT) zwischen dem gemeinsamen Textfragment und dem Ende des Korrigiertextes (KT), wenn ein „Ersetzen“-Modus des Spracherkennungssystems aktiviert ist, das Original-Textfragment bestimmt wird als die geordnete Folge der Textfragmente im Originaltext (OT) zwischen dem gemeinsamen Textfragment und einem darauf folgenden Textfragment, wobei das Korrigier-Textfragment und das Original-Textfragment genau die gleiche Anzahl Wörter umfassen, oder alternativ dazu, wenn ein „Abschneiden“-Modus des Spracherkennungssystems aktiviert ist, das Original-Textfragment bestimmt wird als die geordnete Folge der Textfragmente im Originaltext (OT) zwischen dem gemeinsamen Textfragment und dem Ende des Originaltextes (OT).
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass, wenn sowohl der Originaltext (OT) als auch der Korrigiertext (KT) genau ein gemeinsames Textfragment umfassen, wobei das gemeinsame Textfragment das letzte Textfragment des Korrigiertextes (KT) ist, das Korrigier-Textfragment bestimmt wird als die geordnete Folge der Textfragmente im Korrigiertext (KT) zwischen dem Anfang des Korrigiertextes (KT) und dem gemeinsamen Textfragment, wenn ein „Ersetzen“-Modus des Spracherkennungssystems aktiviert ist, das Original-Textfragment bestimmt wird als die geordnete Folge der Textfragmente im Originaltext (OT) zwischen dem gemeinsamen Textfragment und einem davor angeordneten Textfragment, wobei das Korrigier-Textfragment und das Original-Textfragment genau die gleiche Anzahl Wörter umfassen, oder alternativ dazu, wenn ein „Abschneiden“-Modus des Spracherkennungssystems aktiviert ist, das Original-Textfragment bestimmt wird als die geordnete Folge der Textfragmente im Originaltext (OT) zwischen dem Ende des Originaltextes (OT) und einem weiteren Textfragment, das um genau die Anzahl der Wörter des Korrigier-Textfragments vor dem gemeinsamen Textfragment angeordnet ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ferner unmittelbar vor der Korrigier-Spracheingabe eine Signal-Spracheingabe erfasst wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ferner unmittelbar vor der Korrigier-Spracheingabe die Betätigung eines Bedienelements erfasst wird.
Spracherkennungssystem, insbesondere in einem Fahrzeug (6), mit einer Spracherfassungseinheit (1), durch die eine Original-Spracheingabe und eine Korrigier-Spracheingabe eines Nutzers erfassbar sind, einer Spracherkennungseinheit (2), durch die anhand der Original-Spracheingabe ein Originaltext (OT) erzeugbar ist und anhand der Korrigier-Spracheingabe ein Korrigiertext (KT) erzeugbar ist, wobei der Originaltext (OT) und der Korrigiertext (KT) jeweils ein oder mehrere Textfragmente mit jeweils einem oder mehreren Wörtern umfassen, einer Korrektureinheit (3), durch die anhand des Originaltextes (OT) und des Korrigiertextes (KT) ein korrigierter Text (ET) erzeugbar ist, und einer Steuereinheit (4), durch die in Abhängigkeit von dem korrigierten Text (ET) ein Steuersignal ausgebbar ist, dadurch gekennzeichnet, dass durch die Korrektureinheit (3) anhand eines Vergleichs des Originaltextes (OT) mit dem Korrigiertext (KT) zumindest ein gemeinsames Textfragment bestimmbar ist, das sowohl von dem Originaltext (OT) als auch von dem Korrigiertext (KT) umfasst ist, und durch die Korrektureinheit (KT) anhand der Position des gemeinsamen Textfragments im Originaltext (OT) zumindest ein Original-Textfragment des Originaltextes (OT) bestimmbar ist und anhand der Position des gemeinsamen Textfragments im Korrigiertext (KT) zumindest ein Korrigier-Textfragment des Korrigiertextes (KT) bestimmbar ist und beim Erzeugen des korrigierten Textes (ET) das Original-Textfragment durch das Korrigier-Textfragment ersetzbar ist.
Spracherkennungssystem nach Anspruch 7, dadurch gekennzeichnet, dass das Spracherkennungssystem ferner ein Bedienelement (5) umfasst und eine Betätigung des Bedienelements (5) unmittelbar vor der Korrigier-Spracheingabe erfassbar ist.