-
Die Erfindung betrifft ein Sprachassistenzsystem zur sprachbasierten Unterstützung eines Nutzers gemäß dem Oberbegriff des Anspruchs 1. Die Erfindung betrifft ebenso ein Verfahren sowie ein Computerprogramm hierzu.
-
Es gibt viele verschiedene Formen einer Mensch-Maschine-Schnittstelle. Eine der intuitivsten Formen, eine Mensch-Maschine-Schnittstelle zu etablieren, ist die sprachbasierte Kommunikation zwischen Mensch und Maschine mittels eines Sprachassistenzsystems. Gattungsgemäß werden hierbei permanent die auditiv wahrnehmbaren Schallsignale durch eine auditive Sensorvorrichtung (Aufnahmeeinrichtung) erfasst und eine entsprechende Sprachakustik identifiziert. Mittels Spracherkennungsalgorithmen wird dann der sprachliche Inhalt der Sprachakustik extrahiert und basierend auf dem sprachlichen Inhalt dann eine Unterstützungsfunktion ausgewählt und durch das Assistenzsystem oder einer nachgelagerten (künstlichen) Vorrichtung ausgeführt.
-
Derartige Sprachassistenzsystem bieten somit natürlichen Personen die Möglichkeit, Eingaben an das Assistenzsystem mittels Sprache durchzuführen, wobei das Sprachassistenzsystem den sprachlichen Inhalt der gesprochenen Sprachakustik als Eingabe versteht und entsprechend reagiert. Derartige Reaktionen können beispielsweise wiederum Sprachausgaben sein, wenn die zuvor getätigte Eingabe als Sprachakustik eine Frage an das Assistenzsystem enthielt. Derartige Reaktionen können aber auch das Schalten von Aktoren oder das Durchführen von Berechnungen sein.
-
Dabei existieren derzeit zwei große Problemfelder. Zum einen müssen derartige Sprachassistenzsystem die in der Sprachakustik enthaltenen sprachlichen Inhalte prozesssicher erkennen können. Natürliche Sprache jedoch ist fehlerbehaftet und kann einen großen Interpretationsspielraum aufweisen. Meist nur unter Kenntnis eines konkreten Kontextes lässt sich dann mit hoher Wahrscheinlichkeit feststellen, was tatsächlich gemeint ist. Diesen sprachlichen Kontext maschinell zu erfassen, ist algorithmisch eine große Herausforderung und nicht selten ebenfalls fehlerbehaftet, da zur Ermittlung des sprachlichen Kontextes auch nonverbale Kanäle, wie beispielsweise prosodische Eigenschaften der Sprache, Mimik oder Gesten eine große Rolle spielen. Durch die immer weiter voranschreitende Leistungsfähigkeit moderner Computersysteme sowie den Entwicklungen im Bereich der KI konnte in den letzten Jahren eine signifikante Steigerung der Erkennungsrate von sprachlichen Inhalten einer natürlichen Sprachakustik erreicht werden, wodurch die sprachbasierte Mensch-Maschine-Schnittstelle in vielen Bereichen des alltäglichen Lebens Einzug erhalten hat.
-
Das zweite große Problemfeld besteht darin, dass ein Sprachassistenzsystem von sich aus feststellen muss, ob eine gesprochene Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht. Bei einer natürlichen Sprachkommunikation zwischen Menschen erfolgt eine solche Feststellung oftmals nur unter Kenntnis anderer Kommunikationskanäle, wie beispielsweise Blickkontakt, Mimik oder prosodischen Eigenschaften, was einem Sprachassistenzsystem derzeit verwehrt bleibt. Sprachassistenzsystem müssen demnach einzig und allein basierend auf der empfangenen und erkannten Sprachakustik feststellen, ob die Sprachakustik an das Sprachassistenzsystem gerichtet ist und demzufolge eine Reaktion erwartet wird oder nicht.
-
Es ist bekannt, das Sprachassistenzsysteme gewisse Schlüsselwörter bzw. Kommandowörter erkennen und anhand dieser Erkennung darauf schließen, dass die Sprachakustik bzw. die folgende Sprachakustik an sie gerichtet sind. Gerade im Bereich der Hausautomation finden sich eine Reihe von derartigen Sprachassistenzsystemen, die auf ganz spezielle Kommandowörter reagieren und dann entsprechend die Sprachakustik hinsichtlich der darin enthaltenen natürlichen Sprache analysieren und entsprechende Unterstützungsfunktionen daraufhin ausführen. So kann eine Sprachsteuerung realisiert werden, mit der sich beispielsweise die Beleuchtung oder andere Dinge im Haus steuern lassen.
-
Nachteilig hierbei ist jedoch, dass die Erkennung von Kommandowörtern fehleranfällig ist. Denn das Sprachassistenzsystem kann nicht unterscheiden, ob das gesprochene Kommandowort im Kontext der gesamten Sprachakustik dazu dient, das Sprachassistenzsystem zu bedienen oder ob das gesprochene Kommandowort im Kontext Teil einer Konversation zwischen zwei Personen ist. Es kann daher dazu führen, dass das Sprachassistenzsystem fälschlicherweise annimmt, die aufgenommene und erkannte Sprachakustik sei an das System gerichtet, obwohl die erkannte Sprachkommunikation Teil einer zwischenmenschlichen Sprachkommunikation ist und das Sprachassistenzsystem selber gar nicht gemeint ist. Dies ist deshalb problematisch, da das Sprachassistenzsystem grundsätzlich jedes auditiv wahrnehmbare Schallsignal empfängt und verarbeitet, um zur richtigen Zeit das an das Sprachkommunikationssystem gerichtete Kommando Wort auch erkennen zu können.
-
Andere Umstände hingegen, wie beispielsweise eine qualitativ schlechte Sprachqualität bzw. Aufnahmequalität, können hingegen dazu führen, dass das Sprachassistenzsystem trotz eines gesprochenen Kommandowortes die aufgenommene Sprachakustik nicht als an sich gerichtet erkennt und somit keine Funktion ausführt.
-
Ein gattungsgemäßes Sprachassistenzsystem ist aus der US 2016 / 0 077 792 A1 bekannt. Aus der
EP 3 312 831 A1 ist die Erkennung einer Aktivierungsphrase mit geringer Leistung bekannt. Weitere Verfahren zur Spracherkennung sind bekannt aus: SIEGERT, Ingo ; WEISSKIRCHEN, Norman ; WENDEMUTH, Andreas: Admitting the addressee-detection faultiness to improve the performance using a continous learning framework. In: 8. Interdisziplinärer Workshop Kognitive Systeme: Verstehen, Beschreiben und Gestalten Kognitiver (Technischer) Systeme, Abstractband 2019, Duisburg, 26.-28. März 2019, S. 38-39.
-
Es ist daher Aufgabe der vorliegenden Erfindung ein verbessertes Sprachassistenzsystem sowie Verfahren zur sprachbasierten Unterstützung anzugeben, mit dem sich die Erkennungsrate bezüglich des Ansprechverhaltens von Sprachassistenzsystemen erhöhen lässt.
-
Die Aufgabe wird mit dem Sprachassistenzsystem gemäß Anspruch 1 sowie dem Verfahren gemäß Anspruch 6 erfindungsgemäß gelöst. Vorteilhafte Ausgestaltungen der Erfindung finden sich in den entsprechenden Unteransprüchen.
-
Gemäß Anspruch 1 wird ein Sprachassistenzsystem zur sprachbasierten Unterstützung eines Nutzers vorgeschlagen, dass zunächst eine Aufnahmeeinrichtung hat, um auditiv wahrnehmbare Schallsignale aufnehmen zu können. Eine derartige Aufnahmeeinrichtung kann beispielsweise einen Schallsensor (Mikrofon) aufweisen, der ein auditiv wahrnehmbares Schallsignalen empfängt und in ein digitales Signal umwandelt.
-
Das Sprachassistenzsystem weist gattungsgemäß des Weiteren eine Erkennungseinrichtung auf, die beispielsweise mittels einer mikroprozessorgesteuerten Recheneinheit in den aufgenommenen auditiv wahrnehmbaren Schallsignalen eine Sprachakustik erkennt und daraus sprachbasierte Informationen extrahiert. Die Erkennungseinrichtung ist demzufolge so ausgebildet, dass sie eine Sprachanalyse durchführt und so beispielsweise anhand von Modellen aus der Sprachakustik die darin enthaltenen sprachbasierten Informationen extrahiert. Derartige sprachbasierte Informationen können neben den sprachlichen Inhalten (d. h. den gesprochenen Wörtern der in der Sprachakustik enthaltenen Sprachkommunikation) auch weitere sprachbasierte Informationen enthalten, wie beispielsweise prosodische Eigenschaften der Sprachakustik. Unter den prosodischen Eigenschaften werden dabei insbesondere ein jene Eigenschaften der Sprache im Sinne der vorliegenden Erfindung verstanden, die sich nicht auf die sprachlichen Inhalte, d. h. die gesprochenen Wörter, beziehen. Dies umfasst insbesondere Akzente, Tonsprache, Intonation, Quantität, Tempo, Rhythmus, Pausen beim Sprechen und dergleichen. Sprachbasierte Informationen, die aus den auditiv wahrnehmbaren Schallsignalen einer Sprachakustik extrahiert wurden, können somit insbesondere sprachliche Inhalte und/oder prosodische Eigenschaften der Sprachakustik bzw. der gesprochenen Inhalte enthalten.
-
Das Sprachassistenzsystem weist gattungsgemäß des Weiteren eine Aktivierungseinrichtung auf, die beispielsweise ebenfalls mittels einer mikroprozessorgesteuerten Recheneinheit basierend auf einem Sprachmodell in Abhängigkeit von den extrahierten sprachbasierten Informationen erkennt, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht. Die Aktivierungseinrichtung kann somit eine Aktivierungsabsicht in Abhängigkeit von den extrahierten sprachbasierten Informationen erkennen. Eine Aktivierungsabsicht meint hierbei, dass der Nutzer das Sprachassistenzsystem bewusst anspricht, um eine Sprachkommunikation aufzubauen.
-
Basierend auf dieser Erkennung, ob die Sprachakustik bzw. Sprachkommunikation an das Sprachassistenzsystem gerichtet war oder nicht, wird das Sprachassistenzsystem zur sprachbasierten Unterstützung aktiviert, nicht aktiviert oder wiederum deaktiviert. Wurde die Sprachakustik als an das Sprachassistenzsystem gerichtet erkannt, so wird demzufolge mittels der Aktivierungseinrichtung das Sprachassistenzsystem aktiviert bzw. in einem aktivierten Zustand versetzt. Wurde die Sprachakustik hingegen als an das Sprachassistenzsystem nicht gerichtet erkannt, so wird demzufolge mittels der Aktivierungseinrichtung das Sprachassistenzsystem nicht aktiviert oder gegebenenfalls deaktiviert (sofern es zuvor aktiviert war) bzw. in einem nicht aktivierten Zustand versetzt. Die Erkennungseinrichtung und die Aktivierungseinrichtung können dabei baulich eine Einheit darstellen.
-
Schließlich weist das Sprachassistenzsystem gattungsgemäß eine Assistenzeinrichtung auf, die eingerichtet ist, in Abhängigkeit von extrahierten sprachbasierten Informationen eine Unterstützungsfunktion auszuwählen und zur sprachbasierten Unterstützung des Nutzers auszuführen, sofern das Sprachassistenzsystem zuvor durch die Aktivierungseinrichtung aktiviert wurde.
-
Dies bedeutet, dass beispielsweise in einer Sprachakustik durch die Aktivierungseinrichtung ein Kommandowort erkannt wurde, was dazu führt, dass die Aktivierungseinrichtung das Sprachassistenzsystem in einem aktivierten Zustand versetzt und die weiterhin in der Sprachakustik enthaltenen sprachbasierten Informationen zur Auswahl der Unterstützungsfunktion verwendet. Dies ist in der Regel dann der Fall, wenn die Sprachakustik neben dem Kommandowort auch die Anweisung an das Sprachassistenzsystem enthält. Neben dem Kommandowort zur Erkennung einer Aktivierungsabsicht ist es alternativ oder zusätzlich aber auch möglich, dass basierend auf prosodischen Eigenschaften, die in den extrahierten sprachbasierten Informationen enthalten sind, eine Aktivierungsabsicht erkannt wird. Es wird somit anhand von prosodischen Eigenschaften festgestellt, ob die erfasste Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht.
-
Das Sprachassistenzsystem kann alternativ oder zusätzlich darüber hinaus auch eingerichtet sein, in einer ersten Sprachakustik das entsprechende Kommandowort zu erkennen, woraufhin das Sprachassistenzsystem durch die Aktivierungseinrichtung in den aktivierten Zustand versetzt wird, wobei in einer danach empfangenen und erkannten zweiten Sprachakustik dann die entsprechenden Anweisungen an das Sprachassistenzsystem enthalten sind, die dann zur Auswahl und Umsetzung der Unterstützungsfunktion verwendet werden. In diesem Fall sind das Kommandowort und die Anweisungen an das Sprachassistenzsystem in jeweils voneinander verschiedenen Sprachakustiken enthalten. Nach der ersten Sprachakustik, die von dem Sprachassistenzsystem empfangen wurde, kann das Sprachassistenzsystem gegebenenfalls eine Bestätigung in sprachlicher Form an den Nutzer ausgeben, um den Nutzer darüber zu informieren, dass das Sprachassistenzsystem nunmehr auf die an das Sprachassistenzsystem gerichtet und Anweisungen wartet. Das Sprachassistenzsystem befindet sich demnach nach der ersten Sprachakustik für einen gewissen Zeitraum in einem aktivierten Zustand und erwartet demnach eine zweite Sprachakustik.
-
Darüber hinaus kann das Sprachassistenzsystem alternativ oder zusätzlich auch eingerichtet sein, mittels der Aktivierungseinrichtung anhand von prosodischen Eigenschaften der erkannten Sprachakustik zu erkennen, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht.
-
Ein solches gattungsgemäßes Sprachassistenzsystem wird nun dahingehend erfindungsgemäß weitergebildet, dass in einem digitalen Datenspeicher eine erste Sprachakustik und/oder die aus der ersten Sprachakustik extrahierten sprachbasierten Informationen hinterlegt werden und dass eine Adaptionseinrichtung vorgesehen ist, die eingerichtet ist, das Sprachmodell in Abhängigkeit von der zuvor in dem Datenspeicher hinterlegten ersten Sprachakustik und/oder den aus der ersten Sprachakustik extrahierten sprachbasierten Informationen anzupassen, wenn bei der ersten Sprachakustik eine Unsicherheit und/oder Fehlerhaftigkeit darüber bestand, ob die erste Sprachakustik an das Sprachassistenzsystem gerichtet war oder nicht, und diese Unsicherheit und/oder Fehlerhaftigkeit durch eine auf die erste Sprachakustik zeitlich nachfolgende erkannte oder durch erkanntes Ausbleiben einer entsprechenden zweite Sprachakustik ausgeräumt wird.
-
Es wird somit die erste Sprachakustik bzw. die aus der ersten Sprachakustik extrahierten sprachbasierten Informationen dazu verwendet, um das Sprachmodell anzupassen, wenn eine entsprechende Unsicherheit und/oder Fehlerhaftigkeit darüber erkannt wurde, ob die erste Sprachakustik an das Sprachassistenzsystem gerichtet war oder nicht. Diese Unsicherheit und/oder Fehlerhaftigkeit wird dabei durch eine auf die erste Sprachakustik folgende zweite Sprachakustik oder dem Ausbleiben einer solchen zweiten Sprachakustik erkannt.
-
Eine Unsicherheit darüber, ob eine erste Sprachakustik an das Sprachassistenzsystem gerichtet war oder nicht, tritt in der Regel immer dann auf, wenn die Aktivierungseinrichtung nicht mit hinreichender Sicherheit erkennen kann, ob die Sprachakustik nun anders Sprachassistenzsystem gerichtet war oder nicht. Diese hinreichende Sicherheit wird beispielsweise über einen Schwellwert (beispielsweise einen prozentualen Schwellwert oder einem Schwellwert zwischen 0 und 1) abgebildet. Das System kann dabei die Erkennung der Aktivierungsabsicht in mindestens drei Bereiche unterteilen. Der erste Bereich wird immer dann verwendet, wenn keine Unsicherheit über eine Aktivierungsabsicht besteht. Der zweite Bereich wird immer dann verwendet, wenn das System unsicher darüber ist, ob eine Aktivierungsabsicht vom Nutzer vorlag oder nicht (es liegt eine Unsicherheit vor). Der dritte Bereich wird immer dann verwendet, wenn das System mit Sicherheit erkennen kann, dass eine Aktivierungsabsicht nicht vorliegt. Unsicherheit ist Systemsicht.
-
So kann ein erster Schwellwert angeben, dass die Sprachakustik mit hinreichender Sicherheit an das Sprachassistenzsystem gerichtet ist. Ein zweiter Schwellwert kann gegenüber dessen angeben, dass die Sprachakustik mit hinreichender Sicherheit nicht an das Sprachassistenzsystem gerichtet ist. Wird weder der erste noch der zweite Schwellwert überschritten, kann das Sprachassistenzsystem nicht mit hinreichender Sicherheit annehmen, dass die Sprachakustik an das Sprachassistenzsystem gerichtet ist oder eben gerade nicht an das Sprachassistenzsystem gerichtet ist. In den meisten Fällen erfolgt bei einer Unsicherheit in der Regel keine Aktivierung.
-
Ein solcher Schwellenwert bzw. die mehreren Schwellenwerte können dabei Bestandteil des Sprachmodells sein, auf deren Basis entschieden wird, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht. So kann die Anpassung des Sprachmodells beispielsweise dadurch erfolgen, dass die Werte der Schwellenwerte des Sprachmodells entsprechend verändert werden, um so eine verbesserte Entscheidungsgrundlage zu generieren.
-
Eine Fehlerhaftigkeit besteht dann, wenn die Aktivierungseinrichtung das Sprachassistenzsystem aktiviert hat, obwohl die Sprachakustik nicht an das Sprachassistenzsystem gerichtet war oder wenn die Aktivierungseinrichtung das Sprachassistenzsystem nicht aktiviert hat oder deaktiviert hat, obwohl die Sprachakustik definitiv an das Sprachassistenzsystem gerichtet war. Dies kann beispielsweise durch den Inhalt der zweiten Sprachakustik erkannt werden oder dadurch, dass eine auf die erste Sprachakustik folgende zweite Sprachakustik ausbleibt und somit dieses Ausbleiben einer zweiten Sprachakustik erkannt wird. Fehlerhaftigkeit ist Nutzersicht.
-
Die Tatsache, ob eine Unsicherheit oder Fehlerhaftigkeit vorlag, kann meist durch wenigstens eine zweite Sprachakustik erkannt und gegebenenfalls ausgeräumt werden. In diesem Fall werden jedoch die zuvor in dem digitalen Datenspeicher hinterlegten extrahierten sprachbasierten Informationen der ersten Sprachakustik dazu verwendet, das Sprachmodell zur Erkennung, ob die Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht, dahingehend anzupassen, dass es zukünftig derartige Unsicherheiten und/oder Fehlerhaftigkeit und bei der Erkennung der Ansprache des Assistenzsystems vermeidet bzw. die Unsicherheitsrate und/oder Fehlerrate verringert.
-
Es hat sich gezeigt, dass eine solche nachträgliche Anpassung des Sprachmodells bei einer bestehenden Unsicherheit oder Fehlerhaftigkeit, ob das Sprachassistenzsystem durch eine Sprachakustik angesprochen wurden ist oder nicht, basierend auf derjenigen Sprachakustik, die fehlerhaft oder und sicher erkannt wurde, zu einem verbesserten Aktivierungsverhalten des Sprachassistenzsystems führt, sodass die Akzeptanz derartiger Sprachassistenzsystem deutlich gesteigert werden kann.
-
Gemäß der Erfindung ist vorgesehen, dass das Sprachassistenzsystem eingerichtet ist, mittels der Adaptionseinrichtung das Sprachmodell in Abhängigkeit von der zuvor hinterlegten ersten Sprachakustik und/oder den aus der ersten Sprachakustik extrahierten sprachbasierten Informationen anzupassen, wenn innerhalb eines gewissen Zeitraumes nach der ersten Sprachakustik die zweite Sprachakustik erkannt oder innerhalb des gewissen Zeitraumes das Ausbleiben der zweiten Sprachakustik erkannt wird.
-
Demnach sollte die zweite Sprachakustik innerhalb eines gewissen Zeitraumes nach dem Empfang bzw. dem Erkennen der ersten Sprachakustik empfangen bzw. erkannt werden, um aufgrund des zeitlichen Bezuges einen kontextuellen Zusammenhang beider Sprachakustiken herzustellen. Die erste Sprachakustik bzw. die aus der ersten Sprachakustik extrahierten sprachbasierten Informationen, wie beispielsweise prosodische Eigenschaften oder sprachbasierte Informationen, werden dann zur Anpassung des Sprachmodells verwendet, dann diesem Fall davon ausgegangen werden kann, dass die erste Sprachakustik und die zweite Sprachakustik in einem kontextuellen Zusammenhang stehen und somit zusammengehören.
-
Dabei kann es auch vorgesehen sein, dass innerhalb des gewissen Zeitraumes keine weitere zweite Sprachakustik erkannt wird (das Ausbleiben einer folgenden zweiten Sprachakustik wird erkannt), sodass davon auszugehen ist, dass die Erkennung der ersten Sprachakustik fehlerhaft war. Dies ist meist dann der Fall, wenn die erste Sprachakustik fehlerhafterweise als an das Sprachassistenzsystem gerichtet erkannt wurde, was von dem Sprecher jedoch nicht beabsichtigt war. Der Sprecher bleibt nun für den gewissen Zeitraum stumm und erzeugt keine weitere Sprachakustik, sodass das Sprachassistenzsystem nunmehr annimmt, dass die ursprüngliche erste Sprachakustik nicht an das Sprachassistenzsystem gerichtet war. In diesem Fall wird ebenfalls die erste Sprachakustik bzw. die aus der ersten Sprachakustik extrahierten sprachbasierten Informationen zur Anpassung des Sprachmodells verwendet.
-
Gemäß der Erfindung ist vorgesehen, dass das Sprachassistenzsystem eingerichtet ist, den gewissen Zeitraum in Abhängigkeit von mindestens einem akustischen Qualitätskriterium der ersten Sprachakustik festzulegen oder zu variieren. Solche akustischen Qualitätskriterien können beispielsweise das Signal-Rausch-Verhältnis bzw. der Signal-Rausch-Abstand, schon erfolgte Fehlaktivierungen, Anzahl der Sprecher, etc. sein.
-
Dabei ist es denkbar, dass an diesen gewissen Zeitraum, der beispielsweise wenige Sekunden betragen kann (vorzugsweise weniger als 10 Sekunden, sonders vorzugsweise weniger als 5 Sekunden), auch die Speicherdauer der ersten Sprachakustik bzw. der aus der ersten Sprachakustik extrahierten sprachbasierten Informationen gekoppelt ist, sodass nach einer gewissen Zeit diese Informationen aus dem digitalen Datenspeicher wieder gelöscht werden.
-
Gemäß einer Ausführungsform ist vorgesehen, dass die Erkennungseinrichtung eingerichtet ist, prosodische Eigenschaften der ersten Sprachakustik als Teil der sprachbasierten Informationen aus der ersten Sprachakustik zu extrahieren, die Aktivierungseinrichtung eingerichtet ist, basierend auf dem Sprachmodell in Abhängigkeit von den in den extrahierten sprachbasierten Informationen enthaltenen prosodischen Eigenschaften der ersten Sprachakustik zu erkennen, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht, und die Adaptionseinrichtung eingerichtet ist, das Sprachmodell hinsichtlich der prosodischen Erkennung in Abhängigkeit von der zuvor in dem Datenspeicher hinterlegten ersten Sprachakustik, den aus der ersten Sprachakustik extrahierten sprachbasierten Informationen und/oder den in den extrahierten sprachbasierten Informationen enthaltenen prosodischen Eigenschaften der ersten Sprachakustik anzupassen.
-
In dieser Ausführungsform wird das Sprachmodell hinsichtlich der prosodischen Erkennung, ob die Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht, angepasst, sodass zukünftig die Erkennungsrate verbessert und die Unsicherheitsrate bzw. Fehlerrate verringert werden kann.
-
Gemäß einer Ausführungsform ist vorgesehen, dass die Erkennungseinrichtung eingerichtet ist, sprachliche Inhalte der ersten Sprachakustik als Teil der sprachbasierten Informationen aus der ersten Sprachakustik zu extrahieren, die Aktivierungseinrichtung eingerichtet ist, basierend auf dem Sprachmodell in Abhängigkeit von den in den extrahierten sprachbasierten Informationen enthaltenen sprachlichen Inhalten zu erkennen, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht, und die Adaptionseinrichtung eingerichtet ist, das Sprachmodell hinsichtlich der Erkennung von sprachlichen Inhalten in Abhängigkeit von der zuvor in dem Datenspeicher hinterlegten ersten Sprachakustik, den aus der ersten Sprachakustik extrahierten sprachbasierten Informationen und/oder den in den extrahierten sprachbasierten Informationen enthaltenen sprachlichen Inhalten der ersten Sprachakustik anzupassen.
-
In dieser Ausführungsform wird das Sprachmodell hinsichtlich der sprachbasierten Informationen angepasst, sodass beispielsweise Aktivierungsabsichten (bspw. Kommandowörter, prosodische Eigenschaften der Sprachakustik) zukünftig besser erkannt werden können.
-
Gemäß einer Ausführungsform ist vorgesehen, dass die Aktivierungseinrichtung eingerichtet ist, bei einer Unsicherheit darüber, ob die erkannte Sprachakustik als an das Sprachassistenzsystem gerichtet oder nicht erkannt werden soll (d.h. ob eine Aktivierungsabsicht vorliegt oder nicht), eine optische, haptische, olfaktorische und/oder akustische System rückfrage zu generieren und mittels einer Ausgabeeinrichtung des Sprachassistenzsystems auszugeben. Die System rückfrage kann eine akustische System rückfrage, bspw. eine Sprachausgabe in Form einer Sprachakustik sein, wobei die Sprachausgabe eine Nachfrage in Bezug auf die erkannte Sprachakustik an den Nutzer enthält.
-
In dieser Ausführungsform wird das Sprachassistenzsystem bei einer erkannten Unsicherheit zunächst eine System rückfrage generieren, die eine optische, haptische, olfaktorische und/oder akustische Nachfrage in Bezug auf die erkannte erste Sprachakustik enthält. Das Assistenzsystem fragt demnach den sprechenden Nutzer an, was gemeint ist bzw. ob die Sprachakustik an das Assistenzsystem tatsächlich gerichtet war oder nicht.
-
Gemäß einer Ausführungsform ist vorgesehen, dass das Sprachmodell ein auf einem maschinellen Lernsystem basierendes gelerntes Sprachmodell ist.
-
Die Aufgabe wird im Übrigen auch mit dem Verfahren zur sprachbasierten Unterstützung eines Nutzers gemäß Anspruch 6 gelöst. Dies beinhaltet, dass mittels einer Aufnahmeeinrichtung auditiv wahrnehmbare Schallsignale aufgenommen werden, mittels einer Erkennungseinrichtung in den aufgenommenen, auditiv wahrnehmbaren Schallsignalen eine Sprachakustik erkannt und, sofern eine Sprachakustik erkannt wurde, sprachbasierte Informationen aus der erkannten Sprachakustik extrahiert werden, mittels einer Aktivierungseinrichtung basierend auf einem Sprachmodell in Abhängigkeit von den extrahierten sprachbasierten Informationen erkannt wird, ob die erkannte Sprachakustik an das Sprachassistenzsystem gerichtet ist oder nicht, wobei das Sprachassistenzsystem zur sprachbasierten Unterstützung aktivieren wird, wenn die Sprachakustik als an das Sprachassistenzsystem gerichtet erkannt wurde, und/oder nicht aktiviert wird, wenn die Sprachakustik nicht als an das Sprachassistenzsystem gerichtet erkannt wurde, und indem mittels einer Assistenzeinrichtung in Abhängigkeit von extrahierten sprachbasierten Informationen eine Unterstützungsfunktion ausgewählt und zur sprachbasierten Unterstützung des Nutzers ausgeführt wird, wenn das Sprachassistenzsystem zuvor aktiviert wurde, wobei dass in einem digitalen Datenspeicher eine erste Sprachakustik und/oder die aus der ersten Sprachakustik extrahierten sprachbasierten Informationen hinterlegt werden, und dass mittels einer Adaptionseinrichtung das Sprachmodell in Abhängigkeit von der zuvor in dem Datenspeicher hinterlegten ersten Sprachakustik und/oder den aus der ersten Sprachakustik extrahierten sprachbasierten Informationen angepasst wird, wenn bei der ersten Sprachakustik eine Unsicherheit und/oder Fehlerhaftigkeit darüber bestand, ob die erste Sprachakustik an das Sprachassistenzsystem gerichtet war oder nicht, und diese Unsicherheit und/oder Fehlerhaftigkeit durch eine auf die erste Sprachakustik zeitlich nachfolgende erkannte zweite Sprachakustik oder durch erkanntes Ausbleiben einer entsprechenden zweite Sprachakustik ausgeräumt wird.
-
Vorteilhafte Ausgestaltungen des Verfahrens finden sich in den Unteransprüchen.
-
Die Erfindung wird anhand der beigefügten Figuren beispielhaft näher erläutert. Es zeigt:
- 1 schematische Darstellung des erfindungsgemäßen Sprachassistenzsystems.
-
1 zeigt in einer schematisch vereinfachten Darstellung ein Sprachassistenzsystem 10, dass mittels einer Aufnahmeeinrichtung 11 zum Aufnehmen von auditiv wahrnehmbaren Schallsignalen ausgebildet ist. Eine solche Aufnahmeeinrichtung 11 kann dabei beispielsweise ein Mikrofon 12 aufweisen, mit der die Schallsignale erfasst und anschließend mittels einer Wandlereinheit in ein digitales Signal umgewandelt werden.
-
Eine Erkennungseinrichtung 13 erhält nun diese in digitaler Form vorliegenden Schallsignale als Eingang und ist eingerichtet, basierend auf den auditiv wahrnehmbaren Schallsignalen eine darin enthaltene Sprachakustik A, B zu erkennen. Die Erkennungseinrichtung 13 ist somit ausgebildet, in einem ersten Schritt zu identifizieren, ob in dem aufgenommenen Schallsignal und Sprachakustik A, B enthalten ist oder nicht.
-
Hat die Erkennungseinrichtung 13 erkannt, dass in den auditiv wahrnehmbaren Schallsignalen eine Sprachakustik A, B enthalten ist, so ist die Erkennungseinrichtung 13 des Weiteren ausgebildet, sprachbasierte Informationen aus der erkannten Sprachakustik A, B in an sich bekannter Weise zu extrahieren. Derartige sprachbasierte Informationen können dabei prosodische Eigenschaften der Sprachakustik A, B enthalten. Die sprachbasierten Informationen enthalten darüber hinaus aber auch sprachliche Inhalte der Sprachakustik A, B, d. h. jene Wörter und Sätze, die von einem Nutzer 100 zuvor gesprochen wurden.
-
Im Ausführungsbeispiel der 1 hat ein Nutzer 100 eine erste Sprachakustik A und eine zweite Sprachakustik B erzeugt, indem der Nutzer 100 bestimmte Wörter oder Sätze ausgesprochen hat. Die erste Sprachakustik A wurde dabei zu einem ersten Zeitpunkt t ausgesprochen, während die zweite Sprachakustik B zu einem darauffolgenden zweiten Zeitpunkt t+1 ausgesprochen wurde. Zwischen dem ersten Zeitpunkt und dem zweiten Zeitpunkt liegt dabei ein gewisser Zeitraum, der einen kontextuellen Zusammenhang beider Sprachakustiken A und B nahelegt.
-
Die Erkennungseinrichtung 13 hat dabei Zugriff auf einem Datenspeicher, auf dem ein Sprachmodell 14 hinterlegt ist. Basierend auf diesem Sprachmodell 14 ist die Erkennungseinrichtung 13 in der Lage, zu erkennen, ob in den auditiv wahrnehmbaren Schallsignalen eine Sprachakustik A, B erkannt wurde und darüber hinaus in der Lage, die sprachbasierten Informationen aus der erkannten Sprachakustik A, B zu extrahieren.
-
Die sprachbasierten Informationen werden dann an eine Aktivierungseinrichtung 15 übermittelt, die ebenfalls Zugriff auf das Sprachmodell 14 hat und basierend darauf eingerichtet ist zu erkennen, ob die erkannte Sprachakustik A, B an das Sprachassistenzsystem 10 gerichtet ist oder nicht.
-
So kann die erste Sprachakustik A dergestalt sein, dass in der Sprachakustik A ein Kommandoworte und/oder eine prosodische Eigenschaft enthalten ist, wodurch anzeigt wird, dass die erste Sprachakustik A oder die zweite Sprachakustik B an das Sprachassistenzsystem 10 gerichtet ist (erste Sprachakustik A und zweite Sprachakustik B können zeitlich in einem Zusammenhang gesprochen sein oder zeitlich nacheinander versetzt, um eine Reaktion des Systems zwischen der ersten Sprachakustik A und zweiten Sprachakustik B abzuwarten). Durch die Erkennungseinrichtung 13 wurde dabei erkannt, dass in der Sprachakustik A ein Kommandowort und/oder eine prosodische Eigenschaft enthalten sind sowie ggf. welches Wort bzw. welcher Satz enthalten ist bzw. was durch die prosodische Eigenschaft ausgedrückt werden soll, was in den sprachbasierten Informationen hinterlegt wird. Somit können durch die Erkennungseinrichtung 13 weiterhin auch prosodische Eigenschaften aus der Sprachakustik ermittelt und somit Teil der sprachbasierten Informationen sein, die durch die Erkennungseinrichtung 13 generiert werden.
-
In der Aktivierungseinrichtung 15 wird nun basierend auf dem Sprachmodell 14 festgestellt, ob in den sprachbasierten Informationen ein Kommandowort und/oder eine prosodische Eigenschaft enthalten ist, was darauf hindeutet, dass die erste Sprachakustik A oder die darauf folgende zweite Sprachakustik B an das Sprachassistenzsystem 10 gerichtet ist. Die Aktivierungseinrichtung 15 kann basierend auf dem Sprachmodell 14 auch feststellen, ob anhand der prosodischen Eigenschaften der Sprachakustik A, die in den sprachbasierten Informationen hinterlegt sind, eine Sprachkommunikation mit dem Sprachassistenzsystem 10 aufgebaut werden soll. Dabei ist es denkbar, dass nur anhand von prosodischen Eigenschaften der ersten Sprachakustik A eine Aktivierungsabsicht festgestellt wird.
-
Wird durch die Aktivierungseinrichtung 15 erkannt, dass die Sprachakustik A dergestalt ist, dass eine Sprachkommunikation mit dem Sprachassistenzsystem 10 aufgebaut werden soll somit die Sprachakustik A und/oder B an das Sprachassistenzsystem 10 gerichtet ist, so aktiviert die Aktivierungseinrichtung 15 das Sprachassistenzsystem 10, wodurch die Weiterverarbeitung durch eine Assistenzeinrichtung 16 erfolgt.
-
Die Assistenzeinrichtung 16 wählt dabei in Abhängigkeit von sprachbasierten Informationen eine Unterstützungsfunktion aus und führt diese aus, wenn das Sprachassistenzsystem 10 zuvor aktiviert wurde. Wurde das Sprachassistenzsystem 10 zuvor durch die Aktivierungseinrichtung 15 nicht aktiviert oder bestand eine Unsicherheit darüber, ob die Sprachkommunikation an das Sprachassistenzsystem 10 gerichtet war, so passiert nichts. Dabei kann bei einer Unsicherheit über die Aktivierungsabsicht des Nutzers von System vorab eine Systemrückfrage generiert werden, um beim Nutzer nachzufragen, ob eine Aktivierung gewünscht ist oder nicht, d.h. ob zumindest die erste Sprachakustik eine Aktivierungsabsicht beinhaltete oder nicht.
-
Die zuvor empfangene erste Sprachakustik A wird dabei in einem Zwischenspeicher 17 für mindestens einen Zeitraum zwischen gespeichert, der geeignet ist, eine weitere Sprachakustik B zu empfangen, die kontextuellen zu der ersten Sprachakustik A gehört.
-
Wurde nach dem Empfang einer zweiten Sprachakustik B, die ebenfalls durch die Erkennungseinrichtung 13 und die Aktivierungseinrichtung 15 gelaufen ist, festgestellt, dass eine Unsicherheit und/oder Fehlerhaftigkeit darüber bestand, ob die erste Sprachakustik A an das Sprachassistenzsystem gerichtet war oder nicht, so wird mithilfe einer Adaptionseinrichtung 18 das Sprachmodell 14 basierend auf der zwischengespeicherten ersten Sprachakustik A angepasst und optimiert, um zukünftig derartige Unsicherheiten und/oder Fehlerhaftigkeiten zu vermeiden. Durch die Anpassung des Sprachmodells wird dabei nicht nur die Aktivierungseinrichtung 15 verbessert, sondern auch die Arbeitsweise der Erkennungseinrichtung 13. Die Anpassung des Sprachmodells kann dabei derart erfolgen, dass Parameter eines gelernten Modells angepasst werden, oder dass Schwellwerte zur Entscheidung, ob die Sprachakustik an das Sprachassistenzsystem 10 gerichtet ist oder nicht, angepasst werden.
-
Bei der Anpassung des Sprachmodells 14 können dabei verschiedene Fälle unterschieden werden.
-
1. Fall: Fehlerhafte Aktivierung
-
Im ersten Fall, der hier betrachtet wird, ist die erste Sprachakustik A nicht an das Sprachassistenzsystem gerichtet und beispielsweise Teil einer zwischenmenschlichen Sprachkommunikation. Die Aktivierungseinrichtung 15 erkennt jedoch fälschlicherweise, dass die Sprachakustik A an das Sprachassistenzsystem gerichtet ist, wodurch eine Aktivierung des Sprachassistenzsystems 10 erfolgt.
-
In der zweiten Sprachakustik B, die auf die erste Sprachakustik A innerhalb eines gewissen Zeitraums folgt, hat der Nutzer sprachlich signalisiert, dass die vorherige erste Sprachakustik A nicht an das Sprachassistenzsystem 10 gerichtet war. Dies kann beispielsweise durch Schlüsselwörter wie „Stopp“ oder „Abbruch“ erfolgen, die in der zweiten Sprachakustik B enthalten sind.
-
Die Aktivierungseinrichtung 15 erkennt basierend auf der zweiten Sprachakustik B nun, dass die vorherige Aktivierung des Sprachassistenzsystems 10 basierend auf der ersten Sprachakustik A fehlerhaft war und deaktiviert Sprachassistenzsystem 10 entsprechend. Außerdem wird mithilfe der Adaptionseinrichtung 18 und der zuvor gespeicherten Sprachakustik A bzw. der aus der Sprachakustik A extrahierten sprachbasierten Informationen das Sprachmodell 14, auf deren Basis sowohl die Erkennung der sprachbasierten Informationen als auch die Aktivierung des Sprachassistenzsystems 10 erfolgt, angepasst.
-
Das Erkennen, dass die Aktivierung basierend auf der ersten Sprachakustik A fehlerhaft war, kann auch dadurch erfolgen, dass innerhalb des zuvor erwähnten gewissen Zeitraumes gerade keine weitere zweite Sprachakustik B empfangen wurde, wodurch das Sprachassistenzsystem ebenfalls erkennt, dass die erste Sprachakustik an nicht einer Sprachassistenzsystem gerichtet war (warten auf einen „time out“).
-
2. Fall: Fehlerhafte Nicht-Aktivierung
-
Im zweiten Fall ist in der Sprachakustik A eine sprachliche oder prosodische Information enthalten, die signalisieren soll, dass die Sprachakustik A oder eine nachfolgende Sprachakustik B an das Sprachassistenzsystem 10 gerichtet ist. Dies kann beispielsweise dadurch erfolgen, dass der Sprachakustik A ein Kommandowort wie beispielsweise „Hallo“ oder dergleichen enthalten ist, was durch die Erkennungseinrichtung 13 identifiziert und durch die Aktivierungseinrichtung 15 dahingehend interpretiert werden soll, dass die Sprachakustik A oder die in einem gewissen Zeitraum nachfolgenden Sprachakustiken B an das Sprachassistenzsystem 10 gerichtet ist.
-
Im Fall der fehlerhaften Nicht-Aktivierung wird jedoch durch die Aktivierungseinrichtung 15 fälschlicherweise das Sprachassistenzsystem nicht aktiviert, obwohl die Sprachakustik A als an das Sprachassistenzsystem 10 gerichtet vorgesehen ist. Mit anderen Worten, das Sprachassistenzsystem 10 wird nicht aktiviert, obwohl der zur 100 das Sprachassistenzsystem 10 anspricht und eine Sprachkommunikation mit diesem aufbauen wollte bzw. möchte.
-
Diese Nicht-Aktivierung basierend auf der ersten Sprachakustik A wird dann durch eine weitere nachfolgende Sprachakustik B erkannt. Dies kann dadurch erfolgen, dass nunmehr in der zweiten Sprachakustik B festgestellt wird, dass das Sprachassistenzsystem 10 aktiviert werden soll, wobei die zweite Sprachakustik B innerhalb eines gewissen Zeitraumes nach der ersten Sprachakustik A erkannt wurde. Durch den engen zeitlichen Zusammenhang der ersten Sprachakustik A und der zweiten Sprachakustik B wird ein kontextueller Zusammenhang hergestellt und angenommen, dass die erste Sprachakustik A bereits eine Aktivierung des Sprachassistenzsystems 10 beinhaltet hat.
-
Nachdem nun durch die nachfolgende zweite Sprachakustik B festgestellt wurde, dass bereits die erste Sprachakustik A zu einer Aktivierung des Sprachassistenzsystems 10 führen sollte, wird mithilfe der zwischengespeicherten ersten Sprachakustik Art nunmehr das Sprachmodell 14 angepasst.
-
3. Fall: Unsichere Aktivierung oder Nicht-Aktivierung
-
Im dritten Fall kann das Sprachassistenzsystem 10, genauer gesagt die Aktivierungseinrichtung 15, nicht mit hinreichender Sicherheit feststellen, ob basierend auf der ersten Sprachakustik A eine Aktivierung oder Nicht-Aktivierung erfolgen soll. Eine solche Unsicherheit entsteht immer dann, wenn die für eine hinreichende sichere Feststellung einer Aktivierung oder Nicht-Aktivierung vorgesehenen Schwellwerte nicht überschritten wurden und sich beispielsweise innerhalb eines und Sicherheitsbereiches befinden.
-
Wird diese Unsicherheit durch eine nachfolgende zweite Sprachakustik B ausgeräumt bzw. wird die vorherige unsichere Entscheidung über die Aktivierung oder Nicht-Aktivierung durch die zweite Sprachakustik B bestätigt, so wird ebenfalls das Sprachmodell 14 durch die Adaptionseinrichtung 18 entsprechend angepasst.
-
So ist es beispielsweise denkbar, dass in der ersten Sprachakustik A eine Information enthalten ist, die kennzeichnet, dass die Sprachakustik A bzw. die nachfolgende Sprachakustik B an das Sprachassistenzsystem 10 gerichtet ist. Allerdings kann nicht mit hinreichender Sicherheit darauf geschlossen werden. Trotz der verbleibenden Unsicherheit wird basierend auf den Aktivierungsinformationen darauf geschlossen, dass das Sprachassistenzsystem 10 zu aktivieren ist. Gegebenenfalls kann das Sprachassistenzsystem 10 auch so eingerichtet sein, dass hier durch eine Sprachausgabe an den Nutzer 100 nachgefragt wird, ob die Sprachakustik A tatsächlich an das Sprachassistenzsystem 10 gerichtet war.
-
Wird durch eine im zeitlichen Zusammenhang stehende zweite Sprachakustik B nunmehr eindeutig festgestellt, dass die erste Sprachakustik A bereits an das Sprachassistenzsystem 10 gerichtet war, was beispielsweise dadurch erkannt werden kann, dass in der Sprachakustik B zweifelsfrei eine Anweisung an das Sprachassistenzsystem 10 enthalten ist, so wird das Sprachmodell 14 entsprechend zur Ausräumung von Unsicherheiten basierend auf der ersten Sprachakustik A oder den daraus extrahierten sprachbasierten Informationen angepasst.
-
Denkbar ist aber auch der umgekehrte Fall, dass eine Unsicherheit darüber besteht, ob in der ersten Sprachakustik A eine Nicht-Aktivierung enthalten ist, dass durch eine nachfolgende zweite Sprachakustik B ausgeräumt werden kann.
-
Bezugszeichenliste
-
- 10
- Sprachassistenzsystem
- 11
- Aufnahmeeinrichtung
- 12
- Mikrofon
- 13
- Erkennungseinrichtung
- 14
- Sprachmodell
- 15
- Aktivierungseinrichtung
- 16
- Assistenzeinrichtung
- 17
- digitaler Datenspeicher
- 18
- Adaptionseinrichtung
- 100
- Nutzer
- A
- erste Sprachakustik
- B
- zweite Sprachakustik